Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Αποθήκες εδοµένων Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db "Πυραµίδα" Επιχειρηµατικής Ευφυίας (Business Intelligence BI) Making Decisions End User Data Presentation Visualization Techniques Data Mining Information Discovery Business Analyst Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA 2 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 1
Αποθήκες εδοµένων Ορισµός (κατά W. Inmon): Οι Αποθήκες εδοµένων (data warehouses) αποτελούν day month quarter year desc div div desc quantity turnover description type type description state city θεµατο-κεντρικά (subject-oriented), συγκεντρωµένα (integrated), µε χρονική διάσταση (time-variable), µη ευµετάβλητα (non-volatile) συστήµατα διαχείρισης πληροφοριακών δεδοµένων για την υποστήριξη των διαδικασιών λήψης αποφάσεων Πληροφοριακά δεδοµένα: υποστηρίζουν άλλες (πέρα των καθηµερινών) λειτουργίες της επιχείρησης, όπως σχεδιασµό και πρόβλεψη. 3 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Περισσότερα για τον ορισµό τωνα Θεµατο-κεντρικά: Οργανώνονται γύρω από συγκεκριµένα θέµατα, όπως πελάτες, προϊόντα, πωλήσεις. εν συµπεριλαµβάνουν πλευρές (δεδοµένα) των θεµάτων που δεν συνεισφέρουν στη διαδικασία λήψης αποφάσεων Συγκεντρωµένα:... Κατασκευάζονται µε συγκέντρωση πολλαπλών, πιθανώς ετερογενών πηγών δεδοµένων (σχεσιακές Β, αρχεία κ.α.) Εφαρµόζονται τεχνικές καθαρισµού και ολοκλήρωσης δεδοµένων (για την εξασφάλιση συνέπειας) 4 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 2
Περισσότερα για τον ορισµό τωνα Με χρονική διάσταση: Ο χρονικός ορίζοντας στις Α είναι ευρύτερος αυτού των Β (ιστορική πληροφορία π.χ. γιατατελευταία5-10 έτη) Η έννοια του χρόνου είναι αναπόσπαστο τµήµα µιας Α Μη ευµετάβλητα: Οι Α αποθηκεύονται ξεχωριστά από τις (επιχειρησιακές) Β. εν υπάρχει η έννοια της τροποποίησης δεδοµένων (άρα δεν υπάρχουν θέµατα επεξεργασίας συναλλαγών, ανάνηψης, ελέγχου συνδροµικότητας). Υπάρχει µόνο η λειτουργία φόρτωσης δεδοµένων είτε πλήρως (full loading) είτε αυξητικά (incremental loading) 5 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Αρχιτεκτονική Α other sources Metadata Monitor & Integrator OLAP Server Operational DBs Extract Transform Load Refresh Data Warehouse Serve Analysis Query Reports Data mining Data Marts Data Sources Data Storage OLAP Engine Front-End Tools 6 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 3
Από τους πίνακες στους κύβους Ο κύβος δεδοµένων κρατά συνοπτικές πληροφορίες για κάποιο τµήµα της εµπλεκόµενης πληροφορίας day month quarter year desc div div desc Έστω το σχήµα Β : day (day_id, day, month, quarter, year) quantity turnover product (product_id, description, type, type_description) salesman (salesman_id,, _desc, div, div_desc) location (location_id,, state, city) sales (day_id, product_id, salesman_id, location_id, units_sold, price) ηεντολήsql «γεµίζει» τον κεντρικό πίνακα: state city SELECT s.day_id, s.product_id, s.salesman_id, s.location_id, (s.units_sold) AS quantity, (s.units_sold * s.price) AS turnover FROM day d, product p, salesman m, location l, sales s WHERE s.day_id = d.day_id and s.product_id = p.product_id and s.salesman_id = m.salesman_id and s.location_id = l.location_id GROUP BY s.day_id, s.product_id, s.salesman_id, s.location_id description type type description 7 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Πολυδιάστατο µοντέλο δεδοµένων Το πολυδιάστατο µοντέλο δεδοµένων απεικονίζει τα δεδοµένα σε µορφή κύβου Ένας κύβος δεδοµένων επιτρέπει τη µοντελοποίηση και θεώρηση των δεδοµένων σε πολλαπλές διαστάσεις. Το σχήµα αποτελείται από: Πίνακες διαστάσεων (dimension tables) µε πληροφορία για τις διαστάσεις του κύβου Πίνακες γεγονότων (fact tables) µε µέτρα και κλειδιά προς τους σχετιζόµενους πίνακες διαστάσεων 8 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 4
Όψη κύβου δεδοµένων 123 150 200 Product Date 00-1 00-2 00-3 00-4 Πωλήσεις (µέση τιµή, πωληθείσαποσότητακοκ.) 4 ου τριµήνου προϊόντος 123 στο Dallas Dallas Houston Seattle 9 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κύβος και Κυβοειδή all product date location 0-D(apex) cuboid 1-D cuboids product, date product, location date, location 2-D cuboids product, date, location 3-D(base) cuboid 10 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 5
Εννοιολογική σχεδίαση Α Μοντελοποίηση Α : µέτρα και διαστάσεις Σχήµα αστέρα(star schema): ένας πίνακας γεγονότων στο κέντρο που περιβάλλεται από πίνακες διαστάσεων Σχήµα χιονονιφάδας(snowflake schema): βελτίωση του σχήµατος αστέρα, µεκάποιαδιάστασηναείναικανονικοποιηµένη σε σύνολο µικρότερων πινάκων διαστάσεων Αστερισµοί γεγονότων (fact constellations): περισσότεροι του ενός πίνακες γεγονότων που µοιράζονται από κοινού πίνακες διαστάσεων µπορεί να θεωρηθεί και ως συλλογή σχηµάτων αστέρων γι αυτό και εναλλακτικά ονοµάζεται σχήµα γαλαξία. 11 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σχήµα αστέρα Day day month quarter year Salesman desc div div desc Sales (fact table) quantity turnover Product description type type description state city Μέτρα 12 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 6
Σχήµα χιονονιφάδας Day day month quarter year Sales (fact table) Product description type type description Department desc div div desc Salesman quantity turnover Zip codes state city 13 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Day Αστερισµός γεγονότων day month quarter year Salesman desc div div desc Sales (fact table) quantity turnover Product description type type description state city Shipping (fact table) shipper ID from location to location shipping cost units shipped Shipper shipper ID name shipper type 14 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 7
123 00-1 150 200 Date 00-2 00-3 00-4 Dallas Houston Seattle Βασικές λειτουργίες OLAP: Αναλυτική επεξεργασία δεδοµένων (Online Analytical Processing OLAP): παρέχει πιο πολύπλοκες ερωτήσεις απ ότι η επεξεργασία συναλλαγών (OLTP). Pr od uc t Αναλυτική επεξεργασία δεδοµένων Συσσώρευση (roll-up) Ένα κελί Εµβάθυνση (drill-down) Πολλά κελιά Τεµαχισµός (slice) Κοµµάτιασµα (dice) 15 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κοµµάτιασµα (dice): εξέταση υποκύβου µε επιλογή δύο ή περισσοτέρων διαστάσεων. 123 00-1 150 200 Date 00-2 00-3 00-4 Dallas Houston Seattle Τεµαχισµός (slice): εξέταση υποκύβου µε επιλογή µίας διάστασης. Pr od uc t Βασικές λειτουργίες OLAP Συσσώρευση (roll-up): πιο γενική διάσταση (άνοδος στην ιεραρχία) Εµβάθυνση (drill-down): πιο λεπτοµερής διάσταση (κάθοδος στην ιεραρχία) 16 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 8
Αρχιτεκτονικές OLAP Servers Relational OLAP (ROLAP) ένα σχεσιακό DBMS αποθεκεύει και διαχειρίζεται τα δεδοµένα του warehouse ένα OLAP middle ware υποστηρίζει τις λειτουργίες OLAP εκµεταλλεύεται τις δυνατότητες του DBMS (βελτιστοποίηση κλπ.) κλιµακώνεται καλά Multidimensional OLAP (MOLAP) µηχανή αποθήκευσης πολυδιάστατων δεδοµένων βαζισµένη σε arrays (τεχνικές αραιών µητρών - sparse matrix techniques) γρήγορη δεικτοδότηση πάνω στις (προ-υπολογισµένες) συνόψεις Hybrid OLAP (HOLAP) ευέλικτο σχήµα, σχεσιακό στο χαµηλό επίπεδο και πίνακες στο υψηλό επίπεδο 17 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Η ανάγκη για συντήρηση Α... ξεχωριστής από τη Β Θέµατα επίδοσης των δύο συστηµάτων Σ Β ρυθµισµένο να έχει καλές επιδόσεις σε OLTP: µέθοδοι προσπέλασης, ευρετήρια, έλεγχος συνδροµικότητας, ανάνηψη Α ρυθµισµένη να έχει καλές επιδόσεις σε OLAP: σύνθετες λειτουργίες OLAP, πολυδιάστατη θεώρηση δεδοµένων. ιαφορετικές λειτουργίες πάνω σε διαφορετικά δεδοµένα: Ιστορικά δεδοµένα: Οι αποφάσεις των στελεχών εµπλέκουν δεδοµένα του παρελθόντος, οι Β συντηρούν δεδοµένα του παρόντος Συγκέντρωση δεδοµένων: Οι Α απαιτούν συγκεντρωτικά πληροφορία (συναθροίσεις, συνόψεις) από δεδοµένα που προέρχονται από ετερογενείς πηγές Β 18 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 9
Εργασία Κατεβάστε από το./readings και διαβάστε τις εργασίες S. Chaudhuri et al.: Database technology for decision support systems. IEEE Computer, Dec. 2001, pp. 48-55. R. J. Brachman et al.: Mining business databases. Communications of the ACM, Nov. 1996, pp. 42-48. Γράψτε σε 1-2 σελίδες τις ιδέες σας πάνω στα εξής: 1. Τόσο τα συστήµατα OLAP / Data Warehousing όσο και τα εργαλεία Data Mining κάνουν ανάλυση των δεδοµένων µιας επιχείρησης ή οργανισµού. Όµως a. Ποιες οι βασικές διαφορές τους; b. Τι µπορεί να κάνει το ένα που δεν µπορεί να κάνει το άλλο; 2. Ποια από τα ζητήµατα µε τα οποία καταπιάνεται η εργασία σας τράβηξαν περισσότερο το ενδιαφέρον και γιατί; (2-3 ζητήµατα το πολύ) Παράδοση: σε 2 εβδοµάδες από σήµερα 19 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 10