ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά Εξόρυξη Γνώσης από εδοµένα (Data Mining) Αποθήκες εδοµένων Γιάννης Θεοδωρίδης Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιά http://isl.cs.unipi.gr/db/courses/dm "Πυραµίδα" Επιχειρηµατικής Ευφυίας (Business Intelligence BI) Υποστήριξη επιχειρηµατικών αποφάσεων Making Decisions End User Data Presentation Visualization Techniques Data Mining Information Discovery Business Analyst Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA 2 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης
Αποθήκες εδοµένων Ορισµός (κατά W. Inmon): Οι Αποθήκες εδοµένων (data warehouses) αποτελούν θεµατο-κεντρικά (subject-oriented), ολοκληρωµένα (integrated), µε χρονική διάσταση (time-variable), µη ευµετάβλητα (non-volatile) συστήµατα διαχείρισης πληροφοριακών δεδοµένων για την υποστήριξη των διαδικασιών λήψης αποφάσεων Πληροφοριακά δεδοµένα: υποστηρίζουν άλλες (πέρα των καθηµερινών) λειτουργίες της επιχείρησης, όπως σχεδιασµό και πρόβλεψη. 3 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Περισσότερα για τον ορισµό τωνα Θεµατο-κεντρικά: Οργανώνονται γύρω από συγκεκριµένα θέµατα, όπως πελάτες, προϊόντα, πωλήσεις. εν συµπεριλαµβάνουν πλευρές (δεδοµένα) των θεµάτων που δεν συνεισφέρουν στη διαδικασία λήψης αποφάσεων Ολοκληρωµένα:... Κατασκευάζονται µε ολοκλήρωση πολλαπλών, πιθανώς ετερογενών πηγών δεδοµένων (σχεσιακές Β, αρχεία κ.α.) Εφαρµόζονται τεχνικές καθαρισµού και ολοκλήρωσης δεδοµένων (για την εξασφάλιση συνέπειας) 4 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης
Περισσότερα για τον ορισµό τωνα (συν.) Με χρονική διάσταση: Ο χρονικός ορίζοντας στις Α είναι ευρύτερος αυτού των Β (ιστορική πληροφορία π.χ. για τα τελευταία 5-10 έτη) Η έννοια του χρόνου είναι αναπόσπαστο τµήµα µιας Α Μη ευµετάβλητα: Οι Α αποθηκεύονται ξεχωριστά από τις (επιχειρησιακές) Β. εν υπάρχει η έννοια της τροποποίησης δεδοµένων (άρα δεν υπάρχουν θέµατα επεξεργασίας συναλλαγών, ανάνηψης, ελέγχου συνδροµικότητας). Υπάρχει µόνο η λειτουργία φόρτωσης δεδοµένων είτε πλήρως (full loading) είτε αυξητικά (incremental loading) 5 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Από τους πίνακες στους κύβους Το πολυδιάστατο µοντέλο δεδοµένων απεικονίζει τα δεδοµένα σε µορφή κύβου Ένας κύβος δεδοµένων επιτρέπει τη µοντελοποίηση και θεώρηση των δεδοµένων σε πολλαπλές διαστάσεις. Το σχήµα αποτελείται από: Πίνακες διαστάσεων (dimension tables) µε πληροφορία για τις διαστάσεις του κύβου Πίνακες γεγονότων (fact tables) µε µέτρα και κλειδιά προς τους σχετιζόµενους πίνακες διαστάσεων 6 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης
Όψη κύβου δεδοµένων 123 150 200 sum Product Date 00-1 00-2 00-3 00-4 Πωλήσεις (µέση τιµή, πωληθείσαποσότητακοκ.) 4 ου τριµήνου προϊόντος 123 στο Dallas sum Dallas Houston Seattle Location sum 7 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Εννοιολογική σχεδίαση Α Μοντελοποίηση Α : µέτρα και διαστάσεις Σχήµα αστέρα(star schema): ένας πίνακας γεγονότων στο κέντρο που περιβάλλεται από πίνακες διαστάσεων Σχήµα χιονονιφάδας (snowflake schema): βελτίωση του σχήµατος αστέρα, µε κάποια διάσταση να είναι κανονικοποιηµένη σε σύνολο µικρότερων πινάκων διαστάσεων Αστερισµοί γεγονότων (fact constellations): περισσότεροι του ενός πίνακες γεγονότων που µοιράζονται από κοινού πίνακες διαστάσεων µπορεί να θεωρηθεί και ως συλλογή σχηµάτων αστέρων γι αυτό και εναλλακτικά ονοµάζεται σχήµα γαλαξία. 8 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης
Σχήµα αστέρα Day day month quarter year Salesman dept dept desc div div desc Sales (fact table) quantity turnover Product description type type description Location zip code state city Μέτρα 9 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σχήµα χιονονιφάδας Day day month quarter year Sales (fact table) Product description type type description Department dept dept desc div div desc Salesman dept Μέτρα quantity turnover Location zip code Zip codes zip code state city 10 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης
Day Αστερισµός γεγονότων (σχήµα γαλαξία) day month quarter year Salesman dept dept desc div div desc Μέτρα Sales (fact table) quantity turnover Product description type type description Location zip code state city Shipping (fact table) shipper ID from location to location shipping cost units shipped Shipper shipper ID name shipper type 11 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Η ανάγκη για συντήρηση Α (ξεχωριστής από τη Β ) Θέµατα επίδοσης των δύο συστηµάτων Σ Β ρυθµισµένο να έχει καλές επιδόσεις σε OLTP: µέθοδοι προσπέλασης, ευρετήρια, έλεγχος συνδροµικότητας, ανάνηψη Α ρυθµισµένη να έχει καλές επιδόσεις σε OLAP: σύνθετες λειτουργίες OLAP, πολυδιάστατη θεώρηση δεδοµένων. ιαφορετικές λειτουργίες πάνω σε διαφορετικά δεδοµένα: Ιστορικά δεδοµένα: Οι αποφάσεις των στελεχών εµπλέκουν δεδοµένα του παρελθόντος (που δεν ισχύουν πια), τα οποία οι Β δεν έχουν λόγο να συντηρούν Συγκέντρωση δεδοµένων: Οι Α απαιτούν συγκεντρωτικά πληροφορία (συναθροίσεις, συνόψεις) από δεδοµένα που προέρχονται από ετερογενείς πηγές 12 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης
Aναλυτική επεξεργασία δεδοµένων (OLAP) Αναλυτική επεξεργασία δεδοµένων (Online Analytical Processing - OLAP): παρέχει πιο πολύπλοκες ερωτήσεις απ ότι η επεξεργασία συναλλαγών (OLTP). Βασικές λειτουργίες OLAP Συσσώρευση (roll-up) Ένα κελί Εµβάθυνση (drill-down) Πολλά κελιά Τεµαχισµός (slice) 13 Κοµµάτιασµα (dice) ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Βασικές λειτουργίες OLAP Τεµαχισµός (slice): εξέταση υπο-κύβου µε επιλογή µίας διάστασης. Κοµµάτιασµα (dice): εξέταση υπο-κύβου µε επιλογή δύο ή περισσοτέρων διαστάσεων. Συσσώρευση (roll-up): πιο γενική διάσταση (άνοδος στην ιεραρχία) Εµβάθυνση (drill-down): πιο λεπτοµερής διάσταση (κάθοδος στην ιεραρχία) 14 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 7
Εργασία (@#%$#%$) Κατεβάστε από το./readings και διαβάστε τις εργασίες S. Chaudhuri et al.: Database technology for decision support systems. IEEE Computer, Dec. 2001, pp. 48-55. R. J. Brachman et al.: Mining business databases. Communications of the ACM, Nov. 1996, pp. 42-48. Γράψτε σε 1-2 σελίδες τις ιδέες σας πάνω στα εξής: 1. Τόσο τα συστήµατα Data Warehousing όσο και τα εργαλεία Data Mining κάνουν ανάλυση των δεδοµένων µιας επιχείρησης ή οργανισµού. Όµως a. Ποιες οι βασικές διαφορές τους; b. Τι µπορεί να κάνει το ένα που δεν µπορεί να κάνει το άλλο; 2. Ποια από τα ζητήµατα µε τα οποία καταπιάνεται η εργασία σας τράβηξαν περισσότερο το ενδιαφέρον και γιατί; (2-3 ζητήµατα το πολύ) Παράδοση: µέχρι ευτέρα 10/4/2006 στη θυρίδα µου 15 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης