Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Σχετικά έγγραφα
Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Αποθήκες Δεδομένων & Πολυδιάστατη Ανάλυση

14Ιαν Νοε

Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking)

Άμεση Αναλυτική Επεξεργασία (OLAP)

Άμεση Αναλυτική Επεξεργασία (OLAP)

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Επισκόπηση περιοχής. Γιάννης Θεοδωρίδης

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Υποστήριξη Αποφάσεων. Γεώργιος Ευαγγελίδης. (βασισμένο στο κεφ. 23 του βιβλίου «Συστήματα Διαχείρισης Βάσεων Δεδομένων»)

Εισαγωγή στις Αποθήκες εδομένων

Συστήματα OLAP. Πασχάλης Θρήσκος, PhD Λάρισα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

Αποθήκες Δεδομένων. Αρχιτεκτονική, Μοντέλο Δεδομένων και Σχεδίαση

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, ίαυλος ιαφάνεια 29-1

Αποθήκες Δεδομένων. Αποθήκες και εξόρυξη δεδομένων 6 ο εξάμηνο

ΑΛΕΞΑΝΔΡΕΙΟ Τ.Ε.Ι ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΣΤΡΑΤΗΓΙΚΟ MANAGEMENT KAI EΠΙΧΕΙΡHΜΑΤΙΚΗ ΕΥΦΥΙΑ. Παρουσίαση 2 ο μέρος:

Εισαγωγή στις Αποθήκες εδομένων

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

Εισαγωγή στις Αποθήκες εδοµένων

11.1. Θεωρητικό υπόβαθρο για τους κύβους δεδομένων και την πολυδιάστατη ανάλυση

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

Business Development, SAP Hellas 01/12/2007

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ -2

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Λήψη απόφασης, Συστήματα Υποστήριξης Αποφάσεων, OLAP Ανάλυση, Περιβαλλοντική Εκπαίδευση ΕΙΣΑΓΩΓΗ

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Data Warehouse Refreshment via ETL tools. Panos Vassiliadis

4. ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΠΟΛΥΔΙΑΣΤΑΤΗΣ ΑΝΑΛΥΣΗΣ

Βάσεις Δεδομένων ΙΙ. Διάλεξη 7 η Aποθήκες Δεδομένων και OLAP (On-line Analytical Processing)

Εµβάθυνση στις έννοιες: Ανάλυση, β) Εξαγωγή Αναφορών (Enterprise Reporting & Online Analytical Processing / OLAP). Παραδείγµατα.

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

4 Πολυδιάστατη Ανάλυση και Αποθήκες Δεδομένων

Σχεδίαση και Ανάπτυξη Απ ποθηκών Δεδομένωνν

ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΖΩΓΡΑΦΟΥ , ΑΘΗΝΑ

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Πρόγραµµα Μεταπτυχιακών Σπουδών «Πληροφορική»

Τ Μ Η Μ Α Δ ΙΟ ΙΚ Η Σ Η Σ Μ Ο Ν Α Δ Ω Ν Υ Γ Ε ΙΑ Σ Π ΡΟ Ν Ο ΙΑ Σ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ «ΕΓΚΑΤΑΣΤΑΣΗ ΚΑΙ ΜΕΑΕΤΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΧΕΙΡΙΣΗΣ ΔΕΔΟΜΕΝΩΝ OLAP»

Οι «κύκλοι» της επιχειρησιακής νοηµοσύνης. Μέθοδοι και Τεχνικές εξερεύνησης των

Προηγμένα Πληροφοριακά Συστήματα. Ακαδημαϊκό Έτος

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Ένα σύνολο αλληλοσχετιζόμενων συστημάτων που συλλέγουν, επεξεργάζονται, αποθηκεύουν και διανέμουν πληροφορίες

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Data Cube. Μ.Χατζόπουλος 1

ΑΠΟΘΗΚΕΣ Ε ΟΜΕΝΩΝ Σ. ΛΙΓΟΥ ΙΣΤΙΑΝΟΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ. Παραγωγικές Λειτουργίες Επιχείρησης

Ιωσηφίδης Ελευθέριος

Πανεπιστήμιο Πειραιώς. Τμήμα Ψηφιακών Συστημάτων Π.Μ.Σ. «Διδακτική της Τεχνολογίας & Ψηφιακά Συστήματα» Κατεύθυνση Ψηφιακών Επικοινωνιών και Δικτύων

Εισαγωγή στα Συστήµατα Βάσεων Δεδοµένων

CYPDIS BI Platform. ών Υπηρεσιών

Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα)

ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ. Πετρογεωργάκης Μανούσος Σπυρόπουλος Σταύρος

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

Διδάσκοντες: Μαρία Χαλκίδη

INFORMATION MANAGEMENT

Πανεπιστήμιο Πειραιώς Τμήμα : Οργάνωσης και Διοίκησης Επιχειρήσεων

Ευφυΐας (Business Intelligence)

Orchid: Integrating Schema Mapping and ETL ICDE 2008

ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.)

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή

Απάντηση 8: Σύμφωνα με την διακήρυξη, απαιτείται η ανάπτυξη ενός συστήματος με υψηλές δυνατότητες αναφορών και συνδυασμού δεδομένων από πολλές πηγές.

Πληροφοριακά Συστήµατα

Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων: Μέρος Β

Τι προσφέρουν τα Τµήµατα Πληροφορικής. ... το Εργαστήριο Πληροφοριακών Συστηµάτων του Πα.Πει. Ερευνητικές δραστηριότητες σε GI Ενδεικτικές εργασίες

Επισκόπηση Μαθήµατος

Συνεργατική Λήψη Αποφάσεων. Υποστήριξη στη Συνεργατική. Αποφάσεων. ιάρθρωση ενότητας. Η προτεινόµενη προσέγγιση. γνώσης και επιχειρηµατολογίας

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Business Intelligence Tools Avecon, data mining techniques online analytical processing OLAP Avecon Εξοικονόμηση κόστους: DataMATRIX3

Εισαγωγή. Τι είναι µια βάση δεδοµένων;

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Στοιχεία εισηγητή Ημερομηνία: 10/10/2017

Οδηγός εφαρµογής τεχνικών Επιχειρηµατικής Ευφυΐας στις Ελληνικές Ακαδηµαϊκές Βιβλιοθήκες

Προγράμματα Η /Υ / Εφαρμογές σε συστ ήματα Π ό οι τητας Αριστομένης Μακρής

Πολυδιάστατη Ανάλυση Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

Βέλτιστες Πρακτικές Διασφάλισης Ποιότητας. Δεδομένων. Πώς προσεγγίζουμε την Ποιότητα των Δδ Δεδομένων

6. ΑΠΟΘΗΚΕΣ ΔΕΔΟΜΕΝΩΝ

ΚΕΦΑΛΑΙΟ Βασικές Ενότητες

Data Warehouse Τ χνο χνο ογίες Υπ οστήριξης Λήψης Αριστο Αριστ μένης Μακρής Διοικητικώ τικ ν ώ Απο Απ φάσεων

Δημιουργία και αξιοποίηση αποθηκών πληροφοριών (data warehouses) για την υποστήριξη λήψης διοικητικών αποφάσεων

Εισαγωγή. web σελίδα Βάσεις εδοµένων Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Εισαγωγή σε SQL Server Reporting Services

Γιάννης Θεοδωρίδης. Εργαστήριο Πληροφοριακών Συστηµάτων.

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

Ότι δεν μετριέται, δεν βελτιώνεται. Peter Drucker

Πανεπιστήμιο Αιγαίου Τμήμα πληροφοριακών και Επικοινωνιακών συστημάτων Ολοκληρωμένη Μεθοδολογία Υλοποίησης Έργων Επιχειρηματικής Ευφυίας An

Πληροφοριακά Συστήματα Διοίκησης

Information Technology for Business

ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

Εισαγωγή στα Συστήματα Βάσεων εδομένων

Ανοικτά Ακαδημαϊκά Μαθήματα

ΚΕΦΑΛΑΙΟ Βασικές Ενότητες

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην

Ο Στρατηγικός Ρόλος των Πληροφοριακών Συστημάτων. Στόχοι και αντικείμενο ενότητας

Ταχυδρομική Διεύθυνση: Οδυσσέα Ανδρούτσου 1 και Κανάρη Δραπετσώνα- Πειραιάς (18648)

CAPITAL Business - Βασικές Ενότητες

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Transcript:

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Αποθήκες εδοµένων Γιάννης Θεοδωρίδης, Νίκος Πελέκης Εργαστήριο Πληροφοριακών Συστηµάτων http://infolab.cs.unipi.gr 05 Νοε. 08 Πηγές Το κύριο µέρος των διαφανειών προέρχεται από: Dunham: Data Mining Introductory and Advanced Topics. Prentice Hall, 2003. Επιπρόσθετα, χρησιµοποιήθηκε υλικό από: Han, Kamber: Data Mining Concepts and Techniques. Morgan Kaufmann, 2001. 2 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.1

"Πυραµίδα" Επιχειρηµατικής Ευφυίας (Business Intelligence BI) Making Decisions End User Data Presentation Visualization Techniques Data Mining Information Discovery Business Analyst Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA 3 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Μεθοδολογία OLAP βήµατα αναλυτικής διαδικασίας: απότοσχεδιασµό της ανάλυσης,... στη συγκέντρωση και οργάνωση των απαραίτητων δεδοµένων... την ανάλυσή τους και παρουσίαση των αποτελεσµάτων και τελικά... την εκµετάλευση των όποιων συµπερασµάτων Source: SPSS 4 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.2

Αποθήκες εδοµένων ένα παράδειγµα Sales 5 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Αρχιτεκτονική Α other sources Metadata Monitor & Integrator OLAP Server Operational DBs Extract Transform Load Refresh Data Warehouse Serve Analysis Querying Reporting Data mining Data Marts Data Sources Data Storage OLAP Engine Front-End Tools 6 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.3

Αποθήκες εδοµένων - ορισµός Ορισµός (κατά W. Inmon): Οι Αποθήκες εδοµένων (data warehouses) αποτελούν Sales (fact table) θεµατο-κεντρικά (subject-oriented), συγκεντρωµένα (integrated), µε χρονική διάσταση (time-variable), µη ευµετάβλητα (nonvolatile) συστήµατα διαχείρισης πληροφοριακών δεδοµένων για την υποστήριξη των διαδικασιών λήψης αποφάσεων Πληροφοριακά δεδοµένα: υποστηρίζουν άλλες (πέρα των καθηµερινών) λειτουργίες της επιχείρησης, όπως σχεδιασµό και πρόβλεψη. 7 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Περισσότερα για τον ορισµό τωνα Θεµατο-κεντρικά: Οργανώνονται γύρω από συγκεκριµένα θέµατα, όπως πελάτες, προϊόντα, πωλήσεις. εν συµπεριλαµβάνουν πλευρές (δεδοµένα) των θεµάτων που δεν συνεισφέρουν στη διαδικασία λήψης αποφάσεων Συγκεντρωµένα:... Κατασκευάζονται µε συγκέντρωση πολλαπλών, πιθανώς ετερογενών πηγών δεδοµένων (σχεσιακές Β, αρχεία κ.α.) Εφαρµόζονται τεχνικές καθαρισµού και ολοκλήρωσης δεδοµένων (για την εξασφάλιση συνέπειας) 8 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.4

Περισσότερα για τον ορισµό τωνα... Με χρονική διάσταση: Ο χρονικός ορίζοντας στις Α είναι ευρύτερος αυτού των Β (ιστορική πληροφορία π.χ. γιατατελευταία5-10 έτη) Η έννοια του χρόνου είναι αναπόσπαστο τµήµα µιας Α Μη ευµετάβλητα: Οι Α αποθηκεύονται ξεχωριστά από τις (επιχειρησιακές) Β. εν υπάρχει η έννοια της τροποποίησης δεδοµένων (άρα δεν υπάρχουν θέµατα επεξεργασίας συναλλαγών, ανάνηψης, ελέγχου συνδροµικότητας). Υπάρχει µόνο η λειτουργία φόρτωσης δεδοµένων είτε πλήρως (full loading) είτε αυξητικά (incremental loading) 9 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Από τις Β στις Α Μια αποθήκη δεδοµένων κρατά συνοπτική πληροφορία για κάποιο υποσύνολο των (επιχειρησιακών) δεδοµένων Sales (fact table) Μια Α ορίζεται πάνω στα δεδοµένα µιας (επιχειρησιακής) Β και η πλήρωσή της γίνεται µε κατάλληλη διαδικασία φόρτωσης «διαστάσεις» (dimensions) της Α : οι πίνακες,, «µετρήσιµα µεγέθη» (measures) της Α : οι συναθροιστικές τιµές, 10 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.5

Παράδειγµα φόρτωσηςα Παράδειγµα Β : Operational DBs product (product_id,,, _) location (location_id,,, ) sales-transaction (timestamp, product_id, location_id, units_sold, unit_price) Extract Transform Load Refresh Παράδειγµα ETL: INSERT INTO sales ( SELECT date(timestamp) AS time_id, product_id, location_id, sum(units_sold) AS, sum(units_sold*unit_price) AS FROM sales-transaction GROUP BY time_id, product_id, location_id HAVING > 0 ) Παράδειγµα Α : product (product_id,,, _) location (location_id,,, ) time (time_id,,,, ) sales (time_id, product_id, location_id,, ) Data Warehouse 11 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Πολυδιάστατο µοντέλο δεδοµένων Το πολυδιάστατο µοντέλο δεδοµένων απεικονίζει τα δεδοµένα σε µορφή κύβου Ένας κύβος δεδοµένων επιτρέπει τη µοντελοποίηση και θεώρηση των δεδοµένων σε πολλαπλές διαστάσεις. Το σχήµα αποτελείται από: Πίνακες διαστάσεων (dimension tables) µε πληροφορία για τις διαστάσεις του κύβου Πίνακες γεγονότων (fact tables) µε µετρήσιµα µεγέθη και κλειδιά προς τους σχετιζόµενους πίνακες διαστάσεων Sales (fact table) 12 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.6

Όψη κύβου δεδοµένων ιεραρχίες State City Albany NY New York Dallas TX Houston San CA Jose 11 21 15 29 22 25 30 25 15 21 22 29 21 30 22 15 25 21 22 15 21 30 29 25 30 1/10 2/10 3/10 Μετρήσιµο µέγεθος: στα υποκαταστήµατα της πόλης Albany (που βρίσκεται στην πολιτεία NY) πωλήθηκαν 15 χιλιάδες προϊόντα από τον κωδικό 1003 (που ανήκει στον τύπο CellPhone ) στις 1/10. 1001 1002 1003 CellPhone 2001 2002 Pager _ID Type ιεραρχίες 13 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κύβος και Κυβοειδή Από τον αρχικό n-διάστατο κύβο, προκύπτουν κυβοειδή µικρότερης διάστασης all product time location 0-D(apex) cuboid 1-D cuboids product, time product, location time, location 2-D cuboids product, time, location 3-D(base) cuboid 14 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.7

Ιεραρχίες ιαστάσεων Σε κάθε διάσταση µπορούµε να ορίσουµε πλούσιες ιεραρχίες όχι κατ ανάγκην γραµµικές 15 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Λογικό Σχήµα Α Μοντελοποίηση Α : µετρήσιµα µεγέθη και διαστάσεις Σχήµα αστέρα(star schema): ένας πίνακας γεγονότων στο κέντρο που περιβάλλεται από πίνακες διαστάσεων Σχήµα χιονονιφάδας(snowflake schema): βελτίωση του σχήµατος αστέρα, µεκάποιαδιάστασηναείναικανονικοποιηµένη σε σύνολο µικρότερων πινάκων διαστάσεων Αστερισµοί γεγονότων (fact constellations): περισσότεροι του ενός πίνακες γεγονότων που µοιράζονται από κοινού πίνακες διαστάσεων µπορεί να θεωρηθεί και ως συλλογή σχηµάτων αστέρων γι αυτό και εναλλακτικά ονοµάζεται σχήµα γαλαξία. 16 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.8

Σχήµα αστέρα Sales (fact table) 17 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σχήµα χιονονιφάδας Sales (fact table) Types Zip codes 18 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.9

Αστερισµός γεγονότων Sales (fact table) Shipping (fact table) day ID shipper ID from-location to-location shipping-cost units-shipped Shipper shipper ID name 19 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Αναλυτική επεξεργασία δεδοµένων State City Albany NY New York Dallas TX Houston San CA Jose 1001 1002 11 21 15 29 22 25 30 25 15 21 22 29 21 30 22 15 25 21 22 15 21 30 29 25 30 1003 2001 2002 1/10 2/10 3/10 _ID Online Analytical Processing OLAP: οι λειτουργίες ανάλυσης δεδοµένων πάνω σε ένα κύβο Roll-up (συσσώρευση) Drill-down (εµβάθυνση) Slice (τεµαχισµός) Dice (κοµµάτιασµα) Pivot (περιστροφή) CellPhone Pager Type 20 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.10

Βασικές λειτουργίες OLAP Συσσώρευση (roll-up): άνοδος στο lattice των κυβοειδών (µε αφαίρεση διάστασης) ή άνοδος στην ιεραρχία µιας διάστασης Εµβάθυνση (drill-down): το αντίστροφο της λειτουργίας roll-up Quantity (in 1000 s) TX Quantity (in 1000 s) TX Dallas Houston Dallas Houston Jan 30 28 Q1 Feb 26 30 Q1 78 90 Mar 22 32 Q2 98 94 Apr 20 38 2008 Q3 34 87 Roll Up Dimension: time ( ) Q2 May 36 30 Q4 56 91 Jun 42 26 21 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Βασικές λειτουργίες OLAP (συν.) Τεµαχισµός (slice) και Κοµµάτιασµα (dice): εξέταση υποσυνόλου του κύβου µε επιβολήφίλτρωνσεκάποιες διαστάσεις Quantity (in 1000 s) TX Dallas Houston 2008 (any product) Q1 Q2 Q3 Q4 78 45 34 56 90 67 87 91 Slice product. = CellPhone Quantity (in 1000 s) Dallas TX Houston 2008 (CellPhones only) Q1 53 76 Q2 35 57 Q3 20 40 Q4 48 80 22 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.11

Βασικές λειτουργίες OLAP (συν.) Περιστροφή (pivot): εµφάνιση κύβου από διαφορετική οπτική γωνία Quantity (in 1000 s) CellPhone Pager 1001 1002 1003 2001 2002 TX Dallas Houston 20 32 33 45 12 34 8 20 12 23 Pivot Quantity (in 1000 s) TX Dallas Houston Q1 78 90 2008 (any product) Q2 45 67 Q3 34 87 23 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Q4 56 91 Αρχιτεκτονικές OLAP Servers Relational OLAP (ROLAP) ένα σχεσιακό DBMS αποθηκεύει και διαχειρίζεται τα δεδοµένα του warehouse ένα OLAP middle ware υποστηρίζει τις λειτουργίες OLAP εκµεταλλεύεται τις δυνατότητες του DBMS (βελτιστοποίηση κλπ.) κλιµακώνεται καλά Multidimensional OLAP (MOLAP) µηχανή αποθήκευσης πολυδιάστατων δεδοµένων βασισµένη σε arrays / matrices γρήγορη δεικτοδότηση πάνω στις (προ-υπολογισµένες) συνόψεις Hybrid OLAP (HOLAP) ευέλικτο σχήµα, σχεσιακοί πίνακες στο χαµηλό επίπεδο και µήτρες στο υψηλό επίπεδο 24 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.12

Υλοποίηση τύπου ROLAP Τόσο τα dimension tables όσο και το fact table είναι σχεσιακοί πίνακες Sales (fact table) 25 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα ROLAP _ID Zip code _ID _ID _ ID Turnover Quantity 1 2 3 Table 1 1 1 1 1 1 01/10 02/10 03/10 49000 28900 26500 Fact Table 2450 2890 2650 _ID 1 2 Descri ption _ID 01/10 02/10 day_of _week 3 Table Table 26 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.13

Παράδειγµα ROLAP (συν.) Παράδειγµα Slice: Ανάλυση πωλήσεων µόνο για τα κινητά τηλέφωνα που πωλήθηκαν το 2007 στην πολιτεία Texas SELECT Quantity FROM L, P, T, Fact F WHERE L._ID = F._ID AND P._ID = F._ID AND T._ID = F._ID AND L.State = TX AND P.Type = CellPhone AND T.Year = 2007 Slice: Loc=1..2, Prod=3..4 =3..4 27 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα ROLAP (συν.) Οι λειτουργίες Roll-up, Drill-down υλοποιούνται µε κατάλληλα GROUP BY Παράδειγµα Roll-up: Ανάλυση πωλήσεων ανά πολιτεία SELECT SUM(F.Quantity) FROM L, P, T, Fact F WHERE L._ID = F._ID AND P._ID = F._ID AND T._ID = F._ID GROUP BY L.State Roll-up:. 28 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.14

Υλοποίηση τύπου MOLAP Το fact table είναι υλοποιηµένο σε δοµή πολυδιάστατης µήτρας (matrix) ή πίνακα(array) day ID Sales (fact table) day ID 29 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα MOLAP Ο κύβος είναι υλοποιηµένος ως ένας 3-διάστατος πίνακας: Fact(Loc, Prod, ) Επίσης, είναι προκατασκευασµένα όλα τα κυβοειδή! Παράδειγµα Slice: Ανάλυση πωλήσεων µόνο για τα κινητά τηλέφωνα που πωλήθηκαν το 2007 στην πολιτεία Texas 2 4 Loc= 1 Pr od= 3 = 3 Παράδειγµα Roll-up: Ανάλυση πωλήσεων ανά πολιτεία 4 Fact(Loc, Pr od, ) εν απαιτείται κάποια ειδική λειτουργία αφού είναι διαθέσιµα όλατα κυβοειδή, άρα και το Fact Prod, (Loc) 30 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.15

Κατακλείδα Οι Α τηρούνται ξεχωριστά από τις (επιχειρησιακές) Β, για δύο κυρίως λόγους: Θέµατα επίδοσης των δύο συστηµάτων Σ Β ρυθµισµένο να έχει καλές επιδόσεις σε OLTP: µέθοδοι προσπέλασης, ευρετήρια, έλεγχος συνδροµικότητας, ανάνηψη Α ρυθµισµένη να έχει καλές επιδόσεις σε OLAP: σύνθετες λειτουργίες OLAP, πολυδιάστατη θεώρηση δεδοµένων. ιαφορετικές λειτουργίες πάνω σε διαφορετικά δεδοµένα: Ιστορικά δεδοµένα: Οι αποφάσεις των στελεχών εµπλέκουν δεδοµένα του παρελθόντος, οι Β συντηρούν δεδοµένα του παρόντος Συγκέντρωση δεδοµένων: Οι Α απαιτούν συγκεντρωτικά πληροφορία (συναθροίσεις, συνόψεις) από δεδοµένα που προέρχονται από ετερογενείς πηγές Β 31 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 2.16