Εισαγωγή στις Αποθήκες εδομένων



Σχετικά έγγραφα
Εισαγωγή στις Αποθήκες εδομένων

Εισαγωγή στις Αποθήκες εδοµένων

Αποθήκες Δεδομένων. Αρχιτεκτονική, Μοντέλο Δεδομένων και Σχεδίαση

Άμεση Αναλυτική Επεξεργασία (OLAP)

Άμεση Αναλυτική Επεξεργασία (OLAP)

Αποθήκες Δεδομένων. Αποθήκες και εξόρυξη δεδομένων 6 ο εξάμηνο

Data Warehouse Refreshment via ETL tools. Panos Vassiliadis

Συστήματα OLAP. Πασχάλης Θρήσκος, PhD Λάρισα

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Βάσεις Δεδομένων ΙΙ. Διάλεξη 7 η Aποθήκες Δεδομένων και OLAP (On-line Analytical Processing)

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ -2

Αποθήκες Δεδομένων & Πολυδιάστατη Ανάλυση

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Data Cube. Μ.Χατζόπουλος 1

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

ΑΝΑΣΚΟΠΗΣΗ. Αποθήκες και Εξόρυξη Δεδομένων

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, ίαυλος ιαφάνεια 29-1

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

ΣΤΡΑΤΗΓΙΚΟ MANAGEMENT KAI EΠΙΧΕΙΡHΜΑΤΙΚΗ ΕΥΦΥΙΑ. Παρουσίαση 2 ο μέρος:

Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking)

ΑΛΕΞΑΝΔΡΕΙΟ Τ.Ε.Ι ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Υποστήριξη Αποφάσεων. Γεώργιος Ευαγγελίδης. (βασισμένο στο κεφ. 23 του βιβλίου «Συστήματα Διαχείρισης Βάσεων Δεδομένων»)

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Orchid: Integrating Schema Mapping and ETL ICDE 2008

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Λήψη απόφασης, Συστήματα Υποστήριξης Αποφάσεων, OLAP Ανάλυση, Περιβαλλοντική Εκπαίδευση ΕΙΣΑΓΩΓΗ

«Χωροχρονικές Αποθήκες εδοµένων και η Εφαρµογή τους στην Περίπτωση της Αγοράς Ακινήτων»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

Επισκόπηση Μαθήµατος

11.1. Θεωρητικό υπόβαθρο για τους κύβους δεδομένων και την πολυδιάστατη ανάλυση

Υποστηρικτικό Υλικό για Πτυχιακές και MSc. Π. Βασιλειάδης

4. ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΠΟΛΥΔΙΑΣΤΑΤΗΣ ΑΝΑΛΥΣΗΣ

Business Development, SAP Hellas 01/12/2007

ΑΠΟΘΗΚΕΣ Ε ΟΜΕΝΩΝ Σ. ΛΙΓΟΥ ΙΣΤΙΑΝΟΣ

Προηγμένα Πληροφοριακά Συστήματα. Ακαδημαϊκό Έτος

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

PROJECT ΕΡΓΑΣΤΗΡΙΩΝ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Ι. Τμήμα Μηχανικών Πληροφορικής Τ.Ε.

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Συστήματα Διαχείρισης Βάσεων Δεδομένων

4 Πολυδιάστατη Ανάλυση και Αποθήκες Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων

ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΖΩΓΡΑΦΟΥ , ΑΘΗΝΑ

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Σχεδιασμός Βάσεων Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

Εισαγωγή στις βασικές έννοιες των Βάσεων Δεδομένων

Διαχείριση Δεδομένων

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ. Πετρογεωργάκης Μανούσος Σπυρόπουλος Σταύρος

ΗΥ-360 Αρχεία και Βάσεις Δεδομένων Διδάσκων: Δ. Πλεξουσάκης. Φροντιστήριο SQL Examples ΙΙ Ξένου Ρουμπίνη

Query-by-Example (QBE)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Πληροφορική ΙΙ Εισαγωγή στις Βάσεις Δεδομένων. Τμήμα Λογιστικής

Τίτλος Πακέτου Certified Computer Expert-ACTA

Σχεδίαση και Ανάπτυξη Απ ποθηκών Δεδομένωνν

Μοντέλο Διαστάσεων Αρχιτεκτονική Αποθηκών Δεδομένων. Πασχάλης Θρήσκος, PhD Λάρισα

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ - ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΒΔ - ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΟΝΤΕΛΟ ΟΝΤΟΤΗΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ


ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Σχεσιακό Μοντέλο (Γρήγορη επανάληψη) Πασχάλης Θρήσκος PhD Λάρισα

Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα)

ΟΛΟΚΛΗΡΩΜΕΝΟ ΠΛΗΡΟΦΟΡΙΑΚΟ ΣΥΣΤΗΜΑ ΝΑΥΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΟΠΣ-ΝΕ

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο

Information Technology for Business

GROUP BY, HAVING, COUNT, MIN, MAX, SUM, AVG, ROLLUP.

Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων: Μέρος Β

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Επιβλέπων: ΠΟΤΗΡΑΚΗΣ ΑΝΤΩΝΙΟΣ

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Εισαγωγή σε SQL Server Reporting Services

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Γενικό πλαίσιο. Απαιτήσεις Μοντέλο εδοµένων. MinusXLRequirements. Απόστολος Ζάρρας

ΕΞΑΓΩΓΗ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΜΕΤΑΦΟΡΤΩΣΗ (EXTRACT, TRANSFORM, LOAD) Πασχάλης Θρήσκος, PhD Λάρισα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Πρόγραµµα Μεταπτυχιακών Σπουδών «Πληροφορική»

Certified Data Base Designer (CDBD)

Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL

Βάσεις Δεδομένων (Ε) Εισαγωγή στην υλοποίηση σχεσιακών βάσεων δεδομένων

Διάλεξη 03: Εννοιολογική Σχεδίαση Βάσης Δεδομένων I (Entity Relationship Modelling) Διδάσκων: Παναγιώτης Ανδρέου

Επερωτήσεις σύζευξης με κατάταξη

Εισαγωγή στα Συστήµατα Βάσεων Δεδοµένων

Ramez Elmasri and Shamkant B. Navathe Ελληνική Εκδόσεις Δίαυλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 1-1

SQL Data Manipulation Language

Εισαγωγή στα Συστήματα Βάσεων εδομένων

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 1: Ορισμοί βασικών εννοιών: Μια πρώτη μοντελοποίηση. Ευαγγελίδης Γεώργιος Τμήμα Εφαρμοσμένης Πληροφορικής

Οργάνωση Βάσεων Βιοϊατρικών Δεδομένων Εξόρυξη Γνώσης Βιοϊατρικών Δεδομένων. Σεμινάριο 7: Αλγόριθμοι για επεξεργασία ερωτήσεων και βελτιστοποίηση

Αρχεία και Βάσεις Δεδομένων

ΕΣΔ 232: ΟΡΓΑΝΩΣΗ ΔΕΔΟΜΕΝΩΝ ΣΤΗΝ ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Ακαδημαϊκό Έτος , Εαρινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ. Επιλέγει όλες τις πλειάδες, από μια σχέση R, που ικανοποιούν τη συνθήκη επιλογής.

Πανεπιστήμιο Πειραιώς. Τμήμα Ψηφιακών Συστημάτων Π.Μ.Σ. «Διδακτική της Τεχνολογίας & Ψηφιακά Συστήματα» Κατεύθυνση Ψηφιακών Επικοινωνιών και Δικτύων

Κεφάλαιο 2 ο. Συστήματα Πληροφοριών στην επιχείρηση

Εαρινό Εξάμηνο

Kεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα

Θεωρία Κανονικοποίησης

Μια ολοκληρωμένη, διαχρονική και μόνιμη συλλογή δεδομένων οργανωμένη κατά αντικείμενο ανάλυσης με στόχο τη διαδικασία υποστήριξης λήψης αποφάσεων -

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

ΗΥ 360 Αρχεία και Βάσεις Δεδομένων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Transcript:

Εισαγωγή στις Αποθήκες εδομένων ιαφάνειες βασισμένες σε σχετικές διαφάνειες του Πάνου Βασιλειάδη Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 1 Εισαγωγή: OLTP Παραδοσιακή ιαχείριση εδομένων με Σ Β Σύστημα Επεξεργασίας οσοληψιών On-Line Transaction Processing (OLTP) Ένα πλήρες σύστημα που περιέχει εργαλεία για προγραμματισμό εφαρμογών, εκτέλεση και διαχείριση των δοσοληψιών Μια τέτοια εφαρμογή πρέπει να δουλεύει συνεχώς, να αντεπεξέρχεται αποτυχιών, εξελίσσεται συνεχώς, είναι συνήθως κατανεμημένη και περιλαμβάνει: Βάση εδομένων ίκτυο Προγράμματα εφαρμογής Εξαιρετικά κρίσιμη για τη λειτουργία κάθε οργανισμού Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 2 Εξόρυξη Δεδομένων 2008-2009 1

Εισαγωγή: OLTP OLTP Αεροπορική Εταιρεία Κράτησε για γιατον κ. κ. Χ την τηνθέση 13Α 13Αγια γιαla! Κράτησε για γιατον κ. κ. Y την τηνθέση 13Α 13Αγια γιαla! 1... DB Πόσοι ταξιδεύουν για γιαla? 100 Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 3 Εισαγωγή: OLTP OLTP Τράπεζα Δάνεια Γκισέ DB Πιστωτικές κάρτες ΑΤΜ Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 4 Εξόρυξη Δεδομένων 2008-2009 2

Εισαγωγή: OLTP OLTP Βασικά Χαρακτηριστικά Ελάχιστος χρόνος διαθέσιμος για την εκτέλεση μιας δοσοληψίας. Λιγότερες από 10 προσβάσεις δίσκου. Περιορισμένος αριθμός υπολογισμών. Κάτω όριο λειτουργικών απαιτήσεων: 100 on-line Transactions Per Second (TPS) σε μια Β της τάξης του 1 GB Άνω όριο λειτουργικών απαιτήσεων: 50000 TPS σε μια Β μεγαλύτερη του 1 ΤB. Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 5 Εισαγωγή: OLΑP OLAP Συστήματα Στήριξης Αποφάσεων Decision Support Systems (DSS) Υποβοήθηση λήψης αποφάσεων με πληροφορίες και αναφορές On-Line Analytical Processing (OLAP) Ευέλικτη, υψηλής απόδοσης πρόσβαση και ανάλυση μεγάλου όγκου σύνθετων δεδομένων από διαφορετικές εφαρμογές Ειδικού τύπου ερωτήσεις Οπτικοποίηση/στατιστική ανάλυση/πολυδιάστατη ανάλυση Εξόρυξη Γνώσης (Knowledge Discovery/Data Mining) Εξεύρεση προτύπων σε τεράστιες βάσεις δεδομένων OLAP + Data Mining => On-line Analytical Mining Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 6 Εξόρυξη Δεδομένων 2008-2009 3

Εισαγωγή: OLΑP Παραδείγματα ερωτήσεων OLAP Ποιος ήταν ο όγκος πωλήσεων ανά περιοχή και κατηγορία προϊόντος την περασμένη χρονιά; Πόσο σχετίζονται οι αυξήσεις τιμών των υπολογιστών με τα κέρδη τωνπωλήσεωντα10 τελευταία χρόνια; Ποια ήταν τα δέκα πρώτα καταστήματα σε πωλήσεις CD; Πόσους δίσκους πουλήσαμε στην Πελοπόννησο το τελευταίο τέταρτο της περσινής χρονιάς σε καταστήματα με κατανάλωση μεγαλύτερη από 100 δίσκους μηνιαίως, και ποιο το κέρδος μας από αυτές τις πωλήσεις; Τι ποσοστό από τους πελάτες που αγοράζουν αναψυκτικά αγοράζουν και πατατάκια; Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 7 Εισαγωγή: OLΑP Λειτουργικά Χαρακτηριστικά Απαιτήσεων OLAP Πρόσβαση σε μεγάλο όγκο δεδομένων Συμμετοχή αθροιστικών και ιστορικών δεδομένων σε πολύπλοκες ερωτήσεις Μεταβολή της οπτικής γωνίας ή βαθμού αφαίρεσης παρουσίασης των δεδομένων (π.χ., από πωλήσεις ανά περιοχή -> πωλήσεις ανά τμήμα κλπ.) Συμμετοχή πολύπλοκων υπολογισμών (π.χ. στατιστικές συναρτήσεις) Γρήγορη απάντηση σε οποιαδήποτε χρονική στιγμή τεθεί ένα ερώτημα ( On-Line ). Πως θα το πετύχουμε; Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 8 Εξόρυξη Δεδομένων 2008-2009 4

Εισαγωγή ύο κεντρικά θέματα Απόδοση Αν μια πολύπλοκη OLAP ερώτηση χρειαστεί να κλειδώσει ένα ολόκληρο πίνακα, τότε όλες οι OLTP δοσοληψίες την περιμένουν μέχρι να τελειώσει Εννοιολογική διαφορά και ετερογένεια Αν στην Oracle Β του marketing ο πελάτης είναι EMP(ΑΤ,Name,Surname ) και στην COBOL Β των πωλήσεων είναι ΑΦΜ,FullName, η επερώτηση δεν είναι πάντα εύκολη... Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 9 Εισαγωγή: Αποθήκη εδομένων Αποθήκες εδομένων Μια κεντρικοποιημένη Β με σκοπό: την ολοκλήρωση (integration) ετερογενών πηγών πληροφοριών (data sources) => συνάθροιση όλης της ενδιαφέρουσας πληροφορίας σε μία τοποθεσία την αποφυγή της σύγκρουσης μεταξύ OLTP και OLAP (DSS) συστημάτων => απόδοση εφαρμογών και διαθεσιμότητα του συστήματος Μπορεί να συμπληρώνεται και από εξειδικευμένα θεματικά υποσύνολα (Data Marts) για περαιτέρω απόδοση των OLAP εφαρμογών Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 10 Εξόρυξη Δεδομένων 2008-2009 5

Εισαγωγή: Αποθήκη εδομένων Γενική Αρχιτεκτονική Πηγή Δεδομένων DW Data Marts OLTP συστήματα OLAP εργαλεία Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 11 Εισαγωγή: Αποθήκη εδομένων Αποθήκες εδομένων: ύο ορισμοί Μια Β υποστήριξης αποφάσεων, που διατηρείται χωριστά από την Β παραγωγής (operational database) ενός οργανισμού. S. Chaudhuri, U. Dayal, VLDB 96 tutorial Μια συλλογή δεδομένων που χρησιμοποιείται κυρίως για την λήψη αποφάσεων σε ένα οργανισμό, και είναι θεματικά προσανατολισμένη, έχει ολοκληρωμένα (ενοποιημένα) δεδομένα, τα οποία διατηρούνται σε βάθος χρόνου χωρίς να διαγράφονται. W.H. Inmon, Building the Data Warehouse, 1992 (ο εφευρέτης του όρου) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 12 Εξόρυξη Δεδομένων 2008-2009 6

Εισαγωγή: Αποθήκη εδομένων Εννοιολογική εναρμόνιση Προτερήματα/Ιδιότητες Οι διαφορετικές πηγές δεδομένων του ίδιου οργανισμού, μοντελοποιούν τις ίδιες οντότητες με διαφορετικούς τρόπους Η Αποθήκη εδομένων περιλαμβάνει το σύνολο αυτών των δεδομένων κάτω από ένα εναρμονισμένο σχήμα βάσης Ποιότητα εδομένων Η ποιότητα των δεδομένων στις πηγές είναι συχνά προβληματική (τα δεδομένα μπορεί να μην είναι πλήρη, να έχουν ασυνέπειες, να είναι παλιά, να παραβιάζουν τους λογικούς και δομικούς κανόνες αξιοπιστίας, κλπ) Έχει βρεθεί ότι τουλάχιστο 10% των δεδομένων είναι προβληματικά στις πηγές, με αποτέλεσμα οικονoμικές απώλειες του 25-40% Πριν την εισαγωγή στις αποθήκες δεδομένων καθαρισμός, επίσης λειτουργεί και ως ένα ενδιάμεσο σύστημα στον οποίο καθαρίζουμε τα δεδομένα Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 13 Source 1: Personnel (Cobol) EMP ID 110 Name Kostas DoB 1/1/72 Salary 1500 Total Income 1200 DeptID 132 Source 2: Accounting (DB2) EMP ID 110 110 IL_ID 10 30 Amount 1500 300 EMP INCOME EMP ID Name Age IL_ID Descr 10 Μισθός 110 120 130 Kostas Mitsos Roula 30 48 29 EMP 20 30... Επίδομα Τέκνων Φόρος... Income Lookup Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 14 Εξόρυξη Δεδομένων 2008-2009 7

Εισαγωγή: Αποθήκη εδομένων Προτερήματα/Ιδιότητες Απόδοση Οι εφαρμογές OLAP επιταχύνονται αν τα δεδομένα οργανωθούν με μη παραδοσιακούς τρόπους (π.χ., απο-κανονικοποιημένα) Σ Β για OLTP (ευρετήρια, επεξεργασία δοσοληψιών) Οι σύνθετες OLAP ερωτήσεις θα συγκρούονταν με τις παραδοσιακές OLTP δοσοληψίες, με αποτέλεσμα την υπερφόρτωση του συστήματος Θεματικά προσανατολισμένη: ιατήρηση μόνο των σχετικών δεδομένων ιαθεσιμότητα Όσο περισσότερα αντίγραφα των δεδομένων, τόσο πιο πολύ το σύστημα είναι διαθέσιμο*, αφενός στην Αποθήκη εδομένων και αφετέρου στις πηγές * ιαθεσιμότητα: το ποσοστό του χρόνου που το σύστημα είναι σε λειτουργία και προσβάσιμο στις εφαρμογές. 24x7: Οι OLTP εφαρμογές, σε πολλούς οργανισμούς πρέπει να είναι διαθέσιμες 24 ώρες Χ 7 μέρες τη βδομάδα (π.χ., τράπεζες, αεροπορικές εταιρείες,...) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 15 Εισαγωγή: Αποθήκη εδομένων Προτερήματα/Ιδιότητες Ιστορικά εδομένα Ο χρονικός ορίζοντας μια αποθήκης δεδομένων είναι πολύ μεγαλύτερος από ότι ενός συστήματος σε λειτουργία Η Β έχει τα τωρινά δεδομένα ενώ οι αποθήκες διατηρούν και παλιά δεδομένα (πχ τα προηγούμενα 5-10 χρόνια) Τροποποιήσεις Οι τροποποιήσεις στις πηγές δεδομένων δεν φαίνονται άμεσα στις αποθήκες δεδομένων, συνήθως περιοδικά Μόνο δύο βασικές λειτουργίες: αρχικό φόρτωμα των δεδομένων (loading) και προσπέλαση δεδομένων (access) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 16 Εξόρυξη Δεδομένων 2008-2009 8

Εισαγωγή: Αποθήκη εδομένων OLTP vs OLAP OLTP OLAP ομή Files/DBMS s RDBMS Πρόσβαση SQL/COBOL/ SQL + επεκτάσεις Ανάγκες που Αυτοματισμός Άντληση και καλύπτουν καθημερινών επεξεργασία πληροφ. εργασιών για χάραξη στρατηγικής Τύπος εδομένων Λεπτομερή Συνοπτικά, Αθροιστικά Λειτουργικά Όγκος εδομένων ~ 100 GB ~ 1 TB Φύση εδομένων υναμικά, Τρέχοντα Στατικά, Ιστορικά Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 17 Εισαγωγή: Αποθήκη εδομένων OLTP vs OLAP OLTP OLAP I/O Τύποι Περιορισμένο I/O Εκτεταμένο I/Os Συχνά disk seeks disk scans Τροποποιήσεις Συνεχείς Περιοδικές Ενημερώσεις Μέτρηση Απόδοσης Throughput Χρόνος Απόκρισης Φόρτος οσοληψίες με Ερωτήσεις που πρόσβαση λίγων σαρώνουν εγγραφών εκατομμύρια εγγραφών Σχεδίαση Β Κατευθυνόμενη Κατευθυνόμενη από Εφαρμογή από Περιεχόμενο Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 18 Εξόρυξη Δεδομένων 2008-2009 9

Εισαγωγή: Αποθήκη εδομένων OLTP vs OLAP OLTP OLAP Τυπικοί Χρήστες Χαμηλόβαθμοι Υπ. Υψηλόβαθμοι Υπ. Χρήση Μέσω Ad-hoc προκατασκευασμένων φορμών Αριθμός Χρηστών Χιλιάδες εκάδες Εστίαση Εισαγωγή Εξαγωγή εδομένων Πληροφοριών Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 19 Εισαγωγή: Αποθήκη εδομένων Σύγκριση με ενοποίηση ετερογενών Σ Β Wrapper/mediators Με βάση την ερώτηση, μεταφράζεται ανάλογα, εκτελείται σε κάθε Σ Β και τα αποτελέσματα ενοποιούνται σε μια ολική απάντηση Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 20 Εξόρυξη Δεδομένων 2008-2009 10

Μοντέλο εδομένων και Λειτουργίες Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 21 Με λίγα λόγια Μια αποθήκη δεδομένων βασίζεται σε ένα πολυδιάστατο μοντέλο δεδομένων (multidimensional data model) που αναπαριστά τα δεδομένα με τη μορφή ενός κύβου δεδομένων (data cube) Ένας κύβος δεδομένων (data cube) επιτρέπει την μοντελοποίηση και την θεώρηση των δεδομένων από πολλές οπτικές γωνίες ιαστάσεις (dimensions)- Για συγκεκριμένες τιμές στις διαστάσεις μια Μέτρηση (Measure) αυτό που μας ενδιαφέρει να μετρήσουμε Item ιαστάσεις Location Time Εισαγωγή Παράδειγμα Κύβος ΠΩΛΗΣΕΙΣ Μέτρηση: Αριθμός Πωλήσεων για τις συγκεκριμένες διαστάσεις (Location, Item, Time) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 22 Εξόρυξη Δεδομένων 2008-2009 11

Ιεραρχίες ιαστάσεων Εννοιολογική Ιεραρχία Κάθε διάσταση παίρνει τιμές από διαφορετικά επίπεδα, μπορεί να εκφραστεί σε διαφορετικά επίπεδα λεπτομέρειας Διαστάσεις: Product, Region, Date Ιεραρχίες διαστάσεων: Industry Country Year Location Κύβος ΠΩΛΗΣΕΙΣ Category Region Quarter Item Product City Month Week Time Store Day Μέτρηση: Αριθμός Πωλήσεων για τις συγκεκριμένες διαστάσεις (Location, Item, Time) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 23 Εννοιολογική Ιεραρχία all Παράδειγμα: Εννοιολογική ιεραρχία (Concept Hierarchy) για Location all region Europe... North_America country Germany... Spain Canada... Mexico city Frankfurt... Vancouver... Toronto office Πεδίο Τιμών L. Chan... M. Wind Αντίστοιχες Τιμές Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 24 Εξόρυξη Δεδομένων 2008-2009 12

Εννοιολογικό Μοντέλο Μοντέλο εδομένων (Σχήμα) Σε σχεσιακό μοντέλο Πίνακες ιαστάσεων Πίνακας με πληροφορία σχετικά με κάθε διάσταση Ιtem (item_name, brand, type), Τime(day, week, month, quarter, year) Πίνακας γεγονότων (Fact Table) έχει ως γνωρίσματα: τις μετρήσεις (πχ αριθμός πωλήσεων, τιμή σε δολάρια, κλπ) + το πρωτεύον κλειδί κάθε σχετικού πίνακα διαστάσεων Σχήμα Αστέρι (Star schema) Πίνακας γεγονότων στο κέντρο που συνδέεται με ένα σύνολο από πίνακες διαστάσεων Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 25 Εννοιολογικό Μοντέλο time time_key day day_of_the_week month quarter year branch branch_key branch_name branch_type Παράδειγμα Σχήματος Αστεριού Μετρήσεις Πίνακας Γεγονότων ΠΩΛΗΣΕΙΣ time_key item_key branch_key location_key units_sold dollars_sold avg_sales item item_key item_name brand type supplier_type location location_key street city state_or_province country 4 διαστάσεις (time, item, location, branch) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 26 Εξόρυξη Δεδομένων 2008-2009 13

Εννοιολογικό Μοντέλο Παράδειγμα Σχήματος Αστεριού Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 27 Εννοιολογικό Μοντέλο Σχήμα Νιφάδας (Snowflake schema) Μια βελτίωση του σχήματος αστέρι όπου η ιεραρχία διαστάσεων κανονικοποιείται σε ένα σύνολο από μικρότερους πίνακες διαστάσεων Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 28 Εξόρυξη Δεδομένων 2008-2009 14

Εννοιολογικό Μοντέλο time time_key day day_of_the_week month quarter year branch branch_key branch_name branch_type Παράδειγμα Σχήματος Νιφάδας Μετρήσεις Πίνακας Γεγονότων ΠΩΛΗΣΕΙΣ time_key item_key branch_key location_key units_sold dollars_sold avg_sales item item_key item_name brand type supplier_key location location_key street city_key supplier supplier_key supplier_type city_key city state_or_province country Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 29 city Εννοιολογικό Μοντέλο Αστερισμοί Γεγονότων (Fact constellations) Πολλαπλοί Πίνακες Γεγονότων που μοιράζονται τους Πίνακες ιαστάσεων, μπορούμε να τους δούμε ως συλλογή από αστέρια και άρα ως Αστερισμό Γεγονότων ή Σχήμα Γαλαξία (galaxy schema) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 30 Εξόρυξη Δεδομένων 2008-2009 15

Εννοιολογικό Μοντέλο time time_key day day_of_the_week month quarter year branch branch_key branch_name branch_type Παράδειγμα Σχήματος Αστερισμού Γεγονότων Μετρήσεις Πίνακας Γεγονότων ΠΩΛΗΣΕΙΣ time_key item_key branch_key location_key units_sold dollars_sold avg_sales item item_key item_name brand type supplier_type location location_key street city province_or_state country Πίνακας Γεγονότων ΑΠΟΣΤΟΛΗ time_key item_key shipper_key from_location to_location dollars_cost units_shipped shipper shipper_key shipper_name location_key shipper_type Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 31 Κύβος εδομένων Ορολογία Συχνά ο n-d κύβος λέγεται βασικός κυβοειδής (base cuboid). Στο παράδειγμα ο κύβος με τις τέσσερεις διαστάσεις (Item, Time, Branch, Location) O 0-D cuboid που περιέχει τη μεγαλύτερο επίπεδο περίληψης, apex cuboid. Το πλέγμα των κυβοειδών κύβος δεδομένων. Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 32 Εξόρυξη Δεδομένων 2008-2009 16

Πλέγμα Κυβοειδών Κύβος δεδομένων Κύβος εδομένων all time item location supplier 0-D (apex) cuboid 1-D cuboids time, item time, location item, location location, supplier time, supplier item, supplier 2-D cuboids time, item, location time, item, supplier time, location, supplier item, location, supplier 3-D cuboids time, item, location, supplier 4-D (base) cuboid Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 33 Παράδειγμα Ιεραρχιών Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 34 Εξόρυξη Δεδομένων 2008-2009 17

Οπτικοποίηση Κύβου Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 35 Servers & Τεχνολογικές λύσεις DW: Σχεσιακά και επεκτεταμένα σχεσιακά DBMS OLAP: Relational OLAP (ROLAP) Multidimensional OLAP (MOLAP) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 36 Εξόρυξη Δεδομένων 2008-2009 18

Σχεσιακά Σ Β & Αποθήκες εδομένων Εξειδικευμένες τεχνικές δεικτοδότησης (indexing) Εξειδικευμένες τεχνικές συνένωσης (join) ιαμοίραση των δεδομένων (data partitioning) και χρήση παράλληλων τεχνικών Εξειδικευμένες τεχνικές αποθήκευσης και επεξεργασίας ερωτήσεων για συναθροίσεις δεδομένων (aggregates) Επεκτάσεις της SQL και της επεξεργασίας των σχετικών ερωτήσεων Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 37 ROLAP Servers Βασική ιδέα: χρήση ενός RDBMS ως μέσου αποθήκευσης και επερώτησης (με όλα τα σχετικά πλεονεκτήματα) Επιπλέον λειτουργικότητα των client εργαλείων: υνατότητα επαναχρησιμοποίησης συναθροίσεων Χρήση multi statement SQL Βελτιστοποίηση των ερωτήσεων ανά RDBMS Αργά ως συστήματα (μέχρι στιγμής τουλάχιστον) + υνατότητα υποβολής οποιασδήποτε ερώτησης + Εύκολη χρήση από τους administrators που γνώριζαν τη σχεσιακή τεχνολογία Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 38 Εξόρυξη Δεδομένων 2008-2009 19

Πλάνο και στατιστικά από ένα ROLAP εργαλείο select a3.eksam_foit_code EKSAM_FOIT_CODE, max(a3.descr) DESCR, a2.sex SEX, (SUM(a1.FOO1)) M0000000 from FACT1 a1, PERFORMANCE METRICS (Seconds) FOITITIS a2, Loading Parameters: 0,0 EKSAM_FOIT a3 SQL Generation: 0,4 where a2.foititis_code = a1.foititis_code Executing Query: 0,3 and a1.eksam_foit_code = a3.eksam_foit_code Results Processing: 0,8 ---------------------------------------------------------------------------- and (((((((a2.sex = '1')) Total Machine Time: 1,5 and ((EXISTS (select * Rows returned from Database : 24 from EKSAM_FOIT m1 where m1.eksam_foit_code = a3.eksam_foit_code and m1.category = 'ΕΑΡΙΝΟ')))) or (((a2.sex = '2')) and ((EXISTS (select * from EKSAM_FOIT m1 where m1.eksam_foit_code = a3.eksam_foit_code and m1.category = 'ΕΑΡΙΝΟ'))))) or (((a2.sex = '1')) and ((EXISTS (select * from EKSAM_FOIT m1 where m1.eksam_foit_code = a3.eksam_foit_code and m1.category = 'ΧΕΙΜΕΡΙΝΟ'))))) or (((a2.sex = '2')) and ((EXISTS (select * from EKSAM_FOIT m1 where m1.eksam_foit_code = a3.eksam_foit_code and m1.category = 'ΧΕΙΜΕΡΙΝΟ')))))) group by a3.eksam_foit_code, a2.sex Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 39 Πολυδιάστατοι πίνακες REGION N S W PRODUCT Juice Cola Soap 10 13 Jan MONTH Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 40 Εξόρυξη Δεδομένων 2008-2009 20

MOLAP Servers Η αποθήκευση γίνεται σε πολυδιάστατους πίνακες (multi-dimensional arrays) «πίνακες» με την έννοια της άλγεβρας / γλωσσών προγραμματισμού /..., και όχι του σχεσιακού μοντέλου Χρήση τεχνικών συμπιέσεως (οι πίνακες είναι αραιοί σε βαθμό ως και 80%) Στις αρχές του 2002 είχαν το 98% τηςαγοράςστοπεδίοτωνclient tools + Πολύ γρήγοροι υπολογισμοί των λειτουργιών OLAP - Κανονικά απαιτούν τον προϋπολογισμό των απαραίτητων συναθροίσεων Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 41 Υλοποίηση πολυδιάστατων πινάκων Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 42 Εξόρυξη Δεδομένων 2008-2009 21

Μετρήσεις - Συναθροίσεις Εκτός από τις λεπτομερείς πληροφορίες των fact tables, μπορεί να υπολογίσουμε και συναθροίσεις των δεδομένων για καλύτερους χρόνους απόκρισης. Για παράδειγμα, αν ο fact table είναι SALES(GeographyCode, ProductCode, TimeCode, AccountCode, Amount, Unit) μπορούμε να υπολογίσουμε AVG(Sales) ανά Region, Product, Quarter MAX(Sales) ανά Brand,Month, με Region = Europe SUM(Sales) ανά City Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 43 Μετρήσεις - Συναθροίσεις Υπάρχουν τρεις κατηγορίες μετρήσεων: Κατανεμημένες (Distributive): αν μπορούμε να διαμερίσουμε τα δεδομένα και να υπολογίσουμε τη συναθροιστική συνάρτηση σε κάθε διαμέριση ξεχωριστά και σχεδόν άμεσα από αυτές τις τιμές να υπολογίσουμε την ολική τιμή Πχ count(), sum(), min(), max() Αλγεβρικές (Algebraic): πάλι μπορούμε να υπολογίσουμε την ολική τιμή της συνάρτησης από τις τιμές της συνάρτησης στις διαμερίσεις χρησιμοποιώντας M γνωρίσματα (όπου M σταθερά), Πχ. avg(), min_n(), standard_deviation() Ολιστικές (Holistic): δεν υπάρχει όριο (πολυπλοκότητα) σταθερής τάξης για το χώρο αποθήκευσης που χρειαζόμαστε για τον υπολογισμό της ολικής τιμής από τις τιμές στις διαμερίσεις, Πχ. median(), mode(), rank() Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 44 Εξόρυξη Δεδομένων 2008-2009 22

Βασικές Πράξεις Παράδειγμα TV PC VCR sum Product Date 1Qtr 2Qtr 3Qtr 4Qtr sum Total annual sales of TV in U.S.A. U.S.A Canada Mexico Country sum Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 45 Συναθροίσεις εδομένων Χωριστός πίνακας/όψη αθροισμάτων Sales table RID City Amount 1 Athens $100 2 N.Y. $300 3 Rome $120 4 Athens $250 5 Rome $180 6 Rome $65 7 N.Y. $450 City-dimension sum table City Amount Athens $350 N.Y. $750 Rome $365 Επέκταση του υπάρχοντος βασικού πίνακα: Ενσωμάτωση των αθροιστικών εγγραφών στον βασικό (base/basic) fact table + μια επιπλέον στήλη που να εξηγεί το επίπεδο συνάθροισης Extended Sales table sum RID City Amount Level 1 Athens $100 NULL 2 N.Y. $300 NULL 3 Rome $120 NULL 4 Athens $250 NULL 5 Rome $180 NULL 6 Rome $65 NULL 7 N.Y. $450 NULL 8 Athens $350 City 9 N.Y. $750 City 10 Rome $365 City Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 46 Εξόρυξη Δεδομένων 2008-2009 23

Βασικές Αλγεβρικές Πράξεις Συναθροιστική Άνοδος (Roll up): συνάθροιση της πληροφορίας = μετάβαση από χαμηλότερο σε υψηλότερο επίπεδο αδρομέρειας (π.χ. από day σε month) Αναλυτική Κάθοδος (Drill down): το αντίστροφο του Roll up (π.χ month σε day) Οριζόντιος Τεμαχισμός (Slice): (σχεσιακή) επιλογή Κάθετος Τεμαχισμός (Dice): (σχεσιακή) προβολή Περιστροφή (Pivot): αναδιάταξη της 2D προβολής του πολυδιάστατου κύβου στην οθόνη Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 47 Βασικές Αλγεβρικές Πράξεις Roll-up Η συναθροιστική άνοδος περιλαμβάνει τον υπολογισμό μίας συνολικής τιμής για μία θέση στην ιεραρχία μίας διάστασης δεδομένων. Για παράδειγμα, με ένα roll-up, οι πωλήσεις σε επίπεδο τοπικών μαγαζιών (Store) παράγουν τις συνολικές πωλήσεις σε επίπεδο πόλης (City) και αυτές με τη σειρά τους με ένα ακόμα roll-up παράγουν τις πωλήσεις σε επίπεδο περιοχής (Region). Industry Category Product Country Year Region Quarter City Month Week Store Day Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 48 Εξόρυξη Δεδομένων 2008-2009 24

Βασικές Αλγεβρικές Πράξεις Roll-up (Παράδειγμα) Industry Country Year Category Region Quarter Q1 Q2 Sales volume Products Electronics Toys Clothing Cosmetics Electronics Toys Clothing Cosmetics Store1 Store2 $5,2 $1,9 $2,3 $1,1 $8,9 $0,75 $4,6 $1,5 $5,6 $1,4 $2,6 $1,1 $7,2 $0,4 $4,6 $0,5 Χρόνος: Επίπεδο Quarter Product Year 1996 City Store Sales volume Products Electronics Toys Clothing Cosmetics Month Week Day Store1 Store2 $14,1 $2,65 $6,9 $2,6 Χρόνος: Επίπεδο Year $12,8 $1,8 $7,2 $1,6 SUM(Sales volumes) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 49 Βασικές Αλγεβρικές Πράξεις Drill-Down Ο χρήστης περνά από ένα ανώτερο επίπεδο μίας διάστασης που έχει συγκεντρωτικά δεδομένα σε ένα χαμηλότερο επίπεδο με πιο λεπτομερή δεδομένα. Πρόκειται για την αντίστροφη πράξη του roll-up. Για παράδειγμα, κατά το drill down, ξεκινάμε από τις πωλήσεις ανά περιοχή (Region) και παίρνουμε τις αναλυτικές πωλήσεις ανά πόλη (City) και μετά τις πωλήσεις ανά κατάστημα (Store). Industry Category Country Region Year Quarter Product City MonthWeek Store Day Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 50 Εξόρυξη Δεδομένων 2008-2009 25

Βασικές Αλγεβρικές Πράξεις Drill-down (Παράδειγμα) Industry Category Country Region Year Quarter Product City Store Month Week Day Q1 Q2 Sales volume Products Electronics Toys Clothing Cosmetics Electronics Toys Clothing Cosmetics Store1 Store2 $5,2 $1,9 $2,3 $1,1 $8,9 $0,75 $4,6 $1,5 Item: Επίπεδο Industry $5,6 $1,4 $2,6 $1,1 $7,2 $0,4 $4,6 $0,5 Q1 Q2 Sales volume Electronics Store1 Store2 VCR Camcorder TV CD player VCR Camcorder TV CD player $1,4 $0,6 $2,0 $1,2 $2,4 $3,3 $2,2 $1,0 $1,4 $0,6 $2,4 $1,2 $2,4 $1,3 $2,5 $1,0 Item: Επίπεδο Category Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 51 Βασικές Αλγεβρικές Πράξεις Περιστροφή (Pivot) Εναλλαγή των γραμμών και των στηλών του κύβου, όπως αυτός παρουσιάζεται στην οθόνη εν απαιτείται κανένας νέος υπολογισμός στη Β Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 52 Εξόρυξη Δεδομένων 2008-2009 26

Βασικές Αλγεβρικές Πράξεις Pivot (Παράδειγμα) Sales volume Sales volume Q1 Q2 Products Electronics Toys Clothing Cosmetics Electronics Toys Clothing Cosmetics Store1 Store2 $5,2 $1,9 $2,3 $1,1 $8,9 $0,75 $4,6 $1,5 $5,6 $1,4 $2,6 $1,1 $7,2 $0,4 $4,6 $0,5 Store 1 Store 2 Products Q1 Q2 Electronics Toys Clothing Cosmetics Electronics Toys Clothing Cosmetics $5,2 $1,9 $2,3 $1,1 $5,6 $1,4 $2,6 $1,1 $8,9 $0,75 $4,6 $1,5 $7,2 $0,4 $4,6 $0,5 Εναλλαγή γραμμών και στηλών Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 53 Βασικές Αλγεβρικές Πράξεις Οριζόντιος (slice) και Κάθετος (dice) Τεμαχισμός Slice : Επιλογή συγκεκριμένων τιμών σε κάποια διάσταση (select) Π.χ., διώξε το Store 2 από τα καταστήματα και τις βιομηχανίες Clothing και Cosmetics Dicing : Σβήσιμο μιας ολόκληρης διάστασης (project) Π.χ., από ένα κύβο πωλήσεων ανά προϊόν, ημερομηνία και περιοχή, να δειχθεί ο μέσος όρος πωλήσεων ανά προϊόν και ημερομηνία. Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 54 Εξόρυξη Δεδομένων 2008-2009 27

Βασικές Αλγεβρικές Πράξεις Slice&Dice (Παράδειγμα) Q1 Q2 Sales volume Products Electronics Toys Clothing Cosmetics Electronics Toys Clothing Cosmetics Store1 Store2 $5,2 $1,9 $2,3 $1,1 $8,9 $0,75 $4,6 $1,5 $5,6 $1,4 $2,6 $1,1 $7,2 $0,4 $4,6 $0,5 Q1 Q2 Sales volume Products Electronics Toys Electronics Toys Store1 $5,2 $1,9 $8,9 $0,75 Διώξε το Store 2 και τις βιομηχανίες Clothing & Cosmetics Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 55 location (cities) Toronto 395 Vancouver time (quarters) Q1 Q2 605 computer home entertainment item (types) dice for (location = Toronto or Vancouver ) and (time = Q1 or Q2 ) and (item = home entertainment or computer ) location (countries) USA 2000 Canada time (quarters) roll-up on location (from cities to countries) Q1 1000 Q2 Q3 Q4 computer security home phone entertainment item (types) Fig. 3.10 Typical OLAP Operations location (cities) item (types) Chicago New York Toronto Vancouver home entertainment computer phone 605 825 14 400 computer home entertainment phone item (types) pivot security 605 825 14 Chicago 440 New York Toronto 395 1560 Vancouver Q1 605 825 14 400 Q2 Q3 Q4 slice computer security for time = Q1 home phone entertainment location (cities) time (quarters) item (types) Vancouver January February March April May June July August September October November Chicago New York Toronto December security 400 computer security New York Vancouver home phone Chicago Toronto entertainment Εξόρυξη Δεδομένων: Ακ. Έτος location 2008-2009 (cities) Αποθήκες Δεδομένων item (types) 56 time (months) location (cities) drill-down on time (from quarters to months) 150 100 150 Εξόρυξη Δεδομένων 2008-2009 28

Βασικές Αλγεβρικές Πράξεις Τελεστής Rollup group by rollup product, store, city group by product, store, city group by store, city group by city Rollup & Cube Τελεστής Cube για όλους τους δυνατούς συνδυασμούς group by cube product, store, city group by κάθε υποσύνολο του {product, store, city}, ανεξάρτητα από τη σειρά που έδωσα στις στήλες αυτές στην εντολή Το αποτέλεσμα των τελεστών δεν παράγει πολλούς μικρούς πίνακες, αλλά έναν πίνακα με εγγραφές με NULL όπου δεν αντιστοιχεί τιμή Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 57 Τελεστές Rollup και Cube Aggregate Sum RED WHITE BLUE Jim Gray Adam Bosworth Andrew Layman Microsoft Group By (with total) By Color Sum RED WHITE BLUE By Make Hamid Pirahesh IBM Cross Tab Chevy Ford By Color select color, make, year, sum(units) from car_sales where make in { chevy, ford } and year between 1990 and 1994 group by cube color, make, year having sum(units) > 0; Sum By Make & Year By Year FORD CHEVY By Color & Year Sum 1990 1991 1992 By Color 1993 By Make RED WHITE BLUE By Make & Color Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 58 Εξόρυξη Δεδομένων 2008-2009 29

Αρχιτεκτονική Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 59 Αρχιτεκτονική Μετασχηματισμοί (Back-End) Front-End DW Πηγή Δεδομένων OLTP συστήματα Data Marts OLAP εργαλεία Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 60 Εξόρυξη Δεδομένων 2008-2009 30

Αρχιτεκτονική Πολλών Επιπέδων Multi-tier Αρχιτεκτονική Άλλες πηγές Metadata Monitor & Integrator OLAP Server ΒΔ σε λειτουργία Extract Transform Load Refresh Αποθήκη Δεδομένων Serve Analysis Query Reports Data mining Data Marts Πηγές εδομένων Αποθήκευση εδομένων Μηχανή OLAP Front-End Εργαλεία Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 61 Αρχιτεκτονική Πολλών Επιπέδων Multi-tier Αρχιτεκτονική Άλλες πηγές Metadata Monitor & Integrator OLAP Server ΒΔ σε λειτουργία Extract Transform Load Refresh DSA Αποθήκη Δεδομένων Serve Analysis Query Reports Data mining Data Marts Πηγές εδομένων Αποθήκευση εδομένων Μηχανή OLAP Front-End Εργαλεία Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 62 Εξόρυξη Δεδομένων 2008-2009 31

Αρχιτεκτονικές Μονάδες Sources (Πηγές): Κάθε πηγή από την οποία η Αποθήκη εδομένων αντλεί δεδομένα. {Data Staging Area (DSA): Μια Β στην οποία εκτελούνται οι μετασχηματισμοί και ο καθαρισμός των δεδομένων πριν την φόρτωση στην Αποθήκη εδομένων} Αποθήκη εδομένων (DW), Συλλογές εδομένων : Τα συστήματα που αποθηκεύονται τα δεδομένα που παρέχονται προς τους χρήστες. Data Marts: υποσύνολα της αποθήκης Βάση Μετα- εδομένων (Metadata Repository): Το υποσύστημα αποθήκευσης πληροφορίας σχετικά με τη δομή και λειτουργία όλου του συστήματος. Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 63 Λεξικό Μεταπληροφορίας Τα μετα-δεδομένα είναι τα δεδομένα που ορίζουν τα αντικείμενα της αποθήκης δεδομένων. Περιέχουν Περιγραφή της δομής της αποθήκης δεδομένων Σχήμα, όψεις, διαστάσεις, ιεραρχίες, την τοποθεσία των data mart και το περιεχόμενο τους, κλπ Λειτουργικά μεταδεδομένα data lineage (την ιστορία των δεδομένων που μεταφέρθηκαν και ποιοι μετασχηματισμοί χρησιμοποιήθηκαν), στοιχεία για το πόσο ενημερωμένα/πρόσφατα είναι, πληροφορία επίβλεψης (monitoring) για τη λειτουργία της αποθήκης (στατιστικά στοιχεία λειτουργίας, error reports, audit trails) Τους αλγορίθμους που χρησιμοποιηθήκαν για τις περιλήψεις Την απεικόνιση του λειτουργικού περιβάλλοντος στην αποθήκη δεδομένων εδομένα σχετικά με την απόδοση του συστήματος Business data Πολιτικές χρέωσης, ιδιοκτησίας δεδομένων, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 64 Εξόρυξη Δεδομένων 2008-2009 32

Αρχιτεκτονική: Μετασχηματισμοί Back-End Εργαλεία ETL (Extract-Transform-Load) εφαρμογές: Εφαρμογές που εκτελούν τις διαδικασίες Εξαγωγής, μεταφοράς, μετασχηματισμού, καθαρισμού και φόρτωσης των δεδομένων από τις πηγές στην Αποθήκη εδομένων. Front-End Εργαλεία Εφαρμογές Ανάλυσης: Εφαρμογές παραγωγής αναφορών, OLAP, DSS, Data Mining Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 65 Μετασχηματισμοί Back-End Εργαλεία Data extraction Φέρε δεδομένα από πολλαπλές, ετερογενείς και εξωτερικές πηγές Data cleaning Εντοπισμός λαθών στα δεδομένα και διόρθωση τους όταν είναι δυνατόν Παραδείγματα: εδομένα που παραβιάζουν τους κανόνες της βάσης: διπλοεγγραφές, παραβιάσεις πρωτεύοντος ή ξένου κλειδιού, τιμές εκτός ορίων, παραβιάσεις λογικών κανόνων, κλπ Συνώνυμα και συγκρούσεις Ελλιπή δεδομένα Ομογενοποίηση κλειδιού Data transformation Μετατροπή των δεδομένων από το τοπικό format στο format της αποθήκης Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 66 Εξόρυξη Δεδομένων 2008-2009 33

Μετασχηματισμοί Load Ταξινόμηση, δημιουργία περίληψης, ενοποίηση (consolidate), υπολογισμός όψεων, έλεγχος integrity, δημιουργία ευρετηρίων και διαμερίσεων Η ενημέρωση / εισαγωγή δεδομένων στην πράξη δε γίνεται μέσω SQL, συνήθως μέσω εργαλείων batch loading πουδιαθέτουνόλατασ Β Refresh Back-End Εργαλεία Μετέφερε τις τροποποιήσεις από τις πηγές δεδομένων στην αποθήκη δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 67 Εργαλεία για την Υποστήριξη Αποφάσεων Front-End Εργαλεία Ad hoc ερωτήσεις και αναφορές Π.χ.,: MS Excel, Oracle Forms, OLAP pivot tables, drill down, roll up, slice, dice Data Mining Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 Αποθήκες Δεδομένων 68 Εξόρυξη Δεδομένων 2008-2009 34