Εισαγωγή στις Αποθήκες εδομένων



Σχετικά έγγραφα
Εισαγωγή στις Αποθήκες εδομένων

Εισαγωγή στις Αποθήκες εδοµένων

Αποθήκες Δεδομένων. Αρχιτεκτονική, Μοντέλο Δεδομένων και Σχεδίαση

Άμεση Αναλυτική Επεξεργασία (OLAP)

Άμεση Αναλυτική Επεξεργασία (OLAP)

Αποθήκες Δεδομένων. Αποθήκες και εξόρυξη δεδομένων 6 ο εξάμηνο

Συστήματα OLAP. Πασχάλης Θρήσκος, PhD Λάρισα

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Αποθήκες Δεδομένων & Πολυδιάστατη Ανάλυση

Data Cube. Μ.Χατζόπουλος 1

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ -2

Data Warehouse Refreshment via ETL tools. Panos Vassiliadis

Βάσεις Δεδομένων ΙΙ. Διάλεξη 7 η Aποθήκες Δεδομένων και OLAP (On-line Analytical Processing)

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, ίαυλος ιαφάνεια 29-1

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

ΑΝΑΣΚΟΠΗΣΗ. Αποθήκες και Εξόρυξη Δεδομένων

ΣΤΡΑΤΗΓΙΚΟ MANAGEMENT KAI EΠΙΧΕΙΡHΜΑΤΙΚΗ ΕΥΦΥΙΑ. Παρουσίαση 2 ο μέρος:

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Λήψη απόφασης, Συστήματα Υποστήριξης Αποφάσεων, OLAP Ανάλυση, Περιβαλλοντική Εκπαίδευση ΕΙΣΑΓΩΓΗ

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking)

ΑΛΕΞΑΝΔΡΕΙΟ Τ.Ε.Ι ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Orchid: Integrating Schema Mapping and ETL ICDE 2008

PROJECT ΕΡΓΑΣΤΗΡΙΩΝ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Ι. Τμήμα Μηχανικών Πληροφορικής Τ.Ε.

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

4 Πολυδιάστατη Ανάλυση και Αποθήκες Δεδομένων

Υποστήριξη Αποφάσεων. Γεώργιος Ευαγγελίδης. (βασισμένο στο κεφ. 23 του βιβλίου «Συστήματα Διαχείρισης Βάσεων Δεδομένων»)

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

11.1. Θεωρητικό υπόβαθρο για τους κύβους δεδομένων και την πολυδιάστατη ανάλυση

Business Development, SAP Hellas 01/12/2007

4. ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΠΟΛΥΔΙΑΣΤΑΤΗΣ ΑΝΑΛΥΣΗΣ

Επισκόπηση Μαθήµατος

ΑΠΟΘΗΚΕΣ Ε ΟΜΕΝΩΝ Σ. ΛΙΓΟΥ ΙΣΤΙΑΝΟΣ

Τίτλος Πακέτου Certified Computer Expert-ACTA

«Χωροχρονικές Αποθήκες εδοµένων και η Εφαρµογή τους στην Περίπτωση της Αγοράς Ακινήτων»

Προηγμένα Πληροφοριακά Συστήματα. Ακαδημαϊκό Έτος

Σχεδιασμός Βάσεων Δεδομένων

Γενικό πλαίσιο. Απαιτήσεις Μοντέλο εδοµένων. MinusXLRequirements. Απόστολος Ζάρρας

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL

Διαχείριση Πολιτισμικών Δεδομένων

ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΖΩΓΡΑΦΟΥ , ΑΘΗΝΑ

Μοντέλο Διαστάσεων Αρχιτεκτονική Αποθηκών Δεδομένων. Πασχάλης Θρήσκος, PhD Λάρισα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Συστήματα Διαχείρισης Βάσεων Δεδομένων

Εισαγωγή σε SQL Server Reporting Services

Διαχείριση Δεδομένων

ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ. Πετρογεωργάκης Μανούσος Σπυρόπουλος Σταύρος

Πανεπιστήμιο Πειραιώς. Τμήμα Ψηφιακών Συστημάτων Π.Μ.Σ. «Διδακτική της Τεχνολογίας & Ψηφιακά Συστήματα» Κατεύθυνση Ψηφιακών Επικοινωνιών και Δικτύων

Σχεδίαση και Ανάπτυξη Απ ποθηκών Δεδομένωνν

Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων: Μέρος Β

Certified Data Base Designer (CDBD)

Εισαγωγή στις βασικές έννοιες των Βάσεων Δεδομένων

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Πρόγραµµα Μεταπτυχιακών Σπουδών «Πληροφορική»

Information Technology for Business

Σχεσιακό Μοντέλο (Γρήγορη επανάληψη) Πασχάλης Θρήσκος PhD Λάρισα

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ

ΟΛΟΚΛΗΡΩΜΕΝΟ ΠΛΗΡΟΦΟΡΙΑΚΟ ΣΥΣΤΗΜΑ ΝΑΥΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΟΠΣ-ΝΕ

Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL

Ramez Elmasri and Shamkant B. Navathe Ελληνική Εκδόσεις Δίαυλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 1-1

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ - ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΒΔ - ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΟΝΤΕΛΟ ΟΝΤΟΤΗΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access...9. Κεφάλαιο 2 Χειρισμός πινάκων... 25

Μια ολοκληρωμένη, διαχρονική και μόνιμη συλλογή δεδομένων οργανωμένη κατά αντικείμενο ανάλυσης με στόχο τη διαδικασία υποστήριξης λήψης αποφάσεων -

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Επιβλέπων: ΠΟΤΗΡΑΚΗΣ ΑΝΤΩΝΙΟΣ

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

SQL Data Manipulation Language

Query-by-Example (QBE)

Βάσεις Δεδομένων Ι. 5 ο Φροντιστήριο. Πέρδικα Πολίνα [perdika]

Ορισμοί Σχεσιακού Μοντέλου και (απλές)τροποποιήσεις Σχέσεων στην SQL. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο

Εισαγωγή Κεφάλαιο 1: Εγκατάσταση της Access Κεφάλαιο 2: Βάσεις δεδομένων και δομικά στοιχεία της Access

GROUP BY, HAVING, COUNT, MIN, MAX, SUM, AVG, ROLLUP.

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 1: Ορισμοί βασικών εννοιών: Μια πρώτη μοντελοποίηση. Ευαγγελίδης Γεώργιος Τμήμα Εφαρμοσμένης Πληροφορικής

Η SQL αποτελείται από δύο υποσύνολα, τη DDL και τη DML.


ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

Προγραμματισμός ταμειακής ροής για αγορές υλικών

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

14Ιαν Νοε

Σχεδιασμός Επεξεργασίας και Τηλεπεξεργασίας

ΗΥ-360 Αρχεία και Βάσεις Δεδομένων Διδάσκων: Δ. Πλεξουσάκης. Φροντιστήριο SQL Examples ΙΙ Ξένου Ρουμπίνη

Προγραμματισμός Η/Υ (ΤΛ2007 )

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

Κεφάλαιο 2 ο. Συστήματα Πληροφοριών στην επιχείρηση

ΕΞΑΓΩΓΗ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΜΕΤΑΦΟΡΤΩΣΗ (EXTRACT, TRANSFORM, LOAD) Πασχάλης Θρήσκος, PhD Λάρισα

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Συστήματα ΟΔΕΠ (Ολοκληρωμένης. Διαχείρισης Επιχειρησιακών Πόρων)- ERP (Enterprise Resource Planning)

Προγράμματα Η /Υ / Εφαρμογές σε συστ ήματα Π ό οι τητας Αριστομένης Μακρής

Το εσωτερικό ενός Σ Β

Εισαγωγή στα Συστήματα Βάσεων εδομένων

Transcript:

Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 1 Εισαγωγή: OLTP Παραδοσιακή ιαχείριση εδομένων με Σ Β Σύστημα Επεξεργασίας οσοληψιών On-Line Transaction Processing (OLTP) Εισαγωγή στις Αποθήκες εδομένων ιαφάνειες βασισμένες σε σχετικές διαφάνειες του Πάνου Βασιλειάδη Ένα πλήρες σύστημα που περιέχει εργαλεία για προγραμματισμό εφαρμογών, εκτέλεση και διαχείριση των δοσοληψιών Μια τέτοια εφαρμογή πρέπει να δουλεύει συνεχώς, να αντεπεξέρχεται αποτυχιών, εξελίσσεται συνεχώς, είναι συνήθως κατανεμημένη και περιλαμβάνει: Βάση εδομένων ίκτυο Προγράμματα εφαρμογής Εξαιρετικά κρίσιμη για τη λειτουργία κάθε οργανισμού Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 2 Εισαγωγή: OLTP Εισαγωγή: OLTP OLTP Αεροπορική Εταιρεία OLTP Τράπεζα Κράτησε για γιατον κ. κ. Χ την τηνθέση 13Α 13Αγια γιαla! 1 Δάνεια Κράτησε για γιατον κ. κ. Y την τηνθέση 13Α 13Αγια γιαla!... Γκισέ DB Πόσοι ταξιδεύουν για γιαla? 100 ΑΤΜ DB Πιστωτικές κάρτες Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 3 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 4 Εισαγωγή: OLTP Εισαγωγή: OLΑP OLTP Βασικά Χαρακτηριστικά Ελάχιστος χρόνος διαθέσιμος για την εκτέλεση μιας δοσοληψίας. Λιγότερες από 10 προσβάσεις δίσκου. Περιορισμένος αριθμός υπολογισμών. Κάτω όριο λειτουργικών απαιτήσεων: 100 on-line Transactions Per Second (TPS) σε μια Β της τάξης του 1 GB Άνω όριο λειτουργικών απαιτήσεων: 50000 TPS σε μια Β μεγαλύτερη του 1 ΤB. Συστήματα Στήριξης Αποφάσεων Decision Support Systems (DSS) Υποβοήθηση λήψης αποφάσεων με πληροφορίες και αναφορές On-Line Analytical Processing (OLAP) Ευέλικτη, υψηλής απόδοσης πρόσβαση και ανάλυση μεγάλου όγκου σύνθετων δεδομένων από διαφορετικές εφαρμογές Ειδικού τύπου ερωτήσεις Οπτικοποίηση/στατιστική ανάλυση/πολυδιάστατη ανάλυση Εξόρυξη Γνώσης (Knowledge Discovery/Data Mining) Εξεύρεση προτύπων σε τεράστιεςβάσειςδεδομένων OLAP + Data Mining => On-line Analytical Mining Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 5 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 6

Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 7 Εισαγωγή: OLΑP Εισαγωγή: OLΑP Παραδείγματα ερωτήσεων OLAP Ποιος ήταν ο όγκος πωλήσεων ανά περιοχή και κατηγορία προϊόντος την περασμένη χρονιά; Πόσο σχετίζονται οι αυξήσεις τιμών των υπολογιστών με τα κέρδη τωνπωλήσεωντα10 τελευταία χρόνια; Ποια ήταν τα δέκα πρώτα καταστήματα σε πωλήσεις CD; Πόσους δίσκους πουλήσαμε στην Πελοπόννησο το τελευταίο τέταρτο της περσινής χρονιάς σε καταστήματα με κατανάλωση μεγαλύτερη από 100 δίσκους μηνιαίως, και ποιο το κέρδος μας από αυτές τις πωλήσεις; Τι ποσοστό από τους πελάτες που αγοράζουν αναψυκτικά αγοράζουν και πατατάκια; Λειτουργικά Χαρακτηριστικά Απαιτήσεων OLAP Πρόσβαση σε μεγάλο όγκο δεδομένων Συμμετοχή αθροιστικών και ιστορικών δεδομένων σε πολύπλοκες ερωτήσεις Μεταβολή της «οπτικής γωνίας» παρουσίασης των δεδομένων (π.χ., από πωλήσεις ανά περιοχή -> πωλήσεις ανά τμήμα κλπ.) Συμμετοχή πολύπλοκων υπολογισμών (π.χ. στατιστικές συναρτήσεις) Γρήγορη απάντηση σε οποιαδήποτε χρονική στιγμή τεθεί ένα ερώτημα ( On-Line ). Πως θα το πετύχουμε; Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 8 Εισαγωγή ύο κεντρικά θέματα Απόδοση Αν μια πολύπλοκη OLAP ερώτηση χρειαστεί να κλειδώσει ένα ολόκληρο πίνακα, τότε όλες οι OLTP δοσοληψίες την περιμένουν μέχρι να τελειώσει Εννοιολογική διαφορά και ετερογένεια Αν στην Oracle Β του marketing ο πελάτης είναι EMP(ΑΤ,Name,Surname ) και στην COBOL Β των πωλήσεων είναι ΑΦΜ,FullName, η επερώτηση δεν είναι πάντα εύκολη... Αποθήκες εδομένων Μια κεντρικοποιημένη Β με σκοπό: την ολοκλήρωση (integration) ετερογενών πηγών πληροφοριών (data sources) => συνάθροιση όλης της ενδιαφέρουσας πληροφορίας σε μία τοποθεσία την αποφυγή της σύγκρουσης μεταξύ OLTP και OLAP (DSS) συστημάτων => απόδοση εφαρμογών και διαθεσιμότητα του συστήματος Μπορεί να συμπληρώνεται και από εξειδικευμένα θεματικά υποσύνολα (Data Marts) για περαιτέρω απόδοση των OLAP εφαρμογών Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 9 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 10 Αποθήκες εδομένων Γενική Αρχιτεκτονική Μια Β υποστήριξης αποφάσεων, που διατηρείται χωριστά από την Β παραγωγής (operational database) ενός οργανισμού. S. Chaudhuri, U. Dayal, VLDB 96 tutorial Μια συλλογή δεδομένων που χρησιμοποιείται κυρίως για την λήψη αποφάσεων σε ένα οργανισμό, και είναι θεματικά προσανατολισμένη, έχει ολοκληρωμένα (ενοποιημένα) δεδομένα, τα οποία διατηρούνται σε βάθος χρόνου χωρίς να διαγράφονται. W.H. Inmon, Building the Data Warehouse, 1992 (ο εφευρέτης του όρου) Πηγή Δεδομένων OLTP συστήματα DW OLAP εργαλεία Data Marts Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 11 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 12

Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 13 Εννοιολογική εναρμόνιση Προτερήματα/Ιδιότητες Οι διαφορετικές πηγές δεδομένων του ίδιου οργανισμού, μοντελοποιούν τις ίδιες οντότητες με διαφορετικούς τρόπους Η Αποθήκη εδομένων περιλαμβάνει το σύνολο αυτών των δεδομένων κάτω από ένα εναρμονισμένο σχήμα βάσης Ποιότητα εδομένων Η ποιότητα των δεδομένων στις πηγές είναι συχνά προβληματική (τα δεδομένα μπορεί να μην είναι πλήρη, να έχουν ασυνέπειες, να είναι παλιά, να παραβιάζουν τους λογικούς και δομικούς κανόνες αξιοπιστίας, κλπ) Έχει βρεθεί ότι τουλάχιστο 10% των δεδομένων είναι προβληματικά στις πηγές, με αποτέλεσμα οικονoμικές απώλειες του 25-40% Πριν την εισαγωγή στις αποθήκες δεδομένων καθαρισμός, επίσης λειτουργεί και ως ένα ενδιάμεσο σύστημα στον οποίο καθαρίζουμε τα δεδομένα Προτερήματα/Ιδιότητες Απόδοση Οι εφαρμογές OLAP επιταχύνονται αν τα δεδομένα οργανωθούν με μη παραδοσιακούς τρόπους (π.χ., απο-κανονικοποιημένα) Σ Β για OLTP (ευρετήρια, επεξεργασία δοσοληψιών) Οι σύνθετες OLAP ερωτήσεις θα συγκρούονταν με τις παραδοσιακές OLTP δοσοληψίες, με αποτέλεσμα την υπερφόρτωση του συστήματος Θεματικά προσανατολισμένη: ιατήρηση μόνο των σχετικών δεδομένων ιαθεσιμότητα Όσο περισσότερα αντίγραφα των δεδομένων, τόσο πιο πολύ το σύστημα είναι διαθέσιμο*, αφενός στην Αποθήκη εδομένων και αφετέρου στις πηγές * ιαθεσιμότητα: το ποσοστό του χρόνου που το σύστημα είναι σε λειτουργία και προσβάσιμο στις εφαρμογές. 24x7: Οι OLTP εφαρμογές, σε πολλούς οργανισμούς πρέπει να είναι διαθέσιμες 24 ώρες Χ 7 μέρες τη βδομάδα (π.χ., τράπεζες, αεροπορικές εταιρείες,...) Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 14 Προτερήματα/Ιδιότητες Ιστορικά εδομένα Ο χρονικός ορίζοντας μια αποθήκης δεδομένων είναι πολύ μεγαλύτερος από ότι ενός συστήματος σε λειτουργία Η Β έχει τα τωρινά δεδομένα ενώ οι αποθήκες διατηρούν και παλιά δεδομένα (πχ τα προηγούμενα 5-10 χρόνια) Τροποποιήσεις Οι τροποποιήσεις στις πηγές δεδομένων δεν φαίνονται άμεσα στις αποθήκες δεδομένων, συνήθως περιοδικά Μόνο δύο βασικές λειτουργίες: αρχικό φόρτωμα των δεδομένων (loading) και προσπέλαση δεδομένων (access) OLTP vs OLAP OLTP OLAP ομή Files/DBMS s RDBMS Πρόσβαση SQL/COBOL/ SQL + επεκτάσεις Ανάγκες που Αυτοματισμός Άντληση και καλύπτουν καθημερινών επεξεργασία πληροφ. εργασιών για χάραξη στρατηγικής Τύπος εδομένων Λεπτομερή Συνοπτικά, Αθροιστικά Λειτουργικά Όγκος εδομένων ~ 100 GB ~ 1 TB Φύση εδομένων υναμικά, Τρέχοντα Στατικά, Ιστορικά Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 15 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 16 OLTP vs OLAP OLTP OLAP I/O Τύποι Περιορισμένο I/O Εκτεταμένο I/Os Συχνά disk seeks disk scans Τροποποιήσεις Συνεχείς Περιοδικές Ενημερώσεις Μέτρηση Απόδοσης Throughput Χρόνος Απόκρισης Φόρτος οσοληψίες με Ερωτήσεις που πρόσβαση λίγων σαρώνουν εγγραφών εκατομμύρια εγγραφών Σχεδίαση Β Κατευθυνόμενη Κατευθυνόμενη από Εφαρμογή από Περιεχόμενο OLTP vs OLAP OLTP OLAP Τυπικοί Χρήστες Χαμηλόβαθμοι Υπ. Υψηλόβαθμοι Υπ. Χρήση Μέσω Ad-hoc προκατασκευασμένων φορμών Αριθμός Χρηστών Χιλιάδες εκάδες Εστίαση Εισαγωγή Εξαγωγή εδομένων Πληροφοριών Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 17 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 18

Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 19 Σύγκριση με ενοποίηση ετερογενών Σ Β Wrapper/mediators Με βάση την ερώτηση, μεταφράζεται ανάλογα, εκτελείται σε κάθε Σ Β και τα αποτελέσματα ενοποιούνται σε μια ολική απάντηση Μοντέλο εδομένων και Λειτουργίες Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 20 Με λίγα λόγια Μια αποθήκη δεδομένων βασίζεται σε ένα πολυδιάστατο μοντέλο δεδομένων (multidimensional data model) που αναπαριστά τα δεδομένα με τη μορφή ενός κύβου δεδομένων (data cube) Ένας κύβος δεδομένων (data cube) επιτρέπει την μοντελοποίηση και την θεώρηση των δεδομένων από πολλές οπτικές γωνίες ιαστάσεις (dimensions)- Για συγκεκριμένες τιμές στις διαστάσεις μια Μέτρηση (Measure) αυτό που μας ενδιαφέρει να μετρήσουμε Item ιαστάσεις Location Εισαγωγή Παράδειγμα Κύβος ΠΩΛΗΣΕΙΣ Time Μέτρηση: Αριθμός Πωλήσεων για τις συγκεκριμένες διαστάσεις (Location, Item, Time) Κάθε διάσταση παίρνει τιμές από διαφορετικά επίπεδα, μπορεί να εκφραστεί σε διαφορετικά επίπεδα λεπτομέρειας Διαστάσεις: Product, Region, Date Ιεραρχίες διαστάσεων: Industry Country Year Category Product Region City Store Ιεραρχίες ιαστάσεων Month Quarter Day Week Εννοιολογική Ιεραρχία Item Location Κύβος ΠΩΛΗΣΕΙΣ Time Μέτρηση: Αριθμός Πωλήσεων για τις συγκεκριμένες διαστάσεις (Location, Item, Time) Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 21 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 22 Εννοιολογική Ιεραρχία all Παράδειγμα: Εννοιολογική ιεραρχία (Concept Hierarchy) για Location all Σε σχεσιακό μοντέλο Μοντέλο εδομένων (Σχήμα) region country city office Πεδίο Τιμών Europe... North_America Germany... Spain Canada... Mexico Frankfurt... Vancouver... Toronto L. Chan... M. Wind Αντίστοιχες Τιμές Πίνακες ιαστάσεων Πίνακας με πληροφορία σχετικά με κάθε διάσταση Ιtem (item_name, brand, type), Τime(day, week, month, quarter, year) Πίνακας γεγονότων (Fact Table) έχει ως γνωρίσματα: τις μετρήσεις (πχ αριθμός πωλήσεων, τιμή σε δολάρια, κλπ) + το πρωτεύον κλειδί κάθε σχετικού πίνακα διαστάσεων Σχήμα Αστέρι (Star schema) Πίνακας γεγονότων στο κέντρο που συνδέεται με ένα σύνολο από πίνακες διαστάσεων Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 23 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 24

Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 25 time day day_of_the_week month quarter year branch branch_name branch_type Παράδειγμα Σχήματος Αστεριού Μετρήσεις Πίνακας Γεγονότων ΠΩΛΗΣΕΙΣ units_sold dollars_sold avg_sales item item_name brand type supplier_type location street city state_or_province country 4 διαστάσεις (time, item, location, branch) Παράδειγμα Σχήματος Αστεριού Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 26 Σχήμα Νιφάδας (Snowflake schema) Μια βελτίωση του σχήματος αστέρι όπου η ιεραρχία διαστάσεων κανονικοποιείται σε ένα σύνολο από μικρότερους πίνακες διαστάσεων Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 27 time day day_of_the_week month quarter year branch branch_name branch_type Παράδειγμα Σχήματος Νιφάδας Πίνακας Γεγονότων ΠΩΛΗΣΕΙΣ units_sold dollars_sold avg_sales item item_name brand type supplier_key location street city_key supplier supplier_key supplier_type city_key Μετρήσεις city state_or_province country Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 28 city Αστερισμοί Γεγονότων (Fact constellations) Πολλαπλοί Πίνακες Γεγονότων που μοιράζονται τους Πίνακες ιαστάσεων, μπορούμε να τους δούμε ως συλλογή από αστέρια και άρα ως Αστερισμό Γεγονότων ή Σχήμα Γαλαξία (galaxy schema) Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 29 time day day_of_the_week month quarter year branch branch_name branch_type Παράδειγμα Σχήματος Νιφάδας Πίνακας Γεγονότων ΠΩΛΗΣΕΙΣ units_sold dollars_sold avg_sales item item_name brand type supplier_type location street city province_or_state country Πίνακας Γεγονότων ΑΠΟΣΤΟΛΗ shipper_key from_location to_location dollars_cost units_shipped shipper shipper_key Μετρήσεις shipper_name shipper_type Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 30

Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 31 Κύβος εδομένων Κύβος εδομένων Ορολογία Συχνά ο n-d κύβος λέγεται βασικός κυβοειδής (base cuboid). Στο παράδειγμα ο κύβος με τις τέσσερεις διαστάσεις (Item, Time, Branch, Location) O 0-D cuboid που περιέχει τη μεγαλύτερο επίπεδο περίληψης, apex cuboid. Πλέγμα Κυβοειδών Κύβος δεδομένων all time item location supplier time, item time, location item, location location, supplier time, supplier item, supplier time, location, supplier 0-D(apex) cuboid 1-D cuboids 2-D cuboids 3-D cuboids Το πλέγμα των κυβοειδών κύβος δεδομένων. time, item, location time, item, supplier item, location, supplier 4-D(base) cuboid time, item, location, supplier Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 32 Παράδειγμα Ιεραρχιών Οπτικοποίηση Κύβου Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 33 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 34 Μετρήσεις - Συναθροίσεις Μετρήσεις - Συναθροίσεις Υπάρχουντρειςκατηγορίεςμετρήσεων: Κατανεμημένες (Distributive): αν μπορούμε να διαμερίσουμε τα δεδομένα και να υπολογίσουμε τη συναθροιστική συνάρτηση σε κάθε διαμέριση ξεχωριστά και σχεδόν άμεσα από αυτές τις τιμές να υπολογίσουμε την ολική τιμή Πχ count(), sum(), min(), max() Αλγεβρικές (Algebraic): πάλι μπορούμε να υπολογίσουμε την ολική τιμή της συνάρτησης από τις τιμές της συνάρτησης στις διαμερίσεις χρησιμοποιώντας M γνωρίσματα (όπου M σταθερά), Πχ. avg(), min_n(), standard_deviation() Ολιστικές (Holistic): δεν υπάρχει όριο (πολυπλοκότητα) σταθερής τάξης για το χώρο αποθήκευσης που χρειαζόμαστε για τον υπολογισμό της ολικής τιμής από τις τιμές στις διαμερίσεις, Πχ. median(), mode(), rank() Εκτός από τις λεπτομερείς πληροφορίες των fact tables, μπορεί να υπολογίσουμε και συναθροίσεις των δεδομένων για καλύτερους χρόνους απόκρισης. Για παράδειγμα, αν ο fact table είναι SALES(GeographyCode, ProductCode, TimeCode, AccountCode, Amount, Unit) μπορούμε να υπολογίσουμε AVG(Sales) ανά Region, Product, Quarter MAX(Sales) ανά Brand,Month, με Region = Europe SUM(Sales) ανά City Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 35 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 36

Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 37 Βασικές Πράξεις Συναθροίσεις εδομένων TV PC VCR sum Product Παράδειγμα Date 1Qtr 2Qtr 3Qtr 4Qtr sum Total annual sales of TV in U.S.A. U.S.A Canada Mexico sum Country Χωριστός πίνακας/όψη αθροισμάτων Sales table RID City Amount 1 Athens $100 2 N.Y. $300 3 Rome $120 4 Athens $250 5 Rome $180 6 Rome $65 7 N.Y. $450 City-dimension sum table City Amount Athens $350 N.Y. $750 Rome $365 Επέκταση του υπάρχοντος βασικού πίνακα: Ενσωμάτωση των αθροιστικών εγγραφών στον βασικό (base/basic) fact table + μια επιπλέον στήλη που να εξηγεί το επίπεδο συνάθροισης Extended Sales table sum RID City Amount Level 1 Athens $100 NULL 2 N.Y. $300 NULL 3 Rome $120 NULL 4 Athens $250 NULL 5 Rome $180 NULL 6 Rome $65 NULL 7 N.Y. $450 NULL 8 Athens $350 City 9 N.Y. $750 City 10 Rome $365 City Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 38 Roll-up Συναθροιστική Άνοδος (Roll up): συνάθροιση της πληροφορίας = μετάβαση από χαμηλότερο σε υψηλότερο επίπεδο αδρομέρειας (π.χ. από day σε month) Αναλυτική Κάθοδος (Drill down): το αντίστροφο του Roll up (π.χ month σε day) Οριζόντιος Τεμαχισμός (Slice): (σχεσιακή) επιλογή Κάθετος Τεμαχισμός (Dice): (σχεσιακή) προβολή Περιστροφή (Pivot): αναδιάταξη της 2D προβολής του πολυδιάστατου κύβου στην οθόνη Η συναθροιστική άνοδος περιλαμβάνει τον υπολογισμό μίας συνολικής τιμής για μία θέση στην ιεραρχία μίας διάστασης δεδομένων. Για παράδειγμα, με ένα roll-up, οι πωλήσεις σε επίπεδο τοπικών μαγαζιών (Store) παράγουν τις συνολικές πωλήσεις σε επίπεδο πόλης (City) και αυτές με τη σειρά τους με ένα ακόμα roll-up παράγουν τις πωλήσεις σε επίπεδο περιοχής (Region). Industry Category Product Country Year Region Quarter City Month Week Store Day Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 39 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 40 $2,3 $5,6 $8,9 $7,2 $0,75 $0,4 $1,5 $0,5 Χρόνος: Επίπεδο Quarter Roll-up (Παράδειγμα) Store1 Store2 Industry Category Product Year 1996 Country Year Region Quarter City Month Week Store Day Store1 Store2 $14,1 5 $6,9 Χρόνος: Επίπεδο Year SUM(s) $12,8 $1,8 $7,2 $1,6 Drill-Down Ο χρήστης περνά από ένα ανώτερο επίπεδο μίας διάστασης που έχει συγκεντρωτικά δεδομένα σε ένα χαμηλότερο επίπεδο με πιο λεπτομερή δεδομένα. Πρόκειται για την αντίστροφη πράξη του roll-up. Για παράδειγμα, κατά το drill down, ξεκινάμε από τις πωλήσεις ανά περιοχή (Region) και παίρνουμε τις αναλυτικές πωλήσεις ανά πόλη (City) και μετά τις πωλήσεις ανά κατάστημα (Store). Industry Category Country Region Year Quarter Product City MonthWeek Store Day Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 41 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 42

Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 43 Drill-down (Παράδειγμα) $2,3 $5,6 $8,9 $7,2 $0,75 $0,4 $1,5 $0,5 Item: Επίπεδο Industry Store1 Store2 Industry Category Product Country Year Region Quarter City Month Week Store Day Store1 Store2 VCR Camcorder TV CD player $0,6 $2,0 $1,2 $0,6 $2,4 $1,2 VCR $2,4 $2,4 Camcorder $3,3 $1,3 TV $2,2 $2,5 CD player $1,0 $1,0 Item: Επίπεδο Category Περιστροφή (Pivot) Εναλλαγή των γραμμών και των στηλών του κύβου, όπως αυτός παρουσιάζεται στην οθόνη εν απαιτείται κανένας νέος υπολογισμός στη Β Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 44 Store1 Store2 $2,3 $8,9 $0,75 $1,5 Pivot (Παράδειγμα) $5,6 $7,2 $0,4 $0,5 Store 1 Store 2 $2,3 $5,6 $8,9 $0,75 $1,5 $7,2 $0,4 $0,5 Οριζόντιος (slice) και Κάθετος (dice) Τεμαχισμός Slice : Επιλογή συγκεκριμένων τιμών σε κάποια διάσταση (select) Π.χ., διώξε το Store 2 από τα καταστήματα και τις βιομηχανίες και Dicing : Σβήσιμο μιας ολόκληρης διάστασης (project) Π.χ., από ένα κύβο πωλήσεων ανά προϊόν, ημερομηνία και περιοχή, να δειχθεί ο μέσος όρος πωλήσεων ανά προϊόν και ημερομηνία. Εναλλαγή γραμμών και στηλών Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 45 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 46 Store1 Store2 $2,3 $8,9 $0,75 $1,5 $5,6 $7,2 $0,4 $0,5 Slice&Dice (Παράδειγμα) Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 47 Store1 $8,9 $0,75 Διώξε το Store 2 και τις βιομηχανίες & time (quarters) location (cities) Toronto 395 Vancouver 605 computer home item (types) Fig. 3.10 Typical OLAP Operations location (cities) item (types) Chicago New York Toronto Vancouver home computer phone 605 825 14 400 computer home item (types) pivot phone security dice for (location = Toronto or Vancouver ) and (time = or ) and (item = home or computer ) 605 825 14 Chicago 440 New York Toronto 395 1560 Vancouver 605 825 14 400 Q3 Q4 slice computer security for time = home phone location (cities) time (quarters) item (types) USA 2000 Canada December security 400 computer security New York Vancouver home phone Chicago Toronto Εξόρυξη Δεδομένων: Ακ. Έτος location 2007-2008 (cities) Αποθήκες Δεδομένων item (types) 48 time (months) time (quarters) Q3 Q4 location (countries) Vancouver January February March April May June July August September October November location (cities) roll-up on location (from cities to countries) drill-down on time (from quarters to months) 1000 computer home Chicago New York Toronto phone item (types) 150 100 150 security

Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 49 Τελεστής Rollup group by rollup product, store, city group by product, store, city group by store, city group by city Τελεστής Cube για όλους τους δυνατούς συνδυασμούς group by cube product, store, city Rollup & Cube group by κάθε υποσύνολο του {product, store, city}, ανεξάρτητα από τη σειρά που έδωσα στις στήλες αυτές στην εντολή Το αποτέλεσμα των τελεστών δεν παράγει πολλούς μικρούς πίνακες, αλλά έναν πίνακα με εγγραφές με NULL όπου δεν αντιστοιχεί τιμή Τελεστές Rollup και Cube Aggregate Sum RED WHITE BLUE Jim Gray Adam Bosworth Andrew Layman Microsoft Group By (with total) By Color Sum RED WHITE BLUE By Make Hamid Pirahesh IBM Cross Tab Chevy Ford By Color select color, make, year, sum(units) from car_sales where make in { chevy, ford } and year between 1990 and 1994 group by cube color, make, year having sum(units) > 0; By Make & Year By Year FORD CHEVY By Color & Year Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 50 Sum Sum 1990 1991 1992 By Color 1993 By Make RED WHITE BLUE By Make & Color Αρχιτεκτονική Μετασχηματισμοί Αρχιτεκτονική (Back-End) DW Front-End Πηγή Δεδομένων OLTP συστήματα Data Marts OLAP εργαλεία Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 51 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 52 Αρχιτεκτονική Πολλών Επιπέδων Multi-tier Αρχιτεκτονική Αρχιτεκτονική Πολλών Επιπέδων Multi-tier Αρχιτεκτονική Άλλες πηγές Metadata Monitor & Integrator OLAP Server Άλλες πηγές Metadata Monitor & Integrator OLAP Server ΒΔ σε λειτουργία Extract Transform Load Refresh Αποθήκη Δεδομένων Serve Analysis Query Reports Data mining ΒΔ σε λειτουργία Extract Transform Load Refresh DSA Αποθήκη Δεδομένων Serve Analysis Query Reports Data mining Data Marts Data Marts Πηγές εδομένων Αποθήκευση εδομένων Μηχανή OLAP Front-End Εργαλεία Πηγές εδομένων Αποθήκευση εδομένων Μηχανή OLAP Front-End Εργαλεία Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 53 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 54

Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 55 Αρχιτεκτονικές Μονάδες Λεξικό Μεταπληροφορίας Sources (Πηγές): Κάθε πηγή από την οποία η Αποθήκη εδομένων αντλεί δεδομένα. {Data Staging Area (DSA): Μια Β στην οποία εκτελούνται οι μετασχηματισμοί και ο καθαρισμός των δεδομένων πριν την φόρτωση στην Αποθήκη εδομένων} Αποθήκη εδομένων (DW), Συλλογές εδομένων : Τα συστήματα που αποθηκεύονται τα δεδομένα που παρέχονται προς τους χρήστες. Data Marts: υποσύνολα της αποθήκης Βάση Μετα- εδομένων (Metadata Repository): Το υποσύστημα αποθήκευσης πληροφορίας σχετικά με τη δομή και λειτουργία όλου του συστήματος. Τα μετα-δεδομένα είναι τα δεδομένα που ορίζουν τα αντικείμενα της αποθήκης δεδομένων. Περιέχουν Περιγραφή της δομής της αποθήκης δεδομένων Σχήμα, όψεις, διαστάσεις, ιεραρχίες, την τοποθεσία των data mart και το περιεχόμενο τους, κλπ Λειτουργικά μεταδεδομένα data lineage (την ιστορία των δεδομένων που μεταφέρθηκαν και ποιοι μετασχηματισμοί χρησιμοποιήθηκαν), στοιχεία για το πόσο ενημερωμένα/πρόσφατα είναι, πληροφορία επίβλεψης (monitoring) για τη λειτουργία της αποθήκης (στατιστικά στοιχεία λειτουργίας, error reports, audit trails) Τους αλγορίθμους που χρησιμοποιηθήκαν για τις περιλήψεις Την απεικόνιση του λειτουργικού περιβάλλοντος στην αποθήκη δεδομένων εδομένα σχετικά με την απόδοση του συστήματος Business data Πολιτικές χρέωσης, ιδιοκτησίας δεδομένων, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 56 Αρχιτεκτονική: Μετασχηματισμοί Μετασχηματισμοί Back-End Εργαλεία ETL (Extract-Transform-Load) εφαρμογές: Εφαρμογές που εκτελούν τις διαδικασίες Εξαγωγής, μεταφοράς, μετασχηματισμού, καθαρισμού και φόρτωσης των δεδομένων από τις πηγές στην Αποθήκη εδομένων. Front-End Εργαλεία Εφαρμογές Ανάλυσης: Εφαρμογές παραγωγής αναφορών, OLAP, DSS, Data Mining Data extraction Φέρε δεδομένα από πολλαπλές, ετερογενείς και εξωτερικές πηγές Data cleaning Εντοπισμός λαθών στα δεδομένα και διόρθωση τους όταν είναι δυνατόν Παραδείγματα: εδομένα που παραβιάζουν τους κανόνες της βάσης: διπλοεγγραφές, παραβιάσεις πρωτεύοντος ή ξένου κλειδιού, τιμές εκτός ορίων, παραβιάσεις λογικών κανόνων, κλπ Συνώνυμα και συγκρούσεις Ελλιπή δεδομένα Ομογενοποίηση κλειδιού Data transformation Back-End Εργαλεία Μετατροπή των δεδομένων από το τοπικό format στο format της αποθήκης Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 57 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 58 Μετασχηματισμοί Εργαλεία για την Υποστήριξη Αποφάσεων Load Ταξινόμηση, δημιουργία περίληψης, ενοποίηση (consolidate), υπολογισμός όψεων, έλεγχος integrity, δημιουργία ευρετηρίων και διαμερίσεων Ηενημέρωση/ εισαγωγή δεδομένων στην πράξη δε γίνεται μέσω SQL, συνήθως μέσω εργαλείων batch loading που διαθέτουν όλα τα Σ Β Refresh Back-End Εργαλεία Μετέφερε τις τροποποιήσεις από τις πηγές δεδομένων στην αποθήκη δεδομένων Ad hoc ερωτήσεις και αναφορές Π.χ.,: MS Excel, Oracle Forms, OLAP Front-End Εργαλεία pivot tables, drill down, roll up, slice, dice Data Mining Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 59 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 Αποθήκες Δεδομένων 60