Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL)
Ορισμοί Data Warehouse 1. 2. Μια ολοκληρωμένη, διαχρονική και μόνιμη συλλογή δεδομένων οργανωμένη κατά αντικείμενο ανάλυσης με στόχο τη διαδικασία υποστήριξης λήψης αποφάσεων - WH W.H. Inmon Ένα αντίγραφο των επιχειρηματικών δεδομένων ειδικά δομημένο για ερωτήματα (queries) και ανάλυση - Ralph Kimball
Data Warehouse - Χρήση Για επιτευχθεί η επιχειρησιακή γνώση, τα δεδομένα από διάφορες πηγές πρέπει να συγκεντρωθούν και να οργανωθούν κατά ένα συνεπή και χρήσιμο τρόπο. Εξ ου και ο όρος Data Warehouse (DW) Αποθήκη Πληροφοριών Το DW επιτρέπει τη δημιουργία επιχειρησιακής μνήμης Διάφορες τεχνολογίες (OLAP, Data Mining, GIS κ.ά.) επιτρέπουν στον τελικό χρήστη να αξιοποιήσει την πληροφορία με τον βέλτιστο τρόπο ανάλογα με το επιχειρηματικό πρόβλημα
Data Warehouse - Δεδομένα Είναι ένα αντίγραφο των επιχειρηματικών δεδομένων ειδικά δομημένο για ερωτήματα (queries) - επιχειρηματικές αναφορές και διαφόρων μορφών ανάλυση Τα επιχειρηματικά δεδομένα που περιλαμβάνει ένα DW δεν ενημερώνονται ούτε μεταβάλλονται πλέον από το σύστημα εγγραφών Τα δεδομένα είναι ειδικά δομημένα και μετασχηματισμένα μ
Αποθήκη πληροφοριών - Δημιουργία - Αξιοποίηση
Tο ο Σχεσιακό Μοντέλο μιας Αποθήκης Πληροφοριών Πίνακες Περιστατικών Πίνακες Διαστάσεων
Μετασχηματισμός Δεδομένων
Σχεδιασμός μετάβασης Βάση δεδομένων Αποθήκης Πληροφοριών (Data Warehouse) Κατά τη διαδικασία μετασχηματισμού δεδομένων από ένα περιβάλλον σε ένα άλλο, πρέπει να ληφθούν υπ όψιν και οι δυνατότητες και οι περιορισμοί της συγκεκριμένης βάσης δεδομένων (RDBMS) που θα χρησιμοποιηθεί. Λογική μετασχηματισμού αντιστοιχίσεις πεδίων Η δημιουργία μίας Αποθήκης Πληροφοριών προϋποθέτει αφ ενός την αντιστοίχιση των πεδίων μεταξύ της πρωτογενούς πληροφορίας και της τελικής και αφ ετέρου την λογική μετασχηματισμού, λαμβάνοντας υπ όψιν και θέματα ποιότητας δεδομένων.
Η βασική δομή ενός πίνακα περιστατικών (fact table) Κάθε πίνακας ορίζεται από τα περιεχόμενά του Σε επιχειρηματικούς όρους Σε χέση με τα πεδία αναφοράς σε πίνακες διαστάσεων (foreign keys) και άλλα πεδία Foreign Keys (FK) Έχουν σχέση με τα περιεχόμενα του πίνακα Σύνδεσμοι με πίνακες διαστάσεων Εκφυλισμένες Διαστάσεις Degenerate Dimensions (DD) Μπορεί να είναι μέρος του κλειδιού Δεν υπάρχει αντίστοιχος πίνακας διαστάσεων Πρωτεύον Κλειδί (Primary Key) Ένα μέρος μρςτων FKs Πρέπει να ορισθεί για τον πίνακα Πεδία πίνακα (Fact Attributes) Πεδία μετρήσεων (measurements)
Πρακτικά προβλήματα Αλλαγές κλειδιών είτε λόγω αντικατάστασης κωδικών (δεν ισχύει πλέον ο παλαιός) είτε λόγω προσθήκης εναλλακτικού/ών κωδικού/ών (συνύπαρξη κωδικών) Επαναχρησιμοποίηση διαγραμμένων ή αλλαγμένων κωδικών Αλλαγές κωδικοποιήσεων λόγω αναδιοργάνωσης αρχείων και επαναχρησιμοποίηση κωδικών για άλλο σκοπό. Παρ ότι δεν συναντάται πολύ συχνά, πολλοί οργανισμοί κατά τακτά χρονικά διαστήματα απενεργοποιούν πελάτες ή προμηθευτές που δεν έχουν κινηθεί για μεγάλο χρονικό διάστημα και χρησιμοποιούν τους κωδικούς τους για άλλους πελάτες ή προμηθευτές. Αυτό συνήθως συμβαίνει σε επιχειρήσεις με πληθώρα πελατών ή προμηθευτών και περιορισμένο μήκος κωδικού στα αρχεία παραγωγής. Πολύ συχνά παρ όλον ότι δεν αλλάζουν οι κωδικοί αλλάζουν άλλα σημαντικά δεδομένα όπως η περιγραφή. Τα συστήματα παραγωγής λόγω ειδικών αναγκών συχνά αλλάζουν το μήκος ή την διαμόρφωση του κωδικού (από αριθμητικό σε αλφαριθμητικό ή αντίστροφα), όπως έγινε με την αλλαγή του μήκους του ΑΦΜ. Ηπαγκοσμιοποίησητηςαγοράςκαιτοκύματωνεξαγορών συγχωνεύσεων έχει σαν επακόλουθο την ανάγκη ενοποίησης κωδικών με σημαντικές διαφορές μεταξύ τους. Πολλές φορές αντιμετωπίζονται περιπτώσεις όπου δεν είναι σαφής η τιμή του κλειδιού με αποτέλεσμα να πρέπει να δοθεί προσωρινός κωδικός μέχρις ότου διευκρινιστεί.
Υποκατάστατα κλειδιών (Surrogate Keys) Η πλέον διαδεδομένη τεχνική για την αντιμετώπιση αυτών των προβλημάτων είναι η δημιουργία ακεραίων υποκατάστατων κλειδιών (integer surrogate keys) στην θέση των κλειδιών που χρησιμοποιούνται από τα συστήματα παραγωγής. Με τον τρόπο αυτό κάθε ένωση (join) μεταξύ πινάκων (tables) γίνεται με τα υποκατάστατα κλειδιών. Έτσι: Επιλύονται τα προβλήματα που προαναφέρθηκαν Βελτιώνεται σημαντικά η όλη απόκριση του συστήματος, εφ όσον η απόδοση μίας σχεσιακής βάσης δεδομένων βελτιώνεται σημαντικά όταν χρησιμοποιούνται ακέραια (integer) κλειδιά για τις σχέσεις (relations) μεταξύ των πινάκων (tables). Τα υποκατάστατα κλειδιά αντικαθιστούν πλήρως τα κλειδιά των αρχείων παραγωγής σε όλες τις χρήσεις τους σε όλους τους πίνακες. Τα κλειδιά παραγωγής κρατούνται σε ένα μόνο πίνακα αντιστοίχισης μεταξύ κλειδιού παραγωγής και υποκατάστατου, με διπλή πρόσβαση και κατά κωδικό παραγωγής (secondary key) και κατά υποκατάστατο (primary key)
Η λογική των Υποκατάστατων Κλειδιών Πίνακας Υποκατάστατων Κλειδί Πεδίο * Table_ID Κωδικός Πίνακα Last_No Σύντομη Περιγραφή Τελευταίο χρησιμοποιημένο υποκατάστατο κλειδιού Υποκατάστατο Κλειδί Πεδίο Σύντομη Περιγραφή * Key_S Υποκατάστατο κλειδί * Key Κλειδί αρχείων παραγωγής New Ένδειξη για νέο κλειδί
Η Διαδικασία δημιουργίας κλειδιών Η διαδικασία υποδοχής και μετασχηματισμού των δεδομένων είναι αυτόματη και δεν υπάρχουν περιπτώσεις απόρριψης εγγραφών λόγω αδυναμίας χαρακτηρισμού των. Σημεία σταματήματος της ροής της διαδικασίας ενημέρωσης δημιουργούν δυσλειτουργίες στο σύστημα καθώς απαιτούν την παρέμβαση χειριστή και πρέπει να αποφεύγονται. Η αυτόματη δημιουργία υποκατάστατων κλειδιών για την πλειοψηφία των αλφαριθμητικών πεδίων, όπου για διάφορους λόγους παρουσιάζονται τιμές λανθασμένες ή χωρίς σημασία, επιτρέπει την αυτόματη ενημέρωση της Αποθήκης Πληροφοριών από τα πρωτογενή δεδομένα χωρίς την ανάγκη χειριστικής παρέμβασης
Χειριστική Παρέμβαση εκ των υστέρων Μετά την ολοκλήρωση της ενημέρωσης τα νέα κλειδιά εμφανίζονται στους πίνακες των υποκατάστατων με την ένδειξη New και μπορεί ο διαχειριστής του συστήματος να τα εντοπίσει και να αποφασίσει τι τιμή πρέπει να έχει κάθε νέο κλειδί. Εάν εντοπισθούν νέα κλειδιά με λανθασμένες τιμές που θα έπρεπε να έχουν προϋπάρχουσες τιμές, τότε υποδεικνύεται από τον διαχειριστή ησωστή τιμή του κλειδιού και αντικαθίσταται ητιμή του κλειδιού υποκατάστασης σε όλα τα σημεία όπου εμφανίζεται. Η χειριστική παρέμβαση μπορεί σε μεγάλο βαθμό να αποφευχθεί με την ενσωμάτωση στην λύση ενός ισχυρού αλγορίθμου ή προϊόντος που θα διορθώνει ή θα προτείνει αυτόματα διορθώσεις κλειδιών με βάση κριτήρια αναζήτησης ης κειμένων (text retrieval) ) και τεχνικές συμφραζομένων (context sensitive), ηχητικής ομοιότητας (soundex), συνωνύμων (synonyms) κ.ά.
Η όλη διαδικασία «διαφανής» για τους καταναλωτές Σύστημα Παραγωγής Πηγή/Αποθήκη Πληροφοριών Σύστημα Επιχειρηματικής Ευφυϊας Φίλτρο Υποκατάστασης Κλειδιών
Η διαδικασία είναι συνεχής. Η προσέγγιση ενιαία. Αρχικοί μετασχηματισμοί κατά την δημιουργία της πηγής ή αποθήκης πληροφοριών (Data Mart / Warehouse) Προοδευτικοί μετασχηματισμοί που προκύπτουν από αλλαγές ή προσθήκες στα δεδομένα παραγωγής (Changed dt data capture)
Αλλάζουν οι πίνακες περιστατικών; Θεωρητικά δεν πρέπει να αλλάζουν οι πίνακες περιστατικών. Στην πράξη αλλάζουν; Όχι εάν είναι αποτέλεσμα επιχειρηματικών συμβάντων. Ναι εάν προκύψουν σφάλματα στα πρωτογενή δεδομένα.
«Ορφανές» Εγγραφές. Αναφορική Ακεραιότητα (Referential Integrity) Βέλτιστη Πρακτική. Έλεγχος πριν την Εισαγωγή Έλεγχος πριν την προσθήκη νέων λογικών εγγραφών στον πίνακα περιστατικών Έλεγχος πριν διαγραφούν λογικές εγγραφές από τον πίνακα διαστάσεων
Εργαστήριο ETL
Από τα πρωτογενή δεδομένα
Στη Σχεσιακή Βάση Δεδομένων