Αποθήκες δεδομένων Εισαγωγή - Έννοιες. Πασχάλης Θρήσκος PhD Λάρισα

Σχετικά έγγραφα
ΣΤΡΑΤΗΓΙΚΟ MANAGEMENT KAI EΠΙΧΕΙΡHΜΑΤΙΚΗ ΕΥΦΥΙΑ. Παρουσίαση 2 ο μέρος:

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Συστήματα OLAP. Πασχάλης Θρήσκος, PhD Λάρισα

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

ΕΞΑΓΩΓΗ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΜΕΤΑΦΟΡΤΩΣΗ (EXTRACT, TRANSFORM, LOAD) Πασχάλης Θρήσκος, PhD Λάρισα

Κατανόηση των παραγόντων που συνδέονται με την εξέλιξη των συστημάτων ERP

Βάσεις Δεδομένων και Ευφυή Πληροφοριακά Συστήματα Επιχειρηματικότητας. 2 ο Μάθημα: Βασικά Θέματα Βάσεων Δεδομένων. Δρ. Κωνσταντίνος Χ.

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Μια ολοκληρωμένη, διαχρονική και μόνιμη συλλογή δεδομένων οργανωμένη κατά αντικείμενο ανάλυσης με στόχο τη διαδικασία υποστήριξης λήψης αποφάσεων -

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Βάσεις Δεδομένων Ενότητα 1

ΑΛΕΞΑΝΔΡΕΙΟ Τ.Ε.Ι ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Orchid: Integrating Schema Mapping and ETL ICDE 2008

Πληροφοριακά Συστήματα Διοίκησης

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ

Πληροφοριακά Συστήματα Διοίκησης

Προγράμματα Η /Υ / Εφαρμογές σε συστ ήματα Π ό οι τητας Αριστομένης Μακρής

Business Development, SAP Hellas 01/12/2007

Information Technology for Business

Διαχείριση Πολιτισμικών Δεδομένων

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Ενότητα 1: Εισαγωγή στις Βάσεις Δεδομένων. Αθανάσιος Σπυριδάκος Διοίκηση Επιχειρήσεων

Περιεχόμενο του μαθήματος

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

Μοντέλο Διαστάσεων Αρχιτεκτονική Αποθηκών Δεδομένων. Πασχάλης Θρήσκος, PhD Λάρισα

Επιχειρηματική Ευφυΐα (Business Intelligence - BI)

Πληροφορική 2. Βάσεις Δεδομένων (Databases)

Τι είναι πληροφοριακό σύστημα

Δεδομένα και Πληροφορίες

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, ίαυλος ιαφάνεια 29-1

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Συστήματα Διαχείρισης Βάσεων Δεδομένων

Αποθήκες Δεδομένων. Αρχιτεκτονική, Μοντέλο Δεδομένων και Σχεδίαση

4. ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΠΟΛΥΔΙΑΣΤΑΤΗΣ ΑΝΑΛΥΣΗΣ

Geographic Information System(GIS)

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Μάθημα 3. Θεμέλια Επιχειρηματικής Ευφυΐας: Διαχείριση Βάσεων Δεδομένων και πληροφοριών

Business Intelligence Tools Avecon, data mining techniques online analytical processing OLAP Avecon Εξοικονόμηση κόστους: DataMATRIX3

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

CYPDIS BI Platform. ών Υπηρεσιών

Πληροφορική ΙΙ Εισαγωγή στις Βάσεις Δεδομένων. Τμήμα Λογιστικής

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΤΗΛΕΠΙΣΚΟΠΗΣΗ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΓΕΩΛΟΓΙΑ

Εισαγωγή στην πληροφορική

Σχεδίαση και Ανάπτυξη Απ ποθηκών Δεδομένωνν

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

Προηγμένα Πληροφοριακά Συστήματα. Ακαδημαϊκό Έτος

Εισαγωγή Κεφάλαιο 1: Εγκατάσταση της Access Κεφάλαιο 2: Βάσεις δεδομένων και δομικά στοιχεία της Access

ATHENS SCHOOL OF MANAGEMENT (THESSALONIKI) Η ΣΥΝΕΙΣΦΟΡΑ ΤΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΣΤΗΝ ΑΠΟΚΤΗΣΗ ΤΟΥ ΑΝΤΑΓΩΝΙΣΤΙΚΟΥ ΠΛΕΟΝΕΚΤΗΜΑΤΟΣ ΤΗΣ ΕΠΙΧΕΙΡΗΣΗΣ

Ολοκληρωμένη, σύγχρονη και ευέλικτη λύση ERP (Enterprise Resource Planning-Σύστημα Διαχείρισης Επιχειρησιακών Πόρων) για επιχειρήσεις, που επιθυμούν

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Τίτλος Ειδικού Θεματικού Προγράμματος: «Διοίκηση, Οργάνωση και Πληροφορική για Μικρο-μεσαίες Επιχειρήσεις»

Εργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη

Μάθημα 6 ο : Πληροφοριακά Συστήματα Επιχειρήσεων (1/2)

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Λήψη απόφασης, Συστήματα Υποστήριξης Αποφάσεων, OLAP Ανάλυση, Περιβαλλοντική Εκπαίδευση ΕΙΣΑΓΩΓΗ

Βάσεις δεδομένων και Microsoft Access

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

ΜΕΘΟΔΟΛΟΓΙΕΣ ΑΝΑΠΤΥΞΗΣ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access...9. Κεφάλαιο 2 Χειρισμός πινάκων... 25

Κεφάλαιο 4: Λογισμικό Συστήματος

ΠΑΝΕΠΙΣΤΗΜΙΟ ΣΤΕΡΕΑΣ ΕΛΛΑΔΑΣ- ΤΜΗΜΑ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΟΙΚΟΝΟΜΙΚΗΣ ΑΝΑΠΤΥΞΗΣ, ΜΑΘΗΜΑ: ΔΙΑΧΕΙΡΙΣΗ ΑΝΘΡΩΠΙΝΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΠΟΡΩΝ- ΧΡΙΣΤΟΣ ΑΠ.

Κεφάλαιο 1.6: Συσκευές αποθήκευσης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ - Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ

Πληροφοριακά Συστήματα Διοίκησης

DO Y O Y U S PEAK K F U F TURE R?

Πανεπιστήμιο Πειραιώς Τμήμα : Οργάνωσης και Διοίκησης Επιχειρήσεων

ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ. Πετρογεωργάκης Μανούσος Σπυρόπουλος Σταύρος

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική

Συστήματα Πληροφοριών Διοίκησης

Πληροφοριακά Συστήµατα & Επιχειρήσεις

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Αποθήκες Δεδομένων & Πολυδιάστατη Ανάλυση

Έννοιες Διαχείρισης Βάσεων Δεδομένων και Αρχιτεκτονική

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

ΟΛΟΚΛΗΡΩΜΕΝΟ ΠΛΗΡΟΦΟΡΙΑΚΟ ΣΥΣΤΗΜΑ ΝΑΥΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΟΠΣ-ΝΕ

Άμεση Αναλυτική Επεξεργασία (OLAP)

ΕΡΓΑΣΙΑ. (στο μάθημα: Τεχνολογίες Εφαρμογών Διαδικτύου του Η εξαμήνου σπουδών του Τμήματος Πληροφορικής & Τηλ/νιών)

Εισαγωγή στις Βάσεις Δεδομζνων II

Πληροφοριακά Συστήματα Διοίκησης

Βέλτιστες Πρακτικές Διασφάλισης Ποιότητας. Δεδομένων. Πώς προσεγγίζουμε την Ποιότητα των Δδ Δεδομένων

Διοίκηση Παραγωγής και Υπηρεσιών

ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

Τίτλος Πακέτου Certified Computer Expert-ACTA

Πληροφοριακά Συστήματα Διοίκησης

Περιεχόμενα Α ΜΕΡΟΣ. Πρόλογος των Συγγραφέων ΚΕΦΑΛΑΙΟ 1 Πληροφοριακά Συστήματα. ΚΕΦΑΛΑΙΟ 2 Πληροφοριακά Συστήματα και Σύγχρονη Επιχείρηση

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Επιχειρησιακά Πληροφοριακά Συστήματα. Site: Στόχος Σκοπός μαθήματος

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ. Στόχοι

Σχεσιακό Μοντέλο (Γρήγορη επανάληψη) Πασχάλης Θρήσκος PhD Λάρισα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Λίγα λόγια από το συγγραφέα Βάσεις δεδομένων και Microsoft Access Microsoft Access... 22

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

οικονομικές τάσεις Εκτεταμένη συνεργασία της εφοδιαστικής αλυσίδας. έργου FLUID-WIN το οποίο χρηματοδοτήθηκε από το 6ο Πρόγραμμα Πλαίσιο Παγκόσμιες

Transcript:

Αποθήκες δεδομένων Εισαγωγή - Έννοιες Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr

Ορισμοί Συστήματα επεξεργασίας συναλλαγών (OLTP) Αποθήκες δεδομένων.

OLTP - Χαρακτηριστικά Ένα σύστημα επεξεργασίας συναλλαγών (OLTP) χρησιμοποιείται για καθημερινές συναλλαγές (Οn-Line Transaction Processing) μια επιχείρησης. Τα συστήματα OLTP συνήθως σχεδιάζονται ανεξάρτητα. Η ανταλλαγή πληροφορίας είναι δύσκολη. Ένα σύστημα OLTP πρέπει να είναι σε συνεχή λειτουργία, να αντεπεξέρχεται αποτυχιών, να γίνονται συνεχείς βελτιώσεις-εξελίξεις Είναι συνήθως κατανεμημένο.

OLTP - Χαρακτηριστικά Η οργάνωση είναι συνήθως σε κανονικοποιημένη μορφή (3NF), το οποίο για επιχειρησιακά ερωτήματα είναι δυσνόητο σε εννοιολογικό επίπεδο (πχ πελάτης, λογαριασμός) Η ανάλυση των δεδομένων δεν είναι εύκολο να γίνει με τη χρήση της SQL, αν και έχουν αναπτυχθεί επεκτάσεις του συντακτικού που βοηθούν Η οργάνωση σε φυσικό (B-Trees) δεν ενδείκνυται όσο αφορά τους χρόνους απόκρισης σε επιχειρησιακά ερωτήματα

OLTP - Χαρακτηριστικά Τα συστήματα OLTP συνήθως σχεδιάζονται ανεξάρτητα. Η ανταλλαγή πληροφορίας είναι δύσκολη.

OLTP - Αρχιτεκτονική https://docs.oracle.com/cd/e11882_01/server.112/e25554/conc ept.htm

OLTP - Χαρακτηριστικά Κανόνες ACID Atomicity Consistency Isolation Durability Η οργάνωση γίνεται με βάσει το σχεσιακό μοντέλο Δημιουργούνται δείκτες σε πρωτεύοντα κλειδιά Κανονικοποίηση σε 3NF (Normal Form)

DW - Χαρακτηριστικά Μια αποθήκη δεδομένων (Data warehouse) είναι ένα αποθετήριο δεδομένων μιας επιχείρησης. Χρησιμοποιείται για την υποστήριξη έρευνας και υποστήριξης αποφάσεων (decision support) Ο όγκος των δεδομένων είναι μεγάλος Διατηρείται ιστορικότητα των δεδομένων

DW - Χαρακτηριστικά Μια αποθήκη δεδομένων (Data warehouse) οργανώνεται με διαφορετικό τρόπο. Μη κανονικοποιημένη σχεδίαση (3NF) Επιχειρησιακά ερωτήματα θα δημιουργούσαν μια υπερφόρτωση στο σύστημα Εξασφαλίζει ποιοτικά και συνεπή δεδομένα

DW - Χαρακτηριστικά Βοηθά τις επιχειρήσεις παρέχοντας πληροφορίες σε όλους τους συμμετέχοντες να πάρουν καλύτερες στρατηγικές αποφάσεις Εξεζητημένες αναλύσεις Αναφορές Προσωποποιημένη πληροφόρηση Διαχείριση επιχειρηματικής επίδοσης Υποβοηθούμενες αναφορές 10

Αναφορές «Μια Αποθήκη Δεδομένων είναι ένας πλήρης και συνεπής αποθηκευτικός χώρος όπου βάζουμε δεδομένα που συλλέγουμε από πολλές και ετερογενείς πηγές που στη συνέχεια διαθέτουμε στους χρήστες με τέτοιο τρόπο ώστε αυτοί να μπορέσουν να τα ερμηνεύσουν στο πλαίσιο των διαδικασιών και στόχων της επιχείρησης» -- Barry Devlin, IBM Consultant Ένα σύνολο δεδομένων που χρησιμοποιείται για την λήψη αποφάσεων σε ένα οργανισμό, με ηεματικό προσανατολισμένο. Τα δεδομένα, τα οποία κρατούνται σε βάθος χρόνου χωρίς να διαγράφονται. W.H. Inmon, Building the Data Warehouse, 1992

DW - Χαρακτηριστικά OLTP Data Warehouse ER Diagram Star Schema

DW - Χαρακτηριστικά Μια Αποθήκη Δεδομένων είναι ένα διαφορετικό σύστημα από το επιχειρησιακό σύστημα. Εγκαθίσταται σε διαφορετικό σύστημα αποθήκευσης (δίσκους ή χώρο στον δίσκο), Επιχειρησιακές ενημερώσεις δεν γίνονται απευθείας στο περιβάλλον της Αποθήκης Δεδομένων Δεν χρειάζονται μηχανισμοί διασφάλισης συναλλαγών, ανάκτησης δεδομένων, και μηχανισμοί ταυτόχρονης προσπέλασης Πρέπει να υποστηρίζει τις ακόλουθες δύο ενέργειες : Αρχικοποίηση της Αποθήκης Δεδομένων και Προσπέλαση των δεδομένων

Χαρακτηριστικά ενός DW Στοχευμένη πληροφορία Εναρμόνιση πληροφορίας Αποθήκη δεδομένων Αμετάβλητη πληροφορία Ιστορικότητα

Στοχευμένη πληροφορία Τα δεδομένα κατηγοριοποιούνται και αποθηκεύονται ανάλογα με την επιχειρησιακή διαδικασία η οποία τα δημιουργεί και όχι με την επιχειρησιακή χρήση τους OLTP εφαρμογές Επιχειρησιακή διαδικασία Κεφάλαιο Ασφάλειες Μετοχές Οικονομικά στοιχεία πελάτη Δάνεια Καταθέσεις

Εναρμόνιση πληροφορίας Η πληροφορία αποθηκεύεται σε ΈΝΑ και ΜΟΝΑΔΙΚΟ σημείο Καταθέσεις Λογαριασμοί Πελάτης Δάνεια Εφαρμογές OLTP Αποθήκη Δεδομένων

Αμετάβλητη πληροφορία Η πληροφορία σε μία Αποθήκη Δεδομένων συνήθως δεν ενημερώνεται και ποτέ δεν διαγράφεται OLAP Αποθήκη Δεδομένων Μεταφόρτωση Δεδομένων Εισαγωγή Ενημέρωση Διαγραφή Αναζήτηση Αναζήτηση

Ιστορικότητα Μια Αποθήκη Δεδομένων διατηρεί ιστορικότητα στα δεδομένα Ο ορίζοντας αναφοράς των δεδομένων είναι μεγαλύτερος από ότι σε ένα σύστημα OLTP : OLTP : τρέχοντα δεδομένα Αποθήκη δεδομένων: δίνει στα δεδομένα τη χροιά της ιστορίας (πχ., ιστορία 5-10 ετών) Τα δεδομένα της Αποθήκη Δεδομένων περιέχουν την έννοια του χρόνου είτε άμεσα είτε έμμεσα Τα δεδομένα αποθηκεύονται σε στιγμιότυπα Διατήρηση δεδομένων για άμεση επεξεργασία

Η Ολοκλήρωση πληροφορίας είναι δύσκολη Οι Αποθήκες Δεδομένων συνδυάζουν δεδομένα από πολλές και ετερογενείς πηγές, πχ ΣΣΒΔ, CSV, WebServices, Excel. E-Mail κτλ Τα δεδομένα πρέπει να μετατραπούν στην ίδια μορφή Η ολοκλήρωση δεδομένων (Data integration) αντιπροσωπεύει ~80% της προσπάθειας ενός έργου DW! Λόγοι για τους οποίους συμβαίνει αυτό : Μεταδεδομένα δεν υπάρχουν ή είναι ελλιπή Η ποιότητα των δεδομένων είναι συνήθως χαμηλή Missing or default values Πολλαπλές διαφορετικές αναφορές για το ίδιο πράγμα (ΤΕΙ Λαρ., ΤΕΙ ΛΑΡΙΣΑΣ, ΤΕΙ ΘΕΣΣΑΛΙΑΣ)

Αποθήκες Δεδομένων-Βάσεις Δεδομένων Βάσεις Δεδομένων (OLTP) Αποθήκες δεδομένων Εισαγωγές - Ενημερώσεις Πολλές μικρές συναλλαγές Mb - Gb δεδομένων Current snapshot Δείκτης σε πρωτεύων κλειδί. Πρωτογενή πληροφορία Πολλοί χρήστες (πχ επειχ. χρήστες) Αναζητήσεις Μακροσκελή ερωτήματα Gb - Tb δεδομένων Ιστορικότητα Προ-επεξεργασμένη πληροφορία Αρκετοί χρήστες (πχ., αναλυτές, διευθυντικά στελέχη)

Ορολογία Πηγές (Sources) Κάθε πηγή από την οποία η Αποθήκη Δεδομένων αντλεί δεδομένα. Ενδιάμεσος Χώρος Επεξεργασίας (Staging Area) Μια ΒΔ στην οποία εκτελούνται οι μετασχηματισμοί και ο καθαρισμός των δεδομένων πριν την φόρτωση στην Αποθήκη Δεδομένων Αποθήκη Δεδομένων (DW), Αγορές Δεδομένων (Data Marts) Τα συστήματα που αποθηκεύονται τα δεδομένα που παρέχονται προς τους χρήστες. Μητρώο Μετα-Δεδομένων (Metadata registry) Το υποσύστημα αποθήκευσης πληροφορίας σχετικά με τη δομή και λειτουργία όλου του συστήματος. 21

Ορολογία ETL (Extract-Transform-Load) εφαρμογές: Εφαρμογές που εκτελούν τις διαδικασίες εξαγωγής, μεταφοράς, μετασχηματισμού, καθαρισμού και φόρτωσης των δεδομένων από τις πηγές στην Αποθήκη Δεδομένων. Εφαρμογές Ανάλυσης: Εφαρμογές παραγωγής αναφορών, OLAP, DSS, Data Mining 22

Αρχιτεκτονική Αποθήκης Δεδομένων Επιχειρησιακή Αποθήκη Δεδομένων Ομογενοποίηση πληροφορίας Αποθήκη Δεδομένων Επιχειρησιακής Μονάδας Πηγές δεδομένων Χρήστες

Ενημέρωση δεδομένων Αποθήκη Δεδομένων Μεταφόρτωση Λειτουργική Βάση Δεδομένων Ανανέωση Ανανέωση Ανανέωση

Επιχειρησιακή Αποθήκη Δεδομένων (Data Warehouse) Υλοποίηση μεγάλης κλίμακας Το πεδίο εφαρμογής όλες οι επιχειρηματικές διαδικασίες Τα δεδομένα προέρχονται από όλη την επιχείρηση Σταδιακή ανάπτυξη Η σημείο αναφοράς για επιχειρησιακά δεδομένα Μοναδικά σημείο αναφοράς για μεταφόρτωση δεδομένων σε μικρότερες και στοχευμένες αποθήκες δεδομένων

Αγορές Δεδομένων - Data Marts Αποθήκη Δεδομένων Αγορά Δεδομένων Πεδίο εφαρμογής Επιχείρηση Τμήμα Αναφέρεται Πολλαπλή πληροφορία Στοχευόμενη πληροφορία Προέλευση Δεδομένων Πολλές πηγές Λίγες πηγές Μέγεθος 100GB ~ 1 TB < 100GB Χρόνος υλοποίησης Μήνες ~ Χρόνια Μήνες

Data Marts Δύο διαφορετικές προσεγγίσεις Αγορά Δεδομένων (Data mart) : είναι μια Αποθήκη Δεδομένων, αλλά μικρότερη και πιο εστιασμένη Μέθοδος Πάνω-Κάτω (Top-Down) Αρχικά υλοποιούμε μια ενοποιημένη Αποθήκη Δεδομένων για όλη την επιχείρηση με όλα τα δεδομένα που έχουμε στη διάθεσή μας. Στη συνέχεια υλοποιούμε τα data marts με ειδικευμένα υποσύνολα της επιχειρησιακής Αποθήκης Δεδομένων containing specialized subsets of the data from the warehouse Μέθοδο Κάτω-Πάνω (Bottom-up) Αρχικά υλοποιούμε μια Αγορά Δεδομένων για να δώσουμε άμεση και γρήγορη λύση σε απαιτήσεις για υλοποίηση Στην συνέχεια υλοποιούμε ακόμη μια νέα Αγορά Δεδομένων, μετά ακόμη μια Νέα Αγορά, κ.ο.κ Η Επιχειρησιακή Αποθήκη Δεδομένων είναι η ένωση όλων των Αγορών Δεδομένων Στην πράξη δεν υπάρχει μεγάλη διαφορά μεταξύ των δύο προσεγγίσεων

Οι Αποθήκες Δεδομένων χρησιμοποιούνται για Πάγιες αναφορές (Reporting) Εύρεση σχέσεων και συσχετισμών (analytics) Εξόρυξη γνώσης (Data mining) Παραδείγματα : Τράπεζες : Πιστωτικοί κίνδυνοι Ασφαλιστικές εταιρίες: Ανίχνευση απάτης Ερευνητική δουλειά

Αρχιτεκτονική Αποθήκης Δεδομένων Βασική σχεδίαση https://docs.oracle.com/cd/e11882_01/server.112/e25554/concept.htm

Αρχιτεκτονική Αποθήκης Δεδομένων Ενδιάμεσος αποθηκευτικό χώρος https://docs.oracle.com/cd/e11882_01/server.112/e25554/concept.htm

Αρχιτεκτονική Αποθήκης Δεδομένων Ενδιάμεσος αποθηκευτικό χώρος και Data Marts (Φάση ΙΙ) https://docs.oracle.com/cd/e11882_01/server.112/e25554/concept.htm

Εξαγωγή, Μετασχηματισμός, Μεταφόρτωση (ETL) Σε μια διαδικασία ETL κάνουμε αντιστοίχηση μεταξύ των σχημάτων του OLTP και του DW Ή διαδικασία εξάγει πληροφορία από διάφορες πηγές, την μετασχηματίζει βάσει κανόνων και την μεταφορτώνει στην Αποθήκη Δεδομένων : εξαγωγή εξάγει πληροφορία από διάφορες πηγές μετασχηματισμός ένωση, συνάθροιση, μετατροπή πληροφορίας ομογενοποίηση εύρεση και συγχώνευση πληροφορίας από πολλές πηγές οι οποίες αναφέρονται εννοιολογικά στο ίδιο αντικείμενο διαχείριση ποιότητας έλεγχος τιμών, έλεγχος περιορισμών, επιβολή απαιτήσεων κτλ.

Οι εφαρμογές που αναπτύσσονται σε ένα περιβάλλον Αποθήκες Δεδομένων είναι : Διαχείρισης της Πληροφορίας (Data Processing) supports querying, basic statistical analysis, and reporting using crosstabs, tables, charts and graphs Αναλυτικής Επεξεργασίας (Analytical processing) Πολυδιάστατη ανάλυση των δεδομένων της Αποθήκης Δεδομένων Βασικέ λειτουργίες OLAP Εξόρυξη Γνώσης ανακάλυψη συγκαλυμμένων πρότυπα υποστήριξη εξεύρεσης συσχετισμών (associations), δημιουργία μοντέλων γνώσης, μοντέλα κατηγοριοποίησης και πρόβλεψης, Παρουσίαση αποτελεσμάτων με εργαλεία οπτικοποίησης

Περιοχές Εφαρμογών Ιατρική Κλινικές δοκιμές/μελέτες Μετατροπή σε διεθνώς αναγνωρισμένα πρότυπα CDISC SDTM and ADaM Ασφάλεια σε ευαίσθητα ιατρικά δεδομένα Ανάλυση συμπεριφοράς ασθενή, ώστε να ακολουθήσει την πιο ενδεδειγμένη θεραπεία στο σπίτι Πρόβλεψη πληθυσμιακού κινδύνου σε αρρώστιες

Περιοχές Εφαρμογών Τηλεπικοινωνίες Τεράστιος όγκος δεδομένων από κλήσεις Μέτρηση ικανοποίησης πελατών Πρόβλεψη φυγής ενός πελάτη σε άλλη εταιρεία Ανάλυση συμπεριφοράς πελάτη και στοχευόμενη διαφημιστική εκστρατείας Μέτρηση αποδοτικότητας μιας διαφημιστικής εκστρατείας Εκτίμηση καταναλωτικής συμπεριφοράς ενός πελάτη Ανίχνευση προβλημάτων στο δίκτυο (αρ. επιτυχών κλήσεων/αρ. αποτυχημένων κλήσεων

Συστήματα OLAP Υποστηρίζουν ερωτήματα OLAP Αποθηκεύουν τα δεδομένα σε πολυδιάστατους κύβους Εξυπηρετητές (Servers) MOLAP Τα δεδομένα αποθηκεύονται σε δομές δεδομένων τύπου πινάκων πχ. Hyperion Essbase Εξυπηρετητές (Servers) ROLAP Τα δεδομένα αποθηκεύονται σε σχεσιακούς πίνακες πχ. Microstrategy, IBM Informix Υβριδικοί OLAP (HOLAP) Εξυπηρετητές Τα δεδομένα κατανέμονται ανάμεσα σε σχεσιακούς πίνακες και ειδικά αποθηκευτικά μέσα πχ. Cognos, Microsoft Analysis Services

Παράδειγμα DW Πόσα ποδήλατα πουλήσαμε το 2005;

Παράδειγμα DW Ποιος αγοράζει περισσότερα ποδήλατα: Οι παντρεμένες ή οι ανύπαντρες γυναίκες;

Παράδειγμα DW Ποια είναι τα προϊόντα που πούλησαν περισσότερο;

Διασπώμενες ΣΣΒΔ (Federared Databases) Μια διαφορετική προσέγγιση από τις Αποθήκες Δεδομένων Ενώ σε μια αποθήκη δεδομένων Δημιουργούμε ένα αντίγραφο των δεδομένων Εκτελούμε ερωτήματα στο αντίγραφο Στις Διασπώμενες ΣΣΒΔ Ανακαλούμε από τα Πηγαία ΣΣΒΔ (Source RDBMs) μόνο τα δεδομένα που χρειάζονται για να απαντήσουμε στα ερωτήματα Πρότυπο του Τεμπέλη (lazy) σε σχέση με τον Ζηλωτή (eager) Εξαγωγή Ερώτημα Ερώτημα Αποτέλεσμα Αποτέλεσμα Πηγές Δεδομένων Data Warehouse Μεσολαβητής Federated Database Πηγές Δεδομένων

Διαφορές ανάμεσα σε Αποθήκες Δεδομένων και Διασπώμενες ΣΣΒΔ Πλεονεκτήματα των Δ-ΣΣΒΔ: Δεν υπάρχουν περιττά αντίγραφα των δεδομένων Τα ερωτήματα ανακαλούν πραγματικά δεδομένα Εύκολη πολιτική ασφαλείας Μειονεκτήματα των Δ-ΣΣΒΔ : Επιχειρησιακά ερωτήματα που έχουν σχέση με Analysis queries δημιουργούν επιπρόσθετο φορτίο στις ΣΣΒΔ Η βελτιστοποίηση των ερωτημάτων είναι εξαιρετικά δύσκολη Ιστορικά δεδομένα μπορεί να μην υπάρχουν Οι αποθήκες δεδομένων είναι πιο διαδεδομένες Καλύτερη απόκριση Μικρή πολυπλοκότητα Είναι αποδεκτό να έχουμε δεδομένα που δεν αντανακλούν την τρέχουσα κατάσταση του οργανισμού

Κλιμάκωση Αποθηκών Δεδομένων Ταχύτατη άφιξη και ταχύτατη επεξεργασία Υψηλό κόστος αποθήκευσης ΤΑΧΥΤΗΤΑ ΟΓΚΟΣ ΠΟΙΚΙΛΙΑ ΑΠΟΘΗΚΗ ΔΕΔΟΜΕΝΩΝ Δυνατότητα να επεξεργαστούμε αδόμητα δεδομένα

Αποθήκες Δεδομένων-Βάσεις Δεδομένων Λύνουν διαφορετικά προβλήματα Δομή Μέγεθος Βελτιστοποίηση απόδοσης Διαφορετικές τεχνολογίες

Διαφορές OLTP - DW Πότε δόθηκε η παραγγελία Πόσα κομμάτια υπάρχουν στην αποθήκη Έχει ο πελάτης Χ απλήρωτους λογαριασμούς; Ποιοί παράγοντες επηρεάζουν τον χρόνο διαχείρισης μιας παραγγελίας; Πως επηρέασε το κέρδος της επιχείρησης το κάθε προϊόν; Ποιοι οι χρόνοι εξυπηρέτησης των παραγγελιών από τους προμηθευτές;

Ροή εργασιών (Workflow) ενός DW έργου The DW Lifecycle Toolkit

Διοίκηση & Διαχείριση DW έργου Γιατί το χρειαζόμαστε Τι προβλήματα θα λύσει Τι θα κάνουμε (Work breakdown structure) Ποιοι οι κίνδυνοι και πως θα τους διαχειριστούμε Πόσο θα στοιχίσει και πόσο θα διαρκέσει Πόσοι πόροι χρειάζονται

Διοίκηση & Διαχείριση DW έργου Σχεδιασμός Σκοπός Πόροι Ανάλυση Οργάνωση Προγραμματισμός Δραστηριοτήτων Χρονική διάρκεια Ανάλυση Οργάνωση Έλεγχος Σύγκριση, επανεξέταση, ενέργεια

Διοίκηση & Διαχείριση DW έργου Ο σωστός σχεδιασμός θα μας βοηθήσει να τελειώσουμε το έργο στην ώρα του Ο λανθασμένος σχεδιασμός θα οδηγήσει σε απογοήτευση προς το τέλος του έργου, και τελικά σε μη αποδεκτά παραδοτέα

Παράγοντες επιτυχίας ενός έργου DW Εμπιστοσύνη και υποστήριξη από τα ανώτερα διευθυντικά στελέχη Επιχειρηματική κουλτούρα Συνεργασία με ΙΤ

Συμμετέχοντες DBA της Αποθήκης Δεδομένων Υλοποιήτης OLAP Υλοποίητης ETL Υλοποιητής εργαλείων διαχείρισης DW/BI BI

Αλήθειες Έργα που δεν αντιλαμβάνονται την σπουδαιότητα της σωστής συλλογής δεδομένων 20% από αυτά αποτυγχάνει 50% από αυτά έχει μεγάλες καθυστερήσεις και είναι εκτός προϋπολογισμού. Συνήθως ένα έργο 3Μ τελικά κοστίζει ~5.9Μ Οι 3 από τις 10 κύριες αιτίες για τις οποίες αποτυγχάνουν τα έργα DW είναι : Αλλαγές στις απαιτήσεις Ανεπαρκής καταγραφή των απαιτήσεων Μειωμένη συμμετοχή των χρηστών του συστήματος 24-40% του συνολικού κόστος του έργου ξοδεύεται σε λανθασμένη συλλογή απαιτήσεων

Η προσέγγιση Big Bang

Η προσέγγιση Big Bang Ανάλυση των επιχειρησιακών απαιτήσεων Ανάπτυξη της Αποθήκης Δεδομένων Ανάπτυξη Αγορών Δεδομένων ISQS 6339, Data Mgmt & BI, Zhangxi Lin

Επαναληπτική Προσέγγιση στην Ανάπτυξη Αποθηκών Δεδομένων Πολλές επαναλήψεις Μικρές υλοποιήσεις Επικύρωση Επανάληψη Στρατηγική Ορισμοί Ανάλυση Σχεδίαση Επανάληψη Ανάπτυξη Ενσωμάτωση ISQS 6339, Data Mgmt & BI, Zhangxi Lin 54

Επαναληπτική Προσέγγιση στην Ανάπτυξη Αποθηκών Δεδομένων Πλεονεκτήματα Μικρά διαχειρίσημα παραδοτέα Επεκτάσιμη και εύκολα κλιμακούμενη αρχιτεκτονική Υποστηρίζει τις ανάγκες επιχειρησιακές ανάγκες με μεγάλη ευκολίας Δίνει γρήγορα απτά αποτελέσματα Επιτρέπει την ανάπτυξη της Επιχειρησιακής Αποθήκης Δεδομένων να δομηθεί κλιμακωτά, βασιζόμενη σε μικρές θεματικές περιοχές κάθε φορά

Πλεονεκτήματα Έχουμε παραδοτέα (λογισμικό) σχετικά γρήγορα και στις πρώτες φάσεις του έργου. Τα κόστη επανασχεδιασμού είναι μικρά. Ο έλεγχος και απεσφαλμάτωση γίνονται πιο εύκολα όταν έχουμε μικρά στάδια ανάπτυξης. Ο πελάτης μπορεί να σχολιάσει και να εντοπίσει λάθη. Το κόστος αρχικής παράδοσης είναι μικρό. Μειονεκτήματα Χρειάζεται καλό σχεδιασμό. Χρειάζεται ένα καθαρό και ολοκληρωμένο μοντέλο όλου του συστήματος, πριν αρχίσει η οριστούν τα στάδια ανάπτυξης αρχίσει η τμηματική κατασκευήneeds a clear and complete definition of the whole system before it can be broken down and built incrementally. Το κόστος είναι μεγαλύτερο από την προσέγγιση «Big Bang» Prepared By: RiantSoft a Software Development Company

Προσέγγιση Πάνω-Προς-Κάτω Ανάλυση επιχειρησιακών απαιτήσεων Ανάπτυξη μοντέλου σχεδίασης Προσδιορισμός θεματικών προτεραιοτήτων Ανάπτυξη μοντέλου θεματικής προτεραιότητας Συσχέτιση με διαθέσιμα δεδομένα Ανάλυση πηγών δεδομένων Υλοποίηση τεχνικού μέρους Ανάλυση πηγών δεδομένων Υλοποίηση μεταδεδομένων και ETL για την θεματική προτεραιότητα Δημιουργία και ενημέρωση της θεματικής προτεραιότητας

Προσέγγιση Πάνω-Προς-Κάτω Πλεονεκτήματα Σχετικά γρήγορη υλοποίηση. Η ανάλυση των επιχειρησιακών αναγκών και μια η αρχική υλοποίηση δεν παίρνουν πάνων από έξι με επτά μήνες. Χαμηλός κίνδυνος αποτυχίας διότι δεν η ανάλυση δεν γίνεται για όλο το σύστημα όπως με την προσέγγιση Big Bang Δίνει έμφαση σε αδρές (high level) Εστιάζει στα δεδομένα και όχι στην επιχειρησιακή ανάγκη Επιτυγχάνει συνέργια ανάμεσα σε επιχειρησιακούς τομείς Μειονεκτήματα Η επένδυση θα αργήσει να δώσει γρήγορα απτά αποτελέσματα Δύσκολο να οριστεί το πεδίο εφαρμογής, όταν η επιχείρηση επεκτείνεται γεωγραφικά σε μεγάλο μέρος Είναι η κατάλληλη λύση μόνο στην περίπτωση που χρειαζόμαστε δια-τμηματικές αναφορές

Προσέγγιση Κάτω-Προς-Πάνω Ορίζουμε πεδίο εφαρμογής του DW και αναλύουμε τις πηγές δεδομένων Ορίζουμε το ποσοστό υλοποίησης για κάθε παραδοτέο, βασιζόμενοι στις επιχειρησιακές ανάγκες και το μέγεθος των δεδομένων Υλοποίηση τεχνικού μέρους Ορισμός μεταδεδομένων και υλοποίηση ETL Μεταφόρτωση δεδομένων που απαιτείται για το συγκεκριμένο ποσοστό της επιχειρησιακής ΑΔ

Προσέγγιση Κάτω-Προς-Πάνω Πλεονεκτήματα Το Τμήμα Μηχανοργάνωσης ηγείται της όλης προσπάθειας γιατί εστιάζει στα δεδομένα και όχι στην επιχειρησιακή ανάγκη It is easier to get IT buy-in for this approach because it is focused on IT. Μειονεκτήματα Επειδή το μοντέλο του DW είναι προσαρμοσμένο στις πηγές των δεδομένων, τυχόν αλλαγές δεν μπορούν να υλοποιηθούν γρήγορα. Το Τμήμα Μηχανοργάνωσης δεν μαθαίνει γρήγορα για αλλαγές σε επιχειρηματικές διαδικασίες με αποτέλεσμα η ΑΔ να μην καλύπτει τις επιχειρησιακές ανάγκες κατά την παράδοση Ως μεθοδολογία ανάπτυξης χαρακτηρίζεται από τον επανασχεδιασμό που χρειάζεται μετά από κάθε παραδοτέο.

Φάσεις Σχεδίασης μιας Αποθήκης Δεδομένων Φυσικού μοντέλο Μοντέλο διαστάσεων Επιχειρησιακού μοντέλο 61 61

Επιχειρησιακού μοντέλο Καταγραφή των κυρίων επιχειρηματικών απαιτήσεων Ταυτοποίηση στρατηγικών δεικτών επίδοσης για τις παραπάνω απαιτήσεις Εύρεση των επιχειρηματικών διαδικασιών που υλοποιούν τις αναφερθείσες απαιτήσεις Μέτρηση των αλλαγών στα αποτελέσματος των δεικτών επίδοσης λόγω καλύτερης και άμεσης πληροφόρισης Ανάλυση των απαιτήσεων με μια τεχνική που ονομάζεται μοντέλο διαστάσεων

Συλλογή απαιτήσεων Εκμάθηση της σωστής επιχειρηματικής ορολογίας Παραμονή μέσα στα όρια του έργου Ενεργή συμμετοχή των χρηστών του συστήματος στην καταγραφή Δίνουμε στους χρήστες τα εργαλεία που χρειάζονται και όχι αυτά που θέλουν Καταγραφή των στρατηγικών δεικτών επίδοσης της επιχείρησης και των μεταδεδομένων Καταγραφή των επιχειρησιακών διαδικασιών και των μεταδεδομένων

Μοντέλο Διαστάσεων Μοντέλο Διαστάσεων (Dimensional Modeling) είναι μια τεχνική ειδικά για Αποθήκες Δεδομένων Βασίζεται στην θεώρηση των δεδομένων μέσω ενός πολυδιάστατου μοντέλου δεδομένων με βασικά στοιχεία πίνακες πολυδιάστατων δεδομένων, και πίνακες διαστάσεων. Χρησιμοποιεί το σχεσιακό μοντέλο δεδομένων με ορισμένες αλλαγές ή περιορισμούς. Η βασική σχεδιαστική έννοια είναι η χρήση ενός πίνακα που ονομάζεται πίνακας τιμών (Fact Table) Ένα σύνολο μικρότερων πινάκων που ονομάζονται πίνακες διαστάσεων (Dimensions)

Πίνακας Διάστασης (Dimension table) : Ο πίνακας που περιέχει πληροφορία σχετική με μια διάσταση. Περιέχει ένα τεχνητό κλειδί και από μία στήλη για κάθε επίπεδο της διάστασης (πιθανόν και κάποιες στήλες με επιπλέον χαρακτηριστικά των επιπέδων). Πίνακας Δεδομένων (Fact table) : Ο πίνακας που υλοποιεί τον υπό μοντελοποίηση κύβο. Κάθε εγγραφή του πίνακα αντιστοιχεί σε ένα κελί του κύβου Για κάθε διάσταση έχει και ένα εξωτερικό κλειδί στον αντίστοιχο πίνακα και για κάθε μέτρο και μια αντίστοιχη στήλη. Το πρωτεύον κλειδί είναι ο συνδυασμός των κλειδιών των διαστάσεων (οι συντεταγμένες του κελιού).

Τάσεις νέες τεχνολογίες

In Memory Databases Σε ένα Σύστημα Διαχείρισης Βάσης Δεδομένων Κύριας Μνήμης (ΣΔΒΔ-ΚΜ) (MMDB-Main Memory DataBase) όλα τα δεδομένα αποθηκεύονται στην κύρια μνήμη του υπολογιστή Ο χρόνος προσπέλασης είναι σημαντικά μικρότερος για την κύρια μνήμη Η διάταξη των δεδομένων είναι σημαντικότερη για τους δίσκους από ότι για την κύρια μνήμη, μια και η διαδοχική προσπέλαση (sequential access) είναι πιο γρήγορη από την τυχαία προσπέλαση (random access) Η κύρια μνήμη είναι ευθέως προσπελάσιμη από την επεξεργαστή. Οι δίσκοι δεν είναι, και αυτό προσθέτει επιπλέον χρόνο στην προσπέλαση των δεδομένων

In Memory Databases Σύμφωνα με μια αναφορά της εταιρείας Terradata (http://ww.terradata.com/white-papers/teradata-intelligent-memory), μόλις το 20% των δεδομένων μιας ΒΔ αφορούν στο 92% των συνολικών προσπελάσεων. Αυτό μας οδηγεί στο συμπέρασμα, ότι αν κρατήσουμε μόνο το 1/5 των συνολικών δεδομένων μας στη μνήμη, είναι αρκετό ώστε να ανταποκριθούμε σχεδόν στο σύνολο των αιτημάτων.

In Memory Databases http://www.ephlux.com/wp-content/uploads/2013/10/memory.jpg

Λίμνες Δεδομένων (Data Lakes) Μεθοδολογία αποθήκευσης δεδομένων σε ένα σύστημα «Κουβάς» για όλα τα επιχειρησιακά δεδομένα Δεδομένα σε ΣΣΒΔ Δεδομένα σε ημι-δομημένα αρχεία (csv, xml, json) Δεδομένα σε αδόμητα αρχεία (ηλ. ταχυδρομείο, PDF) Αρχεία σε δυαδική μορφή (εικόνες, ήχος) Κεντρική ασφάλεια Το περιεχόμενο μπορεί να ομογενοποιηθεί και να εμπλουτιστεί

Λίμνες Δεδομένων (Data Lakes) Εύκολη κλιμάκωση Επεξεργασία σε δεδομένα πραγματικού χρόνου Kafka, Flume Επεξεργασία στο σύνολο των δεδομένων με τη χρήση SQL Impala, Hive Προχωρημένες τεχνικές ανάλυσης στο σύνολο των δεδομένων

Λίμνες Δεδομένων Δομή http://www.searchtechnologies.com/images/blog-graphics/data-lake-architecture.jpg