Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, ίαυλος ιαφάνεια 29-1

Σχετικά έγγραφα
Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Άμεση Αναλυτική Επεξεργασία (OLAP)

Συστήματα OLAP. Πασχάλης Θρήσκος, PhD Λάρισα

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

ΑΛΕΞΑΝΔΡΕΙΟ Τ.Ε.Ι ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Άμεση Αναλυτική Επεξεργασία (OLAP)

Αποθήκες Δεδομένων & Πολυδιάστατη Ανάλυση

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Εισαγωγή στα Συστήµατα Βάσεων Δεδοµένων

Σχεδίαση και Ανάπτυξη Απ ποθηκών Δεδομένωνν

ΣΤΡΑΤΗΓΙΚΟ MANAGEMENT KAI EΠΙΧΕΙΡHΜΑΤΙΚΗ ΕΥΦΥΙΑ. Παρουσίαση 2 ο μέρος:

Business Development, SAP Hellas 01/12/2007

Information Technology for Business

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Λήψη απόφασης, Συστήματα Υποστήριξης Αποφάσεων, OLAP Ανάλυση, Περιβαλλοντική Εκπαίδευση ΕΙΣΑΓΩΓΗ

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ramez Elmasri and Shamkant B. Navathe Ελληνική Εκδόσεις Δίαυλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 1-1

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Πρόγραµµα Μεταπτυχιακών Σπουδών «Πληροφορική»

Εισαγωγή. Βάσεις Δεδομένων : Εισαγωγή 1

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

Επισκόπηση Μαθήµατος

Βάσεις εδοµένων. Βασίλειος Βεσκούκης, Εµµ. Στεφανάκης ΣΥΣΤΗΜΑΤΑ ΙΑΧΕΙΡΙΣΗΣ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Κατηγορίες Πληροφοριακών Συστημάτων Διοικητικής Υποστήριξης

Εισαγωγή στα Συστήματα Βάσεων εδομένων

Εισαγωγή. Τι είναι µια βάση δεδοµένων;

Αρχιτεκτονική του πληροφοριακού συστήµατος Cardisoft Γραµµατεία 2003 ιαχείριση Προσωπικού

Τίτλος Ειδικού Θεματικού Προγράμματος: «Διοίκηση, Οργάνωση και Πληροφορική για Μικρο-μεσαίες Επιχειρήσεις»

Certified Data Base Designer (CDBD)

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Data Cube. Μ.Χατζόπουλος 1

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 1: Ορισμοί βασικών εννοιών: Μια πρώτη μοντελοποίηση. Ευαγγελίδης Γεώργιος Τμήμα Εφαρμοσμένης Πληροφορικής

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση Δίαυλος Διαφάνεια 2-1

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Οργάνωση Γεωγραφικών. πληροφοριών

Εισαγωγή. web σελίδα Βάσεις εδοµένων Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Εισαγωγή. Καλή Ακαδημαϊκή Χρονιά! Τι θα δούμε σήμερα: Τα βασικά Την ιστορία (μέλλον) Μια γρήγορη ματιά στο τι θα δούμε στο μάθημα

Διαχείριση Πολιτισμικών Δεδομένων

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

INFORMATION MANAGEMENT

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Συστήματα Διαχείρισης Βάσεων Δεδομένων

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Εισαγωγή στα Συστήµατα Βάσεων Δεδοµένων

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ. Πετρογεωργάκης Μανούσος Σπυρόπουλος Σταύρος

Επιχειρησιακά Πληροφοριακά Συστήματα. Site: Στόχος Σκοπός μαθήματος

ΟΙΚΟΝΟΜΙΚΗ ΠΡΟΣΦΟΡΑ ΣΧΕ ΙΑΣΗΣ ΚΑΙ ΚΑΤΑΣΚΕΥΗΣ web εφαρµογής - ηλεκτρονικού κατατήµατος για έξυπνα κινητά

ΜΕΡΟΣ Ι: ΓΕΩΓΡΑΦΙΚΑ Ε ΟΜΕΝΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ Η ΦΥΣΗ ΤΩΝ ΓΕΩΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ...

Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking)

Περιοδικών και του Συλλογικού Καταλόγου Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών. Αθήνα, Μάιος 2007

Το εσωτερικό ενός Σ Β

...στις µέρες µας, όσο ποτέ άλλοτε, οι χώρες καταναλώνουν χρόνο και χρήµα στη µέτρηση της απόδοσης του δηµόσιου τοµέα...(oecd)

Εισαγωγή στις βασικές έννοιες των Βάσεων Δεδομένων

Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα)

Εισαγωγή στις Αποθήκες εδομένων

Orchid: Integrating Schema Mapping and ETL ICDE 2008

Πίνακας περιεχοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

ΑΠΟΘΗΚΕΣ Ε ΟΜΕΝΩΝ Σ. ΛΙΓΟΥ ΙΣΤΙΑΝΟΣ

Ιωσηφίδης Ελευθέριος

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ - Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

Ορισµοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ -2

Βάσεις Δεδομένων. Βασίλειος Βεσκούκης 2006 Ρ.Κορακίτης, Β.Βεσκούκης, Θ.Καραλόπουλος, Γ.Πανόπουλος

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Υποστήριξη Αποφάσεων. Γεώργιος Ευαγγελίδης. (βασισμένο στο κεφ. 23 του βιβλίου «Συστήματα Διαχείρισης Βάσεων Δεδομένων»)

ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.)

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Βάσεις δεδομένων και Microsoft Access

ΟΙΚΟΝΟΜΙΚΗ ΠΡΟΣΦΟΡΑ ΣΧΕ ΙΑΣΗΣ ΚΑΙ ΚΑΤΑΣΚΕΥΗΣ ΙΑ ΙΚΤΥΑΚΟΥ ΠΛΗΡΟΦΟΡΙΑΚΟΎ ΣΥΣΤΗΜΑΤΟΣ. Τρίτη, 7 Φεβρουαρίου 2012

Κεφάλαιο 2 ο. Συστήματα Πληροφοριών στην επιχείρηση

Εισαγωγή στις Αποθήκες εδομένων

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

Μέρος Ι: Εγκατάσταση και ιαμόρφωση των MySQL, Apache και PHP

Επιλέγοντας πίνακες και πεδία από τη βάση δεδοµένων του Microsoft Navision, οι χρήστες µπορούν να οργανώσουν και να καθορίσουν "κύβους" πληροφοριών

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

Μάθημα 3. Θεμέλια Επιχειρηματικής Ευφυΐας: Διαχείριση Βάσεων Δεδομένων και πληροφοριών

Προγράμματα Η /Υ / Εφαρμογές σε συστ ήματα Π ό οι τητας Αριστομένης Μακρής

ΣΥΣΤΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΕΠΙΧΕΙΡΗΜΑΤΙΚΩΝ ΠΟΡΩΝ

Βάσεις Δεδομένων Ι. 5 ο Φροντιστήριο. Πέρδικα Πολίνα [perdika]

Ψηφιακή οργάνωση πολιτισμικής πληροφορίας

ΔΙΑΣΥΝΔΕΔΕΜΕΝΗ ΑΝΑΛΥΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων

Στόχοι και αντικείμενο ενότητας

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Η κατεύθυνση "Πληροφοριακά Συστήµατα"

ΕργαλείοΠληροφόρησης καιανάπτυξης

Επεξεργασία Ερωτήσεων

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Ενότητα 1: Εισαγωγή στις Βάσεις Δεδομένων. Αθανάσιος Σπυριδάκος Διοίκηση Επιχειρήσεων

Ελληνικό Ανοικτό Πανεπιστήµιο. Η Ανάλυση και ο Σχεδιασµός στην Ενοποιηµένη ιαδικασία. ρ. Πάνος Φιτσιλής

Σύστημα. Αντώνης Μαϊργιώτης

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ. Ανάπτυξη Πληροφοριακών Συστηµάτων Επισκόπηση Π.Σ. & τεχνικές για Ανάλυση και Ανάπτυξη. πληροφοριακών συστηµάτων

Transcript:

ιαφάνεια 29-1

Εφαρµογές Βάσεων εδοµένων ΠΜΣ 510 ευτέρα 6-9 Αίθουσα Α Ώρες Γραφείου ευτέρα 5-6 (και οποιαδήποτε άλλη ώρα είµαι στο γραφείο ικτυακός τόπος www.di.uoa.gr/~pms510

Ύλη Αποθήκες δεδοµένων Εξόρυξη δεδοµένων Βάσεις εδοµένων στο WEB Ανάκτηση Πληροφοριών από ηµιδοµηµένα δεδοµένα XML και βάσεις δεδοµένων ιαφάνεια 29-3

Αναγνώσµατα Στο δικτυακό τόπο θα βρείτε τις διαφάνειες Επίσης θα µπορείτε να κατεβάσετε τα αναγνώσµατα (κυρίως εργασίες) Οι σηµειώσεις σας ιαφάνεια 29-4

ΠεριεχόµεναΚεφαλαίου 29 Στόχος των αποθηκών δεδοµένων Εισαγωγή, Ορισµοί, καιτεχνολογία Σύγκριση µε Παραδοσιακές Βάσεις εδοµένων Χαρακτηριστικά των Αποθηκών δεδοµένων Κατηγοριοποίηση των Αποθηκών δεδοµένων Πολυδιάστατα σχήµατα Ανάπτυξη αποθηκών δεδοµένων Λειτουργικότητα των αποθηκών δεδοµένων Αποθήκες έναντι vs. Όψεων υσκολίες Υλοποίησης και ανοικτά θέµατα ιαφάνεια 29-5

Σκοπόςτωναποθηκώνδεδοµένων Οι παραδοσιακές βάσεις δεδοµένων εξασφαλίζουν ακεραιότητα των δεδοµένων και καλύπτουν µεγάλο αριθµό δοσοληψιών. Οι χρήστες των αποθηκών δεδοµένων τις περισσότερες φορές χρειάζονται προσπέλαση ανάκτησης αλλά, χρειάζονται γρήγορη προσπέλαση σε µεγάλο όγκο δεδοµένων. Τα περισσότερα δεδοµένα που απαιτούνται για την ανάλυση δεδοµένων αποθηκών προέρχονται από πολλαπλές βάσεις δεδοµένων και οι αναλύσεις αυτές επαναλαµβανόµενες και προβλέψιµες ώστε να µπορεί να σχεδιασθεί λογισµικό που να καλύπτει τις απαιτήσεις. Υπάρχει ανάγκη για εργαλεία που βοηθούν την λήψη αποφάσεων γρήγορα, αξιόπιστα βασιζόµενα σε ιστορικά δεδοµένα. Ηλειτουργικότηταατήεπιτυγχάνεταιµε Data Warehousing και Online analytical processing (OLAP) ιαφάνεια 29-6

Εισαγωγή, Ορισµοί, καιορολογία Ο W. H Inmon χαρακτηρίζει µια αποθήκη δεδοµένων σαν: Μιασυλλογήυποκειµενικών, ενοποιηµένων, σταθερών, µεταβλητών στο χρόνο δεδοµένων για υποστήριξη διοικητικών αποφάσεων. ιαφάνεια 29-7

Εισαγωγή, Ορισµοί, καιορολογία Οι αποθήκες δεδοµένων έχουν το διακριτό χαρακτηριστικό ότι προορίζονται κυρίως για εφαρµογές υποστήριξης λήψης αποφάσεων. Οι παραδοσιακές βάσεις δεδοµένων βασίζονται στη δοσοληψία. Οι εφαρµογές που υποστηρίζονται από αποθήκες δεδοµένων είναι : OLAP (Online Analytical Processing) είναιέναςόροςπου χρησιµοποιείται για να περιγραφεί η ανάλυση πολύπλοκων δεδοµένωναπότηναποθήκηδεδοµένων. DSS (Decision Support Systems) συστήµαταυποστήριξηςλήψης αποφάσεωνγνωστάκαισαν EIS (Executive Information Systems) υποστηρίζουν την λήψη πολύπλοκων και σηµαντικών αποφάσεων. Εξόρυξη εδοµένων (Data Mining) χρησιµοποιείται για ανακάλυψη γνώσης, είναι η διαδικασία αναζήτησηςσε δεδοµένα για µη προβλεπόµενη νέα γνώση. ιαφάνεια 29-8

Η εξέλιξη των OLAP εφαρµογών εκαετία 60: Μαζική Επεξεργασία. υσκολία στην Ανάλυση και εύρεση των Πληροφοριών. Έλλειψη ευελιξίας. Κάθε εφαρµογή χρειάζεται ξεχωριστό προγραµµατισµό. εκαετία 70: Συστήµατα αποφάσεων που χρησιµοποιούν τερµατικά. Έλλειψη ενοποίησης µε εργαλεία γραφείου. εκαετία 80: Εργαλεία προσπέλασης και ανάλυσης. Γραφικές διεπαφές, εύκολη χρήση αλλά µόνο σε λειτουργικές βάσεις δεδοµένων. εκαετία 90: Αποθήκες εδοµένων µε ενσωµατωµένες µηχανές και εργαλεία OLAP 2000:Προσαρµοσµένες µηχανές-ηλεκτρονικό Εµπόριο ιαφάνεια 29-9

Ανακάλυψη γνώσης από βάσεις δεδοµένων (Knowledge Discovery) Επιχειρησιακή έρευνα Λήψη αποφάσεων Ανάλυση δεδοµένων Ολοκλήρωση πηγών Επιχειρησιακά δεδοµένα ιαφάνεια 29-10

Ανακάλυψη γνώσης από βάσεις δεδοµένων Επιχειρησιακή έρευνα Λήψη αποφάσεων Εργαλεία εξόρυξης δεδοµένων Εργαλεία Ανάλυση εξόρυξης δεδοµένων δεδοµένων Ολοκλήρωση πηγών Αποθήκη δεδοµένων Επιχειρησιακά δεδοµένα ιαφάνεια 29-11

Αποθήκες δεδοµένων Ορισµός Μία αποθήκη δεδοµένων (data warehouse) είναι µία συλλογή δεδοµένων η οποία συγκεντρώνει δεδοµένα: Ολοκληρωµένααπόδιαφορετικέςπηγές (Integrated) Αποθήκη δεδοµένων Λεπτοµερή και συγκεντρωτικά (detailed, summarized) Παγιωµένα (Non-volatile) Τρέχοντα και ιστορικά Με σκοπό την χρήση τους για επιχειρησιακή έρευνα και υποστήριξη λήψης αποφάσεων Επιχειρησιακά δεδοµένα ιαφάνεια 29-12

Εννοιολογικήδοµήµιαςαποθήκης Η επεξεργασία αποθηκών περιλαµβάνει Καθαρισµό και επαναµορφοποίηση δεδοµένων OLAP Εξόρυξη δεδοµένων Back Flushing Data Warehouse Databases Cleaning Reformatting Data Metadata OLAP DSSI EIS Data Mining Other Data Inputs Updates/New Data ιαφάνεια 29-13

ΣύγκρισηµεΠαραδοσιακέςΒάσεις εδοµένων Η βελτιστοποίηση των αποθηκών δεδοµένων γίνεται κυρίωςγιακατάλληληπροσπέλασησταδεδοµένα. Οι παραδοσιακές βάσεις δεδοµένων στηρίζονται στη δοσοληψία και η βελτιστοποίηση αφορά τόσο τους µηχανισµούς προσπέλασης όσο και την εξασφάλιση της ακεραιότητας. Οι αποθήκες δεδοµένων βασίζονται περισσότερο σε ιστορικά δεδοµένα καθώς ο βασικός στόχος τους είναι η υποστήριξη χρονοσειρών και ανάλυση τάσεων. Σε σχέση µε τις βάσεις δοσοληψιών στις αποθήκες τα δεδοµένα δεν είναι ευµετάβλητα. Στις βάσεις δοσοληψιών ο µηχανισµός αλλαγής είναι η δοσοληψία. Σε αντίθεση οι πληροφορίες στις αποθήκες είναι σχετικά σε µικρότερη λεπτότητα και η πολιτική ανανέωσης επιλέγεται προσεκτικά και συνήθως αυξητικά. ιαφάνεια 29-14

OLTP OLAP Χρήστης Υπάλληλος, Πληροφορικός Υπεύθυνος λήψης Αποφάσεων Λειτουργία Σχεδιασµός Βάσης εδοµένα Όψεις Χρήση Μονάδα Εργασίας Προσπέλαση Πράξεις # εγγραφών στην προσπέλαση Χρήστες Μέγεθος Βάσης Απόδοση Καθηµερινές Λειτ. Με βάση τις Εφαρµογές Τρέχοντα Λεπτοµερείς, Σχεσιακές οµηµένη, Επαναλαµβανόµενη Σύντοµη, Απλή οσοληψία Read/Write Ευρετήρια, Κατακερµατισµόςστο κλειδί εκάδες Χιλιάδες 100ΜΒ-GB Πλήθος οσοληψιών Λήψη Αποφάσεων Θεµατική Ιστορικά Συναθροιστικές, Πολυδιάστες Προ-επιλεγµένη Πολύπλοκες Επερωτήσεις Κυρίως Read Πολλές Σαρώσεις Εκατοµµύρια Εκατοντάδες 100GB-TB ΧρόνοςΙκανοπ. Επερωτ. ιαφάνεια 29-15

ΧαρακτηριστικάτωνΑποθηκών Πολυδιάστατη εννοιολογική όψη Περιληπτικές διαστάσεις Απεριόριστες διαστάσεις και επίπεδα συνάθροισης Απεριόριστες πράξεις µεταξύ διαστάσεων υναµική διαχείριση αραιών πινάκων Αρχιτεκτονική πελάτη-διακοµιστή Υποστήριξη πολλών χρηστών Προσπελασιµότητα ιαφάνεια ιαισθητική διαχείριση δεδοµένων Συνεπής απόδοση αναφορών Ευέλικτη δυνατότητα αναφορών ιαφάνεια 29-16

Κατηγοριοποίηση των Αποθηκών δεδοµένων Γενικά, οι Αποθήκες δεδοµένων είναι µια τάξη µεγέθους µεγαλύτερεςαπότιςπηγαίεςβάσειςδεδοµένων. Ο καθαρός όγκος των δεδοµένων είναι ένα θέµα, µε βάση το οποίο µπορούν να χαρακτηρισθούν οι αποθήκες δεδοµένων όπως παρακάτω. Αποθήκες δεδοµένων επιχειρήσεων Είναι τεράστια έργα που απαιτούν µεγάλες επενδύσεις χρόνου και πηγών. Εικονικές αποθήκες Παρέχουν όψεις λειτουργικών βάσεων δεδοµένων που υλοποιούνται για αποτελεσµατική προσπέλαση. Αγορές δεδοµένων Γενικά στοχεύουν σε ένα υποσύνολο του οργανισµού, όπως ένα τµήµα, και γενικά εστιάζουν στενά. ιαφάνεια 29-17

Τι εργαλεία χρειαζόµαστε; Εργαλεία εξαγωγής δεδοµένων από πολλαπλές λειτουργικές βάσεις δεδοµένων Εργαλεία καθαρισµού των δεδοµένων Εργαλεία µεταφοράς και ενοποίησης των δεδοµένων Εργαλεία φόρτωσης των δεδοµένων και περιοδικής ενηµέρωσης. ιαφάνεια 29-18

Εργαλεία Παρασκηνίου Εξαγωγή δεδοµένων Καθαρισµούτων εδοµένων (καθαρισµός, µετασχηµατισµός, έλεγχος). Φόρτωσης (προεπεξεργασία, έλεγχος περιορισµών ακεραιότητας, παραγωγήσυναθροιστικώνπινάκων, δηµιουργία ευρετηρίων). Εργαλεία Ενηµέρωσης ιαφάνεια 29-19

Εξαγωγή δεδοµένων Η εξαγωγή των δεδοµένων από ξένες πηγές επιτυγχάνεται µε gateways και τυπικέςδιεπαφές (όπως Information Builders EDA/SQL, ODBC, Oracle Open Connect, Informix Enterprise Gateway κλπ.) ιαφάνεια 29-20

Καθαρισµός εδοµένων Υπάρχουν τρεις κατηγορίες εργαλείων καθαρισµού: Data Migration Tools Data Scrubbing Tools Data Auditing Tools ιαφάνεια 29-21

Φόρτωση Μετά τον καθαρισµό χρειάζεται επιπλέον προεπεξεργασία για έλεγχο των περιορισµώνακεραιότητας, ταξινόµηση, συνάθροιση και υπολογισµό παραγοµένων πινάκων. Συνήθωςγίνεταιτηννύκτα. Μπορεί να είναι πλήρες (σε µορφή Batch) η αυξητικό όπως γίνεται στα περισσότερα εµπορικάεργαλεία (RedBrick Table Management Utility). ιαφάνεια 29-22

Ενηµέρωση ΠότεκαιΠως Πότε: Περιοδικά (ηµερήσια, εβδοµαδιαία) Πως: ύοµέθοδοι Data Shipping (Oracle Replication Server, Praxis OmniReplicator) Transaction Shipping (Sybase Replication Server, Microsoft SQL Server). ιαφάνεια 29-23

Εργαλεία Προσκηνίου Πολυδιάστα λογιστικά φύλα. (Υποστηρίζουν πράξεις όπως roll-up,drill-down, slice_and_dice, ranking, select) Περιβάλλοντα ιαχείρισης Επερωτήσεων. (Αποθηκευµένες επερωτήσεις, προκαθορισµένεςπολύπλοκες επερωτήσεις). ιαφάνεια 29-24

Μοντελοποίηση δεδοµένων για Αποθήκες Οι παραδοσιακές βάσεις δεδοµένων γενικά αφορούν δεδοµένα δύο διαστάσεων (όπως ένα λογιστικό φύλλο). Ωστόσο, η απόδοση των ερωτήσεων σε ένα µοντέλο αποθήκευσης πολυ-διάστατων δεδοµένων είναι πολύ πιο αποτελεσµατική. Οι αποθήκες εκµεταλεύονται χαρακτηριστικών που γενικά είναι Μη ευµετάβλητα δεδοµένα Ο βαθµός προβλεψιµότητας της ανάλυσης που θα γίνει στα δεδοµένα είναι υψηλός. ιαφάνεια 29-25

Μοντελοποίηση δεδοµένων για Αποθήκες Παράδειγµα δύο διαστάσεων έναντι πολλών διαστάσεων P r o d u c t P123 P124 P125 P126 : : Three dimensional data cube Fiscal Quarter Qtr 1 Qtr 2 Qtr 3 Qtr 4 Reg 1 Region Reg 2 Reg 3 ιαφάνεια 29-26

Μοντελοποίηση δεδοµένων για Αποθήκες Πλεονεκτήµατα ενός πολυδιάστατου µοντέλου Τα πολυδιάστατα µοντέλου οδηγούν σε ιεραρχικές όψεις γνωστές σαν ανοδική (roll-up) παρουσίαση και καθοδική (drill-down) παρουσίαση. Οιερωτήσειςµπορούνναγίνουνάµεσασε οποιοδήποτεσυνδυασµόδιαστάσεων, παρακάµπτοντας πολύπλοκες ερωτήσεις βάσεων δεδοµένων. ιαφάνεια 29-27

Πολυδιάστατασχήµατα Τα πολυδιάστατα σχήµατα προσδιορίζονται χρησιµοποιώντας τα: Πίνακα διαστάσεων Αποτελείται από πλειάδες γνωρισµάτων της διάστασης. Πίνακας γεγονότων Κάθε πλειάδα είναι ένα καταγεγραµµένο γεγονός. Αυτό το γεγονόςπεριέχεικάποια(ες) µετρήσιµη(ες) ή παρατηρηµένη(ες) µεταβλητή(ες) και την προσδιορίζει µε δείκτες στους πίνακες διαστάσεων. Ο πίνακας γεγονότων περιέχει τα δεδοµένα, και τις διαστάσεις για τον προσδιορισµό κάθε πλειάδας στα δεδοµένα. ιαφάνεια 29-28

Πολυδιάστατασχήµατα Τα πιο γνωστά πολυδιάστατα σχήµατα είναι Σχήµα αστέρα: Αποτελείται από ένα πίνακα γεγονότων µε ένα πίνακα για κάθε διάσταση Σχήµα χινονιφάδας : Αποτελεί µια παραλλαγή του σχήµατος αστέρα, στο οποίο οι πίνακες διαστάσεων από το σχήµα αστέρα οργανώνονται µε κανονικοποίηση. ιαφάνεια 29-29

Πολυδιάστατασχήµατα Σχήµα αστέρα: Αποτελείται από ένα πίνακα γεγονότων για κάθε διάσταση. ιαφάνεια 29-30

Πολυδιάστατασχήµατα Σχήµα χιονονιφάδας: Αποτελεί παραλλαγή του σχήµατος αστέρα, στο οποίο οι πίνακες διαστάσεων από το σχήµα αστέρα οργανώνονται σε µια ιεραρχία αφού κανονικοποιηθούν. ιαφάνεια 29-31

Πολυδιάστατασχήµατα Αστερισµός γεγονότων Ο αστερισµός γεγονότων είναι ένα σύνολο πινάκων µε κοινούς κάποιους πίνακες διαστάσεων. Ωστόσο, οιαστερισµοίγεγονότων περιορίζουν τις πιθανές ερωτήσεις στην αποθήκη. ιαφάνεια 29-32

Πολυδιάστατασχήµατα Ευρετηριοποίηση Οι αποθήκες δεδοµένων χρησιµοποιούν επίσης ευρετήρια για απόδοση της προσπέλασης. Μια τεχνική που ονοµάζεται bitmap ευρετήριο κατασκευάζει ένα bit διάνυσµα για κάθε τιµή του πεδίου του ευρετηρίου. Ο µηχανισµός ευρετηρίων αποδίδει για πεδία χαµηλή πλυθηκότητα. ιαφάνεια 29-33

ΚτίσιµοµιαςΑποθήκηςδεδοµένων Οι κατασκευαστές αποθηκών θα πρέπει να έχουν γνώση της αναµενόµενης χρήσης της αποθήκης. Ο σχεδιασµός θα πρέπει να υποστηρίζει στοχευµένες ερωτήσεις Πρέπειναεπιλεγείένακατάλληλοσχήµαπουνα αντικατοπτρίζει την αναµενόµενη χρήση. ιαφάνεια 29-34

ΚτίσιµοµιαςΑποθήκηςδεδοµένων Ο σχεδιασµός µιας αποθήκης περιλαµβάνει τα παρακάτω βήµατα. Συγκέντρωση των δεδοµένων της αποθήκης. Εξασφάλιση ότι η αποθήκευση δεδοµένων καλύπτει αποτελεσµατικά τις απαιτήσεις των ερωτήσεων. Ναεξετάζουνπλήρωςτοπεριβάλλονστοοποίοθα αποθηκευθεί η αποθήκη. ιαφάνεια 29-35

ΚτίσιµοµιαςΑποθήκηςδεδοµένων Συγκέντρωση των δεδοµένων της αποθήκης Ταδεδοµέναπρέπειναεξαχθούναπόπολλαπλές, ετερογενείς πηγές. Τα δεδοµένα πρέπει να µορφοποιηθούν για συνέπεια στην αποθήκη. Ταδεδοµέναπρέπεινακαθαριστούν γιανα εξασφαλισθεί εγκυρότητα. Η διαδικασία του καθαρισµού είναι δύσκολο να αυτοµατοποιηθεί. Οµαδική επιστροφή (Back flushing), αναβάθµιση των δεδοµένων µε καθαρά δεδοµένα. ιαφάνεια 29-36

ΚτίσιµοµιαςΑποθήκηςδεδοµένων Συγκέντρωση των δεδοµένων της αποθήκης (συν.) Τα δεδοµένα πρέπει να ταιριάζουν στο µοντέλο δεδοµένων της αποθήκης. Τα δεδοµένα πρέπει να φορτωθούν στην αποθήκη. Πρέπει να εξετασθεί κατάλληλος σχεδιασµός για την πολιτική ανανέωσης. ιαφάνεια 29-37

ΚτίσιµοµιαςΑποθήκηςδεδοµένων Αποθήκευση των δεδοµένων σύµφωνα µε το µοντέλο δεδοµένων της αποθήκης ηµιουργία και διατήρηση των απαιτούµενων δοµών δεδοµένων ηµιουργία και διατήρηση κατάλληλων δοµών προσπέλασης Υποστήριξη µεταβλητών στο χρόνο δεδοµένων καθώς προστίθενται δεδοµένα Υποστήριξη ενηµέρωσης των δεδοµένων της αποθήκης. Ανανέωση των δεδοµένων Εκκαθάριση των δεδοµένων ιαφάνεια 29-38

ηµιουργίακαιδιατήρηση Προοπτική της χρήσης Καταλληλότητα του µοντέλου δεδοµένων Χαρακτηριστικά των διαθέσιµων πόρων Σχεδιασµός των µετα-δεδοµένων Τµηµατική ανάπτυξη Σχεδιασµός για δυνατότητα διαχείρισης Εξέταση χρήσης κατανεµηµένων και παράλληλων αρχιτεκτονικών κατανεµηµένες έναντι οµόσπονδων αποθηκών ιαφάνεια 29-39

ΛειτουργικότηταµιαςΑποθήκης Η αναµενόµενη λειτουργικότητα: Roll-up: Τα δεδοµένα συνοψίζονται µε αυξανόµενη γενίκευση Drill-Down: Αποκαλύπτονται αυξανόµενα επίπεδα λεπτοµέρειας Pivot: Εκτελείται διασταυρωτή πινακοποίηση Slice and dice: Εκτέλεσηπράξεωνπροβολήςστις διαστάσεις. Ταξινόµηση: Τα δεδοµένα ταξινοµούνται µε βάση αριθµητική τιµή. Επιλογή: Τα δεδοµένα είναι διαθέσιµα µε βάση τιµή ή διάστηµα. Παραγόµενα γνωρίσµατα: Γνωρίσµατα υπολογίζονται µε πράξεις σε αποθηκευµένες τιµές και παραγόµενες τιµές. ιαφάνεια 29-40

ΑποθήκεςέναντιΌψεων Οι όψεις και οι αποθήκες δεδοµένων µοιάζουν µοιάζουν στο ότι και οι δύο χρησιµοποιούν read-only από βάσεις δεδοµένων. Ωστόσο, οι αποθήκες δεδοµένων διαφέρουν από τις όψεις στα παρακάτω: Οι αποθήκες δεδοµένων υπάρχουν σαν µόνιµη αποθήκευση αντί να υλοποιούνται σύµφωνα µε την ζήτηση. Οι αποθήκες δεδοµένων δεν είναι συνήθως σχεσιακές, αλλά πολυδιάστατες. Για βελτιστοποίηση µπορεί να δηµιουργηθούν ευρετήρια για βελτιστοποίηση στις αποθήκες. Οι αποθήκες δεδοµένων διαχειρίζονται µεγάλους όγκους δεδοµένων που γενικά βρίσκονται σε περισσότερες από µια βάση δεδοµένων. ιαφάνεια 29-41

υσκολίεςστηνυλοποίηση αποθηκώνδεδοµένων Ο χρόνος ανάπτυξης µιας αποθήκης είναι τεράστιος Θέλει χρόνια για την ανάπτυξη και την αποτελεσµατική διαχείριση µιας αποθήκης. Σηµαντικό µέληµα είναι η ποιότητα και η συνέπεια των δεδοµένων. Αναθεώρηση της αναµενόµενης χρήσης τακτικά για να καλύπτει τις τρέχουσες απαιτήσεις. Η αποθήκη δεδοµένων θα πρέπει να σχεδιάζεται για να καλύπτει προσθήκη και φθορά πηγών δεδοµένων χωρίς σηµαντικό επανασχεδιασµό. Η διαχείριση µιας αποθήκης δεδοµένων απαιτεί πολύ πιο ευρύτερες ικανότητες από αυτές που χρειάζονται για τις παραδοσιακές βάσεις δεδοµένων. ιαφάνεια 29-42

Υλοποιήσεις 1.Υλοποίηση χρησιµοποιώντας επεκτάσεις των σχεσιακών Σ Β. Η προσέγγιση αυτή λέγεταιχρήσηεξυπηρετών ROLAP (Relational OLAP). Στηνπερίπτωσηαυτή υποθέτουµε ότι τα δεδοµένα έχουν αποθηκευθεί σε σχεσιακές βάσεις δεδοµένων. 2. Σε αντίθετη περίπτωση χρησιµοποιούνται πολυδιάστατοι εξυπηρέτες (MOLAP- Multidimensional OLAP). Οιεξυπηρέτες αποθηκεύουν πολυδιάστατα δεδοµένα χρησιµοποιώνταςειδικέςδοµές. ιαφάνεια 29-43

Θέµατα στην υλοποίηση Εξυπηρετών Αποθηκών Ευρετήρια Υλοποιήσιµες Όψεις Βελτιστοποίηση Πολύπλοκων Επερωτήσεων Παράλληλη Επεξεργασία Αρχιτεκτονικές Εξυπηρετών Επεκτάσεις της SQL ιαχείριση των Μετα- εδοµένων ιαφάνεια 29-44

Μετασχηµατισµός Πολύπλοκων SQL Επερωτήσεων Unnestπολύπλοκες SQL επερωτήσεις Επιπεδοποίηση επερωτήσεων Παράλληλη Επεξεργασία ιαφάνεια 29-45

Αρχιτεκτονικές Εξυπηρετών για Επεξεργασία Επερωτήσεων Εξειδικευµένοι SQL εξυπηρέτες (πχ Redbrick) ROLAP εξυπηρέτες (Microstrategy) MOLAP εξυπηρέτες (Essbaseαπότην Arbor) ιαφάνεια 29-46

Επεκτάσεις της SQL Επεκτάσεις στις συναθροιστικές συναρτήσεις Χαρακτηριστικά Αναφορών Πολλαπλό GROUP BY υναµική δηµιουργία αναφορών Συγκρίσεις ιαφάνεια 29-47

Ανοικτά θέµατα σε αποθήκες δεδοµένων Σεσχέσηµετιςαποθήκεςδεδοµένωνθαπρέπειναδοθεί προσοχή στον καθαρισµό δεδοµένων, τα ευρετήρια, την διαµέριση, και τις όψεις. Αυτοµατισµός των συγκέντρωση δεδοµένων ποιότητα και διαχείριση δεδοµένων επιλογή και κατασκευή δοµών προσπέλασης αυτο-διαχείριση βελτιστοποίηση λειτουργικότητας και απόδοσης Κατάλληλη ενσωµάτωση στη δηµιουργία της αποθήκης επιχειρηµατικών κανόνων και κανόνων πεδίου και πιο έξυπνη διαδικασία διαχείρισης. ιαφάνεια 29-48

Ανακεφαλαίωση Σκοπός των αποθηκών Εισαγωγή, Ορισµοί και Ορολογία Σύγκριση µε παραδοσιακές Βάσεις δεδοµένων Χαρακτηριστικά µιας αποθήκης δεδοµένων Ταξινόµηση των αποθηκών δεδοµένων Πολυδιάστατα σχήµατα Κτίσιµο µιας αποθήκης Λειτουργικότητα µιας αποθήκης δεδοµένων Αποθήκες έναντι όψεων υσκολίες υλοποίησης και ανοικτά θέµατα ιαφάνεια 29-49