Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking)

Σχετικά έγγραφα
Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Αποθήκες Δεδομένων & Πολυδιάστατη Ανάλυση

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Συστήματα OLAP. Πασχάλης Θρήσκος, PhD Λάρισα

Άμεση Αναλυτική Επεξεργασία (OLAP)

Άμεση Αναλυτική Επεξεργασία (OLAP)

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Επισκόπηση περιοχής. Γιάννης Θεοδωρίδης

Data Cube. Μ.Χατζόπουλος 1

Αποθήκες Δεδομένων. Αρχιτεκτονική, Μοντέλο Δεδομένων και Σχεδίαση

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

ΑΛΕΞΑΝΔΡΕΙΟ Τ.Ε.Ι ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΣΤΡΑΤΗΓΙΚΟ MANAGEMENT KAI EΠΙΧΕΙΡHΜΑΤΙΚΗ ΕΥΦΥΙΑ. Παρουσίαση 2 ο μέρος:

Αποθήκες Δεδομένων. Αποθήκες και εξόρυξη δεδομένων 6 ο εξάμηνο

Εισαγωγή στις Αποθήκες εδομένων

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ -2

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Λήψη απόφασης, Συστήματα Υποστήριξης Αποφάσεων, OLAP Ανάλυση, Περιβαλλοντική Εκπαίδευση ΕΙΣΑΓΩΓΗ

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

Υποστήριξη Αποφάσεων. Γεώργιος Ευαγγελίδης. (βασισμένο στο κεφ. 23 του βιβλίου «Συστήματα Διαχείρισης Βάσεων Δεδομένων»)

4. ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΠΟΛΥΔΙΑΣΤΑΤΗΣ ΑΝΑΛΥΣΗΣ

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, ίαυλος ιαφάνεια 29-1

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εισαγωγή στις Αποθήκες εδομένων

Data Warehouse Refreshment via ETL tools. Panos Vassiliadis

Επερωτήσεις σύζευξης με κατάταξη

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Σχεδιασμός Βάσεων Δεδομένων

ΗΥ-360 Αρχεία και Βάσεις Δεδομένων Διδάσκων: Δ. Πλεξουσάκης. Φροντιστήριο SQL Examples ΙΙ Ξένου Ρουμπίνη

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Θεωρία Κανονικοποίησης

Εισαγωγή στις Αποθήκες εδοµένων

Η SQL ως γλώσσα ερωτημάτων. Υπενθυμίζουμε: Σχέση = Πίνακας Πλειάδα = Εγγραφή = Γραμμή (Πίνακα) Πεδίο = Γνώρισμα (Σχέσης) = Στήλη (Πίνακα)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Εισαγωγή στις βάσεις δεδομένων - Η ανατομία μιας βάσης δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

Εισαγωγή στα Πληροφοριακά Συστήματα

Πανεπιστήμιο Πειραιώς, Τμήμα Πληροφορικής

Πολυδιάστατη Ανάλυση Δεδομένων

Business Development, SAP Hellas 01/12/2007

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

14Ιαν Νοε

Query-by-Example (QBE)

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Σχεδίαση και Ανάπτυξη Απ ποθηκών Δεδομένωνν

Information Technology for Business

11.1. Θεωρητικό υπόβαθρο για τους κύβους δεδομένων και την πολυδιάστατη ανάλυση

Πληροφοριακά Συστήµατα

Kεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα

Τ Μ Η Μ Α Δ ΙΟ ΙΚ Η Σ Η Σ Μ Ο Ν Α Δ Ω Ν Υ Γ Ε ΙΑ Σ Π ΡΟ Ν Ο ΙΑ Σ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ «ΕΓΚΑΤΑΣΤΑΣΗ ΚΑΙ ΜΕΑΕΤΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΧΕΙΡΙΣΗΣ ΔΕΔΟΜΕΝΩΝ OLAP»

Τμήμα Πληροφορικής ΑΠΘ

PROJECT ΕΡΓΑΣΤΗΡΙΩΝ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Ι. Τμήμα Μηχανικών Πληροφορικής Τ.Ε.

Σχεσιακό Μοντέλο. Σχεδιασμός Βάσεων Δεδομένων Μάθημα 2 ο Μαρία Χαλκίδη

Προγραμματισμός ταμειακής ροής για αγορές υλικών

Σχεδιασμός Βάσεων Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑIΟΥ & ΑΕΙ ΠΕΙΡΑΙΑ Τ.Τ.

SQL Data Manipulation Language

Η SQL αποτελείται από δύο υποσύνολα, τη DDL και τη DML.

GROUP BY, HAVING, COUNT, MIN, MAX, SUM, AVG, ROLLUP.

Τι είναι πληροφοριακό σύστημα

Ηλεκτρονικοί Υπολογιστές II

Συστήματα Πληροφοριών Διοίκησης

5. ΠΟΛΥΔΙΑΣΤΑΤΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Βάσεις Δεδομένων και Ευφυή Πληροφοριακά Συστήματα Επιχειρηματικότητας. 2 ο Μάθημα: Βασικά Θέματα Βάσεων Δεδομένων. Δρ. Κωνσταντίνος Χ.

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Κατηγορίες Πληροφοριακών Συστημάτων Διοικητικής Υποστήριξης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

ΑΠΟΘΗΚΕΣ Ε ΟΜΕΝΩΝ Σ. ΛΙΓΟΥ ΙΣΤΙΑΝΟΣ

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Επιβλέπων: ΠΟΤΗΡΑΚΗΣ ΑΝΤΩΝΙΟΣ

Εµβάθυνση στις έννοιες: Ανάλυση, β) Εξαγωγή Αναφορών (Enterprise Reporting & Online Analytical Processing / OLAP). Παραδείγµατα.

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Βάσεις Δεδομένων ΙΙ. Διάλεξη 7 η Aποθήκες Δεδομένων και OLAP (On-line Analytical Processing)

Εργαλεία επιχειρηματικής ευφυΐας στο εμπορικό τμήμα Marketing Τραπεζικού Οργανισμού

Έρευνα Μάρκετινγκ Ενότητα 5

ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.)

Τίτλος Πακέτου Certified Computer Expert-ACTA

Προηγμένα Πληροφοριακά Συστήματα. Ακαδημαϊκό Έτος

Βάσεις Δεδομένων Προχωρημένα Ερωτήματα SQL

Βάσεις Δεδομένων (Databases)

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 6: SQL (Συζεύξεις, Εμφώλευση, Ομαδοποίηση) Ευαγγελίδης Γεώργιος. Τμήμα Εφαρμοσμένης Πληροφορικής ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Περιεχόμενα. Βάσεις Δεδομένων Προχωρημένα Ερωτήματα SQL. Συνένωση Σχέσεων στην SQL2 (3) Συνένωση Σχέσεων στην SQL2. (Join Relations Feature in SQL)

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ. Επιλέγει όλες τις πλειάδες, από μια σχέση R, που ικανοποιούν τη συνθήκη επιλογής.

Πληροφοριακά Συστήματα Διοίκησης

Το Σχεσιακό Μοντέλο. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Certified Data Base Designer (CDBD)

Αρχεία και Βάσεις Δεδομένων

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Πρόγραµµα Μεταπτυχιακών Σπουδών «Πληροφορική»

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.)

Transcript:

ΒΔ για Λήψη Αποφάσεων Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking) Οργάνωση ιστορικής πληροφορίας σε Αποθήκες Δεδομένων (Data Warehousing) Εξόρυξη Γνώσης από Δεδομένα (Data Mining) Εργαστήριο Πληροφοριακών Συστηµάτων, Παν/µιο Πειραιώς (http://infolab.cs.unipi.gr/) έκδοση: Φεβ. 2010 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Πηγές Το κύριο μέρος των διαφανειών προέρχεται από: Silberschatz et al., Database System Concepts, 4/e. Οι μεταφράσεις των Αγγλικών όρων στα Ελληνικά βασίστηκαν κυρίως στο: Π. Βασιλειάδης, Σ. Σκιαδόπουλος, Τ. Σελλής «Θέματα Μοντελοποίησης και Επερώτησης Πολυδιάστατων Βάσεων Δεδομένων», 1o Ελληνικό Συμπόσιο Διαχείρισης Δεδομένων, Αθήνα, 22 23 Ιουλίου 2002, σελ. 3 22. 2 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.1

"Πυραμίδα" Επιχειρηματικής Ευφυίας (Business Intelligence BI) Λήψη απόφασης Managing Director Παρουσίαση αποτελεσµάτων Visualization Techniques Εξόρυξη Γνώσης (Data Mining) Information Discovery Εξερεύνηση δεδοµένων (Data Exploration) Statistical Analysis, Querying and Reporting Αποθήκες δεδοµένων (Data Warehouses) Online Analytical Processing (OLAP), Multi-dim. Analysis (MDA) Πηγές δεδοµένων (Data Sources) Paper, Files, Information Providers, Database Systems, OLTP Business Analyst Data Analyst DBA 3 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking) Οργάνωση ιστορικής πληροφορίας σε Αποθήκες Δεδομένων (Data Warehousing) Εξόρυξη Γνώσης από Δεδομένα (Data Mining) 4 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.2

Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων ΣΥΑ (Decision support systems DSS) χρησιμοποιούνται για την υποστήριξη λήψης αποφάσεων στηριγμένων πάνω στα επιχειρησιακά δεδομένα που συγκεντρώνονται από On Line Transaction Processing (OLTP) συστήματα. Παραδείγματα αποφάσεων: Τι ποσότητες από κάθε προϊόν να έχουμε στην αποθήκη; Σε ποιους από τους πελάτες μας να στείλουμε διαφημιστικό υλικό; Παραδείγματα δεδομένων που χρησιμοποιούνται για τη λήψη αποφάσεων συναλλαγές πωλήσεων προϊόντων στοιχεία πελατών (ηλικία, φύλο, εισόδημα κλπ.) 5 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Εργαλεία Ανάλυσης Δεδομένων Άμεση αναλυτική επεξεργασία δεδομένων (Online Analytical Processing OLAP) πρακτικά, αποτελούν σύνθετα SQL αιτήματα Παράδειγμα: να υπολογιστεί το σύνολο των πωλήσεων στο τελευταίο τρίμηνο του έτους ανά κατηγορία προϊόντων και περιοχή πώλησης, και να συγκριθεί με τις αντίστοιχες τιμές τουπροηγούμενουέτους. Για να γίνει η σχετική ανάλυση, μπορεί να συνδεθεί ένα πακέτο στατιστικής ανάλυσης (π.χ. SPSS) με το ΣΔΒΔ στο οποίου διατηρούνται τα δεδομένα Αποθήκες Δεδομένων ΑΔ (Data Warehouse DW) οργανώνουν και αποθηκεύουν κεντρικά ιστορική πληροφορία για τους σκοπούς της ανάλυσης Πολύ χρήσιμες για μεγάλους οργανισμούς που συγκεντρώνουν δεδομένα από πολλαπλές τοποθεσίες Τεχνικές εξόρυξης γνώσης από δεδομένα (Data mining) επιδιώκουν την ανακάλυψη κρυμμένης γνώσης, σε μορφή κανόνων και προτύπων, από μεγάλες ΒΔ/ΑΔ. 6 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.3

Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking) Οργάνωση ιστορικής πληροφορίας σε Αποθήκες Δεδομένων (Data Warehousing) Εξόρυξη Γνώσης από Δεδομένα (Data Mining) 7 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ανάλυση Δεδομένων με τεχνικές OLAP Η σύνοψη μεγάλου όγκου δεδομένων είναι εφικτή με τεχνικές συνάθροισης (aggregate functions), όπως count(), sum(), min(), max(), avg() Άμεση Αναλυτική Επεξεργασία (OLAP) Διαδραστική ανάλυση της πληροφορίας που βρίσκεται μέσα στη ΒΔ, με σύνοψη και θέασή τους από διαφορετικές οπτικές γωνίες Πολυδιάστατη απεικόνιση δεδομένων: Η πληροφορία μοντελοποιείται ως ένα σύνολο από διαστάσεις και μετρήσιμα μεγέθη Κάποια από τα πεδία ενός πίνακα ΒΔ μπορούν να παίξουν το ρόλο των μετρήσιμων μεγεθών (measure attributes), καθώς συνιστούν τη μέτρηση μιας τιμής που μπορεί να συναθροιστεί τεμάχια που πωλήθηκαν, τζίρος κλπ. Κάποια άλλα πεδία μπορούν να παίξουν το ρόλο των διαστάσεων (dimension attributes), καθώς ορίζουν τις διαστάσεις πάνω στις οποίες μπορούν να εμφανιστούν τα μετρήσιμα μεγέθη και οι συνόψεις πάνω σ αυτά Example: αθροίσματα, μέσοι όροι κλπ. πωλήσεων ανά μήνα, ανά κατηγορία προϊόντος, ανά φύλο πελάτη κοκ. 8 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.4

Cross tabs Ένας πίνακας διασταύρωσης δεδομένων (cross tab) σχηματίζεται ως εξής: Οι τιμές ενός από τα πεδία διαστάσεις αποτελούν τις επικεφαλίδες των γραμμών του πίνακα, ενώ οι τιμές ενός άλλου από τα πεδία διαστάσεις αποτελούν τις επικεφαλίδες των στηλών του πίνακα Τα υπόλοιπα πεδία διαστάσεις εμφανίζονται εκτός πίνακα Παράδειγμα: Πίνακας ΒΔ: sales Διαστάσεις: item name, color, size Μετρήσιμο μέγεθος: number 9 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Cross tabs Οι πίνακες cross tab μπορούν να υλοποιηθούν ως σχεσιακοί πίνακες 3 στήλες (για τις 2 διαστάσεις και το 1 μετρήσιμο μέγεθος) χρήση της ειδικής τιμής all όπου υπάρχει συνάθροιση η SQL:1999 χρησιμοποιεί τιμές null αντί της all 10 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.5

Πολυδιάστατος κύβος δεδομένων Ένας κύβος δεδομένων (data cube) αποτελεί γενίκευση σε πολλές διαστάσεις του πίνακα cross tab Item-name dark skirt dress shirt pant pastel white all Color Πωλήσεις του προϊόντος shirt χρώµατος dark µεγέθους small all small medium large Size all 11 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης OLAP πάνω σε κύβους δεδομένων Η εναλλαγή των διαστάσεων στην εμφάνιση ενός cross tab ονομάζεται pivoting («περιστροφή») Παράδειγμα: ο αναλυτής βλέπει cross tab πάνω στις διαστάσεις item name, color και θέλει να δει cross tab πάνω στις διαστάσεις item name, size. Η επιλογή ορισμένων μόνο στοιχείων ενός cross tab ονομάζεται slicing («τεμαχισμός») Παράδειγμα: ο αναλυτής θέλει να δει cross tab πάνω στις διαστάσεις itemname, color για συγκεκριμένο όμως μέγεθος (π.χ. size= large ) αντί της συνάθροισης όλων των μεγεθών. 12 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.6

OLAP πάνω σε κύβους δεδομένων Ημετάβασηαπό μεγαλύτερη σε μικρότερη λεπτομέρεια / κλίμακα εμφάνισης πληροφορίας ονομάζεται roll up («συναθροιστική άνοδος») Παράδειγμα: ο αναλυτής βλέπει (πλήρες) cross tab πάνω στις διαστάσεις itemname, color και θέλει να δει (συνοπτικό, color = all ) cross tab πάνω στη διάσταση item name. Η αντίθετη λειτουργία (μετάβαση από μικρότερη σε μεγαλύτερη λεπτομέρεια) ονομάζεται drill down («αναλυτική κάθοδος») Παράδειγμα: ο αναλυτής βλέπει (συνοπτικό, color = all ) cross tab πάνω στη διάσταση item name και θέλει να δει αναλυτικά τι πωλήθηκε για κάθε χρώμα, δηλαδή cross tab πάνω στις διαστάσεις item name, color. 13 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ιεραρχίες πάνω στις διαστάσεις Μπορούμε να ορίσουμε ιεραρχίες (δενδρικές δομές) πάνω στις διαστάσεις ώστε να εμφανίζουμε την πληροφορία σε διαφορετικά επίπεδα λεπτομέρειας, π.χ. πάνω στη διάσταση DateTime μπορούν να οριστούν οι ιεραρχίες: ώρα (00 23), ημερομηνία, ημέρα (Δε Κυ), μήνας, τρίμηνο, έτος πάνω στη διάσταση Location μπορούν να οριστούν οι ιεραρχίες (υποθέστε μια πολυεθνική επιχείρηση): πόλη, νομός, χώρα, ήπειρος 14 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.7

Cross tabs με ιεραρχίες Οι πίνακες Cross tabs μπορούν εύκολα να ενσωματώσουν ιεραρχίες Οπότε μπορούν να γίνουν λειτουργίες drill down ή roll up πάνω σε ιεραρχίες 15 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Υλοποίηση κύβων δεδομένων Τα πρώτα συστήματα OLAP αποθήκευαν τους κύβους δεδομένων ως πολυδιάστατους πίνακες κύριας μνήμης (arrays). Ονομάζονται multidimensional OLAP (MOLAP) συστήματα Αργότερα προέκυψαν υλοποιήσεις σε σχεσιακούς πίνακες ΒΔ (relations). Ονομάζονται relational OLAP (ROLAP) συστήματα Σήμερα, υπάρχουν υβριδικές υλοποιήσεις που αποθηκεύουν τιςσυναθροίσειςτωνυψηλώνεπιπέδωνσεarrays τα λεπτομερή δεδομένα και τις συναθροίσεις χαμηλών επιπέδων σε relations... και ονομάζονται hybrid OLAP (HOLAP) συστήματα. 16 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.8

Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking) Οργάνωση ιστορικής πληροφορίας σε Αποθήκες Δεδομένων (Data Warehousing) Εξόρυξη Γνώσης από Δεδομένα (Data Mining) 17 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Επεκτάσεις SQL για ανάλυση δεδομένων Η ανάλυση δεδομένων έχει οδηγήσει σε νέες απαιτήσεις ερωτημάτων πάνω στη ΒΔ: κύβοι δεδομένων και πολύπλοκες λειτουργίες συνάθροισης ολιστικές λειτουργίες, π.χ. διάμεσος (median), διακύμανση (variance), συσχέτιση (correlation), παλινδρόμηση (regression),... λειτουργίες παραθύρου, π.χ. κινούμενοι μέσοι όροι αιτήματα κατάταξης (π.χ. «να ανατεθεί ένας α/α σε κάθε φοιτητή με βάση τη συνολική του βαθμολογία») και παραθύρου (π.χ.«να συγκριθεί ο τζίρος του φετινής χρονιάς Η SQL:1999 παρέχει επεκτάσεις προς αυτή την κατεύθυνση: λειτουργίες cube και rollup για πολυδιάστατη ανάλυση δεδομένων λειτουργία rank γιααιτήματακατάταξης λειτουργίες παραθύρου (windowing) 18 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.9

Λειτουργίες cube και rollup Ηλειτουργίαcube() ουσιαστικά είναι ένα σύνολο από λειτουργίες group by (μια για κάθε διακριτή τιμή των πεδίων διαστάσεων) Π.χ. η εντολή SQL select item-name, color, size, sum(number) from sales group by cube(item-name, color, size) υπολογίζει 2 3 = 8 διαφορετικές ομαδοποιήσεις πάνω στον πίνακα sales: { (item name, color, size), (item name, color), (item name, size), (color, size), (item name), (color), (size), ( ) } όπου το κενό σύνολο ( ) υποδηλώνει κενή λίστα group by. Σε κάθε ομαδοποίηση, τα χαρακτηριστικά που δεν συμμετέχουν δηλώνονται στο αποτέλεσμα με τιμές null. 19 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Λειτουργίες cube και rollup Ηλειτουργίαrollup() δημιουργεί κι αυτή ένα σύνολο από ομαδοποιήσεις, με τη διαφορά ότι σχηματίζονται ομάδες μόνο με βάση τα προθέματα της λίστας χαρακτηριστικών Π.χ. η εντολή SQL select item-name, color, size, sum(number) from sales group by rollup(item-name, color, size) υπολογίζει 3+1 = 4 διαφορετικές ομαδοποιήσεις πάνω στον πίνακα sales: { (item name, color, size), (item name, color), (item name), ( ) } Προφανώς, λιγότερες από αυτές που παράγει η λειτουργία cube: για n χαρακτηριστικά, n+1 έναντι 2 n!! 20 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.10

Λειτουργίες cube και rollup Οι λειτουργίες rollup και cube μπορούν να εμφανίζονται πολλαπλά σε μια γραμμή group by Καθεμία λειτουργία σχηματίζει ένα σύνολο από ομαδοποιήσεις, και στη συνέχεια υπολογίζεται το καρτεσιανό γινόμενο αυτών των συνόλων Π.χ. η εντολή SQL select item-name, color, size, sum(number) from sales group by rollup(item-name), rollup(color, size) υπολογίζει 2 Χ 3= 6 διαφορετικές ομαδοποιήσεις πάνω στον πίνακα sales {item name, ()} X {(color, size), (color), ()} = { (item name, color, size), (item name, color), (item name), (color, size), (color), ( ) } 21 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Λειτουργίες κατάταξης Η λειτουργία κατάταξης rank() συνδυάζεται με μια διάταξη που ορίζεται στη γραμμη order by. Π.χ. ανυποθέσουμετονπίνακα student marks(student id, mark) η εντολή SQL select student-id, rank( ) over (order by marks desc) as s-rank from student-marks order by s-rank εμφανίζει τους φοιτητές με βάση την κατάταξη που τους δίνει η τιμή του πεδίου mark Ηλειτουργίαrank μπορείνααφήσεικενάστηναρίθμηση, π.χ. αν δύο φοιτητές ισοβαθμούν στην 1 η θέση, θα έχουν και οι δύο τιμή κατάταξης 1 ενώ η επόμενη τιμή θα είναι η 3 Αυτό το αποφεύγουμε με τη λειτουργία dense_rank() 22 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.11

Λειτουργίες κατάταξης Η κατάταξη μπορεί να συνδυαστεί με διαμέριση των εγγραφών ενός πίνακα. Παράδειγμα: Βρες την κατάταξη των φοιτητών μέσα σε κάθε τμήμα select student-id, section, rank ( ) over (partition by section order by marks desc) as sec-rank from student-marks, student-section where student-marks.student-id = student-section.student-id order by section, sec-rank Η γραμμή select μπορεί να περιέχει πολλαπλές λειτουργίες rank Εάν υπάρχει γραμμή group by, ηλειτουργίαrank ενεργοποιείται μετά την ομαδοποίηση 23 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Λειτουργίες παραθύρου Παράδειγμα: δοθέντος του τζίρου κάθε ημέρας, για κάθε ημέρα να υπολγιστεί ο μ.ο. του τζίρου της ίδιας, της προηγούμενης και της επόμενης ημέρας Αυτές είναι ερωτήσεις τύπου κινούμενου μέσου (moving average) και χρησιμοποιούνται στη στατιστική για εξομάλυνση των τιμών, απάλειψη θορύβου κλπ. Μια βασική διαφορά από το group by: η ίδια εγγραφή συμμετέχει σε περισσότερα από ένα παράθυρα Πώς γίνεται αυτό στην SQL: Καταρχήν διατάσσονται οι εγγραφές, κατόπιν ορίζεται το παράθυρο, και στη συνέχεια υλοποιείται η όποια λειτουργία συνάθροισης. Π.χ. αν υποθέσουμε τον πίνακα sales(date, value) η εντολή SQL υλοποιεί το ανωτέρο παράδειγμα select date, avg(value) over (order by date between rows 1 preceding and 1 following) from sales 24 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.12

Λειτουργίες παραθύρου Παραδείγματα εναλλακτικών παραθύρων : between rows unbounded preceding and current rows unbounded preceding range between 10 preceding and current row Ηλειτουργία παραθύρου μπορεί να συνδυαστεί με διαμέριση των εγγραφών ενός πίνακα. Παράδειγμα: έστω ο πίνακας transaction(account number, date time, value) με τις δοσοληψίεςτωντραπεζικώνλογαριασμών. Τι υλοποιεί η ακόλουθη εντολή SQL; select account-number, date-time, sum(value) over (partition by account-number order by date-time between rows unbounded preceding and current) as balance from transaction order by account-number, date-time 25 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking) Οργάνωση ιστορικής πληροφορίας σε Αποθήκες Δεδομένων (Data Warehousing) Εξόρυξη Γνώσης από Δεδομένα (Data Mining) 26 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.13

Αποθήκες Δεδομένων Οι μεγάλοι οργανισμοί συχνά έχουν μεγάλο όγκο δεδομένων να τηρείται σε διαφορετικές τοποθεσίες (π.χ. υποκαταστήματα), με διαφορετικά OLTP συστήματα και διαφορετικά σχήματα ΒΔ Οι διαδικασίες λήψης αποφάσεων απαιτούν ανάλυση των δεδομένων του οργανισμού, κοιτώντας αρκετά πίσω στο χρόνο (δεν αρκεί η τρέχουσα πληροφορία) Μια αποθήκη δεδομένων ΑΔ (data warehouse DW) είναι μια ΒΔ αρχειακήςμορφήςμεπληροφορίαπου συλλέγεται από πολλαπλές πηγές και συγκεντρώνεται σε μία τοποθεσία κάτω από ένα ενιαίο σχήμα ΒΔ Απλοποιεί τις λειτουργίες ανάλυσης δεδομένων, επιτρέπει την ιστορική ανάλυση της πληροφορίας, δεν απασχολεί τα OLTP συστήματα 27 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Αρχιτεκτονική ΑΔ other sources Metadata Monitor & Integrator OLAP Server Operational DBs Extract Transform Load Refresh Data Warehouse Serve Analysis Query Reports Data mining Data Marts Data Sources Data Storage OLAP Engine Front End Tools 28 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.14

Συστατικά μιας ΑΔ Δεδομένα που συλλέγονται περιοδικά από τις πολλαπλές πηγές Δεν υπάρχει λόγος να είναι απόλυτα συγχρονισμένη η πληροφορία μεταξύ των OLTP συστημάτων και της ΑΔ... κάτω από ένα ενιαίο σχήμα ΒΔ Ζητήματα ενοποίησης σχημάτων ΒΔ... αφού έχουν υποστεί κατάλληλο καθαρισμό / μετασχηματισμό Καθαρισμός δεδομένων (συμπλήρωση ελλιπών τιμών, εντοπισμός θορύβου, επίλυση ασυνεπειών) Μετασχηματισμός δεδομένων (εξομάλυνση, κανονικοποίηση τιμών) Μείωση δεδομένων (μείωση διαστάσεων (χαρακτηριστικών), μείωση πλήθους δεδομένων) Διακριτοποίηση δεδομένων (από συνεχείς σε διακριτές τιμές ή διαστήματα τιμών) 29 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σχεδίαση ΑΔ Ένα τυπικό σχήμα ΑΔ: ένας πίνακας γεγονότων (fact table) που περιβάλλεται από πίνακες διαστάσεων (dimension tables) Product Time time ID day_of_week month quarter year Sales (fact table) time ID product ID location ID quantity turnover product ID description type type description Location location ID zip code city state 30 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.15

Σχεδίαση ΑΔ Συνήθως τα δεδομένα μιας ΑΔ είναι πολυδιάστατα(άρα, πολλοί πίνακες διαστάσεων) με πίνακες γεγονότων πάρα πολλών εγγραφών Παραδείγματα διαστάσεων: προϊόν, χρόνος πώλησης, υποκατάστημα πώλησης, πελάτης,... Παραδείγματα μετρήσιμων μεγεθών: τεμάχια που πωλήθηκαν, αξία,... Οι τιμές των διαστάσεων συνήθως κωδικοποιούνται με μικρές ακέραιες τιμές (id s) που παραπέμπουν στους πίνακες διαστάσεων για την πλήρη πληροφορία Το ανωτέρω ονομάζεται σχήμα αστέρα (star schema) Πιο σύνθετα σχήματα ΑΔ Σχήμα χιονονιφάδας (snowflake schema): πίνακες διαστάσεων πολλαπλών επιπέδων Αστερισμός γεγονότων (fact constellation): πολλαπλοί πίνακες γεγονότων 31 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σχήμα χιονονιφάδας Time time ID day_of_week month quarter year Sales (fact table) time ID product ID location ID quantity turnover Product product ID description type Location location ID zip code Product Types type type description Zip codes zip code city state 32 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.16

Αστερισμός γεγονότων Time time ID day_of_week month quarter year Sales (fact table) time ID product ID location ID quantity turnover Location location ID zip code city state Shipping (fact table) day ID product ID shipper ID from location to location shipping cost units shipped Product product ID description type Shipper shipper ID name type 33 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking) Οργάνωση ιστορικής πληροφορίας σε Αποθήκες Δεδομένων (Data Warehousing) Εξόρυξη Γνώσης από Δεδομένα (Data Mining) 34 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.17

Data Mining Η ανακάλυψη γνώσης από τα δεδομένα (knowledge discovery in data KDD) είναι η διαδικασία ημι αυτόματης ανάλυσης μεγάλων ΒΔ/ΑΔ με στόχο την ανακάλυψη γνώσης σε μορφή κανόνων ή προτύπων Διαφέρει από τη στατιστική ανάλυση δεδομένων κυρίως στο ότι χειρίζεται μεγάλους όγκους δεδομένων Η γνώση που εξάγεται μπορεί να είναι διαφόρων τύπων Κατηγοριοποίηση / ταξινόμηση δεδομένων, εύρεση ομάδων στα δεδομένα, ανακάλυψη συσχετίσεων κλπ.... σε μορφή κανόνων ή εξισώσεων ή συναρτήσεων κλπ. π.χ. γυναίκες, νέες σε ηλικία και με εισόδημα άνω των 50.000 είναι πιο πιθανό να αγοράσουν σπορ αυτοκίνητο... αφού έχει προηγηθεί κάποια προπαρασκευή των δεδομένων π.χ. εντοπισμός και απομόνωση ανωμαλιών ή θορύβου στα δεδομένα 35 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Διαδικασία εξόρυξης γνώσης Ολοκλήρωση Ερµηνεία & Αξιολόγηση Knowledge Πρωτογενή δεδοµένα Αποθήκη εδοµένων (data warehouse) Προπαρασκευή Μετασχηµατισµός Εξόρυξη Γνώσης (Data Mining Μετ/να εδοµένα δεδοµένα στόχος (target data) Πρότυπα (patterns) και Κανόνες (rules) Γνώση Κατανόηση 36 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.18

Βήματα εξόρυξης γνώσης μεθοδολογία CRISP DM Κατανόηση του οργανισμού Κατανόηση των δεδομένων Προετοιμασία δεδομένων Εύρεση μοντέλων ( γνώσης ) με χρήση ποικίλων τεχνικών data mining Αποτίμηση αποτελεσμάτων Εφαρμογή αποτελεσμάτων στις διαδικασίες του οργανισμού 37 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Εφαρμογές εξόρυξης γνώσης Πρόβλεψη μελλοντικών τιμών βασισμένη στα ιστορικά δεδομένα Πρόβλεψηαξιοπιστίαςενόςπελάτητράπεζας, με βάση τα χαρακτηριστικά του (εισόδημα, επάγγελμα, ηλικία κλπ.) και την καταγεγραμμένη αξιοπιστία άλλων πελατών Πρόβλεψη διαρροής πελατών στον ανταγωνισμό Πιθανή αναγνώριση απάτης σε μια συναλλαγή (πιστωτική κάρτα, τηλεφωνική κλήση,...) Μηχανισμοί πρόβλεψης: Κατηγοριοποίηση / Ταξινόμηση (classification) Δοθέντος ενός συνόλου εγγραφών ΒΔ που ανήκουν σε γνωστές κλάσεις/κατηγορίες, να γίνει πρόβλεψη για την κλάση μιας νέας εγγραφής Παλινδρόμηση (regression) Δοθέντος ενός συνόλου τιμών που ταιριάζουν στα αποτελέσματα μιας (άγνωστης) συνάρτησης, να βρεθεί η συνάρτηση και να εφαρμοστεί σε μια νέα εγγραφή Yes NO NO Refund TaxInc No Single, Divorced MarSt < 80K > 80K YES Married NO 38 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.19

Εφαρμογές εξόρυξης γνώσης Περιγραφικά πρότυπα Κανόνες συσχέτισης (association rules) Εύρεση των προϊόντων που συνήθως αγοράζονται μαζί από τους ίδιους πελάτες. Εφόσον ένας νέος πελάτης αγοράσει ένα τέτοιο προϊόν είναι πολύ πιθανό να αγοράσει και τα υπόλοιπα. Εφαρμογές: λιανεμπόριο, e shopping, κλπ. Συστάδες (clusters) εντοπισμός προφίλ πελατών, συγκέντρωση συμβάντων επιδημίας γύρω από ένα μολυσμένο σημείο κοκ. 39 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σύνοψη ενότητας Η ανάλυση των δεδομένων αποτελεί ισχυρό εργαλείο στη στρατηγική των οργανισμών και τη λήψη αποφάσεων Οιβασικοίμηχανισμοίανάλυσηςείναι: ηπολυδιάστατηανάλυσηδεδομένων(olap) πάνω σε κύβους / αποθήκες δεδομένων και η εξόρυξη γνώσης από δεδομένα (data mining) Ανάλυση συστάδων, κατηγοριοποίηση, ανακάλυψη συσχετίσεων κλπ. 40 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.20

Προτεινόμενη βιβλιογραφία ιαθέσιµη στο./courses/dwdm/readings/ Γενικά για Αποθήκες Δεδομένων και Εξόρυξη Γνώσης S. Chaudhuri et al.: Database technology for decision support systems. IEEE Computer, Dec. 2001, pp. 48 55. R. J. Brachman et al.: Mining business databases. Communications of the ACM, Nov. 1996, pp. 42 48. 41 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 9.21