Αποθήκες και Εξόρυξη Δεδομένων 6 ο εξάμηνο Τμήμα Ψηφιακών Συστημάτων Παν. Πειραιά Διδάσκοντες: Μαρία Χαλκίδη
Μαθήματα σχετικά με Διαχείριση Δεδομένων στο Πρόγραμμα Σπουδών Δομές Δεδομένων (3 ο εξάμηνο) Σχεδιασμός Βάσεων Δεδομένων (4 ο εξάμηνο) Βάσεις Δεδομένων (5 ο εξάμηνο) Κορμού Κορμού Αποθήκες και Εξόρυξη Δεδομένων (6 ο εξάμηνο) Ανάκτηση Πληροφοριών (6 ο εξάμηνο) Διαχείριση Δεδομένων στον Π.Ι. (7 ο εξάμηνο) Εργαστήριο Ανάπτυξης Εφαρμογών ΒΔ (7 ο εξάμηνο) Υποχρεωτικά Κατεύθυνσης Εργαστήριο Συστημάτων Επεξεργασίας Πληροφοριών Π.Ι. (8 ο εξάμηνο) Επιλογής
Διδακτέα Ύλη ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΔΙΑΔΙΚΑΣΙΑ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟΘΗΚΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΣΥΣΤΑΔΟΠΟΙΗΣΗ Βασικές τεχνικές ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΔΙΑΧΕΙΡΙΣΗ ΠΟΙΟΤΗΤΑΣ ΣΤΗΝ ΔΙΑΔΙΚΑΣΙΑ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΤΟ ΓΡΑΦΟ ΤΟΥ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟΥ- ΑΛΓΟΡΙΘΜΟΙ ΤΑΞΙΝΟΜΗΣΗΣ
Πληροφορίες Μαθήματος Ιστοσελίδα μαθήματος στον evdoxo http://evdoxos.ds.unipi.gr/courses/ds154/ Διαλέξεις - Εργαστήρια Εργασίες Ανακοινώσεις
Συγγράμματα Διαφάνειες διαλέξεων μαθήματος Εξόρυξη Γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό Χαλκίδη, Βαζιργιάννης
Αξιολόγηση Μαθήματος Εργασία Τελικό Διαγώνισμα
Εξόρυξη Δεδομένων: Εισαγωγή Αποθήκες και Εξόρυξη Δεδομένων Μάθημα 1o Διδάσκουσα: Μαρία Χαλκίδη
Γιατί Εξόρυξη Δεδομένων? Σημαντικά μεγάλη αύξηση των δεδομένων Εύκολη συλλογή δεδομένων και διαθεσιμότητα των δεδομένων Εργαλεία αυτοματοποιημένης συλλογής δεδομένων, database systems, Web Κύριες πηγές μεγάλου όγκου δεδομένων Επιχειρήσεις: Web, e-commerce, transactions, stocks, Επιστήμες: Remote sensing, bioinformatics, scientific simulation, Κοινωνία, καθένας από εμάς: news, digital cameras, YouTube Έχουμε κατακλυστεί από δεδομένα αλλά διψάμε για γνώση! Εξόρυξη δεδομένων Αυτοματοποιημένη ανάλυση μεγάλου όγκου συνόλου δεδομένων Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 8
Εξέλιξη της Τεχνολογίας Βάσεων Δεδομένων 1960s: Συλλογές δεδομένων, δημιουργία βάσεων δεδομένων, IMS and network DBMS 1970s: Σχεσιακό μοντέλο δεδομένων, υλοποίηση σχεσιακού DBMS 1980s: RDBMS, advanced data models (extended-relational, OO, deductive, etc.) and application-oriented DBMS (spatial, scientific, engineering, etc.) 1990s 2000s: Εξόρυξη δεδομένων και αποθηκών δεδομένων (Data mining and data warehousing), βάσεις δεδομένων πολυμέσων, βάσεις δεδομένων στο Παγκόσμιο Ιστό (Web databases) Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 9
Τι είναι η εξόρυξη δεδομένων? Εξόρυξη δεδομένων/data Mining (ανακάλυψη γνώσης από βάσεις δεδομένων): Εξαγωγή ενδιαφέρουσας (μη τετριμμένης, προηγούμενα άγνωστης και πιθανά χρήσιμης) πληροφορίας ή προτύπων από δεδομένα σε μεγάλες βάσεις δεδομένων Εναλλακτικά ονόματα : Εξόρυξη δεδομένων/data mining: αμφιλεγόμενη ονομασία? Εξόρυξη (Ανακάλυψη) γνώσης σε βάσεις δεδομένων (KDD), εξαγωγή γνώσης(knowledge extraction), ανάλυση δεδομένων/προτύπων(data/pattern analysis) etc. Τι δεν είναι η εξόρυξη δεδομένων? Επεξεργασία ερωτημάτων. Έμπειρα συστήματα ή μικρής κλίμακας στατιστικά προγράμματα Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 10
Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένωνπυρήνας της διαδικασίας ανακάλυψης γνώσης Pattern Evaluation Data Mining Task-relevant Data Data Warehouse Selection Data Cleaning Data Integration Databases Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 11
Steps of a KDD Process Learning the application domain: relevant prior knowledge and goals of application Creating a target data set: data selection Data cleaning and preprocessing: (may take 60% of effort!) Data reduction and transformation: Find useful features, dimensionality/variable reduction, invariant representation. Choosing functions of data mining summarization, classification, regression, association, clustering. Choosing the mining algorithm(s) Data mining: search for patterns of interest Pattern evaluation and knowledge presentation visualization, transformation, removing redundant patterns, etc. Use of discovered knowledge Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 12
Εξόρυξη δεδομένων και Έξυπνη επιχειρηματικότητα Increasing potential to support business decisions Decision Making Data Presentation Visualization Techniques Data Mining Information Discovery End User Business Analyst Data Analyst Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems DBA Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 13
Εξόρυξη δεδομένων: Επίδραση από Πολλαπλά Πεδία Database Technology Statistics Machine Learning Data Mining Visualization Pattern Recognition Algorithm Other Disciplines Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 14
Αρχιτεκτονική ενός τυπικού συστήματος Εξόρυξης Δεδομένων Graphical user interface Pattern evaluation Data mining engine Database or data warehouse server Knowledge-base Data cleaning & data integration Filtering Databases Data Warehouse Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 15
Γιατί όχι παραδοσιακή ανάλυση δεδομένων? Εξαιρετικά μεγάλος όγκος δεδομένων Οι αλγόριθμοι πρέπει να είναι υψηλής κλιμάκωσης ώστε να μπορούν να διαχειρίζονται tera-bytes από δεδομένα Υψηλών διαστάσεων δεδομένα Υψηλής πολυπλοκότητας δεδομένα Ροές δεδομένων (Data streams) και δεδομένα αισθητήρων Χρονολογικές-σειρές(Time-series data), χρονικά δεδομένα, ακολουθιακά δεδομένα (sequential data) Δομημένα δεδομένα, γραφήματα, κοινωνικά δίκτυα(social networks) Ετερογενείς βάσεις δεδομένων Χωρικά, χωροχρονικά, πολυμέσα, κείμενο, δεδομένα από το ΠΙ Προγράμματα λογισμικού, επιστημονικές προσομοιώσεις Νέες και εξειδικευμένες εφαρμογές Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 16
Πολυδιάστατη όψη της εξόρυξης δεδομένων Δεδομένα προς ανάλυση Σχεσιακά (Relational), αποθήκες δεδομένων (data warehouse), συναλλαγές, ροές(stream), object-oriented/relational, χωρικά, χρονολογικές σειρές (time-series), κείμενο, multi-media, WWW κλπ. Γνώση που θα εξαχθεί συσχετίσεις(association), κατηγοριοποίηση (classification), συσταδοποίηση (clustering), τάσεις/απόκλιση(trend/deviation), outlier analysis, etc. Tεχνικές που χρησιμοποιούνται Database-oriented, data warehouse (OLAP), machine learning, statistics, visualization, etc. Προσαρμογή στις εφαρμογές Retail, telecommunication, banking, fraud analysis, bio-data mining, stock market analysis, text mining, Web mining, etc. Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 17
Εξόρυξη Δεδομένων: Σχήματα κατηγοριοποίησης Γενική λειτουργικότητα Περιγραφική εξόρυξη δεδομένων Εξόρυξη δεδομένων για πρόβλεψη Διαφορετικές όψεις ανάλυσης δεδομένων οδηγούν σε διαφορετικές κατηγοριοποιήσεις Από την άποψη δεδομένων(data view): Είδος δεδομένων προς ανάλυση Από την άποψη της γνώσης: Είδος γνώσης που θα εξαχθεί Από την άποψη μεθόδου: Τεχνικές που θα χρησιμοποιηθούν Από την άποψη εφαρμογής: Εφαρμογές στις οποίες προσαρμόζονται οι μέθοδοι εξόρυξης δεδομένων Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 18
Εξόρυξη δεδομένων: Πάνω σε τι δεδομένα? Προσανατολισμένα στις βάσεις δεδομένων και εφαρμογές Relational database, data warehouse, transactional database Ανώτερα σύνολα δεδομένων και εφαρμογές Data streams and sensor data Time-series data, temporal data, sequence data (incl. bio-sequences) Structure data, graphs, social networks and multi-linked data Object-relational databases Heterogeneous databases and legacy databases Spatial data and spatiotemporal data Multimedia database Text databases The World-Wide Web Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 19
Λειτουργικότητες της Εξόρυξης δεδομένων Περιγραφή πολυδιάστατων εννοιών: Γενίκευση, σύνοψη και αντιπαραβολή χαρακτηριστικών δεδομένων, e.g., dry vs. wet regions Συχνά εμφανιζόμενα πρότυπα, συσχετίσεις π.χ.pizza Beer [0.5%, 75%] Κατηγοριοποίηση και πρόβλεψη Κατασκευή μοντέλων (συναρτήσεων) που περιγράφουν και διαχωρίζουν κατηγορίες ή έννοιες για μελλοντική πρόβλεψη Π.χ. classify countries based on (climate), or classify cars based on (gas mileage) Πρόβλεψη κάποιων άγνωστων ή αριθμητικών τιμών που λείπουν Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 20
Λειτουργικότητες της Εξόρυξης δεδομένων(2) Συσταδοποίηση Οι κατηγορίες είναι άγνωστες: Ομαδοποίηση δεδομένων για να δημιουργήσουμε νέες κατηγορίες Μεγιστοποίηση της ομοιότητας μέσα στις συστάδες & ελαχιστοποίηση της ομοιότητας μεταξύ των συστάδων Outlier analysis Outlier: Αντικείμενα που δεν είναι συμβατά με τη γενική συμπεριφορά των δεδομένων Θόρυβος ή εξαίρεση? Χρήσιμο στη ανίχνευση απειλής, ανάλυση σποραδικών συμβάντων Ανάλυση τάσεων και μεταβολών Τάση και απόκλιση e.g., regression analysis Εξόρυξη ακολουθιακών προτύπων Ανάλυση περιοδικότητας Ανάλυση με βάση την ομοιότητα Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 21
Βασικά θέματα στην εξόρυξη δεδομένων Μεθοδολογία εξόρυξης Εξόρυξη διαφορετικών τύπων γνώσης από διαφορετικούς τύπους δεδομένων, π.χ. bio, stream, Web Απόδοση: αποτελεσματικότητα, αποδοτικότητα και κλιμάκωση Αξιολόγηση προτύπων: ενδιαφέρον πρόβλημα Ενσωμάτωση προηγούμενης γνώσης Διαχείριση θορύβου και ατελών δεδομένων Κατανεμημένες και αυξητικές (incremental) μέθοδοι εξόρυξης Ολοκλήρωση της εξαγόμενης γνώσης με την υπάρχουσα: knowledge fusion Αλληλεπίδραση με το χρήστη Γλώσσες ερωτήσεων εξόρυξης δεδομένων Έκφραση και οπτικοποίηση αποτελεσμάτων Αλληλεπιδραστική εξόρυξη γνώσης σε πολλαπλά επίπεδα αφαίρεσης Εφαρμογές και κοινωνική επίδραση Εξόρυξη δεδομένων με βάση το πεδίο αναφοράς Προστασία δεδομένων, ακεραιότητα και ιδιωτικότητα δεδομένων Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 22
Εξόρυξη δεδομένων Πιθανές εφαρμογές Ανάλυση βάσεων δεδομένων και στήριξη αποφάσεων Ανάλυση αγοράς και διοίκηση target marketing, δημόσιες σχέσεις με πελάτες, market basket analysis, τμηματοποίηση αγοράς Ανάλυση κινδύνου και διοίκηση Πρόβλεψη, διατήρηση πελατών, έλεγχος ποιότητας, ανταγωνιστική ανάλυση Ανίχνευση απειλής/εξαπάτησης και διοίκηση Άλλες εφαρμογές Εξόρυξη από κείμενα (Text mining) (news group, email, documents) και ανάλυση Παγκόσμιου Ιστού (Web analysis) Έξυπνη απάντηση ερωτημάτων Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 23
Σύνοψη Εξόρυξη δεδομένων: Ανακάλυψη προτύπων γνώσης που έχουν ενδιαφέρον από μεγάλες βάσεις δεδομένων Μία φυσική εξέλιξη της τεχνολογία ΒΔ με μεγάλη ζήτηση και εφαρμογές Μία διαδικασία ανακάλυψης γνώσης περιλαμβάνει καθαρισμός δεδομένων, ολοκλήρωση δεδομένων, επιλογή δεδομένων, μετασχηματισμό, εξόρυξη δεδομένων, αξιολόγηση προτύπων και παρουσίαση της εξαγόμενης γνώσης Η εξόρυξη μπορεί να εκτελείται σε ποικίλες αποθήκες πληροφορίας Λειτουργίες της εξόρυξης δεδομένων: χαρακτηρισμός, διάκριση, συσχετισμός, κατηγοριοποίηση, συσταδοποίηση, ανάλυση τάσεων, Outliers κλπ Βασικά θέματα μελέτης στην εξόρυξη δεδομένων Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 24