Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων



Σχετικά έγγραφα
Βάσεις Δεδομένων ΙΙ. Ενότητα 13: Εισαγωγή στην Εξόρυξης Δεδομένων. Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Μοντελοποίηση Πεδίου

Τεχνικές Εξόρυξης Δεδομένων

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Διδάσκοντες: Μαρία Χαλκίδη

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Αρχιτεκτονική Συστημάτων Βάσεων Δεδομένων. Κατηγορίες χρηστών ΣΔΒΔ Αρχιτεκτονική ANSI/SPARC Γλώσσες ερωτημάτων Μοντέλα δεδομένων Λειτουργίες ΣΔΒΔ

Προτεινόμενες Διπλωματικές Εργασίες 2009

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Είδη Groupware. Λογισμικό Συνεργασίας Ομάδων (Groupware) Λογισμικό Groupware. Υπάρχουν διάφορα είδη groupware ανάλογα με το αν οι χρήστες εργάζονται:

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο

Από τα Δεδομένα στην Πληροφορία: Διδακτικό Σενάριο για Εισαγωγή στη Γλώσσα SQL. Σ. Φίλου Β. Βασιλάκης

Περιγραφή Μαθήματος. Περιγραφή Περιεχόμενο του Μαθήματος

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

1.1 Συστήματα Βάσεων Δεδομένων Κλασικές καί Σύγχρονες Εφαρμογές Σ ύ ν ο ψ η Ασκήσεις και Ερωτήσεις Ε πανάληψ ης...

Βάσεις Δεδομένων. Βασίλειος Βεσκούκης 2006 Ρ.Κορακίτης, Β.Βεσκούκης, Θ.Καραλόπουλος, Γ.Πανόπουλος

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

Βάσεις Δεδομένων. Database Management Systems (DBMS) Συστήματα Διαχείρισης Βάσεων Δεδομένων (ΣΔΒΔ)

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Information Technology for Business

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Συστήματα Διαχείρισης Βάσεων Δεδομένων

Δεδομένα και Πληροφορίες

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

Περιεχόμενα. 1 Υποδείγματα αλληλεπίδρασης, αρχές & μοτίβα σχεδίασης Περίληψη... 19

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

Μεθοδολογίες Αξιοποίησης Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

Σχεδιασμός και Υλοποίηση ενός πληροφοριακού συστήματος για τους τεχνικούς του φυσικού αερίου

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Μάθημα 3. Θεμέλια Επιχειρηματικής Ευφυΐας: Διαχείριση Βάσεων Δεδομένων και πληροφοριών

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Business Development, SAP Hellas 01/12/2007

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420)

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

Τίτλος Πακέτου Certified Computer Expert-ACTA

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Ανάκτηση Πληροφορίας

Περιεχόμενο του μαθήματος

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

GIS: Εισαγωγή στα Γεωγραφικά Συστήµατα Πληροφοριών

Πληροφοριακά Συστήματα Διοίκησης

Αριστομένης Μακρής. Συστήματα Επιχειρηματικής Ευφυΐας (BI/BA)

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

Τεχνολογίες Πληροφορίας και Επικοινωνίας στον Τουρισμό (Γ εξάμηνο)

Πληροφοριακά Συστήματα Διοίκησης

Geographic Information System(GIS)

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Ενότητα 1: Εισαγωγή στις Βάσεις Δεδομένων. Αθανάσιος Σπυριδάκος Διοίκηση Επιχειρήσεων

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

CRM για Εκπαιδευτικούς Φορείς

4.2.1 Α εξάμηνο Β εξάμηνο Γ εξάμηνο 4.2. ΣΥΝΟΠΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΑΝΑ ΕΞΑΜΗΝΟ

Βάσεις Δεδομένων Ενότητα 3

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

Ανάκτηση πολυμεσικού περιεχομένου

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Κεφάλαιο 8 Πληροφοριακά συστήματα. Εφαρμογές Πληροφορικής Κεφ. 8 Καραμαούνας Πολύκαρπος

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Certified Data Base Designer (CDBD)

Εξόρυξη Δεδομένων Data Mining

Πληροφοριακά Συστήματα Διοίκησης

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Διαχείριση Δεδομένων

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Σχεδιασμός Επεξεργασίας και Τηλεπεξεργασίας

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία

Έρευνα Μάρκετινγκ Ενότητα 5

Πανεπιστήμιο Πειραιώς Τμήμα : Οργάνωσης και Διοίκησης Επιχειρήσεων

ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥ ΠΡΟΪΟΝΤΟΣ

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

Τεχνολογία Λογισµικού Ι Κεφάλαιο 3 Μια αναλυτικότερη προσέγγιση στην δραστηριότητα 3.10

Συστήματα πανταχού παρόντος υπολογιστή σε περιβάλλοντα υβριδικών βιβλιοθηκών

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας.

Πτυχιακές εργασίες

Τι προσφέρουν τα Τµήµατα Πληροφορικής. ... το Εργαστήριο Πληροφοριακών Συστηµάτων του Πα.Πει. Ερευνητικές δραστηριότητες σε GI Ενδεικτικές εργασίες

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών. (Geographical Information Systems GIS)

CRM. Σηµειώσεις για το σεµινάριο Αθανάσιος Ν. Σταµούλης. Customer Relationship Management

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. Σαράντος Καπιδάκης

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση Δίαυλος Διαφάνεια 2-1

Pegasus ERP Start Up 738,00. Δυνατότητες Pegasus

Πληροφοριακά Συστήματα Διοίκησης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

Transcript:

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων Β. Μεγαλοοικονόμου Εισαγωγή στην Εξόρυξη Δεδομένων

Γενική Επισκόπηση- Σχεσιακό μοντέλο Σχεσιακό Μοντέλο -SQL Συναρτησιακές εξαρτήσεις & Κανονικοποίηση Φυσικός σχεδιασμός, Δεικτοδότηση Επεξεργασία /Bελτιστοποίηση ερωτημάτων Επεξεργασία δοσοληψιών Προηγμένα θέματα Κατανεμημένες βάσεις δεδομένων Αντικειμενοστραφή και Αντικειμενο-σχεσιακά Συστήματα Διαχείρισης Βάσεων Δεδομένων Εξόρυξη δεδομένων

Γενικά Κίνητρο: Πού χρειάζεται η εξόρυξη δεδομένων; Τι είναι η εξόρυξη δεδομένων; Εξόρυξη δεδομένων: Σε τι είδους δεδομένα; Λειτουργικότητα εξόρυξης δεδομένων; Είναι όλα τα πρότυπα ενδιαφέροντα; Ομαδοποίηση συστημάτων εξόρυξης δεδομένων; Σημαντικά θέματα στην εξόρυξη δεδομένων;

Κίνητρο Έχουμε πολλά δεδομένα αλλά μικρή πληροφορία! Πρόβλημα έκρηξης δεδομένων Τα εργαλεία αυτοματοποιημένης συλλογής δεδομένων και η τελευταία τεχνολογία βάσεων δεδομένων οδηγεί σε ένα μεγάλο πλήθος δεδομένων το οποίο αποθηκεύεται σε βάσεις δεδομένων, data warehouses και άλλες αποθήκες δεδομένων Λύση: Εξόρυξη δεδομένων Εξόρυξη ενδιαφέρουσας γνώσης (κανόνες, πρότυπα, περιορισμοί) από δεδομένα μεγάλων βάσεων δεδομένων

Εξέλιξη της τεχνολογίας βάσεων δεδομένων 1960: Συλλογή δεδομένων, δημιουργία βάσης δεδομένων, συστήματα διαχείρισης πληροφορίας (IMS) και δικτυωτές βάσεις δεδομένων (network DBMS) 1970: Σχεσιακό μοντέλο δεδομένων, υλοποίηση σχεσιακού ΣΔΒΔ 1980: ΣΣΔΒΔ, προηγμένα μοντέλα δεδομένων (extended-relational, OO, deductive,κτλ.) και συστήματα προσανατολισμένα στην εφαρμογή (χωρικά, επιστημονικά, μηχανικά, κτλ.) 1990 2000: Εξόρυξη δεδομένων και αποθηκών δεδομένων (Data mining, data warehousing), βάσεις δεδομένων πολυμέσων, βάσεις δεδομένων στο Παγκόσμιο Ιστό (Web databases)

Τι είναι η εξόρυξη δεδομένων; Εξόρυξη δεδομένων (Ανακάλυψη γνώσης από βάσεις δεδομένων): Εξαγωγή ενδιαφέρουσας (μη τετριμμένης, προηγούμενα άγνωστης και πιθανά χρήσιμης) πληροφορίας ή προτύπων από μεγάλες βάσεις δεδομένων Εναλλακτικά ονόματα: Εξόρυξη (Ανακάλυψη) γνώσης σε βάσεις δεδομένων (KDD), εξαγωγή γνώσης (knowledge extraction), ανάλυση δεδομένων/προτύπων(data/pattern analysis) κτλ. Τι δεν είναι εξόρυξη δεδομένων; (Deductive) επεξεργασία ερωτημάτων Έμπειρα συστήματα ή μικρής κλίμακας στατιστικά προγράμματα

Τι είναι η εξόρυξη δεδομένων; Τώρα που έχουμε συλλέξει τόσα δεδομένα, τι κάνουμε με αυτά; Εξαγωγή χρήσιμων προτύπων (αυτόματα) Συσχετίσεις (π.χ., ψωμί + βούτυρο --> γάλα) Ακολουθίες (π.χ., χρονικά δεδομένα που σχετίζονται με το χρηματιστήριο) Κανόνες που διαμοιράζουν τα δεδομένα (π.χ. πρόβλημα τοποθεσίας αποθήκευσης) Ποια πρότυπα έχουν ενδιαφέρον ; Περιεχόμενο πληροφορίας, εμπιστοσύνη και υποστήριξη, Απρόσμενο, χρησιμότητα στην λήψη απόφασης, κτλ

Γιατί εξόρυξη δεδομένων; Πιθανές εφαρμογές Ανάλυση βάσης δεδομένων και υποστήριξη απόφασης Ανάλυση και διαχείριση αγοράς Μάρκετινγκ στόχου, διαχείριση σε σχέση με τον πελάτη, ανάλυση καλαθιού αγορών, cross selling, τμηματοποίηση αγοράς Ανάλυση και διαχείριση κινδύνου Πρόβλεψη, απομνημόνευση πελατών, έλεγχος ποιότητας, ανάλυση ανταγωνισμού Εντοπισμός και διαχείριση λάθους Άλλες εφαρμογές Εξόρυξη κειμένου (news group, email, documents) και ανάλυση Ιστού. Χωρική εξόρυξη δεδομένων Έξυπνη απάντηση ερωτημάτων

Ανάλυση και διαχείριση αγοράς Που είναι οι πηγές των δεδομένων για την ανάλυση; (Δοσοληψίες με κάρτες, εκπτωτικά κουπόνια, κλήσεις παραπόνων από τους πελάτες, κτλ.) Μάρκετινγκ στόχου (Εύρεση ομάδων μοντέλων πελατών που έχουν κοινά χαρακτηριστικά: εισόδημα, συνήθης αγορές, κτλ.) Καθορισμός προτύπων συναλλαγών των πελατών με το χρόνο (Μετατροπή ενός λογαριασμού ενός μόνο ατόμου σε κοινό : γάμος, κτλ.) «Cross-market» ανάλυση (Συσχετίσεις μεταξύ προϊόντων πωλήσεων και προβλέψεις με βάσει τις πωλήσεις) Προφίλ πελάτη (Ποια προϊόντα αγοράζει ο πελάτης) Προσδιορισμός απαιτήσεων πελάτη (Τα καλύτερα προϊόντα για διαφορετικούς πελάτες) Παροχή συνοπτικής πληροφορίας (πολυδιάστατες αναφορές)

Ανάλυση και διαχείριση ρίσκου/κινδύνου Οικονομικός προγραμματισμός Ανάλυση και πρόβλεψη κίνησης μετρητών Ανάλυση χρονοσειρών και cross-sectional (ανάλυση τάσης, κτλ.) Προγραμματισμός πηγών: Σύνοψη και σύγκριση των πηγών και των εξόδων Ανταγωνισμός: Έλεγχος ανταγωνιστών και τάσεων της αγοράς Ομαδοποίηση πελατών και απόδοση τιμών με βάσει τις ομάδες αυτές Ορισμός στρατηγικής απόδοσης τιμών σε μία ιδιαίτερα ανταγωνιστική αγορά

Εντοπισμός και διαχείριση λάθους/κλοπών Εφαρμογές Φροντίδα υγείας, υπηρεσίες πιστωτικών καρτών, τηλεπικοινωνίες κτλ. Προσέγγιση Χρήση στοιχείων ιστορικού για την δόμηση μοντέλων κανονικής και λανθασμένης συμπεριφοράς και χρήση εξόρυξης δεδομένων για τον προσδιορισμό λανθασμένων στιγμιοτύπων Παραδείγματα Αυτόματη ασφάλεια: εντοπισμός ομάδων που προκαλούν ατυχήματα για την είσπραξη της ασφάλειας Ξέπλυμα χρήματος: εντοπισμός ύποπτων δοσοληψιών χρημάτων Ιατρική ασφάλεια: εντοπισμός επαγγελματιών ασθενών, ακατάλληλων ιατρικών θεραπειών Εντοπισμός τηλεφωνικού σφάλματος: Μοντέλο τηλεφωνικής κλήσης: προορισμός κλήσης, διάρκεια, χρονική στιγμή ημέρας/εβδομάδας. Ανάλυση προτύπων που αποκλίνουν από τα αναμενόμενα

Ανακάλυψη Ιατρικής/ Βοιολογικής γνώσης Ανακάλυψη συσχετίσεων δομής-λειτουργίας Χαρτογράφηση ανθρώπινου εγκεφάλου (lesion-deficit, taskactivation associations) Δομή κυττάρου (cytoskeleton) και λειτουργικότητα ή παθολογία Δομή πρωτεϊνών και λειτουργικότητα Ανακάλυψη αιτιακών σχέσεων Συμπτώματα και ιατρικοί όροι Ανάλυση ακολουθίας DNA Βιοπληροφορική (microarrays, κτλ.)

Άλλες εφαρμογές Αθλήματα Η IBM Advanced Scout ανέλυσε στατιστικά των NBA παιχνιδιών (shots blocked, assists, fouls) για να κερδίσει ένα ανταγωνιστικό πλεονέκτημα υπέρ των New York Knicks και Miami Heat Αστρονομία Οι JPL και Palomar Observatory ανακάλυψαν 22 αστέρια με την βοήθεια τεχνικών εξόρυξης δεδομένων Internet Web Surf-Aid Η IBM Surf-Aid εφαρμόζει αλγορίθμους εξόρυξης δεδομένων σε αρχεία καταγραφής πρόσβασης στο διαδίκτυο για ιστοσελίδες που σχετίζονται με αγορές προκειμένου να ανακαλυφθούν οι σελίδες προτίμησης και συμπεριφοράς των πελατών, αναλύοντας την αποτελεσματικότητα του Web marketing, βελτιώνοντας την οργάνωση ιστότοπων κτλ.

Ανακάλυψη γνώσης από δεδομένα(3) Πρότυπα Αξιολόγηση προτύπων Γνώση Αποθήκη δεδομένων Επιλεγμένα δεδομένα Επιλογή Επεξεργασμένα δεδομένα Εξόρυξη δεδομένων Επεξεργασία & Μετασχηματισμός Ενοποίηση δεδομένων Βάσεις δεδομένων Αρχεία Εξόρυξη δεδομένων: η κεντρική διαδικασία στην ανακάλυψη γνώσης.

Βήματα της KDD Διαδικασίας Εκμάθηση της περιοχής της εφαρμογής: Σχετική πρότερη γνώση και στόχοι της εφαρμογής Δημιουργία ενός στόχου συνόλου δεδομένων: επιλογή δεδομένων Καθαρισμός δεδομένων και προεπεξεργασία: (μπορεί να απαιτήσει το 60% της προσπάθειας!) Μείωση και μετασχηματισμός δεδομένων: Εύρεση χρήσιμων χαρακτηριστικών, μείωση διαστατικότητας/μεταβλητής, αμετάβλητη αναπαράσταση. Επιλογή λειτουργιών της εξόρυξης δεδομένων σύνοψη, ταξινόμηση, οπισθοδρόμηση, συσχέτιση, ομαδοποίηση. Επιλογή των πηγών εξόρυξης (s) Εξόρυξη δεδομένων: αναζήτησης ενδιαφερόντων προτύπων Αξιολόγηση προτύπων και αναπαράσταση γνώσης: οπτικοποίηση, μετασχηματισμός, αφαίρεση περιττών προτύπων, κτλ. Χρήση της γνώσης που ανακαλύπτεται

Εξόρυξη Δεδομένων: Σε τι είδους δεδομένα; Σχεσιακές βάσεις δεδομένων Data warehouses Βάσεις δεδομένων δοσοληψιών Προηγμένες ΒΔ και αποθήκες πληροφορίας Object-oriented (OO)και object-relational (OR) βάσεις δεδομένων Χωρικέςβάσειςδεδομένων(ιατρικές, ΒΔ εικόνων δορυφόρου, GIS) Δεδομένα χρονοσειρών και δεδομένα χρόνου Βάσεις δεδομένων κειμένου Βάσεις δεδομένων πολυμέσων (Εικόνα, Βίντεο, κτλ.) Ετερογενείς βάσεις δεδομένων WWW

Λειτουργικότητες εξόρυξης δεδομένων Πρότυπα που μπορούν να εξαχθούν Περιγραφή κεντρικής ιδέας: Χαρακτηρισμός και διάκριση Γενίκευση, σύνοψη, και αντιπαράθεση χαρακτηριστικών δεδομένων, π.χ., ξηρές vs. υγρές περιοχές Συσχέτιση (συσχετισμός και αιτιότητα) Πολυδιάστατη και μονοδιάστατη συσχέτιση ηλικία, 20..29 ) ^ εισόδημα, 20..29K ) αγορές, PC ) [υποστήριξη = 2%, εμπιστοσύνη = 60%] περιέχει, υπολογιστή ) περιέχει, λογισμικό ) [1%, 75%] Εμπιστοσύνη y) = P(y x): βαθμός βεβαιότητας της συσχέτισης Υποστήριξη y) = P(x y): % των δοσοληψιών που ικανοποιεί ο κανόνας

Λειτουργικότητες εξόρυξης δεδομένων Πρότυπα που μπορούν να εξαχθούν Ομαδοποίηση και πρόβλεψη Εύρεση μοντέλων (if-then κανόνες, δένδρα απόφασης, μαθηματικοί τύποι, νευρωνικά δίκτυα, κανόνες ταξινόμησης) που περιγράφουν και διαχωρίζουν τιςκλάσειςήτιςιδέεςγιατηνμελλοντικήπρόβλεψη Π.χ., ταξινόμηση χωρών με βάση το κλίμα, ή ταξινόμηση των αυτοκινήτων με βάσει την κατανάλωση Πρόβλεψη: Πρόβλεψη κάποιων αγνώστων τιμών ή τιμών που δεν υπάρχουν Ανάλυση ομάδας Η ετικέτα της κλάσης είναι άγνωστη: Ομαδοποίηση δεδομένων για την δημιουργία νέας κλάσης Ομαδοποίηση βασισμένη στην αρχή: μεγιστοποίηση της «intra-class» ομοιότητας και ελαχιστοποίηση της «interclass» ομοιότητας

Λειτουργικότητες εξόρυξης δεδομένων Πρότυπα που μπορούν να εξαχθούν Ανάλυση Outlier Outlier: ένα αντικείμενο δεδομένων το οποίο δεν ακολουθεί την γενική συμπεριφορά των δεδομένων (μπορεί να εντοπισθεί με την χρήση στατιστικών ελέγχων που υιοθετούν ένα πιθανοτικό μοντέλο) Συχνά θεωρείται θόρυβος αλλά είναι χρήσιμο στον εντοπισμό σφάλματος, την ανάλυση σπάνιων γεγονότων Ανάλυση τάσης και εξέλιξης Μελετά την κανονικότητα των αντικειμένων των οποίων η συμπεριφορά μεταβάλλεται με τον χρόνο Τάση και απόκλιση: ανάλυση οπισθοχώρησης Εξόρυξη ακολουθιακού προτύπου, ανάλυση περιοδικότητας Ανάλυση με βάση την ομοιότητα

Πότε είναι ενδιαφέρον ένα Ανακαλυφθέν πρότυπο; Ένα σύστημα/ερώτημα δεδομένων μπορεί να παράγει χιλιάδες προτύπων, τα οποία δεν είναι όλα ενδιαφέροντα. Προτεινόμενη προσέγγιση: Ανθρωποκεντρική, με βάση το ερώτημα, με βάση την εξόρυξη Μετρικές ενδιαφέροντος: Ένα πρότυπο είναι ενδιαφέρον εάν είναι εύκολα κατανοητό από τους ανθρώπους, έγκυρο σε νέα ή πειραματικά δεδομένα με κάποιο βαθμό βεβαιότητας, πιθανά χρήσιμο, καινούριο, ή επικυρώνει κάποια υπόθεση που ο χρήστης επιδιώκει να επαληθεύσει Αντικειμενικές vs. υποκειμενικές μετρικές ενδιαφέροντος: Αντικειμενικές: βασίζονται σε στατιστικές και δομές προτύπων Υποκειμενικές: βασίζονται στην γνώμη του χρήστη για τα δεδομένα

Μπορούμε να βρούμε όλα τα ενδιαφέροντα πρότυπα; Εύρεση όλων των ενδιαφερόντων προτύπων: Πληρότητα Μπορεί ένα σύστημα εξόρυξης δεδομένων να βρει όλα τα ενδιαφέροντα πρότυπα; Συσχέτιση vs. Ταξινόμηση vs. Ομαδοποίηση Αναζήτηση μόνο των ενδιαφερόντων προτύπων: Βελτιστοποίηση Μπορεί ένα σύστημα εξόρυξης δεδομένων να βρει μόνο τα ενδιαφέροντα πρότυπα; Προσεγγίσεις Πρώτα παρήγαγε όλα τα πρότυπα και στην συνέχεια φιλτράρισε αυτά που δεν ενδιαφέρουν Παρήγαγε μόνο τα ενδιαφέροντα πρότυπα - βελτιστοποίηση ερωτήματος

Εξόρυξη δεδομένων: Συμβολή πολλαπλών αρχών Τεχνολογία ΒΔ Στατιστικές Μηχανική μάθηση Εξόρυξη Δεδομένων Οπτικοποίηση Επιστήμη πληροφορίας Άλλες αρχές

Εξόρυξη δεδομένων: Σχήματα Ταξινόμησης Γενική λειτουργικότητα Περιγραφική εξόρυξη δεδομένων Προβλεπτική εξόρυξη δεδομένων Διαφορετικές όψεις, διαφορετικές ταξινομήσεις Είδη βάσεων δεδομένων που εξάγονται Είδη γνώσεων που θα ανακαλυφθούν Είδη τεχνικών που θα χρησιμοποιηθούν Είδη εφαρμογών που προσαρμόζονται

Μία πολυδιάστατη οπτική της ταξινόμησης της εξόρυξης δεδομένων Βάσεις δεδομένων που θα εξαχθούν Σχεσιακές, δοσοληψιών, αντικειμενοστραφείς, χωρικές, χρονοσειρών, κειμένου, πολυμέσων, ετερογενείς, objectrelational, legacy, active, WWW, κτλ. Γνώση που θα εξαχθεί Χαρακτηρισμός, διάκριση, συσχέτιση, ταξινόμηση, ομαδοποίηση, τάση, απόκλιση και ανάλυση outlier κτλ. Τεχνικές που χρησιμοποιούνται Στατιστικές, οπτικοποίηση, νευρωνικό δίκτυο, μηχανική μάθηση, Database-oriented, data warehouse (OLAP), κτλ. Εφαρμογές που προσαρμόζονται Τηλεπικοινωνίες, τραπεζικές εργασίες, ανάλυση σφάλματος, εξόρυξη DNA, εξόρυξη Ιστού κτλ.

OLAP Εξόρυξη: Συγχώνευση Εξόρυξης Δεδομένων και Data Warehousing Συστήματα εξόρυξης δεδομένων, ΣΔΒΔ, Data warehouse συστήματα ένωσης Χωρίς ένωση, χαλαρή-ένωση, ημι-σφιχτή-ένωση, σφιχτή-ένωση On-line αναλυτική εξόρυξη δεδομένων Συγχώνευση της εξόρυξης και των OLAP τεχνολογιών Διαδραστική εξόρυξη γνώσης σε πολλά επίπεδα Ανάγκη εξόρυξης γνώσης και προτύπων σε διαφορετικά επίπεδα γενίκευσης (drilling/rolling, pivoting, slicing/dicing, κτλ.) Συγχώνευση πολλών λειτουργιών εξόρυξης Χαρακτηρισμένη ταξινόμηση, πρώτα ομαδοποίηση και μετά συσχέτιση

Μία ΟLAM αρχιτεκτονική Ερώτημα εξόρυξης OLAM Engine User GUI API Αποτέλεσμα εξόρυξης OLAP Engine Επίπεδο4 Περιβάλλον διεπαφής χρήστη Επίπεδο3 OLAP/OLAM Data Cube API MDDB ΜεταΔεδομένα Επίπεδο2 MDDB Καθαρισμός&ενσωμάτωση Databases Database API Καθαρισμός Δεδομένων Ενσωμάτωση δεδομένων Data Warehouse Φιλτράρισμα Επίπεδο1 Αποθήκη Δεδομένων

Βασικά ζητήματα στην εξόρυξη δεδομένων Μεθοδολογία εξορυξης και αλληλεπίδραση χρηστών Εξόρυξη διαφορετικών ειδών γνώσεων στις βάσεις δεδομένων Διαδραστική εξόρυξη γνώσης σε πολλαπλά επίπεδα αφαίρεσης Ενσωμάτωση της γνώσης που υπάρχει για την καθοδήγηση της διαδικασίας ανακάλυψης Γλώσσες διατύπωσης ερωτημάτων εξόρυξης δεδομένων και ad-hoc εξόρυξη δεδομένων Έκφραση και οπτικοποίηση των αποτελεσμάτων της εξόρυξης δεδομένων Χειρισμός θορύβου και ανολοκλήρωτων δεδομένων Αξιολόγηση προτύπου: το πρόβλημα ενδιαφέροντος Απόδοση και εξελιξιμότητα Απόδοση και εξελιξιμότητα των αλγορίθμων Παράλληλες, κατανεμημένες και επαυξητικές μέθοδοι εξόρυξης

Σημαντικά θέματα στην εξόρυξη δεδομένων Ζητήματα σχετικά με την ποικιλομορφία των τύπων δεδομένων Χειρισμός σχεσιακών και σύνθετων τύπων δεδομένων Εξόρυξη πληροφορίας από ετερογενείς βάσεις δεδομένων και σφαιρικά πληροφοριακά συστήματα (WWW) Ζητήματα σχετικά με τις εφαρμογές και τις κοινωνικές επιδράσεις Εφαρμογή της ανακαλυφθείσας γνώσης Εργαλεία εξόρυξης δεδομένων με βάση τον πεδίο Έξυπνη απάντηση ερωτήματος Έλεγχος διαδικασίας και λήψη απόφασης Ένωση της ανακαλυφθείσας γνώσης με την ήδη υπάρχουσα: πρόβλημα συγχώνευσης της γνώσης Προστασία της ασφάλειας των δεδομένων, της ακαιρεότητας και της μυστικότητας

Σύνοψη Εξόρυξη δεδομένων: ανακάλυψη ενδιαφερόντων προτύπων από μεγάλους όγκους δεδομένων Μία φυσική εξέλιξη της τεχνολογίας βάσεων δεδομένων, με μεγάλη ζήτηση, με μεγάλο εύρος εφαρμογών Μία KDD διαδικασία περιλαμβάνει τον καθαρισμό, την συγχώνευση, και την επιλογή δεδομένων, μετασχηματισμό, εξόρυξη δεδομένων, αξιολόγηση προτύπου και παρουσίαση της γνώσης Η εξόρυξη μπορεί να γίνει σε διάφορες αποθήκες πληροφοριών Λειτουργικότητες της εξόρυξης δεδομένων: χαρακτηρισμός, επιλογή, συσχέτιση, ταξινόμηση, ομαδοποίηση, ανάλυση τάσης και outlier, κτλ. Ταξινόμηση των συστημάτων εξορυξης δεδομένων Βασικά ζητήματα στην εξόρυξη δεδομένων