Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Σχετικά έγγραφα
Βάσεις Δεδομένων Ενότητα 1

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

Εισαγωγή στους Αλγορίθμους

Διδακτική της Πληροφορικής

Εισαγωγή στους Αλγορίθμους

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Διοικητική Λογιστική

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Δομές Δεδομένων Ενότητα 1

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Βάσεις Περιβαλλοντικών Δεδομένων

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

Εισαγωγή στους Αλγορίθμους

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Μηχανολογικό Σχέδιο Ι

Ιστορία της μετάφρασης

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Βέλτιστος Έλεγχος Συστημάτων

Λειτουργία και εφαρμογές της πολιτιστικής διαχείρισης

Διοίκηση Επιχειρήσεων

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

Διοίκηση Εξωτερικής Εμπορικής Δραστηριότητας

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

Γενικά Μαθηματικά Ι. Ενότητα 15: Ολοκληρώματα Με Ρητές Και Τριγωνομετρικές Συναρτήσεις Λουκάς Βλάχος Τμήμα Φυσικής

Οργάνωση και Διοίκηση Πωλήσεων

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

Βάσεις Περιβαλλοντικών Δεδομένων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Διδακτική των εικαστικών τεχνών Ενότητα 1

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Θέματα Εφαρμοσμένης. Ενότητα 14.2: Η ψήφος στα πρόσωπα. Θεόδωρος Χατζηπαντελής Τμήμα Πολιτικών Επιστημών ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Prim

Οργάνωση και Διοίκηση Πωλήσεων Ενότητα 1: Ο ΡΟΛΟΣ ΤΩΝ ΠΩΛΗΣΕΩΝ ΣΤΟ ΠΛΑΙΣΙΟ ΤΗΣ ΣΤΡΑΤΗΓΙΚΗΣ ΜΑΡΚΕΤΙΝΓΚ

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Λογιστική Κόστους Ενότητα 10: Ασκήσεις Προτύπου Κόστους Αποκλίσεων.

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εκκλησιαστικό Δίκαιο

Μηχανολογικό Σχέδιο Ι

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στην Πληροφορική

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Λογισμός 3. Ενότητα 19: Θεώρημα Πεπλεγμένων (γενική μορφή) Μιχ. Γ. Μαριάς Τμήμα Μαθηματικών ΑΝΟΙΚΤΑ ΑΚΑ ΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Μάρκετινγκ Αγροτικών Προϊόντων

Γενικά Μαθηματικά Ι. Ενότητα 12: Κριτήρια Σύγκλισης Σειρών. Λουκάς Βλάχος Τμήμα Φυσικής ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Εκκλησιαστικό Δίκαιο

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

Κβαντική Επεξεργασία Πληροφορίας

Εισαγωγή στην Πληροφορική

Διοικητική Λογιστική

Μάρκετινγκ Αγροτικών Προϊόντων

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Παράκτια Τεχνικά Έργα

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 6

Ψηφιακή Επεξεργασία Εικόνων

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 4: Πηγές Δεδομένων- Δευτερογενή Στοιχεία. Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

Αγροτικός Τουρισμός. Ενότητα 9 η : Εκπαιδευτικές τεχνικές στον τουρισμό. Όλγα Ιακωβίδου Τμήμα Γεωπονίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

Οργάνωση και Διοίκηση Πωλήσεων

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Διδακτική Πληροφορικής

Διδακτική των εικαστικών τεχνών Ενότητα 3

Εφαρμογές των Τεχνολογιών της Πληροφορίας και των Επικοινωνιών στη διδασκαλία και τη μάθηση

Οικονομική Γεωργικών Εκμεταλλεύσεων

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Διδακτική των εικαστικών τεχνών Ενότητα 2

Έρευνα Μάρκετινγκ Ενότητα 1

Διδακτική των εικαστικών τεχνών Ενότητα 2

Διδακτική των εικαστικών τεχνών Ενότητα 2

Διδακτική των εικαστικών τεχνών Ενότητα 2

Λογιστική Κόστους. Ενότητα 4: ΣΥΜΠΕΡΙΦΟΡΑ - ΦΥΣΗ ΚΟΣΤΟΥΣ. Μαυρίδης Δημήτριος Τμήμα Λογιστικής και Χρηματοοικονομικής

Η ΓΝΩΣΗ ΚΑΙ ΤΟ ΠΡΑΓΜΑΤΙΚΟ ΣΤΟΝ ΠΛΑΤΩΝΑ ΚΑΙ ΤΟΝ ΑΡΙΣΤΟΤΕΛΗ

Εφαρμογές πληροφορικής σε θέματα πολιτικού μηχανικού

ΑΝΑΛΥΣΗ ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΩΝ ΚΑΤΑΣΤΑΣΕΩΝ

Βάσεις Δεδομένων. Ενότητα 1: Εισαγωγή στις Βάσεις δεδομένων. Πασχαλίδης Δημοσθένης Τμήμα Ιερατικών σπουδών

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

Τεχνολογία Λογισμικού

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 3: Πολλαπλή Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Β. Διαφορικός Λογισμός

Διδακτική Πληροφορικής

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Kruskal

Διδακτική Πληροφορικής

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 1: Εισαγωγή Αναστάσιος Γούναρης, Επίκουρος Καθηγητής

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Εισαγωγή Κίνητρο, ορισμοί και λειτουργίες

Περιεχόμενα ενότητας 1. Κίνητρο. 2. Ορισμοί. 3. Ιστορικά Στοιχεία. 4. Λειτουργίες. 5. Πηγές Δεδομένων. 5

Σκοποί ενότητας Γνωριμία με το μάθημα. Βασικές έννοιες και ορισμοί. 6

Κίνητρο: Υποστήριξη Αποφάσεων Αυτόματη συλλογή πολύ μεγάλων συνόλων δεδομένων. Πωλήσεις (bar-code scanners). Παγκόσμιος Ιστός (η-εμπόριο). Τράπεζες. Ανάγκες Χρήστη Σωστές Αποφάσεις Καλύτερες Υπηρεσίες Προσαρμογή στις ανάγκες (CRM) Η γνώση και η χρήσιμη πληροφορία είναι κρυμμένη μέσα στα δεδομένα. 7

Κίνητρο: Επιστήμες Επιστημονικά δεδομένα συλλέγονται με υπερβολικά υψηλούς ρυθμούς (GB-ΤΒ/ώρα). Δεδομένα δορυφόρων (NASA, ESA). Τηλεσκόπια. Βιολογικά Δεδομένων (γονίδια - μικροσυστοιχίες). LHC. Επιστημονικές Προσομοιώσεις. Οι παραδοσιακές τεχνικές δεν είναι αποδοτικές. Η εξόρυξη δεδομένων βοηθά στην απάντηση πιο θεμελιωδών ερωτημάτων, π.χ.: «ποια είναι η σχέση μεταξύ ακραίων καιρικών φαινομένων (κυκλώνων) και υπερθέρμανσης του πλανήτη;» «ποια γονίδια συσχετίζονται με κάποια αρρώστια;» 8

Η ανάπτυξη των τεχνολογιών ΒΔ 1960s: Συλλογή δεδομένων, δημιουργία βάσεων, ιεραρχικό δικτυακό μοντέλο δεδομένων. 1970s: Σχεσιακό μοντέλο, υλοποιήσεις σχεσιακών ΣΔΒΔ. 1980s: Σχεσιακά ΣΔΒΔ, προηγμένα μοντέλα (extended-relational, OO, deductive, etc.) και ΣΔΒΔ για συγκεκριμένες εφαρμογές (π.χ., χωρικές, χωροχρονικές, επιστημονικές ΒΔ, κ.ο.κ.) 1990s σήμερα: Εξόρυξη Δεδομένων (data mining) και Αποθήκες Δεδομένων (Data Warehouses), Πολυμεσικές ΒΔ, ΒΔ και Παγκόσμιος Ιστός 9

Τί είναι εξόρυξη δεδομένων; Εξόρυξη Δεδομένων: Μέρος της διαδικασίας ανακάλυψης γνώσης σε ΒΔ. Εξαγωγή ενδιαφέρουσας (μη-τετριμμένης, υποκρυπτόμενης, άγνωστης προηγουμένως και ενδεχομένως χρήσιμης), πληροφορίας ή προτύπων από δεδομένα σε μεγάλες ΒΔ. Εναλλακτικές ονομασίες (οι περισσότερες είναι άστοχες): Ανακάλυψη γνώσης σε ΒΔ (Knowledge discovery in databases - KDD) --ευρύτερη περιοχή. Business intelligence... 10

Τί ΔΕΝ είναι εξόρυξη δεδομένων; Πολλά από τα αυτοαποκαλούμενα συστήματα εξόρυξης δεδομένων της αγοράς. Τεχνικές. (συμπερασματική - deductive) επεξεργασία ερωτημάτων. Έμπειρα συστήματα. Μικρά προγράμματα μηχανικής-στατιστικής μάθησης ML/statistical programs. Συμπερασματική απάντηση ερωτήσεων. Ένα πραγματικό σύστημα Εξόρυξης Δεδομένων πρέπει να είναι σε θέση να διαχειρίζεται τεράστιο όγκο δεδομένων. Έμφαση σε αποδοτικότητα και κλιμάκωση επεκτασιμότητα. Χρόνος εκτέλεσης = O(μέγεθος ΒΔ). 11

Συμβολή πολλών περιοχών Βάσεις Δεδομένων Στατιστική Μηχανική Μάθηση Εξόρυξη Δεδομένων Απεικόνιση Επιστήμη της Πληροφορίας Άλλες περιοχές 12

Αποθήκες Δεδομένων OLAP (1) Οι αποθήκες δεδομένων είναι εξειδικευμένες ΒΔ που μπορούν να αποθηκεύουν δεδομένα από πολλαπλές, ετερογενείς βάσεις, οργανωμένες με κοινό σχήμα και διευκολύνουν τη λήψη αποφάσεων. OLAP (On-Line Analytical Processing) είναι μία τεχνική ανάλυσης που εκτελείται στις ΑΔ. Είναι διερευνητικής φύσης. Πολύ χρήσιμη, αλλά περισσότερο κατάλληλη για επαλήθευση υποθέσεων. ΣΥΜΠΛΗΡΩΜΑΤΙΚΗ διαδικασία της εξόρυξης. 13

Αποθήκες Δεδομένων OLAP (2) Αντίθετα, η εξόρυξη δεδομένων δουλεύει με ένα ημι-αυτόματο τρόπο. Και στοχεύει στην εύρεση «κρυφής» γνώσης. Οι αποθήκες δεδομένων αποτελούν ένα κατάλληλο πλαίσιο για την εφαρμογή τεχνικών εξόρυξης. Εκτελούν τη συλλογή, ολοκλήρωση, καθαρισμό και μετασχηματισμό των δεδομένων. 14

Εξόρυξη Δεδομένων και Business Περισσότερες δυνατότητες για υποστήριξη αποφάσεων Intelligence Λήψη Αποφάσεων Τελικός Χρήστης Παρουσίαση data Αναλυτής Επιχειρήσεων Τεχνικές Οπτικοποίησης Εξόρυξη Δεδομένων Ανακάλυψη πληροφορίας Εξερεύνηση Δεδομένων Στατιστική ανάλυση, ερωτήματα και αναφορά Αναλυτής Δεδομένων Αποθήκες Δεδομένων OLAP, MDA Πηγές Δεδομένων Έγγραφα, αρχεία, ΣΔΒΔ, OLTP Διαχειριστής 15

Εξ. Δεδ.: Το κέντρο της διαδικα-σίας ανακάλυψης γνώσης σε ΒΔ Αποτίμηση και Αναπαράσταση ΓΝΩΣΗ Εξόρυξη Δεδομένων Σχετικά Δεδομένα Αποθήκη Δεδομένων Επιλογή Καθαρισμός Δεδομένων Ολοκλήρωση Δεδομένων ΒΔ 16

Λειτουργίες Εξόρυξης Δεδομένων Περιγραφικές Λειτουργίες: χαρακτηρισμός των βασικών ιδιοτήτων των δεδομένων στη βάση. Προγνωστικές Λειτουργίες: εφαρμογή συμπερασματισμού (inference) στα υπάρχοντα δεδομένα για την παραγωγή προβλέψεων. Βασικές Λειτουργίες που θα ασχοληθούμε είναι η κατηγοριοποίηση (classification), η ομαδοποίηση (clustering) και η εύρεση κανόνων συσχέτισης (association rules). Γιατί χρειαζόμαστε πολλές διαφορετικές λειτουργίες; Οι χρήστες συχνά δεν έχουν εκ των προτέρων καθαρή εικόνα για το ποια πληροφορία είναι ενδιαφέρουσα. Ή ενδιαφέρονται για διαφορετικά τύπου πρότυπα μοτίβα (patterns) παράλληλα. 17

10 Σύνολο 10 Παράδειγμα Κατηγοριοποίησης A/A Επιστρ οφή Ιδιότητες Οικογ. κατάσταση Εισό δημα Κλάση Απάτη Ανάθεση τιμής στη κλάση «Απάτη» 1 Ναι Άγαμος 125K Όχι 2 Όχι Διαζευγμ. 95K Ναι 3 Όχι Άγαμος 70K Όχι 4 Όχι Έγγαμος 60K Όχι Εκμάθηση Μοντέλο 5 Όχι Έγγαμος 100K Όχι 6 Ναι Έγγαμος 120K Όχι Σύνολο εκμάθησης Ναι Επιστρ Οχι Επιστρ ΟικΚατ Εισοδ Απάτη Όχι Άγαμος 75K? (OXI) Όχι Έγγαμος 150K? (NAI) Ναι Διαζευγμ. 90K? (OXI) Ναι Έγγαμος 50K? (OXI) ελέγχου ΟΧΙ ΟικΚατ Άγαμος Διαζευγ Εισοδ < 80K >= 80K ΟΧΙ ΝΑΙ Έγγαμος ΟΧΙ 18

Παραδείγματα Εφαρμογής Κατηγοριοποίησης Στόχευση πελατών (Marketing). Δεδομένα από πελάτες (δημογραφικά, ερωτηματολόγια). 2 κατηγορίες {buyer, non-buyer}. Δημιουργία Μοντέλου. Ταξινόμηση πελατών. Ταξινόμηση ουρανίων σωμάτων. (αστέρας ή γαλαξίας σε κάποια φάση). Εξαγωγή Δεδομένων από Εικόνα (π.χ., χροιά χρώματος hue, ιστογράμματα, κ.ο.κ.). επιτυχία: με αυτή τη μέθοδο έχουν ανακαλυφθεί πολλά quasars! 19

Ομαδοποίηση Δεν υπάρχει το χαρακτηριστικό κλάσης κατηγορίας. Διαχωρισμός σε ομάδες με τον καλύτερο τρόπο. Ελαχιστοποίηση των αποστάσεων μέσα στην ομάδα Μεγιστοποίηση των αποστάσεων μεταξύ των ομάδων Ομαδοποίηση στον 3-Δ Ευκλείδειο χώρο (με διακεκομμένες γραμμές) 20

Εφαρμογές Ομαδοποίησης Κατάτμηση Αγοράς: Διαχωρισμός πελατών σε ομάδες με διαφορετική αντιμετώπιση. Δεδομένα: γεωγραφικά, δημογραφικά, κλπ. Αξιολόγηση κάθε ομάδας με σύγκριση με τις υπόλοιπες. Οικολογία: Εντοπισμός φωλιών πουλιών. Δεδομένα: χωρικά. Κάθε ομάδα (συστάδα) αξιολογείται αναφορικά με χαρακτηριστικά όπως απόσταση από νερό, κ.ο.κ. 21

Κανόνες συσχέτισης - Παράδειγμα Είσοδος: δεδομένα συναλλαγών αγορασμένα αντικείμενα. Εύρεση κανόνων που εκφράζουν τις συσχετίσεις μεταξύ της ύπαρξης αντικειμένων κατά τις συναλλαγές. A/A Αντικείμενα 1 Ψωμί, Αλεύρι, Γάλα 2 Μπύρα, Πάνες, Γάλα, Ψωμί 3 Μπύρα, Ψωμί 4 Μπύρα, Ψωμί, Πάνες, Γάλα 5 Αλεύρι, Πάνες, Γάλα Κανόνες: Άλλο παράδειγμα στη Βιολογία Δεδομένα μικροσυστοιχιών: Γονίδια που εμφανίζονται ταυτόχρονα => αλληλεπίδραση. {disease} => {gene A gene B gene C } {Αλεύρι} --> {Γάλα} p(γάλα Αλεύρι)=1 {Γάλα} --> {Αλεύρι} p(αλεύρι Γάλα)=0.5 {Μπύρα, Ψωμί} --> {Πάνες} p(πάνες Μπύρα, Ψωμί)=0.66 22

Επιπλέον Λειτουργίες Εξόρυξης Δεδομένων Ανάλυση ακραίων δεδομένων (Outlier analysis). Ακραία δεδομένα - Outliers: δεδομένα που δεν ακολουθούν τη γενική κατανομή και δεν συμφωνούν με τη γενική συμπεριφορά των υπολοίπων δεδομένων. Μπορούν να θεωρηθούν ως θόρυβος ή εξαιρέσεις. ΑΛΛΑ είναι πολύ χρήσιμα στον εντοπισμό απατών και στην ανάλυση σπανίων φαινομένων. Ανάλυση τάσεων και εξέλιξης. Τάσεις και αποκλίσεις: ανάλυση παλινδρόμησης (regression). Ανάλυση βάσει ομοιότητας. Ανάλυση περιοδικότητας, Εξόρυξη Ακολουθιακών Προτύπων. 23

Σε τι δεδομένα εφαρμόζεται η εξόρυξη δεδομένων Σχεσιακές ΒΔ - ΒΔ συναλλαγών. Αποθήκες δεδομένων. Προηγμένες ΒΔ. Αντικειμενοστραφείς αντικειμενοσχεσιακές ΒΔ. Χωρικές ΒΔ. Χρονοσειρές και χρονικά δεδομένα. Πολυμεσικές ΒΔ και ΒΔ κειμένου. Ετερογενείς και κληρονομημένες ΒΔ. Παγκόσμιος Ιστός. 24

από σχεσιακά ΣΔΒΔ Τα σχεσιακά ΣΔΒΔ παρέχουν τη δυνατότητα για SQL ερωτήματα. Επιλογή χαρακτηριστικών, καθορισμός περιορισμών, κλπ. Δυνατά ερωτήματα: Ποια αντικείμενα πωλήθηκαν τον τελευταίο μήνα; Ή ένα βήμα πιο μακριά: εφαρμογή συναθροιστικών συναρτήσεων max, avg, κλπ. (π.χ., συνολικές πωλήσεις του έτους ανά κατάστημα). Η 1 η περίπτωση είναι απλή ανάκτηση δεδομένων ενώ η 2 η είναι διερευνητική ερώτηση. Η εξόρυξη δεδομένων σε σχεσιακά ΣΔΒΔ προχωρά ακόμη περισσότερο και εντοπίζει τάσεις, πρότυπα, κλπ. Ανάλυση δεδομένων πελατών για πρόβλεψη ποιοι δεν μπορούν να ανταποκριθούν στις οικον. Υποχρεώσεις. Εντοπισμός ισχυρών αποκλίσεων στα δεδομένα από μήνα σε μήνα. 25

από Αποθήκες Δεδομένων Έστω ότι σε μία επιχείρηση θέλουμε ανάλυση οινομικών μεγεθών ανά κομμάτι υποκατάστημα μήνα. Δύσκολο εγχείρημα. Κάθε υποκατάστημα έχει τη δική του ΒΔ πιθανώς και με διαφορετικό σχήμα. Η ΑΔ ξεπερνά αυτά τα προβλήματα. Η εξόρυξη χρησιμοποιείται συμπληρωματικά με τις τεχνικές OLAP. OLAP: εργαλεία για συνοπτική πληροφορία (summarization), roll-up, drill-down. Η εξόρυξη πραγματοποιεί πιο αυτοματοποιημένες αναλύσεις. Αλλά και οι 2 είναι χρήσιμες. 26

από ΒΔ συναλλαγών Κάθε εγγραφή αντιστοιχεί σε μία συναλλαγή. TID: CID: item1, item2, όχι 1NF Τυπικά ερωτήματα: «Βρες τι αγόρασε ο Χ». «Σε πόσες συναλλαγές αγοράστηκε το προϊόν Υ». Απλή ανάκτηση. Με την εξόρυξη δεδομένων μπορούμε να βρούμε Ποια προϊόντα πωλούνται μαζί. 27

από προηγμένα ΣΔΒΔ (1) Object oriented/object relational ΒΔ: Η εξόρυξη παρέχει εργαλεία για την ανάλυση περίπλοκων δομών και ιεραρχιών. Χωρικές ΒΔ: Πρότυπα για χαρακτηριστικά σπιτιών κοντά σε συγκεκριμένες περιοχές. Εισοδήματα ως συνάρτηση της απόστασης της κατοικίας από ΕΟΔ. Χρονοσειρές: Πρότυπα εξέλιξης και αλλαγή τάσεων. 28

από προηγμένα ΣΔΒΔ (2) Πολυμεσικές ΒΔ και ΒΔ κειμένου: Συσχετισμός των λέξεων κλειδιών, ομαδοποίηση κειμένου (συνδυασμός με IR). Εξαγωγή στοιχείων από πολυμεσικά δεδομένα, συνδυασμοί βάσει ομοιότητας. Ετερογενείς και κληρονομημένες ΒΔ: Τα κληρονομημένα συστήματα έχουν ετερογενή δεδομένα σε πολλές ΒΔ. Οι τεχνικές αποθήκευσης και εξόρυξης παρέχουν λύσεις στην ανταλλαγή πληροφορίας παράγοντας υψηλότερου επιπέδου, πιο γενικευμένη πληροφορία. 29

από τον Παγκόσμιο Ιστό WWW: Προσέλκυσε πολύ ενδιαφέρον => Ξεχωριστό πεδίο: Web Mining. Εξόρυξη περιεχομένου (συναφές με την εξόρυξη από κείμενο). Εξόρυξη συνδέσεων (εντοπισμός δομών). Εξόρυξη χρήσης (εύρεση προτύπων επισκέψεων). 30

Σημείωμα Αναφοράς Copyright, Αναστάσιος Γούναρης. «. Ενότητα 1. Εισαγωγή». Έκδοση: 1.0. Θεσσαλονίκη 2014. Διαθέσιμο από τη δικτυακή διεύθυνση:http://eclass.auth.gr/courses/ocrs182/

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο [1] http://creativecommons.org/licenses/by-nc-sa/4.0/

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Τέλος ενότητας Επεξεργασία: Ανδρέας Κοσματόπουλος Θεσσαλονίκη, Χειμερινό Εξάμηνο 2013-2014

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Σημειώματα

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.