Κλασσικά Βιβλία Αναφοράς

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Κλασσικά Βιβλία Αναφοράς"

Transcript

1 Εξόρυξη Δεδομένων

2 Κλασσικά Βιβλία Αναφοράς Data Mining-Concepts and Techniques-Han and K, Morgan Kaufmann, 2001 Principles of Data Mining-Hand, Manila and Smyth. MIT Press, The Elements of Statistical Learning-Data Mining, Inference and Prediction, Springer, 2001.

3 Ο όρος εξόρυξη δεδομένων αναφέρεται στην εξόρυξη ή την ανακάλυψη νέων πληροφοριών με την μορφή κανόνων ή προτύπων από πηγές δεδομένων. Γιαναείναιπρακτικά χρήσιμες αυτές οι πληροφορίες πρέπει να έχουν εξαχθεί από μεγάλες βάσεις δεδομένων και αρχεία. Η εξόρυξη δεδομένων χρησιμοποιεί τεχνικές από την μηχανική μάθηση, την στατιστική, τα νευρωνικά δίκτυα κοκ. Οι αποθήκες δεδομένων μπορούν να χρησιμοποιηθούν για να υποστηρίξουν την εξόρυξη δεδομένων.

4 Η εξόρυξη δεδομένων αποτελεί τμήμα της διαδικασίας ανακάλυψης γνώσης από βάσεις δεδομένων (KDD- Knowledge Discovery in Databases). Η διαδικασία αυτή αποτελείται από 6 φάσεις: επιλογή δεδομένων, καθαρισμό, εμπλουτισμό, μετατροπή ή κωδικοποίηση, εξόρυξη, και δημιουργία αναφορών.

5 Ανακάλυψη γνώσης από βάσεις δεδομένων Πραγματικότητα Απαιτήσεις για «έξυπνα» εργαλεία Ανακαλύπτουν νέα γνώση μέσα από γνωστά δεδομένα Απαιτούν καμία ή μικρή καθοδήγηση από τον χρήστη Χειρίζονται μεγάλους όγκους δεδομένων

6 Εργαλεία εξόρυξης δεδομένων Εργαλεία Εργαλεία Εργαλεία επεξεργασίας πολυδιάστατης εξόρυξης δεδομένων ανάλυσης δεδομένων OLAP server OLAP server Αποθήκη δεδομένων Φόρτωση/ Ανανέωση Μετασχημ/σμός Εξαγωγή Data mart Data mart Επιχειρησιακά δεδομένα

7 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ Ανακάλυψη νέων (κρυμμένων) προτύπων και μοντέλων (patterns, models), κανόνες συσχέτισης, ιεραρχίες κατηγοριοποίησης, ομαδοποίηση με (ημι-) αυτόματο και αποδοτικό τρόπο για την περιγραφή των δεδομένων μίας μεγάλης βάσης και την πρόβλεψη και εξήγηση νέων δεδομένων.

8 Ανακάλυψη γνώσης είναι η διαδικασία εντοπισμού έγκυρων, εν δυνάμει χρήσιμων και κατανοητών πρότυπων (patterns) σε δεδομένα.

9 Δεδομένα είναι ένα σύνολο F από γεγονότα. Πρότυπο (pattern) είναι μια έκφραση Ε σε μια γλώσσα L που περιγράφει ένα υποσύνολο F E του F. Διαδικασία:Συνήθως πολλών βημάτων, που περιλαμβάνει προετοιμασία των δεδομένων, αναζήτηση προτύπων, και εκλέπτυνση με επανάληψη. Εγκυρότητα:Τα πρότυπα που ανακαλύπτονται πρέπει να ισχύουν και σε νέα δεδομένα με κάποιο βαθμό εμπιστοσύνης. Χρήσιμες:Τα πρότυπα θα πρέπει να οδηγούν σε κάποιες χρήσιμες δράσεις, που εκτιμούνται από κάποια συνάρτηση. Κατανοητά:Πρέπει να είναι πρότυπα κατανοητά από ανθρώπους.

10 Στόχοι της Εξόρυξης Δεδομένων και Ανακάλυψης Γνώσης Πρόβλεψη-Η εξόρυξη δεδομένων μπορεί να δείξει την συμπεριφορά κάποιων γνωρισμάτων των δεδομένων στο μέλλον Ταυτοποίηση-Οι μορφές των δεδομένων μπορούν να χρησιμοποιηθούν για να προσδιορισθεί η ύπαρξη ενός προϊόντος, ενός γεγονότος, ημιας δραστηριότητας Ταξινόμηση-Η εξόρυξη δεδομένων μπορεί να διαμερίσει τα δεδομένα ώστε να μπορούν να προσδιορισθούν διαφορετικές κλάσεις ή κατηγορίες με βάση συνδυασμούς παραμέτρων

11 Στόχοι της Εξόρυξης Δεδομένων και Ανακάλυψης Γνώσης (2) Βελτιστοποίηση Ένας ενδεχόμενος στόχος της εξόρυξης δεδομένων μπορεί να είναι η βελτιστοποίηση της χρήσης μέσων όπως ο χρόνος, ο χώρος, το χρήμα, ή τα υλικά και η μεγιστοποίηση των μεταβλητών εξόδου όπως οι πωλήσεις ή τα κέρδη δοθέντων κάποιων περιορισμών. Σαν τέτοιος, αυτός ο στόχος της εξόρυξης δεδομένων προσομοιάζει την αντικειμενική συνάρτηση που χρησιμοποιείται στα προβλήματα επιχειρησιακής έρευνας που αντιμετωπίζει βελτιστοποιήσεις υπό περιορισμούς.

12 Τύποι Γνώσης που Ανακαλύπτονται κατά την Εξόρυξη Δεδομένων Κανόνες Συσχέτισης Οι κανόνες αυτοί σχετίζουν την ύπαρξη ενός συνόλου προϊόντων με διάστημα τιμών ενός άλλου συνόλου μεταβλητών. Ιεραρχίες Ταξινόμησης Ο στόχος είναι ξεκινώντας από ένα υπάρχον σύνολο γεγονότων ή δοσοληψιών να δημιουργηθεί μια ιεραρχία κλάσεων. Ακολουθιακά πρότυπα Αναζητείται μια ακολουθία ενεργειών ή γεγονότων. Πρότυπα σε χρονοσειρές Μπορεί να εντοπισθούν ομοιότητες στις θέσεις χρονοσειρών. Κατηγοριοποίηση και κατάτμηση Ένα σύνολο γεγονότων ή αντικειμένων μπορεί να διαμερισθεί σε σύνολα παρόμοιων στοιχείων.

13 Χαρακτηριστικά ενός Συστήματος Εξόρυξης Δεδομένων Διαχείριση Διαφορετικών Τύπων Δεδομένων Αποδοτικότητα των αλγόριθμων εξόρυξης Χρησιμότητα, βεβαιότητα και εκφραστικότητα των αποτελεσμάτων της εξόρυξης. Παρουσίαση σε υψηλό επίπεδο των αιτημάτων και των αποτελεσμάτων από την διαδικασία εξόρυξης Διαδραστική εξόρυξη γνώσης σε διαφορετικά επίπεδα αφαίρεσης. Εξόρυξη Πληροφοριών από διαφορετικές πηγές δεδομένων Προστασία και ασφάλεια δεδομένων.

14 Τρόποι Ταξινόμησης των Τεχνικών Εξόρυξης Είδη βάσεων δεδομένων με τις οποίες συνεργάζονται (σχεσιακές, αντικειμενοστρεφείς, ετερογενείς, Internet κλπ). Το είδος της γνώσης που εξάγουν (κανόνες συσχέτισης, κανόνες χαρακτηρισμού, κανόνες ταξινόμησης, ) Είδος των τεχνικών που χρησιμοποιούν (αυτόνομη εξόρυξη, εξόρυξη καθοδηγούμενη από δεδομένα, εξόρυξη καθοδηγούμενη από επερωτήσεις).

15 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ Στατιστική ανάλυση Μηχανική Μάθηση Ο ρόλος του χώρου των Βάσεων Δεδομένων Κλιμάκωση και εξέλιξη υπαρχόντων αλγορίθμων για χειρισμό μεγάλου όγκου δεδομένων Δουλειά σε όλες τις διαδικασίες εξόρυξης Βάσεις δεδομένων Συνολική αντιμετώπιση κοινών προβλημάτων Κατασκευή SQL-aware συστημάτων επεξεργασίας δεδομένων στους αλγόριθμους εξόρυξης δεδομένων Εξέλιξη των ΣΔΒΔ για αποδοτικότερη υποστήριξη μεθόδων εξόρυξης δεδομένων Πχ: ενσωμάτωση data mining primitives

16 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Βάση Δεδομένων Κάθε Έναν Έναδείγματουπληθυσμούγιατιςοντότητεςτουοποίου πληθυσμό οντότητα ο οποίος έχει Νέχει ομάδες: m ιδιότητες: G 1, G 2, G Α 1, Α Ν 2, Α m γνωρίζουμε σε ποια ομάδα ανήκουν Κατηγοριοποίηση Ανάπτυξη προφίλ για κάθε γνωστή ομάδα Εύρεση όλων (Ν) των οντοτήτων που ανήκουν σε μία δοσμένη ομάδα

17 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Παράδειγμα: ποιοι πελάτες είναι θετικοί αποδέκτες σε διαφημιστικά φυλλάδια Οι πελάτες χωρίζονται σε θετικούς αποδέκτες και στους άλλους Ιδιότητες κάθε πελάτη: Όνομα, ηλικία, επάγγελμα, κλπ Δεδομένα για πελάτες που απάντησαν σε παλιότερες καμπάνιες Κατηγοριοποίηση Προφίλ θετικών αποδεκτών: (Ηλικία>25 και <55) και μισθός> και Περιοχή=Ν.Προάστεια Εφαρμογή του προφίλ για εύρεση όλων των πελατών για αποστολή νέου υλικού

18 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Άλλα παραδείγματα εφαρμογών: -Oργάνωση διαφημιστικής καμπάνιας - Πολιτική πίστωσης - Επέκταση επιχειρησιακών δραστηριοτήτων

19 Κατηγοριοποίηση (Classification) Κατηγοριοποίηση είναι η διαδικασία εκμάθησης ενός μοντέλου που περιγράφει διαφορετικές κλάσεις δεδομένων. Οι κλάσεις έχουν προκαθορισθεί. Αυτή η διαδικασία λέγεται επιβλεπόμενη μάθηση (supervised learning). Μόλις δημιουργηθεί, μπορεί να χρησιμοποιηθεί για ταξινόμηση νέων δεδομένων. Το πρώτο βήμα, επιτυγχάνεται με χρήση ενός συνόλου δεδομένων που έχουν ήδη ταξινομηθεί. Κάθε εγγραφή στα δεδομένα αυτά περιέχει ένα γνώρισμα, που ονομάζεται γνώρισμα κλάσης που δείχνει σε ποια κλάση ανήκει η εγγραφή. Το μοντέλο που παράγεται συνήθως έχει την μορφή δένδρου αποφάσεων ή συνόλου κανόνων. Το μοντέλο θέλουμε να προβλέπει την σωστή κλάση στην οποία ανήκουν νέα δεδομένα.

20 Διαδικασία δύο βημάτων Δημιουργία του μοντέλου:περιγράφει προκαθορισμένες κλάσεις. Θεωρούμε ότι κάθε πλειάδα ανήκει σε μια προκαθορισμένη κλάση Το σύνολο των πλειάδων που χρησιμοποιούνται για την δημιουργία του μοντέλου αποτελεί το σύνολο εκγύμνασης Το μοντέλο παριστάνεται σαν κανόνες, δένδρο αποφάσεων ή μαθηματικός τύπος Χρήση του μοντέλου για ταξινόμηση μελλοντικών ή άγνωστων δεδομένων Εκτίμηση της ακρίβειας του μοντέλου Συγκρίνεται η γνωστή κλάση δείγματος ελέγχου με αυτή που προκύπτει απότομοντέλο Ακρίβεια είναι το ποσοστό του δείγματος ελέγχου που ταξινομείται σωστά από το μοντέλο Το σύνολο ελέγχου είναι ανεξάρτητο από αυτό της εκμάθησης. Αν η ακρίβεια είναι αποδεκτή χρησιμοποιείται για ταξινόμηση άγνωστων δεδομένων

21 Αλγόριθμοι Κατηγοριοποίησης Δεδομένα Εκμάθησης Όνομα Βαθμίδα ΧρΠρουπ Μόνμος Κώστας Προϊστάμενος 3 ΟΧΙ Πέτρος Προϊστάμενος 7 ΝΑΙ Άννα Διευθυντής 2 ΝΑΙ Ηλίας Τμηματάρχης 7 ΝΑΙ Ελένη Προϊστάμενος 6 ΟΧΙ Πάνος Τμηματάρχης 3 ΟΧΙ Μοντέλο If Διευθυντής or ΧρΠρουπ>6 then Μόνιμος=ΝΑΙ

22 Μοντέλο Δεδομένα Ελέγχου Άγνωστα Δεδομένα

23 Υπάρχουν πολλά μοντέλα κατηγοριοποίησης Ταξινόμηση με δένδρα αποφάσεων Ταξινόμηση Bayes Νευρωνικά δίκτυα Support Vector Machines (SVM) Ταξινομήσεις που βασίζονται σε συσχετίσεις Άλλες μέθοδοι (KNN, Boosting, Bagging κλπ)

24 Αποτίμηση των Μεθόδων Κατηγοριοποίησης Προβλεπόμενη Ακρίβεια Ταχύτητα και κλιμάκωση Χρόνος Δημιουργίας του μοντέλου Χρόνος Χρήσης Σταθερότητα Διαχείριση θορύβου και χαμένων τιμών Δυνατότητα ερμηνείας Κατανόηση της δομής του μοντέλου Ποιότητα των κανόνων Μέγεθος του δένδρου αποφάσεων Πληρότητα των κανόνων

25 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Προσεγγίσεις κατηγοριοποίησης: Καθορισμός ενός μετρικού χώρου και υπολογισμός των οντοτήτων που ανήκουν σε μία ομάδα με μέτρο την εγγύτητα: πχ: k-nearest neighbor Προβολή του χώρου σε περιοχές αποφάσεων: πχ: δέντρα αποφάσεων, νευρωνικά δίκτυα Προτάσεις από τον χώρο των βάσεων για κλιμακούμενους αλγορίθμους: SPRINT

26 Αλγόριθμοι Κατηγοριοποίησης Δεδομένα Εκμάθησης Όνομα Βαθμίδα ΧρΠρουπ Μόνμος Κώστας Προϊστάμενος 3 ΟΧΙ Πέτρος Προϊστάμενος 7 ΝΑΙ Άννα Διευθυντής 2 ΝΑΙ Ηλίας Τμηματάρχης 7 ΝΑΙ Ελένη Προϊστάμενος 6 ΟΧΙ Πάνος Τμηματάρχης 3 ΟΧΙ Μοντέλο If Διευθυντής or ΧρΠρουπ>6 then Μόνιμος=ΝΑΙ

27 Αλγόριθμος για την επαγωγή δένδρου αποφάσεων Βασικός Αλγόριθμος (Άπληστος) Το δένδρο κατασκευάζεται με αναδρομικό top-down διαίρει και βασίλευε τρόπο Στηναρχήόλαταπαραδείγματαστηρίζα Κατηγορικά Γνωρίσματα (αν είναι συνεχή γίνονται διακριτά Διαμερίζονται με βάση επιλεγμένα γνωρίσματα Τα γνωρίσματα επιλέγονται ευριστικά ή με στατιστικά μέτρα (πληροφοριακό κέρδος) Συνθήκες Τερματισμού των διαμερίσεων Όλα τα δείγματα ενός κόμβου ανήκουν στην ίδια κλάση Δεν υπάρχουν γνωρίσματα για περαιτέρω διαμέριση (για την ταξινόμηση του κόμβου χρησιμοποιείται πλειοψηφία ψήφων) Τελειώνει το δείγμα

28 Αλγόριθμος Decision Tree Induction Είσοδος: Σύνολο εγγραφών εκπαίδευσης R 1,R 2, R m και ένα σύνολο γνωρισμάτων A 1,A 2, A n. Έξοδος:Δένδρο Αποφάσεων Procedure Build_tree(records, Attributes); begin create a node N; If all Records belong to the same class, C then return N as a leaf node with class label C; If Attributes is empty then return N as a leaf node with class label C, such that the majority of Records belong to it; Select attribute A i (with the highest information gain) from Attributes; Label node N with A i ;

29 Αλγόριθμος Decision Tree Induction (Συν.) for each known value, V j of A i do begin Add a branch from node N for the condition A i =V j ; S j =subset of records where A i =V j ; If S j is empty then add a leaf, L, with class label C, such that the majority of Records belong to it Return L else add the node returned by Build_tree(S j,attributes-a i ); end; end;

30 Τι σημαίνει πληροφοριακό κέρδος (Information Gain); Σαν μέτρο του πληροφοριακού κέρδους χρησιμοποιούμε την εντροπία. Οι αναμενόμενες πληροφορίες για την ταξινόμηση δεδομένων εκμάθησης από δείγματα, όταν το γνώρισμα κλάσης έχει n τιμές (v 1,v 2,,v n ) και S i είναι το πλήθος των δειγμάτων που ανήκουν στην κλάση με ετικέτα v i δίδεται από τον τύπο: I(S 1,S2,...Sn) = - pilog2p n i= 1 Όπου p i είναι η πιθανότητα ένα τυχαίο δείγμα να ανήκει στην κλάση v i. Μια εκτίμηση της τιμής p i είναι s i /s. i

31 Το γνώρισμα Α με τιμές {v 1,,v m } διαμερίζει το δείγμα σε υποσύνολα S 1,S 2, S m όπου όσα ανήκουν στο S i έχουν μια τιμή του v i του Α. Κάθε S i μπορεί να περιέχει δείγματα που ανήκουν σε οποιαδήποτε κλάση. Το πλήθος των S i ανήκουν στην κλάση j συμβολίζεται σαν s ij. Η εντροπία σε σχέση με χρήση του γνωρίσματος Α σαν γνωρίσματος ελέγχου ορίζεται: n Sj Sjn E( A) = * I( Sj1, Sj2,... S S j= 1 Το I(s j1, s jn ) μπορεί να ορισθεί χρησιμοποιώντας τον τύπο για το I(s 1, s n ) αντικαθιστώντας το p i με το p ji όπου p ji =s ji /s. Το κέρδος ορίζεται σαν Gain(A)=I(s 1, s n )-E(A) jn )

32 Εγγαμος Μισθος Υπ_Λογ Ηλικία Μπορεί Δαν οχι >=50Κ <5Κ >=25 ναι ναι >=50Κ >=5Κ >=25 ναι ναι 20Κ 50Κ <5Κ <25 οχι οχι <20Κ >=5Κ <265 οχι οχι <20Κ <5Κ >=25 οχι ναι 20Κ 50Κ >=5Κ >=25 ναι I(3,3)=-0.5log log 2 0.5=1 Έγγαμος=ναι s 11 =2, s 21 =1 I(s 11,s 12 )=0.92 Έγγαμος=οχι s 12 =1, s 22 =2 I(s 12,s 22 )=0.92 Επομένως E(Εγγαμος)=3/6 I(s 11,s 12 )+3/6 I(s 12,s 22 )=0.92 Και κέρδος =0.08

33 Όμοια Ε(Μισθος)=0.33 και Gain(Μισθος)=0.67 E(ΥπΛογ)=0.82 και Gain(ΥπΛογ)=0.18 Ε(Ηλικια)=0.81 και Gain(Ηλικια)=0.19

34 ΕΓΓΑΜΟΣ ναι οχι ΜΙΣΘΟΣ ΥΠΟΛ_ΛΟΓ <20Κ Χαμηλού ρίσκου >=20Κ <50Κ Μεγάλου ρίσκου Υψηλού ρίσκου >=50Κ <5Κ >=5Κ Χαμηλού ρίσκου ΗΛΙΚΙΑ <25 >=25 Μεσαίου ρίσκου Υψηλού ρίσκου

35 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Βάση Δεδομένων Έναν πληθυσμό Κάθε οντότητα του πληθυσμού έχει m ιδιότητες: Α 1, Α 2, Α m Ομαδοποίηση Διαχωρισμός του πληθυσμού σε ομάδες Για κάθε ομάδα, εύρεση του προφίλ των οντοτήτων που ανήκουν σε αυτή

36 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Παράδειγμα: μία βάση με δημογραφικά στοιχεία Κάθε οντότητα έχει ιδιότητες: ηλικία, οικονομική κατάσταση, περιοχή, μόρφωση Ομαδοποίηση Διαχωρισμός του πληθυσμού σε επίπεδα μόρφωσης Με βάση την ηλικία και την οικονομικά κατάσταση

37 Ομαδοποίηση τα παρόμοια στην ίδια ομάδα Μεμονωμένα σημεία (outliers) Ομάδα 2 Ομάδα 1

38 Τα σημεία που είναι σε ομάδα πρέπει Στην ίδια ομάδα αυτά που μοιάζουν Τα διαφορετικά σε διαφορετικές ομάδες Οι ομάδες δεν είναι προκαθορισμένες (μη επιβλεπόμενη εκμάθηση)

39 Απαιτήσεις για τις Ομάδες Δυνατότητα αντιμετώπισης διαφορετικών τύπων γνωρισμάτων Ανακάλυψη συστάδων οποιουδήποτε σχήματος Αντιμετώπιση θορύβου στα δεδομένα Πολλές διαστάσεις Ευστάθεια σε σχέση με το μέγεθος των δεδομένων Ενσωμάτωση περιορισμών που εισάγει ο χρήστης Δυνατότητα ανακάλυψης όλων των κρυμμένων προτύπων.

40 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Άλλα παραδείγματα εφαρμογών: Εξερεύνηση δεδομένων Targeted Marketing Ταξινόμηση Εγγράφων Ταξινόμηση ακολουθιών γονιδιώματος

41 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Προσεγγίσεις ομαδοποίησης: 1. Distance-based: k-means, HAC (Hierarchical Agglomerative Clustering) 2. Model-based: Expectation-Maximization(EM) 3. Partition-based: 4. Ιεραρχικές Μέθοδοι Προτάσεις από τον χώρο των βάσεων για κλιμακούμενους αλγορίθμους: DBSCAN, CLARANS

42 Για δεδομένα που χωράνε στη μνήμη Λέγεται και object-by variable δομή Πίνακας δεδομένων n αντικείμενα με p μεταβλητές x x... x n1... x... x... x 1 j 2 j nj... x... x... x 1p 2 p np

43 Πίνακας διαφορετικότητας (dissimilarity matrix) Προσέγγιση αντικειμένων d ij μη ομοιότητα αντικειμένων Μη αρνητική Είναι κοντά όσο πλησιάζει το d 21 d d n d d 32 n d n,n-1 0

44 Θέλουμε μεγάλη ομοιότητα (ανάλογα με κάποιο μέτρο ομοιότητας) εντός των κλάσεων και μικρή μεταξύ των κλάσεων. (Συνήθως οι ομάδες είναι ξένες μεταξύ τους). Ένα χαρακτηριστικό στοιχείο είναι η συνάρτηση ομοιότητας που χρησιμοποιείται. Όταν τα δεδομένα είναι αριθμητικά μπορεί να χρησιμοποιηθεί μια συνάρτηση που βασίζεται στην απόσταση.

45 Συνάρτηση Ομοιότητας Ευκλείδεια Απόσταση απόσταση ( rj; rk) = rj1 rk 1 + rj2 rk rjn rkn Όσο μικρότερη είναι η απόσταση τόσο μεγαλώνει η ομοιότητα. Ένας κλασσικός αλγόριθμος είναι αυτός των k μέσων (k means)

46 Γενικευμένη απόσταση είναι η απόσταση Minkowski q q q q d(i, j) = x i1 - x j1 + x i2 - x j x in - x jn Ηοποίαγιαq=2 είναι η Ευκλείδεια ενώ για q=1 είναι η Manhattan απόσταση Απόσταση με βάρη: d(i, j) = q w 1 q q q xi1 - x j1 + w 2 x i2 - x j wn xin - x jn

47 Ιδιότητες της απόστασης Minkowski Μη αρνητική d(i,j) 0 d(i,i)=0 Συμμετρική: d(i,j)=d(j,i) Τριγωνική ανισότητα: d(i,j) d(i,k)+d(k,j)

48 Κατηγορίες αλγορίθμων για δημιουργία συστάδων Αλγόριθμοι διαμέρισης: Διαμερίζονται τα αντικείμενα σε k συστάδες. Με επανάληψη επανατοποθετούνται τα αντικείμενα ώστε να δημιουργηθούν καλλίτερες συστάδες. Ιεραρχικοί αλγόριθμοι: Δύο προσεγγίσεις 1)κάθε αντικείμενο είναι μια κλάση και γίνεται συνένωση των κλάσεων για δημιουργία μεγαλυτέρων ή 2)όλα τα αντικείμενα θεωρούνται μια κλάση και διασπώνται σε μικρότερες. Μέθοδοι που βασίζονται στην πυκνότητα:συναρτήσεις πυκνότητας Μέθοδοι που βασίζονται σε πλέγματα:ποσοτικοποιείται ο χώρος των αντικειμένων σε μια δομή πλέγματος Με βάση μοντέλο:χρησιμοποίηση ενός μοντέλου για να βρεθεί η καλλίτερη προσέγγιση των δεδομένων

49 Αλγόριθμοι διαμέρισης Διαμερίζονται τα k αντικείμενα σε k συστάδες με βελτιστοποίηση του κριτηρίου που επιλέγεται για την διαμέριση. Γιαναβρεθείτοκαθολικόβέλτιστοπρέπειναεξετασθούνόλεςοι διαμερίσεις, οι πιθανές διαμερίσεις είναι k n -(k-1) n - -1 που είναι πάρα πολλές. Ευριστικές μέθοδοι: K-means δηλαδή μια συστάδα παριστάνεται με το κέντρο της ή k metoids δηλαδή κάθε συστάδα παριστάνεται απόένααντικείμενοτης

50 Σκιαγράφηση του k means Αυθαίρετη επιλογή k αντικειμένων σαν τα αρχικά κέντρα των συστάδων. Μεταφορά ενός αντικειμένου στη συστάδα που το προσεγγίζει περισσότερο με βάση την μέση τιμή των αντικειμένων στη συστάδα. Ενημέρωση των μέσων τιμών των συστάδων.

51 K means αλγόριθμος Είσοδος: μια βάση δεδομένων D με m εγγραφές r 1,r 2, r m και ένα επιθυμητό πλήθος συστάδων k Έξοδος:ένα σύνολο από k ομάδες που ελαχιστοποιούν το κριτήριο του τετραγωνικού λάθους begin Τυχαία επιλογή των k εγγραφών σαν κέντρων των k συστάδων Repeat Κάθε εγγραφή r i τοποθετείται σε μια συστάδα έτσι που η απόσταση μεταξύ της r i και του κέντρου της συστάδας να είναι η μικρότερη από τις k συστάδες Υπολογίζεται ξανά το κέντρο για κάθε συστάδα με βάση τις εγγραφές που περιέχει Μέχρι να μην υπάρχει αλλαγή end;

52

53 Η συνθήκη τερματισμού συνήθως είναι το κριτήριο του τετραγωνικού λάθους. Για τις συστάδες C 1,C 2,,C k με μέσους m 1,m 2,,m k το λάθος ορίζεται: Λάθος = k i= 1 r C j απόσταση(r i j,m i ) 2

54 Ο μέσος για μια ομάδα, C i, με n εγγραφές m διαστάσεων είναι το διάνυσμα: = i j i j C r jm C r ji i r n r n C 1..., 1

55 ID Ηλικια Προυπηρεσία Έστω ότι θέλουμε 2 συστάδες και ας υποθέσουμε ότι ξεκινάμε με το 3 (C 1 ) και το 6 (C 2 ) για κέντρα. Το 1 απέχει 22.4 από το C 1 και 32.0 από το C 2. Επομένως πάει στο C 1. Το 2 απέχει 10.0 και 5.0 αντίστοιχα και επομένως πάει στο C 2 Όμοια το 4 απέχει 25.5 από το C 1 και 36.6 από το C 2 και επομένως πάει στο C 1. Τέλος το 5 απέχει 20.6 από το C 1 και 29.2 από το C 2 και επομένως πάει στο C 1.

56 Πλεονεκτήματα και Μειονεκτήματα του k means Έχει σχετικά καλή απόδοση Ο(tkn) (n αντικείμενα, k ομάδες και t επαναλήψεις k,t <<n. Συνήθωςβρίσκειένατοπικόβέλτιστο. Μπορεί να εφαρμοσθεί μόνο όταν ορίζεται ο μέσος (τι γίνεται όταν έχουμε κατηγορικά δεδομένα). Πρέπει να ορισθεί το πλήθος των ομάδων Δεν αντιμετωπίζει δεδομένα με θόρυβο Δεν βρίσκει μη κυρτές ομάδες.

57 Υπολογισμός των κέντρων (όταν οι οντότητες i I εμφανίζονται σαν γραμμές y i R n ) Το κέντρο βάρους y(s)=σ i S y i / S Οι συντελεστές της εξίσωσης γραμμικής παλινδρόμησης μιας μεταβλητής σε σχέση με τις άλλες (στο S)

58 Υπολογισμός των κέντρων (όταν τα δεδομένα παριστάνονται με τον πίνακα ανομοιότητας ) Μια οντότητα i I που ελαχιστοποιεί την συνολική ανομοιότητα d(i, S)=Σ j S d ij / S ή d(i,s)=max j S d ij ή d(i,s)=min j S d ij

59 Παραλλαγές του k means Παραλλαγές σε Επιλογή των αρχικών K Υπολογισμοί σε διαφορά Στρατηγικές στον υπολογισμό του μέσου των συστάδων Κατηγορικά δεδομένα Χρήση mode αντί για mean (το πιο συχνό) Ανάμειξη κατηγορικών και αριθμητικών δεδομένων

60 Παραλλαγές του k means Παραλλαγές στην επιλογή των αρχικών k μέσων Στη στρατηγική υπολογισμού του μέσου της συστάδας. Για αντιμετώπιση κατηγορικών δεδομένων.

61

62 Ιεραρχικές Μέθοδοι AGNES Αρχικά κάθε αντικείμενο είναι μια ομάδα. Βήμαβήμα συγχωνεύονται οι ομάδες DIANA (Divisive Analysis) Αρχικά όλα τα αντικείμενα είναι μια ομάδα. Βήμα-βήμα διασπώνται οι ομάδες

63 Ιεραρχικές Μέθοδοι Δύσκολο να βρεθούν τα σημεία διάσπασης/συγχώνευσης Δεν έχουν καλή απόδοση Ο(n 2 ) Ενοποίηση ιεραρχικών με άλλες τεχνικές

64 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Βάση Δεδομένων Μία βάση δοσοληψιών: Τ1, Τ2, Κάθε δοσοληψία αφορά μία λίστα αντικειμένων (τιμών) Εύρεση συσχετίσεων X Y Εύρεση συσχετίσεων μεταξύ αντικειμένων μίας δοσοληψίας

65 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Εύρεση συσχετίσεων με βάση: Εμπιστοσύνη (confidence) c: Στις c% των περιπτώσεων που υπάρχει το Χ τότε υπάρχει και το Υ Στήριξη (support) s : Ο κανόνας υποστηρίζεται από το s% των συνολικών δοσοληψιών

66 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Παράδειγμα: ποια προϊόντα αγοράζουν μαζί οι πελάτες ενός καταστήματος (>60%) Μία βάση δοσοληψιών: Τ1, Τ2, Κάθε δοσοληψία αφορά ένα καλάθι αγαθών Εύρεση συσχετίσεων Ψωμί Βούτυρο (70%)

67 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Άλλα παραδείγματα εφαρμογών: Σχεδιασμός των προμηθειών ενός σούπερ μάρκετ Σχεδιασμός καταλόγου Οργάνωση καταστήματος

68 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Αλγόριθμοι: Apriori Βασική ιδέα: Διάσπαση του προβλήματος σε δύο υποπροβλήματα Εύρεση όλων των συνδυασμών των αντικειμένων που υπάρχουν σε ποσοστό δοσοληψιών μεγαλύτερο του ποσοστού στήριξης. Χρήση των συνδυασμών για παραγωγή κανόνων. Αν για παράδειγμα ΑΒΓΔ και ΑΒ είναι τέτοιοι συνδυασμοί, υπολογίζουμε το r=support(abγδ)/support(ab). Αν το r>confidence τότε ισχύει ο κανόνας ΑΒ ΓΔ

69 Εξόρυξη Κανόνων Συσχέτισης Ένας κανόνας συσχέτισης είναι της μορφής X Y όπου τα X={x 1, x 2,, x n } και Y={y 1, y 2,, y m } είναι σύνολα αντικειμένων, με τα x i και y j να είναι διακριτά αντικείμενα για κάθε i και j. Η συσχέτιση αυτή λέει ότι αν ένας πελάτης αγοράζει το X είναι πιθανό να αγοράσει και το Y επίσης. Γενικά κάθε κανόνας συσχέτισης έχει την μορφή LHS (αριστερό μέλος) RHS (δεξιό μέλος), όπου τα LHS και RHS είναι σύνολα αντικειμένων. Το LHS RHS λέγεται σύνολο αντικειμένων.

70 Εξόρυξη Κανόνων Συσχέτισης Η στήριξη του κανόνα LHS RHS είναι το ποσοστό των δοσοληψιών που περιλαμβάνουν όλα τα αντικείμενα της ένωσης LHS RHS. Δηλαδή η στήριξη είναι το ποσοστό των δοσοληψιών που περιέχουν όλα τα αντικείμενα του συνόλου. Αν η στήριξη είναι χαμηλή αυτό συνεπάγεται ότι δεν υπάρχει σαφής ένδειξη ότι τα αντικείμενα LHS RHS εμφανίζονται μαζί.

71 Κωδικός Δοσοληψ. Ώρα Προϊόντα :35 γάλα, ψωμί, βουτήματα, χυμός :38 γάλα, χυμός :05 γάλα, αυγά :40 ψωμί, βουτήματα, καφές Στήριξη {γάλα.,χυμός} 50% Στήριξη {ψωμί.,χυμός} 25%

72 Εμπιστοσύνη Η εμπιστοσύνη του κανόνα συσχέτισης LHS RHS είναι το ποσοστό των δοσοληψιών που περιλαμβάνουν επίσης το RHS. Ένας άλλος όρος για την εμπιστοσύνη είναι η ισχύς του κανόνα Εμπιστοσύνη γάλα χυμός 66.7% Εμπιστοσύνη ψωμί χυμός 50%

73 Ο στόχος της εξόρυξης κανόνων συσχέτισης, είναι η δημιουργία όλων των πιθανών κανόνων που ξεπερνούν κάποια όρια στήριξης και εμπιστοσύνης. Το πρόβλημα χωρίζεται σε δύο υποπροβλήματα: α)δημιουργία όλων των συνόλων αντικειμένων που ξεπερνούν το όριο. Τα σύνολα αυτά ονομάζονται μεγάλα (ήσυχνά). Μεγάλα εννοούμε με μεγάλη στήριξη β)για κάθε μεγάλο σύνολο, δημιουργούνται δημιουργούνται όλοι οι κανόνες με ελάχιστη εμπιστοσύνη: για ένα μεγάλο σύνολο αντικειμένων X και Y X, έστω Z=X-Y τότε αν στήριξη(x)/στήριξη(z)> ελάχιστη εμπιστοσύνη, ο κανόνας Z=>Y (δηλαδή X-Y Y) είναι ένας έγκυρος κανόνας

74 Η εύρεση όλων των μεγάλων συνόλων αντικειμένων με τις τιμές στήριξης είναι ένα δύσκολο πρόβλημα. Για βελτίωση των αλγορίθμων για εύρεση των κανόνων συσχέτισης χρησιμοποιούνται οι ιδιότητες: Ένα υποσύνολο ενός μεγάλου συνόλου αντικειμένων πρέπει να είναι επίσης μεγάλο (downward closure) Αντίστροφα, ένα υπερσύνολο ενός μικρού συνόλου αντικειμένων είναι επίσης μικρό. (antimonotonicity)

75 Apriori Αλγόριθμος για εύρεση συχνών συνόλων Είσοδος: βάση δεδομένων από m δοσοληψίες D, και ελάχιστη στήρξη mins (ποσοστό του m). Έξοδος: συχνά σύνολα L 1, L 2, L k Υπολογισμός support(i j )=count(i j )/m για κάθε αντικείμενο. Το υποσύνολο των στοιχείων i j με support(i j ) >mins αποτελεί το L1. k=1 Δημιουργία των υποψηφίων k+1 C k+1 γίνεται με συνδυασμό των μελών των L k που έχουν k-1 κοινά στοιχεία. Θεωρούμε σαν στοιχεία του C k+1 αυτά τα k+1 έτσι που κάθε υποσύνολο μεγέθους k εμφανίζεται στο L k. Υπολογίζεται η στήριξη αυτών και επιλέγονται μόνο εκείνα με στήριξη >mins Αν το είναι L k+1 είναι κενό τοτε τερματίζεται διαφορετικά επανάληψη με k=k+1.

76 Ο apriori αλγόριθμος C k : υποψήφιο υποσύνολο αντικειμένων μεγέθους k L k : συχνό υποσύνολο αντικειμένων μεγέθους k L 1 ={συχνά αντικείμενα} for (k=1; L k!= ; k++1} do C k+1 υποψήφια που δημιουργήθηκαν από το L k για κάθε δοσοληψία t στη βάση δεδομένων αύξησε τον μετρητή όλων των υποψήφιων στο C k+1 που περιέχονται στο t L k+1 : τα υποψήφια του C k+1 k L k ;

77 Προβλήματα Πολλαπλά περάσματα της βάσης δεδομένων δοσοληψιών Τεράστιος Αριθμός υποψηφίων Τεράστιος όγκος εργασίας για καταμέτρηση των υποψηφίων

78 Βελτίωση του apriori Ελάττωση του πλήθους των περασμάτων της βάσης δεδομένων των δοσοληψιών Συρρίκνωση του πλήθους των υποψηφίων Διευκόλυνση στο μέτρημα των υποψηφίων.

79 Ελαχιστοποίηση του πλήθους των περασμάτων ABCD ABC ABD ACD BCD AB AC BC AD BD CD Μόλις τα A και D βγουν συχνά μπορεί να αρχίσει το AD Μόλις βγουν όλα τα υποσύνολα 2 του BCD μπορεί να αρχίσει το μέτρημα του BCD Δοσοληψίες A A B C D A priori {}

80 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Ακολουθιακά πρότυπα (sequential patterns) Ένα σύνολο ακολουθιών: C1, C2, Κάθε ακολουθία C είναι μία λίστα δοσοληψιών: C(Τ1, Τ2, ) ΚάθεδοσοληψίαΤαφοράμίαλίστααντικειμένων(τιμών): Τ(i 1, i 2, ) Εύρεση ακολουθιακών προτύπων Ένα ακολουθιακό πρότυπο είναι μία λίστα συνόλων: (s1,s2,.) Κάθε σύνολο s περιέχει κάποια αντικείμενα από μία δοσοληψία: s=(i k, i l,..) Τα σύνολα είναι διατεταγμένα μέσα στηλίσταμεβάσητηχρονικήδιάταξη των δοσοληψιών Εύρεση ακολουθιακών προτύπων με βάση ένα ελάχιστο στήριξης (support) ως προς τις ακολουθίες

81 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Ακολουθιακά πρότυπα (sequential patterns) Παράδειγμα: τι είδους αγορές κάνουν οι πελάτες ενός εκδοτικού οίκου; Κάθε πελάτης αντιπροσωπεύεται από μία ακολουθία αγορών Κάθε αγορά (δοσοληψία) αφορά ένα σύνολο βιβλίων Εύρεση ακολουθιακών προτύπων Ένα ακολουθιακό πρότυπο είναι: { («Πόλεμος και Ειρήνη»), («Ιστορικά», «Απομνημονεύματα») } με ποσοστό στήριξης 55%

82 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Ακολουθιακά πρότυπα (sequential patterns) Άλλα παραδείγματα εφαρμογών: Εμπορικές εφαρμογές με στόχο την ικανοποίηση των πελατών Έρευνα στην ιατρική

83 Τι σημαίνει εξόρυξη ακολουθιακών προτύπων; Δοθέντος ενός συνόλου ακολουθιών να βρεθεί το πήρες σύνολο των συχνών υποακακολουθιών. Μια ακολουθιακή βάση Μια ακολουθία : < (ef) (ab) (df) c b > SID sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> Μια καταχώρηση μπορεί να περιέχει ένα σύνολο στοιχείων. Τα στοιχεία δεν είναι ταξινομημένα. <a(bc)dc> είναι μια υποακολουθία της <a(abc)(ac)d(cf)> Δοθείσης μιας ελάχιστης στήριξης min_sup =2, το <(ab)c> είναι ένα ακολουθιακό πρότυπο

84 Προβλήματα με την εξόρυξη ακολουθιακών προτύπων Τοπλήθοςτωνακολουθιακώνπροτύπωνπουμπορείνα κρύβονται σε μια βάση δεδομένων είναι τεράστιο. Ένας αλγόριθμος εξόρυξης θα πρέπει:1)να βρίσκει όλα τα ακολουθιακά πρότυπα με ελάχιστη στήριξη, 2)να είναι αποτελεσματικός (ελάχιστα περάσματα της βάσης δεδομένων)και 3) να μπορεί να ενσωματώνει περιορισμούς που επιβάλλει ο χρήστης.

85 Βασική ιδιότητα ακολουθιακών προτύπων (apriori) Αν μια ακολουθία S δεν είναι συχνή τότε οι υπέρακολουθίες της S δεν είναι συχνές. ID Ακολουθία 10 <(bd),c,b,(ac)> 20 <(bf)(ce)b(fg)> 30 <(ah)(bf)abf> 40 <(bc)(ce)d> 50 <a(bd)bcb(ade)> Αν το <hb> δεν είναι συχνό τότε δεν είναι και τα <hab> και <(ah)b>. Υποθέτοντας ελάχιστη στήριξη 2

86 Βασικός Αλγόριθμος με προτεραιότητα πλάτους (Breadth First) L=1 (while result L!=null) Δημιουργία των υποψήφιων Περικοπή (prune) Έλεγχος L=L+1

87 Εύρεση ακολουθιακών προτύπων μήκους 1 Αρχικοί υποψήφιοι: όλες οι ακολουθίες μήκους 1 <a>, <b>, <c>, <d>, <e>, <f>, <g>, <h> Σάρωση της βάσης δεδομένων μια φορά, υπολογισμός της στήριξης για τα υποψήφια min_sup =2 Seq. ID Ακολουθία <(bd)cb(ac)> <(bf)(ce)b(fg)> <(ah)(bf)abf> <(be)(ce)d> <a(bd)bcb(ade)> Υποψ Στηρ <a> 3 <b> 5 <c> 4 <d> 3 <e> 3 <f> 2 <g> 1 <h> 1

88 <(bd)cba> <abba> <(bd)bc> Δεν ξεπερνούν το κατώφλι Δεν βρίσκονται στην βάση Πέρασμα 3 υποψ. 46 μεγέθους δεν είναι στη βάση <abb> <aab> <aba> <baa> <bab> Πέρασμα 2 υποψ. 51 μεγέθους δεν είναι στη βάση Πέρασμα 1 υποψ. 8 μένουν 6 <aa> <ab> <af> <ba> <bb> <ff> <(ab)> <(ef)> <a> <b> <c> <d> <e> <f> <g> <h> ID Ακολουθία 10 <(bd),c,b,(ac)> 20 <(bf)(ce)b(fg)> 30 <(ah)(bf)abf> 40 <(bc)(ce)d> 50 <a(bd)bcb(ade)>

89 Δημιουργία υποψηφίων μήκους-2 51 υποψήφια μεγέθους-2 <a> <b> <c> <d> <e> <f> <a> <aa> <ab> <ac> <ad> <ae> <af> <b> <ba> <bb> <bc> <bd> <be> <bf> <c> <ca> <cb> <cc> <cd> <ce> <cf> <d> <da> <db> <dc> <dd> <de> <df> <e> <ea> <eb> <ec> <ed> <ee> <ef> <f> <fa> <fb> <fc> <fd> <fe> <ff> <a> <b> <c> <d> <e> <f> <a> <(ab)> <(ac)> <(ad)> <(ae)> <(af)> <b> <(bc)> <(bd)> <(be)> <(bf)> <c> <(cd)> <(ce)> <(cf)> <d> <(de)> <(df)> <e> <(ef)> <f> Χωρίς την Apriori ιδιότητα, 8*8+8*7/2=92 υποψήφια Ο Apriori περικόπτει 44.57% υποψήφια

90 Ανάπτυξη Προτύπου (prefixspan) Προθεματική (Prefix) και μεταθεματική (Suffix) προνολές τα <a>, <aa>, <a(ab)> and <a(abc)> είναι prefixes της ακολουθίας <a(abc)(ac)d(cf)> Όταν δίδεται η ακολουθία <a(abc)(ac)d(cf)> Prefix <a> <aa> <ab> Suffix (με βάση την Prefix προβολή) <(abc)(ac)d(cf)> <(_bc)(ac)d(cf)> <(_c)(ac)d(cf)>

91 Παράδειγμα Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> Παράδειγμα ( min_sup=2): Prefix <a> <b> <c> <d> <e> <f> Sequential Patterns <a>,<aa>,<ab><a(bc)>,<a(bc)a>,<aba>,<abc>,<(ab)>,<(ab)c>,<(a b)d>,<(ab)f>,<(ab)dc>,<ac>,<aca>,<acb>,<acc>,<ad>,<adc>,<af> <b>, <ba>, <bc>, <(bc)>, <(bc)a>, <bd>, <bdc>,<bf> <c>, <ca>, <cb>, <cc> <d>,<db>,<dc>, <dcb> <e>,<ea>,<eab>,<eac>,<eacb>,<eb>,<ebc>,<ec>,<ecb>,<ef>,<efb >,<efc>,<efcb> <f>,<fb>,<fbc>, <fc>, <fcb>

92 PrefixSpan Βήμα 1: Εύρεση των ακολουθιακών προτύπων μήκους 1 <a>:4, <b>:4, <c>:4, <d>:3, <e>:3, <f>:3 Βήμα 2: Διαχωρισμός του χώρου αναζήτησης έξη υποσύνολα σύμφωνα με τα έξη προθέματα; στήριξη πρότυπο Βήμα 3: Βρες τα υποσύνολα των ακολουθιακών προτύπων; Κατασκευή των αντίστοιχων προβολών της βάσης και αναδρομική εξόρυξη κάθεμιας.

93 Παράδειγμα Sequence_id Sequence Projected(suffix) databases 10 <a(abc)(ac)d(cf)> <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> <(ef)(ab)(df)cb> 40 <eg(af)cbc> <eg(af)cbc> Prefix Projected(suffix) databases Sequential Patterns <a> <(abc)(ac)d(cf)>, <(_d)c(bc)(ae)>, <(_b)(df)cb>, <(_f)cbc> <a>,<aa>,<ab><a(bc)>,<a(bc)a>, <aba>,<abc>,<(ab)>,<(ab)c>,<(ab )d>,<(ab)f>,<(ab)dc>,<ac>,<aca>,<acb>,<acc>,<ad>,<adc>,<af>

94 Παράδειγμα Εύρεση των ακολουθιακών προτύπων με πρόθεμα <a>: 1. Σάρωση της βάσης S. Προβάλλονται οι ακολουθίες στην S που περιέχουν <a> για να σχηματισθεί η <a>-προβολή. 2. Σάρωση της <a>-προβολής δίνει 6 ακολουθιακά πρότυπα μήκους-2 με πρόθεμα το <a> : <a>:2, <b>:4, <(_b)>:2, <c>:4, <d>:2, <f>:2 <aa>:2, <ab>:4, <(ab)>:2, <ac>:4, <ad>:2, <af>:2 3. Αναδρομικά, μπορούν να διαμερισθούν τα ακολουθιακά πρότυπα με πρόθεμα το <a> σε 6 υποσύνολα. Κατασκευάζονται οι αντίστοιχες προβολέςκαι γίνεται εξόρυξη στην κάθεμια. δηλ. η <aa>-προβολή έχει δύο ακολουθίες : <(_bc)(ac)d(cf)> και <(_e)>.

95 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Ακολουθιακά πρότυπα (sequential patterns) Βάση Δεδομένων Μία βάση χρονικών ακολουθιών Ομαδοποίηση χρονικών ακολουθιών t Ομαδοποίηση χρονικών ακολουθιών (time-series clustering) Εύρεση παρόμοιων ακολουθιών ή ακολουθιών που μοιάζουν με μία δοσμένη

96 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Ακολουθιακά πρότυπα (sequential patterns) Παραδείγματα εφαρμογών: Εύρεση προμηθειών με παρόμοιες κινήσεις Παρακολούθηση πορείας ανταγωνιστών Ομαδοποίηση χρονικών ακολουθιών (time-series clustering)

97 Οι βασικές δομές πολλών βιολογιών (μικρο)μορίων είναι ακολουθίες γραμμάτων παρά την 3D δομή τους. Ηπρωτεΐνη έχει20 αμινοξέα. Το DNA έχει ένα αλφάβητο από 4 βάσεις {A, T, G, C} Το RNA έχει ένα αλφάβητο {A, U, G, C} Κείμενα Ημερολόγια δοσοληψιών Ακολουθίες σημάτων Δομικές ομοιότητες σε επίπεδο ακολουθίας συχνά δείχνουν ψηλή μεγάλη πιθανότητα να σχετίζονται λειτουργικά/σημασιολογικά.

98 Περιγραφή του Προβλήματος Η ομαδοποίηση που βασίζεται σε δομικά χαρακτηριστικά μπορεί να αποτελέσει ισχυρό εργαλείο για διαχωρισμό ακολουθιών σε διαφορετικές λειτουργικές κατηγορίες. Ο στόχος είναι να δημιουργηθεί μια ομαδοποίηση ακολουθιών ώστε οι ακολουθίες σε κάθε ομάδα να έχουν κοινά χαρακτηριστικά. Το αποτέλεσμα μπορεί να αποκαλύψει άγνωστες δομικές και λειτουργικές κατηγορίες που μπορεί να οδηγήσουν σε καλύτερη κατανόηση του χώρου. Πρόκληση: πως μετριέται η δομική ομοιότητα?

99 Μέτρα Ομοιότητας Απόσταση στοιχείων: Υπολογιστικά ασύμφορη είναι καλή για την βέλτιστη σειρά ενώ αγνοεί άλλες τοπικές που συχνά αντιπροσωπεύουν σημαντικά χαρακτηριστικά κοινά σε ζεύγη ακολουθιών. Προσέγγιση που βασίζεται σε q-gram : Αγνοεί την ακολουθιακή συσχέτιση (π.χ., διάταξη, εξάρτηση, κλπ.) μεταξύ των q-grams Κρυμμένο μοντέλο Markov: Αντιλαμβάνεται μερικές συσχετίσεις και στατιστικές χαμηλής τάξης Ευάλωτο σε θόρυβο και κακές τιμές παραμέτρων Υπολογιστικά μη αποτελεσματικό

100 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ ΕΡΓΑΛΕΙΑ Προϊόν BusinessMiner (Business Objects) DBMiner(SFU) Kepler (GMD) Mineset (SGI) IND (Nasa) Intelligent Miner (IBM) Brute (Univ. of Washington) MSBN (Microsoft) Διαδικασία Πρόβλεψη, Κατηγοριοποίηση, Συσχετίσεις Κατηγοριοποίηση, Πρόβλεψη, Συσχετίσεις, Ομαδοποίηση Κατηγοριοποίηση, Πρόβλεψη Κατηγοριοποίηση, Συσχετίσεις Πρόβλεψη, Συσχετίσεις

101 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ ΕΡΓΑΛΕΙΑ Υλοποίηση συνδυασμών διαδικασιών Off-line επεξεργασία δεδομένων Έλλειψη ολοκλήρωσης με την τεχνολογία των βάσεων Βελτίωση διασύνδεσης με τον χρήστη

102 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ ΕΡΓΑΛΕΙΑ ΣΥΝΟΨΗ Τομέας εξελισσόμενος Ερευνητικό και εμπορικό ενδιαφέρον Ολοκλήρωση προσεγγίσεων από διαφορετικούς τομείς

103 Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ ΕΡΓΑΛΕΙΑ ΣΥΝΟΨΗ Αναγνώριση νέων διαδικασιών εξόρυξης Εύρεση αρχιτεκτονικής για την εξόρυξη δεδομένων Προσαρμογή αλγορίθμων για μεγάλες βάσεις Ολοκλήρωση με συστήματα βάσεων δεδομένων Επέκταση συστημάτων βάσεων δεδομένων Βελτίωση εργαλείων Ανάπτυξη γλωσσών εξόρυξης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 12: Κανόνες Συσχέτισης Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Ανάλυση Συσχέτισης IΙ

Ανάλυση Συσχέτισης IΙ Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων. Βάσεις Δεδομένων ΙΙ Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων Δ. Χριστοδουλάκης - Α. Φωκά Τμήμα Μηχανικών Η/Υ & Πληροφορικής - Εαρινό Εξάμηνο 2007 Εισαγωγή Εξόρυξη Δεδομένων Ανακάλυψη νέων πληροφοριών σε

Διαβάστε περισσότερα

Ο Αλγόριθμος FP-Growth

Ο Αλγόριθμος FP-Growth Ο Αλγόριθμος FP-Growth Με λίγα λόγια: Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου Το δέντρο μοιάζει με προθεματικό δέντρο - prefix tree (trie)

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

ΗΥ360 Αρχεία και Βάσεις Δεδομένων

ΗΥ360 Αρχεία και Βάσεις Δεδομένων ΗΥ360 Αρχεία και Βάσεις Δεδομένων Φροντιστήριο Συναρτησιακές Εξαρτήσεις Αξιώματα Armstrong Ελάχιστη Κάλυψη Συναρτησιακές Εξαρτήσεις Τι είναι : Οι Συναρτησιακές εξαρτήσεις είναι περιορισμοί ακεραιότητας

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Σχεδίαση και Ανάλυση Αλγορίθμων

Σχεδίαση και Ανάλυση Αλγορίθμων Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 4.0 Επιλογή Αλγόριθμοι Επιλογής Select και Quick-Select Σταύρος Δ. Νικολόπουλος 2016-17 Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros

Διαβάστε περισσότερα

Σχεδίαση & Ανάλυση Αλγορίθμων

Σχεδίαση & Ανάλυση Αλγορίθμων Σχεδίαση & Ανάλυση Αλγορίθμων Ενότητα 3 Αλγόριθμοι Επιλογής Σταύρος Δ. Νικολόπουλος Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros Αλγόριθμοι Επιλογής Γνωρίζουμε

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 1: Εισαγωγή Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής Data Mining: Στοχεύοντας στους σωστούς πελάτες To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Σχεδίαση Αλγορίθμων -Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

Σχεδίαση Αλγορίθμων -Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο Πολλαπλασιασμός μεγάλων ακεραίων (1) Για να πολλαπλασιάσουμε δύο ακεραίους με n 1 και n 2 ψηφία με το χέρι, θα εκτελέσουμε n 1 n 2 πράξεις πολλαπλασιασμού Πρόβλημα ρβημ όταν έχουμε πολλά ψηφία: A = 12345678901357986429

Διαβάστε περισσότερα

Αλγόριθμοι και Πολυπλοκότητα

Αλγόριθμοι και Πολυπλοκότητα Αλγόριθμοι και Πολυπλοκότητα Διαίρει και Βασίλευε Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Διαίρει και Βασίλευε Divide and Conquer Η τεχνική διαίρει και βασίλευε αναφέρεται

Διαβάστε περισσότερα

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Η συνολική εικόνα Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

auth Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

auth Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο Σχεδίαση Αλγορίθμων Διαίρει και Βασίλευε http://delab.csd.auth.gr/courses/algorithms/ auth 1 Διαίρει και Βασίλευε Η γνωστότερη ρημέθοδος σχεδιασμού αλγορίθμων: 1. Διαιρούμε το στιγμιότυπο του προβλήματος

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις

2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις 2η ΔΙΑΛΕΞΗ 1 Συναρτησιακές εξαρτήσεις Συναρτησιακές εξαρτήσεις 2 Θέματα Ανάπτυξης Έννοια και ορισμός των συναρτησιακών εξαρτήσεων Κανόνες του Armstrong Μη αναγώγιμα σύνολα εξαρτήσεων Στόχος και Αποτελέσματα

Διαβάστε περισσότερα

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για 2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για τον καθορισμό του καλύτερου υποσυνόλου από ένα σύνολο

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Δυναμικός Προγραμματισμός

Δυναμικός Προγραμματισμός Δυναμικός Προγραμματισμός Επιμέλεια διαφανειών: Δ. Φωτάκης Τροποποιήσεις: Α. Παγουρτζής Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Διωνυμικοί Συντελεστές Διωνυμικοί

Διαβάστε περισσότερα

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, Δίαβλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 14-1

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, Δίαβλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 14-1 Δίαβλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 14-1 Κεφάλαιο 14 Δομές Ευρετηρίων για Αρχεία Copyright 2007 Ramez Elmasri and Shamkant B. Navathe Ελληνική Έκδοση, Διαβλος, Επιμέλεια Μ.Χατζόπουλος Θα μιλήσουμε

Διαβάστε περισσότερα

Ταξινόμηση με συγχώνευση Merge Sort

Ταξινόμηση με συγχώνευση Merge Sort Ταξινόμηση με συγχώνευση Merge Sort 7 2 9 4 2 4 7 9 7 2 2 7 9 4 4 9 7 7 2 2 9 9 4 4 Πληροφορικής 1 Διαίρει και Βασίλευε Η μέθοδος του «Διαίρει και Βασίλευε» είναι μια γενική αρχή σχεδιασμού αλγορίθμων

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση Διαφάνεια 16-1

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση Διαφάνεια 16-1 Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση Διαφάνεια 16-1 Κεφάλαιο 20 Φυσικός Σχεδιασμός Βάσεων Δεδομένων και Ρύθμιση Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

Εισαγωγή στην Ανάλυση Αλγορίθμων

Εισαγωγή στην Ανάλυση Αλγορίθμων Εισαγωγή στην Ανάλυση Αλγορίθμων (4) Μεθοδολογία αναδρομικών σχέσεων (Ι) Με επανάληψη της αναδρομής Έστω όπου r και a είναι σταθερές. Βρίσκουμε τη σχέση που εκφράζει την T(n) συναρτήσει της T(n-) την T(n)

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Περιεχόμενα. Περιεχόμενα

Περιεχόμενα. Περιεχόμενα Περιεχόμενα xv Περιεχόμενα 1 Αρχές της Java... 1 1.1 Προκαταρκτικά: Κλάσεις, Τύποι και Αντικείμενα... 2 1.1.1 Βασικοί Τύποι... 5 1.1.2 Αντικείμενα... 7 1.1.3 Τύποι Enum... 14 1.2 Μέθοδοι... 15 1.3 Εκφράσεις...

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη Εσωτερική Μνήμη Κρυφή Μνήμη (Cache) μεγαλύτερη χωρητικότητα Καταχωρητές (Registers) Κεντρική Μονάδα (CPU) μεγαλύτερη ταχύτητα Πολλές σημαντικές εφαρμογές διαχειρίζονται

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 2: Δομικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Οι πράξεις της συνένωσης. Μ.Χατζόπουλος 1

Οι πράξεις της συνένωσης. Μ.Χατζόπουλος 1 Οι πράξεις της συνένωσης Μ.Χατζόπουλος 1 ΠΡΟΜΗΘΕΥΤΗΣ (ΠΡΜ) Κ_Προμ Π_Ονομα Είδος Πόλη 22 Ανδρέου 7 Αθήνα 31 Πέτρου 8 Πάτρα 28 Δέδες 12 Λάρισα 58 Παππάς 7 Αθήνα ΠΡΟΙΟΝ (ΠΡ) Κ_Πρ Πρ_Ονομα Χρώμα Βάρος Π35

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Πληροφορική 2. Αλγόριθμοι

Πληροφορική 2. Αλγόριθμοι Πληροφορική 2 Αλγόριθμοι 1 2 Τι είναι αλγόριθμος; Αλγόριθμος είναι ένα διατεταγμένο σύνολο από σαφή βήματα το οποίο παράγει κάποιο αποτέλεσμα και τερματίζεται σε πεπερασμένο χρόνο. Ο αλγόριθμος δέχεται

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε

Διαβάστε περισσότερα

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort 1, c 3, a 3, b 7, d 7, g 7, e B 0 1 3 4 5 6 7 8 9 1 BucketSort (Ταξινόμηση Κάδου) - Αρχικά θεωρείται ένα κριτήριο κατανομής με βάση το οποίο

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 9: Κωδικοποίηση εντροπίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 9: Κωδικοποίηση εντροπίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 9: Κωδικοποίηση εντροπίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση

Διαβάστε περισσότερα

ΕΠΙΤΡΟΠΗ ΔΙΑΓΩΝΙΣΜΩΝ 27 η Ελληνική Μαθηματική Ολυμπιάδα "Ο Αρχιμήδης" ΣΑΒΒΑΤΟ, 27 ΦΕΒΡΟΥΑΡΙΟΥ 2010

ΕΠΙΤΡΟΠΗ ΔΙΑΓΩΝΙΣΜΩΝ 27 η Ελληνική Μαθηματική Ολυμπιάδα Ο Αρχιμήδης ΣΑΒΒΑΤΟ, 27 ΦΕΒΡΟΥΑΡΙΟΥ 2010 ΕΛΛΗΝΙΚΗ ΜΑΘΗΜΑΤΙΚΗ ΕΤΑΙΡΕΙΑ Πανεπιστημίου (Ελευθερίου Βενιζέλου 34 106 79 ΑΘΗΝΑ Τηλ. 361653-3617784 - Fax: 364105 e-mail : info@hms.gr www.hms.gr GREEK MATHEMATICAL SOCIETY 34, Panepistimiou (Εleftheriou

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Δυναμικός Προγραμματισμός

Δυναμικός Προγραμματισμός Δυναμικός Προγραμματισμός Επιμέλεια διαφανειών: Δ. Φωτάκης Τροποποιήσεις /προσθήκες: Α. Παγουρτζής Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Διωνυμικοί Συντελεστές

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου Συμπίεση Η συμπίεση δεδομένων ελαττώνει το μέγεθος ενός αρχείου : Εξοικονόμηση αποθηκευτικού χώρου Εξοικονόμηση χρόνου μετάδοσης Τα περισσότερα αρχεία έχουν πλεονασμό στα δεδομένα τους Είναι σημαντική

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ Ενότητα 4: Αναδρομικές σχέσεις και ανάλυση αλγορίθμων Μαρία Σατρατζέμη Τμήμα Εφαρμοσμένης Πληροφορικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ... ΠΕΡΙΕΧΟΜΕΝΑ ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...................................... 11 ΠΡΟΛΟΓΟΣ..........................................................15 1. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΝΑΛΥΤΙΚΗ, ΣΤΑ ΠΟΣΟΤΙΚΑ

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος ΗΥ-360 Αρχεια και Βασεις εδοµενων, Τµηµα Επιστηµης Υπολογιστων, Πανεπιστηµιο Κρητης Συναρτησιακές Εξαρτήσεις Βάρσος Κωνσταντίνος 24 Νοεµβρίου 2017 Ορισµός 1. Μια συναρτησιακή εξάρτηση µεταξύ X και Y συµβολίζεται

Διαβάστε περισσότερα

Σχεδιαση Αλγοριθμων -Τμημα Πληροφορικης ΑΠΘ - Κεφαλαιο 9ο

Σχεδιαση Αλγοριθμων -Τμημα Πληροφορικης ΑΠΘ - Κεφαλαιο 9ο Σχεδίαση Αλγορίθμων Άπληστοι Αλγόριθμοι http://delab.csd.auth.gr/~gounaris/courses/ad 1 Άπληστοι αλγόριθμοι Προβλήματα βελτιστοποίησης ηςλύνονται με μια σειρά επιλογών που είναι: εφικτές τοπικά βέλτιστες

Διαβάστε περισσότερα

υναμικός Προγραμματισμός

υναμικός Προγραμματισμός υναμικός Προγραμματισμός ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο ιωνυμικοί Συντελεστές ιωνυμικοί

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA) ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα 005 - Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Coponent Analysis, PCA) καθ. Βασίλης Μάγκλαρης aglaris@netode.ntua.gr www.netode.ntua.gr

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Ηλίας Κ. Σάββας Εξόρυξη Δεδομένων Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, Μετατροπή δεδομένων σε ΠΛΗΡΟΦΟΡΙΑ, Πολλά δεδομένα αποθηκευμένα

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

Ομαδοποίηση Ι (Clustering)

Ομαδοποίηση Ι (Clustering) Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Τμήμα Μηχανικών Πληροφορικής ΤΕ Δυϊκότητα. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 1/12/2016

Τμήμα Μηχανικών Πληροφορικής ΤΕ Δυϊκότητα. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 1/12/2016 Τμήμα Μηχανικών Πληροφορικής ΤΕ 2016-2017 Δυϊκότητα Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα τελευταία ενημέρωση: 1/12/2016 1 Το δυϊκό πρόβλημα Για κάθε πρόβλημα Γραμμικού Προγραμματισμού υπάρχει

Διαβάστε περισσότερα