ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες"

Transcript

1 ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες

2 Αλγόριθμοι Δεδομένα input Αλγόριθμοι Εξόρυξης Πληροφορίας Εξαγόμενα output Μέχρι τώρα μελετήθηκε το σύνολο των συνοδευτικών προ και μετά της μάθησης διαδικασιών Η κατανόησή τους επιτρέπει τη διείσδυση στον πυρήνα της εξόρυξης πληροφορίας, τους αλγορίθμους μάθησης 2

3 Πρώτα τα βασικά Πολύ συχνά, απλοί κανόνες επιτυγχάνουν μη αναμενόμενα υψηλή ακρίβεια Αίτιο η απλοϊκή δομή που συχνά υποβόσκει πίσω από πραγματικάσύνολαδεδομένων Κατά συνέπεια ένα και μόνο χαρακτηριστικό είναι συχνά ικανό να διακρίνει αποτελεσματικά την τάξη ενός παραδείγματος Σε κάθε περίπτωση, συνίσταται αρχικά ο πειραματισμός με τις πλέον απλές των μεθόδων Για το λόγο αυτό, παραθέτονται αρχικά οι κυριότερες αυτών 3

4 Επαγωγή απλοϊκών κανόνων Συλλογισμός: Δημιουργία κανόνων ελέγχου ενός και μόνο χαρακτηριστικού 1R: αλγόριθμος εκμάθησης δένδρου απόφασης ενός επιπέδου Δημιουργία κανόνων ελέγχου ενός ξεχωριστού χαρακτηριστικού Βασική έκδοση (ονομαστικά χαρακτηριστικά) Ένας κλάδος για κάθε τιμή Κάθε κλάδος εκχωρεί την τάξη με τη μεγαλύτερη συχνότητα Τιμή σφάλματος: ποσοστό υποδειγμάτων που δεν ανήκουν στην πλειοψηφούσα τάξη του αντίστοιχου κλάδου Επιλογή χαρακτηριστικού με την μικρότερη τιμή σφάλματος 4

5 Ψευδοκώδικας 1R For each attribute, For each value of the attribute, make a rule as follows: count how often each class appears find the most frequent class make the rule assign that class to this attributevalue Calculate the error rate of the rules Choose the rules with the smallest error rate Οι άγνωστες τιμές (missing values) θεωρούνται ως ξεχωριστή τιμή του χαρακτηριστικού Αριθμητικά χαρακτηριστικά: Διακριτοποίηση! Με ελαχιστοποίηση του συνολικού σφάλματος Αποφυγή υπερπροσαρμογής (overfitting) μέσω ενίσχυσης προτεραιότητας ελαχίστου αριθμού υποδειγμάτων πλειοψηφούσας τάξης ανά διάστημα 5

6 1R για το πρόβλημα καιρού Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No Attribute Rules Errors Total errors Outlook Sunny No 2/5 4/14 Overcast Yes 0/4 Rainy Yes 2/5 Temp Hot No* 2/4 Mild Yes 2/6 Cool Yes 1/4 5/14 Humidity High No 3/7 4/14 Normal Yes 1/7 Windy False Yes 2/8 5/14 True No* 3/6 * ισοπαλία 6

7 Αριθμητικά χαρακτηριστικά με αποφυγή υπερπροσαρμογής Outlook Temperature Humidity Windy Play Sunny False No Sunny True No Overcast Attribute False Rules Yes Errors Total errors Rainy OutlookFalse Sunny Yes No 2/5 4/14 Overcast Yes 0/4 Rainy Yes 2/5 Temperature 77.5 Yes 3/10 5/14 > 77.5 No* 2/4 Humidity 82.5 Yes 1/7 3/14 > 82.5 and 95.5 No 2/6 > 95.5 Yes 0/1 Windy False Yes 2/8 5/14 True No* 3/6 7

8 Σύνοψη περί 1R Η μέθοδος δημοσιεύτηκε το 1993 από τον Holte Πειραματική αποτίμηση της μεθόδου σε 16 κλασσικά σύνολα δεδομένων (με χρήση CV) Ο βέλτιστος ελάχιστος αριθμός υποδειγμάτων προέκυψε πειραματικά ίσος με 6 Η απόδοση των κανόνων της 1R ήταν σχεδόν ίση με εκείνη περισσότερο πολύπλοκων δένδρων απόφασης Ηπροσέγγιση Πρώτα τα βασικά αποδίδει! Αρχικά, προσδιορισμός τυπικής απόδοσης με χρήση απλοϊκών τεχνικών Στη συνέχεια, πειραματισμός με περισσότερο εξεζητημένες μεθόδους εκμάθησης & σύγκριση της απόδοσης τους με την προηγούμενα καθορισμένη τυπική τιμή 8

9 Κατασκευή δένδρων απόφασης Στρατηγική: από πάνω προς τα κάτω (top down) Επαναληπτική υλοποίηση της μεθόδου διαίρει & βασίλευε (divide-and-conquer) Επιλογή χαρακτηριστικού αρχικού κόμβου (ρίζας) Δημιουργία κλάδων για κάθε πιθανή τιμή του χαρακτηριστικού Διάσπαση υποδειγμάτων σε υποσύνολα Ένα για κάθε κλάδο που εκτείνεται από τη ρίζα Επανάληψη των παραπάνω για κάθε κλάδο με χρήση μόνο του υποσυνόλου των υποδειγμάτων κάθε κλάδου Ολοκλήρωση όταν όλα τα υποδείγματα ανήκουν στην ίδια τάξη 9

10 Επιλογή χαρακτηριστικού 10

11 Κριτήριο επιλογής χαρακτηριστικού Ποιο χαρακτηριστικό θα επιλεγεί? Στόχος: δημιουργία μικρότερου δυνατού δένδρου Μέθοδος: επιλογή χαρακτηριστικού που δημιουργεί τα περισσότερο ομοιογενή υποσύνολα κλάδων Σύνηθες κριτήριο ανομοιογένειας: κέρδος πληροφορίας (διάλεξη03) Το κέρδος πληροφορίας αυξάνεται με την αύξηση της μέσης ομοιογένειας των υποσυνόλων Μέθοδος: επιλογή χαρακτηριστικού που δίδει μέγιστο κέρδος πληροφορίας 11

12 Παράδειγμα: χαρακτηριστικό Outlook Outlook = Sunny : info([2,3] ) = entropy(2/5,3/5) = 2 / 5log(2 / 5) 3/ 5log(3/ 5) = bits Outlook = Overcast : info([4,0] ) = entropy(1,0) = 1log(1) 0log(0) = 0 bits Πρόβλημα: δεν ορίζεται! Outlook = Rainy : info([3,2] ) = entropy(3/5,2/5) = 3/ 5log(3/ 5) 2 / 5log(2 / 5) = bits Κέρδος πληροφορίας με την εισαγωγή κόμβου για το χαρακτηριστικό: info([3,2],[4,0],[3,2]) = (5/14) (4 /14) 0 + (5/14) = bits 12

13 Υπολογισμός κέρδους πληροφορίας Κέρδος πληροφορίας: (απαιτούμενος για την περιγραφή των υποδειγμάτων) όγκος πληροφορίας πριν τη διάσπαση όγκος πληροφορίας μετά τη διάσπαση Κέρδος πληροφορίας ανά χαρακτηριστικό στα δεδομένα καιρού: gain(outlook ) = bits gain(outlook ) = info([9,5]) info([2,3],[4,0],[3,2]) = = bits gain(temperature ) gain(humidity ) gain(windy ) = bits = bits = bits 13

14 Περαιτέρω διάσπαση gain(temperature ) gain(humidity ) gain(windy ) = bits = bits = bits 14

15 Τελική μορφή δένδρου απόφασης Σημείωση: η απόλυτη ομοιογένεια των υποδειγμάτων όλων των φύλλων δεν είναι αναγκαία Συχνά όμοια υποδείγματα ανήκουν σε διαφορετική τάξη η διάσπαση διακόπτεται όταν τα δεδομένα δεν δύναται να διασπασθούν περαιτέρω 15

16 Χαρακτηριστικά με μεγάλο αριθμό τιμών Πρόβλημα: χαρακτηριστικά με μεγάλο αριθμό τιμών (ακραίο παράδειγμα: κωδικός ID) Η ομοιογένεια των υποσυνόλων είναι περισσότερο πιθανή για μεγάλο αριθμό τιμών Το κριτήριο κέρδους πληροφορίας μεροληπτεί υπέρ της επιλογής χαρακτηριστικών με μεγάλο αριθμό τιμών Πιθανή συνέπεια η υπερπροσαρμογή (επιλογή υποβέλτιστου χαρακτηριστικού) 16

17 Παράδειγμα: Δεδομένα καιρού με κωδικό ID ID code Outlook Temp. Humidity Windy Play A Sunny Hot High False No B Sunny Hot High True No C D E F G H I J K L M N Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No 17

18 Τμήμα δένδρου για το χαρακτηριστικό κωδικού ID Εντροπία διαχωρισμού: info("id code") = info([0,1])+ info([0,1])+ + info([0,1]) = 0 bits Το κέρδος πληροφορίας μεγιστοποιείται για το χαρακτηριστικό του κωδικού ID (0.940 bits) Άλλο κριτήριο; 18

19 Λόγος κέρδους (gain ratio) Λόγος κέρδους: τροποποίηση του κέρδους πληροφορίας, αντιμετωπίζει το πρόβλημα μεροληψίας Υπολογίζει τον αριθμό & το μέγεθος του υποσυνόλου των υποδειγμάτων κάθε κλάδου για την επιλογή χαρακτηριστικού Διορθώνει το κέρδος πληροφορίας λαμβάνοντας υπ όψιν την εγγενή πληροφορία (intrinsic information) της διάσπασης Εγγενής πληροφορία: εντροπία της κατανομής των υποδειγμάτων σε κλάδους Απαιτούμενος όγκος πληροφορίας για την περιγραφή του κλάδου στον οποίο ανήκει το υπόδειγμα (πολλοί κλάδοι μεγάλος όγκος) 19

20 Υπολογισμός λόγου κέρδους Παράδειγμα: εγγενής πληροφορία κωδικού ID Ορισμός λόγου κέρδους: Αντιστρόφως ανάλογο της εγγενής πληροφορίας Παράδειγμα: info([1,1,,1) =14 ( 1/14 log1/14) = bits gain_ratio ("Attribute") = gain("attribute") intrinsic_info("attribute") 0.940bits gain_ratio ("ID_code") = = bits 20

21 Λόγοι κέρδους γιαταδεδομένακαιρού Outlook Temperature Info: Info: Gain: Gain: Split info: info([5,4,5]) Split info: info([4,6,4]) Gain ratio: 0.247/1.577 Humidity Gain ratio: 0.029/1.362 Windy Info: Info: Gain: Gain: Split info: info([7,7]) Split info: info([8,6]) Gain ratio: 0.152/ Gain ratio: 0.048/

22 Περισσότερα περί λόγου κέρδους Το χαρακτηριστικό Outlook εξακολουθεί να υπερτερεί των άλλων τριών Ωστόσο, ο κωδικός ID φέρει το μέγιστο λόγο κέρδους Τυπική διόρθωση: ad hoc έλεγχος για την αποφυγή διαχωρισμού με βάση το συγκεκριμένο χαρακτηριστικό Πρόβλημα κριτηρίου: πιθανή υπερβολική αντιστάθμιση Πιθανή επιλογή χαρακτηριστικού λόγω μικρής εγγενούς πληροφορίας και μόνο Τυπική διόρθωση: έλεγχος των χαρακτηριστικών με κέρδος πληροφορίας μεγαλύτερο του μέσου και μόνο αυτών 22

23 Σύνοψη περί δένδρων απόφασης Επαγωγή δένδρων απόφασης από πάνω προς τα κάτω: αλγόριθμος ID3, Ross Quinlan Ο λόγος κέρδους αποτελεί τροποποίηση του βασικού αυτού αλγορίθμου αλγόριθμος C4.5: χειρίζεται επίσης αριθμητικά χαρακτηριστικά, απούσες τιμές, θορυβώδη δεδομένα J48) Υπάρχει πλήθος κριτηρίων επιλογής χαρακτηριστικού Ωστόσο παρουσιάζουν μικρή διαφοροποίηση ως προς το αποτέλεσμα 23

24 Αλγόριθμοι κάλυψης Μετατροπή δένδρου απόφασης σε σύνολο κανόνων Άμεση, ωστόσο το σύνολο κανόνων προκύπτει υπερβολικά σύνθετο Περισσότερο αποδοτικές μέθοδοι μετατροπής αρκετά πολύπλοκες Εναλλακτικά: απευθείας δημιουργία συνόλου κανόνων Για κάθε τάξη, εύρεση συνόλου κανόνων που καλύπτουν το σύνολο των υποδειγμάτων (αποκλείοντας υποδείγματα που δεν ανήκουν στην τάξη) Η προσέγγιση καλείται αλγόριθμος κάλυψης: Σε κάθε βήμα, αναζητείται κανόνας που καλύπτει κάποι από τα υποδείγματα 24

25 Παράδειγμα: Δημιουργία κανόνα y b b b b b b b b b x a a a a b b b a a b b y b b b b b b b b b 1 2 a a a a b b b a b a b x y 2 6 b b b b b b b b b 1 2 a a a a b b b a b a b x If true then class = a If x > 1.2 then class = a If x > 1.2 and y > 2.6 then class = a Πιθανά σύνολα κανόνων για την τάξη b : If x 1.2 then class = b If x > 1.2 and y 2.6 then class = b Δυνατή η περαιτέρω προσθήκη κανόνων, ως τη δημιουργία τέλειου συνόλου 25

26 Κανόνες ή δένδρα; Αντίστοιχο δένδρο απόφασης: (δίδει τα ίδια ακριβώς αποτελέσματα) σύνολα κανόνων: μπορούν να είναι περισσότερο διαυγή, δένδρα κανόνων: συχνά πάσχουν λόγω επαναλαμβανόμενων υποδένδρων Επίσης, σε περίπτωση πολλαπλών τάξεων αλγόριθμος κάλυψης: μελετά μία τάξη κάθε φορά, εκμάθηση με δένδρα απόφασης: λαμβάνει υπ όψιν όλες τις τάξεις 26

27 Απλοϊκός αλγόριθμος κάλυψης Δημιουργία κανόνα με την προσθήκη ελέγχων που μεγιστοποιούν την ακρίβεια του κανόνα Αντίστοιχο πρόβλημα με την επιλογή χαρακτηριστικού προς διάσπαση στα δένδρα ελέγχου: Ωστόσο, κατά τη δημιουργία δένδρου μεγιστοποιείται η ολική ομοιογένεια Κάθε νέος έλεγχος μειώνει την κάλυψη του κανόνα space of examples rule so far rule after adding new term 27

28 Επιλογή ελέγχου Στόχος: μεγιστοποίηση ακρίβειας t συνολικός αριθμός υποδειγμάτων που καλύπτονται από τον κανόνα p υποδείγματα της τάξης που εκχωρεί ο κανόνας (σωστές προβλέψεις) t p αριθμός σφαλμάτων κανόνα Επιλογή κριτηρίων που μεγιστοποιούν το λόγο p/t Ολοκλήρωση διαδικασίας όταν p/t = 1 ήτο σύνολο των υποδειγμάτων δεν μπορεί να διασπαστεί περαιτέρω 28

29 Παράδειγμα φακών επαφής Αναζήτηση κανόνα της μορφής: Πιθανοί κανόνες: Age = Young 2/8 Age = Pre-presbyopic 1/8 Age = Presbyopic 1/8 Spectacle prescription = Myope 3/12 Spectacle prescription = Hypermetrope 1/12 Astigmatism = no 0/12 Astigmatism = yes 4/12 Tear production rate = Reduced 0/12 Tear production rate = Normal 4/12 If? then recommendation = hard 29

30 Παράδειγμα φακών επαφής Προσθήκη κανόνα Προσθήκη βέλτιστου κανόνα: Ο κανόνας καλύπτει τα υποδείγματα: If astigmatism = yes then recommendation = hard Age Spectacle prescription Astigmatism Tear production rate Recommended lenses Young Myope Yes Reduced None Young Myope Yes Normal Hard Young Hypermetrope Yes Reduced None Young Hypermetrope Yes Normal hard Pre-presbyopic Myope Yes Reduced None Pre-presbyopic Myope Yes Normal Hard Pre-presbyopic Hypermetrope Yes Reduced None Pre-presbyopic Hypermetrope Yes Normal None Presbyopic Myope Yes Reduced None Presbyopic Myope Yes Normal Hard Presbyopic Hypermetrope Yes Reduced None Presbyopic Hypermetrope Yes Normal None 30

31 Παράδειγμα φακών επαφής Περαιτέρω προσθήκη Ο κανόνας ως τώρα: If astigmatism = yes and? then recommendation = hard Πιθανοί περαιτέρω έλεγχοι: Age = Young 2/4 Age = Pre-presbyopic 1/4 Age = Presbyopic 1/4 Spectacle prescription = Myope 3/6 Spectacle prescription = Hypermetrope 1/6 Tear production rate = Reduced 0/6 Tear production rate = Normal 4/6 31

32 Παράδειγμα φακών επαφής Τροποποιημένος κανόνας Προσθήκη βέλτιστου ελέγχου: Ο κανόνας καλύπτει πλέον και τα ακόλουθα υποδείγματα: Age Spectacle prescription Astigmatism Tear production rate Recommended lenses Young Myope Yes Normal Hard Young Hypermetrope Yes Normal hard Prepresbyopic Myope Yes Normal Hard Prepresbyopic Hypermetrope Yes Normal None Presbyopic Myope Yes Normal Hard Presbyopic Hypermetrope Yes Normal None If astigmatism = yes and tear production rate = normal then recommendation = hard 32

33 Παράδειγμα φακών επαφής Ως τώρα: Πιθανοί έλεγχοι: Περαιτέρω προσθήκη If astigmatism = yes and tear production rate = normal and? then recommendation = hard Age = Young 2/2 Age = Pre-presbyopic 1/2 Age = Presbyopic 1/2 Spectacle prescription = Myope 3/3 Spectacle prescription = Hypermetrope Ισοπαλία μεταξύ 1 ου & 4 ου ελέγχου Επιλογή ελέγχου με μεγαλύτερη κάλυψη 1/3 33

34 Παράδειγμα φακών επαφής Τελική μορφή κανόνα: Τελικό αποτέλεσμα Όμοια προκύπτει ο κανόνας για σύσταση hard lenses (δημιουργήθηκε από παραδείγματα που δεν καλύπτονται από τον πρώτο κανόνα): If astigmatism = yes and tear production rate = normal and spectacle prescription = myope then recommendation = hard If age = young and astigmatism = yes and tear production rate = normal then recommendation = hard Επανάληψη της μεθόδου για τις άλλες δύο τάξεις 34

35 Ψευδοκώδικας PRISM For each class C Initialize E to the instance set While E contains instances in class C Create a rule R with an empty left-hand side that predicts class C Until R is perfect (or there are no more attributes to use) do For each attribute A not mentioned in R, and each value v, Consider adding the condition A = v to the left-hand side of R Select A and v to maximize the accuracy p/t (break ties by choosing the condition with the largest p) Add A = v to R Remove the instances covered by R from E 35

36 Κανόνες ή λίστες απόφασης; Ο αλγόριθμος PRISM (χωρίςτονεξωτερικόβρόγχο) παράγει λίστα κανόνων απόφασης για μία τάξη Οι επόμενοι κανόνες σχεδιάζονται για υποδείγματα που δεν καλύπτονται από προηγούμενους κανόνες Ησειράδενέχεισημασία, καθώς όλοι οι κανόνες προβλέπουν την ίδια τάξη Ο εξωτερικός βρόγχος λαμβάνει υπ όψιν κάθε τάξη χωριστά Δεν υποδηλώνεται εξάρτηση από τη διαδοχή Προβλήματα: επικαλυπτόμενοι κανόνες, αναγκαίος ορισμός προκαθορισμένου κανόνα 36

37 Διαχώρισε & βασίλευε (separate and conquer) Αλγόριθμοι όπως ο PRISM (για το χειρισμό μίας τάξης) υλοποιούν τη μέθοδο διαχώρισε & βασίλευε (separate-and-conquer): Αρχικά, προσδιορισμός ωφέλιμου κανόνα Στη συνέχεια, διαχωρισμός των υποδειγμάτων που καλύπτει ο κανόνας από τα υπόλοιπα Τέλος, κατάκτηση των υποδειγμάτων που απομένουν Διαφοροποίηση από τις μεθόδους διαίρει & βασίλευε (divide-and-conquer) : Το υποσύνολο που καλύπτεται από τον κανόνα δεν χρειάζεται να εξερευνηθεί στη συνέχεια 37

38 Μετά τα βασικά, τι; Ως τώρα μελετήθηκαν απλοϊκές δομές αλγορίθμων μάθησης Κανόνες Δένδρα απόφασης Αλγόριθμοι κάλυψης Ωστόσο, η χρήση ενός αλγορίθμου σε ευρύ πεδίο ρεαλιστικών εφαρμογών προϋποθέτει Χειρισμό αριθμητικών χαρακτηριστικών Χειρισμό αγνώστων τιμών Ανθεκτικότητα στην ύπαρξη θορύβου Δυνατότητα εξόρυξης σύνθετων δομικών περιγραφών Οι απλοϊκές δομές χρειάζεται να επεκταθούν ώστε να ικανοποιούν αυτές τις προδιαγραφές Επόμενο βήμα αποτελεί η θεώρηση των δομών αυτών σε πλήρες εύρος της πολυπλοκότητάς τους 38

39 Δένδρα απόφασης Επέκταση του αλγορίθμου ID3: Για αριθμητικά χαρακτηριστικά: άμεση Για ευαίσθητο χειρισμό αγνώστων τιμών: σύνθετη Για σταθερότητα με θορυβώδη δεδομένα: απαιτείται μηχανισμός κλαδέματος C4.5 (Ross Quinlan) Ο πλέον γνωστός και ίσως ευρύτερα χρησιμοποιούμενος αλγόριθμος εκμάθησης Εμπορικός διάδοχος: C5.0 39

40 Αριθμητικά χαρακτηριστικά Τυπική μέθοδος: δυαδικοί διαχωρισμοί Για παράδειγμα, temp < 45 Σε αντίθεση με τα ονομαστικά χαρακτηριστικά, κάθε αριθμητικό χαρακτηριστικό έχει πολλά πιθανά σημεία διαχωρισμού Άμεση επέκταση της διαδικασίας: Υπολογισμός κέρδους πληροφορίας (ή άλλου κριτηρίου) για κάθε πιθανό σημείο διαχωρισμού Επιλογή βέλτιστου σημείου διαχωρισμού Το κέρδος πληροφορίας για το βέλτιστο αυτό σημείο είναι το κέρδος πληροφορίας για το χαρακτηριστικό Μεγαλύτερες απαιτήσεις σε υπολογιστικό κόστος 40

41 Κλάδεμα Στόχος: πρόληψη υπερπροσαρμογής δένδρου σε θόρυβο των δεδομένων Μέθοδος: κλάδεμα δένδρου απόφασης Δύο στρατηγικές: Μετακλάδεμα (postpruning) αποκοπή περιττών τμημάτων ενός ήδη ολοκληρωμένου δένδρου Προκλάδεμα (prepruning) διακοπή ανάπτυξης ενός κλαδιού Στην πράξη προτιμάται το μετακλάδεμα Το προκλάδεμα είναι υπολογιστικά φθηνότερο, ωστόσο συχνά προκαλεί πρόωρη διακοπή 41

42 Προκλάδεμα (prepruning) Βασίζεται σε έλεγχο στατιστικής σημαντικότητας Διακοπή ανάπτυξης ενός δένδρου όταν δεν υπάρχει στατιστικά σημαντική συσχέτιση ανάμεσα σε οποιοδήποτε χαρακτηριστικό και την τάξη ενός συγκεκριμένου φύλλου Πλέον συνήθης έλεγχος: Χ 2 Ο αλγόριθμος ID3 χρησιμοποιεί τον έλεγχο Χ 2 σε προσθήκη του κριτηρίου κέρδους πληροφορίας Μόνο τα στατιστικά σημαντικά χαρακτηριστικά δύναται να επιλεγούν από τη διαδικασία του κέρδους πληροφορίας 42

43 Πρώιμη διακοπή a b class Το προκλάδεμα μπορεί να διακόψει την ανάπτυξη σε ένα μη ώριμο στάδιο: πρώιμη διακοπή (early stopping) Κλασσικό παράδειγμα: Ισοτιμία προβλήματος XOR Κανένα χαρακτηριστικό δεν εμφανίζει σημαντική συσχέτιση με την τάξη Η δομή είναι ορατή μόνο μετά την περάτωση του δένδρου Το προκλάδεμα διακόπτει εξ αρχής την ανάπτυξη του δένδρου Ωστόσο: τα προβλήματα XOR δεν συναντώνται συχνά Επίσης: το προκλάδεμα πολύ ταχύτερο από το μετακλάδεμα 43

44 Μετακλάδεμα (postpruning) Αρχικά, κατασκευή πλήρους δένδρου Στη συνέχεια, κλάδεμα Το πλήρες δένδρο φανερώνει όλες τις αλληλεπιδράσεις μεταξύ των χαρακτηριστικών Πρόβλημα: κάποια υποδένδρα πιθανώς οφείλονται σε τυχαίες επιρροές Δύο λειτουργίες κλαδέματος: Αντικατάσταση υποδένδρου Ανύψωση υποδένδρου Στρατηγικές: Υπολογισμός κόστους Έλεγχος σημαντικότητας Αρχή MDL 44

45 Παράδειγμα εργασιακών διαπραγματεύσεων Attribute Type Duration Wage increase first year Wage increase second year Wage increase third year Cost of living adjustment Working hours per week Pension Standby pay (Number of years) Percentage 2% 4% 4.3% 4.5 Percentage? 5% 4.4% 4.0 Percentage???? {none,tcf,tc} none tcf? none (Number of hours) {none,ret-allw, empl-cntr} none??? Percentage? 13%?? Shift-work supplement Percentage? 5% 4% 4 Education allowance {yes,no} yes??? Statutory holidays (Number of days) Vacation {below-avg,avg,gen} avg gen gen avg Long-term disability assistance {yes,no} no?? yes Dental plan contribution {none,half,full} none? full full Bereavement assistance {yes,no} no?? yes Health plan contribution {none,half,full} none? full half Acceptability of contract {good,bad} bad good good good 45

46 Αντικατάσταση υποδένδρου Προσέγγιση Bottom-up Θεώρηση (υπο)δένδρου προς αντικατάσταση μόνο εάν δεν αντικαθίσταται κάποιο από τα υποδένδρα του 46

47 Ανύψωση υποδένδρου Αποκοπή φύλλου Αναδιανομή υποδειγμάτων Περισσότερο αργή της αντικατάστασης (αξίζει τον κόπο;) 47

48 Κλάδεμα με υπολογισμό σφάλματος Συνθήκη: Το κλάδεμα πραγματοποιείται μόνο όταν μειώνεται το εκτιμώμενο σφάλμα Το σφάλμα επί των δεδομένων εκπαίδευσης δεν αποτελεί αξιόπιστη εκτίμηση (δεν θα υποδείκνυε ποτέ κλάδεμα) Χρήση συνόλου παρακράτησης για κλάδεμα (κλάδεμα μειωμένου σφάλματος, reduced-error pruning) Μειονέκτημα: το δένδρο δημιουργείται από λιγότερα δεδομένα 48

49 Μέθοδος αλγορίθμου C4.5 Μέθοδος αλγορίθμου C4.5 Εύρεση διαστήματος εμπιστοσύνης από τα δεδομένα εκπαίδευσης Ευρετική επιλογή ορίου για κλάδεμα Τυπική μέθοδος βασισμένη στη διαδοχή Bernoulli Η εκτίμηση σφάλματος του υποδένδρου αποτελεί σταθμισμένο άθροισμα των εκτιμήσεων σφάλματος όλων των φύλλων του Εκτίμηση σφάλματος κόμβου: e = f 2 z + 2N + z f N 1 + Όπου f το σφάλμα στα δεδομένα εκπαίδευσης & N ο αριθμός των υποδειγμάτων που καλύπτονται από το φύλλο Αν c = 25%, τότε z = 0.69 (κανονική κατανομή) 2 f N + 2 z 4N 2 2 z N 49

50 Παράδειγμα Example f = 5/14 e = 0.46 e < 0.51 άρα κλάδεμα! f=0.33 e=0.47 f=0.5 e=0.72 f=0.33 e=0.47 Στάθμιση με λόγο 6:2:6 δίνει

51 Πολυπλοκότητα επαγωγής δένδρου Έστω m χαρακτηριστικά n υποδείγματα εκπαίδευσης Βάθος δένδρου O (log n) (παραδοχή) Υπολογιστικό κόστος κατασκευής δένδρου: O (m n log n) Αντικατάσταση υποδένδρου O (n) Ανύψωση υποδένδρου O (n (log n) 2 ) Μέσο κόστος πιθανής ανακατανομής υποδειγμάτων σε κάθε κόμβο, μεταξύ της ρίζας και του φύλλου: O (log n) Ολικό κόστος: O (m n log n) + O (n (log n) 2 ) 51

52 Μετατροπή δένδρων σε κανόνες Αρχικά & απλοϊκά: ένας κανόνας για κάθε φύλλο Ακολούθως: κλάδεμα των συνθηκών που μειώνουν το εκτιμώμενο σφάλμα των κανόνων Συνήθως με εξαντλητική αναζήτηση (άλλες μέθοδοι επίσης εφικτές) Συχνά παράγονται διπλότυποι κανόνες, απαιτείται τελικός έλεγχος επί αυτού Στη συνέχεια Εύρεση όλων των κανόνων για κάθε τάξη Επιλογή υποσυνόλου με οδηγό την αρχή MDL Ταξινόμηση των υποσυνόλων για αποφυγή αντικρουόμενων υποδείξεων Τέλος: αποκοπή κλάδων (με εξαντλητική αναζήτηση) σε περίπτωση που μειώνεται το συνολικό σφάλμα επί των δεδομένων PART 52

53 Περισσότερα περί του αλγορίθμου C4.5 Αργός για μεγάλα σύνολα δεδομένων με θόρυβο Η εμπορική έκδοση C5.0 χρησιμοποιεί μία διαφορετική τεχνική Αρκετά ταχύτερη και ελαφρά πιο ακριβής Δεν περιγράφεται στην ανοιχτή βιβλιογραφία Παράμετροι του C4.5 Επίπεδο εμπιστοσύνης (default 25%): χαμηλότερες τιμές επιφέρουν εκτενέστερο κλάδεμα Ελάχιστος αριθμός υποδειγμάτων ανά φύλλο (default 2) 53

54 Σύνοψη περί δένδρων απόφασης TDIDT: Top-Down Induction of Decision Trees Η πλέον εκτενώς μελετημένη μέθοδος μηχανικής μάθησης που χρησιμοποιεί για εξόρυξη πληροφορίας Διαφορετικά κριτήρια για επιλογή χαρακτηριστικού ή ελέγχου σπάνια επιφέρουν σημαντική διαφορά Διαφορετικές μέθοδοι κλαδέματος κυρίως μεταβάλλουν το μέγεθος του δένδρου που προκύπτει Ο αλγόριθμος C4.5 κατασκευάζει δένδρα απόφασης ελέγχου μίας μεταβλητής (univariate) Κάποια άλλα συστήματα TDITDT μπορούν να κατασκευάσουν δένδρα πολλών μεταβλητών (multivariate, για παράδειγμα CART) 54

55 Κανόνες ταξινόμησης (classification rules) Συνήθης διαδικασία: separate-and-conquer Συνήθεις διαφοροποιήσεις: Μέθοδος αναζήτησης (για παράδειγμα εξαντλητική, beam search, ) Κριτήρια επιλογής (για παράδειγμα ακρίβεια, ) Μέθοδος κλαδέματος (για παράδειγμα MDL, σύνολο παρακράτησης, ) Κριτήριο διακοπής (για παράδειγμα ελάχιστη ακρίβεια) Επεξεργασία μετά την εκπαίδευση Επίσης: Λίστα απόφασης ή ένα υποσύνολο κανόνων για κάθε τάξη; 55

56 Κριτήρια επιλογής Βασικός αλγόριθμος κάλυψης: Συνεχής προσθήκη συνθηκών σε κανόνα για τη βελτίωση της ακρίβειάς του Προσθήκη της συνθήκης που επιτυγχάνει τη μέγιστη αύξηση της ακρίβειας Κριτήριο 1: p/t t συνολικά υποδείγματα που καλύπτονται από τον κανόνα p αριθμός αυτών που είναι θετικά (ανήκουνστηνπλειοψηφούσατάξη) Παράγει κανόνες που δεν καλύπτουν αρνητικά υποδείγματα Επίσης δύναται να παράγει κανόνες με πολύ μικρή κάλυψη (ειδικές περιπτώσεις ή θόρυβος;) Κριτήριο 2: κέρδος πληροφορίας p (log(p/t) log(p/t)) P και T ο αριθμός των θετικών και του συνόλου πριν τη προσθήκη της νέας συνθήκης Δίνει έμφαση περισσότερο στα θετικά παρά στα αρνητικά υποδείγματα Τα κριτήρια αλληλεπιδρούν με τον επιλεγμένο μηχανισμό κλαδέματος 56

57 Άγνωστες τιμές & αριθμητικά χαρακτηριστικά Συνήθης μεταχείριση των άγνωστων τιμών: σε κάθε έλεγχο αποτυγχάνουν (fail) Ο αλγόριθμος πρέπει είτε να Χρησιμοποιεί άλλους ελέγχους για να διαχωρίσει τα θετικά υποδείγματα Να αφήσει τα συγκεκριμένα υποδείγματα για επόμενο βήμα της διαδικασίας Σε κάποιες περιπτώσεις, συνίσταται ο χειρισμός της άγνωστης ως ξεχωριστή τιμή Τα αριθμητικά χαρακτηριστικά μεταχειρίζονται όπως και στα δένδρα απόφασης 57

58 Επιλογές κατά το κλάδεμα Δύο κύριες στρατηγικές: Αυξητικό (incremental) κλάδεμα Ολικό (global) κλάδεμα Άλλη διαφοροποίηση: κριτήριο κλαδέματος Σφάλμα σε σύνολο παρακράτησης (κλάδεμα μειωμένου σφάλματος, reduced-error pruning) Στατιστική σημαντικότητα Αρχή MDL Επίσης: μετακλάδεμα ή προκλάδεμα 58

59 Χρήση συνόλου κλαδέματος Για λόγους στατιστικής εγκυρότητας, το δένδρο αποτιμάται σε δεδομένα που δεν χρησιμοποιούνται για εκπαίδευση: Αυτό προϋποθέτει ένα σύνολο ανάπτυξης (growing set) και ένα σύνολο κλαδέματος (pruning set) κλάδεμα μειωμένου σφάλματος: κατασκευή συνόλου κανόνων και μετά περικοπή του Αυξητικό κλάδεμα μειωμένου σφάλματος (incremental reducederror pruning): απλοποίηση κανόνα μετά την κατασκευή του Δυνατός ο επαναδιαχωρισμός των δεδομένων μετά το κλάδεμα του κανόνα Επίσης επωφελής: διαστρωμάτωση 59

60 Αλγόριθμος αυξητικού κλαδέματος μειωμένου σφάλματος Initialize E to the instance set Until E is empty do Split E into Grow and Prune in the ratio 2:1 For each class C for which Grow contains an instance Use basic covering algorithm to create best perfect rule for C Calculate w(r): worth of rule on Prune and w(r-): worth of rule with final condition omitted If w(r-) < w(r), prune rule and repeat previous step From the rules for the different classes, select the one that s worth most (i.e. with largest w(r)) Print the rule Remove the instances covered by rule from E Continue 60

61 Κριτήρια κατά το αυξητικό κλάδεμα μειωμένου σφάλματος [p + (N n)] / T (N συνολικός αριθμός αρνητικών υποδειγμάτων) διαισθητικά: p = 2000 and n = 1000 vs. p = 1000 and n = 1 Βαθμός επιτυχίας p / t πρόβλημα: p = 1 and t = 1 ή p = 1000 and t = 1001 (p n) / t Ίδια επίδραση με το βαθμό επιτυχίας, ισούται με 2p/t 1 Η εύρεση ενός απλού κριτηρίου, συμβατού με τη διαίσθηση μοιάζει δύσκολη Χρήση κριτηρίου υπεργεωμετρικής / δυωνυμικής κατανομής; 61

62 Αλγόριθμος INDUCT Initialize E to the instance set Until E is empty do For each class C for which E contains an instance Use basic covering algorithm to create best perfect rule for C Calculate m(r): significance for rule and m(r-): significance for rule with final condition omitted If m(r-) < m(r), prune rule and repeat previous step From the rules for the different classes, select the most significant one (i.e. with smallest m(r)) Print the rule Remove the instances covered by rule from E Continue Εκτελεί αυξητικό κλάδεμα 62

63 Υπολογισμός σημαντικότητας Μέτρο σημαντικότητας για ένα κανόνα του αλγορίθμου INDUCT: Πιθανότητα ένας τυχαίος κανόνας με ίδια κάλυψη να αποδίδει τουλάχιστον εξίσου Για τον τυχαίο κανόνα R επιλέγονται τυχαίες t περιπτώσεις από το σύνολο δεδομένων Πόσο πιθανό είναι p από αυτές να ανήκουν στη σωστή τάξη; Η πιθανότητα αυτή δίδεται από την υπεργεωμετρική κατανομή 63

64 Υπεργεωμετρική κατανομή Σύνολο δεδομένων T υποδειγμάτων Ο τυχαίος κανόνας επιλέγει t υποδείγματα ΗτάξηC περιέχει P υποδείγματα P T P Pr[t τυχαία υποδείγματα, p t p ακριβώς p είναι της τάξης C] T t Ποια η πιθανότητα ένας τυχαίος P T P κανόνας να αποδίδει τουλάχιστον min( t, P) εξίσου? i t i m( R) = i= p T Αυτή είναι η στατιστική σημαντικότητα του κανόνα t p υποδείγματα που καλύπτονται σωστά 64

65 Διωνυμική κατανομή Σύνολο δεδομένων T υποδειγμάτων Ο τυχαίος κανόνας επιλέγει t υποδείγματα ΗτάξηC περιέχει P υποδείγματα p υποδείγματα που καλύπτονται σωστά Ο υπολογισμός της υπεργεωμετρικής είναι δύσκολος Προσέγγιση: δείγμα με επανατοποθέτηση αντί με επανατοποθέτηση αντί χωρίς επανατοποθέτηση t p P T p 1 P T t p 65

66 Παραλλαγές Δημιουργία κανόνων με κατάταξη Εκκίνηση με τη μικρότερη (σε συχνότητα) τάξη Η μεγαλύτερη τάξη αφήνεται στην κάλυψη του προεπιλεγμένου (default) κανόνα Κριτήριο διακοπής Διακοπή παραγωγής κανόνων όταν η ακρίβεια είναι πολύ χαμηλή Μαθητής κανόνων (rule learner) RIPPER: Χρησιμοποιεί ως κριτήριο διακοπής την αρχή MDL Περιλαμβάνει βήμα μετα-επεξεργασίας για τη τροποποίηση των κανόνων με βάση την MDL 66

67 Αλγόριθμος PART Ολική βελτιστοποίηση μη απαιτούμενη Αντίθετα από C4.5 & RIPPER Παράγει απεριόριστη λίστα απόφασης χρησιμοποιώντας την βασική μέθοδο διαχώρισε & βασίλευε Κατασκευάζει επιμέρους (partial) δένδρο απόφασης για την απόκτηση ενός κανόνα Ένας κανόνας αποκόπτεται μόνο όταν όλα τα συμπεράσματά του είναι γνωστά Πραγματοποιεί βιαστική γενίκευση (hasty generalization) Χρησιμοποιεί τη διαδικασία του C4.5 για την κατασκευή των δένδρων 67

68 Κατασκευή επιμέρους δένδρου Expand-subset (S): Choose test T and use it to split set of examples into subsets Sort subsets into increasing order of average entropy while there is a subset X not yet been expanded AND all subsets expanded so far are leaves expand-subset(x) if all subsets expanded are leaves AND estimated error for subtree estimated error for node undo expansion into subsets and make node a leaf 68

69 Παράδειγμα 69

70 Περί του αλγορίθμου PART Μετατροπή φύλλου με μεγαλύτερη κάλυψη σε κανόνα Χειρισμός απόντων τιμών όπως ο C4.5 Δηλαδή τμηματοποίηση χαρακτηριστικού Απαιτούμενος χρόνος δημιουργίας κανόνα: Χείριστο σενάριο: ίδιος με εκείνον για την κατασκευή και το κλάδεμα ενός δένδρου Προκύπτει για δεδομένα με θόρυβο Βέλτιστο σενάριο: ίδιος με εκείνον για την κατασκευή ενός απλού κανόνα Προκύπτει για δεδομένα χωρίς θόρυβο 70

71 Εφαρμογή στο weka 71

72 ADTree Build alternating decision trees DecisionStump Build one-level decision trees Id3 Basic divide-and-conquer decision tree algorithm J48 C4.5 decision tree learner (implements C4.5 revision 8) LMT Build logistic model trees M5P M5 model tree learner NBTree Build a decision tree with Naïve Bayes classifiers at the leaves RandomForest Construct random forests RandomTree Construct a tree that considers a given number of random features at each node REPTree Fast tree learner that uses reduced-error pruning UserClassifier Allow users to build their own decision tree 72

73 ConjunctiveRule Simple conjunctive rule learner DecisionTable Build a simple decision table majority classifier JRip RIPPER algorithm for fast, effective rule induction M5Rules Obtain rules from model trees built using M5 Nnge Nearest-neighbor method of generating rules using nonnested generalized exemplars OneR 1R classifier Part Obtain rules from partial decision trees built using J4.8 Prism Simple covering algorithm for rules Ridor Ripple-down rule learner ZeroR Predict the majority class (if nominal) or the average value (if numeric) 73

74 Τέλος Επόμενη διάλεξη: Αλγόριθμοι εκμάθησης, μέρος Β 74

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη01Εισαγωγή

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη01Εισαγωγή ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη01Εισαγωγή Η πληροφορία είναι ζωτική Τεχνητή Γονιμοποίηση Συλλογή ωαρίων Γονιμοποίηση με σπέρμα συντρόφου ή δότη Παράγονται

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 11: Δημιουργία Βάσεων Κανόνων Από Δεδομένα- Εξαγωγή Κανόνων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων Από Δεδομένα-

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Ι. Preprocessing (Επεξεργασία train.arff):

Ι. Preprocessing (Επεξεργασία train.arff): Ονοματεπώνυμο: Κατερίνα Αργύρη Δ.Π.Μ.Σ: Εφαρμοσμένες Μαθηματικές Επιστήμες Ακαδ. Έτος: 2008-2009 1 Για την παρούσα εργασία διατίθενται τρία σύνολα δεδομένων: Δεδομένα Εκπαίδευσης (train set αρχείο train.arff):

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Δ.Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΧΟΥΧΟΥΜΗΣ ΙΩΑΝΝΗΣ Το σύνολο των

Διαβάστε περισσότερα

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση Η μορφή των δεδομένων και η σημασία της Δεδομένα input Αλγόριθμοι Εξόρυξης

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1 Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Κατηγοριοποίηση (classification) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων

Διαβάστε περισσότερα

(training data) (test data)

(training data) (test data) Αποθήκες εδοµένων και Εξόρυξη Γνώσης Κατηγοριοποίηση Νίκος Πελέκης, Γιάννης Θεοδωρίδης http://isl.cs.unipi.gr/db/courses/dwdm 1 ΠΑ.ΠΕΙ. Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές κατηγοριοποίησης

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική Κατηγοριοποίηση Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 2 ο Φροντιστήριο Σκούρα Αγγελική skoura@ceid.upatras.gr Μηχανική Μάθηση Η μηχανική μάθηση είναι μια περιοχή της τεχνητής νοημοσύνης η οποία αφορά

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Ολοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα είναι μικρότεροι το 1000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Διάρκεια: 3,5 ώρες Καλή

Διαβάστε περισσότερα

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ : ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ ΠΙΘΑΝΟΝΤΗΤΕΣ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗΣ ΕΡΓΑΣΙΑ 08: ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ 1 Ο ΣΤΑΔΙΟ: Πριν εφαρμόσουμε οποιοδήποτε αλγόριθμο

Διαβάστε περισσότερα

ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ

ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ Το dataset weather περιέχει 4 μεταβλητές (outlook, temperature, humidity, windy) και 14 καταχωρήσεις για το καθένα από αυτά. Με βάση αυτές εξετάζεται το γεγονός

Διαβάστε περισσότερα

Κατηγοριοποίηση (Εποπτευόμενη μάθηση)

Κατηγοριοποίηση (Εποπτευόμενη μάθηση) Κατηγοριοποίηση (Εποπτευόμενη μάθηση) Αποθήκες και Εξόρυξη Δεδομένων Διδάσκoυσα: Μαρία Χαλκίδη με βάση slides από J. Han and M. Kamber Data Mining: Concepts and Techniques, 2 nd edition Εποπτευόμενη vs.

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση Η πληροφορία στη σύγχρονη επιχείρηση Η Ανάγκη Διαδικασία Ορισμός Αφετηρία Πρότυπα Πέραν του ανθρώπινου δυναμικού, η πληροφορία αποτελεί τον πλέον πολύτιμο

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Όλοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα μικρότεροι του 10000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Αν κάπου κάνετε κάποιες υποθέσεις

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΕΝΑ ΦΛΟΚΑ Επίκουρος Καθηγήτρια Τµήµα Φυσικής, Τοµέας Φυσικής Περιβάλλοντος- Μετεωρολογίας ΓΕΝΙΚΟΙ ΟΡΙΣΜΟΙ Πληθυσµός Σύνολο ατόµων ή αντικειµένων στα οποία αναφέρονται

Διαβάστε περισσότερα

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & Αποτίμηση

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & Αποτίμηση ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & Αποτίμηση Η μορφή των εξαγομένων και η σημασία της Δεδομένα input Αλγόριθμοι Εξόρυξης

Διαβάστε περισσότερα

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ DATA MINING ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ 1 ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Αφού δεν γνωρίζουμε κάποιο τρόπο για να επιλέξουμε εκ των προτέρων την πιο κατάλληλη και αποδοτική μέθοδο μάθησης

Διαβάστε περισσότερα

Αλγόριθμοι Μηχανικής Μάθησης σε Πολυεπεξεργαστικά Περιβάλλοντα

Αλγόριθμοι Μηχανικής Μάθησης σε Πολυεπεξεργαστικά Περιβάλλοντα Αλγόριθμοι Μηχανικής Μάθησης σε Πολυεπεξεργαστικά Περιβάλλοντα Στεργίου Κωνσταντίνος Α.Μ.496 Σχολή Θετικών Επιστημών - Τμήμα Μαθηματικών Μ.Π.Σ. Μαθηματικά και Σύγχρονες Εφαρμογές στα «Υπολογιστικά Μαθηματικά

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα «Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Κατηγοριοποίηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά Μάιος 2008 Τα δεδομένα που έχουμε προς επεξεργασία χωρίζονται σε τρία μέρη: 1. Τα δεδομένα εκπαίδευσης (training set) που αποτελούνται από 2528

Διαβάστε περισσότερα

Data Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4)

Data Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4) Data Mining Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης Κατηγοριοποίηση (κεφ. 4) Βασίλης Βερύκιος - Γιάννης Θεοδωρίδης http://isl.cs.unipi.gr/dmbook Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο

Διαβάστε περισσότερα

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση Υπολογιστική Νοημοσύνη Μάθημα 9: Γενίκευση Υπερπροσαρμογή (Overfitting) Ένα από τα βασικά προβλήματα που μπορεί να εμφανιστεί κατά την εκπαίδευση νευρωνικών δικτύων είναι αυτό της υπερβολικής εκπαίδευσης.

Διαβάστε περισσότερα

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ Τελική Εργασία στο µάθηµα Αλγόριθµοι Εξόρυξης

Διαβάστε περισσότερα

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους

Διαβάστε περισσότερα

Αναζήτηση σε Γράφους. Μανόλης Κουμπαράκης. ΥΣ02 Τεχνητή Νοημοσύνη 1

Αναζήτηση σε Γράφους. Μανόλης Κουμπαράκης. ΥΣ02 Τεχνητή Νοημοσύνη 1 Αναζήτηση σε Γράφους Μανόλης Κουμπαράκης ΥΣ02 Τεχνητή Νοημοσύνη 1 Πρόλογος Μέχρι τώρα έχουμε δει αλγόριθμους αναζήτησης για την περίπτωση που ο χώρος καταστάσεων είναι δένδρο (υπάρχει μία μόνο διαδρομή

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 11/3/2006

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 11/3/2006 ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 11/3/26 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Ολοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα μικρότεροι το 1 εκτός αν ορίζεται διαφορετικά στη διατύπωση

Διαβάστε περισσότερα

Μάθηση με παραδείγματα Δέντρα Απόφασης

Μάθηση με παραδείγματα Δέντρα Απόφασης Μάθηση με παραδείγματα Δέντρα Απόφασης Μορφές μάθησης Επιβλεπόμενη μάθηση (Ταξινόμηση Πρόβλεψη) Παραδείγματα: {(x, t )} t κατηγορία ταξινόμηση t αριθμός πρόβλεψη Μη-επιβλεπόμενη μάθηση (Ομαδοποίηση Μείωση

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Πτυχιακή εργασία ΑΝΑΛΥΣΗ ΚΟΣΤΟΥΣ-ΟΦΕΛΟΥΣ ΓΙΑ ΤΗ ΔΙΕΙΣΔΥΣΗ ΤΩΝ ΑΝΑΝΕΩΣΙΜΩΝ ΠΗΓΩΝ ΕΝΕΡΓΕΙΑΣ ΣΤΗΝ ΚΥΠΡΟ ΜΕΧΡΙ ΤΟ 2030

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός

Διαβάστε περισσότερα

11/23/2014. Στόχοι. Λογισμικό Υπολογιστή

11/23/2014. Στόχοι. Λογισμικό Υπολογιστή ονάδα Δικτύων και Επικοινωνιών ΗΥ Τομέας Πληροφορικής, αθηματικών και Στατιστικής ΓΕΩΠΟΙΚΟ ΠΑΕΠΙΣΤΗΙΟ ΑΘΗΩ Εισαγωγή στην Επιστήμη των ΗΥ άθημα-4 url: http://openeclass.aua.gr (AOA0) Λογισμικό Υπολογιστή

Διαβάστε περισσότερα

Ταξινόμηση II Σύντομη Ανακεφαλαίωση

Ταξινόμηση II Σύντομη Ανακεφαλαίωση 0 0 0 Ταξινόμηση II Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 ΤΑΞΙΝΟΜΗΣΗ

Διαβάστε περισσότερα

Homework 3 Solutions

Homework 3 Solutions Homework 3 Solutions Igor Yanovsky (Math 151A TA) Problem 1: Compute the absolute error and relative error in approximations of p by p. (Use calculator!) a) p π, p 22/7; b) p π, p 3.141. Solution: For

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Συστήματα Διαχείρισης Βάσεων Δεδομένων

Συστήματα Διαχείρισης Βάσεων Δεδομένων ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Συστήματα Διαχείρισης Βάσεων Δεδομένων Φροντιστήριο 9: Transactions - part 1 Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών Tutorial on Undo, Redo and Undo/Redo

Διαβάστε περισσότερα

Γραµµικός Προγραµµατισµός (ΓΠ)

Γραµµικός Προγραµµατισµός (ΓΠ) Γραµµικός Προγραµµατισµός (ΓΠ) Περίληψη Επίλυση δυσδιάστατων προβληµάτων Η µέθοδος simplex Τυπική µορφή Ακέραιος Προγραµµατισµός Προγραµµατισµός Παραγωγής Προϊόν Προϊόν 2 Παραγωγική Δυνατότητα Μηχ. 4 Μηχ.

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13 ΠΕΡΙΕΧΟΜΕΝΑ / 7 ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος... 13 Κεφάλαιο 1: Περιγραφική Στατιστική... 15 1.1 Περιγραφική και Συμπερασματική Στατιστική... 15 1.2 Μεταβλητές - Τιμές - Παρατηρήσεις... 19 1.3 Είδη μεταβλητών...

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS CHAPTER 5 SOLVING EQUATIONS BY ITERATIVE METHODS EXERCISE 104 Page 8 1. Find the positive root of the equation x + 3x 5 = 0, correct to 3 significant figures, using the method of bisection. Let f(x) =

Διαβάστε περισσότερα

Σχεδίαση & Ανάλυση Αλγορίθμων

Σχεδίαση & Ανάλυση Αλγορίθμων Σχεδίαση & Ανάλυση Αλγορίθμων Ενότητα 3 Αλγόριθμοι Επιλογής Σταύρος Δ. Νικολόπουλος Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros Αλγόριθμοι Επιλογής Γνωρίζουμε

Διαβάστε περισσότερα

Διάλεξη 06: Αλγόριθμοι εκμάθησης ΜέροςΒ Bayes, ΚανόνεςΣυσχέτισης, ΑδρανήςΕκμάθηση & Ομαδοποίηση

Διάλεξη 06: Αλγόριθμοι εκμάθησης ΜέροςΒ Bayes, ΚανόνεςΣυσχέτισης, ΑδρανήςΕκμάθηση & Ομαδοποίηση ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη 06: Αλγόριθμοι εκμάθησης ΜέροςΒ Bayes, ΚανόνεςΣυσχέτισης, ΑδρανήςΕκμάθηση & Ομαδοποίηση Αλγόριθμοι Δεδομένα input Αλγόριθμοι

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη (Union-Find) ΗΥ240 - Παναγιώτα Φατούρου 1 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης Έστω ότι S 1,, S k είναι ξένα υποσύνολα ενός συνόλου U, δηλαδή

Διαβάστε περισσότερα

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Ενότητα 9 (Union-Find) ΗΥ240 - Παναγιώτα Φατούρου 1 Έστω ότι S 1,, S k είναι ξένα υποσύνολα ενός συνόλου U, δηλαδή ισχύει ότι S i S j =, για κάθε i,j µε i j και S 1 S k = U. Λειτουργίες q MakeSet(X): επιστρέφει

Διαβάστε περισσότερα

Ανάλυση Αλγορίθµων. Σύντοµη επανάληψη (ΕΠΛ 035).

Ανάλυση Αλγορίθµων. Σύντοµη επανάληψη (ΕΠΛ 035). Ανάλυση Αλγορίθµων Σύντοµη επανάληψη (ΕΠΛ 035). Περίληψη Ανάλυση αλγορίθµων Ο, Θ, Ω Ανάλυση µη αναδροµικών αλγόριθµων Ανάλυση αναδροµικών αλγόριθµων Εµπειρική Ανάλυση Visualization Απόδοση Αλγορίθµων Απόδοση

Διαβάστε περισσότερα

Minimum Spanning Tree: Prim's Algorithm

Minimum Spanning Tree: Prim's Algorithm Minimum Spanning Tree: Prim's Algorithm 1. Initialize a tree with a single vertex, chosen arbitrarily from the graph. 2. Grow the tree by one edge: of the edges that connect the tree to vertices not yet

Διαβάστε περισσότερα

Διδάσκων: Παναγιώτης Ανδρέου

Διδάσκων: Παναγιώτης Ανδρέου Διάλεξη 12: Δέντρα ΙΙ -Δυαδικά Δέντρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Δυαδικά Δένδρα - Δυαδικά Δένδρα Αναζήτησης(ΔΔΑ) - Εύρεση Τυχαίου, Μέγιστου, Μικρότερου στοιχείου - Εισαγωγή

Διαβάστε περισσότερα

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους Επίλυση Προβληµάτων µε Greedy Αλγόριθµους Περίληψη Επίλυση προβληµάτων χρησιµοποιώντας Greedy Αλγόριθµους Ελάχιστα Δέντρα Επικάλυψης Αλγόριθµος του Prim Αλγόριθµος του Kruskal Πρόβληµα Ελάχιστης Απόστασης

Διαβάστε περισσότερα

Διάλεξη 04: Παραδείγματα Ανάλυσης

Διάλεξη 04: Παραδείγματα Ανάλυσης Διάλεξη 04: Παραδείγματα Ανάλυσης Πολυπλοκότητας/Ανάλυση Αναδρομικών Αλγόριθμων Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Παραδείγματα Ανάλυσης Πολυπλοκότητας : Μέθοδοι, παραδείγματα

Διαβάστε περισσότερα

Math 6 SL Probability Distributions Practice Test Mark Scheme

Math 6 SL Probability Distributions Practice Test Mark Scheme Math 6 SL Probability Distributions Practice Test Mark Scheme. (a) Note: Award A for vertical line to right of mean, A for shading to right of their vertical line. AA N (b) evidence of recognizing symmetry

Διαβάστε περισσότερα

ΠΑΝΔΠΗΣΖΜΗΟ ΠΑΣΡΩΝ ΣΜΖΜΑ ΖΛΔΚΣΡΟΛΟΓΩΝ ΜΖΥΑΝΗΚΩΝ ΚΑΗ ΣΔΥΝΟΛΟΓΗΑ ΤΠΟΛΟΓΗΣΩΝ ΣΟΜΔΑ ΤΣΖΜΑΣΩΝ ΖΛΔΚΣΡΗΚΖ ΔΝΔΡΓΔΗΑ

ΠΑΝΔΠΗΣΖΜΗΟ ΠΑΣΡΩΝ ΣΜΖΜΑ ΖΛΔΚΣΡΟΛΟΓΩΝ ΜΖΥΑΝΗΚΩΝ ΚΑΗ ΣΔΥΝΟΛΟΓΗΑ ΤΠΟΛΟΓΗΣΩΝ ΣΟΜΔΑ ΤΣΖΜΑΣΩΝ ΖΛΔΚΣΡΗΚΖ ΔΝΔΡΓΔΗΑ ΠΑΝΔΠΗΣΖΜΗΟ ΠΑΣΡΩΝ ΣΜΖΜΑ ΖΛΔΚΣΡΟΛΟΓΩΝ ΜΖΥΑΝΗΚΩΝ ΚΑΗ ΣΔΥΝΟΛΟΓΗΑ ΤΠΟΛΟΓΗΣΩΝ ΣΟΜΔΑ ΤΣΖΜΑΣΩΝ ΖΛΔΚΣΡΗΚΖ ΔΝΔΡΓΔΗΑ Γηπισκαηηθή Δξγαζία ηνπ Φνηηεηή ηνπ ηκήκαηνο Ζιεθηξνιόγσλ Μεραληθώλ θαη Σερλνινγίαο Ζιεθηξνληθώλ

Διαβάστε περισσότερα

department listing department name αχχουντσ ϕανε βαλικτ δδσϕηασδδη σδηφγ ασκϕηλκ τεχηνιχαλ αλαν ϕουν διξ τεχηνιχαλ ϕοην µαριανι

department listing department name αχχουντσ ϕανε βαλικτ δδσϕηασδδη σδηφγ ασκϕηλκ τεχηνιχαλ αλαν ϕουν διξ τεχηνιχαλ ϕοην µαριανι She selects the option. Jenny starts with the al listing. This has employees listed within She drills down through the employee. The inferred ER sttricture relates this to the redcords in the databasee

Διαβάστε περισσότερα

Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά.

Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά. Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά Xerox Research Centre Europe LIP6 - Université Pierre et Marie Curie

Διαβάστε περισσότερα

14Ιαν Νοε

14Ιαν Νοε Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Επανάληψη Γιάννης Θεοδωρίδης, Νίκος Πελέκης Εργαστήριο Πληροφοριακών Συστηµάτων http://infolab.cs.unipi.gr

Διαβάστε περισσότερα

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 2 Γιατί ανάλυση διακύμανσης; (1) Ας θεωρήσουμε k πληθυσμούς με μέσες τιμές μ 1, μ 2,, μ k, αντίστοιχα Πως μπορούμε να συγκρίνουμε τις μέσες τιμές k πληθυσμών

Διαβάστε περισσότερα

Αλγόριθμοι και πολυπλοκότητα Ταχυταξινόμηση (Quick-Sort)

Αλγόριθμοι και πολυπλοκότητα Ταχυταξινόμηση (Quick-Sort) ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Αλγόριθμοι και πολυπλοκότητα Ταχυταξινόμηση (Quick-Sort) Ιωάννης Τόλλης Τμήμα Επιστήμης Υπολογιστών Ταχυταξινόμηση (Quick-Sort) 7 4 9 6 2 2 4 6 7 9 4 2 2 4 7 9 7

Διαβάστε περισσότερα

Predicting the Choice of Contraceptive Method using Classification

Predicting the Choice of Contraceptive Method using Classification ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΣΣΑΛΟΝΙΚΗ Predicting the Choice of Contraceptive Method using Classification ΠΑΠΑΔΟΠΟΥΛΟΣ ΧΡΗΣΤΟΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Νικόλαος Σαμαράς ΕΞΕΤΑΣΤΗΣ:

Διαβάστε περισσότερα

Σχεδιαση Αλγοριθμων -Τμημα Πληροφορικης ΑΠΘ - Κεφαλαιο 9ο

Σχεδιαση Αλγοριθμων -Τμημα Πληροφορικης ΑΠΘ - Κεφαλαιο 9ο Σχεδίαση Αλγορίθμων Άπληστοι Αλγόριθμοι http://delab.csd.auth.gr/~gounaris/courses/ad 1 Άπληστοι αλγόριθμοι Προβλήματα βελτιστοποίησης ηςλύνονται με μια σειρά επιλογών που είναι: εφικτές τοπικά βέλτιστες

Διαβάστε περισσότερα

Πληρουορική Γ Γσμμασίοσ

Πληρουορική Γ Γσμμασίοσ Πληρουορική Γ Γσμμασίοσ Προγραμματισμός και Αλγόριθμοι Από το και τημ Χελώμα στημ Ευριπίδης Βραχνός http://evripides.mysch.gr/ 2014 2015 1 Προγραμματισμός Ζάννειο Πρότυπο Πειραματικό Γυμνάσιο Πειραιά Ενότητα:

Διαβάστε περισσότερα

Ο αλγόριθμος Quick-Sort. 6/14/2007 3:42 AM Quick-Sort 1

Ο αλγόριθμος Quick-Sort. 6/14/2007 3:42 AM Quick-Sort 1 Ο αλγόριθμος Quick-Sort 7 4 9 6 2 2 4 6 7 9 4 2 2 4 7 9 7 9 2 2 9 9 6/14/2007 3:42 AM Quick-Sort 1 Κύρια σημεία για μελέτη Quick-sort ( 4.3) Αλγόριθμος Partition step Δέντρο Quick-sort Παράδειγμα εκτέλεσης

Διαβάστε περισσότερα

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή 0 0 0 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση Οι διαφάνειες στηρίζονται στο P.-N. Tan,

Διαβάστε περισσότερα

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible. B-Trees Index files can become quite large for large main files Indices on index files are possible 3 rd -level index 2 nd -level index 1 st -level index Main file 1 The 1 st -level index consists of pairs

Διαβάστε περισσότερα

Διάλεξη 12: Δέντρα ΙΙ Δυαδικά Δέντρα

Διάλεξη 12: Δέντρα ΙΙ Δυαδικά Δέντρα Διάλεξη 12: Δέντρα ΙΙ Δυαδικά Δέντρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Δυαδικά Δένδρα Δυαδικά Δένδρα Αναζήτησης (ΔΔΑ) Εύρεση Τυχαίου, Μέγιστου, Μικρότερου στοιχείου Εισαγωγή στοιχείου

Διαβάστε περισσότερα

Στάδιο Εκτέλεσης

Στάδιο Εκτέλεσης 16 ΚΕΦΑΛΑΙΟ 1Ο 1.4.2.2 Στάδιο Εκτέλεσης Το στάδιο της εκτέλεσης μίας έρευνας αποτελεί αυτό ακριβώς που υπονοεί η ονομασία του. Δηλαδή, περιλαμβάνει όλες εκείνες τις ενέργειες από τη στιγμή που η έρευνα

Διαβάστε περισσότερα

Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς

Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων Προετοιμασία & Ανάλυση Χρονοσειράς http://www.fsu.gr

Διαβάστε περισσότερα

Δημιουργία Λογαριασμού Διαχείρισης Business Telephony Create a Management Account for Business Telephony

Δημιουργία Λογαριασμού Διαχείρισης Business Telephony Create a Management Account for Business Telephony Δημιουργία Λογαριασμού Διαχείρισης Business Telephony Create a Management Account for Business Telephony Ελληνικά Ι English 1/7 Δημιουργία Λογαριασμού Διαχείρισης Επιχειρηματικής Τηλεφωνίας μέσω της ιστοσελίδας

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

AVL-trees C++ implementation

AVL-trees C++ implementation Τ Μ Η Μ Α Μ Η Χ Α Ν Ι Κ Ω Ν Η / Υ Κ Α Ι Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ AVL-trees C++ implementation Δομές Δεδομένων Μάριος Κενδέα 31 Μαρτίου 2015 kendea@ceid.upatras.gr Εισαγωγή (1/3) Δυαδικά Δένδρα Αναζήτησης:

Διαβάστε περισσότερα

Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach,

Διαβάστε περισσότερα

Elements of Information Theory

Elements of Information Theory Elements of Information Theory Model of Digital Communications System A Logarithmic Measure for Information Mutual Information Units of Information Self-Information News... Example Information Measure

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΣΤΑΤΙΣΤΙΚΕΣ ΕΚΤΙΜΗΣΕΙΣ Οι συναρτήσεις πιθανότητας ή πυκνότητας πιθανότητας των διαφόρων τυχαίων μεταβλητών χαρακτηρίζονται από κάποιες

Διαβάστε περισσότερα

Εξόρυξη Γνώσης - το εργαλείο WEKA

Εξόρυξη Γνώσης - το εργαλείο WEKA Εξόρυξη Γνώσης - το εργαλείο WEKA Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http:// http://isl.cs.unipi.gr/) Κοτσιφάκος Ευάγγελος ek@unipi.gr Νοέµβριος 2008 Ανακάλυψη και Εξόρυξη

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Αναζήτηση Δοθέντος ενός προβλήματος με περιγραφή είτε στον χώρο καταστάσεων

Διαβάστε περισσότερα

Αλγόριθµοι Τύπου Μείωσης Προβλήµατος

Αλγόριθµοι Τύπου Μείωσης Προβλήµατος Αλγόριθµοι Τύπου Μείωσης Προβλήµατος Περίληψη Αλγόριθµοι Τύπου Μείωσης Προβλήµατος ( Decrease and Conquer ) Μείωση κατά µια σταθερά (decrease by a constant) Μείωση κατά ένα ποσοστό (decrease by a constant

Διαβάστε περισσότερα

Μηχανική Μάθηση Hypothesis Testing

Μηχανική Μάθηση Hypothesis Testing ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Μηχανική Μάθηση Hypothesis Testing Γιώργος Μπορμπουδάκης Τμήμα Επιστήμης Υπολογιστών Procedure 1. Form the null (H 0 ) and alternative (H 1 ) hypothesis 2. Consider

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Είδη Μεταβλητών. κλίµακα µέτρησης

Είδη Μεταβλητών. κλίµακα µέτρησης ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρµοσµένες Επιστήµες Στατιστικός Πληθυσµός και Δείγµα Το στατιστικό

Διαβάστε περισσότερα

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309 Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2013-2014 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητή: ένα χαρακτηριστικό ή ιδιότητα που μπορεί να πάρει διαφορετικές τιμές

Διαβάστε περισσότερα

Διάλεξη 16: Πρόβλημα Συμφωνίας. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι

Διάλεξη 16: Πρόβλημα Συμφωνίας. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι Διάλεξη 16: Πρόβλημα Συμφωνίας ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι Τι θα δούμε σήμερα Ορισμός του προβλήματος Συμφωνίας Αλγόριθμος Συμφωνίας με Σφάλματα Κατάρρευσης ΕΠΛ432: Κατανεµηµένοι Αλγόριθµοι 1 Πρόβλημα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις)

Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Κατηγοριοποίηση ΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 200-20 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ II Κατηγοριοποίηση Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες

Διαβάστε περισσότερα

ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. Χειµερινό Εξάµηνο ΔΙΑΛΕΞΗ 3: Αλγοριθµική Ελαχιστοποίηση (Quine-McCluskey, tabular method)

ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. Χειµερινό Εξάµηνο ΔΙΑΛΕΞΗ 3: Αλγοριθµική Ελαχιστοποίηση (Quine-McCluskey, tabular method) ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Χειµερινό Εξάµηνο 2016 ΔΙΑΛΕΞΗ 3: Αλγοριθµική Ελαχιστοποίηση (Quine-McCluskey, tabular method) ΧΑΡΗΣ ΘΕΟΧΑΡΙΔΗΣ Επίκουρος Καθηγητής, ΗΜΜΥ (ttheocharides@ucy.ac.cy)

Διαβάστε περισσότερα

Εργαστήριο 7: Ο αλγόριθμος ταξινόμησης Radix Sort

Εργαστήριο 7: Ο αλγόριθμος ταξινόμησης Radix Sort Εργαστήριο 7: Ο αλγόριθμος ταξινόμησης Radix Sort Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: -Ο αλγόριθμος ταξινόμησης Radix Sort -Δυο εκδοχές: Most Significant Digit (MSD) και Least Significant

Διαβάστε περισσότερα

Δομές Δεδομένων Ενότητα 4

Δομές Δεδομένων Ενότητα 4 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 4: Ουρές Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό

Διαβάστε περισσότερα

Εισαγωγή στον Προγραμματισμό

Εισαγωγή στον Προγραμματισμό Εισαγωγή στον Προγραμματισμό Έλεγχος Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ακ. Έτος 2012-2013 Σχεσιακοί Τελεστές και Ισότητας Ένα πρόγραμμα εκτός από αριθμητικές πράξεις

Διαβάστε περισσότερα