squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

Σχετικά έγγραφα
ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

Ι. Preprocessing (Επεξεργασία train.arff):

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ: ΕΠΙΛΟΓΗ ΒΕΛΤΙΣΤΟΥ ΑΛΓΟΡΙΘΜΟΥ

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

ιακριτά Μαθηµατικά και Μαθηµατική Λογική ΠΛΗ20 Ε ρ γ α σ ί α 3η Θεωρία Γραφηµάτων

οµή δικτύου ΣΧΗΜΑ 8.1

ΕΡΩΤΗΜΑ 1 ΕΡΩΤΗΜΑ 2. ELONGATEDNESS <= 41 AND MAX.LENGTH ASPECT RATIO <= 7 AND COMPACTNESS > 95: bus (70.0/1.0)

Μάθηµα 1. Κεφάλαιο 1o: Συστήµατα. γ R παριστάνει ευθεία και καλείται γραµµική εξίσωση µε δύο αγνώστους.

ΕΠΙΤΑΧΥΝΣΗ- ΕΠΙΤΑΧΥΝΟΜΕΝΗ ΚΙΝΗΣΗ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΤΞΗ ΠΛΗΡΟΦΟΡΙΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ

Α. ΤΕΙ ΚΡΗΤΗΣ Τµήµα Εφαρµοσµένης Πληροφορικής και Πολυµέσων Εργαστήριο Νευρωνικών Δικτύων

Η εφαρµογή xsortlab. Οπτικός τρόπος ταξινόµησης

Α. ΠΡΟΣΘΕΣΗ - ΑΦΑΙΡΕΣΗ ΡΗΤΩΝ ΠΑΡΑΣΤΑΣΕΩΝ ΜΕ ΚΟΙΝΟ ΠΑΡΟΝΟΜΑΣΤΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

γράφοντας µε τον υπολογιστή


Επίλυση Προβληµάτων µε Greedy Αλγόριθµους

Γραµµικη Αλγεβρα Ι Επιλυση Επιλεγµενων Ασκησεων Φυλλαδιου 8

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

τη µέθοδο της µαθηµατικής επαγωγής για να αποδείξουµε τη Ϲητούµενη ισότητα.

ειγµατοληπτική κατανοµή

Α. ΑΝΙΣΟΤΗΤΕΣ - ΚΑΝΟΝΕΣ ΑΝΙΣΟΤΗΤΩΝ

1 Συνοπτική ϑεωρία. 1.1 Νόµοι του Προτασιακού Λογισµού. p p p. p p. ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών

Ασκήσεις για το µάθηµα «Ανάλυση Ι και Εφαρµογές»

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΕΙΡΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑ


Οι πράξεις που χρειάζονται για την επίλυση αυτών των προβληµάτων (αφού είναι απλές) µπορούν να τεθούν σε µια σειρά και πάρουν µια αλγοριθµική µορφή.

ONE WAY ANOVA. .Π.Μ.Σ. Μαθηµατικά των Υπολογιστών & των αποφάσεων. Πάτρα, 11 Ιανουαρίου 2011


PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ

Μετάδοση εδοµένων και ίκτυα υπολογιστών ΙΙ Εργαστηριακή Άσκηση 3. Σύνδεση υπολογιστών στα Windows

Γραµµική Άλγεβρα. Εισαγωγικά. Μέθοδος Απαλοιφής του Gauss

(1) 98! 25! = 4 100! 23! = 4

ΘΕΑΝΩ ΕΡΙΦΥΛΗ ΜΟΣΧΟΝΑ ΣΥΜΠΛΗΡΩΜΑΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΕΙ ΠΑΤΡΑΣ ΤΕΙ ΠΑΤΡΑΣ ΣΗΜΕΙΩΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΏΝ ΠΑΙΓΝΙΩΝ- ΠΡΟΓΡΑΜΜΑ GAMBIT

Οι θεµελιώδεις έννοιες που απαιτούνται στη Επαγωγική Στατιστική (Εκτιµητική, ιαστήµατα Εµπιστοσύνης και Έλεγχοι Υποθέσεων) είναι:

H ΓΛΩΣΣΑ C. Μάθηµα 7: Πίνακες. ηµήτρης Ψούνης

Μάθηµα Θεωρίας Αριθµών Ε.Μ.Ε

1 Ορισµός ακολουθίας πραγµατικών αριθµών

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ

Data Focus Business Solutions σελ. 1/10

Εργαστήριο ΨΗΦΙΑΚΗ ΛΟΓΙΚΗ. Εισαγωγή

Kεφάλαιο 10. Πόσα υποπαίγνια υπάρχουν εδώ πέρα; 2 υποπαίγνια.

Κεφάλαιο 9 ο Κ 5, 4 4, 5 0, 0 0,0 5, 4 4, 5. Όπως βλέπουµε το παίγνιο δεν έχει καµιά ισορροπία κατά Nash σε αµιγείς στρατηγικές διότι: (ΙΙ) Α Κ

Γραµµική Αλγεβρα Ι. Ενότητα: Εισαγωγικές Εννοιες. Ευάγγελος Ράπτης. Τµήµα Μαθηµατικών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ η Σειρά Ασκήσεων ΑΠΑΝΤΗΣΕΙΣ

Θέµα 3: Dynamic Time Warping (DTW). Hidden Markov Models (HMM).

Παράρτηµα 3 Μέθοδοι Διαχρονικής Βελτιστοποίησης

12 Το αόριστο ολοκλήρωµα

ζωγραφίζοντας µε τον υπολογιστή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών. ΗΥ-217: Πιθανότητες-Χειµερινό Εξάµηνο 2015 ιδάσκων : Π. Τσακαλίδης. Λύσεις Τρίτης Σειράς Ασκήσεων

Θα συµπληρώσετε τα απαραίτητα στοιχεία που βρίσκονται µε έντονα γράµµατα για να δηµιουργήσετε την νέα εταιρεία.

ΗΜΙΟΥΡΓΙΑ ΙΣΤΟΣΕΛΙ ΑΣ ΣΤΟ MICROSOFT WORD

Συναρτησιακές Εξαρτήσεις. Βάσεις εδοµένων Ευαγγελία Πιτουρά 1

ΡΗΤΟΙ ΑΡΙΘΜΟΙ - ΘΕΩΡΙΑ

Ο είκτης Συσχέτισης. Υπάρχουν πολλές οι έρευνες στις οποίες µας ενδιαφέρει να µελετήσουµε αν υπάρχει ΑΛΛΗΛΕΞΑΡΤΗΣΗ µεταξύ δύο µεταβλητών

HY118- ιακριτά Μαθηµατικά. Μαθηµατική επαγωγή. 11 Επαγωγή

Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 3.1 Συσχέτιση δύο τ.µ.

Επίλυση Γραµµικών Συστηµάτων

1ο. Η αριθµητική του υπολογιστή

Εγχειρίδιο χρήσης του λογισµικού «Ταξινοµούµε»

P (A) = 1/2, P (B) = 1/2, P (C) = 1/9

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

ΠΑΡΑ ΕΙΓΜΑΤΑ ΓΡΑΦΗΣ ΕΞΙΣΩΣΕΩΝ ΚΑΤΑΣΤΑΣΕΩΣ ΣΕ ΗΛΕΚΤΡΙΚΑ ΙΚΤΥΑ

2o μέρος εργασίας (Αρχείο cpu)

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Κεφάλαιο 6. Πεπερασµένα παραγόµενες αβελιανές οµάδες. Z 4 = 1 και Z 2 Z 2.

Ηλεκτρονική Ξενάγηση. Περιεχόµενα

P (A) + P (B), [Α,Β: ξένα µεταξύ τους] P (C A B) [P (A) + P (B)] P (C A) P (A) P (B) 3 4 ( ) 1 7 = 3 7 =

ΚΕΦΑΛΑΙΟ 6 ΧΡΗΣΗ ΓΡΑΜΜΙΚΩΝ ΜΟΝΤΕΛΩΝ ΚΑΙ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝ ΡΟΜΗΣΗΣ

ΟΜΗ ΤΗΣ ΕΦΑΡΜΟΓΗΣ... 3 ΕΡΩΤΗΣΕΙΣ... 5 ΕΡΕΥΝΕΣ... 8

Αρχίστε αµέσως το πρόγραµµα xline Εσόδων Εξόδων.

Οικονοµετρικό Υπόδειγµα. Γράφηµα Ροής 1.

4.2 Μέθοδος Απαλοιφής του Gauss

EΦΑΡΜΟΓΕΣ ΤΗΣ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ Γραµµική Εκτίµηση Τυχαίων Σηµάτων Φίλτρο Kalman

3. Η µερική παράγωγος

Κεφάλαιο 4 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 4.1 Συσχέτιση δύο τ.µ.

Mathematics and its Applications, 5th

ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ ΤΟ ARIS

Excel (dashboards, συγκεντρωτικοί πίνακες)

(365)(364)(363)...(365 n + 1) (365) k

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Αρµονική Ανάλυση. Ενότητα: Μέτρο Lebesgue. Απόστολος Γιαννόπουλος. Τµήµα Μαθηµατικών

Heapsort Using Multiple Heaps

ΛΙΒΑΘΙΝΟΣ ΝΙΚΟΛΑΟΣ Επιστήµη και Τεχνολογία των Υπολογιστών Α.Μ.: 403. Πρώτη Οµάδα Ασκήσεων

Εκτίµηση περιβαλλοντικών επιπτώσεων:

Transcript:

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣ ΣΤΙΣ ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΈΤΟΣ 2009 ΌΝΟΜΑ : ΚΑΤΣΑΒΡΙΑΣ ΕΥΑΓΓΕΛΟΣ Α.Μ. : 09480014 ΕΞΑΜΗΝΟ : 2 Ο ΜΕΤΑΠΤΥΧΙΑΚΟ Ι ΑΣΚΩΝ : ΓΕΩΡΓΙΟΣ ΤΖΙΡΑΛΗΣ

Τα δεδοµένα που µας έχουν δοθεί προς επεξεργασία χωρίζονται σε τρία µέρη : 1. Σε ένα σύνολο εκπαίδευσης ( training set ), που αποτελείται από 2528 υποδείγµατα ( instances ) και 40 αριθµητικά χαρακτηριστικά ( numeric attributes ). Το σύνολο εκπαίδευσης είναι για την δηµιουργία µοντέλων ταξινόµησης. 2. Σε ένα σύνολο επαλήθευσης ( quiz set ), που αποτελείται από 1265 υποδείγµατα και 39 αριθµητικά χαρακτηριστικά. Το σύνολο επαλήθευσης είναι για την βελτιστοποίηση των παραµέτρων κάθε µοντέλου. 3. Σε ένα σύνολο ελέγχου ( test set ), που αποτελείται από 1265 υποδείγµατα και 39 αριθµητικά χαρακτηριστικά. Το σύνολο ελέγχου είναι για τον υπολογισµό της τιµής σφάλµατος της τελικά επιλεγµένης και βελτιστοποιηµένης µεθόδου. 1 ο Βήµα : Επιλογή των attributes Πριν ξεκινήσουµε να τρέχουµε οποιονδήποτε αλγόριθµο στο training set, πρέπει να προεπεξεργαστούµε τα δεδοµένα µας (δηλ. αν χρειάζεται να αφαιρέσουµε κάποια χαρακτηριστικά). Καταρχάς, µε την επιλογή select attributes και διαλέγοντας κάποιες µεθόδους, το WEKA µας εµφανίζει τα σηµαντικότερα χαρακτηριστικά κάθε φορά. Έτσι τρέχοντας κάποιους αλγόριθµους µε αυτά τα χαρακτηριστικά, παρατηρήσαµε ότι τα σφάλµατα ( Relative absolute error, Root relative squared error, Mean absolute error, Root mean squared error) µεγάλωσαν, όπως επίσης το Correlation coefficient µίκρυνε. Συνεπώς καταλαβαίνουµε ότι δεν είναι καλή επιλογή. Μία δεύτερη σκέψη ήταν επιλέγοντας έναν απλό αλγόριθµο (π.χ. το δοκίµασα µε τον M5Rules) να αρχίσουµε να αφαιρούµε ένα ένα τα χαρακτηριστικά και να τα κρατάµε ή να τα αφαιρούµε ανάλογα µε το τι έκανε το σφάλµα. Έτσι καταλήξαµε σε 14 χαρακτηριστικά ( attr10, 11, 15, 17, 22, 23, 24, 27, 29, 32, ΚΑΤΣΑΒΡΙΑΣ ΕΥΑΓΓΕΛΟΣ 2

33, 37, 39, output). Με αυτό τον τρόπο το µόνο που καταφέραµε ήταν να βελτιστοποιήσουµε την λύση µόνο µε τον παραπάνω αλγόριθµο. Μια τρίτη σκέψη ήταν να αφήσω τα χαρακτηριστικά όπως είναι και να µην αφαιρέσω κανένα (να µην πετάξουµε καµία πληροφορία). Αυτό σε µερικούς αλγορίθµους µας βοήθησε και σε άλλους όχι. Τέλος µε το WEKA µπορούµε να κάνουµε έναν γρήγορο οπτικό έλεγχο στα χαρακτηριστικά µας µε την επιλογή Visualize All. Με την βοήθεια αυτής της επιλογής µπορούµε να ελέγξουµε ποια χαρακτηριστικά είναι σηµαντικά και ποια όχι, έτσι έχουµε : Παρατηρούµε ότι στο attribute38 όλα τα instances έχουν τιµή 0, συνεπώς µπορούµε να την αφαιρέσουµε χωρίς να έχουµε ιδιαίτερο πρόβληµα. Όµοια παρατηρούµε ότι τα attribute34 και attribute36 µπορούν και αυτά να αφαιρεθούν. Από την επιλογή edit, παρατηρούµε ότι το attribute34 έχει όλα τα instances 0 εκτός από ένα και το attribute36 έχει και αυτό σχεδόν όλα τα instances 0. ΚΑΤΣΑΒΡΙΑΣ ΕΥΑΓΓΕΛΟΣ 3

Μετά την αφαίρεση των τριών χαρακτηριστικών τρέχοντας τυχαία κάποιους αλγόριθµους παρατηρούµε ότι τα σφάλµατα στους περισσότερους αλγόριθµους δεν µεταβάλλονται, ενώ σε µερικούς έχουν µειωθεί. Συνεπώς από τα παραπάνω καταλαβαίνουµε ότι η καλύτερη επιλογή είναι η τελευταία, όπου έχουµε αφαιρέσει τα τρία attributes (34, 36, 38) που δεν είναι σηµαντικά. 2 ο Βήµα : Επιλογή κατάλληλου αλγορίθµου (σε training και quiz set) Σε αυτό το βήµα θα προσπαθήσουµε να βρούµε τον κατάλληλο αλγόριθµο, µε το µικρότερο σφάλµα στο training set. Έπειτα, θα κάνουµε την ίδια διαδικασία στο quiz set για να δούµε το ποσοστό επιτυχίας (success rate) του αλγορίθµου αυτού, που πιθανότατα θα είναι και η βέλτιστη λύση. Εδώ, πρέπει να αναφέρουµε ότι το quiz set έχει 39 attributes. Γι αυτό το λόγο δηµιουργούµε ένα ψεύτικο attribute, το ονοµάζουµε output και του δίνουµε τιµή 0 σε όλα τα instances. Έτσι ξεκινάµε να δοκιµάζουµε διάφορους αλγόριθµους. Όπως έχουµε αναφέρει και παραπάνω, τα χαρακτηριστικά µας είναι αριθµητικά, συνεπώς ο αριθµός των αλγορίθµων που µπορούµε να τρέξουµε είναι περιορισµένος. Με αριθµητικά χαρακτηριστικά δεν τρέχουν καθόλου οι αλγόριθµοι Bayes, Mi και Misc, όπως επίσης αρκετοί από τα trees και rules. Με την βοήθεια του WEKA µπορούµε να ΚΑΤΣΑΒΡΙΑΣ ΕΥΑΓΓΕΛΟΣ 4

µετατρέψουµε τα χαρακτηριστικά από numeric σε nominal, αλλά δεν θα το πράξουµε γιατί έτσι θα χάσουµε πολύτιµες πληροφορίες. Για αρχή ξεκινήσαµε να τρέχουµε κάποιους αλγόριθµους functions και rules, αλλά τα αποτελέσµατα δεν ήταν και πολύ καλά, ούτε στο training set, αλλά ούτε και στο quiz set. Το ίδιο ισχύει και για τους αλγόριθµους trees και lazy. Οι καλύτεροι αλγόριθµοι, από θεωρητικής πλευράς αλλά και από πλευράς αποτελεσµάτων, είναι οι meta. Μπορούµε να συνδυάσουµε τους meta ή µε άλλους meta ή µε τους υπόλοιπους αλγόριθµους, και έτσι παίρνουµε πολύ µικρά σφάλµατα. Πάντα όµως υπάρχει και ο φόβος του overtraining, δηλαδή να µην έχουµε βελτιστοποιήσει την λύση συνολικά, αλλά µόνο στο training set. Γι αυτό καλό θα ήταν να µην χρησιµοποιήσουµε, πάνω απο τρείς φορές µαζί, meta αλγόριθµο. Έπειτα λοιπόν από αρκετούς συνδυασµούς meta αλγορίθµων, καταλήξαµε ότι ένας πολύ καλός meta αλγόριθµος είναι ο RegressionByDiscretization. Οι τέσσερις καλύτεροι συνδυασµοί που βρήκαµε, µε µικρά σφάλµατα, µεγάλο Correlation coefficient και καλό success rate, µετά από την εφαρµογή τους στο quiz set, είναι οι παρακάτω : 1 ος Αλγόριθµος : Bagging RegressionByDiscretization J48 === Cross-validation === === Summary === Correlation coefficient 0.9123 Mean absolute error 0.0615 Root mean squared error 0.1742 Relative absolute error 17.0029 % Root relative squared error 40.9434 % Total Number of Instances 2528 ΚΑΤΣΑΒΡΙΑΣ ΕΥΑΓΓΕΛΟΣ 5

2 ος Αλγόριθµος : RandomSubSpace RegressionByDiscretization J48 === Cross-validation === === Summary === Correlation coefficient 0.9154 Mean absolute error 0.0721 Root mean squared error 0.1722 Relative absolute error 19.9263 % Root relative squared error 40.4707 % Total Number of Instances 2528 3 ος Αλγόριθµος : RandomSubSpace RegressionByDiscretization J48graft === Cross-validation === === Summary === Correlation coefficient 0.9198 Mean absolute error 0.0685 Root mean squared error 0.1678 Relative absolute error 18.9252 % Root relative squared error 39.4458 % Total Number of Instances 2528 ΚΑΤΣΑΒΡΙΑΣ ΕΥΑΓΓΕΛΟΣ 6

4 ος Αλγόριθµος : RegressionByDiscretization Vote { J48, J48graft, Bagging, AdaBoostM1, RandomSubSpace, RotationForest } === Cross-validation === === Summary === Correlation coefficient 0.9252 Mean absolute error 0.0657 Root mean squared error 0.1624 Relative absolute error 18.1707 % Root relative squared error 38.184 % Total Number of Instances 2528 Για να βρούµε τώρα το ποσοστό επιτυχίας (success rate) των αλγορίθµων, θα πρέπει να αφαιρέσουµε από το quiz set, τα χαρακτηριστικά που είχαµε αφαιρέσει και στο training set (attr34, attr36, attr38). Έπειτα θα ορίσουµε σαν Supplied test set το νέο quiz set και έχουµε τα ακόλουθα αποτελέσµατα : Success rates 1 ος Αλγόριθµος : 0.9534 2 ος Αλγόριθµος : 0.9526 3 ος Αλγόριθµος : 0.9549 4 ος Αλγόριθµος : 0.9541 ΚΑΤΣΑΒΡΙΑΣ ΕΥΑΓΓΕΛΟΣ 7

3 ο Βήµα : Εφαρµογή του αλγόριθµου στο test set Για την τελική µας υποβολή στο test set, θα επιλέξουµε τον 3 ο αλγόριθµο, δηλ. RandomSubSpace RegressionByDiscretization J48graft. Πολύ καλός αλγόριθµος φαίνεται να είναι και ο 4 ος ( RegressionByDiscretization Vote {J48, J48graft, Bagging, AdaBoostM1, RandomSubSpace, RotationForest} ), γιατί έχει µικρότερο σφάλµα και καλύτερο Correlation coefficient από τον 3 ο, αλλά δεν θα τον επιλέξουµε για τον λόγο ότι έχουµε χρησιµοποιήσει τρείς meta αλγορίθµους και υπάρχει ο φόβος του overtraining. Για να εφαρµόσουµε τον επιλεγµένο αλγόριθµο στο test set, πρέπει να µετατρέψουµε το test set αυτό. ηλαδή πρέπει να αφαιρέσουµε από αυτό τις attribute 34, 36, 38 και να προσθέτουµε ένα ψεύτικο attribute, όπου το ονοµάζουµε output και του δίνουµε τιµή 0 σε όλα τα instances. Έτσι τώρα, ορίζουµε, το νέο test set στο Supplied test set και τρέχουµε τον αλγόριθµο. ΚΑΤΣΑΒΡΙΑΣ ΕΥΑΓΓΕΛΟΣ 8