ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΤΞΗ ΠΛΗΡΟΦΟΡΙΑ

Σχετικά έγγραφα
ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

Ι. Preprocessing (Επεξεργασία train.arff):

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium V

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

Ένα πρόβλθμα γραμμικοφ προγραμματιςμοφ βρίςκεται ςτθν κανονικι μορφι όταν:

Παράςταςη ςυμπλήρωμα ωσ προσ 1

ΘΥ101: Ειςαγωγι ςτθν Πλθροφορικι

Δείκτεσ Διαχείριςθ Μνιμθσ. Βαγγζλθσ Οικονόμου Διάλεξθ 8

Πόςο εκτατό μπορεί να είναι ζνα μη εκτατό νήμα και πόςο φυςικό. μπορεί να είναι ζνα μηχανικό ςτερεό. Συνιςταμζνη δφναμη versus «κατανεμημζνησ» δφναμησ

review1= a great movie - positive, review2= excellent film - positive review3= worst film ever - negative, review4= a bad movie - negative

ΕΡΓΑΣΗΡΙΟ ΕΦΑΡΜΟΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη

Ηλεκτρονικι Επιχειρθςιακι Δράςθ Εργαςτιριο 1

Οδηγίεσ προσ τουσ εκπαιδευτικοφσ για το μοντζλο τησ Αριθμογραμμήσ

ΠΡΟΦΟΡΑ ΖΗΣΗΗ ΚΡΑΣΘΚΗ ΠΑΡΕΜΒΑΗ

ΑΝΣΙΣΡΟΦΗ ΤΝΑΡΣΗΗ. f y x y f A αντιςτοιχίηεται ςτο μοναδικό x A για το οποίο. Παρατθριςεισ Ιδιότθτεσ τθσ αντίςτροφθσ ςυνάρτθςθσ 1. Η. f A τθσ f.

Ανάλυςη κλειςτϊν δικτφων

ΕΦΑΡΜΟΓΕ ΒΑΕΩΝ ΔΕΔΟΜΕΝΩΝ ΣΗ ΝΟΗΛΕΤΣΙΚΗ. Φιλιοποφλου Ειρινθ

ςυςτιματα γραμμικϊν εξιςϊςεων

Λαμβάνοντασ υπόψη ότι κατά την πρόςθεςη δφο δυαδικϊν ψηφίων ιςχφει: Κρατοφμενο

Οδηγίεσ προσ τουσ εκπαιδευτικοφσ για το μοντζλο του Άβακα

Αυτόνομοι Πράκτορες. Αναφορά Εργασίας Εξαμήνου. Το αστέρι του Aibo και τα κόκαλα του

ΗΛΕΚΣΡΟΝΙΚΗ ΤΠΗΡΕΙΑ ΑΠΟΚΣΗΗ ΑΚΑΔΗΜΑΪΚΗ ΣΑΤΣΟΣΗΣΑ

DIOSCOURIDES VERSION

HY437 Αλγόριθμοι CAD

ΑΣΛΑΝΣΙΚΗ ΕΝΩΗ ΠΑΝΕΤΡΩΠΑΪΚΟ STRESS TEST ΑΦΑΛΙΣΙΚΩΝ ΕΣΑΙΡΙΩΝ ΑΠΟΣΕΛΕΜΑΣΑ 2014

Οδηγίεσ για την Τποβολή Καταςτάςεων υμφωνητικών μζςω xml αρχείου

Megatron ERP Βάςη δεδομζνων Π/Φ - κατηγοριοποίηςη Databox

Γενικόσ Δείκτησ Τιμών Καταναλωτή (ΔΤΚ) Γενικοφ ΔΤΚ. Εκπαίδευςη Αλκοολοφχα ποτά & Καπνό Χρηςιμοποιήςαμε τα λογιςμικά Excel, PowerPoint & Piktochart.

ΛΕΙΣΟΤΡΓΙΚΆ ΤΣΉΜΑΣΑ. 3 ο Εργαςτιριο υγχρονιςμόσ Διεργαςιϊν

Ανάπτυξη Εφαρμογών με Σχεςιακέσ Βάςεισ Δεδομένων

Μεθολογία αςκιςεων αραίωςησ και ανάμειξησ διαλυμάτων (με τθν ίδια δ. ουςία).

Ειδικά Θζματα Βάςεων Δεδομζνων

ΑΝΑΠΣΤΞΘ ΕΦΑΡΜΟΓΩΝ Ε ΠΡΟΓΡΑΜΜΑΣΙΣΙΚΟ ΠΕΡΙΒΑΛΛΟΝ 3 ο ΓΕΝΙΚΟ ΛΤΚΕΙΟ Ν. ΜΤΡΝΘ- ΕΠΙΜΕΛΕΙΑ: ΠΤΡΙΔΑΚΘ Λ.

Επιχειρηςιακή Ζρευνα και εφαρμογζσ με την χρήςη του λογιςμικοφ R

3 ο ΓΥΜΝΑΣΙΟ ΤΡΙΚΑΛΩΝ ΕΡΓΑΣΙΑ ΤΕΧΝΟΛΟΓΙΑΣ Γ ΓΥΜΝΑΣΙΟΥ

ΑΞΙΟΛΟΓΗΣΗ ΕΚΠΑΙΔΕΥΤΙΚΟΥ

Πειραματικι Ψυχολογία (ΨΧ66)

Θεςιακά ςυςτιματα αρίκμθςθσ

ΦΥΕ 14 ΑΚΑΔ. ΕΤΟΣ Η ΕΡΓΑΣΙΑ. Ημερομηνία παράδοςησ: 12 Νοεμβρίου (Όλεσ οι αςκιςεισ βακμολογοφνται ιςοτίμωσ με 10 μονάδεσ θ κάκε μία)

3 θ διάλεξθ Επανάλθψθ, Επιςκόπθςθ των βαςικϊν γνϊςεων τθσ Ψθφιακισ Σχεδίαςθσ

Διαδικαςία Προγράμματοσ Ωρομζτρθςθσ. (v.1.0.7)

ΒΙΟΛΟΓΟΙ ΓΙΑ ΦΥΣΙΚΟΥΣ

Δομζσ Αφαιρετικότθτα ςτα Δεδομζνα

Εγχειρίδιο Χρήςησ Προςωποποιημζνων Υπηρεςιών Γ.Ε.ΜΗ. (Εθνικό Τυπογραφείο)

Παράςταςη ακεραίων ςτο ςυςτημα ςυμπλήρωμα ωσ προσ 2

ΕΝΟΤΗΤΑ 2: ΤΟ ΛΟΓΙΣΜΙΚΟ ΤΟΥ ΥΠΟΛΟΓΙΣΤΗ. ΚΕΦΑΛΑΙΟ 5: Γνωριμία με το λογιςμικό του υπολογιςτι

ΕΝΟΣΗΣΑ 1: ΓΝΩΡIΖΩ ΣΟΝ ΤΠΟΛΟΓΙΣΗ. ΚΕΦΑΛΑΙΟ 3: Εργονομία

Εγχειρίδιο Χρήςησ Προςωποποιημζνων Υπηρεςιών Γ.Ε.ΜΗ. (Εθνικό Τυπογραφείο)

Εγχειρίδιο Χρήςησ Προςωποποιημζνων Υπηρεςιών Γ.Ε.ΜΗ. (Περιφέρειες)

ΚΥΠΡΙΑΚΗ ΜΑΘΗΜΑΤΙΚΗ ΕΤΑΙΡΕΙΑ

Αναφορά Εργαςίασ Nim Game

Εφδοξοσ+ Συνδεκείτε ςτθν Εφαρμογι Φοιτθτϊν και μεταβείτε ςτθ ςελίδα «Ανταλλαγι Βιβλίων (Εφδοξοσ+)».

Διαδικαςία Διαχείριςθσ Στθλϊν Βιβλίου Εςόδων - Εξόδων. (v.1.0.7)

Διαχείριςη Αριθμοδεικτών (v.1.0.7)

Είναι μια μελζτθ αςκενι-μάρτυρα (case-control). Όςοι ςυμμετζχουν ςτθν μελζτθ ζχουν επιλεγεί με βάςθ τθν ζκβαςθ.

Ζρευνα ικανοποίθςθσ τουριςτϊν

Διδάςκων: Κωνςταντίνοσ τεφανίδθσ

1. Κατέβαςμα του VirtueMart

Δια-γενεακι κινθτικότθτα

ΜΑΘΗΜΑΤΙΚΑ Α Γυμνασίου

ΥΡΟΝΣΙ ΣΗΡΙΟ Μ. Ε. ΚΑΙ ΚΕΝΣΡΟ ΙΔΙΑΙΣΕΡΩΝ ΜΑΘΗΜΑΣΩΝ «ΚΤΡΙΣ Η» ΔΙΑΓΩΝΙ ΜΑ ΑΕΠΠ

Εργαςτιριο Βάςεων Δεδομζνων

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΣΙΑ ΤΠΟΤΡΓΕΙΟ ΟΙΚΟΝΟΜΙΚΩΝ. Πορεία Εκτζλεςθσ Προχπολογιςμοφ Προςωρινά τοιχεία Ιανουαρίου Αυγοφςτου 2010

ΔΕΛΣΙΟ ΣΤΠΟΤ. Από τθν Ελλθνικι Στατιςτικι Αρχι (ΕΛΣΤΑΤ) ανακοινϊνεται το Ακακάριςτο Εγχϊριο Προϊόν για το 2 ο τρίμθνο του 2015(προςωρινά ςτοιχεία).

ΠΡΟΓΡΑΜΜΑΣΙΜΌ ΤΠΟΛΟΓΙΣΏΝ. Κεφάλαιο 8 Η γλϊςςα Pascal

ΡΟΓΑΜΜΑΤΙΣΤΙΚΟ ΡΕΙΒΑΛΛΟΝ MICRO WORLDS PRO

Ιςοηυγιςμζνα δζντρα και Β- δζντρα. Δομζσ Δεδομζνων

Διαχείριςθ του φακζλου "public_html" ςτο ΠΣΔ

ΠΑΝΕΠΙΣΗΜΙΑΚΟ ΓΕΝΙΚΟ ΝΟΟΚΟΜΕΙΟ «ΑΣΣΙΚΟΝ» ΕΚΘΕΗ ΕΠΕΞΕΡΓΑΙΑ ΕΡΩΣΗΜΑΣΟΛΟΓΙΩΝ ΑΘΕΝΩΝ ΣΩΝ ΕΞΩΣΕΡΙΚΩΝ ΙΑΣΡΕΙΩΝ ΦΕΒΡΟΤΑΡΙΟ 2012

Πανεπιςτιμιο Κφπρου ΟΙΚ 223: Μακθματικά για οικονομολόγουσ ΙΙ Διδάςκων:

Γεωργικός Πειραματισμός ΙΙ

Γενικά Μαθηματικά ΙΙ

3 ΕΝΤΟΛΕΣ ΕΠΑΝΑΛΗΨΗΣ ( while, do while )

1 ο ΜΑΘΗΜΑ Κεφάλαιο 1, Παράγραφοι 1.1, 1.2 ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Μάθημα 9 ο ΤΕΧΝΙΚΕΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΙΚΟΝΙΚΗΣ ΜΝΗΜΗΣ

Slide 1. Εισαγωγή στη ψυχρομετρία

Στα προθγοφμενα δφο εργαςτιρια είδαμε τθ δομι απόφαςθσ (ι επιλογισ ι ελζγχου ροισ). Ασ κυμθκοφμε:

Σχεδίαςη Σφγχρονων Ακολουθιακών Κυκλωμάτων

Στατιςτικζσ δοκιμζσ. Συνεχι δεδομζνα. Γεωργία Σαλαντι

Γεωργικός Πειραματισμός ΙΙ ΑΥΞΗΜΕΝΑ ΣΧΕΔΙΑ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΣΙΑ ΤΠΟΤΡΓΕΙΟ ΟΙΚΟΝΟΜΙΚΩΝ. Πορεία Εκτζλεςθσ Προχπολογιςμοφ τοιχεία Ιανουαρίου Αυγοφςτου 2010

ΟΜΑΔΑ: ΘΕΟΚΛΗΣΩ-ΑΝΣΡΕΑ-ΝΕΦΕΛΗ

Διαδικαζία Διατείριζης Εκηύπωζης Ιζοζσγίοσ Γενικού - Αναλσηικών Καθολικών. (v )

Γράφοι. Δομζσ Δεδομζνων Διάλεξθ 9

ΕΠΑΝΕΚΔΟΗ ΣΙΜΟΛΟΓΙΩΝ ΙΑΝΟΤΑΡΙΟΤ (version )

Ε. ε περίπτωςθ που θ διαφορά των δφο ηαριϊν είναι 3 τότε ο παίκτθσ ξαναρίχνει μόνο ζνα ηάρι.

Δίκτυα Υπολογιςτϊν 2-Rooftop Networking Project

Δείκτεσ απόδοςθσ υλικών

τατιςτικά ςτοιχεία ιςτότοπου Κ.Ε.Π.Α. Α.Ν.Ε.Μ, για τθν περίοδο 1/1/ /12/2014

Προώθησε το site σου στις μηχανε ς αναζη τησης

ΟΙΚΙΑΚΗ ΟΙΚΟΝΟΜΙΑ ΑΡΙΘΜΟ ΑΝΑΠΛΗΡΩΣΩΝ

Transcript:

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ χολι Εφαρμοςμζνων Μακθματικϊν και Φυςικϊν Επιςτθμϊν ΔΠΜΣ: Εφαρμοςμζνεσ Μακθματικζσ Επιςτιμεσ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΤΞΗ ΠΛΗΡΟΦΟΡΙΑ Θεϊνθ Αγάκου, ΑΜ: 09480006 Διδάςκων: Γιϊργοσ Τηιραλισ Εαρινό Εξάμθνο 2009

Σελική Αναφορά: Τα dataset τα οποία επεξεργαςτικαμε κατά τθ διάρκεια του εξαμινου ιταν το train set, το οποίο περιελάμβανε 2528 instances και 40 attributes, και το quiz set με 1265 instances και 39 attributes με εκλειπόμενθ τθ μεταβλθτι ςτόχο output. Η απαραίτθτθ προεπεξεργαςία που αφοροφςε ςτο quiz set, προσ επίτευξη τησ πλήρουσ ςυμβατότητασ των δφο dataset και τθν περαιτζρω διεκπεραίωςθ των προβλζψεων, ιταν θ προςκικθ τθσ εκλειπόμενθσ μεταβλθτισ ςτόχου. Μια τζτοια διεργαςία γινόταν με το tab filter (filters unsupervised attribute Add) και τθν κατάλλθλθ ονομαςία αυτοφ του χαρακτθριςτικοφ(attributename: output). Επιπλζον, προςκζτοντασ ζνα νζο χαρακτθριςτικό, ζπρεπε να δϊςουμε τιμζσ ςτα instances (0 αν είχαμε numeric output, ι 0 και 1 αν είχαμε nominal output). To νζο quiz set το ονομάηαμε quiz extended set. Κακ όλθ τθ διάρκεια του εξαμινου, χρθςιμοποίθςα 2 διαφορετικά υποςφνολα χαρακτθριςτικϊν (attributes) του train set, ςφμφωνα με τισ διεργαςίεσ που ορίηουν τα διάφορα είδθ προεπεξεργαςίασ δεδομζνων. Συνολικά κατζκεςα 70 υποβολζσ. Το πρϊτο υποςφνολο δεδομζνων προζκυψε με αυτοματοποιθμζνεσ μεκόδουσ επιλογισ μεταβλθτϊν (tab select attributes) και το δεφτερο, από μεκόδουσ οπτικοποίθςθσ (tab visualize all) ςε μια προςπάκεια βακφτερθσ κατανόθςθσ του προβλιματοσ. Αρχικά, μου δόκθκε θ εντφπωςθ πωσ ιταν καλφτερα να μετατρζψω τθν μεταβλθτι ςτόχο ςε ονομαςτικι (nominal) λόγω τθσ ταχφτερθσ και αποδοτικότερθσ λειτουργίασ των αλγορίκμων εκμάκθςθσ, με αποτζλεςμα να κατακζςω μια μεγάλθ ςειρά υποβολϊν ςτισ οποίεσ θ μεταβλθτι ςτόχοσ ιταν nominal (tab filters NumericToNominal) Ωςτόςο, όπωσ προζκυψε, το καλφτερο ποςοςτό επιτυχίασ επετεφχκθ εντζλει με τθ μεταβλθτι ςτόχο να είναι numeric. Παρατίκενται ακολοφκωσ αναλυτικά τα ςθμαντικότερα από τα βιματα που ακολοφκθςα προκειμζνου να φτάςω ςτθν καλφτερθ πρόβλεψι μου: Τποβολή 23 Βήμα 1: Προεπεξεργαςία Δεδομζνων Στθν υποβολι αυτι ζγιναν δφο βαςικζσ τροποποιήςεισ ςτα train και quiz set. Αρχικά, θ μεταβλθτι ςτόχοσ μετετράπθ ςε nominal, δθλαδι διακριτοποιικθκε. Στθ ςυνζχεια, μειώθηκε ο όγκοσ των δεδομζνων για καλφτερθ επεξεργαςία και χειριςμό του dataset. Η μείωςθ αυτι, ζγινε με αυτοποιθμζνεσ μεκόδουσ, από το tab select attributes του weka. Συγκεκριμζνα, χρθςιμοποίθςα ωσ attribute evaluator το FilteredSubsetEval και ωσ search method τθν BestFirst και τελικά κράτθςα ςτο dataset τα ακόλουκα attributes: 8, 22, 24, 27, 28, 32, 33, 35 και φυςικά το output. 1 Θεϊνθ Αγάκου

Βήμα 2: Ζλεγχοσ ςφάλματοσ Διατθρϊντασ το train set ωσ ζχει, με μόνθ τροποποίθςθ αυτι τθσ μεταβλθτισ ςτόχου ςε nominal, υπολόγιςα το αρχικό ςφάλμα ςτο train set για να το χρθςιμοποιιςω ςτθ ςυνζχεια ωσ μζτρο ςφγκριςθσ με το τροποποιθμζνο train set (train23, δθλαδι εκείνο ςτο οποίο θ μεταβλθτι ςτόχοσ ιταν nominal αλλά και είχαμε διατθριςει ςτο dataset μόνο τισ προαναφερκείςεσ μεταβλθτζσ), προκειμζνου τελικά να εκτιμιςω το ςφάλμα που κα είχε θ διατιρθςθ ςτο dataset μόνο των μεταβλθτϊν αυτϊν. Με classifier τον κανόνα JRip και κανόνα αποτίμθςθσ το cross validation, το τελικό ςφάλμα που ζλαβα ιταν αρκετά καλό κι ζτςι ζγιναν αποδεκτζσ οι παραπάνω τροποποιιςεισ δεδομζνων. Η ςφγκριςθ είχε ωσ εξισ: Train Set Τροποποιθμζνο Train Set === Stratified cross-validation === === Stratified cross-validation === Correctly Classified Instances 2410 95.3323 % 2406 95.1741 % Incorrectly Classified Instances 118 4.6677 % 122 4.8259 % Kappa statistic 0.8719 0.8665 Mean absolute error 0.0669 0.0699 Root mean squared error 0.2079 0.2117 Relative absolute error 18.4995 % 19.3376 % Root relative squared error 48.8956 % 49.783 % 2528 Βήμα 3: Επιλογι αλγορίκμου και πρόβλεψθ Αποκθκεφοντασ το τροποποιθμζνο train set πλζον (train23), εφόςον αποδζχτθκα τισ παραπάνω επεξεργαςίεσ δεδομζνων, άνοιξα το quiz extended set, ζκανα αντίςτοιχα τισ ίδιεσ τροποποιιςεισ με εκείνεσ του train set (nominal output, διατιρθςθ των attributes 8, 22, 24, 27,28, 32, 33, 35 και output) και το αποκικευςα ωσ quiz extended 23. Στθ ςυνζχεια, μετά από διάφορουσ πειραματιςμοφσ, κατζλθξα ςτθν εφαρμογι δφο καλϊν αλγορίκμων. Στθν παροφςα υποβολι, εφάρμοςα τον αλγόρικμο LADtree (βρίςκεται ςτο tab Classify trees) για τον οποίο ζλαβα τα εξισ αποτελζςματα ςτο train23: 2 Θεϊνθ Αγάκου

=== Stratified cross-validation === Correctly Classified Instances 2437 96.4003 % Incorrectly Classified Instances 91 3.5997 % Kappa statistic 0.8992 Mean absolute error 0.061 Root mean squared error 0.1682 Relative absolute error 16.877 % Root relative squared error 39.5517 % Εφοδιάηοντασ το τροποποιθμζνο train set (train23) με το τροποποιθμζνο quiz extended set (quiz extended 23), το ποςοςτό επιτυχίασ, για αυτι τθν υποβολι, των προβλζψεων που προζκυψαν ιταν : 0.9518. Τποβολή 25 Στθν 25 θ υποβολι μου, χρθςιμοποίθςα ωσ βάςθ το train23. Δθλαδι, ςτο train set μετζτρεψα τθν output ςε nominal και ςτο dataset διατιρθςα μόνο τα attributes 8, 22, 24, 27, 28, 32, 33, 35 και τθν output. Συνεπϊσ, τα βιματα 1 και 2 τθσ υποβολισ αυτισ, ιταν ίδια με εκείνα τθσ υποβολισ 23. Για περεταίρω διευκόλυνςθ ςτο ςυμβολιςμό, το train23 το ονόμαςα τϊρα train25 και το quiz extended 23 το ονόμαςα αντίςτοιχα quiz extended 25. Πρόκειται για ακριβϊσ τα ίδια datasets (αντιςτοίχωσ). Βήμα 3 : Επιλογι αλγορίκμου και πρόβλεψθ Εδϊ, επιδίωξα να μεγιςτοποιιςω το ποςοςτό επιτυχίασ ςε ςχζςθ με τθν προθγοφμενθ υποβολι μου, αλλάηοντασ μόνο τον αλγόρικμο που χρθςιμοποίθςα. Επειδι διαπίςτωςα ότι τα δζντρα (trees) δίνουν μικρά ςφάλματα, επζμεινα αρκετά ςε αυτά, χρθςιμοποιϊντασ τϊρα τον αλγόρικμο BFtree. Για αυτόν, ζλαβα τα εξισ αποτελζςματα ςτο train25: 3 Θεϊνθ Αγάκου

=== Stratified cross-validation === Correctly Classified Instances 2399 94.8972 % Incorrectly Classified Instances 129 5.1028 % Kappa statistic 0.8556 Mean absolute error 0.0641 Root mean squared error 0.2146 Relative absolute error 17.7155 % Root relative squared error 50.4589 % Μθν παρατθρϊντασ ότι το ςφάλμα ςε ςχζςθ με τα αντίςτοιχα αποτελζςματα τθσ 23 θσ υποβολισ είχε μεγαλϊςει (και μάλιςτα ςθμαντικά!), εφοδίαςα το τροποποιθμζνο train set (train25) με το τροποποιθμζνο quiz extended set ( quiz extended 25). To ποςοςτό επιτυχίασ τθσ νζασ πρόβλεψθσ, όπωσ ιταν αναμενόμενο ζπεςε και ιταν ίςο με : 0.9470 Ζχοντασ υποπζςει ςε πλειάδα αντίςτοιχων λακϊν και υποβολϊν, μετά από πολλοφσ πειραματιςμοφσ, αποφάςιςα να τροποποιιςω τισ προεπεξεργαςίεσ δεδομζνων, γιατί τα αποτελζςματα των υποβολϊν μου (τα ποςοςτά επιτυχίασ τουσ), δεν βελτιϊνονταν. Τποβολή 69 Η τακτικι που ακολοφκθςα εδϊ, ιταν αρκετά διαφορετικι ςε ςχζςθ με πριν. Αρχικά, για τον κακαριςμό των δεδομζνων χρθςιμοποίθςα μεκόδουσ οπτικοποίθςθσ και όχι αυτοματοποιθμζνεσ μεκόδουσ. Επίςθσ, άφθςα τθ μεταβλθτι ςτόχο ωσ είχε, δθλαδι numeric. Ειδικότερα, τα βιματα που ακολοφκθςα ιταν τα εξισ: Βήμα 1: Προεπεξεργαςία Δεδομζνων Με χριςθ του tab visualize all, ζκανα τισ εξισ παρατθριςεισ: Για το attribute 34, μόνο μια παρατιρθςθ (instance) παίρνει τθν τιμι 1, ενϊ όλεσ οι άλλεσ τθν τιμι μθδζν. Στο attribute 36, 2513 παρατθριςεισ παίρνουν τθν τιμι μθδζν και μόλισ 15 τθν τιμι 1. 4 Θεϊνθ Αγάκου

Στο attribute 38, όλεσ οι παρατθριςεισ παίρνουν μθδενικι τιμι (βρίςκονται ςτο διάςτθμα *0,0+). Για όλα τα υπόλοιπα attributes, οι παρατθριςεισ είχαν ζνα μεγαλφτερο εφροσ τιμϊν. Συνεπϊσ, αυτά τα τρία attributes ζδιναν χαμθλι πλθροφορία για τθ μεταβλθτι ςτόχο, και φαινόταν λογικό θ αφαίρεςι τουσ να μθν ζβλαπτε το τελικό αποτζλεςμα. Δεν ιταν ςαφισ ωςτόςο θ αποτελεςματικότθτα τθσ αφαίρεςθσ του attribute 36 με μια πρϊτθ ματιά, αλλά αυτό ανζλαβε να το εξαςφαλίςει ο ζλεγχοσ του ςφάλματοσ που κα επζφερε μια τζτοια επιλογι αφαίρεςθσ χαρακτθριςτικϊν (34,36,38). Ζτςι, πριν υπολογίςω το ςφάλμα, επζλεξα τα προαναφερκζντα attributes και τα ζδιωξα με το tab Remove. Βήμα 2: Ζλεγχοσ ςφάλματοσ Προτοφ προβϊ ςτθν αφαίρεςθ των μθ ςθμαντικϊν χαρακτθριςτικϊν, υπολόγιςα το ςφάλμα όλου του train set, για να το χρθςιμοποιιςω ωσ μζτρο ςφγκριςθσ με το τροποποιθμζνο train set (train69) μετά τθν αφαίρεςθ των χαρακτθριςτικϊν. Με χριςθ του tab Classify, του κανόνα PaceRegression (function) και του κριτθρίου αποτίμθςθσ cross validation, ζλαβα ζνα πολφ μικρό ςφάλμα μετά τθν αφαίρεςθ των attributes. Η ςφγκριςθ είχε ωσ εξισ: Train Set Τροποποιθμζνο Train Set === Cross-validation === === Cross-validation === Correlation coefficient 0.7408 Correlation coefficient 0.7415 Mean absolute error 0.2059 Mean absolute error 0.2059 Root mean squared error 0.2857 Root mean squared error 0.2854 Relative absolute error 56.9268 % Relative absolute error 56.919 % Root relative squared error 67.1643 % Root relative squared error 67.0794 % 5 Θεϊνθ Αγάκου

Συνεπϊσ, θ αφαίρεςθ των attributes 34, 36 και 38 όπωσ φαινόταν κα ζδινε μια αρκετά καλι πρόβλεψθ. Αποκθκεφοντασ ςτθ ςυνζχεια το τροποποιθμζνο train set (train69) και ανοίγοντασ το quiz extended ζκανα τισ ίδιεσ τροποποιιςεισ με το train set. To τροποποιθμζνο quiz extended, το ονόμαςα quiz extended 69. Βήμα 3: Επιλογι αλγορίκμου και πρόβλεψθ Κι εδϊ χρθςιμοποίθςα δφο διαφορετικζσ αλλθλουχίεσ αλγορίκμων, οι οποίεσ επιλκαν κατόπιν πολλϊν υποβολϊν, αλλά ζδωςαν καλφτερα αποτελζςματα ςε ςχζςθ με πριν. Ειδικότερα, χρθςιμοποίθςα τον meta αλγόρικμο RandomSubSpace, με classifier τον επίςθσ meta αλγόρικμο RegressionByDiscretization, που με τθ ςειρά του εφοδιάςτθκε με τον tree classifier J48. Εφαρμόηοντασ τθν παραπάνω αλλθλουχία ςτο train69, κατζλθξα ςτα εξισ αποτελζςματα: === Cross-validation === Correlation coefficient 0.9154 Mean absolute error 0.0721 Root mean squared error 0.1722 Relative absolute error 19.9263 % Root relative squared error 40.4707 % Εφοδιάηοντασ το τροποποιθμζνο train set (train69), με το τροποποιθμζνο quiz extended set (quiz extended 69), το ποςοςτό επιτυχίασ τθσ υποβολισ αυτισ ιταν : 0.9534. Τποβολή 70 Κδια με τθν υποβολι 69, με διαφορά ςτο τρίτο βιμα. Επίςθσ, εδϊ το τροποποιθμζνο train set ονομάηεται train70 ( που είναι ίδιο με το train69), ενϊ αντίςτοιχα το τροποποιθμζνο quiz extended ονομάηεται quiz extended 70 ( που είναι ίδιο με το quiz extended 69). Βήμα 3: Επιλογι αλγορίκμου και πρόβλεψθ Στθν τελευταία αυτι υποβολι, χρθςιμοποίθςα ξανά τον meta αλγόρικμο RandomSubSpace. Ωσ classifier πιρα και πάλι τον meta αλγόρικμο 6 Θεϊνθ Αγάκου

RegressionByDiscretization, ενϊ άλλαξα τον classifier του τελευταίου, διαλζγοντασ πάλι ζνα tree (το J48graft). Εφαρμόηοντασ τθν αλλθλουχία αυτι των αλγορίκμων ςτο train70, ζλαβα τα εξισ αποτελζςματα τελικά: === Cross-validation === Correlation coefficient 0.9197 Mean absolute error 0.0685 Root mean squared error 0.1679 Relative absolute error 18.931 % Root relative squared error 39.4654 % Παρατθροφμε ςυγκριτικά με τθν ακριβϊσ προθγοφμενθ υποβολι, ότι ο ςυντελεςτισ ςυςχζτιςθσ αυξικθκε ( και προςζγγιςε περιςςότερο τθ μονάδα), ενϊ τα διάφορα ςφάλματα μειϊκθκαν. Επομζνωσ, ιταν αναμενόμενο να γίνει μια καλι πρόβλεψθ των τιμϊν του quiz extended 70. Τελικά, το ποςοςτό επιτυχίασ τθσ πρόβλεψθσ αυτισ ιταν : 0.9549, που ιταν και το καλφτερο ποςοςτό που βρικα μετά το πζρασ όλων των υποβολϊν μου. Test set Για τθν τελικι και οριςτικι υποβολι (προβλζψεισ των τιμϊν του test set), κα εφαρμόςω τθν αλλθλουχία των αλγορίκμων τθσ τελευταίασ υποβολισ, από τθν οποία προζκυψε το μεγαλφτερο ποςοςτό επιτυχίασ ςτο quiz set, ελπίηοντασ ότι κα προκφψει κι εδϊ ζνα υψθλισ αξιοπιςτίασ αποτζλεςμα. Βήμα 1: Προεπεξεργαςία Δεδομζνων Όμοια με το quiz set, θ τροποποίθςθ που κα γίνει κι εδϊ είναι θ μείωςθ των χαρακτθριςτικϊν. Επιλζγω ξανά να διϊξω τα attributes 34, 36 και 38, ενϊ θ μεταβλθτι ςτόχοσ παραμζνει ωσ ζχει (numeric). Επίςθσ, ςτο test set δεν πρζπει να παραλειφκεί θ προςκικθ τθσ μεταβλθτισ ςτόχου (output) και ς αυτι να προςδοκοφν οι τιμζσ 0 (set missing values to 0 ). Αποκθκεφω το test set με τθν μεταβλθτι ςτόχο ωσ test extended set. 7 Θεϊνθ Αγάκου

Βήμα 2: Ζλεγχοσ ςφάλματοσ Στο ςθμείο αυτό διευκρινίηω ότι το τροποποιθμζνο train set το ονομάηω final train set, ενϊ το τροποποιθμζνο test extended set το ονομάηω final test extended set. Ο ζλεγχοσ ςφάλματοσ, πάνω ςτο train set, ζχει ιδθ γίνει ( πρόβλεψθ 69-70) και ςυνεπϊσ δεν χρειάηεται να επαναλθφκεί. Ήδθ γνωρίηουμε ότι θ παροφςα τροποποίθςθ των δεδομζνων, μπορεί να αποδϊςει ζνα πολφ καλό αποτζλεςμα. Βήμα 3: Επιλογι αλγορίκμου και πρόβλεψθ Ο καλφτεροσ αλγόρικμοσ των προαναφερκζντων υποβολϊν, ιταν και αυτόσ που κα επιλζξω για τθν τελικι υποβολι του test set, δθλαδι: RandomSubSpace (Classifier) RegressionByDiscretization (Classifier) J48graft Εφαρμόηοντασ τθν αλλθλουχία αυτι ςτο final train set, ζχουμε τα εξισ αποτελζςματα: === Cross-validation === Correlation coefficient 0.9198 Mean absolute error 0.0685 Root mean squared error 0.1678 Relative absolute error 18.9252 % Root relative squared error 39.4458 % Συγκρίνοντασ με μια γριγορθ ματιά τα αποτελζςματα αυτά, με τα αντίςτοιχα για το quiz set, διαιςκάνεται και αναμζνει κανείσ ότι εφοδιάηοντασ το final train set, με το final test extended set, και δεδομζνου ότι δεν ζχει γίνει υπερεκτίμθςθ ςφάλματοσ, θ πρόβλεψθ των τιμϊν του test set κα είναι καλι και αξιόπιςτθ. 8 Θεϊνθ Αγάκου