ΠΤΥΧΙΑΚΗ/ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Σχετικά έγγραφα

«ΣΥΝΕΝΤΕΥΞΗ ΤΟΥ ΗΜΑΡΧΟΥ ΙΛΙΟΥ, Κ. ΝΙΚΟΥ ΖΕΝΕΤΟΥ ΣΤΗΝ ΕΦΗΜΕΡΙ Α «ΜΙΤΟΣ» ΚΑΙ ΤΗ ΗΜΟΣΙΟΓΡΑΦΟ ΑΘΗΝΑ ΠΕΡΡΑΚΗ»

«Συλλογή, μεταφορά και διαχείριση επικίνδυνων στερεών αποβλήτων της Γ.Μ.Μ.Α.Ε. ΛΑΡΚΟ»

ΦΥΣΙΚΟΣ ΑΕΡΙΣΜΟΣ - ΡΟΣΙΣΜΟΣ

ΙΕΘΝΗΣ ΣΥΜΒΑΣΗ ΕΡΓΑΣΙΑΣ 183 «για την αναθεώρηση της (αναθεωρηµένης) σύµβασης για την προστασία της µητρότητας,»

ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ ΠΕΡΙΦΕΡΕΙΑ ΣΤΕΡΕΑΣ ΕΛΛΑ ΑΣ ΓΡΑΦΕΙΟ ΠΕΡΙΦΕΡΕΙΑΡΧΗ ΥΨΗΛΑΝΤΗ ΛΑΜΙΑ. Λαµία ΠΡΟΣ: Μ.Μ.Ε.

ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗ ΛΟΓΙΣΤΙΚΗ

Από το ξεκίνημά του ο ΤΙΤΑΝ εκφράζει

62 η ΣΥΝΟΔΟΣ ΠΡΥΤΑΝΕΩΝ & ΠΡΟΕΔΡΩΝ Δ.Ε. ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΩΝ

& ../../ , :.. : FAX :... & :...

ΟΙΚΙΣΜΟΣ ΕΞΩ ΠΟΤΑΜΟΙ

FARM ΝΟΜΟΙ ΑΠΟΦΑΣΕΙΣ Η ΔΙΕΥΚΡΙΝΙΣΤΙΚΗ ΕΓΚΥΚΛΙΟΣ ΓΙΑ ΤΟ ΣΥΝΕΤΑΙΡΙΣΤΙΚΟ ΝΟΜΟ 4015/2011. εκδοση AgroNews.gr

Ε.Σ.Π.Α και Τοπική Αυτοδιοίκηση. Οι δυνατότητες ένταξης έργων και δράσεων της Τ.Α. στα Επιχειρησιακά Προγράμματα

ΝΟΜΟΣ ΕΒΡΟΥ Αριθµ.πρωτ.: 385 ΗΜΟΤΙΚΗ ΚΟΙΝΩΦΕΛΗΣ ΕΠΙΧΕΙΡΗΣΗ ΠΟΛΙΤΙΣΤΙΚΗΣ ΑΝΑΠΤΥΞΗΣ ΟΡΕΣΤΙΑ ΑΣ ( H.Κ.Ε.Π.Α.Ο.)

Πασχαλινά Έθιμα στη Θράκη και στην Αίνο

ΑΔΑ: 4ΙΦΝΚ-ΔΘ. Αθήνα, 14 Δεκεμβρίου 2010 Αριθ. Πρωτ.: Ταχυδρομική. Σταδίου 27 Διεύθυνση: Ταχυδρομικός Κώδικας: ΑΘΗΝΑ

03-00: Βιομάζα για παραγωγή ενέργειας Γενικά ζητήματα εφοδιαστικών αλυσίδων

Κοντεύει δύο το μεσημέρι. Τα τέσσερα αδέλφια παίζουν ανέμελα στο δρόμο που βρίσκεται μπροστά απ το σπίτι τους, όταν ξαφνικά ακούγεται η φωνή της κυρά

ΑΥΓΟΥΣΤΟΣ 2008 ΥΠΟΜΝΗΜΑ ΤΗΣ ΚΕΝΤΡΙΚΗΣ ΕΝΩΣΗΣ ΕΠΙΜΕΛΗΤΗΡΙΩΝ ΕΛΛΑΔΟΣ ΑΡΧΗΓΟ ΤΗΣ ΑΞΙΩΜΑΤΙΚΗΣ ΑΝΤΙΠΟΛΙΤΕΥΣΗΣ ΚΑΙ ΠΡΟΕΔΡΟ ΤΟΥ ΠΑΣΟΚ

Α. Πολιτιστικοί φορείς Πλήθος φορέων Έδρα Γεωγραφική κατανομή φορέων Νομική μορφή Έτος ίδρυσης...

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΑΡΙΘΜΟΣ ΜΕΛΕΤΗΣ: 58/ 2014 ΝΟΜΟΣ ΘΕΣΠΡΩΤΙΑΣ ΔΗΜΟΣ ΗΓΟΥΜΕΝΙΤΣΑΣ Δ/ΝΣΗ ΤΕΧΝΙΚΩΝ ΥΠΗΡΕΣΙΩΝ ΜΕΛΕΤΗ

Α. ΟΡΓΑΝΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΕΦΑΡΜΟΓΗΣ

ΣΥΜΒΟΛΗ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΗΝ ΚΑΤΑΡΤΙΣΗ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ ΤΟΥ ΠΡΟΣΩΠΙΚΟΥ ΜΙΑΣ ΣΥΓΧΡΟΝΗΣ ΕΠΙΧΕΙΡΗΣΗΣ

Σοφία Γιουρούκου, Ψυχολόγος Συνθετική Ψυχοθεραπεύτρια

Όταν το μάθημα της πληροφορικής γίνεται ανθρωποκεντρικό μπορεί να αφορά και την εφηβεία.

Συνοπτική Παρουσίαση. Ελλάδα

ΣΥΜΜΟΡΦΩΣΗ ΜΕ ΤΙΣ ΝΕΕΣ ΠΟΛΙΤΙΚΕΣ ΕΡΓΑΣΙΑΣ ΠΕΡΙΛΗΨΗ

ΤΕΙ ΗΠΕΙΡΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Στο Δηµόσιο Σχολείο «µας»...

ΚΕΦΑΛΑΙΟ 8 ΣΥΜΠΕΡΑΣΜΑΤΑ

Ενότητα 2. Γενικά Οργάνωση Ελέγχου (ΙΙ) Φύλλα Εργασίας Εκθέσεις Ελέγχων

Σκοπός του παιχνιδιού. Περιεχόμενα

ΑΞΙΟΛΟΓΗΣΗ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

ΔΕΛΤΙΟ ΤΥΠΟΥ. Ελλείψεις στο φορολογικό νομοσχέδιο. Σοβαρές ελλείψεις στη νέα μορφή του φορολογικού νομοσχεδίου

ΕΚΘΕΣΗ ΓΙΑ ΤΗΝ ΠΑΡΑΝΟΜΗ ΙΑΚΙΝΗΣΗ ΑΝΘΡΩΠΩΝ

Η ΕΞΕΛΙΞΗ ΤΟΥ ΚΛΑΔΟΥ ΤΡΟΦΙΜΩΝ ΣΕ ΠΕΡΙΟΔΟ ΚΡΙΣΗΣ: Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΠΙΧΕΙΡΗΣΗΣ ΕΒΡΟΦΑΡΜΑ Α. Β. Ε. Ε.

ΠΕΡΙΕΧΟΜΕΝΑ Α. ΕΝΑΡΞΗ ΕΡΓΩΝ

ΝΟΜΟΣ 3263/2004 (ΦΕΚ 179 Α ) Μειοδοτικό σύστηµα ανάθεσης των δηµοσίων έργων και άλλες διατάξεις

ΣΧΕΔΙΟ ΣΥΜΒΑΣΗΣ ΑΡΙΘΜΟΣ ΣΥΜΒΑΣΗΣ : / ΣΥΜΒΑΣΗ ΠΟΣΟΥ #. # ΑΝΑ ΑΤΟΜΟ ( ΠΛΕΟΝ Φ.Π.Α.) ΓΙΑ ΤΗΝ ΑΝΑΘΕΣΗ ΣΤΗΝ ΤΗΣ ΕΚΤΕΛΕΣΗΣ ΤΟΥ ΕΡΓΟΥ ΜΕ ΤΙΤΛΟ

ΥΠ.Ε.Π.Θ. / ΠΑΙ ΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ «ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ»

ΠΑΡΑΡΤΗΜΑ ΠΡΩΤΟ ΤΗΣ ΕΠΙΣΗΜΗΣ ΕΦΗΜΕΡΙΔΑΣ ΤΗΣ ΔΗΜΟΚΡΑΤΙΑΣ Αρ της 6ης ΑΠΡΙΑΙΟΥ 1998 ΝΟΜΟΘΕΣΙΑ ΜΕΡΟΣ Ι

Κανόνες λειτουργίας της Επιτροπής Ηθικής και Δεοντολογίας

11. ΚΩΔΙΚΑΣ ΔΕΟΝΤΟΛΟΓΙΑΣ ΕΙΣΑΓΩΓΗ

ΚΩΔΙΚΑΣ ΕΠΑΓΓΕΛΜΑΤΙΚΗΣ ΔΕΟΝΤΟΛΟΓΙΑΣ ΕΠΙΣΚΕΠΤΩΝ ΥΓΕΙΑΣ

Ε Κ Θ Ε Σ Η. του Διοικητικού Συμβουλίου της Ανωνύμου Εταιρίας με την επωνυμία. «Unibios Ανώνυμος Εταιρία Συμμετοχών»

στο σχέδιο νόµου «Διαχείριση των µη εξυπηρετούµενων δανείων, µισθολογικές ρυθµίσεις και άλλες επείγουσες στόχων και διαρθρωτικών µεταρρυθµίσεων»

ΚΑΝΟΝΙΣΜΟΣ ΠΡΟΣΤΑΣΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΚΑΙ ΚΑΘΑΡΙΟΤΗΤΑΣ ΔΗΜΟΥ ΔΙΟΝΥΣΟΥ ΝΟΜΟΥ ΑΤΤΙΚΗΣ

ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ ΠΕΡΙΦΕΡΕΙΑ ΣΤΕΡΕΑΣ ΕΛΛΑ ΑΣ Καρπενήσι

ΕΘΝΙΚΗ ΣΥΝΟΜΟΣΠΟΝΔΙΑ ΕΛΛΗΝΙΚΟΥ ΕΜΠΟΡΙΟΥ ΔΕΛΤΙΟ ΤΥΠΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΚΟΙΝΩΝΙΚΗΣ ΑΝΘΡΩΠΟΛΟΓΙΑΣ ΚΑΙ ΙΣΤΟΡΙΑΣ Π.Μ.Σ. «ΓΥΝΑΙΚΕΣ ΚΑΙ ΦΥΛΑ: ΑΝΘΡΩΠΟΛΟΓΙΚΕΣ ΚΑΙ ΙΣΤΟΡΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ»

Πρόταση για το νέο Σύνταγμα του Ελληνικού Κράτους.

ΑΝΩΝΥΜΗ ΤΕΧΝΙΚΗ ΕΤΑΙΡΕΙΑ ΕΤΗΣΙΟ ΕΛΤΙΟ

ΔΗΜΟΣΙΑ ΕΠΙΧΕΙΡΗΣΗ ΗΛΕΚΤΡΙΣΜΟΥ Α.Ε.

ΠΡΟΪΟΝΤΩΝ» Ποσοστό στη.. του Μέτρου. Ποσό (σε ΕΥΡΩ)

Οι Αγώνες θα διεξαχθούν τόσο στο Σύγχρονο Θέατρο όσο και στο Αρχαίο

ΕΝΩΠΙΟΝ ΠΑΝΤΟΣ ΑΡΜΟΔΙΟΥ ΔΙΚΑΣΤΗΡΙΟΥ ΚΑΙ ΠΑΣΗΣ ΔΗΜΟΣΙΑΣ ΑΡΧΗΣ ΕΞΩΔΙΚΗ ΔΙΑΜΑΡΤΥΡΙΑ ΠΡΟΣΚΛΗΣΗ ΔΗΛΩΣΗ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΑΡΙΘΜ. ΠΡΩΤ. : ΝΟΜΟΣ ΦΛΩΡΙΝΑΣ ΑΜΥΝΤΑΙΟ 11/09/2015 ΔΗΜΟΣ ΑΜΥΝΤΑΙΟΥ

Οδηγός υλοποίησης έργων ικαιούχων

ΠΕΤΕΠ ΠΡΟΣΩΡΙΝΕΣ ΕΘΝΙΚΕΣ ΤΕΧΝΙΚΕΣ ΠΡΟ ΙΑΓΡΑΦΕΣ Υ.ΠΕ.ΧΩ..Ε.

Ο τίτλος της εργασία μας για αυτό το τετράμηνο ήταν «Πολίτες της πόλης μου, πολίτες της οικουμένης». Κλιθήκαμε λοιπόν να γνωρίσουμε καλύτερα την πόλη

ΟΔΗΓΟΣ ΤΟΠΙΚΩΝ ΔΙΚΤΥΩΝ ΣΤΗΡΙΞΗΣ ΚΑΙ ΑΠΑΣΧΟΛΗΣΗΣ ΕΚΟ ΔΗΜΩΝ ΘΕΡΜΑΪΚΟΥ, ΘΕΡΜΗΣ, ΚΑΛΑΜΑΡΙΑΣ, ΠΥΛΑΙΑΣ-ΧΟΡΤΙΑΤΗ

ΚΤΙΡΙΑΚΕΣ ΥΠΟΔΟΜΕΣ Α.Ε. ΓENIKH ΔΙΕΥΘΥΝΣΗ ΕΡΓΩΝ Διεύθυνση Κατασκευών Έργων Υποδομών Δικαιοσύνης ΠΑΡΑΡΤΗΜΑ III ΤΕΧΝΙΚΗ ΠΕΡΙΓΡΑΦΗ

Έλλειψη εσωτερικής ελευθερίας

ΦΑΡΜΑΚΕΥΤΙΚΟΣ ΣΥΛΛΟΓΟΣ ΜΑΓΝΗΣΙΑΣ & ΑΛΜΥΡΟΥ Ν.Π.Δ.Δ Νόμος 3601 Ελευθ. Βενιζέλου 7 Τηλ ΒΟΛΟΣ ΕΓΚΥΚΛΙΟΣ ΜΑΪΟΥ 2010

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΚΡΗΤΗΣ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΑΝΑΛΥΣΗ ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΩΝ ΚΑΤΑΣΤΑΣΕΩΝ

Έκθεση της Επιτροπής Κοινωνικής Πρόνοιας της Βουλής των Γερόντων για το. θέµα «Η οικονοµική κρίση, εξάλειψη της φτώχειας και κοινωνικός.

Κύκλος Κοινωνικής Προστασίας ΠΟΡΙΣΜΑ

ΚΕΦΑΛΑΙΟ 7 ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΑΙ ΠΡΟΤΑΣΕΙΣ

ΑΠΟΦΑΣΗ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΤΡΟΠΗΣ ΑΡΙΘΜΟΣ ΑΠΟΦΑΣΗΣ 220

ΕΓΧΕΙΡΙ ΙΟ ΛΕΙΤΟΥΡΓΙΑΣ ΚΑΙ ΟΡΓΑΝΩΣΗΣ

Η συμβολή του Πλάτωνα στα Μαθηματικά

ΓΝΩΣΗ ΑΝΑΠΤΥΞΙΑΚΗ ΕΚΕΜΒΡΙΟΣ ΡΑΣΗ 15 ΤΙΤΛΟΣ ΡΑΣΗΣ: Ανάπτυξη εργαλείων συµβουλευτικής της κατάρτισης ΑΝΤΙΚΕΙΜΕΝΟ ΠΑΡΑ ΟΤΕΟΥ ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ:

ΣΥΖΗΤΗΣΗ ΣΤΡΟΓΓΥΛΗΣ ΤΡΑΠΕΖΗΣ ΓΙΑ ΤΙΣ ΝΕΕΣ ΕΙ ΙΚΟΤΗΤΕΣ

ΟΙΚΟΝΟΜΙΚΗ ΚΡΙΣΗ ΚΑΙ ΤΡΑΠΕΖΙΚΟ ΣΥΣΤΗΜΑ

Υγιείς Εργασιακές Σχέσεις - Σύγχρονες Επιχειρήσεις

ΔΙΑΔΟΣΗ ΘΕΡΜΟΤΗΤΑΣ Φυσική Β' Γυμνασίου. Επιμέλεια: Ιωάννης Γιαμνιαδάκης

πρακτικού συνεδριάσεως ιοικητικού ΗΜΟΣ ΠΑΤΜΟΥ

ΑΛΕΞΑΝΔΡΕΙΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΕΠΑΓΓΕΛΜΑΤΩΝ ΥΓΕΙΑΣ ΚΑΙ ΠΡΟΝΟΙΑΣ ΤΜΗΜΑ ΑΙΣΘΗΤΙΚΗΣ-ΚΟΣΜΗΤΟΛΟΓΙΑΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Τίτλος Ειδικού Θεματικού Προγράμματος: «Διοίκηση, Οργάνωση και Πληροφορική για Μικρο-μεσαίες Επιχειρήσεις»

ΕΝΩΠΙΟΝ ΠΑΝΤΟΣ ΑΡΜΟΔΙΟΥ ΔΙΚΑΣΤΗΡΙΟΥ ΚΑΙ ΠΑΣΗΣ ΔΗΜΟΣΙΑΣ ΑΡΧΗΣ ΕΞΩΔΙΚΗ ΔΙΑΜΑΡΤΥΡΙΑ ΠΡΟΣΚΛΗΣΗ ΔΗΛΩΣΗ

Του Σταύρου Ν. PhD Ψυχολόγου Αθλητικού Ψυχολόγου

ΚΩΔΙΚΑΣ ΔΕΟΝΤΟΛΟΓΙΑΣ

Ελληνική. ΠΡΑΚΤΙΚΟ ΤΗΣ ΜΕ ΑΡΙΘΜΟ 3/2011 ΣΥΝΕΔΡΙΑΣΗΣ ΤΗΣ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΤΡΟΠΗΣ ΔΗΜΟΥ ΤΡΙΠΟΛΗΣ ΤΗΣ 14 ης ΜΑΡΤΙΟΥ 2011

- International Scientific Electronic Journal, Issue 1, 2004 Department of Cultural Technology and Communication University of the Aegean

ΝΕΑ ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΑ ΠΡΟΪΟΝΤΑ- ΕΦΑΡΜΟΓΗ ΣΕ ΑΣΦΑΛΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΗ

Επαρχιακός Γραμματέας Λ/κας-Αμ/στου ΠΟΑ Αγροτικής

ΥΠΟ ΕΙΓΜΑΤΑ ΕΓΓΥΗΤΙΚΩΝ ΕΠΙΣΤΟΛΩΝ

Ρόδος και Αίγυπτος : λίκνα ευεργετισμού. Ματούλα Τομαρά-Σιδέρη

ΘΕΜΑ: «Παραθεριστικοί Οικοδοµικοί Συνεταιρισµοί. Μελέτη Περίπτωσης του «Βραχόκηπου» ήµου Γουβών Ηρακλείου Κρήτης»

ΕΡΓΑΣΙΑ ΤΕΧΝΟΛΟΓΙΑΣ «ΚΑΤΟΙΚΙΔΙΑ ΖΩΑ»

ΣΧΕΔΙΟ ΠΡΟΤΑΣΕΩΝ ΣΥΛΛΟΓΟΥ ΓΟΝΕΩΝ & ΚΗΔΕΜΟΝΩΝ ΕΠΙ ΤΟΥ ΠΡΟΣΧΕΔΙΟΥ ΤΟΥ ΕΣΩΤΕΡΙΚΟΥ ΚΑΝΟΝΙΣΜΟΥ ΛΕΙΤΟΥΡΓΙΑΣ ΤΟΥ 1 ου ΓΥΜΝΑΣΙΟΥ ΜΑΡΚΟΠΟΥΛΟΥ ΣΗΜΕΙΩΣΗ

I.Επί της Αρχής του σχεδίου Νόµου: ΙΙ. Επί των άρθρων του σχεδίου Νόµου: ΕΙΣΗΓΗΤΙΚΗ ΕΚΘΕΣΗ

Εσωτερικοί Κανονισμοί Τοπικής Αυτοδιοίκησης

ΣΗΜΕΙΑ ΟΜΙΛΙΑΣ ΦΩΦΗΣ ΓΕΝΝΗΜΑΤΑ ΠΡΟΕ ΡΟΥ ΤΟΥ ΠΑΣΟΚ ΚΑΙ ΕΠΙΚΕΦΑΛΗΣ ΤΗΣ ΗΜΟΚΡΑΤΙΚΗΣ ΣΥΜΠΑΡΑΤΑΞΗΣ ΣΤΗ ΣΥΝΕ ΡΙΑΣΗ ΤΗΣ ΚΟΙΝΟΒΟΥΛΕΥΤΙΚΗΣ ΟΜΑ ΑΣ

109(Ι)/2014 ΝΟΜΟΣ ΠΟΥ ΠΡΟΝΟΕΙ ΓΙΑ ΤΟ ΕΛΑΧΙΣΤΟ ΕΓΓΥΗΜΕΝΟ ΕΙΣΟΔΗΜΑ ΚΑΙ ΓΕΝΙΚΟΤΕΡΑ ΠΕΡΙ ΚΟΙΝΩΝΙΚΩΝ ΠΑΡΟΧΩΝ ΤΟΥ 2014 ΚΑΤΑΤΑΞΗ ΑΡΘΡΩΝ

ΣΤΑΘΜΟΙ ΤΟΥ ΜΕΤΡΟ - - ΑΤΤΙΚΗ - ΣΕΠΟΛΙΑ - ΑΓ. ΑΝΤΩΝΙΟΣ - - ΠΟΛΕΟΔΟΜΙΚΗ ΑΝΑΛΥΣΗ - ΕΠΙΠΤΩΣΕΙΣ

ΑΔΑ: Β4ΓΛΩΗΓ-3ΙΠ ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ ΑΠΟΚΕΝΤΡΩΜΕΝΗ ΙΟΙΚΗΣΗ ΑΤΤΙΚΗΣ. Αρ.Απόφασης: 150/2012. Αρ. Πρωτοκόλλου: /

Στο άγαλμα της ελευθερίας που φωτίζει τον κόσμο

Το συνέδριο σας πραγματοποιείται σε μια εξαιρετικά δύσκολη συγκυρία για τον τόπο, την οικονομία της χώρας, την κοινωνία και τον κόσμο της εργασίας.

Θέµα: ιακήρυξη πρόχειρου διαγωνισµού για την εργασία ιαχείριση ογκωδών και

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ/ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ» (Instance-Based Ensemble Prunng va Mult-label Classfcaton) «ΜΑΡΚΑΤΟΠΟΥΛΟΥ ΦΩΤΕΙΝΗ» ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΤΣΟΥΜΑΚΑΣ ΓΡΗΓΟΡΙΟΣ, ΛΕΚΤΟΡΑΣ ΘΕΣΣΑΛΟΝΙΚΗ 2010

ΠΕΡΙΛΗΨΗ ΠΕΡΙΛΗΨΗ Αντικείµενο της παρούσας εργασίας είναι το κλάδεµα των οµάδων ταξινοµητών. Οι µέθοδοι οµάδων είναι µια διαδεδοµένη περιοχή της µηχανικής µάθησης, σύµφωνα µε την οποία για την επίλυση ενός προβλήµατος µηχανικής µάθησης αρχικά παράγεται µια οµάδα µοντέλων πρόβλεψης και στην συνέχεια συνδυάζονται οι αποφάσεις τους. Έχει αποδειχθεί πως ο συνδυασµός πολλών ειδικών αυξάνει την ακρίβεια πρόβλεψης και µειώνει τον ρυθµό λάθους. Ωστόσο, αρνητικές συνέπειες όπως υψηλές απαιτήσεις µνήµης, η πολυπλοκότητα χρόνου και άλλες οδήγησαν στην ανάγκη κλαδέµατος των πιο αδύναµων µοντέλων πριν τον συνδυασµό των αποφάσεων της οµάδας. Αυτή η ενδιάµεση φάση ονοµάζεται κλάδεµα οµάδας. Το κλάδεµα της οµάδας µπορεί να είναι στατικό στο οποίο επιλέγεται ένα σταθερό υποσύνολο της αρχικής οµάδας για την ταξινόµηση οποιουδήποτε νέου στιγµιότυπου ή δυναµικό όπου ένα διαφορετικό υποσύνολο της οµάδας επιλέγεται µε βάση το παράδειγµα που πρόκειται να ταξινοµηθεί. Στην παρούσα πτυχιακή θα µας απασχολήσει κυρίως το δυναµικό κλάδεµα ή κλάδεµα κατά περίπτωση. Αρχικά, γίνεται µια εισαγωγή στις βασικές έννοιες της µηχανικής µάθησης, στη συνέχεια περιγράφονται οι µέθοδοι οµάδας και το κλάδεµα οµάδας και στο τελευταίο κεφάλαιο παρουσιάζουµε την δική µας προσέγγιση για το δυναµικό κλάδεµα οµάδας την οποία ονοµάζουµε Κλάδεµα Οµάδας Κατά Περίπτωση µέσω Ταξινόµησης Πολλαπλών Ετικετών και στην οποία µοντελοποιούµε το πρόβληµα του κλαδέµατος σε πρόβληµα µάθησης πολλαπλών ετικετών. Έχουµε συγκρίνει την προσέγγισή µας µε ένα σύνολο διαφορετικών µεθόδων δυναµικού κλαδέµατος για 21 σύνολα δεδοµένων και οµογενείς αλλά και ετερογενείς οµάδες 200 ταξινοµητών. Τα αποτελέσµατα των πειραµάτων δείχνουν πως η προσέγγισή µας µπορεί να πετύχει υψηλότερη ακρίβεια πρόβλεψης. ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ VII

ABSTRACT A B S T R A C T The thess focuses on ensemble prunng. Ensemble methods s a very popular research area of machne learnng, where frstly multple predctve models are produced and secondly ther decsons are combned accordng to a strategy. It has been proved that the combnaton of many experts ncreases the accuracy and reduces the error rate. However, ensemble methods are not wthout negatve consequences such as memory requrements and tme complexty whch leads to the need of prunng the low predcted models before the combnaton of ther decsons. Ths phase s known as ensemble prunng. Ensemble prunng can be ether statc where the same subset of the orgnal ensemble s responsble to classfy any new test nstance or dynamc where a dfferent subset of the ensemble may be used for each dfferent unclassfed nstance. In partcular we focuses on dynamc prunng or nstance based ensemble prunng. Frstly we ntroduce the area of machne learnng, then we present ensemble methods and ensemble prunng and fnally we present our approach that dynamcally prunes an ensemble of classfers. We call t "Instance-Based Ensemble Prunng va Mult-label Classfcaton". We propose modellng ths task as a mult-label learnng problem, n order to take advantage of the recent advances n ths area for the constructon of effectve ensemble prunng approaches. Results comparng the proposed framework aganst a varety of other nstance-based ensemble prunng approaches n a varety of datasets usng a heterogeneous ensemble of 200 classfers, show that t leads to mproved accuracy. ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ IX

ΕΥΧΑΡΙΣΤΙΕΣ ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω θερµά τον επιβλέποντα καθηγητή µου και λέκτορα της σχολής µου κ. Τσουµάκα Γρηγόριο. Η βοήθειά του και η στήριξή του ήταν πολύτιµη και χωρίς τις υποδείξεις του και την υποµονή του δεν θα έφτανα στην ολοκλήρωση της εργασίας. Επίσης θα ήθελα να ευχαριστήσω την οικογένειά µου που ήταν δίπλα µου και µε στήριξε καθ όλη τη διάρκεια των σπουδών µου. 14-10-2010 Μαρκατοπούλου Φωτεινή ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ XI

ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ 1.1 ΠΛΕΟΝΕΚΤΗΜΑΤΑ ΕΞΟΡΥΞΗΣ Ε ΟΜΕΝΩΝ ΜΕ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ...28 1.2 ΕΦΑΡΜΟΓΕΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΚΑΙ ΕΞΟΡΥΞΗΣ Ε ΟΜΕΝΩΝ...29 1.3 ΜΕΘΟ ΟΙ ΟΜΑ ΩΝ...30 1.4 ΠΕΡΙΛΗΨΗ ΑΝΑ ΚΕΦΑΛΑΙΑ...32 2.1 ΕΙΣΑΓΩΓΗ...35 2.1.1 Η ΑΞΙΑ ΤΩΝ ΟΜΑ ΩΝ ΤΑΞΙΝΟΜΗΤΩΝ ΕΝΑΝΤΙ ΤΩΝ ΑΠΛΩΝ ΤΑΞΙΝΟΜΗΤΩΝ...37 2.1.2 ΠΡΟΫΠΟΘΕΣΕΙΣ ΓΙΑ ΤΗΝ ΗΜΙΟΥΡΓΙΑ ΟΜΑ ΑΣ ΤΑΞΙΝΟΜΗΤΩΝ...42 2.2 ΚΑΤΑΣΚΕΥΗ ΟΜΑ ΩΝ...43 2.2.1 BAGGING...46 2.2.2 BOOSTING...48 2.2.2.1 ADABOOST...49 2.2.3 RANDOM TREES...53 2.2.4 ΆΛΛΕΣ ΜΕΘΟ ΟΙ...55 2.3 ΣΥΝ ΥΑΣΜΟΣ ΟΜΑ ΑΣ...55 2.3.1 ΚΑΝΟΝΕΣ ΣΥΝ ΥΑΣΜΟΥ...57 2.3.1.1 ΑΛΓΕΒΡΙΚΟΙ ΚΑΝΟΝΕΣ...57 2.3.1.2 ΜΕΘΟ ΟΙ ΨΗΦΟΦΟΡΙΑΣ...58 2.3.2 ΜΕΘΟ ΟΙ ΣΥΝ ΥΑΣΜΟΥ ΤΑΞΙΝΟΜΗΤΩΝ...61 2.3.2.1 STACKING - ΣΥΣΣΩΡΕΥΣΗ...61 2.3.2.2 MIXTURE OF EXPERTS ΣΥΝ ΥΑΣΜΟΣ ΤΩΝ ΕΙ ΙΚΩΝ...62 2.3.2.3 CASCADING...64 2.3.2.4 ΆΛΛΕΣ ΜΕΘΟ ΟΙ...65 2.4 ΣΥΝΟΨΗ...65 ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ XIII

ΜΑΡΚΑΤΟΠΟΥΛΟΥ ΦΩΤΕΙΝΗ 3.1 ΕΙΣΑΓΩΓΗ...69 3.2 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΜΕΘΟ ΩΝ ΚΛΑ ΕΜΑΤΟΣ...71 3.2.1 RANKING BASED METHODS...72 3.2.2 CLUSTERING BASED METHODS...73 3.2.3 OPTIMIZATION BASED METHODS...74 3.2.3.1 GENETIC ALGORITHMS...74 3.2.3.2 SDP...75 3.2.3.3 HILL CLIMBING...75 3.2.4 ΆΛΛΕΣ ΜΕΘΟ ΟΙ...77 3.3 ΥΝΑΜΙΚΕΣ ΜΕΘΟ ΟΙ ΚΛΑ ΕΜΑΤΟΣ...78 3.3.1 ΠΟΛΥΠΛΟΚΟΤΗΤΑ ΤΩΝ ΥΝΑΜΙΚΩΝ ΜΕΘΟ ΩΝ ΚΛΑ ΕΜΑΤΟΣ...79 3.3.2 ΥΝΑΜΙΚΗ ΕΠΙΛΟΓΗ ΤΑΞΙΝΟΜΗΤΗ DYNAMIC CLASSIFIER SELECTION...80 3.3.2.1 ΓΕΝΙΚΑ...80 3.3.2.2 ΓΙΑΤΙ ΕΧΕΙ ΕΠΙΤΥΧΙΑ...81 3.3.2.3 ΙΑΧΩΡΙΣΜΟΣ ΣΕ ΠΕΡΙΟΧΕΣ ΑΡΜΟ ΙΟΤΗΤΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΣ ΤΟΠΙΚΗΣ ΚΑΤΑΛΛΗΛΟΤΗΤΑΣ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ...82 3.3.2.4 ΕΠΙΛΥΣΗ ΙΣΟΠΑΛΙΑΣ...89 3.3.2.5 ΣΧΕΤΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ...90 3.3.3 ΚΛΑ ΕΜΑ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ Η ΥΝΑΜΙΚΗ ΕΠΙΛΟΓΗ ΟΜΑ ΑΣ INSTANCE BASED PRUNING OR DYNAMIC SELECTION...92 3.3.3.1 ΓΕΝΙΚΑ...92 3.3.3.2 ΣΧΕΤΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ...92 3.3.4 ΆΛΛΕΣ ΜΕΘΟ ΟΙ ΥΝΑΜΙΚΟΥ ΚΛΑ ΕΜΑΤΟΣ...94 3.3.4.1 ΜΕΘΟ ΟΙ ΠΟΥ ΕΠΙΛΕΓΟΥΝ ΜΕΤΑΞΥ ΣΥΝΤΗΞΗΣ ΚΑΙ ΕΠΙΛΟΓΗΣ (FUSION OR SELECTION)...94 3.3.4.2 ΜΕΘΟ ΟΙ ΠΟΥ ΚΑΝΟΥΝ ΥΝΑΜΙΚΗ ΣΥΝΤΗΞΗ (DYNAMIC FUSION)...94 4.1 ΕΙΣΑΓΩΓΗ...99 4.2 Η ΠΡΟΣΕΓΓΙΣΗ ΜΑΣ: IBEP-MLC...100 4.3 ΠΕΙΡΑΜΑΤΑ...102 4.3.1 ΣΥΝΟΛΑ Ε ΟΜΕΝΩΝ...102 4.3.2 ΚΑΤΑΣΚΕΥΗ ΟΜΑ ΑΣ...102 4.3.3 ΜΕΘΟ ΟΙ ΣΥΓΚΡΙΣΗΣ...103 4.3.4 ΜΕΘΟ ΟΛΟΓΙΑ ΑΞΙΟΛΟΓΗΣΗΣ...104 4.4 ΑΠΟΤΕΛΕΣΜΤΑ...104 XIV ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ

ΠΕΡΙΕΧΟΜΕΝΑ 4.4.1 ΑΠΟΤΕΛΕΣΜΑΤΑ ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ ΕΤΕΡΟΓΕΝΗ ΟΜΑ Α...104 4.4.1.1 ΚΑΤΩΦΛΙ ΚΑΙ ΤΑΞΙΝΟΜΗΤΕΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ...104 4.4.1.2 ΑΚΡΙΒΕΙΑ ACCURACY...106 4.4.1.3 ΑΡΙΘΜΟΣ ΜΟΝΤΕΛΩΝ ΕΠΙΛΟΓΗΣ...108 4.4.2 ΑΠΟΤΕΛΕΣΜΑΤΑ ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ ΟΜΟΓΕΝΗ ΟΜΑ Α...109 4.4.2.1 ΚΑΤΩΦΛΙ ΚΑΙ ΤΑΞΙΝΟΜΗΤΕΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ...109 4.4.2.2 ΑΚΡΙΒΕΙΑ ACCURACY...111 4.4.2.3 ΑΡΙΘΜΟΣ ΜΟΝΤΕΛΩΝ ΕΠΙΛΟΓΗΣ...113 ΚΕΦΑΛΑΙΟ 5: ΣΥΜΠΕΡΑΣΜΑΤΑ...114 ΤΙΤΛΟΣ XV

ΛΙΣΤΑ ΣΧΗΜΑΤΩΝ ΛΙΣΤΑ ΣΧΗΜΑΤΩΝ ΣΧΗΜΑ 1 ΠΕΡΙΠΛΟΚΟ ΟΡΙΟ ΑΠΟΦΑΣΗΣ ΤΟ ΟΠΟΙΟ ΕΝ ΜΠΟΡΕΙ ΝΑ ΓΙΝΕΙ ΑΝΤΙΛΗΠΤΟ ΑΠΟ ΚΥΚΛΙΚΑ ΟΡΙΑ...40 ΣΧΗΜΑ 2 Ο ΣΥΝ ΥΑΣΜΟΣ ΠΟΛΛΩΝ ΚΥΚΛΙΚΩΝ ΟΡΙΩΝ ΚΑΝΕΙ ΑΝΤΙΛΗΠΤΟ ΤΟ ΠΟΛΥΠΛΟΚΟ ΑΥΤΟ ΟΡΙΟ...40 ΣΧΗΜΑ 3 ΣΥΓΚΡΙΣΗ ΜΕΤΑΞΥ ΤΩΝ ΛΑΘΩΝ ΤΩΝ ΒΑΣΙΚΩΝ ΤΑΞΙΝΟΜΗΤΩΝ ΚΑΙ ΤΩΝ ΛΑΘΩΝ ΤΗΣ ΟΜΑ ΑΣ...43 ΣΧΗΜΑ 4 ΣΧΗΜΑΤΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ ΜΕΘΟ ΩΝ ΟΜΑ ΑΣ...46 ΣΧΗΜΑ 5 ΑΛΓΟΡΙΘΜΟΣ BAGGING...48 ΣΧΗΜΑ 6 ΓΡΑΦΙΚΗ ΠΑΡΑΣΤΑΣΗ ΤΟΥ Α ΩΣ ΣΥΝΑΡΤΗΣΗ ΤΟΥ ΛΑΘΟΥΣ ΕΚΠΑΙ ΕΥΣΗΣ Ε...51 ΣΧΗΜΑ 7...51 ΣΧΗΜΑ 8 ΠΑΡΑ ΕΙΓΜΑ BOOSTING...52 ΣΧΗΜΑ 9 ΠΑΡΑ ΕΙΓΜΑ ADABOOST...53 ΣΧΗΜΑ 10 ΤΥΧΑΙΑ ΕΝΤΡΑ...55 ΣΧΗΜΑ 11 STACKED GENERALIZATION...62 ΣΧΗΜΑ 12 ΙΑΓΡΑΜΜΑ ΜΗΧΑΝΗΣ ΑΠΟΦΑΣΗΣ ΠΟΥ ΣΤΗΡΙΖΕΤΑΙ ΣΤΗ ΟΜΗ ΣΥΝ ΥΑΣΜΟΥ ΤΩΝ ΕΙ ΙΚΩΝ (MIXTURE OF EXPERTS)...64 ΣΧΗΜΑ 13 CASCADING: Η ΜΕΘΟ ΟΣ ΣΥΜΦΩΝΑ ΜΕ ΤΗΝ ΟΠΟΙΑ ΗΜΙΟΥΡΓΕΙΤΑΙ ΜΙΑ ΣΕΙΡΑ ΤΑΞΙΝΟΜΗΤΩΝ ΚΑΙ ΚΑΘΕ ΕΠΟΜΕΝΟΣ ΤΑΞΙΝΟΜΗΤΗΣ ΕΡΩΤΑΤΑΙ ΜΟΝΟ ΟΤΑΝ ΟΙ ΠΡΟΗΓΟΥΜΕΝΗ ΕΝ ΕΞΑΣΦΑΛΙΖΟΥΝ ΥΨΗΛΗ ΕΜΠΙΣΤΟΣΥΝΗ....65 ΣΧΗΜΑ 14 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΟΜΑ ΩΝ. Η ΕΠΙΛΟΓΗ ΟΜΑ ΑΣ ΚΑΙ Η ΕΠΙΛΟΓΗ ΤΑΞΙΝΟΜΗΤΗ ΑΝΗΚΟΥΝ ΣΤΗΝ ΚΑΤΗΓΟΡΙΑ ΤΟΥ ΚΛΑ ΕΜΑΤΟΣ ΟΜΑ ΩΝ....71 ΣΧΗΜΑ 15 ΠΑΡΑ ΕΙΓΜΑ ΙΑΧΩΡΙΣΜΟΥ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΥΟ ΚΛΑΣΕΩΝ ΣΕ ΤΡΕΙΣ ΠΕΡΙΟΧΕΣ ΑΡΜΟ ΙΟΤΗΤΑΣ...82 ΣΧΗΜΑ 16 TRAINING ΤΗΣ ΜΕΘΟ ΟΥ ΟΜΑ ΟΠΟΙΗΣΗΣ ΚΑΙ ΕΠΙΛΟΓΗΣ...88 ΣΧΗΜΑ 17 TEST PHASE ΤΗΣ ΜΕΘΟ ΟΥ ΟΜΑ ΟΠΟΙΗΣΗΣ ΚΑΙ ΕΠΙΛΟΓΗΣ...89 ΣΧΗΜΑ 18 ΠΕΡΙΠΤΩΣΕΙΣ ΙΣΟΠΑΛΙΕΣ ΚΑΙ ΤΡΟΠΟΙ ΕΠΙΛΥΣΗΣ ΑΥΤΩΝ...90 ΣΧΗΜΑ 19 ΚΑΤΑΣΚΕΥΗ ΤΟΥ ΣΥΝΟΛΟΥ ΕΚΠΑΙ ΕΥΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ....101 ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ XVII

ΛΙΣΤΑ ΠΙΝΑΚΩΝ ΛΙΣΤΑ ΠΙΝΑΚΩΝ ΠΙΝΑΚΑΣ 1 Ε ΟΜΕΝΑ ΕΚΠΑΙ ΕΥΣΗΣ ΓΙΑ ΕΝΑ ΤΡΑΠΕΖΙΚΟ ΣΥΣΤΗΜΑ ΑΞΙΟΛΟΓΗΣΗΣ ΠΕΛΑΤΩΝ ΓΙΑ ΑΝΕΙΟ ΟΤΗΣΗ...25 ΠΙΝΑΚΑΣ 2 ΠΑΡΑ ΕΙΓΜΑ ΣΥΝΟΛΟΥ Ε ΟΜΕΝΩΝ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΕΙΤΑΙ ΓΙΑ ΤΗΝ ΚΑΤΑΣΚΕΥΗ ΟΜΑ ΑΣ ΜΕ ΤΗΝ ΜΕΘΟ Ο BOOSTING...51 ΠΙΝΑΚΑΣ 3: ΠΛΕΟΝΕΚΤΗΜΑΤΑ ΚΑΙ ΜΕΙΟΝΕΚΤΗΜΑΤΑ ΙΑΦΟΡΩΝ ΣΥΝΑΡΤΗΣΕΩΝ ΣΥΝ ΥΑΣΜΟΥ ΤΑΞΙΝΟΜΗΤΩΝ...61 ΠΙΝΑΚΑΣ 4 ΥΝΑΜΙΚΕΣ ΜΕΘΟ ΟΙ ΚΛΑ ΕΜΑΤΟΣ...96 ΠΙΝΑΚΑΣ 5 ΛΕΠΤΟΜΕΡΕΙΕΣ ΤΩΝ ΣΥΝΟΛΩΝ Ε ΟΜΕΝΩΝ : ΦΑΚΕΛΟΣ ΣΤΟΝ UCI SERVER, ΣΥΝΟΛΟ ΣΤΙΓΜΙΟΤΥΠΩΝ, ΚΛΑΣΕΙΣ, ΣΥΝΕΧΕΙΣ Η ΙΑΚΡΙΤΕΣ ΤΙΜΕΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ, ΠΟΣΟΣΤΟ ΤΩΝ ΤΙΜΩΝ ΠΟΥ ΛΕΙΠΟΥΝ....102 ΠΙΝΑΚΑΣ 6 ΑΚΡΙΒΕΙΑ ΚΑΙ ΜΕΣΗ ΚΑΤΑΤΑΞΗ ΤΟΥ IBEP-MLC ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ CLR ΚΑΙ ΚΑΤΩΦΛΙ ΤΟ ΟΠΟΙΟ ΚΥΜΑΙΝΕΤΑΙ ΑΠΟ 0.5 ΕΩΣ 0.9 ΜΕ ΒΗΜΑ 0.05 ΓΙΑ ΟΛΑ ΤΑ ΣΥΝΟΛΑ Ε ΟΜΕΝΩΝ...105 ΠΙΝΑΚΑΣ 7 ΑΚΡΙΒΕΙΑ ΚΑΙ ΜΕΣΗ ΚΑΤΑΤΑΞΗ ΤΟΥ IBEP-MLC ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ ML-KNN ΚΑΙ ΚΑΤΩΦΛΙ ΤΟ ΟΠΟΙΟ ΚΥΜΑΙΝΕΤΑΙ ΑΠΟ 0.5 ΕΩΣ 0.9 ΜΕ ΒΗΜΑ 0.05 ΓΙΑ ΟΛΑ ΤΑ ΣΥΝΟΛΑ Ε ΟΜΕΝΩΝ...106 ΠΙΝΑΚΑΣ 8 ΑΚΡΙΒΕΙΑ ΚΑΙ ΜΕΣΗ ΚΑΤΑΤΑΞΗ ΤΩΝ ΣΥΓΚΡΙΝΟΜΕΝΩΝ ΜΕΘΟ ΩΝ ΓΙΑ ΟΛΑ ΤΑ ΣΥΝΟΛΑ Ε ΟΜΕΝΩΝ....108 ΠΙΝΑΚΑΣ 9 ΝΙΚΕΣ, ΙΣΟΠΑΛΙΕΣ ΚΑΙ ΗΤΤΕΣ (Ν,Ι,Η) ΓΙΑ ΟΛΑ ΤΑ ΖΕΥΓΗ ΜΕΘΟ ΩΝ....108 ΠΙΝΑΚΑΣ 10 ΜΕΣΟΣ ΑΡΙΘΜΟΣ ΜΟΝΤΕΛΩΝ ΠΟΥ ΕΠΙΛΕΧΘΗΚΑΝ ΑΠΟ ΤΙΣ ΥΝΑΜΙΚΕΣ ΜΕΘΟ ΟΥΣ ΕΠΙΛΟΓΗΣ ΟΜΑ ΑΣ ΓΙΑ ΤΗΝ ΤΕΛΙΚΗ ΤΑΞΙΝΟΜΗΣΗ....109 ΠΙΝΑΚΑΣ 11 ΑΚΡΙΒΕΙΑ ΚΑΙ ΜΕΣΗ ΚΑΤΑΤΑΞΗ ΤΟΥ IBEP-MLC ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ CLR ΚΑΙ ΚΑΤΩΦΛΙ ΤΟ ΟΠΟΙΟ ΚΥΜΑΙΝΕΤΑΙ ΑΠΟ 0.5 ΕΩΣ 0.9 ΜΕ ΒΗΜΑ 0.05 ΓΙΑ ΟΛΑ ΤΑ ΣΥΝΟΛΑ Ε ΟΜΕΝΩΝ...110 ΠΙΝΑΚΑΣ 12 ΑΚΡΙΒΕΙΑ ΚΑΙ ΜΕΣΗ ΚΑΤΑΤΑΞΗ ΤΟΥ IBEP-MLC ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ ML-KNN ΚΑΙ ΚΑΤΩΦΛΙ ΤΟ ΟΠΟΙΟ ΚΥΜΑΙΝΕΤΑΙ ΑΠΟ 0.5 ΕΩΣ 0.9 ΜΕ ΒΗΜΑ 0.05 ΓΙΑ ΟΛΑ ΤΑ ΣΥΝΟΛΑ Ε ΟΜΕΝΩΝ....111 ΠΙΝΑΚΑΣ 13 ΑΚΡΙΒΕΙΑ ΚΑΙ ΜΕΣΗ ΚΑΤΑΤΑΞΗ ΤΩΝ ΣΥΓΚΡΙΝΟΜΕΝΩΝ ΜΕΘΟ ΩΝ ΓΙΑ ΟΛΑ ΤΑ ΣΥΝΟΛΑ Ε ΟΜΕΝΩΝ....112 ΠΙΝΑΚΑΣ 14 ΝΙΚΕΣ, ΙΣΟΠΑΛΙΕΣ ΚΑΙ ΗΤΤΕΣ (Ν,Ι,Η) ΓΙΑ ΟΛΑ ΤΑ ΖΕΥΓΗ ΜΕΘΟ ΩΝ...112 ΠΙΝΑΚΑΣ 15 ΜΕΣΟΣ ΑΡΙΘΜΟΣ ΜΟΝΤΕΛΩΝ ΠΟΥ ΕΠΙΛΕΧΘΗΚΑΝ ΑΠΟ ΤΙΣ ΥΝΑΜΙΚΕΣ ΜΕΘΟ ΟΥΣ ΕΠΙΛΟΓΗΣ ΟΜΑ ΑΣ ΓΙΑ ΤΗΝ ΤΕΛΙΚΗ ΤΑΞΙΝΟΜΗΣΗ....113 ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ XIX

ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ

ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ ΕΙΣΑΓΩΓΗ Το κεφάλαιο αυτό παρέχει µια εισαγωγή στις έννοιες της µηχανικής µάθησης και της εξόρυξης δεδοµένων που σχετίζονται µε το αντικείµενο της πτυχιακής. Η Μηχανική Μάθηση αποτελεί έναν από τους παλαιότερους τοµείς έρευνας της Τεχνητής Νοηµοσύνης. Στόχος της είναι η δηµιουργία συστηµάτων τα οποία θα µπορούν να βελτιώνουν της απόδοσή τους στην εργασία που επιτελούν εκµεταλλευόµενα προηγούµενη εµπειρία από την εκτέλεση της εργασίας. εν θα µπορούσε βέβαια να διατυπωθεί ο ισχυρισµός ότι η επιστήµη έχει φθάσει σε σηµείο να ερµηνεύσει τη διαδικασία µάθησης του ανθρώπου, πόσο µάλλον να την αποτυπώσει σε πρόγραµµα εκτελέσιµο από υπολογιστή. Αυτό που έχει επιτευχθεί όµως είναι η δηµιουργία αλγορίθµων οι οποίοι µπορούν να αυτοµατοποιήσουν την κατασκευή ευφυών συστηµάτων χρησιµοποιώντας δεδοµένα εκπαίδευσης. Το γεγονός αυτό µαρτυρεί µια πληθώρα επιστηµονικών αλλά και εµπορικών εφαρµογών που έχουν αναπτυχθεί τα τελευταία χρόνια, επωφελούµενα από την χρήση των παραπάνω αλγορίθµων (Wtten & Frank, 2000). Η εξόρυξη δεδοµένων είναι κατά κάποιο τρόπο η χρήση των µεθόδων µηχανικής µάθησης σε µεγάλες βάσεις δεδοµένων. Όταν πρωτοεµφανίστηκε η µηχανική µάθηση το πρόβληµα που αντιµετώπιζαν οι ερευνητές ήταν η έλλειψη πλήθους δεδοµένων εκπαίδευσης. Σήµερα µε τις τεράστιες βάσεις δεδοµένων, στις περισσότερες περιπτώσεις το πρόβληµα έχει µετατοπιστεί στο χειρισµό αυτού του πλήθους των δεδοµένων από τους αλγόριθµους µηχανικής µάθησης. Πολύ συνοπτικά η µηχανική µάθηση χρησιµοποιείται κυρίως για τρεις σκοπούς (Wtten & Frank, 2000): Πρόβλεψη τάσεων και συµπεριφορών. Για παράδειγµα, η µελέτη παλαιότερων σεισµικών ακολουθιών µπορεί να οδηγήσει στην πρόβλεψη σεισµικής δραστηριότητας, µε υψηλά ποσοστά επιτυχίας,. Αναγνώριση. Οι τυποποιηµένες µορφές ανάµεσα στα δεδοµένα µπορούν να χρησιµοποιηθούν για να αποκαλύψουν την ύπαρξη ενός γεγονότος, µια δραστηριότητας. Για παράδειγµα, οι εισβολείς στη προσπάθεια να σπάσουν ένα σύστηµα ασφαλείας µπορούν να αναγνωριστούν από τα προγράµµατα που εκτέλεσαν, τα αρχεία που προσπέλασαν και τον χρόνο που απασχόλησαν την CPU. Ταξινόµηση. Η εξόρυξη γνώσης µπορεί να διαχωρίσει έτσι τα δεδοµένα ώστε να προκύψουν διαφορετικές κλάσεις ή κατηγορίες βάσει κάποιων παραµέτρων. Για παράδειγµα, οι πελάτες ενός καταστήµατος µπορούν να χωριστούν σε κατηγορίες, όπως φίλοι-των-εκπτώσεων, παρορµητικοί, πιστοί-κανονικοί, και σπάνιοι πελάτες. Αυτή η κατηγοριοποίηση µπορεί να χρησιµοποιηθεί στην ανάλυση των πωλήσεων ώστε να µπορεί για παράδειγµα ο µάνατζερ να λάβει αποφάσεις για να προσελκύσει σε µεγαλύτερο βαθµό κάποια από τις παραπάνω κατηγορίες. Οι αλγόριθµοι µηχανικής µάθησης κατηγοριοποιούνται ανάλογα µε το επιθυµητό αποτέλεσµα του αλγορίθµου. Στους συνηθισµένους τύπους αλγορίθµων περιλαµβάνονται οι εξής: Επιτηρούµενη µάθηση ή µάθηση µε επίβλεψη (supervsed learnng), όπου ο αλγόριθµος κατασκευάζει µια συνάρτηση που απεικονίζει δεδοµένες εισόδους σε ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ 23

ΜΑΡΚΑΤΟΠΟΥΛΟΥ ΦΩΤΕΙΝΗ γνωστές, επιθυµητές εξόδους (σύνολο εκπαίδευσης), µε απώτερο στόχο τη γενίκευση της συνάρτησης αυτής και για εισόδους µε άγνωστη έξοδο (σύνολο ελέγχου). Μη επιτηρούµενη µάθηση ή µάθηση χωρίς επίβλεψη (unsupervsed learnng), όπου ο αλγόριθµος κατασκευάζει ένα µοντέλο για κάποιο σύνολο εισόδων χωρίς να γνωρίζει επιθυµητές εξόδους για το σύνολο εκπαίδευσης. Ενισχυτική µάθηση (renforcement learnng), όπου ο αλγόριθµος µαθαίνει µια στρατηγική ενεργειών για µια δεδοµένη παρατήρηση. Το πρώτο στάδιο της σχεδίασης ενός συστήµατος εξόρυξης γνώσης (ή µηχανικής µάθησης) συνίσταται στον προσδιορισµό της γνώσης που θα χρησιµοποιηθεί κατά την εκπαίδευσή του. Ιδιαίτερη σηµασία στην ποιότητα του σώµατος εκπαίδευσης αποδίδεται στην κατανοµή των παραδειγµάτων από τα οποία θα αντληθεί η γνώση από το σύστηµα Μηχανικής Μάθησης, καθώς θα πρέπει να είναι όµοια µε την αντίστοιχη κατανοµή των περιπτώσεων που θα χρησιµοποιηθούν κατά τον έλεγχο της απόδοσης, ακόµα δε περισσότερο κατά τη λειτουργία του. Η πλέον συνηθισµένη αναπαράσταση του σώµατος εκπαίδευσης είναι αυτή που παρέχει το µοντέλο του διανυσµατικού χώρου (Klenberg, 2000). Σύµφωνα µε αυτό το µοντέλο, οι οντότητες αναπαρίστανται ως διανύσµατα, τα στοιχεία των οποίων αναπαριστούν τα χαρακτηριστικά (features ή attrbutes) της οντότητας που έχουν επιλεγεί ως σχετικά για το συγκεκριµένο πρόβληµα. Τα χαρακτηριστικά µπορούν να παίρνουν συµβολικές ή αριθµητικές τιµές. Για παράδειγµα, αν οι οντότητες αντιπροσωπεύουν µανιτάρια και το ζητούµενο είναι το αν αυτά είναι δηλητηριώδη, το διάνυσµα που αντιστοιχεί σε κάθε µανιτάρι είναι δυνατόν να περιλαµβάνει χαρακτηριστικά όπως την οσµή του, την προέλευσή του, το βάρος του κ.α. Οι οντότητες αυτές αναφέρονται ως παραδείγµατα εκπαίδευσης (tranng nstances). Επόµενο στάδιο στη σχεδίαση του συστήµατος αποτελεί ο τρόπος µε τον οποίο θα διαχειριστεί το τελευταίο τη γνώση που αποκοµίζει κατά την εκπαίδευση, µε σκοπό την αποδοτικότερη λειτουργία του. Υιοθετώντας το µοντέλο της διανυσµατικής αναπαράστασης, αναζητούµε ουσιαστικά µια συνάρτηση f η οποία προσεγγίζει όσο το δυνατόν περισσότερο µια ιδανική συνάρτηση µε την οποία δύναται να µοντελοποιηθεί το πρόβληµα, τη συνάρτηση στόχο (target functon) f. Οι δύο συναρτήσεις έχουν ελεύθερη µεταβλητή ένα τυχαίο διάνυσµα x, πεδίο ορισµού το χώρο των παραδειγµάτων, το δε σύνολο τιµών καθορίζεται από την εκάστοτε εφαρµογή. Έτσι, η επίλυση ενός προβλήµατος Μηχανικής Μάθησης ανάγεται στην επίλυση ενός προβλήµατος προσέγγισης των τιµών µιας συνάρτησης (functon approxmaton). Ο παραπάνω ορισµός που δόθηκε για τη µηχανική µάθηση αναφέρεται στην πραγµατικότητα στην περίπτωση της µάθησης µε επίβλεψη (supervsed learnng), υπό την έννοια πως η διαδικασία της µάθησης µπορεί να θεωρηθεί ότι επιβλέπεται από ειδικούς που γνωρίζουν την τιµή της συνάρτησηςστόχου. Με άλλα λόγια, η διαδικασία της επιτηρούµενης µάθησης «καθοδηγείται» από τα παραδείγµατα εκπαίδευσης υπό την έννοια ότι υποδεικνύουν στον αλγόριθµο µάθησης την τιµή της συνάρτησης στόχου που επιδιώκει να προσεγγίσει. Για παράδειγµα, ο Πίνακας 1 παρουσιάζει πιθανά δεδοµένα εκπαίδευσης για ένα τραπεζικό σύστηµα αξιολόγησης πελατών για δανειοδότηση. 24 ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ

ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ ΠΕΛΑΤΗΣ ΟΦΕΙΛΕΣ ΕΙΣΟ ΗΜΑ ΠΑΝΤΡΕΜΕΝΟΣ/Η ΠΕΛΑΤΗΣ 1 Υψηλές Υψηλό Ναι Καλός 2 Χαµηλές Υψηλό Όχι Κακός 3 Χαµηλές Υψηλό Ναι Καλός 4 Υψηλές Χαµηλό Ναι Κακός 5 Χαµηλές Χαµηλό Ναι Κακός Πίνακας 1 εδοµένα εκπαίδευσης για ένα τραπεζικό σύστηµα αξιολόγησης πελατών για δανειοδότηση Πιο φορµαλιστικά, δοθέντων: ενός προβλήµατος µε Ν κλάσεις: C 1, C 2, C n όπου κάθε στιγµιότυπο του προβλήµατος έχει m χαρακτηριστικά (µεταβλητές): Α 1, Α 2, Α m και ενός συνόλου στιγµιότυπων του προβλήµατος για τα οποία γνωρίζουµε εκ των προτέρων σε ποια κλάση ανήκουν - το σύνολο αυτό είναι γνωστό ως σύνολο δεδοµένων εκπαίδευσης (tranng set) το ζητούµενο είναι η δηµιουργία ενός µοντέλου για την ταξινόµηση νέων άγνωστων στιγµιότυπων του προβλήµατος. Με τον όρο ταξινόµηση εννοούµε την τοποθέτηση ενός στιγµιότυπου σε µία από τις προκαθορισµένες κλάσεις του προβλήµατος. Η επιτυχής έκβαση της ταξινόµησης εξαρτάται από δύο βασικούς παράγοντες: το σαφή καθορισµό των κλάσεων του προβλήµατος - οι κλάσεις είναι προκαθορισµένες και δεν µεταβάλλονται κατά τη διάρκεια της ταξινόµησης. την «ποιότητα» του συνόλου των παραδειγµάτων εκπαίδευσης τα δεδοµένα αυτά θα πρέπει να είναι αντιπροσωπευτικά του προβλήµατος. Αν υποθέσουµε την απλοϊκή περίπτωση ότι έχουµε στη διάθεσή µας µία συλλογή δεδοµένων εκπαίδευσης η οποία περιέχει n παραδείγµατα, που το κάθε ένα είναι ένα διάνυσµα m αριθµών τότε αυτά µπορούν να θεωρηθούν ως σηµεία σε ένα m-διάστατο χώρο. Ένας απλός τρόπος να κατασκευαστεί ένας δυαδικός ταξινοµητής (bnary classfer) είναι η δηµιουργία ενός υπερεπιπέδου, το οποίο θα διαχωρίζει τα µέλη της µίας κατηγορίας από εκείνα της άλλης. Ολοκληρώνοντας τη σύντοµη αυτή αναφορά στις θεµελιώδεις έννοιες της Μηχανικής Μάθησης, κρίνεται σκόπιµη η παρουσίαση ενός συνόλου παραγόντων καθοριστικής σηµασίας για τη σχεδίαση ενός αποδοτικού συστήµατος επιτηρούµενης Μηχανικής Μάθησης Από τους πλέον σηµαντικούς θεωρείται η ικανότητα γενίκευσης (generalzaton ablty) που χαρακτηρίζει ένα τέτοιο σύστηµα, η ικανότητά του δηλαδή να χρησιµοποιεί την εµπειρία που απέκτησε από τα στιγµιότυπα εκπαίδευσης όσο το δυνατόν αποτελεσµατικότερα επί του συνόλου των άγνωστων στιγµιότυπων ελέγχου. Σε µια πρώτη προσέγγιση ακούγεται αρκετά λογικό πως κάθε υποψήφιο προς επιλογή µοντέλο θα πρέπει να επαληθεύεται από όλα τα στιγµιότυπα εκπαίδευσης, ή όπως λέγεται, το µοντέλο θα πρέπει να είναι συνεπές (consstent). Στην πράξη, πέρα από το γεγονός πως δεν είναι βέβαιο ότι υπάρχει ακριβώς ένα τέτοιο µοντέλο, ακόµα κι αν υπάρχει και βρεθεί, δεν είναι σίγουρα και η καλύτερη ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ 25

ΜΑΡΚΑΤΟΠΟΥΛΟΥ ΦΩΤΕΙΝΗ λύση. Η αιτία είναι το φαινόµενο του υπερταιριάσµατος (overfttng), το οποίο θα µπορούσε να αποδοθεί ως το υπερβολικό ταίριασµα µε τα δεδοµένα εκπαίδευσης. Μία υπόθεση h λέγεται πως υπερταιριάζει (overfts) µε τα δεδοµένα εκπαίδευσης αν υπάρχει µια άλλη υπόθεση h τέτοια ώστε η h να έχει µικρότερο σφάλµα από την h για τα δεδοµένα εκπαίδευσης, αλλά η h να έχει µικρότερο σφάλµα από την h για τη συνολική κατανοµή των στιγµιότυπων. Η h δηλαδή είναι καλύτερη προσέγγιση του πραγµατικού µοντέλου από την h. Οι κύριοι λόγοι εµφάνισης του υπερταιριάσµατος είναι οι εξής: Ο µεγάλος αριθµός παραµέτρων του µοντέλου, ή πιο γενικά η ικανότητα του αλγορίθµου µάθησης να κατασκευάζει ιδιαίτερα πολύπλοκα µοντέλα. Η µη κατάλληλη επιλογή των χαρακτηριστικών αναπαράστασης, καθώς και ο θόρυβος στα δεδοµένα εκπαίδευσης, δηλαδή τα τυχαία λάθη που είναι δυνατόν να περιέχονται στα δεδοµένα. Αν και θα θέλαµε να είχαµε απολύτως αξιόπιστα δεδοµένα τα οποία να χρησιµοποιούσαµε για την κατασκευή του ταξινοµητή, στην πράξη αυτό δεν είναι πάντα εφικτό. Για παράδειγµα, µπορεί τα δεδοµένα να είναι σήµατα από βιντεοκάµερες ή µικρόφωνα αλλοιωµένα από τυχαίο ηλεκτροµαγνητικό θόρυβο, ή να προέρχονται από ανακριβείς πειραµατικές µετρήσεις σε µη ελεγχόµενο περιβάλλον, όπως αυτές που γίνονται στο διάστηµα. Αξίζει να σηµειωθεί πως η πιο κοινή πηγή θορύβου είναι ο ανθρώπινος παράγοντας, π.χ. στην εισαγωγή των δεδοµένων. Είναι εποµένως λογικό πως ένας ταξινοµητής προσαρµοσµένος απόλυτα ή πολύ κοντά στα (θορυβώδη) δεδοµένα εκπαίδευσης, δεν αναµένεται να διατηρήσει την υψηλή του απόδοση σε νέα µη παρατηρηθέντα δεδοµένα, ή όπως λέγεται δεν θα έχει µεγάλη ακρίβεια γενίκευσης (generalzaton accuracy). Το υπερταίριασµα είναι µια σηµαντική πρακτική δυσκολία για πολλούς αλγορίθµους µάθησης. Για τη µετρίασή του έχουν επινοηθεί µέθοδοι, τόσο προσαρµοσµένες σε καθέναν από αυτούς, όσο και ανεξάρτητες αλγορίθµου. Βασικός οδηγός στην αποφυγή του είναι η αρχή του ξυραφιού του Occam (Occam s Razor): µεταξύ όλων των ικανοποιητικών λύσεων, προτιµήστε την απλούστερη. Μία οπτική γωνία απ την οποία µπορεί κανείς να δει τη µηχανική µάθηση είναι αυτή της αναζήτησης, σε ένα πολύ µεγάλο χώρο δυνατών υποθέσεων, µιας υπόθεσης που ταιριάζει αρκετά καλά µε τα δεδοµένα εκπαίδευσης και την τυχόν εκ των προτέρων (a pror) γνώση. Οι διάφοροι επαγωγικοί αλγόριθµοι µάθησης (nducers, για συντοµία ΕΑΜ) που έχουν αναπτυχθεί έως σήµερα διαφέρουν ως προς την υποκείµενη αναπαράσταση του χώρου των δυνατών υποθέσεων, και κατά συνέπεια και του τρόπου που οργανώνουν την αναζήτηση σε αυτό το χώρο. Μερικά παραδείγµατα αναπαραστάσεων είναι οι κανόνες ταξινόµησης, τα δέντρα απόφασης (decson trees), τα τεχνητά νευρωνικά δίκτυα (artfcal neural networks), κ.α. ιαφορετικές αναπαραστάσεις είναι κατάλληλες για τη µάθηση διαφορετικών ειδών συναρτήσεων-στόχων. Για κάθε µια από αυτές τις αναπαραστάσεις, ο αντίστοιχος ΕΑΜ εκµεταλλεύεται τη διαφορετική υποκείµενη δοµή για να οργανώσει την αναζήτηση στο χώρο των υποθέσεων. Μία θεµελιώδης ιδιότητα που χαρακτηρίζει κάθε ΕΑΜ είναι η επαγωγική προδιάθεση ή κλίση του (nductve bas). Κάθε ΕΑΜ απαιτεί κάποιου είδους προδιάθεση για να µπορέσει να γενικεύσει πέρα από τα παρατηρηθέντα δεδοµένα. ιαφορετικά, ένας πλήρως αµερόληπτος αλγόριθµος (basfree learner) ο οποίος δεν κάνει καµιά υπόθεση σχετικά µε την ταυτότητα της συνάρτησης-στόχου, δεν έχει κανένα λογικό έρεισµα για να αποφασίσει την τιµή κάποιου άγνωστου στιγµιότυπου. 26 ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ

ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ Με διαφορετική διατύπωση, η επαγωγική κλίση ενός ΕΑΜ L είναι ένα ελάχιστο σύνολο από υποθέσεις, οι οποίες σε συνδυασµό µε ένα δοθέν σύνολο εκπαίδευσης και ένα άγνωστο στιγµιότυπο προς κατάταξη, µπορούν να οδηγήσουν παραγωγικά (deductvely) στην πρόβλεψη που δίνει ο L για αυτό το στιγµιότυπο. Οι υποθέσεις αυτές άλλοτε περιορίζουν το χώρο των υπό θεώρηση µοντέλων (restrcton bas ή language bas), άλλοτε επιβάλλουν µια συγκεκριµένη στρατηγική αναζήτησης στο χώρο αυτό, επιβάλλοντας έτσι την προτίµηση κάποιων υποθέσεων ως προς άλλες (search ή preference bas) και άλλοτε συνδυάζουν και τα δύο. Αντίθετα µε την επιτηρούµενη µηχανική µάθηση, στην περίπτωση της µάθησης χωρίς επίβλεψη, ο αλγόριθµος καλείται να ανακαλύψει δοµικούς σχηµατισµούς στα στιγµιότυπα εκπαίδευσης, βάσει κριτηρίων τα οποία δεν του παρέχονται άµεσα. Παραδείγµατα προβληµάτων που εντοπίζονται σε αυτήν την περιοχή είναι: η οµαδοποίηση οντοτήτων (clusterng), όπου επιχειρείται οµαδοποίηση των στιγµιότυπων σε κλάσεις τις οποίες θα συµπεράνει ο αλγόριθµος, στηριζόµενος στην οµοιότητα των µελών κάθε οµάδας. Μια ακόµα σηµαντική έννοια είναι αυτή της εξόρυξης δεδοµένων. Αναφερθήκαµε συνοπτικά σε αυτή στις προηγούµενες παραγράφους ωστόσο εδώ αναφέρεται ο ορισµός που αποδίδουν οι Hand et al. (2001): Εξόρυξη εδοµένων ή Ε (Data Mnng, DM) ονοµάζεται: Η ανάλυση (συχνά µεγάλων) παρατηρούµενων συνόλων δεδοµένων για την αναζήτηση ανύποπτων σχέσεων και η σύνοψη των δεδοµένων µε νέους τρόπους που είναι κατανοητοί και χρήσιµοι στον ιδιοκτήτη των δεδοµένων. Θα αναλύσουµε αµέσως παρακάτω µε κάποια λεπτοµέρεια τα επιµέρους στοιχεία αυτού του ορισµού, προσπαθώντας να κάνουµε πιο σαφή τη διαδικασία της Ε. Ο ορισµός, λοιπόν, αναφέρεται σε παρατηρούµενα (observable) δεδοµένα ακριβώς για να τονίσει τη διαφορά της Ε µε την κλασική στατιστική και τα πειραµατικά (expermental) δεδοµένα. Τα δεδοµένα σε µια εφαρµογή Ε προέρχονται από την απλή καταγραφή ιδιοτήτων και όχι από την προσεκτική επιλογή τους µέσω ενός πειράµατος. Συχνά ο στόχος αυτής της συλλογής των δεδοµένων είναι άλλος από αυτόν της ανάλυσης τους, όπως τα δεδοµένα δανεισµού από µια πανεπιστηµιακή βιβλιοθήκη, τα οποία διατηρούνται για να µπορεί να έχει η βιβλιοθήκη ένα αρχείο µε την τρέχουσα κατάσταση των βιβλίων της. Εποµένως, η συλλογή των δεδοµένων ενδέχεται να µην διέπεται από µια στρατηγική και η καταγραφή τους να έγινε επειδή αυτά (και όχι κάποια άλλα) στοιχεία ήταν ευκολότερο να καταγραφούν ή ακόµη η επιλογή της καταγραφής τους να έγινε τυχαία. εδοµένα όπως τα παραπάνω ονοµάζονται ευκαιριακά δεδοµένα (opportunty convenence data) και συνήθως εµφανίζουν κάποια µεροληψία. Σε αντιδιαστολή µε την Ε η Στατιστική έχει αναπτύξει δύο κλάδους, τον Πειραµατικό Σχεδιασµό και τη ειγµατοληψία, που έχουν υπ ευθύνη τους τη στρατηγική συλλογή δεδοµένων µε τρόπο τέτοιο ώστε αυτά να αποκτούν ορισµένες επιθυµητές ιδιότητες. Η χρησιµοποίηση των ευκαιριακών δεδοµένων από την Ε δικαιολογεί την απόδοση του χαρακτηρισµού της δευτερεύουσας ανάλυσης. ιακριτικό γνώρισµα, επίσης, της Ε είναι η ύπαρξη συχνά µεγάλων συνόλων δεδοµένων, διαφορετικά η κλασική ιερευνητική Ανάλυση εδοµένων (Exploratory Data Analyss, EDA) όπως τη γνωρίζουν οι στατιστικοί επιστήµονες θα αρκούσε. Σηµειώνουµε ότι όταν ένα σύνολο χαρακτηρίζεται µεγάλο στην Ε τότε ξεπερνά κατά πολύ το τυπικά µεγάλο σύνολο στη Στατιστική. Υπάρχουν περιπτώσεις όπου τα δεδοµένα προέρχονται από απογραφή, δεν αποτελούν δηλαδή δείγµα κάποιου ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ 27

ΜΑΡΚΑΤΟΠΟΥΛΟΥ ΦΩΤΕΙΝΗ πληθυσµού αλλά είναι ολόκληρος ο πληθυσµός και τότε η κλασική συµπερασµατολογία χάνει το νόηµα της. Σε άλλες περιπτώσεις θεωρούµε ότι έχουµε ένα δείγµα από έναν υποτιθέµενο υπερπληθυσµό όπως όταν µελετάµε την (παρελθοντική) συµπεριφορά των χρηστών µιας ιστοσελίδας µε στόχο να προβλέψουµε τη µελλοντική συµπεριφορά τους. Έχουµε δηλαδή ένα µη στατικό πληθυσµό που αντίκειται και πάλι στις θεωρητικές προϋποθέσεις της κλασικής στατιστικής. Η αναζήτηση της δοµής στα σύνολα δεδοµένων για µια εφαρµογή Ε περιλαµβάνει την εύρεση σχέσεων και συνόψεων, δηλαδή την κατασκευή µοντέλων ή προτύπων όπως είναι η παλινδρόµηση γραµµικών εξισώσεων, οι κανόνες συσχέτισης, τα γραφήµατα, οι συστάδες ή οι δοµές δέντρων κ.ά. Θεµελιώδες στοιχείο του ορισµού της Ε είναι η δοµή που τελικά αναζητούµε να είναι χρήσιµη και να περιγράφει το φαινόµενο µε πρωτότυπο τρόπο. Η περίπτωση της ανάλυσης µιας βάσης δεδοµένων και η επ-ανακάλυψη της ήδη υπάρχουσας γνώσης δεν αποτελεί στόχο των αναλυτών. Μια ανάλυση ιατρικών δεδοµένων που θα καταλήξει στο τετριµµένο συµπέρασµα ότι µόνο οι άνδρες έχουν προστάτη ή µόνο οι γυναίκες γίνονται µητέρες δεν ενδιαφέρει κανέναν! Φανερά πρόκειται για ένα σηµαντικό θέµα στην Ε, αλλά λίγοι αλγόριθµοι λαµβάνουν υπ όψιν τους την εκ των προτέρων γνώση του χρήστη για τα δεδοµένα (Benot, 2002). Τέλος, πέρα από καινούριος, ο τρόπος σύνοψης των δεδοµένων πρέπει να είναι και εύκολα κατανοητός. Ένα απλό µαθηµατικό µοντέλο παραδείγµατος χάρη που µπορεί να γίνει ευκολότερα αντιληπτό από το χρήστη, παρέχοντάς του τη δυνατότητα να αποκτήσει µια καλύτερη άποψη του χώρου απ όπου τα δεδοµένα προήλθαν αλλά και να αξιοποιήσει την εξαγχθείσα γνώση, δηλαδή να του φανεί χρήσιµη (Benot, 2002). Ο Leeds (1998) αναφέρει ότι αν τα αποτελέσµατα µιας ανάλυσης δοθούν µε κατανοητό προς τον χρήστη τρόπο τότε γίνονται και ευκολότερα αποδεκτά ακόµη και αν αντίκειται στη µέχρι τώρα γνώση. 1.1 ΠΛΕΟΝΕΚΤΗΜΑΤΑ ΕΞΟΡΥΞΗΣ Ε ΟΜΕΝΩΝ ΜΕ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Αρκετοί είναι οι λόγοι που κάνουν την εξόρυξη δεδοµένων µε µηχανική µάθηση όλο και πιο δηµοφιλή. Ανάµεσα σε αυτούς τους λόγους είναι ο αυξανόµενος όγκος δεδοµένων, οι έµφυτοι περιορισµοί της δυνατότητα ανθρώπινης ανάλυσης, το χαµηλότερο κόστος για την εκµάθηση µιας µηχανής από την εκπαίδευση ενός συνόλου ειδικών και τέλος η ανάγκη των επιχειρήσεων για επιχειρηµατική νοηµοσύνη. Τα τελευταία χρόνια, οι δυνατότητες µας να παράγουµε και να συλλέγουµε δεδοµένα έχουν αυξηθεί σηµαντικά. Η ευρεία χρήση των υπολογιστών στις συναλλαγές σε όλους τους τοµείς της σύγχρονης κοινωνίας (στο χώρο των επιχειρήσεων, της βιοµηχανίας, των επιστηµών) καθώς και τα πολλαπλά πλεονεκτήµατα που παρέχουν τα διάφορα εργαλεία συλλογής και επεξεργασίας δεδοµένων έχουν οδηγήσει στη συγκέντρωση µεγάλου όγκου πληροφορίας. Ο βασικός λόγος για την ανάγκη των αυτοµατοποιηµένων συγκροτηµάτων ηλεκτρονικών υπολογιστών για την ευφυή ανάλυση δεδοµένων είναι ο τεράστιος 28 ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ

ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ όγκος των υπαρκτών και µελλοντικών δεδοµένων που απαιτούν περαιτέρω επεξεργασία. Ο όγκος των δεδοµένων που συσσωρεύονται κάθε ηµέρα από διάφορες επιχειρήσεις, επιστηµονικές και κυβερνητικές οργανώσεις σε όλο τον κόσµο αυξάνεται µε εντυπωσιακό ρυθµό. Σύµφωνα µε έρευνες, µόνο οι επιστηµονικές οργανώσεις επεξεργάζονται και αποθηκεύουν κάθε ηµέρα για 1 ΤΒ (terabyte) νέων δεδοµένων. Γίνεται αδύνατο για τους αναλυτές να εξάγουν χρήσιµη πληροφορία από τόσο µεγάλες βάσεις δεδοµένων. ύο άλλα προβλήµατα που εµφανίζονται όταν αναλυτές επεξεργάζονται δεδοµένα είναι η ανεπάρκεια του ανθρώπινου εγκεφάλου να επεξεργάζεται σύνθετες εξαρτήσεις στα δεδοµένα, και η έλλειψη αντικειµενικότητας σε µια τέτοια ανάλυση. Ένας εµπειρογνώµονας επηρεάζεται σχεδόν πάντοτε από την εµπειρία του στην ανάλυση άλλων συστηµάτων. Μερικές φορές αυτό βοηθά, µερικές φορές βλάπτει, αλλά είναι σχεδόν αδύνατο να ξεφύγει από αυτό το γεγονός. Ένα πρόσθετο όφελος από τη χρήση αυτοµατοποιηµένων συστηµάτων εξόρυξης δεδοµένων είναι ότι αυτή η διαδικασία έχει πολύ χαµηλότερο κόστος από το να προσλάβει µια εταιρία έναν ιδιαίτερα εκπαιδευµένο (και πολύ καλά αµειβόµενο) αριθµό από εµπειρογνώµονες. Ενώ η εξόρυξη δεδοµένων δεν εξαλείφει εντελώς την ανθρώπινη συµµετοχή στη λύση ενός προβλήµατος, απλοποιεί σηµαντικά την εργασία αυτή. Στον επιχειρησιακό κόσµο, η εξόρυξη δεδοµένων παρέχει µια πλήρως καινούρια ικανότητα, τη δυνατότητα να βελτιστοποιηθεί η λήψη αποφάσεων χρησιµοποιώντας τις αυτοµατοποιηµένες µεθόδους που µαθαίνουν από παρελθοντικές ενέργειες. Εάν µια επιχείρηση ήξερε τι προϊόντα ενδιαφέρουν ένα πελάτη τότε θα µπορούσε να λάβει µέτρα για να εξασφαλίσει ότι ο πελάτης θα πραγµατοποιήσει την αγορά από αυτή την επιχείρηση. Για παράδειγµα, η επιχείρηση θα µπορούσε να στείλει µε το ταχυδροµείο ειδικές προσφορές για το συγκεκριµένο είδος προϊόντος στο συγκεκριµένο πελάτη (Lng & L, 1998). Χωρίς τη προσέγγιση αυτή, η επιχείρηση θα σπαταλούσε χρήµατα στέλνοντας προσφορές σε πελάτες που δεν θα ήθελαν το συγκεκριµένο προϊόν. 1.2 ΕΦΑΡΜΟΓΕΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΚΑΙ ΕΞΟΡΥΞΗΣ Ε ΟΜΕΝΩΝ Η µηχανική µάθηση χρησιµοποιείται σήµερα σε πολλά και διαφορετικά πεδία εφαρµογών όπως η αναγνώριση προτύπων (pattern recognton), η ταυτοποίηση (dentfcaton), η ταξινόµηση (classfcaton) κ.λπ. Στη συνέχεια, αναφέρονται ενδεικτικά µερικές περιοχές εφαρµογών : Οι τεχνικές της Ε χρησιµοποιούνται σε πληθώρα εφαρµογών στην επιστήµη µε κυρίαρχες αυτές στην αστρονοµία, όπως το EOS (Earth Observng System της NASA) και τη βιολογία, στην περίπτωση της µελέτης γονιδιωµάτων. Στις επιχειρήσεις και τη βιοµηχανία σηµειώνουµε ότι οι τεχνικές της Ε έχουν βρει εφαρµογές ως αρωγοί σε επίπεδο λήψης αποφάσεων. Παραθέτουµε επιγραµµατικά τις παρακάτω περιπτώσεις: Μάρκετινγκ: Οι εφαρµογές περιλαµβάνουν αναλύσεις της συµπεριφοράς των καταναλωτών ως προς τα αγοραστικά µοτίβα που εµφανίζουν, καθορισµό των µάρκετινγκ στρατηγικών όπως η διαφήµιση, η αλληλογραφία, η τοποθεσία του καταστήµατος, ο διαχωρισµός ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ 29

ΜΑΡΚΑΤΟΠΟΥΛΟΥ ΦΩΤΕΙΝΗ των καταναλωτών, των καταστηµάτων ή των προϊόντων, το σχεδιασµό των καταλόγων, τη διαµόρφωση των καταστηµάτων και τη διαφηµιστική εκστρατεία. Οικονοµία: Οι εφαρµογές περιλαµβάνουν ανάλυση της αξιοπιστίας των πελατών, την κατάτµηση των λογαριασµών, την ανάλυση οικονοµικών επενδύσεων όπως µετοχές, οµόλογα, αµοιβαία κεφάλαια, αξιολόγηση χρηµατοδοτικών δικαιωµάτων και την ανακάλυψη απάτης. Κατασκευές: Οι εφαρµογές έχουν να κάνουν µε τη βελτιστοποίηση των πόρων όπως µηχανών, ανθρώπινου δυναµικού και υλικού, το βέλτιστο σχεδιασµό κατασκευαστικών διαδικασιών, το σχεδιασµό προϊόντων όπως λ.χ. αυτοκινήτων σύµφωνα µε τις απαιτήσεις των καταναλωτών. Σύστηµα Πρόνοιας: Οι εφαρµογές περιλαµβάνουν ανάλυση της αποτελεσµατικότητας συγκεκριµένων θεραπειών, βελτιστοποίηση ορισµένων διαδικασιών στα νοσοκοµεία, ανάλυση των παρενεργειών των φαρµάκων. Άλλες εφαρµογές των µεθόδων Ε συναντούµε στις τηλεπικοινωνίες, τον αθλητισµό, τους ευφυείς πράκτορες του διαδικτύου, την ανίχνευση απάτης και εισβολέων καθώς και αλλού. εν παραθέτουµε βιβλιογραφικές παραποµπές σε άρθρα ή εργασίες καθώς το µεγάλο πλήθος των εφαρµογών, η ποικιλία που αυτές εµφανίζουν ως προς τις µεθόδους Ε που χρησιµοποιούν καθώς επίσης και η σύντοµη διάρκεια που παραµένουν αντιπροσωπευτικές θέτει µια τέτοια ενέργεια εκτός των στόχων της παρούσας διπλωµατικής εργασίας. Όποιος ενδιαφέρεται συγκεκριµένα για µια εφαρµογή ή µια µέθοδο µπορεί να προχωρήσει σε µια επιλεκτική αναζήτηση. 1.3 ΜΕΘΟ ΟΙ ΟΜΑ ΩΝ Αντικείµενο της παρούσας πτυχιακής εργασίας όπως έχει αναφερθεί και στην περίληψη είναι οι µέθοδοι οµάδων και πιο συγκεκριµένα το δυναµικό κλάδεµα οµάδας. Από την σύντοµη εισαγωγή που προηγήθηκε προκύπτει η σπουδαιότητα του τοµέα της µηχανικής µάθησης και της εξόρυξης δεδοµένων. Στόχος των ερευνητών είναι η εύρεση καλύτερων µεθόδων που θα µπορούν να εγγυηθούν αποτελέσµατα υψηλής ακρίβειας µε το χαµηλότερο δυνατό κόστος για οποιοδήποτε πρόβληµα µηχανικής µάθησης. Οι µέθοδοι οµάδων (ensemble methods) είναι µια πολύ διαδεδοµένη περιοχή της µηχανικής µάθησης, σύµφωνα µε την οποία αρχικά παράγεται µια οµάδα µοντέλων πρόβλεψης (χρησιµοποιώντας διαφορετικούς αλγορίθµους εκπαίδευσης, διαφορετικά υποσύνολα των δεδοµένων κτλ) και στη συνέχεια οι προβλέψεις τους συνδυάζονται µε στόχο την αύξηση της ακρίβειας πρόβλεψης. Στην παρούσα ενότητα θα δοθούν µερικοί ορισµοί που αφορούν βασικές έννοιες των µεθόδων οµάδων ώστε ο αναγνώστης να έχει µια πρώτη εικόνα σχετικά µε αυτό το πεδίο. Η µάθηση οµάδων (ensemble learnng) είναι η διαδικασία κατά την οποία πολλά µοντέλα, όπως µοντέλα ταξινοµητών (classfers), δηµιουργούνται και συνδυάζονται σύµφωνα µε κάποια στρατηγική ώστε να επιλύσουν ένα συγκεκριµένο υπολογιστικό 30 ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ

ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ πρόβληµα πρόβλεψης. Οι µέθοδοι οµάδων χρησιµοποιούνται κυρίως για τη βελτίωση της αποδοτικότητας ενός µοντέλου ή την µείωση µιας ανεπιτυχούς επιλογής ενός πιο αδύναµου. Άλλες εφαρµογές των µεθόδων οµάδων περιλαµβάνουν την παραχώρηση εµπιστοσύνης στην απόφαση που παίρνει κάποιο µοντέλο, την βέλτιστη επιλογή χαρακτηριστικών, την σύντηξη δεδοµένων (data fuson), την επαυξητική µάθηση (ncremental learnng), την µη στατική µάθηση (nonstatonary learnng) και τη διόρθωση λαθών (error-correctng) Σύµφωνα µε τον Detterch (2000) τρείς είναι οι βασικοί λόγοι ώστε να χρησιµοποιήσει κανείς συστήµατα που στηρίζονται στις µεθόδους οµάδων: Στατιστικοί (statstcal) Υπολογιστικοί (computatonal) Αναπαράστασης (representatonal) Οι στατιστικοί λόγοι έχουν να κάνουν µε την έλλειψη εκείνων των δεδοµένων τα οποία θα είναι ικανά να παραστήσουν την κατανοµή των δεδοµένων, οι υπολογιστικοί λόγοι αφορούν το πρόβληµα της επιλογής ενός συγκεκριµένου µοντέλου το οποίο µεταξύ πολλών µοντέλων θα µπορεί να λύσει ένα δοθέν πρόβληµα. Τέλος, οι λόγοι αναπαράστασης αναφέρονται σε περιπτώσεις που το επιλεχθέν µοντέλο δεν µπορεί να αναπαραστήσει κατάλληλα ολόκληρη την περιοχή αναζήτησης αποφάσεων. Ο συνδυασµός των αποφάσεων ενός συνόλου ταξινοµητών έχει πολλά πλεονεκτήµατα. Πρώτον, µειώνεται το ρίσκο της επιλογής ενός λανθασµένου κανόνα που θα παίρνει αποφάσεις, επειδή η οµάδα που συγκροτείται κάνει ταυτόχρονα εναλλακτικές υποθέσεις. εύτερον, κάποιες µέθοδοι οµάδων έχουν αποδειχθεί πολύ ισχυρές σε δεδοµένα εκπαίδευσης που περιέχουν θόρυβο. Επιπρόσθετα, οι µέθοδοι οµάδων είναι χρήσιµες για την µείωση του υπερταιριάσµατος (over-fttng). Πιο συγκεκριµένα ο συνδυασµός πολλών πολύπλοκων µοντέλων που είναι επιρρεπή στο υπερταίριασµα είναι ευεργετικός σε πλήθος προβληµάτων πρακτικού ενδιαφέροντος. Τέλος, η πρόβλεψη από µια οµάδα είναι συχνά σηµαντικά καλύτερη από την ατοµική πρόβλεψη του καθενός από τα µέλη της οµάδας. (Hernandez-Lobato et al., 2009). Παρά τα πλεονεκτήµατα που αναφέρθηκαν παραπάνω, η εφαρµογή των µεθόδων οµάδων στην πράξη µπορεί να παρουσιάσει δυσκολίες. Καταρχήν, ο αριθµός των µοντέλων που απαιτούνται για να εξασφαλίσουν την σύγκλιση του λάθους πρόβλεψης της οµάδας σε συµπτωτικό επίπεδο µπορεί να είναι πολύ µεγάλος. Ως αποτέλεσµα, η κατασκευή οµάδων έχει υψηλό κόστος. Επιπλέον, έχουν υψηλές απαιτήσεις µνήµης για την αποθήκευση όλων των µοντέλων. Επίσης, ο χρόνος που απαιτείται για να υπολογιστεί η απόφαση µιας οµάδας αυξάνεται γραµµικά µε το µέγεθός της και έτσι µπορεί να είναι πολύ µεγαλύτερος από τον χρόνο πρόβλεψης ενός µεµονωµένου µοντέλου. Όλα αυτά πιθανότατα δεν είναι επιθυµητά σε onlne εφαρµογές. Ένα άλλο πρόβληµα των µεθόδων οµάδας είναι πως γενικά είναι δύσκολο να καθοριστεί το κατάλληλο µέγεθος της οµάδας. Στην πράξη, το µέγεθος της οµάδας ορίζεται σε έναν µεγάλο αριθµό για τον οποίο το λάθος πρόβλεψης του συνόλου επικαλύπτεται. Σύµφωνα µε τα ευρήµατα µιας πρόσφατης έρευνας, ο αριθµός των ειδικών που απαιτούνται για να εξασφαλιστεί ισχυρή σύγκλιση εξαρτάται από το πρόβληµα που αναλύεται: Ενώ για κάποια προβλήµατα µάθησης απαιτούνται µερικές δεκάδες µοντέλων, άλλα απαιτούν πολλά περισσότερα. Η υπερτίµηση του µεγέθους της οµάδας µπορεί να έχει ως αποτέλεσµα την σπατάλη πηγών. Σε αντίθεση, η ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ 31

ΜΑΡΚΑΤΟΠΟΥΛΟΥ ΦΩΤΕΙΝΗ υποτίµηση του αριθµού αυτού µπορεί να µειώσει την ακρίβεια πρόβλεψης (Hernandez-Lobato et al., 2009). Είδαµε πολύ συνοπτικά τι είναι οι µέθοδοι οµάδων, τα πλεονεκτήµατα και τα µειονεκτήµατα αυτών, στην συνέχεια της εργασίας θα µελετήσουµε διεξοδικά τις διάφορες κατηγορίες των µεθόδων οµάδας καθώς επίσης τους τρόπους κλαδέµατος µιας οµάδας ταξινοµητών. 1.4 ΠΕΡΙΛΗΨΗ ΑΝΑ ΚΕΦΑΛΑΙΑ Η πτυχιακή εργασία προτείνει µια νέα προσέγγιση για το κλάδεµα µιας οµάδας ταξινοµητών κατά περίπτωση (nstance-based prunng) µοντελοποιώντας το πρόβληµα ως ένα πρόβληµα ταξινόµησης δεδοµένων µε πολλαπλές ετικέτες. Οι ετικέτες αντιπροσωπεύουν τους ταξινοµητές και τα παραδείγµατα εκπαίδευσης πολλαπλών ετικετών σχηµατίζονται µε βάση την ικανότητα του κάθε ταξινοµητή να ταξινοµεί σωστά τα αρχικά παραδείγµατα εκπαίδευσης. Η εργασία δοµείται σε κεφάλαια ως εξής: Στο Κεφάλαιο 2 παρουσιάζονται οι µέθοδοι οµάδας, τα πλεονεκτήµατα και τα µειονεκτήµατα αυτών και αναλύεται ο τρόπος λειτουργίας τους. Στο Κεφάλαιο 3, παρουσιάζονται οι µέθοδοι κλαδέµατος οµάδας, γίνεται κατηγοριοποίηση αυτών και αναλύονται σχετικές βιβλιογραφικές προσεγγίσεις της κάθε κατηγορίας. Στο Κεφάλαιο 4, προτείνουµε µία προσέγγιση για το δυναµικό κλάδεµα µιας οµάδας ταξινοµητών την οποία ονοµάζουµε Κλάδεµα Οµάδας Κατά Περίπτωση µέσω Ταξινόµησης Πολλαπλών Ετικετών. Στο Κεφάλαιο 5, καταλήγουµε στα συµπεράσµατα της µελέτης µας και ορίζουµε µελλοντικούς στόχους. Στο Παράρτηµα I παρουσιάζεται αλφαβητικά η βιβλιογραφία που αναφέρεται στην εργασία. 32 ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ

ΚΕΦΑΛΑΙΟ 2: ΜΕΘΟ ΟΙ ΟΜΑ ΑΣ

ΚΕΦΑΛΑΙΟ 2: ΜΕΘΟ ΟΙ ΟΜΑ ΑΣ ΜΕΘΟ ΟΙ ΟΜΑ ΑΣ Το κεφάλαιο αυτό αναφέρεται στις µεθόδους οι οποίες σκοπό έχουν την δηµιουργία µιας οµάδας ταξινοµητών οι αποφάσεις των οποίων θα συνδυάζονται µε κάποια τεχνική ώστε να ταξινοµήσουν ένα νέο στιγµιότυπο µε σκοπό να πετύχουν υψηλότερη ακρίβεια από αυτήν ενός απλού ταξινοµητή. Στο κεφάλαιο αυτό αναλύεται η αξία των µεθόδων αυτών, ο τρόπος κατασκευής οµάδας και ο µηχανισµός λειτουργίας τους. 2.1 ΕΙΣΑΓΩΓΗ Θα ξεκινήσουµε την περιγραφή µε κάποιους βασικούς ορισµούς ώστε να µπορέσουµε να καταλήξουµε στον ορισµό των µεθόδων οµάδας και στην αξία που έχουν. Αρχικά το θέµα που µας απασχολεί είναι µέθοδοι για την βελτίωση της ακρίβειας στον τοµέα της µάθησης µε επίβλεψη. Αν και στο κεφάλαιο 1 αναφερθήκαµε στη µάθηση µε επίβλεψη εδώ θα κάνουµε µια γρήγορη σύνοψη και θα αναφερθούµε σε κάποια θέµατα σηµειογραφίας: Στη µάθηση µε επίβλεψη το σύστηµα πρέπει να µάθει επαγωγικά µια συνάρτηση που ονοµάζεται συνάρτηση στόχος (target functon) f και αποτελεί έκφραση του µοντέλου που περιγράφει τα δεδοµένα. Η συνάρτηση στόχος χρησιµοποιείται για την πρόβλεψη της τιµής µιας µεταβλητής που ονοµάζεται εξαρτηµένη µεταβλητή ή µεταβλητή εξόδου y, βάσει των τιµών ενός συνόλου µεταβλητών που ονοµάζονται µεταβλητές εισόδου ή χαρακτηριστικά x. Το σύνολο των διαφορετικών δυνατών τιµών εισόδου της συνάρτησης, δηλαδή το πεδίο ορισµού της ονοµάζεται σύνολο περιπτώσεων ή στιγµιότυπων. Ένα υποσύνολο του συνόλου των περιπτώσεων για τα οποία γνωρίζουµε την µεταβλητή εξόδου, ονοµάζεται σύνολο δεδοµένων εκπαίδευσης ή παραδείγµατα. Το πρόγραµµα µάθησης δέχεται παραδείγµατα εκπαίδευσης (tranng examples) της µορφής {( x 1,y 1 ),.., ( x m,y m )} της συνάρτησης στόχου y=f( x ). Οι τιµές x είναι διανύσµατα της µορφής < x,1, x,2, x,3,.., x,n > κάθε µία από τις τιµές των x, n µπορεί να είναι διακριτή ή πραγµατική και να αντιπροσωπεύει το ύψος, το βάρος, το χρώµα, την ηλικία και οτιδήποτε άλλο. Οι τιµές αυτές οι οποίες περιγράφουν το κάθε στιγµιότυπο ονοµάζονται χαρακτηριστικά (attrbutes ή features) του x. Από εδώ και πέρα όταν θα λέµε x, θα αναφερόµαστε στο χαρακτηριστικό του x. Επίσης σε κάποιες περιπτώσεις µπορεί να παραλείπεται ο δείκτης όταν θα προκύπτει µέσα από το κείµενο. Οι τιµές της µεταβλητής εξόδου y µπορεί να απεικονίζονται από ένα διακριτό σύνολο κλάσεων {1,.., Κ}, οπότε το πρόβληµα που έχουµε να αντιµετωπίσουµε είναι πρόβληµα ταξινόµησης (classfcaton) ή από πραγµατικούς αριθµούς οπότε έχουµε πρόβληµα παρεµβολής (regresson). Για την παρούσα διπλωµατική µας ενδιαφέρει η περίπτωση της ταξινόµησης και σε αυτήν θα εστιάσουµε. Στο πρόβληµα λοιπόν της ταξινόµησης δοθέντος ενός συνόλου S από παραδείγµατα εκπαίδευσης, ο αλγόριθµος µάθησης παράγει έναν ταξινοµητή (classfer). Ο ΤΙΤΛΟΣ 35

ΜΑΡΚΑΤΟΠΟΥΛΟΥ ΦΩΤΕΙΝΗ ταξινοµητής είναι µια υπόθεση σχετικά µε την συνάρτηση στόχο f. Για κάθε καινούρια περίπτωση x, ο ταξινοµητής προβλέπει την αντίστοιχη τιµή y. Θα αναφερόµαστε στους ταξινοµητές µε την σηµειογραφία C 1,.C L. Σήµερα, υπάρχει ένα πλήθος τεχνικών µηχανικής µάθησης µε επίβλεψη στα πλαίσια των οποίων έχουν κατασκευαστεί διάφοροι αλγόριθµοι µάθησης. Μερικές από αυτές τις τεχνικές είναι η µάθηση εννοιών (concept learnng), µάθηση κανόνων (rule learnng), τα δένδρα ταξινόµησης ή απόφασης (classfcaton or decson trees), οι µηχανές διανυσµάτων υποστήριξης (support vector machnes, SVMs) και πολλές άλλες. Η βιβλιογραφία είναι πλούσια και όποιος ενδιαφέρεται µπορεί να βρει πλήθος τέτοιων τεχνικών και αλγορίθµων. Όπως είδαµε σκοπός της ταξινόµησης είναι η προσέγγιση µιας τιµής εξόδου µε βάση κάποιες τιµές εισόδου. Ωστόσο, οι σχεδιαστές συστηµάτων αντιµετωπίζουν συχνά δύο βασικά προβλήµατα κατά τη διαδικασία της σχεδίασης, τα οποία επηρεάζουν την ακριβή προσέγγιση της συνάρτησης στόχου. Την παρουσία θορύβου στο σύνολο των δεδοµένων και τις ελλείψεις των παραδειγµάτων εκπαίδευσης. Η παρουσία θορύβου στα δεδοµένα επηρεάζει αρνητικά την απόδοση της προσέγγισης. Αν όλα τα δεδοµένα εισόδου ενός παραδείγµατος εκπαίδευσης είναι υψηλής ποιότητας, τότε υπάρχει µεγάλη πιθανότητα πως το παράδειγµα θα επιφέρει καλή προσέγγιση της συνάρτησης στόχου. Στην πραγµατικότητα όµως τέτοιες περιπτώσεις δεν είναι και τόσο εφικτές. Τα περισσότερα σύνολα δεδοµένων περιέχουν µια σηµαντική ποσότητα θορύβου. Τέτοια εσφαλµένα δεδοµένα παραποιούν το σύνολο εκπαίδευσης το οποίο οδηγεί σε λάθος προσεγγίσεις. Από την άλλη πλευρά τώρα, τα περισσότερα παραδείγµατα εκπαίδευσης έχουν στην πράξη σαφείς ελλείψεις. Για παράδειγµα, ο κανόνας για την σωστή εκπαίδευση ενός νευρωνικού δικτύου απαιτεί το εξής: το σύνολο εκπαίδευσης να έχει το λιγότερο 10 φορές τόσα δεδοµένα όσες είναι οι συνδέσεις στο δίκτυο. Λιγότερα δεδοµένα µπορεί να οδηγήσουν το νευρωνικό δίκτυο να φτάσει στο τοπικό ελάχιστο του λάθος εκπαίδευσης και ως αποτέλεσµα να πραγµατοποιήσει µια πολύ κακή προσέγγιση της συνάρτησης. Ένα νευρωνικό δίκτυο µικρού µεγέθους µε 10 εισόδους και ένα κρυφό επίπεδο, που περιέχει µερικούς µόνο κρυφούς κόµβους (για παράδειγµα 5-6), θα έχει το λιγότερο 50 συνδέσεις που οδηγούν σε µια απαίτηση 500 παραδειγµάτων εκπαίδευσης ώστε να γίνει σωστή εκπαίδευση. Πλέον όµως, τα περισσότερα σύνθετα σύνολα δεδοµένα που χρησιµοποιούνται είναι πολλών περισσοτέρων διαστάσεων και έτσι απαιτούν µεγάλα δίκτυα για την σωστή προσέγγιση, όµως η εκπαίδευση ενός µεγάλου δικτύου δεν είναι εύκολο υπόθεση. (Ranawana & Palade, 2006) Εξαιτίας αυτών των αδυναµιών, έχει παρατηρηθεί πειραµατικά πως η δηµιουργία του τέλειου ταξινοµητή για κάθε δοθείσα περίπτωση είναι αδύνατη. Η πρώτη σκέψη λοιπόν είναι η χρήση πολλών ταξινοµητών και παραδειγµάτων που θα αλληλεπικαλύπτουν τις αδυναµίες και τα λάθη τους και θα οδηγούν σε καλύτερη προσέγγιση της συνάρτησης στόχου. Η περιοχή των µεθόδων οµάδας (ensemble methods) εστιάζει σε αυτήν ακριβώς τη σκέψη. Μια οµάδα ταξινοµητών (ensemble of classfers) ή αλλιώς τα συστήµατα πολλαπλών ταξινοµητών (mult-classfer systems, MCS) η απλά συστήµατα οµάδων (ensemble systems) είναι σύνολα ταξινοµητών των οποίων οι ατοµικές αποφάσεις συνδυάζονται µε κάποια µέθοδο ώστε όλοι µαζί να αποφασίσουν για την ταξινόµηση ενός άγνωστου στιγµιότυπου (Detterch, 2000, Hernandez et al., 2009, Kuncheva, 2004, Ranawana & Palade, 2006, Tan et al., 2006, Wtten & Frank, 2000, Alpaydn, 2004, Han & Kamber, 2000). Βασικές κατευθύνσεις της περιοχής αυτής είναι ο τρόπος που θα κατασκευαστεί η οµάδα των ταξινοµητών και ο τρόπος που θα γίνει ο συνδυασµός των αποφάσεών 36 ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ

ΚΕΦΑΛΑΙΟ 2: ΜΕΘΟ ΟΙ ΟΜΑ ΑΣ τους ώστε να είναι δυνατή η υψηλότερη ακρίβεια ταξινόµησης και προσέγγιση της συνάρτησης στόχου. Στη συνέχεια αυτού του κεφαλαίου θα δούµε αναλυτικά αυτές τις δύο κατευθύνσεις και τις αντιπροσωπευτικές µεθόδους της κάθε µίας, αφού προηγουµένως αναλύσουµε τις προϋποθέσεις που θα πρέπει να ακολουθούνται από τον σχεδιαστή όταν επιχειρεί να κατασκευάσει µια οµάδα ταξινοµητών καθώς και τους λόγους που εξηγούν την αξία των οµάδων αυτών έναντι των µεµονωµένων ταξινοµητών. 2.1.1 Η αξία των οµάδων ταξινοµητών έναντι των απλών ταξινοµητών Σε αυτό το κεφάλαιο θα εξηγήσουµε γιατί τελικά κάποιος θα πρέπει να προτιµάει µια οµάδα ταξινοµητών σε ένα πρόβληµα ταξινόµησης και τα σηµεία που κρύβεται η αξία και η δύναµη των οµάδων αυτών. Τρείς είναι οι βασικοί λόγοι που ξεχώρισε ο Detterch (2000) όπως είπαµε και στο κεφάλαιο 1: Στατιστικοί (statstcal), υπολογιστικοί (computatonal), αναπαράστασης (representatonal). Σε διάφορα κείµενα της βιβλιογραφίας όταν αναλύονται οι λόγοι που προτιµάται ένα σύνολο ταξινοµητών συνήθως αυτοί στηρίζονται στους τρεις κεντρικούς άξονες του Detterch έτσι η ανάλυση που θα κάνουµε σε αυτό το κεφάλαιο στηρίζεται στις παραδοχές του Detterch. Οι λόγοι λοιπόν που µαρτυρούν την δύναµη των οµάδων ταξινοµητών σχετίζονται µε την επιλογή µοντέλου (computatonal), το πλήθος των δεδοµένων (statstcal), την διαίρεση και την κυριαρχία (representatonal), την σύντηξη δεδοµένων και τον υπολογισµό εµπιστοσύνης 1. Επιλογή Μοντέλου Αυτός πιθανότατα αποτελεί τον βασικό λόγο για τον οποίο οι οµάδες ταξινοµητών χρησιµοποιούνται στην πράξη και έχει να κάνει µε αυτό που αναφέρεται ο Detterch ως υπολογιστικό λόγο (computatonal): Ποιος είναι ο προτιµότερος ταξινοµητής για ένα δοθέν πρόβληµα ταξινόµησης; Η ερώτηση αυτή µπορεί να ερµηνευτεί µε δύο διαφορετικούς τρόπους: α) Ποιος ταξινοµητής πρέπει να χρησιµοποιηθεί µεταξύ των πολλών ανταγωνιστικών µοντέλων όπως τα πολυεπίπεδα δίκτυα πρόσθιας τροφοδότησης (multlayer perceptron,mlp), οι µηχανές διανυσµάτων υποστήριξης (support vector machnes SVMs), τα δέντρα απόφασης (decson trees), οι ταξινοµητές κατά Bayes (naïve Bayes) κτλ. β) οθέντος κάποιου συγκεκριµένου αλγορίθµου ταξινόµησης, ποια ακριβής υλοποίηση του αλγορίθµου πρέπει να επιλεχθεί για παράδειγµα, διαφορετικές αρχικοποιήσεις των MLPs µπορούν να οδηγήσουν σε διαφορετικές αποφάσεις, ακόµα και αν όλες οι άλλες παράµετροι διατηρηθούν σταθερές. Η πιο κοινά χρησιµοποιούµενη διαδικασία η οποία επιλέγει τους ταξινοµητές µε το µικρότερο λάθος στα δεδοµένα εκπαίδευσης είναι ατελής. Η αποδοτικότητα σε ένα σύνολο 1 http://www.scholarpeda.org/artcle/ensemble_learnng ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ 37

ΜΑΡΚΑΤΟΠΟΥΛΟΥ ΦΩΤΕΙΝΗ δεδοµένων ακόµα και αν υπολογίζεται χρησιµοποιώντας cross-valdaton µπορεί να είναι παραπλανητική εξαιτίας της απόδοσης της ταξινόµησης στα προηγούµενα άγνωστα δεδοµένα. Έπειτα, από όλους τους ταξινοµητές που µπορεί όλοι να έχουν εκπαιδευτεί µε τον ίδιο τρόπο ή ακόµα να έχουν την ίδια γενικευµένη απόδοση όπως υπολογίστηκε στα δεδοµένα επαλήθευσης (valdaton data) ποιος θα πρέπει να επιλεχθεί; Μια απάντηση είναι πως η επιλογή µπορεί να γίνει τυχαία, µε το ρίσκο όµως να αφορά τελικά ένα αδύναµο µοντέλο. Χρησιµοποιώντας µια οµάδα από τέτοια µοντέλα αντί του να έχουµε µόνο ένα και συνδυάζοντας τις εξόδους τους, για παράδειγµα µε απλή ψηφοφορία, µειώνεται ο κίνδυνος επιλογής ενός αδύναµου ταξινοµητή. Πρέπει ωστόσο να τονιστεί πως δεν υπάρχει εγγύηση ότι ο συνδυασµός πολλών ταξινοµητών θα είναι πάντα καλύτερος από την απόδοση του καλύτερου ατοµικού ταξινοµητή µέσα στο σύνολο. Ούτε µπορεί να εγγυηθεί η βελτίωση της µέσης απόδοσης της οµάδας εκτός από συγκεκριµένες περιπτώσεις. Έτσι ο συνδυασµός ταξινοµητών µπορεί να µην κερδίζει την απόδοση του καλύτερου ταξινοµητή της οµάδας, όµως σίγουρα µειώνει το συνολικό ρίσκο µιας κακής επιλογής. Το παράδειγµα που ακολουθεί (Tan et al., 2006) θα διαφωτίσει ακόµα περισσότερο τον λόγο που µια οµάδα ταξινοµητών µπορεί να βελτιώσει την απόδοση του µεµονωµένου ταξινοµητή. Παράδειγµα: Έστω ότι έχουµε µια οµάδα που αποτελείται από 25 δυαδικούς ταξινοµητές, καθένας από τους οποίους έχει ρυθµό λάθους (error rate) ε =0.35. Η οµάδα ταξινοµητών προβλέπει την κλάση που ανήκει ένα νέο αταξινόµητο στιγµιότυπο µε πλειοψηφική ψηφοφορία µεταξύ των προβλέψεων που κάνει ο καθένας από τους βασικούς ταξινοµητές. Αν οι βασικοί ταξινοµητές είναι ταυτόσηµοι, τότε η οµάδα θα ταξινοµεί λάθος τα ίδια παραδείγµατα που θα ταξινοµούσαν λάθος και οι βασικοί ταξινοµητές. Έτσι, ο ρυθµός λάθους της οµάδας παραµένει 0.35. Αν όµως οι βασικοί ταξινοµητές είναι ανεξάρτητοι µεταξύ τους για παράδειγµα τα λάθη τους είναι µη συσχετιζόµενα τότε η οµάδα θα κάνει λανθασµένη ταξινόµηση µόνο εάν παραπάνω από τους µισούς βασικούς ταξινοµητές προβλέψουν λανθασµένα. Σε αυτή την περίπτωση ο ρυθµός λάθους της οµάδας είναι: 25 25 25 e ensemble = ( 1 ε) = 0. 06 13 ε (2.1) το οποίο είναι σηµαντικά χαµηλότερο από τον ρυθµό λάθους των βασικών ταξινοµητών. Πλήθος δεδοµένων Τα συστήµατα οµάδων µπορούν να φανούν χρήσιµα τόσο όταν έχουµε να αντιµετωπίσουµε µεγάλο πλήθος δεδοµένων όσο και όταν υπάρχει έλλειψη αυτών. Η κατηγορία αυτή αφορά τους στατιστικούς λόγους όπως αναφέρονται από τον Detterch (2000). Όταν το πλήθος των δεδοµένων εκπαίδευσης είναι πολύ µεγάλο που κάνει δύσκολη την εκπαίδευση ενός µεµονωµένου ταξινοµητή, τα δεδοµένα µπορούν να διαχωριστούν σε µικρότερα υποσύνολα σύµφωνα µε κάποια στρατηγική. Κάθε κοµµάτι µπορεί στη συνέχεια να χρησιµοποιηθεί για την εκπαίδευση ενός ξεχωριστού ταξινοµητή οι οποίοι στο τέλος θα συνδυαστούν σύµφωνα µε κάποιον κανόνα συνδυασµού. Από την άλλη πλευρά αν τα δεδοµένα είναι πολύ λίγα τότε 38 ΚΛΑ ΕΜΑ ΟΜΑ ΑΣ ΚΑΤΑ ΠΕΡΙΠΤΩΣΗ ΜΕΣΩ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ