ΑΥΤΟΜΑΤΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΤΩΝ ΜΗΝΥΜΑΤΩΝ ΣΕ ΦΑΚΕΛΟΥΣ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΑΥΤΟΜΑΤΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΤΩΝ ΜΗΝΥΜΑΤΩΝ ΣΕ ΦΑΚΕΛΟΥΣ"

Transcript

1 ΑΥΤΟΜΑΤΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΤΩΝ ΜΗΝΥΜΑΤΩΝ ΣΕ ΦΑΚΕΛΟΥΣ Η Διπλωματική Εργασία παρουσιάστηκε ενώπιον του Διδακτικού Προσωπικού του Πανεπιστημίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για το Δίπλωμα του Μηχανικού Πληροφοριακών και Επικοινωνιακών Συστημάτων των ΦΟΥΡΝΑΡΙΔΗ ΓΕΩΡΓΙΟΥ ΦΟΥΡΝΑΡΙΔΗ ΗΛΙΑ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2

2 Η ΤΡΙΜΕΛΗΣ ΕΠΙΤΡΟΠΗ ΔΙΔΑΣΚΟΝΤΩΝ ΕΓΚΡΙΝΕΙ ΤΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΤΩΝ ΦΟΥΡΝΑΡΙΔΗ ΓΕΩΡΓΙΟΥ ΚΑΙ ΦΟΥΡΝΑΡΙΔΗ ΗΛΙΑ: ΣΤΑΜΑΤΑΤΟΣ ΕΥΣΤΑΘΙΟΣ, Επιβλέπων Μάρτιος 2 Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων [ΟΝΟΜΑ ΔΙΔΑΣΚΟΝΤΑ], Μέλος Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων [ΟΝΟΜΑ ΔΙΔΑΣΚΟΝΤΑ], Μέλος Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2 ii

3 ΠΕΡΙΛΗΨΗ Η αυτόματη ταξινόμηση μηνυμάτων εμαιλ σε φακέλους είναι μια μορφή ταξινόμησης κειμένων που παρουσιάζει ιδιαίτερο ενδιαφέρον. Ορισμένα στοιχεία που δυσκολεύουν το έργο της ταξινόμησης είναι ότι τα μηνύματα εμαιλ είναι συνήθως μικρού μεγέθους, πολλές φορές περιέχουν ορθογραφικά λάθη και τέλος ο τρόπος σκέψης με τον οποίο κάθε χρήστης ταξινομεί τα εμαιλ του διαφέρει. Ορισμένοι χρήστες ταξινομούν τα μηνύματά τους είτε με βάση τον αποστολέα, είτε με βάση το θέμα, είτε με άλλο τρόπο. Επίσης κάποιοι φάκελοι εγκαταλείπονται ενώ παράλληλα δημιουργούνται νέοι φάκελοι. Όλα αυτά καθιστούν πολύπλοκη την διαδικασία της ταξινόμησης. Ένα σύστημα που κάνει ταξινόμηση των νέων εισερχόμενων μηνυμάτων με βάση έναν αλγόριθμο ταξινόμησης πρέπει να γνωρίζει τον τρόπο με τον οποίο ο χρήστης ταξινομεί τα μηνύματά του. Συνεπώς το σύστημα χρειάζεται κάποια μηνύματα που έχουν ήδη ταξινομηθεί από τον χρήστη σε φακέλους, τα οποία αποτελούν το σύνολο εκπαίδευσης του αλγορίθμου. Δύο αλγόριθμοι ταξινόμησης με τους οποίους θα ασχοληθούμε είναι ο Naive Bayes και ο SMO που ανήκει στην οικογένεια των Support Vector Machines (SVMs). Ο πρώτος χρησιμοποιεί το θεώρημα του Bayes και με βάση τα μοντέλα πιθανοτήτων που κατασκευάζει, ταξινομεί τα νέα εισερχόμενα μηνύματα. Οι ταξινομητές SVMs αναπαριστούν τα δεδομένα εκπαίδευσης σαν σημεία σε πολυδιάστατο χώρο με τέτοιο τρόπο ώστε τα σημεία κάθε κατηγορίας να είναι ομαδοποιημένα και οι ομάδες να έχουν το ξεκάθαρο κενό μεταξύ τους. Κάθε κενό που χωρίζει μια ομάδα από μια άλλη, προσδιορίζεται από δυο ευθείες (υπερεπίπεδα). Τα σημεία τα οποία είναι πάνω στα υπερεπίπεδα ονομάζονται Support Vectors. Τα νέα μηνύματα αναπαριστούνται σαν σημεία στο πολυδιάστατο χώρο και σύμφωνα με την ομάδα στην οποία είναι πιο κοντά, παίρνουν και την ανάλογη κατηγορία. Οι αλγόριθμοι ταξινόμησης αξιολογούνται συνήθως από μέτρα επίδοσης που τα συναντάμε στην ανάκτηση πληροφορίας, όπως recall, precision και άλλα. Τα μηνύματα δεν έχουν την κατάλληλη μορφή για να αποτελέσουν είσοδο για τους αλγόριθμους ταξινόμησης. Η μορφή με την οποία συνήθως αναπαριστάται ένα μήνυμα είναι με το μοντέλο του διανυσματικού χώρου. Με άλλα λόγια κάθε μήνυμα είναι ένα διάνυσμα από όρους ή αλλιώς χαρακτηριστικά (features). Το Πανεπιστήμιο της Μασαχουσέτης, που ασχολήθηκε με την συλλογή μηνυμάτων της Enron, χρησιμοποίησε λέξεις ως χαρακτηριστικά για την κατασκευή διανυσμάτων. Στην δική μας έρευνα χρησιμοποιήσαμε ως χαρακτηριστικά Ν-grams (, ), Ονόματα () και συνδυασμό αυτών. Στο τέλος συγκρίναμε τα αποτελέσματα των πειραμάτων μας και παρουσιάζουμε τα micro-average accuracy, macroaverage precision και macro-average recall για κάθε χρήστη της Enron που μελετήσαμε. Επίσης γίνεται ανάλυση για το σύστημα που μετατρέπει τα μηνύματα σε διανύσματα χαρακτηριστικών, παρουσιάζονται διαγράμματα use-case, διαγράμματα ροής δεδομένων, διαγράμματα αλληλουχίας ενεργειών, διαγράμματα κλάσεων και περιγράφεται η λειτουργία του. Φουρναρίδης Γεώργιος και Φουρναρίδης Ηλίας Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ 2 iii

4 ABSTRACT Automatic categorization of s into folders is called foldering. foldering is a rich and multi-faceted problem, with many difficulties that make it different from traditional topic-based categorization. s are usually documents of small size, which sometimes contain misspellings. It is also interesting to note that content and foldering habits differ drastically from one user to another, so while automated methods may perform well for one user, they may fail horribly for another. Two well known algorithms that are used in classification task, are Naive Bayes and SVMs. In this thesis we use SMO, a simple form of SVMs. s messages must be transformed in an appropriate form in order to be used as input for the algorithms. One simple form to represent a document is the vector space model that is a vector of features. There are many kinds of features such as words, ngrams, name entities etc. Each kind of features has its advantages and disadvantages. We also apply feature selection in order to use the most important features and reduce the size of the vectors. Our dataset of s is provided by Enron Company. The University of Massachusetts used this corpora and represented s as vectors of words. In our research, we represented s as vectors of ngrams (, ), Name Entities () and combination of ngrams and. At the end of every classification task we applied evaluation techniques that are also used in Information Retrieval. We compared our results to the Massachusetts results and we state the type of features that performs well in classification. Additionally we present an analysis of our system whose main purpose is to create vectors of features from messages. Use-case diagram, data flow diagram, sequence diagram, class diagram and system s manual are also available in that chapter. Fournaridis Georgios and Fournaridis Elias Department of Information and Communication Systems Engineering UNIVERSITY OF THE AEGEAN [2] iv

5 ΕΥΧΑΡΙΣΤΙΕΣ - ΑΦΙΕΡΩΣΕΙΣ Θέλουμε να ευχαριστήσουμε θερμά τον επιβλέποντα καθηγητή της διπλωματικής μας κ. Σταματάτο Ευστάθιο για την πολύτιμη καθοδήγηση και βοήθεια που μας προσέφερε σε όλη την διάρκεια της εργασίας μας. Επίσης ευχαριστούμε τα Πανεπιστήμια Waikato και Stanford για τα εργαλεία Weka και Name Entity Recognition αντίστοιχα. Τέλος, θα θέλαμε να ευχαριστήσουμε την οικογένειά μας για την ηθική και υλική συμπαράσταση που μας προσφέρουν όλα αυτά τα χρόνια, καθώς και τους φίλους για την στήριξή τους σε αυτή την προσπάθεια. v

6 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΠΕΡΙΛΗΨΗ...iii ABSTRACT... iv ΕΥΧΑΡΙΣΤΙΕΣ - ΑΦΙΕΡΩΣΕΙΣ... v ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ... vi ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ...viii ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ... ix ΚΕΦΑΛΑΙΟ - ΕΙΣΑΓΩΓΗ.... Γενικά....2 Στόχος της Διπλωματικής Δομή της Διπλωματικής... 2 ΚΕΦΑΛΑΙΟ 2 - ΤΑΞΙΝΟΜΗΣΗ ΚΕΙΜΕΝΟΥ Μοντελοποίηση του προβλήματος Μέθοδοι ταξινόμησης Naive Bayes Support Vector Machines (SVMs) Μέτρα αξιολόγησης των αλγορίθμων (Performance Measures)... 9 ΚΕΦΑΛΑΙΟ 3 - ΤΑΞΙΝΟΜΗΣΗ ΜΗΝΥΜΑΤΩΝ ENRON Προετοιμασία συλλογής Διαγραφή φακέλων γενικού περιεχομένου Κατάργηση της ιεραρχίας των φακέλων Διαγραφή φακέλων με λίγα μηνύματα Επιλογή χρηστών Στάδια εκτέλεσης αυτόματης ταξινόμησης (training/test splits) Αναπαράσταση μηνυμάτων Λέξεις (words) N-grams Ονόματα (Name Entities) Επιλογή χαρακτηριστικών (Feature Selection) Κατασκευή διανυσμάτων... 3 ΚΕΦΑΛΑΙΟ 4 - ΣΥΣΤΗΜΑ ΓΙΑ ΤΗΝ ΜΕΤΑΤΡΟΠΗ ΜΗΝΥΜΑΤΩΝ ΣΕ ΔΙΑΝΥΣΜΑΤΑ Γενικά Σχεδιασμός του συστήματος Διάγραμμα Use Case του συστήματος Διάγραμμα Αλληλουχίας Ενεργειών του συστήματος (Sequence Diagram) vi

7 4.2.3 Διάγραμμα Κλάσεων του συστήματος (Class Diagram) Διάγραμμα Ροής Δεδομένων (Data Flow Diagram DFD) Λειτουργία του συστήματος ΚΕΦΑΛΑΙΟ 5 - ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΕΙΡΑΜΑΤΩΝ Γενικά Αποτελέσματα για τους χρήστες της Enron Χρήστης beck-s Χρήστης farmer-d Χρήστης kaminski-v Χρήστης kitchen-l Χρήστης lokay-m Χρήστης sanders-r Χρήστης williams-w Σύγκριση αποτελεσμάτων ΚΕΦΑΛΑΙΟ 6 - ΣΥΜΠΕΡΑΣΜΑΤΑ ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΑΡΑΡΤΗΜΑ I - ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΕΙΡΑΜΑΤΩΝ vii

8 ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ Πίνακας 2-: Ανάκληση και Ακρίβεια... 9 Πίνακας 3-: Χρήστες Enron Πίνακας 3-2: Τα κοινά CF-DF για τους 4 χρήστες Πίνακας 4-: Ορίσματα της κλάσης prog... 4 Πίνακας 5-: Σύγκριση αποτελεσμάτων για τον αλγόριθμο Naive Bayes Πίνακας 5-2: Σύγκριση αποτελεσμάτων για τον αλγόριθμο SMO viii

9 ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ Εικόνα 2-: Παράδειγμα υπερεπιπέδων... 6 Εικόνα 2-2: Το όρια περιθωρίου και το υπερεπίπεδο μέγιστου περιθωρίου για στιγμιότυπα που ανήκουν σε μία από δύο κλάσεις. Τα στιγμιότυπα που πέφτουν στα όρια λέγονται support vectors Εικόνα 2-3: Δεδομένα από Σύστημα Ανάκτησης Πληροφορίας... 9 Εικόνα 2-4: Σχέση Precision-Recall... 2 Εικόνα 3-: Παράδειγμα μηνύματος Εικόνα 3-2: Παράδειγμα αρχείου ARFF... 3 Εικόνα 4-: Διάγραμμα Use Case του συστήματος Εικόνα 4-2: Sequence Diagram του συστήματος Εικόνα 4-3α: Class Diagram του συστήματος Εικόνα 4-3β: Class Diagram του συστήματος Εικόνα 4-4: Διάγραμμα Ροής Δεδομένων του συστήματος Εικόνα 4-5: Διάγραμμα ροής δεδομένων για την διαδικασία Εικόνα 5-: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη beck-s Εικόνα 5-2: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη beck-s Εικόνα 5-3: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη farmer-d Εικόνα 5-4: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη farmer-d Εικόνα 5-5: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη kaminski-v Εικόνα 5-6: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη kaminski-v Εικόνα 5-7: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη kitchen-l Εικόνα 5-8: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη kitchen-l Εικόνα 5-9: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη lokay-m Εικόνα 5-: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη lokay-m ix

10 Εικόνα 5-: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη sanders-r... 5 Εικόνα 5-2: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη sanders-r... 5 Εικόνα 5-3: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη williams-w Εικόνα 5-4: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη williams-w x

11 ΚΕΦΑΛΑΙΟ - ΕΙΣΑΓΩΓΗ. Γενικά Η διαδικασία αυτόματης ταξινόμησης ενός κειμένου, το οποίο ανήκει σε μια συγκεκριμένη συλλογή κειμένων, σε μια κατηγορία από ένα συγκεκριμένο πλήθος κατηγοριών, λέγεται κατηγοριοποίηση κειμένων. Η κατηγοριοποίηση μπορεί να γίνει ανάλογα με το είδος των κειμένων [], τον συγγραφέα [2] ή το φύλο του συγγραφέα [3] κ.ά. Η κατηγοριοποίηση κειμένων εφαρμόζεται σε αρκετές περιπτώσεις όπως αυτόματη καταχώρηση κειμένων για συστήματα ανάκτησης πληροφορίας, οργάνωση κειμένων, φιλτράρισμα κειμένων, οργάνωση ιστοσελίδων σε ευρετήρια κ.ά. Ένα παράδειγμα φιλτράρισμα κειμένων είναι η κατηγοριοποίηση των ηλεκτρονικών μηνυμάτων αλληλογραφίας ( ) σε χρήσιμα και σε ανεπιθύμητα μηνύματα (spam). Ο Ανδρουτσόπουλος με την ερευνητική του ομάδα [4] απέδειξαν ότι η κατηγοριοποίηση s με συγκεκριμένο αλγόριθμο ταξινόμησης (Naïve Bayes) είχε καλύτερα αποτελέσματα από τον απλό εντοπισμό λέξεων κλειδιών (keywords). Όμως εκτός από τον διαχωρισμό των σε χρήσιμα και ανεπιθύμητα, σημαντικό ενδιαφέρον παρουσιάζει και η αυτόματη ταξινόμησή τους, με βάση το θέμα, στους προσωπικούς φακέλους που έχει ο κάθε χρήστης στον λογαριασμό ηλεκτρονικής αλληλογραφίας ( foldering). Η ταξινόμηση των μηνυμάτων σε φακέλους είναι ενδιαφέρουσα αλλά ταυτόχρονα είναι και δύσκολη γιατί παρουσιάζει αρκετές ιδιαιτερότητες. Τα μηνύματα είναι κείμενα συνήθως μικρού μεγέθους και πολλές φορές περιέχουν ορθογραφικά λάθη και συντομογραφίες. Οι χρήστες πολύ συχνά δημιουργούν νέους φακέλους, ενώ παράλληλα εγκαταλείπουν παλαιότερους φακέλους. Επίσης υπάρχουν φάκελοι που δεν έχουν ξεκάθαρο σημασιολογικό θέμα και μπορεί να περιέχουν μηνύματα που είναι από συγκεκριμένους αποστολείς, μηνύματα που αφορούν συγκεκριμένες ομάδες εργασίας ή μηνύματα που ο χρήστης δεν έχει αποφασίσει ακόμα για το που τελικά θα τα κατατάξει. Οφείλουμε να τονίσουμε ότι σε κάθε χρήστη, το περιεχόμενο των μηνυμάτων καθώς και ο τρόπος με τον οποίο τα κατηγοριοποιεί μπορεί να διαφέρουν από λίγο έως αρκετά. Συνεπώς τα συστήματα ταξινόμησης μηνυμάτων θα έχουν καλύτερα αποτελέσματα σε κάποιους χρήστες, ενώ σε άλλους χρήστες δεν θα είναι τα αναμενόμενα. Ένα άλλο σημαντικό θέμα είναι ότι κάποια μηνύματα έχουν ξεκάθαρο νόημα μόνο αν λάβουμε υπόψη προηγούμενα μηνύματα. Αποτελούν δηλαδή απάντηση στα προηγούμενα μηνύματα (threads). Πολλές φορές αρκετά τέτοια μηνύματα μπορούν να αλλάξουν σημασιολογικό θέμα. Για παράδειγμα, μπορεί τα προηγούμενα μηνύματα να είχαν θέμα για χρηματιστηριακές επενδύσεις και τα επόμενα μηνύματα να έχουν ως θέμα για την συμπεριφορά εταιριών κατά την διάρκεια της οικονομικής κρίσης.

12 .2 Στόχος της Διπλωματικής Η διπλωματική εργασία αφορά την αυτόματη κατηγοριοποίηση μηνυμάτων σε φακέλους με βάση το θέμα των μηνυμάτων. Ουσιαστικά πρόκειται για αυτοματοποίηση της διαδικασίας που ακολουθούμε στην ταξινόμηση μηνυμάτων στο προσωπικό μας mailbox. Θα γίνει μελέτη κατάλληλων τεχνικών αναπαράστασης μηνυμάτων, λαμβάνοντας υπόψη τις ιδιαιτερότητές τους, και τεχνικών μηχανικής μάθησης για την αυτόματη ταξινόμηση. Η εργασία θα βασιστεί στη διαθέσιμη συλλογή μηνυμάτων Εnron [5] (που περιλαμβάνει ολόκληρα τα inboxes των υπαλλήλων μιας εταιρείας, 5. μηνύματα από 5 υπαλλήλους) και θα δοθεί έμφαση στη σύγκριση με αποτελέσματα από παρόμοιες δημοσιευμένες εργασίες..3 Δομή της Διπλωματικής Στο κεφάλαιο 2 θα αναφερθούν περισσότερες λεπτομέρειες για την ταξινόμηση κειμένων. Θα παρουσιάσουμε το πρόβλημα μέσα από τύπους, θα αναφέρουμε τους αλγόριθμους ταξινόμησης που θα χρησιμοποιήσουμε, καθώς και τα μέτρα αξιολόγησής τους. Στο κεφάλαιο 3 θα γίνει επεξεργασία των μηνυμάτων της εταιρίας Enron. Θα επιλεγούν οι χρήστες για τους οποίους θα γίνει προετοιμασία των μηνυμάτων, όπως καθαρισμός ανεπιθύμητων χαρακτήρων και επιλογή συγκεκριμένων πληροφοριών. Επίσης θα γίνει αναλυτική περιγραφή για την εξαγωγή των σημαντικών χαρακτηριστικών (features) για κάθε μήνυμα, ώστε να έχει την κατάλληλη αναπαράσταση για να εισαχθεί στους αλγόριθμους ταξινόμησης. Θα εξηγήσουμε με ποιο τρόπο επιλέξαμε τα χαρακτηριστικά που προαναφέραμε. Στο κεφάλαιο 4 θα περιγράψουμε το σύστημα που δημιουργήσαμε για την μετατροπή των μηνυμάτων σε διανύσματα χαρακτηριστικών. Θα παρουσιάσουμε το διάγραμμα ροής δεδομένων, το διάγραμμα αλληλουχίας ενεργειών, το διάγραμμα κλάσεων, το διάγραμμα usecase και επίσης θα περιγράψουμε την λειτουργία του συστήματος. Στο κεφάλαιο 5 θα παρουσιάσουμε τα αποτελέσματα της εργασίας, τα μέτρα αξιολόγησης των αλγορίθμων που εφαρμόστηκαν για τα μηνύματα του κάθε χρήστη της Enron. Επίσης θα γίνει σύγκριση με αποτελέσματα παρόμοιων εργασιών. Τέλος στο κεφάλαιο 6 θα παρουσιαστούν τα συμπεράσματα της όλης εργασίας. 2

13 ΚΕΦΑΛΑΙΟ 2 - ΤΑΞΙΝΟΜΗΣΗ ΚΕΙΜΕΝΟΥ 2. Μοντελοποίηση του προβλήματος Η κατηγοριοποίηση των μηνυμάτων του ηλεκτρονικού ταχυδρομείου είναι μια συγκεκριμένη περίπτωση ταξινόμησης κειμένων. Για να είναι εφικτή η αυτοματοποίηση της διαδικασίας, προϋποθέτει την ύπαρξη ενός συνόλου κειμένων που είναι εξ αρχής ταξινομημένα σε κατηγορίες. Το σύνολο των κειμένων που αναφέραμε αποτελεί το σύνολο κειμένων για την εκπαίδευση του συστήματος και ονομάζεται D και ορίζεται ως εξής: D train d,...,,, train d n όπου το di ανήκει σε ένα σύνολο κειμένων D και το στο προκαθορισμένο σύνολο κατηγοριών C, όπου: C c,..., n i, που είναι η κατηγορία του c m d i, ανήκει Σκοπός της ταξινόμησης κειμένων είναι να υπάρξει ένας επαγωγικός αλγόριθμος μηχανικής μάθησης που έχοντας ως δεδομένο το σύνολο D train να παράγει μια μέθοδο h : D C, δηλαδή να αποδώσει μια κατηγορία σε κάθε νέο κείμενο που θέλουμε να ταξινομήσουμε. Η σχεδίαση ενός αλγορίθμου μάθησης για ταξινόμηση κειμένων απαιτεί την εστίαση της προσοχής σε τρία βασικά σημεία: (2.) (2.2) Την αναπαράσταση των κειμένων: Ένα κείμενο για να μπορεί να δεχτεί επεξεργασία και μελέτη στο πρόγραμμα, απαιτείται να έχει την κατάλληλη μορφή για την μέθοδο ταξινόμησης. Τις περισσότερες φορές αναπαριστούμε τα κείμενα με ένα σύνολο από κάποια χαρακτηριστικά (features), όπου αυτά μπορούν να είναι λέξεις (words) [6], φράσεις από λέξεις (sequence of words) [8], μέρη από λέξεις (word clusters) [7], λέξεις με συντακτική έννοια (part-of-speech tags) [] κ.ά. Συνήθως ο αριθμός των χαρακτηριστικών είναι μεγάλος, για αυτό και επιλέγουμε ένα σύνολο από αυτά [9]. Την επιλογή της μεθόδου ταξινόμησης: Υπάρχουν αρκετοί μέθοδοι ταξινόμησης που έχουν διαφορετικά αποτελέσματα μεταξύ τους. Έτσι πρέπει να επιλεχθεί η κατάλληλη μέθοδος για το κατάλληλο πρόβλημα. Παράμετροι της μεθόδου ταξινόμησης: Έχοντας επιλέξει συγκεκριμένη αναπαράσταση των κειμένων και συγκεκριμένη μέθοδο ταξινόμησης, πρέπει να δώσουμε ιδιαίτερη προσοχή στις διάφορες παραμέτρους που τυχών υπάρχουν. Τα αποτελέσματα εξαρτώνται άμεσα από αυτές τις παραμέτρους (όπως ο τύπος πυρήνα για την μέθοδο Support Vector Machine, SVM) και μπορούν να έχουν από πολύ χαμηλή απόδοση εάν επιλεχθούν λάθος παράμετροι, έως υψηλή απόδοση σε ορισμένες περιπτώσεις. 3

14 2.2 Μέθοδοι ταξινόμησης Ως μέθοδοι ταξινόμησης επιλέξαμε τον Naive Bayes και τον SMO από την οικογένεια των Support Vector Machines. Παρακάτω θα παρουσιάσουμε ορισμένα στοιχεία για τον κάθε ένα Naive Bayes Ο Naive Bayes στηρίζεται στο θεώρημα του Bayes, συνεπώς θα αναφερθούμε πρώτα σε αυτό []. Στην Μηχανική Μάθηση, μας ενδιαφέρει συνήθως να καθορίσουμε ποια είναι η καλύτερη υπόθεση h από ένα σύνολο υποθέσεων H, αφού πρώτα έχουμε εξετάσει χρησιμοποιήσει τα δεδομένα D, για την εκπαίδευση του συστήματος,. Ένας τρόπος για να βρούμε αυτή την υπόθεση είναι να αναζητήσουμε την πιο πιθανή υπόθεση, λαμβάνοντας εξ αρχής τα δεδομένα D καθώς και όποια αρχική γνώση υπάρχει για όλες τις υποθέσεις. Το θεώρημα του Bayes παρέχει μια μέθοδο για τον άμεσο υπολογισμό τέτοιων πιθανοτήτων, και διαμορφώνεται ως εξής: όπου: h D P h D P D P hph D P είναι η πιθανότητα να ισχύει η υπόθεση h έχοντας υπό όψη τα παρατηρηθέντα δεδομένα D. Αυτή η πιθανότητα συνήθως καλείται ως εκ των υστέρων πιθανότητα της h (posterior probability of h), γιατί εκφράζει την εμπιστοσύνη μας προς την h αφού έχουμε παρατηρήσει τα δεδομένα D. D h P είναι η πιθανότητα να παρατηρηθούν τα δεδομένα D σε ένα κόσμο, στον οποίο ισχύει η υπόθεση h. P h είναι η αρχική πιθανότητα να ισχύει η υπόθεση h, χωρίς να έχουμε παρατηρήσει τα δεδομένα D. Η P h συνήθως καλείται ως εκ των προτέρων πιθανότητα της h (prior probability of h) και εκφράζει οποιαδήποτε προηγούμενη γνώση έχουμε για την ισχύ της υπόθεσης h. Σε περίπτωση που δεν έχουμε κάποια αρχική γνώση για οποιαδήποτε υπόθεση, τότε θεωρούμε ότι όλες οι υποψήφιες υποθέσεις h έχουν την ίδια εκ των προτέρων πιθανότητα. D P είναι η πιθανότητα να παρατηρηθούν τα δεδομένα D, χωρίς να έχουμε γνώση από πριν για το ποια υπόθεση h ισχύει. Όπως είναι λογικό, με βάση το θεώρημα Bayes, η P h D αυξάνεται όταν αυξάνεται η P h και η P D h. Αντίθετα η P h D μειώνεται όταν αυξάνεται η P D, γιατί το όσο πιθανό είναι να παρατηρηθούν τα δεδομένα D ανεξαρτήτως κάποιας υπόθεσης h, τόσο πιο πολύ αποδυναμώνεται μια υπόθεση h. Στις περισσότερες περιπτώσεις μηχανικής μάθησης, ο αλγόριθμος ψάχνει την πιο πιθανή υπόθεση h από ένα σύνολο υποθέσεων H, με βάση την παρατήρηση των δεδομένων D. Η πιο πιθανή υπόθεση μπορεί να είναι μία ή περισσότερες, αλλά ο αλγόριθμος θα επιλέξει μία από αυτές. Αυτή η υπόθεση λέγεται μέγιστη εκ των υστέρων (MAP, maximum a posteriori), P h D μεταξύ τους, δηλαδή: υπόθεση, και την βρίσκουμε συγκρίνοντας όλα τα (2.3) 4

15 h hmap arg max P hh D P D arg max hh P arg max P D hh hph D hph (2.4) Παρατηρούμε ότι στο τελευταίο στάδιο της εξίσωσης, ο παρανομαστής του κλάσματος P D είναι μια σταθερά ανεξάρτητη από κάθε υπόθεση h. απαλείφεται γιατί η Στην περίπτωση που κάθε υπόθεση στο σύνολο H έχει την ίδια εκ των προτέρων πιθανότητα, δηλαδή Phi Ph j, hi, h j H, ο τύπος (2.4) γίνεται πιο απλός. Η h MAP εξαρτάται μόνο από τον όρο P D h. Η υπόθεση h που δίνει την μέγιστη τιμή του P D h καλείται υπόθεση μέγιστης πιθανοφάνειας (maximum likelihood hypothesis), h ML. h ML arg max P D Συνήθως δεν μας ενδιαφέρει τόσο ποια είναι η πιθανή υπόθεση με βάση τα δεδομένα, όσο ποια είναι η τιμή της συνάρτησης-στόχου για ένα νέο στιγμιότυπο, με βάση τα δεδομένα. Με μια απλή σκέψη θεωρούμε ότι η τιμή της h MAP είναι αυτό που ψάχνουμε, άλλα πρέπει να αναφέρουμε ότι υπάρχει και καλύτερη λύση. Η λύση είναι να λάβουμε υπό όψη τις πιθανότητες όλων των υποθέσεων ζυγισμένες με την εκ των υστέρων πιθανότητά τους. h (2.5) Η γραμμική πολυπλοκότητα του πλήθους των υποθέσεων του συνόλου H, καθώς και η γνώση ή η εκτίμηση πάρα πολλών πιθανοτήτων, καθιστά τον παραπάνω τρόπο λύσης δύσκολο και απαιτητικό σε χρόνο και δεδομένα. Ο αλγόριθμος Naive Bayes απλοποιεί όλα τα προβλήματα που αναφέραμε. Εφαρμόζεται στα προβλήματα μάθησης που τα στιγμιότυπα (νέα εισερχόμενα δεδομένα) παρουσιάζονται σαν διανύσματα από ορισμένα χαρακτηριστικά []. Κάθε στιγμιότυπο εξαρτάται από τα χαρακτηριστικά (features) E, E2,..., En τα οποία είναι ανεξάρτητα μεταξύ τους και όλα τα χαρακτηριστικά καθορίζουν την τιμή C της συνάρτησης στόχου, δηλαδή η C εξαρτάται από αυτά P C E,..., E n, οπότε σύμφωνα με το θεώρημα του Bayes (τύπος 2.3) έχουμε : P C E,..., E n P 5 C P P E,..., E E,..., E Ο παρανομαστής μπορεί να αφαιρεθεί γιατί είναι μια σταθερά που δεν εξαρτάται από την C και οι τιμές των χαρακτηριστικών είναι δεδομένες. Επίσης, έχοντας ως δεδομένο ότι τα χαρακτηριστικά είναι ανεξάρτητα μεταξύ τους, τότε ο τύπος 2.6 γίνεται: P n n i i n n C C E,..., E Z PC PE C όπου το Ζ είναι μεταβλητή που εξαρτάται μόνο από τα E,..., En και είναι σταθερά όταν είναι γνωστή η τιμή του κάθε E. Ο τύπος 2.7 είναι το μοντέλο πιθανότητας Naive Bayes και i (2.6) (2.7)

16 συνδυάζεται με ένα κανόνα απόφασης για την εξαγωγή του ταξινομητή. Διαλέγοντας την μέγιστη εκ των υστέρων υπόθεση, έχουμε τον αντίστοιχο κανόνα απόφασης. Ο ταξινομητής είναι η συνάρτηση cl και ορίζεται ως εξής: cl n n c i i i e,..., e arg max PC c PE e C c (2.8) Ένας τρόπος για τον υπολογισμό των παραμέτρων του συγκεκριμένου μοντέλου είναι η καταγραφή των συχνοτήτων των χαρακτηριστικών στα δεδομένα D. train Support Vector Machines (SVMs) Οι SVMs ταξινομητές χρησιμοποιούνται για ταξινόμηση και για παλινδρόμηση. Σε απλά λόγια, έχοντας κάποια δεδομένα ως εκπαίδευση του συστήματος, κάθε ένα από αυτά τα δεδομένα έχουν ετικέτα ώστε να ανήκουν σε μια από δύο συγκεκριμένες κατηγορίες. Ο αλγόριθμος SVM δημιουργεί ένα μοντέλο που προβλέπει σε ποια από τις δύο κατηγορίες θα ανήκει το νέο στιγμιότυπο του συστήματος. Ο SVM αναπαριστά τα δεδομένα που αποτελούν την αρχική γνώση ως σημεία σε ένα χώρο δύο διαστάσεων, με τέτοιο τρόπο ώστε τα σημεία κάθε κατηγορίας να είναι κατά ένα τρόπο ομαδοποιημένα και οι δύο ομάδες να έχουν ένα ξεκάθαρο κενό μεταξύ τους. Τα νέα στιγμιότυπα του συστήματος αναπαριστούνται και αυτά σαν σημεία στο δυσδιάστατο χώρο και παίρνουν την ετικέτα της ανάλογης ομάδας (κατηγορίας) στην οποία έχουν ενταχθεί. Πιο συγκεκριμένα ο SVM δημιουργεί ένα υπερεπίπεδο ή ένα σύνολο υπερεπιπέδων σε πολυδιάστατο χώρο, που χρησιμοποιούνται για εργασίες ταξινόμησης και παλινδρόμησης. Ο SVM που χωρίζει τα στιγμιότυπα με υπερεπίπεδα λέγεται γραμμικός ταξινομητής (linear classifier). Ένα καλό υπερεπίπεδο είναι εκείνο που απέχει την περισσότερη απόσταση από κάθε κοντινό σημείο οποιασδήποτε κλάσης. Όση μεγαλύτερη είναι η απόσταση, τόσο μικρότερο είναι το λάθος του ταξινομητή. X 2 H 2 H 3 H X Εικόνα 2-: Παράδειγμα υπερεπιπέδων Στην Εικόνα 2-, έχουμε τρία υπερεπίπεδα. Το πράσινο υπερεπίπεδο (H3) δεν είναι σωστό γιατί δεν χωρίζει τις κλάσεις μεταξύ τους. Το μπλε (Η2) και το κόκκινο (Η) υπερεπίπεδο χωρίζουν τις κλάσεις αλλά το Η είναι το καλύτερο γιατί απέχει μεγαλύτερη απόσταση από τα κοντινότερα σημεία κάθε κλάσης. Έτσι το υπερεπίπεδο Η ονομάζεται ως υπερεπίπεδο με το μέγιστο περιθώριο (maximum-margin hyperplane). 6

17 Ο αλγόριθμος SVM μπορεί να μοντελοποιηθεί ως εξής. Αν έχουμε ένα σύνολο δεδομένων εκπαίδευσης D που αποτελείται από n στιγμιότυπα, τότε: (2.9) όπου το c i είναι ή - και με αυτή την τιμή ξεχωρίζει το κάθε στιγμιότυπο x i σε ποια κλάση ανήκει. Κάθε στιγμιότυπο είναι ένα p-διάστατο διάνυσμα από πραγματικούς αριθμούς. Ένα υπερεπίπεδο μπορεί να γραφτεί σαν ένα σύνολο στοιχείων (στιγμιότυπα) που ικανοποιούν την παρακάτω εξίσωση: (2.) όπου ο πολλαπλασιασμός w και x είναι το εσωτερικό γινόμενο των διανυσμάτων. Το διάνυσμα w είναι ένα νορμάλ διάνυσμα, δηλαδή είναι κάθετο στο υπερεπίπεδό μας. Η παράμετρος b w καθορίζει την απόσταση του υπερεπιπέδου από την αρχή των αξόνων σε σχέση με το διάνυσμα w. Σκοπός είναι να διαλέξουμε το w και το b ώστε να μεγιστοποιηθεί το περιθώριο ή αλλιώς η απόσταση ανάμεσα στα παράλληλα υπερεπίπεδα ώστε να είναι όσο πιο μακριά γίνεται και ταυτόχρονα να χωρίζουν τα δεδομένα. Αυτά τα υπερεπίπεδα περιγράφονται από τις ακόλουθες εξισώσεις: w x b w x b (2.) (2.2) Αν τα δεδομένα εκπαίδευσης μπορούν να διαχωριστούν γραμμικά, τότε διαλέγουμε τα υπερεπίπεδα που σχηματίζουν το μεγαλύτερο περιθώριο ανάμεσά τους χωρίς να περιέχουν κάποιο στιγμιότυπο ανάμεσά τους. Εικόνα 2-2: Το όρια περιθωρίου και το υπερεπίπεδο μέγιστου περιθωρίου για στιγμιότυπα που ανήκουν σε μία από δύο κλάσεις. Τα στιγμιότυπα που πέφτουν στα όρια λέγονται support vectors. 7

18 Παρατηρώντας την Εικόνα 2-2, βλέπουμε ότι η απόσταση μεταξύ των δύο υπερεπιπέδων των τύπων 2. και 2.2 είναι ίση με 2. Άρα για να μεγαλώσει το περιθώριο, πρέπει ο w παρανομαστής να μικρύνει, δηλαδή το w. Επίσης πρέπει να βάλουμε και κάποιο περιορισμό ώστε τα στιγμιότυπα να μην πέφτουν μέσα στο περιθώριο, δηλαδή: w x i w x i b b Ο τύπος 2.3 αναφέρεται στα στιγμιότυπα x i που ανήκουν στην πρώτη κλάση, ενώ ο τύπος 2.4 αναφέρεται για τα x i της δεύτερης κλάσης. Αυτοί οι δύο τύποι μπορούν να εκφραστούν ως ένας τύπος, δηλαδή: c w x b, i i όπου i n (2.5) Άρα το πρόβλημα βελτιστοποίησης (optimization problem) είναι να μειώσουμε το μέτρο του w και να το συνδυάσουμε με τον τύπο 2.5. Σε αυτή τη σκέψη υπάρχει μια δυσκολία. Το μέτρο του w περιέχει τετραγωνική ρίζα. Όμως ευτυχώς υπάρχει λύση, η οποία είναι να 2 αντικαταστήσουμε το w με 2 w χωρίς να αλλάξει το αποτέλεσμα. Έτσι το πρόβλημά μας είναι πλέον η βελτιστοποίηση μιας δευτεροβάθμιας εξίσωσης (quadratic programming optimization problem). Ο τύπος 2.5 με τη χρήση μη αρνητικών συντελεστών Lagrange a i, γράφεται ως εξής: (2.3) (2.4) n 2 min{ 2 w a [ c ( w x b) ]} (2.6) i i i w, b, a i Ο παράγοντας ½ είναι για τη διευκόλυνση της επίλυσης. Ο τύπος 2.6 μπορεί να λυθεί με τις γνωστές λύσεις για δευτεροβάθμια εξίσωση και οι λύση εκφράζεται ως γραμμικός συνδυασμός των όρων των διανυσμάτων εκπαίδευσης, δηλαδή: w n i a c x i i i (2.7) Από τους συντελεστές ai είναι λίγοι αυτοί που είναι μεγαλύτεροι του μηδενός. Τα αντίστοιχα xi είναι τα support vectors, δηλαδή τα στιγμιότυπα που πέφτουν στα όρια και ικανοποιούν την εξίσωση c ( w x b) i i. Στην περίπτωση της ταξινόμησης κειμένων, οι κατηγορίες - κλάσεις είναι παραπάνω από δύο (multiclass). Το πρόβλημα αυτό θα λυθεί σαν πολλά μικρότερα προβλήματα δύο κλάσεων (binary classification problem). Η επίλυση του προβλήματος γίνεται με τη χρήση δυαδικών ταξινομητών (binary classifiers), που έχουν δύο μεθόδους. Η πρώτη μέθοδος είναι να συγκρίνει κάθε μία κλάση με όλες τις άλλες (one versus all), ενώ η δεύτερη μέθοδος είναι να συγκρίνει τις κλάσεις μεταξύ τους ανά ζευγάρια (one versus one). Για τις δικές μας ανάγκες χρησιμοποιήσαμε τον αλγόριθμο Sequential Minimal Optimization (SMO), ο οποίος είναι γνωστός δυαδικός ταξινομητής. 8

19 2.3 Μέτρα αξιολόγησης των αλγορίθμων (Performance Measures) Οι αλγόριθμοι ταξινόμησης αξιολογούνται συνήθως από μέτρα επίδοσης που τα συναντάμε στην ανάκτηση πληροφορίας. Τα μέτρα αυτά είναι τα Recall (ανάκληση), Precision (ακρίβεια), Accuracy, Error Rate και F. Ένα σύστημα ανάκτησης πληροφορίας δέχεται σαν είσοδο ένα ερώτημα (query) και με βάση αυτό επιστρέφει κάποια δεδομένα κείμενα, από τα οποία ορισμένα είναι σχετικά κ τα υπόλοιπα είναι μη σχετικά με το ερώτημα. Οπότε αν το σύστημα έχει συνολικά Ν κείμενα, τότε έχουμε το εξής σχήμα: Συλλογή κειμένων Σχετικά κείμενα Ανακτημένα κείμενα Α Β Ν Εικόνα 2-3: Δεδομένα από Σύστημα Ανάκτησης Πληροφορίας Συλλογή Κειμένων TRUE Ανακτημένα Κείμενα FALSE TRUE Σχετικά Κείμενα που ανακτήθηκαν Σχετικά Κείμενα που ΔΕΝ ανακτήθηκαν Σχετικά Κείμενα FALSE Μη Σχετικά Κείμενα που ανακτήθηκαν Μη Σχετικά Κείμενα που ΔΕΝ ανακτήθηκαν Σύμφωνα με τον Πίνακα 2-, έχουμε: Πίνακας 2-: Ανάκληση και Ακρίβεια Recall (R) = Αριθμός σχετικών κειμένων που ανακτήθηκαν Συνολικός αριθμός σχετικών κειμένων (2.8) Precision (P) = Αριθμός σχετικών κειμένων που ανακτήθηκαν Συνολικός αριθμός κειμένων που ανακτήθηκαν (2.9) 9

20 Στην ανάκτηση πληροφορίας, τα σχετικά κείμενα που ανακτήθηκαν ονομάζονται ως true positive (TP), τα μη σχετικά κείμενα που ανακτήθηκαν ονομάζονται ως false positive (FP), τα σχετικά κείμενα που δεν ανακτήθηκαν ονομάζονται ως false negative (FN) και τέλος τα μη σχετικά κείμενα που δεν ανακτήθηκαν ονομάζονται ως true negative (TN). Έτσι οι τύποι 2.8 και 2.9 μπορούν να γραφτούν και ως εξής: TP R TP FN TP P TP FP (2.2) (2.2) Όταν το Precision είναι, σημαίνει ότι όλα τα κείμενα που ανακτήθηκαν είναι σχετικά, χωρίς όμως να ξέρουμε αν υπάρχουν και άλλα σχετικά κείμενα τα οποία δεν ανακτήσαμε. Αντίθετα το Recall όταν είναι, σημαίνει ότι έχουμε ανακτήσει όλα τα σχετικά κείμενα από όλη την συλλογή κειμένων N. Όμως σε όλα αυτά που έχουμε ανακτήσει, σίγουρα υπάρχουν και πολλά κείμενα που δεν είναι σχετικά. Έτσι και τα δύο μέτρα είναι απαραίτητα και δεν μπορούμε να αναφερόμαστε μόνο στο ένα από τα δύο. Το ένα μέτρο συμπληρώνει το άλλο και συνήθως είναι αντιστρόφως ανάλογα [2]. Είναι εφικτό να αυξήσουμε το ένα σε βάρος του άλλου. Για παράδειγμα σε ένα σύστημα ανάκτησης πληροφορίας, όπως μια μηχανή αναζήτησης, το Recall μπορεί να αυξηθεί ώστε να επιστρέφει πολλές σχετικές ιστοσελίδες, αλλά θα ρίξει την ποιότητά του, δηλαδή το Precision, γιατί θα περιέχει επίσης και πολλές άχρηστες ιστοσελίδες. Το ιδανικό σύστημα Precision Recall Εικόνα 2-4: Σχέση Precision-Recall Επίσης εκτός από το Recall και το Precision, έχουμε και άλλα μέτρα αξιολόγησης όπως αναφέραμε. Είναι το Accuracy, το Error Rate και το F b -measure που είναι συνδυασμός των Recall και Precision, και όλα αυτά ορίζονται ως εξής [3][4]: TP TN Acc TP FP FN TN FP FN Err TP FP FN TN (2.22) (2.23) 2

21 F P R ( 2 ) 2 P R (2.24) Από τους τύπους 2.22 και 2.23 βλέπουμε ότι το Accuracy είναι το συμπληρωματικό του Error Rate. Επίσης ο τύπος 2.24 χρησιμοποιεί το Precision και Recall, και με τη χρήση του συντελεστή β δίνουμε περισσότερο βάρος στο Precision όταν β > ή δίνουμε περισσότερο βάρος στο Recall όταν β <. Στην περίπτωση που το β =, τότε το Precision έχει ίδια βαρύτητα με το Recall και το F β -measure ονομάζεται F -measure. F P R 2 P R (2.25) Στην ταξινόμηση κειμένων, οι κατηγορίες (κλάσεις) είναι σαν τα queries σε ένα σύστημα ανάκτησης πληροφορίας. Τα κείμενα μιας κατηγορίας i που θα ταξινομηθούν στην κατηγορία i είναι τα true positives, τα άσχετα κείμενα που θα ταξινομηθούν στην κατηγορία i είναι τα false positive, ενώ όσα κείμενα που ανήκουν στην κατηγορία i ταξινομηθούν σε άλλες κατηγορίες είναι τα false negative. Συνεπώς κάθε κατηγορία έχει τα δικά της μέτρα, Precision και Recall. Τέσσερα επιπλέον μέτρα αξιολόγησης είναι τα micro-average precision, microaverage recall, macro-average precision και macro-average recall [3][4]. Αν C το πλήθος των κλάσεων, τότε: (2.26) (2.27) Στην περίπτωση των micro-average μέτρων, πρέπει να δημιουργηθεί ένας πίνακας συσχέτισης (confusion matrix) με όλες τις κλάσεις, ώστε να υπολογιστούν τα TP i, FP i και FP i για κάθε κατηγορία i. Η περίπτωση των macro-average μέτρων είναι ο μέσος όρος για όλα τα recall και ο μέσος όρος για όλα precision. Από τους τύπους 2.26 και 2.27, συμπεραίνουμε ότι τα microaverage μέτρα δίνουν ίση βαρύτητα σε όλα τα κείμενα, ενώ τα macro-average μέτρα δίνουν ίση βαρύτητα σε όλες τις κλάσεις. Επίσης όταν έχουμε τον πίνακα συσχέτισης, το άθροισμα των TP i όλων των κλάσεων δια το συνολικό αριθμό κειμένων είναι η ακρίβεια ταξινόμησης του αλγορίθμου ταξινόμησης (classification accuracy). 2

22 ΚΕΦΑΛΑΙΟ 3 - ΤΑΞΙΝΟΜΗΣΗ ΜΗΝΥΜΑΤΩΝ ENRON Λίγες μελέτες υπάρχουν για την αυτόματη ταξινόμηση μηνυμάτων εμαιλ. Ο λόγος για τον οποίο συμβαίνει αυτό είναι ότι δεν υπάρχουν πολλές συλλογές μηνυμάτων εμαιλ διαθέσιμες στο ευρύ κοινό. Παρόλα αυτά υπάρχει μια μεγάλη συλλογή εμαιλ από την εταιρία Enron Corporation. Η συλλογή περιέχει πάνω από 5. μηνύματα από 5 υπάλληλους της Enron. Ασχοληθήκαμε με αυτή τη συλλογή (dataset) επειδή περιέχει αρκετά εμαιλ και γιατί θέλουμε να συγκρίνουμε τα αποτελέσματά μας με τα αποτελέσματα από το Πανεπιστήμιο της Μασαχουσέτης. 3. Προετοιμασία συλλογής Συνήθως οι ακατέργαστες συλλογές εμαιλ χρειάζονται ένα καθάρισμα και κάποια στάδια προετοιμασίας προτού ξεκινήσει η διαδικασία της ταξινόμησης. Η συλλογή εμαιλ της Enron δεν αποτελεί εξαίρεση και θα υποστεί προετοιμασία ίδια με αυτή που έκανε το Πανεπιστήμιο της Μασαχουσέτης. 3.. Διαγραφή φακέλων γενικού περιεχομένου Φάκελοι γενικού περιεχομένου λέγονται οι φάκελοι που περιέχουν μηνύματα εμαιλ ανεξάρτητα από το θέμα των μηνυμάτων. Τέτοιοι φάκελοι είναι τα «Εισερχόμενα» (Inbox), «Απεσταλμένα» (Sent Items), «Διαγραμμένα» (Trash) και «Πρόχειρα» (Drafts). Η απομάκρυνση τέτοιων φακέλων κρίνεται απαραίτητη γιατί η ταξινόμηση έχει νόημα όταν γίνεται σε φακέλους που δημιουργήθηκαν από το χρήστη. Έτσι, έχουμε τρεις κατηγορίες φακέλων γενικού περιεχομένου, οι οποίες είναι: Φάκελοι που δημιουργήθηκαν αυτόματα από εμαιλ εφαρμογές, όπως MS Outlook, Pine, KΜail κλπ. Τέτοιοι φάκελοι είναι όπως τα «Εισερχόμενα», «Απεσταλμένα» κλπ. Φάκελοι που έχουν δημιουργηθεί από την εταιρία για όλους τους χρήστες και ο κύριος σκοπός τους είναι η αποθήκευση των μηνυμάτων. Οι χρήστες της Enron, έχουν τέτοιους φακέλους, όπως all_documents κλπ. Φάκελοι που δημιουργήθηκαν από τους χρήστες και περιέχουν μηνύματα για τα οποία δεν έχει ασχοληθεί αρκετά ο κάθε χρήστης ώστε να τα κατατάξει στο σωστό φάκελο. Οι φάκελοι γενικού περιεχομένου που αφαιρέθηκαν από το λογαριασμό κάθε χρήστη είναι από τις δύο πρώτες κατηγορίες και είναι οι "all_documents", "calendar", "contacts", "deleted_items", "discussion_threads", "inbox", "notes_inbox", "sent", "sent_items" και "_sent_mail". Δεν αφαιρέσαμε φακέλους από την τρίτη κατηγορία γιατί δεν μπορούμε να ξέρουμε τον τρόπο με τον οποίο σκέπτεται ο κάθε χρήστης και δημιουργεί φακέλους Κατάργηση της ιεραρχίας των φακέλων Αρκετοί φάκελοι κάθε χρήστη εκτός από μηνύματα περιέχουν μέσα τους και άλλους φακέλους. Το Πανεπιστήμιο της Μασαχουσέτης κατάργησε την ιεραρχία και όλοι οι φάκελοι απέκτησαν το ίδιο «επίπεδο». Για παράδειγμα, αν είχαμε 2 φακέλους που ο κάθε ένας είχε από δύο υποφακέλους, μετά την κατάργηση της ιεραρχίας, το αποτέλεσμα θα ήταν να έχουμε 6 22

23 φακέλους, τους δύο αρχικούς και τους υπόλοιπους που ήρθαν στο ίδιο επίπεδο. Ακολουθήσαμε και εμείς την ίδια τακτική Διαγραφή φακέλων με λίγα μηνύματα Φάκελοι με λίγα μηνύματα είναι σύνηθες φαινόμενο για όλους τους χρήστες. Η αυτόματη ταξινόμηση θα γίνει και για τέτοιους φακέλους, αρκεί να έχουν έναν επαρκή αριθμό μηνυμάτων ώστε το σύστημα να μπορεί να εκπαιδευτεί. Φάκελοι με λιγότερα από τρία μηνύματα διαγράφτηκαν. 3.2 Επιλογή χρηστών Παρατηρήσαμε ότι η πλειοψηφία των χρηστών είχε λίγα μηνύματα και αυτό το γεγονός δεν βοηθάει στην εξαγωγή σωστών συμπερασμάτων. Έτσι επιλέξαμε να εφαρμόσουμε την αυτόματη ταξινόμηση σε επτά χρήστες της Enron, οι οποίοι είχαν τα περισσότερα μηνύματα. Παρακάτω ακολουθεί πίνακας με τους χρήστες και κάποια στατιστικά στοιχεία: Χρήστης Αριθμός φακέλων Αριθμός μηνυμάτων Αριθμός μηνυμάτων μικρότερου φακέλου Αριθμός μηνυμάτων μεγαλύτερου φακέλου beck-s farmer-d kaminski-v kitchen-l lokay-m sanders-r williams-w Πίνακας 3-: Χρήστες Enron 3.3 Στάδια εκτέλεσης αυτόματης ταξινόμησης (training/test splits) Για να γίνει η ταξινόμηση, χρειάζεται να υπάρχουν τα μηνύματα με τα οποία θα εκπαιδευτεί ο αλγόριθμος και τα μηνύματα τα οποία θα δεχτούν ταξινόμηση. Το πρώτο σύνολο μηνυμάτων ονομάζεται σύνολο εκπαίδευσης (training set) και το δεύτερο ονομάζεται σύνολο τεστ (test set). Κάθε χρήστης εκτελώντας την αυτόματη ταξινόμηση αποσκοπεί στην ταξινόμηση των νέων εισερχόμενων μηνυμάτων. Συνεπώς το σύνολο εκπαίδευσης πρέπει να αποτελείται από προηγούμενα μηνύματα, ενώ το σύνολο τεστ πρέπει να αποτελείται από μηνύματα χρονολογικά πιο φρέσκα [5]. Έτσι για κάθε χρήστη που μελετήσαμε (Πίνακας 3-), βάλαμε σε χρονολογική σειρά όλα τα μηνύματα τους. 23

24 Επίσης ο Klimt and Yang [5] πρότειναν να χωριστεί, με βάση την χρονολογική σειρά, η συλλογή μηνυμάτων ενός χρήστη σε δύο μέρη. Το πρώτο μέρος θα αποτελεί το σύνολο εκπαίδευσης και το δεύτερο μέρος θα είναι το σύνολο τεστ. Όμως ένας τέτοιος διαχωρισμός θα δημιουργούσε περίεργα αποτελέσματα για δύο λόγους. Ο πρώτος λόγος είναι ότι συνήθως τα μηνύματα ενός χρήστη δεν έχουν συνέχεια το ίδιο θέμα, οπότε μηνύματα που έχουν μεγάλες χρονολογικές διαφορές θα είναι άσχετα μεταξύ τους. Ο δεύτερος λόγος είναι ότι ένας χρήστης συχνά δημιουργεί νέους φακέλους, ενώ εγκαταλείπει κάποιους άλλους, έτσι ορισμένα μηνύματα που ανήκουν στο σύνολο τεστ μπορεί να ανήκουν σε φακέλους που να μην υπάρχουν οι αντίστοιχοι φάκελοι στο σύνολο εκπαίδευσης. Συνεπώς το σύνολο εκπαίδευσης πρέπει να μην είναι «παλιό» και να ανανεώνεται συχνά. Βέβαια ο ρυθμός ανανέωσης δεν πρέπει να είναι πολύ συχνός όπως έκαναν ο Segal and Kephart [6], οι οποίοι ανανέωναν το σύνολο εκπαίδευσης μετά από κάθε νέο εισερχόμενο μήνυμα. Στην εργασία μας, όπως και στην εργασία του πανεπιστημίου της Μασαχουσέτης, έχοντας αρχικά βάλει σε χρονολογική σειρά όλα τα μηνύματα για κάθε χρήστη, χωρίσαμε τα μηνύματα σε K κομμάτια, όπου κάθε κομμάτι είχε Ν μηνύματα (N=). Έτσι την πρώτη φορά ο αλγόριθμος ταξινόμησης εκπαιδεύτηκε στα πρώτα Ν μηνύματα και ταξινόμησε τα επόμενα Ν μηνύματα. Στην συνέχεια ο αλγόριθμος εκπαιδεύτηκε στα πρώτα 2Ν μηνύματα και ταξινόμησε τα επόμενα Ν μηνύματα κ.ο.κ. Τέλος εκπαιδεύτηκε στα (K-)N μηνύματα και ταξινόμησε τα υπόλοιπα που απέμειναν. Για παράδειγμα για τον χρήστη sanders-r έγιναν φάσεις ταξινόμησης, για να παρατηρήσουμε την απόδοση του αλγορίθμου καθώς αυξάνεται το σύνολο εκπαίδευσης. Ομοίως και για τους άλλους χρήστες. Τέλος πρέπει να τονίσουμε ότι σε κάθε περίπτωση της διαδικασίας, που αναφέραμε παραπάνω, όσα μηνύματα από το σύνολο τεστ ανήκαν σε φάκελο που δεν υπήρχε στο σύνολο εκπαίδευσης, τότε δεν λήφθηκαν υπόψη. 3.4 Αναπαράσταση μηνυμάτων Τα μηνύματα όπως είναι αυτούσια δεν μπορούν να εισαχθούν με αυτή τη μορφή στον αλγόριθμο μάθησης. Πρέπει να μετατραπούν σε κατάλληλη μορφή ώστε να είναι επεξεργάσιμα από τον αλγόριθμο ταξινόμησης. Η μορφή με την οποία συνήθως αναπαριστάται ένα μήνυμα είναι με το μοντέλο του διανυσματικού χώρου. Με άλλα λόγια κάθε μήνυμα είναι ένα διάνυσμα από όρους ή αλλιώς χαρακτηριστικά (features). Οι όροι μπορούν να είναι λέξεις (words) [6], φράσεις από λέξεις (sequence of words) [8], μέρη από λέξεις (word clusters) [7], λέξεις με συντακτική έννοια (part-of-speech tags) [] κ.ά Λέξεις (words) Το Πανεπιστήμιο της Μασαχουσέτης έκανε την αναπαράσταση των μηνυμάτων με διανύσματα λέξεων. Η επιλογή λέξεων ως όρους στα διανύσματα, απαιτεί κάποια προεργασία πριν την κατασκευή των διανυσμάτων. Ως λέξη ορίζουν μια σειρά από γράμματα, αριθμούς και από το χαρακτήρα underscore. Στην Εικόνα 3- βλέπουμε πως είναι η μορφή ενός μηνύματος. Το πανεπιστήμιο της Μασαχουσέτης για την εξαγωγή των λέξεων χρησιμοποίησε τις επικεφαλίδες και το κύριο μέρος του μηνύματος. Από τις επικεφαλίδες εξαιρέθηκε το πεδίο X-folder γιατί αναφέρει την κατηγορία στην οποία ανήκει το μήνυμα. Επίσης δεν ασχολήθηκαν με οτιδήποτε είχε σχέση με επισυναπτόμενα αρχεία. Στην συνέχεια, σε όλες τις λέξεις τα κεφαλαία γράμματα αντικαταστάθηκαν με πεζά γράμματα (downcased). 24

25 Message-ID: Date: Tue, 3 Oct 2 4:44: -7 (PDT) From: bob.lee@enron.com To: michael.anderson@enron.com Subject: Re: Joint Probabilities Cc: stinson.gibner@enron.com, vince.kaminski@enron.com, zimin.lu@enron.com Mime-Version:. Content-Type: text/plain; charset=us-ascii Content-Transfer-Encoding: 7bit Bcc: stinson.gibner@enron.com, vince.kaminski@enron.com, zimin.lu@enron.com X-From: Bob Lee X-To: Michael Anderson X-cc: Stinson Gibner, Vince J Kaminski, Zimin Lu X-bcc: X-Folder: \Vincent_Kaminski_Jun2_5\Notes Folders\Azurix\Azurix X-Origin: Kaminski-V X-FileName: vkamins.nsf Michael The updated probabilities are attached. The probability of reaching any Fx times RAB multiple are the same as the original analysis. The probabilities of reaching a given stock price are lower than the original analysis in both the optimistic and pessimistic cases because the debt levels are higher, and hence the stock value is lower for any Fx-RAB value. Bob Lee x3563 Εικόνα 3-: Παράδειγμα μηνύματος Ύστερα, έχοντας εξάγει τις λέξεις από όλα τα μηνύματα, για να αποφύγουν το πρόβλημα της διαστασιμότητας, αφαίρεσαν τις πιο κοινές λέξεις και τις λέξεις που εμφανίζονται μια φορά. Για την εύρεση των πιο κοινών λέξεων σε μια συγκεκριμένη γλώσσα υπάρχουν έτοιμες λίστες από λέξεις γνωστές ως stop-word lists. Οι λόγοι για τον οποίους γίνεται η μείωση της διαστασιμότητας είναι δυο. Ο πρώτος λόγος είναι η μείωση της πολυπλοκότητας των υπολογισμών για τον αλγόριθμο ταξινόμησης. Έτσι θα έχουμε μείωση του χρόνου εκπαίδευσης του συστήματος. Ο δεύτερος λόγος είναι ότι δεν είναι πάντα σίγουρο ότι όσο πιο πολλούς όρους έχουμε στα διανύσματα τόσο πιο μεγάλη ακρίβεια ταξινόμησης θα έχει ο αλγόριθμος. Στις λέξεις που απέμειναν δεν έκαναν λημματοποίηση (stemming). H λημματοποίηση είναι η μετατροπή μιας λέξης στην ρίζα από την οποία προέρχεται. Για παράδειγμα οι λέξεις computer και compute έχουν το ίδιο λήμμα, δηλαδή το comput. Με αυτό τον τρόπο μειώνεται ο συνολικός αριθμός των λέξεων, συνεπώς και του διανύσματος. Παρόλα αυτά δεν εφαρμόστηκε. 25

26 3.4.2 N-grams Στην δική μας περίπτωση, δεν χρησιμοποιήσαμε τις λέξεις για την αναπαράσταση των μηνυμάτων. Χρησιμοποιήσαμε συμβολοσειρές σταθερού μήκους (n-grams) και ονόματα (Name Entities). Ένα n-gram είναι ένα κομμάτι n χαρακτήρων από μια μεγαλύτερη συμβολοσειρά []. Κατά την δημιουργία των ngrams σε ένα κείμενο, ο χαρακτήρας κενό (space character) αντιμετωπίζεται σαν απλός χαρακτήρας που συνήθως αντικαθιστάται από την κάτω παύλα (underscore) και δεν οριοθετεί τα ngrams όπως οριοθετεί τις λέξεις. Έτσι ένα ngram μπορεί να αποτελείται από τους τελευταίους χαρακτήρες μιας λέξης, το κενό (ως κάτω παύλα) και τους αρχικούς χαρακτήρες της επόμενης λέξης. Για παράδειγμα, στην φράση TEXT CATEGORIZATION αν n = 3, τότε τα tri-grams είναι { TEX, EXT, XT_, T_C, _CA, CAT, ATE, TEG, EGO, GOR, ORI, RIZ, IZA, ZAT, ATI, TIO, ION }. Όπως βλέπουμε ο χαρακτήρας κενό έχει αντικατασταθεί με την κάτω παύλα. Γενικά, αν Α το σύνολο των χαρακτήρων ενός αλφάβητου, A ο αριθμός των χαρακτήρων του συνόλου Α και Α(n) ο αριθμός των μοναδικών n-grams για το σύνολο Α, τότε A(n) = A n.για παράδειγμα, το λατινικό αλφάβητο που περιέχει 27 χαρακτήρες, συμπεριλαμβανομένου και του κενού χαρακτήρα, έχει για n =, 27 uni-grams. Για n = 2 έχει 27 2 = 729 bi-grams, ενώ για n = 3 έχει 27 3 = 9683 tri-grams. Στην πραγματικότητα, δεν πρόκειται να συναντήσουμε όλα τα ngrams σε μια συλλογή κειμένων. Αυτό συμβαίνει γιατί σε μια γλώσσα π.χ. την Αγγλική δεν πρόκειται να συναντήσουμε το tri-gram qqq, όπως και πολλά άλλα. Όπότε στην πραγματικότητα ο αριθμός των ngrams είναι μικρότερος από το A n. Η χρήση των ngrams προσφέρει αρκετά πλεονεκτήματα σε αντίθεση με την χρήση των λέξεων, τα οποία είναι: Ανθεκτικά στα ορθογραφικά λάθη, που συχνά εμφανίζονται στα μηνύματα εμαιλ που γράφονται βιαστικά. Έτσι αν μια λέξη έχει ένα ορθογραφικό λάθος, τότε με την μέθοδο των λέξεων, θα ήταν άχρηστη. Αντίθετα στην περίπτωση των ngrams, θα αποτύχει (δηλαδή θα είναι άχρηστο) ένα ngram από το σύνολο των ngrams που θα παραχθούν από την συγκεκριμένη λέξη. Γνωστό το σύνολο των features. Για ένα κείμενο ή μια συλλογή κειμένων μπορούμε να υπολογίσουμε τον μέγιστο αριθμό των πιθανών ngrams. Αντίθετα με τις λέξεις δεν είναι εφικτό. Ανεξάρτητα από το θέμα. Αν ασχολούμαστε με μια συλλογή κειμένων με θέμα είτε την ιατρική, είτε την λογοτεχνία, τα ngrams δεν έχουν καμία πληροφορία που να δείχνει από ποια συλλογή προήλθαν. Αντίθετα, στην περίπτωση των λέξεων, οι λέξεις θα είχαν σχέση με το θέμα των κειμένων της συλλογής. Δεν χρειάζονται επεξεργασίες, όπως λημματοποίηση και αφαίρεση κοινών λέξεων (stop-words). Ανεξάρτητα από την γλώσσα. Είτε ασχολούμαστε με μια συλλογή αγγλικών κειμένων, είτε γερμανικών κειμένων, τα ngrams που θα προκύψουν δεν θα έχουν το χαρακτηριστικό της γλώσσας. Αντίθετα, στην περίπτωση των λέξεων, θα ήταν απαραίτητη η ύπαρξη λίστας με κοινές λέξεις στη συγκεκριμένη γλώσσα, καθώς και λίστας stemming. 26

27 Όμως η χρήση των ngrams έχει και δύο μειονεκτήματα, τα οποία είναι: Το πλήθος των ngrams. Ο αριθμός τους είναι πολύ μεγάλος όσο το n αυξάνεται και αυτό δημιουργεί την ανάγκη για περισσότερη μνήμη στο σύστημα. Περιορισμένη πληροφορία. Όπως είπαμε, κάθε κείμενο της συλλογής θα αναπαριστάται από ένα διάνυσμα από όρους (features) σταθερού μεγέθους. Αν αυτοί οι όροι είναι λέξεις τότε το διάνυσμα περιέχει περισσότερη πληροφορία έναντι των ngrams, γιατί αν δημιουργούσαμε ngrams από τις λέξεις που χρησιμοποιούνται ως όροι, τότε τα ngrams θα ήταν πολύ παραπάνω σε αριθμό Ονόματα (Name Entities) Τα ονόματα είναι ουσιαστικά λέξεις αλλά αναφέρονται μόνο σε πρόσωπα, εταιρίες και τοποθεσίες. Στη συλλογή μηνυμάτων της Enron αναφέρονται αρκετά ονόματα και προκαλούν το ενδιαφέρον για την αυτόματη ταξινόμηση εμαιλ, χρησιμοποιώντας τα ονόματα ως χαρακτηριστικά (features) για την κατασκευή διανυσμάτων. Το εργαλείο το οποίο χρησιμοποιήσαμε για να εντοπίσουμε τα ονόματα στη συλλογή είναι το Name Entity Recognition () από το Πανεπιστήμιο Stanford. Πρόκειται για ένα πρόγραμμα που έχει ως είσοδο ένα κείμενο και δίνει ως έξοδο το ίδιο κείμενο έχοντας προσαρτήσει ετικέτες (πρόσωπο, εταιρία, τοποθεσία) σε κάθε όνομα που έχει βρει. Στη παρούσα εργασία αναπαραστήσαμε τα κείμενα με πέντε τρόπους: διανύσματα μόνο με τη χρήση διανύσματα μόνο με τη χρήση διανύσματα μόνο με τη χρήση Ονομάτων () διανύσματα με τη χρήση και Ονομάτων () διανύσματα με τη χρήση και Ονομάτων () Για την δημιουργία των, και Ονομάτων χρησιμοποιήσαμε δύο μέρη από κάθε μήνυμα, την επικεφαλίδα Θέμα (Subject) και το Κύριο Μέρος (Body). Στην περίπτωση των ngrams, κάθε μήνυμα καθαρίστηκε και οι χαρακτήρες που παρέμειναν ήταν τα πεζά γράμματα (a-z), τα κεφαλαία γράμματα (A-Z), ο κενός χαρακτήρας (ο οποίος μετατράπηκε σε κάτω παύλα) και όποια νούμερα ήταν στην αρχή, στο τέλος ή ενδιάμεσα μιας λέξης. Για παράδειγμα η φράση The user George85 has 5 posts!!! μετατράπηκε σε The_user_George85_has_posts. Δεν μετατρέψαμε τους κεφαλαίους χαρακτήρες σε πεζούς, αλλά τους αφήσαμε όπως ήταν γιατί πιστεύουμε ότι δίνουν μια επιπρόσθετη πληροφορία. Στην περίπτωση των ονομάτων () κάθε μήνυμα δέχτηκε την εξής επεξεργασία. Οι χαρακτήρες αλλαγή γραμμής (\r και \n), οι χαρακτήρες < και >, ο χαρακτήρας tab (\t) και ο χαρακτήρας / αντικαταστάθηκαν με τον χαρακτήρα κενό. Χρησιμοποιήσαμε τον χαρακτήρα κενό και όχι την κάτω παύλα, γιατί το εργαλείο εντοπίζει λέξεις. Τέλος οι χαρακτήρες που αναφέραμε, αντικαταστάθηκαν με το κενό για την ομαλή λειτουργία του εργαλείου. 27

28 3.5 Επιλογή χαρακτηριστικών (Feature Selection) Όπως αναφέραμε παραπάνω, ο αριθμός των χαρακτηριστικών που προκύπτουν από μια συλλογή είναι πολύ μεγάλος και απαιτείται η επιλογή των κυριότερων χαρακτηριστικών για την αποφυγή του προβλήματος της διαστασιμότητας. Στην δική μας περίπτωση θέλαμε να έχουμε όριο. χαρακτηριστικά. Δύο γνωστά κριτήρια επιλογής χαρακτηριστικών είναι η συχνότητα ενός όρου CF (Corpus Frequency) σε ολόκληρο το κείμενο εκπαίδευσης (training corpus) και το κριτήριο IDF (Inverse Document Frequency). Το CF είναι ο αριθμός εμφανίσεων ενός χαρακτηριστικού σε όλα τα μηνύματα και παίρνει τιμές μεγαλύτερες του. Το IDF είναι ένα νούμερο που δείχνει την σημαντικότητα ενός χαρακτηριστικού στη συλλογή. Όσο πιο πολλά κείμενα (μηνύματα) έχουν τον ίδιο όρο, τότε μειώνεται η σημαντικότητα του συγκεκριμένου όρου. Αν όλα τα κείμενα έχουν τον ίδιο όρο, τότε η σημαντικότητα του όρου είναι ίση με μηδέν. Αν ένας όρος υπάρχει μόνο σε ένα μήνυμα, τότε το IDF λαμβάνει την μέγιστη τιμή του. Ο παρακάτω τύπος δείχνει πως υπολογίζουμε το IDF για έναν όρο i. IDFi log 2 N DF i (3.) όπου Ν είναι το πλήθος των μηνυμάτων του συνόλου εκπαίδευσης και το DF i (document frequency) είναι το πλήθος των μηνυμάτων του συνόλου εκπαίδευσης που περιέχουν τον όρο i. Παρατηρούμε ότι το DF έχει άμεση σχέση με το IDF και όσο αυξάνεται το ένα, μειώνεται το άλλο. Συνεπώς και το DF μπορεί να αποτελέσει ένα κριτήριο για την επιλογή χαρακτηριστικών, άρα όταν θα ζητάμε χαρακτηριστικά με υψηλή σημαντικότητα (IDF υψηλό) στην ουσία ζητάμε χαρακτηριστικά που εμφανίζονται σε λίγα μηνύματα (DF χαμηλό). Όπως αναφέραμε το πανεπιστήμιο της Μασαχουσέτης αφαίρεσε τις πιο κοινές λέξεις και τις λέξεις που είχαν συχνότητα ίση με ένα (CF=). Στην περίπτωση την δική μας, δεν μπορούμε να κάνουμε το ίδιο γιατί τα ngrams είναι πολύ παραπάνω σε αριθμό. Για αυτό ακριβώς τον λόγο επιλέξαμε με βάση το CF και το DF. Ο λόγος για τον οποίο χρησιμοποιήσαμε το DF είναι για να απλοποιηθεί η διαδικασία. Τα κριτήρια αυτά χρησιμοποιήθηκαν για όλες τις περιπτώσεις, ngrams και ονόματα. Έχοντας αποφασίσει ποια θα είναι τα κριτήρια επιλογής χαρακτηριστικών, το πρόβλημα εστιάζεται στο ποια θα είναι η τιμή τους που θα αποδώσει τα καλύτερα αποτελέσματα στην αυτόματη ταξινόμηση. Ένα χαρακτηριστικό i όταν εμφανίζεται μόνο μία φορά στο σύνολο εκπαίδευσης δηλαδή CF i =, ή όταν εμφανίζεται μόνο σε ένα μήνυμα, δηλαδή DF i =, τότε αυτό το χαρακτηριστικό είναι άχρηστο. Η πρώτη περίπτωση, που το CF i =, ενδέχεται να είναι χαρακτηριστικό που έχει προέλθει από ορθογραφικό λάθος. Στη δεύτερη περίπτωση, που το DF i =, το χαρακτηριστικό i δεν υπάρχει σε άλλα μηνύματα και δεν μπορεί να δημιουργήσει μια σχέση μεταξύ μηνυμάτων. Άρα μέχρι τώρα έχουμε καταλήξει ότι τα κριτήρια πρέπει να έχουν τιμή μεγαλύτερη του. Για να βρούμε την κατάλληλη τιμή για κάθε ένα κριτήριο, κάναμε πειράματα με τους συνδυασμούς για CF = 2 έως CF = 6 και DF = 2 έως DF = 5. Για κάθε χρήστη ήταν 2 πειράματα για τα, 2 πειράματα για τα και 2 πειράματα για τα ονόματα (). Επειδή τα συνολικά πειράματα ήταν 6 για κάθε χρήστη, κάναμε τα πειράματα στους 4 από τους 7 χρήστες της Enron. Οι χρήστες ήταν οι beck-s, lokay-m, sanders-r, williams-w3. Σκοπός μας ήταν να βρούμε τα κατάλληλα CF-DF για κάθε περίπτωση ταξινόμησης (,, ) τα οποία θα ήταν κοινά για τους 4 χρήστες και οι αλγόριθμοι ταξινόμησης (Naive Bayes, SMO) θα έδιναν καλά αποτελέσματα. 28

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος Οικονομικό Πανεπιστήμιο Αθηνών Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης Άρης Κοσμόπουλος Πρόβλημα ανεπιθύμητων μηνυμάτων Περισσότερα από το 60% των ηλεκτρονικών μηνυμάτων είναι ανεπιθύμητα

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Εργασία 1η Classification

Αναγνώριση Προτύπων Εργασία 1η Classification ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Αναγνώριση Προτύπων Εργασία 1η Classification Κιντσάκης Αθανάσιος 6667 Μόσχογλου Στυλιανός 6978 30 Νοεμβρίου,

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Αντικείμενο Μελέτη και ανάπτυξη μεθόδων από τον χώρο της μηχανικής μάθησης για

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner 10. Text Mining Για να μπορέσουμε να χρησιμοποιήσουμε τις δυνατότητες text mining του Rapid Miner πρέπει να εγκαταστήσουμε το Text Mining Extension. Πηγαίνουμε Help Updates and Extensions (Marketplace)

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ

ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ Σχολή Μηχανικής και Τεχνολογίας Πτυχιακή εργασία ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ Ηλίας Κωνσταντίνου Λεμεσός,

Διαβάστε περισσότερα

Other Test Constructions: Likelihood Ratio & Bayes Tests

Other Test Constructions: Likelihood Ratio & Bayes Tests Other Test Constructions: Likelihood Ratio & Bayes Tests Side-Note: So far we have seen a few approaches for creating tests such as Neyman-Pearson Lemma ( most powerful tests of H 0 : θ = θ 0 vs H 1 :

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 2 Επισκόπηση θεωρίας πιθανοτήτων Τυχαίες μεταβλητές: Βασικές έννοιες Τυχαία μεταβλητή: Μεταβλητή της οποίας δε γνωρίζουμε με βεβαιότητα την τιμή (σε αντίθεση με τις

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ 2 ο ΣΕΤ ΑΣΚΗΣΕΩΝ Οι ασκήσεις αυτού του φυλλαδίου καλύπτουν τα παρακάτω θέματα: Συναρτήσεις (κεφάλαιο Functions)

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5: Μοντελοποίηση: Πιθανοκρατικό Μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Bayesian decision Minimum misclassificaxon rate decision: διαλέγουμε την κατηγορία Ck για

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ Χριστοδούλου Αντρέας Λεμεσός 2014 2 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ

Διαβάστε περισσότερα

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου Τίμος Κουλουμπής Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου Αντικείμενο Εργασίας Εισαγωγή στην Αυτόματη Κατηγοριοποίηση Κειμένου Μεθοδολογίες Συγκριτική Αποτίμηση Συμπεράσματα

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2 HMY 795: Αναγνώριση Προτύπων Διάλεξη 2 Επισκόπηση θεωρίας πιθανοτήτων Θεωρία πιθανοτήτων Τυχαία μεταβλητή: Μεταβλητή της οποίας δε γνωρίζουμε με βεβαιότητα την τιμή (αντίθετα με τις ντετερμινιστικές μεταβλητές)

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Use Cases: μια σύντομη εισαγωγή. Heavily based on UML & the UP by Arlow and Neustadt, Addison Wesley, 2002

Use Cases: μια σύντομη εισαγωγή. Heavily based on UML & the UP by Arlow and Neustadt, Addison Wesley, 2002 Use Cases: μια σύντομη εισαγωγή Heavily based on UML & the UP by Arlow and Neustadt, Addison Wesley, 2002 (γενικές εισαγωγικές ιδέες) ΣΥΛΛΟΓΗ ΑΠΑΙΤΗΣΕΩΝ 2 Ανάλυση απαιτήσεων Λειτουργικές απαιτήσεις: τι

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015 ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015 Λύσεις 2η σειράς ασκήσεων Προθεσμία παράδοσης: 18 Μαίου 2015 Πρόβλημα 1. (14

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr I ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ i e ΜΕΡΟΣ Ι ΟΡΙΣΜΟΣ - ΒΑΣΙΚΕΣ ΠΡΑΞΕΙΣ Α Ορισμός Ο ορισμός του συνόλου των Μιγαδικών αριθμών (C) βασίζεται στις εξής παραδοχές: Υπάρχει ένας αριθμός i για τον οποίο ισχύει i Το σύνολο

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

Προγραμματισμός ΙI (Θ)

Προγραμματισμός ΙI (Θ) Τεχνολογικό Εκπαιδευτικό Ίδρυμα Κεντρικής Μακεδονίας - Σέρρες Τμήμα Μηχανικών Πληροφορικής Προγραμματισμός ΙI (Θ) Δρ. Δημήτρης Βαρσάμης Επίκουρος Καθηγητής Μάρτιος 2017 Δρ. Δημήτρης Βαρσάμης Μάρτιος 2017

Διαβάστε περισσότερα

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j Πειραματικές Προσομοιώσεις ΚΕΦΑΛΑΙΟ 4 Όλες οι προσομοιώσεις έγιναν σε περιβάλλον Matlab. Για την υλοποίηση της μεθόδου ε-svm χρησιμοποιήθηκε το λογισμικό SVM-KM που αναπτύχθηκε στο Ecole d Ingenieur(e)s

Διαβάστε περισσότερα

: Monte Carlo EM 313, Louis (1982) EM, EM Newton-Raphson, /. EM, 2 Monte Carlo EM Newton-Raphson, Monte Carlo EM, Monte Carlo EM, /. 3, Monte Carlo EM

: Monte Carlo EM 313, Louis (1982) EM, EM Newton-Raphson, /. EM, 2 Monte Carlo EM Newton-Raphson, Monte Carlo EM, Monte Carlo EM, /. 3, Monte Carlo EM 2008 6 Chinese Journal of Applied Probability and Statistics Vol.24 No.3 Jun. 2008 Monte Carlo EM 1,2 ( 1,, 200241; 2,, 310018) EM, E,,. Monte Carlo EM, EM E Monte Carlo,. EM, Monte Carlo EM,,,,. Newton-Raphson.

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο

Διαβάστε περισσότερα

ΠΕΡΙΛΗΨΗ. Είναι γνωστό άτι καθημερινά διακινούνται δεκάδες μηνύματα (E~mail) μέσω του διαδικτύου

ΠΕΡΙΛΗΨΗ. Είναι γνωστό άτι καθημερινά διακινούνται δεκάδες μηνύματα (E~mail) μέσω του διαδικτύου GREEKLISH: ΜΙΑ ΝΕΑ ΔΙΑΛΕΚΤΟΣ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥ; Α.Καράκος, Λ.Κωτούλας ΠΕΡΙΛΗΨΗ Είναι γνωστό άτι καθημερινά διακινούνται δεκάδες μηνύματα (E~mail) μέσω του διαδικτύου {INTERNEη από την μια άκρη του κόσμου

Διαβάστε περισσότερα

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Πολυτεχνείο Κρήτης Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Ηλεκτρονικών Υπολογιστών Τομέας Τηλεπικοινωνιών Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην

Διαβάστε περισσότερα

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Διπλωματική Εργασία με θέμα: Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού Καραγιάννης Ιωάννης Α.Μ.

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Α.Μ. 123/04 ΕΠΙΒΛΕΠΩΝ: ΣΑΜΑΡΑΣ ΝΙΚΟΛΑΟΣ ΘΕΣΣΑΛΟΝΙΚΗ, ΙΟΥΝΙΟΣ 2007 Περιεχόμενα

Διαβάστε περισσότερα

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΤΙΤΛΟΣ

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΤΙΤΛΟΣ ΕΘΝΙΚΟ & ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΑΝΑΓΝΩΣΤΗΡΙΟ Πανεπιστημιούπολη, Κτήρια Πληροφορικής & Τηλεπικοινωνιών 15784 ΑΘΗΝΑ Τηλ.: 210 727 5190, email: library@di.uoa.gr,

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διαλέξεις 11-12 Γραμμική παλινδρόμηση συνέχεια Γραμμική παλινδρόμηση συνέχεια Γραμμικές διαχωριστικές συναρτήσεις Γραμμική παλινδρόμηση (Linear regression) y = w + wx + + w

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version Εκφράζοντας τον ταξινομητή Bayes (a) Με χρήση συναρτήσεων διάκρισης (discriminant functions) - Έστω g q (x)=f(p(ω q )p(x ω q )), q=,,m, όπου f γνησίως

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν

Διαβάστε περισσότερα

Αντισταθμιστική ανάλυση

Αντισταθμιστική ανάλυση Αντισταθμιστική ανάλυση Θεωρήστε έναν αλγόριθμο Α που χρησιμοποιεί μια δομή δεδομένων Δ : Κατά τη διάρκεια εκτέλεσης του Α η Δ πραγματοποιεί μία ακολουθία από πράξεις. Παράδειγμα: Θυμηθείτε το πρόβλημα

Διαβάστε περισσότερα

Πλοήγηση και Αναζήτηση

Πλοήγηση και Αναζήτηση Πλοήγηση και Αναζήτηση Περιήγηση Το Eprints παρέχει πολλούς διαφορετικούς τρόπους να επιμεριστεί το καταθετήριο σε διαφορετικές συλλογές και να προσεγγίζεται το περιεχόμενό του από διαφορετικές οπτικές

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012 ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η (3 μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάση το συντελεστή συσχέτισης. (γράψτε ποιο

Διαβάστε περισσότερα

Εισαγωγή στους Υπολογιστές

Εισαγωγή στους Υπολογιστές Εισαγωγή στους Υπολογιστές Ενότητα #2: Αναπαράσταση δεδομένων Αβεβαιότητα και Ακρίβεια Καθ. Δημήτρης Ματαράς Πολυτεχνική Σχολή Τμήμα Χημικών Μηχανικών Αναπαράσταση δεδομένων (Data Representation), Αβεβαιότητα

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

ΛΥΚΕΙΟ ΑΓΙΟΥ ΝΕΟΦΥΤΟΥ ΣΧΟΛΙΚΗ ΧΡΟΝΙΑ 2010 2011 ΓΡΑΠΤΕΣ ΠΡΟΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΙΟΥΝΙΟΥ 2011

ΛΥΚΕΙΟ ΑΓΙΟΥ ΝΕΟΦΥΤΟΥ ΣΧΟΛΙΚΗ ΧΡΟΝΙΑ 2010 2011 ΓΡΑΠΤΕΣ ΠΡΟΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΙΟΥΝΙΟΥ 2011 ΛΥΚΕΙΟ ΑΓΙΟΥ ΝΕΟΦΥΤΟΥ ΣΧΟΛΙΚΗ ΧΡΟΝΙΑ 2010 2011 ΓΡΑΠΤΕΣ ΠΡΟΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΙΟΥΝΙΟΥ 2011 ΜΑΘΗΜΑ: ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΤΕΥΘΥΝΣΗΣ ΗΜΕΡΟΜΗΝΙΑ: 07/06/2011 ΤΑΞΗ: Β ΛΥΚΕΙΟΥ ΩΡΑ: 11:00 ΑΡ. ΣΕΛΙΔΩΝ: 14 ΣΤΟΙΧΕΙΑ ΜΑΘΗΤΗ

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Επιβλέπων Καθηγητής: Δρ. Νίκος Μίτλεττον Η ΣΧΕΣΗ ΤΟΥ ΜΗΤΡΙΚΟΥ ΘΗΛΑΣΜΟΥ ΜΕ ΤΗΝ ΕΜΦΑΝΙΣΗ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 2 ΣΤΗΝ ΠΑΙΔΙΚΗ ΗΛΙΚΙΑ Ονοματεπώνυμο: Ιωσηφίνα

Διαβάστε περισσότερα

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science. Bayesian statistics DS GA 1002 Probability and Statistics for Data Science http://www.cims.nyu.edu/~cfgranda/pages/dsga1002_fall17 Carlos Fernandez-Granda Frequentist vs Bayesian statistics In frequentist

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή εργασία ΕΠΙΛΥΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΜΕΤΑΔΟΣΗΣ ΣΕ ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ ΜΕ ΣΥΣΚΕΥΕΣ ΔΙΑΚΡΙΤΩΝ ΤΙΜΩΝ ΙΣΧΥΟΣ ΜΕ ΤΗ ΧΡΗΣΗ

Διαβάστε περισσότερα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου Γλωσσικη τεχνολογια Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διαλέξεις 9 20 Kernel methods Support vector machines Εκπαίδευση νευρωνικών δικτύων backpropagation:. Υπολογισμός μεταβλητών δικτύου «τρέχον» w () () (2) (2) aj = wji xi ak

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή. Ονοματεπώνυμο: Αργυρώ Ιωάννου. Επιβλέπων καθηγητής: Δρ. Αντρέας Χαραλάμπους

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή. Ονοματεπώνυμο: Αργυρώ Ιωάννου. Επιβλέπων καθηγητής: Δρ. Αντρέας Χαραλάμπους ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή διατριβή Διερεύνηση της αποτελεσματικότητας εναλλακτικών και συμπληρωματικών τεχνικών στη βελτίωση της ποιότητας της ζωής σε άτομα με καρκίνο

Διαβάστε περισσότερα

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ ΤΙΤΛΟΣ Συμπληρώστε τον πρωτότυπο τίτλο της Διδακτορικής διατριβής ΑΡ. ΣΕΛΙΔΩΝ ΕΙΚΟΝΟΓΡΑΦΗΜΕΝΗ

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ ΤΙΤΛΟΣ Συμπληρώστε τον πρωτότυπο τίτλο της Διδακτορικής διατριβής ΑΡ. ΣΕΛΙΔΩΝ ΕΙΚΟΝΟΓΡΑΦΗΜΕΝΗ ΕΘΝΙΚΟ & ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΑΝΑΓΝΩΣΤΗΡΙΟ Πανεπιστημιούπολη, Κτήρια Πληροφορικής & Τηλεπικοινωνιών 15784 ΑΘΗΝΑ Τηλ.: 210 727 5190, email: library@di.uoa.gr,

Διαβάστε περισσότερα

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανύσματα στους Rn, Cn, διανύσματα στο χώρο (3) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανύσματα στους Rn, Cn, διανύσματα στο χώρο (3) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΕΝΟΤΗΤΑ: Διανύσματα στους Rn, Cn, διανύσματα στο χώρο (3) ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

Αλγόριθμοι και Πολυπλοκότητα

Αλγόριθμοι και Πολυπλοκότητα Αλγόριθμοι και Πολυπλοκότητα Ανάλυση Αλγορίθμων Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ανάλυση Αλγορίθμων Η ανάλυση αλγορίθμων περιλαμβάνει τη διερεύνηση του τρόπου

Διαβάστε περισσότερα

Β Γραφικές παραστάσεις - Πρώτο γράφημα Σχεδιάζοντας το μήκος της σανίδας συναρτήσει των φάσεων της σελήνης μπορείτε να δείτε αν υπάρχει κάποιος συσχετισμός μεταξύ των μεγεθών. Ο συνήθης τρόπος γραφικής

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Δ.Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΧΟΥΧΟΥΜΗΣ ΙΩΑΝΝΗΣ Το σύνολο των

Διαβάστε περισσότερα

1. Financial New Times Year MAXk {FREQij} D D D D

1.  Financial New Times Year MAXk {FREQij} D D D D Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY46 - Συστήματα Ανάκτησης Πληροφοριών 2004-2005 Εαρινό Εξάμηνο 2 η Σειρά ασκήσεων (Μοντέλα Ανάκτησης Πληροφοριών και Ευρετήρια) Ανάθεση: 6 Μαρτίου Παράδοση:

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ ΑΣΚΗΣΗ Σύμφωνα με στοιχεία από το Πανεπιστήμιο της Οξφόρδης η πιθανότητα ένας φοιτητής να αποφοιτήσει μέσα σε 5 χρόνια από την ημέρα εγγραφής του στο

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Διαχωριστικές συναρτήσεις Ταξινόμηση κανονικών

Διαβάστε περισσότερα

Splice site recognition between different organisms

Splice site recognition between different organisms NATIONAL AND KAPODISTRIAN UNIVERSITY OF ATHENS SCHOOL OF SCIENCE DEPARTMENT OF INFORMATICS AND TELECOMMUNICATIONS INTERDEPARTMENTAL POSTGRADUATE PROGRAM "INFORMATION TECHNOLOGIES IN MEDICINE AND BIOLOGY"

Διαβάστε περισσότερα

Κεφάλαιο 5ο: Ακέραιος προγραμματισμός

Κεφάλαιο 5ο: Ακέραιος προγραμματισμός Κεφάλαιο 5ο: Ακέραιος προγραμματισμός 5.1 Εισαγωγή Ο ακέραιος προγραμματισμός ασχολείται με προβλήματα γραμμικού προγραμματισμού στα οποία μερικές ή όλες οι μεταβλητές είναι ακέραιες. Ένα γενικό πρόβλημα

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή διατριβή

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή διατριβή ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Πτυχιακή διατριβή ΣΥΜΒΟΛΗ ΤΟΥ ΤΕΧΝΗΤΟΥ ΘΗΛΑΣΜΟΥ ΣΤΗ ΔΙΑΤΡΟΦΗ ΤΩΝ ΑΜΝΩΝ ΦΥΛΗΣ ΧΙΟΥ ΓΙΑΝΝΟΣ ΜΑΚΡΗΣ Λεμεσός 2014 ii

Διαβάστε περισσότερα

12. ΑΝΙΣΩΣΕΙΣ Α ΒΑΘΜΟΥ. είναι δύο παραστάσεις μιας μεταβλητής x πού παίρνει τιμές στο

12. ΑΝΙΣΩΣΕΙΣ Α ΒΑΘΜΟΥ. είναι δύο παραστάσεις μιας μεταβλητής x πού παίρνει τιμές στο ΓΕΝΙΚΑ ΠΕΡΙ ΑΝΙΣΩΣΕΩΝ Έστω f σύνολο Α, g Α ΒΑΘΜΟΥ είναι δύο παραστάσεις μιας μεταβλητής πού παίρνει τιμές στο Ανίσωση με έναν άγνωστο λέγεται κάθε σχέση της μορφής f f g g ή, η οποία αληθεύει για ορισμένες

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 10η 1 Αποτίμηση επίδοσης Μηχανών Αναζήτησης 2 Sec. 8.6 Μέτρα επίδοσης μιας μηχανής αναζήτησης Πόσο γρήγορα εκτελεί την διαδικασία

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012 ΔΕ. ΙΟΥΝΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η ( μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάσει το συντελεστή συσχέτισης. (γράψτε ποιο χαρακτηριστικό

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Β ΕΙΔΙΚΗ ΦΑΣΗ ΣΠΟΥΔΩΝ

Β ΕΙΔΙΚΗ ΦΑΣΗ ΣΠΟΥΔΩΝ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Υπουργείο Εσωτερικών και Διοικητικής Ανασυγκρότησης ΕΘΝΙΚΗ ΣΧΟΛΗ ΔΗΜΟΣΙΑΣ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΑΥΤΟΔΙΟΙΚΗΣΗΣ Β ΕΙΔΙΚΗ ΦΑΣΗ ΣΠΟΥΔΩΝ Υπεύθυνος Σπουδών & Έρευνας: Δ. Τσιμάρας ΕΚΠΑΙΔΕΥΤΙΚΟ ΥΛΙΚΟ

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΔΟΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΛΙΚΩΝ Εξαγωγή χαρακτηριστικών μαστογραφικών μαζών και σύγκριση

Διαβάστε περισσότερα

3.7 Παραδείγματα Μεθόδου Simplex

3.7 Παραδείγματα Μεθόδου Simplex 3.7 Παραδείγματα Μεθόδου Simplex Παράδειγμα 1ο (Παράδειγμα 1ο - Κεφάλαιο 2ο - σελ. 10): Το πρόβλημα εκφράζεται από το μαθηματικό μοντέλο: max z = 600x T + 250x K + 750x Γ + 450x B 5x T + x K + 9x Γ + 12x

Διαβάστε περισσότερα

HY Λογική Διδάσκων: Δ. Πλεξουσάκης Εαρινό Εξάμηνο. Φροντιστήριο 6

HY Λογική Διδάσκων: Δ. Πλεξουσάκης Εαρινό Εξάμηνο. Φροντιστήριο 6 HY-180 - Λογική Διδάσκων: Δ. Πλεξουσάκης Εαρινό Εξάμηνο 2015-2016 Φροντιστήριο 6 Α) ΘΕΩΡΙΑ Μέθοδος Επίλυσης (Resolution) Στη μέθοδο της επίλυσης αποδεικνύουμε την ικανοποιησιμότητα ενός συνόλου προτάσεων,

Διαβάστε περισσότερα

ΠΕΡΙΛΗΨΗ ΘΕΩΡΙΑΣ ΣΤΗΝ ΕΥΘΥΓΡΑΜΜΗ ΚΙΝΗΣΗ

ΠΕΡΙΛΗΨΗ ΘΕΩΡΙΑΣ ΣΤΗΝ ΕΥΘΥΓΡΑΜΜΗ ΚΙΝΗΣΗ ΠΕΡΙΛΗΨΗ ΘΕΩΡΙΑΣ ΣΤΗΝ ΕΥΘΥΓΡΑΜΜΗ ΚΙΝΗΣΗ Αλγεβρική τιμή διανύσματος Όταν ένα διάνυσμα είναι παράλληλο σε έναν άξονα (δηλαδή μια ευθεία στην οποία έχουμε ορίσει θετική φορά), τότε αλγεβρική τιμή του διανύσματος

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Επανάληψη Expectatio maximizatio for Gaussia mixtures. Αρχικοποιούμε τις άγνωστες παραμέτρους µ k, Σ k και π k 2. Υπολογίσμος των resposibilitiesγ(z k : γ ( z = k π ( x µ ˆ,

Διαβάστε περισσότερα

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης Ειρήνη Καλδέλη ιπλωµατική Εργασία Περίληψη Εισαγωγή Τα τελευταία χρόνια η αλµατώδης ανάπτυξη της πληροφορικής έχει διευρύνει σε σηµαντικό βαθµό

Διαβάστε περισσότερα

ΠΩΣ ΕΠΗΡΕΑΖΕΙ Η ΜΕΡΑ ΤΗΣ ΕΒΔΟΜΑΔΑΣ ΤΙΣ ΑΠΟΔΟΣΕΙΣ ΤΩΝ ΜΕΤΟΧΩΝ ΠΡΙΝ ΚΑΙ ΜΕΤΑ ΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΡΙΣΗ

ΠΩΣ ΕΠΗΡΕΑΖΕΙ Η ΜΕΡΑ ΤΗΣ ΕΒΔΟΜΑΔΑΣ ΤΙΣ ΑΠΟΔΟΣΕΙΣ ΤΩΝ ΜΕΤΟΧΩΝ ΠΡΙΝ ΚΑΙ ΜΕΤΑ ΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΡΙΣΗ Σχολή Διοίκησης και Οικονομίας Κρίστια Κυριάκου ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΜΠΟΡΙΟΥ,ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΝΑΥΤΙΛΙΑΣ Της Κρίστιας Κυριάκου ii Έντυπο έγκρισης Παρουσιάστηκε

Διαβάστε περισσότερα

ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ

ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ Καμπυλόγραμμες Κινήσεις Επιμέλεια: Αγκανάκης Α. Παναγιώτης, Φυσικός http://phyiccore.wordpre.com/ Βασικές Έννοιες Μέχρι στιγμής έχουμε μάθει να μελετάμε απλές κινήσεις,

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 8: Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

2 Composition. Invertible Mappings

2 Composition. Invertible Mappings Arkansas Tech University MATH 4033: Elementary Modern Algebra Dr. Marcel B. Finan Composition. Invertible Mappings In this section we discuss two procedures for creating new mappings from old ones, namely,

Διαβάστε περισσότερα

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Εντοπισμός ενός σήματος STOP σε μια εικόνα. Περιγράψτε τη διαδικασία με την οποία μπορώ να εντοπίσω απλά σε μια εικόνα την ύπαρξη του παρακάτω

Διαβάστε περισσότερα