ΑΝΑΠΤΥΞΗ ΚΑΙ ΕΚΠΑΙ ΕΥΣΗ ΙΕΡΑΡ- ΧΙΚΟΥ ΤΑΞΙΝΟΜΗΤΗ ΚΕΙΜΕΝΩΝ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΑΝΑΠΤΥΞΗ ΚΑΙ ΕΚΠΑΙ ΕΥΣΗ ΙΕΡΑΡ- ΧΙΚΟΥ ΤΑΞΙΝΟΜΗΤΗ ΚΕΙΜΕΝΩΝ"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΠΤΥΞΗ ΚΑΙ ΕΚΠΑΙ ΕΥΣΗ ΙΕΡΑΡ- ΧΙΚΟΥ ΤΑΞΙΝΟΜΗΤΗ ΚΕΙΜΕΝΩΝ ιπλωµατική Εργασία της Αβραµίδη Γεωργίας (ΑΕΜ: 719) Επιβλέπων Καθηγητής: ΒΛΑΧΑΒΑΣ ΙΩΑΝΝΗΣ ΘΕΣΣΑΛΟΝΙΚΗ ΜΑΙΟΣ i-

2

3 Πρόλογος Το θέµα της εργασίας αυτής είναι η ανάπτυξη και εκπαίδευση ιεραρχικού ταξινοµητή κειµένων. Σε αυτή, αναλύεται ο τρόπος δηµιουργίας και επεξεργασίας των δεδοµένων εκπαίδευσης και αξιολόγησης και γίνεται µια προσπάθεια σύγκρισης των δύο ταξινοµητών, του ιεραρχικού και του επίπεδου, οι οποίοι επιλέχθηκαν να χρησιµοποιηθούν. Προκύπτουν έτσι, κάποια αποτελέσµατα και συµπεράσµατα για την ικανότητα και τη χρησιµότητα του κάθε ταξινοµητή. Αρχικά, θα ήθελα να ευχαριστήσω τον κ. Βλαχάβα Ιωάννη για την εµπιστοσύνη που µου έδειξε και µου ανέθεσε αυτή την εργασία και για την υποστήριξη που µου παρείχε, ώστε να καταφέρω να την ολοκληρώσω. Θα ήθελα επίσης, να ευχαριστήσω ιδιαίτερα τον υποψήφιο διδάκτορα του τµήµατός µας κ. Κατάκη Ιωάννη, για την µεγάλη βοήθεια που µου προσέφερε και για την συµπαράστασή του σε όλη τη διάρκεια της εργασίας αυτής, όπως και για την προσφορά ενός δύσκολου κοµµατιού κώδικα σε ένα κρίσιµο για την εργασία σηµείο. Ήταν πάντοτε πολύ πρόθυµος να λύσει κάθε µου απορία και µάλιστα σε σύντοµο χρονικό διάστηµα. Ακόµα, τον ευχαριστώ που προσφέρθηκε να µε βοηθήσει όλο το καλοκαίρι έτσι ώστε να καταφέρω να ολοκληρώσω έγκαιρα την εργασία. Οι οδηγίες που µου έδωσε και η όλη συµµετοχή του στη διαµόρφωση της εργασίας, ήταν πολύ σηµαντική για µένα, γιατί αυτή ήταν η πρώτη εργασία τέτοιου µεγέθους που υλοποιώ. Τέλος, ένα µεγάλο ευχαριστώ στα µέλη του εργαστηρίου Γλωσσών Προγραµµατισµού και Τεχνολογίας Λογισµικού (PLaSE) και ειδικότερα στα µέλη της οµάδας Λογικού Προγραµµατισµού και Ευφυών Συστηµάτων (LPIS) του τµήµατος Πληροφορικής του ΑΠΘ ( για την συνεργασία τους. Αβραµίδη Γεωργία 20/04/2007 -i-

4

5 Περιεχόµενα ΠΡΟΛΟΓΟΣ...I ΠΕΡΙΕΧΟΜΕΝΑ...III 1 ΕΙΣΑΓΩΓΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Ορισµός Μηχανικής Μάθησης Εφαρµογές Μηχανικής Μάθησης Είδη Μηχανικής Μάθησης ΜΑΘΗΣΗ ΜΕ ΕΠΙΒΛΕΨΗ Τεχνικές Μηχανικής Μάθησης µε επίβλεψη ΤΑΞΙΝΟΜΗΣΗ ΚΕΙΜΕΝΩΝ ΟΡΙΣΜΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΚΕΙΜΕΝΩΝ ΜΕΘΟ ΟΙ ΤΑΞΙΝΟΜΗΣΗΣ ΚΕΙΜΕΝΩΝ Απλή και Πολλαπλών-ετικετών Ταξινόµηση Κειµένων Ταξινόµηση εξαρτώµενη από τη κατηγορία ή από το κείµενο Απόλυτη Ταξινόµηση και Ταξινόµηση µε κατάταξη ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΤΑΞΙΝΟΜΗΣΗΣ ΚΕΙΜΕΝΩΝ Αυτόµατη καταχώρηση κειµένων για συστήµατα Ανάκτησης Πληροφορίας Οργάνωση Κειµένων Φιλτράρισµα Κειµένων Αποσαφήνιση λέξης Ιεραρχική Ταξινόµηση Ιστοσελίδων ΤΑΞΙΝΟΜΗΣΗ ΚΕΙΜΕΝΩΝ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ Σύνολα εκπαίδευσης, ελέγχου και επαλήθευσης ΕΙΚΤΟ ΟΤΗΣΗ ΚΕΙΜΕΝΟΥ ΚΑΙ ΜΕΙΩΣΗ ΤΗΣ ΙΑΣΤΑΣΗΣ ΤΟΥ εικτοδότηση κειµένου iii-

6 3.5.2 Μείωση της διάστασης του κειµένου µε επιλογή όρων ΤΑΞΙΝΟΜΗΤΕΣ ΚΕΙΜΕΝΩΝ Πιθανοτικοί Ταξινοµητές Ταξινοµητές ένδρων Απόφασης Ταξινοµητές Κανόνων Απόφασης On-line µέθοδοι Νευρωνικά ίκτυα Ταξινοµητές βασισµένοι σε παραδείγµατα Μηχανές ιανυσµάτων Υποστήριξης Οµάδα Ταξινοµητών Συµπεράσµατα ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ Ο ΑΝΟΙΧΤΟΣ ΙΑ ΙΚΤΥΑΚΟΣ ΚΑΤΑΛΟΓΟΣ DMOZ ΜΕΤΑΤΡΟΠΗ ΑΡΧΕΙΩΝ ΑΠΟ RDF ΣΕ ΒΑΣΗ Ε ΟΜΕΝΩΝ HTML PARSER Η ΠΛΑΤΦΟΡΜΑ WEKA ΚΑΙ ΤΑ ΑΡΧΕΙΑ ARFF ΗΜΙΟΥΡΓΙΑ ΤΩΝ ARFF ΑΡΧΕΙΩΝ ΕΚΠΑΙ ΕΥΣΗ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗ ΟΙ ΚΑΤΗΓΟΡΙΕΣ ΠΟΥ ΕΠΙΛΕΧΘΗΚΑΝ ΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΚΑΙ Η ΙΕΡΑΡΧΙΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΕ ΣΥΜΠΕΡΑΣΜΑΤΑ ΥΣΚΟΛΙΕΣ ΚΑΙ ΠΡΟΒΛΗΜΑΤΑ ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ ΚΩ ΙΚΑΣ JAVA...54 ΒΙΒΛΙΟΓΡΑΦΙΑ iv-

7 1 Εισαγωγή Η εργασία αυτή αναφέρεται στην ανάπτυξη και εκπαίδευση ιεραρχικού ταξινοµητή κειµένων. Σκοπός της είναι, να γίνει αξιολόγηση και σύγκριση του ιεραρχικού ταξινο- µητή (hierarchical classifier) µε τον επίπεδο ταξινοµητή (flat classifier) σε ιεραρχικά δεδοµένα σελίδων του διαδικτύου. Επίσης, γίνεται παρουσίαση της οργάνωσης των δεδοµένων εκπαίδευσης και της εκπαίδευσης των ταξινοµητών µε τα δεδοµένα αυτά. Α- ναλύεται ακόµα, η υλοποίηση µιας συγκριτικής µελέτης µεταξύ των δύο ταξινοµητών που χρησιµοποιήσαµε, ώστε να βγάλουµε τα τελικά µας συµπεράσµατα. Πιο συγκεκριµένα, στο δεύτερο κεφάλαιο αναπτύσσονται κάποιες από τις βασικές έννοιες του ευρύτερου επιστηµονικού πεδίου που ανήκει η εργασία αυτή. Το πεδίο αυτό είναι η Μηχανική Μάθηση (Machine Learning), η οποία αποτελεί βασικό τοµέα του πεδίου της Τεχνητής Νοηµοσύνης. Στην συνέχεια του κεφαλαίου, αναφερόµαστε σε θέµατα πιο κοντά σε αυτό της διπλωµατικής, όπως είναι αυτό της Μάθησης µε επίβλεψη. Αντικείµενο του τρίτου κεφαλαίου είναι η Ταξινόµηση Κειµένων. Η διαδικασία δηλαδή κατά την οποία τοποθετούνται κείµενα, που βρίσκονται σε φυσική γλώσσα, σε µια συγκεκριµένη κατηγορία µέσα από ένα σύνολο κατηγοριών. Παραθέτουµε κάποιες µεθόδους Ταξινόµησης Κειµένων, όπως επίσης και κάποιες εφαρµογές της. Στη συνέχεια, εξετάζουµε την Ταξινόµηση Κειµένων µέσα από την προσέγγιση της Μηχανικής Μάθησης και τέλος αναλύουµε τους διάφορους ταξινοµητές κειµένων που έχουν προταθεί στη βιβλιογραφία. Θέµα του τέταρτου κεφαλαίου είναι η προεπεξεργασία των δεδοµένων που χρησι- µοποιήσαµε. Στο κεφάλαιο αυτό εξηγούνται ακριβώς, τα βήµατα που ακολουθήθηκαν, έτσι ώστε να δηµιουργηθεί η κατάλληλη µορφή δεδοµένων και οι λόγοι για τους οποίους χρειάστηκε να γίνει η προεπεξεργασία αυτή. Στο πέµπτο κεφάλαιο θα προσπαθήσουµε να εξηγήσουµε τον τρόπο µε τον οποίο έγινε η εκπαίδευση του επιλεγµένου ταξινοµητή και στη συνέχεια να εξηγήσουµε τα αποτελέσµατα της αξιολόγησης του. Ξεκινάµε µε την παρουσίαση των κατηγοριών και των υποκατηγοριών που επιλέξαµε να χρησιµοποιήσουµε, των κατηγοριών βάσει των -1-

8 οποίων θα γίνει η ταξινόµηση των κειµένων. Στο σηµείο αυτό, αναλύουµε και τον α- ριθµό των λέξεων από τις οποίες αποτελείται το λεξιλόγιο που χρειαζόµαστε για να υ- λοποιήσουµε την ταξινόµηση. Στη συνέχεια του κεφαλαίου, περιγράφουµε τους δύο ταξινοµητές βάση των οποίων έγιναν οι ταξινοµήσεις, όπως επίσης και την ιεραρχία κατηγοριών που χρησιµοποιήσαµε για αυτές. Στο έκτο και τελευταίο κεφάλαιο καταγράφονται κάποια συµπεράσµατα, τα οποία προέκυψαν µετά την ολοκλήρωση της διπλωµατικής, όπως και προοπτικές για µελλοντική εργασία στον συγκεκριµένο ερευνητικό χώρο. -2-

9 2 Μηχανική Μάθηση και Ταξινόµηση The goal of Machine Learning is to build computer systems that can adapt and learn from their experience. Tom Dietterich [5] 2.1 Μηχανική Μάθηση Τεχνητή Νοηµοσύνη (ΤΝ) είναι ο τοµέας της επιστήµης των υπολογιστών, που ασχολείται µε τη σχεδίαση ευφυών (νοηµόνων) υπολογιστικών συστηµάτων, δηλαδή συστηµάτων που επιδεικνύουν χαρακτηριστικά που σχετίζουµε µε τη νοηµοσύνη στην ανθρώπινη συµπεριφορά, όπως για παράδειγµα η επίλυση προβληµάτων, η αντίληψη µέσω της όρασης, η µάθηση, η εξαγωγή συµπερασµάτων, κτλ.. Ο ορισµός αυτός, που διατυπώθηκε από τους Barr και Feigenbaum, είναι ένας από τους πολλούς που έχουν δοθεί για την ΤΝ και δείχνει τα ασαφή όρια της περιοχής αλλά και την έκτασή της, καθώς ακόµα δεν είναι επακριβώς ορισµένο τι εννοούµε µε τον όρο νοηµοσύνη. Ακόµη, η ΤΝ οριοθετεί τα προβλήµατα που αντιµετωπίζει, περιγράφοντας τρόπους αναπαράστασης της γνώσης για αυτά και παρουσιάζοντας αλγορίθµους αναζήτησης των λύσεων τους. Θα µπορούσαµε, συνεπώς, να περιγράψουµε τη ΤΝ, µε τη παρακάτω εξίσωση.: ΤΝ = Αναπαράσταση Γνώσης + Αναζήτηση. Η µάθηση, όπως και η νοηµοσύνη, καλύπτουν ένα πολύ µεγάλο εύρος διεργασιών, το οποίο είναι δύσκολο να καθοριστεί επακριβώς. Οι ζωολόγοι και οι ψυχολόγοι εξετάζουν τον τρόπο που µαθαίνουν τα ζώα και οι άνθρωποι αντίστοιχα. Η Μηχανική Μάθηση επικεντρώνεται στη µάθηση των µηχανών (συστηµάτων) και αποτελεί έναν από τους τοµείς της ΤΝ. Μάλιστα, πολλές τεχνικές Μηχανικής Μάθησης προέρχονται από τις προσπάθειες των ψυχολόγων να κάνουν πιο ακριβείς τις θεωρίες για την ανθρώπινη µάθηση µέσα από υπολογιστικά µοντέλα. Όσον αφορά τα συστήµατα, µπορούµε να πούµε ότι ένα σύστηµα µε δυνατότητα µάθησης µεταβάλλει συνεχώς τη συµπεριφορά του προς το καλύτερο, ότι και αν αυτό σηµαίνει, συναρτήσει κάθε φορά των λειτουργιών που είναι σε θέση να εκτελέσει. Στην προκείµενη περίπτωση η δυσκολία έγκειται στο να προσδιοριστούν επακριβώς οι αλλα- -3-

10 γές, καθώς και ο τρόπος µε τον οποίο µπορούν αυτές να αναπαρασταθούν. Ένα µη βιολογικό σύστηµα µε δυνατότητα µάθησης δοµεί ή µετασχηµατίζει, σε µια αυστηρά καθορισµένη γλώσσα αναπαράστασης, προτάσεις τις οποίες και αποθηκεύει για µελλοντική χρήση. Αυτό δηλαδή που συµβαίνει πραγµατικά είναι ότι η λειτουργία του συστή- µατος προκαλεί µεταβολές στη βάση γνώσης του. Η µάθηση µε βάση τον τρόπο που αναφέρθηκε παραπάνω, αφορά τα συστήµατα που ανήκουν στην συµβολική προσέγγιση της ΤΝ. Υπάρχουν, όµως, συστήµατα που χρησιµοποιούν διαφορετικούς τρόπους µάθησης. Για παράδειγµα, τα τεχνητά νευρωνικά δίκτυα που ανήκουν στη δεύτερη προσέγγιση της ΤΝ, τη µη συµβολική (ή συνδετική), µαθαίνουν µετασχηµατίζοντας την εσωτερική τους δοµή, παρά καταχωρώντας κατάλληλα αναπαριστάµενη γνώση. Η Μηχανική Μάθηση συνήθως αναφέρεται σε αλλαγές στο σύστηµα, το οποίο ε- κτελεί εργασίες που σχετίζονται µε την ΤΝ. Αυτές οι εργασίες αφορούν τον Σχεδιασµό Ενεργειών (Planning), το Χειρισµό Ροµπότ, την Πρόβλεψη, τη ιάγνωση κ.ο.κ. [1, 2] Ορισµός Μηχανικής Μάθησης Ο άνθρωπος προσπαθεί να κατανοήσει το περιβάλλον του παρατηρώντας το και δηµιουργώντας µια απλοποιηµένη (αφαιρετική) εκδοχή του, που ονοµάζεται µοντέλο (model). Η δηµιουργία ενός τέτοιου µοντέλου, ονοµάζεται επαγωγική µάθηση (inductive learning) ενώ η διαδικασία γενικότερα ονοµάζεται επαγωγή (induction). Επιπλέον, ο άνθρωπος έχει τη δυνατότητα να οργανώνει και να συσχετίζει τις εµπειρίες και τις παραστάσεις του δηµιουργώντας νέες δοµές που ονοµάζονται πρότυπα (patterns). Η δηµιουργία µοντέλων ή προτύπων από ένα υπολογιστικό σύστηµα ονοµάζεται Μηχανική Μάθηση (Machine Learning). [1] Κάποιοι εναλλακτικοί ορισµοί για τη Μηχανική Μάθηση είναι οι παρακάτω : Carbonell (1987), η µελέτη υπολογιστικών µεθόδων για την απόκτηση νέας γνώσης, νέων δεξιοτήτων και νέων τρόπων οργάνωσης της υπάρχουσας γνώσης. Mitchell (1997), Ένα πρόγραµµα υπολογιστή θεωρείται ότι µαθαίνει από την εµπειρία Ε σε σχέση µε µια κατηγορία εργασιών Τ και µια µετρική απόδοση Ρ, αν η απόδοσή του σε εργασίες της Τ, όπως µετριούνται από την Ρ, βελτιώνονται µε την εµπειρία Ε. [3] -4-

11 Witten & Frank (2000), Κάτι µαθαίνει όταν αλλάζει τη συµπεριφορά του κατά τέτοιο τρόπο ώστε να αποδίδει καλύτερα στο µέλλον. [4] Η Μηχανική Μάθηση διαθέτει κάποιους αλγόριθµους οι οποίοι είναι ικανοί να ανακαλύπτουν τη σχέση µεταξύ των µεταβλητών ενός συστήµατος (µεταβλητές εισόδου-εξόδου (input-output) και κρυµµένες (hidden)) από απευθείας δείγµα του συστή- µατος. Αυτοί οι αλγόριθµοι προέρχονται από πολλούς τοµείς, όπως η στατιστική, τα µαθηµατικά, η θεωρητική πληροφορική, η φυσική κ.ο.κ. [5] Εφαρµογές Μηχανικής Μάθησης Η Μηχανική Μάθηση έχει βρει εφαρµογή σε πολλούς τοµείς, κάποιοι από τους οποίους είναι οι εξής: Βιοπληροφορική: στοίχιση ακολουθιών, ανάλυση δεδοµένων από µικροσυστοιχίες. Μηχανική όραση: αναγνώριση αντικειµένων, τµηµατοποίηση εικόνας. Ροµποτική: υπολογισµός κατάστασης, δηµιουργία χάρτη, λήψη απόφασης. Γραφικά: δηµιουργία ρεαλιστικών προσοµοιώσεων. Οµιλία: αναγνώριση, εξακρίβωση οµιλητή. Οικονοµική ανάλυση: πρόβλεψη τιµών µετοχών. Ηλεκτρονικό εµπόριο: πράκτορες για αυτόµατο εµπόριο, διατήρηση πελατών. Φαρµακευτική: διάγνωση, θεραπεία, σχεδίαση φαρµάκων. Ηλεκτρονικά παιχνίδια: σχεδιασµός ικανών αντιπάλων. Πολυµέσα: ανάκτηση µε βάση το περιεχόµενο. Άλλες εφαρµογές στις οποίες έχουν χρησιµοποιηθεί µέθοδοι Μηχανικής Μάθησης είναι: Ο έλεγχος ασθενών που χρίζουν εντατικής παρακολούθησης, η πρόβλεψη αξιοπιστίας πελατών τραπεζικών οργανισµών, η πρόβλεψη της προτίµησης των τηλεθεατών για τα προγράµµατα της τηλεόρασης, η ανακάλυψη των ιδιοτήτων κάποιων χηµικών ουσιών, η αναγνώριση άχρηστων spam µηνυµάτων ηλεκτρονικού ταχυδροµείου ( ) και ο σχεδιασµός ταξινόµησης εγγράφων. [6] Είδη Μηχανικής Μάθησης Η Μηχανική Μάθηση αποτελείται από δύο είδη Μάθησης: 1) Τη Μάθηση µε Επίβλεψη (Supervised Learning) ή Μάθηση µε Παραδείγµατα (Learning from Examples) και 2) -5-

12 Τη Μάθηση χωρίς Επίβλεψη (Unsupervised Learning) ή Μάθηση από Παρατήρηση (Learning from Observation). Στη Μάθηση µε επίβλεψη το σύστηµα καλείται να µάθει µια έννοια ή συνάρτηση από ένα σύνολο δεδοµένων, η οποία αποτελεί περιγραφή ενός µοντέλου. Ονοµάζεται έτσι επειδή θεωρείται ότι υπάρχει κάποιος επιβλέπων ο οποίος παρέχει τη σωστή τιµή εξόδου της συνάρτησης για τα δεδοµένα που εξετάζονται. Οι κυριότερες τεχνικές είναι οι εξής: Μάθηση Εννοιών, ένδρα Απόφασης, Μάθηση Κανόνων, Μάθηση από παραδείγµατα, Μάθηση κατά Bayes, Γενετικοί Αλγόριθµοι, Νευρωνικά και Μηχανές Υποστήριξης ιανυσµάτων SVMs (Support Vector Machines). Από την άλλη, στη Μάθηση χωρίς επίβλεψη το σύστηµα πρέπει µόνο του να ανακαλύψει συσχετίσεις ή οµάδες σε ένα σύνολο δεδοµένων, δηµιουργώντας πρότυπα, χωρίς να είναι γνωστό αν υπάρχουν, ποια και πόσα είναι. Εδώ, οι κυριότερες τεχνικές είναι οι Κανόνες Συσχέτισης και η Οµαδοποίηση. [1, 7] 2.2 Μάθηση µε Επίβλεψη Στη Μάθηση µε επίβλεψη το σύστηµα πρέπει να µάθει επαγωγικά µια συνάρτηση, η οποία ονοµάζεται συνάρτηση στόχος (target function) και αποτελεί έκφραση του µοντέλου που περιγράφει τα δεδοµένα. Η συνάρτηση στόχος χρησιµοποιείται για την πρόβλεψη της τιµής µιας µεταβλητής, που ονοµάζεται εξαρτηµένη µεταβλητή ή µεταβλητή εξόδου, βάσει των τιµών ενός συνόλου µεταβλητών, που ονοµάζονται ανεξάρτητες µεταβλητές ή µεταβλητές εισόδου ή χαρακτηριστικά. Το σύνολο των διαφορετικών δυνατών τιµών εισόδου της συνάρτησης, δηλαδή το πεδίο ορισµού της, ονοµάζεται σύνολο των περιπτώσεων ή στιγµιότυπων (instances) και συµβολίζεται µε Χ. Κάθε περίπτωση (ή στιγµιότυπο) περιγράφεται από ένα σύνολο χαρακτηριστικών (attributes ή features). Ένα υποσύνολο του συνόλου των περιπτώσεων για τα οποία γνωρίζουµε την τιµή της µεταβλητής εξόδου, ονοµάζεται σύνολο δεδοµένων εκπαίδευσης ή παραδείγµατα και συµβολίζεται µε D. Για να προσεγγίσει το σύστηµα όσο το δυνατόν καλύτερα τη συνάρτηση στόχο εξετάζει διάφορες εναλλακτικές συναρτήσεις, οι οποίες ονοµάζονται υποθέσεις και συµβολίζονται µε h. Το σύνολο όλων των δυνατών υποθέσεων που το πρόγραµµα µάθησης πρέπει να εξετάσει προκειµένου να βρει τη συνάρτηση στόχο, ονοµάζεται σύνολο υποθέσεων και συµβολίζεται µε H. Κάθε υπόθεση h є H, αναπαριστά είτε µια λογική συνάρτηση h:x >0,1 ή µια πραγµατική συνάρτηση h:x >R. -6-

13 Η επαγωγική µάθηση στηρίζεται στην υπόθεση επαγωγικής µάθησης (inductive learning hypothesis), σύµφωνα µε την οποία κάθε υπόθεση h που έχει βρεθεί να προσεγγίζει καλά τη συνάρτηση στόχο για ένα αρκετά µεγάλο σύνολο παραδειγµάτων, θα προσεγγίζει το ίδιο καλά τη συνάρτηση στόχο και για τις περιπτώσεις που δεν έχει εξετάσει.[1] Τεχνικές Μηχανικής Μάθησης µε επίβλεψη Στην Μάθηση µε επίβλεψη διακρίνονται δύο είδη προβληµάτων (learning tasks), τα προβλήµατα ταξινόµησης / κατηγοριοποίησης και τα προβλήµατα παρεµβολής. Η ταξινόµηση (classification) αφορά στη δηµιουργία µοντέλων πρόβλεψης διακριτών τάξεων (κλάσεων / κατηγοριών) όπως για παράδειγµα η οµάδα αίµατος, ενώ η παρεµβολή (regression) αφορά στη δηµιουργία µοντέλων πρόβλεψης αριθµητικών τιµών. Όπως ήδη αναφέραµε και παραπάνω οι κυριότερες τεχνικές Μηχανικής Μάθησης µε επίβλεψη είναι: Μάθηση Εννοιών (Concept Learning) ένδρα Ταξινόµησης ή απόφασης (Classification or Decision Trees) Μάθηση Κανόνων (Rule Learning) Μάθηση κατά Περίπτωση (Instance Based Learning) Μάθηση κατά Bayes Γραµµική Παρεµβολή (Linear Regression) Νευρωνικά ίκτυα (Neural Networks) Μηχανές ιανυσµάτων Υποστήριξης (Support Vector Machines, SVMs) Μάθηση Εννοιών Η µάθηση εννοιών είναι τυπικό παράδειγµα επαγωγικής µάθησης κατά την οποία το σύστηµα τροφοδοτείται µε παραδείγµατα που ανήκουν (θετικά παραδείγµατα) ή δεν ανήκουν (αρνητικά παραδείγµατα) σε κάποια έννοια. Καλείται επίσης, να παράγει κάποια γενικευµένη περιγραφή της, δηλαδή να δηµιουργήσει ένα µοντέλο, ώστε να είναι σε θέση στη συνέχεια να αποφασίσει αν µια άγνωστη περίπτωση ανήκει σε αυτή την έννοια. Με άλλα λόγια, η µάθηση εννοιών προσπαθεί να προσεγγίσει µια συνάρτηση που επιστρέφει λογική τιµή, µέσω παρατηρήσεων της εισόδου και της εξόδου της. Ένα παράδειγµα χρήσης αυτής της τεχνικής είναι ο προσδιορισµός της έννοιας καλός πε- -7-

14 λάτης για µια επιχείρηση (εταιρία κινητής τηλεφωνίας). Ο πιο γνωστός αλγόριθµος µάθησης εννοιών είναι ο αλγόριθµος απαλοιφής υποψηφίων. ένδρα Ταξινόµησης (Απόφασης) Ο αλγόριθµος µάθησης ή επαγωγής δένδρων ταξινόµησης / απόφασης είναι από τους πιο δηµοφιλείς αλγόριθµους µάθησης και έχουν εφαρµοστεί µε επιτυχία σε διάφορους τοµείς, όπως διάγνωση ιατρικών περιστατικών, πρόβλεψη συµπεριφοράς καταναλωτή, κτλ. Είναι µια µέθοδος για την προσέγγιση συναρτήσεων στόχου, που έχουν ως έξοδο διακριτές τιµές. Το αποτέλεσµά τους είναι µία δενδροειδής δοµή που µε γραφικό τρόπο περιγράφει τα δεδοµένα και εναλλακτικά, για να βελτιώσει την αναγνωσιµότητά του, µπορεί να αναπαρασταθεί και ως σύνολο κανόνων if-then, που ονοµάζονται κανόνες ταξινόµησης (classification rules). Οι περισσότεροι αλγόριθµοι που έχουν αναπτυχθεί για µάθηση δένδρων ταξινόµησης είναι παραλλαγές ενός βασικού αλγορίθµου. Παραδείγµατα αυτού του αλγορίθµου αποτελούν ο αλγόριθµος ID3 και ο απόγονός του C4.5. Μάθηση Κανόνων Μια από της πιο εκφραστικές και κατανοητές για τον άνθρωπο αναπαραστάσεις για µάθηση υποθέσεων είναι τα σύνολα if-then κανόνων. Η µάθηση κανόνων χωρίζεται σε δύο µεγάλες κατηγορίες: 1) Στους προτασιακούς (propositional rules) και 2) Στους κατηγορηµατικούς κανόνες πρώτης τάξης (first order predicate rules). Οι προτασιακοί κανόνες: δεν περιέχουν µεταβλητές, µπορεί να προκύψουν από άλλες µορφές αναπαράστασης, όπως δένδρα, γενετικοί αλγόριθµοι, αλλά και από απ ευθείας µάθηση µε αλγόριθµους σειριακής κάλυψης. Στους προτασιακούς κανόνες κάθε γεγονός χαρακτηρίζεται είτε ως αληθές (true) είτε ως ψευδές (false). εν περιλαµβάνονται µεταβλητές και έτσι δεν µπορούν να αναπαρασταθούν γενικές σχέσεις ανάµεσα στις τιµές των χαρακτηριστικών. Για παράδειγµα µπορεί να γραφεί ο παρακάτω κανόνας που ισχύει για µία συγκεκριµένη οικογένεια: if Father1=Bob and Name2=Bob and Female1=true then Daughter1_2=true Οι κατηγορηµατικοί κανόνες πρώτης τάξης: περιέχουν µεταβλητές, έχουν µεγάλη εκφραστική ικανότητα, -8-

15 προκύπτουν µε απ ευθείας µάθηση µέσω αλγορίθµων µάθησης κανόνων 1 ης τάξης. Για παράδειγµα, ο επόµενος κανόνας ισχύει για όλες τις οικογένειες: if father(y, X) and female(y) then daughter(x, Y) Μάθηση κατά Περίπτωση Σε αντίθεση µε τις µεθόδους Μηχανικής Μάθησης που αναφέρθηκαν µέχρι στιγµής και οι οποίες κωδικοποιούν τα παραδείγµατα εκπαίδευσης σε µια συµπαγή περιγραφή, στη µάθηση κατά περίπτωση τα δεδοµένα εκπαίδευσης διατηρούνται αυτούσια. Όταν ένα τέτοιο σύστηµα κληθεί να αποφασίσει για την κατηγορία µιας νέας περίπτωσης, εξετάζει εκείνη τη στιγµή τη σχέση της µε τα ήδη αποθηκευµένα παραδείγµατα. ηλαδή η µέθοδος αυτή αναβάλλει τη µάθηση έως ότου εµφανιστεί µια νέα περίπτωση (στιγµιότυπο) και για το λόγο αυτό ονοµάζεται αναβλητική µάθηση (lazy learning) σε αντίθεση µε τις άλλες οι οποίες µπορεί να χαρακτηριστούν ως έγκαιρες µέθοδοι µάθησης (eager learners), αφού µαθαίνουν το µοντέλο από τα αποθηκευµένα παραδείγµατα του συνόλου εκπαίδευσης, χωρίς να περιµένουν την άφιξη της νέας περίπτωσης. Χαρακτηριστικός αλγόριθµος αυτής της κατηγορίας είναι ο αλγόριθµος των k-κοντινότερων γειτόνων (k-nearest Neighbors). Μάθηση κατά Bayes Η συλλογιστική κατά Bayes µπορεί να συνεισφέρει στο πρόβληµα της Μηχανικής Μάθησης γιατί παρέχει µία ποσοτική µεθοδολογία για την αξιολόγηση των διαφόρων ενδείξεων που υποστηρίζουν τις εναλλακτικές υποθέσεις, οι οποίες διερευνώνται κατά τη µάθηση. Αποτελεί τη θεωρητική βάση για αλγορίθµους µάθησης που διαχειρίζονται πιθανότητες αλλά ακόµη και σε περιπτώσεις που η υπολογιστική πολυπλοκότητα της µεθόδου καθιστά απαγορευτική τη χρήση της, µπορεί να χρησιµοποιηθεί ως κριτήριο για τον έλεγχο της απόδοσης άλλων αλγορίθµων που δε διαχειρίζονται πιθανότητες. Στη µάθηση κατά Bayes (Bayesian learning) κάθε παράδειγµα εκπαίδευσης µπορεί σταδιακά να µειώσει ή να αυξήσει την πιθανότητα να είναι σωστή µια υπόθεση. Αυτό δίνει µεγάλη ευελιξία στους σχετικούς αλγόριθµους καθώς δεν απορρίπτουν αµέσως µία υπόθεση όταν προκύπτει ότι δεν είναι σε απόλυτη συµφωνία µε τα παραδείγµατα εκπαίδευσης. Επιπλέον, προϋπάρχουσα γνώση µπορεί να συνδυαστεί µε τα δεδοµένα εκπαίδευσης µε τη µορφή αρχικών τιµών πιθανότητας για τις υπό εξέταση υποθέσεις. Εκτός από το στάδιο της εκπαίδευσης, η µάθηση κατά Bayes δίνει ευελιξία και στο στάδιο της εφαρµογής της γνώσης που προκύπτει. Για παράδειγµα, στα προβλήµατα -9-

16 ταξινόµησης, νέα στοιχεία µπορεί να ταξινοµηθούν µε χρήση της πρόβλεψης πολλαπλών υποθέσεων, κάθε µία από τις οποίες συνεισφέρει ανάλογα µε την πιθανότητά της. Μια πρακτική δυσκολία στην εφαρµογή της µάθησης κατά Bayes είναι η απαίτηση για τη γνώση πολλών τιµών πιθανοτήτων. Όταν αυτές οι τιµές δεν είναι δυνατόν να υ- πολογιστούν επακριβώς, υπολογίζονται κατ εκτίµηση από παλαιότερες υποθέσεις, ε- µπειρική γνώση, κτλ. Η παραπάνω δυσκολία εφαρµογής έχει δώσει µεγάλη πρακτική αξία σε µια απλουστευµένη εκδοχή της µάθησης κατά Bayes, τον απλό / αφελή ταξινο- µητή Bayes (simple / naive Bayes classifier), στον οποίο γίνεται η παραδοχή ότι τα χαρακτηριστικά είναι ανεξάρτητα µεταξύ τους. Παρεµβολή Παρεµβολή ή παλινδρόµηση (regression) είναι η διαδικασία προσδιορισµού της σχέσης µιας µεταβλητής y (εξαρτηµένη µεταβλητή ή έξοδος) µε µία ή περισσότερες άλλες µεταβλητές x 1, x 2,, x n (ανεξάρτητες µεταβλητές ή είσοδοι). Σκοπός της παρεµβολής είναι η πρόβλεψη της τιµής της εξόδου όταν είναι γνωστές οι είσοδοι. Το πιο διαδεδοµένο µοντέλο παρεµβολής είναι το γραµµικό (linear regression). Νευρωνικά ίκτυα Τα τεχνητά νευρωνικά δίκτυα ή απλά νευρωνικά δίκτυα (neural networks) παρέχουν ένα πρακτικό (εύκολο) τρόπο για την εκµάθηση αριθµητικών και διανυσµατικών συναρτήσεων ορισµένων σε συνεχή ή διακριτά µεγέθη. Χρησιµοποιούνται τόσο για παρεµβολή (γραµµική και µη γραµµική) όσο και για ταξινόµηση και έχουν το µεγάλο πλεονέκτηµα της ανοχής που παρουσιάζουν σε δεδοµένα εκπαίδευσης µε θόρυβο, δηλαδή δεδοµένα που περιστασιακά έχουν λανθασµένες τιµές, όπως λάθη καταχώρησης. Από την άλλη όµως αδυνατούν να εξηγήσουν ποιοτικά τη γνώση που µοντελοποιούν. Υπάρχει µια ειδική κατηγορία νευρωνικών δικτύων, τα δίκτυα µε ανατροφοδότηση τα οποία λόγω της ειδικής τοπολογίας τους έχουν τη δυνατότητα αυτό-οργάνωσης χωρίς εξωτερική καθοδήγηση και ανήκουν στην κατηγορία µάθησης χωρίς επίβλεψη. Μηχανές ιανυσµάτων Υποστήριξης Οι µηχανές διανυσµάτων υποστήριξης ή Μ Υ προτάθηκαν από τον Vladimir Vapnik και τους συνεργάτες του το 1992 ως µια νέα µέθοδος µάθησης, παρόλο που η γενικότερη ιδέα στην οποία στηρίζονται είχε προταθεί αρκετά νωρίτερα, από τη δεκαετία του 60. Στηρίζονται στη Θεωρία Στατιστικής Μάθησης (Statistical Learning Theory) και στα νευρωνικά δίκτυα τύπου Perceptron. -10-

17 Τα τελευταία χρόνια, οι Μ Υ έχουν εδραιωθεί ως µία από τις πιο διαδεδοµένες µεθόδους (γραµµικής και µη) παρεµβολής και ταξινόµησης, αποτελώντας συνήθως τη βέλτιστη επιλογή για εφαρµογές όπως η αναγνώριση γραφής (handwriting recognition), η ταξινόµηση κειµένων (text categorization) και η ταξινόµηση δεδοµένων έκφρασης γονιδίων (gene expression data).[1] -11-

18 3 Ταξινόµηση Κειµένων Τα τελευταία 10 χρόνια οι διαδικασίες οργάνωσης κειµένων µε βάση το περιεχόµενο (γνωστές και ως ανάκτηση πληροφορίας) έχουν κερδίσει µια αξιόλογη θέση στο πεδίο των πληροφοριακών συστηµάτων εξαιτίας της αυξηµένης διάθεσης κειµένων σε ψηφιακή µορφή και της ανάγκης που προκύπτει για πρόσβαση σε αυτά µε διάφορους τρόπους. Η Ταξινόµηση Κειµένων (Text Classification) είναι µια διαδικασία η οποία τοποθετεί κείµενα, που βρίσκονται σε φυσική γλώσσα, σε µια συγκεκριµένη κατηγορία µέσα από ένα σύνολο κατηγοριών. Η Ταξινόµηση Κειµένων χρονολογείται ότι ήταν γνωστή ήδη στη δεκαετία του 60, αλλά µόνο κατά τη δεκαετία του 90 αποτέλεσε υποτοµέα των πληροφοριακών συστηµάτων, χάρις την εύκολη εφαρµογή και την ύπαρξη πιο ι- σχυρού υλικού (hardware). Η Ταξινόµηση Κειµένου εφαρµόζεται σήµερα σε πολλά είδη κειµένων, στα οποία η λειτουργία της κυµαίνεται από έλεγχο του περιεχοµένου τους, βασισµένο σε συγκεκριµένο λεξιλόγιο, µέχρι και έλεγχο της σηµασίας της κάθε λέξης. Μέχρι τα τέλη του 80, η δηµοφιλέστερη προσέγγιση της Ταξινόµησης Κειµένων ήταν µια προσέγγιση τεχνολογίας γνώσης (knowledge engineering), η οποία αποτελείται από ένα σύνολο κανόνων που κωδικοποιούν ειδική γνώση για το πως να τοποθετούνται τα κείµενα στις υπάρχουσες κατηγορίες. Κατά τη δεκαετία του 90, προέκυψε ραγδαία µείωση της χρήσης της προσέγγισης αυτής (ειδικά στην ερευνητική κοινότητα), εξαιτίας του µοντέλου της Μηχανικής Μάθησης, σύµφωνα µε το οποίο µια γενική επαγωγική διεργασία δηµιουργεί αυτόµατα έναν ταξινοµητή κειµένου, µαθαίνοντας από ένα σύνολο αρχείων ταξινοµηµένων από πριν, τα χαρακτηριστικά των κατηγοριών που µας ενδιαφέρουν. Η προσέγγιση αυτή παρέχει ακρίβεια συγκρίσιµη µε αυτή ενός ειδικού, ενώ για την παραγωγή του ίδιου έργου χρειάζεται να σπαταληθούν λιγότερες εργατικές ώρες, αφού δε χρειάζεται καµία απολύτως παρέµβαση από ειδικούς γνώσης ή ειδικούς του τοµέα για την κατασκευή του ταξινοµητή ή ακόµα και για τη µετατροπή αυτού έτσι ώστε να ταιριάζει σε διαφορετικό σύνολο κατηγοριών. Σήµερα η Ταξινόµηση Κειµένων βρίσκεται σε ένα σταυροδρόµι ανάµεσα στην Μηχανική Μάθηση και την Ανάκτηση Πληροφορίας και µοιράζεται ένα αριθµό από χαρακτηριστικά µε άλλα επιστηµονικά πεδία, όπως η εξαγωγή πληροφορίας / γνώσης από κείµενα και η εξόρυξη κειµένου [9, 10]. Οι διεργασίες, οι οποίες αναλύουν µεγάλες πο- -12-

19 σότητες κειµένων και ανιχνεύουν καινούριες µεθόδους χρήσης, έτσι ώστε να εξαχθεί πιθανώς χρήσιµη πληροφορία, αποτελούν τµήµα της εξόρυξης κειµένου. Σύµφωνα µε την άποψη αυτή, η Ταξινόµηση Κειµένων είναι µια περίπτωση εξόρυξης κειµένου (Text Mining). [8] 3.1 Ορισµός Ταξινόµησης Κειµένων Η Ταξινόµηση Κειµένων είναι η διαδικασία κατά την οποία αναθέτεται µια Boolean τιµή σε κάθε ζεύγος (d j, c i ) D C, όπου D είναι ένα σύνολο από αρχεία κειµένου και C = c 1,..., c C είναι ένα σύνολο από κατηγορίες, οι οποίες είναι καθορισµένες από πριν. Η τιµή T (True), όταν ανατεθεί στο (d j, c i ), υποδηλώνει ότι το αρχείο d j ανήκει στην κατηγορία c i,, ενώ η τιµή F (False), υποδηλώνει ότι το αρχείο d j δεν ανήκει στην κατηγορία c i. Πιο συγκεκριµένα, αυτό που προσπαθούµε να κάνουµε είναι να προσεγγίσουµε τη συνάρτηση Φ ( : D C T, F (η οποία περιγράφει επακριβώς πως πρέπει να ταξινοµηθούν τα αρχεία), µε τη βοήθεια της συνάρτησης Φ : D C T, F, η ο- ποία ονοµάζεται ταξινοµητής. Τελικός στόχος µας είναι η όσο το δυνατόν καλύτερη προσέγγιση της Φ (. Υποθέτουµε ότι όλες οι κατηγορίες αποτελούν συµβολικές ετικέτες και ότι δεν είναι διαθέσιµη επιπλέον γνώση για αυτές. Ακόµα, ότι δεν είναι διαθέσιµη εξωγενής γνώση, όπως η παροχή πληροφοριών για σκοπούς ταξινόµησης από κάποια εξωτερική πηγή η ταξινόµηση πρέπει να επιτυγχάνεται µε βάση ενδογενή γνώση µόνο, δηλαδή γνώση που έχει προέλθει µόνο από τα κείµενα. Πιο συγκεκριµένα, αυτό σηµαίνει ότι η ύπαρξη µεταγνώσης, όπως ο τύπος του εγγράφου, η ηµεροµηνία έκδοσης και η πηγή έκδοσης, δε θα θεωρείται διαθέσιµη. Η χρήση µόνο ενδογενούς γνώσης, σηµαίνει ότι η ταξινόµηση κειµένων πρέπει να γίνεται αποκλειστικά και µόνο µε βάση τη σηµασιολογία τους. Αν ληφθεί όµως υπόψιν ότι η σηµασιολογία ενός κειµένου είναι καθαρά υποκειµενική αντίληψη, η συµµετοχή ενός κειµένου σε µια κατηγορία δεν µπορεί ποτέ να καθοριστεί επακριβώς. Το γεγονός ότι δύο ειδικοί µπορεί να έχουν διαφορετική άποψη για το αν ένα κείµενο ανήκει ή όχι σε µια συγκεκριµένη κατηγορία, είναι ένα φαινόµενο που συµβαίνει πάρα πολύ συχνά. -13-

20 3.2 Μέθοδοι Ταξινόµησης Κειµένων Υπάρχουν έξη διαφορετικές µέθοδοι Ταξινόµησης Κειµένων. Ο διαχωρισµός των µεθόδων αυτών γίνεται σύµφωνα µε κάποιους περιορισµούς που ισχύουν κάθε φορά. Παρακάτω εξηγούνται αναλυτικά οι έξη µέθοδοι Απλή και Πολλαπλών-ετικετών Ταξινόµηση Κειµένων Η περίπτωση στην οποία ακριβώς µια κατηγορία πρέπει να ανατεθεί σε κάθε d j D συχνά ονοµάζεται απλή (single-label) περίπτωση, ενώ η περίπτωση στην οποία µπορεί C να ανατεθεί στο ίδιο d j D οποιοσδήποτε αριθµός κατηγοριών από το 0 έως το ονοµάζεται πολλαπλών-ετικετών (multilabel) περίπτωση. Μια ειδική περίπτωση singlelabel Ταξινόµησης Κειµένων είναι η δυαδική, στην οποία κάθε d j D πρέπει να ανατεθεί είτε στην κατηγορία c i είτε στο συµπλήρωµα αυτής c i Ταξινόµηση εξαρτώµενη από τη κατηγορία ή από το κείµενο Υπάρχουν δύο διαφορετικοί τρόποι χρήσης ενός ταξινοµητή κειµένου. Ο ένας τρόπος είναι να δίνονται τα d j D και να ζητείται να βρεθούν όλες οι c i C στις οποίες ταιριάζουν τα κείµενα αυτά (ταξινόµηση εξαρτώµενη από το κείµενο - Document-Pivoted Text Classification). Ο δεύτερος τρόπος είναι να δίνονται οι c i C και να ζητείται να βρεθούν όλα τα d j D τα οποία ταιριάζουν στις κατηγορίες αυτές (ταξινόµηση εξαρτώµενη από τη κατηγορία - Category-Pivoted Text Classification). Η ταξινόµηση εξαρτώµενη από το κείµενο είναι πιο συχνή από τη ταξινόµηση εξαρτώµενη από τη κατηγορία, γιατί πιο πιθανό είναι να χρειαστεί να προσθέσουµε κείµενα παρά κατηγορίες σε ένα ήδη υπάρχον σύνολο Απόλυτη Ταξινόµηση και Ταξινόµηση µε κατάταξη Μια πλήρης αυτοµατοποίηση της διαδικασίας της Κατηγοριοποίησης Κειµένων απαιτεί µια T ή F απόφαση για κάθε ζεύγος (d j, c i ), ενώ µια µερικώς αυτοµατοποίηση αυτής της διαδικασίας µπορεί να έχει διαφορετικές απαιτήσεις. Για παράδειγµα, αν δοθούν τα C d j D, ένα σύστηµα µπορεί απλά να ταξινοµήσει τις κατηγορίες του C = c 1,, c σύµφωνα µε την εκτιµώµενη καταλληλότητα των d j, για κάθε κατηγορία, χωρίς να παρθεί κάποια απόλυτη ( Hard ) απόφαση για κάποιο από αυτά. Μια τέτοια ταξινοµηµένη λίστα µπορεί να προσφέρει µεγάλη βοήθεια σε έναν ειδικό, ώστε να πάρει τη τελική απόφαση για την κατηγοριοποίηση, αφού µπορεί να περιορίσει την επιλογή των κατη- -14-

21 γοριών µόνο σε αυτές που βρίσκονται στη κορυφή της λίστας, χωρίς να χρειάζεται να εξετάσει ολόκληρο το σύνολο τους. [11]. 3.3 Εφαρµογές της Ταξινόµησης Κειµένων Η Ταξινόµηση Κειµένων έχει χρησιµοποιηθεί για πολλές διαφορετικές εφαρµογές, µερικές από τις σηµαντικότερες αναλύονται παρακάτω. Πρέπει όµως να επισηµάνουµε ότι τα όρια µεταξύ των διαφόρων κατηγοριών είναι ασαφή και εικονικά, για αυτό το λόγο κάποιες κατηγορίες µπορούν να θεωρηθούν ειδικές περιπτώσεις κάποιων άλλων Αυτόµατη καταχώρηση κειµένων για συστήµατα Ανάκτησης Πληροφορίας Η εφαρµογή, η οποία είχε αναπτυχθεί περισσότερο στην αρχή, στον τοµέα αυτό [12, 13, 14, 15, 16] ήταν αυτή της αυτόµατης καταχώρησης κειµένων για συστήµατα Ανάκτησης Πληροφορίας, τα οποία βασίζονται σε ένα ελεγχόµενο λεξικό. Ένα πολύ γνωστό παράδειγµα αυτού είναι τα δυαδικά (Boolean) συστήµατα, στα οποία σε κάθε κείµενο ανατίθεται µια ή περισσότερες λέξεις κλειδιά ή φράσεις κλειδιά, οι οποίες περιγράφουν το περιεχόµενό του. Αυτές οι λέξεις και φράσεις ανήκουν σε ένα πεπερασµένο σύνολο, το οποίο ονοµάζεται ελεγχόµενο λεξικό (controlled dictionary). Συνήθως, οι αναθέσεις αυτές γίνονται από εκπαιδευµένους ειδικούς στις καταχωρήσεις, για αυτό το λόγο είναι µια πολύ ακριβή δραστηριότητα. Αν οι καταχωρήσεις στο ελεγχόµενο λεξιλόγιο θεωρηθούν ως κατηγορίες, τότε η καταχώρηση κειµένου είναι µια περίπτωση Ταξινόµησης Κειµένων και µπορεί για αυτό το λόγο να προσδιοριστεί από τις αυτόµατες τεχνικές που περιγράφονται εδώ Οργάνωση Κειµένων Η καταχώρηση σύµφωνα µε ένα ελεγχόµενο λεξιλόγιο, είναι µια περίπτωση του γενικότερου προβλήµατος της οργάνωσης µε βάση το κείµενο. Μερικές πιθανές εφαρµογές είναι η οργάνωση των ασθενών σε κατηγορίες, ώστε να µπορεί να γίνεται η έρευνα ευκολότερα, [17] και η αυτόµατη τοποθέτηση των άρθρων µιας εφηµερίδας στο κατάλληλο τµήµα Φιλτράρισµα Κειµένων Το φιλτράρισµα κειµένου είναι µια δραστηριότητα κατά την οποία γίνεται ταξινόµηση εισερχόµενων κειµένων, τα οποία στέλνονται µε ασύγχρονο τρόπο από έναν παραγωγό -15-

22 πληροφορίας σε έναν χρήστη πληροφορίας [18]. Το σύστηµα φιλτραρίσµατος είναι υ- πεύθυνο να µπλοκάρει την παράδοση κειµένων, για τα οποία ο χρήστης είναι πιθανόν να µην ενδιαφέρεται. Επιπρόσθετα, ένα σύστηµα φιλτραρίσµατος µπορεί επίσης να ταξινοµήσει παραπέρα τα κείµενα που θεωρεί ότι ενδιαφέρουν τον χρήστη, σε θεµατικές κατηγορίες. Ένα προφίλ µπορεί αρχικά να προσδιοριστεί από το χρήστη, έτσι ώστε να µοιάζει µε ένα σταθερό και µόνιµο ερώτηµα Ανάκτησης Πληροφορίας και να ανανεώνεται από το σύστηµα χρησιµοποιώντας πληροφορία, η οποία δόθηκε ως απάντηση (είτε αόριστα είτε συγκεκριµένα), από τον χρήστη σχετικά µε τη συνάφεια ή όχι του παραδιδόµενου µηνύµατος. Η διαδικασία αυτή ονοµάζεται προσαρµοστικό φιλτράρισµα (adaptive filtering), ενώ η περίπτωση στην οποία δεν είναι διαθέσιµο ένα προφίλ, προσανατολισµένο στο χρήστη, ονοµάζεται είτε δροµολόγηση (routing) είτε οµαδικό φιλτράρισµα (batch filtering), το όνοµα εξαρτάται από το αν τα κείµενα πρέπει να ταξινοµούνται κατά φθίνουσα σειρά ή απλώς να δηλώνονται ως δεκτά ή απορριπτέα. Ως εκ τούτου, το batch filtering συµπίπτει µε τη Single-label Ταξινόµηση Κειµένων όταν έχουµε δύο κατηγορίες Αποσαφήνιση λέξης Η αποσαφήνιση µιας λέξης είναι η διαδικασία εύρεσης της πραγµατικής σηµασίας της λέξης στο κείµενο που αυτή βρίσκεται, συµπεριλαµβανοµένης της επεξεργασίας φυσικής γλώσσας και της δεικτοδότησης κειµένων σύµφωνα µε την σηµασία των λέξεων και όχι σύµφωνα µε τις λέξεις για σκοπούς Ανάκτησης Πληροφορίας. Η αποσαφήνιση λέξεων µπορεί να θεωρηθεί ως περίπτωση Ταξινόµησης Κειµένων, εάν υποτεθεί ότι τα συµφραζόµενα των λέξεων αποτελούν τα κείµενα και η σηµασία των λέξεων τις κατηγορίες. Είναι προφανές, ότι είναι µια περίπτωση Single-label Ταξινόµησης Κειµένων και ότι πρέπει να χρησιµοποιηθεί ταξινόµηση βασισµένη στο κείµενο (Document- Pivoted Text Classification) Ιεραρχική Ταξινόµηση Ιστοσελίδων Η Ταξινόµηση Κειµένων έχει πρόσφατα προκαλέσει µεγάλο ενδιαφέρον για την πιθανή εφαρµογή της στην αυτόµατη Ταξινόµηση Ιστοσελίδων σύµφωνα µε τους ιεραρχικούς καταλόγους, οι οποίοι φιλοξενούνται από δηµοφιλείς διαδικτυακές πύλες. Όταν κείµενα που βρίσκονται στο διαδίκτυο καταχωρούνται σε κατάλογο µε αυτόν τον τρόπο, τότε ένας ερευνητής µπορεί να βρει πιο εύκολο το να πλοηγηθεί στην ιεραρχία των -16-

23 κατηγοριών και µετά να περιορίσει την έρευνα του στην ενδιαφερόµενη κατηγορία, παρά να κάνει µια ερώτηση σε µια µηχανή αναζήτησης γενικού περιεχοµένου. Η αυτόµατη Ταξινόµηση Ιστοσελίδων έχει προφανή πλεονεκτήµατα, αφού η χειροκίνητη ταξινόµηση ενός αρκετά µεγάλου υποσυνόλου του διαδικτύου είναι αδύνατη. Αντίθετα µε τις προηγούµενες εφαρµογές, αυτή είναι η κλασσική περίπτωση, όπου κάθε κατηγορία πρέπει να αποτελείται από ένα σύνολο από k 1 x k 2 κείµενα. Η ταξινό- µηση µε βάση την κατηγορία πρέπει να επιλεγεί, έτσι ώστε να επιτρέπει σε νέες κατηγορίες να προστίθενται και να αχρηστεύει αυτές που διαγράφονται. Η αυτόµατη Ταξινόµηση Ιστοσελίδων έχει δύο ουσιαστικές ιδιοµορφίες: 1. Την υπερκειµενική φύση των κειµένων: Οι σύνδεσµοι των ιστοσελίδων είναι µια πλούσια πηγή πληροφορίας, καθώς µπορεί κανείς να πει ότι διασαφηνίζουν τη σχέση της σελίδας στην οποία ανήκει ο σύνδεσµος µε τη σελίδα στην οποία βρίσκεται ο σύνδεσµος. 2. Την ιεραρχική δοµή των κατηγοριών: Αυτή µπορεί να χρησιµοποιηθεί, για παράδειγµα, για να διασπαστεί το πρόβληµα της ταξινόµησης σε έναν αριθµό από µικρότερα προβλήµατα ταξινόµησης, καθένα από τα οποία θα ανταποκρίνεται σε ένα κλαδί απόφασης ενός εσωτερικού κόµβου. 3.4 Ταξινόµηση Κειµένων µε χρήση τεχνικών Μηχανικής Μάθησης Τη δεκαετία του 80, η πιο δηµοφιλής προσέγγιση (τουλάχιστον στο επιχειρησιακό περιβάλλον) για τη δηµιουργία ενός αυτόµατου ταξινοµητή κειµένου έγκειται στο χειροκίνητο κτίσιµο, µέσω των τεχνικών της Μηχανικής Γνώσης, ενός έµπειρου συστήµατος ικανού να παίρνει αποφάσεις Ταξινόµησης Κειµένων. Ένα τέτοιο έµπειρο σύστηµα, τυπικά, αποτελείται από λογικούς κανόνες, οι οποίοι έχουν ορισθεί χειροκίνητα, ένας για κάθε κατηγορία, έχοντας ως τύπο: if (DNF formula) then (category), δηλαδή αν (DNF τύπος) τότε (κατηγορία). Ένας DNF (φυσικής διαζευκτικής µορφής) τύπος, είναι µια διάζευξη συνδετικών προτάσεων το κείµενο ταξινοµείται υπό κάποια κατηγορία (category) εάν ικανοποιεί τον τύπο, δηλαδή εάν ικανοποιεί τουλάχιστον µια από τις προτάσεις. Ένα µειονέκτηµα αυτής της προσέγγισης είναι η δυσκολία απόκτησης γνώσης, κάτι που έγινε γνωστό µέσα από επιστηµονικά κείµενα που αφορούσαν τα έµπειρα συστή- µατα. Η δυσκολία αυτή έγκειται στο γεγονός ότι οι κανόνες πρέπει να καθορίζονται -17-

24 χειροκίνητα από έναν µηχανικό γνώσης µε τη βοήθεια ενός έµπειρου ατόµου στο χώρο αυτό. Από την άλλη πλευρά, είχε αρχικά υπονοηθεί ότι η προσέγγιση αυτή θα έδινε πολύ καλά και ουσιαστικά αποτελέσµατα, κάτι όµως το οποίο δε συνέβει στην πράξη. Στις αρχές του 90, η Ταξινόµηση Κειµένων µέσα από την προσέγγιση της Μηχανικής Μάθησης είχε γίνει γνωστή και τελικά κυρίαρχη, τουλάχιστον στην ερευνητική κοινότητα. Σε αυτή την προσέγγιση, µια γενική επαγωγική διαδικασία δηµιουργεί αυτόµατα έναν ταξινοµητή για µια κατηγορία c i, παρατηρώντας τα χαρακτηριστικά ενός συνόλου κειµένων, τα οποία έχουν ταξινοµηθεί χειροκίνητα από έναν ειδικό στο χώρο αυτό. Από αυτά τα χαρακτηριστικά, η επαγωγική διαδικασία επιλέγει εκείνα, τα οποία πρέπει να έχει ένα καινούριο κείµενο έτσι ώστε να µπορέσει να ταξινοµηθεί στην κατηγορία c i. Στην ορολογία της Μηχανικής Μάθησης, το πρόβληµα της ταξινόµησης ανήκει στον κλάδο της Μάθησης µε Επίβλεψη, αφού η διαδικασία µάθησης επιβλέπεται από τη γνώση για τις κατηγορίες και από τις εκπαιδευόµενες περιπτώσεις που ανήκουν σε αυτές τις κατηγορίες. Το πλεονέκτηµα που έχει η προσέγγιση της Μηχανικής Μάθησης έναντι στην προσέγγιση της Μηχανικής Γνώσης είναι απολύτως εµφανές. Το µηχανικό έργο δεν κατευθύνεται προς την κατασκευή ενός ταξινοµητή, αλλά προς έναν αυτόµατο δηµιουργό ταξινοµητών. Οι ταξινοµητές, οι οποίοι έχουν δηµιουργηθεί µέσω τεχνικών Μηχανικής Μάθησης, φτάνουν σήµερα σε εντυπωσιακά επίπεδα αποδοτικότητας, κάνοντας την αυτόµατη ταξινόµηση µια ποιοτικά (και όχι µόνο οικονοµικά) εφαρµόσιµη εναλλακτική λύση της χειροκίνητης ταξινόµησης Σύνολα εκπαίδευσης, ελέγχου και επαλήθευσης Η Μηχανική Μάθηση µε επίβλεψη στηρίζεται στην διαθεσιµότητα ενός αρχικού συνόλου Ω = d 1,, d Ω D από κείµενα, τα οποία είναι ταξινοµηµένα από πριν σύµφωνα µε C = c 1,, c C. Σε ερευνητικό επίπεδο, µόλις ένας ταξινοµητής Φ δηµιουργηθεί, είναι επιθυµητό να γίνει αξιολόγηση της αποδοτικότητάς του. Σε αυτήν την περίπτωση, πριν την κατασκευή του ταξινοµητή ο αρχικός κανόνας χωρίζεται σε δυο σύνολα, τα οποία δε χρειάζεται υποχρεωτικά να έχουν ίδιο µέγεθος: Σε ένα σύνολο εκπαίδευσης και επαλήθευσης (a training-and-validation set). TV TV = d 1,, d Σε ένα σύνολο ελέγχου (a test set) Te = d + TV 1,, d Ω, το οποίο χρησιµοποιείται για να ελέγχει την αποδοτικότητα των κατηγοριοποιητών. Κάθε d j Te τροφοδοτείται στον κατηγοριοποιητή και έπειτα οι αποφάσεις -18-

25 d j Te τροφοδοτείται στον κατηγοριοποιητή και έπειτα οι αποφάσεις του κατηγοριοποιητή Φ(d j, c i ) συγκρίνονται µε αυτές του ειδικού Φ ( (d j, c i ). Ένας τρόπος µέτρησης της αποδοτικότητας της κατηγοριοποίησης βασίζεται στο πόσο συχνά οι τιµές της Φ(d j, c i ) συµπίπτουν µε τις τιµές της Φ ( (d j, c i ). Τα κείµενα του συνόλου Te δεν µπορούν µε κανέναν τρόπο να συµµετάσχουν στην επαγωγική κατασκευή των ταξινοµητών. Αν αυτή η προϋπόθεση δεν ικανοποιηθεί, τα πειραµατικά αποτελέσµατα που θα παρθούν είναι πολύ πιθανόν να είναι παραπλανητικά καλά και η αξιολόγηση, για αυτό το λόγο, δεν θα έχει αντικειµενικό χαρακτήρα [19]. Θα µπορούσαµε να χρησιµοποιήσουµε όλα τα δεδοµένα που έχου- µε διαθέσιµα, ώστε να αυξηθεί η αποδοτικότητα. Σε αυτή την περίπτωση τα αποτελέσµατα της προηγούµενης αξιολόγησης θα αποτελούν µόνο µια απαισιόδοξη εκτί- µηση της πραγµατικότητας, αφού ο τελευταίος ταξινοµητής θα έχει εκπαιδευτεί σε περισσότερα δεδοµένα από αυτά που θα αξιολογηθεί. Η παραπάνω προσέγγιση ονοµάζεται εκπαίδευση και έλεγχος. Μια εναλλακτική προσέγγιση είναι η διασταύρωση k-συνόλων, στην οποία k διαφορετικοί ταξινοµητές Φ 1,, Φ k δηµιουργούνται ύστερα από τον τεµαχισµό του αρχικού συνόλου δεδοµένων σε k διαχωρισµένα σύνολα Te 1,, Te k και στη συνέχεια εφαρ- µόζουν επαναληπτικά την παραπάνω προσέγγιση σε ζεύγη (TV i = Ω Te i, Te i ). Το σχήµα της τελικής αποδοτικότητας προκύπτει από τον ξεχωριστό υπολογισµό της αποδοτικότητας των Φ 1,, Φ k και τον υπολογισµό στη συνέχεια µε κάποιον τρόπο του µέσου όρου των αποτελεσµάτων. Για να έχουµε τη βέλτιστη περίπτωση και στις δύο προσεγγίσεις πρέπει να χωρίσουµε το σύνολο d 1,, d TV, σε δύο άλλα σύνολα: (i) στο σύνολο εκπαίδευσης (training set) Tr = d 1,, d Tr, από το οποίο έχει δηµιουργηθεί ο, 1, + Tr ταξινοµητής και (ii) στο σύνολο επαλήθευσης (validation set) Va = d d TV (το οποίο µερικές φορές λέγεται και προσφερόµενο σύνολο), πάνω στο οποίο έχουν πραγµατοποιηθεί οι επαναλαµβανόµενοι έλεγχοι του ταξινοµητή, οι οποίοι έχουν σαν στόχο την βελτιστοποίηση των παραµέτρων. Το σύνολο ελέγχου και το σύνολο επαλήθευσης πρέπει οπωσδήποτε να χρησιµοποιούνται χωριστά. -19-

26 3.5 εικτοδότηση κειµένου και µείωση της διάστασής του εικτοδότηση κειµένου Τα κείµενα δεν µπορούν να επεξεργαστούν απευθείας από ένα ταξινοµητή ή από έναν αλγόριθµο δηµιουργίας ταξινοµητή. Εξαιτίας αυτού, µια διαδικασία αναπαράστασης, η οποία αντιστοιχίζει ένα κείµενο d j µε µια συµπαγή απεικόνιση των περιεχοµένων του, χρειάζεται να εφαρµοστεί σε αυτά, τα οποία ανήκουν είτε στο σύνολο ελέγχου είτε στο σύνολο εκπαίδευσης είτε στο σύνολο επαλήθευσης. Το πώς θα απεικονιστεί ένα κείµενο εξαρτάται από το πως κάποιος αντιλαµβάνεται τη σηµασία των βασικών στοιχείων του και από το πως τους σηµαντικούς κανόνες της φυσικής γλώσσας για τον συνδυασµό αυτών των στοιχείων (το πρόβληµα της συνθετικής σηµασιολογίας). Ένα κείµενο d j συνήθως εµφανίζεται ως ένα διάνυσµα όρων µε βάρη d r j = (w 1j,, w j T ), όπου T είναι το σύνολο των όρων (µερικές φορές λέγονται χαρακτηριστικά) που εµφανίζονται τουλάχιστον µια φορά σε τουλάχιστον ένα κείµενο του συνόλου εκπαίδευσης και 0 w kj 1 απεικονίζει το κατά πόσο ο όρος t k συνεισφέρει στη σηµασιολογία του κειµένου d j. Η ύπαρξη διαφορετικών προσεγγίσεων, οφείλεται στους παρακάτω παράγοντες: 1. υπάρχουν διάφοροι τρόποι µε τους οποίους µπορεί κανείς να ορίσει τι είναι όρος, 2. υπάρχουν διάφοροι τρόποι να υπολογίσεις τα βάρη των όρων. Ένας συνήθης τρόπος για το (1) είναι να ταυτίσεις τους όρους µε τις λέξεις. Αυτή η προσέγγιση συνήθως ονοµάζεται σύνολο των λέξεων (set of words αν τα βάρη είναι δυαδικά ή bag of words αν δεν είναι). Πολλές φορές χρησιµοποιούνται ολόκληρες φράσεις αντί για µεµονωµένες λέξεις σαν όροι [20, 21, 22]. Αυτό όµως δηµιουργεί κάποια προβλήµατα. εν γνωρίζουµε αν οι φράσεις έχουν δηµιουργηθεί σύµφωνα µε τη γραµµατική της γλώσσας ή αν η σύνθεση τους αποτελείται από ένα σύνολο / ακολουθία λέξεων, της οποίας το µοντέλο της συνεχούς εµφάνισης στη συλλογή είναι στατιστικά σηµαντικό. Ένας συνδυασµός των δύο αυτών προσεγγίσεων είναι πιθανότατα ο καλύτερος τρόπος [22], πετυχαίνοντας σηµαντικές βελτιώσεις. Αυτό µπορεί να συµβεί χρησιµοποιώντας φράσεις ουσιαστικών, οι οποίες δηµιουργήθηκαν µέσα από τον συνδυασµό συντακτικών και στατιστικών κριτηρίων. -20-

27 Όσον αφορά τώρα το (2), τα βάρη συνήθως κυµαίνονται µεταξύ του 0 και του 1. Σαν ειδική περίπτωση µπορεί να χρησιµοποιηθούν δυαδικά βάρη, όπου το 1 υποδηλώνει την παρουσία του όρου στο κείµενο, ενώ το 0 την απουσία. Εάν θα χρησιµοποιηθούν δυαδικά ή όχι βάρη, εξαρτάται από τον αλγόριθµο εκπαίδευσης ταξινοµητή που θα χρησιµοποιηθεί. Σε περίπτωση µη δυαδικού περιεχοµένου, για να ορισθεί το βάρος w kj του όρου t k στο κείµενο d j, µπορεί να χρησιµοποιηθεί οποιαδήποτε τεχνική δεικτοδότησης, η οποία ανήκει στον τοµέα της Ανάκτησης Πληροφορίας και η οποία απεικονίζει ένα κείµενο ως το διάνυσµα των βαρών. Τις περισσότερες φορές, η µετρική tfidf είναι αυτή που χρησιµοποιείται και η οποία ορίζεται ως εξής: tfidf (t k, d j ) = #(t k, d j ) log Tr # ( ) Tr t k (1) Όπου #(t k, d j ) υποδηλώνει το πόσες φορές ο όρος t k εµφανίζεται στο κείµενο d j και # Tr (t k ) τον αριθµό των κειµένων στο σύνολο Tr, στα οποία εµφανίζεται ο όρος t k. Αυτή η συνάρτηση εκφράζει ότι (i) όσο πιο συχνά εµφανίζεται ένας όρος σε ένα κείµενο, τόσο πιο αντιπροσωπευτικός είναι αυτός για το περιεχόµενο του κειµένου και (ii) σε όσο περισσότερα κείµενα εµφανίζεται ένας όρος τόσο λιγότερο βοηθάει αυτός ο όρος στην ταξινόµησή τους. Πρέπει να τονίσουµε ότι αυτή η συνάρτηση, δίνει βάρος στο πόσο σηµαντικός είναι ένας όρος σε ένα κείµενο, από πλευράς εµφάνισης και µόνο. Για αυτόν ακριβώς το λόγο είναι µηδενικής σηµασίας η σειρά µε την οποία εµφανίζονται οι όροι, όπως επίσης και ο συντακτικός ρόλος που παίζουν. Τα αποτελέσµατα από τη συνάρτηση tfidf, πολύ συχνά, κανονικοποιούνται µε βάση το συνηµίτονο σύµφωνα µε τη παρακάτω εξίσωση, έτσι ώστε τα βάρη να κυµαίνονται στο διάστηµα [0,1] και τα κείµενα να αναπαριστάνονται από διανύσµατα ίσου µήκους. w kj = T s = 1 tfidf ( t k, d ( tfidf ( t s j ), d j )) 2 (2) Παρόλο που η κανονικοποιηµένη συνάρτηση tfidf είναι η πιο διαδεδοµένη, έχουν χρησιµοποιηθεί και άλλες µέθοδοι συµπεριλαµβανοµένων του πιθανοτικού µοντέλου [23] ή µεθόδων για ταξινόµηση δοµηµένων κειµένων [24]. Οι διαφορετικές µέθοδοι χρειάζονται κυρίως όταν το σύνολο Tr δεν είναι όλο διαθέσιµο από την αρχή και έτσι δεν µπορεί να υπολογιστεί το # Tr (t k ). Πριν γίνει η διαδικασία αυτή, εκτελείται πάντα η αφαίρεση των λειτουργικών λέξεων, δηλαδή των ουδέτερων λέξεων όπως άρθρα, προθέσεις κ.α. Όσον αφορά τη διαδι- -21-

28 κασία του stemming (ληµµατοποίηση), διαδικασία κατά την οποία γίνεται οµαδοποίηση των λέξεων σύµφωνα µε τη µορφολογική ρίζα τους, η καταλληλότητα της για την Ταξινόµηση Κειµένων είναι αµφισβητήσιµη Μείωση της διάστασης του κειµένου µε επιλογή όρων Κάποιες µέθοδοι επιλογής όρων (γνωστές και ως µέθοδοι µείωσης του αριθµού των όρων) προσπαθούν να επιλέξουν από ολόκληρο το σύνολο T σύµφωνα µε ένα προκαθορισµένο ακέραιο r, το σύνολο T των όρων (µε T << T ), οι οποίοι όταν χρησιµοποιούνται για δεικτοδότηση κειµένου, αποφέρουν υψηλότερη αποδοτικότητα. Κάποιοι ειδικοί έδειξαν ότι η µείωση του αριθµού των όρων µπορεί να έχει ως αποτέλεσµα µια µέτρια αύξηση της αποδοτικότητας, κάτι το οποίο εξαρτάται από τον ταξινοµητή, καθώς επίσης από το βαθµό µείωσης T / T και των µεθόδων µείωσης του αριθµού των όρων που χρησιµοποιούνται. Ξεκινώντας από ένα αρχικό σύνολο όρων, ένα νέο σύνολο δηµιουργείται προσθέτοντας ή αφαιρώντας έναν όρο. Αφού δηµιουργηθεί ένα νέο σύνολο όρων, κατασκευάζεται ένας ταξινοµητής µε βάση αυτό και στη συνέχεια δοκιµάζεται πάνω σε ένα σύνολο επαλήθευσης. Το σύνολο όρων, το οποίο έχει ως αποτέλεσµα τη µεγαλύτερη αποδοτικότητα, είναι αυτό που επιλέγεται. Αυτή η προσέγγιση έχει το πλεονέκτηµα ότι µπορεί να ρυθµιστεί, σύµφωνα µε τον αλγόριθµο µάθησης που χρησιµοποιείται κάθε φορά. Επιπλέον, µπορεί να επιλεγεί διαφορετικός αριθµός όρων για διαφορετικές κατηγορίες, ανάλογα µε το αν µια κατηγορία µπορεί ή δεν µπορεί εύκολα να διαχωριστεί από τις υπόλοιπες. Μια υπολογιστικά ευκολότερη εναλλακτική µέθοδος είναι η προσέγγιση φιλτραρίσµατος. Η µέθοδος αυτή κρατάει τους T << T όρους, οι οποίοι πήραν τη µεγαλύτερη βαθµολογία σύµφωνα µε µια συνάρτηση που µετράει το πόσο σηµαντικός είναι ο όρος για το έργο της Ταξινόµησης Κειµένων. Συχνότητα Κειµένων Μια απλή και αποδοτική µέθοδος µείωσης του αριθµού των όρων είναι η συχνότητα κειµένων # Tr (t k ) ενός όρου t k, αυτό σηµαίνει ότι κρατούνται, µόνο οι όροι που βρίσκονται στο µεγαλύτερο αριθµό κειµένων. Οι όροι, οι οποίοι βρίσκονται πιο συχνά στη συλλογή, είναι οι πιο σηµαντικοί για την Ταξινόµηση Κειµένων. Αυτό όµως φαίνεται να έρχεται σε αντίθεση µε έναν πολύ γνωστό νόµο της Ανάκτησης Πληροφορίας, σύµφωνα µε τον οποίο οι όροι µε χαµηλή προς µέτρια συχνότητα κειµένων είναι οι πιο α- ντιπροσωπευτικοί [25]. Στην πραγµατικότητα όµως αυτοί οι δύο νόµοι δεν έρχονται σε -22-

29 αντίθεση µεταξύ τους, γιατί είναι κοινώς γνωστό ότι η πλειοψηφία των λέξεων που συµµετέχουν σε έναν κανόνα, είναι αυτές που έχουν πολύ µικρή συχνότητα κειµένων. Άλλες µέθοδοι επιλογής όρων µε βάση τη θεωρία της πληροφορίας Έχουν χρησιµοποιηθεί και άλλες πιο εξειδικευµένες µέθοδοι επιλογής όρων µε βάση τη θεωρία της πληροφορίας, ανάµεσα σε αυτές είναι οι: ο DIA (Darmstadt Indexing Approach) παράγοντας σύνδεσης (z(t k, c i )), η chi-square (χ 2 (t k, c i )), ο NGF συντελεστής (NGL(t k, c i )), το κέρδος πληροφορίας (information gain, IG(t k, c i )), η αµοιβαία πληροφορία (mutual information, MI(t k, c i )), ο λόγος της διαφοράς (odds ratio, OR(t k, c i )), η τιµή της σχετικότητας (relevancy score, RS(t k, c i )) και GSS συντελεστής (GSS(t k, c i )). Όλες οι µέθοδοι είναι τοπικά προσανατολισµένες σε µια συγκεκριµένη κατηγορία c i. Στην Ανάκτηση εδοµένων, µετράµε πόσο ανεξάρτητα είναι τα t k και c i. Ο όρος t k µε την χαµηλότερη τιµή για χ 2 (t k, c i ), είναι περισσότερο ανεξάρτητος από το c i. Εφόσον, ενδιαφερόµαστε για εκείνους τους όρους που δεν είναι ανεξάρτητοι, επιλέγουµε εκείνους για τους οποίους χ 2 (t k, c i ) έχει την υψηλότερη τιµή. Αφού κάθε µέθοδος µείωσης του αριθµού των όρων έχει τη δική της λογική, η τελευταία λέξη για την αξία της είναι η αποδοτικότητα που αυτή φέρνει. ιάφορες πειρα- µατικές συγκρίσεις ανάµεσα στις µεθόδους µείωσης του αριθµού των όρων έχουν ε- φαρµοστεί [26, 27, 28, 29]. Σε αυτά τα πειράµατα, οι περισσότερες µέθοδοι που αναφέρθηκαν παραπάνω (µε πιθανή εξαίρεση την MI αµοιβαία πληροφορία) έχουν βελτιωθεί ως προς τα αποτελέσµατα της συχνότητας κειµένων. Τα πειράµατα αυτά, υποδεικνύουν επίσης ότι OR, NGL, GSS > χ 2, IG > χ 2 >> MI, MI, όπου > ση- µαίνει έχει καλύτερη απόδοση από. Παρόλα αυτά, πρέπει να επισηµανθεί ότι αυτά τα αποτελέσµατα είναι, απλά ενδεικτικά και ότι πιο γενικά συµπεράσµατα για το σχετικό περιεχόµενο των µεθόδων αυτών θα µπορούσαν να βγουν µόνο ως αποτέλεσµα συγκριτικών πειραµάτων, εκτελεσµένων σε απολύτως ελεγχόµενες συνθήκες και σε πολλές διαφορετικές καταστάσεις, όπως για παράδειγµα διαφορετικοί ταξινοµητές. 3.6 Ταξινοµητές Κειµένων Παρακάτω αναλύονται οι πιο γνωστές µέθοδοι της Ταξινόµησης Κειµένων. Αυτοί είναι οι πιθανοτικοί ταξινοµητές, οι ταξινοµητές δένδρων απόφασης, οι ταξινοµητές κανόνων απόφασης, οι on-line µέθοδοι, τα νευρωνικά δίκτυα, οι ταξινοµητές βασισµένοι στα παραδείγµατα, οι µηχανές διανυσµάτων υποστήριξης και τέλος η οµάδα ταξινοµητών. -23-

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 -

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 - Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) - 1 - Εισαγωγή Η μάθηση σε ένα γνωστικό σύστημα, όπως γίνεται αντιληπτή στην καθημερινή ζωή, μπορεί να συνδεθεί με δύο βασικές ιδιότητες: την ικανότητά στην

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

Πρόλογος των Συγγραφέων

Πρόλογος των Συγγραφέων Πρόλογος των Συγγραφέων Τεχνητή Νοηµοσύνη (ΤΝ) είναι ο τοµέας της επιστήµης των υπολογιστών, που ασχολείται µε τη σχεδίαση ευφυών (νοηµόνων) υπολογιστικών συστηµάτων, δηλαδή συστηµάτων που επιδεικνύουν

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Συστήματα Γνώσης. Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής

Συστήματα Γνώσης. Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής Νίκος Βασιλειάδης, Αναπλ. Καθηγητής Άδειες

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη ( )

Τεχνητή Νοημοσύνη ( ) Εβδομάδα Διάλεξη Ενδεικτικά θέματα διαλέξεων Ενδεικτικά θέματα εργαστηρίων/φροντιστηρίων 1 1 1 2 2 3 2 4 3 5 3 6 4 7 4 8 5 9 Τεχνητή Νοημοσύνη (2017-18) Γενικές πληροφορίες για το μάθημα. Εισαγωγή στην

Διαβάστε περισσότερα

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης Ειρήνη Καλδέλη ιπλωµατική Εργασία Περίληψη Εισαγωγή Τα τελευταία χρόνια η αλµατώδης ανάπτυξη της πληροφορικής έχει διευρύνει σε σηµαντικό βαθµό

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

ΕΝΟΤΗΤΑ 2 η ΙΑΧΕΙΡΙΣΗ ΡΟΗΣ ΕΡΓΑΣΙΑΣ (WORKFLOW MANAGEMENT) 2.1 Εισαγωγή

ΕΝΟΤΗΤΑ 2 η ΙΑΧΕΙΡΙΣΗ ΡΟΗΣ ΕΡΓΑΣΙΑΣ (WORKFLOW MANAGEMENT) 2.1 Εισαγωγή ΕΝΟΤΗΤΑ 2 η ΙΑΧΕΙΡΙΣΗ ΡΟΗΣ ΕΡΓΑΣΙΑΣ (WORKFLOW MANAGEMENT) 2.1 Εισαγωγή Οι σηµερινές δραστηριότητες των επιχειρήσεων δηµιουργούν την ανάγκη για όσο το δυνατό µεγαλύτερη υποστήριξη από τα πληροφοριακά τους

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Κεφάλαιο 8. Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής. Τεχνητή Νοηµοσύνη - Β' Έκδοση

Κεφάλαιο 8. Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής. Τεχνητή Νοηµοσύνη - Β' Έκδοση Κεφάλαιο 8 Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Αναπαράσταση Γνώσης Σύνολο συντακτικών

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Ασάφεια (Fuzziness) Ποσοτικοποίηση της ποιοτικής πληροφορίας Οφείλεται κυρίως

Διαβάστε περισσότερα

Αναγνώριση Υφολογικού Είδους Κειµένου µε τεχνικές Μηχανικής Μάθησης Η ιπλωµατική Εργασία παρουσιάστηκε ενώπιον του ιδακτικού Προσωπικού του Πανεπιστηµίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

Εξαγωγή κανόνων από αριθµητικά δεδοµένα Εξαγωγή κανόνων από αριθµητικά δεδοµένα Συχνά το σύστηµα που θέλουµε να µοντελοποιήσουµε η να ελέγξουµε αντιµετωπίζεται ως µαύρο κουτί και η πληροφορία για τη λειτουργία του διατίθεται υπό µορφή ζευγών

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

Περιεχόµενα. ΜΕΡΟΣ Α: Επίλυση Προβληµάτων... 17

Περιεχόµενα. ΜΕΡΟΣ Α: Επίλυση Προβληµάτων... 17 ΠΡΟΛΟΓΟΣ... I ΠΡΟΛΟΓΟΣ ΤΩΝ ΣΥΓΓΡΑΦΕΩΝ...III ΣΥΝΟΠΤΙΚΗ ΠΑΡΟΥΣΙΑΣΗ ΠΕΡΙΕΧΟΜΕΝΩΝ... IX ΠΕΡΙΕΧΟΜΕΝΑ... XI 1 ΕΙΣΑΓΩΓΗ... 1 1.1 ΤΙ ΕΙΝΑΙ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ... 1 1.1.1 Ορισµός της Νοηµοσύνης... 2 1.1.2 Ορισµός

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό,

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό, 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή 1. εδοµένα, Πληροφορίες και Υπολογιστές 2. Πώς φτάσαµε στους σηµερινούς υπολογιστές 3. Το υλικό ενός υπολογιστικού συστήµατος 4. Το λογισµικό ενός υπολογιστικού συστήµατος

Διαβάστε περισσότερα

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή Στην ενότητα αυτή θα µελετηθούν τα εξής επιµέρους θέµατα: Εισαγωγή στις έννοιες Αλγόριθµοι και Πολυπλοκότητα, Οργάνωση Δεδοµένων και Δοµές Δεδοµένων Χρήσιµοι µαθηµατικοί

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 25 Αυγούστου 26 :-4: Κατασκευάστε έναν αισθητήρα (perceptron)

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΕΠΛ 035 - ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΓΙΑ ΗΛΕΚΤΡΟΛΟΓΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΚΑΙ ΜΗΧΑΝΙΚΟΥΣ ΥΠΟΛΟΓΙΣΤΩΝ Ακαδηµαϊκό έτος 2017-2018 Υπεύθυνος εργαστηρίου: Γεώργιος

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ. Καραγιώργου Σοφία

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ. Καραγιώργου Σοφία ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Καραγιώργου Σοφία Εισαγωγή Η μάθηση σε ένα γνωστικό σύστημα μπορεί να συνδεθεί με 2 ιδιότητες: την ικανότητα

Διαβάστε περισσότερα

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Εισαγωγή Η µάθηση σε

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

«Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης»

«Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης» «Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης» Η ιπλωµατική Εργασία παρουσιάστηκε ενώπιον του ιδακτικού Προσωπικού του Πανεπιστηµίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για το

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά και Πληροφορικής Μαθηματικά Πανεπιστήμιο ΙΙ Ιωαννίνων

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 2 Σεπτεµβρίου 2005 5:00-8:00 Σχεδιάστε έναν αισθητήρα ercetro

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις Παρασκευή 9 Ιανουαρίου 2007 5:00-8:00 εδοµένου ότι η

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος Η έννοια πρόβληµα Ανάλυση προβλήµατος Με τον όρο πρόβληµα εννοούµε µια κατάσταση η οποία χρήζει αντιµετώπισης, απαιτεί λύση, η δε λύση της δεν είναι γνωστή ούτε προφανής. Μερικά προβλήµατα είναι τα εξής:

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #08 Συµπίεση Κειµένων Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης

Διαβάστε περισσότερα

ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ

ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ Βασικός τελικός στόχος κάθε επιστηµονικής τεχνολογικής εφαρµογής είναι: H γενική βελτίωση της ποιότητας του περιβάλλοντος Η βελτίωση της ποιότητας ζωής Τα µέσα µε τα

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 6 ΟΥ ΚΕΦΑΛΑΙΟΥ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ 6.1 Τι ονοµάζουµε πρόγραµµα υπολογιστή; Ένα πρόγραµµα

Διαβάστε περισσότερα

"The Project ARXIMIDIS ΙΙ is co-funded by the European Social Fund and National Resources EPEAEK ΙΙ "

The Project ARXIMIDIS ΙΙ is co-funded by the European Social Fund and National Resources EPEAEK ΙΙ Αρχιµήδης ΙΙ Ενίσχυση Ερευνητικών Οµάδων του ΤΕΙ Κρήτης Τίτλος Υποέργου: Εφαρµογές Τεχνητής Νοηµοσύνης στην Τεχνολογία Λογισµικού και στην Ιατρική Επιστηµονικός Υπεύθυνος: ρ Εµµανουήλ Μαρακάκης ραστηριότητα

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης

Διαβάστε περισσότερα

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Αναστάσιος Σκαρλατίδης 1,2 anskarl@iit.demokritos.gr επιβλέπων: Καθ. Βούρος Γ. 1 1 Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων Πανεπιστήµιο

Διαβάστε περισσότερα

ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ ΠΕΡΙΛΗΨΗ. Εισαγωγή

ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ ΠΕΡΙΛΗΨΗ. Εισαγωγή ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ Αθανάσιος Γαγάτσης Τµήµα Επιστηµών της Αγωγής Πανεπιστήµιο Κύπρου Χρήστος Παντσίδης Παναγιώτης Σπύρου Πανεπιστήµιο

Διαβάστε περισσότερα

Ανοικτά Ακαδηµα κά Μαθήµατα

Ανοικτά Ακαδηµα κά Μαθήµατα ΤΕΙ Ιονίων Νήσων Ανοικτά Ακαδηµα κά Μαθήµατα Ανάλυση Σχεδίαση Υλοποίηση Αξιολόγηση Ανάλυση: Πληροφορίες σχετικά µε τις ανάγκες της εκπαίδευσης Σχεδίαση: Καθορισµός χαρακτηριστικών του εκπαιδευτικού λογισµικού

Διαβάστε περισσότερα

4.4 Ερωτήσεις διάταξης. Στις ερωτήσεις διάταξης δίνονται:

4.4 Ερωτήσεις διάταξης. Στις ερωτήσεις διάταξης δίνονται: 4.4 Ερωτήσεις διάταξης Στις ερωτήσεις διάταξης δίνονται:! µία σειρά από διάφορα στοιχεία και! µία πρόταση / κανόνας ή οδηγία και ζητείται να διαταχθούν τα στοιχεία µε βάση την πρόταση αυτή. Οι ερωτήσεις

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής

Διαβάστε περισσότερα

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Διπλωματική Εργασία με θέμα: Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού Καραγιάννης Ιωάννης Α.Μ.

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας

215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας 215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας Το Τμήμα ασχολείται με τη διδασκαλία και την έρευνα στην επιστήμη και τεχνολογία των υπολογιστών και τη μελέτη των εφαρμογών τους. Το Τμήμα ιδρύθηκε το 1980 (ως

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Κεφάλαιο 10 ο Υποπρογράµµατα

Κεφάλαιο 10 ο Υποπρογράµµατα Κεφάλαιο 10 ο Υποπρογράµµατα Ανάπτυξη Εφαρµογών σε Προγραµµατιστικό Περιβάλλον Η αντιµετώπιση των σύνθετων προβληµάτων και η ανάπτυξη των αντίστοιχων προγραµµάτων µπορεί να γίνει µε την ιεραρχική σχεδίαση,

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Εισαγωγή Παρουσιάστηκε από τον Thomas L. Saaty τη δεκαετία του 70 Μεθοδολογία που εφαρμόζεται στην περιοχή των Multicriteria Problems Δίνει

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Αλγόριθµοι και Πολυπλοκότητα

Αλγόριθµοι και Πολυπλοκότητα Αλγόριθµοι και Πολυπλοκότητα Ν. Μ. Μισυρλής Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών Καθηγητής: Ν. Μ. Μισυρλής () Αλγόριθµοι και Πολυπλοκότητα 15 Ιουνίου 2009 1 / 26 Εισαγωγή Η ϑεωρία

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Ενότητα 1: Εισαγωγή. Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Ενότητα 1: Εισαγωγή. Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Λογική Ενότητα 1: Εισαγωγή Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται στην άδεια χρήσης Creative Commons

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 7 ο. Έτσι ο προγραµµατισµός µε τη ΓΛΩΣΣΑ εστιάζεται στην ανάπτυξη του αλγορίθµου και τη µετατροπή του σε σωστό πρόγραµµα.

ΚΕΦΑΛΑΙΟ 7 ο. Έτσι ο προγραµµατισµός µε τη ΓΛΩΣΣΑ εστιάζεται στην ανάπτυξη του αλγορίθµου και τη µετατροπή του σε σωστό πρόγραµµα. ΚΕΦΑΛΑΙΟ 7 ο 1. Επιλογή της κατάλληλης γλώσσας προγραµµατισµού Εκατοντάδες γλώσσες προγραµµατισµού χρησιµοποιούνται όπως αναφέρθηκε σήµερα για την επίλυση των προβληµάτων µε τον υπολογιστή, τη δηµιουργία

Διαβάστε περισσότερα

2. Missing Data mechanisms

2. Missing Data mechanisms Κεφάλαιο 2 ο 2. Missing Data mechanisms 2.1 Εισαγωγή Στην προηγούµενη ενότητα περιγράψαµε κάποια από τα βασικά µοτίβα εµφάνισης των χαµένων τιµών σε σύνολα δεδοµένων. Ένα άλλο ζήτηµα που µας απασχολεί

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 4 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ Ενότητα: Αναγνώριση Διεργασίας - Προσαρμοστικός Έλεγχος (Process Identification) Αλαφοδήμος Κωνσταντίνος

Διαβάστε περισσότερα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ρ. Χαράλαµπος Π. Στρουθόπουλος Αναπληρωτής Καθηγητής

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Περιεχόμενα ΕΝΟΤΗΤΑ I. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Πρόλογος 15

Περιεχόμενα ΕΝΟΤΗΤΑ I. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Πρόλογος 15 Περιεχόμενα Πρόλογος 15 ΕΝΟΤΗΤΑ I. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ 1 Τεχνητή νοημοσύνη 21 1.1 Εισαγωγή 21 1.2 Ιστορική εξέλιξη 22 1.3 Εφαρμογές Τεχνητής Νοημοσύνης 25 2 Επίλυση Προβλημάτων 29 2.1 Διαμόρφωση

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 1 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 Β. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΕΥΝΑ 1. Γενικά Έννοιες.. 2 2. Πρακτικός Οδηγός Ανάλυσης εδοµένων.. 4 α. Οδηγός Λύσεων στο πλαίσιο

Διαβάστε περισσότερα

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ ΜΕΡΟΣ ΙΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ 36 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ Πολλές από τις αποφάσεις

Διαβάστε περισσότερα

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ ΜΕΡΟΣ ΤΡΙΤΟ Πολίτη Όλγα Α.Μ. 4528 Εξάµηνο 8ο Υπεύθυνος Καθηγητής Λυκοθανάσης

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος εδοµένα οµές δεδοµένων και αλγόριθµοι Τα δεδοµένα είναι ακατέργαστα γεγονότα. Η συλλογή των ακατέργαστων δεδοµένων και ο συσχετισµός τους δίνει ως αποτέλεσµα την πληροφορία. Η µέτρηση, η κωδικοποίηση,

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ (Οι ερωτήσεις µε κίτρινη υπογράµµιση είναι εκτός ύλης για φέτος) ΕΙΣΑΓΩΓΗ Q1. Οι Πρωταρχικοί τύποι (primitive types) στη Java 1. Είναι όλοι οι ακέραιοι και όλοι οι πραγµατικοί

Διαβάστε περισσότερα

ΗΥ Λογική. Διδάσκων: Δημήτρης Πλεξουσάκης Καθηγητής

ΗΥ Λογική. Διδάσκων: Δημήτρης Πλεξουσάκης Καθηγητής ΗΥ 180 - Λογική Διδάσκων: Καθηγητής E-mail: dp@csd.uoc.gr Ώρες διδασκαλίας: Δευτέρα, Τετάρτη 4-6 μμ, Αμφ. Β Ώρες φροντιστηρίου: Πέμπτη 4-6 μμ, Αμφ. Β Ώρες γραφείου: Δευτέρα, Τετάρτη 2-4 μμ, Κ.307 Web site:

Διαβάστε περισσότερα

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn) MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ g( Έστω τυχαίες µεταβλητές οι οποίες έχουν κάποια από κοινού κατανοµή Ας υποθέσουµε ότι επιθυµούµε να προσδιορίσουµε την κατανοµή της τυχαίας µεταβλητής g( Η θεωρία των ένα-προς-ένα

Διαβάστε περισσότερα

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών κεφάλαιο 1 Βασικές Έννοιες Επιστήμη 9 1Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ Στόχοι Στόχος του κεφαλαίου είναι οι μαθητές: να γνωρίσουν βασικές έννοιες και τομείς της Επιστήμης. Λέξεις κλειδιά Επιστήμη

Διαβάστε περισσότερα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα Βιοπληροφορική και Πολυµέσα Αθήνα 1.2.2009 ΠΕΡΙΕΧΟΜΕΝΑ 1. Πως σχετίζεται µε τα Πολυµέσα 2. Τι είναι η Βιοπληροφορική 3. Χρήσεις 4. Συµπεράσµατα 5. Βιβλιογραφία Βιοπληροφορική και Πολυµέσα 2 1. Τι είναι

Διαβάστε περισσότερα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ΤµήµαΕφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας Θεσσαλονίκη Ιούνιος 2006 εισαγωγικού µαθήµατος προγραµµατισµού υπολογιστών.

Διαβάστε περισσότερα

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1 ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1 1 Βελτιστοποίηση Στην προσπάθεια αντιμετώπισης και επίλυσης των προβλημάτων που προκύπτουν στην πράξη, αναπτύσσουμε μαθηματικά μοντέλα,

Διαβάστε περισσότερα

οµή δικτύου ΣΧΗΜΑ 8.1

οµή δικτύου ΣΧΗΜΑ 8.1 8. ίκτυα Kohonen Το µοντέλο αυτό των δικτύων προτάθηκε το 1984 από τον Kοhonen, και αφορά διαδικασία εκµάθησης χωρίς επίβλεψη, δηλαδή δεν δίδεται καµία εξωτερική επέµβαση σχετικά µε τους στόχους που πρέπει

Διαβάστε περισσότερα