Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download ""

Transcript

1 Αναγνώριση Υφολογικού Είδους Κειµένου µε τεχνικές Μηχανικής Μάθησης Η ιπλωµατική Εργασία παρουσιάστηκε ενώπιον του ιδακτικού Προσωπικού του Πανεπιστηµίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για το ίπλωµα του Μηχανικού Πληροφοριακών και Επικοινωνιακών Συστηµάτων του ηµητρίου Τσούτσια ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2005

2 Η ΤΡΙΜΕΛΗΣ ΕΠΙΤΡΟΠΗ Ι ΑΣΚΟΝΤΩΝ ΕΠΙΚΥΡΩΝΕΙ ΤΗ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΤΟΥ ΗΜΗΤΡΙΟΥ ΤΣΟΥΤΣΙΑ ΕΥΣΤΑΘΙΟΣ ΣΤΑΜΑΤΑΤΟΣ, Επιβλέπων Ιούνιος 2005 Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων ΓΕΩΡΓΙΟΣ ΒΟΥΡΟΣ, Μέλος Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων ΕΡΓΙΝΑ ΚΑΒΑΛΛΙΕΡΑΤΟΥ, Μέλος Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2005 ii

3 ΠΕΡΙΛΗΨΗ Η εργασία αυτή πραγµατεύτηκε το πρόβληµα της αυτόµατης κατάταξης των κειµένων ως προς το ύφος τους. Μελετήθηκαν οι βασικές µέθοδοι κατηγοριοποίησης και οι υπάρχουσες προσεγγίσεις που έχουν προταθεί στην ακαδηµαϊκή κοινότητα συγκεκριµένα για την υφολογική κατάταξη. Στη συνέχεια, αναπτύχθηκαν και δοκιµάστηκαν δύο είδη ταξινοµητών, που βασίζονται στη µέθοδο των κοινών ngrams και στις Μηχανές Βοηθητικών ιανυσµάτων αντίστοιχα. Η απόδοση των ταξινοµητών αυτών κινήθηκε στο 94%-95% αντίστοιχα και δίνει µία βάση για περαιτέρω εξέταση τους. [2005] του ηµητρίου Τσούτσια iii

4 ΑΦΙΕΡΩΣΕΙΣ Στη Λίζα iv

5 ΕΥΧΑΡΙΣΤΙΕΣ Ευχαριστώ θερµά τον επιβλέποντα καθηγητή, κ. Σταµατάτο για την υποµονή, τον χρόνο και την ακαδηµαϊκή του καθοδήγηση. v

6 Περιεχόµενα Περιεχόµενα... 6 Κεφάλαιο 1 - Εισαγωγή Τι είναι Τεχνητή Νοηµοσύνη Τι είναι Μηχανική Μάθηση Τι είναι Κατηγοριοποίηση...9 Κεφάλαιο 2 - Κατηγοριοποίηση κειµένου Εισαγωγή Ταξινόµηση βάσει κειµένου και βάσει κατηγορίας Ταξινοµητές βαθµολόγησης Εφαρµογές κατηγοριοποίησης κειµένων Αυτόµατη δεικτοδότηση σε συστήµατα Ανάκτησης Πληροφορίας Οργάνωση εγγράφων Φιλτράρισµα εγγράφων Αποσαφήνιση της έννοιας των λέξεων Ιεραρχική ταξινόµηση ιστοσελίδων Μηχανική Μάθηση στην ταξινόµηση κειµένων Εκπαίδευση και δοκιµή ιασταύρωση n συνόλων Ρύθµιση παραµέτρων Ταξινόµηση κειµένου και Ανάκτηση Πληροφορίας Αναπαράσταση κειµένου Επαγωγική κατασκευή ταξινοµητή κειµένων Μέτρηση απόδοσης των ταξινοµητών Παραδείγµατα ταξινοµητών Ταξινοµητές Bayes ένδρα απόφασης Τεχνητά Νευρωνικά ίκτυα Μηχανές βοηθητικών διανυσµάτων...25 Κεφάλαιο 3 - Κατηγοριοποίηση κειµένων βάσει ύφους Εισαγωγή Κίνητρα για υφολογική κατηγοριοποίηση υσκολίες στην υφολογική κατηγοριοποίηση Στατιστική υφολογία Προσεγγίσεις στην εξαγωγή υφολογικών δεικτών Προσέγγιση Biber Προσέγγιση Karlgreen Cutting Προσέγγιση Kessler Προσέγγιση Μίχου Προσέγγιση Lee Mayeng Προσέγγιση Σταµατάτου Προσέγγιση Keselj Μέθοδοι κατηγοριοποίησης Τεχνική κατηγοριοποίησης κοινών ngrams

7 Κεφάλαιο 4 H προσέγγιση της εργασίας Εισαγωγή Το σύνολο κειµένων Αξιολόγηση του συστήµατος Περιβάλλον πειραµάτων Ταξινόµηση µε τα κοινά ngrams Ταξινόµηση µε SVMs...47 Συµπεράσµατα Βιβλιογραφία Παράρτηµα Ι Το εργαλείο λογισµικού Yfos

8 Κεφάλαιο 1 - Εισαγωγή Η εργασία αυτή πραγµατεύτηκε το πρόβληµα της αυτόµατης κατάταξης των κειµένων ως προς το ύφος τους, µε χρήση τεχνικών Μηχανικής Μάθησης. Μελετήθηκαν οι βασικές µέθοδοι κατηγοριοποίησης και οι υπάρχουσες προσεγγίσεις που έχουν προταθεί στην ακαδηµαϊκή κοινότητα συγκεκριµένα για την υφολογική κατάταξη. Στη συνέχεια, αναπτύχθηκαν και δοκιµάστηκαν δύο είδη ταξινοµητών, που βασίζονται στη µέθοδο κοινών ngrams και στις Μηχανές Βοηθητικών ιανυσµάτων αντίστοιχα. Η απόδοση των ταξινοµητών αυτών κινήθηκε στο 94%-95% αντίστοιχα και δίνει µία βάση για περαιτέρω εξέταση τους. Η ταξινόµηση, ή αλλιώς κατηγοριοποίηση είναι ένα πρόβληµα το οποίο µπορεί να προσεγγιστεί µε µεθόδους Μηχανικής Μάθησης (Machine Learning) που είναι µια περιοχή της Τεχνητής Νοηµοσύνης - ΤΝ (Artificial Intelligence). 1.1 Τι είναι Τεχνητή Νοηµοσύνη Η ΤΝ είναι ο τοµέας της επιστήµης των υπολογιστών που ασχολείται µε τη σχεδίαση ευφυών υπολογιστικών συστηµάτων, δηλαδή συστηµάτων που επιδεικνύουν χαρακτηριστικά που σχετίζονται µε τη νοηµοσύνη στην ανθρώπινη συµπεριφορά. Ένας περισσότερος αναλυτικός ορισµός της ΤΝ είναι ο ακόλουθος: ΤΝ είναι ο τοµέας της Επιστήµης των Υπολογιστών που ασχολείται µε τη σχεδίαση και υλοποίηση προγραµµάτων τα οποία είναι ικανά να µιµηθούν τις ανθρώπινες γνωστικές δυνατότητες, εµφανίζοντας έτσι χαρακτηριστικά που αποδίδουµε συνήθως σε ανθρώπινη συµπεριφορά, όπως για παράδειγµα η επίλυση προβληµάτων, η αντίληψη µέσω της όρασης, η µάθηση, η εξαγωγή συµπερασµάτων, η κατανόηση φυσικής γλώσσας κλπ [Βλαχάβας et al., 2002]. 1.2 Τι είναι Μηχανική Μάθηση Η µηχανική µάθηση αποτελεί έναν από τους παλαιότερους τοµείς της Τεχνητής Νοηµοσύνης. Εφόσον η δυνατότητα της µάθησης αποτελεί το κύριο χαρακτηριστικό µιας νοήµονος οντότητας, ο όρος µηχανική µάθηση συχνά ταυτίζεται µε αυτόν της Τεχνητής Νοηµοσύνης. Η έννοια της µάθησης σε ένα σύστηµα γνώσης (cognitive system) συνδέεται µε δύο βασικά γνωρίσµατα: Την ικανότητα του συστήµατος να αποκτά επιπλέον γνώση κατά την αλληλεπίδρασή του µε το περιβάλλον του, και Την ικανότητα του συστήµατος, να βελτιώνει τον τρόπο µε τον οποίο εκτελεί µια ενέργεια, µέσω των επαναλήψεων Συνεπώς ένα γνωστικό σύστηµα µεταβάλλεται συνεχώς και µάλιστα προς το καλύτερο κατά τη διάρκεια της ζωής του. Αυτό που είναι δύσκολο να αναπαρασταθεί είναι η ακριβής φύση των µεταβολών αυτών και ο τρόπος µε τον οποίο µπορούν να αναπαρασταθούν. 8

9 Στη γενική περίπτωση η µάθηση προσδιορίζεται ως η πρόσκτηση γνώσης που έχει αναπαρασταθεί κατάλληλα. Ένα µη βιολογικό γνωστικό σύστηµα δοµεί ή µετασχηµατίζει σε µία αυστηρώς καθορισµένη γλώσσα αναπαράστασης, προτάσεις τις οποίες αποθηκεύει για µετέπειτα χρήση. ηλαδή, η βασική παραδοχή είναι πως η βάση γνώσης του συστήµατος µεταβάλλεται κατά τη λειτουργία του. Βέβαια υπάρχουν και εναλλακτικά πλαίσια µάθησης όπως π.χ. τα τεχνητά νευρωνικά δίκτυα που µαθαίνουν µετασχηµατίζοντας την εσωτερική τους δοµή, και όχι καταχωρώντας αναπαριστάµενη γνώση [Βλαχάβας et al., 2002], [Mietchel, 1997] Ένα σύστηµα µε δυνατότητα µάθησης πρέπει να είναι σε θέση να εκτελεί γενικεύσεις, δηλαδή να µπορεί να αγνοεί χαρακτηριστικά και ιδιότητες που δεν αντιπροσωπεύουν την έννοια που πρέπει να µάθει. Για παράδειγµα, στην κατηγοριοποίηση κειµένων, δεν λαµβάνεται υπ όψιν η γραµµατοσειρά του κειµένου. 1.3 Τι είναι Κατηγοριοποίηση Κατηγοριοποίηση (classification) ή ταξινόµηση είναι ο προσδιορισµός της κατηγορίας στην οποία ανήκει ένα αντικείµενο, φαινόµενο, πρότυπο, µέτρηση ή οτιδήποτε άλλο. Τα προβλήµατα κατηγοριοποίησης, έχουν σαν είσοδο ένα σύνολο από δεδοµένα που περιγράφουν το αντικείµενο και χρησιµοποιώντας κάποια µορφή γνώσης παράγουν σαν έξοδο την κατηγορία στην οποία ανήκει αυτό. Το κυριότερο χαρακτηριστικό της κατηγοριοποίησης είναι πως η επιλογή της κατηγορίας που κατατάσσεται ένα αντικείµενο, γίνεται από ένα προκαθορισµένο σύνολο κατηγοριών. Αυτό δεν σηµαίνει πως το αντικείµενο ανήκει σίγουρα σε µία µόνο κατηγορία, ή πως το αντικείµενο ανήκει σίγουρα σε κάποια κατηγορία [Βλαχάβας et al., 2002]. 9

10 Κεφάλαιο 2 - Κατηγοριοποίηση κειµένου 2.1 Εισαγωγή Στόχος της κατηγοριοποίησης κειµένου είναι η ταξινόµηση των εγγράφων σε ένα δεδοµένο σύνολο από κατηγορίες. Οι εφαρµογές της αυτόµατης κατηγοριοποίησης κειµένων (text categorization) έχουν γνωρίσει άνθηση τα τελευταία δέκα περίπου χρόνια, αν και εφαρµόζονται από το 60. Αυτό οφείλεται στον εκρηκτικό ρυθµό αύξησης του αριθµού των κειµένων που είναι διαθέσιµα σε ηλεκτρονική µορφή και διατίθενται µέσω του διαδικτύου και στην επακόλουθη ανάγκη ταξινόµησής τους. Στην ερευνητική κοινότητα, η κυριαρχούσα προσέγγιση για τη δηµιουργία των ταξινοµητών βασίζεται στις τεχνικές µηχανικής µάθησης. Μέσω µιας επαγωγικής διαδικασίας, κατασκευάζεται αυτόµατα ο ταξινοµητής που µαθαίνει τα χαρακτηριστικά της κάθε κατηγορίας µέσω ενός συνόλου παραδειγµάτων που χρησιµοποιούνται για την εκπαίδευσή του. Η κατηγοριοποίηση κειµένου είναι η διαδικασία ανάθεσης µιας τιµής Boolean σε κάθε ζεύγος <d j, c i > D x C, όπου το D = {d 1, d 2,, d n } είναι το σύνολο κειµένων και το C = {c 1, c 2,, c m } είναι ένα σύνολο προκαθορισµένων κατηγοριών (Πίνακας 1). Η τιµή α ij είναι true αν η απόφαση του ταξινοµητή είναι πως το κείµενο d j ανήκει στην κατηγορία c i και η τιµή false δίνεται αν το κείµενο d j δεν καταταχθεί στην κατηγορία c i. Για να δώσουµε έναν πιο τυπικό ορισµό, ο σκοπός είναι να προσδιοριστεί η άγνωστη συνάρτηση στόχος (target function) Φ : D x C {true, false}, που περιγράφει πώς πρέπει να ταξινοµηθούν τα κείµενα, µε τη βοήθεια µιας συνάρτησης Φ: D x C {true, false}, που καλείται ταξινοµητής (classifier), έτσι ώστε η Φ και η Φ να συµφωνούν. Το πώς ακριβώς καθορίζεται και µετράται ο βαθµός συµφωνίας θα αναλυθεί σε επόµενη ενότητα. d 1 d j d n c 1 α α 1j... α 1n c i α ι1 α ij... α in c m α m1 α mj α mn Πίνακας 1. Κατηγοριοποίηση κειµένου Οι παραδοχές που γίνονται είναι οι ακόλουθες Οι κατηγορίες είναι συµβολικές ετικέτες. εν είναι διαθέσιµη κάποια πληροφορία σχετική µε το νόηµά τους, για να υποστηριχθεί η διαδικασία κατασκευής του ταξινοµητή. Αυτό σηµαίνει πως το κείµενο που αποτελεί την ετικέτα δεν µπορεί να χρησιµοποιηθεί. Η απόδοση των κειµένων σε κατηγορίες πρέπει γενικά να γίνεται µε βάση το περιεχόµενο των κειµένων και όχι βάσει µέτα-δεδοµένων (π.χ. ηµεροµηνία συγγραφής, είδος αρχείου) που µπορεί να συνοδεύουν το κείµενο. Αυτό σηµαίνει πως το µέτρο σχετικότητας ενός κειµένου µε µια κατηγορία είναι υποκειµενικό. 10

11 Ανάλογα µε την εφαρµογή το σύστηµα κατηγοριοποίησης µπορεί να απαιτείται να ικανοποιεί διάφορους περιορισµούς όπως: Κάθε κείµενο του D πρέπει να καταταχθεί σε k, ή περισσότερες από k ή λιγότερες από k κατηγορίες του C. Η περίπτωση που το κάθε κείµενο ταξινοµείται σε µόνο µια κατηγορία συχνά αναφέρεται ως περίπτωση µη επικαλυπτόµενων κατηγοριών (non-overlapping categories) ή µονής ετικέτας (single label) ενώ η περίπτωση όπου κάθε κείµενο µπορεί να καταταχθεί σε περισσότερες από µία κατηγορίες ονοµάζεται ως επικαλυπτόµενων κατηγοριών ή πολλαπλών ετικετών. Μια ειδική περίπτωση ταξινοµητή µονής ετικέτας είναι ο δυαδικός ταξινοµητής, ο οποίος κατατάσσει το κάθε κείµενο είτε στην κατηγορία c i είτε στη συµπληρωµατική της c i. Η περίπτωση αυτή µπορεί να θεωρηθεί πιο γενική από την κατηγοριοποίηση πολλαπλών ετικετών, αφού ο αλγόριθµος για τη δυαδική ταξινόµηση µπορεί να χρησιµοποιηθεί και για πολλαπλές ετικέτες. Απλά το πρόβληµα ταξινόµησης σε κατηγορίες του συνόλου C σπάει σε m ανεξάρτητα προβλήµατα δυαδικής ταξινόµησης στο {c i, c i }, για i = 1,..., m. Βέβαια, οι κατηγορίες πρέπει να είναι στατιστικά ανεξάρτητες µεταξύ τους, δηλαδή για κάθε c, c, η τιµή της Φ (d j, c) δεν πρέπει να εξαρτάται από την τιµή της Φ ( d j, c ), κάτι που ισχύει στις περισσότερες περιπτώσεις. Κάθε κατηγορία του C πρέπει να ανατεθεί σε k, ή περισσότερα από k ή λιγότερα από k κείµενα του D, δηλαδή τίθεται ένα ανώτατο ή/και κατώτατο όριο στα κείµενα που µπορούν να ταξινοµηθούν σε κάθε κατηγορία 2.2 Ταξινόµηση βάσει κειµένου και βάσει κατηγορίας Υπάρχουν δύο διαφορετικοί τρόποι χρήσης ενός ταξινοµητή κειµένου. εδοµένου ενός κειµένου d j D µπορεί να θέλουµε να βρούµε όλες τις κατηγορίες c i C που ανήκει. Έτσι, το σύστηµα συµπληρώνει τον Πίνακα 1 ανά στήλες. Εναλλακτικά, δεδοµένης µιας κατηγορίας c i C µπορεί να θέλουµε να βρούµε όλα τα κείµενα d j D που ανήκουν σε αυτή δηλαδή το σύστηµα συµπληρώνει τον πίνακα ανά γραµµές. Η πρώτη προσέγγιση ονοµάζεται ταξινόµηση βάσει κειµένου (document pivoted categorization) και η δεύτερη ταξινόµηση βάσει κατηγορίας (category pivoted categorization). Η ταξινόµηση βάσει κειµένου είναι καταλληλότερη όταν τα κείµενα γίνονται διαθέσιµα για ταξινόµηση σε διαφορετικές χρονικές στιγµές, δηλαδή το σύνολο D δεν είναι ολοκληρωτικά διαθέσιµο στην έναρξη της διαδικασίας ταξινόµησης. Ένα παράδειγµα µιας τέτοιας εφαρµογής είναι όταν εισάγεται στο σύστηµα µονάχα ένα κείµενο, και ζητείται απλά η κατηγορία στην οποία ανήκει. Η ταξινόµηση βάσει κατηγορίας, από την άλλη, είναι πιο κατάλληλη σε περιπτώσεις που Μια νέα κατηγορία c m+1 προστίθεται στο υπάρχων σύνολο C, ύστερα από την ταξινόµηση ενός πλήθους κειµένων και Αυτά τα ταξινοµηµένα κείµενα πρέπει να αναταξινοµηθούν, λαµβάνοντας υπ όψιν τη νέα κατηγορία c m+1. Η κατηγοριοποίηση βάσει κειµένου συναντάται πιο συχνά καθώς η περίπτωση τα κείµενα να γίνονται σταδιακά διαθέσιµα είναι πιο συνηθισµένη από την πρόσθεση νέων κατηγοριών στο σύστηµα. 11

12 2.3 Ταξινοµητές βαθµολόγησης Μια πλήρως αυτοµατοποιηµένη εφαρµογή ταξινόµησης απαιτεί µια σαφή απόφαση για την κατηγορία στην οποία ανήκει το κείµενο, δηλαδή µια απόφαση true ή false για κάθε ζεύγος <d j, c i >. Υπάρχουν όµως και εφαρµογές που έχουν διαφορετικές απαιτήσεις. Για παράδειγµα, δεδοµένου ενός κειµένου d j D ένας ταξινοµητής µπορεί απλά να βαθµολογήσει και να κατατάξει τις κατηγορίες στο C = {c 1, c 2,, c m }, σύµφωνα µε την εκτιµούµενη καταλληλότητά τους ως προς το d j, χωρίς όµως να πάρει κάποια σαφή απόφαση για κάποια από αυτές. Μια τέτοια ταξινοµηµένη λίστα θα µπορούσε να παίζει επικουρικό ρόλο στην απόφαση ενός ειδικού που παίρνει την τελική απόφαση ως προς την κατηγοριοποίηση. Ανατρέχοντας στη λίστα µπορεί να εξετάσει µόνο την κατηγορία που βρίσκονται στην κορυφή της και άρα το σύστηµα έχει εκτιµήσει πως το έγγραφο ταιριάζει περισσότερο µε αυτή και δεν χρειάζεται να εξετάσει όλο το σύνολο C. Εναλλακτικά, δεδοµένης µιας κατηγορίας c i C ένα σύστηµα µπορεί απλά να βαθµολογήσει και να κατατάξει τα έγγραφα του D µε βάση την καταλληλότητά τους ως προς τη c i. Αντίστοιχα ένας ειδικός, µπορεί να εξετάσει µονάχα τα κείµενα µε υψηλή κατάταξη αντί να ανατρέξει σε όλο το σύνολο D. Τα δύο αυτά είδη ταξινοµητών ονοµάζονται ταξινοµητές βαθµολόγησης κατηγορίας (category ranking) και βαθµολόγησης κειµένων (document ranking) αντίστοιχα. Αυτοί οι ηµιαυτόµατοι ταξινοµητές είναι χρήσιµοι ιδιαίτερα σε κρίσιµες εφαρµογές όπου η αποτελεσµατικότητα ενός πλήρως αυτοµατοποιηµένου ταξινοµητή είναι χαµηλότερη από αυτή ενός ανθρώπου ειδικού. Αυτό γίνεται συνήθως όταν τα δεδοµένα εκπαίδευσης του συστήµατος είναι είτε κακής ποιότητας ή δεν είναι αντιπροσωπευτικό δείγµα των δεδοµένων που δεν έχουν γίνει ακόµα γνωστά. 2.4 Εφαρµογές κατηγοριοποίησης κειµένων Η κατηγοριοποίηση κειµένων έχει ιστορία 40 χρόνων και χρησιµοποιείται σε ένα πλήθος εφαρµογών. Η διαφοροποίηση ανάµεσα στα χαρακτηριστικά των εφαρµογών αυτών είναι συχνά δυσδιάκριτη και µερικές µπορούν να θεωρηθούν ως ειδικεύσεις άλλων. Οι κυριότερες εφαρµογές κατηγοριοποίησης κειµένων είναι οι κάτωθι Αυτόµατη δεικτοδότηση σε συστήµατα Ανάκτησης Πληροφορίας Η αυτόµατη δεικτοδότηση (indexing) αφορά τα συστήµατα Ανάκτησης Πληροφορίας που βασίζονται στο Boolean µοντέλο. Συνοπτικά, στα συστήµατα Ανάκτησης Πληροφορίας, κάθε κείµενο περιγράφεται από ένα σύνολο λέξεις κλειδιά που ονοµάζονται όροι δεικτοδότησης. Ένας όρος δεικτοδότησης είναι µια λέξη, το σηµασιολογικό περιεχόµενο της οποίας περικλείει ένα µέρος του θέµατος µε το οποίο ασχολείται το κείµενο. Έτσι, ένα κείµενο αναπαρίσταται σαν ένα σύνολο όρων που συνοψίζει το περιεχόµενό του. Το βάρος ενός ζεύγους <κείµενο, όρους δεικτοδότησης> αντιπροσωπεύει το πόσο αντιπροσωπευτικός είναι ο συγκεκριµένος όρος για το κείµενο. Στο Boolean µοντέλο, κάθε όρος δεικτοδότησης θεωρείται ότι είτε ανήκει ολοκληρωτικά στο κείµενοι είτε όχι και άρα τα βάρη θεωρούνται δυαδικά {0, 1}. Οι όροι δεικτοδότησης ανήκουν σε ένα πεπερασµένο σύνολο, το λεξικό. Αν οι εγγραφές στο λεξικό θεωρούνται κατηγορίες, τότε η δεικτοδότηση του κειµένου είναι 12

13 µια περίπτωση κατηγοριοποίησης κειµένου και µπορεί να γίνει από τις τεχνικές των ταξινοµητών. Η εφαρµογή αυτή, µπορεί να απαιτεί k 1 x k 2 όροι δεικτοδότησης να αναπαραστήσουν το κείµενο, µε συγκεκριµένα k 1, k 2. Η ταξινόµηση βάσει κειµένου είναι πιθανώς η καλύτερη επιλογή έτσι ώστε τα νέα κείµενα να δεικτοδοτούνται µόλις γίνονται διαθέσιµα Οργάνωση εγγράφων Η δεικτοδότηση µε βάση το λεξικό είναι µια υποπερίπτωση του γενικού προβλήµατος της οργάνωσης των εγγράφων. Οι τεχνικές κατηγοριοποίησης των κειµένων µπορούν να χρησιµοποιηθούν για να δώσουν λύσεις σε ζητήµατα που αφορούν την οργάνωση και αρχειοθέτησης των εγγράφων είτε για προσωπικούς είτε για εταιρικούς λόγους. Για παράδειγµα, οι µικρές αγγελίες µιας εφηµερίδας, πριν τη δηµοσίευσή τους πρέπει να καταταχθούν σε θεµατικές ενότητες. Μια εφηµερίδα µε µεγάλο όγκο αγγελιών µπορεί να ωφεληθεί από τη χρήση ενός αυτόµατου ταξινοµητή Φιλτράρισµα εγγράφων Το φιλτράρισµα των εγγράφων είναι η διαδικασία της κατηγοριοποίησης ενός δυναµικού συνόλου εγγράφων, στη µορφή µιας συνεχούς ροής εισαγόµενων εγγράφων που αποστέλλονται από τον παραγωγό στον καταναλωτή πληροφορίας µε ασύγχρονο τρόπο, π.χ. οι ειδήσεις που προέρχονται από ένα πρακτορείο ειδήσεων και τις λαµβάνει µια εφηµερίδα. Σε αυτή την περίπτωση, το σύστηµα απορρίπτει τις ειδήσεις που δεν ενδιαφέρουν τον αποδέκτη. Το φιλτράρισµα µπορεί να θεωρηθεί σαν µια ειδική περίπτωση της κατηγοριοποίησης κειµένων µη επικαλυπτόµενων κατηγοριών, και µάλιστα σαν ένας δυαδικός ταξινοµητής που κατατάσσει τα κείµενα σε σχετικά και µη σχετικά. Επιπρόσθετα, το σύστηµα ταξινόµησης, θα µπορούσε να κατατάσσει τα σχετικά έγγραφα σε θεµατικές κατηγορίες Αποσαφήνιση της έννοιας των λέξεων Η αποσαφήνιση της έννοιας των λέξεων είναι η διαδικασία κατά την οποία δεδοµένης µιας πολύσηµης λέξης και της εµφάνισής της σε ένα κείµενο, αποδίδεται στη λέξη αυτή το νόηµα που έχει στη συγκεκριµένη χρήση. Η διαδικασία αυτή έχει µεγάλη σηµασία σε εφαρµογές όπως η επεξεργασία φυσικής γλώσσας. Η διαδικασία αυτή, µπορεί να τελεστεί από ταξινοµητές κειµένων αν θεωρήσουµε τις συγκεκριµένες εµφανίσεις των λέξεων σαν κείµενα και τα διαφορετικά νοήµατα της λέξης αυτής σαν τις κατηγορίες. Προφανώς, µόνο µια κατηγορία (νόηµα) πρέπει να αποδοθεί σε ένα κείµενο (λέξη) άρα πρόκειται για ταξινοµητή µη επικαλυπτόµενων κατηγοριών Ιεραρχική ταξινόµηση ιστοσελίδων Η µελέτη πάνω στη χρήση ταξινοµητών κειµένου για την αυτόµατη κατάταξη ιστοσελίδων σε ιεραρχικούς θεµατικούς καταλόγους που υποστηρίζονται από διάφορες µηχανές αναζήτησης είναι σίγουρα από τις πιο ενδιαφέρουσες και πρακτικά 13

14 χρήσιµες εφαρµογές της κατηγοριοποίησης των κειµένων. Η αυτόµατη κατάταξη των ιστοσελίδων έχει το προφανές πλεονέκτηµα της ευκολότερης διαχείρισης του συνεχώς διογκούµενου πλήθους των ιστοσελίδων. Αντίθετα µε τις προηγούµενες εφαρµογές, εδώ είναι επιθυµητό µια κατηγορία να αποδοθεί σε k 1 x k 2 κείµενα. Είναι προτιµότερο να επιλεχθεί ταξινοµητής βάσει κατηγορίας, ώστε να είναι πιο εύκολη η εισαγωγή νέων κατηγοριών και η διαγραφή παλαιότερων. Η ταξινόµηση των ιστοσελίδων έχει δύο ιδιάζοντα χαρακτηριστικά Η υπερκειµενική φύση των εγγράφων. Οι σύνδεσµοι µε άλλες σελίδες (links) είναι µια πλούσια πηγή πληροφοριών σχετικές µε την ιστοσελίδα, καθώς υποδεικνύουν τη σχέση ανάµεσα στη συνδεόµενη σελίδα και το έγγραφο. Η ιεραρχική δοµή του συνόλου των κατηγοριών. Το χαρακτηριστικό αυτό µπορεί να χρησιµοποιηθεί, για παράδειγµα, στην αποσύνθεση του προβλήµατος ταξινόµησης σε ένα σύνολο υπο-προβληµάτων, κάθε ένα από τα οποία αφορά την απόφαση για κάποιο συγκεκριµένο κλάδο. 2.5 Μηχανική Μάθηση στην ταξινόµηση κειµένων Τη δεκαετία του 80 η πιο συχνή προσέγγιση για τη δηµιουργία αυτόµατων ταξινοµητών ήταν η Μηχανική Γνώσης (knowledge engineering). Ένας ειδικός του συγκεκριµένου πεδίου, καθόριζε και συνέτασσε κανόνες της µορφής if <DNF> then <category>, όπου το DNF είναι µια πρόταση που αποτελείται από διαζεύξεις συζεύξεων (Disjunctive Normal Form). Το κείµενο κατατάσσεται στην κατηγορία <category> αν ικανοποιεί την DNF πρόταση, αν δηλαδή ικανοποιεί τουλάχιστον µια σύζευξη. Το πρόβληµα σε αυτήν την προσέγγιση είναι πως οι κανόνες πρέπει να συνταχθούν από µηχανικούς γνώσης (knowledge engineers) µε τη βοήθεια ειδικών στο εκάστοτε πεδίο εφαρµογής (στην περίπτωση µας χρειάζεται ένας ειδικός στην ταξινόµηση των κειµένων) και αν στο σύνολο των κατηγοριών προστεθεί µία ακόµη κατηγορία, τότε ο µηχανικός γνώσης και ο ειδικός του πεδίου πρέπει να επαναλάβουν την εργασία τους λαµβάνοντας υπ όψιν το νέο σύνολο κατηγοριών. Επιπλέον, στην περίπτωση που ο ταξινοµητής πρέπει να χρησιµοποιηθεί για διαφορετικό πεδίο, χρειάζεται η βοήθεια ενός ειδικού στο νέο πεδίο για τη σύνταξη των κανόνων από την αρχή. Κατά τη δεκαετία του 90 η προσέγγιση που άρχισε να κερδίζει έδαφος ήταν η µηχανική µάθηση. Μια γενική επαγωγική διαδικασία που καλείται µαθητευόµενη, δηµιουργεί αυτόµατα έναν ταξινοµητή για την κατηγορία c i βασισµένη στα χαρακτηριστικά ενός συνόλου εγγράφων που έχουν ήδη καταταχθεί στην κατηγορία c i ή στη συµπληρωµατική της c i, από ειδικούς του πεδίου. Από τα χαρακτηριστικά αυτά, η επαγωγική διαδικασία καθορίζει τα χαρακτηριστικά που πρέπει να έχει ένα νέο κείµενο για να καταταχθεί στη c i. Στην ορολογία της Μηχανικής Μάθησης, το πρόβληµα της ταξινόµησης καλείται µάθηση µε επίβλεψη (supervised learning) υπό την έννοια ότι τα κείµενα που εισάγονται για την µάθηση του συστήµατος είναι ήδη ταξινοµηµένα. Τα πλεονεκτήµατα της µηχανικής µάθησης έναντι της µηχανικής γνώσης για την κατασκευή των ταξινοµητών είναι προφανή. Στη µηχανική µάθηση, το βάρος δεν δίνεται στον ίδιο τον ταξινοµητή αλλά στο αυτόµατο σύστηµα που θα κατασκευάζει τους ταξινοµητές (τον µαθητευόµενο). Αυτό σηµαίνει πως αν ο µαθητευόµενος είναι 14

15 διαθέσιµος, απλά χρειάζεται η τροφοδότησή του µε παραδείγµατα και ο ταξινοµητής θα παραχθεί αυτόµατα. Παρόµοια, αν ο µαθητευόµενος έχει εκπαιδευτεί, έχει προκύψει ο ταξινοµητής και αλλάξει το σύνολο των κατηγοριών ή ο ταξινοµητής µεταφερθεί σε νέο πεδίο, το µόνο που απαιτείται είναι η τροφοδότηση του µαθητευόµενου µε νέα παραδείγµατα. Συνεπώς, τα ήδη ταξινοµηµένα κείµενα που χρησιµοποιούνται για τη µάθηση του µαθητευόµενου, είναι ο κρίσιµος πόρος της προσέγγισης της µηχανικής µάθησης. Στην καλύτερη περίπτωση, τα ταξινοµηµένα κείµενα είναι ήδη διαθέσιµα, όπως π.χ. σε περιπτώσεις οργανισµών που έχουν κατατάξει κείµενα δια χειρός, και αποφασίζουν να αυτοµατοποιήσουν τη διαδικασία. Η χειρότερη περίπτωση είναι όταν δεν υπάρχουν διαθέσιµα ήδη ταξινοµηµένα κείµενα. Η µηχανική µάθηση είναι πιο βολική σχετικά µε τη µηχανική γνώσης ακόµη και τότε, καθώς είναι πιο εύκολο να καταταχθούν µερικά κείµενα από ανθρώπους παρά να συνταχθούν όλοι εκείνοι οι κανόνες που καθορίζουν την κατηγοριοποίηση Εκπαίδευση και δοκιµή Η προσέγγιση της µηχανικής µάθησης βασίζεται στη διαθεσιµότητα ενός αρχικού συνόλου (corpus) Ω = {d 1, d 2,, d Ω } D από κείµενα που έχουν ήδη ταξινοµηθεί στο σύνολο των κατηγοριών C = {c 1, c 2,, c m }. Αυτό σηµαίνει πως οι τιµές της συνάρτησης στόχου Φ : D x C {true, false} είναι γνωστές για κάθε ζεύγος <d j, c i > Ω x C. Ένα κείµενο d j ονοµάζεται θετικό παράδειγµα της κατηγορίας c i όταν Φ (d j, c i ) = true και αρνητικό παράδειγµα της κατηγορίας c i όταν Φ (d j, c i ) = false. Για τους σκοπούς της έρευνας αλλά και σε συνθήκες πραγµατικής λειτουργίας, µόλις ο ταξινοµητής κατασκευαστεί από τον µαθητευόµενο είναι επιθυµητό να προσδιοριστεί η αποδοτικότητά του. Γι αυτό, πριν την κατασκευή του ταξινοµητή, το αρχικό σύνολο κειµένων χωρίζεται σε δύο υποσύνολα (όχι απαραιτήτως του ίδιου µεγέθους): Το σύνολο εκπαίδευσης (training set) Tr = {d 1, d 2,, d Tr }. Ο µαθητευόµενος χρησιµοποιεί το σύνολο κειµένων Tr για να κατασκευάσει τον ταξινοµητή Φ για τις κατηγορίες C = {c 1, c 2,, c m }, βασιζόµενος στα χαρακτηριστικά των κειµένων του συνόλου αυτού Το σύνολο δοκιµής (test set) Τe = {d TV+1, d TV+2,, d Ω }, που χρησιµοποιείται για την εξέταση της αποδοτικότητας του ταξινοµητή. Κάθε κείµενο d j Τe εισάγεται στον ταξινοµητή και η απόφαση του ταξινοµητή Φ(d j, c i ) συγκρίνεται µε την απόφαση Φ (d j, c i ) που έχει παρθεί από τους ειδικούς (υπενθυµίζεται πως τα κείµενα αυτά έχουν ήδη ταξινοµηθεί από ειδικούς). Το µέτρο της αποδοτικότητας του ταξινοµητή, εξαρτάται από το πόσο συχνά η απόφαση Φ(d j, c i ) είναι ίδια µε την Φ (d j, c i ), δηλαδή, πόσο συχνά το κείµενο κατατάσσεται στη σωστή κατηγορία. Πρέπει να τονιστεί ότι τα σύνολα Tr και Te δεν πρέπει να έχουν κοινά στοιχεία, δηλαδή τα κείµενα του Te δεν πρέπει σε καµία περίπτωση να χρησιµοποιούνται για την εκπαίδευση του µαθητευόµενου. Αν ο µαθητευόµενος µαθαίνει και από το σύνολο δοκιµής, και στη συνέχεια εξετάζεται µε αυτό, τα αποτελέσµατα είναι µη ρεαλιστικά και πολύ πιο θετικά από την πραγµατικότητα. Σε συνθήκες πραγµατικής λειτουργίας, µετά την εξέταση της αποδοτικότητας του ταξινοµητή, ο µαθητευόµενος 15

16 µπορεί να επανεκπαιδευτεί σε ολόκληρο το σύνολο Ω (σύνολα εκπαίδευσης και δοκιµής) για να αυξηθεί η αποδοτικότητα του ταξινοµητή. Σε αυτή την περίπτωση, τα αποτελέσµατα της εξέτασης αποδοτικότητας είναι µια απαισιόδοξη εκτίµηση της πραγµατικής επίδοσης, αφού ο µαθητευόµενος εκπαιδεύεται σε µεγαλύτερο σύνολο δεδοµένων από αυτό που αξιολογήθηκε ιασταύρωση n συνόλων Όταν δεν είναι διαθέσιµος ένας ικανοποιητικός όγκος δεδοµένων, για να χρησιµοποιηθούν στην εκπαίδευση και δοκιµή του συστήµατος, εφαρµόζεται η µέθοδος διασταύρωσης n συνόλων (n-fold cross validation). Η µέθοδος αυτή, χωρίζει το σύνολο των διαθέσιµων κειµένων d σε n υποσύνολα µεγέθους d/n. Κάθε σύνολο χρησιµοποιείται µία φορά για τη δοκιµή του συστήµατος και n-1 φορές για την εκπαίδευση του. Η εκπαίδευση του συστήµατος γίνεται µε τα υπόλοιπα n-1 σύνολα. Η φάση της δοκιµής, επαναλαµβάνεται n φορές, όπου κάθε φορά χρησιµοποιείται διαφορετικό σύνολο για τη δοκιµή και τα υπόλοιπα σύνολα σχηµατίζουν το σύνολο εκπαίδευσης. Η συνολική απόδοση του συστήµατος, προκύπτει από τον µέσο όρο των αποτελεσµάτων των k δοκιµών Ρύθµιση παραµέτρων Είναι πιθανό, και στις δύο τεχνικές εκπαίδευσης να χρειαστεί να ρυθµιστούν διάφοροι εσωτερικές παράµετροι του ταξινοµητή έτσι ώστε να αυξηθεί η αποδοτικότητά του. Η ρύθµιση αυτή γίνεται µέσω της δοκιµής. Αν επιλεγεί η εκπαίδευση και δοκιµή το σύνολο εκπαίδευσης, χωρίζεται σε δύο υποσύνολα, το σύνολο µάθησης L = {d 1, d 2,, d L } και το σύνολο ρύθµισης (validation set) V = {d L +1, d L +2,, d Tr } το οποίο χρησιµοποιείται για τον καθορισµό των βέλτιστων τιµών των παραµέτρων του ταξινοµητή. Παρόµοια στην τεχνική cross validation µπορεί να χρησιµοποιηθεί ένα υποσύνολο κειµένων για τη ρύθµιση των παραµέτρων. Κείµενα που ανήκουν στο σύνολο ρύθµισης, δεν µπορούν να ανήκουν και στο σύνολο δοκιµής, καθώς όπως έχει αναφερθεί, το σύνολο εκπαίδευσης (από το οποίο προκύπτει το σύνολο ρύθµισης) και το σύνολο δοκιµής είναι ανεξάρτητα µεταξύ τους. εδοµένου ενός αρχικού συνόλου Ω, η γενικότητα g Ω (c i ) της κατηγορίας c i, ορίζεται ως το ποσοστό των κειµένων που ανήκουν στη c i δηλαδή: g Ω (c i ) = { d j Ω Φ (dj, ci) = true} Ω Αντίστοιχα ορίζονται και η γενικότητα στο σύνολο εκπαίδευσης g Tr (c i ), η γενικότητα στο σύνολο ρύθµισης g V (c i )και η γενικότητα στο σύνολο δοκιµής g Te (c i ). 2.6 Ταξινόµηση κειµένου και Ανάκτηση Πληροφορίας 16

17 Η ταξινόµηση κειµένων είναι µια διαδικασία διαχείρισης των κειµένων που βασίζεται στο περιεχόµενό τους. Η επιστήµη της Ανάκτησης Πληροφορίας, ασχολείται µε την αναπαράσταση, την αποθήκευση, την οργάνωση και την πρόσβαση σε πληροφοριακές µονάδες [Αναγνωστόπουλος, 2004]. Συνεπώς, οι τοµείς της ταξινόµησης των κειµένων και της ανάκτησης πληροφορίας έχουν κοινά χαρακτηριστικά και πιο συγκεκριµένα, η ταξινόµηση υποστηρίζεται από τους βασικούς µηχανισµούς της ανάκτησης πληροφορίας σε τρεις φάσεις: Στην αναπαράσταση κειµένων, όπου τα κείµενα του αρχικού συνόλου αλλά και στα κείµενα που εισάγονται στον ταξινοµητή κατά την φάση λειτουργίας του αναπαριστώνται µέσω ενός συνόλου από όρους δεικτοδότησης Στην επαγωγική διαδικασία της κατασκευής του ταξινοµητή όπου χρησιµοποιούνται τεχνικές από την ανάκτηση πληροφορίας όπως το ταίριασµα κειµένου ερώτησης και αναδιαµόρφωσης ερωτήµατος Στην εκτίµηση της επίδοσης του ταξινοµητή, όπου χρησιµοποιούνται οι µετρικές της ανάκτησης πληροφορίας Αναπαράσταση κειµένου Για να µπορέσει ένας ταξινοµητής ή ένας αλγόριθµος κατασκευής ταξινοµητών να ερµηνεύσει ένα κείµενο, πρέπει το κείµενο αυτό να αναπαρασταθεί µε τον κατάλληλο τρόπο. Πρέπει δηλαδή, µια διαδικασία να µετασχηµατίσει τα κείµενα εκπαίδευσης και δοκιµής σε µια κατάλληλη αναπαράσταση. Συνήθως ένα κείµενο d j αναπαριστάται ως ένα διάνυσµα βαρών των όρων δεικτοδότησης d j = <w 1j, w 2j,, w T j > όπου Τ είναι το σύνολο των όρων δεικτοδότησης. Υπάρχουν διάφορες προσεγγίσεις στον καθορισµό του τι είναι ένας όρος και στον καθορισµό του υπολογισµού των βαρών. Σε πολλά συστήµατα, σαν όροι ορίζονται οι λέξεις του κειµένου, σε άλλες προσεγγίσεις, όροι είναι ολόκληρες φράσεις και όπως θα δούµε στις προσεγγίσεις που επιλέχθηκαν στο πλαίσιο της εργασίας αυτής, σαν όροι νοούνται συµβολοσειρές µε συγκεκριµένο µήκος, τα ngrams. Όσον αφορά τα βάρη, συνήθως αυτά παίρνουν τιµές στο [0,1] και υπολογίζονται βάσει της συχνότητας που εµφανίζεται ο όρος στο κείµενο. Όπως έχουµε ήδη αναφέρει, η πιο απλή περίπτωση είναι το Boolean µοντέλο όπου το βάρος ενός όρου είναι 0 αν ο όρος δεν εµφανίζεται στο κείµενο και 1 αν εµφανίζεται. Υπάρχουν βεβαίως πιο πολύπλοκα µοντέλα που τα βάρη των όρων δεν είναι δυαδικά αλλά φυσικοί αριθµοί και ο υπολογισµός τους γίνεται µε το σχήµα υπολογισµού tf-idf, που χρησιµοποιεί τις έννοιες της συχνότητας εµφάνισης του όρου (term frequency - tf) και της αντίστροφης συχνότητας εµφάνισης (inverse term frequency) Tr tfidf( t k, d j ) = #( t k, d j ) log, # ( ) Tr t k όπου #( t k, d j ) δηλώνει πόσες φορές εµφανίστηκε ο όρος t k στο κείµενο d j και # ( k ) είναι η συχνότητα κειµένου του όρου t k, δηλαδή ο αριθµός των κειµένων στους οποίους εµφανίζεται ο όρος t k. Στη συνέχεια, εφαρµόζεται στα βάρη η κανονικοποίηση συνηµίτονου: Tr t 17

18 W kj = tfidf ( t k, d T ( tfidf ( t, )) 2 s s d j j ), έτσι ώστε οι τιµές των βαρών να βρίσκονται στο [0.1]. Συνεπώς το σχήµα υπολογισµού tf-idf κάνει υποστηρίζει πως: Όσο πιο συχνά εµφανίζεται ένας όρος στο κείµενο τόσο περισσότερο χαρακτηρίζει το περιεχόµενό του και Όσο περισσότερα έγγραφα περιέχουν έναν όρο, τόσο λιγότερο χρήσιµος είναι στον χαρακτηρισµό του κειµένου και άρα στη διαδικασία διαχωρισµού τους σε κατηγορίες. Οι παραδοχές αυτές αφορούν κυρίως τη θεµατική κατηγοριοποίηση των κειµένων. Όπως θα δούµε στην κατάταξη κειµένων µε βάση το ύφος τους χρησιµοποιούνται διαφορετικές τεχνικές υπολογισµού των βαρών των όρων δεικτοδότησης Επαγωγική κατασκευή ταξινοµητή κειµένων Υπάρχουν διάφορες προσεγγίσεις όσον αφορά την κατασκευή του ταξινοµητή των κειµένων από την επαγωγική διαδικασία- µαθητευόµενο. Όπως έχει αναφερθεί, υπάρχουν δύο ειδών ταξινοµήσεις, η απόλυτη και η ταξινόµηση µε βαθµολόγηση. Η επαγωγική κατασκευή ενός ταξινοµητή βαθµολόγησης για την κατηγορία c i C αποτελείται συνήθως από: τον ορισµό µιας συνάρτησης CSV i : D [0,1], η οποία δεδοµένου ενός κειµένου d επιστρέφει το µέτρο κατάταξης της κατηγορίας (categorisation status value) που είναι ένδειξη αν το κείµενο d πρέπει να καταταχθεί στην κατηγορία c i. Τον καθορισµό ενός κατωφλίου τ i τέτοιο ώστε τα κείµενα που έχουν µέτρο κατάταξης της κατηγορίας µεγαλύτερο ή ίσο από το κατώφλι να κατατάσσονται στην κατηγορία c i και διαφορετικά να µην κατατάσσονται στη c i : αν CSV i τ i, Φ(d i, c i ) = true, αν CSV i < τ i, Φ(d i, c i ) = false Ο ορισµός της συνάρτησης Οι επαγωγικές συναρτήσεις που κατασκευάζουν τον ταξινοµητή µπορούν να χωριστούν σε δύο κύριες κατηγορίες: στις παραµετρικές και στις µη παραµετρικές που µε τη σειρά τους χωρίζονται σε βασισµένες σε προφίλ και στις βασισµένες σε παραδείγµατα. Παραµετρικές συναρτήσεις Στις παραµετρικές συναρτήσεις τα δεδοµένα εκπαίδευσης χρησιµοποιούνται για να καθοριστούν οι παράµετροι µιας κατανοµής πιθανοτήτων. Κλασικό παράδειγµα είναι 18

19 ο Απλός ταξινοµητής Bayes (Naïve Bayes classifier). Η CSV συνάρτηση ορίζεται ως εξής: CSV i (d j ) = P(c i d j ) = [ P( c r y= 1 i t y ) P( t y d ) P( c j i t y ) P( t y d )] Κατά τη φάση εκπαίδευσης, υπολογίζονται οι τέσσερις πιθανότητες που χρησιµοποιούνται στην εξίσωση του γινοµένου. Συναρτήσεις βασισµένες σε προφίλ Σε αυτή την προσέγγιση, δηµιουργείται για κάθε κατηγορία το προφίλ της, υπό τη µορφή ενός διανύσµατος όρων µε βάρη, το οποίο υπολογίζεται από τα δεδοµένα εκπαίδευσης. Το προφίλ αυτό χρησιµοποιείται σαν ερώτηµα σε όλα τα κείµενα που πρέπει να ταξινοµηθούν και τα κείµενα που έχουν το µεγαλύτερο βαθµό οµοιότητας µε την κατηγορία c i ταξινοµούνται στην κατηγορία αυτή. Χωρίζονται στους επαυξητικούς (incremental) οι οποίοι δηµιουργούν τα προφίλ των κατηγοριών πριν αναλύσουν όλο το σύνολο εκπαίδευσης και αλλάζουν σταδιακά τα προφίλ διαβάζοντας νέα δεδοµένα, και στους ταξινοµητές συνόλου (batch) οι οποίοι δηµιουργούν τα προφίλ αναλύοντας συνολικά τα κείµενα εκπαίδευσης. Συναρτήσεις βασισµένες σε παραδείγµατα Οι συναρτήσεις βασισµένες σε παραδείγµατα δεν δηµιουργούν µια συγκεκριµένη, δηλωτική αναπαράσταση για κάθε κατηγορία, αλλά παρασιτούν στις αποφάσεις ταξινόµησης που έχουν πάρει οι ειδικοί για τα δεδοµένα εκπαίδευσης, όταν πρέπει να ταξινοµήσουν παρόµοια κείµενα. Τα συστήµατα αυτά χαρακτηρίζονται και ως οκνηρά (lazy) καθώς ουσιαστικά δεν περιλαµβάνουν τη φάση της εκπαίδευσης. Για παράδειγµα, ο αλγόριθµος k κοντινότερων γειτόνων (k nearest neighbours k-νν) όταν πρέπει να αποφασίσει αν ένα κείµενο d j ανήκει στην κατηγορία c i, εξετάζει που έχουν ταξινοµηθεί τα k πιο όµοια στο d j κείµενα από το σύνολο εκπαίδευσης. Αν µια ικανοποιητική αναλογία κειµένων εκπαίδευσης έχουν καταταχθεί στην c i, τότε η απόφαση για το d j είναι πως ανήκει στη c i, διαφορετικά η απόφαση είναι αρνητική. Καθορισµός των κατωφλίων Έχουν προταθεί αρκετές πολιτικές για τον καθορισµό του κατωφλίου. Μια πιθανή πολιτική είναι η κατωφλίωση της συνάρτησης CSV. Στην περίπτωση αυτή, το κατώφλι τ i, είναι µια τιµή της συνάρτησης CSV i. Έχει προταθεί ένα σταθερό τ ίδιο για όλες τις κατηγορίες αλλά παρατηρείται πως αυτό ίσως να οδηγεί στην κατάταξη όλων των εγγράφων στην κατηγορία c i και κανένα στην c j. Ύστερα χρησιµοποιήθηκαν διαφορετικά κατώφλια τ i για κάθε κατηγορία c i βάσει κανονικοποίησης. Τα αποτελέσµατά όµως δεν έδειξαν σηµαντικές διαφοροποιήσεις της αποδοτικότητας, ανάµεσα στις δύο αυτές εναλλακτικές. Επίσης, έχουν προταθεί διαφορετικές τιµές κατωφλίου για κάθε κατηγορία, οι οποίες βελτιστοποιήθηκαν ρυθµίζοντάς αυτές, έτσι ώστε να δίνουν τα καλύτερα αποτελέσµατα στο σύνολο ρύθµισης. Μια άλλη πολιτική κατωφλίωσης είναι η αναλογική κατωφλίωση (proportional thresholding). Στόχος της πολιτικής αυτής είναι ο καθορισµός του κατωφλίου τ ι, έτσι ώστε η γενικότητα του συνόλου δοκιµής g Te (c i ) της κατηγορίας c i να είναι όσο πιο j 19

20 κοντά στη γενικότητα του συνόλου εκπαίδευσης g Tr (c i ) της κατηγορίας αυτής. Η ιδέα αυτή βασίζεται στην λογική πως στα σύνολα εκπαίδευσης και δοκιµής, η αναλογία των κειµένων που ανήκουν στην κάθε κατηγορία είναι η ίδια. Ένα µειονέκτηµα της µεθόδου αυτής είναι πως δεν υποστηρίζει την ταξινόµηση βάσει κειµένου, καθώς αν το σύνολο των κειµένων δεν είναι διαθέσιµο από την αρχή, δεν µπορεί να υπολογιστεί η αναλογία των κειµένων της κάθε κατηγορίας. Μια άλλη πολιτική που έχει προταθεί είναι το ορισµένο κατώφλι (fixed threshold). Εφαρµόζεται σε περιπτώσεις που έχει οριστεί πως ένας συγκεκριµένος αριθµός k κατηγοριών, ίδιος για κάθε έγγραφο d j πρέπει να ανατεθεί σε κάθε d j. Σύµφωνα όµως µε τον αυστηρό ορισµό του κατωφλίου, η πολιτική του ορισµένου κατωφλίου δεν είναι κατωφλίωση, καθώς µπορεί να έχουµε την περίπτωση ένα κείµενο d j να καταταχθεί στην κατηγορία c i και ένα κείµενο d j να µην καταταχθεί στην c i και να ισχύει CSV i (d ) < CSV i (d) Μέτρηση απόδοσης των ταξινοµητών Όπως έχει αναφερθεί, ο επιστήµη της Ανάκτησης Πληροφορίας έχει δανείσει µεταξύ άλλων και τις µετρικές για την αξιολόγηση της αποδοτικότητας των ταξινοµητών. Παρακάτω αναλύονται οι έννοιες ακρίβειας (precision) π και της ανάκλησης (recall) ρ, προσαρµοσµένες στη θεωρία της κατηγοριοποίησης κειµένων. Ανάκληση και ακρίβεια Ένα σύστηµα ταξινόµησης κατά τη φάση της δοκιµής του παίρνει αποφάσεις κατάταξης κειµένων, τα οποία έχουν ήδη ταξινοµήσει ειδικοί του πεδίου. Η σχέση ανάµεσα στις αποφάσεις του συστήµατος και τις αποφάσεις των ειδικών για την κατηγορία c i, φαίνεται στον Πίνακα 2. Κατηγορία c i Απόφαση ειδικού: ΝΑΙ Απόφαση ειδικού: ΟΧΙ Απόφαση ταξινοµητή: ΝΑΙ TP i FP i Απόφαση ταξινοµητή: ΟΧΙ FN i TN i Πίνακας 2. Πίνακας αποτελεσµάτων Η ακρίβεια wrt c i (π i ) ορίζεται ως η κατά συνθήκη πιθανότητα P(Φ (d x, c i ) = T Φ(d x, c i ) = T), δηλαδή αναπαριστά την πιθανότητα δεδοµένης της απόφασης κατάταξης του ταξινοµητή, ενός τυχαίου κείµενου d x, η απόφαση αυτή να είναι σωστή. Παρόµοια, ανάκληση wrt c i (ρ i ) ορίζεται ως η κατά συνθήκη πιθανότητα P(Φ(d x, c i ) = T Φ (d x, c i ) = T), δηλαδή αναπαριστά την πιθανότητα, δεδοµένης της απόφασης του ειδικού για την κατάταξη του κειµένου d x στην κατηγορία c i, η απόφαση του ταξινοµητή να είναι η σωστή (το κείµενο να καταταχθεί στην κατηγορία c i ). Οι πιθανότητες αυτές µπορούν να υπολογιστούν µε τη βοήθεια του πίνακα αποτελεσµάτων (contingency matrix). Στον πίνακα αυτό, η τιµή TP i αναπαριστά τον αριθµό των θετικών παραδειγµάτων (True Positive) της κατηγορίας c i που ταξινοµήθηκαν σωστά δηλαδή το σύστηµα τα κατέταξε στην c i, η τιµή FP i αναπαριστά τον αριθµό των αρνητικών παραδειγµάτων της κατηγορίας c i που ταξινοµήθηκαν λάθος (False Positive) δηλαδή 20

21 το σύστηµα τα κατέταξε στην c i, η τιµή FN i αναπαριστά τον αριθµό των θετικών παραδειγµάτων της κατηγορίας c i που ταξινοµήθηκαν λάθος (False Negative) δηλαδή το σύστηµα δεν τα κατέταξε στην c i και τέλος η τιµή ΤΝ i αναπαριστά τον αριθµό των αρνητικών παραδειγµάτων (True Negative) της κατηγορίας c i που ταξινοµήθηκαν σωστά, δηλαδή το σύστηµα δεν τα κατέταξε στην c i. Οι εκτιµήσεις της ανάκλησης και της ακρίβειας δίνονται από: π i = ρ i = TP + FP i i TP TP + FN i TP i i i, Οι τιµές που αφορούν τις συγκεκριµένες κατηγορίες, µπορούν να ενοποιηθούν, για να προκύψει η συνολική ακρίβεια π και ανάκληση ρ του συστήµατος. Με την ορολογία της επιστήµης της λογικής, η ακρίβεια του συστήµατος µπορεί να θεωρηθεί σαν το µέτρο της ορθότητας (soundness) και η ανάκληση σαν το µέτρο της πληρότητας (completeness) του συστήµατος. Μπορούν να χρησιµοποιηθούν δύο τεχνικές για την εξαγωγή της συνολικής ακρίβειας και ανάκλησης του συστήµατος: ο µικροσυγκερασµός (microaveraging), όπου η ακρίβεια π µ και η ανάκληση ρ µ υπολογίζονται από το συνολικό άθροισµα των αποφάσεων του συστήµατος, δηλαδή TP π µ = = TP+ FP m i= 1 m i= 1 ( TP i TP i + FP ) i και ρ µ = TP TP+ FN i = m i= 1 m = 1 ( TP + FN ) i TP i i ο µακροσυγκερασµός (macroaveraging) όπου η ακρίβεια π και η ανάκληση ρ υπολογίζονται πρώτα για κάθε κατηγορία c i και η ακρίβεια π µ και η ανάκληση ρ µ του συστήµατος υπολογίζονται από το µέσο όρο των π i και ρ i δηλαδή: π Μ = m i =1 π i m και ρ Μ = m i =1 ρi m Σύνολο κατηγοριών C = {c 1, c 2,, c m } Απόφαση ταξινοµητή: ΝΑΙ Απόφαση ταξινοµητή: ΟΧΙ Απόφαση ειδικού: ΝΑΙ TP = = m i 1 FN = = m i 1 TP i FN i Απόφαση ειδικού: ΟΧΙ FP = = m i 1 FP m TN = = TN i 1 i i 21

22 Πρέπει να τονίσουµε ότι οι δύο αυτοί µέθοδοι µπορεί να δώσουν αρκετά διαφορετικά αποτελέσµατα της συνολικής ακρίβειας και ανάκλησης του συστήµατος. Αυτό συµβαίνει ειδικά σε περιπτώσεις όπου οι κατηγορίες έχουν διαφορετική γενικότητα. Για παράδειγµα, αν ο ταξινοµητής έχει υψηλό επίπεδο ακρίβειας σε µια κατηγορία µε µικρή γενικότητα, κατηγορία δηλαδή που αποτελείται από λίγα έγγραφα, η συνολική ακρίβεια του συστήµατος που θα προκύψει µε µακροσυγκερασµό θα είναι πιθανότατα υψηλότερη από την ακρίβεια που θα προκύψει µε µικροσυγκερασµό. Στην ακαδηµαϊκή κοινότητα, δεν υπάρχει συµφωνία ποια µέθοδος είναι η καταλληλότερη, καθώς οι θιασώτες του µακροσυγκερασµού υποστηρίζουν πως ο µικροσυγκερασµός είναι παραπλανητικός, καθώς δίνει µεγαλύτερη βαρύτητα στις κατηγορίες µε µεγάλη γενικότητα, ενώ άλλοι πιστεύουν ότι όντως, οι κατηγορίες πρέπει να συµβάλουν στον υπολογισµό της συνολικής επίδοσης του συστήµατος ανάλογα µε τη συχνότητά τους. Για τον υπολογισµό της απόδοσης του ταξινοµητή, οι δείκτες της ανάκλησης και της ακρίβειας δεν µπορούν να χρησιµοποιηθούν αποµονωµένα. Είναι εύκολο για παράδειγµα να κατασκευαστεί ένας ταξινοµητής που θα έχει 100% ανάκληση για κάθε κατηγορία c. Απλά θέτοντας το κατώφλι τ i στο 0, όλα τα κείµενα θα κατατάσσονταν στην c i αυτή και άρα θα είχε ανάκληση ρ ι = 100%. Η ακρίβεια του συστήµατος όµως θα ήταν πολύ χαµηλή και πιο συγκεκριµένα θα ήταν ο µέσος όρος των γενικοτήτων των κατηγοριών. Συνεπώς υπάρχει ανάγκη για εξέταση των δύο αυτών δεικτών σε συνδυασµό, ώστε να εξασφαλιστεί µια µη τετριµµένη και ουσιαστική αξιολόγηση της αποτελεσµατικότητας ενός ταξινοµητή. Ένα κοινό µέτρο που χρησιµοποιείται συχνά για τη σύγκριση τέτοιων συστηµάτων είναι το σηµείο εξισορρόπησης ή το σηµείο ισορροπίας (break-even point), µεταξύ της ανάκλησης και της ακρίβειας, Η ιδέα είναι να ρυθµιστούν οι παράµετροι του συστήµατος (π.χ. το κατώφλι) κατά τέτοιο τρόπο ώστε η τιµή της ανάκλησης του συστήµατος να είναι ταυτόσηµη µε την ακρίβειά του. Όσο µεγιστοποιείται η τιµή αυτή, τόσο µεγαλύτερη είναι η αποτελεσµατικότητα του συστήµατος. Ένα βασικό µειονέκτηµα της µεθόδου αυτής είναι πως οι τιµές της ανάκλησης και της ακρίβειας δεν γίνεται πάντα να είναι οι ίδιες. Στην περίπτωση αυτή υπολογίζεται το κατώφλι εκείνο που η ακρίβεια και η ανάκληση έχουν τη µικρότερη διαφορά. Ένα ακόµη µέτρο που χρησιµοποιείται για την αποτελεσµατικότητα του συστήµατος και συνδυάζει την ακρίβεια µε την ανάκληση προτάθηκε από τον Van Rijsbergen και είναι ένα σύνολο δεικτών µέτρησης που παραµετροποιούνται βάσει µιας τιµής β, 0 β +, όπου απεικονίζει τη σχετική σηµασία που δίνεται στην ανάκληση και στην ακρίβεια 2 ( β + 1) ρ π F β = 2 β π + ρ Αν β = 0 τότε η τιµή της F β ταυτίζεται µε την ακρίβεια του συστήµατος ενώ αν β τείνει στο + η F β ταυτίζεται µε την ανάκληση. Όταν θεωρείται ότι ανάκληση και ακρίβεια έχουν την ίδια σηµασία, το β παίρνει την τιµή 1 και η F παίρνει τη µορφή F 1 = 2 ρ π, π + ρ Μόλις επιλεγεί το µέτρο αξιολόγησης της αποτελεσµατικότητας του συστήµατος, οι παράµετροι του ταξινοµητή ρυθµίζονται κατάλληλα, έτσι ώστε η απόδοση να είναι η 22

23 καλύτερη δυνατή. Η ρύθµιση µιας παραµέτρου p γίνεται πειραµατικά, µε τη βοήθεια του συνόλου ρύθµισης. Ουσιαστικά, γίνονται διαδοχικά πειράµατα µε το σύνολο ρύθµισης, όπου η παράµετρος p παίρνει τις διάφορες τιµές και οι άλλες παράµετροι παραµένουν σταθερές (στην προκαθορισµένη τιµή, αν δεν έχουν ακόµη ρυθµιστεί, ή στην βέλτιστη τιµή τους, αν έχει γίνει η διαδικασία της ρύθµισης). Συνεπώς, οι παράµετροι ρυθµίζονται ξεχωριστά και στο τέλος της διαδικασίας προκύπτει ο ταξινοµητής µε την καλύτερη δυνατή απόδοση. 2.7 Παραδείγµατα ταξινοµητών Ταξινοµητές Bayes Η λογική του Bayes είναι ιδιαίτερα χρήσιµη σε ταξινοµητές που χειρίζονται πιθανότητες, αλλά αποτελεί και ένα συγκριτικό πλαίσιο για την ανάλυση των µηχανισµών αλγορίθµων που δεν χειρίζονται άµεσα πιθανότητες, καθώς είναι µια προσέγγιση βασισµένη στη θεωρία των πιθανοτήτων. Είναι σηµαντική για τη Μηχανική Μάθηση καθώς παρέχει µια ποσοτική µέθοδο στην αξιολόγηση των βαρών των διάφορων υποθέσεων. Βασίζεται στο θεώρηµα του Bayes: P(h D) = P( D h) P( h) P( D) Τα χαρακτηριστικά των µεθόδων που χρησιµοποιούν µάθηση κατά Bayes είναι: Κάθε παράδειγµα εκπαίδευσης µπορεί σταδιακά να µεταβάλει την πιθανότητα µια υπόθεση να είναι σωστή, αυξάνοντας ή µειώνοντάς τη. Αυτή είναι µια πιο ευέλικτη τακτική, σε σχέση µε τους αλγόριθµους που απορρίπτουν ολοκληρωτικά µια υπόθεση αν βρεθεί πως είναι ασυνεπής µε κάποιο παράδειγµα. Η προηγούµενη γνώση µπορεί να συνδυαστεί µε τα δεδοµένα εκπαίδευσης για να καθορίσει την οριστική πιθανότητα µιας υπόθεσης. Η προηγούµενη γνώση παρέχεται από τον ορισµό µιας αρχικής πιθανότητας σε κάθε υποψήφια υπόθεση και από τον ορισµό µιας κατανοµής πιθανοτήτων στα δεδοµένα εκπαίδευσης, για κάθε πιθανή υπόθεση. Οι µέθοδοι κατά Bayes µπορούν να χειριστούν υποθέσεις που κάνουν πιθανοτικές προβλέψεις (π.χ. αυτός ο ασθενής που πάσχει από πνευµονία έχει 93% πιθανότητες ανάρρωσης) Νέα δεδοµένα µπορούν να ταξινοµηθούν συνδυάζοντας τις προβλέψεις των υποθέσεων σταθµισµένες µε τις πιθανότητές τους Ακόµη και στις περιπτώσεις που η µάθηση κατά Bayes αποδειχθεί υπολογιστικά δύσκολη, µπορεί να παρέχει ένα µέτρο βέλτιστης λήψης απόφασης, βάσει του οποίου άλλες µέθοδοι µπορούν να αξιολογηθούν. Μια πρακτική δυσκολία στην εφαρµογή της µάθησης κατά Bayes είναι πως απαιτεί αρχική γνώση πολλών πιθανοτήτων, δεσµευµένων και όχι. Όταν αυτές οι τιµές δεν είναι γνωστές εκ των προτέρων, συνήθως δίδεται µια εκτίµησή τους από παλαιότερη γνώση. Μια ακόµη πρακτική δυσκολία εφαρµογής αφορά το σηµαντικό κόστος σε υπολογιστικές µονάδες, που απαιτείται για τον καθορισµό της βέλτιστης υπόθεσης. 23

24 Μια απλουστευµένη εκδοχή της µάθησης κατά Bayes, ο απλός Bayes (naive Bayes) προσπερνά τις δυσκολίες αυτές θεωρώντας ότι τα χαρακτηριστικά που χρησιµοποιούνται ως τιµές εισόδου είναι ανεξάρτητα µεταξύ τους ένδρα απόφασης Τα δέντρα απόφασης είναι µια µέθοδος για τον προσδιορισµό συναρτήσεων στόχων (target functions) διακριτών τιµών στην οποία η συνάρτηση µάθησης αναπαριστάται από ένα δένδρο απόφασης. Τα δέντρα απόφασης χρησιµοποιούνται για να προβλέψουν την τιµή της µεταβλητής που µοντελοποιούν, µε κάποια ακρίβεια, βάσει των τιµών των θεωρούµενων ανεξάρτητων µεταβλητών. Κάθε κόµβος του δέντρου αντιπροσωπεύει έναν έλεγχο πάνω σε ένα χαρακτηριστικό του δεδοµένου, και κάθε κλαδί που προέρχεται από τον κόµβο αυτό αντιπροσωπεύει µια πιθανή τιµή του χαρακτηριστικού. Ένα δεδοµένο, ταξινοµείται ακολουθώντας τα κλαδιά του δέντρου από τη ρίζα προς τα φύλλα µε γνώµονα τις τιµές των ανεξάρτητων µεταβλητών. Ξεκινώντας δηλαδή από τη ρίζα, ελέγχεται η τιµή του χαρακτηριστικού που αντιπροσωπεύει ο κόµβος και ακολουθείται το κλαδί που έχει την τιµή εκείνη που αντιστοιχεί στην τιµή του δεδοµένου. Η διαδικασία ολοκληρώνεται µόλις φτάσουµε σε ένα φύλλο του δέντρου. Γνωστοί αλγόριθµοι που χρησιµοποιούν δέντρα απόφασης είναι ο ID3 και ο απόγονός του C4.5 [Mietchel, 1997] Τεχνητά Νευρωνικά ίκτυα Τα Τεχνητά Νευρωνικά ίκτυα ΤΝ είναι συστήµατα επεξεργασίας δεδοµένων που αποτελούνται από ένα πλήθος τεχνητών νευρώνων οργανωµένων σε δοµές παρόµοιες µε αυτές του ανθρώπινου εγκεφάλου. Είναι εφαρµογή της µη-συµβολικής Τεχνητής Νοηµοσύνης, καθώς στόχος της είναι να προσοµοιώσει βιολογικές διεργασίες και πιο συγκεκριµένα τη λειτουργία του εγκεφάλου. Η µη-συµβολική Τεχνητή Νοηµοσύνη αντιτάσσεται στη συµβολική Τεχνητή Νοηµοσύνη, που προσοµοιώνει τον τρόπο σκέψης χρησιµοποιώντας σαν δοµικές µονάδες τα σύµβολα. Συνήθως οι τεχνητοί νευρώνες οργανώνονται σε µια σειρά από επίπεδα. Οι νευρώνες των διαφόρων στρωµάτων µπορεί να είναι πλήρως ή µερικώς συνδεδεµένοι. Πλήρως συνδεδεµένοι ονοµάζονται εκείνοι που συνδέονται µε όλους τους νευρώνες του επόµενου επιπέδου, ενώ όλοι οι άλλοι ονοµάζονται µερικώς συνδεδεµένοι. Όταν δεν υπάρχουν συνδέσεις µεταξύ νευρώνων ενός επιπέδου και νευρώνων του προηγούµενου επιπέδου, δηλαδή όταν η ροή πληροφορίας είναι µιας κατεύθυνσης τα ΤΝ ονοµάζονται δίκτυα µε απλή ανατροφοδότηση. Στην αντίθετη περίπτωση καθώς και στην περίπτωση που υπάρχουν συνδέσεις µεταξύ νευρώνων του ίδιου επιπέδου τα ΤΝ χαρακτηρίζονται ως δίκτυα µε ανατροφοδότηση [Βλαχάβας et al., 2002]. Τα ΤΝ έχουν τα χαρακτηριστικά: Της ικανότητας να µαθαίνουν µέσω παραδειγµάτων. Αν και δεν είναι τα µόνα συστήµατα που µαθαίνουν µέσω παραδειγµάτων, διακρίνονται για την ικανότητά τους να οργανώνουν την πληροφορία εισόδου σε χρήσιµες µορφές Της δυνατότητας θεώρησής τους σαν κατανεµηµένη µνήµη και σαν µνήµη συσχέτισης. Η πληροφορία που κωδικοποιούν είναι κατανεµηµένη σε όλο το δίκτυο και τα δεδοµένα που αποθηκεύονται συσχετίζονται µεταξύ τους. Η 24

25 φάση ανάκλησης της πληροφορίας, γίνεται βάσει του περιεχοµένου και όχι τη διεύθυνση. Της µεγάλης τους ανοχής σε σφάλµατα. Η κακή λειτουργία ή η καταστροφή ενός νευρώνα δεν διαταράσσει σηµαντικά την απόδοση του συστήµατος, καθώς η πληροφορία είναι κατανεµηµένη σε όλο του δίκτυο, και Της ικανότητάς τους για αναγνώριση προτύπων, καθώς δεν επηρεάζονται από δεδοµένα µε θόρυβο Μηχανές βοηθητικών διανυσµάτων Οι Μηχανές Βοηθητικών ιανυσµάτων (Support Vector Machines SVMs) είναι µια σχετικά νέα µέθοδος µηχανικής µάθησης. Προτάθηκε από τον Vapnik το 1995 [Vapnik, 1995] και αναλύθηκε ως προς την κατηγοριοποίηση κειµένων από τον Joachims [Joachims, 1998, Joachims, 1999]. Στηρίζεται στην αρχή της οµικής Ελαχιστοποίησης Κινδύνου (Structural Risk Minimization) της θεωρίας της υπολογιστικής µάθησης. Έστω δύο κατηγορίες κειµένων που είναι γραµµικά διαχωρίσιµες. Στο σύνολο εκπαίδευσης, κάθε κείµενο είτε θα ανήκει στην πρώτη είτε στη δεύτερη κατηγορία. Θέλουµε να βρούµε, ανάµεσα στους άπειρους γραµµικούς ταξινοµητές που διαχωρίζουν τα δεδοµένα, τον ταξινοµητή εκείνο που ελαχιστοποιεί το σφάλµα γενίκευσης, ή τουλάχιστον ένα άνω όριό του. Με γεωµετρικούς όρους, τα SVMs προσπαθούν να βρουν, ανάµεσα σε όλες τις περιοχές του Τ- διάστατου χώρου που διαχωρίζουν τα θετικά από τα αρνητικά παραδείγµατα εκπαίδευσης, την περιοχή εκείνη που διαχωρίζει τα αρνητικά από τα θετικά παραδείγµατα µε το ευρύτερο περιθώριο (margin). Το υπερπλάνο µε αυτή την ιδιότητα, είναι αυτό που αφήνει το µέγιστο περιθώριο ανάµεσα στις δύο κλάσεις, όπου σαν περιθώριο ορίζεται σαν το άθροισµα των αποστάσεων του υπερπλάνου από το κοντινότερο σηµείο της καθεµίας κλάσης. Αν οι δύο κλάσεις δεν διαχωρίζονται γραµµικά, η SVM ψάχνει το υπερπλάνο εκείνο που αφ ενός µεγιστοποιεί το περιθώριο και αφ ετέρου ελαχιστοποιεί µια ποσότητα ανάλογη του αριθµού των σφαλµάτων ταξινόµησης. ίνοντας πιο τυπική περιγραφή, η ιδέα της δοµικής ελαχιστοποίησης κινδύνου είναι η εύρεση µιας υπόθεσης h για την οποία µπορεί να εγγυηθεί το ελάχιστο σφάλµα αλήθειας (true error). Το σφάλµα αλήθειας της h είναι η πιθανότητα η h να κάνει λάθος σε ένα νέο και τυχαία επιλεγµένο κείµενο δοκιµής. Το άνω όριο που ακολουθεί, συνδέει το σφάλµα αλήθειας της υπόθεσης h µε το σφάλµα της h στο σύνολο εκπαίδευσης και την πολυπλοκότητα της h P(error(h)) train_error(h) + 2 2n n d(ln + 1) ln δ 4 n Το όριο ισχύει για πιθανότητες τουλάχιστον 1-n, όπου το ν δηλώνει τον αριθµό των δεδοµένων εκπαίδευσης και το δ είναι η VC- ιάσταση (VCdim) που είναι µια ιδιότητα του χώρου της υπόθεσης και δηλώνει την εκφραστικότητά της. Η συνάρτηση αντανακλά τη διελκυστίνδα ανάµεσα στην πολυπλοκότητα του χώρου της υπόθεσης και στο σφάλµα εκπαίδευσης. Ένας απλός χώρος υπόθεσης (χαµηλό VCdim) πιθανώς δεν θα περιέχει καλές συναρτήσεις προσέγγισης και θα οδηγήσει σε ένα υψηλό σφάλµα εκπαίδευσης και αλήθειας. Από την άλλη πλευρά, ένας πολύ πλούσιος 25

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΙΟΙΚΗΣΗ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ιδάσκων:

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις Παρασκευή 9 Ιανουαρίου 2007 5:00-8:00 εδοµένου ότι η

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων ΟΝΟΜΑΤΕΠΩΝΥΜΟ: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ AM: Δοµές Δεδοµένων Εξεταστική Ιανουαρίου 2014 Διδάσκων : Ευάγγελος Μαρκάκης 20.01.2014 ΥΠΟΓΡΑΦΗ ΕΠΟΠΤΗ: Διάρκεια εξέτασης : 2 ώρες και

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 2 Οκτωβρίου 23 ιάρκεια: 2 ώρες Έστω το παρακάτω γραµµικώς

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 26 Ιανουαρίου 2004 ιάρκεια: 2 ώρες (9:00-:00) Στην παρακάτω

Διαβάστε περισσότερα

Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα

Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα Τµήµα Διοίκησης Επιχειρήσεων Τει Δυτικής Ελλάδας Μεσολόγγι Δρ. Α. Στεφανή Διάλεξη 5 2 Εγκυροποίηση Λογισµικού Εγκυροποίηση Λογισµικού

Διαβάστε περισσότερα

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Απλή Ταξινόμηση 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 11/11/2016 Εισαγωγή Η

Διαβάστε περισσότερα

6. Στατιστικές μέθοδοι εκπαίδευσης

6. Στατιστικές μέθοδοι εκπαίδευσης 6. Στατιστικές μέθοδοι εκπαίδευσης Μία διαφορετική μέθοδος εκπαίδευσης των νευρωνικών δικτύων χρησιμοποιεί ιδέες από την Στατιστική Φυσική για να φέρει τελικά το ίδιο αποτέλεσμα όπως οι άλλες μέθοδοι,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 2 Σεπτεµβρίου 2005 5:00-8:00 Σχεδιάστε έναν αισθητήρα ercetro

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 17η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Artificia Inteigence A Modern Approach των S. Russe και

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης Ειρήνη Καλδέλη ιπλωµατική Εργασία Περίληψη Εισαγωγή Τα τελευταία χρόνια η αλµατώδης ανάπτυξη της πληροφορικής έχει διευρύνει σε σηµαντικό βαθµό

Διαβάστε περισσότερα

Θεωρία Λήψης Αποφάσεων

Θεωρία Λήψης Αποφάσεων Θεωρία Λήψης Αποφάσεων Ενότητα 2: Θεωρία Απόφασης του Bayes Μπεληγιάννης Γρηγόριος Σχολή Οργάνωσης και Διοίκησης Επιχειρήσεων Τμήμα Διοίκησης Επιχειρήσεων Αγροτικών Προϊόντων & Τροφίμων (Δ.Ε.Α.Π.Τ.) Θεωρία

Διαβάστε περισσότερα

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Ένα από τα γνωστότερα παραδείγματα των ΕΑ είναι ο Γενετικός

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΕΠΛ 035 - ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΓΙΑ ΗΛΕΚΤΡΟΛΟΓΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΚΑΙ ΜΗΧΑΝΙΚΟΥΣ ΥΠΟΛΟΓΙΣΤΩΝ Ακαδηµαϊκό έτος 2017-2018 Υπεύθυνος εργαστηρίου: Γεώργιος

Διαβάστε περισσότερα

ΗΥ240: οµές εδοµένων Χειµερινό Εξάµηνο Ακαδηµαϊκό Έτος Παναγιώτα Φατούρου. Προγραµµατιστική Εργασία 3 ο Μέρος

ΗΥ240: οµές εδοµένων Χειµερινό Εξάµηνο Ακαδηµαϊκό Έτος Παναγιώτα Φατούρου. Προγραµµατιστική Εργασία 3 ο Μέρος Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών 6 εκεµβρίου 2008 ΗΥ240: οµές εδοµένων Χειµερινό Εξάµηνο Ακαδηµαϊκό Έτος 2008-09 Παναγιώτα Φατούρου Προγραµµατιστική Εργασία 3 ο Μέρος Ηµεροµηνία Παράδοσης:

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

«Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης»

«Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης» «Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης» Η ιπλωµατική Εργασία παρουσιάστηκε ενώπιον του ιδακτικού Προσωπικού του Πανεπιστηµίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για το

Διαβάστε περισσότερα

Αλγόριθµοι και Πολυπλοκότητα

Αλγόριθµοι και Πολυπλοκότητα Αλγόριθµοι και Πολυπλοκότητα Ν. Μ. Μισυρλής Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών Καθηγητής: Ν. Μ. Μισυρλής () Αλγόριθµοι και Πολυπλοκότητα 15 Ιουνίου 2009 1 / 26 Εισαγωγή Η ϑεωρία

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΟΜΑ Α ΑΣΚΗΣΕΩΝ ΑΣΚΗΣΗ Στην εικόνα παρακάτω φαίνεται ένα νευρωνικό

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Εισαγωγή Παρουσιάστηκε από τον Thomas L. Saaty τη δεκαετία του 70 Μεθοδολογία που εφαρμόζεται στην περιοχή των Multicriteria Problems Δίνει

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΑΘΗΜΑ 2 ΑΝΑΠΑΡΑΣΤΑΣΗ - ΤΕΧΝΙΚΕΣ ΤΝ (1)

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΑΘΗΜΑ 2 ΑΝΑΠΑΡΑΣΤΑΣΗ - ΤΕΧΝΙΚΕΣ ΤΝ (1) ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΑΘΗΜΑ 2 ΑΝΑΠΑΡΑΣΤΑΣΗ - ΤΕΧΝΙΚΕΣ ΤΝ (1) 2. ΑΝΑΠΑΡΑΣΤΑΣΗ ΠΡΟΒΛΗΜΑΤΟΣ H υλοποίηση ενός προβλήµατος σε σύστηµα Η/Υ που επιδεικνύει ΤΝ 1 απαιτεί: Την κατάλληλη περιγραφή του προβλήµατος

Διαβάστε περισσότερα

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο Πρόβλημα ο Ασκήσεις Φροντιστηρίου 5 o Φροντιστήριο Δίνεται το παρακάτω σύνολο εκπαίδευσης: # Είσοδος Κατηγορία 0 0 0 Α 2 0 0 Α 0 Β 4 0 0 Α 5 0 Β 6 0 0 Α 7 0 Β 8 Β α) Στον παρακάτω κύβο τοποθετείστε τα

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Ασάφεια (Fuzziness) Ποσοτικοποίηση της ποιοτικής πληροφορίας Οφείλεται κυρίως

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι Κατανεμημένα Συστήματα Ι Εκλογή αρχηγού και κατασκευή BFS δένδρου σε σύγχρονο γενικό δίκτυο Παναγιώτα Παναγοπούλου Περίληψη Εκλογή αρχηγού σε γενικά δίκτυα Ορισμός του προβλήματος Ο αλγόριθμος FloodMax

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

Υπολογιστικό Πρόβληµα

Υπολογιστικό Πρόβληµα Υπολογιστικό Πρόβληµα Μετασχηµατισµός δεδοµένων εισόδου σε δεδοµένα εξόδου. Δοµή δεδοµένων εισόδου (έγκυρο στιγµιότυπο). Δοµή και ιδιότητες δεδοµένων εξόδου (απάντηση ή λύση). Τυπικά: διµελής σχέση στις

Διαβάστε περισσότερα

Κατώτερα φράγματα Κατώτερο φράγμα: εκτίμηση της ελάχιστης εργασίας που απαιτείται για την επίλυση ενός προβλήματος. Παραδείγματα: Αριθμός συγκρίσεων π

Κατώτερα φράγματα Κατώτερο φράγμα: εκτίμηση της ελάχιστης εργασίας που απαιτείται για την επίλυση ενός προβλήματος. Παραδείγματα: Αριθμός συγκρίσεων π Περιορισμοί Αλγοριθμικής Ισχύος Κατηγοριοποίηση πολυπλοκοτήτων Κατώτερα φράγματα Κατώτερο φράγμα: εκτίμηση της ελάχιστης εργασίας που απαιτείται για την επίλυση ενός προβλήματος. Παραδείγματα: Αριθμός

Διαβάστε περισσότερα

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της;

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της; 1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες (μορφές) της; Η δομή επανάληψης χρησιμοποιείται όταν μια σειρά εντολών πρέπει να εκτελεστεί σε ένα σύνολο περιπτώσεων, που έχουν κάτι

Διαβάστε περισσότερα

1.4 Λύσεις αντιστρόφων προβλημάτων.

1.4 Λύσεις αντιστρόφων προβλημάτων. .4 Λύσεις αντιστρόφων προβλημάτων. Ο τρόπος παρουσίασης της λύσης ενός αντίστροφου προβλήµατος µπορεί να διαφέρει ανάλογα µε τη «φιλοσοφία» επίλυσης που ακολουθείται και τη δυνατότητα παροχής πρόσθετης

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ Ταξινομητές Ταξινομητές συναρτ. διάκρισης Ταξινομητές επιφανειών απόφ. Παραμετρικοί ταξινομητές Μη παραμετρικοί

Διαβάστε περισσότερα

οµή δικτύου ΣΧΗΜΑ 8.1

οµή δικτύου ΣΧΗΜΑ 8.1 8. ίκτυα Kohonen Το µοντέλο αυτό των δικτύων προτάθηκε το 1984 από τον Kοhonen, και αφορά διαδικασία εκµάθησης χωρίς επίβλεψη, δηλαδή δεν δίδεται καµία εξωτερική επέµβαση σχετικά µε τους στόχους που πρέπει

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο Εισαγωγικές Έννοιες ημήτρης Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Άδεια Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής Περιεχόµενα Κατηγορίες Π.Σ. ιαχείρισης Πράξεων ιοίκησης Υποστήριξης Αποφάσεων Έµπειρα Συστήµατα Ατόµων και Οµάδων Ο κύκλος ζωής Π.Σ. Ορισµός Φάσεις Χρήστες

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 7 Ιανουαρίου 2005 ιάρκεια εξέτασης: 5:00-8:00 Έστω ότι

Διαβάστε περισσότερα

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών ΗΥ-6 Συστήµατα Ανάκτησης Πληροφοριών 7-8 Εαρινό Εξάµηνο Άσκηση Λύσεις ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Θεωρείστε µια

Διαβάστε περισσότερα

Σύστηµα Προσαρµοστικής. Μαθητών Ε' & ΣΤ' ηµοτικού (ενότητα: Λογιστικά Φύλλα) Παρταλάς Σωκράτης M27/11

Σύστηµα Προσαρµοστικής. Μαθητών Ε' & ΣΤ' ηµοτικού (ενότητα: Λογιστικά Φύλλα) Παρταλάς Σωκράτης M27/11 ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Σύστηµα Προσαρµοστικής Μάθησης για την Αξιολόγηση Μαθητών Ε' & ΣΤ' ηµοτικού (ενότητα: Λογιστικά Φύλλα) Παρταλάς Σωκράτης M27/11 Προβλήµατα

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016 ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Ψηφιακή Ανάλυση Εικόνας Η ψηφιακή ανάλυση εικόνας ασχολείται κυρίως με τέσσερις βασικές λειτουργίες: διόρθωση, βελτίωση, ταξινόμηση Με τον όρο ταξινόμηση εννοείται

Διαβάστε περισσότερα

ΣΥΣΤHΜΑΤΑ ΑΠΟΦAΣΕΩΝ ΣΤΗΝ ΠΑΡΑΓΩΓH

ΣΥΣΤHΜΑΤΑ ΑΠΟΦAΣΕΩΝ ΣΤΗΝ ΠΑΡΑΓΩΓH ΣΥΣΤHΜΑΤΑ ΑΠΟΦAΣΕΩΝ ΣΤΗΝ ΠΑΡΑΓΩΓH Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Η/Υ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Διοίκηση Παραγωγής & Συστημάτων Υπηρεσιών ΕΡΓΑΣΤΗΡΙΟ ΣΥΣΤΗΜΑΤΩΝ ΑΠΟΦΑΣΕΩΝ ΚΑΙ ΔΙΟΙΚΗΣΗΣ Περιεχόμενα

Διαβάστε περισσότερα

x=l ηλαδή η ενέργεια είναι µία συνάρτηση της συνάρτησης . Στα µαθηµατικά, η συνάρτηση µίας συνάρτησης ονοµάζεται συναρτησιακό (functional).

x=l ηλαδή η ενέργεια είναι µία συνάρτηση της συνάρτησης . Στα µαθηµατικά, η συνάρτηση µίας συνάρτησης ονοµάζεται συναρτησιακό (functional). 3. ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟ ΟΥΣ Η Μέθοδος των Πεπερασµένων Στοιχείων Σηµειώσεις 3. Ενεργειακή θεώρηση σε συνεχή συστήµατα Έστω η δοκός του σχήµατος, µε τις αντίστοιχες φορτίσεις. + = p() EA = Q Σχήµα

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά και Πληροφορικής Μαθηματικά Πανεπιστήμιο ΙΙ Ιωαννίνων

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 1 M = 1 N = N prob k N k { k n ω wrongly classfed} = (1 ) N k 2 Η συνάρτηση πιθανοφάνειας L(p) μεγιστοποιείται όταν =k/n. 3 Αφού τα s είναι άγνωστα,

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 16 ης διάλεξης

Ασκήσεις μελέτης της 16 ης διάλεξης Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 16 ης διάλεξης 16.1. (α) Έστω ένα αντικείμενο προς κατάταξη το οποίο

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Πίνακες 45 23 28 95 71 19 30 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 12/10/2017

Διαβάστε περισσότερα

Γραµµικοί Ταξινοµητές

Γραµµικοί Ταξινοµητές ΚΕΣ 3: Αναγνώριση Προτύπων και Ανάλυση Εικόνας KEΣ 3 Αναγνώριση Προτύπων και Ανάλυση Εικόνας Γραµµικοί Ταξινοµητές ΤµήµαΕπιστήµης και Τεχνολογίας Τηλεπικοινωνιών Πανεπιστήµιο Πελοποννήσου 7 Ncolas sapatsouls

Διαβάστε περισσότερα

Ελληνικό Ανοικτό Πανεπιστήµιο Σπουδές στην Πληροφορική. Φαινόµενα πολυπλοκότητας στα Μαθηµατικά και στη Φυσική: ύο όψεις του ίδιου νοµίσµατος;

Ελληνικό Ανοικτό Πανεπιστήµιο Σπουδές στην Πληροφορική. Φαινόµενα πολυπλοκότητας στα Μαθηµατικά και στη Φυσική: ύο όψεις του ίδιου νοµίσµατος; Ελληνικό Ανοικτό Πανεπιστήµιο Σπουδές στην Πληροφορική Φαινόµενα πολυπλοκότητας στα Μαθηµατικά και στη Φυσική: ύο όψεις του ίδιου νοµίσµατος; Γιάννης Κ. Σταµατίου ΣΕΠ ΠΛΗ 10 Πάτρα, Ιουνιος 2003 οµή και

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ (Οι ερωτήσεις µε κίτρινη υπογράµµιση είναι εκτός ύλης για φέτος) ΕΙΣΑΓΩΓΗ Q1. Οι Πρωταρχικοί τύποι (primitive types) στη Java 1. Είναι όλοι οι ακέραιοι και όλοι οι πραγµατικοί

Διαβάστε περισσότερα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ΤµήµαΕφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας Θεσσαλονίκη Ιούνιος 2006 εισαγωγικού µαθήµατος προγραµµατισµού υπολογιστών.

Διαβάστε περισσότερα

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή Στην ενότητα αυτή θα µελετηθούν τα εξής επιµέρους θέµατα: Εισαγωγή στις έννοιες Αλγόριθµοι και Πολυπλοκότητα, Οργάνωση Δεδοµένων και Δοµές Δεδοµένων Χρήσιµοι µαθηµατικοί

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο 2

Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο 2 Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο 2 1. Ο αλγόριθμος είναι απαραίτητος μόνο για την επίλυση προβλημάτων Πληροφορικής 2. Ο αλγόριθμος αποτελείται από ένα πεπερασμένο σύνολο εντολών 3. Ο αλγόριθμος

Διαβάστε περισσότερα

Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής

Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής Ειδικά Θέματα Συνορθώσεων & Εφαρμογές 8 ο εξάμηνο, Ακαδημαϊκό έτος 2018-2019 Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής (Least squares collocation) Χριστόφορος Κωτσάκης Τμήμα Αγρονόμων

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Επίλυση προβληµάτων. Περιγραφή προβληµάτων Αλγόριθµοι αναζήτησης Αλγόριθµοι τυφλής αναζήτησης Αλγόριθµοι ευρετικής αναζήτησης

Επίλυση προβληµάτων. Περιγραφή προβληµάτων Αλγόριθµοι αναζήτησης Αλγόριθµοι τυφλής αναζήτησης Αλγόριθµοι ευρετικής αναζήτησης Επίλυση προβληµάτων Περιγραφή προβληµάτων Αλγόριθµοι αναζήτησης Αλγόριθµοι τυφλής αναζήτησης Αλγόριθµοι ευρετικής αναζήτησης! Παιχνίδια δύο αντιπάλων Προβλήµατα ικανοποίησης περιορισµών Γενικά " Ντετερµινιστικά

Διαβάστε περισσότερα

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ Βασίλης Δ. Ανδριτσάνος Δρ. Αγρονόμος - Τοπογράφος Μηχανικός ΑΠΘ Επίκουρος Καθηγητής ΤΕΙ Αθήνας 3ο εξάμηνο http://eclass.teiath.gr Παρουσιάσεις,

Διαβάστε περισσότερα

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής Ειδικά Θέματα Συνορθώσεων & Εφαρμογές 8 ο εξάμηνο, Ακαδημαϊκό έτος 2016-2017 Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής (Least squares collocation) Χριστόφορος

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: μέθοδοι μονοδιάστατης ελαχιστοποίησης Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 6 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ ΜΕΡΟΣ ΙΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ 36 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ Πολλές από τις αποφάσεις

Διαβάστε περισσότερα

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Αλγόριθµοι Ευθυγράµµισης Τρισδιάστατων Αντικειµένων Τµήµα Πληροφορικής και Τηλεπικοινωνιών Εθνικό & Καποδιστριακό Πανεπιστήµιο Αθηνών 20 Οκτωβρίου 2005 Εισαγωγή

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Εφαρμογές Προσομοίωσης

Εφαρμογές Προσομοίωσης Εφαρμογές Προσομοίωσης H προσομοίωση (simulation) ως τεχνική μίμησης της συμπεριφοράς ενός συστήματος από ένα άλλο σύστημα, καταλαμβάνει περίοπτη θέση στα πλαίσια των εκπαιδευτικών εφαρμογών των ΤΠΕ. Μπορούμε

Διαβάστε περισσότερα

Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων

Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων Κ Σ Ι Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων Παναγιώτα Παναγοπούλου Άσκηση 1. Υποθέστε ότι οι διεργασίες ενός σύγχρονου κατανεμημένου συστήματος έχουν μοναδικές ταυτότητες (UIDs), γνωρίζουν ότι είναι συνδεδεμένες

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα