Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο



Σχετικά έγγραφα
«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Διδάσκουσα: Χάλκου Χαρά,

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Υλοποίηση Συστήματος Ανίχνευσης Εισβολών σε Περιβάλλον Android για Ασύρματα Δίκτυα Πρόσβασης

Αλγόριθμος Ομαδοποίησης

Διπλωματική εργασία Θέμα: «Δημιουργία ευφυούς συστήματος για τη διαχείριση και διαλογή των ασθενών Τμήματος Επειγόντων Περιστατικών

Περιγραφή των Δεδομένων

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών. Ανάπτυξη Λογισμικού για Δίκτυα και Τηλεπικοινωνίες. Χειμερινό εξάμηνο

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Αυτόματη εξαγωγή αρμοδιοτήτων και δομής οργανισμών από την Εφημερίδα της Κυβέρνησης

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία

ΑΝΑΣΤΟΧΑΣΜΟΣ 4ης ΔΙΔΑΚΤΙΚΗΣ ΠΑΡΕΜΒΑΣΗΣ

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Εξαγωγή ζευγών ερώτησης απάντησης από forum και αυτόματη απάντηση νέων ερωτήσεων

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Εξαγωγή ζευγών ερώτησης απάντησης από forum και αυτόματη απάντηση νέων ερωτήσεων

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

Salinity Project Ανακρίνοντας τo θαλασσινό νερό

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ (MSc) στα ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑ

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ. Διπλωματική Εργασία. μάθησης»

Opinion Mining and Sentiment analysis

Εξόρυξη γνώσης από Blogs: Εφαρμογές στο πεδίο της εξόρυξης ψυχικής διάθεσης

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

HMY 795: Αναγνώριση Προτύπων

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Αναγνώριση Προτύπων Εργασία 1η Classification

AΕΙ ΠΕΙΡΑΙΑ T.T. ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Σχεδίαση μαθησιακών δραστηριοτήτων λογιστικά φύλλα υπερμεσικά περιβάλλοντα προσομοιώσεις

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Salinity Project: Ανακρίνοντας τo θαλασσινό νερό

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Ελευθερες Πτυχιακές. ΕΠΩΝΥΜΟ ΟΝΟΜΑ ΤΙΤΛΟΣ ΑΤΟΜΑ Αντζουλάτος Γεράσιμος 2706 Φορητότητα στην Επιχειρηματική Ευφυΐα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Εφαρμογή αυτόματης κατάταξης γνώμης σε δεδομένα του Twitter

ΤΕΙ ΗΠΕΙΡΟΥ MΗΝΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Τ.Ε. ΤΕΙ ΗΠΕΙΡΟΥ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ EΦΑΡΜΟΓΗ ΜΕΘΟΔΩΝ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΒΑΣΙΛΕΙΟΣ ΤΡΑΝΤΟΣ

Ευφυής Προγραμματισμός

Ανάλυση ποιοτικών δεδομένων

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

Νευρωνικά Δίκτυα και Μηχανές Διανυσματικής Υποστήριξης

Η διδασκαλία του μαθήματος της Τεχνολογίας στο Λύκειο

Έκθεση Εξωτερικής Αξιολόγησης Προγράμματος Σπουδών ΜΙΕΕΚ Λευκωσίας Πρόγραμμα Σπουδών: Βιομηχανικοί και Οικιακοί Αυτοματισμοί

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Ατομική Διπλωματική Εργασία ΠΡΟΒΛΕΨΗ ΤΗΣ ΝΟΜΙΣΜΑΤΙΚΗΣ ΙΣΟΤΙΜΙΑΣ ΜΕΤΑΞΥ ΕΥΡΩ ΚΑΙ ΔΟΛΑΡΙΟΥ ΗΠΑ ΜΕ ΤΗ ΒΟΗΘΕΙΑ ΤΗΣ ΤΕΧΝΗΤΗΣ ΝΟΗΜΟΣΥΝΗΣ. Κυριάκος Ευριπίδου

Κατηγοριοποίηση ομιλητών με χρήση αλγορίθμων Μηχανικής Μάθησης

Προγραμματισμός Υπολογιστών με C++

ΕΠΑΛΗΘΕΥΣΗ (VERIFICATION) ΚΑΙ ΕΓΚΥΡΟΠΟΙΗΣΗ (VALIDATION) ΒΚ

Μεθοδολογίες Αξιοποίησης Δεδομένων

H Συμβολή της Υπολογιστικής Σκέψης στην Προετοιμασία του Αυριανού Πολίτη

Μελέτη κατηγοριοποίησης δεδομένων με Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines) και υλοποίηση εφαρμογής.

Μηχανική Μάθηση Εργασία 2

1. Οι Τεχνολογίες της Πληροφορίας και των Επικοινωνιών στην εκπαιδευτική διαδικασία

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

Ellogon: Μία Πλατφόρμα Επεξεργασίας Φυσικής Γλώσσας. Γεώργιος Πετάσης

Οικονομικό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής

Παναγιώτης Σωτηρόπουλος

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

Μηχανουργική Τεχνολογία ΙΙ

ΤΕΧΝΙΚΗ ΠΕΡΙΓΡΑΦΗ. Δικτυακός τόπος για την επιχειρηματικότητα και την απασχόληση

Standard Template Library (STL) C++ library

4/2014 ΣΥΝΟΠΤΙΚΗ ΠΑΡΟΥΣΙΑΣΗ ΥΔΡΟΛΗΨΙΕΣ ΑΤΤΙΚΗΣ ΑΠΟΚΕΝΤΡΩΜΕΝΗ ΔΙΟΙΚΗΣΗ ΑΤΤΙΚΗΣ ΔΙΕΥΘΥΝΣΗ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Αναγωγή _ Εξαγωγή & Έλεγχος. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ (MSc) στα ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑ

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Α Δημοτικό Σχολείο Πέρα Χωρίου και Νήσου

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Ζωντανό Εργαστήριο Thessaloniki Active and Healthy Ageing Living Lab Παρακολούθηση ατόμων στο σπίτι σε πραγματικό χρόνο

Παρουσίαση Εφαρμογής i-flow (i-flow HelpDesk Services)

Δομές Δεδομένων Standard Template Library (STL) 23/3/2017 ΜΠΟΜΠΟΤΑΣ ΑΓΟΡΑΚΗΣ

Προσεγγιστικοί Αλγόριθμοι βασισμένοι σε Γραμμικό Προγραμματισμό

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Transcript:

Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Κεντρική ιδέα Προβληματισμοί Πως θα μπορούσαμε να ωφεληθούμε απ τον μεγάλο όγκο πληροφορίας υπό μορφή ελευθέρου κειμένου στο διαδίκτυο; Μπορεί η Δημόσια Διοίκηση να εκμεταλλευτεί την πληροφορία αυτή; Προτάσεις Εξαγωγή της γνώμης που εκφράζεται σε αυτά με αυτοματοποιημένο τρόπο, χωρίς την ανάγκη ανθρώπινης παρέμβασης. Οφέλη Σφυγμομέτρηση λαϊκής βούλησης. Διευκόλυνση στη λήψη αποφάσεων. Προώθηση ηλεκτρονικής δημοκρατίας.

Διαδικασία εξόρυξης γνώμης Αρχικά κείμενα: σχόλια πολιτών Κείμενα οργανωμένα σε φακέλους και αρχεία Προεπεξεργασμένα κείμενα Κείμενα σε διανυσματική Μορφή Πληροφορία για την άποψη που εκφράζουν οι πολίτες Συλλογή κειμένων Γλωσσική επεξεργασία Μετασχηματισμός κειμένων Εφαρμογή αλγορίθμων μηχανικής μάθησης (ταξινόμηση) -Hyphenation removal (σημεία στίξης) -Stopword removal, - Stemming -POS tagging -n-gram detection tf/idf weighting, - feature selection

Λογισμικό Weka Ελεύθερη χρήση υπό την GNU General Public License Διαθέτει συλλογή από εργαλεία οπτικοποίησης και αλγορίθμους για ανάλυση δεδομένων και δημιουργία μοντέλων πρόβλεψης. Εύκολη προγραμματιστική ενσωμάτωση σε τρίτες εφαρμογές. Γραφική διεπαφή χρήστη που καθιστά εύκολη τη χρήση των δυνατοτήτων του. Υποστήριξη των πιο πολλών εργασιών που υπάγονται στον επιστημονικό κλάδο της εξόρυξης γνώσης. Mεγάλη φορητότητα λόγω υλοποίησης σε γλώσσα Java.

Λογισμικό Weka (2)

Λογισμικό Weka (3)

Ενδεικτική προεπεξεργασία (1)- αναρτημένα σχόλια στο διαδίκτυο

Ενδεικτική προεπεξεργασία(2)-αρχικό σχόλιο θα ήθελα κατ αρχήν να εκφράσω την χαρά και την ικανοποίηση μου για τον Καλλικράτη. Ασχολούμαι χρόνια με την τοπική αυτοδιοίκηση από τη θέση του ειδικού συνεργάτη, αλλά και μέσα από εθελοντικές δραστηριότητες. Επί της ουσίας του νομοσχεδίου δεν έχω να κάνω ιδιαίτερες παρατηρήσεις έαν ο σχεδιασμός, που το ελπίζω, εφαρμοστεί και λειτουργήσει, πιστεύω βαθιά, ότι θα αλλάξει η μορφή της Ελλάδας εξ αλλού, αυτή η αλλαγή, αποτελούσε επί χρόνια ελπίδα ανθρώπων που είχαν, άδω και δεκαετίες, οραματιστεί αυτή την αειφόρο ανάπτυξη των τόπων τους και μέχρι πρόσφατα αντιμετωπίζονταν από τους μικροεργολαβους της περιφερειακής πολίτικης σκηνής, λίγο ως πολύ, ως ψώνια

Ενδεικτική προεπεξεργασία(3)-σχόλιο μετά το stemming και την αφαίρεση stopwords ηθελ κατ αρχην εκφρασ χαρ ικανοποιησ καλλικρατ ασχολ χρον τοπικ αυτοδιοικησ θεσ ειδ συνεργατ εθελοντικ δραστηριοτητ ουσι νομοσχεδ ιδιαιτερ παρατηρησ σχεδιασμ ελπιζ εφαρμοστ λειτουργ πιστευ βαθ αλλαξ μορφ ελλαδ εξ αλλ αλλαγ αποτελ χρον ελπιδ ανθρωπ δεκαετι οραματιστ αειφορ αναπτυξ τοπ προσφατ αντιμετωπιζ μικροεργολαβ περιφερειακ πολιτικ σκην ως ως ψων

Ενδεικτική προεπεξεργασία(4)- διανυσματική απεικόνιση (TF-IDF) {8 4.787492,16 4.094345,24 4.787492,44 4.787492,57 4.787492,108 4.787492,110 4.787492,114 4.787492,143 4.787492,150 4.787492,152 4.787492,156 2.389596,158 4.094345,176 4.094345,214 4.094345,272 4.787492,287 4.787492} Kάθε πεδίο περιλαμβάνει 2 αριθμούς εκ των οποίων ο πρώτος συμβολίζει την αύξουσα σειρά του χαρακτηριστικού και ο δεύτερος την τιμή του στατιστικού μέτρου (εδώ TF-IDF)

Επιλογή αλγορίθμων, παράμετροι Χρησιμοποιούμενοι αλγόριθμοι Αλγόριθμος KNN. Aλγόριθμος Naïve Bayes. Support Vector Machines. Τεχνικές-Παραμετροποίησης Xρήση Ν-fold cross validation Χρήση ξεχωριστού training set με προτάσεις που φέρουν έντονο εννοιολογικό προσανατολισμό (semantic orientation).

Παρουσίαση Αλγοριθμων (1) Αλγόριθμος (1)-ΚΝΝ Υπολογίζει την απόσταση ενός στιγμιότυπου από τους Κ κοντινότερους γείτονές του με βάση την ευκλείδεια απόσταση d( x, x ) ( x x ) ( x x )... ( x x ) 2 2 2 i l i1 l1 i2 l2 ip lp

Παρουσίαση Αλγοριθμων(2) Αλγόριθμος Naïve Bayes που είναι απλός πιθανοτικός ταξινομητής βασισμένος στην εφαρμογή του θεωρήματος του Bayes. P c x P c P( x c) i Μηχανές διανυσμάτων υποστήριξης(support vector machines) Αλγόριθμος που δίνει παρόμοια αποτελέσματα με τα νευρωνικά δίκτυα σε προβλήματα κατηγοριοποίησης σε πολύ μικρότερο υπολογιστικό χρόνο. Εκτενής χρήση του σε προβλήματα κατηγοριοποίησης κειμένου στην υπάρχουσα βιβλιογραφία i

Αποτελέσματα πειραμάτων Δοκιμή διαχωρισμού του δείγματος σε 3 κλάσεις (θετικά, αρνητικά και ουδέτερα). Ποσοστά επιτυχίας που κυμάνθηκαν από 44%-62% Δοκιμή διαχωρισμού του δείγματος σε 2 κλάσεις (θετικά, αρνητικά ). Ποσοστά επιτυχίας που κυμάνθηκαν από 68%-77%

Αποτελέσματα-3 κλάσεις Ταξινόμηση σε 3 κλάσεις 70 60 50 40 30 20 10 0 61.78 55.28 56.1 51.21 46.34 BAYES BAYES BAYES KNN SVM Ποσοστά επιτυχίας UNSTEMMED 10-FOLD 5-FOLD STEMMED

%% Αποτελέσματα-2 κλάσεις Ταξινόμηση σε 2 κλάσεις 80 78 76 74 72 70 71.26 73.56 75.81 75.86 77.01 70.1 78.1 Ποσοστά επιτυχίας 68 66 ΚΝΝ ΒΑΥΕΣ SVM BAYES SVM SVM 5-FOLD TRAINING SET BOW ENSEMBLE

Συμπεράσματα Οι αλγόριθμοι που χρησιμοποιήθηκαν προσέφεραν ικανοποιητικά αποτελέσματα τα οποία μπορούν να βελτιωθούν με τη χρήση τεχνικών γλωσσικής τεχνολογίας. Η συνδυασμένη χρήση αλγορίθμων (μεταταξινομητής) ξεπέρασε τις επιδόσεις των μεμονωμένων. Μεγάλο περιθώριο για περεταίρω έρευνα με δημιουργία νέων πειραματικών διατάξεων και δοκιμής νέων αλγορίθμων.

Mελλοντικές κατευθύνσεις Χρήση εξειδικευμένων εργαλείων γλωσσικής τεχνολογίας για βελτίωση των αποτελεσμάτων της κατηγοριοποίησης (π.χ Ellogon και BoosTexter). Δημιουργία ολοκληρωμένης εφαρμογής που θα χρησιμοποιεί λειτουργικές μονάδες του weka και άλλων λογισμικών και υλοποιεί πειραματικές διατάξεις κατηγοριοποίησης κειμένων. Δημιουργία web crowler για αυτοματοποίηση διαδικασίας συλλογής κειμένων από ιστοτόπους.

Ευχαριστώ για την προσοχή σας!!