Ανάπτυξη Μεθόδων Αυτόµατης Κατηγοριοποίησης Κειµένων Προσανατολισµένων στο Φύλο

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Ανάπτυξη Μεθόδων Αυτόµατης Κατηγοριοποίησης Κειµένων Προσανατολισµένων στο Φύλο"

Transcript

1 Πανεπιστήµιο Πατρών Πολυτεχνική Σχολή Τµήµα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής ιπλωµατική εργασία για το Μ Ε Επιστήµη και Τεχνολογία Υπολογιστών : Ανάπτυξη Μεθόδων Αυτόµατης Κατηγοριοποίησης Κειµένων Προσανατολισµένων στο Φύλο Χριστίνα Αραβαντινού ΑΜ:969 Επιβλέπων καθηγητής : Μεγαλοοικονόµου Βασίλειος Καθηγητής Τριµελής επιτροπή : Γεώργιος Παυλίδης Καθηγητής Χρήστος Μακρής Επίκουρος Καθηγητής Βασ. Μεγαλοοικονόµου Καθηγητής Μάιος 2015

2

3 3 Ευχαριστίες Στα πλαίσια της παρούσας διπλωµατικής, ϑα ήθελα να ευχαριστήσω µερικούς ανθρώπους, για την καθοριστική συµβολή τους στην ολοκλήρωσή της. Αρχικά, ϑα ήθελα να ευχαριστήσω τον καθηγητή κ. Βασίλειο Μεγαλοοικονόµου, που αποτέλεσε τον επιβλέποντα αυτής της εργασίας. Οι γνώσεις και η ϐοήθειά του ήταν καθοριστικές για την ολοκλήρωση της εργασίας, αλλά και για τη διεύρυνση των δικών µου γνώσεων. Στη συνέχεια, ευχαριστώ ϑερµά τον καθηγητή κ. Γεώργιο Παυλίδη και τον επίκουρο καθηγητή κ. Χρήστο Μακρή, που µου έκαναν την τιµή να είναι µέλη της τριµελούς επιτροπής της εργασίας µου. Επίσης, ένα µεγάλο ευχαριστώ στον ρ. Ιωσήφ Μπόρα για όλες τις συµβουλές και την καθοδήγησή του και στις ϕίλες και συνεργάτες µου Βάσω Σιµάκη και Αθανασία Κουµπούρη, γιατί χωρίς τη συνεργασία µου µαζί τους, το αποτέλεσµα της εργασίας δε ϑα ήταν το ίδιο. Τέλος, ϑέλω ιδιαίτερα να ευχαριστήσω την οικογένειά µου και τους ϕίλους µου, Χριστίνα, Βασίλη, Ευγενία, Ιωάννα, Αντελίνα, Αλέξανδρο, ηµήτρη και Γιώργο για την αµέριστη υποστήριξή τους όλον αυτό τον καιρό. Χριστίνα Αραβαντινού, Μάιος 2015

4

5 5 Περίληψη Η εντυπωσιακή εξάπλωση των µέσων κοινωνικής δικτύωσης τα τελευταία χρόνια, ϑέτει ϐασικά Ϲητήµατα τα οποία απασχολούν την ερευνητική κοινότητα. Η συγκέντρωση και οργάνωση του τεράστιου όγκου πληροφορίας ϐάσει ϑέµατος, συγγραφέα, ηλικίας ή και ϕύλου αποτελούν χαρακτηριστικά παραδείγµατα προβληµάτων που πρέπει να αντιµετωπιστούν. Η συσσώρευση παρόµοιας πληροφορίας από τα ψηφιακά ίχνη που αφήνει ο κάθε χρήστης καθώς διατυπώνει τη γνώµη του για διάφορα ϑέµατα ή περιγράφει στιγµιότυπα από τη Ϲωή του δηµιουργεί τάσεις, οι οποίες εξαπλώνονται ταχύτατα µέσω των tweets, των δηµοσιευµάτων σε ιστολόγια (blogs) και των αναρτήσεων στο facebook. Ιδιαίτερο ενδιαφέρον παρουσιάζει το πώς µπορεί όλη αυτή η πληροφορία να κατηγοριοποιηθεί ϐάσει δηµογραφικών χαρακτηριστικών, όπως το ϕύλο ή η ηλικία. Άµεσες πληροφορίες που παρέχει ο κάθε χρήστης για τον εαυτό του, όπως επίσης και έµµεσες πληροφορίες που µπορούν να προκύψουν από την γλωσσολογική ανάλυση των κειµένων του χρήστη, αποτελούν σηµαντικά δεδοµένα που µπορούν να χρησιµοποιηθούν για την ανίχνευση του ϕύλου του συγγραφέα. Πιο συγκεκριµένα, η αναγνώριση του ϕύλου ενός χρήστη από δεδοµένα κειµένου, µπορεί να αναχθεί σε ένα πρόβληµα κατηγοριοποίησης κειµένου. Το κείµενο υφίσταται επεξεργασία και στη συνέχεια µε τη χρήση µηχανικής µάθησης εντοπίζεται το ϕύλο. Ειδικότερα, µέσω στατιστικής και γλωσσολογικής ανάλυσης των κειµένων, εξάγονται διάφορα χαρακτηριστικά (π.χ. συχνότητα εµφάνισης λέξεων, µέρη του λόγου, µήκος λέξεων, χαρακτηριστικά που συνδέονται µε το περιεχόµενο κ.τ.λ.), τα οποία στη συνέχεια χρησιµοποιούνται για να γίνει η αναγνώριση ϕύλου. Στην παρούσα διπλωµατική εργασία σκοπός είναι η µελέτη και η ανάπτυξη ενός συστήµατος κατηγοριοποίησης κειµένων ιστολογίου και ιστοσελίδων κοινωνικής δικτύωσης, ϐάσει του ϕύλου. Εξετάζεται η απόδοση διαφορετικών συνδυασµών χαρακτηριστικών και κατηγοριοποιητών στον εντοπισµό του ϕύλου. Μέρος της παρούσας διπλωµατικής αποτέλεσε το αντικείµενο της εργασίας Towards a knowledge-based approach for gender text classification [35] που παρουσιάστηκε στο συνέδριο ECESCON Επίσης, µέρος της

6 6 εργασίας αυτής έχει υποβληθεί στο συνέδριο TSD 2015, µε τίτλο Using Sociolinguistic Inspired Features for Gender Classification of Web Authors, στο συνέδριο SPECOM 2015 µε τίτλο Gender Classification of Web Authors Using Feature Selection and Language Models και στο συνέδριο PCI 2015 µε τίτλο Identification of Users Age Using a Wide Feature Set and Different Classifiers.

7 Περιεχόµενα Περίληψη 5 Περιεχόµενα 7 1 Εισαγωγή Γενική Περιγραφή Στόχοι της διπλωµατικής Συνεισφορά της διπλωµατικής οµή της εργασίας Θεωρητικό Υπόβαθρο Κατηγοριοποίηση Κειµένου Αυτόµατη Κατηγοριοποίηση Κειµένου Κατηγοριοποίηση κειµένου µε χρήση Naive Bayes Εξόρυξη Γνώµης Authorship Attribution Πεδία Ερευνας Κατηγοριοποίηση Κειµένου µε ϐάση το Φύλο του Συγγραφέα Κατηγοριοποίηση µε ϐάση το ϕύλο σε blogs Κατηγοριοποίηση µε ϐάση το ϕύλο σε ιστοσελίδες κοινωνικής δικτύωσης Κατηγοριοποίηση µε ϐάση το ϕύλο σε επίσηµα κείµενα Μεθοδολογία Εξαγωγή Χαρακτηριστικών Χαρακτηριστικά ανεξάρτητα απ τη γλώσσα του κειµένου 26 7

8 8 ΠΕΡΙΕΧΟΜΕΝΑ Χαρακτηριστικά που σχετίζονται µε τα µέρη του λόγου των λέξεων Γλωσσικά Μοντέλα Χαρακτηριστικά Εξαρτηµένα από τη Γλώσσα Χαρακτηριστικά σχετικά µε το Περιεχόµενο Περιγραφή Εργαλείων Η γλώσσα προγραµµατισµού Python NLTK SentiWordNet WEKA Πειραµατικά Αποτελέσµατα και Αξιολόγηση Κατηγοριοποίηση ως προς το ϕύλο Πρώτο σύστηµα εύτερο σύστηµα Συµπεράσµατα και προοπτικές 47 Βιβλιογραφία 50

9 Κεφάλαιο 1 Εισαγωγή 1.1 Γενική Περιγραφή Τα τελευταία χρόνια παρατηρείται ϱαγδαία εξάπλωση του διαδικτύου. Αυτό έχει ως αποτέλεσµα την ολοένα και αυξανόµενη χρήση του ως µέσου για τη δηµόσια έκφραση της γνώµης των ανθρώπων µέσω του γραπτού λόγου µε ποικίλους τρόπους, για παράδειγµα µε κριτικές και πάνω σε διάφορα ϑέµατα, όπως είναι η ϑρησκεία και η πολιτική. Συνεχώς δηµιουργούνται καινούριες οµάδες συζητήσεων, blogs και ιστοσελίδες κοινωνικής δικτύωσης που περιέχουν άφθονα δείγµατα γραπτού λόγου των χρηστών. ηµιουργείται λοιπόν, ολοένα και αυξανόµενο ενδιαφέρον για να µπορέσουµε να κατανοήσουµε όσο το δυνατόν περισσότερο τα χαρακτηριστικά των χρηστών µε ϐάση τις γλωσσολογικές επιλογές τους και να τα συνδέσουµε µε τη διαδικτυακή τους συµπεριφορά. Κάποια από τα χαρακτηριστικά αυτά είναι το ϕύλο, η ηλικία, η κοινωνικοοικονοµική κατάστασή τους καθώς και το επίπεδο µόρφωσης. Εχοντας στη διάθεσή µας αυτά τα στοιχεία, τότε καθίσταται πιο εύκολη η µελέτη της συµπεριφοράς και των προτιµήσεων των ατόµων, εφόσον µπορούµε να αξιοποιήσουµε πιο στοχευµένες γνώσεις για αυτά. Ταυτόχρονα, είναι δυνατό να εξετάσουµε την εξέλιξη διάφορων κοινωνικών ϕαινοµένων, καθώς µεταβαίνουµε σε διαφορετικά ϕύλα. Στη συγκεκριµένη εργασία, επιλέξαµε να εστιάσουµε στον εντοπισµό του ϕύλου των χρηστών. Ο ϐασικότερος λόγος γι αυτό, είναι ότι αυτό το στοιχείο 9

10 10 ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓ Η είναι ένα από τα πιο ενδεικτικά για ένα άτοµο. Άµεση απόρροια των παραπάνω είναι η συµβολή στη δηµιουργία ενός συστήµατος αναζήτησης, όπου τα αποτελέσµατα ϑα είναι πολύ πιο εξειδικευ- µένα, αφού ϑα επιστρέφουν αποτελέσµατα ταξινοµηµένα µε ϐάση το ϕύλο. Επίσης, ϑα µπορούσαµε να ϐελτιώσουµε υπηρεσίες ηλεκτρονικού εµπορίου, στις οποίες οι ειδικοί αναλυτές και διαφηµιστές ϑα έχουν τη δυνατότητα να παρατηρήσουν την επίδραση κάποιου προϊόντος ή υπηρεσίας σε άντρες και γυναίκες. Αποτέλεσµα αυτού είναι η στοχευµένη προβολή και διαφήµιση των προϊόντων στις οµάδες όπου αυτά έχουν περισσότερη απήχηση. Η έρευνά µας εστιάστηκε στην ενσωµάτωση ποσοτικών γλωσσολογικών χαρακτηριστικών σε µια διαδικασία κατηγοριοποίησης. 1.2 Στόχοι της διπλωµατικής Στόχος της παρούσας διπλωµατικής είναι η δηµιουργία αυτόνοµων συστη- µάτων, τα οποία ϑα µπορούν να κατηγοριοποιούν κειµενικά δεδοµένα µε ϐάση το ϕύλο του γράφοντα. ηλαδή, έχοντας ως είσοδο ένα κείµενο, τα συστήµατα αυτά να είναι σε ϑέση να δώσουν στην έξοδο το ϕύλο. Για να γίνει η κατηγοριοποίηση, απαιτείται ένα σύνολο από χαρακτηριστικά (features), µέσω των οποίων κάθε κείµενο ϑα µετατραπεί σε ένα διάνυσµα χαρακτηριστικών (feature vector). Στη ϐιβλιογραφία, έχει προταθεί ένας µεγάλος αριθµός από χαρακτηριστικά. Στόχος µας είναι να δηµιουργήσουµε και να εφαρµόσουµε ένα σύνολο χαρακτηριστικών όσο το δυνατόν πιο ανεξάρτητο από τη γλώσσα του κειµένου, ώστε να µπορεί να εφαρµοστεί σε ένα µεγάλο αριθµό διαφορετικών κειµένων. Παράλληλα, ϑέλοντας να αξιοποιήσουµε και το περιεχόµενο και πιο συγκεκριµένα στοιχεία του κειµένου, επιχειρούµε να δηµιουργήσουµε και ένα σύνολο χαρακτηριστικών το οποίο ϑα εξετάζει και τη συντακτική δοµή του κειµένου, όπως είναι τα µέρη του λόγου κάθε λέξης. Εξίσου σηµαντική είναι και η λογαριθµική πιθανοφάνεια (log likelihood) το κείµενο να ανήκει σε κάθε συγκεκριµένη κλάση που διαθέτουµε. Ακόµη, στόχος µας είναι να εξετάσουµε και την απόδοση χαρακτηριστικών που είναι περισσότερο σύνθετα και εξαρτώνται από τη γλώσσα του κειµένου στην κατηγοριοποίηση µε ϐάση το ϕύλο.

11 1.3. ΣΥΝΕΙΣΦΟΡΆ ΤΗΣ ΙΠΛΩΜΑΤΙΚ ΗΣ Συνεισφορά της διπλωµατικής Η συνεισφορά της παρούσας διπλωµατικής εργασίας αποτελείται από τα εξής : Ενα σύνολο χαρακτηριστικών το οποίο περιέχει όλα τα πιθανά στοιχεία που µπορούµε να εντοπίσουµε σ ένα κείµενο, χωρίς να γνωρίζουµε τίποτε για τη γλώσσα και τα συντακτικά ή δοµικά χαρακτηριστικά του κειµένου. Ενα σύνολο χαρακτηριστικών το οποίο µελετάει τη συχνότητα εµφάνισης συγκεκριµένων µερών του λόγου σ ένα κείµενο. Επιλέχθηκαν µέρη του λόγου τα οποία ϕέρουν περισσότερη πληροφορία όσον αφορά στις γλωσσικές επιλογές των χρηστών. Ενα σύνολο χαρακτηριστικών το οποίο υπολογίζει τη λογαριθµική πιθανοφάνεια και την εντροπία κάθε κλάσης σε κάθε κείµενο που εξετάζουµε. Ενα σύνολο χαρακτηριστικών το οποίο εξαρτάται από τη γλώσσα του κειµένου και περιέχει χαρακτηριστικά τα οποία είναι περισσότερο σύνθετα και ξεπερνούν το επίπεδο ανάλυσης ως προς τους χαρακτήρες και τις λέξεις. Ολα τα παραπάνω χαρακτηριστικά µπορούν να χρησιµοποιηθούν είτε αυτόνοµα, είτε σε διάφορους συνδυασµούς µεταξύ τους, ώστε να πετύχουµε την καλύτερη δυνατή απόδοση στην κατηγοριοποίηση. Ετσι, προκύπτουν αυτόµατα συστήµατα κατηγοριοποίησης ϕύλου, τα οποία µπορούν να προσαρµοστούν εύκολα, ανάλογα µε τις επιλογές κειµένων και χαρακτηριστικών που κάνουµε. Η πλειοψηφία των κειµένων του κοινωνικού ιστού αποτελείται από κείµενα µικρού µεγέθους, οπότε είναι σχετικά δύσκολο να κατηγοριοποιηθούν σωστά. Τα σύνολα χαρακτηριστικών που προτείνουµε, στην πλειοψηφία τους είναι ανεξάρτητα από τον τύπο του κειµένου και εξετάζουν ένα µεγάλο αριθµό της διαθέσιµης πληροφορίας που µπορεί να µας παρέχει ένα κείµενο. Γι αυτό και έχουν αρκετά καλή απόδοση ανεξάρτητα απ τον τύπο του κειµένου και σηµειώνουν υψηλά ποσοστά επιτυχηµένης κατηγοριοποίησης όταν πρόκειται για κείµενα µικρού µεγέθους.

12 12 ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓ Η 1.4 οµή της εργασίας Τώρα ϑα περιγράψουµε τη δοµή της εργασίας. Στο κεφάλαιο 2 παρουσιάζουµε τα επιστηµονικά πεδία της Επεξεργασίας Φυσικής Γλώσσας (NLP- Natural Language Processing) που εµπλέκονται στην υλοποίηση του συστήµατος µας. Αυτά είναι η κατηγοριοποίηση κειµένου (Text Classification) και η εξαγωγή του προφίλ του γράφοντα (Authorship Attribution). Στο κεφάλαιο 3 ϑα παρουσιάσουµε τις ϐασικές έρευνες που έχουν προταθεί στο πεδίο της κατηγοριοποίησης κειµένων µε ϐάση το ϕύλο. Στο κεφάλαιο 4 περιγράφουµε τη µέθοδο που σχεδιάσαµε και υλοποιήσαµε και αναφερόµαστε διεξοδικά στα εργαλεία που χρησιµοποιήσαµε για την υλοποίηση, τα οποία είναι αρχικά η γλώσσα προγραµµατισµού Python µέσω της οποίας έγινε όλη η υλοποίηση, το NLTK για την προεπεξεργασία των κειµένων και για την υλοποίηση διάφορων λειτουργιών επεξεργασίας ϕυσικής γλώσσας, το SentiWordNet για την ανάθεση πολικότητας σε κάθε λέξη και το WEKA, το οποίο είναι ένα εργαλείο µηχανικής µάθησης, το οποίο χρησιµοποιείται ευρέως για την κατηγοριοποίηση δεδοµένων. Στο κεφάλαιο 5 περιλαµβάνεται η πειραµατική εφαρµογή των πρότυπων συστηµάτων µας. είχνουµε τα σώµατα κειµένων που χρησιµοποιήσαµε για τα πειράµατά µας, περιγράφουµε τα διάφορα στάδια της υλοποίησης και παρουσιάζουµε εκτενώς τα αποτελέσµατα των πειραµάτων µας. Τέλος, στο κεφάλαιο 6 παραθέτουµε τα συµπεράσµατα που προέκυψαν από την εκπόνηση της εργασίας, τα διάφορα Ϲητήµατα που παρουσιάστηκαν στην υλοποίηση και τα ανοιχτά ϑέµατα προς ϐελτίωση για µετέπειτα έρευνα.

13 Κεφάλαιο 2 Θεωρητικό Υπόβαθρο Η Επεξεργασία Φυσικής Γλώσσας (NLP- Natural Language Processing) είναι ένας κλάδος της Επιστήµης των Υπολογιστών, της Τεχνητής Νοηµοσύνης και της Γλωσσολογίας. Ασχολείται µε την αλληλεπίδραση ανάµεσα στους υπολογιστές και στις ϕυσικές γλώσσες. Πολλές προκλήσεις περιλαµβάνουν την κατανόηση της ϕυσικής γλώσσας από τους υπολογιστές, δηλαδή την άντληση νοηµάτων από είσοδο που περιέχει ϕυσική γλώσσα. Μερικά από τα ϐασικά ερευνητικά πεδία της Επεξεργασίας Φυσικής Γλώσσας είναι η αυτόµατη εξαγωγή περιλήψεων, η επίλυση της αναφοράς, η µηχανική µετάφραση, η αναγνώριση ονοµάτων οντοτήτων, η οπτική αναγνώριση χαρακτήρων, η µορφοσυντακτική επισηµείωση, η εξαγωγή σχέσεων, η εξόρυξη γνώµης, η κατηγοριοποίηση κειµένου και η αναγνώριση της οµιλίας. Στο κεφάλαιο αυτό, ϑα περιγράψουµε τα επιστηµονικά πεδία τα οποία εµπλέκονται στη µελέτη και υλοποίηση των συστηµάτων µας. Αρχικά, ϑα περιγράψουµε την κατηγοριοποίηση κειµένου (Text Classification) και σχετικές έρευνες στο πεδίο και µετά ϑα εξετάσουµε την κατηγοριοποίηση κειµένων µε ϐάση το συγγραφέα τους (Authorship Attribution). 2.1 Κατηγοριοποίηση Κειµένου Η κατηγοριοποίηση κειµένου είναι ένα πρόβληµα το οποίο ανήκει στην Επιστήµη των Υπολογιστών. Το ϐασικό Ϲήτηµα είναι να αναθέσουµε ένα κείµενο σε µια ή περισσότερες κλάσεις ή κατηγορίες. Η κατηγοριοποίηση κειµένων µε 13

14 14 ΚΕΦΑΛΑΙΟ 2. ΘΕΩΡΗΤΙΚ Ο ΥΠ ΟΒΑΘΡΟ χρήση κάποιου αλγορίθµου ανήκει στην Επιστήµη της Πληροφορίας και στην Επιστήµη των Υπολογιστών. Τα κείµενα µπορεί να ταξινοµηθούν σύµφωνα µε το ϑέµα τους ή σύµφωνα µε άλλα χαρακτηριστικά, όπως είναι ο τύπος του κειµένου, ο συγγραφέας του, η ηλικία και το ϕύλο και η εξόρυξη γνώµης (Opinion Mining - Sentiment Analysis). [34] Αυτόµατη Κατηγοριοποίηση Κειµένου Η Αυτόµατη Κατηγοριοποίηση Κειµένου µπορεί να διαχωριστεί σε τρεις κατηγορίες : σε επιβλεπόµενη κατηγοριοποίηση, όπου κάποια εξωτερική πηγή, πχ ένα σύνολο κειµένων εκπαίδευσης, παρέχει πληροφορία για τη σωστή κατηγοριοποίηση των κειµένων, σε µη επιβλεπόµενη κατηγοριοποίηση, όπου η κατηγοριοποίηση πρέπει να γίνει εξ ολοκλήρου χωρίς αναφορά σε κάποια εξωτερική γνώση και σε ηµιεπιβλεπόµενη κατηγοριοποίηση, όπου τµήµατα των κειµένων ταξινοµούνται από κάποιον εξωτερικό παράγοντα. Υπάρχουν διάφορες τεχνικές για την κατηγοριοποίηση κειµένων, όπως είναι η χρήση του κατηγοριοποιητή Naive Bayes, η χρήση της µετρικής tf - idf, τα νευρωνικά δίκτυα, οι µηχανές διανυσµάτων υποστήριξης, τα δέντρα απόφασης, οι Κ κοντινότεροι γείτονες, καθώς και προσεγγίσεις της επεξεργασίας ϕυσικής γλώσσας Κατηγοριοποίηση κειµένου µε χρήση Naive Bayes Σ ένα πρόβληµα κατηγοριοποίησης κειµένου, ϑα χρησιµοποιήσουµε τις λέξεις (όρους ή tokens) του κειµένου, µε σκοπό να αναθέσουµε το κείµενο στην κατάλληλη κλάση. Χρησιµοποιώντας τον κανόνα Maximum a Posteriori (MAP), προκύπτει ο ακόλουθος κατηγοριοποιητής : c map = argmax c C (P (c d)) = argmax c C (P (c) i k n d P (t k c)), όπου t k είναι οι λέξεις του κειµένου, C είναι το σύνολο των κλάσεων που χρησιµοποιείται στην κατηγοριοποίηση, P (c d) είναι η υπό συνθήκη

15 2.1. ΚΑΤΗΓΟΡΙΟΠΟ ΙΗΣΗ ΚΕΙΜ ΕΝΟΥ 15 πιθανότητα της κλάσης c δοθέντος του κειµένου d, P (c) είναι η εκ των προτέρων πιθανότητα της κλάσης c και P (t k c) είναι η υπό συνθήκη πιθανότητα της λέξης t k, δοθείσας της κλάσης c. Αυτό σηµαίνει ότι, για να ϐρούµε σε ποια κλάση ϑα πρέπει να αναθέσουµε ένα νέο κείµενο, πρέπει να υπολογίσουµε το γινόµενο της πιθανότητας κάθε λέξης του κειµένου, δοθείσας µιας συγκεκριµένης κλάσης (πιθανοφάνεια) και να πολλαπλασιάσουµε µε την πιθανότητα µιας συγκεκριµένης κλάσης (εκ των προτέρων). Αφού υπολογίσουµε όλα τα παραπάνω για όλες τις κλάσεις του συνόλου C, επιλέγουµε την κλάση µε την υψηλότερη πιθανότητα. Μερικές παραλλαγές του κοινού µοντέλου Naive Bayes είναι το πολυωνυ- µικό µοντέλο Naive Bayes, το δυαδικό πολυωνυµικό µοντέλο Naive Bayes και το µοντέλο Bernoulli. [22] Εξόρυξη Γνώµης Ενα ϐασικό στοιχείο της συλλογής πληροφοριών ήταν πάντα να εντοπίσει τι σκέφτονται οι άνθρωποι. Καθώς οι πηγές που παρέχουν τις γνώµες των ανθρώπων γίνονται ολοένα και πιο δηµοφιλείς, προσφέρονται καινούριες ευκαιρίες στην αναζήτηση και κατανόηση της γνώµης των άλλων. Η εξόρυξη γνώµης ή εναλλακτικά ανάλυση συναισθήµατος είναι µια εφαρµογή της Επεξεργασίας Φυσικής Γλώσσας και της Υπολογιστικής Γλωσσολογίας και επικεντρώνεται στην αναγνώριση γνώµης, συναισθήµατος και υποκειµενικής πληροφορίας µέσα σ ένα κείµενο. Στοχεύει στον καθορισµό της διάθεσης ενός οµιλητή ή ενός συγγραφέα πάνω σ ένα ϑέµα ή στον υπολογισµό της συνολικής πολικότητας ενός εγγράφου. Ενα γεγονός είναι µια αντικειµενική περιγραφή µιας κατάστασης η οποία δεν περιέχει κάποια συναισθηµατική χροιά (π.χ. δηµοσιογραφικός λόγος), ενώ η άποψη είναι µια υποκειµενική κρίση (κείµενα κριτικών). Η διάθεση αυτή µπορεί να είναι κρίση, εκτίµηση, συναισθηµατική κατάσταση ή η συναισθηµατική επίδραση που ο συγγραφέας ή ο οµιλητής ϑέλει να µεταδώσει στο κοινό. Τελικά, πρέπει να εξαχθεί ένα συµπέρασµα για το αν η γνώµη που εκφράζεται είναι ϑετική, αρνητική ή ουδέτερη [25]. Στο [5] εξετάζεται το πρόβληµα της κατηγοριοποίησης εγγράφων όχι µε ϐάση το ϑέµα, αλλά σύµφωνα µε το συνολικό συναίσθηµα (ϑετική ή αρνητική

16 16 ΚΕΦΑΛΑΙΟ 2. ΘΕΩΡΗΤΙΚ Ο ΥΠ ΟΒΑΘΡΟ κριτική). Για να επιτευχθεί αυτή η κατηγοριοποίηση, εφαρµόζονται µέθοδοι µηχανικής µάθησης (κατηγοριοποιητής Naive Bayes, κατηγοριοποίηση µέγιστης εντροπίας και µηχανές διανυσµάτων υποστήριξης). Το σύνολο δεδοµένων που χρησιµοποιήθηκε είναι κριτικές ταινιών και παρατηρήθηκε ότι οι τρεις παραπάνω µέθοδοι δεν έχουν τόσο καλή απόδοση στην κατηγοριοποίηση συναισθήµατος όσο στην κατηγοριοποίηση µε ϐάση το ϑέµα. Τελικά, διαπιστώθηκε ότι ο κατηγοριοποιητής Naive Bayes είχε τη χειρότερη απόδοση, ενώ οι µηχανές διανυσµάτων υποστήριξης την καλύτερη. 2.2 Authorship Attribution Η ϐασική ιδέα πίσω από το στατιστικό ή υπολογιστικό authorship attribution είναι ότι, µετρώντας κάποια κειµενικά χαρακτηριστικά, µπορούµε να διακρίνουµε κείµενα τα οποία είναι γραµµένα από διαφορετικούς συγγραφείς. Ο µεγάλος όγκος διαθέσιµων online κειµένων, όπως είναι τα , οι συζητήσεις σε forum και τα blogs, υποδεικνύουν ένα ευρύ σύνολο εφαρµογών αυτής της τεχνολογίας, δεδοµένου ότι είναι δυνατό να διαχειριστούµε µικρά και ϑορυβώδη κείµενα από πολλούς συγγραφείς [33]. Μέχρι και τα τέλη της δεκαετίας του 1990, η έρευνα στο authorship attribution κατευθύνθηκε από προσπάθειες να καθοριστούν χαρακτηριστικά για την ποσοτικοποίηση του στυλ του γραπτού λόγου, µια τάση η οποία είναι γνωστή µε τον όρο stylometry [13], [14]. Συνεπώς, προτάθηκε µια µεγάλη ποικιλία από µετρικές, όπως είναι το µέγεθος της πρότασης, το µέγεθος της λέξης, οι συχνότητες των λέξεων και των χαρακτήρων και ο πλούτος του λεξιλογίου. Σ ένα τυπικό πρόβληµα authorship attribution, ένα κείµενου άγνωστου συγγραφέα ανατίθεται σε έναν υποψήφιο συγγραφέα, δοθέντος ενός συνόλου από υποψήφιους συγγραφείς, των οποίων είναι διαθέσιµα κάποια δείγµατα κειµένου. Από την πλευρά της µηχανικής µάθησης, αυτό µπορεί να ϑεωρηθεί σαν ένα πρόβληµα κατηγοριοποίησης κειµένου [30]. Πέρα απ το πρόβληµα αυτό, µπορεί να οριστεί κι ένα σύνολο από σχετικά Ϲητήµατα, µερικά από τα οποία είναι : Επικύρωση του συγγραφέα, δηλαδή αν ένα κείµενο έχει γραφτεί από ένα συγκεκριµένο συγγραφέα ή όχι [18].

17 2.2. AUTHORSHIP ATTRIBUTION 17 Plagiarism detection, δηλαδή ο εντοπισµός οµοιοτήτων µεταξύ δύο κειµένων [9], [3]. Εξαγωγή του προφίλ του χρήστη, δηλαδή εξαγωγή πληροφοριών για το επίπεδο εκπαίδευσης ή το ϕύλο του συγγραφέα [20]. Οι κυριότερες κατηγορίες και υποκατηγορίες χαρακτηριστικών που εξετάζονται στο πρόβληµα του authorship attribution ϕαίνονται παρακάτω : Στυλοµετρικά χαρακτηριστικά : Επίπεδο λέξεων, όπως το µήκος λέξεων ή προτάσεων, η γλωσσική πυκνότητα, συχνότητες λέξεων, n-grams, ορθογραφικά λάθη. Επίπεδο χαρακτήρων, όπως τύποι χαρακτήρων (γράµµατα ή ψηφία), n-gram χαρακτήρων, µέθοδοι συµπίεσης. Συντακτικό επίπεδο, όπως είναι το µέρος του λόγου στο οποίο ανήκει κάθε λέξη, ακολουθίες µερών του λόγου, η δοµή προτάσεων και ϕράσεων. Σηµασιολογικό επίπεδο, δηλαδή συνώνυµα ή σηµασιολογικές εξαρτήσεις. Χαρακτηριστικά ανάλογα µε την εφαρµογή, για παράδειγµα δοµικά και εξειδικευµένα χαρακτηριστικά για το περιεχόµενο ή τη γλώσσα του κειµένου. Μπορούµε να διακρίνουµε τις διαφορετικές προσεγγίσεις σύµφωνα µε το αν επεξεργάζονται κάθε κείµενο εκπαίδευσης ξεχωριστά, ή συγκεντρωτικά (ανά συγγραφέα). Πιο συγκεκριµένα, µερικές προσεγγίσεις συνενώνουν όλα τα διαθέσιµα κείµενα εκπαίδευσης ανά συγγραφέα, σ ένα ενιαίο αρχείο και εξάγουν µια συγκεντρωτική αναπαράσταση του στυλ του συγγραφέα αυτού (το προφίλ του συγγραφέα) µέσω αυτού του αρχείου. Αυτό σηµαίνει ότι οι διαφορές ανάµεσα στα κείµενα που έχουν γραφεί από τον ίδιο συγγραφέα παραβλέπονται. Η πλειοψηφία των πιο σύγχρονων προσεγγίσεων αντιµετωπίζει κάθε κείµενο εκπαίδευσης σαν µια µονάδα η οποία συνεισφέρει ξεχωριστά στο µοντέλο. Σε µια τυπική αρχιτεκτονική ενός τέτοιου µοντέλου, κάθε δείγ- µα κειµένου του συνόλου εκπαίδευσης αναπαρίσταται από ένα διάνυσµα

18 18 ΚΕΦΑΛΑΙΟ 2. ΘΕΩΡΗΤΙΚ Ο ΥΠ ΟΒΑΘΡΟ χαρακτηριστικών και ένας αλγόριθµος κατηγοριοποίησης εκπαιδεύεται µε χρήση του συνόλου εκπαίδευσης, ώστε να αναπτυχθεί το µοντέλο. Στη συνέχεια, το µοντέλο ϑα είναι σε ϑέση να εκτιµήσει τον πραγµατικό συγγραφέα ενός άγνωστου κειµένου. Τέτοιοι αλγόριθµοι κατηγοριοποίησης απαιτούν πολλαπλά στιγµιότυπα εκπαίδευσης για κάθε κλάση, ώστε να εξάγουν ένα αξιόπιστο µοντέλο. ηλαδή, τα δείγµατα κειµένου ϑα πρέπει να είναι αρκετά µεγάλα, ώστε τα χαρακτηριστικά αναπαράστασης να εκπροσωπούν επαρκώς το στυλ τους. Μια µέθοδος η οποία δανείζεται κάποια στοιχεία και από τις δύο παραπάνω προσεγγίσεις περιγράφεται στο [11]. Πιο συγκεκριµένα, όλα τα κείµενα εκπαίδευσης αναπαριστώνται ξεχωριστά. Ωστόσο, από τα διανύσµατα αναπαράστασης για τα κείµενα κάθε συγγραφέα υπολογίζεται ένας µέσος όρος κι έτσι προκύπτει ένα µοναδικό διάνυσµα για το προφίλ κάθε συγγραφέα. Η απόσταση του προφίλ ενός άγνωστου κειµένου από το προφίλ κάθε συγγραφέα υπολογίζεται στη συνέχεια, από µια συνάρτηση Ϲυγισµένων χαρακτηριστικών.

19 Κεφάλαιο 3 Πεδία Ερευνας Στο κεφάλαιο αυτό ϑα εστιάσουµε σε ένα σηµαντικό πεδίο τοµής ανάµεσα στην κατηγοριοποίηση κειµένου και στο authorship attribution. ηλαδή, ϑα αναφερθούµε διεξοδικά στην έρευνα που έχει γίνει στον τοµέα της κατηγοριοποίησης µε ϐάση το ϕύλο, καθώς αυτός ο τοµέας αποτελεί το ϐασικότερο κοµµάτι του συστήµατος που υλοποιήσαµε. Το πρόβληµα της κατηγοριοποίησης κειµένου µε ϐάση το ϕύλο έχει πολλές εφαρµογές στον τοµέα της διαφήµισης και του εµπορίου, όπως είναι οι στοχευµένες διαφηµίσεις ανάλογα µε το ϕύλο και η σχεδίαση των προϊόντων, ώστε να είναι ελκυστικά σε άνδρες και γυναίκες. Ωστόσο, αποτελεί ένα ιδιαίτερα σύνθετο πρόβληµα και ξεπερνά τα όρια της απλής κατηγοριοποίησης κειµένου. Γι αυτό και απαιτείται συνδυασµός αρκετών κειµενικών χαρακτηριστικών (features), ώστε η κατηγοριοποίηση να µπορεί να γίνει µε επιτυχία. 3.1 Κατηγοριοποίηση Κειµένου µε ϐάση το Φύλο του Συγγραφέα Οι διάφορες έρευνες που έχουν προταθεί στον τοµέα αυτό, εστιάζουν σε κείµενα που προέρχονται από blogs, από ιστοσελίδες κοινωνικής δικτύωσης και σε κείµενα µε περισσότερο επίσηµο ύφος. 19

20 20 ΚΕΦΑΛΑΙΟ 3. ΠΕ ΙΑ ΕΡΕΥΝΑΣ Κατηγοριοποίηση µε ϐάση το ϕύλο σε blogs Τα blogs είναι ανεπίσηµα και προσωπικά κείµενα, τα οποία αποτελούν ένα µεγάλο µέρος της online δραστηριότητας. Τα ϑέµατα που κυριαρχούν είναι σχετικά µε την προσωπική Ϲωή των ανθρώπων, µε συνταγές, κριτικές προϊόντων ή και τυχαία γεγονότα. ιαφέρουν από περισσότερο επίσηµα κείµενα σε αρκετά σηµεία. Για παράδειγµα, τέτοιου είδους κείµενα συνήθως είναι µικρά σε µέγεθος, αδόµητα και αποτελούνται από απλές προτάσεις µε γραµµατικά και ορθογραφικά λάθη, συντοµογραφίες και αργκό λεξιλόγιο. Για όλους αυτούς τους λόγους, η κατηγοριοποίηση ϕύλου στα blogs είναι πιο δύσκολη απ ό,τι σε επίσηµα κείµενα. Πολύ συχνά, για να γίνει η κατηγοριοποίηση χρησιµοποιούνται features όπως λέξεις περιεχοµένου, ανάλυση µε ϐάση το λεξιλόγιο, τα µέρη του λόγου κάθε λέξης και µετά εφαρµόζονται αλγόριθµοι επιλογής features. Ενα σύνολο από blogs χρησιµοποιείται στα [29] και [2]. Εξετάζονται δύο κατηγορίες από χαρακτηριστικά : χαρακτηριστικά που σχετίζονται µε το στυλ, τα οποία είναι µέρη του λόγου, αριθµός λέξεων, υπερσύνδεσµοι κλπ. χαρακτηριστικά που σχετίζονται µε το περιεχόµενο, δηλαδή ένας αριθµός λέξεων οι οποίες εµφανίζονται πιο συχνά στο σύνολο κειµένων. Ο αλγόριθµος που χρησιµοποιήθηκε για την κατηγοριοποίηση είναι ο Multi- Class Real Winnow (MCRW). Εκτός από τα ευρέως χρησιµοποιούµενα χαρακτηριστικά, όπως είναι τα unigrams, στο [38] εξετάζεται και η απόδοση µερικών µη συνηθισµένων χαρακτηριστικών, τα οποία είναι το χρώµα που έχουν επιλέξει οι χρήστες στο blog τους, οι γραµµατοσειρές και τον αν τα γράµµατα είναι κεφαλαία ή µικρά, τα σηµεία στίξης και η χρήση emoticons. Ολα τα παραπάνω δίνονται στον κατηγοριοποιητή Naive Bayes. Στο [21] χρησιµοποιούνται διαφορετικές κατηγορίες χαρακτηριστικών για να γίνει η κατηγοριοποίηση. Πιο συγκεκριµένα, χρησιµοποιείται η µετρική F-Measure [12], στυλιστικά χαρακτηριστικά, χαρακτηριστικά που συνδέονται µε κάθε ϕύλο και κλάσεις λέξεων. Ταυτόχρονα, προτείνεται ένας αλγόριθµος

21 3.1. ΚΑΤΗΓΟΡΙΟΠΟ ΙΗΣΗ ΚΕΙΜ ΕΝΟΥ ΜΕ ΒΆΣΗ ΤΟ Φ ΥΛΟ ΤΟΥ ΣΥΓΓΡΑΦ ΕΑ 21 που εξάγει ακολουθίες µερών του λόγου και ένας νέος αλγόριθµος επιλογής χαρακτηριστικών. Η µετρική F-Measure εξερευνά το περιεχόµενο του κειµένου και πιο συγκεκριµένα την αντίθεση ανάµεσα στα συµφραζόµενα και στην πιο επίσηµη διατύπωση του κειµένου. Αυτό γίνεται µετρώντας τη συχνότητα εµφάνισης ορισµένων µερών του λόγου. Ενα χαµηλό σκορ στο F-Measure υποδεικνύει συµφραζόµενα, δηλαδή µεγαλύτερη χρήση αντωνυµιών (pron), ϱηµάτων (verb), επιρρηµάτων (adv) και συνδέσµων (int). Ενα µεγάλο σκορ, αντίθετα, δηλώνει πιο επίσηµη διατύπωση, µέσω της χρήσης ουσιαστικών (noun), επιθέτων (adj), προθέσεων (prep) και άρθρων (art). Ο τύπος για τη µετρική είναι (το freq.x δηλώνει τη συχνότητα του µέρους του λόγου x): F = 0.5 [(f req.noun + f req.adj + f req.prep + f req.art) (f req.pron + freq.verb + freq.adv + freq.int) + 100]. Η µετρική αυτή παρουσιάζει µεγάλη διαφορά ανάµεσα στα δύο ϕύλα. Οι γυναίκες σηµείωσαν χαµηλότερο σκορ, ενώ οι άνδρες µεγαλύτερο, ϕανερώνοντας έναν πιο επίσηµο τρόπο διατύπωσης στο γραπτό λόγο. Τα στυλιστικά χαρακτηριστικά συνδέονται µε το στυλ γραπτού λόγου των ανθρώπων. Αυτό εκφράζεται µέσω της χρήσης συγκεκριµένων µερών του λόγου και λέξεων που εµφανίζονται µε µεγάλη συχνότητα σε blogs. Τα χαρακτηριστικά που είναι αντιπροσωπευτικά για κάθε ϕύλο µετρώνται µέσω της συχνότητας εµφάνισης λέξεων που έχουν κατάληξη able, al, ful, ible, ic, ive, less, ly, ous και λέξεων που εκφράζουν µεταµέλεια. Επίσης, υπολογίζεται η συχνότητα εµφάνισης λέξεων που ανήκουν στις παρακάτω κατηγορίες : διάλογος σπίτι οικογένεια ϕαγητό και ένδυση συναισθήµατα λέξεις µε ϑετική πολικότητα

22 22 ΚΕΦΑΛΑΙΟ 3. ΠΕ ΙΑ ΕΡΕΥΝΑΣ λέξεις µε αρνητική πολικότητα Ο αλγόριθµος εξαγωγής ακολουθιών µερών του λόγου εντοπίζει συχνές ακολουθίες, οι οποίες ϕανερώνουν τη συντακτική πολυπλοκότητα στη γραφή ανδρών και γυναικών. Ο αλγόριθµος επιλογής χαρακτηριστικών χρησιµοποιεί ένα συνδυασµό από κριτήρια και µεθόδους επιλογής. Κάθε κριτήριο επιλογής µπορεί να πολωθεί υπέρ κάποιων χαρακτηριστικών, οπότε ο συνδυασµός τους εντοπίζει τα περισσότερο πληροφοριακά και διαφοροποιητικά χαρακτηριστικά. Οι αλγόριθµοι κατηγοριοποίησης που εφαρµόστηκαν είναι οι SVM, SVM Regression, Naive Bayes. Στο [6] σαν κύρια features χρησιµοποιούνται οι λέξεις και η στίξη του κειµένου σε δυαδική αναπαράσταση, αλλά και µε τη συχνότητα του όρου. Επίσης, υπολογίζουν και το µέσο µήκος λέξης και πρότασης. Οπως και στο [21], χρησιµοποιούν το F-Measure και τις συχνότητες εµφάνισης των λέξεων που ανήκουν στις κατηγορίες που αναφέρθηκαν παραπάνω. Οι αλγόριθµοι κατηγοριοποίησης που εφαρµόστηκαν είναι οι SVM, LDA, Naive Bayes. Τα features που παράχθηκαν στο [7] είναι : Ο αριθµός των προτάσεων. Ο αριθµός των λέξεων. Ο αριθµός των λέξεων ανά πρόταση. Το µέσο µήκος των λέξεων. Το ποσοστό των λέξεων µε επαναλαµβανόµενα γράµµατα. Το ποσοστό χρήσης emoticons. Το ποσοστό χρήσης υβριστικών λέξεων. Στη συνέχεια, τα κείµενα κατηγοριοποιήθηκαν µε χρήση των κατηγοριοποιητών J48, SVM, Naive Bayes και πολυεπίπεδα νευρωνικά δίκτυα Κατηγοριοποίηση µε ϐάση το ϕύλο σε ιστοσελίδες κοινωνικής δικτύωσης Στο [15] γίνεται ταξινόµηση κειµένων που προέρχονται απ το twitter, από κριτικές ξενοδοχείων, από blogs και από διάφορες άλλες αναρτήσεις απ τον

23 3.1. ΚΑΤΗΓΟΡΙΟΠΟ ΙΗΣΗ ΚΕΙΜ ΕΝΟΥ ΜΕ ΒΆΣΗ ΤΟ Φ ΥΛΟ ΤΟΥ ΣΥΓΓΡΑΦ ΕΑ 23 Κοινωνικό Ιστό µε ϐάση το ϕύλο και την ηλικία. Στόχος είναι να γίνεται σωστά η κατηγοριοποίηση σε διαφορετικά είδη κειµένων. Τα features που χρησιµοποιούνται για την κατηγοριοποίηση ανήκουν στις παρακάτω κατηγορίες : Features από την ψυχογλωσσολογική ϐάση δεδοµένων MRC, τα οποία περιέχουν πληροφορία για τη συχνότητα των λέξεων που έχουν ψυχογλωσσολογικό περιεχόµενο. Features που προέρχονται από το λεξικό LIWC (Linguistic Inquiry and Word Count) [19]. Features που σχετίζονται µε την έκφραση συναισθήµατος. Πιο συγκεκριµένα, υπολογίζεται ο αριθµός των προτάσεων που εκφράζουν ϑετικό, αρνητικό ή ουδέτερο συναίσθηµα. Ο µέσος αριθµός των λέξεων ανά πρόταση, ο αριθµός των προτάσεων και ο αριθµός των χαρακτήρων. Ο αριθµός εµφάνισης HTML tags τα οποία αναφέρονται σε συνδέσµους, εικόνες κλπ. Το πλήθος εµφάνισης ορθογραφικών και γραµµατικών λαθών κανονικοποιηµένο µε ϐάση το συνολικό αριθµό των λέξεων του κειµένου. Η συχνότητα εµφάνισης emoticons. Το πλήθος των αναρτήσεων για κάθε χρήστη, ο αριθµός κεφαλαίων γραµµάτων και το πλήθος των λέξεων που ξεκινούν µε κεφαλαίο γράµµα. Μια από τις πρώτες προσπάθειες να κατηγοριοποιηθούν status χρηστών του Facebook παρουσιάζεται στο [16]. Τα χαρακτηριστικά που λήφθηκαν υπόψη είναι οι λέξεις (µε ειδικά χαρακτηριστικά για stop words και αργκό λέξεις), η στίξη, τα κεφαλαία γράµµατα και τα emoticons, οι αριθµοί, τα κενά και τα γράµµατα ανά status. Οι κατηγοριοποιητές που χρησιµοποιήθηκαν είναι οι : Naive Bayes, Maximum Entropy, Perceptron.

24 24 ΚΕΦΑΛΑΙΟ 3. ΠΕ ΙΑ ΕΡΕΥΝΑΣ Κατηγοριοποίηση µε ϐάση το ϕύλο σε επίσηµα κείµενα Στην κατηγορία αυτή ανήκουν κείµενα τα οποία είναι γραµµένα µε πιο επίσηµο ύφος, δηλαδή τελείως διαφορετικό σε σχέση µε τις δύο προηγούµενες υποενότητες. Παράδειγµα τέτοιου είδους κειµένου, αποτελεί το British National Corpus (BNC), το οποίο αποτελείται από 920 κείµενα, επισηµειωµένα µε το ϕύλο του συγγραφέα και µε τον τύπο τους. Το συγκεκριµένο σύνολο κειµένων χρησιµοποιήθηκε στο [20] για κατηγοριοποίηση σύµφωνα µε το ϕύλο του συγγραφέα. Τα χαρακτηριστικά που χρησιµοποιήθηκαν περιλαµβάνουν µια λίστα από λέξεις περιεχοµένουν, µια λίστα από n-grams µερών του λόγου και σηµεία στίξης. Η µέθοδος µάθησης που εφαρµόστηκε είναι ο αλγόριθµος Exponential Gradient (EG) [17].

25 Κεφάλαιο 4 Μεθοδολογία Γενικά, η δοµή των συστηµάτων που υλοποιήσαµε έχει ως είσοδο ένα σύνολο κειµένων, στη συνέχεια εξάγουµε χαρακτηριστικά απ αυτά τα κείµενα, οπότε τα κείµενα αναπαριστώνται ως διανύσµατα χαρακτηριστικών και δίνονται ως είσοδος στους κατηγοριοποιητές του WEKA, οι οποίοι στο τέλος δίνουν τα αποτελέσµατα της κατηγοριοποίησης. Στο κεφάλαιο αυτό ϑα περιγράψουµε τα χαρακτηριστικά που χρησιµοποιήσαµε, καθώς και τα εργαλεία που χρησιµοποιήθηκαν για την υλοποίηση του στόχου µας. 4.1 Εξαγωγή Χαρακτηριστικών Σ αυτή την ενότητα ϑα περιγράψουµε τις διαφορετικές κατηγορίες από features που χρησιµοποιήσαµε για την κατηγοριοποίηση, οι οποίες είναι τα features που είναι ανεξάρτητα απ τη γλώσσα του κειµένου, τα features που αφορούν στα µέρη του λόγου των λέξεων του κειµένου, τα features που αποτελούν γλωσσικά µοντέλα, τα features που εξαρτώνται από τη γλώσσα του κειµένου και τα features, που συνδέονται µε το περιεχόµενο του κειµένου. Ολες οι παραπάνω κατηγορίες χαρακτηριστικών υλοποιήθηκαν µε χρήση της γλώσσας προγραµµατισµού Python και του εργαλείου NLTK. 25

26 26 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ Χαρακτηριστικά ανεξάρτητα απ τη γλώσσα του κειµένου Κατασκευάσαµε ένα σύνολο από χαρακτηριστικά, τα οποία είναι ανεξάρτητα από τη γλώσσα και τον τύπο του κειµένου και µπορούν να εφαρµοστούν σε ένα µεγάλο σύνολο διαφορετικών κειµένων. Τα υπολογίζουµε ανά κείµενο και είναι τα εξής [39], [8]: 1. Το πλήθος των χαρακτήρων του κειµένου. 2. Το πλήθος των αλφαβητικών χαρακτήρων του κειµένου, κανονικοποιη- µένο ως προς το πλήθος των χαρακτήρων του κειµένου. 3. Το πλήθος των χαρακτήρων του κειµένου που είναι γραµµένοι µε κε- ϕαλαίο γράµµα, κανονικοποιηµένο ως προς το πλήθος των χαρακτήρων του κειµένου. 4. Το πλήθος των χαρακτήρων που είναι αριθµοί, κανονικοποιηµένο ως προς το πλήθος των χαρακτήρων του κειµένου. 5. Το πλήθος των κενών ( ), κανονικοποιηµένο ως προς το πλήθος των χαρακτήρων του κειµένου. 6. Το πλήθος των tabs, κανονικοποιηµένο ως προς το πλήθος των χαρακτήρων του κειµένου. 7. Η συχνότητα των χαρακτήρων που είναι γράµµατα. 8. Η συχνότητα των ειδικών χαρακτήρων :,@,#,$,%,,&,,,_,=,+,>,<,[,],{,},/,\,. 9. Ο συνολικός αριθµός των λέξεων. 10. Ο συνολικός αριθµός των µικρών λέξεων, δηλαδή λέξεων µε λιγότερα από 4 γράµµατα, κανονικοποιηµένος ως προς το συνολικό αριθµό των λέξεων του κειµένου. 11. Ο συνολικός αριθµός των χαρακτήρων στις λέξεις, κανονικοποιηµένος ως προς το συνολικό αριθµό των χαρακτήρων. 12. Το µέσο µήκος λέξης. 13. Ο συνολικός αριθµός των προτάσεων.

27 4.1. ΕΞΑΓΩΓ Η ΧΑΡΑΚΤΗΡΙΣΤΙΚ ΩΝ Το πλήθος των παραγράφων. Ως παράγραφο ϑεωρούµε το τµήµα του κειµένου που ακολουθεί µετά από το χαρακτήρα αλλαγής γραµµής. 15. Ο συνολικός αριθµός των γραµµών του κειµένου. 16. Ο µέσος αριθµός χαρακτήρων ανά πρόταση. 17. Ο µέσος αριθµός λέξεων ανά πρόταση. 18. Το πλήθος των διαφορετικών λέξεων του κειµένου, κανονικοποιηµένο ως προς το συνολικό αριθµό των λέξεων του κειµένου. 19. Ο αριθµός των λέξεων που εµφανίζονται µόνο µια ϕορά στο κείµενο. 20. Ο αριθµός των λέξεων που εµφανίζονται µόνο δύο ϕορές στο κείµενο. 21. Η συχνότητα εµφάνισης των συµβόλων στίξης :,,.,?,!, :, ;,, 22. Το πλήθος των λειτουργικών λέξεων, όπως για παράδειγµα οι λέξεις although, much, plus, toward, who, you, your, under. 23. Το πλήθος των προτάσεων ανά παράγραφο. 24. Το πλήθος των χαρακτήρων ανά παράγραφο. 25. Το πλήθος των λέξεων που ξεκινούν µε κεφαλαίο γράµµα, κανονικοποιηµένο ως προς το συνολικό αριθµό των λέξεων του κειµένου. 26. Το πλήθος των emoticons, κανονικοποιηµένο ως προς το συνολικό αριθµό των λέξεων του κειµένου [27]. 27. Το πλήθος των λέξεων που έχουν όλα τους τα γράµµατα κεφαλαία, κανονικοποιηµένο ως προς το συνολικό αριθµό των λέξεων του κειµένου (ακρώνυµα) [27]. 28. Η τυπική απόκλιση της κατανοµής των τιµών του µήκους των λέξεων. 29. Η µέγιστη τιµή της κατανοµής των τιµών του µήκους των λέξεων. 30. Η ελάχιστη τιµή της κατανοµής των τιµών του µήκους των λέξεων. Τα χαρακτηριστικά 1 24 τα ϑεωρούµε baseline χαρακτηριστικά, οπότε ϑα αναφερόµαστε σ αυτά ως σύνολο baseline.

28 28 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ Χαρακτηριστικά που σχετίζονται µε τα µέρη του λόγου των λέξεων Σ αυτή την κατηγορία ανήκουν χαρακτηριστικά τα οποία υπολογίζουν τις συχνότητες εµφάνισης συγκεκριµένων µερών του λόγου, τα οποία ϕέρουν περισσότερο πληροφοριακό περιεχόµενο [21]. Τα χαρακτηριστικά µετρώνται ανά κείµενο και είναι τα παρακάτω : 1. Η συχνότητα εµφάνισης ουσιαστικών. 2. Η συχνότητα εµφάνισης κύριων ονοµάτων [28]. 3. Η συχνότητα εµφάνισης επιθέτων. 4. Η συχνότητα εµφάνισης προθέσεων. 5. Η συχνότητα εµφάνισης άρθρων. 6. Η συχνότητα εµφάνισης αντωνυµιών. 7. Η συχνότητα εµφάνισης ϱηµάτων. 8. Η συχνότητα εµφάνισης επιρρηµάτων. 9. Η συχνότητα εµφάνισης συνδέσµων. Για να ϐρούµε το µέρος του λόγου κάθε λέξης, εφαρµόσαµε µορφοσυντακτική επισηµείωση του κειµένου, µε χρήση του NLTK Γλωσσικά Μοντέλα Αυτού του είδους τα χαρακτηριστικά εξήχθησαν αφού κατασκευάσαµε γλωσσικά µοντέλα µε unigrams, bigrams και trigrams για κάθε ένα από τα δύο ϕύλα (άνδρας, γυναίκα). Τα µοντέλα για άνδρες και τα µοντέλα για γυναίκες εκπαιδεύτηκαν αρχικά µε ένα σύνολο εκπαίδευσης και στη συνέχεια για τον υπολογισµό των µετρικών χρησιµοποιήθηκε ένα σύνολο ελέγχου, διαχωρίζοντας τα κείµενα µε τέτοιον τρόπο, ώστε να µην υπάρχει τοµή ανάµεσα στα κείµενα του συνόλου εκπαίδευσης και του συνόλου ελέγχου. Οι µετρικές που υπολογίσαµε είναι το log likelihood και η εντροπία. Εποµένως, για κάθε γλωσσικό µοντέλο unigrams, bigrams και trigrams υπολογίσαµε τα παρακάτω οχτώ χαρακτηριστικά :

29 4.1. ΕΞΑΓΩΓ Η ΧΑΡΑΚΤΗΡΙΣΤΙΚ ΩΝ Log likelihood για το ενδεχόµενο τα κείµενα να είναι γραµµένα από γυναίκες. 2. Log likelihood για το ενδεχόµενο τα κείµενα να είναι γραµµένα από άνδρες. 3. Η κανονικοποιηµένη τιµή του Log likelihood για το ενδεχόµενο τα κείµενα να είναι γραµµένα από γυναίκες. 4. Η κανονικοποιηµένη τιµή του Log likelihood για το ενδεχόµενο τα κείµενα να είναι γραµµένα από άνδρες. 5. Η εντροπία για το ενδεχόµενο τα κείµενα να είναι γραµµένα από γυναίκες. 6. Η εντροπία για το ενδεχόµενο τα κείµενα να είναι γραµµένα από άνδρες. 7. Η κανονικοποιηµένη τιµή της εντροπίας για το ενδεχόµενο τα κείµενα να είναι γραµµένα από γυναίκες. 8. Η κανονικοποιηµένη τιµή της εντροπίας για το ενδεχόµενο τα κείµενα να είναι γραµµένα από άνδρες. Εποµένως, συνολικά έχουµε 24 χαρακτηριστικά ανά κείµενο για αυτή την κατηγορία χαρακτηριστικών Χαρακτηριστικά Εξαρτηµένα από τη Γλώσσα Στην παρούσα υποενότητα ϑα περιγράψουµε χαρακτηριστικά τα οποία, στην πλειοψηφία τους, εξαρτώνται από τη γλώσσα του κειµένου και στοχεύουν στη ϐαθύτερη ανάλυση του κειµένου, ξεφεύγοντας από τα όρια των χαρακτήρων και των λέξεων. Η πληροφορία που εξετάζουν είναι πιο σύνθετη, οπότε ϑα πρέπει να είναι σε ϑέση να εντοπίζουν λεπτές διαφορές που µπορεί να υπάρχουν ανάµεσα σε κείµενα γραµµένα από γυναίκες και άνδρες. Τα χαρακτηριστικά µετρώνται ανά κείµενο και είναι τα παρακάτω : 1. Η συντακτική πολυπλοκότητα, την οποία µετράµε ως τον µέσο αριθµό των ϱηµάτων ανά πρόταση, κανονικοποιηµένο ως προς το συνολικό αριθµό των ϱηµάτων της πρότασης.

30 30 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ 2. Το µέσο µήκος πρότασης [27], 3. Η ερωτηµατική επιτόνηση, η οποία υπολογίζεται ως ο αριθµός των ακολουθιών από διαφορετικές διατάξεις των συµβόλων! και?, πχ?!!!, κανονικοποιηµένος ως προς το συνολικό αριθµό των δύο συµβόλων στο κείµενο, 4. Ο αριθµός των επιθέτων του κειµένου, κανονικοποιηµένος ως προς το συνολικό αριθµό των λέξεων του κειµένου, 5. Ο τρόπος έκφρασης της ευγένειας, ο οποίος µετράται εντοπίζοντας ορισµένες στάνταρ λέξεις που χρησιµοποιούνται ως ένδειξη ευγένειας, όπως για παράδειγµα thanks, thank you, sorry, excuse me και στη συνέχεια κανονικοποιείται ως προς το συνολικό αριθµό λέξεων του κειµένου. 6. Ο κανονικοποιηµένος αριθµός των tag questions, όπως για παράδειγµα is it?, isnt it?. 7. Ο κανονικοποιηµένος αριθµός των εµφανίσεων αργκό λεξιλογίου [27]. 8. Ο κανονικοποιηµένος αριθµός εµφάνισης υβριστικών λέξεων και ϕράσεων. 9. Η λεξιλογική ποικιλία, η οποία µετράται ως το πλήθος των διαφορετικών λέξεων ανά κείµενο (έχοντας αφαιρέσει τους τερµατικούς όρους), κανονικοποιηµένο ως προς το συνολικό αριθµό λέξεων του κειµένου. 10. Η γλωσσική πυκνότητα, η οποία µετράται ως ο αριθµός των λέξεων περιεχοµένου του κειµένου (ουσιαστικά, επίθετα, ϱήµατα, επιρρήµατα), κανονικοποιηµένος ως προς το συνολικό αριθµό λέξεων του κειµένου. 11. Η συναισθηµατική γλώσσα, η οποία µετράται ως ο αριθµός των συναισθηµατικά ϕορτισµένων λέξεων, µε ϐάση το λεξικό του SentiWordNet, κανονικοποιηµένος ως προς το συνολικό αριθµό των λέξεων του κειµένου.

31 4.2. ΠΕΡΙΓΡΑΦ Η ΕΡΓΑΛΕ ΙΩΝ Χαρακτηριστικά σχετικά µε το Περιεχόµενο Τώρα, ϑα παραθέσουµε χαρακτηριστικά τα οποία σχετίζονται περισσότερο µε το περιεχόµενο του κειµένου και µπορούν να συνεισφέρουν σε λεπτοµερέστερα αποτελέσµατα. Τα µετράµε ανά κείµενο και είναι τα εξής : 1. Ο αριθµός των εµφανίσεων υπερσυνδέσµων (" κανονικοποιη- µένος ως προς το συνολικό αριθµό των λέξεων του κειµένου [27], 2. Ο αριθµός εµφάνισης αυτοαναφορών, δηλαδή I, me, myself, mine, my, κανονικοποιηµένος ως προς το συνολικό αριθµό των λέξεων του κειµένου. 3. Το πλήθος χρήσης µελλοντικού χρόνου στο κείµενο, δηλαδή will, ll, going to, gonna, κανονικοποιηµένος ως προς το συνολικό αριθµό των λέξεων του κειµένου. 4. Η συχνότητα εµφάνισης τερµατικών όρων στο κείµενο, κανονικοποιη- µένη ως προς το συνολικό αριθµό των λέξεων του κειµένου. 4.2 Περιγραφή Εργαλείων Στην ενότητα αυτή ϑα περιγράψουµε τα εργαλεία που χρησιµοποιήσαµε στην υλοποίησή µας Η γλώσσα προγραµµατισµού Python Η γλώσσα προγραµµατισµού Python [26] αναπτύχθηκε τη δεκαετία το 90. Είναι γλώσσα διερµηνευόµενη και object-oriented. Αναπτύσσεται συνεχώς και ο κώδικάς της διανέµεται µε την άδεια Python Software Foundation. Τα πιο ϐασικά χαρακτηριστικά της είναι : Η αναγνωσιµότητα του κώδικά της, Η ευκολία στη χρήση της και Η δυνατότητά της να απλοποιεί στην υλοποίηση δύσκολες συναρτήσεις.

32 32 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ Υλοποιεί διάφορες εργασίες µε χρήση ϐιβλιοθηκών (modules) και οι κύριοι τύποι δεδοµένων που χρησιµοποιεί είναι οι λίστες, τα λεξικά και οι πλειάδες. Εχει µεγαλο εύρος εφαρµογών, όπως για παράδειγµα στον επιστηµονικό υπολογισµό, στην τεχνητή νοηµοσύνη, στην επεξεργασία ϕυσικής γλώσσας κλπ. Στην παρούσα διπλωµατική εργασία χρησιµοποιήσαµε την έκδοση της γλώσσας, η οποία σε συνδυασµό µε την πλατφόρµα NLTK χρησιµεύουν σε πολλές εφαρµογές της επεξεργασίας ϕυσικής γλώσσας NLTK Το NLTK (Natural Language Toolkit) είναι ένα πακέτο ϐιβλιοθηκών και προγραµµάτων της Python για εφαρµογές της Επεξεργασίας Φυσικής Γλώσσας και αναπτύχθηκε απ τους Steven Bird, Edward Loper και Ewan Klein. Περιλαµβάνει πολλά γνωστά σώµατα κειµένων, γραφικές αναπαραστάσεις και δειγµατικά δεδοµένα. Συνοδεύεται από ένα ϐιβλίο το οποίο εξηγεί τις έννοιες που σχετίζονται µε τα εργαλεία που παρέχει. Βασικός στόχος του NTLK είναι να υποστηρίξει την έρευνα και την εκµάθηση της Επεξεργασίας Φυσικής Γλώσσας καθώς και άλλων σχετικών πεδίων, όπως η Γλωσσολογία, η Τεχνητή Νοηµοσύνη, η Ανάκτηση Πληροφορίας και η Μηχανική Μάθηση. Εχει χρησιµοποιηθεί µε επιτυχία ως εργαλείο διδασκαλίας, µελέτης και ως πλατφόρµα για την ανάπτυξη πρωτότυπων ερευνητικών συστηµάτων. Κατά την υλοποίηση του συστήµατός µας χρησιµοποιήσαµε το NTLK [23], [24] για τις παρακάτω διαδικασίες : Χωρισµός του κειµένου σε προτάσεις (Sentence Tokenization/Segmentation). Αν ϑέλουµε να χωρίσουµε σε προτάσεις ένα µικρό κοµµάτι κειµένου, τότε µπορούµε να ακολουθήσουµε την παρακάτω διαδικασία : Ετσι, τώρα έχουµε µια λίστα µε τις προτάσεις και µπορούµε να τις χρησιµοποιήσουµε για περαιτέρω επεξεργασία. Αν, όµως, ϑέλουµε να διαχωρίσουµε ένα κείµενο το οποίο περιέχει πολλές προτάσεις, τότε είναι προτιµότερο να εφαρµόσουµε τα παρακάτω : Χωρισµός των προτάσεων σε λέξεις (Word Tokenization). Αν ϑέλουµε να διαχωρίσουµε µια πρόταση σε µεµονωµένες λέξεις, ϑα

33 4.2. ΠΕΡΙΓΡΑΦ Η ΕΡΓΑΛΕ ΙΩΝ 33 Σχήµα 4.1: Χωρισµός προτάσεων. Σχήµα 4.2: Χωρισµός προτάσεων σε κείµενο. ακολουθήσουµε τη διαδικασία που ϕαίνεται στην εικόνα 4.3. Σχήµα 4.3: Χωρισµός των προτάσεων σε λέξεις. Μορφοσυντακτική επισηµείωση (Part-Of-Speech Tagging). Η µορφοσυντακτική ανάλυση είναι η διαδικασία µε την οποία µια πρόταση από τη µορφή λίστας µε λέξης µετατρέπεται σε µια λίστα µε πλειάδες (tuples), όπου κάθε πλειάδα έχει τη µορφή (word, tag). Το tag είναι η µορφοσυντακτική ετικέτα και δείχνει αν η λέξη είναι ουσιαστικό, επίθετο, ϱήµα κτλ. Η διαδικασία είναι η εξής : Σχήµα 4.4: Μορφοσυντακτική επισηµείωση των λέξεων. Υπολογισµός της συχνότητας εµφάνισης κάθε λέξης µέσα στο κείµενο.

34 34 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ Για να υπολογίσουµε τη συχνότητα εµφάνισης κάθε λέξης, χρησιµοποιούµε τη συνάρτηση FreqDist. Ενα παράδειγµα ϕαίνεται στην εικόνα 4.5: Σχήµα 4.5: Παράδειγµα χρήσης της FreqDist SentiWordNet Το SentiWordNet [31], [32] είναι µια λεξικολογική πηγή η οποία εµπλουτίζει το WordNet [37] και χρησιµοποιείται σε εφαρµογές εξόρυξης γνώµης. Είναι διαθέσιµο σε txt µορφή. Σε κάθε σύνολο συνωνύµων του WordNet αναθέτει τρία σκορ, όπως ϕαίνεται και στην εικόνα 4.6: Θετικής πολικότητας, Αρνητικής πολικότητας, Ουδετερότητας. Τα σκορ αυτά δείχνουν πόσο ϑετικοί, αρνητικοί ή ουδέτεροι είναι οι όροι που περιέχονται στο σύνολο συνωνύµων. Η τιµή κάθε σκορ ανήκει στο διάστηµα [0.0, 1.0] και το άθροισµά τους ισούται µε 1 για κάθε σύνολο συνωνύµων. Αυτό σηµαίνει ότι ένα σύνολο συνωνύµων µπορεί να έχει µη µηδενικά σκορ και στις τρεις κατηγορίες. ηλαδή, η άποψη που εκφράζεται από την έννοια που αντιστοιχεί στο σύνολο αυτό έχει και τις τρεις ιδιότητες σ ένα ϐαθµό.

35 4.2. ΠΕΡΙΓΡΑΦ Η ΕΡΓΑΛΕ ΙΩΝ 35 Σχήµα 4.6: Πώς το SentiWordNet αναπαριστά τις πολικότητες ενός όρου. Ενα παράδειγµα της λειτουργίας του SentiWordNet για τη λέξη estimable ϕαίνεται στην εικόνα 4.7: Η µέθοδος που χρησιµοποιήθηκε για την ανάπτυξη του SentiWordNet [10] ϐασίζεται στην εκπαίδευση ενός συνόλου τριαδικών κατηγοριοποιητών. Καθένας από αυτούς µπορεί να αποφασίσει εάν ένα σύνολο συνωνύµων είναι ϑετικό, αρνητικό ή ουδέτερο. Κάθε κατηγοριοποιητής διαφέρει από τους υπόλοιπους στο σύνολο εκπαίδευσης και στη συσκευή εκµάθησης µε τα οποία εκπαιδεύτηκε. Αυτό έχει ως αποτέλεσµα την παραγωγή διαφορετικών αποτελεσµάτων στην κατηγοριοποίηση των συνόλων συνωνύµων του WordNet. Τα σκορ που αντιστοιχούν στην άποψη που εκφράζει κάθε σύνολο συνωνύµων προκύπτουν ως η κανονικοποιηµένη αναλογία των σκορ που έχουν αναθέσει οι τριαδικοί κατηγοριοποιητές. Αν όλοι οι κατηγοριοποιητές αναθέσουν την

36 36 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ Σχήµα 4.7: Οι πολικότητες της λέξης estimable. ίδια ετικέτα σ ένα σύνολο συνωνύµων, τότε αυτή η ετικέτα ϑα έχει το µέγιστο σκορ για το συγκεκριµένο σύνολο συνωνύµων. Αλλιώς, κάθε ετικέτα ϑα έχει ένα σκορ ανάλογο του αριθµού των κατηγοριοποιητών που την έχουν αναθέσει. Η ϐασική δοµή του SentiWordNet ϕαίνεται στην εικόνα 4.8.

37 4.2. ΠΕΡΙΓΡΑΦ Η ΕΡΓΑΛΕ ΙΩΝ 37 Σχήµα 4.8: Βασική δοµή του SentiWordNet. Για να ϕορτώσουµε το SentiWordNet στο πρόγραµµά µας και να εµφανίσουµε τα τρία σκορ µιας λέξης ϑα πρέπει να κάνουµε τα παρακάτω : Σχήµα 4.9: Φόρτωση του SentiWordNet. Στην εικόνα 4.10 ϐλέπουµε πώς µπορούµε να υπολογίσουµε το ϑετικό, αρνητικό και ουδέτερο σκορ της λέξης happy. Σχήµα 4.10: Υπολογισµός ϑετικής, αρνητικής και ουδέτερης πολικότητας της λέξης happy WEKA Το WEKA [36] είναι µια δηµοφιλής πλατφόρµα, η οποία χρησιµοποιείται σε εφαρµογές µηχανικής µάθησης. Αναπτύχθηκε στο Πανεπιστήµιο του Waikato, στη Νέα Ζηλανδία. Υποστηρίζει πολλές εφαρµογές της Εξόρυξης εδοµένων, όπως είναι η προεπεξεργασία των δεδοµένων, η συσταδοποίηση, η κατηγοριοποίηση, το

38 38 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ regression, η οπτικοποίηση και η επιλογή χαρακτηριστικών. Πιο συγκεκρι- µένα, περιέχει υλοποιηµένο ένα µεγάλο σύνολο αλγορίθµων που ανήκουν σε καθεµία απ τις παραπάνω διαδικασίες.

39 Κεφάλαιο 5 Πειραµατικά Αποτελέσµατα και Αξιολόγηση Στο κεφάλαιο αυτό ϑα παρουσιάσουµε τα πειραµατικά αποτελέσµατα των συστηµάτων που υλοποιήσαµε για την κατηγοριοποίηση ως προς το ϕύλο. 5.1 Κατηγοριοποίηση ως προς το ϕύλο Για την κατηγοριοποίηση ως προς το ϕύλο, υλοποιήσαµε δύο διαφορετικά συστήµατα, τα οποία χρησιµοποιούν διαφορετικά σύνολα δεδοµένων και χαρακτηριστικών, ώστε να εξετάσουµε την απόδοση των χαρακτηριστικών µας σε διάφορα είδη κειµένων. Επίσης, στόχος µας ήταν να παρατηρήσουµε και τη συµπεριφορά διαφορετικών συνδυασµών χαρακτηριστικών στην κατηγοριοποίηση µε ένα σύνολο κατηγοριοποιητών Πρώτο σύστηµα Σύνολο εδοµένων Στο πρώτο σύστηµα που υλοποιήσαµε, το σύνολο δεδοµένων που χρησι- µοποιήσαµε είναι µια συλλογή από σχόλια χρηστών στο διαδίκτυο. Πιο συγκεκριµένα, το σύνολο αυτό περιλαµβάνει σχόλια χρηστών για διάφορα ϑέµατα, προερχόµενα από forum και άλλες ιστοσελίδες. Περιέχει σχόλια από διαφορετικές πηγές, τα οποία καλύπτουν ποικίλες ϑεµατικές περιοχές και από ιστοσελίδες που σχετίζονται µε τις προτιµήσεις κάθε ϕύλου (µόδα, αυτοκίνητα), 39

40 40 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΆ ΑΠΟΤΕΛ ΕΣΜΑΤΑ ΚΑΙ ΑΞΙΟΛ ΟΓΗΣΗ αλλά και από ιστοσελίδες που αποτελούν ουδέτερες πηγές (ειδήσεις, υγεία, κλπ). Το σύνολο των κειµένων αποτελείται από λέξεις. Το πλήθος των χαρακτήρων συνολικά είναι Ο διαχωρισµός του ϕύλου στα κείµενα ανάµεσα σε άνδρες και γυναίκες είναι 42% και 58% αντίστοιχα. Πειραµατική ιαδικασία Για την αξιολόγηση του συστήµατος, χρησιµοποιήσαµε διαφορετικούς συνδυασµούς των χαρακτηριστικών baseline που περιγράψαµε στην ενότητα (Οµάδα 1) και των χαρακτηριστικών της ενότητας 4.1.4, που εξαρτώνται από τη γλώσσα του κειµένου (Οµάδα 2). Αρχικά, χρησιµοποιήσαµε ξεχωριστά τα baseline χαρακτηριστικά και τα χαρακτηριστικά που είναι ανεξάρτητα από τη γλώσσα και στη συνέχεια δηµιουργήσαµε τη συνένωσή τους. Τα χαρακτηριστικά που αντιστοιχούν στην Οµάδα 1 προστέθηκαν στα χαρακτηριστικά που αντιστοιχούν στην Οµάδα 2 και το συνενωµένο διάνυσµα χαρακτηριστικών δόθηκε για επεξεργασία στους αλγορίθµους κατηγοριοποίησης. Συνολικά, το διάνυσµα χαρακτηριστικών περιέχει 35 χαρακτηριστικά. Για την κατηγοριοποίηση, ϐασιζόµαστε σε αρκετούς αλγορίθµους µηχανικής µάθησης, οι οποίοι έχουν χρησιµοποιηθεί ευρέως στη ϐιβλιογραφία. Πιο συγκεκριµένα, χρησιµοποιήσαµε πολυεπίπεδα νευρωνικά δίκτυα (MLP) και µηχανές διανυσµάτων υποστήριξης (SVM) µε radial basis kernel (RBF) και µε polynomial kernel (poly). Επίσης, χρησιµοποιήσαµε τον Adaboost.M1, που είναι ένας boosting αλγόριθµος συνδυασµένος µε δέντρα απόφασης και έναν bagging αλγόριθµο που χρησιµοποιεί δέντρα απόφασης Bagging. Τέλος, χρησιµοποιήσαµε τρεις αλγορίθµους µε δέντρα απόφασης, τον Random Tree (RandTree), τον Random Forest (RandForest) και τον RepTree. Ολοι οι κατηγοριοποιητές υλοποιήθηκαν µέσω της πλατφόρµας WEKA. Για να αποφύγουµε επικαλύψεις ανάµεσα στα σύνολα εκπαίδευσης και ελέγχου, εφαρµόσαµε 10-fold cross validation. Αποτελέσµατα Στον πίνακα 5.1 ϐλέπουµε τα αποτελέσµατα της κατηγοριοποίησης µε µορφή ποσοστών %, για διαφορετικούς συνδυασµούς χαρακτηριστικών και αλγορίθµων. Η καλύτερη απόδοση για κάθε συνδυασµό χαρακτηριστικών

41 5.1. ΚΑΤΗΓΟΡΙΟΠΟ ΙΗΣΗ ΩΣ ΠΡΟΣ ΤΟ Φ ΥΛΟ 41 ϕαίνεται µε έντονα γράµµατα. Πίνακας 5.1: Αποτελέσµατα της κατηγοριοποίησης για διαφορετικούς συνδυασµούς χαρακτηριστικών και αλγορίθµων. Οµάδα 1 Οµάδα 2 Οµάδα 1 + Οµάδα 2 Bagging Boosting SVM(poly) SVM(rbf) MLP RandForest RandTree RepTree Οπως ϐλέπουµε στον πίνακα 5.1, η χρήση των χαρακτηριστικών της Οµάδας 2 ϐελτιώνει την ακρίβεια της κατηγοριοποίησης του ϕύλου σχεδόν κατά 1.5%, σε σύγκριση µε την καλύτερη απόδοση µόνο του baseline. Ειδικότερα, η καλύτερη baseline απόδοση είναι 82.92% µε χρήση του κατηγοριοποιητή REPTree, ενώ η συνολική καλύτερη απόδοση είναι 84.16%, η οποία επετεύχθη µε τον συνδυασµό των χαρακτηριστικών της Οµάδας 1 και της Οµάδας 2 και τον κατηγοριοποιητή SVM poly. Ο SVM poly αλγόριθµος υπερέχει των υπολοίπων, πιθανότατα γιατί δεν επηρεάζεται από το curse of dimensionality. Επίσης, αρκετά καλή απόδοση έχει και ο Bagging αλγόριθµος, ο οποίος πετυχαίνει απόδοση ίση µε 83.54%, για το συνδυασµό των χαρακτηριστικών της Οµάδας 1 και της Οµάδας 2. Η προσέγγιση της Οµάδας 2 δεν προσφέρει από µόνη της ανταγωνιστική απόδοση σε σύγκριση µε το baseline, αλλά στον συνδυασµό των χαρακτηριστικών αυτών υπάρχει αύξηση της απόδοσης, κάτι που αποδεικνύει τη σηµασία των χαρακτηριστικών που εξαρτώνται από τη γλώσσα του κειµένου.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης Ειρήνη Καλδέλη ιπλωµατική Εργασία Περίληψη Εισαγωγή Τα τελευταία χρόνια η αλµατώδης ανάπτυξη της πληροφορικής έχει διευρύνει σε σηµαντικό βαθµό

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Opinion Mining Opinion Mining Συνώνυμο: Sentiment Analysis Ορισμός: Ανάλυση κειμένων που αναφέρονται σε μια οντότητα/αντικείμενο Εντοπισμός

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

Opinion Mining and Sentiment analysis

Opinion Mining and Sentiment analysis Opinion Mining and Sentiment analysis Τμήμα Μηχανικών Η/Υ και Πληροφορικής επιβλέπων καθηγητής: Μακρής Χρήστος Επισκόπηση και πειραματική αξιολόγηση τεχνικών για opinion mining και sentiment analysis Παναγόπουλος

Διαβάστε περισσότερα

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής Εξόρυξη γνώσης από σχόλια σε τουριστικές ιστοσελίδες και παραγοντική ανάλυση του αισθήματος ικανοποίησης των πελατών για το ξενοδοχείο τους Γιώργος ταλίδης 1, Παναγιώτης ταλίδης 2, Κώστας Διαμαντάρας 2

Διαβάστε περισσότερα

Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία

Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία Γιώργος Κ. Μικρός Τμήμα Ιταλικής Γλώσσας και Φιλολογίας - ΕΚΠΑ Περίγραμμα ομιλίας Κοινωνικά Μέσα Δικτύωσης

Διαβάστε περισσότερα

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος. Γλωσσική Τεχνολογία Εισαγωγή 2015 16 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/ Τι θα ακούσετε Εισαγωγή στη γλωσσική τεχνολογία. Ύλη και οργάνωση του μαθήματος. Προαπαιτούμενες γνώσεις και άλλα προτεινόμενα

Διαβάστε περισσότερα

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου Τίμος Κουλουμπής Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου Αντικείμενο Εργασίας Εισαγωγή στην Αυτόματη Κατηγοριοποίηση Κειμένου Μεθοδολογίες Συγκριτική Αποτίμηση Συμπεράσματα

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση Οι συµφράσεις είναι ακολουθίες όρων οι οποίοι συνεµφανίζονται σε κείµενο µε µεγαλύτερη συχνότητα από εκείνη της εµφάνισης

Διαβάστε περισσότερα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου Γλωσσικη τεχνολογια Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε

Διαβάστε περισσότερα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΣΠΟΥ ΑΣΤΗΣ: Γιαννόπουλος Γεώργιος ΕΠΙΒΛΕΠΩΝ: Καθ. Ι. Βασιλείου ΒΟΗΘΟΙ: Α. ηµητρίου, Θ. αλαµάγκας Γενικά Οι µηχανές αναζήτησης

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών Άννα Μάστορα 1, Μανόλης Πεπονάκης 2, Σαράντος Καπιδάκης 1 1 Εργαστήριο Ψηφιακών Βιβλιοθηκών και

Διαβάστε περισσότερα

2 + 0.5 2 + 0.25 + 1 + 0.5 2 + 0.25 + 1 + 0.5 2 + 0.25 2 + 0.5 0 0.125 + 1 + 0.5 1 0.125 + 1 + 0.75 1 0.125 1/5

2 + 0.5 2 + 0.25 + 1 + 0.5 2 + 0.25 + 1 + 0.5 2 + 0.25 2 + 0.5 0 0.125 + 1 + 0.5 1 0.125 + 1 + 0.75 1 0.125 1/5 IOYNIOΣ 23 Δίνονται τα εξής πρότυπα: x! = 2.5 Άσκηση η (3 µονάδες) Χρησιµοποιώντας το κριτήριο της οµοιότητας να απορριφθεί ένα χαρακτηριστικό µε βάση το συντελεστή συσχέτισης. Γράψτε εδώ το χαρακτηριστικό

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction Information Extraction Μορφή της πληροφορίας Δομημένα δεδομένα Relational Databases (SQL) XML markup Μη-δομημένα δεδομένα

Διαβάστε περισσότερα

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας 1. Εισαγωγή Σχολιασµός των εργασιών της 16 ης παράλληλης συνεδρίας µε θέµα «Σχεδίαση Περιβαλλόντων για ιδασκαλία Προγραµµατισµού» που πραγµατοποιήθηκε στο πλαίσιο του 4 ου Πανελλήνιου Συνεδρίου «ιδακτική

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Ημερίδα παρουσίασης CLARIN-EL 1/10/2010 Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" ΧΑΡΤΟΓΡΑΦΗΣΗ ΧΩΡΟΥ ΓΤ ΓΙΑ ΚΑΕ Στο

Διαβάστε περισσότερα

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β ηµήτρης Κουγιουµτζής http://users.auth.gr/dkugiu/teach/civilengineer E mail: dkugiu@gen.auth.gr 1/11/2009 2 Περιεχόµενα 1 ΠΕΡΙΓΡΑΦΙΚΗ

Διαβάστε περισσότερα

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΥΠΟΛΟΓΙΣΤΩΝ Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού ( Απαντήσεις & Λύσεις Βιβλίου) 1. Σκοποί κεφαλαίου Κύκλος ανάπτυξης προγράµµατος Κατηγορίες γλωσσών προγραµµατισµού

Διαβάστε περισσότερα

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Διοίκησης Συστημάτων Εφοδιασμού Μάθημα: Εισαγωγή στην Εφοδιαστική (Εργαστήριο) Ανάλυση του άρθρου με τίτλο: «Intelligent Decision Support Systems» των Stephanie Guerlain,

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Περίληψη ιπλωµατικής Εργασίας

Περίληψη ιπλωµατικής Εργασίας Περίληψη ιπλωµατικής Εργασίας Θέµα: Εναλλακτικές Τεχνικές Εντοπισµού Θέσης Όνοµα: Κατερίνα Σπόντου Επιβλέπων: Ιωάννης Βασιλείου Συν-επιβλέπων: Σπύρος Αθανασίου 1. Αντικείµενο της διπλωµατικής Ο εντοπισµός

Διαβάστε περισσότερα

11ο Πανελλήνιο Συνέδριο της ΕΕΦ, Λάρισα 30-31/03, 1-2/04/2006. Πρακτικά Συνεδρίου

11ο Πανελλήνιο Συνέδριο της ΕΕΦ, Λάρισα 30-31/03, 1-2/04/2006. Πρακτικά Συνεδρίου ο Πανελλήνιο Συνέδριο της ΕΕΦ, Λάρισα 30-3/03, -/04/006. Πρακτικά Συνεδρίου Έµµεσες µετρήσεις φυσικών µεγεθών. Παράδειγµα: Ο πειραµατικός υπολογισµός του g µέσω της µέτρησης του χρόνου των αιωρήσεων απλού

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΕΠΛ 035 - ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΓΙΑ ΗΛΕΚΤΡΟΛΟΓΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΚΑΙ ΜΗΧΑΝΙΚΟΥΣ ΥΠΟΛΟΓΙΣΤΩΝ Ακαδηµαϊκό έτος 2017-2018 Υπεύθυνος εργαστηρίου: Γεώργιος

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΟΜΑ Α ΑΣΚΗΣΕΩΝ ΑΣΚΗΣΗ Στην εικόνα παρακάτω φαίνεται ένα νευρωνικό

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΘΕΜΑ ο (.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις Πέµπτη 7 Ιανουαρίου 8 5:-8: Σχεδιάστε έναν αισθητήρα (perceptron)

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών 1 Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ της Κωτσογιάννη Μαριάννας Περίληψη 1. Αντικείµενο- Σκοπός Αντικείµενο της διπλωµατικής αυτής εργασίας

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις Παρασκευή 9 Ιανουαρίου 2007 5:00-8:00 εδοµένου ότι η

Διαβάστε περισσότερα

Είναι το ηλεκτρικό ρεύµα διανυσµατικό µέγεθος;

Είναι το ηλεκτρικό ρεύµα διανυσµατικό µέγεθος; Είναι το ηλεκτρικό ρεύµα διανυσµατικό µέγεθος; Για να εξετάσουµε το κύκλωµα LC µε διδακτική συνέπεια νοµίζω ότι θα πρέπει να τηρήσουµε τους ορισµούς που δώσαµε στα παιδιά στη Β Λυκείου. Ας ξεκινήσουµε

Διαβάστε περισσότερα

Α. Ερωτήσεις Ανάπτυξης

Α. Ερωτήσεις Ανάπτυξης οµηµένος Προγραµµατισµός-Κεφάλαιο 7 Σελίδα 1 α ό 10 ΕΝΟΤΗΤΑ ΙΙΙ (ΠΡΟΓΡΑΜΜΑΤΑ) ΚΕΦΑΛΑΙΟ 7: Είδη, Τεχνικές και Περιβάλλοντα Προγραµµατισµού Α. Ερωτήσεις Ανάπτυξης 1. Τι ονοµάζουµε γλώσσα προγραµµατισµού;

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας)

Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας) Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας) Εισαγωγή 1. Τι είναι αυτό που κρατάς στα χέρια σου. Αυτό το κείµενο είναι µια προσπάθεια να αποτυπωθεί όλη η θεωρία του σχολικού µε

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.

Διαβάστε περισσότερα

Προηγµένη ιασύνδεση µε τοπεριβάλλον

Προηγµένη ιασύνδεση µε τοπεριβάλλον Προηγµένη ιασύνδεση µε τοπεριβάλλον! Επεξεργασία φυσικής γλώσσας # Κατανόηση φυσικής γλώσσας # Παραγωγή φυσικής γλώσσας! Τεχνητή όραση! Ροµποτική Κατανόηση Φυσικής Γλώσσας! Αναγνώριση οµιλίας (Speech recognition)!

Διαβάστε περισσότερα

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων Οικονομικό Πανεπιστήμιο Αθηνών Πρόγραμμα Μεταπτυχιακών Σπουδών «Επιστήμη των Υπολογιστών» Διπλωματική Εργασία Μαρία-Ελένη Κολλιάρου 2

Διαβάστε περισσότερα

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ ΜΕΡΟΣ ΤΡΙΤΟ Πολίτη Όλγα Α.Μ. 4528 Εξάµηνο 8ο Υπεύθυνος Καθηγητής Λυκοθανάσης

Διαβάστε περισσότερα

Ορισµένοι ερευνητές υποστηρίζουν ότι χρειαζόµαστε µίνιµουµ 30 περιπτώσεις για να προβούµε σε κάποιας µορφής ανάλυσης των δεδοµένων.

Ορισµένοι ερευνητές υποστηρίζουν ότι χρειαζόµαστε µίνιµουµ 30 περιπτώσεις για να προβούµε σε κάποιας µορφής ανάλυσης των δεδοµένων. ειγµατοληψία Καθώς δεν είναι εφικτό να παίρνουµε δεδοµένα από ολόκληρο τον πληθυσµό που µας ενδιαφέρει, διαλέγουµε µια µικρότερη οµάδα που θεωρούµε ότι είναι αντιπροσωπευτική ολόκληρου του πληθυσµού. Τέσσερις

Διαβάστε περισσότερα

8 ο ΓΕΛ Πάτρας. Ερευνητική Εργασία. Ιανουάριος /1/2012 8ο ΓΕΛ Πάτρας

8 ο ΓΕΛ Πάτρας. Ερευνητική Εργασία. Ιανουάριος /1/2012 8ο ΓΕΛ Πάτρας 8 ο ΓΕΛ Πάτρας 8 ο ΓΕΛ Πάτρας Ερευνητική Εργασία Ιανουάριος 2012 Θέμα: «Γλωσσικές ποικιλίες: Ομιλείτε greeklish;» Περιγραφική στατιστική ανάλυση για την Έρευνα: «Στάσεις και Απόψεις των Μαθητών και των

Διαβάστε περισσότερα

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 6 195 Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων Το RDF Το Warwick Framework 196 1 Resource Data Framework RDF Τα πολλαπλά και πολλαπλής προέλευσης σχήµατα παραγωγής δηµιουργούν την ανάγκη δηµιουργίας

Διαβάστε περισσότερα

Αριστομένης Μακρής. Συστήματα Επιχειρηματικής Ευφυΐας (BI/BA)

Αριστομένης Μακρής. Συστήματα Επιχειρηματικής Ευφυΐας (BI/BA) Αναλυτική μέσων Κοινωνικής Δικτύωσης (Social Media Analytics) Πληθυσμός Τεχνολογία ο χώρος (χορός) των υπερβολών Παράδειγμα υπερβολής Το 2005 το αγοράζει η News Corp αντί $580.000.000 Το 2008 η αξία της

Διαβάστε περισσότερα

Ανάλυση Απαιτήσεων Απαιτήσεις Λογισµικού

Ανάλυση Απαιτήσεων Απαιτήσεις Λογισµικού ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΜΑΤΙΚΗΣ Ανάλυση Απαιτήσεων Απαιτήσεις Λογισµικού Μάρα Νικολαϊδου Δραστηριότητες Διαδικασιών Παραγωγής Λογισµικού Καθορισµός απαιτήσεων και εξαγωγή προδιαγραφών

Διαβάστε περισσότερα

οµή δικτύου ΣΧΗΜΑ 8.1

οµή δικτύου ΣΧΗΜΑ 8.1 8. ίκτυα Kohonen Το µοντέλο αυτό των δικτύων προτάθηκε το 1984 από τον Kοhonen, και αφορά διαδικασία εκµάθησης χωρίς επίβλεψη, δηλαδή δεν δίδεται καµία εξωτερική επέµβαση σχετικά µε τους στόχους που πρέπει

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΆ ΑΚΑΔΗΜΑΪΚΆ ΗΛΕΚΤΡΟΝΙΚΆ ΣΥΓΓΡΆΜΜΑΤΑ ΚΑΙ ΒΟΗΘΉΜΑΤΑ

ΕΛΛΗΝΙΚΆ ΑΚΑΔΗΜΑΪΚΆ ΗΛΕΚΤΡΟΝΙΚΆ ΣΥΓΓΡΆΜΜΑΤΑ ΚΑΙ ΒΟΗΘΉΜΑΤΑ ΕΛΛΗΝΙΚΆ ΑΚΑΔΗΜΑΪΚΆ ΗΛΕΚΤΡΟΝΙΚΆ ΣΥΓΓΡΆΜΜΑΤΑ ΚΑΙ ΒΟΗΘΉΜΑΤΑ Οριζόντια Δράση Σύνδεσμος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών Εθνικό Μετσόβιο Πολυτεχνείο Εθνικό Δίκτυο Έρευνας και Τεχνολογίας 21ο Πανελλήνιο Συνέδριο

Διαβάστε περισσότερα

ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ. Διπλωματική Εργασία. μάθησης»

ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ. Διπλωματική Εργασία. μάθησης» ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ Διπλωματική Εργασία «Ανάλυση συναισθήματος με χρήση τεχνικών μηχανικής μάθησης» Συγγραφέας: Κατερίνα Χριστοπούλου Επιβλέπων Καθηγητής Κωτσιαντής

Διαβάστε περισσότερα

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου Επαναληπτικές Ασκήσεις Κάτια Κερμανίδου kerman@ionio.gr Διαδίκτυο Tι από τα παρακάτω αποτελεί χαρακτηριστικό της web 2.0 φάσης της εξέλιξης του ιστού, και δεν υπήρχε στην φάση web 1.0 ιστοσελίδες με δυνατότητες

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος Εισαγωγή στον προγραµµατισµό Η έννοια του προγράµµατος Ο προγραµµατισµός ασχολείται µε τη δηµιουργία του προγράµµατος, δηλαδή του συνόλου εντολών που πρέπει να δοθούν στον υπολογιστή ώστε να υλοποιηθεί

Διαβάστε περισσότερα

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005 ΕΚΕΦΕ «ηµόκριτος» Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών Εργαστήριο Τεχνολογίας Γνώσεων και Λογισµικού Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005 Το Εργαστήριο Τεχνολογίας Γνώσεων και Λογισµικού

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη ( )

Τεχνητή Νοημοσύνη ( ) Εβδομάδα Διάλεξη Ενδεικτικά θέματα διαλέξεων Ενδεικτικά θέματα εργαστηρίων/φροντιστηρίων 1 1 1 2 2 3 2 4 3 5 3 6 4 7 4 8 5 9 Τεχνητή Νοημοσύνη (2017-18) Γενικές πληροφορίες για το μάθημα. Εισαγωγή στην

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012 ΔΕ. ΙΟΥΝΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η ( μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάσει το συντελεστή συσχέτισης. (γράψτε ποιο χαρακτηριστικό

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 2 Σεπτεµβρίου 2005 5:00-8:00 Σχεδιάστε έναν αισθητήρα ercetro

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

«Καθοριστικοί παράγοντες της αποτελεσματικότητας της από στόμα-σε-στόμα επικοινωνίας στις ιστοσελίδες κοινωνικής δικτύωσης»

«Καθοριστικοί παράγοντες της αποτελεσματικότητας της από στόμα-σε-στόμα επικοινωνίας στις ιστοσελίδες κοινωνικής δικτύωσης» «Καθοριστικοί παράγοντες της αποτελεσματικότητας της από στόμα-σε-στόμα επικοινωνίας στις ιστοσελίδες κοινωνικής δικτύωσης» Ονοματεπώνυμο: Ταχταρά Κατερίνα Σειρά: 8 η Επιβλέπων Καθηγητής: Βρεχόπουλος Αδάμ

Διαβάστε περισσότερα

Ο ΗΓΙΕΣ ΕΠΕΞΕΡΓΑΣΙΑΣ Ε ΟΜΕΝΩΝ ΚΑΙ ΣΥΓΓΡΑΦΗΣ ΤΗΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΕΡΓΑΣΤΗΡΙΟΥ ΦΥΣΙΚΗΣ ΙΙ

Ο ΗΓΙΕΣ ΕΠΕΞΕΡΓΑΣΙΑΣ Ε ΟΜΕΝΩΝ ΚΑΙ ΣΥΓΓΡΑΦΗΣ ΤΗΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΕΡΓΑΣΤΗΡΙΟΥ ΦΥΣΙΚΗΣ ΙΙ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τ. Ε. Ι. Σ Ε Ρ Ρ Ω Ν Ο ΗΓΙΕΣ ΕΠΕΞΕΡΓΑΣΙΑΣ Ε ΟΜΕΝΩΝ ΚΑΙ ΣΥΓΓΡΑΦΗΣ ΤΗΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΕΡΓΑΣΤΗΡΙΟΥ ΦΥΣΙΚΗΣ ΙΙ Προετοιµασία ιαβάστε καλά

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Αλγόριθµοι και Πολυπλοκότητα

Αλγόριθµοι και Πολυπλοκότητα Αλγόριθµοι και Πολυπλοκότητα Ν. Μ. Μισυρλής Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών Καθηγητής: Ν. Μ. Μισυρλής () Αλγόριθµοι και Πολυπλοκότητα 15 Ιουνίου 2009 1 / 26 Εισαγωγή Η ϑεωρία

Διαβάστε περισσότερα

ΥΛΗ ΕΞΕΤΑΣΕΩΝ 2007 ΥΠΟΨΗΦΙΩΝ ΥΠΟΤΡΟΦΩΝ ΚΑΘΙΔΡΥΜΑΤΟΣ ΑΘΑΝΑΣΙΟΥ ΜΑΤΑΛΑ Α ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ

ΥΛΗ ΕΞΕΤΑΣΕΩΝ 2007 ΥΠΟΨΗΦΙΩΝ ΥΠΟΤΡΟΦΩΝ ΚΑΘΙΔΡΥΜΑΤΟΣ ΑΘΑΝΑΣΙΟΥ ΜΑΤΑΛΑ Α ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΥΛΗ ΕΞΕΤΑΣΕΩΝ 2007 ΥΠΟΨΗΦΙΩΝ ΥΠΟΤΡΟΦΩΝ ΚΑΘΙΔΡΥΜΑΤΟΣ ΑΘΑΝΑΣΙΟΥ ΜΑΤΑΛΑ Α ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Μετά την αλλαγή των σχολικών εγχειριδίων το σχολικό έτος 2006-2007 και επειδή, λόγω της εφαρμογής κύκλων συνδιδασκαλίας

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ΤµήµαΕφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας Θεσσαλονίκη Ιούνιος 2006 εισαγωγικού µαθήµατος προγραµµατισµού υπολογιστών.

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος Η έννοια πρόβληµα Ανάλυση προβλήµατος Με τον όρο πρόβληµα εννοούµε µια κατάσταση η οποία χρήζει αντιµετώπισης, απαιτεί λύση, η δε λύση της δεν είναι γνωστή ούτε προφανής. Μερικά προβλήµατα είναι τα εξής:

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

Επίλυση Γραµµικών Συστηµάτων

Επίλυση Γραµµικών Συστηµάτων Κεφάλαιο 3 Επίλυση Γραµµικών Συστηµάτων 31 Εισαγωγή Αριθµητική λύση γενικών γραµµικών συστηµάτων n n A n n x n 1 b n 1, όπου a 11 a 12 a 1n a 21 a 22 a 2n A [a i j, x a n1 a n2 a nn x n, b b 1 b 2 b n

Διαβάστε περισσότερα

Πολιτική για τα cookie

Πολιτική για τα cookie Πολιτική για τα cookie Η BSEU χρησιµοποιεί cookie για να βελτιώνει συνεχώς την εµπειρία των επισκεπτών της διαδικτυακής τοποθεσίας της. Πρώτα από όλα, τα cookie µπορούν να βελτιώσουν άµεσα αυτή την εµπειρία,

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΠΟΤΙΜΗΣΗΣ ΣΠΟΥΔΩΝ Ακαδημαϊκό Έτος Εγγραφής

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Καθηγητής Πληροφορικής ΠΕ19 1 ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΚΕΦΑΛΑΙΟ 6 ο : ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΙΣΤΟΣΕΛΙΔΑ ΜΑΘΗΜΑΤΟΣ: http://eclass.sch.gr/courses/el594100/ Η έννοια του προγράμματος

Διαβάστε περισσότερα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα «Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 1 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 Β. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΕΥΝΑ 1. Γενικά Έννοιες.. 2 2. Πρακτικός Οδηγός Ανάλυσης εδοµένων.. 4 α. Οδηγός Λύσεων στο πλαίσιο

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 2 Οκτωβρίου 23 ιάρκεια: 2 ώρες Έστω το παρακάτω γραµµικώς

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 6 - ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΚΕΦΑΛΑΙΟ 6 - ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΚΕΦΑΛΑΙΟ 6 - ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ Προγραµµατισµός Η/Υ Ο προγραµµατισµός είναι η διατύπωση του αλγορίθµου σε µορφή κατανοητή από τον Η/Υ ώστε να τον εκτελέσει («τρέξει» όπως λέµε στην ορολογία της

Διαβάστε περισσότερα

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές Eλένη Ευθυµίου eleni_e@ilsp.gr Οµάδα Υποστηρικτικών Τεχνολογιών Ινστιτούτο Επεξεργασίας Λόγου

Διαβάστε περισσότερα

Κείµενο [Οι διαδικτυακές επαφές στο περιβάλλον του Facebook]

Κείµενο [Οι διαδικτυακές επαφές στο περιβάλλον του Facebook] 41 Διαγώνισµα 41 Διαδίκτυο & Κοινωνική Δικτύωση Κείµενο [Οι διαδικτυακές επαφές στο περιβάλλον του Facebook] Το συµπέρασµα στο οποίο καταλήγουν ερευνητικές µελέτες για τις αναπαραστάσεις της φιλίας στην

Διαβάστε περισσότερα

Αιτία παραποµπής Ε Ω ΣΥΜΠΛΗΡΩΝΕΤΕ ΣΤΟΙΧΕΙΑ ΤΟΥ ΙΣΤΟΡΙΚΟΥ ΤΟΥ ΠΑΙ ΙΟΥ ΚΑΙ ΤΟ ΛΟΓΟ ΤΗΣ ΠΑΡΑΠΟΜΠΗΣ.

Αιτία παραποµπής Ε Ω ΣΥΜΠΛΗΡΩΝΕΤΕ ΣΤΟΙΧΕΙΑ ΤΟΥ ΙΣΤΟΡΙΚΟΥ ΤΟΥ ΠΑΙ ΙΟΥ ΚΑΙ ΤΟ ΛΟΓΟ ΤΗΣ ΠΑΡΑΠΟΜΠΗΣ. Στοιχεία εξέτασης Στοιχεία εξεταζοµένου παιδιού Ονοµατεπώνυµο: 1043 1043 (1043) Φύλο: Αγόρι Ηµ/νια γέννησης: 16-07-2011 Μητρική γλώσσα: Ελληνικά Προτίµηση χεριού: εξί Ηµ/νια εξέτασης: 21-11-2016 Χρονολογική

Διαβάστε περισσότερα

«Μελέτη και αξιολόγηση τεχνικών Κατηγοριοποίησης Συναισθήματος σε σχόλια χρηστών στο Διαδίκτυο»

«Μελέτη και αξιολόγηση τεχνικών Κατηγοριοποίησης Συναισθήματος σε σχόλια χρηστών στο Διαδίκτυο» ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ Διπλωματική Εργασία

Διαβάστε περισσότερα

5. Μέθοδοι αναγνώρισης εκπαίδευση χωρίς επόπτη

5. Μέθοδοι αναγνώρισης εκπαίδευση χωρίς επόπτη 5. Μέθοδοι αναγνώρισης εκπαίδευση χωρίς επόπτη Tο πρόβληµα του προσδιορισµού των συγκεντρώσεων των προτύπων, όταν δεν είναι γνωστό το πλήθος τους και η ταυτότητα των προτύπων, είναι δύσκολο και για την

Διαβάστε περισσότερα

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΓΩΓΗΣ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ Ενότητα 2: Επαγωγική-περιγραφική στατιστική, παραµετρικές

Διαβάστε περισσότερα

ΣΕΤ ΑΣΚΗΣΕΩΝ 4. Προθεσµία: 8/1/12, 22:00

ΣΕΤ ΑΣΚΗΣΕΩΝ 4. Προθεσµία: 8/1/12, 22:00 ΣΕΤ ΑΣΚΗΣΕΩΝ 4 ΕΡΓΑΣΤΗΡΙΟ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ I, ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ 2011-2012 Προθεσµία: 8/1/12, 22:00 Περιεχόµενα Διαβάστε πριν ξεκινήσετε Εκφώνηση άσκησης Οδηγίες αποστολής άσκησης Πριν ξεκινήσετε (ΔΙΑΒΑΣΤΕ

Διαβάστε περισσότερα

Η Κυπριακή Διάλεκτος στα μέσα κοινωνικής δικτύωσης. Μια ποσοτική ανάλυση στο Twitter

Η Κυπριακή Διάλεκτος στα μέσα κοινωνικής δικτύωσης. Μια ποσοτική ανάλυση στο Twitter Η Κυπριακή Διάλεκτος στα μέσα κοινωνικής δικτύωσης. Μια ποσοτική ανάλυση στο Twitter Γιώργος Μικρός Τμήμα Ιταλικής Γλώσσας και Φιλολογίας, ΕΚΠΑ Department of Applied Linguistics, University of Massachusetts,

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 7 ΕΙ Η, ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ

ΚΕΦΑΛΑΙΟ 7 ΕΙ Η, ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΚΕΦΑΛΑΙΟ 7 ΕΙ Η, ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ 7.1. Ανάπτυξη Προγράµµατος Τι είναι το Πρόγραµµα; Το Πρόγραµµα: Είναι ένα σύνολο εντολών για την εκτέλεση ορισµένων λειτουργιών από τον υπολογιστή.

Διαβάστε περισσότερα

Περιγραφή των Δεδομένων

Περιγραφή των Δεδομένων Τεχνικές Εξόρυξης Δεδομένων Μεγάλης Κλίμακας Χειμερινό Εξάμηνο 2017-2018 1η Άσκηση, Ημερομηνία παράδοσης: Έναρξη Εξεταστικής Χειμερινού Εξαμήνου Ομαδική Εργασία (2 Ατόμων) Σκοπός της εργασίας Σκοπός της

Διαβάστε περισσότερα

Αξιοποίηση κοινωνικών δικτύων στην εκπαίδευση Αλέξης Χαραλαμπίδης Γραφικές Τέχνες / Πολυμέσα Ενότητα Ιανουαρίου 2015

Αξιοποίηση κοινωνικών δικτύων στην εκπαίδευση Αλέξης Χαραλαμπίδης Γραφικές Τέχνες / Πολυμέσα Ενότητα Ιανουαρίου 2015 Αξιοποίηση κοινωνικών δικτύων στην εκπαίδευση Αλέξης Χαραλαμπίδης 90279 Γραφικές Τέχνες / Πολυμέσα Ενότητα 61 18 Ιανουαρίου 2015 Web 2.0 Ενσωμάτωση στις εφαρμογές του παγκόσμιου ιστού (www) στοιχείων:

Διαβάστε περισσότερα

Opinion Mining and Sentiment Analysis

Opinion Mining and Sentiment Analysis Τμήμα Μηχανικών Η/Υ και Πληροφορικής επιβλέπων: Μακρής Χρήστος, Επίκουρος Καθηγητής Opinion Mining and Sentiment Analysis Επισκόπηση και πειραματική αξιολόγηση τεχνικών για opinion mining και sentiment

Διαβάστε περισσότερα

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014 Web Mining Χριστίνα Αραβαντινού aravantino@ceid.upatras.gr Ιούνιος 2014 1 / 34 Χριστίνα Αραβαντινού Web Mining Περιεχόµενα 1 2 3 4 5 6 2 / 34 Χριστίνα Αραβαντινού Web Mining Το Web Mining στοχεύει στην

Διαβάστε περισσότερα

Γενικές Παρατηρήσεις. Μη Κανονικές Γλώσσες - Χωρίς Συµφραζόµενα (1) Το Λήµµα της Αντλησης. Χρήση του Λήµµατος Αντλησης.

Γενικές Παρατηρήσεις. Μη Κανονικές Γλώσσες - Χωρίς Συµφραζόµενα (1) Το Λήµµα της Αντλησης. Χρήση του Λήµµατος Αντλησης. Γενικές Παρατηρήσεις Μη Κανονικές Γλώσσες - Χωρίς Συµφραζόµενα () Ορέστης Τελέλης telelis@unipi.gr Τµήµα Ψηφιακών Συστηµάτων, Πανεπιστήµιο Πειραιώς Υπάρχουν µη κανονικές γλώσσες, π.χ., B = { n n n }. Αυτό

Διαβάστε περισσότερα