ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ. Διπλωματική Εργασία. μάθησης»

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ. Διπλωματική Εργασία. μάθησης»"

Transcript

1 ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ Διπλωματική Εργασία «Ανάλυση συναισθήματος με χρήση τεχνικών μηχανικής μάθησης» Συγγραφέας: Κατερίνα Χριστοπούλου Επιβλέπων Καθηγητής Κωτσιαντής Σωτήριος ΣΕΠΤΕΜΒΡΙΟΣ

2 Πανεπιστήμιο Πατρών, Τμήμα Μαθηματικών Κατερίνα Χριστοπούλου Με την επιφύλαξη παντός δικαιώματος 2

3 Τριμελής Επιτροπή Ιωάννης Δημητρίου, Λέκτορας Τμήματος Μαθηματικών, Πανεπιστημίου Πατρών Ράγγος Όμηρος, Επίκουρος Καθηγητής Τμήματος Μαθηματικών, Πανεπιστημίου Πατρών Κωτσιαντής Σωτήριος, Λέκτορας Τμήματος Μαθηματικών, Πανεπιστημίου Πατρών 3

4 ΔΗΛΩΣΗ ΜΗ ΛΟΓΟΚΛΟΠΗΣ ΚΑΙ ΑΝΑΛΗΨΗΣ ΠΡΟΣΩΠΙΚΗΣ ΕΥΘΥΝΗΣ Με πλήρη επίγνωση των συνεπειών του νόμου περί πνευματικών δικαιωμάτων, δηλώνω ενυπογράφως ότι είμαι αποκλειστική συγγραφέας της παρούσας Πτυχιακής Εργασίας, για την ολοκλήρωση της οποίας κάθε βοήθεια είναι πλήρως αναγνωρισμένη και αναφέρεται λεπτομερώς στην εργασία αυτή. Έχω αναφέρει πλήρως και με σαφείς αναφορές, όλες τις πηγές χρήσης δεδομένων, απόψεων, θέσεων και προτάσεων, ιδεών και λεκτικών αναφορών, είτε κατά κυριολεξία είτε βάσει επιστημονικής παρά- φρασης. Αναλαμβάνω την προσωπική και ατομική ευθύνη ότι σε περίπτωση αποτυχίας στην υλοποίηση των ανωτέρω δηλωθέντων στοιχείων, είμαι υπόλογος έναντι λογοκλοπής, γεγονός που σημαίνει αποτυχία στην Πτυχιακή μου Εργασία και κατά συνέπεια αποτυχία απόκτησης του Τίτλου Σπουδών, πέραν των λοιπών συνεπειών του νόμου περί πνευματικών δικαιωμάτων. Δηλώνω, συνεπώς, ότι αυτή η Πτυχιακή Εργασία προετοιμάστηκε και ολοκληρώθηκε από εμένα προσωπικά και αποκλειστικά και ότι, αναλαμβάνω πλήρως όλες τις συνέπειες του νόμου στην περίπτωση κατά την οποία αποδειχθεί, διαχρονικά, ότι η εργασία αυτή ή τμήμα της δεν μου ανήκει διότι είναι προϊόν λογοκλοπής άλλης πνευματικής ιδιοκτησίας. Κατερίνα Χριστοπούλου 4

5 Περίληψη H συνεχόμενη ανάπτυξη του διαδικτύου δημιούργησε νέους τρόπους επικοινωνίας. Τα social media παράγουν ένα τεράστιο όγκο δεδομένων σε μορφή κειμένου, τα οποία παρέχουν πληροφορίες για τις απόψεις και τα συναισθήματα των χρηστών. Σκοπός της Εξόρυξης Δεδομένων (Data Mining) και Ανάλυσης Συναισθήματος (Sentiment Analysis) είναι η επεξεργασία των πληροφοριών αυτών και η εξαγωγή συμπερασμάτων ως προς τα συναισθήματα των χρηστών και τη πολικότητα του κειμένου. Το οποίο είναι πολύ χρήσιμο κυρίως στην εξέλιξη και ανάπτυξη των εταιρειών. Η παρούσα διπλωματική εργασία μελετάει τις τεχνικές και τα εργαλεία της Ανάλυσης Συναισθήματος. Έπειτα, εξετάζονται οι κατηγορίες των τεχνικών Ανάλυσης Συναισθήματος, οι οποίες είναι οι τεχνικές με λεξικά, τεχνικές με επιβλεπόμενη και μη-επιβλεπόμενη μηχανική μάθηση. Στη συνέχεια γίνεται μελέτη και σύγκριση διαφορετικών μοντέλων κατηγοριοποίησης κειμένων από σελίδες κριτικής ταινιών (IMDb). Αλγόριθμοι που θα χρησιμοποιηθούν είναι ο Πολυωνυμικός «Αφελής» Bayes (Multinomial Naive Bayes) και οι Μηχανές Διανυσμάτων Υποστήριξης (SVM). Τα μοντέλα κατηγοριοποίησης υλοποιούνται μέσω του προγραμματιστικού περιβάλλοντος Weka. Λέξεις Κλειδιά: <<ανάλυση συναισθήματος, κοινωνικά δίκτυα, επιβλεπόμενη μηχανική μάθηση, μη-επιβλεπόμενη μηχανική μάθηση, τεχνικές με λεξικά, μικρο-ιστολόγια, ταξινομητής, Πολικότητα Κειμένου, Πολυωνυμικός «Αφελής», Διανυσμάτων Υποστήριξης (SVM) >> 5

6 Abstract The continuous development of the internet has created new ways of communications. Social media produce a vast amount of information about the users opinions and sentiments. The aim of Data Mining and Sentiment Analysis is to process this data and export conclusions, regarding the polarity of a text. Sentiment Analysis has become a main priority for every company and organization. In this dissertation different methods of sentiment analysis will be examined. Those methods are Dictionary Based techniques, Supervised and Unsupervised Machine Learning, as well as their combination. Finally there will be a comparison and examination of the application of different classifiers on a data set from a movie review site (IMDb). The Algorithms used are the Multinomial Naive Bayes and Support Vector Machines. The models for the classification will be implemented through the programming environment Weka. Keywords: <<Sentiment analysis, social networks, supervised machine learning learning, unsupervised machine learning, lexicon, microblogs, classifier, Text Polarity, Multinomial Νaive Bayes, Support Vector Machines (SVM), SentiWordNet 3.0 >> 6

7 Πίνακας Περιεχομένων Τριμελής Επιτροπή... 3 Περίληψη... 5 Abstract... 6 Πίνακας Περιεχομένων... 7 Εισαγωγή Αντικείμενο Διπλωματικής Εξόρυξη Γνώσης από Βάσεις Δεδομένων Διαδικασία της Ανακάλυψης γνώσης Εξόρυξη Γνώσης από κείμενο Μέθοδοι Μηχανικής Μάθησης για την Εξόρυξη Δεδομένων Ανάλυση Συναισθήματος Ανάλυση Συναισθήματος και Εξόρυξη Δεδομένων Εφαρμογές της Ανάλυσης Συναισθήματος Δυσκολίες και Προκλήσεις Κοινωνικά δίκτυα Προϊόντα και υπηρεσίες Κατηγοριοποίηση Κατηγοριοποίηση Συναισθήματος Κατηγοριοποίηση Συναισθήματος με σύμφωνα με τις χρήσεις Κατηγορίες Προσέγγισης κειμένου Σε επίπεδο εγγράφου/κειμένου Σε επίπεδο πρότασης Σε επίπεδο λέξης Επίπεδο οντότητας και χαρακτηριστικών Τεχνικές Βασισμένες σε Λεξικά Λεξικά WordNet Linguistic Inquiry and Word Count Τεχνικές επιβλεπόμενης μηχανικής μάθησης Προ-επεξεργασία

8 4.2 Χαρακτηριστικά Features Ταξινομητές «Απλοϊκό» Μοντέλο Naive Bayes Multinomial Naive Bayes Maximum Entropy Support Vector Machines Μετρικές Αξιολόγησης Μοντέλα Κατηγοριοποίησης Συναισθήματος Προγραμματιστικό Περιβάλλον Αρχεία στο Weka Συλλογή δεδομένων Δεδομένα από Κριτικές Ταινιών Περιγραφή Μοντέλου Κατηγοριοποίησης Επιλογή Αλγορίθμου Πειραματικά Αποτελέσματα Συμπεράσματα Bibliography

9 Εισαγωγή Η ραγδαία ανάπτυξη του διαδικτύου έχει άμεση επίδραση στην εξέλιξη όλων των πτυχών της ανθρώπινης κοινωνίας. Η σημαντικότερη προσφορά του Παγκόσμιου Ιστού, είναι ο εύκολος, γρήγορος και μαζικός διαμοιρασμός πληροφοριών. Η δημιουργία του Web 1.0 ήταν ένα ορόσημο στην εξέλιξη του διαδικτύου. Ωστόσο η δημοσίευση και η δημιουργία υλικού ήταν δύσκολη και περιορισμένη μόνο σε έμπειρους χρήστες. Αυτό οδήγησε και τον χαρακτηρισμό του Ιστού Web 1.0 ως Read-Only Web. H δεύτερη εποχή του Παγκόσμιου Ιστού, Web 2.0 (2004- σήμερα) διαφέρει πολύ, τόσο σε τεχνολογικό επίπεδο, όσο και στην προσβασιμότητα και ευκολία χρήσης του από καθημερινούς χρήστες, σε σύγκριση με τον πρώιμό του. Οι ρόλοι του «συγγραφέα» και «αναγνώστη» που είχαν καθιερωθεί την εποχή του Web 1.0 πλέον καταργούνται και με τον Web 2.0 περνάμε στην εποχή Read-Write Web, στην οποία οι χρήστες έχουν την δυνατότητα να παράγουν δικό τους περιεχόμενο. Παράλληλα όμως με την εξέλιξη του διαδικτύου, αυξήθηκε σε μεγάλο βαθμό και η διαθέσιμη πληροφορία κάνοντας δύσκολη την διαχείριση και επεξεργασία αυτής, για την απόκτηση γνώσης. Οι τεχνολογίες που έχουν δημιουργηθεί για την εξόρυξη γνώσης πρόσφεραν στο χρήστη τη δυνατότητα αντιμετώπισης του προβλήματος της υπερπληροφόρησης, και του έδωσαν τη δυνατότητα αξιοποίησης των διαθέσιμων πόρων. Το Data Mining (ή εξόρυξη γνώσης από δεδομένα), βασίζεται κυρίως στην εύρεση πληροφοριών που είναι κρυμμένες σε Βάσεις Δεδομένων. (Παρόμοιοι όροι: Exploratory data analysis, Data driven discovery). Η ανάγκη μελέτης και αξιολόγησης πληροφοριών, με αυτοματοποιημένο τρόπο, έτσι ώστε να είναι χρήσιμες για το χρήστη, οδήγησε στην δημιουργία του πεδίου της Ανάλυσης Συναισθήματος. Η ραγδαία ανάπτυξη του πεδίου της Ανάλυση Συναισθήματος από το 2000, αποτέλεσε στο να γίνει ένας από τους πιο ενεργείς τομείς του Neuro Linguistic Programming. (1) 9

10 1. Αντικείμενο Διπλωματικής 1.1 Εξόρυξη Γνώσης από Βάσεις Δεδομένων Η Εξόρυξη Γνώσης είναι ένα βήμα στην διαδικασία της Ανακάλυψης Γνώσης σε Βάσεις Δεδομένων (Knowledge Discovery in Databases) που απαιτεί εφαρμογή ανάλυσης δεδομένων και δημιουργία αλγορίθμων, οι οποίοι παράγουν συγκεκριμένη απαρίθμηση μοντέλων πάνω στα δεδομένα. «Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, 1996» Εικόνα 1.1: Ανακάλυψη γνώσης από Βάσεις Δεδομένων Διαδικασία της Ανακάλυψης γνώσης Η ανακάλυψη γνώσης από Βάσεις Δεδομένων είναι μία διαδραστική και επαναληπτική διαδικασία, η οποία απαιτεί πολλαπλά βήματα και αποφάσεις από τη μεριά του χρήστη. Μερικά από τα πιο βασικά βήματα σκιαγραφούνται παρακάτω: Επιλογή Το αρχικό στάδιο είναι η επιλογή των δεδομένων. Στόχος είναι η δημιουργία συνόλου δεδομένων, ή η εστίαση σε ένα αντικείμενο μεταβλητών, ή δειγμάτων 10

11 δεδομένων. Στο βήμα αυτό συλλέγονται δεδομένα από διάφορες πηγές και κατασκευάζεται το σύνολο δεδομένων στο οποίο στη συνέχεια της διαδικασίας της ανακάλυψης γνώσης θα γίνει η αναζήτηση των προτύπων. Αποτελεί ένα από τα πιο σημαντικά στάδια, διότι είναι καθοριστικός παράγοντας για την ποιότητα και την επάρκεια των παραγόμενων δεδομένων και έχει άμεση επιρροή στην εξαγωγή των αποτελεσμάτων. Προεπεξεργασία Επόμενο βήμα είναι η προεπεξεργασία. Σκοπός της είναι ο καθαρισμός των δεδομένων από πιθανούς θορύβους ή άχρηστες πληροφορίες. Συλλέγει τα χρήσιμα για το μοντέλο δεδομένα και αποφασίζει στρατηγικές για την διαχείριση των 'χαμένων' data. Αποτελεί ένα από τα πιο χρονοβόρα και απαιτητικά για τη διαδικασία βήματα, καθώς καταλαμβάνει σχεδόν το 50% της συνολικής εργασίας. Μετασχηματισμός Ο μετασχηματισμός των δεδομένων, που αποτελεί το επόμενο βήμα περιλαμβάνει τη μείωση του αριθμού των μεταβλητών (dimensionality reduction) και την εύρεση invariant representations*. Εξόρυξη Γνώσης από δεδομένα Στο επόμενο βήμα γίνεται η επιλογή της κατάλληλης μεθόδου εξόρυξης δεδομένων ( summarization, classification, regression, clustering), και η επιλογή αλγορίθμων για τη διερεύνηση των δεδομένων, ώστε να προκύψουν τα επιθυμητά αποτελέσματα/ πρότυπα. Ερμηνεία/ Αξιολόγηση (Interpretation / Evaluation) του μοντέλου Είναι το τελικό βήμα. Τα πρότυπα που προκύπτουν πρέπει να είναι συγχρόνως χρήσιμα και κατανοητά. Επίσης το βήμα αυτό είναι υπεύθυνο για την επίλυση η διόρθωση πιθανών διαφωνιών από προηγούμενη 'πιστευτή' γνώση. (2) *invariant representations είναι μία προγραμματιστική κατασκευή που αποτελείται από ένα σύνολο αμετάβλητων ιδιοτήτων, οι οποίες παραμένουν αναλλοίωτες μέσα στη βάση δεδομένων 11

12 1.1.2 Εξόρυξη Γνώσης από κείμενο Αμέσως μετά την ανακάλυψη γνώσης από βάσεις δεδομένων γεννήθηκε η ανάγκη αξιοποίησης του μεγάλου όγκου κειμένων με αυτοματοποιημένο τρόπο. Συνεπώς δημιουργήθηκε η ιδέα της εξόρυξης γνώσης από κείμενο. Η Εξόρυξη γνώσης από κείμενο, συνδυάζει τεχνικές από την εξόρυξη γνώσης από Δεδομένων, Machine Learning, τη στατιστική, την εξαγωγή πληροφορίας και την διαχείριση γνώσης. Σε αυτό το σημείο αξίζει να τονιστεί ότι η Εξόρυξη Γνώσης δεν σχετίζεται με την αναζήτηση πληροφορίας στο διαδίκτυο. Το πρώτο στοχεύει στην ανακάλυψη νέας γνώσης, ενώ το τελευταίο στην απλή αναζήτηση υπάρχουσας πληροφορίας. (3) Μέθοδοι Μηχανικής Μάθησης για την Εξόρυξη Δεδομένων 1. Text Classification (Κατηγοριοποίηση κειμένου) Αποτελεί μία από τις προβλεπόμενες μεθόδους μηχανικής μάθησης. Τα δεδομένα κατατάσσονται σε προκαθορισμένες κατηγορίες, οι οποίες υπάρχουν πριν εξεταστούν τα ίδια τα δεδομένα. Για την κατηγοριοποίηση κειμένου χρησιμοποιείται στατιστική ανάλυση των λέξεων του κειμένου. Για τον έλεγχο των αποτελεσμάτων και την αξιολόγηση της μεθόδου εφαρμόζεται το μοντέλο test set. 2. Clustering (Συσταδοποίηση κειμένου) Μέθοδος παρόμοια με αυτή της κατηγοριοποίησης κειμένου, καθώς τα δεδομένα και στις δύο περιπτώσεις χωρίζονται σε ομάδες, όμως παρουσιάζουν την εξής ειδοποιό διαφορά. Στην κατηγοριοποίηση οι κλάσεις\ομάδες είναι καθορισμένες πριν την εξέταση των ίδιων των δεδομένων, ενώ στη συσταδοποίηση οι συστάδες/ομάδες δεν είναι προκαθορισμένες. Για το λόγο αυτό η συσταδοποίηση ανήκει στις μη επιβλεπόμενες μεθόδους μηχανικής μάθησης. Η ομαδοποίηση των δεδομένων γίνεται με βάση τα χαρακτηριστικά που αυτά εμφανίζουν. 3. Association rules (Εξαγωγή Κανόνων Συσχέτισης) Κατάλληλη μέθοδος για τη εύρεση συσχετίσεων μεταξύ αντικειμένων. Ένας κανόνας συσχέτισης δύο αντικειμένων Χ και Υ, δηλώνει πως η εμφάνιση του 12

13 Χ σε κάποιο στιγμιότυπο, συνεπάγεται και την εμφάνιση του Υ, στο ίδιο στιγμιότυπο του προβλήματος. Συμβολίζεται Χ->Υ και εφαρμόζει δύο τελεστές, την υποστήριξη s και την εμπιστοσύνη a. 4. Summarization (Περίληψη κειμένου) Η περίληψη κειμένου έχει ως στόχο την μείωση της έκτασης του κειμένου, κρατώντας τις πιο σημαντικές πληροφορίες και διατηρώντας το νόημα του αρχικού περιεχομένου. Κατά την εξαγωγή της περίληψης ο χρήστης έχει την δυνατότητα να καθορίσει το πλήθος των λέξεων που θα γραφούν και διάφορες άλλες παραμέτρους. 5. Visualization (Οπτικοποίηση κειμένου) Με την οπτικοποίηση, δίνεται η δυνατότητα γραφικής απεικόνισης του κειμένου. Η μέθοδος αυτή εντοπίζει τα χαρακτηριστικά γνωρίσματα και τους βασικούς όρους του κειμένου για την γραφική του απεικόνιση. Το αποτέλεσμα της εφαρμογής της μεθόδους της οπτικοποίησης δίνει την δυνατότητα στο χρήστη να καταλάβει τις βασικές έννοιες του κειμένου, και την βαρύτητά τους, μέσω της αναπαράστασης. (1) Ανάλυση Συναισθήματος Σε αυτή την εργασία θα προσεγγιστεί το πρόβλημα της Ανάλυσης Συναισθήματος σαν πρόβλημα κατηγοριοποίησης, χρησιμοποιώντας μεθόδους επιβλεπόμενης Μηχανικής. Η Ανάλυση Συναισθήματος ( Sentiment Analysis), η οποία συναντάται και ως Εξόρυξη Γνώσης ( Opinion Mining ), μελετάει και αναλύει υπολογιστικά τις απόψεις, τα συναισθήματα, τι εκτιμήσεις, και τη στάση των ατόμων απέναντι στα χαρακτηριστικά, τις υπηρεσίες, άλλες οντότητες, αλλά θέματα και γεγονότα, και στα χαρακτηριστικά τους. Επίσης συναντάται και με πολλές διαφορετικές ονομασίες και μερικές από αυτές να είναι οι εξής: sentiment analysis, opinion mining, opinion extraction, sentiment mining, subjectivity analysis, review mining, κλπ. Ωστόσο ο επικρατέστερος όρος είναι Sentiment Analysis (Ανάλυση Συναισθήματος) ή Opinion Mining (Εξόρυξη Γνώσης). Τα τελευταία χρόνια έχει παρατηρηθεί ότι η ανάρτηση προσωπικών απόψεων και ιδεολογιών στα social media έχει βοηθήσει όχι μόνο στον επαναπροσδιορισμό της πορείας των εταιρειών, αλλά έχει άμεση επίδραση 13

14 και στο πολιτικό σύστημα. Τέτοιου είδους αναρτήσεις έχουν παρακινήσει μάζες ατόμων να προβούν σε πολιτικές μεταστροφές. Για αυτό το λόγο εμφανίστηκε η ανάγκη συλλογής και εξέτασης των αξιολογήσεων και των κριτικών που υπάρχουν στο διαδίκτυο. Οι εφαρμογές της Ανάλυσης Συναισθήματος κατά συνέπεια έχουν επεκταθεί σε όλους τους δυνατούς τομείς. Είτε πρόκειται για προϊόντα, για υπηρεσίες, για περίθαλψη, για πολιτικές εκλογές και για ψυχαγωγία. Τα παραπάνω έγιναν όλα εφικτά μετά την δημιουργία του Web 2.0, το 2004, διότι μέχρι τότε υπήρχαν ελάχιστες κριτικές και αξιολογήσεις σε ψηφιακή μορφή. Ο χρήστης δεν μπορούσε να συμμετέχει ενεργά και συνεπώς ούτε να εκφράσει την άποψή του. Μετά την εμφάνιση του Web 2.0 οι χρήστες παύουν να είναι παθητικοί και έχουν τη δυνατότητα να μοιράζονται δεδομένα και να αλληλεπιδρούν με άλλους χρήστες. Μερικές από τις ενέργειες που μπορεί να κάνει ο χρήστης, είναι η χρήση εκφράσεων όπως το tag ή link στις πλατφόρμες κοινωνικής δικτύωσης (social media), Forums ή με την δημιουργία προσωπικών ιστολογιών (Personal Blogs). (4) Τα κοινωνικά δίκτυα, όπως το Facebook και το Twitter είναι από τις πιο γνωστές εφαρμογές του Web 2.0. Σύμφωνα με επίσημα στατιστικά, το Twitter φιλοξενεί περισσότερους από 288 εκατομμύρια χρήστες, οι οποίοι δημοσιεύουν πάνω από 500 εκατομμύρια tweets την ημέρα. Τα δεδομένα αυτά παρέχουν πληροφορίες, οι οποίες κρύβουν πλήθος συναισθημάτων για τους χρήστες του, όσον αφορά παροχές υπηρεσιών, αλλά και αξιολογήσεις προϊόντων. Για την εξαγωγή του συναισθήματος από τα δεδομένα αυτά, χρησιμοποιούνται μέθοδοι κατηγοριοποίησης. Οι βασικότερες είναι, οι μέθοδοι με χρήση λεξικών και αλγορίθμων ταξινόμησης, οι οποίοι κατατάσσουν τα κείμενα κατευθείαν σε κατηγορίες. 2. Ανάλυση Συναισθήματος και Εξόρυξη Δεδομένων 2.1 Εφαρμογές της Ανάλυσης Συναισθήματος Τα αποτελέσματα της Ανάλυσης Συναισθήματος και της Εξόρυξης Δεδομένων από το διαδίκτυο αποτελούν αντικείμενο ενδιαφέροντος και μελέτης ποικίλων επιστημονικών πεδίων, όπως η οικονομία, η κοινωνιολογία, η πολιτική. 14

15 Με την Ανάλυση Συναισθήματος είναι δυνατή η διεξαγωγή συμπερασμάτων για τις απόψεις των χρηστών του διαδικτύου πάνω σε ένα συγκεκριμένο ζήτημα, καθώς και ο εντοπισμός ομάδων χρηστών με κοινά χαρακτηριστικά και προτιμήσεις. Τα κοινωνικά δίκτυα, τα προσωπικά ιστολόγια, τα forums και άλλες διαδικτυακές πλατφόρμες επικοινωνίας αποτελούν κύρια πηγή δεδομένων για την επιστήμη της Ανάλυσης Συναισθήματος και Εξόρυξη Γνώμης. Τα αποτελέσματα των πηγών αυτών παρέχουν σημαντικές πληροφορίες σε εταιρείες και οργανισμούς, ως προς τις προτιμήσεις των καταναλωτών. Με τον τρόπο αυτό αποσαφηνίζονται οι τάσεις της αγοράς και οι ανάγκες των χρηστών την συγκεκριμένη χρονική περίοδο. 2.2 Δυσκολίες και Προκλήσεις Σε ένα κείμενο, σύμφωνα με ένα γνωστό σύνολο βασικών λέξεων (keywords) μπορούσαμε να προσδιορίσουμε τη ολική πολικότητα της άποψης που εκφράζεται στο κείμενο, με την εξέταση των μεμονωμένων λέξεών του. Ωστόσο η προσέγγιση αυτή δεν σημειώνει υψηλά ποσοστά ακριβείας και πολλές φορές αν χρησιμοποιήσουμε δύο διαφορετικές μεθόδους θα παρατηρήσουμε σημαντικές διαφορές στα εξαγόμενα αποτελέσματα. Αυτό το γεγονός συμβαίνει διότι μία άποψη ή ένα συναίσθημα μπορεί να είναι κρυμμένο ή να έχει εκφραστεί με πιο έμμεσο τρόπο, χωρίς έχουν χρησιμοποιηθεί συναισθηματικά φορτισμένες λέξεις, κάτι που κάνει πιο δύσκολο τον εντοπισμό του. Επίσης η σειρά των λέξεων μέσα στο κείμενο είναι ένας σημαντικός παράγοντας που επηρεάζει την πολικότητά του. Ίδιες λέξεις τοποθετημένες στο κείμενο με διαφορετική σειρά μπορούν να αλλάξουν πλήρως την πολικότητά του. Επίσης σημαντικό είναι να εξετάζονται σημάδια ειρωνείας, σαρκασμού ή αμφισημίας. (5) Κοινωνικά δίκτυα Τα κοινωνικά δίκτυα τη σημερινή εποχή, αποτελούν το πλέον κυρίαρχο μέσο επικοινωνίας. Επίσης είναι ο χώρος στον οποίο οι χρήστες ανταλλάσσουν δημόσια απόψεις και ιδέες και αλληλεπιδρούν μεταξύ τους. Επίσης στους χρήστες δίνεται η δυνατότητα εκτός από τη συγγραφή κειμένου να εκφράζουν τη άποψή τους με διαφορετικούς τρόπους, όπως με τη χρήση των «like» ή «share» στο Facebook, ή «retweet» στο Twitter. Μερικές από τις δημοφιλέστερες πλατφόρμες κοινωνικής δικτύωσης είναι το Facebook, Twitter, και Instagram. Όπως είναι αναμενόμενο, τα κοινωνικά δίκτυα 15

16 αποτελούν μία από τις πιο βασικές πηγές δεδομένων για την Εξόρυξη Γνώσης και Ανάλυση Συναισθήματος. Η Ανάλυση Συναισθήματος όταν εφαρμόζεται στα κοινωνικά δίκτυα, συναντάει κάποιες επιπλέον δυσκολίες, οι οποίες σκιαγραφούνται παρακάτω: Μήκος Κειμένου: Αναμφισβήτητα το μήκος του κειμένου στα social media αποτελεί έναν από τους μεγαλύτερους περιορισμούς στην Ανάλυση Συναισθήματος, λόγω της μικρής του έκτασης (πχ το μέγιστο όριο στο twitter είναι 140 χαρακτήρες). Αν και σε ορισμένες περιπτώσεις το περιεχόμενο του μηνύματος είναι περιεκτικό και καθαρά τοποθετημένο, πολλές φορές το μικρό μήκος του κειμένου αφήνει ανακρίβειες και δεν είναι ξεκάθαρη η πολικότητα του κειμένου [BS10] Λεξιλόγιο: Είναι γνωστό ότι επί το πλείστον τα κείμενα στα κοινωνικά δίκτυα παρουσιάζουν μία ιδιαιτερότητα, λόγω της έντονης χρήσης γλώσσας αργκό, νεολογισμών και συντομογραφιών ( π.χ. gr8=great, ty=thank you). Τα οποία καθιστούν δύσκολη την εξαγωγή συμπερασμάτων για τα συναισθήματα του χρήστη μέσω της Εξόρυξης Γνώμης. Θόρυβος: Η επικοινωνία στα μέσα κοινωνικής δικτύωσης χαρακτηρίζεται από αμεσότητα. Ταυτόχρονα όμως οι χρήστες είναι επιρρεπείς σε συντακτικά, γραμματικά και ορθογραφικά λάθη. Αυτό το γεγονός αποτελεί βασικό εμπόδιο στην αποσαφήνιση των συναισθημάτων στο εκάστοτε κείμενο. Χρήση διαφορετικών γλωσσών στο ίδιο κείμενο: Καθώς τα κοινωνικά δίκτυα είναι διεθνή, και επί το πλείστον κυριαρχεί η αγγλική γλώσσα, οι χρήστες αποκτούν όλο και περισσότερη ευχέρεια σε αυτή. Αυτό έχει σαν αποτέλεσμα, στο ίδιο κείμενο να χρησιμοποιούν εκφράσεις σε διαφορετική γλώσσα, κάτι που αποτελεί πρόκληση για τα συστήματα ανίχνευσης συναισθήματος Προϊόντα και υπηρεσίες Η Ανάλυση Συναισθήματος και η Εξόρυξη Γνώμης έχει κεντρίσει το ενδιαφέρον των οργανισμών και των επιχειρήσεων. Η εξόρυξη της γνώμης των καταναλωτών από το διαδίκτυο ( από κοινωνικά δίκτυα, micro-blogs, forums) είναι ένα σημαντικό πεδίο επενδύσεων των επιχειρήσεων. Η ανάλυση της πολικότητας των αξιολογήσεων είναι χρήσιμη, τόσο για τους καταναλωτές όσο και τις επιχειρήσεις. Οι καταναλωτές έχουν την ευκαιρία να κάνουν εκτενή έρευνα για το κάθε προϊόν, υπηρεσία που θέλουν να δοκιμάσουν. Ενώ οι επιχειρήσεις κατανοούν καλύτερα τις ανάγκες και την γνώμη των πελατών. 16

17 3. Κατηγοριοποίηση 3.1 Κατηγοριοποίηση Συναισθήματος Στην Ανάλυση Συναισθήματος μέσω της κατηγοριοποίησης κάθε κατηγορία/κλάση αντιπροσωπεύει μία πολικότητα. Το πλήθος των κλάσεων, σε αντίθεση με την κατηγοριοποίηση κειμένου, στην οποία οι κλάσεις κάθε φορά ποικίλουν, τώρα είναι πολύ πιο περιορισμένες. Η κατηγοριοποίηση συναισθήματος αναφέρεται στο εξής σύνολο κλάσεων: Θετική πολικότητα- αρνητική πολικότητα Θετική πολικότητα- αρνητική πολικότητα- χωρίς πολικότητα 1 αστέρι-2αστέρια-3 αστέρια-4 αστέρια-5 αστέρια 3.2 Κατηγοριοποίηση Συναισθήματος με σύμφωνα με τις χρήσεις Οι χρήσεις της ανάλυσης συναισθήματος ποικίλουν και συνεχώς αυξάνονται, καθώς γίνεται χρήσιμη σε όλο και περισσότερα πεδία. Μερικές από τις κυριότερες χρήσης της στη σημερινή εποχή φαίνονται παρακάτω. Εικόνα 3.1: Κατηγορίες χρήσης της ανάλυσης συναισθήματος 17

18 Ψυχολογία Όπως είναι αναμενόμενο η Εξόρυξη γνώσης για την Ανάλυση Συναισθήματος συμβάλλει άμεσα στον τομέα της Ψυχολογίας. Πλέον τα ερωτηματολόγια ή οι δημοσκοπήσεις, έχουν αντικατασταθεί από τις τεχνικές ανάλυσης συναισθήματος. Μέσω του διαδικτύου οι επιστήμονες έχουν τη δυνατότητα να εντοπίσουν σημάδια κατάθλιψης ή άλλες ψυχολογικές διαταραχές των χρηστών και κατά συνέπεια να προλάβουν καταστάσεις αυτοτραυματισμού. (6) Δημοσιογραφία Η δημοσιογραφία είναι ακόμα ένας τομέας στον οποίο η εφαρμογή της ανάλυσης συναισθήματος προσφέρει πολλές πληροφορίες. Γι αυτό και χρησιμοποιείται από διάφορες εφαρμογές ενημέρωσης, όπως Politico, Pew, NBC, CNN. Feedback management, επιχειρήσεις Όπως αναφέρθηκε και παραπάνω, η ανάλυση συναισθήματος είναι ιδιαίτερα χρήσιμη για την πορεία των επιχειρήσεων. Οι εταιρείες και οι οργανισμοί έχουν τη δυνατότητα να δουν τις αντιδράσεις και τις αξιολογήσεις των πελατών τους και να οδηγηθούν σε διορθώσεις και βελτιώσεις των προϊόντων και των υπηρεσιών τους, σε αντίθεση με παλαιότερα, όταν ο μόνος τρόπος για να πάν αυτές τις πληροφορίες ήταν μέσω δημοσκοπήσεων ή ερωτηματολογίων. Χαρακτηριστικό παράδειγμα αποτελεί, ένα γεγονός που διαδραματίστηκε στις 21 Ιουνίου 2005, όταν ένας δημοσιογράφος έγραψε ένα post σε ένα blog, σχετικά με την εμπειρία του και τις εντυπώσεις του από τη χρήση προϊόντος της εταιρείας DELL. Το άρθρο του, το οποίο περιείχε εκφράσεις όπως DELL SUCKS. DELL LIES. Put that in your Google and smoke it, Dell, προσέγγισε το ενδιαφέρον, και επηρέασε τη γνώμη πολλών χρηστών του διαδικτύου οι οποίοι ενδιαφέρονταν να αγοράσουν υπολογιστή εκείνη τη περίοδο. Από αυτό το γεγονός και ύστερα, η DELL έγινε γνωστή ως Dell Hell. Το γεγονός αυτό ακολούθησε μία σειρά από από κακές κριτικές για την εταιρεία και δραματικές πτώσεις στις πωλήσεις της. Ανεξάρτητα από την καλή φήμη της εταιρείας κατά τη διάρκεια της δεκαετίας του 90 και αρχές 21 ου αιώνα, η εμπειρία ενός πελάτη έφτασε για να επηρεάσει σε μεγάλο βαθμό τη φήμη και την πορεία της DELL για τα δύο επόμενα χρόνια, επιφέροντας τεράστια ζημία στην επιχειρηματική της φήμη. Η ίδια η εταιρεία όμως ήταν αυτή που οφειλόταν για το πρόβλημα αυτό, λόγω της αποτυχίας σωστής επικοινωνίας με τους ανθρώπους που υπήρχαν στη βάση της και τη στήριζαν 18

19 τους πελάτες της. Ένα ακόμη σφάλμα της ήταν η άγνοια της παρουσίας της στο διαδίκτυο, για να έχει μια καλύτερη εικόνα για το κατά πόσο οι προτιμήσεις των πελατών της ήταν σε αντιστοιχία με τις υπηρεσίες και τα προϊόντα που η ίδια προσέφερε. Σχεδίαση προϊόντων και υπηρεσιών Η σωστή σχεδίαση προϊόντων και υπηρεσιών είναι ένας από τους βασικότερους τομείς των επιχειρήσεων. Για να εξασφαλιστεί αυτό, πρέπει να υπάρχει καλή γνώση των νέων τάσεων αγοράς και των προτιμήσεων των καταναλωτών. Ο τομέας που μελετάει το αντικείμενο αυτό είναι η Επιχειρηματική ευφυΐα (Business intelligence, BI). Η Επιχειρηματική ευφυΐα είναι ένα σύνολο τεχνικών οι οποίες συνιστούν στη μετατροπή δεδομένων σε αξιοποιήσιμες πληροφορίες για τις επιχειρήσεις. Η ανάλυση συναισθήματος είναι μία από τις εφαρμογές που έχει αποδειχτεί ιδιαίτερα χρήσιμη στην κατανόηση των προτιμήσεων, απόψεων και ανάγκες των καταναλωτών την συγκεκριμένη χρονική περίοδο, γεγονός ζωτικής σημασίας για την σχεδίαση και επιτυχημένη υλοποίηση προϊόντων και υπηρεσιών. Μετοχές Οι μετοχές αποτελούν έναν από τους πιο ρευστούς τομείς της αγοράς. Επίσης έχουν άμεση σύνδεση με τις απόψεις και τις προτιμήσεις των καταναλωτών, οι οποίες εκφράζονται μέσω των κοινωνικών δικτύων ή προσωπικών blog. Τα συναισθήματα των χρηστών μπορεί να έχουν σαν αποτέλεσμα την δραματική πτώση ή αύξηση των μετοχών. Συνεπώς μέσω της ανάλυσης συναισθήματος δίνεται η δυνατότητα πρόβλεψης της μεταγενέστερης δραστηριότητα της αγοράς. Όπως είναι λογικό ειδήσεις που προκαλούν θετικά συναισθήματα έχουν ως αντίκτυπο την αύξηση των τιμών των μετοχών, ενώ στην αντίθετη περίπτωση, παρατηρείται μείωση των τιμών. Χαρακτηριστικό παράδειγμα αποτελεί το 2013, όταν ένα ψεύτικο tweet οδήγησε τον Dow Jones σε δραματική πτώση σε μόλις δύο λεπτά. Όταν το αστείο όμως αποκαλύφτηκε η ανάκαμψη των τιμών στα αρχικά επίπεδα, πριν το ψεύτικο tweet, πήρε μόλις τρία λεπτά. Η πρόβλεψη του δείκτη τιμών των μετοχών (Dow Jones Industrial Average) είναι ακόμα πιο ακριβής όταν μελετάται ολόκληρο το κλίμα του Twitter. Πολιτική Τα κοινωνικά δίκτυα και τα micro-blogs είναι βασική πηγή πληροφοριών για τη πολική σκηνή, και για εκστρατείες μάρκετινγκ. Σημαντικό ορόσημο 19

20 αποτελεί η εκστρατεία του προέδρου των ΗΠΑ Μπαράκ Ομπάμα το Στην οποία, η Current TV, σε πρόγραμμά της κατά τη διάρκεια της συζήτησης μεταξύ Τζον Μακέιν και Μπαράκ Ομπάμα με τίτλο Hack the Debate, ζήτησε από το κοινό να δημοσιεύσει σχόλια στο Twitter. Με τη πρωτοβουλία αυτή, οι πολιτικοί είχαν τη δυνατότητα να βγάλουν πάρα πολλά συμπεράσματα, για την άποψη του κόσμου, ακούγοντας τις απόψεις του. Η ανάλυση συναισθήματος μέσω των σχολίων των χρηστών έπαιξε καθοριστικό ρόλο για στην έκβαση του αποτελέσματος των εκλογών. Έκτοτε το Twitter είναι βασικό μέσο επικοινωνίας της πολιτικής σκηνής. (7) Δημοσκοπήσεις Αν και παλιός όρος, οι σημερινές δημοσκοπήσεις διαφέρουν σε μεγάλο βαθμό από αυτές των προηγούμενων δεκαετιών. Μια τυπική παραδοσιακή τηλεφωνική δημοσκόπηση, ενός δείγματος χιλίων ερωτηθέντων κοστίζει τουλάχιστον δεκάδες χιλιάδες δολάρια, και πολλές εργατοώρες για την πραγμάτωσή της. Με τα σημερινά όμως μέσα δικτύωσης και την εφαρμογή εξόρυξης γνώσης και ανάλυσης συναισθήματος τα προβλήματα αυτά έχουν εξαλειφθεί. Μία δημοσκόπηση στη σημερινή εποχή είναι μία ανώδυνη και ανέξοδη διαδικασία, και πολύ πιο ακριβής, καθώς το δείγμα των ερωτηθέντων είναι πολύ μεγαλύτερο. Προφανώς υπάρχουν πολλές ακόμα χρήσεις της ανάλυσης συναισθήματος στα κοινωνικά δίκτυα. Μερικά παραδείγματα αναφέρονται παρακάτω. Μη κερδοσκοπικές οργανώσεις, όπως η Αμερικανική Αντικαρκινική Εταιρεία. Η κυβέρνηση των ΗΠΑ για ζητήματα εθνικής ασφάλειας. Για την εξαγωγή συναισθήματος, υπάρχουν τεχνικές επεξεργασίας φυσικής γλώσσας και αλγόριθμοι που μπορούν να χωριστούν σε κατηγορίες ανάλογα με τον τρόπο προσέγγισης του κειμένου αλλά και την ταξινόμηση συναισθήματος που κάθε φορά προτιμάται. Έτσι υφίστανται οι διάφοροι τρόποι της κατηγοριοποίησης της ανάλυσης συναισθήματος. Επιπλέον, αναλόγως με τη τεχνική και το βαθμό της ανθρώπινης παρέμβασης στη διαδικασία κατηγοριοποίησης, καθορίζονται επιπλέον 13 κατηγορίες. Παραστατικά τα παρουσιάζουμε στο παρακάτω σχήμα και αναλύονται παρακάτω. 20

21 3.3 Κατηγορίες Προσέγγισης κειμένου Εικόνα 3.2: Κατηγοριοποίηση Ανάλυσης Συναισθήματος Σε επίπεδο εγγράφου/κειμένου Αυτή η προσέγγιση εστιάζει στις απόψεις ενός μεμονωμένου ατόμου γύρω από ένα συγκεκριμένο θέμα, με σκοπό τον χαρακτηρισμό των προσωπικών συναισθημάτων και απόψεων του ως θετικών ή αρνητικών. Αν και πολύ χρήσιμη εφαρμογή, για την προσέγγιση αυτή το κείμενο πρέπει να επικεντρώνεται σε ένα μοναδικό θέμα, και να μην υπάρχει σύγκριση εννοιών. Η πλειοψηφία των τεχνικών ανάλυσης συναισθήματος εγγράφων είναι επιβλεπόμενης μάθησης. Υπάρχουν όμως και τεχνικές μη επιβλεπόμενης μάθησης. Στην ανάλυση σε επίπεδο κειμένου, καθοριστικό παράγοντα έχουν η γραμματική και η συντακτική ανάλυση του κειμένου, καθώς και οι συντακτικές σχέσεις και το φαινόμενο της άρνησης. (8) Σε επίπεδο πρότασης Η Ανάλυση Συναισθήματος σε επίπεδο πρότασης εστιάζει στην πολικότητά της. Δηλαδή εξετάζεται αν η στάση που εκφράζει είναι θετική, αρνητική ή ουδέτερη. Έχοντας σαν δεδομένο ότι κάθε πρόταση εκφράζει μόνο μια άποψη, οι προτάσεις μπορούν να κατηγοριοποιηθούν απευθείας ως θετικές ή αρνητικές. Σκοπός είναι ο διαχωρισμός των προτάσεων που περιέχουν πραγματικές-αντικειμενικές θέσεις, από αυτές που περιέχουν υποκειμενικές-προσωπικές απόψεις (4). Στη συνέχεια οι προτάσεις που περιέχουν στοιχεία υποκειμενικής κρίσης ταξινομούνται ως θετικές ή 21

22 αρνητικές. Γι αυτό το λόγο η προσέγγιση αυτή συχνά είναι συνυφασμένη με την ταξινόμηση υποκειμενικότητας (subjectivity classification). Στο επίπεδο αυτό, όπως και στο επίπεδο εγγράφου/κειμένου προσμετρούνται πολλές ακόμα παράμετροι, όπως το φαινόμενο της άρνησης (negation), η αμφισημία των λέξεων, ο συντακτικός ρόλος των λέξεων στην πρόταση κ.α. (9) (10) Σε επίπεδο λέξης Το επίπεδο λέξης είναι χρήσιμο για την ταξινόμηση έναν από των δύο παραπάνω επιπέδων (πρότασης ή κειμένου). Η νοοτροπία της ταξινόμησης αυτής είναι ότι οι δείκτες συναισθημάτων με τη μεγαλύτερη βαρύτητα είναι οι λέξεις γνώμης (opinion words). Ορίζεται λοιπόν η έννοια του λεξικού συναισθημάτων, το οποίο είναι λίστα από τέτοιες λέξεις (4). Για την κατασκευή των λεξικών συναισθημάτων χρησιμοποιούνται δεδομένα που είναι απόρροια της επεξεργασίας, εκτενών σωμάτων ηλεκτρονικών κειμένων (text corpora), γλωσσολογικών πόρων, όπως λεξικά και θησαυρών, με στόχο τον εμπλουτισμό μιας αρχικής λίστας που περιέχει λέξεις απόψεων (11) (seed words). Η προέκταση της λίστας αυτής, μπορεί να επιτευχθεί με χρήση συντακτικών μοτίβων τα οποία υλοποιούνται μέσα σε αυτά τα κείμενα. Η αξιοποίηση των πληροφοριών που προκύπτουν από τη συχνότητα εμφάνισης διαφορετικών μοτίβων λέξεων αποτελεί έναν άλλο τρόπο εμπλουτισμό της λίστας (12). Από την άλλη μεριά, τα λεξικά που έχουν ως βάση γλωσσολογικούς πόρους για να υλοποιήσουν αυτή την επέκταση χρησιμοποιούν τα συνώνυμα, τα αντώνυμα των λέξεων, καθώς και την ιεραρχία αυτών μέσα σε θησαυρούς όπως το WordΝet Επίπεδο οντότητας και χαρακτηριστικών Η Ανάλυση Συναισθήματος σε επίπεδο οντότητας και χαρακτηριστικών (entity and feature level), εστιάζει στις απόψεις που εκφράζονται και όχι στην ανάλυση δομικών στοιχείων της γλώσσας. Βασική ιδέα αυτής της ταξινόμησης, είναι ότι μία υποκειμενική κρίση, διαχωρίζεται σε δύο μέρη, το συναίσθημα και την οντότητα για την οποία εκφράζεται η άποψη. Συνηθίζεται επίσης να μελετούνται και επιπλέον παράγοντες, όπως το υποκείμενο που εκφράζει την άποψη (opinion holder) καθώς και η χρονική στιγμή που εκφράζεται η εκάστοτε άποψη (time). Όταν ένα υποκείμενο έχει μία άποψη για μία συγκεκριμένη οντότητα, είτε αυτή είναι θετική ή αρνητική, δεν σημαίνει ότι θα διατηρεί την ίδια γνώμη για όλα τα μεμονωμένα χαρακτηριστικά της (4). Η ταξινόμηση αυτή βασίζεται στην ιδέα ότι μία υποκειμενική άποψη αποτελείται από δύο μέρη, το συναίσθημα (sentiment) και τον στόχο (target). Γι αυτό είναι αναγκαίο η μελέτη και η ανάλυση όλων των επιμέρους χαρακτηριστικών μίας οντότητας και η αναζήτηση των συναισθημάτων προς τους στόχους αυτούς. (13). Για την ταξινόμηση του επιπέδου οντότητας και χαρακτηριστικών, 22

23 χρησιμοποιούνται κυρίως μέθοδοι επιβλεπόμενης μηχανικής μάθησης και δημιουργία λεξικών. 3.4 Τεχνικές Βασισμένες σε Λεξικά Ανεξάρτητα από την επιλογή επιπέδου ανάλυσης (κειμένου, πρότασης, οντοτήτων), τα περισσότερα μοντέλα ανάλυσης συναισθήματος, εκτός από τις μεθόδους μηχανικής μάθησης, χρησιμοποιούν και τεχνικές βασισμένες σε λεξικά, οι οποίες καθορίζουν την πολικότητα των λέξεων. Οι τεχνικές αυτές έχουν αποδειχτεί ότι έχουν καλά ποσοστά ακριβείας, όταν εφαρμόζονται σε κείμενα, των οποίων το λεξιλόγιο αναγνωρίζεται από τα εκάστοτε λεξικά που χρησιμοποιούν. Τα τελευταία είναι προκατασκευασμένα λεξικά συναισθήματος και αναλύουν την πολικότητα των λέξεων του κειμένου. Οι τεχνικές βασισμένες σε λεξικά, εκτός από μεγάλη ακρίβεια, έχουν τη δυνατότητα να εφαρμοστούν και σε πλήθος θεμάτων, χωρίς την χρήση training set. Ωστόσο η χρήση τους σε κείμενα δυναμικού χαρακτήρα, όπως Twitter ή micro-blogs υστερεί, λόγω της ύπαρξης συντομογραφιών και εκφράσεων αργκό. Επίσης η μελέτη της πολικότητας των λέξεων με τις τεχνικές αυτές είναι μονόπλευρη, διότι δεν λαμβάνουν υπόψη το γενικότερο πλαίσιο και ύφος του κειμένου μέσα στο οποίο χρησιμοποιούνται οι λέξεις, το οποίο μπορεί να οδηγήσει σε μεγάλες αποκλίσεις. Η τεχνική της χρήσης λεξικών για την ανάλυση συναισθήματος σε ένα κείμενο, αναγνωρίζει το κείμενο σαν ένα σύνολο από λέξεις (bag of words), χωρίς να την ενδιαφέρει η δομή ή γραμματική του κειμένου. Τα λεξικά για την απόδοση συναισθήματος αποδίδουν ετικέτες/βαθμολογίες στις λέξεις, σύμφωνα με το νόημά τους. Οι βασικές κατηγορίες στις οποίες τις χωρίζουν είναι αυτές που εκφράζουν θετικό, αρνητικό και ουδέτερο συναίσθημα. Μερικά λεξικά διαθέτουν περαιτέρω κατηγορίες όπως θετικό, αρνητικό, ουδέτερο, πολύ θετικό, πολύ αρνητικό. Για την εύρεση της συνολικής πολικότητας του κειμένου, προστίθενται οι βαθμολογίες των επιμέρους λέξεων, και το μεγαλύτερο άθροισμα καθορίζει το συνολικό συναίσθημα. 23

24 Εικόνα 4.1: Διαδικασία Ανάλυσης Συναισθήματος με χρήση λεξικού Δημιουργία λεξικών Όπως προαναφέρθηκε οι περισσότεροι μέθοδοι ανάλυσης συναισθήματος χρησιμοποιούν τεχνικές βασισμένες σε λεξικά, για την καλύτερη επίδοσή τους. Για την δημιουργία τέτοιων λεξικών, υπάρχουν τρεις βασικές προσεγγίσεις. Η προσέγγιση βασισμένη σε λεξικά, βασισμένη σε corpus (ηλεκτρονικό σώμα) και η μη-αυτοματοποιημένη μέθοδος. Dictionary-based methods/ Μέθοδοι βασισμένοι σε λεξικό: Οι συγκεκριμένες μέθοδοι προσπαθούν να καθορίσουν την πολικότητα μίας λέξεις από ήδη γνωστές και σημασιολογικά παρεμφερείς τους, μέσω της χρήσης λεξικών. Η μέθοδος αυτή ονομάζεται bootstrapping. Corpus-based methods/ Μέθοδοι βασισμένοι σε corpus Οι μέθοδοι βασισμένοι σε ηλεκτρονικό σώμα, λαμβάνουν υπόψη τα δομικά στοιχεία και το συντακτικό του κειμένου. Σκοπός τους είναι να προσεγγίσουν την πολικότητα των λέξεων ενός corpus, καθώς και η μελέτη των σχέσεων μεταξύ των λέξεων. Επίσης έχοντας σαν βασική αρχή μία ομάδα γνωστών λέξεων την εμπλουτίζει με ένα σύνολο από σημασιολογικά παρόμοιες λέξεις. 24

25 Η μη αυτοματοποιημένη μέθοδος Η μη αυτοματοποιημένη μέθοδος, αν και πιο χρονοβόρα, έχει τη δυνατότητα να συνδυάσει και να διορθώσει τις προηγούμενες. Γίνεται κατασκευή του λεξικού συναισθημάτων με την ανάλυση ενός συνόλου λέξεων, των οποίων η εισαγωγή γίνεται χειροκίνητα Λεξικά WordNet Το WordNet αποτελεί μία ηλεκτρονική λεξικολογική βάση δεδομένων. Βασικές λειτουργίες του λεξικού αυτού είναι η φυσική επεξεργασία κειμένων, όπως εξαγωγή δεδομένων and συμπερασμάτων, αυτόματη δημιουργία ευρετηρίων, κατηγοριοποίηση κειμένου, και μηχανική μετάφραση κειμένου, καθώς και η υλοποίηση query formulation με τη χρήση συνόλων συνωνύμων και ιεραρχίας ή άλλων σχέσεων μεταξύ των λέξεων του κειμένου. Η κύρια σημασιολογική σχέση μεταξύ των λέξεων στο WordNet είναι η συνωνυμία. Το λεξικό ομαδοποιεί τα μέρη του λόγου (ουσιαστικά, επίθετα, ρήματα) σε ομάδες συνωνύμων (synsets). Κάθε ομάδα αποτελεί μία ξεχωριστή σημασιολογική έννοια. Το WordNet επίσης διαθέτει και ένα σύνολο εννοιών. Η έννοια μιας λέξης εκφράζεται από την συχνότητα εμφάνισής ενός όρου με τη συγκεκριμένη έννοια, και αντιπροσωπεύεται με έναν αριθμό. Με βάση τη συχνότητα αυτή μπορούμε να βγάλουμε συμπέρασμα για την πιο δημοφιλή έννοια για κάθε λέξη (Most Frequent Sense). (14) (15) 25

26 26

27 Εικόνα 4.2: Λειτουργία λεξικού WordNet SentiWordNet Το SentiWordNet αποτελεί μία βελτιωμένη λεξική πηγή, ειδικά ανεπτυγμένη για την κατηγοριοποίηση συναισθήματος και εξόρυξη γνώσης. Το λεξικό αυτό είναι έκβαση της αυτόματης επισήμανσης όλων των synsets του WordNet, ανάλογα με τις έννοιες «θετικό», «αρνητικό», «ουδέτερο». Σε κάθε synset s αποδίδονται 3 βαθμολογίες: Pos(s), Neg(s), and Obj(s), οι οποίες δηλώνουν πόσο θετικοί, αρνητικοί ή ουδέτεροι είναι οι όροι που περιέχονται στο synset s αντίστοιχα. Κάθε μία από τις παραπάνω βαθμολογίες κυμαίνεται στο διάστημα [0.0,1.0] και το συνολικό άθροισμα των τριών βαθμολογιών πρέπει να ισούται με τη μονάδα, για κάθε synset. (11) 27

28 Εικόνα 4.3: Λειτουργία λεξικού SentiWordNet Linguistic Inquiry and Word Count Το πρόγραμμα LIWC αποτελείται από 4,500 λέξεις και κορμούς λέξεων και αποτελεί μία από τις βασικότερες τεχνικές κατηγοριοποίησης κειμένου. Πρόκειται για ένα υπολογιστικό πρόγραμμα γλωσσολογικής ανάλυσης. Κάθε λέξη ή κορμός λέξης χωρίζεται σε υποκατηγορίες σύμφωνα με το συναίσθημα, τα δομικά και τα γραμματικά χαρακτηριστικά τους. Τις περισσότερες φορές οι κατηγορίες αυτές κατατάσσονται ιεραρχικά. Για παράδειγμα όλες οι λέξεις που εκφράζουν χαρά, θα έχουν σαν πρώτη κατηγορία το θετικό συναίσθημα. Κάθε φορά που μία λέξη αντιστοιχείται σε μία κατηγορία το λεξικό LIWC αυξάνει τη μετρητή της κατηγορίας αυτής. Έπειτα, γίνεται η συλλογή των λέξεων (Word Collection). Στο βήμα αυτό δημιουργούνται προκαταρκτικές κατηγορίες συνόλων λέξεων, και επόμενες τυχαίες λέξεις που προέρχονταν από 3-6 κριτές ταξινομούνταν ανάλογα με την έννοιά τους στις ήδη προϋπάρχουσες κατηγορίες. Δημιουργείται έτσι ένας πίνακας από λίστες λέξεων. Στη συνέχεια γίνεται η βαθμολογία και η αξιολόγηση της κατηγοριοποίησης αυτής από τρεις ξεχωριστούς κριτές. Αμέσως μετά ακολουθεί η ψυχομετρική αξιολόγηση, κατά την οποία οι λέξεις με μικρή συχνότητα εμφάνισης είτε αντικαθιστούνται, είτε παραλείπονται. Τελικό στάδιο είναι οι προσθήκες/επεκτάσεις. Η δομή του λεξικού 28

29 αναδιαμορφώνεται και τροποποιείται, δίνοντας έμφαση στις λέξεις από προφορικά και γραπτά δείγματα. (14) Εικόνα 4.4: Λειτουργία λεξικού Linguistic Inquiry and Word Count 4. Τεχνικές επιβλεπόμενης μηχανικής μάθησης Η Επιβλεπόμενη Τεχνική Μάθηση ή Supervised Machine Learning, αποτελεί μία από τις πιο βασικές μεθόδους κατηγοριοποίησης συναισθήματος. Διαθέτει ένα προκαθορισμένο σύνολο από κλάσεις, και σαν στόχο έχει την κατηγοριοποίηση των αντικειμένων της εισόδου στις κλάσεις αυτές. Ορισμένοι από τους πιο γνωστούς αλγόριθμους επιβλεπόμενης μηχανικής μάθησης είναι οι Naive Bayes, Gaussian Naive Bayes, Support Vector Machines (SVM) και Multinomial Naive Bayes. 29

30 Στην περίπτωση της επιβλεπόμενης τεχνικής μάθησης, κάθε αντικείμενο που αποτελεί είσοδο για τον αλγόριθμο, αναπαριστάται σαν διάνυσμα. Με τον τρόπο αυτό ο ταξινομητής (classifier) μπορεί να διακρίνει τις διαφορές στα κείμενα και κατ επέκταση να τα ταξινομήσει στις σωστές κλάσεις. Οι τεχνικές επιβλεπόμενης μηχανικής μάθησης παρουσιάζουν τόσο πλεονεκτήματα, όσο και μειονεκτήματα. Η καλή τους ακρίβεια σε σύγκριση με τις τεχνικές μη επιβλεπόμενης μηχανικής μάθησης είναι ένα χαρακτηριστικό που τους κάνει να υπερτερούν σε σχέση με τις τελευταίες. Όμως η ανάγκη μεγάλου χρόνου εργασίας για την εύρεση πιο ικανοποιητικών τιμών αποτελεί ένα από τα μειονεκτήματα της επιβλεπόμενης μηχανικής μάθησης. Μοντέλο Επιβλεπόμενης Μηχανικής Μάθησης Αρχικά για την υλοποίηση της μηχανικής μάθησης και την ανάλυσης συναισθήματος, χρειαζόμαστε ένα σύνολο δεδομένων (data set). Το σύνολο αυτό χωρίζετε σε δύο set/ κατηγορίες. Η μία κατηγορία αποτελεί το training set, και η δεύτερη το test set. Το training set ή αλλιώς, σύνολο εκπαίδευσης, δίνεται σαν είσοδος, ώστε να το μελετήσει ο ταξινομητής. Το σύνολο εκπαίδευσης, έχει καταλυτικό ρόλο στην τεχνική της επιβλεπόμενης τεχνικής μάθησης, καθώς ανακαλύπτει τις ιδανικές τιμές για την χρήση των κατάλληλων κανόνων στην ταξινόμηση, και έχει άμεση επιρροή στο ποσοστό ακριβείας του αποτελέσματος. Το test set, ή αλλιώς σύνολο ελέγχου, υλοποιείται μετά το σύνολο εκπαίδευσης και πριν την πρόβλεψη. 4.1 Προ-επεξεργασία Η προ-επεξεργασία αποτελεί το στάδιο στο οποίο γίνεται η προσαρμογή του κειμένου/corpus σε κατάλληλη μορφή για την εκπαίδευση. Στο σημείο αυτό λαμβάνονται υπόψη τα ιδιαίτερα χαρακτηριστικά ενός κειμένου. Οι βασικές λειτουργίες που εφαρμόζονται για την προσαρμογή του κειμένου, για την μελλοντική του επεξεργασία με τις μεθόδους επιβλεπόμενης μηχανικής μάθησης είναι οι εξής: Η αναφορά στους άλλους χρήστες και τα hastags (#), αφαιρούνται ή αντικαθίστανται με άλλα key-words. (16) (17) (18) Τα άρθρα (a, an, the) επίσης αφαιρούνται. (18) Στο twitter το RT στα retweets αφαιρείται. (19) 30

31 Όσον αφορά τα emoticons, τα τελευταία αντικαθιστούνται με αντίστοιχες λέξεις συναισθήματος, από το λεξικό της Wikipedia. (19) Αφαιρούνται συνήθεις λέξεις. (19) Tokenization: η διαδικασία κατά την οποία γίνεται εξαγωγή όρων, οι οποίοι αποτελούν λεκτικές μονάδες (tokens) σε ένα κείμενο. Κάθε λέξη θεωρείται ένα token, τα οποία χωρίζονται μεταξύ τους με κενά ή σημεία στίξης. Σκοπός είναι ο καθορισμός των προτάσεων, των λέξεων και των σημείων στίξης. (16) (19) Με τον τρόπο αυτό, η περιττή πληροφορία έχει αφαιρεθεί και ο αλγόριθμος μπορεί να επεξεργαστεί το καθαρό κείμενο. Το αποτέλεσμα της ταξινόμησης του κειμένου θα είναι πιο αντιπροσωπευτικό, όσον αφορά την ανάλυση συναισθήματος. 4.2 Χαρακτηριστικά Features Τα χαρακτηριστικά ή αλλιώς features είναι αυτά που συμβάλουν στην έκβαση του αποτελέσματος ενός ταξινομητή. Για παράδειγμα features της οντότητας boat είναι sail, keel, boom, rudder, mast κτλ. Για την επεξεργασία όμως των features είναι αναγκαία η μετατροπή τους σ μορφή αποδεκτή για τον εκάστοτε ταξινομητή. Η ανάγκη αυτή προκύπτει γιατί κάθε ταξινομητής αναπαριστά τα χαρακτηριστικά με διαφορετικούς τρόπους (σε διανύσματα ή σε δυαδική μορφή). Τα χαρακτηριστικά που προκύπτουν είναι τα εξής: Tokens: όπως αναφέρθηκαν παραπάνω, τα οποία προκύπτουν κατά τη διαδικασία της προ-επεξεργασίας. N-grams: Πρόκειται για μονογράμματα, διγράμματα και τον συνδυασμό αυτών. Ο ταξινομητής Supportive Vector Machine έχει αποδειχτεί ο καταλληλότερος για τη χρήση των μονογραμμάτων. (20) Part-Of-Speech tagger: Είναι το πρόβλημα της σημείωσης με πληροφορίες για τη φύση των στοιχείων ενός ηλεκτρονικού κειμένου, ή όπως είναι γνωστό ως πρόγραμμα της γραμματικής επισημείωσης. Η χρήση του συνεισφέρει στην κατηγοριοποίηση της κάθε λέξης τους κειμένου σε μία κλάση, σύμφωνα με το τι μέρος του λόγου είναι (ρήμα, ουσιαστικό, επίθετο). Πολλές φορές το είδος μία λέξης μπορεί να έχει παραπάνω από μία ερμηνείες. Γι αυτό οι part of speech taggers εξετάζουν το κείμενο στο σύνολό του, ώστε να μπορούν να διακρίνουν επιπλέον ιδιαιτερότητες μίας λέξης, όπως πτώση, γένος, αριθμός κλπ. 31

32 Τα σημεία στίξης και το πλήθος των θαυμαστικών αποτελούν βασικά χαρακτηριστικά. Το πλήθος των επαναλαμβανόμενων γραμμάτων. Τα κεφαλαία γράμματα ή λέξεις Η άρνηση, η οποία αλλάζει όλη την πολικότητα μία έκφρασης. (18) (21) 4.3. Ταξινομητές Ο ταξινομητής (classifier) είναι μέσο το οποίο θα λάβει τις κατάλληλες αποφάσεις, με την βοήθεια των features. Πρόκειται ένα μαθηματικό εργαλείο το οποίο είναι υπεύθυνο για την ανάθεση ετικέτας/ label σε μία είσοδο «Απλοϊκό» Μοντέλο Naive Bayes Ο Naive Bayes αποτελεί έναν από τους πιο βασικούς ταξινομητές και στηρίζεται στην εφαρμογή του πιθανολογικού θεωρήματος Bayes. Στόχος τους είναι να κατατάξει ένα στιγμιότυπο σε μία από τις δεδομένες κλάσεις. Το μοντέλο καλείται «απλοϊκό» διότι στηρίζεται στην ανεξαρτησία μεταξύ των μεταβλητών. Βασικό του χαρακτηριστικό είναι ότι η εμφάνιση ενός χαρακτηριστικού σε κάποια κλάση είναι ανεξάρτητη από την εμφάνιση ενός άλλου χαρακτηριστικού, καθώς και το γεγονός ότι απαιτεί ένα σχετικά μικρό σύνολο εκπαίδευσης. Ο κανόνας Bayes αν του δοθούν δύο τυχαίες (και ανεξάρτητες) μεταβλητές Χ και Υ, ορίζεται ως η πιθανότητα να συμβεί η Χ= a, δεδομένου ότι έχει συμβεί η Υ=b, η οποίο ονομάζεται εκ των υστέρων πιθανότητα και εκφράζεται με τον παρακάτω τύπο: P(a b) = Στην μηχανική μάθηση και στην ανάλυση συναισθήματος, η παραπάνω πιθανότητα ορίζεται ως εξής: P(y x1,x2,..,xn) Όπου y είναι μία κλάση από το σύνολο των προκαθορισμένων κλάσεων, και {x1,x2,.,xn} είναι το διάνυσμα των χαρακτηριστικών Χ. Η πιθανότητα με βάση τον ταξινομητή Bayes υπολογίζεται από τον τύπο: P(y x1,x2,..,xn) = Όπου είναι η εκ των προτέρων πιθανότητα για κάθε xi και θεωρείται γνωστή. Συγκεκριμένα ο Naive Bayes υπολογίζει ξεχωριστά τις πιθανότητες του διανύσματος Χ να ανήκει σε κάθε μία από τις ορισμένες κλάσεις y, και επιστρέφει σαν τη σωστή κλάση κατάταξης, αυτή με τη 32

33 μεγαλύτερη πιθανότητα. Ο παραπάνω τύπος απλοποιείται ως εξής: (δήμου σελ 40, template σελ 50) P(y x1,x2,..,xn) = => P(y x1,x2,..,xn) = => P(y x1,x2,..,xn) = Multinomial Naive Bayes Ο Ταξινομητής ΜΝΒ (Multinomial Naive Bayes) ταξινομεί ένα γεγονός xi (xi ά ύ ) σε μία κλάση, η οποία έχει τη μεγαλύτερη πιθανότητα, χρησιμοποιώντας τον κανόνα Bayes: P(y xi) = Τα P(xi\y) υπολογίζονται από το training set, και εκφράζουν την πιθανότητα εμφάνισης ενός γεγονότος xi σε μία κλάση y, από το σύνολο των προκαθορισμένων κλάσεων, και υπολογίζεται από τον παρακάτω τύπο: P(xi y) = Στην περίπτωση που ένα γεγονός δεν υπάρχει στο training set, τότε η πιθανότητα P(y x1,x2,..,xn) μηδενίζεται, αν της αναθέσουμε το στιγμιότυπο του προβλήματος που περιέχει το γεγονός αυτό. Για να αποφευχθούν τέτοιου είδους προβλήματα, γίνεται προσθήκη μίας τιμής σε όλες τις πιθανότητες, με ώστε να μην είναι δυνατός ο μηδενισμός τους. (22) Maximum Entropy Ο ταξινομητής Maximum Entropy αποτελεί μία εναλλακτική τεχνική η οποία έχει αποδειχτεί πολύ χρήσιμη, σε πλήθος εφαρμογών. Πολλές φορές αποδίδει καλύτερα από τον απλοϊκό αλγόριθμο ταξινόμησης Naive Bayes, καθώς ο ίδιος ο χρήστης καθορίζει τα ζεύγη ετικετών (εκ των προτέρων πιθανότητα) χαρακτηριστικών (features) που έχουν τις δικές τους παραμέτρους. Σε αντίθεση με τον Naive Bayes στον οποίο καθορίζεται μία παράμετρος για 33

34 κάθε συνδυασμό χαρακτηριστικών (feature) ετικέτας (label). Επίσης ο ταξινομητής Maximum Entropy δεν προϋποθέτει την ανεξαρτησία μεταξύ των features, σε αντίθεση με τον Naive Bayes, γι' αυτό και μπορεί να αποδώσει καλύτερα σε περιπτώσεις εξάρτησης των χαρακτηριστικών. Η διαδικασία που ακολουθεί ο αλγόριθμος, με σκοπό την επίτευξη της μέγιστης απόδοσης του ταξινομητή, έχει ως εξής. Οι τιμές των παραμέτρων αρχικοποιούνται έτσι ώστε να επιτευχθεί η μέγιστη εντροπία της συγκεκριμένης κατανομής. Στην συνέχεια οι παράμετροι αυτοί ανανεώνονται επαναληπτικά, με σκοπό την βελτιστοποίηση των τιμών τους. Ωστόσο, αν και οι επαναληπτικές μέθοδοι βελτιστοποίησης εγγυώνται την εύρεση των βέλτιστων τιμών, ο χρόνος τους δεν μπορεί ποτέ να προκαθοριστεί. Γι' αυτό η γενική φιλοσοφία της μεθόδου είναι η επιλογή των μοντέλων που απαιτούν λιγότερες επαναλήψεις. Κάθε συνδυασμός ετικετών και χαρακτηριστικών στα οποία αποδίδεται δική τους παράμετρος, ονομάζεται joint-feature, και συμβάλουν στην υλοποίηση του Maximum Entropy, και είναι αντίστοιχα με αυτά που χρησιμοποιούνται στον ταξινομητή Naive Bayes. Τα joint-feature αντιπροσωπεύουν μία ιδιότητα των τιμών που έχουν ετικέτα με ετικέτα. Τα χαρακτηριστικά τα οποία δεν έχουν την joint-feature ιδιότητα αντιπροσωπεύουν ιδιότητα των τιμών χωρίς ετικέτα. Στη συνέχεια σε κάθε ετικέτα αποδίδεται ένας βαθμός για μία συγκεκριμένη είσοδο, που εξαρτάται από τα joint-features, και ισούται με το γινόμενο των τιμών που σχετίζονται με τα joint-features και εφαρμόζονται στην ετικέτα κατά την είσοδο. Η πιθανότητα P( c d) εκφράζεται με την παρακάτω εκθετική μορφή: P(c d) = Όπου fi(c,d) είναι χαρακτηριστικό/feature, μοναδικό για κάθε c, που ορίζεται μία κλάση από το σύνολο κλάσεων C, και d που εκφράζει μία λέξη. αν ά (23) *ni(d) = πλήθος λέξεων που υπάρχουν σε ένα κείμενο της κλάσης c Support Vector Machines Οι Μηχανές Διανυσματικής Υποστήριξης ή αλλιώς SVM, έχουν αποδειχτεί αρκέτα ικανοποιητικές τεχνικές για την κατηγοριοποίηση κειμένου, και πολλές φορές είναι πιο αποδοτικές από τον ταξινομητή Naive Bayes. Πρόκειται για ένα μη - πιθανολογικό αλγόριθμο, ο οποίος μπορεί να εφαρμοστεί για 34

35 γραμμικά αλλά και μη γραμμικά δεδομένα. Στόχος του είναι να ταξινομήσει τα δεδομένα σε δύο πιθανές κλάσεις. Στον ταξινομητή αυτό, τα δεδομένα αναπαριστούνται σαν σημεία στο χώρο και σκοπός του αλγορίθμου είναι να δημιουργήσει ένα hyperplane* το οποίο συμβολίζεται ως διάνυσμα w, το οποίο όχι μόνο θα διαχωρίζει τα δεδομένα στις 2 διακριτές κλάσεις, αλλά θα φροντίζει έτσι ώστε το κενό ανάμεσά τους να είναι όσο το δυνατόν μεγαλύτερο. Στον ταξινομητή αυτό μπορεί να γίνει η παραδοχή ότι οι δύο κλάσεις, στις οποίες κατηγοριοποιούνται τα δεδομένα είναι η θετική και η αρνητική, και συμβολίζονται ως cj={1,-1}, όπου αντίστοιχα είναι 1 η θετική και -1 η αρνητική. Όπως είναι λογικό χώρο στο χώρο μπορεί να υπάρχουν άπειρα hyperplanes, ή υπερ-επίπεδα, τα οποία χωρίζουν τις δύο κλάσεις. Γι αυτό το λόγο είναι αναγκαία η εύρεση του βέλτιστου υπερ- επιπέδου. Το βέλτιστο υπερ- επίπεδο είναι αυτό το οποίο έχει το μικρότερο σφάλμα ταξινόμησης των δεδομένων. Η Μηχανή Διανυσμάτων Υποστήριξης, συγκλίνει πάντα ντετερμινιστικά στην ίδια λύση, με την προϋπόθεση ότι έχει βρεθεί το βέλτιστο hyperplane. Το τελευταίο ονομάζεται maximum marginal hyperplane (MMH) και καθορίζει σε ποια από τις δύο κλάσεις που έχει ορίσει ανήκει κάθε δεδομένο. *hyperplane στον ν-διάστατο Ευκλείδειο χώρο είναι ένα διάνυσμα διάστασης n-1 (δηλαδή μία ευθεία) του αρχικού χώρου, το οποίο χωρίζει το χώρο σε δύο ξένα μέρη. 4.4 Μετρικές Αξιολόγησης Μετά το πέρας της εκπαίδευσης, το μηχανικό σύστημα μπορεί να ξεκινήσει την ταξινόμηση με την δοθείσα είσοδο. Για την αξιολόγηση της απόδοσης ενός ταξινομητή υπάρχουν συγκεκριμένες μετρικές για τον υπολογισμό της επίδοσης του εκάστοτε αλγορίθμου μηχανικής μάθησης. Η πιο βασική μετρική είναι η ορθότητα (accuracy), η οποία υπολογίζεται από τον τύπο: accuracy = TP = Σωστή ταξινόμηση / το πλήθος των στιγμιοτύπων που ανήκουν στην θετική κλάση και ταξινομήθηκαν στην θετική κλάση. TN = Σωστή ταξινόμηση / το πλήθος των στιγμιοτύπων που ανήκουν στην αρνητική κλάση και ταξινομήθηκαν στην θετική κλάση 35

36 FP = Λανθασμένη ταξινόμηση/ το πλήθος των στιγμιοτύπων που ανήκουν στην αρνητική κλάση και ταξινομήθηκαν στην αρνητική κλάση. FN = Λανθασμένη ταξινόμηση/ το πλήθος των στιγμιοτύπων που ανήκουν στην θετική κλάση και ταξινομήθηκαν στην αρνητική κλάση Άλλες μετρικές για την αξιολόγηση των αλγορίθμων μηχανικής μάθησης είναι: Η ευαισθησία ή ανάκληση(recall) που δίνεται από τον τύπο: recall = Η ακρίβεια (precision) που δίνεται από τον τύπο: precision = Η εξειδίκευση (specificity) που δίνεται από τον τύπο: specificity = H F-Measure, η οποία συνδυάζει δύο από τις παραπάνω μετρικές, την ακρίβεια και την ανάκληση, και παρέχει μία ολική εκτίμηση του μοντέλου: FMeasure = 5. Μοντέλα Κατηγοριοποίησης Συναισθήματος 5.1 Προγραμματιστικό Περιβάλλον Το προγραμματιστικό περιβάλλον το οποίο χρησιμοποιήθηκε σε αυτή την εργασία είναι το λογισμικό Weka. Το Weka (Waikato Environment for Knowledge Analysis) είναι μία πλατφόρμα για υλοποίηση μηχανικής μάθησης, 36

37 γραμμένη σε γλώσσα Java, και έχει αναπτυχθεί από το πανεπιστήμιο του Waikato, της Νέας Ζηλανδίας. Το πρόγραμμα περιέχει μία συλλογή οπτικών μέσων και αλγορίθμων για την ανάλυση δεδομένων, καθώς και μοντέλων πρόβλεψης. Πιο συγκεκριμένα υλοποιεί τις συγκεκριμένες λειτουργίες: Προεπεξεργασία των data, με χρήση συγκεκριμένων εφαρμογών πο ονομάζονται filters. Δημιουργία μοντέλων μέσω ενός training set. Αξιολόγηση αλγορίθμων τεχνικής μάθησης, μέσω στατιστικών στοιχείων. Απεικόνιση των δεδομένων και των αποτελεσμάτων που προέκυψαν κατά τη διαδικασία της εκπαίδευσης Αρχεία στο Weka Για την είσοδο των δεδομένων στο Weka, τα αρχεία πρέπει να είναι σε μορφή ARFF (Attribute - Relation File Format). Τα αρχεία της μορφής αυτής είναι αρχεία κειμένου χαρακτήρων, το οποίο περιλαμβάνει μία σειρά από instances, τα οποία με τη σειρά τους περιγράφονται από χαρακτηριστικά (attributes). Παρακάτω φαίνεται ένα παράδειγμα τέτοιου αρχείου. 37

38 Εικόνα 5.1: Μορφή αρχείου ARFF Οι γραμμές που ξεκινάνε με % είναι σχόλια τα οποία δεν υπολογίζονται κατά τη διαδικασία φόρτωσης του αρχείου, έτσι ώστε το νόημα του κειμένου να είναι πιο κατανοητό. Οι γραμμές που ξεκινάνε είναι υποχρεωτικές και δεν μπορούν να παραλειφθούν, και περιγράφουν το αρχείο. Στην συνέχεια είναι η δήλωση των attributes, η οποία γίνεται σύμφωνα με την εξής Το όρισμα <attribute_name> είναι το όνομα του attribute/χαρακτηριστικού, το οποίο πρέπει να ξεκινάει με γράμμα και να περικλείεται σε εισαγωγικά ( ). Το όρισμα <datatype> καθορίζει τον τύπος του χαρακτηριστικού. Ένα χαρακτηριστικό μπορεί να είναι αριθμητικό (numeric), ονομαστικό (<nominalspecification>), αλφαριθμητικό (string) ή ημερομηνία (date[<date-format>]). (24) 38

39 5.2 Συλλογή δεδομένων Για την καλύτερη κατανόηση και των μοντέλων ανάλυσης συναισθήματος, στο πλαίσιο αυτής της εργασίας θα εξεταστεί ένα σύνολο δεδομένων που προέρχεται από κριτικές ταινιών (IMDb). Οι χρήστες στην κριτική ταινιών έχουν τη δυνατότητα να εκφράσουν την άποψή τους, χωρίς κανέναν περιορισμό στο μέγεθος του κειμένου, το οποίο είναι ένα πλεονέκτημα, όσον αφορά την σαφήνεια του μηνύματος. Ωστόσο πολλές φορές συναντάται η χρήση συντομογραφιών, αργκό εκφράσεων, emoticons και hastags, τα οποία επηρεάζουν την κατανόηση της πολικότητας του εκάστοτε κειμένου, από τις μηχανές ανάλυσης συναισθήματος Δεδομένα από Κριτικές Ταινιών Το σύνολο δεδομένων που χρησιμοποιήθηκε στην εργασία αυτή περιέχει 2000 κριτικές, από το ιστότοπο IMDb ( Τα δεδομένα που ανακτήθηκαν έχουν χωριστεί χειροκίνητα σε δύο κατηγορίες, θετικές και αρνητικές κριτικές (1000 θετικές και 1000 αρνητικές). Κάθε κριτική, αποτελεί ένα ξεχωριστό αρχείο κειμένου. [26] [38] Στον παρακάτω πίνακα, δίνονται στιγμιότυπα κριτικών από την ιστοσελίδα IMDb: 39

40 Εικόνα 5.2: Στιγμιότυπο κριτικής ταινίας της ιστοσελίδας IMDb 5.3 Περιγραφή Μοντέλου Κατηγοριοποίησης Η υλοποίηση των μοντέλων κατηγοριοποίησης συναισθήματος, έγινε με τη βοήθεια του προγραμματιστικού περιβάλλοντος Weka. Παρακάτω, παρουσιάζονται τα βήματα που ακολουθήθηκαν, για την υλοποίηση των μοντέλων, ανάλογα με τις ιδιαιτερότητες τριών συνόλων δεδομένων Επιλογή Αλγορίθμου Για την εργασία αυτή έχουν επιλεχθεί οι αλγόριθμοι Multinomial Naïve Bays (MLN) και Stochastic Gradient Descent (SGD). Μετά την ανάλυση των μοντέλων κατηγοριοποίησης, θα συγκρίνουμε τα αποτελέσματα που θα προκύψουν. 40

41 6. Πειραματικά Αποτελέσματα Παρακάτω παρουσιάζονται τα πειραματικά αποτελέσματα των αλγορίθμων που χρησιμοποιήθηκαν για το σύνολο δεδομένων των κριτικών ταινιών. Σε κάθε αλγόριθμο εφαρμόστηκαν διαφορετικές τεχνικές επεξεργασίας κειμένου. Μερικές από τις πιο σημαντικές τεχνικές παρουσιάζονται παρακάτω: Word parsing και tokenization Σε αυτή τη φάση κάθε έγγραφο αναλύεται με σκοπό την εξαγωγή των όρων. Είναι αναγκαίος ο καθορισμός των χαρακτήρων διαχωρισμού, καθώς και η στρατιγική «tokenization» για ειδικές περιπτώσεις, όπως τονισμένες λέξεις, συνώνυμα ή ακρόνυμα κλπ. Stop-words removal Η τεχνική αυτή επιτρέπει την εξάλειψη συχνά χρησιμοποιούμενων λέξεων. Οι όροι αυτοί είναι αναγκαίο να εντοπίζονται και να απομακρύνονται καθώς είναι άχρηστες κατά τη διαδικασία της κατηγοριποίησης. Lemmatization and stemming Η τεχνική lemmatization, η οποία ετυμολογικά προέρχεται από τη λέξη Λήμμα (Lemma) καθορίζει τη ρίζα της κάθε λέξης. Για παράδειγμα οι λέξεις πλοίο, πλοίαρχος, πλοικτησία έχουν όλες την ίδια ετυμολογία. Stemming είναι μία απλή τεχνική lemmatization. Οι αλγόριθμοι Stemming λειτουργούν αφαιρώντας το επίθημα κάθε λέξης, ακολουθώντας συγκεκριμένους γραμματικούς κανόνες. Term selection/feature extraction Οι όροι που έχουν επιλεγεί από όλες τις προηγούμενες φάσεις πρέπει να περάσουν από μία επιπλέον επεξεργασία φιλτραρίσματος, για την αφαίρεση των όρων που έχουν μειωμένη ικανότητα προβλεψιμότητας ή είναι άμεσα συνδεδεμένοι με άλλους όρους. Η διαδικασία αυτή επίσης οδηγεί σε μία πιο απλή και αποτελεσματική κατηγοροιποίηση. Στη πρώτη φάση χρησιμοποιήθηκε το φίλτρο StringToWordVector, το οποίο μετατρέπει κάθε κείμενο σε διανυσματική μορφή. Με το StringToWordVector δίνεται η δυνατότητα να ανακαλύψουμε τα διαφορετικά στάδια της εξαγωγής κειμένου. Πιο συγκεκριμένα μπορούμε να κάνουμε τα εξής: 41

42 Καθορισμός του tokenizer Καθορισμός της λίστας των stop-words Επιλογή stemmer. Παρακάτω σκιαγραφούνται μερικά από τα βήματα που υλοποιήθηκαν για την κατηγοριοποίηση των 2000 κριτικών ταινιών από το site IMDb. Εικόνα 6.1 Εισαγωγή δεδομένων στο προγραμματιστικό περιβάλλον Weka Εικόνα 6.2: Εφαρμογή του String to Word Vector για τη μετατροπή των κειμένων σε διανύσματα 42

43 Εικόνα 6.3: Αποτελέσματα Sting to Word Vector χωρίς τη χρήση tokens, stopwords και attributes Εικόνα 6.4: Αποτελέσματα του αλγορίθμου Multinomial Bayes, με τους παραπάνω όρους Εικόνα 6.5: Αποτελέσματα του αλγορίθμου Multinomial Bayes 43

44 Εικόνα 6.6: Αποτελέσματα του αλγορίθμου SGD Εικόνα 6.7: Ποσοστά σωστής κατηγοριοποίησης του αλγορίθμου MLN Εικόνα 6.8: Ποσοστά σωστής κατηγοριοποίησης του αλγορίθμου SGD 44

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής Εξόρυξη γνώσης από σχόλια σε τουριστικές ιστοσελίδες και παραγοντική ανάλυση του αισθήματος ικανοποίησης των πελατών για το ξενοδοχείο τους Γιώργος ταλίδης 1, Παναγιώτης ταλίδης 2, Κώστας Διαμαντάρας 2

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Opinion Mining Opinion Mining Συνώνυμο: Sentiment Analysis Ορισμός: Ανάλυση κειμένων που αναφέρονται σε μια οντότητα/αντικείμενο Εντοπισμός

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης Ειρήνη Καλδέλη ιπλωµατική Εργασία Περίληψη Εισαγωγή Τα τελευταία χρόνια η αλµατώδης ανάπτυξη της πληροφορικής έχει διευρύνει σε σηµαντικό βαθµό

Διαβάστε περισσότερα

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου Τίμος Κουλουμπής Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου Αντικείμενο Εργασίας Εισαγωγή στην Αυτόματη Κατηγοριοποίηση Κειμένου Μεθοδολογίες Συγκριτική Αποτίμηση Συμπεράσματα

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

«Μελέτη και αξιολόγηση τεχνικών Κατηγοριοποίησης Συναισθήματος σε σχόλια χρηστών στο Διαδίκτυο»

«Μελέτη και αξιολόγηση τεχνικών Κατηγοριοποίησης Συναισθήματος σε σχόλια χρηστών στο Διαδίκτυο» ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ Διπλωματική Εργασία

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Opinion Mining and Sentiment analysis

Opinion Mining and Sentiment analysis Opinion Mining and Sentiment analysis Τμήμα Μηχανικών Η/Υ και Πληροφορικής επιβλέπων καθηγητής: Μακρής Χρήστος Επισκόπηση και πειραματική αξιολόγηση τεχνικών για opinion mining και sentiment analysis Παναγόπουλος

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία

Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία Γιώργος Κ. Μικρός Τμήμα Ιταλικής Γλώσσας και Φιλολογίας - ΕΚΠΑ Περίγραμμα ομιλίας Κοινωνικά Μέσα Δικτύωσης

Διαβάστε περισσότερα

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος Οικονομικό Πανεπιστήμιο Αθηνών Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης Άρης Κοσμόπουλος Πρόβλημα ανεπιθύμητων μηνυμάτων Περισσότερα από το 60% των ηλεκτρονικών μηνυμάτων είναι ανεπιθύμητα

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ WordNet Σημασιολογικά Δίκτυα Ένα δίκτυο που αναπαριστά συσχετίσεις μεταξύ εννοιών. Οι κορυφές παριστάνουν έννοιες και οι ακμές σημασιολογικές

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

Αριστομένης Μακρής. Συστήματα Επιχειρηματικής Ευφυΐας (BI/BA)

Αριστομένης Μακρής. Συστήματα Επιχειρηματικής Ευφυΐας (BI/BA) Αναλυτική μέσων Κοινωνικής Δικτύωσης (Social Media Analytics) Πληθυσμός Τεχνολογία ο χώρος (χορός) των υπερβολών Παράδειγμα υπερβολής Το 2005 το αγοράζει η News Corp αντί $580.000.000 Το 2008 η αξία της

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

Αναζητήσεις στο Διαδίκτυο

Αναζητήσεις στο Διαδίκτυο Αναζητήσεις στο Διαδίκτυο Πλεονεκτήματα από τη χρήση του Διαδικτύου για την αναζήτηση πληροφοριών Υπάρχει πληθώρα πληροφοριών (που περιλαμβάνουν μεγάλο εύρος από media). Οι μαθητές καθίστανται «ερευνητές

Διαβάστε περισσότερα

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Ειρήνη Φλώρου ΕΚΠΑ, 01/03/2019

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Ειρήνη Φλώρου ΕΚΠΑ, 01/03/2019 «ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία Ειρήνη Φλώρου ΕΚΠΑ, 01/03/2019 Στόχοι Μετατροπή ανεπεξέργαστων δεδομένων σε χρήσιμη πληροφορία χωρίς εξαντλητική επισημείωση Συνόψιση πληροφορίας

Διαβάστε περισσότερα

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος Αναστασιάδης Αντώνιος Τα ιστολόγια σήμερα Διπλωματική Εργασία Η σημασία των πληροφοριών των ιστολόγιων Μέθοδοι κατάτμησης ιστολόγιων Αξιολόγηση κατάτμησης Ταξινόμηση καταχωρήσεων Αξιολόγηση ταξινόμησης

Διαβάστε περισσότερα

Διοίκηση Επιχειρήσεων

Διοίκηση Επιχειρήσεων 10 η Εισήγηση Δημιουργικότητα - Καινοτομία 1 1.Εισαγωγή στη Δημιουργικότητα και την Καινοτομία 2.Δημιουργικό Μάνατζμεντ 3.Καινοτομικό μάνατζμεντ 4.Παραδείγματα δημιουργικότητας και καινοτομίας 2 Δημιουργικότητα

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΘΕΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΚΑΤΑΣΚΕΥΗ ΕΡΩΤΗΣΕΩΝ. Άννα Κουκά

ΘΕΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΚΑΤΑΣΚΕΥΗ ΕΡΩΤΗΣΕΩΝ. Άννα Κουκά ΘΕΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΚΑΤΑΣΚΕΥΗ ΕΡΩΤΗΣΕΩΝ Άννα Κουκά Αξιολόγηση της επίδοσης των μαθητών. Μετρήσεις. Σημαντικές παρατηρήσεις Γενικός ορισμός με πρακτικά κριτήρια Αξιολόγηση είναι η απόδοση μιας ορισμένης

Διαβάστε περισσότερα

<5,0 5,0 6,9 7 7,9 8 8,9 9-10

<5,0 5,0 6,9 7 7,9 8 8,9 9-10 ΚΡΙΤΗΡΙΑ Εύρος θέματος Τίτλος και περίληψη Εισαγωγή Βαθμολογία

Διαβάστε περισσότερα

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Αντικείμενο Μελέτη και ανάπτυξη μεθόδων από τον χώρο της μηχανικής μάθησης για

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Συλλογή και παρουσίαση στατιστικών δεδομένων

Συλλογή και παρουσίαση στατιστικών δεδομένων Συλλογή και παρουσίαση στατιστικών δεδομένων Απογραφή Δειγματοληψία Συνεχής καταγραφή Πίνακες Διαγράμματα Στατιστικές εκθέσεις Τρόποι συλλογής δεδομένων Οι μέθοδοι συλλογής δεδομένων ποικίλουν και κυρίως

Διαβάστε περισσότερα

Στόχος της ψυχολογικής έρευνας:

Στόχος της ψυχολογικής έρευνας: Στόχος της ψυχολογικής έρευνας: Συστηματική περιγραφή και κατανόηση των ψυχολογικών φαινομένων. Η ψυχολογική έρευνα χρησιμοποιεί μεθόδους συστηματικής διερεύνησης για τη συλλογή, την ανάλυση και την ερμηνεία

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής Data Mining: Στοχεύοντας στους σωστούς πελάτες To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί

Διαβάστε περισσότερα

Αναζητήσεις στο Διαδίκτυο

Αναζητήσεις στο Διαδίκτυο Αναζητήσεις στο Διαδίκτυο Διαδίκτυο ως πηγή πληροφοριών Το Διαδίκτυο στις μέρες μας αποτελεί την μεγαλύτερη πηγή πληροφοριών. Οι Δάσκαλοι πρέπει να εκπαιδεύσουν τους μαθητές να αναζητούν σωστά και να αξιοποιούν

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής: Τρόπος εξέτασης των πανελλαδικά εξεταζόμενων μαθημάτων Τα θέματα των πανελλαδικά εξεταζόμενων μαθημάτων λαμβάνονται από την ύλη που ορίζεται ως εξεταστέα για κάθε μάθημα κατά το έτος που γίνονται οι εξετάσεις.

Διαβάστε περισσότερα

Σύνθετα μέτρα στην ποσοτική έρευνα: Δείκτες, κλίμακες και διαστάσεις

Σύνθετα μέτρα στην ποσοτική έρευνα: Δείκτες, κλίμακες και διαστάσεις Σύνθετα μέτρα στην ποσοτική έρευνα: Δείκτες, κλίμακες και διαστάσεις Σύνοψη κεφαλαίου Δείκτες, κλίμακες και διαστάσεις Κατασκευή δεικτών Κατασκευή κλιμάκων 5-2 Εισαγωγή Γιατί χρησιμοποιούνται σύνθετα μέτρα

Διαβάστε περισσότερα

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική ΕΕΟ 11 Η χρήση στατιστικών εργαλείων στην εκτιμητική 1. Εισαγωγή 2. Προϋποθέσεις χρήσης των Αυτοματοποιημένων Εκτιμητικών Μοντέλων (ΑΕΜ) 3. Περιορισμοί στη χρήση των ΑΕΜ εφόσον έχουν πληρωθεί οι προϋποθέσεις

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

Αναλυτικό Πρόγραμμα Μαθηματικών

Αναλυτικό Πρόγραμμα Μαθηματικών Αναλυτικό Πρόγραμμα Μαθηματικών Σχεδιασμός... αντιμετωπίζει ενιαία το πλαίσιο σπουδών (Προδημοτική, Δημοτικό, Γυμνάσιο και Λύκειο), είναι συνέχεια υπό διαμόρφωση και αλλαγή, για να αντιμετωπίζει την εξέλιξη,

Διαβάστε περισσότερα

6. Διαχείριση Έργου. Έκδοση των φοιτητών

6. Διαχείριση Έργου. Έκδοση των φοιτητών 6. Διαχείριση Έργου Έκδοση των φοιτητών Εισαγωγή 1. Η διαδικασία της Διαχείρισης Έργου 2. Διαχείριση κινδύνων Επανεξέταση Ερωτήσεις Αυτοαξιολόγησης Διαχείριση του έργου είναι να βάζεις σαφείς στόχους,

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση Ηλεκτρονικό εμπόριο HE 8 Εξατομίκευση Πληροφοριακός υπερφόρτος (information overload) Αδυναμία διαχείρισης μεγάλου όγκου πληροφοριών και εντοπισμού της χρήσιμης πληροφορίας Η εξατομίκευση στοχεύει στην

Διαβάστε περισσότερα

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον Κωνσταντίνος Σπυρόπουλος Διευθυντής Ινστιτούτου Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ Δημόκριτος Βελτίωση της Αποτελεσματικότητας Επιχειρήσεων/Οργανισμών,

Διαβάστε περισσότερα

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Σχεδιασμός Ερωτηματολογίου

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Σχεδιασμός Ερωτηματολογίου ΙΕΚ ΞΑΝΘΗΣ Μάθημα : Στατιστική Ι Υποενότητα : Σχεδιασμός Ερωτηματολογίου Επαμεινώνδας Διαμαντόπουλος Ιστοσελίδα : http://users.sch.gr/epdiaman/ Email : epdiamantopoulos@yahoo.gr 1 Στόχοι της υποενότητας

Διαβάστε περισσότερα

Δεύτερη Συνάντηση ΜΑΘΗΣΗ ΜΕΣΑ ΑΠΟ ΟΜΑΔΕΣ ΕΡΓΑΣΙΕΣ. Κάππας Σπυρίδων

Δεύτερη Συνάντηση ΜΑΘΗΣΗ ΜΕΣΑ ΑΠΟ ΟΜΑΔΕΣ ΕΡΓΑΣΙΕΣ. Κάππας Σπυρίδων Δεύτερη Συνάντηση ΜΑΘΗΣΗ ΜΕΣΑ ΑΠΟ ΟΜΑΔΕΣ ΕΡΓΑΣΙΕΣ Κάππας Σπυρίδων ΟΜΑΔΑ είναι μια συνάθροιση ατόμων στην οποία το καθένα έχει συνείδηση της παρουσίας των άλλων, ενώ ταυτόχρονα βιώνει κάποια μορφή εξάρτησης

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΕΣ ΚΟΙΝΩΝΙΚΗΣ ΔΙΚΤΥΩΣΗΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ

ΤΕΧΝΟΛΟΓΙΕΣ ΚΟΙΝΩΝΙΚΗΣ ΔΙΚΤΥΩΣΗΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ ΤΕΧΝΟΛΟΓΙΕΣ ΚΟΙΝΩΝΙΚΗΣ ΔΙΚΤΥΩΣΗΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ Κιουτσιούκη Δήμητρα, 485 Τελική δραστηριότητα Φάση 1 :Ατομική μελέτη 1. Πώς θα περιγράφατε το ρόλο της τεχνολογίας στην εκπαιδευτική καινοτομία; Οι Web

Διαβάστε περισσότερα

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση Οι συµφράσεις είναι ακολουθίες όρων οι οποίοι συνεµφανίζονται σε κείµενο µε µεγαλύτερη συχνότητα από εκείνη της εµφάνισης

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Τα προς επεξεργασία

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Εκεί που είμαστε Κεφάλαια 7 και 8: Οι διωνυμικές,κανονικές, εκθετικές κατανομές και κατανομές Poisson μας επιτρέπουν να κάνουμε διατυπώσεις πιθανοτήτων γύρω από το Χ

Διαβάστε περισσότερα

ΕΠΙΚΟΙΝΩΝΙΑΚΗ ΔΙΑΧΕΙΡΙΣΗ ΚΡΙΣΕΩΝ. Communications Crisis Management

ΕΠΙΚΟΙΝΩΝΙΑΚΗ ΔΙΑΧΕΙΡΙΣΗ ΚΡΙΣΕΩΝ. Communications Crisis Management ΕΠΙΚΟΙΝΩΝΙΑΚΗ ΔΙΑΧΕΙΡΙΣΗ ΚΡΙΣΕΩΝ Communications Crisis Management ΕΠΙΚΟΙΝΩΝΙΑΚΗ ΔΙΑΧΕΙΡΙΣΗ ΚΡΙΣΕΩΝ Καράβια βουλιάζουν. Αεροσκάφη πέφτουν. Προϊόντα ανακαλούνται. Εταιρίες μηνύονται για ληγμένα τρόφιμα ή

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 6 ΟΥ ΚΕΦΑΛΑΙΟΥ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ 6.1 Τι ονοµάζουµε πρόγραµµα υπολογιστή; Ένα πρόγραµµα

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

Opinion Mining and Sentiment Analysis

Opinion Mining and Sentiment Analysis Τμήμα Μηχανικών Η/Υ και Πληροφορικής επιβλέπων: Μακρής Χρήστος, Επίκουρος Καθηγητής Opinion Mining and Sentiment Analysis Επισκόπηση και πειραματική αξιολόγηση τεχνικών για opinion mining και sentiment

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Τι είναι η ερευνητική εργασία Η ερευνητική εργασία στο σχολείο είναι μια δυναμική διαδικασία, ανοιχτή στην αναζήτηση για την κατανόηση του πραγματικού κόσμου.

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

«Καθοριστικοί παράγοντες της αποτελεσματικότητας της από στόμα-σε-στόμα επικοινωνίας στις ιστοσελίδες κοινωνικής δικτύωσης»

«Καθοριστικοί παράγοντες της αποτελεσματικότητας της από στόμα-σε-στόμα επικοινωνίας στις ιστοσελίδες κοινωνικής δικτύωσης» «Καθοριστικοί παράγοντες της αποτελεσματικότητας της από στόμα-σε-στόμα επικοινωνίας στις ιστοσελίδες κοινωνικής δικτύωσης» Ονοματεπώνυμο: Ταχταρά Κατερίνα Σειρά: 8 η Επιβλέπων Καθηγητής: Βρεχόπουλος Αδάμ

Διαβάστε περισσότερα

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Η ταξινόμηση εικόνας αναφέρεται στην ερμηνεία με χρήση υπολογιστή των τηλεπισκοπικών εικόνων. Παρόλο που ορισμένες διαδικασίες έχουν τη δυνατότητα να συμπεριλάβουν πληροφορίες

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων Πληροφοριακά Συστήματα Διοίκησης Διοικητική Επιστήμη και Λήψη Αποφάσεων Η πολυπλοκότητα των αποφάσεων Αυξανόμενη πολυπλοκότητα λόγω: Ταχύτητας αλλαγών στο εξωτερικό περιβάλλον της επιχείρησης. Έντασης

Διαβάστε περισσότερα

1. Σκοπός της έρευνας

1. Σκοπός της έρευνας Στατιστική ανάλυση και ερμηνεία των αποτελεσμάτων των εξετάσεων πιστοποίησης ελληνομάθειας 1. Σκοπός της έρευνας Ο σκοπός αυτής της έρευνας είναι κυριότατα πρακτικός. Η εξέταση των δεκτικών/αντιληπτικών

Διαβάστε περισσότερα

O μετασχηματισμός μιας «διαθεματικής» δραστηριότητας σε μαθηματική. Δέσποινα Πόταρη Πανεπιστήμιο Πατρών

O μετασχηματισμός μιας «διαθεματικής» δραστηριότητας σε μαθηματική. Δέσποινα Πόταρη Πανεπιστήμιο Πατρών O μετασχηματισμός μιας «διαθεματικής» δραστηριότητας σε μαθηματική Δέσποινα Πόταρη Πανεπιστήμιο Πατρών Η έννοια της δραστηριότητας Δραστηριότητα είναι κάθε ανθρώπινη δράση που έχει ένα κίνητρο και ένα

Διαβάστε περισσότερα

Ερωτηματολόγιο. Τρόποι χορήγησης: α) Με αλληλογραφία β) Με απευθείας χορήγηση γ) Τηλεφωνικά

Ερωτηματολόγιο. Τρόποι χορήγησης: α) Με αλληλογραφία β) Με απευθείας χορήγηση γ) Τηλεφωνικά Ερωτηματολόγιο Το ερωτηματολόγιο αποτελείται από μια σειρά ερωτήσεων, οι οποίες έχουν ως στόχο την καταγραφή των απόψεων, γνώσεων ή στάσεων μιας ομάδας ατόμων. Τρόποι συμπλήρωσης: α) άμεσος (ο ίδιος ο

Διαβάστε περισσότερα

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ Μ. Γρηγοριάδου Ρ. Γόγουλου Ενότητα: Η Διδασκαλία του Προγραμματισμού Περιεχόμενα Παρουσίασης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

ΟΙ ΕΡΩΤΗΣΕ1Σ III: ΟΙ ΚΛΙΜΑΚΕΣ]

ΟΙ ΕΡΩΤΗΣΕ1Σ III: ΟΙ ΚΛΙΜΑΚΕΣ] Κατερέλος - 2.3. ΟΙ ΕΡΩΤΗΣΕ1Σ III: ΟΙ ΚΛΙΜΑΚΕΣ] Η χρήση των κλιμάκων στην ψυχολογία είναι εξαιρετικά ευρεία: δοκιμασίες ικανοτήτων, μέτρηση απόψεων και στάσεων ή και κλινικές παρατηρήσεις. Ειδικότερα στην

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Ημερίδα παρουσίασης CLARIN-EL 1/10/2010 Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" ΧΑΡΤΟΓΡΑΦΗΣΗ ΧΩΡΟΥ ΓΤ ΓΙΑ ΚΑΕ Στο

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

Σύγχρονο Επιχειρηµατικό Γίγνεσθαι

Σύγχρονο Επιχειρηµατικό Γίγνεσθαι SOCIAL CRM Σύγχρονο Επιχειρηµατικό Γίγνεσθαι Όξυνση ανταγωνισµού Ραγδαίες τεχνολογικές εξελίξεις Πληθώρα επιλογών Νέες επιχειρηµατικές τάσεις Στροφή προς τον πελάτη Word of mouth Κοινωνικά δίκτυα ΟΡΙΣΜΟΣ

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Η Έρευνα Μάρκετινγκ ως εργαλείο ανάπτυξης νέων προϊόντων ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ.

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΕΠΛ 451 Εξόρυξη Δεδομένων στον Παγκόσμιο Ιστό I. Στόχος ΑΣΚΗΣΗ 1 Ανάλυση συσχετίσεων ανάμεσα σε προϊόντα Διδάσκων: Γιώργος Πάλλης Υπεύθυνος Εργασίας: Παύλος Αντωνίου

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΤΕΙ ΚΡΗΤΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΓΙΑΝΝΗΣ ΦΑΝΟΥΡΓΙΑΚΗΣ ΕΠΙΣΤΗΜΟΝΙΚΟΣ ΣΥΝΕΡΓΑΤΗΣ ΤΕΙ ΚΡΗΤΗΣ ΔΟΜΗ ΠΑΡΟΥΣΙΑΣΗΣ 1. Εισαγωγή

Διαβάστε περισσότερα

ΑΝΤΙΚΕΙΜΕΝΟ Ι. ΓΙΑΝΝΑΤΣΗΣ

ΑΝΤΙΚΕΙΜΕΝΟ Ι. ΓΙΑΝΝΑΤΣΗΣ ΣΧΕΔΙΑΣΜΟΣ ΣΥΣΤΗΜΑΤΩΝ ΠΑΡΑΓΩΓΗΣ ΜΕΤΡΗΣΗ ΕΡΓΑΣΙΑΣ Ι. ΓΙΑΝΝΑΤΣΗΣ ΑΝΤΙΚΕΙΜΕΝΟ Η Μέτρηση Εργασίας (Work Measurement ή Time Study) έχει ως αντικείμενο τον προσδιορισμό του χρόνου που απαιτείται από ένα ειδικευμένο

Διαβάστε περισσότερα

Κεφάλαιο 2: Έννοιες και Ορισμοί

Κεφάλαιο 2: Έννοιες και Ορισμοί ΔΙΟΙΚΗΣΗ ΟΛΙΚΗΣ ΠΟΙΟΤΗΤΑΣ Ε.ΜΙΧΑΗΛΙΔΟΥ - 1 Κεφάλαιο 2: Έννοιες και Ορισμοί Η επιτυχία των επιχειρήσεων βασίζεται στην ικανοποίηση των απαιτήσεων των πελατών για: - Ποιοτικά και αξιόπιστα προϊόντα - Ποιοτικές

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

710 -Μάθηση - Απόδοση. Κινητικής Συμπεριφοράς: Προετοιμασία

710 -Μάθηση - Απόδοση. Κινητικής Συμπεριφοράς: Προετοιμασία 710 -Μάθηση - Απόδοση Διάλεξη 5η Ποιοτική αξιολόγηση της Κινητικής Συμπεριφοράς: Προετοιμασία Περιεχόμενο ενοτήτων Ποιοτική αξιολόγηση Ορισμός και στάδια που περιλαμβάνονται Περιεχόμενο: στοιχεία που τη

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Μάθημα 10: Ανάπτυξη ΠΣ Μαρίνος Θεμιστοκλέους Email: mthemist@unipi.gr Ανδρούτσου 150 Γραφείο 206 Τηλ. 210 414 2723 Ώρες Γραφείου: Δευτέρα 11-12 πμ Ενδεικτικά Περιεχόμενα Εργασίας

Διαβάστε περισσότερα

Μαθησιακές δυσκολίες ΙΙ. Παλαιγεωργίου Γιώργος Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών Τηλεπικοινωνιών και Δικτύων, Πανεπιστήμιο Θεσσαλίας

Μαθησιακές δυσκολίες ΙΙ. Παλαιγεωργίου Γιώργος Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών Τηλεπικοινωνιών και Δικτύων, Πανεπιστήμιο Θεσσαλίας Μαθησιακές δυσκολίες ΙΙ Παλαιγεωργίου Γιώργος Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών Τηλεπικοινωνιών και Δικτύων, Πανεπιστήμιο Θεσσαλίας Μάρτιος 2010 Προηγούμενη διάλεξη Μαθησιακές δυσκολίες Σε όλες

Διαβάστε περισσότερα