ΕΡΓΑΣΙΑ ΣΤΗΝ ΕΞΟΡΥΞΗ & ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΘΕΜΑ: Μελέτη βιβλιογραφίας σχετικά με NLP & Sentiment analysis για rating prediction

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΕΡΓΑΣΙΑ ΣΤΗΝ ΕΞΟΡΥΞΗ & ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΘΕΜΑ: Μελέτη βιβλιογραφίας σχετικά με NLP & Sentiment analysis για rating prediction"

Transcript

1 ΕΡΓΑΣΙΑ ΣΤΗΝ ΕΞΟΡΥΞΗ & ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΘΕΜΑ: Μελέτη βιβλιογραφίας σχετικά με NLP & Sentiment analysis για rating prediction ΔΗΜΗΤΡΙΑΔΗΣ ΔΗΜΗΤΡΗΣ ΧΡΙΣΤΕΛΗΣ ΕΥΑΓΓΕΛΟΣ 604 ΠΑΝΑΤΣΙΑΣ ΙΩΑΝΝΗΣ 581

2 I. Εισαγωγή Τα άρθρα, τα οποία μελετήσαμε είχαν ως βασικό άξονα την ανάλυση κειμένου αξιολόγησης χρηστών κοινωνικών δικτύων σχετικά με κάποιες επιχειρήσεις. Στόχος αυτής της στρατηγικής είναι η εξαγωγή συμπερασμάτων για τα προϊόντα ή τις υπηρεσίες, που παρέχονται από κάποια επιχείρηση, με πιο αντιληπτό τρόπο. Για να καταστεί αυτό δυνατό οι πολλοί ερευνητές προσέγγισαν το θέμα από την σκοπιά της επεξεργασίας φυσικής γλώσσας (Natural Language Processing). Συγκεκριμένα, οι περισσότεροι προσπάθησαν να βελτιώσουν τις ήδη υπάρχουσες βαθμολογίες χρηστών με βάση την γραπτή αξιολόγησή τους σχετικά με ένα προϊόν ή υπηρεσία. Δηλαδή σε κοινότητες ιστοσελίδες, όπως το Yelp, ο κάθε χρήστης μπορεί να δώσει μια κριτική σε μια κλίμακα 1-5 αστεριών (1 λιγότερο ευχαριστημένος, 5 πάρα πολύ ευχαριστημένος ) και μια γραπτή σύντομη αξιολόγηση της επιχείρησης με βάση την εμπειρία του. Ακόμη, το σκεπτικό αυτό μπορεί να χρησιμοποιηθεί και σε δημοσκοπήσεις για την έκβαση εκλογών και στην αποτύπωση του γενικού συναισθήματος μιας κοινωνίας για κάποιο φαινόμενο ή κατάσταση. Αυτό μπορεί να συμβεί με την εξαγωγή πληροφορίας από τις διαμοιραζόμενες πληροφορίες χρηστών ιστοσελίδων κοινωνικής δικτύωσης και γενικά Web 2.0 τεχνολογιών. Τα τελευταία έτη, η λογική αυτή της εξόρυξης πληροφοριών από τα δεδομένα κοινωνικών δικτύων έχει εκτοξευθεί, καθώς σε αυτές τις πλατφόρμες οι χρήστες μπορούν εκφράσουν την γνώμη τους για κάποιο πολιτικό πρόσωπο ή μια υπηρεσία οικειοθελώς και με βάση την εμπειρία τους. Παρόλα αυτά, η διαδικασία της εξόρυξης και η αποτελεσματικότητά της στην πρόβλεψη δεν έχει αξιοποιηθεί επαρκώς και γίνονται προσπάθειες για την εξαγωγή συναισθήματος από κριτικές και την μετατροπή αυτού σε χρήσιμη πληροφορία για τους άλλους χρήστες και στην δημιουργία ακριβέστερων προτάσεων προϊόντων. Τα προβλήματα που προάγουν την ανάπτυξη αυτού του κλάδου είναι αρχικά το κόστος διεξαγωγής δημοσκοπήσεων μέσω της κλασσικής μεθόδου των τηλεφωνημάτων. Ακόμη, η ύπαρξη κριτικών από πολλούς χρήστες για κάποιο προϊόν μπορεί να κουράσει κάποιον αναγνώστη καθώς αναζητά χρήσιμες πληροφορίες σε ένα τεράστιο πλήθων κριτικών. Συνεπώς, η εύρεση μια μεθόδου μετατροπής των κριτικών σε μια μετρική καλής κακής κριτικής είναι πιο προσιτή και στοχευμένη στην κατανόηση της ποιότητας κάποιας υπηρεσίας προϊόντος. Στην μελέτη μας θα προσπαθήσουμε να εκτελέσουμε πειράματα με το σκεπτικό να μετατρέψουμε το συναίσθημα μιας κριτικής σε μια μετρήσιμη ποσότητα για την διευκόλυνση των χρηστών. Αυτό θα το προσπαθήσουμε κατασκευάζοντας μοντέλα πρόβλεψης των βαθμολογιών των χρηστών του Yelp μέσω της αντίστοιχης κριτικής τους. Με αυτό τον τρόπο θα δείξουμε αν μπορεί να υποβοηθηθεί η βαθμολογία από την κριτική ή και να προβλεφθεί εξ ολοκλήρου χωρίς να χρειάζεται να την θέσει ο χρήστης χειροκίνητα.

3 I. Βασικές Αρχές Δύο πολύ σημαντικές μετρικές για τον υπολογισμό της ικανότητας της βαθμολογικής πρόβλεψης είναι η ακρίβεια (Precision) και η ανάκληση (Recall). Η ανάκληση μετρά το ποσοστό των σχετικών εγγράφων που το σύστημα μπορεί να ανακτήσει σε σχέση με όλα τα σχετικά έγγραφα που υπάρχουν στη συλλογή. Η ακρίβεια μετρά το ποσοστό των εγγράφων που είναι σχετικά μεταξύ αυτών που έχουν ανακτηθεί. Η ακρίβεια και η ανάκληση υπολογίζονται από τους παρακάτω τύπους αντίστοιχα: Precision = tp fp + tp, Recall = tp tp + fn όπου tp, fp, fn είναι ο αριθμός των σωστών θετικών, των λανθασμένων θετικών και των λανθασμένων αρνητικών ψήφων αντίστοιχα. Για να καθοριστεί η ορθότητα της πρόβλεψης, συγκρίνεται η πρόβλεψη της βαθμολογίας με τα μεταδεδομένα που παράγει το σύστημα της βαθμολόγησης. Μια ακόμη μετρική που χρησιμοποιήθηκε ήταν το μέσο τετραγωνικό σφάλμα (MSE), η οποία δίνει το συνολικό σφάλμα των μοντέλων πρόβλεψης σε κάποιο σύνολο δεδομένων. Ένα επιπρόσθετο μέτρο αξιολόγησης αποτελεί ο χρόνος εκτέλεσης της πρόβλεψης (runtime of the predictor), η οποία είναι ιδιαίτερα σημαντική σε περιπτώσεις όπου υπάρχει μεγάλος όγκος δεδομένων. II. Αλγόριθμοι & Τεχνικές Οι μεθοδολογίες, οι οποίες μελετήθηκαν, έχουν πολλά κοινά σημεία αλλά κάθε μία έχει κάτι το διαφορετικό να προσφέρει στην καλύτερη κατανόηση και προσέγγιση του θέματος. Η πρώτη προσέγγιση [1] ασχολείται με την βελτίωση της κριτικής σε εστιατόρια με βάση την κριτική των πελατών. Συγκεκριμένα, προτάθηκαν μέθοδοι χαρακτηρισμού ενός εστιατορίου ως καλού/κακού σχετικά με το φαγητό, το περιβάλλον, τις τιμές και της εξυπηρέτησης ξεχωριστά. Με αυτό τον τρόπο επιδιώκεται η βελτίωση της ακρίβειας στην πρόταση του καλύτερου εστιατορίου ανάλογα με τις προτιμήσεις του πελάτη. Το σύνολο δεδομένων, στο οποίο έγιναν τα πειράματα, προέρχεται από κριτικές εστιατορίων. Οι κριτικές αυτές προέρχονται από κριτικούς εστιατορίων και από πελάτες. Ένα μικρό ελάττωμα του συνόλου δεδομένων είναι πώς είναι αραιό, καθώς τα εστιατόρια έχουν λίγες κριτικές το καθένα και κάθε πελάτης/κριτικός έχει αξιολογήσει λίγα εστιατόρια. Η μεθοδολογία που ακολουθήθηκε ήταν: a) Ανάλυση των δεδομένων για την ανάδειξη κατηγοριών( Food, Service, Price, Ambience, Anecdotes και Miscellaneous) σχετικές με εστιατόρια στις οποίες θα ανατεθούν προτάσεις από τις κριτικές. Ακόμη δημιουργήθηκαν και οι κατηγορίες συναισθήματος της κάθε πρότασης (Positive, Negative, Neutral και Conflict).

4 b) Χειροκίνητη επισήμανση προτάσεων ως προς τις παραπάνω κατηγορίες. c) Εκπαίδευση και εκτέλεση πειραμάτων σε SVM (Support Vector Machines) ταξινομητές στα εν λόγω δεδομένα ( ταξινομητής ανάλογα με την κατηγορία και ταξινομητής ανάλογα με τις κατηγορίες συναισθήματος ). Τα χαρακτηριστικά κάθε ταξινομητή ήταν οι «ρίζες» των λέξεων (stemmed words) d) Για την εκτίμηση των αποτελεσμάτων χρησιμοποιήθηκε 7-fold cross validation και οι μετρικές accuracy, precision και recall. Τα παραπάνω είχαν καλά αποτελέσματα συνεπώς η δημιουργία μοντέλων πρόβλεψης με βάση το συναίσθημα είναι εφικτή και πιθανόν αποδοτική. Με σκοπό την εκμετάλλευση του εξαγόμενου συναισθήματος από τις κριτικές κατασκευάστηκε ένας τύπος για την μετατροπή της πληροφορίας αυτής σε βαθμολογία κριτικής, η οποία είναι εύκολα συγκρίσιμη με την βαθμολογία αστεριών. Ο τύπος αυτός είναι ο εξής : TextRating = [ P 4] + 1, (1) P+N όπου P ο αριθμός προτάσεων με θετικό συναίσθημα στην κριτική και N είναι ο αριθμός των προτάσεων με αρνητικό συναίσθημα, αντίστοιχα. Η βαθμολόγηση αυτή συγκεντρώνει το συνολικό συναίσθημα των προτάσεων και της όλης κριτικής. Με βάση αυτή την μετρική, δοκιμάστηκαν 3 μέθοδοι πρόβλεψης τις αξιολόγησης σε αστέρια. Η πρώτη μέθοδος, υπολογίζει την βαθμολογία ενός εστιατορίου ως τον μέσο όρο όλων των άλλων κριτικών για το εν λόγω εστιατόριο. Η επόμενη μέθοδος, χρησιμοποιεί κάποια μεταδεδομένα για τον υπολογισμό αυτό. Συγκεκριμένα, η βαθμολογία ενός εστιατορίου υπολογίζεται ως ο μέσος όρος όλων των εστιατορίων με την ίδια τιμή στο πεδίο Cuisine. Στην τρίτη μέθοδο, υπολογίζεται και πάλι ο μέσος όρος των βαθμολογιών ανάλογα με την επιλεγμένη κατηγορία (Food, Price, κτλ.). Κατόπιν, γίνονται πειράματα και σε μοντέλα παρεμβολής και συγκεκριμένα με την συνάρτηση mvregress του Matlab. Τα δεδομένα εισόδου είναι (category, sentiment) και ως εξαρτημένη μεταβλητή έχουμε την βαθμολογία αστεριών. Χρησιμοποιώντας τα βάρη που εξάγει η συνάρτηση υπολογίζουμε τις βαθμολογίες αστεριών αλλά μπορεί να βρεθούν εκτός ορίων. Μια άλλη τακτική που μελετήσαμε αφορούσε την εξαγωγή συναισθήματος σε δεδομένα με χρονικό χαρακτηρισμό και η πρόβλεψη με βάσει αυτών αποτελεσμάτων εκλογών ή της εκτίμησης του συναισθήματος των πολιτών σχετικά με το επίπεδο ζωής ή την εύρεση εργασίας [2]. Τα δεδομένα της συγκεκριμένης έρευνας προήλθαν από το Twitter μέσω της χρήσης του Twitter API και συλλέχθηκαν δεδομένα σε ημερήσια βάση για 3 χρόνια. Τα βήματα για την ανάλυση των κειμένων τα οποία απαρτίζουν το σύνολο δεδομένων μας είναι : 1. Ανάκτηση των μηνυμάτων τα οποία είναι συναφή με το θέμα της έρευνας. 2. Εκτίμηση της γνώμης του κοινού, δηλαδή ο καθορισμός αν τα μηνύματα εκφράζουν θετικές ή αρνητικές απόψεις σχετικά με το θέμα.

5 Κατά την εκτίμηση της γνώμης του κοινού, έγινε συλλογή κειμένων σε ημερήσια βάση και η βαθμολογία καθενός εξαρτήθηκε από τις λέξεις που περιέχει και το συναίσθημα αυτών,θετικό ή αρνητικό, Η βαθμολόγηση αυτή γίνεται με βάση κάποιο λεξικό με βαθμονομημένες λέξεις ανάλογα με το συναίσθημα που εκφράζουν. Υπάρχουν πολλά λεξικά τέτοιου είδους όπως το SentiWord και το OpinionFinder. Κάθε μήνυμα επισημαίνεται ως θετικό ή αρνητικό ένα περιέχει κάποια θετική λέξη και αρνητικό αν περιέχει κάποιο αρνητική. Συνεπώς, υπάρχουν μηνύματα τα οποία είναι και θετικά και αρνητικά ταυτόχρονα. Η βαθμολογία συναισθήματος της κάθε μέρας δίνεται από τον τύπο: x t = t(#θετικών λέξεων ανα θέμα) t(#αρνητικών λέξεων ανα θέμα) Ο τύπος αυτός εκφράζει αναλογία θετικών μηνυμάτων σε αντίθεση με τα αρνητικά σχετικά με κάποιο θέμα σε μια δεδομένη ημέρα. Η τεχνική αυτή παρατηρήθηκε πως παράγει ασταθή αποτελέσματα και για να εξαχθεί μια πιο ομαλή τάση χρησιμοποιήθηκε μια μέθοδος εξομάλυνσης, η οποία λαμβάνει υπόψιν της και τις k προηγούμενες ημέρες. Ο τύπος της μεθόδου είναι: MA t = 1 k (x t k+1 + x t k x t ) Με βάση τον παραπάνω τύπο μπορούμε να προβλέψουμε την βαθμολογία συναισθήματος μιας μέρας με βάση τις προηγούμενες k μέρες. Μια επόμενη προσέγγιση βασίστηκε στον αλγόριθμο μάθησης Perceptron. Στη μηχανική μάθηση, ο αλγόριθμος μάθησης perceptron χρησιμοποιείται για την εποπτευόμενη μάθηση (supervised learning) των δυαδικών κατηγοριοποιητών (binary classifiers), συναρτήσεων δηλαδή που μπορούν να αποφασίζουν αν μία είσοδος (διάνυσμα ή αριθμός) ανήκουν στην μία ή στην άλλη κατηγορία. Με άλλα λόγια, αποτελεί ένα είδος γραμμικού ταξινομητή, δηλαδή αλγόριθμος ταξινόμησης που κάνει προβλέψεις οι οποίες βασίζονται σε μια συνάρτηση γραμμικής πρόβλεψης, συνδυάζοντας ένα σύνολο βαρών με τα χαρακτηριστικά του διανύσματος. Στην περίπτωση εξόρυξης δεδομένων που έχουν να κάνουν με τα συναισθήματα, χρησιμοποιείται ο αλγόριθμος μάθησης perceptron για να προβλεφθεί το συναίσθημα του χρήστη που γράφει την κριτική. Κάθε κριτική δεν θεωρείται ένα κείμενο συνολικό αλλά ένα σύνολο από προτάσεις κάθε μία από τις οποίες έχει το δικό της συναισθηματικό επίπεδο. Με αυτή την προσέγγιση, μετατίθεται το πρόβλημα στην συναισθηματική ανάλυση σε μία πρόταση αντί για ολόκληρο το κείμενο. Η υπόθεση ορίζεται από την παρακάτω εξίσωση: και η g είναι η οριακή συνάρτηση: h θ (x)= g(θ Τ x)

6 1, x 0 g(z)= 0, x<0 Κάθε πρόταση προβλέπεται να είναι θετική αν η υπόθεση ισούται με 1 ή αρνητική αν η υπόθεση προκύψει ίση με 0. Έπειτα υπολογίζεται η βαθμολογία από τη συνολική κριτική, η οποία βασίζεται στον αριθμό των «θετικών» και «αρνητικών» προτάσεων του κειμένου και υπολογίζεται από τον τύπο (1). Ακόμη, δοκιμάστηκε και ο αλγόριθμος Naïve Bayes με την δημιουργία του λεξιλογίου με κατακερματισμό του συνόλου των δεδομένων με αφαίρεση άρθρων και συνδετικών λέξεων και αναγωγή όλων των λέξεων στις ρίζες τους. Χρησιμοποιείται επίσης εξομάλυνση Laplace για την αποφυγή υπερμοντελοποίησης στα δεδομένα εκπαίδευσης. Η αναπαράσταση κάθε κριτικής είναι ένα διάνυσμα με χαρακτηριστικά τις λέξεις του λεξιλογίου και τιμές αν υπάρχει ή όχι η κάθε λέξη στην εν λόγω κριτική. Η μετατροπή αυτή ονομάζεται Binarized Bayes. Ταξινόμηση κειμένου Καθώς οι κριτικές των χρηστών είναι σε ελεύθερο κείμενο, θα πρέπει να χρησιμοποιήσουμε πηγές που πηγάζουν από τον κλάδο της επεξεργασίας φυσικής γλώσσας. Πολυάριθμες πηγές στο διαδίκτυο (άρθρα, έρευνες κ.α) αναφέρουν συγκεκριμένα βήματα για το πως πρέπει να γίνει η επεξεργασία αυτή. Έτσι προκύπτει άρρητη ανάγκη να μελετηθούν συγκεκριμένες τεχνικές για την ανάλυση κριτικών των χρηστών. Μία τέτοια τεχνική είναι η ταξινόμηση κειμένου. Με τον όρο ταξινόμηση κειμένου αναφερόμαστε στην προσπάθεια που γίνεται από ειδικούς κάποιου τομέα αλλά και από αυτοματοποιημένα συστήματα να κατατάξουν τα κείμενα με βάση το περιεχόμενό τους. Συνήθως αυτή η τεχνική χρησιμοποιείται σε ολόκληρα έγγραφα όπου μέσω ενός μοντέλου πρόβλεψης δίνονται κάποιες ετικέτες αυτά ή σε επίπεδο πρότασης. Πολύ συχνά σε επίπεδο πρότασης συναντάμε την ταξινόμηση ερώτησης (question classification) όπου σχετίζεται άμεσα με την ταξινόμηση κειμένου πρότασης. Εφόσον οι κριτικές αποτελούν προτάσεις, η ανάλυσή μας θα συνεχιστεί με την παρουσίαση τεχνικών που έχουν χρησιμοποιηθεί περισσότερο στην ταξινόμηση ερωτήσεων. Οι Abraham Ittycheriach et αl [7] ταξινομούν τις ερωτήσεις με βάση τις κατηγορίες MUC (Chinchor 1997) καθώς καιδύο που εφάρμοσαν οι ίδιοι. Η κατηγορία PHRASE απαιτεί η ερώτηση να έχει μία φράση με βάση κάποιο ουσιαστικό καιη κατηγορία REASON συλλαμβάνει όλες τις ερωτήσεις που αναντούν στο γιατί. Στο δικό τους σύστημα συμπαίραναν ότι η εύρεση καλύτερης ταξινόμησης των ερωτήσεων δεν θα είχε κάποια βελτίωση στα τελικά αποτελέσματα.

7 Οι David Buscaldi et al [8] στο δικό τους σύστημα ερωταπαντήσεων, για να ταξινομήσουν τις ερωτήσεις δημιούργησαν ένα σύνολο κανόνων που ταύτιζαν την ερώτηση με ιεραρχική δομή και χρησιμοποιούσαν κανονικές εκφράσεις για να αποδείξουν αν η ερώτηση ικανοποιεί μία συγκεκριμένη δομή ή όχι. Έχοντας ορίσει κάποιες κατηγορίες γενικές όπως QUANTITY, OTHER κ.α καθώς και υποκατηγορίες αυτών κατάφεραν σε ισπανικό σύνολο κειμένων του CLEF να επιτύχουν ποσοστό 92,25%. Ένα σχετικά παλιό σύστημα με όνομα FASTUS [9] πήρε μέρος σε διαγωνισμό συστημάτων που κατανοούν κείμενα και αξιολογήθηκε από την MUC-4 αξιολόγηση. Η μέθοδος που ακολουθήθηκε ήταν να βαθμολογηθεί η ικανότητα ενός συστήματος να δομήσει τις περιλήψεις κειμένων που σχετίζονταν με την τρομοκρατία. Για τον λόγο αυτό χρησιμοποίησαν πεπερασμένα αυτόματα ώστε να αναγνωρίζουν συγκεκριμένα

8 μοτίβα στις προτάσεις των περιλήψεων. Συνοψίζοντας, όλες οι τεχνικές που αναφέρθηκαν παραπάνω χρησιμοποιούν στα συστήματά τους την ταξινόμηση ερωτήσεων. Με αυτόν τον τρόπο είναι εφικτή η οργάνωση και δόμηση της ερώτησης σε μορφή ημιδομημένη, η οποία είναι πιο κοντά στο χώρο της πληροφορικής. Ανάκτηση πληροφορίας Όπως προαναφέρθηκε οι κριτικές αποτελούν γνώμες ανθρώπων και είναι εκφρασμένες σε ελεύθερο κείμενο. Για να χειριστούμε τέτοιου είδους κείμενα ώστε να εξάγουμε σημαντική πληροφορία δεν μπορούμε να αρκεστούμε μόνο στο περιεχόμενό τους. Θα πρέπει να υπάρχει κάποια μέθοδος ανάκτησης πληροφορίας που θα εμπλουτίζει αυτές τις απλές κριτικές σε πλούσια κείμενα. Για παράδειγμα δεν μπορούμε να ισχυριστούμε ότι μία κριτική είναι θετική χωρίς να υπάρχει γνώση για το ποιες έννοιες είναι αυτές που έχουν θετική χροιά και ποιες όχι. Επίσης θα ήταν σημαντικό να ταυτοποιήσουμε δύο κριτικές που μοιάζουν αρκετά. Ποιες όμως είναι αυτές οι κριτικές; Στο ερώτημα αυτό απαντάει η ανάκτηση πληροφορίας καθώς αναζητάει κείμενα σχετικά με κάποιο ερώτημα. Μετατροπή ερώτησης-πρότασης σε ερώτημα Έχουν προταθεί αρκετές τεχνικές για το πως μπορεί να γίνει μετατροπή πρότασης σε ερώτημα ώστε να αναζητηθεί αυτό σε μία τοπική η απομακρυσμένη βάση δεδομένων. Κάποιες από αυτές είναι οι ακόλουθες. Οι Susn Dumais et al [10] για να προσεγγίσουν το θέμα της μετατροπής της ερώτησης σε ερώτημα δοσμένης μιας ερώτησης, το σύστημά τους παρήγαγε έναν αριθμό από συμβολοσειρές που είναι υπο-συμβολοσειρές της ερώτησης. Για παράδειγμα Where is the Louvre Museum located? The Louvre Museum + is located The Louvre Museum + is + in Με αυτόν τον τρόπο ρωτάει το σύστημα μία μηχανή αναζήτησης και επιστρέφονται σχετικές παράγραφοι. Οι Vankata Siva Rama Sastry k et al [11] μετέτρεψαν ερωτήσεις με συγκεκριμένη δομή, π.χ what VBP NP VP what VP NP VP

9 σε ερωτήματα στην προσπάθειά τους να χειριστούν ερώτησεις στην αγγλική γλώσσα. Οι Dirk Weissenborn et. Al [12] αλλά και οι Yannis Papanikolaou et al [13] χρησιμοποίησαν συγκεκριμένες εκφράσεις ( LAT και FOCUS) ώστε να μετατρέψουν τις ερωτήσεις σε ερωτήματα. Τέλος, είναι σημαντικό να κατανοηθεί ότι οι κριτικές που έχουμε στη διάθεσή μας από χρήστες θα πρέπει να μετατραπούν σε ερωτήματα ώστε να ανακτηθούν σχετικές κριτικές και πληροφορίες γι' αυτές. Αξιολόγηση επιστρεφόμενης πληροφορίας Λογικό επακόλουθο μετά την ανάκτηση όγκου πληροφορίας, είναι η αξιολόγηση για το ποια πληροφορία είναι πιο σχετική με τη δική μας κριτική-πρόταση-ερώτηση. Για την αξιολόγηση αυτή έχουν προταθεί μετρικές που βαθμολογούν την ανακτόμενη πληροφορία. Οι Susan Dumais et al [10] έπειτα από μελέτες παρατήρησαν ότι οι 100 πιο σχετικές παράγραφοι σχετίζονται περισσότερο με τις ερωτήσεις που έδιναν στο σύστημά τους. Για να αξιολογήσουν τις παραγράφους, το σύστημά τους μετέτρεπε την ερώτηση και τις παραγράφους σε n-grams και εφάρμοζαν κάποια μετρική ταύτισης των δύο ακολουθιών n-grams. Οι Dirk Weissenborn et al [12] χρησιμοποίησαν την μηχανή αναζήτησης GoPubMed και αξιολόγησαν τα ανακτούμενα αποτελέσματα με βάση την βαθμολόγηση που έκανα η μηχανή αναζήτησης. Τέλος, συστήματα που δρουν σε κλειστές περιοχές (close domain) εκμεταλλεύονται πληροφορία που βρίσκεται συσσωρευμένη σε οντολογίες [14]. Έτσι είναι σε θέση να συγκρίνουν δύο κείμενα μεταξύ τους με την ταυτοποίηση των όρων τους. Μία μετρική που χρησιμοποιείται είναι η εξής: ts(c1, c2) = 2*common(C1,C2) / (depth(c1) + depth(c2)) όπου η common(c1,c2) δηλώνει τον αριθμό των κοινών μονοπατιών μεταξύ των όρων C1,C2 και depth(ci) το βάθος από την ρίζα της οντολογίας μέχρι τον όρο Ci. Καταλήγοντας πρέπει να τονιστεί ότι η ύπαρξη ενός καλού μηχανισμού αξιολόγησης των επιστρεφόμενων αποτελεσμάτων έχει σημαντική επίδραση στο τελικό παραγόμενο σύστημα. III. Πειραματικά Αποτελέσματα Με βάση τα άρθρα που μελετήσαμε, συγκεντρώσαμε κάποια ενδεικτικά αποτελέσματά για τα τρία μοντέλα που εξετάσαμε: το μοντέλο της εξαγωγής λέξεωνκλειδιών, το μοντέλο της πρόβλεψης της βαθμολογίας και το μοντέλο της ανάλυσης του κειμένου Όσον αναφορά το μοντέλο εξαγωγής λέξεων κλειδιών, προκύπτει από έρευνες [4] ότι η μέθοδος ExpandRank δίνει καλύτερα αποτελέσματα συγκριτικά με την TF-IDF και οι φράσεις κλειδιά είναι πιο σχετικές στην πρώτη περίπτωση. Παρακάτω δίνεται ένα διάγραμμα που αποτυπώνει παραστατικά τα αποτελέσματα που προέκυψαν από την εφαρμογή των δύο μεθόδων στα δεδομένα μίας επιχείρησης.

10 Στα προβλήματα της πρόβλεψης της βαθμολογίας από την κριτική του χρήστη της βαθμολογίας, στο άρθρο [3] συγκρίνονται τα αποτελέσματα των αλγορίθμων που χρησιμοποιήθηκαν. Μια σύγκριση της ακρίβειας και της ανάκλησης για το ίδιο σύνολο δεδομένων εκπαίδευσης, χρησιμοποιώντας διαφορετικούς αλγόριθμους μάθησης φαίνεται στο παρακάτω σχήμα. Οι αλγόριθμοι Multi-class SVM και Nearest Neighbor έχουν και οι δύο χαμηλή ακρίβεια και ανάκληση. Ο Perceptron έχει την υψηλότερη ακρίβεια και ανάκληση για τις βαθμολογίες του 1 ου και 5 ου αστεριού, αλλά οι προβλέψεις δεν είναι ικανοποιητικές για τις βαθμολογίες του 2 ου, 3 ου και 4 ου αστεριού. Ο αλγόριθμος που έχει την καλύτερη συνολική απόδοση είναι ο Binarized Naive Bayes, αλλά η περαιτέρω ανάλυση των σφαλμάτων εκτελώντας τον αλγόριθμο σε διαφορετικά δείγματα δείχνει ότι διαθέτει το πρόβλημα της υψηλής διακύμανσης. Τέλος, στην περίπτωση της ανάλυσης κειμένου από την εφαρμογή της εκπαίδευσης και εκτέλεσης πειραμάτων σε SVM (Support Vector Machines) ταξινομητές [1] παρατηρείται ότι η ακρίβεια και η ανάκληση για τις κριτικές που είχαν θετική χροιά ήταν σχετικά υψηλές, ενώ ήταν χαμηλότερες σε ουδέτερες, αντιφατικές και ανάμικτες κριτικές. Αυτό το χαμηλό ποσοστό ενδεχομένως να προέρχεται από τη διφορούμενη

11 φύση των κατηγοριών αυτών ή από το μικρό ποσό των δεδομένων γι αυτές τις κατηγορίες. IV. Συμπεράσματα Επεκτάσεις Με βάση την παραπάνω έρευνά μας καταλήξαμε σε κάποια συμπεράσματα για τις τεχνικές που χρησιμοποιήθηκαν και αναπτύχθηκαν στα εν λόγω άρθρα. Εν πρώτης, μπορούμε να πούμε με ασφάλεια πως η αφαίρεση άρθρων και λέξεων, οι οποίες δεν έχουν συνεισφορά στο συναίσθημα του κειμένου μπορούν να παραλειφθούν. Κατόπιν, μπορούμε να ανάγουμε τις λέξεις στις αντίστοιχες ρίζες τους (μέσω stemming τεχνικών) μειώνοντας έτσι την πολυπλοκότητα του προβλήματος και δίνοντας βάρος στο νόημα των λέξεων και όχι στο πλήθος τους. Βασιζόμενοι στις 2 αυτές τροποποιήσεις του αρχικού συνόλου δεδομένων παρατηρούμε σημαντική αύξηση στην ακρίβεια και στην ανάκληση των δεδομένων. Ακόμη, σημαντική είναι η επιλογή του κατάλληλου λεξικού για την βαθμολόγηση των λέξεων με βάση το συναίσθημα που εκφράζουν. Υπάρχει πληθώρα από επιλογές λεξικών για τέτοιου είδους εφαρμογές αλλά οι καλύτερες πρακτικές είναι: επιλογή λεξικού με βάση την κατηγορία της εφαρμογής (κριτική εστιατορίων, διάθεση ψήφου κτλ.) ή κατασκευή ενός λεξικού από το σύνολο εκπαίδευσης που διατίθεται με σκοπό την καλύτερη απόδοση των μοντέλων πρόβλεψης Καμία από τις παραπάνω λύσεις δεν αποτελεί πανάκεια αλλά είναι οι τεχνικές που φαίνεται να αποδίδουν καλύτερα. Η πρώτη έχει τα πλεονεκτήματα της μη αναγκαίας σάρωσης του συνόλου εκπαίδευσης και της σύστασης από επίθετα με «συναισθηματική» βαθμονόμηση. Το μειονέκτημα είναι η πιθανότητα να συμπεριληφθούν άσχετα με το αντικείμενο χαρακτηριστικά. Αυτό το μειονέκτημα προσπαθεί να καταπολεμήσει η δεύτερη λύση αλλά με αυτή την τεχνική συμπεριλαμβάνονται λέξεις με ορθογραφικά λάθη ως σωστές και επηρεάζουν την απόδοση του μοντέλου. Μια πρόταση είναι η εύρεση/κατασκευή ενός λεξικού από δεδομένα κοινωνικών δικτύων για την συμπερίληψη νέων αρκτικόλεξων και emoticons στον υπολογισμό συναισθήματος. Από την πλευρά των μοντέλων πρόβλεψης καλύτερο φαίνεται να είναι τα Bayesian συστήματα με κάποιες βελτιώσεις (πχ χαρακτηριστικά με δυαδικές τιμές για ύπαρξη/απώλεια εμφάνισης μιας λέξης στην εν λόγω κριτική).αλλά και τα υπόλοιπα μοντέλα λειτουργούν καλά. Αλλά μια πιθανή βελτίωση είναι η συνεχής ενημέρωση του μοντέλου πρόβλεψης με κάποιο αλγόριθμο ενεργής μάθησης (Active Learning). Η δυσκολία όμως σε αυτές τις υλοποιήσεις έγκεινται στο γεγονός πως δεν είναι εύκολο να διαχωριστούν οι κριτικές 4 αστεριών και από αυτές των 5 αστεριών καθώς είναι πολύ κοντά σημασιολογικά. Συνεπώς, ορθό θα ήταν η δημιουργία 2 κλάσεων συναισθήματος, καλής και κακής κριτικής. Στην περίπτωση χρονικών δεδομένων και πρόβλεψης μέσω ανάλυσης συναισθήματος φαίνεται να μην υπάρχει η δυνατότητα αυτόνομης λειτουργίας κάποιου συστήματος βασιζόμενου εξ ολοκλήρου σε αυτή την τεχνική. Η πιο

12 αποδοτική λύση είναι ο συνδυασμός των παραδοσιακών δημοσκοπήσεων με αυτές τις τεχνικές για την αξιοποίηση των δεδομένων από τα κοινωνικά δίκτυα. V. ΥΛΟΠΟΙΗΣΗ Η υλοποίησή μας θα είναι ένα υβριδικό σύστημα το οποίο θα προβλέπει μέσω ενός μοντέλου πρόβλεψης την βαθμολόγηση μίας κριτικής και έπειτα θα υπάρχει ενίσχυση αυτού του μοντέλου με τεχνικές ανάλυσης κειμένου που αναφέρθηκαν παραπάνω. Με αυτόν τον τρόπο εκμεταλλευόμαστε την ισχυρή θέση της στατιστικής καθώς επίσης τις διάφορες τεχνικές που έχουν ανακαλύψει για την επεξεργασία φυσικής γλώσσας. VI. ΒΙΒΛΙΟΓΡΑΦΙΑ [1] Ganu, G.; Elhadad, N. & Marian, A. (2009), Beyond the Stars: Improving Rating Predictions using Review Text Content., in 'WebDB' [2] O Connor B., R. Balasubramanyan, B. R. Routledge, and N. A. Smith, From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series, In Proceedings of International Conference on Weblogs and Social Media (ICWSM 10), [3] Yun Xu, Xinhui Wu, Qinxia Wang, Sentiment Analysis of Yelp's Ratings Based on Text Reviews, 2014 [4] Bechon P.; Grimaldi L. and Merouchi Y., Improving on Yelp Reviews Using NLP and Bayesian Scoring. Report on a project done within Andrew Ng's CS229 Machine Learning class at Stanford [5] J. Jong, "Predicting Rating with Sentiment Analysis," pp. 1-5, [Online]. Available: [6] Basiri, Mohammad Ehsan, Nasser Ghasem-Aghaee, and Ahmad Reza Naghsh-Nilchi. "Exploiting reviewers comment histories for sentiment analysis." Journal of Information Science 40.3 (2014): [7] Abraham Ittycheriach, Martin Franz, Wei-Jing Zhu, Adwait Ratnaparkhi: IBM's Statistical Qustion Answering System (TREC 2000) [8] Davide Buscaldi, Paolo Rosso, Jose Manuel Gomez-Soriano, Emillio Sanchis: Answering question with an n-gram based passage retrieval engine (2009) [9] Douglas E. Appelt, Jerry R. Hobbs, John Bear, David Israel and Mabry Tyson: A Finite-state Processor for Information Extraction from Real-world Text (1993) [10] Susan Dumais, Michele Banko, Eric Brill, Jimmy Lin, Andew Ng: Web Question Answering: is More Always Better? (2002) [11] Vankata Siva Rama Sastry K, Salil Badodekar, and Pushpak Bhattacharyya: Question-to-Query Conversion in the Context of a Meaning-based, Multilingual Searh Engine [12] Dirk Weissenborn, George Tsatsaronis, and Michael Schroeder: Answering Factoid Questions in the Biomedical Domain [13] Yannis Papanikolaou, Dimitris Dimitriadis, Grigoris Tsoumakas, Manos Laliotis, Nikos Markantonatos, and Ioannis Vlahavas: Ensembe Approaches for Large-Scale Multi-Label Classification and Question Answering in Biomedicine (2014) [14] Irena Spasic, Sophia Ananiadou, Jogn McNaught and Anand Kumar: Text mining and ontologies in biomedicine: Making sense of raw text (2005)

Πανεπιστήμιο Κρήτης Σχολή Θετικών Επιστημών Τμήμα Επιστήμης Υπολογιστών

Πανεπιστήμιο Κρήτης Σχολή Θετικών Επιστημών Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης Σχολή Θετικών Επιστημών Τμήμα Επιστήμης Υπολογιστών Χρήση αυτόνομων οντοτήτων λογισμικού στη διαχείριση πόρων ενός συστήματος επείγουσας προνοσοκομειακής ιατρικής Ζαμπούλης Ξενοφών

Διαβάστε περισσότερα

Επαγωγικές Μηχανές Διανυσμάτων Στήριξης και εφαρμογή σε προβλήματα ταξινόμησης

Επαγωγικές Μηχανές Διανυσμάτων Στήριξης και εφαρμογή σε προβλήματα ταξινόμησης ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Επαγωγικές Μηχανές Διανυσμάτων Στήριξης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ-ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ-ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ-ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Μεταπτυχιακό πρόγραμμα Τμήμα: Τεχνολογίες Διαχείρισης Πληροφορίας και Παγκόσμιου Ιστού Κατηγοριοποίηση

Διαβάστε περισσότερα

Αυτόματη Ομαδοποίηση Κινητών Χρηστών Βάσει Πληροφορίας Θέσης

Αυτόματη Ομαδοποίηση Κινητών Χρηστών Βάσει Πληροφορίας Θέσης ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Αυτόματη Ομαδοποίηση Κινητών Χρηστών Βάσει

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΜΕ ΕΞΑΓΩΓΗ ΚΑΝΟΝΩΝ ΣΕ ΚΑΡΔΙΑΓΓΕΙΑΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ

ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΜΕ ΕΞΑΓΩΓΗ ΚΑΝΟΝΩΝ ΣΕ ΚΑΡΔΙΑΓΓΕΙΑΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ 1 ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΜΕ ΕΞΑΓΩΓΗ ΚΑΝΟΝΩΝ ΣΕ ΚΑΡΔΙΑΓΓΕΙΑΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Μηνάς Καραολής Πανεπιστήμιο Κύπρου, 2010 Εκτιμήσεις του παγκόσμιου οργανισμού υγείας δείχνουν ότι οι καρδιακές παθήσεις είναι και

Διαβάστε περισσότερα

ΣΥΣΤΗΜΑ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΩΝ ΜΕ ΧΡΗΣΗ WEB CAMERA ΚΑΙ OPENCV

ΣΥΣΤΗΜΑ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΩΝ ΜΕ ΧΡΗΣΗ WEB CAMERA ΚΑΙ OPENCV ΣΕΡΡΕΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ 2013 ΣΥΣΤΗΜΑ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΩΝ ΜΕ ΧΡΗΣΗ WEB CAMERA ΚΑΙ OPENCV ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Κωνσταντίνος

Διαβάστε περισσότερα

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Ελαχιστοποίηση χαρακτηριστικών ταξινομητή για γονιδιακή σύνθεση ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ : 2008 2009 ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΣΥΜΠΕΡΙΦΟΡΑΣ ΠΕΛΑΤΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΚΑΤΑΣΤΗΜΑΤΩΝ

ΑΝΑΛΥΣΗ ΣΥΜΠΕΡΙΦΟΡΑΣ ΠΕΛΑΤΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΚΑΤΑΣΤΗΜΑΤΩΝ ΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΑΡΑΓΩΓΗΣ & ΔΙΟΙΚΗΣΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ: ΑΝΑΛΥΣΗ ΣΥΜΠΕΡΙΦΟΡΑΣ ΠΕΛΑΤΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΚΑΤΑΣΤΗΜΑΤΩΝ ΚΑΣΙΜΑΤΗΣ ΕΥΑΓΓΕΛΟΣ ΤΡΙΜΕΛΗΣ ΕΠΙΤΡΟΠΗ: ΜΑΤΣΑΤΣΙΝΗΣ ΝΙΚΟΛΑΟΣ ΓΡΗΓΟΡΟΥΔΗΣ

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Αυτόµατη Θεµατική Κατηγοριοποίηση και Σηµασιολογική ιεύρυνση Ερωτηµάτων

Διαβάστε περισσότερα

ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΜΕ ΓΕΝΕΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΙΚΗΣ ΟΡΑΣΗΣ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΙ ΙΚΕΥΣΗΣ.

ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΜΕ ΓΕΝΕΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΙΚΗΣ ΟΡΑΣΗΣ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΙ ΙΚΕΥΣΗΣ. ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΜΕ ΓΕΝΕΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΙΚΗΣ ΟΡΑΣΗΣ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΙ ΙΚΕΥΣΗΣ Υποβάλλεται στην ορισθείσα από την Γενική Συνέλευση Ειδικής Σύνθεσης του Τµήµατος

Διαβάστε περισσότερα

Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων

Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς

Διαβάστε περισσότερα

Προς μια Μεθοδολογία Καταγραφής και Ανάλυσης Επισκεψιμότητας Ιστοχώρων σε Εφαρμογές Διαδικτύου

Προς μια Μεθοδολογία Καταγραφής και Ανάλυσης Επισκεψιμότητας Ιστοχώρων σε Εφαρμογές Διαδικτύου Προς μια Μεθοδολογία Καταγραφής και Ανάλυσης Επισκεψιμότητας Ιστοχώρων σε Εφαρμογές Διαδικτύου Μια διατριβή που παρουσιάστηκε στο Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών του Πολυτεχνείου

Διαβάστε περισσότερα

Εισάγοντας την έννοια των Προσδοκώμενων Αποτελεσμάτων σε Συστήματα Διαχείρισης Γνώσης της Ηλεκτρονικής Μάθησης

Εισάγοντας την έννοια των Προσδοκώμενων Αποτελεσμάτων σε Συστήματα Διαχείρισης Γνώσης της Ηλεκτρονικής Μάθησης Εισάγοντας την έννοια των Προσδοκώμενων Αποτελεσμάτων σε Συστήματα Διαχείρισης Γνώσης της Ηλεκτρονικής Μάθησης Introducing Learning Outcomes in Knowledge Management Systems for e-learning Αικατερίνη Καλού,

Διαβάστε περισσότερα

Ανοικτό Πανεπιστήμιο Κύπρου

Ανοικτό Πανεπιστήμιο Κύπρου Ανοικτό Πανεπιστήμιο Κύπρου Σχολή Θετικών και Εφαρμοσμένων Επιστημών Μεταπτυχιακή Διατριβή στα Πληροφοριακά και Επικοινωνιακά Συστήματα Υλοποίηση διαδικτυακής εφαρμογής που θα προσφέρει αξιολογήσεις σε

Διαβάστε περισσότερα

Ποιοτικοί είκτες Υπηρεσιών Βιβλιοθηκών και ιαχείριση Πόρων: Μεθοδολογίες Ανάλυσης και στρατηγικός σχεδιασµός.

Ποιοτικοί είκτες Υπηρεσιών Βιβλιοθηκών και ιαχείριση Πόρων: Μεθοδολογίες Ανάλυσης και στρατηγικός σχεδιασµός. Ποιοτικοί είκτες Υπηρεσιών Βιβλιοθηκών και ιαχείριση Πόρων: Μεθοδολογίες Ανάλυσης και στρατηγικός σχεδιασµός. Αριστείδης Μελετίου Πολυτεχνείο Κρήτης, Πολυτεχνειούπολη, 73100 Χανιά, amlet@library.tuc.gr.

Διαβάστε περισσότερα

Θοδωρής Πιτικάρης, Ιωάννης Τσαγκατάκης, Μιχάλης Νικητάκης, Γιώργος Παπαδουράκης Α. Τ. Ε. Ι ΚΡΗΤΗΣ

Θοδωρής Πιτικάρης, Ιωάννης Τσαγκατάκης, Μιχάλης Νικητάκης, Γιώργος Παπαδουράκης Α. Τ. Ε. Ι ΚΡΗΤΗΣ 11ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΑΚΑΔΗΜΑΪΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ Θοδωρής Πιτικάρης, Ιωάννης Τσαγκατάκης, Μιχάλης Νικητάκης, Γιώργος Παπαδουράκης Α. Τ. Ε. Ι ΚΡΗΤΗΣ Theodoris Pitikaris, John Tsagatakis, Michael Nikitakis,

Διαβάστε περισσότερα

Οικονοµικό Πανεπιστήµιο Αθηνών

Οικονοµικό Πανεπιστήµιο Αθηνών Οικονοµικό Πανεπιστήµιο Αθηνών Τµήµα Πληροφορικής Πτυχιακή Εργασία Αυτόµατη κατασκευή παραδειγµάτων εκπαίδευσης για το χειρισµό ερωτήσεων ορισµού σε συστήµατα ερωταποκρίσεων που χρησιµοποιούν µηχανική

Διαβάστε περισσότερα

Ανοικτό Πανεπιστήμιο Κύπρου

Ανοικτό Πανεπιστήμιο Κύπρου Ανοικτό Πανεπιστήμιο Κύπρου Σχολή Θετικών και Εφαρμοσμένων Επιστημών Μεταπτυχιακή Διατριβή στα Πληροφοριακά και Επικοινωνιακά Συστήματα Εφαρμογή Υπαρχόντων Αλγορίθμων Συστάσεων, σε Εκπαιδευτικά Σύνολα

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΛΑΜΙΑΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΗΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΛΑΜΙΑΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΛΑΜΙΑΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΗΣ ΘΕΜΑ ΠΤΥΧΙΑΚΗΣ: Δημιουργία διαδραστικής ιστοσελίδας για το μάθημα της νανοηλεκτρονικής Υπεύθυνος : Δρ. Καναπίτσας

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΉΜΙΟ ΠΑΤΡΏΝ ΠΟΛΥΤΕΧΝΙΚΉ ΣΧΟΛΉ ΤΜΉΜΑ ΜΗΧΑΝΙΚΏΝ Η/Υ

ΠΑΝΕΠΙΣΤΉΜΙΟ ΠΑΤΡΏΝ ΠΟΛΥΤΕΧΝΙΚΉ ΣΧΟΛΉ ΤΜΉΜΑ ΜΗΧΑΝΙΚΏΝ Η/Υ ΠΑΝΕΠΙΣΤΉΜΙΟ ΠΑΤΡΏΝ ΠΟΛΥΤΕΧΝΙΚΉ ΣΧΟΛΉ ΤΜΉΜΑ ΜΗΧΑΝΙΚΏΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΉΣ ΔΙΠΛΩΜΑΤΙΚΉ ΕΡΓΑΣΊΑ ΑΞΙΟΠΟΊΗΣΗ ΠΛΑΤΦΌΡΜΑΣ ΔΙΑΧΕΊΡΙΣΗΣ ΠΕΡΙΕΧΟΜΈΝΟΥ ΑΝΟΙΧΤΟΎ ΚΏΔΙΚΑ ΓΙΑ ΤΟ. Μπουρέλος Παναγιώτης AM 3446 Υπεύθυνος

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς

Πανεπιστήμιο Πειραιώς Πανεπιστήμιο Πειραιώς Τμήμα Ψηφιακών Συστημάτων ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «Διδακτικής της Τεχνολογίας & Ψηφιακών Συστημάτων» ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ : «Πλαίσιο Ελέγχου Λογισμικού» Γεωργία

Διαβάστε περισσότερα

ΠΡΟΤΑΣΗ ΕΚΠΟΝΗΣΗΣ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ

ΠΡΟΤΑΣΗ ΕΚΠΟΝΗΣΗΣ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ ΠΡΟΤΑΣΗ ΕΚΠΟΝΗΣΗΣ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ Ανάπτυξη Μεθοδολογίας για την Ακριβή Εκτίμηση και Πρόβλεψη των Αλλαγών Χρήσεων Γης σε Αστικό και Περιαστικό Περιβάλλον Χρησιμοποιώντας Κυψελοειδή Αυτόματα Εφαρμογή

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ (MSc) στα ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ (MSc) στα ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑ ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ (MSc) στα ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑ «Κατάταξη Εκφωνημάτων Προφορικών Διαλόγων» Γεώργιος Μπατιστάτος Μ3110020

Διαβάστε περισσότερα

Π1.1 - State of the Art Παραδοτέο έργου

Π1.1 - State of the Art Παραδοτέο έργου TRACER Κωδικός Έργου: 09ΣΥΝ-72-942 Π1.1 - State of the Art Παραδοτέο έργου Ενότητα Εργασίας: Π1.1: State of the Art Αριθμός Παραδοτέου: 1.1 Συντονιστής: Π. Κατσαρός (Α.Π.Θ.) Συντελεστές: SENSE, AUTH, FORTH,

Διαβάστε περισσότερα

ΕΡΓΑΣΙΑ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΑΘΗΜΑΤΟΣ «ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΘΕΜΑ: «ΑΝΑΖΗΤΗΣΗ ΚΑΙ ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΔΙΑΦΟΡΕΣ ΠΗΓΕΣ» ΚΑΘΗΓΗΤΡΙΑ: Κ.

ΕΡΓΑΣΙΑ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΑΘΗΜΑΤΟΣ «ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΘΕΜΑ: «ΑΝΑΖΗΤΗΣΗ ΚΑΙ ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΔΙΑΦΟΡΕΣ ΠΗΓΕΣ» ΚΑΘΗΓΗΤΡΙΑ: Κ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών στην Επιστήμη της Πληροφορίας Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας ΕΡΓΑΣΙΑ

Διαβάστε περισσότερα

Ανάπτυξη Πολυμεσικών Εφαρμογών

Ανάπτυξη Πολυμεσικών Εφαρμογών Τμήμα Πληροφορικής & Τηλεπικοινωνιών Σχολή Διοίκησης και Οικονομίας - ΑΤΕΙ Ηπείρου Ανάπτυξη Πολυμεσικών Εφαρμογών Ακαδημαϊκό Έτος 2008-2009 Σελίδα 1 από 22 Εισαγωγή Τα πολυμέσα είναι μία από τις πιο πολυσυζητημένες

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. του ΠΕΤΡΟΥ Ι. ΒΕΝΕΤΗ. Καθηγητής Ε..Μ.Π. ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. του ΠΕΤΡΟΥ Ι. ΒΕΝΕΤΗ. Καθηγητής Ε..Μ.Π. ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Αποδοτικά ευρετήρια για ερωτήματα ομοιότητας σε τυχαίους υποχώρους πολυδιάστατων

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΠΙΣΤΉΜΕΣ ΤΗΣ ΓΛΩΣΣΑΣ ΚΑΙ ΤΗΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΜΑΡΙΟΣ ΣΤΥΛΙΑΝΟΥ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΠΙΣΤΉΜΕΣ ΤΗΣ ΓΛΩΣΣΑΣ ΚΑΙ ΤΗΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΜΑΡΙΟΣ ΣΤΥΛΙΑΝΟΥ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΠΙΣΤΉΜΕΣ ΤΗΣ ΓΛΩΣΣΑΣ ΚΑΙ ΤΗΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΜΑΡΙΟΣ ΣΤΥΛΙΑΝΟΥ Η αυτοαξιολόγηση των μαθητών/τριών με βάση το Φάκελο Εργασιών

Διαβάστε περισσότερα

Οι Νέες Τεχνολογίες στη διδασκαλία και τη μάθηση Μια πρόκληση που περιμένει απάντηση

Οι Νέες Τεχνολογίες στη διδασκαλία και τη μάθηση Μια πρόκληση που περιμένει απάντηση Αστρολάβος, Τεύχος Οι Νέες Τεχνολογίες στη διδασκαλία και τη μάθηση Μια πρόκληση που περιμένει απάντηση Αντώνιος Π. Κωστάκος Σχολικός Σύμβουλος Πληροφορικής Στερεάς Ελλάδος ankostakos@sch.gr Βασιλική Ν.

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΣΤΑ LOGISTICS: Η ΠΕΡΙΠΤΩΣΗ ΤΩΝ ΠΛΑΣΤΙΚΩΝ ΚΡΗΤΗΣ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΣΤΑ LOGISTICS: Η ΠΕΡΙΠΤΩΣΗ ΤΩΝ ΠΛΑΣΤΙΚΩΝ ΚΡΗΤΗΣ Τ.Ε.Ι ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΣΤΑ LOGISTICS: Η ΠΕΡΙΠΤΩΣΗ ΤΩΝ ΠΛΑΣΤΙΚΩΝ ΚΡΗΤΗΣ ΝΙΚΟΛΕΤΑ ΚΟΥΝΔΟΥΡΑΚΗ ΣΟΥΛΤΑΝΑ ΠΟΤΙΔΟΥ ΕΠΟΠΤΗΣ ΚΑΘΗΓΗΤΗΣ:

Διαβάστε περισσότερα