ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Τε νικές και μη ανισμοί συσταδοποίησης ρηστών και κειμέν ν ια την προσ ποποιημένη πρόσ αση περιε ομένου στον πα κόσμιο ιστό Τσό κας Βασί ειος Μη ανικός Η/Υ κ Π ηροφορικής, M.Sc. Α.Μ. 558 Πάτρα, Δεκέμ ριος 2014

2

3 ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Τε νικές και μη ανισμοί συσταδοποίησης ρηστών και κειμέν ν ια την προσ ποποιημένη πρόσ αση περιε ομένου στον πα κόσμιο ιστό Τσό κας Βασί ειος Μη ανικός Η/Υ κ Π ηροφορικής, M.Sc. Α.Μ. 558 Επι έπ ν Κα η ητής: Χρήστος Μπούρας, Κα η ητής Τριμε ής Επιτροπή: Ευστράτιος Γα όπου ος, Κα η ητής Χρήστος Μακρής, Επίκουρος Κα η ητής Χρήστος Μπούρας, Κα η ητής Επταμε ής Επιτροπή: Νικό αος Α ούρης, Κα η ητής Ευστράτιος Γα όπου ος, Κα η ητής Ι άννης Γαροφα άκης, Κα η ητής Χρήστος Μακρής, Επίκουρος Κα η ητής Βασί ειος Με α οοικονόμου, Κα η ητής Χρήστος Μπούρας, Κα η ητής Α ανάσιος Τσακα ίδης, Κα η ητής Η παρούσα έρευνα έ ει συ ρηματοδοτη εί από την Ευρ παϊκή Έν ση (Ευρ παϊκό Κοιν νικό Ταμείο - ΕΚΤ) και από ε νικούς πόρους μέσ του Επι ειρησιακού Προ ράμματος Εκπαίδευση και Δια Βίου Μά ηση του Ε νικού Στρατη ικού Π αισίου Αναφοράς (ΕΣΠΑ) - Ερευνητικό Χρηματοδοτούμενο Έρ ο: Ηράκ ειτος ΙΙ. Επένδυση στην κοιν νία της νώσης μέσ του Ευρ παϊκού Κοιν νικού Ταμείου.

4

5 αφιερωμένη στο γιο μου, το νόημα και το φως της ζωής μου

6 Για την συ ραφή της διδακτορικής διατρι ής ρησιμοποιή ηκε ο ισμικό XƎL A TEX

7

8 ΠΕΡΙΕΧΟΜΕΝΑ 1 Εισα ή Γενικά Υπάρ ουσα κατάσταση Περι ραφή της ερ ασίας Δομή της ερ ασίας Κα ορισμός του προ ήματος Γενικά Άρ ρα νέ ν Web, News και Meta portals Web portals News portals Meta portals Συστήματα προτάσε ν Προεπεξερ ασία δεδομέν ν Χρήση εξ τερικής άσης νώσης WordNet Υπερώνυμα/Υπώνυμα Μερόνυμα/Ο όνυμα n-grams Συσταδοποίηση κειμέν ν Τυπικός ορισμός συσταδοποίησης Π ή ος συστάδ ν Συσταδοποίηση ρηστών Προσ ποποίηση στο ρήστη Συμμετο ή του ρήστη στις διαδικασίες του συστήματος Το Πρό ημα του νέου ρήστη Ερευνητικά Θέματα Φυσική Επεξερ ασία Γ ώσσας Σύνη ες NLP ερ ασίες Ανάκτηση Π ηροφορίας Μοντε οποίηση ανάκτησης π ηροφορίας ii

9 Μοντέ α ανάκτησης π ηροφορίας Διάσταση μα ηματικής άσης μοντέ ν ανάκτησης π ηροφορίας Διάσταση ιδιοτήτ ν του μοντέ ου Vector Space Model Αξιο ό ηση αποτε εσμάτ ν ανάκτησης π ηροφορίας Ανάκ ηση και ακρί εια Fall-out F-measure Μέση τιμή ακρί ειας R-Ακρί εια Φι τράρισμα Π ηροφορίας Εξόρυξη από τον πα κόσμιο ιστό Συνερ ατικό φι τράρισμα - Collaborative Filtering Ροή π ηροφορίας CF Απαιτήσεις CF Κατη ορίες CF Φι τράρισμα άσει περιε ομένου Συστήματα προτάσε ν Προεπεξερ ασία κειμένου Εξα ή έξε ν κ ειδιών Εξα ή n-grams Ταξινόμηση κειμέν ν Συσταδοποίηση κειμέν ν Α όρι μοι συσταδοποίησης Ιεραρ ικοί α όρι μοι Τυπικές ιεραρ ικές μέ οδοι συσταδοποίησης Πο υπ οκότητα Μερισματικοί α όρι μοι Οικο ένεια k-means Expectation Maximization Spherical k-means Πο υπ οκότητα k-means Προ ήματα k-means Ά ες προσε ίσεις συσταδοποίησης Ασαφής συσταδοποίηση Παρα ικοί Α όρι μοι Gaussian Μοντέ α Μεί ση διαστατικότητας Συσταδοποίηση δέντρου επι εμάτ ν DBSCAN Μετρικές απόστασης (ομοιότητας) Ευκ είδεια απόσταση City-block / απόσταση Manhattan Απόσταση Pearson Ομοιότητα συνημιτόνου Απόσταση Spearman-rank Απόσταση Kendall s Μετρικές αξιο ό ησης συσταδοποίησης iii

10 Δείκτης συσταδοποίησης (Clustering Index) Μέσο από υτο σφά μα Αξιοποίηση Εξ τερικών Βάσε ν Γνώσης WordNet Χρήση του WordNet στην συσταδοποίηση Π ή ος συστάδ ν Ονοματοδοσία συστάδ ν Προσ ποποίηση στον Χρήστη Το Πρό ημα του νέου Χρήστη Ερ τήσεις προς, και α μο ο ήσεις από τον ρήστη Αρ ιτεκτονική Στό οι του συστήματος Γενική αρ ιτεκτονική Ροή Π ηροφορίας Προεπεξερ ασία κειμένου Συσταδοποίηση Συσταδοποίηση W-kmeans Συσταδοποίηση άρ ρ ν νέ ν Μοντε οποίηση και συσταδοποίηση ρηστών Υπο ο ισμός π ή ους συστάδ ν Πρό ημα νέου ρήστη Προσ ποποίηση στο ρήστη Ανά υση και Α ορι μική Προσέ ιση Υποσύστημα προεπεξερ ασίας κειμένου Αξιοποίηση n-grams Ζύ ιση άρ ρ ν Ζύ ιση keywords ια την συσταδοποίηση Υποσύστημα συσταδοποίησης Α όρι μος W-kmeans Συσταδοποίηση άρ ρ ν νέ ν Εξα ή και ζύ ιση υπερ νύμ ν Α όρι μος ενίσ υσης άρ ρ ν νέ ν με υπερώνυμα Ονοματοδοσία συστάδ ν Προσ ποποίηση στο ρήστη Εύρεση συνεδρί ν ρηστών Συσταδοποίηση Χρηστών με ρήση του W-kmeans Προφί ρηστών και προσ ποποίηση με ρήση συσταδοποίησης Πρό ημα νέου ρήστη Τε νο ο ίες υ οποίησης και προδια ραφές του συστήματος Γ ώσσα υ οποίησης ασικών υποσυστήματ ν Προεπεξερ ασία Εξα ή n-grams Υπερώνυμα του WordNet Συσταδοποίηση Υ οποιήσεις α ορί μ ν συσταδοποίησης iv

11 CLUTO SenseClusters Συσταδοποίηση στη MATLAB Text to Matrix Generator C Clustering Library Βάση δεδομέν ν MySQL Βάση δεδομέν ν του συστήματος Νέοι πίνακες Πίνακες συσταδοποίησης άρ ρ ν νέ ν clustering_passes clusters article2cluster cluster_similarities Πίνακες συσταδοποίησης ρηστών clustering_passes_sesions session_clusters session2cluster cluster_similarities_sessions user_sessions user_sessions_articles Πίνακες n-grams extraction_ng extraction_ng2ar Διασύνδεση μη ανισμών Προδια ραφές Συ ο ή άρ ρ ν και εξα ή ρήσιμου κειμένου Προεπεξερ ασία κειμένου Κατη οριοποίηση εξα ή περί ηψης και συσταδοποίησης Προσ ποποίηση Απαιτήσεις του συστήματος Λο ισμικό και ι ιο ήκες Υ ικό Αξιο ό ηση Α ορί μ ν και Υποσυστημάτ ν Υποσύστημα Προεπεξερ ασίας κειμένου Αξιοποίηση n-grams Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Συσταδοποίηση Συσταδοποίηση άρ ρ ν νέ ν Αξιο ό ηση ασικών α ορί μ ν ι ιο ραφίας Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Αξιο ό ηση W-kmeans Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Αξιο ό ηση ονοματοδοσίας συστάδ ν v

12 Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Συσταδοποίηση ρηστών Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Πρό ημα νέου ρήστη Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Προσ ποποίηση στο ρήστη / παρα ή προτάσε ν Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Συμπεράσματα Το πρό ημα και η αντιμετώπισή του Αξιοποίηση n-grams Συσταδοποίηση Αξιο ό ηση α ορί μ ν ι ιο ραφίας W-kmeans ια συσταδοποίηση άρ ρ ν νέ ν Συσταδοποίηση ρήστών συστήματος Πρό ημα νέου ρήστη Προσ ποποίηση στο ρήστη και σύστημα προτάσε ν Με οντική ερ ασία Γενικές περιο ές με οντικής έρευνας Προεπεξερ ασία Συσταδοποίηση Προσ ποποίηση και παρα ή προτάσε ν Παρουσίαση π ηροφορίας Πρό ημα νέου ρήστη vi

13 ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ 1 Stemmed keywords με τις συ νότητες εμφάνισής τους όπ ς εξά ονται από ένα τυ αίο άρ ρο Τα πιο συ νά εμφανιζόμενα n-grams όπ ς εξά ονται από το ίδιο άρ ρο Βάρος ορισμέν ν υπερ νύμ ν του σ ήματος Σύν εση υ ικού ια ανάπτυξη του συστήματος Σύν εση υ ικού του εξυπηρετητή του συστήματος προτάσε ν άρ ρ ν νέ ν Σημειο ραφία ιεραρ ικής συσταδοποίησης Επίδραση της εξα ής ουσιαστικών και stemming στις με οδο ο ίες συσταδοποίησης Αξιο ό ηση τ ν με οδο ο ιών συσταδοποίησης σε σ έση με την συσταδοποίηση τ ν ίδι ν τ ν ρηστών Σύ κριση του W-kmeans με CLUTO και SenseCluster σε σ έση με CI και ρόνο εκτέ εσης Αποτε έσματα ακρί ειας της ονοματοδοσίας συστάδ ν του W-kmeans ανά κατη ορία Σύ κριση με οδο ο ιών CF Α άζοντας την με οδο ο ία παρα ής προτάσε ν με άση το ρόνο vii

14 ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ 1 Δένδρο υπερ νύμ ν του όρου dog Κατη οριοποίηση και συσταδοποίηση Ακρί εια - Ανάκ ηση. Με C είναι τα σ ετικά άρ ρα που ανακτή ηκαν Τυπικό δενδρό ραμμα ιεραρ ικής συσταδοποίησης Ο α όρι μος EM σε τέσσερις επανα ήψεις του Ευαισ ησία του k-means στις αρ ικές συν ήκες Τυπικές συστάδες του α ορί μου DBSCAN Εκτιμώμενη αύξηση διακύμανσης με παρά η η αύξηση του π ή ους τ ν συστάδ ν 93 9 Αρ ιτεκτονική του συστήματος προτάσε ν άρ ρ ν νέ ν Προεπεξερ ασία κειμένου που οδη εί στην εξα ή keywords και n-grams Συσταδοποίηση άρ ρ ν νέ ν και ρηστών Συσταδοποίηση άρ ρ ν νέ ν - τυπικοί α όρι μοι και W-kmeans Ροή π ηροφορίας κατά την ε ραφή νέου ρήστη Α ροιστικό δέντρο υπερ νύμ ν ια τρεις έξεις: pie, apple και orange Γραφική αναπαράσταση της sigmoid συνάρτησης 42 που ρησιμοποιείται από τον α όρι μο W-kmeans Διά ραμμα E-R της ΒΔ ρίς τους νέους πίνακες Διά ραμμα E-R τ ν νέ ν πινάκ ν της ΒΔ Η επίδραση της αξιοποίησης τ ν n-grams στην διαδικασία συσταδοποίησης ια διάφορες τιμές του n Αποτε έσματα απόδοσης τ ν α ορί μ ν W-kmeans και k-means ια διάφορες τιμές ζυ ίσματος τ ν εξα όμεν ν n-grams Αποτε έσματα συσταδοποίησης με ρήση της Ευκ είδειας απόστασης Αποτε έσματα συσταδοποίησης με ρήση της απόστασης συνημιτόνου Αποτε έσματα συσταδοποίησης με ρήση της απόστασης Pearson Αποτε έσματα συσταδοποίησης με ρήση της απόστασης Spearman Αποτε έσματα συσταδοποίησης με ρήση της απόστασης Kendals τ Αποτε έσματα συσταδοποίησης με ρήση της απόστασης City-block Χρόνοι εκτέ εσης διαμερισματικών α ορί μ ν σε σ έση με τα π ή η συστάδ ν viii

15 27 Σύ κριση W-kmeans και k-means ια διάφορες κατη ορίες και π ή η άρ ρ ν Σύ κριση W-kmeans και k-means ια συσταδοποίηση άρ ρ ν νέ ν και ια διάφορα π ή η συστάδ ν Σύ κριση W-kmeans και k-means ια συσταδοποίηση συνεδριών ρηστών και διάφορα π ή η συστάδ ν Τιμές MAE τ ν προτάσε ν του συστήματος με και ρίς την ρήση του W-kmeans Σύ κριση της απόδοσης του συστήματος προτάσε ν με ρήστη της π ηροφορίας συσταδοποίησης ρηστών και μη F-measure τιμές τ ν προτάσε ν του συστήματος με και ρίς την ρήση του W- kmeans Αξιο ό ηση τ ν επι ο ών του συστήματος ια πρόταση προς το ρήστη ώστε να συ κεντρ ούν οι απαραίτητες α μο ο ήσεις άρ ρ ν νέ ν Σύ κριση με οδο ο ιών πρότασης άρ ρ ν σε σ έση με την τε νική μας που ασίζεται στη συσταδοποίηση Σύ κριση με οδο ο ιών πρότασης άρ ρ ν σε σ έση με την τε νική μας που ασίζεται στη συσταδοποίηση Τιμές MAE τ ν προτάσε ν με ρήση τ ν διαφόρ ν ευρετικών Μέσες τιμές F-measure προτάσε ν προς τον ρήστη με ρήση τ ν διαφόρ ν ευρετικών ix

16

17

18 ΕΠΙΤΕΛΙΚΗ ΣΥΝΟΨΗ Με την πρα ματικότητα τ ν υπέρο κ ν και ο οένα αυξανόμεν ν πη ών κειμένου στο διαδίκτυο, κα ίστανται ανα καία η ύπαρξη μη ανισμών οι οποίοι οη ούν τους ρήστες ώστε να ά ουν ρή ορες απαντήσεις στα ερ τήματά τους. Η δημιουρ ία περιε ομένου, προσ ποποιημένου στις ανά κες τ ν ρηστών, κρίνεται απαραίτητη σύμφ να με τις επιτα ές της συνδυαστικής έκρηξης της π ηροφορίας που είναι ορατή σε κά ε νία του διαδικτύου. Ζητούνται άμεσες και αποτε- εσματικές ύσεις ώστε να τι ασευτεί αυτό το άος π ηροφορίας που υπάρ ει στον πα κόσμιο ιστό, ύσεις που είναι εφικτές μόνο μέσα από ανά υση τ ν προ ημάτ ν και εφαρμο ή σύ ρον ν μα ηματικών και υπο ο ιστικών με όδ ν ια την αντιμετώπισή τους. Η παρούσα διδακτορική διατρι ή αποσκοπεί στο σ εδιασμό, στην ανάπτυξη και τε ικά στην αξιο ό ηση μη ανισμών και καινοτόμ ν α ορί μ ν από τις περιο ές της ανάκτησης π ηροφορίας, της επεξερ ασίας φυσικής ώσσας κα ώς και της μη ανικής εκμά ησης, οι οποίοι α παρέ ουν ένα υψη ό επίπεδο φι τραρίσματος της π ηροφορίας του διαδικτύου στον τε ικό ρήστη. Πιο συ κεκριμένα, στα διάφορα στάδια επεξερ ασίας της π ηροφορίας αναπτύσσονται τε νικές και μη ανισμοί που συ έ ουν, δεικτοδοτούν, φι τράρουν και επιστρέφουν κατά η α στους ρήστες κειμενικό περιε όμενο που πη άζει από τον πα κόσμιο ιστό. Τε νικές και μη ανισμοί που σκοπό έ ουν την παρο ή υπηρεσιών π ηροφόρησης πέρα από τα κα ιερ μένα πρότυπα της υφιστάμενης κατάστασης του διαδικτύου. Πυρήνας της διδακτορικής διατρι ής είναι η ανάπτυξη ενός μη ανισμού συσταδοποίησης (clustering) τόσο κειμέν ν, όσο και τ ν ρηστών του διαδικτύου. Στο π αίσιο αυτό με ετή ηκαν κ ασικοί α όρι μοι συσταδοποίησης οι οποίοι και αξιο ο ή ηκαν ια την περίπτ ση τ ν άρ ρ ν νέ ν προκειμένου να εκτιμη εί αν και πόσο αποτε εσματικός είναι ο εκάστοτε α όρι μος. Σε δεύτερη φάση υ οποιή ηκε α όρι μος συσταδοποίησης άρ ρ ν νέ ν που αξιοποιεί μια εξ τερική άση νώσης, το WordNet, και είναι προσαρμοσμένος στις απαιτήσεις τ ν άρ ρ ν νέ ν που πη άζουν από το διαδίκτυο. Ένας ακόμη ασικός στό ος της παρούσας ερ ασίας είναι η μοντε οποίηση τ ν κινήσε ν που ακο ου ούν κοινοί ρήστες κα ώς και η αυτοματοποιημένη αξιο ό ηση τ ν συμπεριφορών, με ορατό ετικό αποτέ εσμα την πρό εψη τ ν προτιμήσε ν που α εκφράσουν στο μέ ον οι ρή- 3

19 στες. Η μοντε οποίηση τ ν ρηστών έ ει άμεση εφαρμο ή στις δυνατότητες προσ ποποίησης της π ηροφορίας με την πρό εψη τ ν προτιμήσε ν τ ν ρηστών. Ως εκ τούτου, υ οποιή ηκε α όρι μος προσ ποποίησης ο οποίος αμ άνει υπ όψιν του π η ώρα παραμέτρ ν που αποκα ύπτουν έμμεσα τις προτιμήσεις τ ν ρηστών. Οι παραπάν μη ανισμοί αφού αξιο ο ή ηκαν ξε ριστά, στη συνέ εια ενσ ματώ ηκαν στην π ατφόρμα αποδε τί σης άρ ρ ν νέ ν 1 που εί ε υ οποιη εί στα π αίσια της μεταπτυ ιακής διπ ματικής ερ ασίας, μετασ ηματίζοντάς την έτσι σε ένα σύστημα προτάσε ν άρ ρ ν νέ ν (news articles recommendation system). Οι τε νικές που προτείνονται σε αυτή τη διδακτορική διατρι ή επεκτείνουν και διαφοροποιούν ερ ασίες ά ν ερευνητών, προσ έτοντας νέες με όδους αντιμετώπισης του προ ήματος προτάσε ν άρ ρ ν νέ ν. Η ερ ασία που πρα ματοποιή ηκε στα π αίσια της παρούσας διδακτορικής διατρι ής αναφέρεται συνοπτικά παρακάτ. Μελέτη αλγορίθμων συσταδοποίησης και αξιολόγησή τους για την περίπτωση των άρθρων νέων από το διαδίκτυο Αυτό το κομμάτι της διδακτορικής διατρι ής αφορά στην με έτη α ορί μ ν συσταδοποίησης κειμέν ν και αξιο ό ηση της εφαρμο ής αυτών στην περίπτ ση τ ν άρ ρ ν νέ ν (news articles) που πη άζουν από το διαδίκτυο. Στό ος αυτής της με έτης ήταν η εφαρμο ή διαφόρ ν τε νικών συσταδοποίησης και η σύ κριση τ ν αποτε εσμάτ ν όσον αφορά στο με ά ο π ή ος και ποικι ομορφία που παρουσιάζουν τα άρ ρα νέ ν του διαδικτύου. Συ κεκριμένα, με ετή ηκαν ιεραρ ικοί (hierarchical) α όρι μοι με διάφορες μετρικές απόστασης μεταξύ τ ν σ ηματιζόμεν ν συστάδ ν: pairwise single, maximum, average, centroid linkage κα ώς επίσης και πο οί διαμερισματικοί (partitional) α όρι μοι: k-means, k-medoids, k- means++. Παρά η α, ια κά ε έναν από τους παραπάν α ορί μους συσταδοποίησης ρησιμοποιή ηκαν και διάφορες μετρικές ομοιότητας: Euclidian, City-block, Pearson correlation coefficient, Cosine similarity, Spearman-rank, Kendall s tau. Για την αξιο ό ηση τ ν παραπάν α όρι μ ν μετρικών ρησιμοποιή ηκαν άρ ρα νέ ν τα οποία συ έ ηκαν από διάφορα online ειδησεο ραφικά πρακτορεία (news portals). Επίσης, ια την σύ κριση της ποιότητας τ ν παρα όμεν ν συστάδ ν ρησιμοποιή ηκε η μετρική του Clustering Index και του F-measure. Τέ ος, έ ινε αξιο ό ηση από πρα ματικούς ρήστες ς προς την ποιότητα τ ν παρα όμεν ν συστάδ ν. Σχεδιασμός και υλοποίηση υβριδικού αλγορίθμου συσταδοποίησης άρθρων νέων (W-kmeans) Έ οντας τα αποτε έσματα από την προαναφερ είσα έρευνα υπόψη, στα π αίσια της διδακτορικής διατρι ής, προ ρήσαμε στον σ εδιασμό και υ οποίηση νέου α ορί μου ια την συσταδοποίηση άρ ρ ν νέ ν. Το αποτέ εσμα αυτής της έρευνας ήταν ο α όρι μος W- kmeans ο οποίος αποτε εί μία προέκταση του κ ασικού k-means α ορί μου ενώ παρά - η α ενισ ύεται από την εξ τερική νώση που μπορεί να προσφέρει το WordNet, ένας από τους πιο ευρέ ς διαδεδομένους ησαυρούς έξε ν ια την Α ική ώσσα. Το WordNet, 1 4

20 ορ ανώνει διάφορες σσο ο ικές σ έσεις σε ιεραρ ίες οι οποίες μπορούν να αναπαραστα- ούν σε δενδροειδής δομές. Κάνοντας ρήση αυτών τ ν δομών, αναζητούμε στο WordNet ια τα υπερώνυμα (hypernyms) τ ν σημαντικότερ ν έξε ν που απαρτίζουν ένα άρ ρο νέου και έτσι επεκτείνουμε το συνο ικό νοηματικό περιε όμενό του. Επί της ουσίας με αυτή τη διαδικασία εισά ουμε νέα νώση στην υπάρ ουσα ίστα έξε ν κάτι που κάνει την διαδικασία συσταδοποίησης ι ότερο ασαφή και περισσότερο αποτε εσματική. Α ροίζοντας τις δενδροειδής δομές τ ν υπερώνυμ ν τ ν σημαντικότερ ν όρ ν ενός κειμένου, αυτό που παρατηρήσαμε είναι ότι όσο πιο πο ύ π ησιάζουμε στην ρίζα του δέντρου (οντότητα - entity), τόσο πιο συ νά εμφανίζεται το υπερώνυμο α ά και τόσο πιο ενικού νοήματος ίνεται αυτό. Επομέν ς τυπικά υπάρ ουν δύο παράμετροι που πρέπει να ηφ ούν υπ όψιν στην διαδικασία της επι ο ής τ ν υπερ νύμ ν που α ενισ ύσουν το κείμενο: η συ νότητα εμφάνισης και το ά ος. Η ζύ ιση τ ν παραπάν παραμέτρ ν έ ινε άσει μίας σι μοειδούς (sigmoid) συνάρτησης της οποίας η παράμετρος που εκφράζει το πόσο απότομη είναι περι αμ άνει τόσο το ά ος όσο και την συ νότητα του υπερ νύμου. Μια ακόμη σημαντική ρήση της εφαρμο ής του WordNet η οποία με ετή ηκε ήταν η εξα- ή ετικετών (labeling) εκ τ ν παρα όμεν ν συστάδ ν. Η διαδικασία του labeling ειτουρ εί ατομικά σε κά ε συστάδα άρ ρ ν αμ άνοντας υπόψιν αρ ικά το 10% τ ν σημαντικότερ ν έξε ν-κ ειδιών τ ν άρ ρ ν της συστάδας. Στη συνέ εια, και ια κά ε μία από τις έξεις-κ ειδιά, παρά ονται τα δέντρα υπερ νύμ ν τους τα οποία και συνδυάζονται σε ένα συνο ικό δέντρο. Οι κόμ οι που προκύπτουν ζυ ίζονται και ταξινομούνται άσει του άρους τους, με τα 5 πρώτα υπερώνυμα να επιστρέφονται ς αντιπροσ πευτικά της συστάδας. Αποτέ εσμα αυτής της διαδικασίας είναι η δημιουρ ία ετικετών που κα ύπτουν νοηματικά την συστάδα και που μά ιστα πο ές φορές δεν είναι μέρος τ ν έξε ν-κ ειδιών τ ν άρ ρ ν που απαρτίζουν τη συστάδα. Συνδυάζοντας τις παραπάν τε νικές, κατα ήξαμε στο α όρι μο W-kmeans, ο οποίος αξιο- ο ή ηκε σε σ έση με παρόμοιους partitional α ορί μους ρησιμοποιώντας την μετρική του Clustering Index. Τα αποτε έσματα της διαδικασίας αξιο ό ησης έδειξαν σημαντική ε τί ση της απόδοσης σε σ έση με τον κ ασικό k-means α όρι μο. Παρά η α, οι παρα- όμενες ετικέτες έ ουν υψη ή ποιότητα και α μπορούσαν να αποτε έσουν ένα σημαντικό ερ α είο ια online υπηρεσίες δεικτοδότησης άρ ρ ν νέ ν και ό ι μόνο. Επέκταση και χρήση του αλγορίθμου W-kmeans για την περίπτωση των χρηστών Στο τμήμα αυτό της διδακτορικής διατρι ής έ ινε επέκταση/προσαρμο ή του α ορί μου W-kmeans στην περίπτ ση συσταδοποίησης ρηστών που παρακο ου ούν άρ ρα νέ ν του διαδικτύου. Πιο συ κεκριμένα, με ετή ηκε και υ οποιή ηκε η επέκταση της εφαρμο ής του α ορί μου ια τις κατα ε ραμμένες συνεδρίες τ ν ρηστών που είναι ε ε ραμμένοι στην online υπηρεσία δεικτοδότησης. Παρά η α, έ ινε αξιο ό ηση τ ν συνεπειών που έ ει η προσέ ιση αυτή στην μη ανή προτάσε ν του συστήματός μας, μετρώντας την συνο ική επίδοση που έ ει αυτή όσον αφορά στην ακρί εια και ανάκ ηση (precision/recall) τ ν πα- 5

21 ρα όμεν ν αποτε εσμάτ ν. Ο α όρι μος W-kmeans ια την περίπτ ση εφαρμο ής του σε ρήστες, προ ράει ς εξής: αρ ικά εξά ονται οι συνεδρίες (sessions) από άρ ρα τα οποία ο ρήστης επέ εξε να δει σε συ κεκριμένου με έ ους ρονικά παρά υρα. Στη συνέ εια, ια κά ε συνεδρία α ροίζουμε τα άρ ρα που απαρτίζουν την συνεδρία και στη συνέ εια εμπ ουτίζουμε τις έξεις-κ ειδιά με σ ετικά υπερώνυμα που εξά ονται από το WordNet με τον τρόπο που περι ράφεται στην συνέ εια. Αρ ικά ια κά ε μία από τις έξεις-κ ειδιά παρά ουμε τις δενδροειδής δομές από υπερώνυμα που οδη ούν στο υπερώνυμο - ρίζα (οντότητα - entity) και στη συνέ εια α ροίζουμε ό ες τις δενδροειδής δομές σε μία. Πρακτικά, υπάρ ουν δύο παράμετροι οι οποίες πρέπει να ηφ ούν υπ όψιν όσον αφορά στη σημαντικότητα του κά ε υπερώνυμου: το ά ος του στο δέντρο και η συ νότητα εμφάνισής του. Ζυ ίζοντας τις παραπάν παραμέτρους με μία σι μοειδή (sigmoid) συνάρτηση και στη συνέ εια ταξινομώντας άσει του άρους, κατα- ή ουμε σε μία ίστα από υπερώνημα τα οποία εκφράζουν το προφί του ρήστη άσει τις επι ο ές που έ ει κάνει. Η ίστα αυτή ρησιμοποιείται έπειτα κατά το στάδιο προτάσε ν στο ρήστη ια την παρουσίαση αποτε εσμάτ ν τα οποία με με ά η πι ανότητα τον ενδιαφέρουν. Για την πειραματική αξιο ό ηση της εφαρμο ής του α ορί μου W-kmeans στα προφί τ ν ρηστών, ρησιμοποιή ηκε με ά ο π ή ος από άρ ρα νέ ν προερ όμενα διάφορα διαδικτυακά ειδησεο ραφικά πρακτορεία κα ώς και αρκετούς ε ε ραμμένοι ρήστες του συστήματος. Επίσης ς κριτήριο αξιο ό ησης τ ν σ ηματιζόμεν ν συστάδ ν ρησιμοποιή ηκε το Clustering Index κα ώς και το F-measure. Τα αποτε έσματα έδειξαν μία σημαντική ε τί- ση σε σ έση με τον κ ασικό k-means α όρι μο. Παρά η α, οι προσφερόμενες προτάσεις άρ ρ ν στους ρήστες ήταν σημαντικά ε τι μένες σε σ έση με πριν όπου δεν εφαρμόζονταν η συσταδοποίηση ρηστών. Προσωποποίηση των προτεινόμενων άρθρων νέων βάσει της πληροφορίας συσταδοποίησης Με άση τα παραπάν αποτε έσματα σε σ έση με την συσταδοποίηση άρ ρ ν νέ ν, κα ώς και τ ν ρηστών αυτών, στο τμήμα αυτό της διδακτορικής διατρι ής αναπτύ ηκε τε νική προσ ποποίησης τ ν προτεινόμεν ν προς τους ρήστες άρ ρ ν νέ ν, η οποία αξιοποιεί την π ηροφορία τ ν συστάδ ν ρηστών του συστήματος. Ο α όρι μος προσ ποποίησης που αναπτύ ηκε, μπορεί να αρακτηριστεί ς υ ριδικός κα ώς ασίζεται τόσο στο ίδιο το περιε- όμενο τ ν άρ ρ ν (content-based) όσο και στο συνερ ατικό φι τράρισμα (collaborative filtering) αξιοποιώντας την συσταδοποίηση και τις επι ο ές τ ν ρηστών του συστήματος. Παρά η α, έ ει τη δυνατότητα της προσαρμο ής στα μετα α όμενα ενδιαφέροντα του ρήστη με σ ετικά μικρές α ά διαρκείς μετα ο ές στα προφί τ ν ρηστών. Ο α όρι μος ενσ ματώνει αρκετά ευρετικά, όπ ς τα επι ε μένα προς ανά ν ση άρ ρα νέ ν από τον ρήστη, τον ρόνο που ξοδεύει δια άζοντάς τα, την κατη ορία τ ν άρ ρ ν, κα ώς και την νώση της συστάδας που ανήκει ο ρήστης. Η εφαρμο ή της προαναφερ είσας τε νικής προσ ποποίησης με ρήση συσταδοποίησης, οδή- ησε σε ε τι μένα αποτε έσματα όσον αφορά τόσο στην ικανότητα του συστήματος να 6

22 συ κ ίνει ρη ορότερα στις πρα ματικές προτιμήσεις τ ν ρηστών, όσο και στην ποιότητα τ ν προτάσε ν ια άρ ρα νέ ν που προσφέρει προς τους ρήστες. Το πρόβλημα του νέου χρήστη και αντιμετώπισή του Ένα σύστημα συστάσε ν (recommendation system), μπορεί να ρε εί σε μία κατάσταση κατά την οποία δεν έ ει αρκετή π ηροφορία στην οποία να ασίσει τις αποφάσεις/προτάσεις του. Αυτού του είδους η κατάσταση είναι ν στή στην ι ιο ραφία ς cold start problem και διακρίνεται σε τρεις περιπτώσεις: α) πρό ημα νέου στοι είου (new item problem) όπου ένα νέο στοι είο (στην περίπτ σή μας ένα άρ ρο νέου) προστί εται στο σύστημα ρίς να υπάρ ουν ακόμη αξιο ο ήσεις ια αυτό, ) πρό ημα νέου ρήστη (new user problem) όπου ένας νέος ρήστης ε ράφεται στο σύστημα ρίς να είναι ν στό κάτι ια τις προτιμήσεις του, ) πρό ημα νέου συστήματος όπου αποτε εί συνδυασμό τ ν παραπάν περιπτώσε ν. Στο τμήμα αυτό της διδακτορικής διατρι ής αναπτύ ηκε μια προσ ποποιημένη με οδο ο ία ια την αντιμετώπιση του προ ήματος νέου ρήστη (new user problem). Η τε νική που υ οποιή ηκε, είναι αρ ικά παρόμοια με την στοι είο προς στοι είο στρατη ική (item by item strategy). Στη συνέ εια, δεδομένης μία του ά ιστον επι ο ής ια αξιο ό ηση άρ ρου από τον ρήστη, αξιοποιείται η π ηροφορία της συσταδοποίησης άρ- ρ ν, και πιο συ κεκριμένα τα αποτε έσματα του W-kmeans α ορί μου που υπάρ ουν στη άση δεδομέν ν ια την μετέπειτα επι ο ή προτάσε ν. Έπειτα, και εφόσον δεν έ ουν ήδη επι ε εί αρκετά άρ ρα ια αξιο ό ηση, ρησιμοποιούμε τα αποτε έσματα του W-kmeans α ορί μου όσον αφορά στην συσταδοποίηση ρηστών του συστήματος ια τις προτάσεις που ακο ου ούν. Η διαδικασία συνε ίζεται έ ς ότου ο συνο ικός αρι μός αξιο ο ήσε ν από τον ρήστη φτάσει σε κάποιο όριο στο οποίο μπορούμε να ε ρήσουμε ότι η διαδικασία εκτίμησης τ ν προτιμήσε ν του ρήστη έ ει ο οκ ηρ εί. Η πειραματική αξιο ό ηση της προαναφερ είσας τε νικής έδειξε ότι με τη ρήση κατά μέσο όρο 5 άρ ρ ν από κά ε σ ετική συστάδα άρ ρου ή ρήστη, παίρνουμε τα κα ύτερα αποτε έσματα και την τα ύτερη σύ κ ιση στο προφί του ρήστη. Χρησιμοποιώντας αυτό το συμπέρασμα, υπο ο ίσαμε ότι η τε νική μας ρειάζεται κατά μέσο όρο 37.5 άρ ρα προς παρουσίαση στη ρήστη προκειμένου να πάρει 20 επιτυ είς αξιο ο ήσεις ένα αποτέ εσμα σημαντικά κα ύτερο από τις τυπικές υπάρ ουσες με όδους της ι ιο ραφίας σ ετικά με την αντιμετώπιση του προ ήματος νέου ρήστη. Αξιοποίηση word n-grams για βελτίωση της συσταδοποίησης άρθρων νέων Ένα n-gram ορίζεται ς η ακο ου ία κειμένου με έ ους n που αποτε είται από συνε όμενα ράμματα ή έξεις. Για την περίπτ ση τ ν word n-grams, ενδιαφερόμαστε μόνο ια σειρές το πο ύ n συνε όμεν ν έξε ν στις ακο ου ίες κειμέν ν. Για παράδει μα ένα 4-gram είναι το εξής: economic situation in Greece. Στο τμήμα αυτό της διδακτορικής διατρι ής αναπτύ ηκε τε νική ενίσ υσης του α ορί μου συσταδοποίησης άρ ρ ν νέ ν από το διαδίκτυο (W-kmeans) με ρήση n-grams έξε ν (word n-grams) κατά την διαδικασία της εξα ής έξε ν κ ειδιών (keyword extraction). Για την 7

23 ενίσ υση του α ορί μου W-kmeans, ρησιμοποιή ηκε μία προσέ ιση ζυ ίσματος η οποία αξιοποιεί τόσο την συ νότητα εμφάνισης τ ν keywords (bag of words representation) όσο και αυτή τ ν n-grams. Πιο συ κεκριμένα, ο α όρι μος ανα έτει άρη στα n-grams του κειμένου (όπου 2 < n < 6) παρόμοια με τα tf-idf (term frequency inverse document frequency) άρη τ ν keywords, κατά τη διαδικασία της εξα ής έξε ν-κ ειδιών (keyword extraction), και έπειτα συνδυάζει τα συνο ικά άρη ια να αξιο ο ήσει ποια keywords και n-grams είναι πιο σημαντικά ώστε να αμ άνονται υπόψη κατά την συσταδοποίηση. Η εκτίμηση της σημαντικότητας τ ν keywords και n-grams στη διαδικασία της συσταδοποίησης αποτέ εσε αντικείμενο της πειραματικής διαδικασίας, από την οποία προέκυψε ότι η ζύ ιση keywords / n-grams σε ό ο 7/3 έδινε τα κα ύτερα αποτε έσματα ια την συσταδοποίηση (συστάδες κα ύτερα δια ρισμένες και με με α ύτερη συνο ή). Παρά η α ρέ ηκε ότι ια n = 3, δη αδή όταν αμ άνονται υπόψη τόσο τα 2-grams όσο και τα 3-grams ια την διαδικασία ζυ ίσματος, έ ουμε κα ύτερα αποτε έσματα ια την συσταδοποίηση άρ ρ ν από το διαδίκτυο (κάτι που επι ε αί σε την υπάρ ουσα σ ετική ι ιο ραφία). 8

24

25 EXECUTIVE SUMMARY With the reality of the ever increasing information sources from the internet, both in sizes and indexed content, it becomes necessary to have methodologies that will assist the users in order to get the information they need, exactly the moment they need it. The delivery of content, personalized to the user needs is deemed as a necessity nowadays due to the combinatoric explosion of information visible to every corner of the world wide web. Solutions effective and swift are desperately needed in order to deal with this information overload. These solutions are achievable only via the analysis of the refereed problems, as well as the application of modern mathematics and computational methodologies. This Ph.d. dissertation aims to the design, development and finally to the evaluation of mechanisms, as well as, novel algorithms from the areas of information retrieval, natural language processing and machine learning. These mechanisms shall provide a high level of filtering capabilities regarding information originating from internet sources and targeted to end users. More precisely, through the various stages of information processing, various techniques are proposed and developed. Techniques that will gather, index, filter and return textual content well suited to the user tastes. These techniques and mechanisms aim to go above and beyond the usual information delivery norms of today, dealing via novel means with several issues that are discussed. The kernel of this Ph.d. dissertation is the development of a clustering mechanism that will operate both on news articles, as well as, users of the web. Within this context several classical clustering algorithms were studied and evaluated for the case of news articles, allowing as to estimate the level of efficiency of each one within this domain of interest. This left as with a clear choice as to which algorithm should be extended for our work. As a second phase, we formulated a clustering algorithm that operates on news articles and user profiles making use of the external knowledge base of WordNet. This algorithm is adapted to the requirements of diversity and quick churn of news articles originating from the web. Another central goal of this Ph.d. dissertation is the modeling of the browsing behavior of system users within the context of our recommendation system, as well as, the automatic 10

26 evaluation of these behaviors with the obvious desired outcome or predicting the future preferences of users. The user modeling process has direct application upon the personalization capabilities that we can over on information as far as user preferences predictions are concerned. As a result, a personalization algorithm we formulated which takes into consideration a plethora or parameters that indirectly reveal the user preferences. The above mechanisms, after being evaluated separately, were later incorporated as modules within the online news indexing service 2 that was implemented as part of my M.Sc. thesis, transforming it into a complete news articles recommendation system. The techniques that are proposed in this Ph.d. dissertation extend and diversify over works from other researchers, adding new methodologies in order to deal with the problem of recommending news articles. The work covered as part of the Ph.d. dissertation is shortly outlined below. Study of existing news clustering algorithms and evaluation for the case of news articles originating from the web This part of the Ph.d. dissertation has to do with the study of clustering algorithms which operate upon texts and the evaluation of this application for the case of news articles. The goal of this study was the application of various clustering methodologies and then the comparison of their performance as far as the great numbers and diversity that news articles exhibit, are concerned. In particular, hierarchical clustering algorithms were studied: pairwise single, maximum, average, centroid linkage. In addition, several partitional clustering algorithms were also studied: k-means, k-medoids, k-means++. For each of the above clustering algorithms various distance measures for calculating the distance among the formulated clusters were used: Euclidian, City-block, Pearson correlation coefficient, Cosine similarity, Spearman-rank, Kendall s tau. For the evaluation of the above combination of clustering algorithms and distance measures, news articles collected from numerous news portals were useds. Furthermore, for comparing the quality of the generated clusters the Clustering Index and F-measure metrics were utilized. Finally, the quality of the generated clusters was evaluated by real system users, giving some useful feedback about the performance of the wining clustering methodology. Design and implementation of a hybrid news articles clustering algorithm (W-kmeans) Having the results of the aforementioned research in mind, within the scope of this Ph.d. dissertation, we moved the design and implementation of a new news articles clustering algorithm. The outcome of this research was the W-kmeans algorithm which is an extension of the classical k-means clustering algorithm, assisted by the external knowledge that WordNet, one of the most widely used English language thesauri, can offer. WordNet, by organizing the various linguistic relationships into hierarchies can be represented into tree-like structures. Using these structures, we seek into WordNet for the hypernyms of the words which constitute a news article, enhancing thus its overall

27 context meaning. In essence, via this process, we are introducing new knowledge into the existing keywords lists, something that makes the clustering process less fuzzy and more effective. By aggregating the hypernym structures of the text s keywords, what we observed was that the more we got closer to the root of this tree (called entity within WordNet), the more frequently the hypernym would appear but also the more generic its meaning would become. As a results there are typically two parameters that should be taken into consideration with regards to the process of hypernym selection/weighting that shall enhance the text: the frequency of appearance and its depth. The weighting scheme of these parameters was done using a sigmoid function of which the parameter that defines how steep it is includes the both the weight and the frequency of the hypernym. Another important use for the application of WordNet that was studied, is the labeling generation process regarding the produced clusters. The labeling process operates within each individual news articles cluster initially taking into consideration the top 10% of the most important keywords of the articles belonging to the particular cluster. Next, of each of those keywords the WordNet hypernym tree is generated and those trees are aggregated together into a global tree. The nodes that are produced by this process are then weighted and sorted according to their weight, and the top 5 hypernyms are returned as representatives of the cluster. The outcome of the above process is cluster labels which cover the sense of each clyster and which might not even be part of the keywords that make us the cluster. Combining the above techniques into a single process, we named the algorithm as W- kmeans. W-kmeans was then evaluated against similar partitinal algorithms use the Clustering Index metric. The results of the evaluation process showed significant improvement compared with the classical k-means algorithm. Furthermore, the generated labels are of high quality and can constitute an important tool for inline services which index news articles (amongst other things). Expansion and use of the W-kmeans clustering algorithm for the case of system users Within this part of the Ph.d. dissertation, the adaptation of the W-kmeans algorithm for the case of user clustering was performed (as far as users browsing news articles are concerned). In particular, an expansion of the clustering algorithm was investigated and implemented that would take into account the system users as registered into our recommendation system. In addition, we evaluated the consequences of this approach into the recommendation engine of the system, evaluating thus the overall performance improvement that this has with regards to precision/recall metrics on the produced results. The W-kmeans algorithm for the case of users proceeds as follows: initial the user sessions are extracted using news articles for which the user has expressed interest into reading within specific time windows. Following, for each user session, we sum up the articles that make it up and then we enrich the extracted keywords using WordNet hypernyms 12

28 in the way that is described next. Initially for each of the keywowrds we generate the tree-like structures of hypernymes that lead to the hypernym-root and we then aggregate all these structures into a combined one. There are practically two parameters that need to be taken into consideration as far as the importance of each hypernym is concerned: its depth in the tree and its frequency of appearance. By weighting the above parameters into a sigmoid function and then by sorting them by weight, we end up with a list of hypernymes that express the user profile based on the choices that he did. This like can be used later in multiple ways (like in the personalization/recommendation phase, or for dealing with the new user problem). For the experimental evaluation of the application of the W-kmeans algorithm to the user profiles, we used a good number of news articles originating from online news portals, as well as data from registered system users. Again as an evaluative criterion we used the Clustering Index and the F-measure. The results showed a significant improvement compared to the classical k-keans algorithm. In addition, the article recommendations towards the users were significantly improved compared to the case when user clustering was not employed. Personalization of the proposed articles based on clustering information Using the above results regarding news articles and user clustering, in this part of the Ph.d. dissertation we developed a personalization technique that lead to the actual recommendations made by the system. This technique makes use of several heuristics that had been investigated before, but is now enhanced to also incorporate clustering into the weighting scheme. The personalization algorithm that was developed can be characterized as hybrid since it s based both onto the context of the articles themselves, as well as the collaborative filtering, using continuously the clustering information along with the previous user choices. Moreover, it has the capability of adapting to the always evolving user interests with relatively small but continuous profile updates. The algorithm incorporates a multitude of heuristics like the previously viewed articles, the times spent by the user reading them, the articles categorization along with the previously mentioned clustering information. The application of the aforementioned personalization technique resulted in improved results with regards to both the ability of the system to quickly converge to the real user interests, and to the quality of the news articles suggestions offered to the end users. Addressing the new user problem A recommendation system can be found in a situation where it does not have enough information on which to rely its decisions/recommendations. This kind of state is commonly known as the cold start problem and is made up of three individual cases: a) the new item problem, where a new item (in our case a news article) is added to the system without any ratings or choices yet available for it, b) the new user problem, where a new user would register into the system without any kind of information regarding his preferences 13

29 made available, making any future recommendation completely a luck experiment, c) the new system problem which is a combination of a) and b). In this part of the Ph.d. dissertation we developed a personalized methodology for dealing with the new user problem. The technique that was implemented is initially similar to the item by item personalized strategy. However, given at least one successful user rating, the information regarding news clustering, and in particular the W-kmeans clustering results stored in the database, are taken advantage of for the follow-up suggestions for rating. Next, and as long as not enough news articles have been selected by the user for rating, we use the results of the W-kmeans algorithm with regards to user clustering for selecting the upcoming queries for rating. The process continues until the total number of user ratings reaches a particular limit upon which we can assume that the estimation of user interests has completed. The experimental procedure of the aforementioned methodology revealed that by using, on average, 5 articles from each of the relative cluster, either the articles one, or the users one, we get the best results and the fastest convergence to the actual user profile. Making use of this conclusion, we calculated that the proposed technique needs, on average, 37.5 articles to be presented to the user in order to gather 20 successful evaluations - a result far better than the typical methods proposed in the literature regarding the problem. Making use of word n-grams in order to improve the news clustering results An n-gram is the textual sequence of size n which consists of continuous letter or words. For the case of word n-grams, we are interested in sequences of at most n continuous words into the texts. For example, a 4-gram would be the following: economic situation in Greece. Into this part of the Ph.d. dissertation, a technique for improving the process of news article clustering was developed that makes use of word n-grams during the keyword extraction phase. For improving associating n-grams with W-kmeans, we used a weighting scheme which takes advantage of the information of both the article keywords (bag of words representation), as well a similar n-grams representation. More specifically, the algorithm assigns weights to the text n-grams (where 2 < n < 6) similar to the tf-idf (term frequency inverse document frequency) keyword weights during the keyword extraction phase, and then combines the aggregate weights in order to evaluate which n-grams and keywords are important and how so as to be taken under consideration for the clustering process that follows. The assessment of the importance of the keywords and n-grams within the clustering process constituted an area of experimentation from which we found that the weighting of keywords/n-grams in a ratio of 7/3, would give the best clustering results (clusters well connected within and well separated from outside). In addition, we found that for n = 3, meaning that when we kept both 2-grams and 3-grams during the weighting process, we 14

30 would have the best results as far as news clustering is concerned (a result confirming existing bibliography). 15

31

32 ΔΗΜΟΣΙΕΥΣΕΙΣ ΚΑΙ ΑΝΑΦΟΡΕΣ Δημοσιεύσεις σ ετικές με την διδακτορική διατρι ή Δημοσιεύσεις σε διε νή περιοδικά 1. Improving News Articles Recommendations via User Clustering. International Journal of Machine Learning and Cybernetics (to appear) C. Bouras, V. Tsogkas, 2015 Abstract Παρότι συ νά μόνο η συσταδοποίηση αντικειμέν ν συ νά προτείνεται από τε νικές Web mining ια συστήματα προτάσε ν άρ ρ ν νέ ν, μία από τις ποικί ες διερ ασίες την προσ ποποίησης προτάσε ν είναι η συσταδοποίηση τ ν ίδι ν τ ν ρηστών. Με την συνδυαστική έκρηξη τ ν online άρ ρ ν νέ ν, η πρό εψη τ ν συνη ειών π οή ησης τ ν ρηστών με ρήση συνερ ατικού φι τραρίσματος (CF) έ ει κερδίσει αρκετά έδαφος στην περιο ή της προσ ποποίησης του ιστού. Παρό α αυτά, οι κοινές CF τε νικές υποφέρουν από αμη ή ακρί εια και απόδοση. Η παρούσα έρευνα προτείνει μία νέα προσ ποποιημένη προσέ ιση ια παρα ή προτάσε ν, η οποία ενσ ματώνει την συσταδοποίηση τόσο σε επίπεδο περιε ομένου όσο και ρηστών. Βασίζεται στο α όρι μο W-kmeans κα ώς και ά ες IR τε νικές, όπ ς η κατη οριοποίηση και περί ηψη κειμένου, προκειμένου να προσφέρει στους ρήστες άρ ρα που ταιριάζουν στα προφί τους. Το σύστημα προτάσε ν που αναπτύ ηκε μπορεί ρή ορα να προσαρμόζεται στα ρονικά μετα α όμενα ενδιαφέροντα τ ν ρηστών. Επιπ έον, τα πειραματικά αποτε έσματα έδειξαν ότι η αξιοποίηση συσταδοποίησης αντικειμέν ν και ρηστών επιφέρει σημαντικά οφέ η στο σύστημα προτάσε ν. 2. Assisting cluster coherency via N-grams and clustering as a tool to deal with the new user problem. International Journal of Machine Learning and Cybernetics: 1-14, Springer Verlang, C. Bouras, V. Tsogkas, 2014 Abstract 17

33 Οι τε νικές συνερ ατικού φι τραρίσματος (collaborative filtering techniques) πάσ ουν από το ε όμενο πρό ημα νέου ρήστη. Αυτή η κατάσταση συμ αίνει όταν ένας νέος ρήστης προστί εται σε ένα σύστημα προτάσε ν (recommendation system) και δεν υπάρ- ει αρκετή π ηροφορία την οποία μπορεί να ρησιμοποιήσει το σύστημα ια να στηρίξει τις προτάσεις του. Το σύστημα ρειάζεται επομέν ς κάποια δεδομένα σ ετικά με τον νέο ρήστη προκειμένου να μπορεί να κάνει τις προσ ποποιημένες προτάσεις. Σε αυτή τη δημοσίευση επι ειρούμε να αντιμετ πίσουμε το πρό ημα νέου ρήστη ρησιμοποιώντας μία προσ ποποιημένη στρατη ική σ ετικά με τις προτάσεις που ίνονται στο ρήστη προκειμένου να α μο ο η ούν αυτές κατά της διαδικασία αρ ικής εκμά ησης. Η προσέ ισή μας κάνει ρήση υπερ νήμ ν τα οποία εξά ονται από το WordNet και προσε ίζει ρή ορα στα πρα ματικά ενδιαφέροντα του ρήστη ασιζόμενη παρά η α σε ί ες α μο ο ήσεις από την π ευρά του ρήστη. Παρά η α ερευνούμε την ε τί ση που μπορεί να έ ει στα αποτε- έσματα της συσταδοποίησης άρ ρ ν νέ ν από το διαδίκτυο η αξιοποίηση n-grams έξε ν κατά την διαδικασία εξα ής έξε ν-κ ειδιών. Η τε νική αυτή συ κρίνεται με την τυπική bag of words αναπαράσταση που ρησιμοποιούσε προη ούμενα ο α όρι μος W-kmeans. Η πειραματική διαδικασία δεί νει ότι μέσ του κατά η ου ζυ ίσματος της αρύτητας τ ν keywords, τ ν n-grams κα ώς και της τιμής n, μία σημαντική ε τί ση μπορεί να επιτευ εί σ ετικά με τα αποτε έσματα της συσταδοποίησης. 3. A clustering technique for news articles using WordNet. Knowledge-Based Systems Journal, Elsevier Science, Vol. 36, C. Bouras, V. Tsogkas, 2012, Abstract Η συσταδοποίηση κειμενικής π ηροφορίας αποτε εί μία ισ υρή τε νική αντιμετώπισης του προ ήματος δια είρισης της παρα όμενης ποσότητας άρ ρ ν νέ ν που κατακ ύζουν το διαδίκτυο. Μέσ αυτής, μπορούμε να ορ ανώσουμε δεδομένα σε μικρότερους και πιο δια ειρίσημους πυρήνες π ηροφορίας. Π η ώρα προσε ίσε ν έ ουν προτα εί στη ι ιο ραφία με τυπικά προ ήματα να παραμένουν η συν νυμία, η ασάφεια κα ώς και η έ ειψη συ κεκριμέν ν αντιπροσ πευτικών περι ράφ ν τ ν συστάδ ν (labels). Στην παρούσα έρευνα, ερευνούμε την εφαρμο ή ενός φάσματος α ορί μ ν συσταδοποίησης, κα ώς και μετρικών σύ κρισης, στον τομέα τ ν άρ ρ ν νέ ν που προέρ ονται από το διαδίκτυο. Παρά η α προτείνουμε μία τροποποίηση/ ε τιστοποίηση του α ορί μου k-means κάνοντας ρήση την εξ τερική νώση από υπερώνημα (hypernyms) του WordNet με διττό τρόπο: εμπ ουτίζοντας τις έξεις κ ειδιά (bag of words) οι οποίες ρησιμοποιούνται προη ούμενα από την διαδικασία συσταδοποίησης, και επίσης, αξιοποιώντας αυτή την π ηροφορία προκειμένου να υπο οη η εί η παρα ή αντιπροσ πευτικών τίτ ν ια κά ε συστάδα. Παρά η α, εξετάζουμε την επίδραση που έ ει η προεπεξερ ασία κειμένου στη διαδικασία συσταδοποίησης. Χρησιμοποιώντας ένα σώμα (corpus) άρ ρ ν νέ ν που πη άζουν από μείζονα η εκτρονικά ειδησεο ραφικά πρακτορεία, η σύ κριση τ ν υπαρ όντ ν α ορί μ ν συσταδοποίησης έδειξε ότι η k-means δίνει κα ύτερα συνο ικά αποτε έσματα σε σ έση με την αποδοτικότητά του. 18

34 Αυτό ενισ ύεται όταν ο α όρι μος συνοδεύεται από προκαταρκτικά ήματα ια κα αρισμό δεδομέν ν και κανονικοποίηση, παρά την ε ρητικά απ οϊκή του φύση. Εκτός αυτού, ο προτεινόμενος W-kmeans α όρι μος συσταδοποίησης ε τιώνει σημαντικά τον τυπικό k-means παρά οντας επίσης ρήσιμες και ποιοτικές ετικέτες (cluster tags) άσει της διαδικασίας που περι ράφεται στην συ κεκριμένη δημοσίευση. Δημοσιεύσεις σε διε νή συνέδρια 1. Evaluating the Unification of Multiple Information Retrieval Techniques into a News Indexing Service. 3rd Intenational Conference on Data Management Technologies and Applications, Vienna, Austria, C. Bouras, V. Tsogkas, Aug Abstract Όσο οι online πη ές ειδησεο ραφικών νέ ν αυξάνονται, τόσο αυξάνεται και ο ό κος της σ ετικής π ηροφορίας. Πο απ ές προσε ίσεις έ ουν προτα εί ια την ορ άν ση αυτού του ό κου π ηροφορίας. Στην παρούσα δημοσίευση, ερευνούμε την ενοποίηση πο απ ών τε νικών ανάκτησης π ηροφορίας, όπ ς προεπεξερ ασία κειμένου, επέκταση n-grams, περί- ηψη κειμένου, κα ώς και συσταδοποίηση στοι εί ν/ ρηστών, σε έναν μη ανισμό σ εδιασμένο να ενοποιεί και να δεικτοδοτεί άρ ρα νέ ν που πη άζουν από το διαδίκτυο. Στό ος μας είναι να επιτρέψουμε στους ρήστες να μπορούν απρόσκοπτα και ρή ορα να πάρουν την ειδησεο ραφική ενημέρ ση η οποία τους ταιριάζει. Δεί νουμε π ς, η ρήση κα εμίας από τις προτεινόμενες τε νικές, ε τιώνει την ακρί εια του συστήματος σε σ έση με τα προτεινόμενα άρ ρα ια τους ε ε ραμμένους ρήστες. Τέ ος εξετάζουμε π ς αυτές οι τε- νικές συνο ικά μπορούν να αποτε έσουν μία ενοποιημένη ύση ια ένα σύστημα προτάσε ν (recommendation system). 2. Enhancing news articles clustering using word n grams. 2nd Intenational Conference on Data Management Technologies and Applications, Reykjavvk, Iceland, C. Bouras, V. Tsogkas, July , Abstract Σε αυτή την ερ ασία, ερευνούμε την πι ανή ε τί ση τ ν αποτε εσμάτ ν της συσταδοποίησης κειμέν ν, και εν προκειμέν, άρ ρ ν νέ ν που προέρ ονται από το διαδίκτυο, μέσ της ρήσης n-grams έξε ν κατά την διαδικασία της εξα ής έξε ν κ ειδιών. Παρουσιάζουμε και αξιο ο ούμε μία προσέ ιση ζυ ίσματος η οποία συνδυάζει την συσταδοποίηση άρ ρ ν νέ ν με ρήση n-grams τα οποία εξά ονται offline και ρησιμοποιούνται παρά η α με τις έξεις κ ειδιά του εκάστοτε κειμένου. Η συ κεκριμένη τε νική συ κρίνεται με την απ οϊκή bag-of-words αναπαράσταση (όπου αξιοποιούνται μόνο οι έξεις κ ειδιά) την οποία ρησιμοποιούσε προη ούμενα ο α όρι μος συσταδοποίησης W-kmeans. Η πειραματική διαδικασία έδειξε ότι μέσ της ρύ μισης τ ν παραμέτρ ν ζυ ίσματος μεταξύ έξε ν κ ειδιών και n- grams, κα ώς και του n, μπορεί να δώσει σημαντικές ε τιώσεις όσον αφορά την επίδοση 19

35 του α ορί μου συσταδοποίησης. 3. Clustering to Deal with the New User Problem. 15th IEEE International Conference on Computational Science and Engineering, Paphos, Cyrus, C. Bouras, V. Tsogkas, 5-7 December 2012, pp Abstract Οι τε νικές συνερ ατικού φι τραρίσματος (collaborative filtering) επι ειρούν να ανακουφίσουν τον ρήστη από την υπερ-τροφοδότηση π ηροφορίας με το να εντοπίζουν ποια στοι εία ένας ρήστης α έ ρισκε ενδιαφέροντα. Εστιάζουν στον εντοπισμό ρηστών με παρόμοια ενδιαφέροντα και ρησιμοποιούν τις προη ούμενες επι ο ές τους προκειμένου να προτείνουν στοι εία. Συ νά όμ ς, οι τε νικές αυτές πάσ ουν από το αναφερόμενο πρό ημα νέου ρήστη το οποίο αμ άνει ώρα όταν ένας ρήστης προστί εται στο σύστημα ρίς εκείνο να έ ει αρκετές π ηροφορίας ώστε να κάνει προτάσεις. Το σύστημα επομέν ς α πρέπει να αποκτήσει ορισμένα δεδομένα σ ετικά με τον ρήστη προκειμένου να αρ ίζει να προσφέρει προτάσεις. Σε αυτή την δημοσίευση, παρουσιάζουμε έναν καινοτόμο α όρι μο ο οποίος συνδυάζει προη ούμενα αποκτημένη νώση από την συσταδοποίηση τόσο άρ ρ ν νέ ν όσο και ρηστών συστήματος προκειμένου να συμπεράνει όσο πιο ρή ορα ίνεται τις προτιμήσεις του ρήστη. Επι ειρούμε να αντιμετ πίσουμε το πρό ημα νέου ρήστη προσφέροντας μία προσ ποποιημένη στρατη ική παρουσίασης άρ ρ ν νέ ν στον ρήστη προκειμένου να τα α μο ο ήσει. Η προσέ ισή μας επίσης κάνει ρήση υπερ νύμ ν τα οποία εξά ονται από το WordNet και φαίνεται να προσε ίζει ρή ορα στα πρα ματικά ενδιαφέροντα του ρήστη με τις ι ότερο δυνατόν απαιτούμενες α μο ο ήσεις άρ ρ ν νέ ν. 4. User Personalization via W kmeans. KES The 16th International Conference on Knowledge Based & Intelligent Information & Engineering Systems, San Sebastian, Spain, C. Bouras, V. Tsogkas, September 2012, Abstract Με την ρα δαία έκρηξη τον online άρ ρ ν νέ ν, η πρό εψη τ ν προτιμήσε ν του ρήστη με την ρήση τε νικών συνερ ατικού φι τραρίσματος έ ει ε είρει αρκετό ενδιαφέρον σε σ έση με την προσ ποποιημένη πρόσ αση. Παρό α αυτά, οι συνη ισμένες τε νικές συνερ ατικού φι τραρίσματος πάσ ουν από αμη ή ακρί εια και απόδοση. Η δημοσίευση αυτή εστιάζει σε μία νέα προσ ποποιημένη προσέ ιση προτάσε ν που ενσ ματώνει την συσταδοποίση άρ ρ ν νέ ν και ρηστών, μέσ του α ορί μου W-kmeans, μαζί με ά ες τε νικές ανάκτησης π ηροφορίας, όπ ς κατη οριοποίηση και περί ηψη κειμένου. Το προτεινόμενο σύστημα μπορεί εύκο α να προσαρμόζεται σε διαφοροποιημένες προτιμήσεις ρηστών. 5. Clustering user preferences using W kmeans. The 7th International Conference on Signal Image Technology & Internet Based Systems (SITIS 11), Dijion - France, C. Bouras, V. Tsogkas, November 28 - December , pp

36 Abstract Παρότι συ νά μόνο η συσταδοποίηση κειμέν ν ρησιμοποιείται ς τε νική εξόρυξης π ηροφορίας από το Web σε συστήματα προτάσε ν (recommenders), ένα από τα τμήματα της προσ ποποίησης προτάσε ν είναι επίσης η συσταδοποίηση τ ν ρηστών. Σε αυτή τη δημοσίευση προτείνουμε μια με οδο ο ία συσταδοποίησης τ ν μοτί ν τ ν ρηστών του Web. Πιο συ κεκριμένα, προσαρμόζουμε τον W-kmeans α όρι μο, ο οποίος προη ούμενα ρησιμοποιή ηκε ια την περίπτ ση της συσταδοποίησης κειμέν ν, στην περίπτ ση της συσταδοποίησης προφί ρηστών ανα ύοντας τα προη ούμενα μοτί α τους. Παρά η α ερευνούμε την επίδραση που έ ει αυτή η ε τί σε όσον αφορά στον μη ανισμό προτάσε ν του συστήματος και αξιο ο ούμε την απόδοσή του σε σ έση με την ακρί εια ανάκ ηση τ ν παρα όμεν ν προτάσε ν προς τους ρήστες. 6. W - kmeans: Clustering News Articles using WordNet. Advanced Knowledge - based Systems, Invited Session of the 14th International Conference on Knowledge based and Intelligent Information & Engineering Systems, Cardiff Wales, UK, C. Bouras, V. Tsogkas, September , pp Abstract Το Web είναι εμάτο από άρ ρα νέ ν, μία συντριπτική πη ή π ηροφορίας τόσο ό ο της π η ώρας της όσο και της ποικι ομορφίας της. Αντι έτ ς, η ανά εση άρ ρ ν νέ ν σε παρόμοιες κατη ορίες αποτε εί με μια ισ υρή τε νική ανάκτησης π ηροφορίας και δια είρισης δεδομέν ν ια αναζήτηση εματικών κατη οριών σε κείμενα. Σε αυτή τη δημοσίευση ερευνούμε την εφαρμο ή ενός εύρους α ορί μ ν συσταδοποίησης, κα ώς με μετρικών ομοιότητας, ια την περίπτ ση άρ ρ ν νέ ν τα οποία πη άζουν από το διαδίκτυο, ενώ παρά η α συ κρίνουμε την αποδοτικότητά τους ια την ρήση μας. Παρά η α ερευνούμε την επίδραση που έ ει η προεπεξερ ασία κειμένου στην αρ ότερα συσταδοποίησή του. Τα πειραματικά αποτε έσματα έδειξαν ότι ο α όρι μος k-means, παρά την απ οϊκότητα του, συνδυαζόμενος από ορισμένα ήματα προεπεξερ ασίας ια τον κα αρισμό, κανονικοποίηση και ενίσ υση τ ν έξε ν κ ειδιών του κειμένου, μπορεί να δώσει σημαντικά ε τι μένα αποτε έσματα όσον αφορά στην ποιότητά τους. 7. Assigning Web News to Clusters. The Fifth International Conference on Internet and Web Applications and Services, (ICIW 2010), Barcelona, Spain, C. Bouras, V. Tsogkas, May Abstract Η συσταδοποίηση κειμένου (document clustering) αποτε εί μια ισ υρή τε νική η οποία έ ει ρησιμοποιη εί ευρέ ς ια την ορ άν ση δεδομέν ν σε μικρότερους και πιο δια ειρίσημους πυρήνες π ηροφορίας. Πο απ ές προσε ίσεις έ ουν προτα εί στην ι ιο ραφία 21

37 οι οποίες υποφέρουν από προ ήματα όπ ς η συν νυμία, η αμφισημία κα ώς και η έ ειψη μιας περι ραφής τ ν παρα όμεν ν συστάδ ν. Σε αυτή τη δημοσίευση προτείνουμε την ε τί ση του τυπικού α ορί μου k-means ρησιμοποιώντας την εξ τερική νώση από υπερώνυμα του WordNet με διττό τρόπο: ενισ ύοντας την ίστα από έξεις (bag of words) που ρησιμοποιούνται πριν από τη διαδικασία συσταδοποίησης και υπο οη ώντας την παρα ή περι ραφών που ακο ου εί. Η πειραματική μας διαδικασία έδειξε μία σημαντική ε τί ση σε σ έση με τον κ ασικό k-means α όρι μο ια ένα σύνο ο άρ ρ ν νέ ν τα οποία ανακτή ηκαν από πο απ ά online ειδησεο ραφικά πρακτορεία. Παρά η α η διαδικασία παρα ής περι ραφών τ ν συστάδ ν είναι αρκετά αποτε εσματική. 22

38 Λοιπές δημοσιεύσεις Κεφά αια σε ι ία 1. Squeak Etoys: Interactive and Collaborative Learning Environment. Handbook of Research on Social Interaction Technologies and Collaboration Software: Concepts and Trends, IGI Global, Chapter 37, C. Bouras, V. Poulopoulos, V. Tsogkas, 2010, pp Διε νή περιοδικά 1. Adaptation of RSS feeds based on the user profile and on the end device. Journal of Network and Computer Applications, Elsevier Science, Vol. 33, C. Bouras, V. Poulopoulos, V. Tsogkas, 2010, pp Noun Retrieval Effect on Text Summarization and Delivery of Personalized News Articles to the User s Desktop. Data and Knowledge Engineering, Elsevier Science, Special Issue Advanced Knowledge, Vol. 69, C. Bouras, V. Tsogkas, 2010, pp Networking and Security Issues for Remote Gaming: The Approach of G@L International Journal on Advances in Security, IARIA, Vol. 2, No. 2, 3, C. Bouras, V. Poulopoulos, V. Tsogkas, 2009, pp PeRSSonal s core functionality evaluation: Enhancing text labeling through personalized summaries. Data and Knowledge Engineering Journal, Elsevier Science, 2008, Vol. 64, Issue 1, C. Bouras, V. Poulopoulos, V. Tsogkas, 2008, pp Διε νή συνέδρια 1. Caching News Channels on the User s Desktop. IADIS International Conference Applied Computing, Rome, Italy, C. Bouras, G. Tsichritzis, V. Tsogkas, November , pp Personalization Mechanism for Delivering News Articles on the User s Desktop. The Fourth International Conference on Internet and Web Applications and Services ICIW 2009, Venice, Italy, C. Bouras, V. Tsogkas, May 2009, pp Networking Aspects for the Security of Game Input. 5th IEEE International Workshop on Networking Issues in Multimedia Entertaiment - NIME09, Las Vegas, USA, C. Bouras, V. Poulopoulos, V. Tsogkas, 13 January Evaluating PeRSSonal: A Medium for Personalized Dynamically Created News Feeds. IADIS International Conference WWW/Internet Freiburg, Germany, C. Bouras, V. Poulopoulos, V. Tsogkas, October

39 5. Improving text summarization using noun retrieval techniques. Advanced Knowledge based Systems, Invited Session of the 12nd International Conference on Knowledge based and Intelligent Information & Engineering Systems(KES 2008), Zagreb, Croatia, C. Bouras, V. Tsogkas, 3-5 September 2008, pp Creating dynamic personalized RSS summaries. 8th Industrial Conference on Data Mining ICDM 2008,, Leipzig, Germany, C. Bouras, V. Poulopoulos, V. Tsogkas, July 2008, pp Networking Aspects for Gaming Systems. Third International Conference on Internet and Web Applications (ICIW 2008), Athens, Greece, C. Bouras, V. Poulopoulos, I. Sengounis, V. Tsogkas, 8-13 June 2008, pp Efficient Summarization Based On Categorized Keywords. The 2007 International Conference on Data Mining (DMIN07), Las Vegas, Nevada, USA, C. Bouras, V. Poulopoulos, V. Tsogkas, June Personalizing text summarization based on sentence weighting. IADIS European First International Conference Data Mining (ECDM 2007), Lisbon, Portugal, C. Bouras, V. Poulopoulos, V. Tsogkas, 3-8 July 2007, pp Input here - Execute there through networks: the case of gaming. The 15th Workshop on Local and Metropolitan Area Networks (LANMAN 2007), Princeton, NJ, USA, C. Bouras, V. Poulopoulos, I. Sengounis, V. Tsogkas, June The importance of the difference in text types to keyword extraction: Evaluating a mechanism. 7th International Conference on Internet Computing 2006 (ICOMP 2006), Las Vegas, Nevada, USA, C. Bouras, C. Dimitriou, V. Poulopoulos, V. Tsogkas, June 2006, pp

40 Αναφορές από ά ους ερευνητές PeRSSonal s core functionality evaluation: Enhancing text labeling through personalized summaries. Data and Knowledge Engineering Journal, Elsevier Science, 2008, Vol. 64, Issue 1, C. Bouras, V. Poulopoulos, V. Tsogkas, 2008, pp Web News Portal Content Personalization using Information Extraction Techniques and Weighted Voronoi Diagrams. Ševa, J., Hybridization of EM and SVM clusters for efficient text categorization, Murugan, S. A., & Suresh, P A Knowledge Document Structured Summarization Model. International Journal of Electronic Business 11.1, Yang, Shih-Ting, and Yu-Ting Gong., 2013, pp Combining summaries using unsupervised rank aggregation. Computational Linguistics and Intelligent Text Processing. Palshikar, Girish Keshav, Shailesh Deshpande, and G. Athiappan Springer Berlin Heidelberg, 2012, pp Improving text summarization using noun retrieval techniques. Advanced Knowledge based Systems, Invited Session of the 12nd International Conference on Knowledge based and Intelligent Information & Engineering Systems(KES 2008), Zagreb, Croatia, C. Bouras, V. Tsogkas, 3-5 September 2008, pp Latent semantic sentence clustering for multi-document summarization. Geiß, Johanna. University of Cambridge, Computer Laboratory, Technical Report UCAM-CL-TR- 802 (2011). 2. Topic-Dependent-Class-Based-Gram Language Model. Audio, Speech, and Language Processing. Naptali, Welly, Masatoshi Tsuchiya, and Seiichi Nakagawa., IEEE Transactions on 20.5 (2012): An alternative approach for statistical single-label document classification of newspaper articles. Mamakis, Georgios, Athanasios G. Malamos, and J. Andrew Ware. Journal of Information Science (2011). 4. A review of retrospective news event detection. Semantic Technology and Information Retrieval (STAIR), Ramadan, Qusai Hussein, and Masnizah Mohd International Conference on. IEEE, i-jen: visual interactive Malaysia crime news retrieval system. Visual Informatics: Sustaining Research and Innovations. Ali, Nazlena Mohamad, et al. Springer Berlin Heidelberg, A Framework for Progressive Trusting Services. International Journal On Advances in Intelligent Systems 3.3 and 4. Dini, Oana, Pascal Lorenz, and Hervé Guyennet. (2011):

41 7. Document Classification in Summarization. Journal of Information and Computing Science 7.1. Mamakis, Georgios, et al. (2012): Online Service Similarities and Reputation-based Selection. The Second International Conferences on Advanced Service Computing Dini, Oana, et al. SERVICE COMPUTATION 2010 Personalization Mechanism for Delivering News Articles on the User s Desktop. The Fourth International Conference on Internet and Web ASpplications and Services ICIW 2009, Venice, Italy, C. Bouras, V. Tsogkas, May 2009, pp Content-based news recommendation. E-commerce and web technologies. Kompan, Michal, and Mária Bieliková. Springer Berlin Heidelberg, Effective hierarchical vector-based news representation for personalized recommendation. Computer Science and Information Systems 9.1. Bieliková, Mária, Michal Kompan, and Dušan Zeleník (2012): Semantic metadata in the news production process: achievements and challenges. Proceeding of the 16th International Academic MindTrek Conference. Pellegrini, Tassilo. ACM, Integrating linked data into the content value chain: a review of news-related standards, methodologies and licensing requirements. Proceedings of the 8th International Conference on Semantic Systems. Pellegrini, Tassilo. ACM, The Economics of Big Data: A Value Perspective on State of the Art and Future Trends. Big Data Computing. Pellegrini, Tassilo. New York: Chapman and Hall/CRC (2013): Classifying News Headlines for Providing User Centered E-Newspaper Using SVM. Deshmukh, R. R., and Mr DK Kirange 7. Vector-based tree news recommendation. Bielikova, Mária, Michal Kompan, and Dušan Zelenik. A clustering technique for news articles using WordNet. Knowledge-Based Systems Journal, Elsevier Science, Vol. 36, C. Bouras, V. Tsogkas, 2012, Subset K-Means Approach for Handling Imbalanced-Distributed Data., Kumar, Ch N. Santhosh, et al. Emerging ICT for Bridging the Future-Proceedings of the 49th Annual Convention of the Computer Society of India CSI Volume 2. Springer International Publishing, Undersampled K-means approach for handling imbalanced distributed data. Progress in Artificial Intelligence. Kumar, N. Santhosh, et al., 2014: Ninaus, G., Reinfrank, F., Stettinger, M., & Felfernig, A. Content-Based Recommendation Techniques for Requirements Engineering.,

42 4. An updated literature review on the problem of Class Imbalanced Learning in Clustering. Kumar, Ch N. Santhosh, et al. 5. Clustering based on Cuckoo Optimization Algorithm. Intelligent Systems (ICIS). Ameryan, Mahya, Mohammad Reza Akbarzadeh Totonchi, and Seyyed Javad Seyyed Mahdavi. Iranian Conference on. IEEE, Locality mutual clustering for document retrieval. Proceedings of the 8th International Conference on Ubiquitous Information Management and Communication. Nguyen, Khu Phi, and Hong Tuyet Tu. ACM, Performance Evaluation of Semantic Approaches for Automatic Clustering of Similar Web Services. Computing and Communication Technologies (WCCCT), Vadivelou, G., and E. Ilavarasan World Congress on. IEEE, Clustering-based topical Web crawling using CFu-tree guided by link-context. Frontiers of Computer Science: Liu, Lu, and Tao Peng 9. Imbalanced K-Means: An algorithm to cluster imbalanced-distributed data. Kumar, Ch N. Santhosh, et al Assigning Web News to Clusters. The Fifth International Conference on Internet and Web Applications and Services, (ICIW 2010), Barcelona, Spain, C. Bouras, V. Tsogkas, May A survey of techniques for event detection in Twitter. Computational Intelligence (2013). Atefeh, Farzindar, and Wael Khreich 2. A review of retrospective news event detection. Semantic Technology and Information Retrieval (STAIR) 2011 International Conference on. IEEE, Ramadan, Qusai Hussein, and Masnizah Mohd., OPTIMAL INITIAL CENTROID IN K-MEANS FOR CRIME TOPIC. Mohd, Masnizah. (2010). 4. i-jen: visual interactive Malaysia crime news retrieval system. Visual Informatics: Sustaining Research and Innovations. Ali, Nazlena Mohamad, et al. Springer Berlin Heidelberg, Feedback-driven clustering for automated linking of web pages. 8th International Conference for Internet Technology and Secured Transactions (ICITST), Oest, Adam, and Manjeet Rege. IEEE, Information Integration in News Articles from Various Sources. Holub, Michal 7. An Intelligent Document Clustering Approach to Detect Crime Patterns. Procedia Technology 11. Bsoul, Qusay, Juhana Salim, and Lailatul Qadri Zakaria. (2013): Article Recommendations for News Feed. Shen, Minghan 27

43 Networking Aspects for Gaming Systems. Third International Conference on Internet and Web Applications (ICIW 2008), Athens, Greece, C. Bouras, V. Poulopoulos, I. Sengounis, V. Tsogkas, 8-13 June 2008, pp large distributed gaming system. Proc. of Networked & Electronic Media Summit (NEM2009). Laikari, Arto, et al. Saint-Malo, France (2009). 2. Gaming platform for running games on low-end devices. User Centric Media. Laikari, Arto, et al. Springer Berlin Heidelberg, Graph of Game Worlds: New Perspectives on Video Game Architectures. Zhu, M. E. N. G., et al. Manuscript submitted for publication (2012). 4. Entertainment Services-Distributed 3D Gaming System. Laikari, Arto, Editor: Pentti Vähä Graphic design: Tuija Soininen (2009): Game Streaming Prototypen mit Hilfe von Serverseitigem Rendering. Moser, Mario. Entwurf eines. na, Software Architectures and the Creative Processes in Game Development. Wang, Alf Inge, and Njål Nordmark, 2014 Clustering user preferences using W kmeans. The 7th International Conference on Signal Image Technology & Internet Based Systems (SITIS 11), Dijion - France, C. Bouras, V. Tsogkas, November 28 - December , pp Semantic preserving text tepresentation and its applications in text clustering. Howard, Michael. (2012). Noun Retrieval Effect on Text Summarization and Delivery of Personalized News Articles to the User s Desktop. Data and Knowledge Engineering, Elsevier Science, Special Issue Advanced Knowledge, Vol. 69, C. Bouras, V. Tsogkas, 2010, pp SyMSS: A syntax-based measure for short-text semantic similarity. Data & Knowledge Engineering. Oliva, Jesús, et al (2011): Analysis and study on text representation to improve the accuracy of the normalized compression distance. Granados, Ana. AI Communications 25.4 (2012): Is the contextual information relevant in text clustering by compression?. Granados, Ana, David Camacho, and Francisco Borja Rodríguez. Expert Systems with Applications (2012): COMPENDIUM: A text summarization system for generating abstracts of research papers. Natural Language Processing and Information Systems. Lloret, Elena, María Teresa Romá-Ferri, and Manuel Palomar. Springer Berlin Heidelberg, Analysis and study on text representation to improve the accuracy of the normalized compression distance. Granados Fontecha, Ana (2012). 28

44 6. Web Service to Execute A Datamining Task. Velkumar, R., A. Muthukumaravel, and N. Sathya W - kmeans: Clustering News Articles using WordNet. Advanced Knowledge - based Systems, Invited Session of the 14th International Conference on Knowledge based and Intelligent Information & Engineering Systems, Cardiff Wales, UK, C. Bouras, V. Tsogkas, September , pp Keen-Means: A Web Page Clustering Tool Based on an Self-Adjustable K-Means Algorithm. Tseng, Chun Hsiung, et al. Ubi-Media Computing and Workshops (UMEDIA), th International Conference on. IEEE, Semantic Framework to Text Clustering with Neighbors. ICT and Critical Infrastructure: Proceedings of the 48th Annual Convention of Computer Society of India-Vol II. Lalitha, Y. Sri, and A. Govardhan. Springer International Publishing, Beyond cluster labeling: Semantic interpretation of clusters contents using a graph representation. Knowledge-Based Systems 56. Role, François, and Mohamed Nadif. (2014): Clustering system based on text mining using the K-means algorithm: news headlines clustering. Lama, Prabin (2013). Adaptation of RSS feeds based on the user profile and on the end device. Journal of Network and Computer Applications, Elsevier Science, Vol. 33, C. Bouras, V. Poulopoulos, V. Tsogkas, 2010, pp Development and performance evaluation of a new RSS tool for a Web-based system: RSS_PROYECT. Journal of Network and Computer Applications De La Torre- DíEz, Isabel, et al (2013): Automatic multi-label categorization of news feeds. Darabi, Majid, Hossein Adeli, and Nasseh Tabrizi Creating dynamic personalized RSS summaries. 8th Industrial Conference on Data Mining ICDM 2008,, Leipzig, Germany, C. Bouras, V. Poulopoulos, V. Tsogkas, July 2008, pp RSS feeds behavior analysis, structure and vocabulary. Travers, Nicolas, et al. International Journal of web information systems 10.3 (2014): Characterizing web syndication behavior and content. Web Information System Engineering WISE Hmedeh, Zeinab, et al. Springer Berlin Heidelberg, Everything you would like to know about RSS feeds and you are afraid to ask. BDA 11, Base de Données Avancées. Hmedeh, Zeinab, et al. (2011):

45 ΠΡΟΛΟΓΟΣ Όταν το κα οκαίρι του 2002 μά αινα, με απερί ραπτη αρά, ότι ινόμουν δεκτός στο ΤΜΗΥΠ του Πανεπιστημίου Πατρών, ποτέ δεν α περίμενα ότι 12 ρόνια αρ ότερα, α ο οκ ήρ να ένα κείμενο σαν το παρόν. Μία διδακτορική διατρι ή, η οποία αποτε εί το επιστέ ασμα προσπα ειών, ρόνου α ά και προσ πικής αράς και ικανοποίησης από κά ε άποψη. Η εματο ο ία με την οποία ασ ο ή ηκα από την προπτυ ιακή διπ ματική μου ερ ασία, στην μεταπτυ ιακή μου ερ ασία και τώρα στην διδακτορική μου διατρι ή, ήταν μία ήμα προς ήμα προσέ ιση, ένα υπέρο ο ταξίδι στους συ κεκριμένους τομείς της επιστήμης τ ν υπο ο ιστών που ε ρώ ότι μου προσέφερε σημαντικά εφόδια σαν μη ανικό, επιστήμονα, α ά και πάν απ ό α σαν άν ρ πο. Θε ρώ τον εαυτό μου εξαιρετικά τυ ερό που εί α την ευκαιρία να κάν αυτό το ταξίδι σε αυτή τη σ ο ή και με αυτόν τον τρόπο. Βρισκόμενος οιπόν πριν από το τέ ος του δρόμου α ή ε α να ευ αριστήσ ορισμένους αν ρώπους που πρα ματικά με οή ησαν ό α αυτά τα ρόνια, είτε σε ακαδημαϊκό, είτε σε προσ πικό επίπεδο, και ρίς τους οποίους ίσ ς να μην ρισκόμουν σε αυτή την ευ άριστη ια μένα έση. Θα ή ε α οιπόν να ευ αριστήσ τον κα η ητή μου Χρήστο Μπούρα ια την στήριξη και υπομονή που έδειξε προς το πρόσ πό μου ό α αυτά τα ρόνια. Ο ιδιαίτερος τρόπος με τον οποίο αντιμετώπιζε ότι εί ε να κάνει με την ακαδημαϊκή μου σταδιοδρομία, μου έδινε ώ ηση και όραμα ια να συνε ίζ την προσπά εια. Επιπ έον, ευ αριστώ ερμά τον κα η ητή κ. Ευστράτιο Γα όπου ο και τον επίκουρο κα η ητή κ. Χρήστο Μακρή ια την συμμετο ή και στήριξή τους ς μέ η της τριμε ούς επιτροπής, τόσο στην μεταπτυ ιακή μου ερ ασία, όσο και στην παρούσα. Επίσης, ευ αριστώ τους κα η ητές κ. Νικό αο Α ούρη, Α ανάσιο Τσακα ίδη, Ι άννη Γαροφα άκη και Βασί ειο Με α οοικονόμου ια την συμμετο ή τους στην επταμε ή επιτροπή αξιο ό ησης της παρούσας διδακτορικής διατρι ής. Ευ αριστώ από τα ά η της καρδιάς μου τους ονείς μου, Θρασύ ου ο και Θεοδώρα, που με την α άπη και τις αξίες που με με ά σαν, με έκαναν έναν ρήσιμο, σκεπτόμενο και πάν απ ό α Άν ρ πο. Την αδερφή μου, Α εξάνδρα, ια την καταπ ηκτική παιδική η ικία που μοιραστήκαμε και συ νά αναπο ώ και ια το αμό ε ό της. Η ερ ασία αυτή είναι αφιερ μένη στους δύο αν ρώπους που μοιράζονται την πρώτη έση στην 30

46 καρδιά μου. Στην υναίκα μου, Αντι όνη, που είναι πάντα δίπ α μου, συνοδοιπόρος, στα κα ά και στα άσ ημα, με υπομονή και α άπη ια να με στηρίζει. Και φυσικά στο ιο μου, το νόημα και το φ ς της ζ ή μου, τον ό ο ια τον οποίο αισ άνομαι πρα ματικά υπερήφανος σε αυτό τον κόσμο. Κ είνοντας α ή ε α να εκφράζ την ε πίδα μου προς τον ανα νώστη ότι η ανά ν ση της διδακτορικής διατρι ής α είναι τόσο ευ άριστη, ενδιαφέρουσα και δημιουρ ική όσο ήταν η συ ραφή της. Τσό κας Βασί ης, Πάτρα, Δεκέμ ριος

47

48 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ Above all things, reverence yourself. Pythagoras, Greek Mathematician, 497 BC Το παρόν κεφά αιο παρουσιάζει ενικά στοι εία ια την διδακτορική διατρι ή που πρα ματοποιή ηκε, δίνει ορισμένες εισα ικές π ηροφορίες α ίζοντας τις ερευνητικές περιο ές με τις οποίες καταπιάνεται και παρα έτει τη δομή της ερ ασίας. 33

49

50 1.1 Γενικά Ζούμε σε μια κοιν νία α α ής και προόδου. Σε μια κοιν νία που αρακτηρίζεται από τον τεράστιο ό κο της π ηροφορίας που διακινείται μέσα στις τάξεις της. Κυρί ς όμ ς διανύουμε την επο ή της κατάρ ησης τ ν συνόρ ν και της αδιά ειπτης επικοιν νίας μεταξύ τ ν αν ρώπ ν. Το διαδίκτυο αποτε εί τον τρο ό ι αυτές τις α α ές, η ποσότητα όμ ς τ ν δεδομέν ν που υπάρ ουν και διακινούνται μέσ αυτού είναι τόσο τεράστια, ώστε να αποσπά τους πο ίτες της κοιν νίας αυτής στην προσπά ειά τους να ρουν ρήσιμη π ηροφορία και επομέν ς να μετατρέπεται σε τρο οπέδη της α α ής. 1.2 Υπάρ ουσα κατάσταση Τα άρ ρα νέ ν π ημμυρίζουν το διαδίκτυο τόσο με το ακραία με ά ο π ή ος τους, τόσο και από την ο οένα και αυξανόμενη συ νότητα εμφάνιση τ ν πη ών τους. Είναι πρακτικά αδύνατο ια έναν ρήστη του διαδικτύου σήμερα να μπορέσει να παρακο ου ήσει ρίς οή εια (π.. φι τράρισμα ή μέσ προτάσε ν) ένα ε ονός ή μια σειρά ε ονότ ν που τον ενδιαφέρουν. Παρά η α, η αμερο ηψία στην ενημέρ ση είναι ένα μείζον έμα το οποίο δύσκο α αντιμετ πίζεται δί ς σφαιρική ενημέρ ση επί τ ν εν ό ε ονότ ν από πο απ ές πη ές. Από την ά η π ευρά, η συσταδοποίηση άρ ρ ν νέ ν παρέ ει ένα ισ υρό ερ α είο από το πεδίο της ανάκτησης π ηροφορίας ια τον εντοπισμό εμάτ ν (συστάδ ν) π ηροφορίας σε κείμενα. Η συσταδοποίηση μπορεί συνεπώς να αποτυπώσει την υποκείμενη ιεραρ ία περιε ομένου με ά ου π ή ους αντικειμέν ν, παρέ οντας έτσι στα συστήματα ανάκτησης π ηροφορίας (π.. συστήματα προτάσε ν) την δυνατότητα διευκό υνσης τ ν ρηστών, οη ώντας έτσι στην αντιμετώπιση της προαναφερ είσας κατάστασης. 1.3 Περι ραφή της ερ ασίας Η παρούσα διδακτορική διατρι ή προσ έπει στο σ εδιασμό, στην ανάπτυξη και τε ικά στην αξιο ό ηση μη ανισμών και καινοτόμ ν α ορί μ ν από τις περιο ές της ανάκτησης π ηροφορίας, της επεξερ ασίας φυσικής ώσσας κα ώς και της μη ανικής εκμά ησης που α παρέ ουν ένα υψη ό επίπεδο φι τραρίσματος τ ν άρ ρ ν νέ ν του διαδικτύου προς τον τε ικό ρήστη. Πιο συ κεκριμένα, στα διάφορα στάδια επεξερ ασίας της π ηροφορίας αναπτύσσονται τε νικές και μη ανισμοί που συ έ ουν, δεικτοδοτούν, φι τράρουν και επιστρέφουν κατά η α στους ρήστες κειμενικό περιε όμενο που πη άζει από τον πα κόσμιο ιστό. Πυρήνας της διδακτορικής διατρι ής είναι η ανάπτυξη ενός μη ανισμού συσταδοποίησης (clustering) τόσο κειμέν ν, όσο και τ ν ρηστών του διαδικτύου. Στο π αίσιο αυτό με ετή ηκαν κ ασικοί α - όρι μοι συσταδοποίησης οι οποίοι και αξιο ο ή ηκαν ια την περίπτ ση τ ν άρ ρ ν, κειμένου προκειμένου να εκτιμη εί αν και πόσο αποτε εσματικός είναι ο εκάστοτε α όρι μος. Σε δεύτερη

51 1.3. Περιγραφή της εργασίας Κεφάλαιο 1 φάση υ οποιή ηκε α όρι μος συσταδοποίησης άρ ρ ν νέ ν που αξιοποιεί μια εξ τερική άση νώσης, το WordNet, και είναι προσαρμοσμένος στις απαιτήσεις τ ν άρ ρ ν νέ ν που πη άζουν από το διαδίκτυο. Ένας ακόμη ασικός στό ος της παρούσας ερ ασίας είναι η μοντε οποίηση τ ν κινήσε ν που ακο ου ούν κοινοί ρήστες κα ώς και η αυτοματοποιημένη αξιο ό ηση τ ν συμπεριφορών, με ορατό ετικό αποτέ εσμα την πρό εψη τ ν προτιμήσε ν που α εκφράσουν στο μέ ον οι ρήστες. Η μοντε οποίηση τ ν ρηστών έ ει άμεση εφαρμο ή στις δυνατότητες προσ ποποίησης της π ηροφορίας με την πρό εψη τ ν προτιμήσε ν τ ν ρηστών. Ως εκ τούτου, υ οποιή ηκε α όρι μος προσ ποποίησης ο οποίος αμ άνει υπ όψιν του π η ώρα παραμέτρ ν που αποκα ύπτουν έμμεσα τις προτιμήσεις τ ν ρηστών. Σκοπός της διδακτορικής διατρι ής είναι η επέκταση και η ε τί ση, προς συ κεκριμένες κατευ ύνσεις, του μη ανισμού που δημιουρ ή ηκε στα π αίσια της μεταπτυ ιακής διπ ματικής ερ- ασίας που εκπόνησα με τίτ ο Προσωποποιημένη Προβολή Περιεχομένου του διαδικτύου σε Desktop Εφαρμογή με Τεχνικές ανάκτησης δεδομένων, προεπεξεργασίας κειμένου, αυτόματης κατηγοριοποίησης και εξαγωγής περίληψης [235]. Στα π αίσια της παραπάν μεταπτυ ιακής ερ ασίας, δημιουρ- ή ηκε ένας ο οκ ηρ μένος μη ανισμός ο οποίος μπορεί αυτόματα να κάνει ανά υση σε κείμενα του διαδικτύου προκειμένου να εξά ει έξεις-κ ειδιά. Μέσα από αυτή την ανά υση προκύπτουν οι σημαντικότερες προτάσεις του κειμένου που το αρακτηρίζουν, και οι οποίες μπορούν, αν συνεν ούν, να αποτε έσουν μια σύντομη περί ηψη του κειμένου. Ο μη ανισμός αξιοποιεί νώσεις ια την κατη ορία του κειμένου κα ώς και ια τις προτιμήσεις που παρουσιάζουν οι ρήστες προκειμένου να ε τιώσει και να φι τράρει τα αποτε έσματα που παρουσιάζονται. Το σύστημα που κατασκευάστηκε έ ει τα εξής ασικά υποσυστήματα: μη ανισμός ανάκτησης δεδομέν ν και εξα- ής ρήσιμου κειμένου από τον πα κόσμιο ιστό, μη ανισμός εξα ής έξε ν-κ ειδιών από το πη αίο κείμενο, μη ανισμός κατη οριοποίησης κειμένου, ο οποίος μπορεί να συμμετάσ ει στη διαδικασία εξα ής περί ηψης και να ενδυναμώσει τα αποτε έσματά της, μη ανισμοί προσ ποποίησης περιε ομένου στο ρήστη και φυσικά, μη ανισμός εξα ής περί ηψης. Οι παραπάν μη ανισμοί είναι ενσ ματ μένοι στο σύστημα αποδε τί σης PeRSSonal [171], το οποίο ρησιμοποιείται ια την ανάκτηση, προεπεξερ ασία, κατη οριοποίηση, προσ ποποίηση και περί ηψη άρ ρ ν από ειδησεο ραφικούς τόπους του διαδικτύου. Για τη δημιουρ ία του μη ανισμού PeRSSonal συμμετεί αν οι Βασί ης Που όπου ος (συντονισμός ερ ασίας, κατασκευή ο οκ ηρ μένου διαδικτυακού περι ά οντος PeRSSonal, δημιουρ ία α ορί μ ν συ κέντρ σης κειμέν ν, εξα ής εικόν ν, κατη οριοποίησης, εξα ής περι ήψε ν, προσ ποποίησης, προσαρμο ής στο ρήστη) [36] [35] [8] [37] [14], Γεώρ ιος Αδάμ (advarss, cuter, m-cuter + υποστήριξη συνο ικά του συστήματος) [5] [6] [7] [4], Κ νσταντίνος Ασημάκης (greek stemmer and tagger) [5], Γεώρ ιος Τσι ριτζής (garbage article location) [38] και Βασί- ης Τσό κας (οι δημοσιεύσεις δίνονται στην επιτε ική σύνοψη), ενώ ια κομμάτια τα οποία δεν μπήκαν ποτέ στο μη ανισμό ια ερευνητικούς ό ους έ ουν ερ ασ εί οι Αντ νέ ης Ι άννης και Σι ιντζήρης Πανα ιώτης, ερ ασίες τ ν οποί ν έ ουν δημοσιευ εί. Η παρούσα διδακτορική διατρι ή επομέν ς τίζει πάν και επεκτείνει τα αποτε έσματα της μεταπτυ ιακής ερ ασίας και ς εκ τούτου μοιράζεται ένα αρκετά με ά ο κομμάτι τ ν μη ανισμών 36

52 Κεφάλαιο Περιγραφή της εργασίας και α ορί μ ν. Κατά συνέπεια, ερευνητικά έματα ή α ορι μικά κομμάτια που παραμένουν αμετά ητα δεν ανα ύονται διεξοδικά στην παρούσα διδακτορική διατρι ή. Αντ αυτού, αναφέρονται συνοπτικά ή προτείνεται στον ανα νώστη να ανατρέξει στα σ ετικά εδάφια της μεταπτυ ιακής ερ ασίας όπου αυτό κρίνεται ανα καίο. Ο σκοπός οιπόν της παρούσας ερ ασίας είναι διττός. Πρώτον, η ενίσ υση ορισμέν ν από τ ν υπαρ όντ ν διαδικασιών του μη ανισμού που δημιουρ ή ηκε πρότερα με αποτε εσματικότερες με- όδους, ευρετικά και α ορί μους. Δεύτερο, η ανάπτυξη και αξιοποίηση α ορί μου συσταδοποίησης άρ ρ ν νέ ν και ρηστών του συστήματος κα ώς και η με έτη της έ τιστης α η επίδρασης τ ν υποσυστημάτ ν με την νέα παράμετρο της συσταδοποίησης π ηροφορίας. Φυσικά τα παραπάν αξιο ο ούνται τόσο αυτοτε ώς όσο και σε συνδυασμό μεταξύ τους προκειμένου να αποδει εί η ρησιμότητά τους συ κεκριμένα ια το σύστημά μας α ά και ενικά ια τα συστήματα προτάσε ν άρ ρ ν νέ ν. Πιο συ κεκριμένα οιπόν, στο στάδιο προεπεξερ ασίας κειμένου, οι α όρι μοι ανα νώρισης και εξα ής ρήσιμου κειμένου έ ουν ενισ υ εί και ε τιστοποιη εί ώστε να εκτε ούνται τα ύτερα και να επιστρέφουν με υψη ότερη ακρί εια το περιε όμενο που ανταποκρίνεται στο φέ ιμο κείμενο μιας ιστοσε ίδας. Συνοπτικά, η ε τί ση αφορά στη ανάκτηση και αξιοποίηση n-grams έξε ν κα ώς και στην ρήση της εξ τερικής άσης νώσης WordNet. Η εφαρμο ή τ ν νέ ν τε νικών προεπεξερ ασίας κειμένου έ ει ς αποτέ εσμα την κα ύτερη νοηματική απεικόνιση τ ν άρ ρ ν νέ ν στον διανυσματικό ώρο τ ν έξε ν κ ειδιών και n-grams που ανακτούνται, κάτι που όπ ς αποδεικνύεται και πειραματικά, έ ει αξιό ο α οφέ η ια τις διαδικασίες που ακο ου ούν. Ιδιαίτερα δε ια την προσ ποποιημένη επι ο ή άρ ρ ν νέ ν στα μέτρα του εκάστοτε ρήστη, η οποία και είναι ο ασικός στό ος ενός συστήματος προτάσε ν. Στη συνέ εια ακο ου εί το ο οκαίνουρ ιο υποσύστημα συσταδοποίησης δεδομέν ν που ειτουρ εί τόσο σε άρ ρα νέ ν όσο και ρήστες του συστήματος. Για το υποσύστημα αυτό, αφού με- ετή ηκε και αξιο ο ή ηκε μια π η ώρα α ορί μ ν συσταδοποίησης, τόσο ιεραρ ικών (hierarchical) όσο και διαιρετικών (partitional), ερευνή ηκε και υ οποιή ηκε μία νέα παρα α ή του πασί ν στου α ορί μου συσταδοποίησης, k-means. Ο α όρι μος αυτός, τον οποίο και ονομάσαμε W- kmeans (WordNet-enabled k-means), αξιοποιεί την εξ τερική άση νώσης WordNet προκειμένου να ενισ ύσει την υπάρ ουσα κειμενική π ηροφορία με παρόμοια/παραπ ήσια, αξιοποιώντας την σ έση υπερ νύμ ν/υπo νύμ ν που ανακτάται από το WordNet. Στο εύει επομέν ς στην εύρεση υποκείμεν ν σ έσε ν μεταξύ άρ ρ ν ή ρηστών που συ νά δεν κατα ράφονται μόνο με την ρήση τ ν έξε ν κ ειδιών που αποτε ούν μέρος αυτών. Η προσ ποποιημένη παρουσίαση τ ν αποτε εσμάτ ν στη μεριά του ρήστη επίσης ενισ ύεται μέσ τ ν τε νικών συσταδοποίησης. Ο α όρι μος προσ ποποίησης αμ άνει υπ όψιν του πο ές παραμέτρους, μεταξύ τ ν οποί ν το ιστορικό περιή ησης, οι ρόνοι που μένει ο ρήστης σε κάποιο άρ ρο, οι επι ο ές του και φυσικά τα αποτε έσματα της συσταδοποίησης, με σκοπό να παρά ει το προφί του. Ο α όρι μος προσ ποποίησης που προτείνεται ουσιαστικά μα αίνει από τις επι ο ές του ρήστη και προσαρμόζεται στις πρα ματικές προτιμήσεις του με το πέρασμα του ρόνου. Έτσι το σύστημα μπορεί να ανταποκρίνεται στις διαρκώς μετα α όμενες προτιμήσεις τ ν ρηστών, 37

53 1.4. Δομή της εργασίας Κεφάλαιο 1 στοι είο εξαιρετικά επ φε ές ια ένα σύστημα προτάσε ν. Μία ακόμη άμεση αξιοποίηση του νέου α ορί μου W-kmeans που αποτέ εσε επίσης τμήμα της διδακτορικής διατρι ής ήταν η αντιμετώπιση του προ ήματος νέου ρήστη. Το πρό ημα αυτό αποτε εί μια κατάσταση με την οποία έρ ονται συ νά αντιμέτ πα τα συστήματα προτάσε ν και που επηρεάζει αρνητικά την απόδοσή τους. Η αξιοποίηση της π ηροφορίας συσταδοποίησης ς προς αυτή την κατεύ υνση μας οή ησε μέσ συ κεκριμέν ν α ορι μικών ημάτ ν να αντιμετ πίσουμε πρακτικά και με ί α ήματα το εν ό πρό ημα, αξιοποιώντας μία ο ική ανατροφοδότηση σ ετικά με τις επι ο ές αξιο ό ησης που πρα ματοποιούν οι ρήστες. Συνο ικά, μέσα από την ερ ασία προέκυψαν αποτε έσματα που έ ουν να κάνουν με σύ κριση α ορί μ ν σε ό α τα παραπάν στάδια του μη ανισμού α ά και ανταπόκριση του μη ανισμού στις ανά κες του ρήστη. Τα αποτε έσματα αυτά, τα οποία και παρουσιάζονται, είναι ιδιαίτερα εν αρρυντικά και μας παρακινούν ια περαιτέρ έρευνα στα έματα με τα οποία καταπιαστήκαμε, κα ώς και στα ενικότερα ερευνητικά πεδία που αυτά αναφέρονται. 1.4 Δομή της ερ ασίας Η υπό οιπη ερ ασία δομείται ς εξής: στο κεφά αιο 2 ίνεται μία ενικότερη κατα ραφή τ ν προ ημάτ ν στα οποία απευ ύνεται η διδακτορική διατρι ή. Στο κεφά αιο 3 παρουσιάζονται οι τρέ ουσες εξε ίξεις στα ερευνητικά πεδία που μας αφορούν (State of the Art) κα ώς και οι σ ετικές ερ ασίες πάν στις οποίες ασίζεται η διδακτορική διατρι ή. Στο κεφά αιο 4 ίνεται μια ενικότερη περι ραφή της αρ ιτεκτονικής και τ ν αρακτηριστικών που προτείνεται ια ένα σύστημα προτάσε ν άρ ρ ν νέ ν - το σύστημα δη αδή που προϋπήρ ε και η παρούσα διατρι ή ανα α μίζει. Ακο ου εί η παρουσίαση τ ν α ορί μ ν που αναπτύ ηκαν ια κα ένα από τα υποσυστήματα (κεφά αιο 5). Στο κεφά αιο 6 παρουσιάζονται οι τε νο ο ίες που ρησιμοποιή ηκαν ια την υ οποίηση του συστήματος κα ώς και οι προδια ραφές του. Στο κεφά αιο 7 ίνεται μια ανα υτική παρουσίαση τ ν δεδομέν ν και τ ν πειραματικών αποτε εσμάτ ν που αφορούν στην αξιο ό ηση του συστήματος. Στο κεφά αιο 8 δίνονται τα συμπεράσματα που προέκυψαν από την ερ ασία και τέ ος στο κεφά αιο 9 παρουσιάζονται κάποιες προτάσεις ια με οντική επέκταση του μη ανισμού, κα ώς και η ενικότερη με οντική ερ ασία που α μπορούσε να ίνει σε κα ένα από τα υποσυστήματα με τα οποία καταπιαστήκαμε. 38

54

55 ΚΕΦΑΛΑΙΟ 2 ΚΑΘΟΡΙΣΜΟΣ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ The only true wisdom is in knowing you know nothing. Socrates, Greek Philosopher, 469 BC Στο παρόν κεφά αιο ίνεται μία συνοπτική παρουσίαση τ ν εμάτ ν με τα οποία καταπιάνεται η διδακτορική διατρι ή. Αναφέρουμε τα προ ήματα που αφορούν στην κα ημερινή ρήση του διαδικτύου και εξη ούμε π ς και ιατί προσπα ούμε να τα επι ύσουμε. Πιο συ κεκριμένα, παρουσιάζονται ορισμένες προ ηματικές καταστάσεις οι οποίες είναι συ νές στο διαδίκτυο και αφορούν: α) στο τρόπο που μπορεί να ίνει αποτε εσματικότερο το φι τράρισμα π ηροφορίας σε άρ ρα νέ ν (news articles), ) στην ε τιστοποίηση διαδικασιών που τυπικά ρησιμοποιεί ένα σύστημα προτάσε ν και ) σε πιο πρακτικά ζητήματα που αντιμετ πίζουν αυτά - όπ ς ια παράδει μα η εκτίμηση του π ή ους τ ν συστάδ ν σε ένα π ή ος κειμέν ν ή η αντιμετώπιση του προ ήματος νέου ρήστη. 40

56

57 2.1 Γενικά Το διαδίκτυο είναι π έον παντού: σε κά ε συσκευή, σε κά ε μεριά του σπιτιού στην κοιν νία ο όκ ηρη. Εξά ου, το διαδίκτυο τ ν πρα μάτ ν (Internet of Things (IoT)), στο οποίο η συνδεσιμότητα συσκευών από παντού με στο διαδίκτυο έ ει ριμάσει αρκετά ώστε να αποτε εί π έον μια κα ημερινότητα. Με νούμερα, η ρήση του διαδικτύου την δεκαετία έ ει αυξη εί κατά το ασύ ηπτο ποσοστό του 220% [101] και το δεικτοδοτημένο μέ ε ός του από τις μη ανές αναζήτησης Google [83] και Bing [31], το 2014 του ά ιστον, ξεπερνά τις 50 δισεκατομμύρια σε ίδες [221]. Και αυτό αποτε εί μόνο το περιε όμενο που είναι προσ άσιμο, ή α ιώς, δεικτοδοτείται, από τις μη ανές αναζήτησης - μη υπο ο ίζοντας επομέν ς το περιε όμενο του Deep Web. Παρά η α, η συνδυαστική έκρηξη που αμ άνει ώρα όσον αφορά στις τε νο ο ίες που ρησιμοποιούνται στο διαδίκτυο και κατ επέκταση στις νέες υπηρεσίες, τα νέα κοιν νικά δίκτυα που ο οένα και αυξάνονται σε π ή ος κα ώς και η διείσδυση της ευρυζ νικότητας σε ο οένα και με α ύτερα ποσοστά του π η υσμού, φυσικά κάνει την δημιουρ ία νέου περιε ομένου πιο απ ή και ρη ορότερη από ποτέ. Χαρακτηριστικό παράδει μα εδώ αποτε εί το ΥouΤube [225], στο οποίο κά ε επτό που περνάει ανε αίνουν ίντεο α ροιστικής διάρκειας 100 ρών! Ό α αυτά τα στοι εία μας οδη ούν στο συμπέρασμα ότι η διαδικασία αναζήτησης και η επιτυ ής εύρεση π ηροφορίας που μας ενδιαφέρει στο διαδίκτυο είναι αν μη τι ά ο μια υπό εση δύσκο η. Θα μπορούσε εύκο α να ειπ εί ότι όπ ς κά ε κοιν νία, έτσι και το διαδίκτυο, έ ει τα δικά του προ ήματα. Πη ή αυτών τ ν προ ημάτ ν μπορεί να ε ρη εί η άναρ η δόμησή του, η έ ειψη σαφούς νομο εσίας α ά και η αίσ ηση ε ευ ερίας που αφήνει τους κατοίκους του να ενερ ούν ουσιαστικά κατά ού ηση, ρίσκοντας στο διαδίκτυο μία επανάσταση που έ ουν στην πρα ματική τους ζ ή, έναν τρόπο έκφρασης ιδεών, έναν τρόπο έκφρασης της νώσης και της μά ησης. Τη σήμερον ημέρα, η ε ευ ερία της έκφρασης και του ό ου πα κοσμί ς διασφα ίζεται από τον τρόπο με τον οποίο διακινείται το περιε όμενο στο διαδίκτυο. Η διά υση νώσης και εμπειρίας α μπορούσαν επίσης να αρακτηριστούν σαν ετικά επακό ου α από την ύπαρξη με ά ου ό κου π ηροφορίας στον πα κόσμιο ιστό. Θα πρέπει όμ ς κανείς να ανα ο ιστεί κατά πόσο ό ος αυτός ο ό κος π ηροφορίας και ό ες οι πη ές ενημέρ σης του διαδικτύου είναι έ κυρες. Δεν υπάρ ει απο ύτ ς κανένας μη ανισμός που να μπορεί να διασφα ίσει σε κά ε επισκέπτη του διαδικτύου π ς οι σε ίδες που παρακο ου εί και το περιε όμενο που συ έ ει είναι αξιόπιστο και ποιοτικό. Π έον, ακόμα και ο μέσος ρήστης, ν ρίζει μη ανισμούς μέσα από τους οποίους μπορεί να ρει στοι εία ια οποιοδήποτε έμα. Κανείς όμ ς δε μπορεί να του ε υη εί επιτυ ία και τα ύτητα στη διαδικασία ανεύρεσης α ά πάν απ ό α, ποιότητα στα αποτε έσματα της εκάστοτε αναζήτησής του. Απαιτούνται καινοτόμες τε νικές, νέες ιδέες και νέες προσε ίσεις ια να αντιμετ πιστεί το πρό ημα. Οι ρήστες δεν έ ουν απ ά π ηροφορία, έ ουν να μπορούν να εντοπίζουν εύκο α και ρή ορα ποιοτική π ηροφορία, π ηροφορία που τους ενδιαφέρει και ταιριάζει με το ύφος τους.

58 Κεφάλαιο Γενικά Ακόμα περισσότερο, επι υμούν αυτή η π ηροφορία να τους προσφέρετε μέσα από αυτόματους μη ανισμούς που έ ουν τη δυνατότητα να φι τράρουν το άος του διαδικτύου. Η έ ειψη ποιότητας στης τάξεις του διαδικτύου έ ει κεντρίσει το ενδιαφέρον της επιστημονικής κοινότητας εδώ και αρκετά ρόνια. Πο ά πεδία της επιστήμης της π ηροφορικής, και ό ι μόνο, ρίσκονται στο επίκεντρο του ενδιαφέροντος: data mining, text analysis, text categorization, semantic web και πο ά ακόμα, τα οποία αν και ήταν ν στά ακόμα και πριν την εξάπ ση του διαδικτύου, επανεξετάζονται κα ώς φαίνεται να είναι αυτά που δίνουν ύσεις στα μειονεκτήματά του Άρ ρα νέ ν Στην παρούσα διδακτορική διατρι ή δε α ανα ούμε στην κατα ραφή τ ν πο ών, αν μη τι ά ο, προ ημάτ ν του διαδικτύου α ά α επικεντρ ούμε σε ένα κομμάτι τ ν προ ημάτ ν που προκύπτουν από την αέναη, κα ημερινή και καται ιστική παρα ή π ηροφορίας σε αυτό. Ακόμα περισσότερο, α εστιάσουμε την προσο ή μας στις π ηροφορίες που δημιουρ ούνται σε κα ημερινή άση από την π η ώρα τ ν ενημερ τικών δικτυακών πυ ών που κατακ ύζουν στην κυριο εξία το διαδίκτυο. Ο ό ος ια τα ν στά άρ ρα νέ ν ή α ιώς news articles, τα οποία αποτε ούν κειμενική π ηροφορία ενημέρ σης που πη άζει από news portals του διαδικτύου. Ένα άρ ρο νέου κατα ράφει πρόσφατη ή τρέ ουσα π ηροφορία σ ετικά με ένα ε ονός το οποίο παρουσιάζει ενικό (ή μη) ενδιαφέρον ή συσ ετίζεται με συ κεκριμένη εματο ο ία (π.. πο ιτική ή α ητική). Μπορεί να περι αμ άνει ή να μην περι αμ άνει αυτόπτες μάρτυρες οι οποίοι είδαν το ε ονός. Επίσης, μπορεί να περι αμ άνει φ το ραφικό υ ικό, στατιστικά στοι εία, ραφικές αναπαραστάσεις, συνεντεύξεις, δημοσκοπήσεις, αντιπαρα έσεις σε κάποιο έμα, κ. π. Επικεφα ίδες συ νά ρησιμοποιούνται ια να τρα ήξουν το ενδιαφέρον τ ν ανα ν στών σε ένα συ κεκριμένο μέρος του άρ ρου ή και σε ό ο. Ο συ ραφέας ενός άρ ρου νέου μπορεί να παρα έτει ε ονότα και ανα υτικές π ηροφορίες που απαντούν σε ερ τήσεις όπ ς: ποιος, τι, πότε, που, ιατί και π ς. Αν και ο παραπάν ορισμός μοιάζει να ταιριάζει σε άρ ρα νέ ν που δημοσιεύονται στον έντυπο τύπο, η η εκτρονική τους εκδο ή δεν διαφέρει σε τίποτα Web, News και Meta portals Στην παρούσα ενότητα αναφέρουμε ορισμένες π ηροφορίες ια τις πύ ες π ηροφόρησης στο διαδίκτυο, ν στές και ς portals Web portals Ένα web portal είναι συ νά ένας ειδικά σ εδιασμένος ιστότοπος ο οποίος συνδυάζει και α ροίζει π ηροφορία από διάφορες πη ές με έναν ενιαίο τρόπο. Συνή ς κά ε πη ή π ηροφορίας έ ει μία συ κεκριμένη έση στον ιστότοπο ια την απεικόνιση π ηροφορίας (συ νά αναφέρεται ς portlet). Ο ρήστης μπορεί να ρυ μίζει τις π ηροφορίες που α φαίνονται σε αυτό. Ο ενιαίος τρόπος με τον οποίο η π ηροφορία απεικονίζεται σε ένα web portal εξαρτάται συ νά τόσο από τον ρήστη στον οποίο απευ ύνεται, όσο και από την ποικι ομορφία του περιε ομένου. 43

59 2.1. Γενικά Κεφάλαιο 2 Ένα web portal μπορεί να έ ει μία διεπαφή αναζήτησης, (search API) η οποία επιτρέπει στους ρήστες να αναζητούν περιε όμενο μέσα στο ίδιο το portal. Ά ες υπηρεσίες που μπορεί να παρέ ει ένα web portal είναι η δυνατότητα αντα α ής μηνυμάτ ν ( ή IM), απεικόνιση π ηροφορίας πρα ματικού ρόνου (π.. τιμές μετο ών), π ηροφορίες από Βάση Δεδομέν ν (ΒΔ) ή ακόμα και περιε όμενο ψυ α ίας (π.. ι ία ή ταινίες). Μερικά παραδεί ματα από web portals (κάποια από τα οποία π έον δεν υπάρ ουν) είναι τα εξής: AOL [15], Excite [66], Netvibes [155], igoogle [99], MSN [148], Naver [153], Lycos [134], Indiatimes [100], Rediff [180], Yahoo! [223], κ. α News portals Μια ειδική υποκατη ορία από web portals αποτε ούν τα news portals, τα οποία και επικεντρώνονται στην δεικτοδότηση άρ ρ ν νέ ν από διάφορες πη ές. Πρόκειται επομέν ς ια Δικτυακούς τόπους που σαν στό ο έ ουν την ενημέρ ση τ ν ρηστών του διαδικτύου ια τα επίκαιρα κυρί ς νέα σε πα κόσμιο επίπεδο. Μερικά και πο ύ σημαντικά από αυτά είναι το CNN[52], το BBC[25], το Reuters[182], το FoxNews[70], κα ώς και οι υπηρεσίες που προσφέρονται από τους πο υπ η είς και από τους π έον ανα ν ρίσιμους δικτυακούς τόπους Google[83] και Yahoo[223]. Οι Δικτυακοί αυτοί τόποι εστιάζονται στο να ενημερώνουν τους ρήστες τους ια ότι συμ αίνει κα ημερινά στον π ανήτη. Τα νέα/άρ ρα παρουσιάζονται με δομημένο τρόπο στις συ κεκριμένες σε ίδες, στόσο το π ή ος τους είναι τέτοιο ώστε να είναι σ εδόν αδύνατο από κάποιον ρήστη να μπορέσει εντός του εικοσιτετραώρου να παρακο ου ήσει ό ες τις ειδήσεις που δημοσιεύονται στις πο ές διαφορετικές κατη ορίες. Ακόμα και η εστίαση σε μία συ κεκριμένη κατη ορία απαιτεί τη συνε ή και διαρκή παρακο ού ηση κά ε δικτυακού τόπου προκειμένου να υπάρ ει π ήρης ενημέρ ση. Επίσης, πο ά από αυτά τα νέα παρουσιάζονται από την οπτική νία του αρ ρο ράφου κα ώς σπάνια - π έον - δημοσιεύονται ακέραια ακόμα και τα δε τία τύπου, με αποτέ εσμα να άνεται συ νά το κριτήριο της αντικειμενικότητας μίας είδησης. Απόρροια ό ν τ ν παραπάν είναι το εξής: οι ρήστες του διαδικτύου δυσκο εύονται στον εντοπισμό μίας είδησης που τους ενδιαφέρει με αποτέ εσμα να ανα ώνουν το ρόνο τους στην αναζήτηση της είδησης, του νέου, του άρ ρου, παρά στην ανά ν ση του ίδιου του άρ ρου. Σημαντικό είναι επίσης ότι η ενημέρ ση που έ ουν, κά ε ά ο παρά σφαιρική είναι, μιας και τε ικά προτιμούν έναν και μόνο ιστότοπο ια την ενημέρ σή τους Meta portals Όπ ς αναφέρ ηκε και ν ρίτερα, η παρακο ού ηση άρ ρ ν νέ ν από μία σφαιρική και αντικειμενική άποψη απαιτεί την ενημέρ ση από πο απ ές πη ές. Ως εκ τούτου, στα π αίσια της μεταπτυ ιακής μου ερ ασίας, δημιουρ ή ηκε η υπηρεσία PeRSSonal [171] η οποία παρέ ει ακρι- ώς αυτό: εντοπίζοντας άρ ρα νέ ν από πη ές τις οποίες ορίζει είτε ο ρήστης, είτε το ίδιο το σύστημα, παρέ ει την συνδυασμένη π ηροφορία στον ρήστη, εύκο α και ρή ορα. Κα ότι ένα τέτοιο σύστημα αποτε εί κάτι περισσότερο από ένα απ ό news portal ( άση του ορισμού στην παρά ραφο ), α ροίζοντας ουσιαστικά άρ ρα νέ ν από news portals, α μπορούσαμε να 44

60 Κεφάλαιο Συστήματα προτάσεων το αρακτηρίσουμε ς ένα meta portal. Παρόμοια συστήματα, ν στά και ς συστήματα αποδε τί σης άρ ρ ν νέ ν του πα κόσμιου ιστού είναι τα εξής: Google News [84], NewsMe [157], NewsJunkies [156], personews [170], κ. α. 2.2 Συστήματα προτάσε ν Τα συστήματα προτάσε ν (recommendation systems) αποτε ούν μία υποκατη ορία τ ν συστημάτ ν φι τραρίσματος π ηροφορίας τα οποία αποσκοπούν στην πρό εψη α μο ο ιών ή ενικά προτιμήσε ν που πρόκειται να έ ει ο ρήστης προς ένα αντικείμενο (π.. άρ ρο νέου) [184]. Τα συστήματα προτάσε ν έ ουν ίνει εξαιρετικά συνη ισμένα στις μέρες μας, μίας και ρίσκουν εφαρμο ές σε μια π η ώρα προ ημάτ ν. Τα πιο συνη ισμένα είναι πι ανά εκείνα που προτείνουν ταινίες, μουσική, νέα, ι ία, ερευνητικά άρ ρα, ερ τήματα προς μη ανές αναζήτησης και προϊόντ ν στη ενική περίπτ ση. Τα συστήματα προτάσε ν τυπικά παρά ουν μία ίστα από προτάσεις με άση έναν από τους παρακάτ δύο τρόπους [102]: Συνερ ατικό φι τράρισμα (collaborative filtering) Φι τράρισμα ασισμένο στο περιε όμενο (content-based filtering) Οι CF προσε ίσεις τίζουν ένα μοντέ ο με άση την προη ούμενη συμπεριφορά ενός ρήστη (π.. τα αντικείμενα που α όρασε ή επέ εξε ή α μο ό ησε), κα ώς και παρόμοιες αποφάσεις οι οποίες έ ιναν από ά ους ρήστες. Στη συνέ εια ρησιμοποιούν αυτό το μοντέ ο προκειμένου να προ έψουν αντικείμενα (ή α μο ο ήσεις αντικειμέν ν) ια τα οποία ο ρήστης μπορεί να ενδιαφέρεται [142]. Αντί ετα οι προσε ίσεις που κάνουν φι τράρισμα ασισμένο στο περιε όμενο κάνουν ρήση διακριτών αρακτηριστικών τ ν αντικειμέν ν προκειμένου να προτείνουν επιπρόσ ετα αντικείμενα με παρόμοιες ιδιότητες. Ο συνδυασμός και τ ν παραπάν δύο τε νικών (υ ριδική προσέ ιση) είναι επίσης συ νός στης μέρες μας και είναι εξά ου και η ο ική επι ο ή την οποία ακο ου ήσαμε και ια το σύστημα που υ οποιή ηκε. 2.3 Προεπεξερ ασία δεδομέν ν Η προεπεξερ ασία δεδομέν ν αποτε εί τον συνδυασμό τ ν τε νικών εκείν ν που ρησιμοποιούνται από ένα σύστημα που ασίζεται σε κειμενικά ή ά ου είδους πρ το ενή δεδομένα, προκειμένου να κατα ήξει σε π ηροφορία αξιοποιήσιμη από τα υποσυστήματα ανάκτησης π ηροφορίας που συνή ς ακο ου ούν. Με άση τον παραπάν ενικό ορισμό, ια την περίπτ ση ενός συστήματος που ασίζεται σε ρήση έξε ν κ ειδιών (Keywords (KWs)) η προεπεξερ ασία δεδομέν ν αφορά σε μία σειρά τε νικών στις οποίες υπόκεινται το ρήσιμο κείμενο: αφαίρεση τ ν σημεί ν στίξης κα ώς και τ ν αρι μών που τυ όν περιέ ει αφαίρεση έξε ν οι οποίες δεν περικ είουν κάποιο νόημα, ια παράδει μα άρ ρα 45

61 2.3. Προεπεξεργασία δεδομένων Κεφάλαιο 2 εύρεση της ρίζας μίας έξης (Stemming) εύρεση τ ν μερών του ό ου τ ν έξε ν του κειμένου (Part of Speech (POS) tagging) πι ανή αξιοποίηση μιας ή περισσοτέρ ν εξ τερικών άσε ν νώσης εντοπισμός και κατα ραφή n-grams Σαν αποτέ εσμα, η προεπεξερ ασία δεδομέν ν έ ει οιπόν την δομικής π ηροφορίας από το κείμενο, ικανή ια την νοηματική αναπαράστασή του. Τυπικά, πρόκειται ια τις έξεις-κ ειδιά που υπάρ ουν στο κείμενο, συνοδευόμενες από τη συ νότητα με την οποία παρουσιάζονται μέσα σε αυτό, α ά και το σημείο του κειμένου στο οποίο εντοπίζονται. Για την περαιτέρ ενίσ υση τ ν διαδικασιών ανάκτησης π ηροφορίας που ακο ου ούν, στις τε νικές προεπεξερ ασίας κειμένου α εντάξουμε και την ανάκτηση τ ν ουσιαστικών του κειμένου μέσ τε νικών POS tagging, μιας και είναι ενικά αποδεκτό ότι τα ουσιαστικά του κειμένου φέρουν το με α ύτερο ποσοστό της ρήσιμης π ηροφορίας αυτού. Για τους μη ανισμούς εξα ής κειμένου, η απόρριψη οποιασδήποτε π ηροφορίας δεν σ ετίζεται με το κείμενο, και ενικά η προεπεξερ ασία π ηροφορίας, αποτε εί μία με ά η πρόκ ηση. Παρά το ε ονός ότι επιφανειακά ασίζεται σε συ κεκριμένα και στα ερά ήματα, α πρέπει να ίνει εκτενής ανά υση του είδους της π ηροφορίας που είναι επι υμητή προκειμένου το ήμα της προεπεξερ ασίας να κατα ήξει σε σημαντικά αποτε έσματα και πιο συ κεκριμένα στην εξα ή τ ν σ στών έξε ν κ ειδιών. Πο ά ευρετικά έ ουν ερευνη εί στη ι ιο ραφία σ ετικά με το συ κεκριμένο έμα. Η εύρεση τ ν κατα ή ν ια την περίπτ ση τ ν άρ ρ ν νέ ν κα ώς και η σ στή αξιοποίησή τους αποτε εί σημαντικό τμήμα της διδακτορικής διατρι ής Χρήση εξ τερικής άσης νώσης Πέρα από την ίδια την νώση που μπορούν οι μη ανισμοί να αντ ήσουν από τα ίδια τα κείμενα, μία ενδιαφέρουσα προσέ ιση αποτε εί η εξόρυξη π ηροφορίας από εξ τερικές πη ές. Η νώση που εξά εται με αυτόν τον τρόπο προστί εται στην υπάρ ουσα ια την παρα ή ενός αποτε εσματικότερου μοντέ ου ανάκτησης π ηροφορίας στον εκάστοτε τομέα WordNet Το WordNet αποτε εί μία από τις πιο ευρέ ς διαδεδομένες και με α ύτερες εξι ο ικές άσεις δεδομέν ν της Α ικής ώσσας. Επι ειρεί με ά α ό ια να μοντε οποιήσει την εξι ο ική νώση τ ν αν ρώπ ν που μι ούν την α ική ( ς μητρική ώσσα). Παρότι το WordNet είναι προσ άσιμο από τον κα ένα μέσ τ ν πο απ ών διεπαφών του (web-based, εφαρμο ή ή κ ήση ι ιο ηκών), η ασική του ρησιμότητα είναι στην αυτοματοποιημένη ανά υση κειμένου και σε εφαρμο ές τε νητής νοημοσύνης Artificial Intelligence (AI). Περιέ οντας πάν από όρους, το WordNet παρέ ει σύντομους ορισμούς και παραδεί ματα ρήσης. Επίσης ομαδοποιεί ουσιαστικά, ρήματα, επί ετα και επιρρήματα σε ομάδες συν νύμ ν τα οποία και ονομάζει synsets. Το WordNet μπορεί επομέν ς να ερμηνευ εί ς ένας συνδυασμός εξικού και ησαυρού της Α ικής. 46

62 Κεφάλαιο Προεπεξεργασία δεδομένων Τα synsets ορ ανώνονται σε: έννοιες - περιέ οντας έτσι τα συνώνυμα κά ε έξης υπερώνυμα/υπώνυμα μερόνυμα/ο όνυμα δίνοντας έτσι μία ιεραρ ικές δενδρικές δομές ια κά ε όρο που υπάρ ει στο WordNet Υπερώνυμα/Υπώνυμα Η σ έση υπερώνυμου/υπ νύμου (hypernym/hyponym) αποτε εί μία ασική συσ έτιση μεταξύ τ ν όρ ν του WordNet η οποία και α μας απασ ο ήσει αρκετά στη συνέ εια. Πιο συ κεκριμένα, και ια την περίπτ ση τ ν ουσιαστικών ισ ύει ο ορισμός Ορισμός Έστ δύο όροι του WordNet: X και Y, τότε: Ο Y είναι ένα υπερώνυμο του X αν κάθε X είναι ένα είδος από το Y, π.. το φρούτο ένα υπερώνυμο του μή ου. Ο Y είναι ένα υπώνυμο του X αν για κάθε Y είναι ένα είδος από το X, π.. το μή ο ένα υπώνημο του φρούτου. Ένα ράφημα υπερ νύμ ν αποτε εί την δενδρική απεικόνιση της συσ έτισης υπερ νύμου/υπ νύμου που αναφέρ ηκε. Για παράδει μα, το δένδρο υπερ νύμ ν του όρου dog, φαίνεται στο σ ήμα 1. dog, domestic dog, Canis familiaris => canine, canid => carnivore => placental, placental mammal, eutherian, eutherian mammal => mammal => vertebrate, craniate => chordate => animal, animate being, beast, brute, creature, fauna =>... Σ ήμα 1: Δένδρο υπερ νύμ ν του όρου dog Μερόνυμα/Ο όνυμα Για την σ έση μερονύμου/ο ονύμου του WordNet ια την περίπτ ση τ ν ουσιαστικών ισ ύει ο ορισμός Ορισμός Έστ δύο όροι του WordNet: X και Y, τότε: Ο Y είναι ένα μερόνυμο του X αν το Y είναι ένα μέρος του X, π.. το παρά υρο είναι ένα μερόνυμο του κτηρίου. 47

63 2.4. Συσταδοποίηση κειμένων Κεφάλαιο 2 Ο Y είναι ένα ολόνυμο του X αν το είναι ένα είδος από το, π.. το κτήριο είναι ένα ο όνυμο του παρα ύρου n-grams Ένα n-gram είναι μία συνε όμενη ακο ου ία από n αντικείμενα σε μία δεδομένη ακο ου ία από ραπτό κείμενο ή προφορικό ό ο. Τα αντικείμενα μπορεί να είναι φ νήματα, συ α ές, ράμματα, έξεις ή σύνο α έξε ν ανα ό ς την εφαρμο ή. Ένα n-gram με έ ους 1, συ νά αναφέρεται και ς unigram, με έ ους 2 ς bigram η digram, με έ ους 3 ς trigram. Ένα μοντέ ο n-gram είναι ένα είδους πι ανοτικό μοντέ ο ώσσας το οποίο υπο ο ίζει την πι- ανότητα του επομένου αντικειμένου σε μία τέτοια ακο ου ία της μορφής (n-1) μοντέ ου Markov. Τα μοντέ α n-gram ρησιμοποιούνται στις μέρες μας ευρύτατα στην πι ανοτική ε ρία, στη ε ρία επικοιν νίας, στην υπο ο ιστική σσο ο ία (π.. στατιστική φυσική επεξερ ασία ώσσας), στην υπο ο ιστική ιο ο ία (π.. ανά υση ιο ο ικών σειρών), κα ώς και στην συμπίεση π ηροφορίας. Τα ασικά ετικά στοι εία τ ν n-gram μοντέ ν (και τ ν α ορί μ ν που τα ρησιμοποιούν) είναι η σ ετική απ ότητά τους, κα ώς και η ικανότητα κ ιμακοσιμότητας που έ ουν, επιτρέποντας έτσι σε μικρά πειράματα να κ ιμακώνονται αρκετά αποδοτικά. Η αξιοποίηση της π ηροφορίας τ ν n-grams τ ν κειμέν ν, και πιο συ κεκριμένα, ο τρόπος ζύ ισής τους, αποτε εί ένα σημαντικό τμήμα της διδακτορικής διατρι ής όπ ς α παρουσιαστεί στα επόμενα κεφά αια. 2.4 Συσταδοποίηση κειμέν ν Η κειμενική π ηροφορία είναι η πιο συνη ισμένη μορφή π ηροφορίας που διακινείται στο διαδίκτυο και τα κοιν νικά δίκτυα. Τα κείμενα τυπικά αναπαρίστανται στο vector space μοντέ ο όπου η ακρι ής σειρά τ ν όρ ν απα είφεται και τα δεδομένα αντιμετ πίζονται ς ίστα από έξεις (Bag of Words (BOW)). Τα άρ ρα νέ ν έ ουν μία σειρά από ιδιότητες οι οποίες πρέπει να ηφ ούν υπόψιν κατά την αξιοποίησή τ ν δεδομέν ν τους: είναι πο ύ με ά ης διαστατικότητας και αραιά. Αυτό συνά ει με το ε ονός ότι μία ώσσα αποτε είται τυπικά από εξαιρετικά πο ούς όρους ( έξεις), ενώ κά ε κείμενο περι αμ άνει ένα σ ετικά απειροε ά ιστο ποσοστό αυτών τ ν όρ ν. Επομέν ς, τα περισσότερα από τα αρακτηριστικά της αναπαράστασης είναι μηδενικά. οι τιμές τ ν αρακτηριστικών αντιστοι ούν σε συ νότητες έξε ν και είναι επομέν ς τυπικά μη-μηδενικές. Αυτό είναι κάτι σημαντικό ια τις τε νικές εκείνες που αξιοποιούν ακρι ώς αυτό το αρακτηριστικό. Ένας από τους σύνη ες τρόπους ορ άν σης με ά ου ό κου δεδομέν ν, όπ ς στην περίπτ ση μας τα άρ ρα νέ ν ύστερα από την ανάκτησή τους από το διαδίκτυο, είναι η ρήση τε νικών συσταδοποίησης. Η συσταδοποίηση αντικειμέν ν αναφέρεται στην διαδικασία δια ρισμού τ ν αντικειμέν ν μιας συ ο ής σε πο απ ές υπο-συ ο ές, ασιζόμενοι στην ομοιότητα τ ν αντικειμέν ν 48

64 Κεφάλαιο Συσταδοποίηση κειμένων μεταξύ τους. Γενικά η συσταδοποίηση έ ει αποδει εί ς μία εξαιρετικά ρήσιμη Information Retrieval (IR) τε νική αφού εντοπίζει ενδιαφέροντες πυρήνες π ηροφορίας και κατανομών στα υποκείμενα δεδομένα. Βοη ά στην κατασκευή ουσιαστικών διαμερισμάτ ν σε με ά ους ό κους δεδομέν ν με ρήση πο απ ών με οδο ο ιών και ευρετικών που έ ουν αναπτυ εί ανά τα ρόνια. Τυπικές ρήσης της συσταδοποίησης είναι οι: ια την δόμηση αποτε εσμάτ ν που προκύπτουν από ερ τήματα ρηστών ια τον σ ηματισμό της άσης ια περαιτέρ επεξερ ασία τ ν ορ αν μέν ν ομάδ ν με ρήση ά ν τε νικών IR, όπ ς η προσ ποποίηση μέσα στο εύρος συστημάτ ν προτάσε ν επηρεάζοντας άμεσα την απόδοσή τους όσον αφορά στις προτάσεις που κάνουν αυτά στους τε ικούς ρήστες Σε έναν πιο ενικό ορισμό μία αποτε εσματικής τε νικής συσταδοποίησης, α έ αμε ότι είναι εκείνη που ορ ανώνει μία συ ο ή από κείμενα σε ομάδες, τέτοιες ώστε τα κείμενα μέσα στην εκάστοτε ομάδα να είναι τόσο παρόμοια μεταξύ τους, όσο και διαφορετικά από εκείνα τ ν ά ν ομάδ ν [107]. Η συσταδοποίηση μπορεί να παρά ει είτε δια ρισμένες, είτε α η επικα υπτόμενες συστάδες. Στην δεύτερη περίπτ ση, είναι δυνατό ια ένα κείμενο να εμφανίζεται σε πο απ ές συστάδες. Η συσταδοποίηση κειμέν ν (ή ε ράφ ν) αποτε εί ουσιαστικά ένα υποσύνο ο από ένα ευρύτερο πεδίο συσταδοποίησης δεδομέν ν το οποίο μοιράζεται ιδέες από τα πεδία της ανάκτησης π ηροφορίας (IR), φυσικής επεξερ ασίας ώσσας (Natural Language Processing (NLP)) και μη ανικής μά ησης (Machine Learning (ML)) μεταξύ ά ν. Συ νά αναφέροντας την έννοια συσταδοποίηση αναφερόμαστε απ ά στην συσταδοποίηση κειμέν ν. Η διαδικασία της συσταδοποίησης στο εύει στην εύρεση φυσικών ομαδοποιήσε ν και επομέν ς παρουσιάζει μια ενική εικόνα τ ν κ άσε ν (νοηματικές εματο ο ίες) σε μια συ ο ή από κείμενα. Στο πεδίο της τε νητής νοημοσύνης (AI) αναφέρεται ς μη-εποπτευόμενη μη ανική μά ηση (unsupervised machine learning). Η συσταδοποίηση δεν πρέπει να συ έεται με την κατη οροποίηση κειμέν ν όπου το π ή ος τ ν κ άσε ν (και οι ιδιότητές τους) είναι ν στά εκ τ ν προτέρ ν, και επομέν ς, τα κείμενα αντιστοι ίζονται σε αυτές τις κ άσεις. Αντι έτ ς, σε ένα πρό ημα συσταδοποίησης, ούτε το π ή ος τ ν κ άσε ν (συστάδες), ούτε οι ιδιότητές τους είναι ν στές από πριν. Η διαφοροποίηση αυτή απεικονίζεται στο σ ήμα 2, όπου στην περίπτ ση α) οι τρεις κ άσεις στις οποίες αντιστοι ίζονται τα κείμενα είναι ν στές από πριν. Αντί ετα στην περίπτ ση ) ένας ά ν στος αρι μός συστάδ ν συνεπά εται από τα ίδια τα κείμενα άσει κάποιο κριτηρίου ομοιότητας (στην περίπτ ση αυτή το κριτήριο είναι η απόσταση). Η κατη οριοποίηση επομέν ς αποτε εί ένα παράδει μα εποπτευόμενης μη ανικής μά ησης. Παρό α αυτά, υπάρ ουν πο ές προκ ήσεις στις οποίες οι τε νικές συσταδοποίησης πρέπει να αντεπεξέ ουν. Μεταξύ αυτών και η αποδοτικότητα: οι παρα όμενες συστάδες α πρέπει να είναι κα ά συνδεδεμένες νοηματικά, παρά την ποικι ομορφία του περιε ομένου κα ώς και το μέ ε ος τ ν αρ ικών κειμέν ν. Για παράδει μα, είναι συ νό φαινόμενο κάποια άρ ρα νέ ν να ανήκουν στην 49

65 2.4. Συσταδοποίηση κειμένων Κεφάλαιο 2 Σ ήμα 2: Κατη οριοποίηση και συσταδοποίηση ίδια νοηματική συστάδα, παρότι δεν μοιράζονται κοινές έξεις. Το αντίστροφο είναι επίσης πι ανό: άρ ρα νέ ν που μοιράζονται κοινές έξεις, είναι όμ ς άσ ετα μεταξύ τους. Η ασάφεια και η συν νυμία είναι επομέν ς δύο από τα ασικά προ ήματα που οι τε νικές συσταδοποίησης κειμέν ν αποτυ άνουν συ νά να αντιμετ πίσουν αποτε εσματικά. Επίσης, το να έ ουμε συστήματα IR απ ά να παρά ουν συστάδες κειμέν ν δεν είναι αρκετό από μόνο του. Και ο ό ος ι αυτό είναι ότι είναι κυριο εκτικά αδύνατο ια τους αν ρώπους να αντι ηφ ούν την π ηροφορία απ ά και μόνο κοιτάζοντας μέσα σε εκατοντάδες ή ι ιάδες κείμενα. Αντι έτ ς, ανα έτοντας νοηματικές ετικέτες - επικεφα ίδες στις συστάδες έ ει περισσότερο νόημα κα ώς επιτρέπει στους ρήστες εύκο α και ρή ορα να ανα ν ρίσουν σε τι αναφέρεται η κά ε συστάδα κα ώς και να μπορέσουν εν συνε εία να ανα ύσουν τα αποτε έσματα της συσταδοποίησης. Στην παρούσα διδακτορική διατρι ή, περι ράφουμε μία π η ώρα τε νικών, α ορί μ ν και μη ανισμών συσταδοποίησης και αξιο ο ούμε την εφαρμο ή τους στην περίπτ ση τ ν άρ ρ ν νέ ν που πη άζουν από το διαδίκτυο. Ο στό ος μας δεν είναι να παρουσιάσουμε διεξοδικά οτιδήποτε έ ει ερευνη εί σε αυτόν τον τομέα, α ά να συ κρίνουμε τα αποτε έσματα τ ν παραπάν πειραμάτ ν συσταδοποίησης ώστε να εκτιμήσουμε ποια τε νική ταιριάζει κα ύτερα στην με ά η ποικι ομορφία και ποσότητα τ ν άρ ρ ν νέ ν του διαδικτύου Τυπικός ορισμός συσταδοποίησης Ο τυπικός ορισμός του προ ήματος συσταδοποίσης έ ει ς εξής: Ορισμός Δεδομένου ενός συνό ου κειμέν ν D, επι υμούμε την ανά εση κα ενός από τα κείμενα d D σε συστάδες παρόμοι ν κειμέν ν ανακα ύπτοντας έτσι τις φυσικές τους κατη ορίες. Βασιζόμενοι στο vector-space μοντέ ο, μπορούμε να αναπαραστήσουμε κά ε κείμενο d D ς έναν πίνακα συ νοτήτ ν από τα αρακτηριστικά που περιέ ει: d = (f 1,..., f n ). 50

66 Κεφάλαιο Συσταδοποίηση χρηστών Συνή ς τα αρακτηριστικά τ ν κειμέν ν είναι οι όροι από τους οποίους αποτε είται, π.. έξεις κ ειδιά, n-grams, κ. π. Μπορούμε να εκφράσουμε το σύνο ο τ ν κειμέν ν D σαν έναν m n πίνακα, όπου m το π ή ος τ ν κειμέν ν στο D και n το π ή ος τ ν αρακτηριστικών. Το στοι είο (i, j) περιέ ει το π ή ος εμφάνισης του αρακτηριστικού j στο κείμενο i Π ή ος συστάδ ν Ο προσδιορισμός του π ή ους τ ν συστάδ ν σε ένα σύνο ο δεδομέν ν, μία ποσότητα η οποία συ νά αναφέρεται ς k, όπ ς στην περίπτ ση του k-means α ορί μου, είναι ένα σύνη ες πρό- ημα στην συσταδοποίηση δεδομέν ν, τόσο μά ιστα που αποτε εί και ξε ριστό πεδίο έρευνας ανεξάρτητα από τους α ορί μους συσταδοποίησης. Για μία συ κεκριμένη κατη ορία α όρι μ ν συσταδοποίησης (οικο ένεια k-means/expectation Maximization (EM) α όρι μος), ο εκ τον προτέρ ν κα ορισμός του π ή ους τ ν συστάδ ν αποτε εί ασική προϋπό εση. Ά οι α όρι μοι όπ ς οι Density-based spatial clustering of applications with noise (DBSCAN) και Ordering points to identify the clustering structure (OPTICS) δεν απαιτούν τον κα ορισμό μίας τέτοιας παραμέτρου, ενώ η ιεραρ ική συσταδοποίηση αποφεύ ει το πρό ημα εξο οκ ήρου. Η σ στή επι ο ή του k είναι συ νά διφορούμενη, με ερμηνείες οι οποίες εξαρτώνται από το σ ήμα και την κ ίμακα της κατανομής τ ν σημεί ν στο σύνο ο δεδομέν ν, κα ώς και την επι υμητή ύση από τον ρήστη. Παρά η α, η αύξηση του k ρίς κάποιον έ ε ο, πάντα α μειώνει το μέ ε ος του σφά ματος στην τε ική συσταδοποίηση, έ ς την ακραία περίπτ ση του μηδενικού σφά ματος, όπου κά ε σημείο ε ρείται και ς μία συστάδα (k = n). Διαισ ητικά επομέν ς, η έ τιστη επι ο ή του k α ισορροπεί ανάμεσα στην μέ ιστη συμπίεση τ ν δεδομέν ν με όσο το δυνατόν μαζικότερες συστάδες, και την μέ ιστη ακρί εια με όσο το δυνατόν περισσότερες συστάδες. Εάν μία προφανής τιμή ια το k δεν είναι ν στή εκ τ ν προτέρ ν από τις ιδιότητες τ ν ίδι ν τ ν δεδομέν ν, α πρέπει κάπ ς να επι ε εί - και προς αυτή την κατεύ υνση αρκετές μέ οδοι, οι οποίες και παρουσιάζονται στο επόμενο κεφά αιο, έ ουν ερευνη εί στη ι ιο ραφία. 2.5 Συσταδοποίηση ρηστών Ότι αναφέρ ηκε στην ενότητα 2.4 ια την συσταδοποίηση αντικειμέν ν (άρ ρ ν νέ ν) ισ ύει και ια την περίπτ ση συσταδοποίησης ρηστών με την ασική διαφορά ότι η συσταδοποίηση ενερ εί πάν στις προτιμήσεις, ή α ιώς προφί, τ ν ρηστών. Έτσι, κάποιο τμήμα της συ ο ής ονομάζεται συστάδα ρήστη και περι αμ άνει ρήστες που έ ουν εκφράσει παρόμοια ενδιαφέροντα σε ότι έ ει να κάνει με τις προτιμήσεις τους σε άρ ρα νέ ν ενώ π οη ούνται σε μία συ ο ή. Η συσταδοποίηση ρηστών αποτε εί ένα κομ ικό τμήμα της διδακτορικής διατρι ής, μιας και αποτε εί ουσιαστικά τον μο ό με τον οποίο η απόδοση του συστήματος προτάσε ν αυξάνεται σημαντικά. Ο τρόπος που αντιμετ πίζουμε τις συστάδες ρηστών έ ει ς εξής: ξεκινώντας από τις κατα- ε ραμμένες συνεδρίες ρηστών και έτοντας σαφή ρονικά όρια π οή ησης, ανα ύουμε τα επι- 51

67 2.6. Προσωποποίηση στο χρήστη Κεφάλαιο 2 ε μένα άρ ρα τα οποία και συσταδοποιούμε με ρήση του α ορί μου W-kmeans. Κατά συνέπεια, το πρό ημα της συσταδοποίησης ρηστών ανά εται στο αντίστοι ο της συσταδοποίησης άρ ρ ν νέ ν μέσα σε συ κεκριμένα π αίσια και επι ο ές που α ανα υ ούν στις επόμενες ενότητες. 2.6 Προσ ποποίηση στο ρήστη Η προσ ποποίηση στο ρήστη είναι η διαδικασία κατά την οποία τα αποτε έσματα που εμφανίζονται τε ικά στο ρήστη προσαρμόζονται προκειμένου να ανταποκρίνονται στις ανά κες του. Πιο συ κεκριμένα, τα στάδια της προσ ποποίησης αφορούν τον εντοπισμό άρ ρ ν τα οποία ενδιαφέρουν το ρήστη και παρουσίασή τους με τέτοιον τρόπο ώστε να ταιριάζουν στις ανά κες του ρήστη. Το πρό ημα που τί εται είναι ένας έξυπνος α όρι μος ο οποίος α μπορεί να αξιοποιεί ό ες τις π ηροφορίες που μπορούν να συ κεντρ ούν από την περιή ηση του ρήστη στο δικτυακό τόπο και αξιοποίηση αυτών τ ν π ηροφοριών προκειμένου να εμφανιστούν όσο το δυνατόν κα ύτερα και πιο ποιοτικά αποτε έσματα Συμμετο ή του ρήστη στις διαδικασίες του συστήματος Ο ρήστης είναι αυτός που δέ εται την τε ική π ηροφορία και αυτός που ουσιαστικά διαμορφώνει την π ηροφορία ια τον εαυτό του. Αυτό σημαίνει π ς ο ρήστης α πρέπει να είναι αναπόσπαστο κομμάτι του συστήματος. Θα πρέπει να είναι σε έση να διαμορφώσει διαδικασίες του πυρήνα του συστήματος με άση τις π ηροφορίες που δίνει άμεσα ή έμμεσα στο σύστημα ς ανάδραση. Στα περισσότερα συστήματα τα οποία αντιμετ πίστηκαν κατά τη διάρκεια της με έτης ια τη συ κεκριμένη ερ ασία, παρατηρή ηκε π ς ο ρήστης συμμετέ ει μόνο στα επιτε ικά στάδια τ ν συστημάτ ν ενώ έ ουν ήδη εκτε εστεί τα ασικά ήματα του πυρήνα τ ν μη ανισμών. Η συμμετο ή του ρήστη στις διαδικασίες πυρήνα ενός large scale συστήματος είναι επίπονη διαδικασία η οποία απαιτεί α ορί μους που α μπορούν να εκτε ούνται αποδοτικά σε πρα ματικό ρόνο προκειμένου ο ρήστης να διαμορφώνει ό ι μόνον τα τε ικά αποτε έσματα που εμφανίζονται σε αυτόν α ά και συ κεκριμένες διαδικασίες ο όκ ηρου του συστήματος. 2.7 Το Πρό ημα του νέου ρήστη Ένα κοινό πρό ημα από το οποίο ό α τα συστήματα συνερ ατικού φι τραρίσματος συ νά πάσ ουν είναι αυτό της κρύας εκκίνησης (cold start problem). Το πρό ημα αυτό έ ει τρεις εκφάνσεις: το πρό ημα νέου αντικειμένου, όπου ένα νέο αντικείμενο πρ το-εισά εται στο σύστημα και δεδομένου ότι δεν έ ει αξιο ο η εί από κανέναν, το σύστημα δεν μπορεί να το προτείνει (και επομέν ς περνάει στην αφάνεια) το πρό ημα νέου ρήστη, όπου ένας νέος ρήστης ρησιμοποιεί το σύστημα ια πρώτη φορά και ς εκ τούτου δεν υπάρ ουν προτάσεις από το σύστημα προς αυτόν. Το πρό ημα 52

68 Κεφάλαιο Το Πρόβλημα του νέου χρήστη παραμένει του ά ιστον έ ς ότου το σύστημα αποκτήσει κάποια νώση ια τις προτιμήσεις του ρήστη το πρό ημα του νέου συστήματος το οποίο αποτε εί συνδυασμό τ ν δύο παραπάν περιπτώσε ν Στην διδακτορική διατρι ή ασ ο η ήκαμε με το πρό ημα του νέου ρήστη, ια την επί υση του οποίου προτείνουμε μια συ κεκριμένη α ορι μική προσέ ιση. 53

69

70 ΚΕΦΑΛΑΙΟ 3 ΕΡΕΥΝΗΤΙΚΑ ΘΕΜΑΤΑ Beware of false knowledge; it is more dangerous than ignorance. George Bernard Shaw, Irish Dramatist, 1856 Στο παρόν κεφά αιο περι ράφεται η τρέ ουσα κατάσταση σε σ έση με τα έματα που καταπιάνεται η διδακτορική διατρι ή. Παρουσιάζεται επομέν ς το state of the art με άση τις τε ευταίες εξε ίξεις στους τομείς αυτούς, ερ ασίες παραπ ήσιες κα ώς και α ορι μικές προσε ίσεις. 55

71

72 3.1 Φυσική Επεξερ ασία Γ ώσσας Η φυσική επεξερ ασία ώσσας (NLP) είναι ένα πεδίο της επιστήμης υπο ο ιστών, της τε- νητής νοημοσύνης, κα ώς και της σσο ο ίας, το οποίο ασ ο είται με τις διεπαφές μεταξύ σσών υπο ο ιστών και φυσικών (αν ρ πίν ν) σσών. Ως εκ τούτου, το NLP σ ετίζεται με την περιο ή της α η επίδρασης αν ρώπου-υπο ο ιστή. Στις πο ές προκ ήσεις που πρέπει να αντιμετ πίσει το NLP περι αμ άνονται: η κατανόηση φυσικής ώσσας η οποία επιτρέπει στους υπο ο ιστές να εξά ουν νόημα από την αν ρώπινη ώσσα, κα ώς και ά ες που εμπεριέ ουν παρα ή φυσικής ώσσας. Οι σύ ρονοι NLP α όρι μοι ασίζονται στη μη ανική εκμά ηση, και ειδικότερα στην στατιστική μη ανική εκμά ηση [137]. Προη ούμενες υ οποιήσεις της επεξερ ασίας σσών αφορούσαν στην άμεση κατα ραφή και ρήση συ κεκριμέν ν κανόν ν. Μέσ της ρήσης μη ανικής εκμά ησης όμ ς, ίνεται ρήση ενικών α ορί μ ν εκπαίδευσης οι οποίοι συ νά ασίζονται σε στατιστικά συμπεράσματα ώστε να μά ουν αυτόματα τους κανόνες μέσ της ανά υσης με ά ου π ή ους από άσεις νώσης (corpus) και τυπικά πρα ματικά παραδεί ματα ρήσης. Οι άσεις νώσης αυτές αποτε ούνται από ένα σύνο ο κειμέν ν τα οποία έ ουν προ-σημει εί ώστε να εμπεριέ ουν τις σ στές τιμές με τις οποίες πρέπει να ίνει εκμά ηση. Πο ές διαφορετικές κατη ορίες α ορί μ ν μη ανικής εκμά ησης έ ουν εφαρμοστεί σε NLS ερ ασίες. Αυτοί οι α όρι μοι δέ ονται ς είσοδο ένα με ά ο σύνο ο αρακτηριστικών τα οποία παρά ονται από τα δεδομένα εισόδου. Ορισμένοι από τους αρ ικά ρησιμοποιούμενους α ορί μους, όπ ς τα δένδρα απόφασης, παρή α αν συστήματα κανόν ν εάν-τότε (if-then rules). Ό ο και συ νότερα όμ ς η έρευνα επικεντρώ ηκε σε στατιστικά μοντέ α, τα οποία παίρνουν πι ανοτικές αποφάσεις ασισμένα στην εφαρμο ή πρα ματικών αρών σε κα ένα από τα αρακτηριστικά εισόδου. Αυτά τα μοντέ α έ ουν το π εονέκτημα ότι μπορούν να εκφράσουν την σ ετική ε αιότητα από πο ές πι ανές απαντήσεις σε σ έση με μόνο μία, παρά οντας έτσι πιο αποδοτικά αποτε έσματα - ειδικά όταν ένα τέτοιο μοντέ ο συμπερι αμ άνεται ς ένα στοι είο σε ένα με α ύτερο σύστημα. Τα συστήματα που ασίζονται σε α ορί μους μη ανικής εκμά ησης έ ουν πο απ ά π εονεκτήματα σε σ έση με τους ειροκίνητα παρα όμενους κανόνες: Οι διαδικασίες εκμά ησης που ρησιμοποιούνται κατά τη διαδικασία της μη ανικής εκμά ησης εστιάζουν αυτόματα στις πιο συνη ισμένες περιπτώσεις, ενώ οι ειροκίνητοι κανόνες συ νά είναι μη κατανοητό που πρέπει να εστιάσουν Οι αυτόματες διαδικασίες εκμά ησης μπορούν να κάνουν ρήση α ορί μ ν στατιστικής συμπερασματο ο ίας ια να παράξουν μοντέ α τα οποία είναι ισ υρά σε μη συνη ισμένη είσοδο (π.. που περιέ ουν έξεις ή δομές που δεν έ ουν συναντη εί πα αιότερα). Γενικά, ο ειρισμός τέτοιας εισόδου με αποτε εσματικό τρόπο με ρήση ειροκίνητ ν κανόν ν είναι εξαιρετικά δύσκο ος, επιρρεπής σε ά η και ρονο όρος.

73 3.1. Φυσική Επεξεργασία Γλώσσας Κεφάλαιο 3 Τα συστήματα που ασίζονται σε αυτόματη εκμά ηση τ ν κανόν ν μπορούν να ίνουν πιο ακρι ή απ ά παρέ οντας περισσότερα δεδομένα. Αντί ετα, τα συστήματα που ασίζονται σε ειροκίνητους κανόνες μπορούνε να ίνουν πιο ακρι ή μόνο αυξάνοντας την πο υπ οκότητα τ ν κανόν ν, το οποίο είναι αρκετά δυσκο ότερο Σύνη ες NLP ερ ασίες Παρακάτ είναι μία ίστα από μερικές από τις πιο με ετημένες στη ι ιο ραφία ερ ασίες (tasks) NLP. Να σημειώσουμε ότι ορισμένες από αυτές έ ουν άμεσες πρα ματικές εφαρμο ές, ενώ ά ες πιο συ νά εξυπηρετούν ς υπο-ερ ασίες οι οποίες ρησιμοποιούνται ια την επί υση με α ύτερ ν ερ ασιών. Αυτόματη εξα ή περί ηψης (Automatic summarization) Ανά υση συναναφορών (Coreference resolution) Ανά υση ό ου ομι ίας (Discourse analysis) Μη ανική μετάφραση (Machine translation) Μορφο ο ική τμηματοποίηση (Morphological segmentation) Ανα νώριση κανονικών ονομάτ ν (Named entity recognition (NER)) Παρα ή φυσικής ώσσας (Natural language generation) Κατανόηση φυσικής ώσσας (Natural language understanding) Οπτική ανα νώριση αρακτήρ ν (Optical character recognition (OCR)) Εύρεση μερών του ό ου (POS tagging) Διαπέρασμα προτάσε ν (Parsing) Απάντηση ερ τήσε ν (Question answering) Εξα ή συσ ετίσε ν (Relationship extraction) Δια ρισμός προτάσε ν (Sentence breaking - boundary disambiguation) Συναισ ηματική ανά υση (Sentiment analysis) Ανα νώριση ό ου (Speech recognition) Τμηματοποίηση ό ου (Speech segmentation) Τμηματοποίηση και ανα νώριση εμάτ ν (Topic segmentation and recognition) Τμηματοποίηση έξε ν (Word segmentation) 58

74 Κεφάλαιο Ανάκτηση Πληροφορίας Αποσαφήνιση νοήματος έξε ν (Word sense disambiguation) Ανάκτηση π ηροφορίας (IR) Εξα ή π ηροφορίας (Information Extraction (IE)) Οντο ο ική και εξικο ραφική ανά υση (ontological and lexical analysis) Επεξερ ασία ό ου (Speech processing) Εξα ή ρίζας έξε ν (Stemming) Απ ούστευση κειμένου (Text simplification) Κείμενο σε ό ο (Text-to-speech) Ορ ο ραφικός έ ε ος κειμένου (Text-proofing) Αναζήτηση φυσικής ώσσας (Natural language search) Επέκταση ερ τημάτ ν (Query expansion) Στα π αίσια της μεταπτυ ιακής μου ερ ασίας [235] ασ ο ή ηκα με τα ακό ου α NLP tasks: αυτόματη εξαγωγή περίληψης, εξαγωγή και ανάκτηση πληροφορίας, εύρεση μερών του λόγου, διαχωρισμός προτάσεων και εξαγωγή ρίζας λέξεων. Στο π αίσιο του συστήματος προτάσε ν που αναπτύ ηκε στην διδακτορική διατρι ή, τα NLP tasks που μας αφορούν είναι επιπ έον: η επέκταση ερ τημάτ ν, κα ώς και η οντο ο ική και εξικο ραφική ανά υση. 3.2 Ανάκτηση Π ηροφορίας Η Ανάκτηση Π ηροφορίας (ΑΠ)(IR) είναι η διαδικασία αποτε εσματικής εύρεσης πη ών π ηροφόρησης σ ετικών με μία ανά κη από μία δεδομένη συ ο ή (π.. κειμέν ν). Οι αναζητήσεις προκειμένου να επιτευ εί η ΑΠ μπορεί να ασίζονται σε μετα-π ηροφορία ή σε δεικτοδότηση του π ήρους κειμένου. Τυπικά, η διαδικασία ανάκτησης π ηροφορίας ξεκινά όταν ένας ρήστης εισά ει ένα ερώτημα στο σύστημα. Τα ερ τήματα είναι σύνο α από π ηροφοριακές ανά κες, όπ ς αυτές παρουσιάζονται από τους ρήστες, όπ ς ια παράδει μα, συμ ο οσειρές σε μη ανές αναζήτησης. Στην ΑΠ ένα ερώτημα ενικά δεν αρακτηρίζει μοναδικά ένα και μόνο αντικείμενο στην συ ο ή. Αντι έτ ς, πο ά αντικείμενα που ταιριάζουν με το ερώτημα, ίσ ς με διαφορετικούς α μούς ομοιότητας, επιστρέφονται από το σύστημα. Ένα αντικείμενο είναι απ ά μία οντότητα η οποία αναπαρίσταται από κάποια π ηροφορία στη άση δεδομέν ν. Τα ερ τήματα τ ν ρηστών επομέν ς ταιριάζονται με αυτή την π ηροφορία. Τα περισσότερα συστήματα ΑΠ υπο ο ίζουν μία αρι μητική μετρική, ή α ιώς σκορ, το οποίο αντιπροσ πεύει πόσο κα ά κά ε αντικείμενο ταιριάζει με το ερώτημα, και στη συνέ ει ταξινομεί τα αντικείμενα με άση αυτή το το σκορ. Τα αντικείμενα με το με α ύτερο σκορ έπειτα επιστρέφονται στον ρήστη. 59

75 3.2. Ανάκτηση Πληροφορίας Κεφάλαιο Μοντε οποίηση ανάκτησης π ηροφορίας Ακο ου εί ένας τυπικός ορισμό (3.2.1) ενός μοντέ ου ανάκτησης π ηροφορίας. Ορισμός Ένα μοντέ ο ανάκτησης π ηροφορίας [21] είναι η τετράδα [D, Q, F, R(q i, d j )] όπου: 1. D είναι ένα σύνο ο από ο ικές αναπαραστάσεις ια τα κείμενα της συ ο ής 2. Q είναι ένα σύνο ο από ο ικές αναπαραστάσεις ια τις π ηροφοριακές ανά κες του ρήστη. Αυτές οι αναπαραστάσεις κα ούνται ερ τήματα 3. F είναι ένα υπό α ρο ια την μοντε οποίηση της αναπαράστασης τ ν κειμέν ν, τ ν ερ τημάτ ν και τ ν σ έσε ν μεταξύ τους 4. R(q i, d j ) είναι μια συνάρτηση κατάταξης, η οποία συνδέει έναν πρα ματικό αρι μό με ένα ερώτημα q i Q και μια αναπαράσταση κειμένου d j D. Μια τέτοια κατάταξη ορίζει μια διάταξη πάν στα κείμενα πάντα με άση το ερώτημα q i. Αξιοποιώντας οιπόν τον παραπάν ορισμό ενός μοντέ ου ΑΠ, α έ αμε ότι ξεκινούμε από έναν τρόπο αναπαράστασης τ ν κειμέν ν και τ ν π ηροφοριακών ανα κών του ρήστη. Στη συνέ- εια ( ήμα 3) ορίζουμε ένα υπό α ρο πάν στο οποίο αναπαρίσταται τα κείμενα και τα ερ τήματα. Είναι σημαντικό το υπό α ρο να οριστεί με τρόπο τέτοιο ώστε να υποστηρίζει σύ κριση μεταξύ τ ν αντικειμέν ν/ερ τημάτ ν ώστε να κατα ή ουμε σε μία δεδομένη κατάταξη τ ν αποτε εσμάτ ν του εκάστοτε ερ τήματος. Κά ε μοντέ ο δια ειρίζεται το υπό α ρο διαφορετικά. Ο τρόπος που ίνεται αυτό σε ότι έ ει να κάνει με τα πιο διαδεδομένα μοντέ α, περι ράφεται στην επόμενη ενότητα Μοντέ α ανάκτησης π ηροφορίας Τα κ ασσικά μοντέ α ΑΠ, πάν στα οποία ασίζονται και πο ές παρα α ές τους, είναι τα: Boolean Vector Space Πι ανοτικό Το Boolean μοντέ ο ΑΠ ασίζεται στη δυαδική (boolean) ο ική κα ώς και στην ε ρία συνό ν, δεδομένου ότι τόσο τα αντικείμενα προς αναζήτηση, όσο και τα ερ τήματα του ρήστη αντιμετ πίζονται ς σύνο α από όρους. Η ανάκτηση ασίζεται στο αν τα αντικείμενα περιέ ουν τους όρους αναζήτησης. Το μοντέ ο Vector Space είναι ένα α ε ρικό μοντέ ο αναπαράστασης τ ν αντικειμέν ν ς πίνακες αρακτηριστικών, και άρα, όρους δεικτοδότησης. Έ οντας την αναπαράσταση τ ν αντικειμέν ν στον n διάστατο ώρο (όπου n τα συνο ικά αρακτηριστικά ό ν τ ν κειμέν ν), μπορούμε να υπο ο ίσουμε αποστάσεις και ομοιότητες μεταξύ τ ν αντικειμέν ν. 60

76 Κεφάλαιο Ανάκτηση Πληροφορίας Τέ ος το πι ανοτικό μοντέ ο, το οποίο ασίζεται στη ε ρία πι ανοτήτ ν, αντιστοι ίζει πι ανότητες σε κά ε ένα από τα αντικείμενα δεδομένου του ερ τήματος. Πέρα από τα τρία παραπάν κ ασσικά μοντέ α, στην ι ιο ραφία έ ουν προτα εί αρκετά νέα ή ακόμα και παρα α ές αυτών. Για την κα ύτερη αναπαράσταση και απεικόνιση, τα μοντέ α ΑΠ συ νά κατη οριοποιούνται σε δύο διαστάσεις: σε σ έση με την μα ηματική τους άση και σε σ έση με τις ιδιότητες του μοντέ ου Διάσταση μα ηματικής άσης μοντέ ν ανάκτησης π ηροφορίας Σε σ έση με την μα ηματική τους άση, τα μοντέ α ΑΠ ταξινομούνται στις εξής κατη ορίες: Τα συνο ο ε ρητικά μοντέ α (Set-theoretic models), που αναπαριστούν τα κείμενα ς σύνο α έξε ν ή φράσε ν. Οι ομοιότητες συ νά αντ ούνται από συνο ο ε ρητικές πράξεις πάν σε αυτά τα σύνο α. Τέτοια μοντέ α είναι τα: Τυπικό δυαδικό μοντέ ο (Standard Boolean model) [124] Εκτεταμένο δυαδικό μοντέ ο (Extended Boolean model) [190] Ασαφής ανάκτηση (Fuzzy retrieval) [227] Τα α ε ρικά μοντέ α, τα οποία αναπαριστούν τα κείμενα και τα ερ τήματα συ νά ς διανύσματα, πίνακες ή π ειάδες. Η ομοιότητα μεταξύ ενός διανύσματος ερ τήματος και διανύσματος κειμένου αναπαρίσταται ς μια τιμή. Α ε ρικά μοντέ α είναι τα: Μοντέ ο διανυσματικού ώρου (Vector Space Model (VSM)) [191] Γενικευμένο Μοντέ ο διανυσματικού ώρου (Generalized VSM) [219] (Ενισ υμένο) εματικό μοντέ ο διανυσματικού ώρου (Enhanced Topic-based VSM) [26] Εκτεταμένο δυαδικό μοντέ ο (Extended Boolean model) [190] Latent Semantic Indexing (LSI) που συ νά αναφέρεται και ς Latent Semantic Analysis (LSA) [62] Τα πι ανοτικά μοντέ α, τα οποία αντιμετ πίζουν τη διαδικασία της ΑΠ ς μία πι ανοτική συμπερασματο ο ία. Οι ομοιότητες υπο ο ίζονται ς πι ανότητα του κειμένου να είναι σ ετικό ια ένα δεδομένο ερώτημα. Πι ανοτικά ε ρήματα, όπ ς του Bayes, αποτε ούν συ νά τη άση ια αυτά τα μοντέ α. Πι ανοτικά μοντέ α είναι τα: Δυαδικό μοντέ ο ανεξαρτησίας (Binary Independence Model) [226] Πι ανοτικά μοντέ α που ασίζονται στην okapi (BM25) συνάρτηση συσ έτισης [186] Α έ αιης συμπερασματο ο ίας (Uncertain inference models) [213] Μοντέ α ώσσας (Language models) [174] Μοντέ α απόκ ισης από την τυ αιότητα (Divergence-from-randomness model) [88] 61

77 3.2. Ανάκτηση Πληροφορίας Κεφάλαιο 3 Μοντέ α αν άνουσας κατανομής Dirichlet (Latent Dirichlet allocation) [32] Τα μοντέ α ανάκτησης που ασίζονται σε αρακτηριστικά, αντιμετ πίζουν τα κείμενα ς διανύσματα τιμών συναρτήσε ν αρακτηριστικών (ή απ ά ς αρακτηριστικά) και αναζητούν τον έ τιστο τρόπο ια να συνδυάσουν αυτά τα αρακτηριστικά σε ένα μόνο σκορ συσ έτισης [130]. Οι συναρτήσεις αρακτηριστικών είναι άσ ετες με το κείμενο ή το ερώτημα και επομέν ς μπορούν εύκο α να ενσ ματώσουν σ εδόν κα ένα από τα υπό οιπα μοντέ α ΑΠ απ ά ς ένα νέο αρακτηριστικό Διάσταση ιδιοτήτ ν του μοντέ ου Τα μοντέ α δί ς α η εξάρτηση όρ ν, αντιμετ πίζουν τους όρους/ έξεις ς μη εξαρτημένες μεταξύ τους. Αυτό το ε ονός συνή ς αναπαρίσταται στα μοντέ α VSM μέσ της υπό εσης ορ- ο νιότητας τ ν διανυσμάτ ν όρ ν ή στα πι ανοτικά μοντέ α μέσ της υπό εσης ανεξαρτησίας τ ν μετα ητών όρ ν. Τα μοντέ α με έμφυτη την ανεξαρτησία τ ν όρ ν επιτρέπουν μία αναπαράσταση τ ν ανεξαρτησιών μεταξύ τ ν όρ ν. Παρό α αυτά, ο α μός ανεξαρτησίας μεταξύ δύο όρ ν ορίζεται από το ίδιο το μοντέ ο. Συνή ς συνεπά εται άμεσα ή έμμεσα (π.. με την μεί ση τ ν διαστάσε ν) από την συν-εμφάνιση αυτών τ ν όρ ν στο σύνο ο τ ν κειμέν ν. Τα μοντέ α αυτής της κατη ορίας, ναι μεν επιτρέπουν την αναπαράσταση τ ν α η εξαρτήσε ν μεταξύ τ ν όρ ν, δεν κάνουν κάποια υπό εση όμ ς σε σ έση με το π ς ορίζεται η α η εξάρτηση μεταξύ δύο όρ ν. Αντί ετα ασίζονται σε εξ τερική πη ή ια αυτή την π ηροφορία ( ια παράδει μα αν ρώπινη α η επίδραση ή εξε ι μένους α ορί μους) Vector Space Model Το VSM αναπτύ ηκε στην αρ ική του μορφή ια αυτόματη δεικτοδότηση δεδομέν ν [191]. Σύμφ να με το VSM, μία συ ο ή από n κείμενα με m μοναδικούς όρους αναπαρίσταται ς ένας πίνακας όρ ν-κειμέν ν n m όπου δη αδή κά ε κείμενο είναι ένα διάνυσμα από m συντετα μένες. Παρότι το μοντέ ο αυτό κα αυτό είναι είναι κα ά εδραι μένο, αποτε εί την άση ια πο ά μοντέ α και σ ετική έρευνα στο ώρο. Επίσης αποτε εί την άση ια την ανά υσή μας στην διδακτορική διατρι ή και επομέν ς αξίζει να εμ α ύνουμε ί ο περισσότερο σε αυτό. Πο ά σ ήματα ζυ ίσματος όρ ν έ ουν ρησιμοποιη εί στο VSM, συμπερι αμ ανομένου του δυαδικού ζυ ίσματος συ νότητας όρου και της απ ής εκδο ής ζυ ίσματος άση της συ νότητας (δη αδή πόσες φορές εμφανίζονται οι έξεις στο κείμενο). Στο πιο διαδεδομένο σ ήμα, τα διανύσματα αναπαράστασης του κειμένου, αποτε ούνται από άρη που αντιστοι ούν στις συ νότητες τ ν όρ ν του, πο απ ασιαζόμενα με το αντίστροφο της συ νότητας τους στην ό η συ ο ή κειμέν ν (td idf). Η υπό εση πίσ από αυτό είναι ότι οι έξεις οι οποίες εμφανίζονται συ νά σε ένα κείμενο, α ά σπάνια στην συνο ική συ ο ή κειμέν ν έ ουν υψη ή δυνατότητα αναπαράστασης της π ηροφορίας. Σε ό α αυτά τα σ ήματα έ αια είναι σύνη ες να ίνεται μία κανονικοποίηση τ ν διανυσμάτ ν τ ν κειμέν ν σε μοναδιαία κ ίμακα. Οι περισσότεροι α όρι μοι συσταδοποίησης ρησιμοποιούν κάποιας μορφής VSM αναπαρά- 62

78 Κεφάλαιο Ανάκτηση Πληροφορίας στασης παρότι πρέπει να αναφερ εί ότι δεν κατα ράφεται με αυτό το μοντέ ο οποιαδήποτε π ηροφορία σε σ έση με την σειρά εμφάνισης τ ν έξε ν, ι αυτό και το VSM αναφέρεται συ νά και ς αναπαράσταση ίστας έξε ν (BOW representation), η μοντέ ο εξικού. Δύο σημαντικές ιδιότητες του μοντέ ου α πρέπει να τονιστούν. Πρώτον, σε μία συ ο ή από ετερο ενή έματα (κάτι εξαιρετικά σύνη ες ια την περίπτ ση της συσταδοποίησης), ο αρι μός τ ν μοναδικών όρ ν μπορεί, και συ νά είναι, εξαιρετικά με ά ος. Αυτό έ ει ς αποτέ εσμα τα διανύσματα τ ν κειμέν ν να είναι πο ών διαστάσε ν. Για την αντιμετώπιση αυτού του προ ήματος ένα π ή ος τε νικών προεπεξερ ασίας έ ουν ερευνη εί στην ι ιο ραφία. Δεύτερον, ο πίνακας που παρά εται από μία τυπική άση κειμέν ν είναι σε ενικές ραμμές πο ύ αραιός με το VSM, διότι η άση κειμέν ν περιέ ει πο ύ περισσότερους όρους σε σ έση με το κα ένα ξε ριστό κείμενο που την απαρτίζει Αξιο ό ηση αποτε εσμάτ ν ανάκτησης π ηροφορίας Ένα από τα ασικά στοι εία αξιο ό ησης του IR είναι η μέτρηση του κατά πόσο τα ανακτημένα κείμενα είναι σ ετικά με το ερώτημα που κάνουμε. Έτσι οιπόν, ένα ασικό στοι είο στο οποίο εστιάζουμε είναι η εύρεση μετρικών που α μπορούν να αναπαραστήσουν αρι μητικά τη σ ετικότητα τ ν αποτε εσμάτ ν ενός συστήματος IR. Πο ές μετρικές έ ουν αναπτυ εί ανά καιρούς και στην παρούσα ενότητα α κατα ράψουμε συνοπτικά τις σημαντικότερες και πιο συνη ισμένες από αυτές Ανάκ ηση και ακρί εια Ίσ ς οι πιο ν στές μετρικές αξιο ό ησης τ ν αποτε εσμάτ ν ενός συστήματος ανάκτησης π ηροφορίας να είναι η ανάκ ηση και η ακρί εια. Η ακρί εια μας δίνει το ποσοστό (%) τ ν σ ετικών κειμέν ν εν συ κρίσει με αυτά που ανακτή ηκαν, ενώ η ανάκ ηση μας δίνει το ποσοστό (%) τ ν κειμέν ν που ανακτή ηκαν εν συ κρίσει με μία συ ο ή που ν ρίζουμε ότι περιέ ει ό α τα σ ετικά. Φορμα ιστικά, οι σ έσεις που ισ ύουν ια τις δύο αυτές μετρικές είναι οι παρακάτ : R = {A} {B} A (1) P = {A} {B} B όπου R η ανάκ ηση, P η ακρί εια, A τα σ ετικά κείμενα που ρέ ηκαν και B ό α τα άρ ρα που ανακτή ηκαν. Οι παραπάν συσ ετίσεις είναι εμφανείς στο σ ήμα 3. Θα έ αμε επομέν ς ότι η ανάκ ηση μας δίνει ένα μέτρο ια το πόσο κα ά μια αναζήτηση εντοπίζει αυτό που έ ουμε, ενώ η ακρί εια μετράει το πόσο κα ά απορρίπτουμε αυτό που δεν έ ουμε. Αυτές οι μετρικές, παρότι πο ύ ρήσιμες ια την αξιο ό ηση, είναι δύσ ρηστες από τη φύση τους. Πρώτα απ ό α η έννοια της ακρί ειας είναι συνή ς αποκ ειστικά υποκειμενικό κριτήριο και ό ι μια αντικειμενική ετική ή αρνητική απάντηση. Δεύτερον, ια κά ε άση π ηροφορίας που είναι αρκετά με ά η ια να κατασκευαστεί μια μη ανή αναζήτησης πάν της, α είναι δύσκο ο να (2) 63

79 3.2. Ανάκτηση Πληροφορίας Κεφάλαιο 3 Σ ήμα 3: Ακρί εια - Ανάκ ηση. Με C είναι τα σ ετικά άρ ρα που ανακτή ηκαν. υπο ο ιστούν πρα ματικές τιμές ανάκ ησης ό του με έ ους της άσης ( ια να υπο ο ιστεί επακρι ώς η ανάκ ηση α πρέπει να ν ρίζουμε ακρι ώς πόσα matches έ ιναν, και αν ν ρίζαμε κάτι τέτοιο, ποιος ο ό ος να έ ουμε μια μη ανή αναζήτησης;). Τρίτον, η ακρί εια και η ανάκ ηση δεν είναι στον πρα ματικό κόσμο απ ά αρι μοί είναι δύο έννοιες που σ ετίζονται στενά. Για παράδει μα ενώ ψά νουμε στις σε ίδες απάντησης μιας μη ανής αναζήτησης ια ένα ερώτημα που δώσαμε, περιμένουμε κα ώς περνάμε τις σε ίδες η ανάκ ηση να ε τιώνεται ενώ παρά η α η ακρί εια να ειροτερεύει Fall-out Η μετρική Fall-out ορίζεται ς η ανα ο ία τ ν μη σ ετικών κειμέν ν τα οποία ανακτούνται, σε σ έση με ό α τα μη σ ετικά κείμενα τα οποία υπάρ ουν: fall-out = {μη σ ετικά κείμενα} {ανακτημένα κείμενα} μη σ ετικά κείμενα (3) Φυσικά μπορούμε να παρατηρήσουμε ότι εύκο α μπορούμε να παρά ουμε μηδενικές τιμές ια την fall-out μετρική: απ ά δεν επιστρέφουμε αποτε έσματα F-measure Η μετρική F-measure, ή α ιώς F-score, αποτε εί τον αρμονικό μέσο της ακρί ειας και ανάκ ησης ή ενικά ένας ζυ ισμένος συνδυασμός τ ν δύο αυτών μετρικών: F = 2 ακρί εια ανάκ ηση ακρί εια + ανάκ ηση (4) Έστ οιπόν ένα σύνο ο από κείμενα C που ένα recommendation system προτείνει στον ρήστη, κα ώς και ένα σύνο ο από κείμενα C τα οποία επισκέπτεται ο ρήστης μετά τις προτάσεις του συστήματος. Επίσης έστ ότι με r(c, c) είναι το π ή ος τ ν κειμέν ν τα οποία ανήκουν και στα δύο παραπάν σύνο α. Τότε: όπου: F (c, c) = 2r(c, c)p(c, c) r(c, c) + p(c, c) r(c, c) = doc(c, c) doc(c ) 64 (5) (6)

80 Κεφάλαιο Φιλτράρισμα Πληροφορίας και: p(c, c) = doc(c, c) doc(c) (7) Η μετρική (4) ονομάζεται και F1-measure. Στη ενική περίπτ σή οιπόν: F β = (1 + β2 ) (ακρί εια ανάκ ηση) (β 2 ακρί εια) + ανάκ ηση (8) Τέ ος, η φυσική σημασία αυτής της μετρικής αφορά στην αποτε εσματικότητα του συστήματος που αξιο ο ούμε σε σ έση με κάποια εφαρμο ή που ε ρεί β φορές πιο σημαντική την ανάκ ηση σε σ έση με την ακρί εια Μέση τιμή ακρί ειας Η ακρί εια και η ανάκ ηση είναι μετρικές μίας και μόνο τιμής, ασισμένες στην π ήρη ίστα από κείμενα που επιστρέφεται από το σύστημα. Για συστήματα που επιστρέφουν μία ταξινομημένη σειρά από κείμενα, είναι επι υμητό να αμ άνεται υπόψιν επίσης και η σειρά με την οποία τα επιστρεφόμενα αντικείμενα παρουσιάζονται. Υπο ο ίζοντας την ακρί εια και την ανάκ ηση σε κά ε έση της σειράς κατάταξης τ ν κειμέν ν, μπορούμε να σ εδιάσουμε την καμπύ η ακρί ειαςανάκ ησης, ζ ραφίζοντας την ακρί εια p(r) σαν συνάρτηση της ανάκ ησης r. Η μέση τιμής της ακρί ειας είναι επομέν ς: n AveragePr = P (k) r(k) (9) k=1 όπου k είναι η σειρά στην ταξινόμηση τ ν ανακτημέν ν κειμέν ν, n είναι το π ή ος τ ν ανακτημέν ν κειμέν ν, P (k) είναι η ακρί εια στο σημείο αποκοπής k στη ίστα και r(k) είναι η α α ή στην ανάκ ηση από τα σημεία k 1 έ ς k [232] R-Ακρί εια Η μετρική αυτή [20] κατα ράφει την ακρί εια στην R-ιοστή έση στην κατάταξη τ ν αποτε εσμάτ ν ια ένα ερώτημα που έ ει R σ ετικά κείμενα. Η R-ακρί εια είναι υψη ά συσ ετιζόμενη με την μέση ακρί εια. Επίσης, η ακρί εια είναι ίση με την ανάκ ηση στην R-ιοστή έση. 3.3 Φι τράρισμα Π ηροφορίας Ένα σύστημα IR δύσκο α μπορεί να πετύ ει πο ύ υψη ές τιμές τόσο ακρί ειας όσο και ανάκ ησης. Οι τιμές αυτές μά ιστα δεν έ ουν καμία σύ κριση με ένα σύστημα DataBase Management System (DBMS) που τα ποσοστά αυτά ρίσκονται στο 100%. Ωστόσο α μπορούσε κανείς να πει π ς και τα δύο συστήματα πρα ματοποιούν την ίδια διαδικασία, δη αδή ανάκτηση π ηροφορίας. Αυτό έ αια έ ει να κάνει με τον τρόπο με τον οποίο δομείται ένα σύστημα DBMS και ο οποίος είναι τέτοιος ώστε να εξυπηρετεί από υτα τις ανά κες ενός ρήστη. 65

81 3.3. Φιλτράρισμα Πληροφορίας Κεφάλαιο 3 Αυτή η δυσκο ία που αντιμετ πίζουν τα συστήματα IR (μικρές τιμές ανάκ ησης και ακρί- ειας) εννούν ένα ά ο επιστημονικό πεδίο το οποίο υπάρ ει παρά η α με το IR και είναι το Information Filtering (IF). Σε ένα κ ασσικό άρ ρο οι Belkin και Croft παρουσίασαν δύο διαφορετικούς ορισμούς ια τα δύο παραπάν έματα οι οποίοι έ ουν κοινές τε νικές α ά διαφέρουν σε τρία ασικά στοι εία [27]. Πρώτον, στο IR όταν ο ρήστης κάνει ένα ερώτημα περιμένει άμεση απόκριση. Στο IF ο ρήστης μπορεί να περιμένει, εν νώσει του, ια με ά ο ρονικό διάστημα μέ- ρι να του παρουσιαστεί μία απάντηση. Επιπρόσ ετα, το IF ειρίζεται και έματα που από τη φύση τους είναι δυναμικά και εντάσσει στο μη ανισμό του στοι εία εκμά ησης σύμφ να με τα κείμενα που προσ έτει στη συ ο ή του. Τε ευταίο και ασικότερο, είναι π ς το IR αναζητά παραπ ήσια κείμενα από μία με ά η συ ο ή κειμέν ν σε αντί εση με το IF, το οποίο προσπα εί να αφαιρέσει από μία συ ο ή τα εισερ όμενα κείμενα που δεν είναι σ ετικά, κρατώντας έτσι μόνο ότι ε ρεί σ ετικό με τον εκάστοτε ρήστη. Παρ ό ες τις διαφορές που έ ουν τα δύο αυτά πεδία δεν πρέπει να αμε ούμε π ς έ ουν παραπ ήσιο σκοπό: να εξασφα ίσουν ότι τα κείμενα που α παρουσιαστούν στο ρήστη είναι σ ετικά με το ερώτημά του. Τα δια ράμματα ακρί ειας/ανάκ ησης είναι ρήσιμα εφόσον με ετούμε την απόδοση ανάκτησης διαφορετικών α ορί μ ν σε ένα σύνο ο από πρότυπες π ηροφοριακές ανά κες. Ωστόσο υπάρ- ουν περιπτώσεις στις οποίες α έ αμε να συ κρίνουμε την απόδοση α ορί μ ν ανάκτησης ια ατομικές π ηροφοριακές ανά κες. Οι ό οι ια να το κάνουμε αυτό είναι δύο: 1. η ρήση μέσ ν τιμών που προκύπτουν από την εκτέ εση διαφόρ ν ερ τημάτ ν μπορεί να αποκρύπτει σημαντικές αν μα ίες στον α όρι μο ανάκτησης, 2. όταν συ κρίνουμε δύο α ορί μους, μπορεί να έ ουμε να με ετήσουμε κατά πόσο ο ένας είναι κα ύτερος του ά ου ια κά ε μία από τις π ηροφοριακές ανά κες που έ ουμε και ό ι συνο ικά. Σε τέτοιες περιπτώσεις υπο ο ίζουμε μία μόνο τιμή ακρί ειας ια κά ε ερώτημα, η οποία α μπορούσε να ε ρη εί σαν σύνοψη του συνο ικού δια ράμματος ακρί ειας/ανάκ ησης. Συνή ς αυτή η τιμή είναι η ακρί εια σε κάποιο συ κεκριμένο επίπεδο ανάκ ησης. Φυσικά αυτές είναι ί ες από τις πο ές προσε ίσεις αξιο ό ησης που μπορούν να ίνουν Εξόρυξη από τον πα κόσμιο ιστό Η εξόρυξη από τον πα κόσμιο ιστό (Web mining) εστιάζει στην εύρεση φυσικών οντοτήτ ν και συσ ετισμό αυτών από πη ές του διαδικτύου ή ρήστες αυτού. Θα μπορούσαμε να ρίσουμε οντρικά το Web mining σε τρεις ασικές κατη ορίες [54]. Αρ ικά, στο Web content mining, όπου η π ηροφορία εξά εται από το περιε όμενο τ ν σε ίδ ν και τ ν υπερσυνδέσμ ν (hyperlinks) αυτών, ό ι επομέν ς από τους ρήστες κα αυτούς. Δεύτερ ν, στο Web Structure Mining, όπου η δομική π ηροφορία σ ετικά με τα hyperlinks και η ορ άν ση τ ν σε ίδ ν παίζει κυρίαρ ο ρό ο. Και τρίτ ν, στο Web Usage Mining, το οποίο εστιάζει στην εξα ή ρήσιμ ν προτύπ ν ρήσης από την συμπεριφορά τ ν ρηστών. 66

82 Κεφάλαιο Φιλτράρισμα Πληροφορίας Η συσταδοποίηση τ ν ρηστών του διαδικτύου αποτε εί ένα ξε ριστό ερευνητικό πεδίο στην υποκατη ορία του Web Usage Mining το οποίο αποσκοπεί στην περι ραφή ενικών τάσε ν στην συμπεριφορά τ ν ρηστών μέσα σε ένα δεδομένο ρονικό π αίσιο. Όπ ς εξη είται στο [168], το Web mining είναι ουσιαστικά η εξα ή ενδιαφερόντ ν και πι ανά ρησίμ ν προτύπ ν και έμμεσης π ηροφορίας από αντικείμενα ή συμπεριφορές σ ετικές με τον πα κόσμιο ιστό. Το πεδίο έ ει επίσης με ετη εί και στο π αίσιο της προσ ποποίησης του ιστού από πο ούς ερευνητές, π.. [63], [71]. Στο [147] αμ άνονται υπόψιν ασικά δύο τύποι από πρότυπα ρήσης και ίνεται συσταδοποίηση πάν σε αυτά προκειμένου να κατασκευαστούν ενικά προφί π οή ησης τ ν ρηστών, ρίς μά ιστα να έ ει κάποια επίπτ ση η σειρά πρόσ ασης. Στο [71] παρουσιάζεται μία μέ οδος η οποία κάνει ρήση επα ής με άση τα αρακτηριστικά τ ν ρηστών, όπου οι συνεδρίες τ ν ρηστών αναπαρίστανται ς πίνακες στον n-διάστατο Ευκ είδειο ώρο τ ν όρ ν. Η οπτικοποίηση τ ν επι ο ών του ρήστη έ ει επίσης με ετη εί στο [41] ια πρότυπα π οή ησης. Στο [90] εισά εται μία με οδο ο ία στοί ισης ακο ου ίας (Sequence Alignment) η οποία συσταδοποιεί τους ρήστες με άσει τα πρότυπα π οή ησής τους. Αυτή η μέ οδος ασίζεται στην σειρά με την οποία τα ε ονότα π οή ησης αμ άνουν ώρα από τους ρήστες. Το Web usage mining ουσιαστικά οδη εί στο συνερ ατικό φι τράρισμα όταν κάνει ρήση τ ν ν στών προτιμήσε ν από ένα σύνο ο ρηστών προκειμένου να κάνει προτάσεις ή προ έψεις σ ετικά με ά ν στες προτιμήσεις ρηστών Συνερ ατικό φι τράρισμα - Collaborative Filtering Το συνερ ατικό φι τράρισμα (collaborative filtering) έ ει δύο έννοιες [184], μία στενή και μία πιο ευρύτερη [204]. Γενικά, το συνερ ατικό φι τράρισμα είναι η διαδικασία φι τραρίσματος της π ηροφορίας με ρήση τε νικών που εμπεριέ ουν συνερ ασία μεταξύ πη ών, αντι ήψε ν, κ. π. Η προσαρμο ή τ ν CF συστημάτ ν στις προτιμήσεις του ρήστη, μειώνει την προσπά εια αναζήτησης από την π ευρά του. Οι εφαρμο ές του συνερ ατικού φι τραρίσματος τυπικά εμπεριέ ουν πο ύ με ά α σύνο α δεδομέν ν. Μέ οδοι CF έ ουν εφαρμοστεί σε πο ά διαφορετικά είδη δεδομέν ν, συμπερι αμ ανομέν ν τ ν: αίσ ηση και παρακο ού ηση δεδομέν ν, οικονομικά δεδομένα, η εκτρονικό εμπόριο, κ. α. Στην νεότερη, πιο στενή έννοια, το CF είναι μία μέ οδος ια αυτόματες προ έψεις (φι τράρισμα) σε σ έση με τα ενδιαφέροντα του ρήση, με ρήση συ ο ή τ ν ενδιαφερόντ ν ή τ ν προτιμήσεών πο ών ά ν ρηστών (συνερ ασία). Αξίζει να σημει εί ότι οι προ έψεις που κάνει ένα CF είναι στο ευμένες ια τον συ κεκριμένο ρήστη, όμ ς η αρ- ική π ηροφορία πη άζει από πο ούς ά ους. Αυτό διαφέρει από την απ ούστερη προσέ ιση η οποία δίνει ένα μέσο (ό ι συ κεκριμένο) σκορ ια κά ε είδος ενδιαφέροντος, που ασίζεται ια παράδει μα στο π ή ος τ ν ψήφ ν. Η έννοια του συνερ ατικού φι τραρίσματος εισή ηκε από τους ερευνητές ενός εκ τ ν πρώτ ν συστημάτ ν προτάσε ν, του Tapestry [80], προκειμένου να περι ράψουν αυτή την τε νική προσ ποποιημέν ν προτάσε ν που ασίζεται στην ομοιότητα τ ν ενδιαφερόντ ν τ ν ρηστών. Το συνερ ατικό φι τράρισμα στο εύει επομέν ς στο να περι ράψει ενικά τις διάφορες τε νικές προσ ποποιημέν ν προτάσε ν. Από τότε, έ ει ευρέ ς υιο ετη εί και εξε ι εί σε τέτοιο α μό 67

83 3.3. Φιλτράρισμα Πληροφορίας Κεφάλαιο 3 ώστε τα συστήματα προτάσε ν να προτείνουν ιδιαίτερα ενδιαφέροντα αποτε έσματα στους ρήστες, ενώ παρά η α να φι τράρουν αποτε εσματικά τον ό κο δεδομέν ν που δια ειρίζονται. Η ασική υπό εση ενός CF συστήματος [121] είναι ότι: Υπό εση 1. αν οι χρήστες X και Y βαθμολογούν n αντικείμενα παρόμοια, ή γενικά έχουν παρόμοιες συνήθειες (π.χ. αγοραστικές, ακουστικές, κ.λπ.), τότε θα βαθμολογήσουν η θα ενεργήσουν σε άλλα αντικείμενα παρόμοια Οι CF α όρι μοι συ νά απαιτούν: 1. την ενερ ή συμμετο ή τ ν ρηστών στη διαδικασία - συ νά με απαντήσεις σε σ έση ή ενέρ ειες που φανερώνουν τις προτιμήσεις τους 2. έναν εύκο ο τρόπο αναπαράστασης τ ν ενδιαφερόντ ν τ ν ρηστών στο σύστημα 3. α όρι μους οι οποίοι είναι ικανοί να ταιριάξουν αν ρώπους με παρόμοια ενδιαφέροντα Ροή π ηροφορίας CF Τυπικά η ροή π ηροφορίας σε ένα σύστημα CF έ ει ς εξής: ένας ρήστης εκφράζει τα ενδιαφέροντά του α μο ο ώντας/αξιο ο ώντας αντικείμενα (π.. ι ία, ταινίες, άρ ρα νέ ν) του συστήματος. Αυτές οι α μο ο ίες μπορούν να ειδ ούν ς μια στο περίπου αναπαράσταση τ ν ενδιαφερόντ ν του ρήστη στο συ κεκριμένο τομέα ενδιαφέροντος. το σύστημα ταιριάζει τα ενδιαφέροντα του ρήστη με εκείνα ά ν ρηστών και ρίσκει εκείνους με παρόμοια ενδιαφέροντα έ οντας τους παρόμοιους ρήστες, το σύστημα προτείνει αντικείμενα τα οποία οι παρόμοιοι ρήστες έ ουν α μο ο ήσει υψη ά α ά δεν έ ουν ακόμα α μο ο η εί από τον ρήστη (υπο έτοντας ότι η απουσία α μο ό ησης συ νά φανερώνει μη νώση ια το συ κεκριμένο αντικείμενο) Ένα ασικό πρό ημα του συνερ ατικού φι τραρίσματος είναι το π ς να συνδυαστούν και να ζυ ιστούν οι προτιμήσεις τ ν παρόμοι ν ρηστών. Μερικές φορές, οι ρήστες μπορούν να α μο ο ήσουν άμεσα τα προτεινόμενα αντικείμενα. Ως αποτέ εσμα, με το πέρασμα του ρόνου, το σύστημα κερδίζει μία ο οένα και αυξανόμενη αναπαράσταση τ ν προτιμήσε ν του ρήστη. Ένα ακόμη πρό ημα του CF είναι ότι τα σκορ ομοιότητας τυπικά δεν αμ άνουν υπόψιν τους τα μετα α όμενα ενδιαφέροντα ρήστη. Επίσης δεν μπορούν να υπο ο ίζουν την αξιοπιστία τ ν επι ο ών τ ν ρηστών, κάτι που μπορεί εύκο α να οδη ήσει σε άσ ημα αποτε έσματα προτάσε ν, ακόμη και ια τους κα ύτερους α ορί μους. Στην διδακτορική διατρι ή προσπα ούμε να αντιμετ πίσουμε το παραπάν πρό ημα κάνοντας μικρές α ά συνε είς α α ές στα προφί ρηστών άσει τ ν εκάστοτε επι ο ών τους. 68

84 Κεφάλαιο Φιλτράρισμα Πληροφορίας Ένα ακόμη πρό ημα που επίσης έ ουν τα συστήματα συνερ ατικού φι τραρίσματος είναι ότι δεν δου εύουν πάντα κα ά ό του φαινομένου της αραιότητας τ ν δια έσιμ ν δεδομέν ν (data scarcity). Κά ε ρήστης του συστήματος έ ει δει ένα μικρό μέρος μό ις τ ν δεδομέν ν και επομέν ς ακρι είς προ έψεις δεν μπορούν εύκο α να ίνουν, του ά ιστον έ ς ότου η κά υψη τ ν ρηστών στα δεδομένα έ ει αυξη εί σε κάποιο α μό. Ένας τρόπος αντιμετώπισης αυτής της κατάστασης είναι η ομαδοποίηση τ ν ρηστών σε ομάδες παρομοί ν ενδιαφερόντ ν. Έτσι, αξιοποιώντας την πι ανή συμμετρία στις επι ο ές τ ν ρηστών που ρίσκονται στις ίδιες συστάδες, α μπορούσαμε να ομαδοποιήσουμε άρ ρα νέ ν ασιζόμενοι στο ποιος τα έπει - ρησιμοποιώντας έτσι ομάδες άρ ρ ν αντί ια μεμον μένους ρήστες. Η αντίστροφη προσέ ιση είναι επίσης πι ανή: έστ μία ομάδα ρηστών οι οποίοι έ ουν προη ουμέν ς εκφράσει το ενδιαφέρον τους ια ένα συ κεκριμένο έμα. Ένα πρόσφατο άρ ρο με ομοιότητα προς κάποια από τα άρ ρα που προη ουμέν ς έ ουν δια ασ εί από μερικά μέ η της ομάδας, είναι πι ανό να ενδιαφέρει και τους υπό οιπους ρήστες αυτής της ομάδας. Έτσι, αντί να ασιζόμαστε στις επι ο ές μεμον μέν ν ρηστών, η συστάδα ενσ ματώνει και προσ έτει την απαραίτητη π ηροφορία που ρειάζεται ένα CF σύστημα. Την ο ική αυτή ακρι ώς αξιοποιούμε και εμείς προκειμένου να αντιμετ πίσουμε το εν ό πρό ημα. Οι δύο τε νικές που παραδοσιακά αξιοποιούνται ια εφαρμο ή τ ν παραπάν προσε ίσε ν είναι η k Nearest Neighbors (k-nn) και η συσταδοποίηση Απαιτήσεις CF Πο ές τε νικές παρα οντοποίησης πινάκ ν έ ουν εφαρμοστεί στο CF, όπ ς το Singular Value Decompossition (SVD), το probabilistic LSA, το probabilistic matrix factorization, κ. π. Παρό α αυτά, ο συνδυασμός πο απ ών α ορί μ ν φαίνεται να υπερτερεί τ ν απ ούστερ ν με- οδο ο ιών [197]. Οι CF τε νικές συ νά ρησιμοποιούν μία άση δεδομέν ν ια τις προτιμήσεις τ ν ρηστών προς αντικείμενα. Σε ένα τυπικό σενάριο μίας ίστας m ρηστών u 1, u 2,..., u m και μίας ίστας n αντικειμέν ν i 1, i 2,..., i n, όπου κά ε ρήστης u i έ ει μία ίστα από αντικείμενα I ui, τα οποία ο ρήστης α μο ό ησε άμεσα (π.. σε κ ίματα 1-5) ή σε σ έση με τα οποία υπάρ ει έμμεση ένδειξη ενδιαφέροντος με άση τη συμπεριφορά του (π.. μέσ α ορών ή click-throughs). Έτσι οιπόν, οι α όρι μοι CF απαιτείται: να έ ουν τη δυνατότητα να αντιμετ πίζουν τα αραιά δια έσιμα δεδομένα να κ ιμακώνονται με την αύξηση τ ν ρηστών και τ ν αντικειμέν ν να κάνουν ικανοποιητικές προτάσεις σε σύντομο ρονικό διάστημα (ικανοποιητική απόκριση) να μπορούν να αντιμετ πίσουν προ ήματα όπ ς η συν νυμία (όπου παρόμοια αντικείμενα έ ουν διαφορετικά ονόματα), shilling attacks [49], όρυ ο στα δεδομένα κα ώς και έματα προστασίας της ιδι τικότητας [197] 69

85 3.3. Φιλτράρισμα Πληροφορίας Κεφάλαιο Κατη ορίες CF Οι τε νικές CF έ ουν οντρικά τρεις κατη ορίες: 1. Memory-based, όπ ς ια παράδει μα τε νικές που ασίζονται σε είτονους (neighborbased) [91] και item- based top-n τε νικές [192][113] 2. Model-besed, ια παράδει μα Bayesian δίκτυα πεποί ησης (Bayesian belief nets) [202], αν- άνουσα σημασιοδότηση (latent semantic) [94] κα ώς και περιορισμού διαστάσε ν (dimensionality reduction) SVD [173] 3. Υ ριδικά, τα οποία συνδυάζουν τα π εονεκτήματα και τ ν δύο παραπάν κατη οριών ενώ παρά η α ε τιώνουν της απόδοση τ ν προ έψε ν προτιμήσε ν ρήστη [201] Η αρ ική ενιά CF συστημάτ ν ρησιμοποιούσε τα δεδομένα α μο ό ησης τ ν ρηστών προκειμένου να υπο ο ίσει την ομοιότητα ή το άρος μεταξύ ρήστη και αντικειμένου, ώστε να κάνει προ έψεις ή προτάσεις σύμφ να με αυτές τις τιμές ομοιότητας. Τα memory-based CF συστήματα συ νά τα συναντούμε σε εμπορικές εφαρμο ές [94] όπ ς το Amazon [10] και το Barnes and Noble [23] διότι είναι εύκο α ς προς την υ οποίηση τους και αρκετά αποδοτικά. Για να επιτύ ουν κα ύτερα αποτε έσματα στις προ έψεις τους και να αποφύ ουν τα μειονεκτήματα τ ν memory-based α ορί μ ν, οι model-based προσε ίσεις κάνουν ρήση τ ν πρ το ενών δεδομέν ν α μο ό ησης προκειμένου να εκτιμήσουν και να εκμά ουν ένα μοντέ ο το οποίο κάνει τις προ έψεις. Το μοντέ ο μπορεί να είναι κάποιος α όρι μος εξόρυξης δεδομέν ν ή μη ανικής εκμά ησης. Πο ύ συ νές model-based CF τε νικές είναι τα Bayesian δίκτυα πεποί ησης [145][195], τα CF μοντέ α συσταδοποίησης [203][46], κα ώς και τα latent semantic CF μοντέ α [94]. Επίσης τα Markov decision process (MDP) μοντέ α CF [183] παρά ουν αποτε έσματα με πο ύ υψη ή απόδοση Φι τράρισμα άσει περιε ομένου Πέρα από το συνερ ατικό φι τράρισμα, το φι τράρισμα άσει περιε ομένου (content-based filtering) είναι μια πο ύ σημαντική κατη ορία συστημάτ ν προτάσε ν. Τα συστήματα προτάσε ν αυτού του είδους κάνουν προτάσεις ανα ύοντας το περιε όμενο της κειμενικής π ηροφορίας και ρίσκοντας κανονικότητες στο περιε όμενο, όπ ς π.. στο [87]. Η ασική διαφορά μεταξύ τ ν CF και τ ν content-based filtering συστημάτ ν προτάσε ν είναι ότι τα πρώτα ρησιμοποιούν μόνο τις α μο ο ίες ρηστών-αντικειμέν ν ια να κάνουν τις προ έψεις και προτάσεις τους, ενώ τα δεύτερα ασίζονται στα αρακτηριστικά τ ν ρηστών και τ ν αντικειμέν ν ια αυτές [195]. Τόσο τα CF όσο και τα content-based filtering συστήματα όμ ς έ ουν τους περιορισμούς τους: ενώ τα CF συστήματα δεν συμπερι αμ άνουν άμεσα π ηροφορία αρακτηριστικών, τα contentbased συστήματα δεν ενσ ματώνουν απαραίτητα την π ηροφορία ια την ομοιότητα τ ν προτιμήσε ν μεταξύ τ ν ρηστών [13]. Οι υ ριδικές CF τε νικές, όπ ς content-based CF α όρι μοι [141] και τε νικές διά ν σης προσ πικότητας (Personality Diagnosis (PD)) [176], συνδυάζουν το CF με το content-based με σκοπό την αποφυ ή τ ν περιορισμών τ ν δύο κατη οριών και 70

86 Κεφάλαιο Συστήματα προτάσεων συνεπώς την ε τί ση της απόδοσης τ ν προτάσε ν. Η προσέ ιση αυτή αξιοποιείται ια στην διδακτορική διατρι ή ια το σύστημα προτάσε ν που αναπτύ ηκε. 3.4 Συστήματα προτάσε ν Όπ ς εξη είται και στο [120], τα συστήματα προτάσε ν έ ουν μία ιστορία η οποία ξεκίνησε με τους εστιασμένους α όρι μους πρό εψης, οι οποίοι στην συνέ εια επεκτά ηκαν σε εμπορική ρήση και που πρόσφατα εστιάζουν σε πιο επτομερείς με οδο ο ίες ξεφεύ οντας από την ο ική απ ά και μόνο της ακρί ειας τ ν προ έψε ν. Στις αρ ές της δεκαετίας 1990, κα ώς η ρήση του διαδικτύου εξαπ νόταν ρή ορα, συστήματα προτάσε ν που ασίζονται σε συνερ ατικό φι τράρισμα εφευρέ ηκαν ια να οη ήσουν τους ρήστες να αντιμετ πίσουν την υπερφόρτ ση π ηροφορίας με τη δημιουρ ία μοντέ ν πρό εψης που εκτιμούν πόσο ο ρήστης α ή ε ε να έ ει νώση ια τα εν ό αντικείμενα. Το σύστημα GroupLens [181] ασιζόταν στην διαίσ ηση ότι κά ε φορά που ένας ρήστης διά αζε ένα άρ ρο από το Usenet, σ ημάτιζε και στη συνέ εια πετούσε μια πο ύτιμη νώμη. Αυτή η νώμη κατα ράφονταν από το σύστημα και έτσι, ρησιμοποιώντας τις αξιο ο ήσεις τ ν ομοϊδεατών μπορούσε να παρά ει τα προσ ποποιημένες προ έψεις που εμφανίζονταν ς μέρος της επικεφα ίδας του άρ ρου. Το σύστημα Ringo [196] προσέφερε προτάσεις ια μουσικούς κα ιτέ νες ρησιμοποιώντας μια παρόμοια τε νική που ονομάστηκε κοιν νικό φι τράρισμα τ ν π ηροφοριών. Ομοί ς και ια το πεδίο τ ν προτάσε ν π ηροφορίας ίντεο [93], όπου ρησιμοποιή ηκαν παρόμοιοι α όρι μοι και ενημέρ ση μέσ ια τις εικονικές κοινότητες τ ν ταινιόφι ν. Τα συστήματα προτάσε ν ρή ορα έ ιναν δημοφι ή, τόσο όσον αφορά την έρευνα, όσο και την εμπορική τους εκμετά ευση και μέ ρι το 1996, πο ές εταιρείες διαφήμιζαν και προ ούσαν τους μη ανισμούς προτάσε ν τους. Σε σ έση με την παραπάν αρ ή, το πεδίο έ ει προ ρήσει τόσο μέσ της ασικής έρευνας και της εμπορικής ανάπτυξης, έ ς το σημείο όπου τα συστήματα συστάσε ν σήμερα ενσ ματώνονται σε ένα ευρύ φάσμα εφαρμο ών περιε ομένου (online και offline). Παρά η α, το πεδίο εφαρμο ής τ ν συστημάτ ν προτάσε ν έ ει διευρυν εί, ενώ ο όρος, που αρ ικά ήταν συνυφασμένος με το συνερ ατικό φι τράρισμα, ρή ορα επεκτά ηκε ώστε να συμπερι ά ει ένα ευρύτερο φάσμα από προσε ίσεις που ασίζονται στο περιε όμενο (content-based) α ά και στη νώση (knowledgebased). Ό α τα πρώτα οιπόν συστήματα προτάσε ν ρησιμοποιούσαν παρα α ές του ζυ ισμένου k-nn α ορί μου. Διαισ ητικά, αυτός ο α όρι μος προ έπει πόσο ένα αντικείμενο i α αρέσει σε έναν ρήστη u με το να επι έ ει μία ειτονία από ά ους ρήστες με ενδιαφέροντα όσο το δυνατόν κοντινότερα στον u. Η επι ο ή ειτονικότητας ίνεται μέσ του υπο ο ισμού ενός μέτρου ομοιότητας μεταξύ τ ν προη ούμεν ν επι ο ών του u και επι ο ών ά ν ρηστών (συ νά με άση τη μετρική ομοιότητας του Pearson, ή ς ένα πίνακα ομοιότητας συνημιτόνου) και επι έ οντας τα πιο όμοια αντικείμενα ς είτονες [92]. Με την πρό εψη ενδιαφερόντ ν ς το ασικό έρ ο τους, δεν είναι περίερ ο που οι πιο δημο- 71

87 3.5. Προεπεξεργασία κειμένου Κεφάλαιο 3 φι είς στρατη ικές αξιο ό ησης τ ν συστημάτ ν προτάσε ν ήταν (και ακόμα και τώρα είναι σε με ά ο α μό) η ακρί εια τ ν παρα όμεν ν προ έψε ν. Τα περισσότερα από τα πρώτα συστήματα προτάσε ν αξιο ο ούνταν με άσει κριτήρια όπ ς το σφά μα ή η συσ έτιση. Στα παραπάν περι αμ άνονται το από υτο σφά μα και το μέσο τετρα νικό σφά μα, προσφέροντας μία εκτίμηση του πόσο κοντά ρίσκονται οι προ έψεις στα πρα ματικά ενδιαφέροντα ή α μο ο ήσεις. Η συσ έτιση παρέ ει ένα παρόμοιο μέτρο, α ά εστιάζει στις σ ετικές προ έψεις, παρά στις από υτες τιμές πρό εψης. Σε κά ε περίπτ ση, αυτές οι μετρικές εφαρμόζονται σε μέρος τ ν δεδομέν ν (παρακρατημένα από το μη ανισμό προτάσε ν) προκειμένου να εκτιμη εί η ακρί εια. Υπάρ ει ένα σημαντικό μειονέκτημα όπ ς τ ν παραπάν μετρικών που πρέπει να αναφέρουμε. Μπορεί να κάνουν κα ή δου ειά στο να εκτιμούν τα συστήματα προτάσε ν ς προσε ίσεις ανάκτησης ε ιπών δεδομέν ν, δεν κάνουν και τόσο κα ή δου ειά όμ ς στο να αξιο ο ούν αν τα συστήματα προτάσε ν προτείνουν αντικείμενα με αξία και προη ούμενος ά ν στα στον ρήστη (κάτι που είναι και ο ασικός στό ος ά στε τ ν συστημάτ ν προτάσε ν). Σύντομα η ο ική τ ν συστημάτ ν προτάσε ν μετατοπίστηκε στον τομέα της εμπειρίας ρήστη, μία δύσκο η ενικά πρόκ ηση. Η μέτρηση της εμπειρίας ρήστη α αποτε ούσε με έτη διαφορετικού είδους. Το παραπάν όμ ς απαιτεί ρήστες μακράς διαρκείας, οι οποίοι α είναι πρό υμοι να αξιο ο ήσουν το σύστημα - ο μόνος αξιόπιστος τρόπος δη αδή μέτρησης συμπεριφορών σε πρα ματική ρήση. Η έρευνα προς αυτή την κατεύ υνση διακρίνεται σε τρεις κατη ορίες: ανάπτυξη συστημάτ ν αποκ ειστικά ια πειραματική ρήση. Παραδεί ματα σ ετικών με ετών αποτε ούν το [48], το TechLens το οποίο αξιοποιή ηκε από πο ές έρευνες ([111],[65], κ.α.) συνερ ασία με ειριστές live συστημάτ ν ια την εκτέ εση πειραμάτ ν πάν σε συστήματα προτάσε ν, όπ ς π.. με το BookCrossing.com στο [233] και την Wikipedia στο [55]. ανάπτυξη και υποστήριξη ερευνητικών συστημάτ ν και κοινότητες ρηστών. Χαρακτηριστικός αντιπρόσ πος αποτε εί το ερευνητικό project GroupLens [181] Τα παραπάν δεν αποτε ούν παρά μια σύνοψη της ιστορίας τ ν συστημάτ ν προτάσε ν. Για περισσότερες π ηροφορίες σ ετικά με το έμα, παραπέμπουμε τον ανα νώστη στα [120] και [64], πη ές εξαιρετικά ρήσιμες και επίκαιρες. 3.5 Προεπεξερ ασία κειμένου Το να κρατήσουμε μία αναπαράσταση τ ν κειμέν ν η οποία περι αμ άνει κά ε keyoword (ή n-gram), είναι κάτι το απα ορευτικό ια ένα πρα ματικό σύστημα που αξιοποιεί την κειμενική π ηροφορία. Ο ό ος είναι απ ός και έ ει να κάνει με την κ ιμάκ ση του ρόνου και ώρου υπο ο ισμού σε αυτή την περίπτ ση. Αντι έτ ς, είναι απαραίτητη μία διαδικασία προεπεξερ ασίας κειμένου η οποία α κατα ή ει στον εντοπισμό τ ν σημαντικών οντοτήτ ν αυτού, είτε αυτά είναι keywords, είτε n-grams, είτε κάποια ά η (συνή ς στατιστική) π ηροφορία. 72

88 Κεφάλαιο Προεπεξεργασία κειμένου Υπάρ ει μία π η ώρα προσε ίσε ν που έ ουν προτα εί στη ι ιο ραφία σε ότι έ ει να κάνει με την προεπεξερ ασία κειμένου. Οι πιο ν στές τε νικές είναι τα Hidden Markov Models [53], η Naive Bayes [160] και τα Support Vector Machines [115]. Πέρα από τις παραπάν τε νικές μοντε οποίησης τ ν δεδομέν ν, μία συ νά ρησιμοποιούμενη τε νική, και δει αυτή που αξιοποιούμε και στα π αίσια της διδακτορικής διατρι ής, είναι η tf-idf (term frequency - inverse document frequency) [109]. Η μετρική αυτή είναι μία στατιστική μετρική η οποία στο εύει να αναπαραστήσει πόσο σημαντικό είναι ένα keyword σε μία συ ο ή. Αυξάνει δε ανα ο ικά σε σ έση με το π ή- ος που εμφανίζεται το keyword στο κείμενο σε σύ κριση με την συ νότητα εμφάνισής του στη συνο ική άση δεδομέν ν. Η ο ική πίσ από αυτή την αντιμετώπιση είναι σ ετικά απ ή: ενδιαφερόμαστε ια κειμενικές μονάδες (π.. keywords) τα οποία είναι συ νά στο κείμενο α ά όμ ς δεν είναι το ίδιο συ νά σε με ά ο μέρος τ ν κειμέν ν της συ ο ής. Ά ες τε νικές, οι οποίες επίσης προτα εί στη ι ιο ραφία είναι το κέρδος π ηροφορίας [224], odds ratio [146], κ. π Εξα ή έξε ν κ ειδιών Η αυτοματοποιημένη εξα ή έξε ν κ ειδιών αποσκοπεί στον εντοπισμό ενός μικρού συνό ου έξε ν, φράσε ν-κ ειδιών ή πιο συ κεκριμένα, keywords από ένα κείμενο, τα οποία α μπορούν να περι ράψουν το νόημα του κειμένου [97]. Θα πρέπει να ίνεται με συστηματικό τρόπο, είτε με ε ά ιστη ή κα ό ου αν ρώπινη παρεμ ο ή, ανά ο α το μοντέ ο. Ο σκοπός της εξα - ής έξε ν κ ειδιών είναι η αναπαράσταση του κειμένου κατά τρόπο σύντομο, συ κεκριμένο και αποτε εσματικό με την μικρότερη δυνατή απώ εια νοηματικής π ηροφορίας. Τα μοντέ α προεπεξερ ασίας κειμένου που αναφέρ ηκαν στην προη ούμενη ενότητα έ ουν στον πυρήνα τους την διερ ασία εξα ής έξε ν κ ειδιών του κειμένου Εξα ή n-grams Ένα n-gram αποτε εί την κειμενική ακο ου ία μήκους n που ρίσκεται σε ένα κείμενο. Στην ερ ασία μας ασ ο ούμαστε με τα n-grams έξε ν (word n-grams) τα οποία μπορούν να ιδ ούν υπό την ανα ο ία τοπο έτησης ενός μικρού μετα α όμενου παρα ύρου πάν από μία πρόταση του κειμένου, στο οποίο μόνο n έξεις είναι ορατές κά ε στι μή. Σε κά ε έση του παρα ύρου, η ακο ου ία έξε ν μέσα του κατα ράφεται. Σε ορισμένες περιπτώσεις, το παρά υρο μπορεί να μετακινείται περισσότερο από μία έξη αφού κά ε n-gram έ ει κατα ραφεί. Η απ ούστερη μορφή n-gram είναι το unigram, όπου n = 1, η οποία ανά εται στην BOW αναπαράσταση τ ν keywords του κειμένου. Τυπικά το n είναι ένας στα ερός αρι μός, υψη ά εξαρτώμενος από το συ κεκριμένο σύνο ο δεδομέν ν (π.. τη ώσσα, τον τομέα, κ. π.) κα ώς και τα ερ τήματα προς αυτό. Κα ένα από τα n-grams είναι ένα σύνο ο συντετα μέν ν που αναπαριστά το κείμενο που με ετάται, και η συ νότητα εμφάνισης του n-gram μπορεί να είναι το άρος του n-gram. Μπορούμε επομέν ς να ρησιμοποιήσουμε αυτή την αναπαράσταση σε εφαρμο ές όπ ς η συμπίεση κειμένου, κα ώς και π ή ος ά ν εφαρμο ών στον τομέα του IR συμπερι αμ ανομένης και της συσταδοποίησης αντικειμέν ν όπ ς στην περίπτ ση της διδακτορικής διατρι ής. Η ρήση της πι ανότητας κατανομής τ ν n-grams και τ ν n-grams μοντέ ν στο NLP είναι 73

89 3.5. Προεπεξεργασία κειμένου Κεφάλαιο 3 μία σ ετικά απ ή ιδέα, η οποία όμ ς έ ει ρει τεράστια απή ηση. Για παράδει μα μοντέ α n-grams σε επίπεδο αρακτήρ ν κειμένου μπορούν να εφαρμοστούν σε κά ε ώσσα, ή ακόμη και σε μη σσικές ακο ου ίες, όπ ς ακο ου ίες DNA και μουσικής. Έ ουν επίσης ρησιμοποιη εί στην συμπίεση κειμένου, π.. το PPM μοντέ ο [28], και έ ουν επίσης αποδει εί αποτε εσματικά σε προ ήματα εξόρυξης δεδομέν ν [218]. Στον τομέα της κατη οριοποίησης κειμένου, ανεξαρτήτου ώσσας, n-grams μοντέ α σε επίπεδο έξε ν έ ουν ρησιμοποιη εί ια την Α ική και Γερμανική ώσσα με κα ά αποτε έσματα [16]. Η ανά υση τ ν n-grams έ ει επίσης αποδει εί με ά ης σημασίας ια πο ές περιο ές της φυσικής επεξερ ασίας ώσσας και εξόρυξης κειμένου, όπ ς το διαπέρασμα (parsing) κειμένου και IR εφαρμο ές. Ορισμένα παραδεί ματα συμπερι αμ άνουν: αναζήτηση και κατη οριοποίηση παρόμοι ν κειμέν ν, όπ ς στο [152], όπου οι συ ραφείς παρουσιάζουν μία προσέ ιση n-grams αρακτήρ ν ια την περίπτ ση της κατη οριοποίησης κειμέν ν εντοπισμός επανα ρησιμοποιημένου, διπ ότυπου ή κειμένου ο οκ οπής (plagiarized text) [24] εντοπισμός επι α ούς (malicious) κώδικα [3] π ή ος σσο ο ικών διαδικασιών, όπ ς ανα νώριση ώσσας [138] Η διαίσ ηση πίσ από τις προαναφερ είσες προσε ίσεις είναι κοινή: οι φράσεις, ς σύνο ο, μά ον κου α άνε περισσότερη π ηροφορία σε σ έση με το ά ροισμα τ ν αυτόνομ ν συστατικών τους. Έτσι, η εξα ή τους, μπορεί να οδη ήσει σε αποτε εσματικότερη κειμενική αναπαράσταση άρα και αποτε έσματα. Ένα ακόμη έμα που έ ει να κάνει με την ανά υση τ ν n-grams και το οποίο α πρέπει να αναφερ εί, είναι ότι τα εντε ώς σπάνια εμφανιζόμενα n-grams είναι κατά κανόνα μη ενδιαφέροντα και έτσι ρειάζεται μόνο να μετράμε τα n-grams που εμφανίζονται στο σύνο ο δεδομέν ν μας με συ νότητα από κάποιο όριο και πάν. Δεν α πρέπει η παραπάν κατη ορία όμ ς να συ έεται με τα μη συ νά n-grams, τα οποία και αποτε ούν πι ανότητα σημαντικά (αντίστοι η ζύ ιση tf-idf). Τέ ος, ο κα ορισμός της τιμής του n, δη αδή του με έ ους του μήκους παρα ύρου που ρησιμοποιείται, όταν αναφερόμαστε σε n-grams έξε ν, είναι μια περιο ή πειραματισμού ια την συ κεκριμένη περιο ή νώσης τ ν κειμέν ν. Για παράδει μα, στο τομέα του εντοπισμού κειμένου ο οκ οπής, οι συ ραφείς του [24] εξη ούν ότι αμη ές τιμές ια το n φαίνεται να οδη ούν στα κα ύτερα αποτε έσματα ια συ κεκριμένες τιμές ακρί ειας-ανάκ ησης. Τιμές πάν από 4, μά ον έ ουν αρνητική επίπτ ση στην αποτε εσματικότητα της προσέ ισης. Παρόμοιο αποτέ- εσμα δίνεται και στο [73], όπου οι συ ραφείς κατα ή ουν στο συμπέρασμα π ς οι ακο ου ίες έξε ν με έ ους 2 ή 3 είναι πο ύ πιο ρήσιμες σε σ έση με με α ύτερες ακο ου ίες οι οποίες και μειώνουν την απόδοση της κατη οριοποίησης. Όσον αφορά τον τομέα της συσταδοποίησης, την επίδραση στον οποίο η ρήση τ ν n-grams έξε ν με ετάται στην διδακτορική διατρι ή, δεν ρήκαμε κάποια σ ετική έρευνα στην ι ιο ραφία. 74

90 Κεφάλαιο Ταξινόμηση κειμένων 3.6 Ταξινόμηση κειμέν ν Δεδομένου ενός συνό ου πινάκ ν κειμέν ν {d 1, d 2,..., d n } και τ ν συσ ετιζόμεν ν με αυτά ετικετών c(d i ) {c 1, c 2,..., c l }, η διαδικασία της ταξινόμησης αφορά στον κα ορισμό της σ στής ετικέτας του νέου κειμένου d. Η ταξινόμηση κειμέν ν (text classification) έ ει με ετη εί σε με ά ο α μό, ιδιαίτερα ύστερα από την εμφάνιση του διαδικτύου. Οι περισσότεροι α όρι μοι ασίζονται στο μοντέ ο συνό ου έξε ν του κειμένου [189]. Ένας απ ός και συνάμα αποτε εσματικός α - όρι μος είναι αυτός του Naive Bayes [144]. Για το πρό ημα της ταξινόμησης κειμέν ν, διάφορες παρα α ές του Naive Bayes έ ουν ρησιμοποιη εί α ά έ ει ρε εί [139] ότι η παρα α ή που ασίζεται στο πο υ νυμικό μοντέ ο οδη εί σε κα ύτερα αποτε έσματα. Η μέ οδος τ ν Support Vector Machine (SVM) έ ει επίσης ρησιμοποιη εί επίσης με κα ά αποτε έσματα [105][43]. Για ιεραρ ικά δεδομένα κειμέν ν, όπ ς οι ιεραρ ίες εμάτ ν του Yahoo! [223] και το Open Directory Project [164], έ ει με ετη εί στα [119][45][61]. Για να αποφευ ούν οι πο ές διαστάσεις στην αναπαράσταση τ ν κειμέν ν, πο ές μέ οδοι επι ο ής αρακτηριστικών έ ουν προτα εί [224][119][45]. Επίσης συ νά επιζητείται η ιδιότητα της ισ υρής ταξινόμησης όπου η κά ε έξη του κειμένου μπορεί να αντιπροσ πευ εί από τη μοναδική ομάδα που ανήκει. Τέτοια ιδιότητα αξιοποιείται στα [139][198]. Η επι ο ή του με ίστου π ή ους τ ν έξε ν που α απαρτίζουν ένα cluster είναι επίσης κάτι σημαντικό [216][185]. 3.7 Συσταδοποίηση κειμέν ν Η συσταδοποίηση δεδομέν ν ενικά έ ει με ετη εί σε ά ος στην υπάρ ουσα ι ιο ραφία τα τε ευταία 20 ρόνια. Η εξερεύνηση αυτής τις ι ιο ραφίας περιπ έκεται από το ε ονός ότι υπάρ ουν πο ά πεδία νώσης πάν στα οποία η συσταδοποίηση μπορεί να εφαρμοστεί. Ειδικά ια την περίπτ ση της συσταδοποίησης κειμέν ν, μία τεράστια ποικι ία τε νικών έ ει προτα εί. Σε αυτή στην ενότητα δεν α προσπα ήσουμε να παρουσιάσουμε διεξοδικά ό ους τους δια έσιμους α ορί μους, αντί ετα α ασ ο η ούμε περισσότερο με τις ενικότερες κατη ορίες αυτών τ ν α ορί μ ν κα ώς και τους κυριότερους αντιπροσώπους αυτών. Παρότι έ ουμε προσπα ήσει να επι έξουμε προσεκτικά τους κα ύτερους αντιπροσώπους κά ε ομάδας, υπάρ ουν αναμφισ ήτητα α όρι μοι οι οποίοι δεν αναφέρονται κα ώς και πι ανά περισσότερες κατη ορίες α ορί μ ν. Ένας ασικός στό ος της συσταδοποίησης κειμέν ν είναι η ε τί ση τ ν αποτε εσμάτ ν τ ν συστημάτ ν ανάκτησης π ηροφορίας σε σ έση με τις μετρικές αυτών. Αυτό στη συνέ εια οδη εί σε εξυπηρέτηση κα ύτερ ν αποτε εσμάτ ν και φι τραρισμένης π ηροφορίας προς τους ρήστες διευκο ύνοντας έτσι την διαδικασία ήψης αποφάσε ν. Οι α όρι μοι συσταδοποίησης έ ουν αξιο ο η εί κατά καιρούς στην ι ιο ραφία με πο - ούς τρόπους. Δυστυ ώς όμ ς δεν υπάρ ει ένας de-facto προ-συμφ νημένος τρόπος ια αυτή τη διαδικασία. Επίσης, η επι ο ή τ ν με όδ ν αξιο ό ησης συ νά εξαρτάται από το πεδίο νώσης πάν στο οποίο η έρευνα εφαρμόζεται. Για παράδει μα στο πεδίο του AI, μπορεί να προτιμάται η αμοι αία π ηροφορία, ενώ στο πεδίο του IR προτιμάται η μετρική του F-measure. Η συσταδοποίηση έ ει επίσης αξιοποιη εί και ια το πεδίο της μη ανικής εκμά ησης (ML) 75

91 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 [163] όπ ς ια εξόρυξη ρονοσειρών (time series clustering) [187] όποιο αξιοποιούνται συ νές ίστες αντικειμέν ν (κειμέν ν) προκειμένου να εντοπισ ούν κανόνες συσ έτισης σε με ά ες transactional databases. Στα παρακάτ α επι ειρήσουμε μια ενική κατη οριοποίηση τ ν τε νικών συσταδοποίησης της ι ιο ραφίας επιμένοντας ί ο παραπάν στις τε νικές που έ ουν ιδιαίτερο ενδιαφέρον ια την περίπτ ση κειμενικής π ηροφορίας (όπ ς τα άρ ρα νέ ν) Α όρι μοι συσταδοποίησης Παραδοσιακά, οι ποικί οι α όρι μοι συσταδοποίησης κατατάσσονται σε δύο ενικές κατη ορίες: ιεραρ ικοί (agglomerative hierarchical) και μερισματικοί (partitional). Οι τυπικοί ιεραρ ικοί α όρι μοι συσταδοποίησης [86] παρά ουν ένα σύνο ο από διαμερίσματα πάν στα δεδομένα, τα οποία μπορούν να ποικί ουν από μία συστάδα η οποία περιέ ει ό α τα αντικείμενα, μέ ρι και n συστάδες κα εμία από τις οποίες περιέ ει ένα αντικείμενο, και τα οποία μπορούν να αναπαραστα ούν ραφικά ς ένα διαιρετικό (από την ρίζα προς τα φύ α) ή συνδυαστικό (από τα φύ α προς τη ρίζα) δέντρο. Από την ά η μεριά, οι μερισματικοί α όρι μοι συσταδοποίησης τυπικά κα ορίζουν ό ες τις συστάδες μονομιάς, α ά μπορούν να ρησιμοποιη ούν και ς διαμερισματικοί α όρι μοι στην περίπτ ση της ιεραρ ικής συσταδοποίησης (σε συνδυασμό τ ν δύο με οδο ο ιών) Ιεραρ ικοί α όρι μοι Η ιεραρ ική συσταδοποίηση, συ νά αναφερόμενη και ς ανά υση συστάδ ν ή Hierarchical Clustering Analysis (HCA) είναι με οδο ο ία η οποία αναζητεί την κατασκευή μίας ιεραρ ίας συστάδ ν δεδομέν ν τ ν δεδομέν ν προς συσταδοποίηση. Οι στρατη ικές ια ιεραρ ική συσταδοποίηση ενικά ταξινομούνται σε δύο κατη ορίες: Συνδυαστικές (Agglomerative): πρόκειται ια μία από κάτ προς τα πάν προσέ ιση όπου το κά ε αντικείμενο ξεκινάει ς μία συστάδα μόνο του και στη συνέ εια ζεύ η από συστάδες συνενώνονται συνε ώς όσο προ ράμε προς τα πάν στην ιεραρ ία. Οι agglomerative ιεραρ ικοί α όρι μοι επομέν ς ξεκινούν ε ρώντας κά ε αντικείμενο ς μία συστάδα από μόνο του και συνδυάζοντας συστάδες μαζί παρά ουν τους κόμ ους του δέντρου οι οποίοι μοιράζονται ορισμένη ομοιότητα. Δια ριστικές (Divisive): πρόκειται ια μία από πάν προς τα κάτ προσέ ιση όπου ό α τα αντικείμενα ξεκινούν ς μία συστάδα και στη συνέ εια οι συστάδες δια ρίζονται αναδρομικά κα ώς κατε αίνουμε την ιεραρ ία. Οι divisive ιεραρ ικές μέ οδοι παρά ουν επομέν ς μία εμφ ευμένη ακο ου ία από διαμερίσεις τ ν αντικειμέν ν με μία, ό α συμπερι αμ ανόμενη συστάδα στην κορυφή και μοναδιαίες συστάδες (singleton) με ατομικά αντικείμενα στη άση [199] Με τις παραπάν έννοιες, οι ιεραρ ικές τε νικές απαιτούν έναν ορισμό ομοιότητας μεταξύ τ ν συστάδ ν, ή α ιώς μία μετρική απόστασης, προκειμένου σε διαδο ικά ήματα να μπορέσουν να 76

92 Κεφάλαιο Συσταδοποίηση κειμένων δια ρίσουν ή να ενώσουν τις συστάδες. Είναι σύνη ες αυτή η μετρική να είναι ένας πίνακας ομοιοτήτ ν (αποστάσε ν), το στοι είο i, j του οποίου εκφράζει την απόσταση μεταξύ της i και j συστάδας. Αυτός ο πίνακας ανανεώνεται σε κά ε ήμα, όπου μετέπειτα κόμ οι δημιουρ ούνται με την έν ση τους σε ζεύ η ( ια agglomerative) ή δια ρισμό ( ια divisive) έ ς ότου η διαδικασία ο οκ ηρ εί. Το αποτέ εσμα τ ν παραπάν α ορί μ ν είναι μία δεντρική δομή, ή α ιώς δενδρό ραμμα (dendogram), το οποίο αποτυπώνει την διαδικασία συνέν σης (ή δια ρισμού) τ ν συστάδ ν κατά την διαδικασία της ιεραρ ικής συσταδοποίησης. Οι ενδιάμεσες συστάδες που προκύπτουν στην την πορεία, μπορούν να συ ε ούν κό οντας το δέντρο σε επι υμητό επίπεδο ακρί ειας. Ένα τυπικό παράδει μα δενδρο ράμματος φαίνεται στο σ ήμα 4 με τις τομές να μπορούν να ίνουν σε οποιοδήποτε ά ος της ιεραρ ίας κρατώντας τις επι υμητές συστάδες. Σ ήμα 4: Τυπικό δενδρό ραμμα ιεραρ ικής συσταδοποίησης Τυπικές ιεραρ ικές μέ οδοι συσταδοποίησης Υπάρ ουν πο ές διαφορετικές μέ οδοι ιεραρ ικής συσταδοποίησης τις οποίες και αξιο ο ούμε στην διδακτορική διατρι ή. Η διαφορά τους έ κειται στο π ς ορίζεται η απόσταση μεταξύ τ ν συστάδ ν σε σ έση με τα μέ η αυτών (άρ ρα νέ ν). Οι μέ οδοι αυτοί και ο τρόπος ορισμού της απόστασης είναι οι εξής: pairwise single linkage, όπου η κοντινότερη απόσταση μεταξύ τ ν όρ ν δύο συστάδ ν αμ- άνεται υπόψιν ς η δια-συσταδική απόσταση (ομοιότητα) 77

93 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 pairwise maximum linkage, όπου η μακρινότερη απόσταση μεταξύ τ ν όρ ν δύο συστάδ ν αμ άνεται υπόψιν ς η δια-συσταδική απόσταση (ομοιότητα) pairwise average linkage, όπου η μέσος όρος ό ν τ ν αποστάσε ν μεταξύ τ ν όρ ν δύο συστάδ ν αμ άνεται υπόψιν ς η δια-συσταδική απόσταση (ομοιότητα) centroid linkage, όπου κά ε συστάδα αναπαρίσταται από το κέντρο της, το οποίο και υπο ο- ίζεται σε κά ε ήμα του α ορί μου. Η δια-συσταδική απόσταση (ομοιότητα) σε αυτή την περίπτ ση είναι η απόσταση μεταξύ τ ν κέντρ ν τ ν συστάδ ν Κά ε μία από τις προαναφερ είσες με οδο ο ίες ιεραρ ικής συσταδοποίησης αξιο ο ή ηκε στα π αίσια της διδακτορικής διατρι ής και τα αποτε έσματα παρουσιάζονται στο κεφά αιο Πο υπ οκότητα Η προη ούμενη διαδικασία είναι ντετερμινιστική, παρά οντας κά ε φορά το ίδιο δενδρό ραμμα, επομέν ς και το ίδιο αποτέ εσμα συσταδοποίησης, κάτι που δεν ισ ύει ια τους μερισματικούς α ορί μους συσταδοποίησης που περι ράφονται στη συνέ εια. Παρό α αυτά, όπ ς εξη είται από τους Day και Edelsbrunner [58], οι σειριακοί agglomerative μη επικα υπτόμενοι ιεραρ ικοί α όρι μοι συσταδοποίησης (Sequential Agglomerative Hierarchical Non-overlapping (SAHN)) έ ουν μέση πο υπ οκότητα O(n 2 ) και πιο συ νά O(n 3 ) ς προς το μέ ε ος εισόδου (π ή ος αντικειμέν ν) n. Το παραπάν στις περισσότερες περιπτώσεις είναι αποτρεπτικό ια ρήση με πο ά αντικείμενα μιας και ο ρόνος εκτέ εσης κ ιμακώνεται πο ύ ρή ορα ια πρα ματικές εφαρμο ές Μερισματικοί α όρι μοι Στους μερισματικούς α ορί μους συσταδοποίησης ρησιμοποιείται ένα κα ο ικό κριτήριο, η ε τιστοποίηση του οποίου κα οδη εί και την συνο ική διαδικασία, παρά οντας επομέν ς έναν διαμερισμό τ ν δεδομέν ν. Δο έντος του π ή ους τ ν επι υμητών συστάδ ν, έστ k, οι μερισματικοί α όρι μοι ρίσκουν και τις k συστάδες μονομιάς, έτσι ώστε το ά ροισμα τ ν αποστάσε ν ό ν τ ν στοι εί ν από τις συστάδες τους να είναι ε ά ιστο. Επιπ έον, ια ένα αποτέ εσμα συσταδοποίησης να είναι ακρι ές, εκτός από την αμη ή εσ -συσταδική απόσταση, η υψη ή εξ -συσταδική απόσταση είναι επίσης επι υμητή. Προκειμένου επομέν ς ένας α όρι μος συσταδοποίησης να είναι αποτε εσματικός, α πρέπει να ικανοποιούνται όσο το δυνατόν κα ύτερα οι δύο ακό ου ες συν ήκες: μικρή εσ -συσταδική απόσταση: τα μέ η της ίδιας συστάδας να είναι στενά συνδεδεμένα μεταξύ τους με ά η εξ -συσταδική απόσταση: τα μέ η διαφορετικών συστάδ ν να απέ ουν αρκετά μεταξύ τους ώστε οι συστάδες να είναι κα ά διακριτές Μερικοί κ ασικοί μερισματικοί α όρι μοι είναι οι: k-means, k-medians, και k-medoids. Οι α όρι μοι αυτοί ασίζονται στην ο ική του κέντρου συστάδας (cluster center), ένα σημείο 78

94 Κεφάλαιο Συσταδοποίηση κειμένων δη αδή στο ώρο τ ν δεδομέν ν, συ νά μη φυσικά υπαρκτό μέσα στα ίδια τα δεδομένα, το οποίο αντιπροσ πεύει τη συστάδα. Η διαφορά τ ν παραπάν έ κειται στο π ς το κέντρο συστάδας ορίζεται. Στα παρακάτ α περι ράψουμε σύντομα κα εμία από τις πιο συνη ισμένες προσε ίσεις μερισματικών α ορί μ ν, κα ώς και παρα α ές αυτών Οικο ένεια k-means Οι α όρι μοι της οικο ένειας συσταδοποίησης k-means [89] στο εύουν στον διαμερισμών n αντικειμέν ν σε k συστάδες όπου κά ε αντικείμενο ανήκει στην συστάδα με τον κοντινότερο μέσο (κέντρο της συστάδας). Το πρό ημα της συσταδοποίησης είναι υπο ο ιστικά NP-hard [135][215], παρό α αυτά υπάρ ει π η ώρα αποδοτικών ευρετικών παρα α ών που συ νά εφαρμόζονται και οδη ούν σ ετικά ρή ορα σε τοπικό έ τιστο. Οι α όρι μοι της οικο ένειας k-means ρησιμοποιούν τα κέντρα τ ν συστάδ ν ια να μοντε- οποιήσουν τα δεδομένα που ανήκουν σε αυτές. Το κέντρο συστάδας ορίζεται ς το μέσο διάνυσμα δεδομέν ν άσει του μέσου όρου ό ν τ ν στοι εί ν της συστάδας. Στον α όρι μο k-medians, αντί ια τον μέσο όρο, ο διάμεσος υπο ο ίζεται ια κά ε διάσταση του διανύσματος δεδομέν ν. Παρόμοια, στον α όρι μο k-medoids το κέντρο συστάδας ορίζεται ς το αντικείμενο εκείνο το οποίο έ ει το μικρότερο ά ροισμα αποστάσε ν από τα υπό οιπα στοι εία της συστάδας, πρόκειται επομέν ς ια πρα ματικό αντικείμενο στα δεδομένα. Ο k-medoids έ ει το π εονέκτημα της κα ύτερης δια είρισης τ ν ακραί ν τιμών (outliers) στα δεδομένα, ενώ παρά η α δεν εξαρτάται από την σειρά με την οποία τα στοι εία εξετάζονται. Η οικο ένεια τ ν k-means α ορί μ ν [230] συ νά επι ειρεί να ε α ιστοποιήσει μία δεδομένη μετρική ομοιότητας, κατά κανόνα την Ευκ είδεια απόσταση, μεταξύ τ ν στοι εί ν της ίδιας συστάδας. Ένας πιο αυστηρός ορισμός είναι ο παρακάτ : Ορισμός Αν d 1, d 2,..., d n είναι τα n κείμενα και c 1, c 2,..., c k είναι τα k κέντρα συστάδ ν, ο α όρι μος k-means προσπα εί να ε α ιστοποιήσει την κα ο ική συνάρτηση: k n sim(d j, c i ) i=1 j=1 Ένα μέτρο επομέν ς του πόσο κα ά τα κέντρα τ ν συστάδ ν αντιπροσ πεύουν τα αντικείμενα τ ν συστάδ ν είναι υπο ειπόμενο ά ροισμα τετρα ών ν ή α ιώς Residual Sum of Squares (RSoS), η τετρα νική απόσταση του κά ε αντικειμένου (που αναπαρίσταται φυσικά ς πίνακας στο πο υ-διάστατο ώρο τ ν αντικειμέν ν) από το κέντρο του, α ροισμένη ια ό α τα αντικείμενα: RSoS k = x µ(ω k ) 2 (10) x ω k όπου µ ο πίνακας αναπαράστασης του κέντρου της συστάδας ω. Άρα ια ό ες τις k συστάδες 79

95 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 μπορούμε α ροιστικά να υπο ο ίζουμε την κα ο ική συνάρτηση αξιο ό ησης RSoS ς: RSoS = Expectation Maximization k RSoS k (11) n=1 Ο α όρι μος EM [154] αποτε εί μία αποτε εσματική επανα ηπτική διαδικασία ια τον υπο ο- ισμό μίας ύσης μέ ιστης πι ανότητας (Maximum Likelihood (MaxL)) ια το δεδομένο μοντέ ο. Αποτε είται από δύο ήματα. Στο ήμα αναμονής (expectation step, E-step) τα ε ειπή δεδομένα υπο ο ίζονται ασιζόμενοι στα υπάρ οντα δεδομένα (τη συ ο ή τ ν κειμέν ν) κα ώς και την τρέ ουσα εκτίμηση του μοντέ ου ( ια τις συστάδες). Στο ήμα με ιστοποίησης (miximization step, M-step), η συνάρτηση πι ανότητας με ιστοποιείται υπό την υπό εση ότι τα ε ειπή δεδομένα είναι ν στά. Για πιο πο ές π ηροφορίες προτείνουμε το [30]. Μία επανά ηψη του α ορί μου EM αποτε είται: από το ήμα αναμονής στο οποίο η πι ανότητα P υπο ο ίζεται ια κά ε κείμενο δεδομέν ν τ ν προ έψε ν ια τις συστάδες ς: P (θ d) = P (θ)p (d θ) θ Θ P (d θ) (12) P (θ) = d D P (θ d) (13) από το ήμα με ιστοποίησης, το οποίο ανανεώνει τις παραμέτρους του μοντέ ου θ ια με- ιστοποίηση της πι ανότητας δεδομέν ν τ ν πι ανοτήτ ν που υπο ο ίστηκαν στο E-step: d D P (θ d)d µ = d D P (θ d) (14) µ = Σ = d D P (θ d)(d µ)(d µ)t d D P (θ d) (15) Έ ει αποδει εί [140] ότι ο α όρι μος συ κ ίνει σε τοπικό ε ά ιστο με ο αρι μική πι ανότητα με το συνό ο τ ν κειμέν ν D να παρά εται από το μοντέ ο Θ ς συν ήκη τερματισμού. Το σ ήμα 5 δεί νει τέσσερις επανα ήψεις του α ορί μου ΕΜ. Μία οη ητική προσέ ιση ς προς την κατανόηση του α ορί μου είναι ς προς την εκτίμηση κάτ ορίου: σε κά ε επανά ηψη, ένα πιο στενό κατώτερο όριο υπο ο ίζεται και οι εκτιμώμενες συστάδες σκαρφα ώνουν προς την ά ν στη τε ική κατανομή. Όπ ς σε κά ε περίπτ ση μέ ιστης πι ανότητας, το να υπάρ ουν πο ές ε εύ ερες μετα ητές με ε ειπή δεδομένα μπορεί να οδη ήσει σε προ ήματα (π.. overfitting, με ά ος ρόνος εκτέ εσης, κ. π.). Στο [131], αυτό το πρό ημα αντιμετ πίζεται με ρήση SVD στο ώρο τον κειμέν ν. 80

96 Κεφάλαιο Συσταδοποίηση κειμένων Σ ήμα 5: Ο α όρι μος EM σε τέσσερις επανα ήψεις του Στη συνέ εια επι έ ονται ορισμένες διαστάσεις οι οποίες έ ουν τις περισσότερες μοναδικές τιμές ια τον σ ηματισμό ενός μει μένου ώρου πάν στον οποίο διενερ είται η συσταδοποίηση. Ένα πρό ημα του τυπικού EM α όρι μου είναι ότι είναι τετρα νικός ς προς τον αρι μό τ ν συστάδ ν k, η α ιώς O(k 2 n), δεδομένου ότι οι πι ανότητες επανυπο ο ίζονται ια κά ε συστάδα. Για την περίπτ ση της οικο ένειας α ορί μ ν k-means όμ ς, μία πιο περιορισμένη (κομματιασμένη) έκδοση του EM α όρι μου είναι ο model-based k-means. Αυτός ο α όρι μος, μετα αίνει μεταξύ του ήματος επανυπο ο ισμού του μοντέ ου και του ήματος επανανά εσης έ οντας ς αποτέ εσμα ραμμική πο υπ οκότητα. Επίσης, παρά τις σημαντικά ετικές ιδιότητές τους, ο α όρι μος αυτός δεν αποδίδει ειρότερα από τον π ήρη EM α όρι μο [231]. Η σημαντική διαφοροποίηση μεταξύ του κ ασικού EM α ορί μου και της k-means παρα α ής του είναι ότι ο δεύτερος, δεν επανεκπεδεύει το μοντέ ο ασισμένος στην εκ τ ν υστέρ ν πι ανότητα. Τυπικά οιπόν, ό οι οι α όρι μοι της οικο ένειας k-means μοιράζονται τα EM ήματα που δίνονται στον α όρι μο 1 [19]. Ως αποτέ εσμα αυτού παρά εται ένας διαμοιρασμός τ ν αντικειμέ- 81

97 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 ν ν σε ομάδες από τις οποίες η μετρική που έ ουμε να ε α ιστοποιείται μπορεί και υπο ο ίζεται. Α όρι μος 1: Model-based k-means EM α όρι μος (τυπικός k-means α όρι μος) Είσοδος: αντικείμενα προς συσταδοποίηση, k 1 Τυ αία επέ εξε k σημεία στον ώρο που αναπαρίσταται από τα αντικείμενα προς συσταδοποίηση (αυτά τα σημεία είναι τα αρ ικά κέντρα τ ν συστάδ ν) 2 Ανά εσε κά ε αντικείμενο στην ομάδα που έ ει το κοντινότερο κέντρο 3 Όταν ό α τα αντικείμενα έ ουν ανατε εί, επανυπο ό ησε τις έσεις τ ν k κέντρ ν 4 Επανέ α ε τα ήματα 2 και 3 έ ς ότου δεν α άζουν οι ανα έσεις τ ν κέντρ ν Παρότι μπορεί να αποδει εί ότι η παραπάν διαδικασία πάντα τερματίζει, ο α όρι μος EM δεν ρίσκει απαραίτητα και την έ τιστη ανά εση σε συστάδες. Επίσης ο α όρι μος EM συ νά πάσ ει από σύ κ ιση σε τοπικά ε ά ιστα (ή μέ ιστα) δεδομένης της τυ αιότητας της αρ ικής επι ο ής τ ν κέντρ ν τ ν συστάδ ν. Ο υπο ο ισμός επομέν ς μίας εξεζητημένης αρ ικής συν- ήκης μπορεί να επιφέρει σημαντικές ε τιώσεις όπ ς αποδεί ηκε στο [39]. Παραδεί ματος άριν, ο α όρι μος k-means++ [18], αφού επι έξει τυ αία το πρώτο κέντρο συστάδας από τα δεδομένα, στη συνέ εια επι έ ει κά ε σημείο ς αρ ικό κέντρο συστάδας ρησιμοποιώντας μία πι ανότητα η οποία είναι ανά ο η με το τετρά νο της απόστασης μεταξύ κά ε διαδο ικής επι ο ής κέντρου και της προη ούμενης. Τέ ος προ ράει με τα ήματα του κ ασικού k-means ια να κατα ήξει στις συστάδες. Αυτό το ευρετικό προσφέρει μία σημαντική ώ ηση σε σύ κριση με τον τυπικό k-means όσον αφορά στο εύρος σφά ματος κα ώς και στον ρόνο εκτέ εσης. Μία ακόμη προσέ ιση είναι η ρήση πο απ ών εκτε έσε ν του α ορί μου k-means, με διαφορετικές αρ ικές συν ήκες, και τε ικά σύ κριση τ ν αποτε εσμάτ ν ώστε να κρατη εί μόνο το κα ύτερο. Εάν μία συ κεκριμένη ανά εση συστάδ ν εμφανίζεται να επανα αμ άνεται, παρά τις διαφορετικές αρ ικές συν ήκες, αυτό αποτε εί την κα ύτερη ένδειξη ότι η συσταδοποίηση μά ον είναι η έ τιστη. Ο bisecting k-means α όρι μος [126] εισά ει μία ενα ακτική προσέ ιση: αρ ικά ό α τα δεδομένα αντιμετ πίζονται ς μία συστάδα. Μία συστάδα επι έ εται ια διαμερισμό σε δύο σε κά ε ήμα του α ορί μου ρησιμοποιώντας ένα κριτήριο, όπ ς το μέ ε ος της συστάδας, ή η συνο ική ομοιότητα. Ο διαμερισμός της επι ε μένης συστάδας ίνεται με ρήση του κ ασικού k-means και η διαδικασία ο οκ ηρώνεται όταν ο επι υμητός αρι μός συστάδ ν έ ει δημιουρ η εί. Κατά συνέπεια, σε αντί εση με τον τυπικό k-means, ο οποίος δια ρίζει τα συνο ικά δεδομένα σε k συστάδες σε κά ε ήμα επανά ηψης, η bisecting παρα α ή του ρίζει μόνο μία προ-υπάρ ουσα συστάδα σε δύο υπο-συστάδες. Η επι ο ή της συστάδας προς διαμερισμό μπορεί να ασίζεται στο μέ ε ός της, ή στο δίκτυο ειτόν ν του κέντρου της. Ενδιαφέρον αποτε εί ότι ο bisecting k-means αναφέρεται ς κα ύτερος από άποψη απόδοσης σε σ έση με τον τυπικό k-means α ά ακόμα και σε σ έση με ιεραρ ικές προσε ίσεις, ενώ παρά η α κρατάει την πο υπ οκότητα ραμμική Spherical k-means Ο κ ασικός α όρι μος k-means ρησιμοποιεί την Ευκ είδεια απόσταση ια τον κα ορισμό της ομοιότητας μεταξύ τ ν αντικειμέν ν κα ώς και μεταξύ τ ν συστάδ ν και τ ν αντικειμέν ν. 82

98 Κεφάλαιο Συσταδοποίηση κειμένων Όμ ς αυτό το μέτρο απόστασης είναι συ νά αναποτε εσματικό ια την συσταδοποίηση συ ο ών κειμέν ν [200]. Ένα αποτε εσματικό μέτρο ομοιότητας μεταξύ κειμέν ν, και ένα που συ νά ρησιμοποιείται στον τομέα του IR είναι η ομοιότητα συνημιτόνου, η οποία ρησιμοποιεί το συνημίτονο της νίας μεταξύ πινάκ ν. Ο α όρι μος k-means μπορεί να προσαρμοστεί ώστε να ρησιμοποιεί το μέτρο ομοιότητας του συνημιτόνου, κατα ή οντας στον spherical k-means (S-kmeans) α όρι μο, ο οποίος ονομάζεται έτσι διότι δρα πάν σε πίνακες οι οποίοι ρίσκονται πάν στη μοναδιαία σφαίρα [60]. Δεδομένης της μετρικής του, ο (S-kmeans) εκμετα εύεται την αραιότητα τ ν πινάκ ν τ ν κειμέν ν και η εκτέ εσή του μπορεί να παρα η οποιη εί, κάτι που τον κάνει εξαιρετικά αποτε εσματικό [59], [123]. Τις ιδιότητες αυτές ακρι ώς αξιοποιούμε στην διδακτορική διατρι ή σε σ έση με τον προτεινόμενο W-kmeans α όρι μο Πο υπ οκότητα k-means Παρότι το πρό ημα της συσταδοποίησης είναι NP-hard στη ενική περίπτ σή του [9][57][135], η αμη ή υπο ο ιστική πο υπ οκότητα είναι συνη ισμένη ια ό ους από τους προαναφερ έντες μερισματικούς α ορί μους. Ως αποτέ εσμα, αυτοί ταιριάζουν κα ύτερα σε συσταδοποίηση με ά- ου ό κου δεδομέν ν, κάτι που μας ενδιαφέρει ιδιαίτερα και στην περίπτ σή μας (άρ ρα νέ ν). Ειδικά ια τον ενικό α όρι μο 1, η μέση πο υπ οκότητα είναι ουσιαστικά ραμμική, (nk) σε ό ες τις σ ετικές παραμέτρους: επανα ήψεις, π ή ος συστάδ ν κα ώς και π ή ος κειμέν ν [19]. Παρά η α, ια την ειρότερη περίπτ ση ρόνου εκτέ εσης, έ ει υπο ο ιστεί από τους Arthur και Vassilvitskii [17] ς υπερ-πο υ νυμικός και συ κεκριμένα: 2 Ω n Προ ήματα k-means Παρότι ο k-means α όρι μος είναι διαισ ητικά αποτε εσματικός σε αυτό που κάνει, παρουσιάζει ορισμένα μειονεκτήματα. Ένα από αυτά είναι ότι είναι εξαιρετικά ευαίσ ητος στην αρ ικοποίησή του, μιας και η επι ο ή τ ν αρ ικών συστάδ ν παίζει με ά ο ρό ο ς προς το αποτέ εσμα. Όπ ς εξη είται στο [169] και φαίνεται στο σ ήμα 6, δύο διαφορετικές αρ ικοποιήσεις (με αστερίσκο στο σ ήμα) μπορούν να οδη ήσουν σε σημαντικά διαφορετικά αποτε έσματα συσταδοποίησης. Για την αντιμετώπιση του παραπάν προ ήματος, ευρετικές μέ οδοι του k-means έ ουν προτα εί στη ι ιο ραφία [117] [18] οι οποίες επι ειρούν να εντοπίσουν την κατα η ότερη αρ ική ανά εση. Η ευαισ ησία αυτή στην αρ ικοποίηση οφεί εται ουσιαστικά στο μη κυρτό πρό ημα ε τιστοποίησης (non-convex optimization problem) στο οποίο ανά εται ο k-means. Προς αυτή την κατεύ υνση (κυρτότητα) ένα π ή ος προσε ίσε ν συσταδοποίησης έ ουν επίσης προτα εί [125] [162]. Ένα ακόμη πρό ημα του α ορί μου k-means έ ει να κάνει με την εκ τ ν προτέρ ν απαραίτητη νώση του π ή ους τ ν συστάδ ν τ ν δεδομέν ν. Είναι πο ύ συ νό το φαινόμενο τέτοια νώση να μην υπάρ ει ια τα δεδομένα και επομέν ς η επι ο ή είτε να ίνεται ρίς κάποια νώση τ ν δεδομέν ν (τυ αία), είτε με μη αποτε εσματικό τρόπο. Προς αυτή την κατεύ υνση έ ουν εφαρμοστεί μία σειρά από με όδους και ευρετικά στη ι ιο ραφία τα οποία και περι ράφονται στην ενότητα

99 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 Σ ήμα 6: Ευαισ ησία του k-means στις αρ ικές συν ήκες Τέ ος, ένα εξαιρετικά σημαντικό πρό ημα του α ορί μου k-means που α πρέπει να αναφέρουμε είναι η φανερή του αδυναμία να δια ειριστεί τα outliers στα δεδομένα. Μία κατάσταση η οποία μπορεί να επιφέρει σημαντικές α οιώσεις και μει μένη αποδοτικότητα στην ό η διαδικασία Ά ες προσε ίσεις συσταδοποίησης Πέρα από την παραπάν ενική κατη οριοποίηση σε ιεραρ ικούς και διαιρετικούς α ορί μους, αρκετοί ακόμη α όρι μοι έ ουν αναπτυ εί που ασίζονται σε π η ώρα τε νικών [12] μερικές από τις οποίες α περι ραφούν και στη συνέ εια Ασαφής συσταδοποίηση Ό ες οι παραπάν προσε ίσεις προϋπο έτουν ότι τα αντικείμενα προς συσταδοποίηση ανήκουν έκαστο σε μία και μόνο συστάδα. Ενώ αυτό στις περισσότερες περιπτώσεις είναι αρκετό, υπάρ ουν εφαρμο ές στις οποίες το να ανήκουν τα αντικείμενα σε παραπάν τ ν μία συστάδ ν είναι επι υμητό. Η συσταδοποίηση αυτού του είδους αναφέρεται ς ασαφής. Στην ασαφή (fuzzy) συσταδοποίηση [161], σε αντιστοι εία με την ασαφή ο ική, κά ε σημείο έ ει ένα α μό συμμετο ής στις συστάδες. Επομέν ς, τα αντικείμενα που ρίσκονται στις παρυφές τ ν συστάδ ν μπορεί να ανήκουν σε μικρότερο α μό στη συστάδα τους σε σ έση με τα αντικείμενα που ρίσκονται ε ύτερα στο κέντρο της. Κά ε σημείο x οιπόν έ ει ένα σύνο ο από συντε εστές που δίνουν τον α μό με τον οποίο αυτό ανήκει στην k συστάδα: w k (x). Με τον fuzzy c-means α όρι μο, το κέντρο της συστάδας είναι ο μέσος από ό α τα σημεία ζυ ισμένα με τον α μό με τον οποίο αυτά ανήκουν στη συστάδα: c k = x w k(x) m x x w k(x) m. (16) Ο α μός w k (x) είναι σ ετιζόμενος αντίστροφα με την απόσταση του x από το κέντρο της 84

100 Κεφάλαιο Συσταδοποίηση κειμένων συστάδας όπ ς υπο ο ίζεται από το προη ούμενο πέρασμα του α ορί μου. Εξαρτάται επίσης και από την παράμετρο m η οποία ε έ ει πόσο άρος δίνεται στο κοντινότερο κέντρο. Ο fuzzy c-means α όρι μος είναι πο ύ κοντά στον κ ασικό k-means όσον αφορά στα ήματά του: Επέ εξε ένα π ή ος ια τις συστάδες Ανά εσε τυ αία κά ε αντικείμενο συντε εστές ια συμμετο ή στης συστάδες Επανέ α ε έ ς ότου ο α όρι μος έ ει συ κ ίνει: οι συντε εστές ανάμεσα στα δύο τε ευταία περάσματα δεν α άζουν παραπάν από ϵ - το δο έν όριο ευαισ ησίας Υπο ό ισε το κέντρο κά ε συστάδας με άση την συνάρτηση 16 Για κά ε σημείο, υπο ό ισε τους συντε εστές του ια συμμετο ή στις συστάδες με άση την συνάρτηση 16 Ο α όρι μος c-means ε α ιστοποιεί την εσ -συσταδική απόσταση α ά έ ει τα ίδια προ- ήματα όπ ς και ο k-means: το μέ ιστο είναι συ νά τοπικό και τα αποτε έσματα εξαρτώνται σε με ά ο α μό από τις αρ ικές ανα έσεις αρών. Ο α όρι μος c-means έ ει ρησιμοποιη εί ευρύτατα ς ένα σημαντικό ερ α είο ια την επεξερ ασία εικόν ν και εύρεση συστάδ ν σε αυτές.. Μία ακόμη προσέ ιση συσ ετιζόμενη με τον c-means είναι και ο Soft k-means Παρα ικοί Α όρι μοι Α όρι μοι όπ ς ο fuzzy c-means είναι ευαίσ ητοι σε ακραίες τιμές (outliers). Σε ετερο ενείς συ ο ές κειμέν ν, οι ακραίες τιμές είναι ένα αρκετά σύνη ες φαινόμενο. Με το να κάνουμε ορισμένες υπο έσεις όμ ς ια την κατανομή τ ν δεδομέν ν, πιο ισ υρές και μη επιρρεπείς σε σφά ματα στατιστικές μέ οδοι μπορούν να εφαρμοστούν ια την ανί νευση συστάδ ν παρουσία ορύ ου, αμ άνοντας υπόψιν και τις α η επικα υπτόμενες συστάδες. Μέ οδοι διακρίσε ν (discriminative) που ασίζονται σε ζεύ η ομοιοτήτ ν κειμέν ν έ ουν εξ ορισμού O(n 2 ) πο υπ οκότητα. Συ νά κιό ας αυτές οι ομοιότητες μπορούν να προ-υπο ο ιστούν και να απο ηκευ ούν σε πίνακα. Τα παρα ικά (generative) μοντέ α από την ά η π ευρά, δεν απαιτούν κάποιον τέτοιο πίνακα και ρησιμοποιούν μία επανα ηπτική διαδικασία η οποία μετα αίνει μεταξύ τ ν ημάτ ν εκτίμησης μοντέ ου και ανά εσης κειμένου Gaussian Μοντέ α Τα Gaussian μοντέ α αναπαριστούν τα κείμενα ς ένα σύνο ο από πίνακες μέσ ν τιμών (means) και συνδιακύμανσης (covariances). Σε αυτά τα μοντέ α, κά ε συστάδα ρίσκεται στο κέντρο της μέσης τιμής και περι ράφεται από το συσ ετιζόμενο πίνακα. Το πρό ημα συσταδοποίησης ια αυτά τα μοντέ α ανά εται στην εύρεση τ ν παραπάν πινάκ ν οι οποίοι ταιριάζουν κα ύτερα στα κείμενα. 85

101 3.7. Συσταδοποίηση κειμένων Κεφάλαιο Μεί ση διαστατικότητας Στις περισσότερες τ ν περιπτώσε ν, η ανά υση δεδομέν ν μπορεί να ίνει ευκο ότερα και ακρι- έστερα σε ώρο ι ότερ ν διαστάσε ν. Η μεί ση του π ή ους να διαστάσε ν (dimensionality reduction) είναι η διαδικασία ε α ιστοποίησης του αρι μού τ ν ανεξαρτήτ ν μετα ητών ενός προ ήματος (σ.σ. συσταδοποίηση) και μπορεί οντρικά να ριστεί σε επι ο ή αρακτηριστικών και εξα ή αρακτηριστικών. Οι προσε ίσεις επι ο ής αρακτηριστικών προσπα ούν να ρουν ένα υποσύνο ο τ ν αρ ικών μετα ητών ρησιμοποιώντας μία από τις δύο εξής στρατη ικές: φι τράρισμα (κέρδος π ηροφορίας) και αναζήτηση υπο οη ούμενη από την ακρί εια. Η εξα ή αρακτηριστικών μετασ ηματίζει τα δεδομένα από έναν ώρο υψη ού αρι μού διαστάσε ν σε έναν με ι ότερες. Ο μετασ ηματισμός αυτός μπορεί να είναι ραμμικός, όπ ς ια παράδει μα στην περίπτ ση του Principal Component Analysis (PCA), όμ ς υπάρ ουν και πο - ές μη- ραμμικές τε νικές μεί σης του αρι μού τ ν διαστάσε ν. Η ασική ραμμική τε νική μεί σης διαστατικότητας, PCA [108], εφαρμόζει μία ραμμική αντιστοί ηση τ ν δεδομέν ν σε έναν ώρο ι ότερ ν διαστάσε ν, με τέτοιο τρόπο ώστε η διακύμανση (διασπορά) τ ν δεδομέν ν στον νέο ώρο να με ιστοποιείται. Στην πράξη, ο πίνακας συσ ετίσε ν τ ν δεδομέν ν κατασκευάζεται και οι ιδιοτιμές (eigenvalues) του πίνακα υπο ο ίζονται. Οι ιδιοπίνακες (eigenvectors) που αντιστοι ούν στις με α ύτερες ιδιοτιμές, τα ασικά συστατικά δη αδή, μπορούν εν συνε εία να ρησιμοποιη ούν ια να ανακατασκευαστεί ένα με ά ο ποσοστό της διακύμανσης τ ν αρ ικών δεδομέν ν. Επίσης, τα πρώτα ί α ιδιοδιανύσματα μπορούν συ νά να ερμηνευτούν με όρους με ά ης κ ίμακας συμπεριφοράς τους συστήματος. Ο αρ ικός ώρος έ ει μει εί (με απώ εια δεδομέν ν α ά συνή ς κρατώντας την πιο σημαντική διακύμανση) στο ώρο που κα ύπτεται από τα ί α ιδιοδιανύσματα. Η PCA είναι μία στατιστική διαδικασία που ρησιμοποιεί έναν ορ ο ώνιο μετασ ηματισμό ια να μετατρέψει ένα σύνο ο από παρατηρήσεις από πι ανά εξαρτημένες μεταξύ τους μετα ητές, σε ένα σύνο ο από τιμές ραμμικών μη εξαρτημέν ν μετα ητών οι οποίες αποκα ούνται πρ ταρ ικά αρακτηριστικά (principal components). Το π ή ος τ ν principal components είναι μικρότερο ή ίσο του π ή ους τ ν αρ ικών μετα ητών. Αυτός ο μετασ ηματισμός ορίζεται με τέτοιο τρόπο ώστε το πρώτο αρακτηριστικό να έ ει την μέ ιστη δυνατή μετα ητότητα (επομέν ς να ανταποκρίνεται σε όσο περισσότερη μετα ητότητα τ ν δεδομέν ν είναι αυτό εφικτό), και κά ε επόμενο αρακτηριστικό έ ει την επόμενη μέ ιστη δυνατή μετα ητότητα υπό την προϋπό εση ότι είναι ορ ο ώνιο (δη αδή μη συσ ετιζόμενο) με τα προη ούμενα αρακτηριστικά. Τα πρ ταρ ικά αρακτηριστικά είναι ορ ο ώνια διότι είναι τα ιδιοδιανύσματα του πινάκα συνδιακύμανσης, ο οποίος είναι συμμετρικός. Το PCA είναι ευαίσ ητο στην σ ετική κ ιμάκ ση τ ν αρ ικών μετα ητών Συσταδοποίηση δέντρου επι εμάτ ν Η συσταδοποίηση δέντρου επι εμάτ ν (Suffix tree clustering) εξά ει συστάδες ασιζόμενος σε φράσεις που μοιράζονται μεταξύ τους τα κείμενα. Ο α όρι μος είναι ραμμικού ρόνου και 86

102 Κεφάλαιο Συσταδοποίηση κειμένων ασίζεται στον εντοπισμό τ ν φράσε ν εκείν ν που είναι κοινές σε ομάδες κειμέν ν. Μία φράση είναι μία ακο ου ία από έξεις στη σειρά. Ορίζουμε οιπόν μία ασική συστάδα ς το σύνο ο κειμέν ν που μοιράζονται μία κοινή φράση. Το Suffix tree clustering έ ει τρία ο ικά ήματα: 1. κα αρισμός κειμένου 2. εντοπισμός τ ν ασικών συστάδ ν με ρήση δέντρου επι εμάτ ν 3. συνδυασμός ό ν αυτών τ ν ασικών συστάδ ν σε με α ύτερες συστάδες Περισσότερες π ηροφορίες ια το Suffix tree clustering είναι δια έσιμες στα [228] [68] [212] DBSCAN Ο DBSCAN είναι ένας ασιζόμενος στην πυκνότητα α όρι μος ο οποίος ρίσκει ένα π ή ος από συστάδες ξεκινώντας από την εκτιμώμενη κατανομή πυκνότητας τ ν κόμ ν. Ο DBSCAN είναι ένας από τους πιο συνη ισμένους α ορί μους συσταδοποίησης με ά ου ό κου δεδομέν ν. Ο DBSCAN μπορεί να εντοπίσει συστάδες σε με ά ν ρικών διαστάσε ν δεδομένα ε έ οντας την τοπική πυκνότητα τ ν αντικειμέν ν, ρησιμοποιώντας μία μόνο παράμετρο εισόδου. Επίσης, ο ρήστης παίρνει μία πρόταση ια την τιμή της παραμέτρου που α ήταν η πιο ταιριαστή στα δεδομένα. Ως εκ τούτου, απαιτείται ε ά ιστη νώση ια τα ίδια τα δεδομένα. Ο α όρι μος μπορεί επίσης να κα ορίσει ποια π ηροφορία πρέπει να ε ρη εί ς όρυ ος ή outliers. Είναι αρκετά ρή ορος και κ ιμακώνεται σ εδόν ραμμικά με το μέ ε ος τ ν δεδομέν ν εισόδου. Κάνοντας ρήση της κατανομής πυκνότητας τ ν δεδομέν ν, ο DBSCAN μπορεί να κατη οριοποιήσει αυτά σε ριστές συστάδες οι οποίες μά ιστα, όπ ς φαίνεται και στο σ ήμα 7, μπορούν να έ ουν οποιοδήποτε σ ήμα - κάτι που δεν ισ ύει ια τους προη ούμενους α ορί μους που παρουσιάστηκαν στην τρέ ουσα ενότητα. Όμ ς, οι συστάδες που ρίσκονται κοντά μεταξύ τους συνή ς εν τέ ει ανήκουν στην ίδια κ άση δεδομέν ν. Σ ήμα 7: Τυπικές συστάδες του α ορί μου DBSCAN Ο α όρι μος OPTICS μπορεί επίσης να ειδ εί και ς μία ενίκευση του DBSCAN σε πο απ ά εύρη τιμών, που επί της ουσίας αντικα ιστά την παράμετρο ϵ με μία μέ ιστη ακτίνα αναζήτησης. 87

103 3.7. Συσταδοποίηση κειμένων Κεφάλαιο Μετρικές απόστασης (ομοιότητας) Ό ες οι με οδο ο ίες συσταδοποίησης οι οποίες περι ράφηκαν στο παρόν κεφά αιο προϋπο έτουν την ύπαρξη ενός κατά η ου ώρου ομοιότητας (similarity space) και επομέν ς απαιτούν την ρήση μίας μετρικής, ή α ιώς ομοιότητας, μεταξύ δύο σημεί ν δεδομέν ν, δύο συστάδ ν ή ενός σημείου δεδομέν ν και μιας συστάδας. Όταν η μετρική ομοιότητας έ ει κα οριστεί, κα ένας από τους α ορί μους συσταδοποίησης μπορεί να υπο ο ίσει τον πίνακα ομοιότητας (distance matrix) ο οποίος περι αμ άνει ό ες τις αποστάσεις μεταξύ τ ν αντικειμέν ν που συσταδοποιούνται. Έστ οιπόν δύο μετα ητές, σημεία, ή κείμενα a και b. Παρακάτ περι ράφουμε ορισμένες από τις συνη έστερες μετρικές απόστασης που αναφέρονται στη ι ιο ραφία Ευκ είδεια απόσταση Η Ευκ είδεια απόσταση μεταξύ δύο σημεί ν αποτε εί την κανονική απόσταση τους - αυτή που κάποιος ε ρητικά α μετρούσε με ένα άρακα. Η απόσταση αυτή αποτε εί την στανταρ επι ο ή σ εδόν ια ό η την οικο ένεια k-means α ορί μ ν. Ουσιαστικά μά ιστα ο k-means α όρι μος ορίζεται με άσει την ρήση της Ευκ είδειας απόστασης ς μετρικής ομοιότητας. Η Ευκ είδεια απόσταση μεταξύ τ ν a και b ορίζεται άσει του Πυ α ορείου ε ρήματος ς: d(a, b) = 1 n (a i b i ) n 2 (17) όπου a i και b i η αναπαράσταση του κειμένου a και b στην διάσταση i του n-διάστατου ώρου αναπαράστασης τ ν κειμέν ν. Η Ευκ είδεια απόσταση αμ άνει υπόψιν της και το μέ ε ος της εισόδου (π.. κείμενο) και ς εκ τούτου διατηρεί περισσότερη π ηροφορία σ ετικά με αυτή. Επίσης η Ευκ είδεια απόσταση είναι πρα ματική μετρική μιας και ικανοποιεί την τρι νική ανισότητα. i= City-block / απόσταση Manhattan Η απόσταση Manhattan μεταξύ δύο σημεί ν του n-διάστατου ώρου αναπαράστασης τους, είναι το ά ροισμα τ ν μηκών τ ν προ ο ών αυτών πάν στους άξονες συντετα μέν ν. Πιο συ- κεκριμένα: d(a, b) = 1 n n a i b i (18) i=1 Η απόσταση Manhattan είναι επίσης πρα ματική μετρική μιας και ικανοποιεί την τρι νική ανισότητα Απόσταση Pearson Ο συντε εστής συσ έτισης (correlation coefficient) Pearson μεταξύ δύο μετα ητών ορίζεται ς η συνδιακύμανση (covariance) τ ν δύο μετα ητών διαιρεμένη με το ινόμενο της τυπικής τους 88

104 Κεφάλαιο Συσταδοποίηση κειμένων απόκ ισης. Πιο συ κεκριμένα: r(a, b) = 1 n n ( ) ( ai ā bi b ) σ i=1 a σ b (19) όπου ā και b είναι η μέση τιμή του a και b αντίστοι α, ενώ σ a και σ b είναι η τυπική απόκ ιση του a και b. Θα έ αμε ότι ο συντε εστής συσ έτισης του Pearson, ς μετρική, αντιπροσ πεύει πόσο κα ά μία ευ εία ραμμή μπορεί να ταιριάξει στο καρτεσιανό επίπεδο τ ν a και b. Οι από υτες τιμές του συντε εστή συσ έτισης Pearson είναι μικρότερες ή ίσες του 1. Συ κεκριμένα, τιμές ίσες με +1 και -1 αντιστοι ούν σε σημεία δεδομέν ν του πέφτουν ακρι ώς πάν στη ευ εία ραμμή. Επίσης ο συντε εστής συσ έτισης Pearson είναι συμμετρικός ια δύο σημεία: r(a, b) = r(b, a). Μία ασική μα ηματική ιδιότητα του συντε εστή συσ έτισης Pearson είναι ότι είναι αδιάφορος σε ξε ριστές α α ές στην τοπο εσία και κ ίμακα τ ν δύο μετα ητών. Ως εκ τούτου, μπορούμε να μετασ ηματίσουμε το a σε α + βa και το b σε γ + δb, όπου α, β, γ και δ στα ερές με β, δ > 0, ρίς να μετα η εί η τιμή του συντε εστή συσ έτισης. Με άση τα παραπάν, η απόσταση Pearson ορίζεται ς: d(a, b) = 1 r (20) Ομοιότητα συνημιτόνου Πρόκειται ια ίσ ς την πιο ρησιμοποιούμενη μετρική σε συστήματα ανάκτησης π ηροφορίας. Ορίζεται ς: d(a, b) = cos(θ) = a b [0, 1] (21) a b Η ομοιότητα συνημιτόνου μεταξύ δύο σημεί ν αντιστοι εί στην νία που σ ηματίζεται μεταξύ τους στον n-διάστατο ώρο αναπαράστασης. Βασίζεται στο εσ τερικό ινόμενο τ ν διανυσμάτ ν που αποτε ούνται από τις συντετα μένες τ ν a και b. Το συνημίτονο μηδενικής νίας είναι 1 και ια οποιαδήποτε ά η νία είναι μικρότερο του 1. Πρόκειται επομέν ς ια μία μετρική που αποτυπώνει στην διάταξη στον n-διάστατο ώρο και ό ι το μέτρο τ ν παραπάν διανυσμάτ ν Απόσταση Spearman-rank Η απόσταση Spearman-rank είναι μία μη-παραμετρική μετρική η οποία αποδίδει κα ά απέναντι σε ακραίες τιμές δεδομέν ν (outliers). Πη άζει από τον συντε εστής συσ έτισης Pearson μέσ αντικατάστασης κά ε τιμής με την σειρά κατάταξης της αφού οι τιμές έ ουν πρώτα ταξινομη- εί. Λό της απα οιφής τ ν τιμών δεδομέν ν, δεν υπάρ ει π ηροφορία άρους η οποία να έ ει ρό ο στον υπο ο ισμό της απόστασης (σε σ έση με τις προη ούμενες - παραμετρικές μετρικές ομοιότητας). O συντε εστής συσ έτισης Spearman-rank ορίζεται ς ακο ού ς: (a, b) = d 2 i n(n 2 1 ) (22)

105 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 όπου d i = a i b i η απόσταση μεταξύ της σειρά κατάταξης. Η απόσταση Spearman-rank μεταξύ δύο σημεί ν a και b ορίζεται επομέν ς ς: d(a, b) = 1 ρ (23) Απόσταση Kendall s Ο συντε εστής συσ έτιση Kendall s τ (Kendall s tau) είναι παρόμοιος με εκείνον του Spearmanrank, κάνοντας ρήση όμ ς σ ετικών σειρών κατάταξης και ό ι απο ύτ ν. Πιο συ κεκριμένα: Ορισμός έστ (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) η ίστα από τις παρατηρήσεις (δεδομένα) τ ν τυ αί ν μετα ητών a και b, τέτοιες ώστε ό ες οι τιμές x i και y i να είναι μοναδικές. Κά ε ζεύ ος παρατήρησης (x i, y i ) και (x j, y j ) είναι συ κ ίν ν, αν οι σειρές κατάταξης και ια τα δύο στοι εία συμφ νούν, δη αδή: αν x i > x j, τότε και y i > y j, ή αν x i < x j, τότε και y i < y j. Αντίστοι α το ζεύ ος παρατήρησης είναι αποκ ίνον αν x i > x j και y i < y j ή αν x i < x j και y i > y j. Προφανώς αν x i = x j or y i = y j τότε το ζεύ ος δεν είναι ούτε συ κ ίν ν ούτε αποκ ίνον. Με άση τα παραπάν ο συντε εστής συσ έτισης Kendall s τ ορίζεται ς: τ = (π ή ος συ κ ινόντ ν ζευ ών) (π ή ος αποκ ινόντ ν ζευ ών) 1 2 n(n 1) (24) Τέ ος, η απόσταση Kendall s ορίζεται ς d(a, b) = 1 τ (25) Μετρικές αξιο ό ησης συσταδοποίησης Μία συνάρτηση αξιο ό ησης της συσταδοποίησης κειμέν ν αποτε εί ένα ποσοτικό κριτήριο προκειμένου να αποκρι ούμε αν και πόσο αποτε εσματικός είναι ένας α όρι μος συσταδοποίησης. Οι μέ οδοι αξιο ό ησης που έ ουν προτα εί στη ι ιο ραφία α μπορούσαν να ριστούν οντρικά σε τρεις κατη ορίες: Οπτική αναπαράσταση τ ν παρα όμεν ν συστάδ ν, π.. [95]. Ο τρόπος αξιο ό ησης αυτός απ ά παρουσιάζει τα αποτε έσματα της συσταδοποίησης σε ένα δισδιάστατο ώρο, παρέ οντας έτσι ένα οπτικό τρόπο ια την κατανόηση τ ν αποτε εσμάτ ν. Η αξιο ό ηση αυτού του είδους όμ ς δεν είναι συνή ς αρκετή ια την κρίση της απόδοσης τ ν α ορί μ ν. Βασιζόμενοι σε IR κριτήρια αξιο ό ησης. Η συσταδοποίηση, ς ένα κεντρικό IR task, συ- νά μοιράζεται τις ίδιες μετρικές αξιο ό ησης τ ν αποτε εσμάτ ν της όπ ς και τα υπό οιπα IR tasks. Οι μετρικές αυτές οποίες παρουσιάστηκαν ανα υτικά στην ενότητα Για παράδει μα στο [228] ίνεται αξιο ό ηση της συσταδοποίησης με δέντρα επι εμάτ ν ρησιμοποιώντας την μετρική της ακρί ειας. Η ίδια μετρική ρησιμοποιή ηκε και στα [118][114] ια την αξιο ό ηση τ ν δικτύ ν Kohonen ια συσταδοποίηση 90

106 Κεφάλαιο Συσταδοποίηση κειμένων Ακρί εια με άση σύ κρισης της διαφορά μεταξύ τ ν επι υμητών και πρα ματικών αποτε εσμάτ ν συσταδοποίησης. Για παράδει μα [81][228]. Αυτή η μέ οδος αξιο ό ησης απαιτεί τον ορισμό τ ν επι υμητών συστάδ ν ώστε να μπορούμε πρά ματι να αξιο ο ήσουμε ένα μοντέ ο συσταδοποίησης. Είναι οιπόν δυνατή μόνο σε επίπεδα μοντέ α, όπου το π ή ος τ ν συστάδ ν είναι ν στό από πριν (δίνεται σαν παράμετρος), όπ ς ια παράδει μα ο α όρι μος k-means. Μία ακόμα μέ οδος που ανήκει σε αυτή την κατη ορία είναι και η ασιζόμενη στην εντροπία τ ν κειμέν ν εντός και εκτός τ ν συστάδ ν [103] Δείκτης συσταδοποίησης (Clustering Index) Η μετρική αξιο ό ησης Clustering Index [104] ασίζεται στην παραδο ή ότι η κα ύτερη συσταδοποίηση έ ει να κάνει τόσο με την υψη ότερη δυνατή ενδο-συσταδική ομοιότητα, όσο και με τη αμη ότερη δυνατή δια-συσταδική ομοιότητα. Μέσα σε μία συστάδα, τα κείμενα α πρέπει να είναι όσο πιο όμοια ίνεται, ενώ αντί ετα μεταξύ τ ν συστάδ ν, τα κείμενα α πρέπει να είναι όσο πιο διαφορετικά ίνεται. Η μετρική Clustering Index επομέν ς ορίζεται ς ο ό ος της εσ -συσταδικής ομοιότητας, σ, ς προς το άρ ροισμα της εσ -συσταδικής και δια-συσταδικής ομοιότητας, δ. Επομέν ς: CI = σ2 σ + δ Γενικά η τιμή του Clustering Index κανονικοποιείται μεταξύ 0 και 1. Τιμή 1 αντιστοι εί στην από υτα επι υμητή συσταδοποίηση, ενώ τιμή 0 το ακρι ώς αντί ετο. Με ιστοποίηση της τιμής CI σημαίνει με ιστοποίηση της ενδο-συσταδικής ομοιότητας με παρά η η ε α ιστοποίηση της δια-συσταδικής ομοιότητας. Ως εκ τούτου ο δείκτης αυτός μπορεί να απεικονίσει την συνο ή τ ν παρα όμεν ν συστάδ ν. (26) Μέσο από υτο σφά μα Το μέσο από υτο σφά μα ή α ιώς Mean Absolute Error (MAE), αποτε εί μία στατιστική μετρική η οποία ρησιμοποιείται ια την μέτρηση του πόσο κοντά ρίσκονται οι προ έψεις ενός συστήματος προτάσε ν σε σ έση με τα πρα ματικά αποτε έσματα. Το MAE ορίζεται ς: r(u, i) r (u, i) MAE = R (27) όπου r(u, i) R η πρα ματική τιμή της μετα ητής i στο u και r (u, i) R οι προ έψεις που κάνει το σύστημα προτάσε ν ια την μετα ητή i Αξιοποίηση Εξ τερικών Βάσε ν Γνώσης WordNet Το WordNet[220] αποτε εί έναν από τους πιο ρησιμοποιημένους και αξιόπιστους ησαυρούς έξε ν της Α ικής ώσσας, έτσι, μοντε οποιεί την εξι ο ική νώση και ρήση τ ν έξε ν 91

107 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 της Α ικής. Περι αμ άνοντας πάν από όρους, ομαδοποιεί ουσιαστικά, ρήματα, επί ετα και επιρρήματα σε ομάδες συν νύμ ν τα οποία και ονομάζονται Synonym sets (Synsets). Τα synsets ορ ανώνονται σε: ερμηνείες (senses) δίνοντας έτσι τα συνώνυμα από κά ε έξη υπώνυμα / υπερώνυμα (δη αδή, είναι ένα... (Is-A)) και μερώνυμα / ο όνυμα (δη αδή, μέρος από... (Part-Of)) συσ ετίσεις, παρέ οντας έτσι μία ιεραρ ική δενδρική δομή ια κά ε όρο Χρήση του WordNet στην συσταδοποίηση Οι εφαρμο ές του WordNet σε μία ποικι ία από IR τε νικές έ ουν με ετη εί εκτενώς στην ι ιο ραφία σε σ έση με την εύρεση σημασιο ο ικής ομοιότητας τ ν ανακτημέν ν αντικειμέν ν [214], ή σε σ έση με τις τε νικές συσταδοποίσης. Για παράδει μα, στο [47] οι συ ραφείς συνδυάζουν την νώση από το WordNet με ασαφείς κανόνες συσ έτισης, ενώ στο [193] επεκτείνεται ο bisecting k-means α όρι μος με ρήση του WordNet, όμ ς, ό του ότι επι έ ονται τα υπερώνυμα / συνώνυμα σε επίπεδα, οι συ ραφείς κατα ή ουν στο συμπέρασμα ότι ο όρυ ος υπο ι άζει τα αποτε έσματα συσταδοποίησης. Στο [76] ερευνάται η ιδέα ρήσης του WordNet σαν ένα ερ α είο αποσαφήνισης ανα έτοντας τις ρίζες τ ν έξε ν κ ειδιών στην εξικο ο ική τους κατη ορία. Η παραπάν προσέ ιση ε τιώνει την αποτε εσματικότητα του εφαρμοζόμενου α ορί μου συσταδοποίησης, όμ ς, φαίνεται να υπερ- ενικοποιεί τις αναφερόμενες έξεις κ ειδιά. Αυτό προκύπτει και από μία παρόμοια έρευνα στο [11], όπου οι συ ραφείς αποδέ ονται τ ν όρ ν σε έννοιες οντο ο ίας μπορεί να είναι εν ένει διφορούμενη και να οδη ήσει σε απώ εια π ηροφορίας στην προσπά εια μεί σης τ ν διαστάσε ν του προ ήματος. Και οι δύο προαναφερ είσες προσε ίσεις δεν αμ άνουν υπόψιν τους τα υπερώνυμα του WordNet ια την πρα ματική ενίσ υση της ίστα τ ν έξε ν κ ειδιών, κάτι που εμείς προτείνουμε στην παρούσα διατρι ή. Σε αντί εση με τις παραπάν προσε ίσεις, πιστεύουμε ότι ένα αξιόπιστο σύστημα ζυ ίσματος ια τα υπερώνυμα του WordNet μπορεί να επιφέρει σημαντικά οφέ η στη διαδικασία συσταδοποίησης, όπ ς π.. στο [179] Π ή ος συστάδ ν Ο αρι μός τ ν συστάδ ν που τε ικά αντιστοι ούν σε ένα σύνο ο δεδομέν ν, είναι ένα πρό- ημα που αφορά σ εδόν ό ους τους διαμερισματικούς α ορί μους - και δει της οικο ένειας k-means. Μία ατυ ής επι ο ή ια τον αρι μό τ ν συστάδ ν συνή ς οδη εί σε μη ρήσιμα και ενικά αν ασμένα αποτε έσματα. Αρκετές προσε ίσεις έ ουν προτα εί στην ι ιο ραφία: Εμπειρικός κανόνας: σε πο ές περιπτώσεις δεδομέν ν, με έ ους n, έ ει παρατηρη εί ότι το πρα ματικό π ή ος συστάδ ν, k, ρίσκεται κοντά στην τιμή: k = n/2 (28) 92

108 Κεφάλαιο Συσταδοποίηση κειμένων Η μέ οδος του α κώνα: η μέ οδος αυτή κοιτάζει στο ποσοστό διακύμανσης που δίνεται ς μια συνάρτηση του π ή ους τ ν συστάδ ν. Κάποιος α επι έξει ένα π ή ος συστάδ ν έτσι ώστε η προσ ήκη ακόμα μιας δεν δίνει κα ύτερη μοντε οποίηση ια τα δεδομένα. Πιο συ κεκριμένα, αν κάποιος σ εδιάσει το ποσοστό της διακύμανσης που δίνεται από τις συστάδες σε σ έση με το π ή ος τ ν συστάδ ν, η πρώτες συστάδες ενικά α προσ έσουν πο ύ π ηροφορία (υψη ή διακύμανση), όμ ς σε κάποιο σημείο το οριακό κέρδος (κ ίση) α αρ ίσει να πέφτει αποτυπ νόμενο ουσιαστικά σαν μια νία στο ράφημα, όπ ς στο σ ήμα 8 ια παράδει μα. Ο αρι μός τ ν συστάδ ν επι έ εται σε αυτό το σημείο. Συ νά όμ ς αυτό το σημείο δεν μπορεί να αποτυπ εί εύκο α [116]. Το ποσοστό της διακύμανσης στην παραπάν περίπτ ση είναι ο ό ος μεταξύ της ενδο-συσταδικής διακύμανσης προς την συνο ική διακύμανση ( ν στός και ς F-test). Μπορούμε επίσης αντί ια την F-test μετρική να ρησιμοποιήσουμε την μετρική RSoS (11) η οποία α μας δώσει τα ίδια αποτε έσματα όσον αφορά το σημείο οριακού κέρδους α ά με ανεστραμμένη τη ραφική παράσταση (φ ίνουσα RSoS όσο αυξάνεται το π ή ος τ ν συστάδ ν). Εκτός από τα παραπάν ο α όρι μος k-means είναι ενικά αποτε εσματικός όταν οι συστάδες είναι σ εδόν σφαιρικές σε σ έση με το μέτρο ομοιότητας που ρησιμοποιείται. Δεν υπάρ ει όμ ς κάποιος ό ος να πιστεύουμε ότι τα κείμενα μιας συ ο ής, υπό την τυπική αναπαράστασή τους ς ζυ ισμένοι πίνακες έξε ν και κάποιας μορφής κανονικοποίησης μετρικής ομοιότητας εσ τερικού ινομένου, α πρέπει να ανήκουν σε σ εδόν σφαιρικές συστάδες. Σ ήμα 8: Εκτιμώμενη αύξηση διακύμανσης με παρά η η αύξηση του π ή ους τ ν συστάδ ν Προσε ίσεις κριτηρίου π ηροφορίας: πρόκειται ια μία κατη ορία με όδ ν οι οποίες ορίζουν κάποιο κριτήριο π ηροφορίας η κά ε μία και αποφασίζουν ια το π ή ος τ ν συστάδ ν άσει αυτού. Τυπικά παραδεί ματα είναι τα: Akaike information criterion (AIC) [188], Bayesian 93

109 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 information criterion (BIC) [217] και Deviance information criterion (DIC) [29]. Μέσ ρήσης silhouette: η silhouette κάποι ν μονάδ ν δεδομέν ν είναι ένα μέτρο του πόσο κοντά ταιριάζει αυτή η μονάδα στα δεδομένα της συστάδας κα ώς και πόσο α αρά ταιριάζει στα δεδομένα τ ν ειτονικών συστάδ ν. Μία silhouette κοντά στο 1 υπονοεί ότι η μονάδα δεδομέν ν είναι στην σ στή συστάδα, ενώ μία τιμή κοντά στο -1 εκφράζει ότι η συστάδα του είναι αν ασμένη. Τε νικές ε τιστοποίησης όπ ς οι ενετικοί α όρι μοι είναι ρήσιμοι στο να κα ορίζουν το π ή ος τ ν συστάδ ν το οποίο παρά ει ουσιαστικά την με α ύτερη silhouette [132]. Μέσ διασταυρ μένης επικύρ σης (cross-validation): σε αυτή την διαδικασία, τα δεδομένα ρίζονται σε y μέρη. Κά ε μέρος τί εται στην άκρη με την σειρά ς δεδομένα ε έ ου (test set) και ένα μοντέ ο συσταδοποίησης υπο ο ίζεται ρησιμοποιώντας τα υπό οιπα y 1 δεδομένα εκμά ησης (training set) και η τιμή της συνάρτησης στό ου ( ια παράδει μα το ά ροισμα του τετρα ώνου τ ν αποστάσε ν τ ν κέντρ ν ια τον k-means) υπο ο ίζεται ια τα δεδομένα ε έ ου. Ο μέσος όρ ν αυτών τ ν y τιμών υπο ο ίζεται ια κά ε ενα ακτικό π ή ος συστάδ ν και το π ή ος μου ε α ιστοποιεί το σφά μα στα δεδομένα ε έ ου επι έ εται [69]. Για άσεις κειμέν ν με έ ους πίνακα όρ ν-κειμέν ν D(mxn) όπου m το π ή ος τ ν κειμέν ν και n το π ή ος τ ν όρ ν, το π ή ος τ ν συστάδ ν μπορεί οντρικά να εκτιμη εί ς: k = mn t όπου t ο αρι μός τ ν μη μηδενικών ε ραφών στον πίνακα D. Βασική προυπό εση του παραπάν αποτε εί ότι στον πίνακα D κά ε ραμμή και κά ε στή η α πρέπει να περιέ ει του ά ιστον ένα μη μηδενικό στοι είο [42]. (29) Ονοματοδοσία συστάδ ν Η ονοματοδοσία συστάδ ν, μία διαδικασία που είναι ευρύτερα ν στή ς ετικετοποίηση ή α ιώς cluster labeling, αποτε εί ένα ήμα που τυπικά έπεται της ίδιας της συσταδοποίησης. Συνη έστερα μά ιστα, στις περιπτώσεις που έ ουμε να κάνουμε με συστάδες κειμενικής π ηροφορίας αν ρ πίνου ό ου (π.. κείμενα στην α ική ώσσα). Σκοπός του cluster labeling είναι η αντιστοί ιση νοηματικά κατανοητών έξε ν ή φράσε ν στις συστάδες προκειμένου το περιε όμενο αυτών να εύκο α αντι ηπτό. Ο τε ικός αποδέκτης έ αια είναι ο άν ρ πος, είτε ο τε ικός ρήστης του συστήματος, είτε κάποιος δια ειριστής αυτού, που μαζί με τις συστάδες παίρνει και τις ετικέτες αυτών ια π ηρέστερη κατανόηση του αποτε έσματος. Οι τε νικές του cluster labelling [211], συ νά αξιο ο ούν ετικέτες οι οποίες προέρ ονται από τα ίδια τα δεδομένα, π.. έξεις κ ειδιά που ήδη εξά ονται από αυτά και ανήκουν στις συστάδες προς ονοματοδοσία [209]. Πρόσφατα στο [210], οι συ ραφείς προτείνουν μία αποτε εσματική Fuzzy Frequent Itemset-based προσέ ιση συσταδοποίησης κειμέν ν η οποία συνδυάζει εξόρυξη 94

110 Κεφάλαιο Προσωποποίηση στον Χρήστη ασαφών κανόν ν συσ έτισης με την νώση που εμπεριέ εται στα υπερώνυμα του WordNet ια την δημιουρ ία τ ν ετικετών. Παρό α αυτά οι συ ραφείς τονίζουν ότι η διαδικασία εξόρυξης τ ν ασαφών κανόν ν συσ έτισης κα ώς και η ίδια η συσταδοποίηση είναι δύο ρονο όρα ήματα, κάτι που οδη εί σε με ά ους ρόνους εκτέ εσης τ ν δεδομέν ν (παρότι αυτοί κ ιμακώνονται ραμμικά με την είσοδο). Αντί ετα, στην περίπτ ση ενός συστήματος προτάσε ν άρ ρ ν νέ ν, εστιάζουμε σε μία προσέ ιση η οποία α παρά ει τόσο τις συστάδες όσο και τις ετικέτες αυτών σ ετικά ρή ορα ώστε να μπορεί να ανταπεξέρ εται στο ρυ μό παρα ής τ ν άρ ρ ν από τις πη ές τους. 3.8 Προσ ποποίηση στον Χρήστη Το ζήτημα της προσ ποποίησης του περιε ομένου στον ρήστη, αποτε εί ένα ερευνητικό πεδίο από μόνο του με π η ώρα διαστάσε ν. Στη συνέ εια προσπα ούμε ουσιαστικά να εισα ά ουμε τον ανα νώστη σε διάφορες τε νικές που έ ουν προτα εί ια το πρό ημα όσον αφορά ορισμένες μόνο διαστάσεις του. Η προσ ποποιημένη αναζήτηση είναι μία σημαντική ερευνητική περιο ή η οποία αποσκοπεί στην επί υση της ασάφειας τ ν αποτε εσμάτ ν. Προσ έποντας στην ε τί ση της σ ετικότητας τ ν αποτε εσμάτ ν αναζήτησης, οι μη ανές προσ ποποιημένης αναζήτησης δημιουρ ούν προφί ρήστη ια να κατα ράψουν τις προσ πικές προτιμήσεις τ ν ρηστών, και ς εκ τούτου, να ανα ν ρίσουν τον πρα ματικό σκοπό ενός ερ τήματος. Δεδομένου όμ ς ότι οι ρήστες είναι συ νά διστακτικοί στην άμεση έκφραση τ ν προτιμήσεών τους, κυρί ς ό της επιπ έον δου ειάς που αυτό περι αμ άνει, η πρόσφατη έρευνα έ ει εστιάσει στην αυτοματοποιημένη εκμά- ηση τ ν προτιμήσε ν του ρήστη κάνοντας ρήση τ ν ιστορικών αναζήτησης και π οή ησης. Τα προσ ποποιημένα συστήματα ενικά σ εδιάζονται ώστε να ασίζονται στις προτιμήσεις ρηστών που έ ουν ήδη εντοπιστεί με τον παραπάν τρόπο. Οι περισσότερες προσε ίσεις εφαρμόζουν ένα μοναδικό (και συνή ς με ά ο) προφί ια κά ε ρήστη που συμμετέ ει στην διαδικασία. Στην πρα ματικότητα όμ ς, οι ετικές προτιμήσεις δεν είναι αρκετές ια να αποτυπώσουν π ήρ ς και εις ά ος τα ενδιαφέροντα ενός ρήστη. Οι στρατη ικές δημιουρ ίας προφί ρηστών μπορούν να αντιστοι ιστούν σε δύο ενικές προσε ίσεις: αυτές που ασίζονται στα κείμενα (document-based), και αυτές που ασίζονται στις έννοιες (concept-based). Οι document-based με οδο ο ίες δημιουρ ίας προφί, στο εύουν στην αποτύπ ση της συμπεριφοράς του ρήστη σε ότι έ ει να κάνει με τα clicks και ενικότερα τα μονοπάτια π οή ησης που ακο ου εί. Οι προτιμήσεις σε κείμενα πρώτα εξά ονται από τα click-through δεδομένα και στη συνέ εια ρησιμοποιούνται ια να παρα ούν μοντέ α συμπεριφοράς ρήστη, τα οποία συνή ς αναπαρίστανται ς ένα σύνο ο από ζυ ισμένα αρακτηριστικά. Από την ά η μεριά, οι concept-based με οδο ο ίες δημιουρ ίας προφί, στο εύουν στην αποτύπ ση τ ν εννοιο ο ικών ανα κών τ ν ρηστών. Τα κείμενα στα οποία οι ρήστες έ ουν π οη η εί, κα ώς και τα ιστορικά αναζήτησής τους, αντιστοι ίζονται αυτομάτ ς σε ένα σύνο ο από εματικές κατη ορίες. Τα προφί ρηστών παρά ονται ασιζόμενοι στις προτιμήσεις τ ν ρηστών 95

111 3.9. Το Πρόβλημα του νέου Χρήστη Κεφάλαιο 3 όπ ς αυτές εξά ονται μέσα από τις εματικές κατη ορίες. Στο [106] με ετάται μία μέ οδος η οποία εφαρμόζει εξόρυξη προτιμήσε ν και μη ανική εκμά- ηση προκειμένου να μοντε οποιη εί η συμπεριφορά από clicks και π οή ησης. Η μέ οδος αυτή υπο έτει ότι ένας ρήστης α δια άσει τα αποτε έσματα από την ίστα που επιστρέφονται από την αρ ή προς το τέ ος. Εάν ο ρήστης προσπεράσει ένα κείμενο d i στην έση i, πριν κάνει click σε ένα κείμενο d j στη έση j, υπο έτει ότι μά ον είδε ια ποιο κείμενο πρόκειται και εσκεμμένα αποφάσισε να το αποφύ ει. Κατά συνέπεια μπορούμε να υπο έσουμε ότι ο ρήστης προτιμά το κείμενο d j περισσότερο από το d i (δη αδή r di < r dj ) όπου r είναι η σειρά προτίμησης τ ν κειμέν ν στην ίστα που επιστράφηκε. Στο [214] οι συ ραφείς εστιάζουν στην προσ ποποιημένη παρα ή προτάσε ν από σε ίδες Web οι οποίες προσαρμόζονται ανά ο α με τα πρότυπα πρόσ ασης που κατασκευάζονται μέσ της ανά υσης της π ηροφορίας π οή ησης τ ν ρηστών. Δεί νουν ότι η με οδο ο ία που ενσ ματώνει την συσταδοποίηση ρηστών μέσα στο π αίσιο ενός συστήματος προτάσε ν εντοπίζοντας ενδιαφέροντα μονοπάτια π οή ησης ρηστών, μπορεί να είναι οη ητική. Στο [133] οι συ ραφείς προ έπουν την προτίμηση του ρήστη ια ένα αντικείμενο μέσ της ζύ ισης τ ν συνεισφορών παρόμοι ν ρηστών, που ονομάζονται είτονες, ια αυτό το αντικείμενο. Η ομοιότητα μεταξύ τ ν ρηστών υπο ο ίζεται μέσ σύ κρισης τ ν τρόπ ν αξιο ό ησης που αυτοί ρησιμοποιούν, π.. ένα σύνο ο από α μο ο ήσεις που δό ηκαν ια τα ίδια αντικείμενα, ή μέσ τ ν συνη ειών π οή ησής τους. Σε αντί εση με τις παραπάν προσε ίσεις, στην διδακτορική διατρι ή προτείνουμε μία νέα με οδο ο ία η οποία ενσ ματώνει τον α όρι μο συσταδοποίησης W-kmeans στο π αίσιο της παρα ής προσ ποποιημέν ν προτάσε ν προς τον ρήστη. Περισσότερα σ ετικά με την προσέ - ισή μας στα επόμενα κεφά αια. 3.9 Το Πρό ημα του νέου Χρήστη Ένα ασικό πρό ημα με το CF είναι ότι δεν δου εύει πάντα κα ά ό ε ιπών δεδομέν ν ια τους ρήστες, κάτι που είναι επίσης ν στό και ς πρό ημα νέου ρήστη. Το πρό ημα αυτό προκύπτει από το ε ονός ότι κά ε ρήστης έ ει δει μόνο ένα μικρό μέρος από τα δεδομένα και επομέν ς ακρι είς προ έψεις δεν μπορούν να ίνουν εύκο α, του ά ιστον μέ ρις ότου η κά υψη ρήστη/δεδομέν ν έ ει φτάσει σε κάποιο επίπεδο. Οι προσε ίσεις που περι ράφονται στη ι ιο ραφία ια το πρό ημα νέου ρήστη εστιάζουν κυρί ς στα μετα-δεδομένα και στις ερ τήσεις προς τους ρήστες. Τα μετα-δεδομένα σ ετικά με αντικείμενα μπορούν να ρησιμοποιη ούν ια να παρα ούν προτάσεις από συστήματα προτάσε ν που ασίζονται στο περιε όμενο, όπ ς στο [22], ή σε υ ριδικές προσε ίσεις με συστήματα ασισμένα σε α μο ο ήσεις, π.. [110]. Τα filterbots [167] συνιστούν μία ακόμη προσέ ιση όπου ψευδο- ρήστες και αντικείμενα παρά ονται α ορι μικά σε μία προσπά εια να παρέ ονται αναφορές α μο ο ήσε ν στο σύστημα, έτσι ώστε κανείς ρήστης ή αντικείμενο να μην είναι ρίς α μο ό ηση. Η τε νική αυτή, όπ ς αποτιμάται στο [82], μπορεί να ειτουρ ήσει κα ύτερα όταν 96

112 Κεφάλαιο Το Πρόβλημα του νέου Χρήστη ρησιμοποιείται σε συνδυασμό με τε νικές CF, και πιο συ κεκριμένα, οι CF τε νικές έ ουν την με α ύτερη επίπτ ση στα αποτε έσματα αυτού του συνδυαστικού σεναρίου ρήσης. Ά ες μέ οδοι οι οποίες συνδυάζουν δημο ραφικά δεδομένα δια έσιμα στο σύστημα έ ουν επίσης προτα εί. Το πρό ημα όμ ς αυτών τ ν προσε ίσε ν είναι ότι η συ ο ή τέτοι ν δεδομέν ν συνή ς προσκρούει σε προ ήματα ιδι τικότητας. Τα συστήματα προτάσε ν, εσ τερικά, έ ουν επίσης ρησιμοποιη εί ια να αντιμετ πίσουν το πρό ημα νέου ρήστη. Μερικές προσε ίσεις, όπ ς περι ράφονται στο [159], παρά ουν κατη ορίες ρηστών όπου νέοι ρήστες αντιστοι ίζονται ρή ορα αξιοποιώντας ένα σύνο ο από προκα ορισμένες ερ τήσεις. Αυτές οι προσε ίσεις εκκινούν το σύστημα ρησιμοποιώντας δημο- ραφικά αρακτηριστικά, ή αρακτηριστικά ασισμένα σε μοντέ α. Παρότι σ ετικά περιορισμένα όσον αφορά τον τομέα νώσης, μπορούν και παρά ουν ακρι ή αποτε έσματα Ερ τήσεις προς, και α μο ο ήσεις από τον ρήστη Μία ακόμη μέ οδος αντιμετώπισης του προ ήματος νέου ρήστη είναι η απευ είας ερώτηση τ ν ρηστών ώστε να παρέ ουν α μο ο ήσεις σε αντικείμενα (άρ ρα νέ ν ια την περίπτ σή μας). Η προσέ ιση αυτή είναι σ ετικά απ ή: όταν ένας νέος ρήστης ε ράφεται στο σύστημα, του παρουσιάζονται αντικείμενα προς α μο ό ηση. Τα αντικείμενα αυτά δεν είναι προτάσεις, α ά επι έ ονται έτσι ώστε να συ έ εται όσο τον δυνατόν περισσότερη π ηροφορία ια το προφί τ ν ρηστών. Όσο ο ρήστης δίνει α μο ο ήσεις, το σύστημα αποφασίζει αν α σταματήσει ή α συνε ίσει τη διαδικασία, ε τιώνοντας στην δεύτερη περίπτ ση ό ο και περισσότερο το προφί του ρήστη. Παρό α αυτά, τα με ά α ερ τηματο ό ια έ ουν και το αντίστοι ο κόστος: οι ρήστες ενο ούνται σ ετικά εύκο α και επομέν ς μπορεί να ε κατα είψουν την διαδικασία α μο ό ησης ή ακόμη ειρότερα, την διαδικασία ε ραφής. Ειδικά κιό ας αν οι ερ τήσεις έρ ονται σε αντιπαρά εση με την ιδι τικότητά τους. Όταν οιπόν η παραπάν διαδικασία τε ειώσει, το σύστημα, έ οντας μία ασική νώση ια τις προτιμήσεις του ρήστη, ξεκινάει τις προτάσεις προς αυτόν. Η επι ο ή ή μη τ ν προτάσε ν μπορεί να διαμορφώνει ένα ρό ο ανάδρασης με το σύστημα το οποίο έτσι να ενημερώνει συνε ώς το προφί ρήστη. Η παραπάν διαδικασία ερ τήσε ν και α μο ο ήσε ν εισή ηκε από τους Kohrs and Merialdo [143] οι οποίοι ερεύνησαν τη διάταξη τ ν αντικειμέν ν σε σ έση με την διακύμανση και την εντροπία. Υπάρ ουν δύο εξαιρετικά σημαντικές παράμετροι που κα ορίζουν την πορεία της παραπάν διαδικασίας: ποια αντικείμενα να επι ε ούν ια αξιο ό ηση από το ρήστη και με ποια σειρά αυτά να προ η ούν. Πο ές προσε ίσεις σ ετικά με την διαδικασία επι ο ής αντικειμέν ν έ ουν προτα εί στη ι ιο ραφία. Κά ε μία από αυτές πρέπει να ά ει υπόψιν της συ κεκριμένες παραμέτρους, όπ ς η προσπά εια που απαιτείται από τον ρήστη και η ικανοποίηση που αμ άνει από την διαδικασία αξιο ό ησης. Επίσης, η ακρί εια προτάσε ν, δη αδή το πόσο κα ές είναι οι επι ο ές προς α μο ό ηση. Οι με οδο ο ίες σε σ έση με την διαδικασία ερ τήσε ν και α μο ο ήσε ν προς τον ρήστη ρίζονται σε μη προσ ποποιημένες και προσ ποποιημένες [56]. Οι μη προσ ποποιημένες περι αμ άνουν: 97

113 3.9. Το Πρόβλημα του νέου Χρήστη Κεφάλαιο 3 την τυ αία μέ οδο (random), όπου τα αντικείμενα προς α μο ό ηση επι έ ονται με τυ αίο τρόπο με ομοιόμορφη πι ανότητα στο σύνο ο τ ν αντικειμέν ν. Αν η κατανομή τ ν α μο- ο ήσε ν είναι κανονική, η συ κεκριμένη προσέ ιση έ ει το π εονέκτημα ότι κα ύπτει το σύνο ο τ ν αντικειμέν ν την μέ οδο δημοφι ίας (popularity), όπου τα αντικείμενα διατάσσονται σε σειρά με άση του π ή ους τ ν αξιο ο ήσε ν που τους έ ουν δο εί από ό ους τους ρήστες. Παρότι εύκο η προς τους υπο ο ισμούς, η συ κεκριμένη προσέ ιση προά ει υπέρμετρα τα αντικείμενα τα οποία έ ουν αξιο ο η εί από πο ούς ρήστες και ς εκ τούτου φανερώνουν μικρή π ηροφορία την μέ οδο εντροπίας (και παρα α ές αυτής), οι οποίες ασίζονται στο ε ονός ότι συ κεκριμένα αντικείμενα μπορούν να φανερώσουν περισσότερη π ηροφορία ια τις προτιμήσεις του ρήστη. Γενικά ένα αντικείμενο που έ ει ορισμένες αρνητικές και μερικές ετικές α μο ο ήσεις μπορεί να μας πει περισσότερα ια τον ρήστη σε σ έση με ένα αντικείμενο που αρέσει σε ό ους τις ζυ ισμένες με όδους, οι οποίες αποτε ούν συνδυασμό τ ν με όδ ν δημοφι ίας και εντροπίας με την μορφή: P opularity entropy ή log (P opularity entropy). Μια προσέ ιση αυτού του είδους, κάνοντας ρήση του ε ρήματος του Bayes, υπο έτει σι πη ά ότι η δημοφι- ία και η εντροπία είναι ανεξάρτητες μετα ητές όσον αφορά στην επι ο ή τ ν αντικειμέν ν (κάτι που προφανώς δεν είναι πάντα σ στό) την άπ ηστη μέ οδο, όπου το επόμενο αντικείμενο επι έ εται από εκείνα τα οποία ο ρήστης μπορεί να α μο ο ήσει, έτσι ώστε το σφά μα πρό εψης ια το σύνο ο ε έ ου του να ε α ιστοποιείται. Εμφανώς αυτή η μέ οδος δεν έ ει πρακτική αξία μίας και απαιτεί εκ τ ν προτέρ ν νώση ό ι μόνο ια το τι ένας ρήστης μπορεί να α μο ο ήσει, α ά και ια το π ς α το α μο ο ήσει την άπ ηστη ά ν ρηστών μέ οδο - other people s greedy (και παρα α ές αυτής), όπου τα αντικείμενα προς παρουσίαση στον ρήστη επι έ ονται από τα top-n της επι ε μένης ίστας ά ν ρηστών. Πρόσφατα, μία νέα μη προσ ποποιημένη [79] και μία προσ ποποιημένη [78] με οδο ο ία στοί- ισης τ ν αντικειμέν ν προτά ηκε από τους Golbandi et al. Επίσης στο [172] οι συ ραφείς κάνοντας ρήση μίας με όδου πρό εψης η οποία είναι μία παρα α ή της παρα οντοποίησης πινάκ ν (matrix factorization), έδειξαν ότι πιο ακρι είς προ έψεις μπορούν να ίνουν όταν ο ρήστης έ ει δώσει ε ά ιστες αξιο ο ήσεις, παρά όταν το σύστημα ρησιμοποιεί μετα-δεδομένα ια τα αντικείμενα προκειμένου να κάνει προ έψεις. Οι προσ ποποιημένες με οδο ο ίες από την ά η μεριά, αμ άνουν υπόψιν τις απαντήσεις τις οποίες ο ρήστης έ ει δώσει στα αντικείμενα που ήδη έ ουν παρουσιαστεί. Ορισμένες προσ ποποιημένες με οδο ο ίες είναι οι εξής: 98

114 Κεφάλαιο Το Πρόβλημα του νέου Χρήστη αντικείμενο με αντικείμενο (item by item), όπου αρ ικά τα αντικείμενα παρουσιάζονται με οποιαδήποτε ά η μη προσ ποποιημένη με οδο ο ία έ ς ότου μία α μο ό ηση ίνει από τον ρήστη. Ύστερα από αυτό, οι προτάσεις ια επόμενες α μο ο ήσεις ίνονται ασιζόμενοι σε κάποιο μέτρο ομοιότητας με το τι έ ει ήδη αξιο ο ήσει ο ρήστης Naive Bayes, όπου με την νώση ια το αν ο ρήστης μπορεί να α μο ο ήσει ένα αντικείμενο, μπορούμε να υπο ο ίσουμε την Naive Bayes πι ανότητα να α μο ο ήσει τα υπό οιπα αντικείμενα διαταρασσόμενη άπ ηστη ά ν ρηστών - perturbed other people s greedy, η οποία συνδυάζει την άπ ηστη ά ν ρηστών με την Naive Bayes μέ οδο. Στο [177] παρουσιάζονται και αξιο ο ούνται αρκετές ακόμη προσ ποποιημένες με οδο ο ίες ια την ε τί ση της σειράς με την οποία παρουσιάζονται αντικείμενα στους ρήστες. Μία ακόμη προσέ ιση που έ ει επιτυ ώς ρησιμοποιη εί ια την αντιμετώπιση του προ ήματος νέου ρήστη είναι η παρα οντοποίηση πινάκ ν (matrix factorization) [122]. 99

115

116 ΚΕΦΑΛΑΙΟ 4 ΑΡΧΙΤΕΚΤΟΝΙΚΗ In science, nothing is ever 100% proven. Michio Kaku, American Physicist, 1947 Στο παρόν κεφά αιο παρουσιάζεται η αρ ιτεκτονική του συστήματος προτάσε ν (recommendation system) το οποίο αναπτύ ηκε κατά τη διάρκεια εκπόνησης της διδακτορικής διατρι ής. Απεικονίζεται η ροή π ηροφορίας τ ν διαφόρ ν υποσυστημάτ ν, εξη ώντας π ς αυτά α η επιδρούν μεταξύ τους προκειμένου το τε ικό αποτέ εσμα να είναι προτάσεις ρήσιμ ν άρ ρ ν νέ ν προς τους ρήστες του συστήματος. 101

117

118 4.1 Στό οι του συστήματος Συ νά στις μέρες μας έ ει παρατηρη εί να μι ούμε ια την ποιότητα στην ενημέρ ση που παρέ ει το διαδίκτυο. Ο κεντρικός στό ος του συστήματος που αναπτύ ηκε είναι να παρέ ει ς έξοδο, στο ρήστη ή σε ά α συστήματα, ποιοτική π ηροφορία. Όπ ς έ ει ήδη αναφερ εί στα προη ούμενα κεφά αια, η π ηροφορία του πα κοσμίου ιστού είναι σ εδόν αοτική με αποτέ εσμα οι ρήστες να μην είναι εφικτό να προσε ίσουν π ηροφορία που τους είναι ρήσιμη και επι υμητή. Σκοπός του συστήματός μας είναι να δημιουρ ήσουμε την κατά η η υποδομή ούτ ς ώστε να πρα ματοποιείται φι τράρισμα και να παρά ονται προτάσεις ια τα άρ ρα νέ ν του διαδικτύου. Για να επιτευ εί αυτό, αξιοποιούμε τε νικές και α ορί μους από πο ά πεδία της επιστήμης τ ν υπο ο ιστών και ό ι μόνο. Το σύστημά μας αντ εί και επεξερ άζεται περιε όμενο που εντοπίζεται σε ειδησεο ραφικούς δικτυακούς τόπους. Το περιε όμενό τους παρα αμ άνεται σε συνε ή ρυ μό, και στη συνέ εια μπαίνει σε μία ακο ου ιακή (pipelining) διαδικασία επεξερ ασίας του, όπου: φι τράρεται, ανα ύεται, κατη οριοποιείται, περι ήπτεται, συσταδοποιείται και στο τέ ος προσ ποποιείται στους ρήστες. Οι ρήστες επίσης συμμετέ ουν στην διαδικασία μέσ συνερ ατικού φι τραρίσματος μιας και οι επι ο ές τους οδη ούν το προτεινόμενο περιε όμενο ό ι μόνο προς αυτούς, α ά και προς ά ους ρήστες που ανήκουν στις ίδιες συστάδες ρηστών. Ορισμένες από τις παραπάν διερ ασίες έ ουν περι ραφεί διεξοδικά και στην μεταπτυ ιακή διπ ματική ερ ασία μου [235], και ς εκ τούτου, α περι ραφούνε επι ραμματικά μόνο στο παρόν κεφά αιο. 4.2 Γενική αρ ιτεκτονική Το σύστημα που αναπτύ ηκε στα π αίσια της παρούσας ερ ασίας είναι αρκετά πο ύπ οκο και περι αμ άνει αρκετά υποσυστήματα που επιτε ούν τις επιμέρους ειτουρ ίες. Αποτε εί επομέν ς έναν τμηματοποιημένο μη ανισμό, κά ε κομμάτι του οποίου σ εδιάστηκε με σκοπό να μπορεί να ειτουρ ήσει και αυτόνομα ή, σε ορισμένες περιπτώσεις, ακόμα και να μπορεί να παρακαμφ εί (όπου αυτό απαιτείται). Η επι υμητή αυτή ιδιότητα επιτυ άνεται με τη ρήση της κοινής άσης δεδομέν ν όπου απο ηκεύονται οι έξοδοι ενός συστήματος όπου αυτές αποτε ούν εισόδους ια κάποιο ά ο. Είναι επομέν ς εύκο ο να αντικαταστα εί ένα τμήμα (module) του συστήματος από ένα νεότερο ή κα ύτερο, όπ ς και να προστε εί κάποιο ακόμα το οποίο α ρησιμοποιεί υπάρ ουσα π ηροφορία από τη ΒΔ, δεδομένου φυσικά ότι α ρησιμοποιεί την υπάρ ουσα διεπαφή επικοιν νίας (communication interface). Η παραπάν ο ική σ εδίασης αναφέρεται συ νά ς modular και αποτε εί σημαντικό στοι είο της αρ ιτεκτονικής προσέ ισης κά ε συστήματος το οποίο σ εδιάζεται με την προοπτική επέκτασης του στο μέ ον.

119 4.3. Ροή Πληροφορίας Κεφάλαιο Ροή Π ηροφορίας Η ενική αρ ιτεκτονική τους συστήματος προτάσε ν άρ ρ ν νέ ν στο οποίο κατα ήξαμε παρουσιάζεται στο σ ήμα 9. Κα ένα από αυτά τα υποσυστήματα που φαίνονται α ανα υ εί στις ενότητες που ακο ου ούν. Στην παρούσα ενότητα απ ά αναφέρουμε συνο ικά και επι ραμματικά τις ειτουρ ίες τους. Σ ήμα 9: Αρ ιτεκτονική του συστήματος προτάσε ν άρ ρ ν νέ ν Αρ ικά, στο στάδιο εισόδου του, το σύστημά μας ανακτά άρ ρα νέ ν που παρά ονται από ειδησεο ραφικά πρακτορεία του διαδικτύου. Αυτό αποτε εί μία offline διαδικασία η οποία επανα αμ- άνεται ανά τακτά ρονικά διαστήματα με ρήση ενός crawler. Ο συ κεκριμένος crawler, δια άζει την ίστα από RSS feeds τα οποία υπάρ ουν κατα ρημένα στη ΒΔ και στη συνέ εια ανακτά τα 104

120 Κεφάλαιο Ροή Πληροφορίας άρ ρα που αυτά αναφέρουν. Η συ νότητα αναζήτησης ια ενημερώσεις στα RSS feeds, επομέν ς και η ανάκτηση τ ν νέ ν άρ ρ ν νέ ν, ίνεται κά ε 10 επτά. Η παραπάν διαδικασία ανακτά σημαντικό ό κο ακατέρ αστ ν δεδομέν ν τα οποία και απο ηκεύεται φυσικά στην ΒΔ προκειμένου να ρησιμοποιη ούν από τα υποσυστήματα που ακο ου ούν. Κομμάτι της ειτουρ ικότητας του crawler είναι επίσης ο εντοπισμός του ρήσιμου κειμένου στις ανακτημένες ιστοσε ίδες (π.. σώμα και τίτ ος νέου, κ. π.). Η προεπεξερ ασία κειμένου αποτε εί μία κεντρική διαδικασία του συστήματος συνο ικά, ίσης ή ίσ ς και με α ύτερης αρύτητας τ ν IR διαδικασιών που την ακο ου ούν. Η προεπεξερ ασία κειμένου εφαρμόζεται στο περιε όμενο τ ν ανακτημέν ν άρ ρ ν και έ ει ς αποτέ εσμα την εξα ή τόσο τ ν έξε ν κ ειδιών (keywords), όσο και τ ν n-grams από τα οποία αποτε είται το κά ε άρ ρο. Σε αυτό το επίπεδο ανά υσης, εφαρμόζουμε ορισμένες τυπικές τε νικές κα αρισμού κειμένου, στην οποίες περι αμ άνονται: εύρεση ρίζας έξε ν (stemming) αφαίρεση stopwords Παρά η α με τα παραπάν, ρησιμοποιούμε και ορισμένες τε νικές που έ ουν να κάνουν με: επι ο ή/μεί ση αρακτηριστικών όπου επι ειρούμε να επι έξουμε ένα υποσύνο ο από τα αρακτηριστικά τα οποία είναι πιο ρήσιμα ια τις IR που ακο ου ούν. Αυτό επιτυ άνεται μέσ : αντιστοί ιση μερών του ό ου (POS tagging) και πιο συ κεκριμένα, εύρεση τ ν ουσιαστικών του κειμένου κ άδεμα ορύ ου ή ασήμαντ ν έξε ν οι οποίες εμφανίζονται με πο ύ μικρή συ νότητα στο σύνο ο τ ν κειμέν ν (corpus). Οι έξεις αυτές επομέν ς δεν εμπεριέ ουν σημαντική νοηματική π ηροφορία αναπαράστασης παρα ή/εξα ή αρακτηριστικών όπου νέα αρακτηριστικά αναζητούνται ια αναπαράσταση. Στην περίπτ σή μας αυτό επιτυ άνεται με δύο τρόπους: με την εξα ή τ ν ουσιαστικών του κειμένου (POS tagging) με την παρα ή τ ν δενδρικών δομών υπερ νύμ ν τ ν έξε ν με ρήση της εξ τερικής άσης νώσης WordNet Μετά τις παραπάν τε νικές προεπεξερ ασίας κειμένου, ακο ου εί η εξα ή έξε ν κ ειδιών, η οποία, κάνοντας ρήση του vector space μοντέ ου, παρά ει τον πίνακα όρ ν-συ νοτήτ ν του κειμένου (term-frequency vector). Ο πίνακας αυτός, ο οποίος περι ράφει το κά ε κείμενο σαν ένα σύνο ο από έξεις, ή α ιώς bag of words (πίνακας έξε ν-συ νοτήτ ν) στις IR τε νικές που ακο ου ούν: κατη οριοποίηση, περί ηψη και συσταδοποίηση. Στην διδακτορική διατρι ή ενισ ύσαμε αυτή την αναπαράσταση με ρήση της εξ τερικής άσης νώσης WordNet, προκειμένου να ε τιώσουμε τα αποτε έσματα του α ορί μου συσταδοποίησης που ακο ου εί. 105

121 4.3. Ροή Πληροφορίας Κεφάλαιο 4 Παρά η α, και κατ αντίστοι ο τρόπο με αυτόν της εξα ής έξε ν κ ειδιών, στην διδακτορική διατρι ή προσ έσαμε μία νέα τε νική παρα ής αρακτηριστικών η οποία κάνει ρήση τ ν n-grams του κειμένου. Τα n-grams εξά ονται και δεικτοδοτούνται σε αυτό το σημείο ανά υσης του κειμένου με τρόπο παρόμοιο με αυτόν της εξα ής έξε ν κ ειδιών. Μά ιστα η εξα ή τ ν keywords μπορεί να ιδ εί ς η απ ούστερη περίπτ ση εξα ής n-grams, όπου n = 1. Για κά ε άρ ρο οιπόν και ια τιμές του n από 2 έ ς 6, εντοπίζουμε τα n-grams έξε ν του κειμένου και τα απο ηκεύουμε στη ΒΔ. Σε αυτή την περίπτ ση, η συνο ική ομοιότητα μεταξύ δύο άρ ρ ν ή ενός άρ ρου και μίας κατη ορίας ή συστάδας, δεν αποτυπώνεται μόνο σε σ έση με την μετρική συσ έτισης συ νότητας κειμένου/ανάστροφης συ νότητας σε ό α τα κείμενα, keyword frequency/inverse document frequency metric (kf-idf), α ά πιο ακρι έστερα ς ο συνδυασμός της παραπάν μετρικής και της αντίστοι ης n-grams μετρικής, έστ : gram frequency/inverse document frequency metric (gf-idf). Ο συνδυασμός τ ν δύο αυτών μετρικών ια ζύ ιση της σημαντικότητας τ ν έξε ν α ανα υ εί στο επόμενο κεφά αιο. Ακο ου ούν ορισμένα IR υποσυστήματα του μη ανισμού και τα οποία αφορούν στην κατη οριοποίηση και εξα ή περί ηψης του κειμένου. Τα υποσυστήματα αυτά δεν α μας απασ ο ήσουν στα π αίσια της διδακτορικής διατρι ής και αναφέρονται απ ά και μόνο διότι αποτε ούν μέρος του συνο ικού συστήματος. Σημαντικό ίσ ς εδώ είναι να αναφέρουμε ότι το υποσύστημα κατη οριοποίησης α η επιδρά με αυτό της εξα ής περί ηψης προκειμένου να το υπο οη ήσει όσον αφορά στην ε τί ση της ποιότητας τ ν εξα όμεν ν περι ήψε ν [235]. Η ενισ υμένη ίστα από αρακτηριστικά που προκύπτει από την προεπεξερ ασία κειμένου, τροφοδοτεί τον W-kmeans α όρι μο συσταδοποίησης που ακο ου εί. Είναι σημαντικό να αναφέρουμε όμ ς ότι η διαδικασία (α όρι μος) συσταδοποίησης είναι ανεξάρτητη από τα υπό οιπα ήματα και επομέν ς α μπορούσε εύκο α να αντικαταστα εί από μία ά η διαδικασία στο μέ ον. Ο W-kmeans αποτε εί μία καινοτόμα προσέ ιση στο πρό ημα της συσταδοποίησης επεκτείνοντας τον κ ασικό α όρι μο συσταδοποίησης k-means. Ο W-kmeans κάνει ρήση της εξ τερικής νώσης από τα υπερώνυμα του WordNet ενισ ύοντας την bag of words αναπαράσταση τ ν κειμέν ν. Ακο ου ώντας τις ασικές IR διερ ασίες του μη ανισμού μας ρίσκεται ο α όρι μος προσ ποποίησης. Ο α όρι μος μπορεί εύκο α να προσαρμοστεί σε επτές α α ές όσον αφορά στις προτιμήσεις τ ν ρηστών. Αυτές οι α α ές, οι οποίες εκφράζονται μέσ της συμπεριφοράς π οή ησης τ ν ρηστών, εντοπίζονται και διαρκώς προσαρμόζουν το προφί του ρήστη όπου αυτό είναι απαραίτητο. Ο α όρι μος προσ ποποίησης ρησιμοποιεί μία π η ώρα π ηροφοριών που έ ουν να κάνουν με τον ρήστη προκειμένου τε ικά να φι τράρει τα αποτε έσματα σε αυτόν, προτείνοντας τε ικά μόνο ότι ε ρεί π ς ταιριάζει κα ύτερα στο προφί του. Επιπ έον, αμ άνει υπόψιν του με έναν ζυ ισμένο τρόπο την π ηροφορία η οποία πη άζει από τις προη ούμενες IR τε νικές, την κατη οριοποίηση, την περί ηψη, κα ώς και την συσταδοποίηση άρ ρ ν νέ ν. Τα προφί από πο απ ούς ρήστες και ρονικά π αίσια επίσης συσταδοποιούνται με ρήση του α ορί μου W-kmeans παρά οντας έτσι συστάδες ρηστών. Ο W-kmeans ια την περίπτ ση της συσταδοποίησης ρηστών ενισ ύει τα προφί ρήστη με υπερώνυμα του εξά ονται από την 106

122 Κεφάλαιο Ροή Πληροφορίας άση νώσης WordNet μέσ ενός ευρετικού τρόπου ο οποίος α ανα υ εί στη συνέ εια. Αυτές οι συστάδες από προφί ρηστών επίσης ρησιμοποιούνται (παρά η α με την παραπάν π ηροφορία) στη φάση παρα ής προτάσε ν προς τον ρήστη, προκειμένου να ε τιώσουν την ευ ρηστία και αποτε εσματικότητα του συστήματος προτείνοντας έτσι πιο προσαρμοσμένα αποτε έσματα στους ρήστες που επανεπισκέπτονται το σύστημα. Όταν οιπόν ένας ρήστης επιστρέφει, το συσταδοποιημένο προφί του ρήστη ανακτάται και άρ ρα τα οποία ταιριάζουν στο προφί αυτό εξά ονται και αξιο ο ούνται προς πρόταση ια τον ρήστη Προεπεξερ ασία κειμένου Ο μη ανισμός προεπεξερ ασίας κειμένου είναι ένα σημαντικό τμήμα του συνο ικού μη ανισμού ο οποίος ανα αμ άνει το κα άρισμα του σώματος του κειμένου και κατα ή ει στην εξα ή έξε ν κ ειδιών και n-grams. Η διαδικασία της προεπεξερ ασίας κειμένου φαίνεται στο Σ ήμα 10. Η είσοδος στο υποσύστημα αυτό από τα δεδομένα της ΒΔ περιέ ει τα απαραίτητα μόνο στοι εία: τίτ ος και σώμα κειμένου. Σ ήμα 10: Προεπεξερ ασία κειμένου που οδη εί στην εξα ή keywords και n-grams Εκτός από τις παραπάν εισόδους, ο μη ανισμός δέ εται ορισμένες παραμέτρους ειτουρ ίας, κάτι που μας επιτρέπει τόσο να μετα ά ουμε εύκο α την ειτουρ ία του, όσο και να αξιο ο- ήσουμε στη συνέ εια τις επιδόσεις ια διάφορες τιμές τ ν εισόδ ν αυτών. Οι παράμετροι του μη ανισμού προεπεξερ ασίας κειμένου είναι: το ε ά ιστο μήκος έξης (οι έξεις που είναι μικρότερες από αυτό το μήκος α αφαιρε ούν) 107

123 4.3. Ροή Πληροφορίας Κεφάλαιο 4 κα ορισμός εάν τα αρι μητικά δεδομένα α κρατη ούν ή α αφαιρε ούν κα ορισμός μιας ίστας από έξεις τετριμμένες και συνη ισμένες οι οποίες δεν εκφράζουν κάποιο συ κεκριμένο νόημα και μπορούν να ε ρη ούν ς σκουπίδια (stopwords) κα ορισμός του α ορί μου stemming που α ρησιμοποιη εί ια τις έξεις κ ειδιά κα ορισμός της αρύτητας που δίνεται στα ουσιαστικά του κειμένου (αν αυτά ζυ ίζουν περισσότερο) κα αρισμός τ ν έξε ν που εμφανίζονται με μικρή συ νότητα (<0.01%) στην ΒΔ (και ς εκ τούτου πι ανότατα αποτε ούν σκουπίδια) εύρος της τιμής n ια τον κα ορισμό τ ν n-grams του κειμένου Η διαδικασία που ακο ου είται από τον μη ανισμό προεπεξερ ασίας κειμένου έ ει ς εξής. Αρ ικά, η ώσσα του κειμένου ανα ν ρίζεται κάτι που ίνεται είτε με ειδικό ο ισμικό ανα- νώρισης είτε έμμεσα ρησιμοποιώντας την προκα ορισμένη ώσσα του RSS feed από το οποίο προέρ εται το άρ ρο. Ακο ου εί η διαδικασία ρισμού τ ν προτάσε ν, ο ορ ο ραφικός έ ε ος, και έπειτα η αφαίρεση τ ν σημεί ν στίξης που υπάρ ουν. Στη συνέ εια αμ άνει ώρα η διερ ασία ανα νώρισης τ ν ουσιαστικών του κειμένου ρησιμοποιώντας τον POS SVM-based tagger από το [77] ο οποίος μπορεί να κα ορίσει με με ά η ακρί εια τα ουσιαστικά που περιέ ει η κά ε πρόταση. Μερικές κοινότυπες τε νικές εξα ής έξε ν κ ειδιών ακο ου ούν με σκοπό να περιοριστεί ο όρυ ος τ ν αποτε εσμάτ ν: η αφαίρεση τ ν stopwords και το stemming. Είναι σημαντικό να τονιστεί ότι η διαδικασία εύρεσης τ ν ουσιαστικών του κειμένου πρέπει να προη είται αυτών τ ν διερ ασιών αν επι υμούμε να επιτύ ει με με ά η πι ανότητα, μιας και οι έξεις μπορούν εύκο α να αντιστοι ιστούν με μέρη του ό ου μέσα στην πρόταση στην οποία ανήκουν. Ένα εξίσου σημαντικό στοι είο είναι ότι οι διαδικασίες της ανα νώρισης τ ν ουσιαστικών, της αφαίρεσης τ ν stopwords και του stemming είναι ισ υρά εξαρτώμενες από την ώσσα του κειμένου. Γν ρίζοντας επομέν ς την ώσσα του κειμένου (κάτι που ίνεται όπ ς είπαμε στα αρ ικά στάδια), μπορούμε να ά ουμε τις σ στές αποφάσεις προεπεξερ ασίας του: να αποφασίσουμε ποια α πρέπει να είναι η ίστα με τα stopwords που α πρέπει να αφαιρε ούν, ποιοι α πρέπει να είναι οι κανόνες ια το POS tagging που α εφαρμόσει ο SVM tagger, ποιοι α είναι οι κανόνες ια την διαδικασία stemming που α εφαρμοστεί και τε ικά ποιο α είναι το μέ ε ος τ ν αρ ικών έξε ν που α πρέπει να κρατη ούν, μιας και ορισμένες ώσσες περιέ ουν κατά κόρ ν με α ύτερες έξεις από κάποιες ά ες. Τα παραπάν αφορούν το δεξί σκέ ος του σ ήματος 10. Παρόμοιες διαδικασίες ακο ου ούνται και ια την εύρεση τ ν n-grams του κειμένου (αριστερό σκέ ος του σ ήματος 10) με την ασική διαφορά ότι η εξα ή της ρίζας τ ν έξε ν (stemming) κα ώς και η αφαίρεση τ ν stopwords δεν προη είται της εξα ής n-grams. Για την ακρί εια, οι τε νικές αυτές δεν έ ουν εφαρμο ή πέρα από συστήματα που ασίζονται μόνο σε εξα ή έξε ν. Και ο ό ος είναι απ ός: σ εδόν ό α τα n-gram που μπορεί να εξα ούν ασίζονται ακρι ώς στα stopwords που συνδέουν ορισμένες 108

124 Κεφάλαιο Ροή Πληροφορίας έξεις, ( ια παράδει μα: president of the United States) κα ώς και στις κατα ήξεις τ ν έξε ν που απαρτίζουν τα n-grams. Τα παραπάν αρακτηριστικά προσδίνουν την content-based φύση του συστήματος, μιας και η ανά υση που περι ράφηκε μέ ρις στι μής ίνεται αποκ ειστικά και μόνο με ρήση του κειμενικού περιε ομένου του ιδίου του κειμένου τ ν άρ ρ ν. Η έξοδος του μη ανισμού προεπεξερ ασίας κειμένου απο ηκεύεται στη άση δεδομέν ν του συστήματος, και έπειτα δια άζεται από τα υποσυστήματα που ακο ου ούν. Στις εξόδους περι αμ- άνονται: οι έξεις κ ειδιά που προέκυψαν από την διαδικασία του keyword extraction τα n-grams που προέκυψαν από την διαδικασία του gram extraction τις έσεις τ ν keywords και τ ν n-grams στο αρ ικό κείμενο, σε ποιες προτάσεις δη αδή εμφανίζονται το π ή ος με το οποίο εμφανίζονται τα keywords και τα n-grams κάτι που εκφράζεται είτε ς από υτη συ νότητα εμφάνισης (π.. ένα keyword εμφανίζεται 5 φορές στο κείμενο), είτε ς σ ετική συ νότητα εμφάνισης (π.. ένα n-gram εμφανίζεται 5 φορές σε ένα κείμενο 50 n-grams, άρα με σ ετική συ νότητα 0,1). την π ηροφορία ια το αν το keyword είναι ουσιαστικό ή ό ι Τα παραπάν αναπαριστώνται μέσ πινάκ ν στο vector space μοντέ ο: term frequency - inverse document frequency (tf-idf) ια την περίπτ ση τ ν έξε ν κ ειδιών, και gram frequency - inverse document frequency (gf-idf) ια την περίπτ ση τ ν n-grams. Οι πίνακες αυτοί απο ηκεύονται στην άση δεδομέν ν και αξιοποιούνται από τις διαδικασίες του επόμενου επιπέδου Συσταδοποίηση Η συσταδοποίηση αποτε εί μία από τις ασικές διερ ασίες πυρήνα του συστήματος προτάσε ν που αναπτύ ηκε. Ο α όρι μος συσταδοποίησης που αναπτύ ηκε ονομάζεται W-kmeans (WordNet-enabled k-means) ο οποίος και παρουσιάζεται στη συνέ εια Συσταδοποίηση W-kmeans Ο α όρι μος συσταδοποίησης W-kmeans εξερευνά την υπό εση ότι η ενσ μάτ ση εξικο- ο ικής π ηροφορίας στην αναπαράσταση κειμένου, μπορεί να οδη ήσει σε ε τιώσεις σ ετικά με την ακρί εια συσταδοποίησης. Αυτό ισ ύει είτε έ ουμε να κάνουμε με άρ ρα νέ ν, είτε με ρήστες προς συσταδοποίηση, κάτι που κάνει τον α όρι μο να δρα με τον ίδιο τρόπο, ανεξάρτητα από την είσοδο (πίνακες έξε ν κ ειδιών άρ ρ ν και πίνακες έξε ν κ ειδιών προφί ρηστών αντίστοι α). Στον πυρήνα του W-kmeans ρίσκεται ο α όρι μος k-means ο οποίος ενισ ύεται ώστε να κάνει ρήση ενός ευρετικού που ασίζεται στη άση νώσης WordNet. Πιο συ κεκριμένα, κάνει 109

125 4.3. Ροή Πληροφορίας Κεφάλαιο 4 ρήση της εξ τερικής άσης νώσης υπερ νύμ ν του WordNet προκειμένου να ενισ ύσει την αναπαράσταση bag of words που προκύπτει από το υποσύστημα προεπεξερ ασίας κειμένου στο στάδιο εισα ής του. Η ενισ υμένη ίστα αρακτηριστικών που προκύπτει οδη εί τον α όρι μο k-means ο οποίος κάνοντας ρήση της μετρικής ομοιότητας συνημιτόνου παρά ει τις συστάδες τ ν αντικειμέν ν (άρα τυπικά, πρόκειται ια τον α όρι μο spherical k-means (s-kmeans)). Σ ήμα 11: Συσταδοποίηση άρ ρ ν νέ ν και ρηστών Όπ ς φαίνεται και στο ρήμα 11, η συσταδοποίηση άρ ρ ν νέ ν και η συσταδοποίηση ρηστών αποτε ούν δύο διαφορετικές διερ ασίες του συστήματος που όμ ς ρησιμοποιούν τον ίδιο πυρήνα (α όρι μο) προκειμένου να παρά ουν την έξοδό τους (τις συστάδες τους). Οι παρα όμενες συστάδες στο τέ ος οδη ούνται προς την διαδικασία εξα ής ετικετών / ονοματοδοσίας συστάδ ν (labelling), η οποία και αντιστοι ίζει μία ή περισσότερες έξεις κ ειδιά σε κά ε συστάδα. Αυτές οι έξεις, εν τέ ει, αντιπροσ πεύουν διαισ ητικά και σε αν ρώπινη ώσσα την κά ε μία συστάδα και αποτε ούν έναν φυσικό τρόπο κατανόησης τ ν περιε ομέν ν τ ν συστάδ ν που προκύπτουν Συσταδοποίηση άρ ρ ν νέ ν Η διαδικασία συσταδοποίησης άρ ρ ν νέ ν απεικονίζεται στο σ ήμα 12, με τις διερ ασίες στο τετρα νισμένο κουτί να αποτε ούν τα εμε ιώδη ήματα του W-kmeans α ορί μου (όπ ς παρουσιάστηκε και στο σ ήμα 11). Αρ ικά, ένας τυπικός α όρι μος συσταδοποίησης δέ εται την έξοδο του συστήματος προεπεξερ ασίας και άσει της δεδομένης μετρικής απόστασής του, προ ράει στην εξα ή συστάδ ν από τα κείμενα. Βάσει της ενικής αυτής ροής αξιο ο ούνται διάφοροι α όρι μοι συσταδοποίησης στην ενότητα Όπ ς αναφέρ ηκε και προη ουμέν ς, ο α όρι μος W-kmeans ια την περίπτ ση της συσταδοποίησης άρ ρ ν νέ ν, δέ εται ς είσοδο την έξοδο του μη ανισμού προεπεξερ ασίας και συ κεκριμένα τις έξεις κ ειδιά του κειμένου κα ώς και τις σ ετικές συ νότητες εμφάνισης αυτών 110

126 Κεφάλαιο Ροή Πληροφορίας στα κείμενα προς συσταδοποίηση, σε σ έση πάντα με τη συνο ική συ νότητα εμφάνισης τους στα κείμενα της ΒΔ (BOW αναπαράσταση). Έ οντας αυτές τις π ηροφορίες, εξά ει ια κά ε μία από τις έξεις κ ειδιά του κά ε κειμένου προς συσταδοποίηση το δέντρο υπερώνυμ ν, όπ ς αυτό δίνεται από το WordNet. Τα αυτόνομα δέντρα υπερ νύμ ν έπειτα προστί ενται, παρά οντας έτσι ένα α ροιστικό δέντρο ια κά ε κείμενο. Ακο ου εί η εφαρμο ή πάν στο σύνο ο τ ν keywords και τ ν υπερ νύμ ν του α ορί μου k-means, απ όπου εξά ονται οι συστάδες τ ν άρ ρ ν νέ ν. Η ενίσ υση τ ν αρακτηριστικών τ ν κειμέν ν κατ αυτόν τον τρόπο ε τιώνει την ποιότητα της συσταδοποίησης αισ ητά, όπ ς α δούμε και σε επόμενα κεφά αια. Παρά η α, εξά ονται και οι ετικέτες που αρακτηρίζουν την κά ε συστάδα - πά ι με ρήση τ ν υπερ νύμ ν του Wordnet. Οι ανα έσεις άρ ρ ν σε συστάδες, κα ώς και ετικετών στις συστάδες, αποτε ούν επομέν ς τις εξόδους του υποσυστήματος συσταδοποίησης άρ ρ ν νέ ν οι οποίες και απο ηκεύονται στη ΒΔ. Σ ήμα 12: Συσταδοποίηση άρ ρ ν νέ ν - τυπικοί α όρι μοι και W-kmeans Μοντε οποίηση και συσταδοποίηση ρηστών Για κά ε ρήστη που δια άζει άρ ρα νέ ν από το σύστημα, κρατάμε τις ενέρ ειες του οι οποίες αρακτηρίζουν μία συνεδρία ρήστη. Προκειμένου να συνδέσουμε το υποσύστημα συσταδοποί- 111

127 4.3. Ροή Πληροφορίας Κεφάλαιο 4 ησης ρηστών με τον α όρι μο προσ ποποίησης στο ρήστη, ρησιμοποιούμε την ο ική τ ν συνεδριών ρήστη (user sessions). Μία συνεδρία οιπόν, ορίζεται ς η ίστα από επι ε μένα άρ- ρα τα οποία ο ρήστης αποφάσισε να δει ια μία ε ά ιστη ρονική περίοδο και μέσα σε ένα περιορισμένο ρονικό παρά υρο συνε ής διάρκειας, παράμετροι οι οποίες προσαρμόζονται και αποτιμούνται κατά η α με άσει τη πειραματική αξιο ό ηση του υποσυστήματος. Τα επι ε μένα άρ ρα που συμπερι αμ άνονται σε αυτές τις συνεδρίες ενώνονται εν συνε εία σε επίπεδο έξε ν κ ειδιών, παρά οντας έτσι ένα ρονικά φρα μένο προφί ρήστη. Τα προφί από πο απ ούς ρήστες και ρονικές περιόδους συσταδοποιούνται συνε ώς από το σύστημα με ρήση του W-kmeans α ορί μου, παρά οντας έτσι συστάδες από προφί οι οποίες και απο ηκεύονται στη ΒΔ. Όπ ς είναι σαφές από τα παραπάν, η συσταδοποίηση τ ν ρηστών ανά εται στο πρό ημα της συσταδοποίησης επι ε μέν ν άρ ρ ν που ανήκουν σε συνεδρίες ρηστών και ό ι στην αυστηρή αντιστοί ιση keywords με ρήστες όπ ς προτείνεται από πο ές τε νικές της ι ιο ραφίας. Η προσέ ιση αυτή προσφέρει με α ύτερη ευε ιξία όσον αφορά στα μετα α όμενα ενδιαφέροντα τ ν ρηστών του συστήματος, τα οποία και έ ουν με αυτό τον τρόπο άμεση απεικόνιση στις επίκαιρες συστάδες ρηστών που εξά ονται Υπο ο ισμός π ή ους συστάδ ν Όπ ς έ ει αναφερ εί, ένα ασικό πρό ημα της οικο ένειας α ορί μ ν k-means είναι η εκ τ ν προτέρ ν ανά κη κα ορισμού του π ή ους τ ν υποκείμεν ν συστάδ ν που ρίσκονται στα προς συσταδοποίηση δεδομένα. Κάτι τέτοιο όμ ς σπάνια είναι ν στό, ειδικά κιό ας στην περίπτ ση συσταδοποίησης άρ ρ ν νέ ν ή μετα α όμεν ν προφί ρηστών που μας αφορά: τα μεν άρ ρα νέ ν καταφ άνουν με ορ ούς ρυ μούς ρίς κάποια πρότερη νώση ια το τι περιέ ουν, οι δε συστάδες τ ν προφί ρηστών μετα ά ονται επίσης συ νά ανα ό ς με τα ενδιαφέροντα του ρήστη στην συ κεκριμένη φρα μένη ρονική περίοδο. Ως εκ τούτου, και δεδομένου ότι μία τυ αία επι ο ή π ή ους συστάδ ν έ ει συνή ς αρνητικά αποτε έσματα (εκτός έ αια και αν ρίσκεται εξαιρετικά κοντά στο πρα ματικό π ή ος συστάδ ν τ ν δεδομέν ν), ρησιμοποιούμε έναν συνδυασμό της με όδου του εμπειρικού κανόνα και της με όδου του α κώνα ια την εκτίμηση του π ή ους τ ν συστάδ ν. Οι μέ οδοι αυτοί περι ράφηκαν στην ενότητα Πιο συ κεκριμένα, δεδομένου ότι μία ενική εκτίμηση, και μά ιστα αρκετά κοντά στις περισσότερες τ ν περιπτώσε ν, μπορεί να ίνει με τον εμπειρικό κανόνα, αρ ίζουμε ασιζόμενοι με αυτόν. Στη συνέ εια, κρατώντας τις μισές συστάδες αυτής της προσέ ισης ξεκινάμε εκτε έσεις του α - ορί μου W-kmeans αυξάνοντας σταδιακά το π ή ος τ ν συστάδ ν και μετρώντας την μετρική RSoS (11). Η οριακή κ ίση της φ ίνουσας τιμής RSoS όσο το π ή ος συστάδ ν αυξάνεται είναι η τιμή που κρατάμε όσον αφορά το π ή ος τ ν συστάδ ν. Η απόφασή μας να ρησιμοποιήσουμε τον συνδυασμό τ ν δύο τε νικών έ ει να κάνει με τις εξής παρατηρήσεις: ο εμπειρικός κανόνας συ νά δίνει μια κα ή εκτίμηση του π ή ους τ ν συστάδ ν. Δεν είναι όμ ς σπάνιο το φαινόμενο η εκτίμηση αυτή να απέ ει ί ο έ ς πο ύ από το πρα ματικό π ή ος 112

128 Κεφάλαιο Ροή Πληροφορίας σε με ά ο π ή ος δεδομέν ν, το να ρησιμοποιήσουμε απ ά την μέ οδο του α κώνα αρ- ίζοντας από k = 2 συστάδες (η περίπτ ση k = 1 ποτέ δεν αποτε εί ύση) α σήμαινε συ νά πάρα πο ές εκτε έσεις του α ορί μου W-kmeans μιας και τα δεδομένα μας είναι πο ά. Κάτι τέτοιο α ήταν πρακτικά αδύνατο ια ένα σύστημα που έ ει σ ετικά ρή ορα να κατανα ώνει την π ηροφορία που παρά εται στο διαδίκτυο. Ως εκ τούτου κατα ήξαμε στην επι ο ή του να ξεκινάμε με τις μισές συστάδες από αυτές που μας προτείνει ο εμπειρικός κανόνας και συνε ίζοντας αυξητικά να προσπα ήσουμε να εκτιμήσουμε το πρα ματικό π ή ος. Προφανώς η συσταδοποίηση η οποία α δώσει και την οριακή κ ίση στην μεί ση της τιμής RSoS ια τα δεδομένα μας είναι και το αποτέ εσμα που εν τέ ει ψά νουμε Πρό ημα νέου ρήστη Η προσέ ισή μας προκειμένου να αντιμετ πίσουμε το πρό ημα του νέου ρήστη ια το σύστημα προτάσε ν που αναπτύ ηκε, ασίζεται στην ορ άν ση τ ν άρ ρ ν σε συστάδες παρόμοι ν ενδιαφερόντ ν. Με αυτόν τον τρόπο, συμμετρικά, μπορεί κάποιος να ορ ανώσει άρ ρα με άση του ποιος τα έ ει δει και να αντιστοι ίσει έτσι ομάδες άρ ρ ν σε ρήστες. Για παράδει μα, έστ μία ομάδα από άρ ρα τα οποία έ ουν να κάνουν με πο ιτική και πιο συ κεκριμένα, με τον Obama. Ένας ρήστης που έ ει προη ούμενα εκδη ώσει κάποιο ενδιαφέρον προς την ανά ν ση άρ ρ ν σ ετικών με τον Obama ή το δημοκρατικό κόμμα, μπορεί δυνητικά να ενδιαφέρεται ια άρ ρα της παραπάν ομάδας. Η αντίστροφη προσέ ιση είναι επίσης πι ανή: έστ μία ομάδα ρηστών οι οποίοι έ ουν προη ουμέν ς εκφράσει το ενδιαφέρον τους ια αυτό το έμα. Ένα πρόσφατο άρ ρο με ομοιότητες με κάποια από τα άρ ρα που έ ουν προη ουμέν ς δια άσει κάποια από τα μέ η αυτής της ομάδας μπορεί δυνητικά να είναι ενδιαφέροντα και ια τους υπό οιπους ρήστες αυτής της ομάδας. Η παραπάν προσέ ιση υπο έτει ότι αντί να ασιζόμαστε στις αποφάσεις μεμον μέν ν ρηστών, η συστάδα ενσ ματώνει συνο ικά την απαραίτητη π ηροφορία. Δύο ευρύτερα ρησιμοποιούμενες τε νικές ια το παραπάν σενάριο παραδοσιακά είναι η k-nn και οι συσταδοποίηση, ή κάποιος συνδυασμός τ ν δυο αυτών [166] [136]. Όταν ένας νέος ρήστης ε ράφεται στο σύστημα, ακο ου εί μία διαδικασία κατά την οποία το σύστημα προσπα εί, μέσ προ ο ής άρ ρ ν νέ ν προς α μο ό ηση, να εντοπίσει τα ενδιαφέροντα του ρήστη. Η ροή π ηροφορίας ια την διαδικασία ε ραφής παρουσιάζεται στο σ ήμα 13. Όπ ς φαίνεται και στο σ ήμα, όσο ο ρήστης δεν έ ει δώσει αρκετές αξιο ο ήσεις σ ετικά με τα ενδιαφέροντά του, προκειμένου να σύστημα να τον ν ρίσει επαρκώς, η διαδικασία επι ο ής άρ ρ ν και παρουσίασή τους προς αξιο ό ηση συνε ίζεται. Όταν έ ουν συ ε εί του ά ιστον 5 α μο ο ήσεις άρ ρ ν, η διαδικασία ε ραφής (registration - user prompting) στο σύστημα ο οκ ηρώνεται με ένα αρ ικό προφί ρήστη να έ ει διαμορφ εί. Όσον αφορά στον τρόπο επι ο ής τ ν προς παρουσίαση άρ ρ ν στον ρήση ια α μο ό ηση, εστιάζουμε σε μία προσ ποποιημένη με οδο ο ία, παρόμοια με την item by item στρατη ική που περι ράφηκε στην ενότητα Η προσέ ισή μας εκμετα εύεται την συσταδοποίση μέσ του α ορί μου W-kmeans τόσο τ ν άρ ρ ν όσο και τ ν ρηστών του συστήματος, προκειμένου να επι ε ούν τα άρ ρα νέ ν τα οποία πρόκειται να παρουσιαστούν. Στο κεφά αιο 7 αξιο ο ούμε επίσης 113

129 4.3. Ροή Πληροφορίας Κεφάλαιο 4 Σ ήμα 13: Ροή π ηροφορίας κατά την ε ραφή νέου ρήστη και την αποτε εσματικότητα της συ κεκριμένης στρατη ικής σε σύ κριση με τις ασικότερες από τις προαναφερ είσες της ενότητας Κατ αρ άς, επι υμούμε ο συνο ικός αρι μός άρ ρ ν που α παρουσιαστούν στον ρήστη να ε α ιστοποιη εί, ενώ παρά η α να συ έξουμε όσο περισσότερη π ηροφορία ια τον ρήστη μπορούμε. Όπ ς αναφέρ ηκε ήδη, ο κα ορισμός τ ν άρ ρ ν που α παρουσιαστούν κα ώς και η σειρά τους είναι καίριας σημασίας ια την αποτε εσματικότητα της διαδικασίας. Αρ ικά οιπόν, επι έ ουμε προς παρουσίαση άρ ρα με άσει οποιαδήποτε στρατη ική. Παρότι α περιμέναμε η επι ε μένη στρατη ική να παίζει κάποιο ρό ο, αυτό δεν φαίνεται να κάνει κάποια διαφορά, όπ ς δεί ηκε και στο [178]. Ως εκ τούτου, επι έ ουμε άρ ρα τα οποία έρ ονται από τα πιο συ νά αξιο- ο ημένα του συστήματος - εκείνα δη αδή που έ ουν τις περισσότερες, αρι μητικά, αξιο ο ήσεις. Όσο τα άρ ρα που παρουσιάζονται στον ρήστη δεν αξιο ο ούνται, συνε ίζουμε τις προτάσεις άση αυτής της προαναφερ είσας ίστας. Μό ις ο ρήστης α μο ο ήσει ένα άρ ρο, κάνουμε ρήση τ ν δεδομέν ν συσταδοποίησης προκειμένου να εντοπίσουμε και να προτείνουμε στη συνέ εια ά α άρ ρα που: ανήκουν στην ίδια συστάδα άρ ρ ν με αυτό που αξιο ο ή ηκε έ ουν επι ε εί από ρήστες οι οποίοι έ ουν επίσης αξιο ο ήσει το ίδιο άρ ρο με παρόμοιο τρόπο στο παρε όν Η παραπάν διαδικασία συνε ίζεται έ ς ότου αρκετές αξιο ο ήσεις άρ ρ ν έ ουν συ κεντρ εί ια το ρήστη. Με το πέρας της, το αρ ικό προφί ρήστη έ ει δημιουρ η εί και το σύστημα είναι έτοιμο να μπει στην τυπική ειτουρ ία προτάσεών του. 114

130 Κεφάλαιο Ροή Πληροφορίας Προσ ποποίηση στο ρήστη Ακο ου ώντας τις ασικές IR διερ ασίες του μη ανισμού μας, το υποσύστημα προσ ποποίησης και ενικότερα παρα ής προτάσε ν ακο ου εί. Είναι προφανές π ς το υποσύστημα αυτό αποτε εί ένα καίριο τμήμα του συστήματος προτάσε ν που αναπτύ ηκε. Το σύστημα προσ ποποίησης προσαρμόζεται εύκο α στον τε ικό ρήστη, μιας και μικρές α α ές στις προτιμήσεις του, όπ ς εκφράζονται από την συμπεριφορά π οή ησής του εντοπίζονται και προσαρμόζουν συνε ώς το προφί του στο σύστημα. Ο α όρι μος προσ ποποίησης ρησιμοποιεί μία π η ώρα από συσ ετιζόμενες με τον ρήστη π ηροφορίες προκειμένου να φι τράρει τα αποτε έσματα που παρουσιάζονται προς αυτόν. Μεταξύ αυτών, οι ρόνοι που ο ρήστης ξοδεύει δια άζοντας τα άρ ρα ή τις περι ήψεις τους, η συστάδα ρηστών στην οποία ανήκει, κ. α. Επιπ έον, αμ άνει υπόψιν του, με ζυ ισμένο τρόπο, την π ηροφορία η οποία πη άζει από τα προη ούμενα επίπεδα ανά υσης του συστήματος σε σ έση με την κατη οριοποίηση/συσταδοποίηση κα ώς και την συσταδοποίηση άρ ρ ν/ ρηστών. Ο α όρι μος W-kmeans ενισ ύει τα προφί τ ν ρηστών με υπερώνυμα που εξά ονται από το WordNet μέσ ενός ευρετικού τρόπου παρόμοιου με διαδικασία συσταδοποίησης άρ ρ ν νέ ν. Αυτά τα προφί ρηστών, που επί της ουσίας αποτε ούν συστάδες ρηστών, ρησιμοποιούνται στο στάδιο τ ν προτάσε ν προκειμένου να ε τιώσουν την εμπειρία ρήσης του συστήματος με το να παρά ουν αποτε έσματα που ταιριάζουν κα ύτερα στον ρήστη που επισκέπτεται το σύστημα. Ακο ου ώντας την διαδικασία συσταδοποίησης συνεδριών, οι συστάδες που προκύπτουν ονοματίζονται με ρήση της διαδικασίας του WordNet cluster labeling που αναφέρ ηκε και ν ρίτερα. Όταν ένας ρήστης επιστρέφει, το συσταδοποιημένο του προφί ανακτάται από την ΒΔ του συστήματος. Τα άρ ρα που ταιριάζουν στο προφί του εξά ονται και αξιο ο ούνται προς πρόταση. Τα προτεινόμενα άρ ρα δεν α πρέπει να ανήκουν σε εκείνα που έ ει προη ουμέν ς ήδη δει ο ρήστης και επίσης, δεν α πρέπει να ρίσκονται πο ύ κοντά σε άρ ρα που έ ει ο ρήστης αξιο ο ήσει αρνητικά στο παρε όν. Η παραπάν προσέ ιση προσδίδει ουσιαστικά και την φύση συνερ ατικού φι τραρίσματος στο σύστημα προτάσε ν μας, μια και πρακτικά εμπεριέ ει τους συσ ετιζόμενους ρήστες στην διαδικασία ήψης απόφασης ια τις προτάσεις. Αναμένουμε ότι ο συνδυασμός αυτού του είδους της προσέ ισης συνερ ατικού φι τραρίσματος μαζί με την τυπική ειτουρ ία που ασίζεται στο περιε όμενο του κειμένου (εξα ή έξε ν κ ειδιών και n-grams) α ε τιώσει σημαντικά τις προτάσεις που το σύστημα μπορεί να προσφέρει προς τους ρήστες. 115

131

132 ΚΕΦΑΛΑΙΟ 5 ΑΝΑΛΥΣΗ ΚΑΙ ΑΛΓΟΡΙΘΜΙΚΗ ΠΡΟΣΕΓΓΙΣΗ In order to succeed, we must first believe that we can. Nikos Kazantzakis, Greek Writer, 1883 Στο παρόν κεφά αιο ανα ύονται εκτενώς οι α όρι μοι που υ οποιή ηκαν στα π αίσια της διδακτορικής διατρι ής κα ώς και π ς αυτοί ενσ ματώνονται στο σύστημα προτάσε ν. Για κά ε υποσύστημα το οποίο υ οποιή ηκε ή ενισ ύ ηκε κατά την διδακτορική διατρι ή ίνεται εκτενής αναφορά στον α ορι μικό τρόπο ειτουρ ίας του. Οι α όρι μοι αυτοί αξιο ο ούνται μέσ τ ν πειραματικών διαδικασιών που ακο ου ούν στο επόμενο κεφά αιο. Κάποιες σ εδιαστικές αποφάσεις όμ ς, όπ ς επι ο ή παραμέτρ ν ζυ ίσματος αναφέρονται και εδώ. 117

133

134 5.1 Υποσύστημα προεπεξερ ασίας κειμένου Στην παρούσα ενότητα ανα ύουμε τις α α ές που έ ιναν σε ότι έ ει να κάνει με το α ορι μικό κομμάτι του μη ανισμού προεπεξερ ασίας κειμένου του συστήματος προτάσε ν νέ ν. Όπ ς προείπαμε σε προη ούμενα κεφά αια, η προεπεξερ ασία κειμένου έ ει τον ρό ο της αξιο ό ησης τ ν δομικών μονάδ ν του κειμένου (π.. keywords, n-grams) όσον αφορά στην ρησιμότητά τους αποτύπ σης του νοήματος του κειμένου. Το εν ό υποσύστημα, όπ ς περι ράφεται στην μεταπτυ ιακή μου ερ ασία [235], ειτουρ- ούσε μόνο με keywords. Π έον ενισ ύεται με δύο τρόπους: με την εξα ή n-grams από τα άρ ρα νέ ν με την αξιοποίηση της εξ τερικής νώσης τ ν υπερ νύμ ν από το WordNet Από τα παραπάν ανα ύουμε μόνο το πρώτο σε αυτή την ενότητα μιας και το δεύτερο ταιριάζει περισσότερο στην ενότητα συσταδοποίσης όπου και αξιοποιείται μέσ του α ορί μου W-kmeans. Στην συνέ εια, ανα ύουμε επίσης την διαδικασία ζύ ισης τ ν keywords και n-grams από το σύστημά μας Αξιοποίηση n-grams Η διαδικασία εξα ής keywords, κάνοντας ρήση του vector space μοντέ ου, παρά ει τον πίνακα όρ ν-συ νοτήτ ν ο οποίος και περι ράφει κά ε άρ ρο σαν μία BOW αναπαράσταση στις τε νικές IR που ακο ου ούν: κατη οριοποίηση, προσ ποποίηση και συσταδοποποίηση. Όταν οιπόν η διαδικασία εξα ής keywords ο οκ ηρώνει την ειτουρ ία της ια κά ε άρ ρο που έ ει προη ουμέν ς ανακτη εί από το διαδίκτυο, μία ίστα από stemmed keywords (ρίζες έξε ν μόνο) παρά εται και απο ηκεύεται στη ΒΔ. Για παράδει μα, έστ ένα άρ ρο που ανήκει στον τομέα της κοσμο ο ίας (κατη οριοποιημένο ς επιστήμη ) και ια το οποίο το υποσύστημα εξα ής keywords εντοπίζει τα 18 keywords που (ορισμένα από τα οποία) φαίνονται στον πίνακα 1. Από την ίστα με keywords του κειμένου κρατάμε τις ρίζες τ ν ουσιαστικών μόνο, κάτι που φαίνεται στον πίνακα 1. Αυτά ταξινομούνται σε φ ίνουσα κατάταξη με άση την από υτη συ νότητα εμφάνισής τους στο κείμενο. με άση τα παραπάν, κα ώς και τα δεδομένα τ ν keywords ια ό α τα άρ ρα της ΒΔ, μπορούμε εύκο α να ρούμε τα tf-idf άρη ια τα keywords που μας ενδιαφέρουν. Παρά η α με τα εξα όμενα keywords, η προσέ ισή μας επίσης εξά ει τα n-grams τ ν άρ ρ ν, όπου 2 < n <= 6 και με συ νότητα εμφάνισης kw fr > 1. Σε αυτή την περίπτ ση, η συνο ική ομοιότητα είτε μεταξύ δύο άρ ρ ν είτε μεταξύ ενός άρ ρου και μίας κατη ορίας ή συστάδας, δεν απεικονίζεται μόνο σε σ έση με τα tf-idf στατιστικά τ ν keywords α ά και σε σ έση με την αντίστοι η μετρική ια τα n-grams. Για παράδει μα στο ίδιο άρ ρο που αναφέραμε προη ουμέν ς, τα εξα όμενα n-grams μαζί με τις συ νότητες εμφάνισης τους φαίνονται στον πίνακα 2.

135 5.1. Υποσύστημα προεπεξεργασίας κειμένου Κεφάλαιο 5 ID Keyword Συ νότητα 1 year 6 2 cosm 4 3 radiat 4 4 profess 4 5 mass 3 6 intens 3 7 event 3 8 Neuhauser burst 2 Πίνακας 1: Stemmed keywords με τις συ νότητες εμφάνισής τους όπ ς εξά ονται από ένα τυ αίο άρ ρο ID Keyword Συ νότητα 1 light years 4 2 the most 3 3 the past to have 3 5 light years away Professor Neuhauser 2 Πίνακας 2: Τα πιο συ νά εμφανιζόμενα n-grams όπ ς εξά ονται από το ίδιο άρ ρο Από την ίστα με n-grams του πίνακα 2, α μπορούσαμε να συμπεράνουμε ότι κάποια απ αυτά, όπ ς light years away και Professor Neuhauset μπορούν να ε ρη ούν ς κα οί εκπρόσ ποι του νοήματος κα ώς και του συ κεκριμένου πεδίου στο οποίο ανήκει το παραπάν άρ ρο (κοσμο- ο ία). Έτσι ια παράδει μα α μπορούσαμε να πούμε ότι η συστάδα στην οποία ανήκει αυτό το άρ ρο α πρέπει να έ ει αυξημένο το άρος αυτών τ ν n-grams. Αν οιπόν έ ουμε τέτοιους πίνακες π.. ια δύο άρ ρα, μπορούμε εύκο α να υπο ο ίσουμε την συσ έτισή τους ρησιμοποιώντας οποιαδήποτε μετρική ομοιότητας μας ενδιαφέρει, π.. Ευκ είδεια απόσταση στην περίπτ σή μας. Να σημειώσουμε τέ ος ότι δεδομένης της φύσης τ ν n-grams σε σ έση με το νόημά τους και την ρήση τους στην φυσική ώσσα, δεν μπορούμε να α νοήσουμε τα stopwords όπ ς κάνουμε ια παράδει μα στην περίπτ ση εξα ής τ ν keywords ια μεί ση διαστατικότητας. Τα stopwords αποτε ούν δομικό στοι είο τ ν n-grams του κειμένου Ζύ ιση άρ ρ ν Όταν έ ουμε τους παραπάν πίνακες ια κάποιο άρ ρο οιπόν, μπορούμε να υιο ετήσουμε ένα σ ήμα ζυ ίσματος που α αξιοποιεί την π ηροφορία συ νότητας εμφάνισης τόσο τ ν keywords, όσο και τ ν n-grams. Για το άρος του κά ε keyword i, W kwi, ξεκινούμε από την κ ασική tf-idf 120

136 Κεφάλαιο Υποσύστημα προεπεξεργασίας κειμένου μετρική που δίνεται στη σ έση 30, W kwi = tf idf i = freq i log N M i (30) όπου freq i η συ νότητα εμφάνισης του keyword i στο κείμενο, N το συνο ικό π ή ος τ ν άρ ρ ν στη ΒΔ και M i το π ή ος τ ν άρ ρ ν που περιέ ουν το keyword i. Ενισ ύοντας την παραπάν ο ική ζυ ίσματος κά ε άρ ρου, μπορούμε να ανα έσουμε άρη στα n-grams που έ ει το κά ε άρ ρο ρησιμοποιώντας τα αντίστοι α tf-idf στατιστικά. Πιο συ κεκριμένα, ια κά ε n-gram j, το άρος του, W ngj, μπορεί να εκφραστεί από την tf-idf συ νότητά του, την οποία και στο εξής αποκα ούμε gf-idf (gram frequency / inverse document frequency). Το άρος αυτό α μπορούσε να ραφεί όπ ς φαίνεται στη εξίσ ση 31. W ngj = gf idf j = freq j log N M j (31) όπου freq j η συ νότητα εμφάνισης του n-gram j στο κείμενο, N το συνο ικό π ή ος τ ν άρ ρ ν στη ΒΔ και M j το π ή ος τ ν άρ ρ ν που περιέ ουν το n-gram j. Παρό α αυτά, όπ ς ανα ύ ηκε στα π αίσια της μεταπτυ ιακής μου ερ ασίας, το άρος τ ν keywords δεν μπορεί να ασίζεται απ ά και μόνο στην συ νότητα εμφάνισης. Αντί ετα επεκτείνουμε το σ ήμα ζύ ισης ρησιμοποιώντας τις ο ικές υπο έσεις που ακο ου ούν: Συνή ς, ένα keyword που ανήκει στον τίτ ο ενός άρ ρου, είναι πιο σημαντικό μιας και αποτυπώνει περισσότερο νόημα από το κείμενο. Επιπ έον, μιας και η διαδικασία περί ηψης του συστήματός μας ασίζεται στην επι ο ή τ ν πιο σημαντικών προτάσε ν από το ίδιο το κείμενο μέσ του ζυ ίσματος αυτών, τα αποτε έσματα της κατη οριοποίησης μπορούν να είναι οη ητικά στο να προσαρμόσουν πιο αποτε εσματικά το ζύ ισμα τ ν προτάσε ν. Η κοινή ο ική έει ότι ένα keyword που έ ει πο ύ υψη ή συ νότητα εμφάνισης σε μία κατη ορία α δίνει περισσότερο άρος σε ένα κείμενο ή πρόταση ια ένα κείμενο που ν ρίζουμε ότι ανήκει σε αυτή την κατη ορία. Αντίστοι α, ένα keyword με μικρή ή μηδενική συ νότητα εμφάνισης σε μία κατη ορία μπορεί να έ ει ι ότερο άρος ια μία πρόταση. Για μία πιο α ιά ανά υση τ ν παραπάν παραπέμπουμε τον ανα νώστη στο [34]. Έτσι, το άρος (σκορ) μίας πρότασης ή ενός κείμενου a δίνεται από την ευρετική ραμμική σ έση 32: S a = W kwi,a γ i,a (32) i όπου W kwi,a η tf-idf μετρική του keyword i στο κείμενο a, και γ i,a ο παρά οντας ζυ ίσματος κά ε keyword i που εξαρτάται από: την σ ετική συ νότητα εμφάνισης 1 του i στο σώμα του άρ ρου (σε σ έση με τον συνο ικό αρι μό εμφανίσεών του στη ΒΔ) 1 η σ ετική συ νότητα ορίζεται ς το πη ίκο του π ή ους τ ν εμφανίσε ν ς προς το π ή ος ό ν τ ν keywords του κειμένου 121

137 5.1. Υποσύστημα προεπεξεργασίας κειμένου Κεφάλαιο 5 την σ ετική συ νότητα εμφάνισης του i στον τίτ ο του άρ ρου (σε σ έση με τον συνο ικό αρι μό εμφανίσεών του στη ΒΔ) την επίδραση που έ ει η διαδικασία κατη οριοποίησης και η διαδικασία περί ηψης κειμένου Συμπερι αμ άνοντας την π ηροφορία τ ν n-grams, η 32 ίνεται όπ ς η 33: S a = A ( i W kwi,a γ i,a ) + B j W ngj,a (33) όπου W ngj,a η gf-idf μετρική του n-gram j στο κείμενο a, A και B οι παρά οντες ζυ ίσματος τ ν keywords και n-grams αντίστοι α (οι οποίοι και α ανα υ ούν στη συνέ εια). Ο παρά οντας ζυ ίσματος τ ν keywords της σ έσης 33, γ i,a, ια κά ε keyword i, κα ορίζεται όπ ς φαίνεται στην σ έση 34 γ i,a = α F i,body + β F i,title + δ F i,category (34) όπου: α και β είναι οι παρά οντες ζυ ίσματος της σημαντικότητας του keyword i που ανήκει στο σώμα ή στον τίτ ο του άρ ρου αντίστοι α. Στην έρευνά μας: α = 0.1 και β = 0.7 F i,body είναι η σ ετική συ νότητα εμφάνισης του keyword i στο σώμα του άρ ρου F i,title είναι η σ ετική συ νότητα εμφάνισης του keyword i στον τίτ ο του άρ ρου F i,category είναι η σ ετική συ νότητα εμφάνισης του keyword i στην κατη ορία την οποία ν ρίζουμε ότι ανήκει το άρ ρο δ είναι ο παρά οντας ζύ ισης της επίπτ σης που έ ει η κατη οριοποίηση/συσταδοποίηση. Στην έρευνά μας δ = 0.2 Με άση τα παραπάν, η σ έση 34 απ οποιείται στην 35 γ i,a = 0.1 F i,body F i,title F i,category (35) Ζύ ιση keywords ια την συσταδοποίηση Αξιοποιώντας την επιπ έον π ηροφορία που περι ράφηκε ια κά ε keyword, το άρος του keyword i ενός άρ ρου a ίνεται: W kwi = W kwi γ i,a = freq i log N M i γ i,a (36) Η σ έση 36 είναι και αυτή που ρησιμοποιείται από τον α όρι μο συσταδοποίησης προκειμένου να αποδο εί το άρος του κά ε keyword τ ν άρ ρ ν προς συσταδοποίηση ώστε έπειτα να εκτιμη ούν οι συστάδες τ ν άρ ρ ν. 122

138 Κεφάλαιο Υποσύστημα συσταδοποίησης Όπ ς φαίνεται στην σ έση 33 μπορούμε να ε έ ξουμε και να κανονικοποιήσουμε την επίπτ ση που έ ει η ζύ ιση keywords ή n-grams ρησιμοποιώντας μία ραμμική συσ έτιση μεταξύ τους άσει τ ν παραμέτρ ν A και B, έτσι ώστε: W kw i = W kwi A (37) W ng j = W ngj B (38) όπου: A + B = 1 (39) Άρα η σ έση 33 μπορεί να ραφεί με ραμμικό τρόπο ς την ακό ου η σ έση ο οποία και αποτε εί τον πυρήνα του ζυ ίσματος που επιτε εί το σύστημα προεπεξερ ασίας: S a = i W kw i + j W ng j (40) Ο κα ορισμός τ ν αρών A και B στις παραπάν εξισώσεις είναι αποτέ εσμα της πειραματικής διαδικασίας ια το σύνο ο δεδομέν ν που μας ενδιαφέρει. Πειραματικά εντοπίσαμε ότι ια τον τομέα τ ν άρ ρ ν νέ ν που μας ενδιαφέρει, τα κα ύτερα αποτε έσματα ήταν όταν: A = 0.7, B = 0.3 (41) 5.2 Υποσύστημα συσταδοποίησης Στην ενότητα αυτή περι ράφονται οι α όρι μοι που αφορούν την συσταδοποίηση τόσο άρ ρ ν νέ ν όσο και ρηστών του συστήματος προτάσε ν που αναπτύ ηκε Α όρι μος W-kmeans Στον πυρήνα του α όρι μου W-kmeans υπάρ ουν τα τυπικά ήματα του k-means α ορί μου. Προπαρασκευαστικό ήμα όμ ς πριν εφαρμοστεί ο k-means α όρι μος είναι η ενίσ υση της εισόδου (είτε άρ ρα νέ ν, είτε συνεδρίες ρηστών) με υπερώνυμα που εξά ονται από το WordNet. Επομέν ς, σε ένα πο ύ υψη ό επίπεδο α μπορούσαμε να περι ράψουμε τα α ορι μικά ήματα του W-kmeans όπ ς δίνονται στον α όρι μο 2. Η ανά υση αυτών τ ν ημάτ ν ια κά ε περίπτ ση ακο ου εί στα επόμενα. 123

139 5.2. Υποσύστημα συσταδοποίησης Κεφάλαιο 5 Α όρι μος 2: Α όρι μος W-kmeans Είσοδος: articles A, number of clusters, X // η ίστα με τα άρ ρα προς συσταδοποίηση Έξοδος: cluster assignments C, cluster labels L // ίστες με τις συστάδες που προκύπτουν κα ώς και οι ετικέτες τους 1 foreach article a A do 2 keywords = 20% * restore_keywords(a); // κρατάμε μόνο το 20% τ ν συ νότερ ν keywords 3 enriched_keywords = wordnet_enrich(a); 4 total_keywords = keywords + enriched_keywords; 5 ngrams = n_grams_extract(a, 1 < n < X); // εξα ή τ ν n-grams που μας ενδιαφέρουν 6 C[] = kmeans(total_keywords + ngrams); 7 L[] = wordnet_cluster_labeling(c, enriched_keywords); // η ζύ ιση τ ν keywords και n-grams ασίζεται στην εξίσ ση 33 8 return C[], L[] Συσταδοποίηση άρ ρ ν νέ ν Στην παρούσα ενότητα ανα ύουμε την α ορι μική μας προσέ ιση ια την αξιοποίηση της εξ τερικής άσης νώσης WordNet στο σύστημά μας. Όπ ς προείπαμε, το σύστημα WordNet ορ ανώνει διαφορετικές εξικο ο ικές συσ ετίσεις σε ιεραρ ίες. Έτσι, δεδομένου ενός ουσιαστικού, ρήματος, επι έτου και επιρρήματος, το WordNet μπορεί να παρέ ει αποτε έσματα σε σ έση με τα υπερώνυμα, υπώνυμα μερόνυμα και ο όνυμά του. Χρησιμοποιώντας αυτές τις δενδρικές δομές που παρά ονται από το WordNet, μπορούμε να αναζητήσουμε σε αυτό ια ό α τα υπερώνυμα ενός συνό ου έξε ν που μας ενδιαφέρουν και έπειτα να τα ζυ ίσουμε κατά η α, επι έ οντας τε ικά αντιπροσ πευτικά υπερώνυμα που φαίνεται να ενισ ύουν το συνο ικό νόημα του κειμένου Αυτή η διαισ ητική προσέ ιση όμ ς, εξαρτάται αποκ ειστικά από την εξίσ ση ζύ ισης τ ν υπερ νύμ ν που α επι ε εί. Είναι φυσικά σημαντικό η ζύ ιση αυτή να εισά ει νέα νώση σε σ έση με την υπάρ ουσα ίστα από keywords και ό ι να ειροτερεύει τα ήδη υπάρ οντα αποτε έσματα. Τε ικός σκοπός είναι φυσικά η συσταδοποίηση να είναι ι ότερο ασαφής και περισσότερο ακρι ής ς προς τα αποτε έσματα που παρά ει Εξα ή και ζύ ιση υπερ νύμ ν Όσον αφορά την εξα ή υπερ νύμ ν και την πρόσ εση τους στα συνο ικά keywords, η διαδικασία έ ει ς εξής: ια κά ε keyword ενός άρ ρου, παρά ουμε το ράφο/δέντρο υπερ νύμ ν το οποίο κατα ή ει στο υπερώνυμο-ρίζα το οποίο το WordNet ονομάζει ς οντότητα ια τα ουσιαστικά. Στη συνέ εια συνδυάζουμε κά ε ξε ριστό ράφο σε έναν α ροιστικό. Για παράδει μα, 124

140 Κεφάλαιο Υποσύστημα συσταδοποίησης το σ ήμα 14 α ροιστικά απεικονίζει τους ράφους υπερ νύμ ν του WordNet ια τις έξεις: pie, apple και orange. Σ ήμα 14: Α ροιστικό δέντρο υπερ νύμ ν ια τρεις έξεις: pie, apple και orange Β έπουμε έτσι ότι η έξη apple έ ει τρία διαφορετικά μονοπάτια προς τη ρίζα: apple edible fruit fruit... apple edible fruit produce... apple pome fruit... Έ οντας τα παραπάν υπόψιν μας, μπορούμε να αναζητήσουμε στο σύνο ο τ ν υπερ νύμ ν τα κα ύτερα ρησιμοποιώντας μία ευρετική συνάρτηση. Υπάρ ουν πρακτικά δύο παράμετροι τις οποίες πρέπει να ά ουμε υπόψιν ια κά ε υπερώνυμο της παραπάν ανεστραμμένης δενδρικής δομής και οι οποίες κα ορίζουν τη σημαντικότητά του: 1. το ά ος στο δέντρο 2. η συ νότητα εμφάνισης στα διάφορα μονοπάτια από τα φύ α ( αμη ά) ς τη ρίζα (στην κορυφή) Μπορούμε να παρατηρήσουμε ότι όσο πιο ψη ά (δη αδή ι ότερο α ιά όπ ς προ ράμε από την ρίζα προς τα κάτ ) είναι το υπερώνυμο στο ράφο, τόσο πιο ενικό είναι. Όμ ς, όσο πιο αμη ά 125

141 5.2. Υποσύστημα συσταδοποίησης Κεφάλαιο 5 είναι το υπερώνυμο στο ράφο, τόσο ι ότερες πι ανότητες έ ει να εμφανίζεται σε πο ά μονοπάτια (δη αδή η συ νότητα εμφάνισής του είναι μικρή). Να σημειώσουμε επίσης ότι σε περιπτώσεις όπου ένα υπερώνυμο έ ει πο απ ά μονοπάτια που οδη ούν στη ρίζα, το κοντινότερο από αυτά κρατείται ια την μέτρηση του ά ους του στο ράφο. Στην προσέ ισή μας και στα π αίσια του α ορί μου W-kmeans, οι δύο αυτές αντικρουόμενες παράμετροι ζυ ίζονται όπ ς φαίνεται στην συνάρτηση 42. W (d, f) = 1 2 ( e 0.125(d3 f 0.5) (42) ) T W όπου d είναι το ά ος του κόμ ου (μετρώντας από πάν προς τα κάτ στο σ ήμα 14), f είναι η συ νότητα εμφάνισης του υπερ νύμου (κόμ ου) στα πο απ ά μονοπάτια (υπο- ράφοι) και T W είναι το π ή ος τ ν συνο ικών έξε ν που ρησιμοποιή ηκαν ια να παρα εί το δέντρο, δη αδή τα συνο ικά keywords και υπερώνυμα τ ν άρ ρ ν ια την περίπτ ση της συσταδοποίησης άρ ρ ν νέ ν, ή τα συνο ικά keywords και υπερώνυμα τ ν άρ ρ ν τ ν συνεδριών ια την περίπτ ση της συσταδοποίησης ρηστών. Η συνάρτηση 42 είναι σι μοείδης (sigmoid) της ενικής μορφής: όπου: και ζυ ίζεται ς: S(x) = x = d e x (43) f T W (44) S(d, f) = a Sig(d, f) b (45) με a = b = 0.5. Η ραφική αναπαράσταση της συνάρτησης 42 φαίνεται στο σ ήμα 15. Το πόσο απότομη είναι η συνάρτηση 42 κα ορίζεται από τον εκ έτη της άσης του φυσικού ο αρί μου e που έ ει ( στην περίπτ σή μας). Επι έξαμε sigmoid συνάρτηση αφού παρατηρήσαμε το π ς τόσο η συ νότητα όσο και το ά ος τ ν υπερ νύμ ν στο δέντρο επηρεάζουν τα παρα όμενα αποτε έσματα συσταδοποίησης η οποία και περι ράφεται στη συνέ εια. Η σημαντικότητα ( άρος - weight) κά ε υπερ νύμου εμφανίζει μία εξέ ιξη από αμη ή αρ ική τιμή η οποία κορυφώνεται απότομα σε κάποιο σημείο. Για συνδυασμούς ά ους και συ νότητας με υψη ές τιμές, το άρος τ ν υπερ νύμ ν π ησιάζει πο ύ πιο ρή ορα στην μέ ιστη τιμή 1 (μίας και καμία από τις δύο παραμέτρους δεν μπορεί να είναι αρνητική). Αντί ετα ια συνδυασμούς ά ους και συ νότητας με αμη ές τιμές το άρος προσε ίζει ό ο και περισσότερο στην ε ά ιστη τιμή της συνάρτησης, δη αδή W = 1/3. Η ε ά ιστη αυτή τιμή επι έ ηκε προκειμένου κά ε υπερώνυμο που έ ει εν τέ ει συμμετο ή στην διαδικασία ζύ ισης να έ ει κάποια ουσιαστική τιμή που μπορεί να επηρεάσει την ό η διαδικασία. Με ά α ό ια, τιμές πιο κοντά στο μηδέν δεν έ ουν κάποια πρακτική αξία στην διαδικασία ζύ ισης. Ένα keyword που δεν έ ει υπερώνυμα ή που δεν υπάρ ει στο WordNet αφαιρείται τόσο από τον συνο ικό ράφο όσο και από το ά ροισμα TW. Επιπ έον, ένα υπερώνυμο μπορεί να έ ει πο απ ά 126

142 Κεφάλαιο Υποσύστημα συσταδοποίησης Σ ήμα 15: Γραφική αναπαράσταση της sigmoid συνάρτησης 42 που ρησιμοποιείται από τον α - όρι μο W-kmeans 127

143 5.2. Υποσύστημα συσταδοποίησης Κεφάλαιο 5 μονοπάτια προς την ρίζα, όμ ς μετριέται μόνο μία φορά ια κά ε δεδομένο keyword και κρατείται το ε ά ιστο πάντα ά ος. Να σημει εί επίσης ότι το ά ος παίζει αρκετά πιο σημαντικό ρό ο στη διαδικασία ζύ ισης σε σ έση με την συ νότητα εμφάνισης. Η συ νότητα εμφάνισης όμ ς, δρα ό ο και περισσότερο ς επι εκτικός παρά οντας όσο ένα δέντρο επεκτείνεται και περισσότερα keywords με τα υπερώνυμά τους προστί ενται. Κατα ήξαμε στο παραπάν σύστημα ζύ ισης μετά από παρατηρήσεις σε α ροιστικούς ράφους υπερ νύμ ν που περιέ ουν εκατοντάδες κόμ ους και έποντας το ζύ ισμα αυτό κ ιμακώνεται ικανοποιητικά. Έτσι, από το δέντρο του σ ήματος 14 μπορούμε να υπο ο ίσουμε το άρος κά ε υπερ νύμου. Για παράδει μα οι τιμές άρους ια ορισμένα υπερώνυμα φαίνονται στον πίνακα 3 (με T W = 21). Υπερώνυμο Βά ος (d) Συ νότητα (f) Βάρος (W) fruit edible fruit food Πίνακας 3: Βάρος ορισμέν ν υπερ νύμ ν του σ ήματος 14 Οι παραπάν τιμές a και b κα ορίστηκαν πειραματικά ς εξής: ρησιμοποιώντας ένα σύνο ο 1000 προ-κατη οριοποιημέν ν άρ ρ ν νέ ν, προσπα ήσαμε να αξιο ο ήσουμε την αποτε εσματικότητα του προτεινόμενου W-kmeans α ορί μου με το να συσταδοποιήσουμε αυτά τα άρ ρα στο προκα ορισμένο σύνο ο από τις κατη ορίες του συστήματος. Με αυτό το σενάριο, η προσέ ιση συσταδοποίησης α πρέπει να επιτυ άνει συστάδες όσο πιο κοντά ίνεται στις υπάρ ουσες κατη ορίες άρ ρ ν. Προφανώς το π ή ος τ ν συστάδ ν k είναι ίσο με το π ή ος τ ν κατη οριών. Μια με ά η ποικι ία από συνδυασμούς τ ν a και b ρησιμοποιή ηκαν και το κα ύτερο συνο ικά αποτέ εσμα παρατηρή ηκε ια a = b = Α όρι μος ενίσ υσης άρ ρ ν νέ ν με υπερώνυμα Ο α όρι μος ενίσ υσης τ ν άρ ρ ν με ρήση τ ν υπερ νύμ ν του WordNet, όπ ς περι- ράφεται στο 3, ειτουρ εί πάν στα keywords του άρ ρου παρά οντας το ράφο υπερ νύμ ν ια κα ένα ξε ριστά. Χρησιμοποιούμε μόνο το 20% τ ν πιο σημαντικών keywords, μειώνοντας έτσι τη διαστατικότητα και το όρυ ο. Στη συνέ εια, ένας α ροιστικός ράφος παρά εται από τον οποίο το άρος του κά ε υπερ νύμου υπο ο ίζεται άσει της συνάρτησης 42. Οι κόμ οι του ράφου ύστερα ταξινομούνται με άση το άρος τους και η ίστα από τα πιο σημαντικά keywords και υπερώνυμα επιστρέφεται ς η προτεινόμενη ια ενίσ υση του άρ ρου. Προκειμένου να αποφύ ουμε την αύξηση της διαστατικότητας και υπερ ενίκευσης τ ν αποτε εσμάτ ν, αμ άνουμε υπόψιν μας το ένα τέταρτο (25%) από τα συνο ικά keywords και υπερώνυμα που επιστρέφονται από την παραπάν διαδικασία. Παρατηρήσαμε ότι η επι ο ή αυτή παρά ει κα ύτερα αποτε έσματα με ε ά ιστο επιπ έον κόστος στον ρόνο εκτέ εσης. 128

144 Κεφάλαιο Υποσύστημα συσταδοποίησης Α όρι μος 3: Εμπ ουτισμός άρ ρ ν νέ ν με ρήση τ ν υπερ νύμ ν του WordNet Είσοδος: article a // το άρ ρο προς ενίσ υση Έξοδος: enrichedkeywords // ίστα από keywords ενισ υμένα με υπερώνυμα του WordNet 1 total_hypen_tree = NULL; 2 kws = fetch 20% most frequent k/ws for a; 3 foreach keyword kw in kws do 4 htree = wordnet_hypen_tree(kw); // εξα ή του δέντρου υπερ νύμου ια αυτό το keyword 5 foreach hypen h in htree do 6 if (h not in total_hypen_tree) then 7 h.frequency=1; 8 total_hypen_tree ->append(h); 9 else 10 total_hypen_tree ->at(h)->freq++; 11 foreach h in total_hypen_tree do 12 calculate_depth(h); 13 weight = 1/2 ((1/(1 + exp( (h > depth3 h > freq/kws_in_wn > size)))) 0.5)); 14 sort_weights(total_hypen_tree); 15 important_hypens = (kws -> size / 4) * top(total_hypen_tree); 16 return_kws += important_hypens; 17 return return_kws[] Ονοματοδοσία συστάδ ν Προκειμένου να παρα ούν οι προτεινόμενες ετικέτες ια κά ε μία από τις συστάδες που προκύπτουν (είτε συστάδες άρ ρ ν νέ ν, είτε συστάδες συνεδριών ρηστών), κάνουμε επίσης ρήση τ ν υπερ νύμ ν του WordNet. Τα ήματα που ακο ου ούνται παρουσιάζονται στον α όρι μο

145 5.3. Προσωποποίηση στο χρήστη Κεφάλαιο 5 Α όρι μος 4: Ονοματοδοσία συστάδ ν με ρήση τ ν υπερ νύμ ν του WordNet Είσοδος: clusters C Έξοδος: cluster labels L 1 total_hypen_tree = NULL; 2 foreach cluster c C do 3 kws += fetch 10% most frequent k/ws for c; 4 foreach keyword kw kws do 5 hypens_tree = wordnet_hypen_tree(kw); 6 foreach hypen h in hypens_tree do 7 if h not in total_hypen_tree then 8 h.frequency = 1; 9 total_hypen_tree->append_child(h); 10 else 11 total_hypen_tree->at(h)->frequency++; 12 foreach hypen h in total_hypen_tree do 13 calculate_depth(h); 14 sort_weights(total_hypen_tree); 15 cluster_labels[]-> append(5 top(total_hypen_tree)); 16 return cluster_labels[] Η διαδικασία ονοματοδοσίας ειτουρ εί πάν σε κά ε συστάδα ανακτώντας αρ ικά μόνο το 10% τ ν πιο σημαντικών keywords που ανήκουν στη συστάδα. Η με έτη σε άρ ρα νέ ν που υπάρ ουν στο σύστημά μας έδειξε ότι το παραπάν ποσοστό είναι αρκετό προκειμένου η διαδικασία να παράξει ετικέτες υψη ού επιπέδου και ρίς την εισα ή ορύ ου. Για κά ε συστάδα οιπόν, ανακτούμε και α ροίζουμε το δέντρο υπερ νύμ ν του WordNet σε μία διαδικασία παρόμοια με αυτή του σ ήματος 14. Οι κόμ οι που προκύπτουν ζυ ίζονται άσει της συνάρτησης 42, ταξινομούνται και τε ικά τα 5 σημαντικότερα υπερώνυμα επιστρέφονται ς ετικέτες της συστάδας. Μιας και πρόκειται ουσιαστικά ια ανά εση ετικετών (tagging) ε ρούμε ότι 5 ετικέτες είναι αρκετές ια να κα ύψουν με συντομία το περιε όμενο τ ν εκάστοτε συστάδ ν. 5.3 Προσ ποποίηση στο ρήστη Η προσέ ιση που προτείνεται ια την προσ ποποίηση στον ρήστη αποτε είται από τρία ασικά α ορι μικά τμήματα που ρησιμοποιούνται ια: 1. την offline διαδικασία εντοπισμού τ ν συνεδριών ρηστών, όπ ς αυτοί αξιοποιούν την π ηροφορία που παρέ ει το σύστημα προτάσε ν 2. την offline διαδικασία συσταδοποίησης τ ν εντοπισμέν ν συνεδριών 130

146 Κεφάλαιο Προσωποποίηση στο χρήστη 3. την online διαδικασία παρα ής προτάσε ν άρ ρ ν νέ ν από το σύστημα ασιζόμενοι σε π η ώρα π ηροφοριών Τα α ορι μικά ήματα ια τις παραπάν διαδικασίες δίνονται στη συνέ εια Εύρεση συνεδρί ν ρηστών Ο εντοπισμός τ ν συνεδριών μέσα στο ιστορικό π οή ησης ενός ρήστη επιτυ άνεται ακο- ου ώντας τα ήματα που περι ράφονται στον α όρι μο 5. Ο εν ό α όρι μος ρησιμοποιεί δύο σημαντικές τιμές κατ φ ίου: 1. το κατώφ ι προ ο ής, δη αδή τον ε ά ιστο ρόνο που ο ρήστης αναμένεται να ξοδέψει σε ένα άρ ρο που τον ενδιαφέρει 2. το κατώφ ι συνεδρίας, δη αδή τον μέ ιστο ρόνο τον οποίο κατά μέσο όρο ξοδεύει ο ρήστης π οη ημένος συνε όμενα σε άρ ρα νέ ν - αξιοποιώντας επομέν ς την π ηροφορία που του παρέ ει το σύστημα Για τον κα ορισμό τ ν παραπάν τιμών, ανα ύσαμε τις συνή ειες π οή ησης τ ν ρηστών που ρησιμοποιούσαν το σύστημα προτάσε ν. Κατά την ανά υση παρατηρή ηκε ότι, κατά μέσο όρο, ένα άρ ρο νέου α δια αζόταν ια ό ι ι ότερο από 30 δευτερό επτα από τους ρήστες αφού το έ ουν επι έξει πρώτα προς ανά ν ση και άρα αποτε εί ένα ενδιαφέρον άρ ρο ια αυτούς. Να σημει εί παρό α αυτά ότι αυτό το κατώφ ι πρα ματικά εξαρτάται από το μέ ε ος του άρ ρου και η παραπάν τιμή αποτε εί απ ά έναν οδη ό (μέσος όρος) ασιζόμενοι στην ανά υση που έ ινε ια το συ κεκριμένο σύνο ο δεδομέν ν. Παρά η α, από τα ίδια δεδομένα π οή ησης παρατηρή ηκε ότι ένας ρήστης, στις περισσότερες τ ν περιπτώσε ν, δεν ξοδεύει πάν από 10 επτά συνε όμενα δια άζοντας άρ ρα στο σύστημα προτάσε ν προτού απο ρήσει από το σύστημα. Είναι αυτή η συνε ής ροή από άρ ρα νέ ν κατά μία τέτοια περίοδο ρήσης που πρα ματικά μας ενδιαφέρει προκειμένου να αποτυπ εί σ στά το προφί του ρήστη. Η έξοδος του α ορί μου 5 είναι μία ίστα από συνεδρίες ια κά ε ρήστη η οποία και απο ηκεύεται στη ΒΔ ια περαιτέρ ρήση. 131

147 5.3. Προσωποποίηση στο χρήστη Κεφάλαιο 5 Α όρι μος 5: Εύρεση συνεδριών στα μονοπάτια π οή ησης τ ν ρηστών Είσοδος: history/* το παρά υρο ρόνου που ρησιμοποιείται ια εξα ή συνεδριών ρήστη */ Έξοδος: Sessions[]// οι εντοπισμένες συνεδρίες 1 viewing_threshold = 30 // του ά ιστον 30 δευτερό επτα 2 session_threshold = 10 * 60 // το πο ύ 10 επτά 3 previous_user = NULL; 4 current_session = NULL; 5 while (fetch from DB (user, viewed article, timestamp, viewing_time)) do 6 if (viewing_time < viewing_threshold timestamp < history) then 7 continue; 8 if (current_session.username!= user) then /* μιας και αυτό είναι ταξινομημένο ς προς το username, όταν ένας νέος ρήστης ρε εί, τότε αρ ίζει και μία νέα συνεδρία */ 9 if (current_session.username!= && current_session.articles!= ) then 10 Sessions[]+=current_session; 11 current_session.username = user; 12 current_session.user_id = user_id; 13 current_session.start = timestamp; 14 current_session.articles.add(article_id); 15 else /* εάν ο ρήστης είναι ο ίδιος με πριν, α ά ο ρόνος προσπέ ασης ια αυτό το άρ ρο ξεπερνά το όριο, μία νέα συνεδρία αρ ίζει */ 16 if (timestamp current_session.start) > session_threshold ) then 17 if (current_session.username!= && current_session.articles=!empty) then 18 Sessions[]+=current_session; 19 current_session.username = user; 20 current_session.user_id = user_id; 21 current_session.start = timestamp; 22 current_session.end = timestamp; 23 current_session.articles.add(article_id); 24 else // ο ρόνος προσπέ ασης ια αυτό το άρ ρο δεν ξεπερνά το όριο 25 current_session.articles.add(article_id); 26 current_session.end = timestamp; 27 return Sessions[] 132

148 Κεφάλαιο Προσωποποίηση στο χρήστη Συσταδοποίηση Χρηστών με ρήση του W-kmeans Όταν οι συνεδρίες ρηστών έ ουν εξα εί, ια κά ε μία από αυτές, μπορούμε να προσ έσουμε τα άρ ρα νέ ν που την απαρτίζουν σε μία ίστα. Στο επόμενο ήμα, εμπ ουτίζουμε τα keywords που αποτε ούν τα άρ ρα νέ ν της συνεδρίας ρησιμοποιώντας υπερώνυμα από την εξ τερική άση νώσης WordNet και στη συνέ εια προ ρούμε στην συσταδοποίηση τ ν συνεδριών, εμμέσ ς επομέν ς και τ ν ρηστών. Α όρι μος 6: Συσταδοποίηση συνεδριών ρηστών με ρήση του α ορί μου W-kmeans Είσοδος: sessions, number of clusters Έξοδος: session to cluster assignments[]// οι συστάδες τ ν συνεδριών 1 foreach s in sessions do 2 foreach article a belonging to s do 3 s.kws += fetch 20% most frequent k/ws for a; 4 wordnet_enrich(s) // δες τον α όρι μο 3 5 clusters[] = kmeans(sessions); 6 return clusters[] Όσον αφορά την εξα ή υπερ νύμ ν και την πρόσ εση τους στα συνο ικά keywords, η διαδικασία είναι παρόμοια με εκείνη που περι ράφηκε ια τα άρ ρα νέ ν στην ενότητα , μόνο που τώρα το α ροιστικό δέντρο αποτε είται από keywords και τα υπερώνυμά τους που απαρτίζουν τα άρ ρα τ ν συνεδριών ρηστών προς συσταδοποίηση. Επίσης, ο τρόπος ζύ ισης τ ν εξα όμεν ν υπερ νύμ ν είναι ίδιος με την περίπτ ση της συσταδοποίησης άρ ρ ν νέ ν όπ ς παρουσιάστηκε στη σ έση 42. Τα παραπάν ήματα συνοψίζονται στους α ορί μους 6 και 7. Η διαδικασία συσταδοποίησης τ ν συνεδριών τ ν ρηστών τρέ ει διαρκώς στο σύστημα και επομέν ς οι συνεδρίες που προκύπτουν συσταδοποιούνται παραπάν από μία φορά σε διαφορετικά περάσματα συσταδοποίησης. Ύστερα από αυτό, ια να αποφαν ούμε ποια συστάδα συνεδριών α συσ ετίσουμε με έναν συ κεκριμένο ρήστη, ρησιμοποιούμε μόνο αυτές που προέκυψαν από τα πιο πρόσφατα περάσματα συσταδοποίησης. Παρά τις όποιες ομοιότητες που μπορεί να έ ει η παραπάν προσέ ιση με αυτή του fuzzy clustering, δεν πρέπει να συ έεται μίας και αποτε εί κάτι το διαφορετικό αφού σε κά ε πέρασμα συσταδοποίησης η κά ε συνεδρία εξακο ου εί να ανήκει σε μία και μόνο συστάδα. 133

149 5.3. Προσωποποίηση στο χρήστη Κεφάλαιο 5 Α όρι μος WordNet Είσοδος: session s // η συνεδρία προς ενίσ υση Έξοδος: enrichedsession 7: Εμπ ουτισμός συνεδριών ρηστών με ρήση τ ν υπερ νύμ ν του // συνεδρία ενισ υμέν ν keywords με υπερώνυμα του WordNet 1 total_hypen_tree = NULL; 2 kws = fetch 20% most frequent k/ws for s; 3 foreach keyword kw in kws do 4 htree = wordnet_hypen_tree(kw); // εξα ή του δέντρου υπερ νύμου ια αυτό το keyword 5 foreach hypen h in htree do 6 if (h not in total_hypen_tree) then 7 h.frequency=1; 8 total_hypen_tree ->append(h); 9 else 10 total_hypen_tree ->at(h)->freq++; 11 foreach h in total_hypen_tree do 12 calculate_depth(h); 13 weight = 12 * ((1(1 + exp( * (h->depth 3 * h->freq kws_in_wn->size)))) - 0.5)); 14 sort_weights(total_hypen_tree); 15 important_hypens = (kws -> size 4) * top(total_hypen_tree); 16 return_kws += important_hypens return return kws[] Έ οντας τα αποτε έσματα της συσταδοποίησης συνεδριών ρηστών προ ρήσαμε σε ένα πρώτο επίπεδο παρά ης προτάσε ν ια τον ρήστη. Το επίπεδο αυτό δεν αποτε εί το τε ικό του συστήματος προτάσε ν, κάτι που α περι ραφεί σε επόμενη ενότητα. Πιο συ κεκριμένα οιπόν, όταν ο ρήστης επιστρέφει στο σύστημα, η συστάδα του, με άση τις τε ευταίες συνεδρίες του, είναι ήδη ν στή. Μπορούμε επομέν ς να υπο έσουμε ότι επι ο ές που έ ουν ίνει από ά ους ρήστες της ίδιας συστάδας είναι πο ύ πι ανό να τον ενδιαφέρουν. Βασιζόμενοι σε αυτή την απ ή παραδο ή (που δεν αποτε εί την ο οκ ηρ μένη προσέ ιση του μη ανισμού παρα ής προτάσε ν ο οποίος ανα ύεται στα επόμενα), μπορούμε να επι έξουμε άρ ρα προς πρόταση με ρήση τ ν ημάτ ν που περι ράφονται στον α όρι μο 8. Γενικά, σε αυτή την φάση κρατούσαμε 10 από τα πιο συ νά εμφανιζόμενα άρ ρα στις επι ο ές ά ν ρηστών της 134

150 Κεφάλαιο Προσωποποίηση στο χρήστη συστάδας του ρήστη. Α όρι μος 8: Παρα ή προτάσε ν άρ ρ ν νέ ν ασιζόμενοι (μόνο) στην συσταδοποίηση ρηστών Είσοδος: user u, cluster c // ο ρήστης και η συστάδα που ανήκει Έξοδος: suggestions // προτάσεις άρ ρ ν νέ ν ασιζόμενοι στην π ηροφορία συσταδοποίησης ρηστών 1 suggestions [] = NULL; 2 num_sug = 10; // π ή ος προτάσε ν προς παρα ή 3 sessions = recover_user_clustering_info(u, c); // ανάκτηση π ηροφορίας συσταδοποίησης ρηστών από τη ΒΔ 4 foreach s in sessions do // ια τους ρήστες που ανήκουν στην ίδια συστάδα 5 foreach article a in s do // εντοπισμός άρ ρ ν με την με α ύτερη συ νότητα εμφάνισης στη συστάδα 6 if freq(a) > min(freq(suggestions)) then 7 suggestions [] += article; 8 return suggestions Προφί ρηστών και προσ ποποίηση με ρήση συσταδοποίησης Δεδομένου ενός ρήστη u και ενός συνό ου από άρ ρα νέ ν R στα οποία ο u έδ σε, είτε άμεσα είτε έμμεσα, ετική ή αρνητική ανατροφοδότηση (feedback) σε σ έση με το πόσο τον ενδιαφέρουν ή ό ι, ένα προφί ρήστη U p διατηρείται στο σύστημα προτάσε ν. Το U p είναι ένα σύνο ο από keywords, το οποίο ανα ύεται σε δύο μέρη: το ετικό μέρος U p + ετικά από τον u το οποίο αποτε είται από keywords άρ ρ ν νέ ν που αξιο ο ή ηκαν το αρνητικό μέρος Up αρνητικά από τον u το οποίο αποτε είται από keywords άρ ρ ν νέ ν που αξιο ο ή ηκαν Επιπ έον, κά ε keyword ζυ ίζεται με άρος W kwi το οποίο εξαρτάται από την ικανότητά του να αντιπροσ πεύσει την ετική ή αρνητική προτίμηση του u. Πιο τυπικά: U p = {U p + Up } (46) με: U + p = { kw i }, i = 1 q όπου q R (47) 135

151 5.3. Προσωποποίηση στο χρήστη Κεφάλαιο 5 Up = { kw j }, j = 1 m όπου m R (48) όπου: kw i το ετικό keyword που εξέταση, kw j το αρνητικό keyword που εξέταση. Τα ήματα που ακο ου ούνται από την διαδικασία προσ ποποίησης προκειμένου να ποσοτικοποιη εί η σ έση 46, παρουσιάζονται στον α όρι μο 9. Όταν ένας νέος ρήστης ε ράφεται στο σύστημα, δη ώνει (έμμεσα) τις προτιμήσεις του (με τον τρόπο που περι ράφεται στην ενότητα 5.4). Στην συνέ εια, και ια κά ε επίσκεψη του ρήστη, ο μη ανισμός προσ ποποίησης διατηρεί τις προαναφερ είσες ίστες από ετικά και αρνητικά keywords προσ αφαιρώντας στοι εία με κατά η ο τρόπο ώστε αυτές να ανταποκρίνονται στις πιο πρόσφατες επι ο ές του ρήστη. με άση αυτές τις ίστες μπορούμε έπειτα να προσ ποποιήσουμε τα άρ ρα νέ ν και περι ήψεις που εν τέ ει προτείνονται από το σύστημα. Η διαδικασία ενημέρ σης του προφί ρήστη που περι ράφεται στον α όρι μο 9, τρέ οντας διαρκώς σε κά ε επίσκεψη ρήστη, αμ άνει υπ όψιν του τις ακό ου ες παραμέτρους: (αʹ) τα άρ ρα τα οποία ο ρήστης έ ει επι έξει να δια άσει ( ʹ) τον ρόνο που ο ρήστης ξοδεύει δια άζοντας την περί ηψη ή το π ήρες κείμενο ενός άρ ρου ( ʹ) τα άρ ρα που ο ρήστης αποφεύ ει να δια άσει (είτε την περί ηψη ή το π ήρες κείμενο ενός άρ ρου) Τα παραπάν πη άζουν από τις εξής ο ικές υπο έσεις: ένας ρήστης μά ον α ξοδέψει ένα ρονικό διάστημα από ένα συ κεκριμένο όριο και πάν δια άζοντας το π ήρες κείμενο ή την περί ηψη ενός άρ ρου που τον ενδιαφέρει (παρά οντας α στον α όρι μο 9). Τα κάτ όρια αυτά ορίζονται ς: Rar thr1 και Rsum thr1 αντιστοί ς. παρό α αυτά, ένα πάν όριο Rar thr2 και Rsum thr2 α πρέπει να τε εί ια τα παραπάν μιας και δεν έ ουμε ο μη ανισμός μας αν ασμένα να ά ει υπόψιν άρ ρα που έ ει ξε άσει ο ρήστης ανοι τά, συ έοντας τα έτσι με ενδιαφέροντα. Θέτουμε τα παραπάν όρια σε ότι έ ει να κάνει με την ανά ν ση π ήρους άρ ρου σε επτά: Rar thr1 = 1/2 (49) Rar thr2 = 3 (50) αντίστοι α, κα ορίζοντας έτσι το αρ ικό σύνο ο από keywords άρ ρ ν που α πρέπει να συμπερι ηφ ούν στην ετική ίστα με keywords του ρήστη. Κατα ήξαμε στις τιμές αυτές ια τα παραπάν όρια μετά από με έτη τ ν επι ο ών τ ν ρηστών στη ΒΔ του συστήματος: στις περισσότερες τ ν περιπτώσε ν, όταν ένας ρήστης ξόδευε ρόνο ανάμεσα στα παραπάν όρια δια άζοντας το π ήρες άρ ρο, α δρούσε σε σ έση με αυτό το άρ ρο, π.. ακο ου ώντας το σύνδεσμο προς την πη ή του άρ ρου ή δια άζοντας άρ ρα σ ετικά με αυτό. 136

152 Κεφάλαιο Προσωποποίηση στο χρήστη Τα όρια προ ο ής περί ηψης άρ ρ ν είναι πιο δυναμικά σε σ έση με εκείνα του π ήρους άρ ρου και υπο ο ίζονται ς: Rsum thr1 = Rar thr1 S ratio (51) Rsum thr2 = Rar thr2 S ratio (52) όπου το S ratio εκφράζει το ποσοστό συμπίεσης επί του συνο ικού κειμένου που επιτυ άνει η περί ηψη του εκάστοτε κειμένου: S ratio = #words(summary) #words(f ulltext) (53) με άση τα παραπάν όρια οιπόν, μπορούμε να αποφαν ούμε αν κάποιο άρ ρο του οποίου το π ήρες κείμενο ή την περί ηψη επέ εξε προς ανά ν ση ο ρήστης, είναι ενδιαφέρον ή ό ι ια τον ίδιο, αρ ικοποιώντας έτσι τις προαναφερ είσες ίστες από keywords ( ετική και αρνητική). Έτσι α έ αμε π ς, στις περισσότερες τ ν περιπτώσε ν, είναι αναμενόμενο ένας ρήστης να επι έξει να δια άσει άρ ρα από ένα έμα που ρίσκει ε κυστικό (παρά οντας b στον α όρι μο 9) όπ ς αυτό διαφημίζεται από τον τίτ ο ή την περί ηψή του. Επιπ έον, ένας ρήστης μά ον α αποφύ ει να δια άζει άρ ρα που δεν του άρεσαν στο παρε όν ή ενικά τα ρίσκει μη ενδιαφέροντα και έτσι, σε αυτή την περίπτ ση, τα keywords που αναπαριστούν αυτά τα άρ ρα α πρέπει να αμ άνουν μει μένο ή αρνητικό άρος (παρά οντας c στον α όρι μο 9). Εκτός από την παραπάν αρ ική αποτύπ ση τ ν προτιμήσε ν τ ν ρηστών, μπορούμε να αντ ήσουμε αρκετά περισσότερη π ηροφορία με άση τα δεδομένα που υπάρ ουν ήδη στο σύστημα. Έτσι, επιπ έον τ ν παραπάν παρα όντ ν (a-c) του α ορί μου 9, ν ρίζοντας ήδη την συστάδα στην οποία ανήκει ο ρήστης, μπορούμε να αξιοποιήσουμε και αυτή την π ηροφορία. Πιο συ κεκριμένα, από την συστάδα στην οποία ανήκει ο ρήστης, μπορούμε να εξά ουμε ίστες από keywords που ανήκουν σε άρ ρα που πρόσφατα έ ουν επισκεφ εί αρκετοί ά οι ρήστες της συστάδας (του ά ιστον 20% τ ν ρηστών), προκειμένου να ενισ ύσουμε την ίστα με τα ετικά keywords. Για αυτά τα άρ ρα, κρατάμε τα 5 από τα πιο σημαντικά keywords ή υπερώνυμα τα οποία έ ουν εξα εί προη ουμέν ς από το WordNet. Το ευρετικό αυτό, το οποίο αξιοποιεί τα αποτε έσματα της συσταδοποίησης ρηστών, αναφέρεται ς παρά οντας d στον α όρι μο 9. Με ρήση τ ν παραπάν παρα όντ ν, δημιουρ ούνται δύο ίστες από keywords, μία ετική και μία αρνητική, τις οποίες ο α όρι μος προσ ποποίησης αμ άνει υπόψιν του ια τις αποφάσεις του. Οι ίστες αυτές εμπεριέ ουν: keywords προς τα οποία ο ρήστης έ ει εκφράσει ετική ή αρνητική προτίμηση στο παρε όν keywords από παρόμοια ενδιαφέροντα τ ν ρηστών της ίδιας συστάδας Η παράμετρος που κατα ράφει την προτίμηση του ρήστη ια ένα keyword i με άση τους προαναφερόμενους παρά οντες a-d είναι η U i και ασίζεται στις σ ετικές συ νότητες τ ν keywords στις ίστες, συ νότητες που συνε ώς μετα ά ονται κα ώς αποτυπώνουν ό ο και κα ύτερα τις 137

153 5.3. Προσωποποίηση στο χρήστη Κεφάλαιο 5 επι ο ές του ρήστη. Η U i δίνεται από την εξίσ ση 54. U i = rel(fr(i)) (1 + T i ) (54) όπου rel(fr(i)) είναι η σ ετική συ νότητα του i στην ετική ή αρνητική ίστα, δη αδή το άρος του, T i είναι ο κανονικοποιημένος συνο ικός ρόνος που ξόδεψε ο ρήστης στο i, αν αυτό ανήκει στην ετική ίστα. Αν αντί ετα το keyword ανήκει στην αρνητική ίστα, τότε T i = 0 μίας και κα ό ου ρόνος δεν ξοδεύτηκε από τον ρήστη ια τα εκάστοτε keywords που ανήκουν σε αυτή τη ίστα. Για την περίπτ ση που ένα keyword προέρ εται από την διαδικασία συσταδοποίησης ρηστών, και επομέν ς δεν έ ει κάποια ρητή συσ έτιση με τον ρήστη (είτε ετική είτε αρνητική), ια το T i κρατάμε τον μέσο όρο του ρόνου που οι ρήστες οι οποίοι ανήκουν στην συστάδα του ρήστη ξόδεψαν στο άρ ρο από το οποίο προέρ εται αυτό το keyword. Επιπ έον, αναμένουμε ότι όταν το προφί ρήστη φτάνει σε μία στα ερή κατάσταση ύστερα από αρκετές επι ο ές του ρήστη, οι μέσοι ρόνοι τ ν προτιμήσε ν ς προς τα keywords α είναι σ στοί, απεικονίζοντας επομέν ς τις ο ικές προτιμήσεις του ρήστη. Ο συνο ικός παρά οντας προσ ποποίησης οιπόν ια κά ε keyword i, U pi είναι: U pi = B U i (55) όπου ια την παράμετρο Β: > 1 όταν το keyword ανήκει στην ετική ίστα < 1 όταν το keyword ανήκει στην αρνητική ίστα Η από υτη τιμή της παραμέτρου Β μπορεί να πάρει όποια τιμή επι υμούμε, αυξάνοντας ή μειώνοντας έτσι την επίπτ ση που έ ει η προσ ποποίηση και η δυναμική παρα ή προφί στην διαδικασία ζύ ισης προτάσε ν. Επομέν ς, το U pi μπορεί να είναι ετικό, αρνητικό ή και μηδέν αν δεν υπάρ ει π ηροφορία ια την προτίμηση του ρήστη προς το συ κεκριμένο keyword. Έ οντας υπο ο ίσει το άρος του κά ε keyword i προς τον ρήστη U i, εξά ουμε τα υποψήφια άρ ρα ια τα οποία η ο ική έει ότι α περι αμ άνουν πο ά από τα ετικά και κα ό ου ή ί α από τα αρνητικά keywords. Πιο συ κεκριμένα, ια κά ε άρ ρο a, κρατούμε το α ε ρικό ά ροισμα τ ν προτιμήσε ν του ρήστη ς προς τα keywords του a, το οποίο και αποκα ούμε U pa : U pa = i U pi (56) Τα άρ ρα έπειτα ταξινομούνται σε φ ίνουσα κατάταξη με άση το ο ικό άρος τους (U pa ) και η ίστα δίνεται ς αποτέ εσμα του συστήματος προτάσε ν. 138

154 Κεφάλαιο Προσωποποίηση στο χρήστη Α όρι μος 9: Α όρι μος προσ ποποίησης που ενσ ματώνει την π ηροφορία ανάδρασης από τον ρήστη Συνάρτηση update_profile Είσοδος: a, b, c, d // μετα ητές ζύ ισης τ ν διαφόρ ν επι ο ών ρήστη Έξοδος: updated user profile // το ενημερ μένο προφί ρήστη 1 get_articles(a,b,d) // ανάκτηση άρ ρ ν από την ΒΔ άσει τ ν παραμέτρ ν a,b,d 2 foreach article do 3 if (full article) then 4 if (time_viewed > Rar_thr1 && time_viewed < Rar_thr2) then 5 Keywords_positive = top 5 frequent keywords; 6 update_list(positive, Keywords_positive); 7 else 8 if (time_viewed> Rsum_thr1 && time_viewed < Rsum_thr2) then 9 Keywords_positive = top 5 frequent keywords; 10 update_list(positive, Keywords_positive); 11 get_articles(c) // ια την παράμετρο c 12 foreach article do 13 Keywords_negative = top 5 frequent keywords; 14 update_list(negative, Keywords_negative); Συνάρτηση get_article Είσοδος: lists // ανά περίπτ ση a,b ή c ή d (δες στη συνέ εια) Έξοδος: Articles // τα ανακτημένα άρ ρα από τη ΒΔ άσει της εισόδου /* 1) τα άρ ρα στα οποία έ ει π οη η εί ο ρήστης κα ώς και το πόσο ρόνο ξόδεψε δια άζοντας το π ήρες άρ ρο ή την περί ηψή του (περίπτ ση εισόδου a,b) */ /* 2) τα άρ ρα με αρνητική προτίμηση (περίπτ ση εισόδου c) */ /* 3) τα πιο συ νά ανα ν σμένα άρ ρα από τους ρήστες της συστάδας ενός ρήστη (περίπτ ση εισόδου d) */ 15 return Articles Συνάρτηση update_list Είσοδος: list, keywords // keywords και η ίστα προς ενημέρ ση /* προσ έτει τα δεδομένα keywords στην ίστα που ορίζεται */ 16 foreach (keyword in keywords) do 17 if (keyword not in list[]) then 18 list.add(keywords[keyword]) 19 else 20 list.update_freq(keywords[keyword]) 139

155 5.4. Πρόβλημα νέου χρήστη Κεφάλαιο Πρό ημα νέου ρήστη Στην παρούσα ενότητα α περι ράψουμε τα διάφορα α ορι μικά ήματα που ακο ου ούνται προκειμένου το σύστημα προτάσε ν που αναπτύ ηκε να μπορεί να αντιμετ πίσει το πρό ημα του νέου ρήστη. Ο τρόπος που επι έξαμε να αντιμετ πίσουμε το εν ό πρό ημα ήταν μέσ της τε νικής τ ν προτάσε ν αντικειμέν ν ια αξιο ό ηση από τον νέο ρήστη (user prompting). Ο α όρι μος 10 παρουσιάζει την διαδικασία επι ο ής άρ ρ ν νέ ν προς συ ο ή τ ν πι- ανών α μο ο ήσεών τους από τον ρήστη ο οποίος έρ εται ια πρώτη φορά στο σύστημα. Τα συ κεκριμένα α ορι μικά ήματα εκτε ούνται κατά την διάρκεια ε ραφής ενός νέου ρήστη. Επίσης, ο α όρι μος 12 απαρι μεί τα ήματα τα οποία ρησιμοποιούνται ια την ανάκτηση άρ ρ ν ασιζόμενοι είτε στην συσταδοποίηση άρ ρ ν νέ ν είτε στη συσταδοποίηση ρηστών. Παρότι οι συναρτήσεις αυτές δεν παρουσιάζονται σε με ά η τε νική επτομέρεια, η ειτουρ ία τους α πρέπει να είναι εύκο α κατανοητή από τον ανα νώστη. Για την επι ο ή τ ν άρ ρ ν προς παρουσίαση στο ρήστη προκειμένου να ά ουμε κάποιες αξιο ο ήσεις, κάνουμε ρήση της προσ ποποιημένης στοι είο προς στοι είο (item by item) στρατη ικής που αναφέρ ηκε και στην ενότητα η οποία είναι παρόμοια με εκείνη που ρησιμοποιείται στο [178]. Αρ ικά, όταν ένας ρήστης ε ράφεται στο σύστημα και μπαίνει στην διαδικασία προ ο ής προτάσε ν, του παρουσιάζουμε άρ ρα από την ίστα με τα πιο δημοφι ή όπ ς κατα ράφονται στη ΒΔ από τις επι ο ές ά ν ρηστών. Έστ L 1 η ίστα αυτή. Η παρουσίαση τ ν άρ ρ ν από την L 1 συνε ίζεται έ ς ότου ένα άρ ρο, έστ A 1, αξιο ο η εί από τον ρήστη με σκορ S 1. Χρησιμοποιούμε αυτή την π ηροφορία προκειμένου να κα ορίσουμε την συστάδα στην οποία ανήκει αυτό το άρ ρο. Έπειτα, μπορούμε να προτείνουμε ια αξιο ό ηση προς τον ρήστη M από τα πιο συ νά αξιο ο ημένα άρ ρα από αυτή τη συστάδα, τα οποία και διαμορφώνουν την ίστα L 2 Η L 2 επομέν ς περιέ ει άρ ρα ασισμένα στην π ηροφορία συσταδοποίησης που έρ εται από τη ΒΔ. Η επι ο ή της κατά η ης τιμής ια το M είναι αποτέ εσμα πειραματισμού μιας και υπάρ ει ένα συ κεκριμένο trade-off. Με ά ες τιμές M δίνουν πο ά σ ετικά άρ ρα σε σ έση με το A 1 και επομέν ς, μία επιτυ ής αξιο ό ηση, στη συνέ εια πι ανά α αντ ήσει πο ές αξιο ο ήσεις ρήστη στα επόμενα άρ ρα που α παρουσιαστούν. Παρό α αυτά, εάν το αξιο ο ημένο άρ ρο A 1 δεν κα ύπτει αρκετά κα ά τα ενδιαφέροντα του ρήστη (π.. αξιο- ο ή ηκε επιπό αια ή τυ αία), πο ά άρ ρα α προτα ούν ια αξιο ό ηση στην συνέ εια από το σύστημα τα οποία με με ά η πι ανότητα δεν α αξιο ο η ούν, ρίς κιό ας τη δυνατότητα να παρα ηφ ούν. Το τε ευταίο μπορεί να έ ει αρνητική επίπτ ση στην αποδοτικότητα του συστήματος προτάσε ν, ενώ παρά η α α προκα έσει δυσφορία στον νέο ρήστη (κάτι που προφανώς πρέπει να αποφεύ εται). Από την ά η μεριά έ αια, μικρές τιμές M μπορεί να οδη ήσουν σε μία παρόμοια αρνητική επίπτ ση α ά από διαφορετικό μονοπάτι: ένας ρήστης περιμένει από ένα σύστημα προτάσε ν ρή ορα να αντι αμ άνεται τις προτιμήσεις του και να μην ο ισ αίνει σε άρ ρα που δεν τον ενδιαφέρουν. Συνοπτικά, δεν έ ουμε να υπερφορτώσουμε τον ρήστη προτείνοντας ια αξιο ό ηση πο ά άρ ρα μόνο από μία συστάδα, α ά όμ ς έ ουμε να αποφαινόμαστε σ ετικά ρή ορα εάν τα άρ- 140

156 Κεφάλαιο Πρόβλημα νέου χρήστη ρα που ανήκουν στην εν ό συστάδα είναι πρά ματι ενδιαφέροντα ια τον ρήστη. Επιπ έον, έ ουμε να κα ύπτουμε όσο πιο ευρύτερα ίνεται τις σ ετικές συστάδες οι οποίες μπορεί να ενδιαφέρουν τον ρήστη μιας και μπορούμε να αντ ήσουμε ρή ορα αξιο ο ήσεις με αυτό τον τρόπο. Κατά συνέπεια, μία μικρή προς μέση τιμή ια το M φαντάζει πιο ο ική. Κα ώς ο α όρι μός μας προ ράει, εάν δεν ηφ ούν αξιο ο ήσεις ια κανένα από τα M άρ ρα στην L 2, αναζητούμε ια συστάδες ρηστών οι οποίοι προη ουμέν ς α μο ό ησαν το A 1 με σκορ S 1. Αξιοποιούμε αυτές τις συστάδες ια να σ ηματίσουμε μία ίστα από άρ ρα, έστ L 3, η οποία αποτε είται από M το π ή ος τ ν συστάδ ν τ ν πιο συ νά αξιο ο ημέν ν άρ ρ ν. Ξανά, επι έ ουμε να κρατήσουμε M άρ ρα από κα εμία από τις παραπάν συστάδες και όπ ς και πριν ισ ύουν τα ίδια trade-offs ια την επι ο ή του M. Η ίστα L3, περιέ οντας π ηροφορία συσταδοποίησης ρηστών στην συνέ εια προτείνεται (άρ ρα ένα προς ένα) στον ρήστη προς αξιο ό ηση. Όσες αξιο ο ήσεις ηφ ούν, ρησιμοποιούνται αναδρομικά ια την επαναδημιουρ ία της ίστας L 3 με παρόμοιο τρόπο όπ ς και πριν. Η διαδικασία αυτή συνε ίζεται έ ς ότου το π ή ος τ ν αξιο ο ήσε ν φτάσει το όριο που έ ει οριστεί, έστ R min όσον αφορά στο π ή ος τ ν αξιο ο ήσε ν. Αντι έτ ς, εάν ο ρήστης έ ει αξιο ο ήσει του ά ιστον ένα άρ ρο από τα M της L 2 ίστας, αναζητούμε ια συστάδες ρηστών που περιέ ουν επι ο ές με τα περισσότερα από τα προη ούμενα α μο ο ημένα άρ ρα και ξανά επι έ ουμε τα M π ή ος συστάδ ν από τα πιο αξιο ο ημένα άρ ρα τα οποία και ανα έτουμε στην ίστα L 4. Παρότι οι ίστες L 3 και L 4 μοιάζουν, δεν είναι ίδιες. Η διαφορά έ κειται στο ότι η L 3 ασίζεται αποκ ειστικά στην π ηροφορία συσταδοποίησης ρηστών, ενώ η L 4 αρ ικοποιείται από την συσταδοποίηση άρ ρ ν αρ ικά και έπειτα ενισ ύεται από την συσταδοποίηση ρηστών αξιοποιώντας έτσι την συνερ ατική νώση που ρίσκεται στη ΒΔ. Τε ικά, όταν τα R min άρ ρα έ ουν αξιο ο η εί από τον ρήστη, η διαδικασία ε ραφής ο οκ ηρώνεται και ο ρήστης μπορεί να π οη η εί στις προσ ποποιημένες προτάσεις που το σύστημα π έον μπορεί να του παρέ ει. 141

157 5.4. Πρόβλημα νέου χρήστη Κεφάλαιο 5 Α όρι μος 10: Κα ορισμός τ ν άρ ρ ν νέ ν που α παρουσιαστούν στο ρήστη προς αξιο ό ηση Είσοδος: NULL Έξοδος: user_ratings[]// α μο ο ημένα άρ ρα από τον ρήστη 1 rated_article = NULL // πρώτο α μο ο ημένο άρ ρο - Α1 2 article_cluster = NULL; 3 articles_next [] = NULL; 4 rated_articles[] = NULL; 5 while (!rated_article and rated_article < average_rate (article)) do 6 rated_article = rate(present_next_most_rated_article()); // συνέ ισε να παρουσιάζεις άρ ρα από την L1 ίστα // έ ς ότου ο ρήστης α μο ο ήσει 1 άρ ρο 7 user_ratings[] += rated_article // Το άρ ρο Α1 α μο ο είται με σκορ S1 > average_rate 8 article_cluster = find_article_cluster(rated_article); 9 articles_next[] = find_most_rated_articles(article_cluster, M); // το articles_next[] είναι τώρα η L2 ίστα που περι αμ άνει M άρ ρα 10 while (has_next(articles_next)) do 11 rated_articles[] = rate(present_next_article(articles_next)) 12 if (!rated_articles[]) then // ο ρήστης δεν έ ει α μο ο ήσει κανένα από τα Μ άρ ρα της ίστας L1 13 articles_next[]=find_most_rated_articles_from_user_clusters (rated_article,m) // το articles_next[] είναι τώρα η ίστα L3 14 rated_articles[] = rate(articles_next[]); 15 user_ratings [] += rated_articles[]; 16 GOTO: T ; 17 else // συνέ ισε με πι ανές προτάσεις από τα αποτε έσματα της συσταδοποίησης ρηστών // ο ρήστης έ ει α μο ο ήσει ορισμένα από τα M άρ ρα 18 user_ratings [] += rated_articles[]; 19 T:; 20 while (user_ratings.size() < Rmin) do // έ ουμε αρκετές α μο ο ήσεις; 21 articles_next[]=find_most_rated_articles_from_user_clusters(rated_articles,m) // το articles_next[] είναι τώρα η ίστα L4 22 rated_articles[] = rate(articles_next[]); 23 user_ratings [] += rated_articles[]; 24 return user_ratings[] 142

158 Κεφάλαιο Πρόβλημα νέου χρήστη Ορισμένες οη ητικές συναρτήσεις του α ορί μου 10 ακο ου ούν δίνονται στον α όρι μο 11. Α όρι μος 11: Συναρτήσεις που ρησιμοποιούνται στον α όρι μο 10 Συνάρτηση average_rate Είσοδος: article Έξοδος: average rating /* Ανάκτηση από τη ΒΔ της μέσης α μο ο ίας ια αυτό το άρ ρο από οποιονδήποτε ρήστη το α μο ό ησε */ 1 return user_ratings[] Συνάρτηση rate Είσοδος: articles[] Έξοδος: rated_articles[] /* Παρουσιάζει ια α μο ό ηση τα επι ε μένα άρ ρα και επιστρέφει τις α μο ο ίες (σκορ) ή null αν ένα άρ ρο δεν α μο ο ή ηκε */ 2 rated_articles[]=null; 3 return rated_articles[] Συνάρτηση find_article_cluster Είσοδος: rated_article Έξοδος: article_cluster /* Ανάκτηση από τη ΒΔ της συστάδας στην οποία ανήκει το άρ ρο */ 4 return article_cluster 143

159 5.4. Πρόβλημα νέου χρήστη Κεφάλαιο 5 Α όρι μος 12: Ανάκτηση άρ ρ ν ασιζόμενοι σε συστάδες άρ ρ ν ή ρηστών συστήματος Συνάρτηση find_most_rated_articles Είσοδος: cluster, M Έξοδος: articles[m] /* Ανακτά τα M πιο α μο ο ημένα άρ ρα τα οποία ανήκουν στην συστάδα cluster */ /* Χρησιμοποιεί τα αποτε έσματα της συσταδοποίησης από τη ΒΔ. Η συστάδα μπορεί να είναι είτε άρ ρ ν νέ ν, είτε ρηστών */ Συνάρτηση find_most_rated_articles_from_user_clusters Είσοδος: article/articles[], size M Έξοδος: rated_articles[] /* Ανακτά άρ ρα από τις συστάδες ρηστών τα οποία περιέ ουν ρήστες που προη ουμέν ς α μο ό ησαν την δεδομένη ίστα από άρ ρα. Χρησιμοποιεί τα αποτε έσματα της συσταδοποίησης ρηστών */ rated_articles[]=null; clusters[]= find_user_clusters(article); // ρες τις συστάδες ρηστών που έ ουν α μο ο ήσει τα άρ ρα foreach cluster in clusters[] do rated_articles[]+=find_most_rated_articles (cluster, M); return rated_articles[] 144

160

161 ΚΕΦΑΛΑΙΟ 6 ΤΕΧΝΟΛΟΓΙΕΣ ΥΛΟΠΟΙΗΣΗΣ ΚΑΙ ΠΡΟΔΙΑΓΡΑΦΕΣ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ Ignorance, the root and the stem of every evil. Plato, Greek Philosopher, 347 BC Στο παρόν κεφά αιο περι ράφονται οι δια έσιμες τε νο ο ίες που υπάρ ουν και που αφορούν στα διάφορα υποσυστήματα του μη ανισμού που υ οποιή ηκε. Παρά η α αναφέρονται οι αποφάσεις που πάρ ηκαν όσον αφορά στο ποιες τε νο ο ίες τε ικά επι έ ηκαν και τέ ος δίνεται και η αντίστοι η αιτιο ό ηση ια τις αποφάσεις αυτές. Στο παρόν κεφά αιο δεν αναφέρουμε διεξοδικά ό ες οι δια έσιμες τε νο ο ίες, παρά περι ράφονται οι κατά τη νώμη μας πιο σημαντικές. Για μία διεξοδική αναφορά ο ανα νώστης μπορεί φυσικά να ανατρέξει στις εκάστοτε αναφορές ή και στην μεταπτυ ιακή μου ερ ασία. Παρά η α, δίνονται οι προδια ραφές του συστήματος προτάσε ν ώστε αυτό να είναι σε έση να ειτουρ εί σ στά και να παρά ει αποτε έσματα που έ ουν αξία. Τέ ος αναφέρονται και ορισμένα στοι εία που έ ουν να κάνουν με τις απαιτήσεις του μη ανισμού σε υ ικό και ο ισμικό ώστε να μπορεί να ειτουρ εί αποτε εσματικά. 146

162

163 6.1 Γ ώσσα υ οποίησης ασικών υποσυστήματ ν Ό α τα ασικά υποσυστήματα του συστήματος προτάσε ν που υ οποιή ηκε, είναι ραμμένα είτε σε ώσσα C, είτε σε C++. Με τον όρο ασικά αναφερόμαστε στα υποσυστήματα που εκτε ούν διερ ασίες πυρήνα, δη αδή: ανάκτηση άρ ρ ν από τον πα κόσμιο ιστό, προεπεξερ ασία κειμέν ν, κατη οριοποίηση, παρα ή περί ηψης και συσταδοποίηση άρ ρ ν νέ ν και ρηστών. Υποσυστήματα όπ ς η παρουσίαση της π ηροφορίας μπορούν να είναι σε οποιαδήποτε ώσσα αυτό επι υμείται, μιας και δεν επιτε ούν υπο ο ισμούς παρά μόνο δια άζουν π ηροφορία από την ΒΔ του συστήματος και την παρουσιάζουν. Ακο ου εί μία συνοπτική περι ραφή τ ν δύο σσών και τεκμηρί ση της παραπάν απόφασης σ ετικά με τις επι ε μένες ώσσες προ ραμματισμού. 6.2 Προεπεξερ ασία Εξα ή n-grams Για την εξα ή τ ν n-grams από το σώμα τ ν άρ ρ ν νέ ν που ανακτούνται από το διαδίκτυο, αξιοποιήσαμε το πακέτο ο ισμικού εξα ής n-grams από το [229]. Το πακέτο ο ισμικού αυτό παρέ ει μία σειρά από ερ α εία ια την εξα ή και δια είριση n-grams από ακατέρ αστο κείμενο. Το ασικό πρό ραμμα υ οποιεί τον α όρι μο εξα ής που περι ράφεται στο [151] και μπορεί να εξά ει τόσο n-grams έξε ν ( ια δυτικές ώσσες), όσο και αρακτήρ ν (π.. ια Κινέζικα). Πρόκειται ια μία εξαιρετικά αποδοτική υ οποίηση τ ν εν ό τε νικών και δεν προ ημάτισε ο ε ά ιστος ρόνος που απαιτή ηκε προκειμένου να εξά ονται τα n-grams του κειμένου. Παρά η α ρέ ηκε ακρι ής ς προς τα αποτε έσματά του, της τάξης του 95% κατά μέσο όρο, και επομέν ς αποτέ εσε μία αυτονόητη επι ο ή προς ρήση. Ά α ερ α εία εξα ής n-grams, τα οποία όμ ς δεν είναι σε ώσσα C/C++, είναι τα εξής: TextToolbox NGramCounter - A Free Web API for N-Gram Generation [158] A Simple Ruby N-Gram Generator [2] A Java Example for N-Gram Generation [1] Υπερώνυμα του WordNet Για την εξα ή τ ν υπερ νύμ ν του WordNet αξιοποιήσαμε την δυνατότητα που μας δίνει το ίδιο το ερ α είο του WordNet, σε μορφή ι ιο ήκης της C, προκειμένου να α η επιδράσει με το σύστημα προεπεξερ ασίας μας. Όπ ς έ ουμε αναφέρει ήδη, το WordNet είναι μια εξικο οφική άση νώσης ια την Α - ική ώσσα. Ουσιαστικά, ρήματα, επί ετα και επιρρήματα ορ ανώνονται σε σύνο α από συνώνυμα (synset) με το κα ένα να εκφράζει ένα διακριτό νόημα. Τα synsets διασυνδέονται μέσ

164 Κεφάλαιο Συσταδοποίηση εννοιο ο ικών-σημασιο ο ικών κα ώς και εξικο ο ικών συσ ετίσε ν. Το δίκτυο που προκύπτει από συσ ετιζόμενες έξεις και νοήματα μπορεί να είναι δια έσιμο στον ρήστη ή σε ά α προ ράμματα προς αξιοποίηση. Το WordNet είναι επίσης ε εύ ερα δια έσιμο ια κατέ ασμα και ρήση, ρίσκοντας εφαρμο ή σε πο ά έματα υπο ο ιστικής και εξικο ο ικής επεξερ ασίας φυσικής ώσσας. Η έκδοση του WordNet που ρησιμοποιή ηκε στα π αίσια της διδακτορικής διατρι ής είναι η 3.0 ή οποία αποτε εί και την τε ευταία δια έσιμη ια Linux. 6.3 Συσταδοποίηση Υ οποιήσεις α ορί μ ν συσταδοποίησης Πο ές από τις προαναφερ είσες με οδο ο ίες συσταδοποίησης έ ουν ενσ ματ εί σε πακέτα συσταδοποίησης, όπ ς το CLUTO [112], το SenseClusters [175], κ. α. Ακο ου εί μία σύντομη περι ραφή τ ν πιο σημαντικών από αυτά CLUTO Το CLUTO clustering toolkit [112] είναι ένα πακέτο ο ισμικού ια την συσταδοποίηση τόσο αμη ής όσο και υψη ής διαστατικότητας δεδομέν ν, το οποίο δίνει τη δυνατότητα ανά υσης τ ν αρακτηριστικών τ ν διαφόρ ν συστάδ ν. Αποτε εί μία εξαιρετική ύση ια συσταδοποίηση δεδομέν ν που πη άζουν από διαφορετικές περιο ές εφαρμο ών όπ ς ανάκτηση π ηροφορίας, ιστός, GIS και ιο ο ία. Το CLUTO αποτε είται τόσο από αυτόνομα προ ράμματα που υ οποιούν τους α ορί μους συσταδοποίησης, όσο και από μία ι ιο ήκη μέσ της οποίας μπορούμε να αξιοποιήσουμε απευ είας τους διαφόρους α ορί μους είτε συσταδοποίησης είτε ανά υσης. Το CLUTO παρέ ει τρεις διαφορετικές κ άσεις α ορί μ ν συσταδοποίησης οι οποίοι δρουν είτε απ ευ είας πάν στο ώρο τ ν αντικειμέν ν (feature space), είτε στο ώρο ομοιότητας αυτών (similarity space). Ένα σημαντικό αρακτηριστικό στους περισσότερους α ορί μους συσταδοποίησης του CLUTO είναι ότι αντιμετ πίζουν το πρό ημα της συσταδοποίησης ς μία διαδικασία ε τιστοποίησης η οποία προσπα εί να με ιστοποιήσει ή να ε α ιστοποιήσει μία συ κεκριμένη συνάρτηση κριτηρίου η οποία ορίζεται είτε συνο ικά, είτε τοπικά σε σ έση με το ώρο ύσε ν του προ ήματος. Το CLUTO έ ει δύο τρόπους εκτέ εσης, έναν που αντιμετ πίζει τα αντικείμενα ς διανύσματα σε έναν πο απ ών διαστάσε ν ώρο, και έναν ο οποίο ενερ εί πάν στο ώρο ομοιότητας μεταξύ τ ν αντικειμέν ν. Και οι δύο τρόποι υπο ο ίζουν την ύση στο πρό ημα της συσταδοποίησης ρησιμοποιώντας μία από τις πέντε παρακάτ διαφορετικές προσε ίσεις. Οι τέσσερις από αυτές τις προσε ίσεις είναι μερισματικές στη φύση τους, ενώ η πέμπτη προσέ ιση είναι ιεραρ ική (agglomerative). Ορισμένα από τα προτερήματα του CLUTO είναι τα εξής: πο απ ές κ άσεις α ορί μ ν συσταδοποίησης: διαμερισματικοί, ιεραρ ικοί, κα ώς και ραφο-μερισματικοί 149

165 6.3. Συσταδοποίηση Κεφάλαιο 6 πο απ ές μετρικές ομοιότητας/συναρτήσεις απόστασης ια αξιοποίηση στους εν ό α ορί μους: Ευκ είδεια απόσταση ομοιότητα συνημιτόνου correlation coefficient extended Jaccard κα ώς και δυνατότητα ορισμού από τον ρήστη πο απ ά state of the art κριτήρια συσταδοποίησης κα ώς και σ ήματα συ ώνευσης ιεραρ ικών α ορί μ ν παραδοσιακοί ιεραρ ικοί α όρι μοι single-link, complete-link, UPGMA εκτεταμένες δυνατότητες οπτικής απεικόνισης συστάδ ν κα ώς και εξόδου σε αρ είο: postscript, SVG, gif, xfig, κ. π. εύκο η κ ιμάκ ση ια ι ιάδες αντικείμενα και δεκάδες ι ιάδες διαστάσεις Περισσότερες π ηροφορίες ια το CLUTO clustering toolkit είναι δια έσιμες στο [51] SenseClusters Το SenseClusters [175] είναι οντρικά ένα σύστημα διακρίσε ν ερμηνειών έξε ν. Παρά ει συστάδες οι οποίες σ ηματίζονται από τα συμφραζόμενα στα οποία μία δεδομένη έξη εμφανίζεται. Δεν ρησιμοποιεί ά η νώση πέρα από αυτή που είναι δια έσιμη σε ένα μη δομημένο corpus, ενώ οι συστάδες ια μία δεδομένη έξη-στό ος ασίζονται μόνο στις αμοι αίες ομοιότητες από τα συμφραζόμενα. Επί της ουσίας, το SenseClusters αποτε εί ένα πακέτο από (κυρί ς) Perl προ ράμματα το οποίο παρέ ει α ορί μους συσταδοποίησης δεδομέν ν με ρήση μη εποπτευόμεν ν τε νικών εκμά ησης. Το SenseClusters αξιοποιεί διαφορετικά ά α προ ράμματα (όπ ς το CLUTO) προκειμένου να παρά ει τις επι υμητές συσταδοποιήσεις. Βασίζεται αυστηρά σε εξικο ο ικά αρακτηριστικά τ ν κειμέν ν και ό ι στην εκπαίδευση συστήματος ή ρήση εξ τερικής άσης νώσης. Το SenseClusters έ ει την δυνατότητα αυτόματου κα ορισμού του π ή ους τ ν συστάδ ν στα δεδομένα ασιζόμενο σε ένα π ή ος από κριτήρια αυτόματου τερματισμού της εκτέ εσης. Περισσότερες π ηροφορίες ια το SenseClusters είναι δια έσιμες στο [194] Συσταδοποίηση στη MATLAB Υπάρ ει π η ώρα από ι ιο ήκες συσταδοποίησης που έ ουν υ οποιη εί στην MATLAB, και συ κεκριμένα το [50] αποτε εί μία κα ή περί ηψη τ ν δια έσιμ ν επι ο ών. Εκτός από τις ύσεις που προτείνονται στο παραπάν, διάφορα ά α toolkits έ ουν δημιουρ η εί τα οποία κα ύπτουν αρκετούς α ορί μους συσταδοποίησης, όπ ς ια παράδει μα το TMG. 150

166 Κεφάλαιο Συσταδοποίηση Text to Matrix Generator Το Text to Matrix Generator (TMG)[234][205] αποτε εί ένα MATLAB toolbox το οποίο μπορεί να ρησιμοποιη εί ια πο ές ερ ασίες που έ ουν να κάνουν με text mining. Το με α ύτερο μέρος του TMG είναι ραμμένο σε MATLAB, παρότι ένα με ά ο τμήμα της φάσης δεικτοδότησης στην τε ευταία έκδοση είναι ραμμένο σε Perl. Παρά η α, το TMG συνερ άζεται εύκο α με MySQL προσφέροντας έτσι ευε ιξία στη ρήση. Το TMG ταιριάζει ιδιαίτερα σε text mining εφαρμο ές με δεδομένα υψη ής διαστατικότητας α ά εξαιρετικά αραιά, μίας και ρησιμοποιεί την υποδομή αραιών πινάκ ν (sparce matrices) της MATLAB. Αρ ικά φτιά τηκε στο Πανεπιστήμιο Πατρών ς ένα ερ α είο προ-επεξερ ασίας κειμένου προκειμένου να παρά ει τους πίνακες όρ ν-κειμέν ν από αδόμητο κείμενο. Η τε ευταία έκδοση προσφέρει πο ά περισσότερα, όπ ς: δεικτοδότηση, ανάκτηση, μεί ση διαστατικότητας, μη-αρνητική παρα οντοποίηση πινάκ ν, συσταδοποίηση και κατη οριοποίηση. Η ειτουρ ικότητα του TMG είναι δια έσιμη στον ρήστη με διάφορους τρόπους. Είτε απευ- είας μέσ του GUI που ασίζεται σε MATLAB (έκδοση 7.0 η μετα ενέστερη), είτε απευ είας μέσ του command line interface της MATLAB απ όπου μπορούν να κ η ούν οι επι υμητές συναρτήσεις. Η διαδικασία προεπεξερ ασίας του TMG παρέ ει παρόμοια ειτουρ ικότητα με αυτή που περι ράφηκε στα π αίσια της διδακτορικής διατρι ής, περι αμ άνοντας διάφορα ήματα που έ ουν να κάνουν με μεί ση διαστατικότητας, όπ ς αφαίρεση κοινότυπ ν έξε ν (stopwords), αφαίρεση πο ύ σύντομ ν ή πο ύ με ά ν όρ ν, αφαίρεση πο ύ συ νών ή πο ύ σπάνι ν όρ ν. Επίσης δίνει τη δυνατότητα εξα ής ζυ ίσματος όρ ν όπ ς και σ ημάτ ν κανονικοποίησης και εξα ής ρίζας έξε ν (stemming) C Clustering Library Η ι ιο ήκη C Clustering Library [40] αποτε εί μία ε αφριά (lightweight) και open source υ οποίηση τ ν διαφόρ ν α ορί μ ν συσταδοποίησης που ρησιμοποιή ηκαν κατά την διάρκεια εκπόνησης της διδακτορικής διατρι ής. Η ι ιο ήκη περι αμ άνει τόσο τους α ορί μους συσταδοποίησης τους οποίους αξιο ο ήσαμε απ ευ είας (ενότητα ), όσο και τον k-means πυρήνα του α ορί μου W-kmeans που αναπτύ ηκε. Οι μέ οδοι συσταδοποίησης που προσφέρει η εν ό ι ιο ήκη μπορούν να αξιοποιη ούν με πο ούς τρόπους. Η έκδοση Cluster 3.0 παρέ ει μία ραφική διεπαφή ια την πρόσ αση σε ρουτίνες διεπαφής. Η ι ιο ήκη είναι δια έσιμη ια ό ες τις π ατφόρμες και παρέ ει interfaces σε πο απ ές ώσσες προ ραμματισμού. Το ασικότερο π εονέκτημα όμ ς της ι ιο ήκη είναι ότι είναι ρή ορη στις κ ήσεις της (σε ενικές ραμμές ρήκαμε κά ε κ ήση ρη ορότερη σε σ έση με τα υπό οιπα toolkits) και εξαιρετικά αποτε εσματική όσον αφορά τις παρα όμενες συστάδες. Επιπ έον, η αξιοποίησή της και διασύνδεση με το σύστημα προτάσε ν ήταν αρκετά εύκο η μιας και είναι υ οποιημένη σε ώσσα προ ραμματισμού C όπ ς και τα υπό οιπα ασικά υποσυστήματα του συστήματος προτάσε ν μας. Οι α όρι μοι συσταδοποίησης που υποστηρίζει η C Clustering Library είναι οι εξής: 151

167 6.4. Βάση δεδομένων Κεφάλαιο 6 ιεραρ ικοί α όρι μοι: pairwise centroid linkage, single linkage, complete linkage, και average linkage k-means Self-organizing maps PCA Οι μετρικές ομοιότητας/συναρτήσεις απόστασης που υποστηρίζει η C Clustering Library είναι οι εξής: συσ έτιση Pearson, από υτη τιμή της ομοιότητα συνημιτόνου συσ έτιση Spearman s rank Kendall s Ευκ είδεια απόσταση city-block απόσταση Περισσότερες π ηροφορίες σ ετικά με την C Clustering Library μπορούν να ρε ούν και στο user manual της ι ιο ήκης 1. Τέ ος, η έκδοση της ι ιο ήκης C Clustering Library που αξιοποιή ηκε στα π αίσια της διδακτορικής διατρι ής ήταν η cluster-1.52a η οποία είναι και η τε ευταία δια έσιμη κατά την συ ραφή του παρόντος. 6.4 Βάση δεδομέν ν MySQL Η MySQL είναι η δημοφι έστερη Βάση Δεδομέν ν ανοι τού κώδικα που προσφέρεται από το Δίκτυο MySQL. Η αρ ιτεκτονική της την κάνει να είναι εξαιρετικά ρή ορη και πο ύ εύκο η σε α α ές και ανα α μίσεις. Επιτρέπει επανα ρησιμοποίηση κώδικα όπου αυτό είναι ανα καίο και παρέ ει ένα μινιμα ιστικό τρόπο δημιουρ ίας στοι εί ν δια είρισης άσης δεδομέν ν τέτοιο ώστε να κάνει τη MySQL ασύ κριτη σε τα ύτητα, σε κατά ηψη ώρου, στα ερότητα και ευκο ία. Ο μοναδικός στο είδος του δια ρισμός του κεντρικού πυρήνα του server από το μη ανισμό απο ήκευσης κάνει δυνατή την ύπαρξη αυστηρού ε έ ου σε συνα α ές και μεί ση τα ύτητας ή ύπαρξη εαματικά με ά ης τα ύτητας με απευ είας προσπέ αση τ ν δεδομέν ν, στοι εία που μπορούν να ρησιμοποιη ούν ανά ο α με τις ανά κες τ ν ρηστών. Η MySQL περι αμ άνει απο ήκευση σε μη ανή InnoDB, η οποία υποστηρίζει ασφά εια στις συνα α ές και ACID-συμ ατή μη ανή απο- ήκευσης με commit, rollback, crash recovery και low-level locking δυνατότητες. H έκδοση της

168 Κεφάλαιο Βάση δεδομένων MySQL που ρίσκεται αυτή τη στι μή σε στα ερή κατάσταση είναι η και υποστηρίζει πο ά στοι εία που αφορούν την απόδοση, τη διε νοποίηση και τη δυνατότητα ένταξης του MySQL server σε ά α στοι εία υ ικού και ο ισμικού. Τα πιο ασικά στοι εία που αρακτηρίζουν τη MySQL είναι: Υποερ τήματα, που επιτρέπουν στους ρήστες να κάνουν σύν ετα ερ τήματα με με ά η ευκο ία και αποδοτικά. Γρή ορη επικοιν νία μεταξύ server και client μέσα από ένα καινούριο πρ τόκο ο. Μικρότερη κατανά ση πόρ ν από το server μέσα από ε τιστοποίηση στις ι ιο ήκες. Υποστήριξη Unicode, διε νείς αρακτήρες και υποστήριξη απο ήκευσης στην π ειοψηφία τ ν συνό ν αρακτήρ ν. Υποστήριξη τύπ ν GIS ια ερ τήματα που αφορούν άρτες και ε ραφικά δεδομένα. Τα παραπάν στοι εία κάνουν τη MySQL ένα υπερ-πο ύτιμο ερ α είο στα έρια κάποιου ρήστη και τη έτουν στην 1η έση ια επι ο ή ς άση δεδομέν ν του συστήματός μας [150] Βάση δεδομέν ν του συστήματος Το σύστημα μας οιπόν στην παρούσα έκδοσή του ρησιμοποιεί την έκδοση της MySQL και η οποία αποτε εί και το ουσιαστικό επίπεδο διασύνδεσης μεταξύ τ ν διαφορετικών υποσυστημάτ ν που έ ουν υ οποιη εί. Μία εκτενής ανά υση τ ν πινάκ ν του συστήματος ξεφεύ ει από το σκοπό της παρούσας διατρι ής, εξά ου κάτι τέτοιο έ ει ήδη ίνει στην μεταπτυ ιακή μου ερ ασία. Παρό α αυτά, κάποια ενικά στοι εία ια τη άση δεδομέν ν αναφέρονται στη συνέ εια. Η ΒΔ του συστήματος προτάσε ν είναι ουσιαστικά το ασικό επίπεδο συντονισμού και επικοιν νίας τ ν διαφόρ ν υποσυστημάτ ν από τα οποία απαρτίζεται. Ορισμένοι πίνακες που αξίζει να αναφέρουμε είναι οι εξής: αυτοί που αφορούν τα άρ ρα νέ ν και οι οποίοι είναι και οι με α ύτεροι σε ό κο π ηροφορίας. Επίσης ο πίνακας τ ν άρ ρ ν έ ει πο ές π ηροφορίες ανά ο α με το στάδιο στο οποίο ρίσκεται το σύστημα μέσα από συ κεκριμένα flags τα οποία απο ηκεύονται σε πεδία της ΒΔ ια κά ε άρ ρο αυτοί που αφορούν την κατη οριοποίηση που πρα ματοποιεί το αντίστοι ο υποσύστημα, κα ώς και οι πίνακες που κρατάνε την π ηροφορία εκπαίδευσης Η άση δεδομέν ν του συστήματος έ ει δε εί πο ές σ εδιαστικές α α ές σε σ έση με αυτή που ρησιμοποιή ηκε στα π αίσια της διπ ματικής ή μεταπτυ ιακής ερ ασίας. Αυτό είναι ένα στοι είο ετικό ια το σύστημα κα ώς με αυτό τον τρόπο έ ουμε μία πιο συνοπτική αναπαράσταση τ ν δεδομέν ν που απο ηκεύει το σύστημά μας και επομέν ς κα ύτερη απόδοση όσον αφορά στην εκτέ εση τ ν ερ τημάτ ν. 153

169 6.4. Βάση δεδομένων Κεφάλαιο 6 Μία ενική εικόνα της άσης δεδομέν ν φαίνεται στο σ ήμα 16. Από το σ ήμα αυτό έ αια είπουν οι νέοι πίνακες που προσ έ ηκαν στα π αίσια της διδακτορικής διατρι ής και οι οποίοι ανα ύονται στην ενότητα που ακο ου εί Νέοι πίνακες Το E-R διά ραμμα τ ν νέ ν πινάκ ν της ΒΔ που υ οποιή ηκαν φαίνεται στο σ ήμα 17. Μπορούμε να δούμε ότι οι νέοι πίνακες ρίζονται σε τρεις κατη ορίες: πίνακες συσταδοποίησης άρ ρ ν νέ ν πίνακες συσταδοποίησης ρηστών πίνακες εξα ής π ηροφορίας n-grams Στη συνέ εια δίνουμε ορισμένα στοι εία ια κα έναν από τους νέους (συνο ικά 12) πίνακες Πίνακες συσταδοποίησης άρ ρ ν νέ ν Ακο ου εί μία σύντομη περι ραφή τ ν πινάκ ν που έ ουν να κάνουν με την διαδικασία συσταδοποίησης άρ ρ ν νέ ν από τον α όρι μο W-kmeans clustering_passes Ο πίνακας clustering_passes την απαραίτητη π ηροφορία που αφορά κά ε πέρασμα συσταδοποίησης άρ ρ ν νέ ν. Πιο συ κεκριμένα, περι αμ άνει: id Μοναδικό ανα ν ριστικό πρ τεύον κ ειδί ια το συ κεκριμένο πίνακα sum_of_dist Ά ροισμα τ ν αποστάσε ν που κατα ράφηκαν σε αυτό το πέρασμα. Η π ηροφορία είναι ρήσιμη ια τον μετέπειτα υπο ο ισμό μετρικών όπ ς η Clustering Index (CI) avg_intra_sim Η μέση εσ -συσταδική απόσταση τ ν συστάδ ν του περάσματος avg_inter_sim Η μέση δια-συσταδική απόσταση τ ν συστάδ ν του περάσματος singletons Το π ή ος τ ν μοναδιαί ν συστάδ ν του περάσματος (συστάδες με ένα μόνο αντικείμενο) clusterinig_index Δείκτης συσταδοποίησης ια το συ κεκριμένο πέρασμα. Ουσιαστικά αποτε εί το ασικό κριτήριο αξιο ό ησης του πόσο αποτε εσματικό ήταν το πέρασμα labeled flag που αρακτηρίζει εάν έ ει ίνει ονοματοδοσία συστάδ ν ια το συ κεκριμένο πέρασμα. Αν ναι, οι επι ε μένες συστάδες α είναι δια έσιμες στον πίνακα clusters timestamp Το ρονικό σημείο όπου ξεκίνησε το εν ό πέρασμα exta_info Επιπ έον π ηροφορίες ια αυτό το πέρασμα. Κυρί ς ρησιμοποιείται ια να απο ηκεύουμε π ηροφορίες εκτέ εσης ραμμής εντο ών που ρησιμοποιή ηκε 154

170 Κεφάλαιο Βάση δεδομένων Σ ήμα 16: Διά ραμμα E-R της ΒΔ ρίς τους νέους πίνακες 155

171 6.4. Βάση δεδομένων Κεφάλαιο 6 Σ ήμα 17: Διά ραμμα E-R τ ν νέ ν πινάκ ν της ΒΔ 156

172 Κεφάλαιο Βάση δεδομένων clusters Ο πίνακας clusters απο ηκεύει τις εντοπισμένες συστάδες μετά την εκτέ εση του α ορί μου W-kmeans πάν σε άρ ρα νέ ν. Πιο συ κεκριμένα, τα πεδία που περι- αμ άνει είναι: id Μοναδικό ανα ν ριστικό πρ τεύον κ ειδί ια το συ κεκριμένο πίνακα clustering_pass Το πέρασμα συσταδοποίησης της εν ό απο ηκευμένης συστάδας άρ ρ ν νέ ν (foreign key στον πίνακα clustering_passes) label Η ετικέτα που έδ σε ο μη ανισμός ονοματοδοσίας συστάδ ν, αν και εφόσον έ ει τρέξει ια το συ κεκριμένο πέρασμα συσταδοποίησης cl_center Οι συντετα μένες του κέντρου της συστάδας στον διανυσματικό ώρο τ ν άρ ρ ν που συμμετεί αν στην συ κεκριμένη διαδικασία συσταδοποίησης intra_sim Η εσ -συσταδική ομοιότητα της συστάδας αυτή με τις υπό οιπες της συ κεκριμένης συσταδοποίησης (μέση τιμή) article2cluster Ο πίνακας article2cluster απο ηκεύει την συστάδα στην οποία ανήκει το κά ε άρ ρο που συσταδοποιή ηκε. Περι αμ άνει τα εξής πεδία: id Μοναδικό ανα ν ριστικό πρ τεύον κ ειδί ια το συ κεκριμένο πίνακα cl_id Η συστάδα στην οποία ανήκει το άρ ρο νέ ν (foreign key στον πίνακα clusters) ar_id Το άρ ρο νέ ν (foreign key στον πίνακα articles (σ ήμα 16) clustering_id Η διαδικασία συσταδοποίησης που έκανε την εν ό ανά εση του άρ ρου στη συστάδα (foreign key στον πίνακα clustering_passes) cluster_similarities Ο πίνακας cluster_similarities απο ηκεύει τις ομοιότητες μεταξύ τ ν συστάδ ν που προέκυψαν από τα διάφορα περάσματα συσταδοποίησης. Περι αμ- άνει τα εξής πεδία: id Μοναδικό ανα ν ριστικό πρ τεύον κ ειδί ια το συ κεκριμένο πίνακα cl_a Το ανα ν ριστικό της πρώτης συστάδας άρ ρ ν νέ ν (foreign key στον πίνακα clusters) cl_b Το ανα ν ριστικό της δεύτερης συστάδας άρ ρ ν νέ ν (foreign key στον πίνακα clusters) inter_sim Η δια-συσταδική ομοιότητα τ ν δύο συστάδ ν της κά ε ε ραφής clustering_id Η διαδικασία συσταδοποίησης που έκανε την εν ό ανά εση του άρ ρου στη συστάδα (foreign key στον πίνακα clustering_passes) 157

173 6.4. Βάση δεδομένων Κεφάλαιο Πίνακες συσταδοποίησης ρηστών Ακο ου εί μία σύντομη περι ραφή τ ν πινάκ ν που έ ουν να κάνουν με την διαδικασία συσταδοποίησης συνεδριών ( ρηστών) του συστήματος από τον α όρι μο W-kmeans clustering_passes_sesions Ο πίνακας clustering_passes_sesions την απαραίτητη π ηροφορία που αφορά κά ε πέρασμα συσταδοποίησης συνεδριών ρηστών που έ ουν κατα ραφεί στο σύστημα. Πιο συ κεκριμένα, περι αμ άνει: id Μοναδικό ανα ν ριστικό πρ τεύον κ ειδί ια το συ κεκριμένο πίνακα sum_of_dist Ά ροισμα τ ν αποστάσε ν που κατα ράφηκαν σε αυτό το πέρασμα. Η π ηροφορία είναι ρήσιμη ια τον μετέπειτα υπο ο ισμό μετρικών όπ ς η CI avg_intra_sim Η μέση εσ -συσταδική απόσταση τ ν συστάδ ν του περάσματος avg_inter_sim Η μέση δια-συσταδική απόσταση τ ν συστάδ ν του περάσματος singletons Το π ή ος τ ν μοναδιαί ν συστάδ ν του περάσματος (συστάδες με ένα μόνο αντικείμενο) clusterinig_index Δείκτης συσταδοποίησης ια το συ κεκριμένο πέρασμα. Ουσιαστικά αποτε εί το ασικό κριτήριο αξιο ό ησης του πόσο αποτε εσματικό ήταν το πέρασμα labeled flag που αρακτηρίζει εάν έ ει ίνει ονοματοδοσία συστάδ ν ια το συ κεκριμένο πέρασμα. Αν ναι, οι επι ε μένες συστάδες α είναι δια έσιμες στον πίνακα clusters timestamp Το ρονικό σημείο όπου ξεκίνησε το εν ό πέρασμα exta_info Επιπ έον π ηροφορίες ια αυτό το πέρασμα. Κυρί ς ρησιμοποιείται ια να απο ηκεύουμε π ηροφορίες εκτέ εσης ραμμής εντο ών που ρησιμοποιή ηκε session_clusters Ο πίνακας session_clusters απο ηκεύει τις εντοπισμένες συστάδες συνεδριών μετά την εκτέ εση του α ορί μου W-kmeans. Πιο συ κεκριμένα, τα πεδία που περι αμ άνει είναι: id Μοναδικό ανα ν ριστικό πρ τεύον κ ειδί ια το συ κεκριμένο πίνακα clustering_pass Το πέρασμα συσταδοποίησης της εν ό απο ηκευμένης συστάδας ρηστών (foreign key στον πίνακα clustering_passes_sessions) label Η ετικέτα που έδ σε ο μη ανισμός ονοματοδοσίας συστάδ ν, αν και εφόσον έ ει τρέξει ια το συ κεκριμένο πέρασμα συσταδοποίησης cl_center Οι συντετα μένες του κέντρου της συστάδας στον διανυσματικό ώρο τ ν άρ ρ ν που συμμετεί αν στην συ κεκριμένη διαδικασία συσταδοποίησης intra_sim Η εσ -συσταδική ομοιότητα της συστάδας αυτή με τις υπό οιπες της συ κεκριμένης συσταδοποίησης (μέση τιμή) 158

174 Κεφάλαιο Βάση δεδομένων session2cluster Ο πίνακας session2cluster απο ηκεύει την συστάδα στην οποία ανήκει η κά ε συνεδρία ρήστη που συσταδοποιή ηκε. Τα πεδία που περι αμ άνει είναι: id Μοναδικό ανα ν ριστικό πρ τεύον κ ειδί ια το συ κεκριμένο πίνακα cl_id Η συστάδα στην οποία ανήκει η συνεδρία (foreign key στον πίνακα session_clusters) s_id Η συνεδρία ρήστη (foreign key στον πίνακα sessions) clustering_id Η διαδικασία συσταδοποίησης που έκανε την εν ό ανά εση της συνεδρίας ρήστη στη συστάδα (foreign key στον πίνακα clustering_passes_sessions) cluster_similarities_sessions Ο πίνακας cluster_similarities_sessions απο- ηκεύει τις ομοιότητες μεταξύ τ ν συστάδ ν που προέκυψαν από τα διάφορα περάσματα συσταδοποίησης. Περι αμ άνει τα εξής πεδία: id Μοναδικό ανα ν ριστικό πρ τεύον κ ειδί ια το συ κεκριμένο πίνακα cl_a Το ανα ν ριστικό της πρώτης συνεδρίας ρηστών (foreign key στον πίνακα session_clusters) cl_b Το ανα ν ριστικό της δεύτερης συνεδρίας ρηστών (foreign key στον πίνακα session_clusters) inter_sim Η δια-συσταδική ομοιότητα τ ν δύο συστάδ ν της κά ε ε ραφής clustering_id Η διαδικασία συσταδοποίησης που έκανε την εν ό ανά εση του άρ ρου στη συστάδα (foreign key στον πίνακα clustering_passes_sessions) user_sessions Ο πίνακας user_sessions απο ηκεύει τις συνεδρίες ρηστών οι οποίες έ ουν εξα εί από τις π οη ήσεις που έ ουν κατα ραφεί στο σύστημα. Περι αμ άνει τα εξής πεδία: id Μοναδικό ανα ν ριστικό πρ τεύον κ ειδί ια το συ κεκριμένο πίνακα user_id Το ανα ν ριστικό του ρήστη (foreign key στον πίνακα website_users) starts Timestamp που απο ηκεύει το ρονικό σημείο έναρξης της συνεδρίας ends Timestamp που απο ηκεύει το ρονικό σημείο ήξης της συνεδρίας threshold Το ρονικό όριο (threshold) που ρησιμοποιή ηκε κατά την εξα ή της συ κεκριμένης συνεδρίας. Αφορά την μετα ητή session_threshold στον α όρι μο 5. Τυπικά το όριο εύρεσης συνεδριών είναι 10 επτά. stamp Timestamp που απο ηκεύει το ρονικό σημείο που εισή ηκε η συ κεκριμένη ε ραφή 159

175 6.5. Διασύνδεση μηχανισμών Κεφάλαιο user_sessions_articles Ο πίνακας user_sessions_articles απο ηκεύει τις εμφανίσεις άρ ρ ν νέ ν σε συνεδρίες ρηστών. Τα πεδία που περι αμ άνει είναι τα ακό ου α: ar_id Το ανα ν ριστικό του άρ ρου s_id Το ανα ν ριστικό της συνεδρίας Πίνακες n-grams Ακο ου εί μία συνοπτική παρουσίαση τ ν πινάκ ν της ΒΔ οι οποίοι κρατάνε τις π ηροφορίες ια τα εξα όμενα n-grams από τα άρ ρα νέ ν extraction_ng Ο πίνακας extraction_ng απο ηκεύει τα εξα όμενα n-grams σε αντιστοι ία του πίνακα keywords (σ ήμα 16). Περι αμ άνει τα εξής πεδία: ng_id Μοναδικό ανα ν ριστικό πρ τεύον κ ειδί ια το συ κεκριμένο πίνακα ng_name Το όνομα ( εκτικό) του συ κεκριμένου n-gram - μπορεί να περι αμ άνει 2 η περισσότερες έξεις lang_id Το ανα ν ριστικό της ώσσας στην οποία ανήκει το εν ό n-gram. (foreign key στον πίνακα language του σ ήματος 16) trash Πεδίο ια την επισήμανση μη ρήσιμ ν n-grams. Τα n-grams που έ ουν την τιμή 1 στο εν ό πεδίο δεν αμ άνονται υπόψιν από τις διαδικασίες συστήματος extraction_ng2ar Ο πίνακας extraction_ng2ar τη συσ έτιση μεταξύ τ ν εξα όμεν ν n-grams και άρ ρ ν του συστήματος. Περι αμ άνει τα εξής πεδία: ng_id Το n-gram στο οποίο αναφέρεται η εν ό ε ραφή (foreign key στον πίνακα extraction_ng) ar_id Το άρ ρο στο οποίο περιέ εται το εν ό n-gram (foreign key στον πίνακα articles του σ ήματος 16) sentences Οι προτάσεις στις οποίες εμφανίζεται το n-gram στο συ κεκριμένο άρ ρο. Οι προτάσεις αρι μούνται και κατα ράφοντα με τη σειρά abs_frequency Η από υτη συ νότητα εμφάνισης του n-gram μέσα στο άρ ρο rel_frequency Η σ ετική συ νότητα εμφάνισης του n-gram μέσα στο άρ ρο 6.5 Διασύνδεση μη ανισμών Η διασύνδεση τ ν μη ανισμών ασίζεται αποκ ειστικά στο επίπεδο άσης δεδομέν ν α ά και στη σειριακή εκτέ εση τ ν διαδικασιών που προσφέρει το σύστημα. Το ε ονός ότι ρησιμοποιούνται πο απ ά επίπεδα στην υ οποίηση είναι σημαντικό ια ένα τέτοιο σύστημα κα ότι υπάρ ει 160

176 Κεφάλαιο Προδιαγραφές ένα επίπεδο το οποίο είναι κοινό ια ό α τα υποσυστήματα και συνεπώς είναι εφικτή η αντα α ή δεδομέν ν. Παρά η α, ό οι οι μη ανισμοί του συστήματος έ ουν σ εδιαστεί με τέτοιο τρόπο ώστε να δέ ονται δεδομένα από δύο διαφορετικά κανά ια και αντίστοι α να εξά ουν τα δεδομένα σε δύο διαφορετικά κανά ια, το ένα αυτό της άσης δεδομέν ν και το ά ο σε μορφή XML. Μι ούμε ια το κ ασσικό πρότυπο μίας n-tier αρ ιτεκτονικής η οποία επιτυ άνει διασύνδεση τ ν αυτόνομ ν μη ανισμών που την αποτε ούν στο επίπεδο κανα ιού επικοιν νίας. Με αυτό τον τρόπο έ ουν μη ανισμούς που αποδεσμεύονται όσο αφορά το κομμάτι της υ οποίησης και δεν έ ουν κανένα περιορισμό αρκεί να μπορούν να δια άσουν δεδομένα από άση δεδομέν ν ή από XML αρ εία και αντίστοι α να είναι σε έση να ράψουν σε άση δεδομέν ν ή σε XML αρ εία. 6.6 Προδια ραφές Συ ο ή άρ ρ ν και εξα ή ρήσιμου κειμένου Το σύστημα προτάσε ν ξεκινά την διαδικασία δεικτοδότησης άρ ρ ν με τον μη ανισμό συ - ο ής άρ ρ ν από το διαδίκτυο ο οποίος τρέ ει ανεξάρτητα από τα υπό οιπα υποσυστήματα που έ ουν α η επίδραση με τον ρήστη. Σε αυτόν περι αμ άνονται η συ ο ή άρ ρ ν από τον ιστό και η εξα ή του ρήσιμου κειμένου από αυτά. Η ειτουρ ία είναι αυτοματοποιημένη ώστε να α η επιδρά με τη άση δεδομέν ν και η αν ρώπινη επίδραση μπορεί να είναι μόνο έμμεση. Το συ κεκριμένο υποσύστημα δέ εται σαν είσοδο τα RSS Feeds που κατα ράφονται στη άση δεδομέν ν και ια την ακρί εια τα urls τ ν RSS feeds τ ν news portals τα οποία πρέπει να διαπεράσει ο crawler. Είναι εύ ο ο π ς υπόκειται στον δια ειριστή του συστήματος ο κα ορισμός έ κυρ ν RSS Feeds ια την τροφοδότηση του μη ανισμού με άρ ρα, κάτι που είναι εφικτό μέσ της διεπαφής δια είρισης του συστήματος. Ο μη ανισμός εξα ής ρήσιμου κειμένου είναι σ εδιασμένος ώστε να εξά ει κείμενα άρ ρ ν από τη σε ίδα δεν έ ει επομέν ς νόημα, και ια την ακρί εια εμίζει τη άση δεδομέν ν με σκουπίδια, η εισα ή urls από RSS feeds που δεν περιέ ουν σώμα. Παρόμοια, πρέπει να αποφεύ εται η ρήση urls που δεν υπάρ ουν (dead links) κα ώς οδη ούν τον crawler και ό ο συνο ικά το σύστημα σε άσιμο ρόνου. Περισσότερες π ηροφορίες ια το υποσύστημα εξα ής ρήσιμου κειμένου είναι δια έσιμες στα [5] [6] [8] [4] Προεπεξερ ασία κειμένου Ως ν στών, ο μη ανισμός προεπεξερ ασίας κειμένου είναι αυτοματοποιημένος ώστε να α - η επιδρά με τα κείμενα της άσης δεδομέν ν. Η ορ ή ειτουρ ία του επομέν ς εναπόκειται στην ορ ή κατάσταση της άσης δεδομέν ν και τις συνα α ές που ίνονται με αυτή. Δεδομένου ότι ό α τα απαραίτητα πεδία τ ν πινάκ ν της άσης δεδομέν ν περιέ ουν ορ ές π ηροφορίες, η εξα- ή keywords προ ράει άσει αυτών. Πρέπει να σημει εί επίσης ότι η διαδικασία της προεπεξερ ασίας κειμένου (αφαίρεση στίξης και αρι μών, ανάκτηση ουσιαστικών, αφαίρεση stopwords, stemming) εκτε είται σειριακά και πριν τις διαδικασίες κατη οριοποίησης περί ηψης και συσταδοποίησης ια το κά ε άρ ρο. Τα αποτε έσματα του υποσυστήματος εξα ής keywords, όπ ς 161

177 6.6. Προδιαγραφές Κεφάλαιο 6 έ ουμε πει, απο ηκεύονται στους κατά η ους πίνακες της άσης δεδομέν ν του συστήματος ια να είναι δια έσιμα στα υποσυστήματα που ακο ου ούν. Περισσότερες π ηροφορίες ια το υποσύστημα προεπεξερ ασίας κειμένου είναι δια έσιμες στα [38] [34] Κατη οριοποίηση εξα ή περί ηψης και συσταδοποίησης Τα υποσυστήματα κατη οριοποίησης εξα ής περί ηψης και συσταδοποίησης, που αποτε ούν και τον πυρήνα του συστήματος μαζί με αυτό της προσ ποποίησης, είναι σ εδιασμένα ώστε να δέ ονται ς είσοδο τα δεδομένα της προεπεξερ ασίας κειμένου. Όπ ς περι ράφεται και στο [34], η διαδικασία που ακο ου είται μετά την προεπεξερ ασία κειμένου είναι: προσπά εια ια κατη οριοποίηση του κειμένου άσει κάποι ν κριτηρί ν και της άσης νώσης που έ ουμε, αν η κατη οριοποίηση είναι επιτυ ής (το κείμενο είναι πο ύ σ ετικό με μία κατη ορία), προ ρούμε σε εξα ή ενικής περί ηψης υπο οη ούμενη από την κατη ορία του κειμένου. Αν η κατη οριοποίηση δεν είναι εφικτή, προ ρούμε σε εξα ή ενικής περί ηψης και επι ειρούμε την κατη οριοποίηση αυτής. Αν η δεύτερη απόπειρα κατη οριοποίσης δώσει κα ύτερα αποτε έσματα, απο ηκεύουμε αυτά στη άση δεδομέν ν, α ιώς τα πρώτα. Φυσικά τα υποσυστήματα μπορούν να κ η ούν και αυτόνομα, π.. να ζητήσουμε περί ηψη ή κατη οριοποίηση ενός άρ ρου που έ ουμε στην κατο ή μας. Η προσπά εια κατη οριοποίησης ενός άρ ρου μοιάζει με την Linear Least Squares Fit - LLSF τε νική και προ ράει ς εξής: η κατη οριοποίηση τ ν άρ ρ ν ίνεται ρησιμοποιώντας την ίστα με τα πιο αντιπροσ πευτικά (stemmed) keywords του κειμένου μαζί με τις συ νότητες εμφάνισής τους. Έ οντας ήδη στη διά εσή μας παρόμοιες ίστες που αφορούν στα πιο αντιπροσ πευτικά keywords της κά ε κατη ορίας, συ κρίνουμε τις ίστες ρησιμοποιώντας την ομοιότητα συνημιτόνου. Ένα επιπ έον σημαντικό αρακτηριστικό είναι ότι η ανά υση είναι διαφορετική ια τους διαφορετικούς ρήστες. Όσο με α ύτερη είναι η αφαίρεση π ηροφορίας σε τόσο ι ότερες προτάσεις ενός κειμένου πρα ματοποιείται κατη οριοποίηση του κειμένου και συνεπώς η κατη ορία στην οποία εντάσσεται ένα κείμενο είναι πιο ενική. Η παραπάν διαδικασία έ ει σαν αποτέ εσμα να δημιουρ η εί πο απ ού είδους κατη οριοποίηση στα κείμενα τα οποία α δια έτει το σύστημα με αποτέ εσμα να είναι διαφορετικά τα αποτε έσματα ια κά ε ρήστη ανά ο α με τη επτομέρεια της αναζήτησης που πρα ματοποιούν. Το ένα είδος κατη οριοποίησης α είναι κα αρά α ορι μικό ενώ το δεύτερο κομμάτι α ασίζεται κυρί ς στις προσ πικές επι ο ές του ρήστη, οι οποίες δημιουρ ούν κατη ορίες αφαίρεσης π ηροφορίας. Αξίζει να τονίσουμε κάποια ασικά στοι εία της ειτουρ ίας αυτού του μη ανισμού. Ο μη- ανισμός αυτός από τη στι μή που α αρ ικοποιη εί με ένα σύνο ο πρότυπ ν κειμέν ν ια τη δημιουρ ία μίας κατη ορίας μπορεί να ειτουρ εί ανεξάρτητα από το υπό οιπο σύστημα κατη οριοποιώντας συνε ώς κείμενα. Είναι πο ύ ασικό ια την κα ή ειτουρ ία του συστήματος να ανανεώνεται συ νά η άση νώσης με επικαιροποιημένα κείμενα ρησιμοποιώντας το τμήμα της ανανέ σης της άσης νώσης του μη ανισμού (suggest training). 162

178 Κεφάλαιο Απαιτήσεις του συστήματος Προσ ποποίηση Η ειτουρ ία του υποσυστήματος προσ ποποίησης αφορά στο προσ ποποιημένο περιε όμενο που παρουσιάζεται στο ρήστη. Προκειμένου η π ηροφορία να κα ύπτει κατά το κα ύτερο δυνατό τις προτιμήσεις του ρήστη, είναι σημαντικό το σύστημα να αντι αμ άνεται ε καίρ ς α α ές στο προφί του. Οι ρήστες σπάνια ξοδεύουν ρόνο ια να δη ώσουν ρητά τι επι υμούν, πο ές φορές ό του ότι δεν εμπιστεύονται τις προτιμήσεις που έ ουν σε ένα απρόσ πο σύστημα που ζητάει υπερ ο ικά πο ά στοι εία ι αυτούς. Ο μόνος δρόμος επομέν ς είναι οι π ηροφορίες αυτές να συ έ ονται (όπου αυτό είναι δυνατό) έμμεσα κατα ράφοντας τις επι ο ές που κάνει ο ρήστης κατά την διάρκεια παραμονής του στο σύστημα. Η ερμηνεία όμ ς αυτών τ ν συμπεριφορών που φαίνεται να παρουσιάζουν οι ρήστες πρέπει να ερμηνεύονται και κατά η α από το σύστημα άσει σ στών παραμέτρ ν και μετρικών. Ήδη αναφέραμε τις παραμέτρους που αξιοποιεί το σύστημα προτάσε ν προκειμένου να εξά ει το μητρώο με τα keywords και τις προτιμήσεις ια κα ένα που έ ει ο ρήστης. Η διαδικασία όμ ς αυτή είναι επιρρεπής σε ά η μεσοπρό εσμα: ο ρήστης αρ ικά πι ανών να μην έπει ό α τα νέα άρ ρα που επι υμεί ή πι ανών να έπει και κάποια που ε ρεί ότι αντιτί ενται στο προφί του. Μακροπρό εσμα όμ ς, έ οντας αρκετά στοι εία ια την συμπεριφορά του ρήστη το σύστημα φαίνεται να προσαρμόζεται αρκετά κα ά στις προτιμήσεις, κάτι που α ίνει ορατό και στο επόμενο κεφά αιο μέσα από την πειραματική διαδικασία. 6.7 Απαιτήσεις του συστήματος Στην ενότητα αυτή παρουσιάζονται οι απαιτήσεις του συστήματος από άποψη ο ισμικού και υ ικού Λο ισμικό και ι ιο ήκες Για την ανάπτυξη του συστήματος ρησιμοποιή ηκαν πακέτα ο ισμικού και ι ιο ήκες που αναφέρονται στον πίνακα 4 Η ανάπτυξη του συστήματος έ ινε εξ ο οκ ήρου σε open source ο ισμικό και ειτουρ ικό σύστημα Gentoo Linux [75] Υ ικό Το σύστημα που αναπτύ ηκε δεν έ ει υψη ές απαιτήσεις υ ικού. Μπορεί να στη εί σε κάποιον υπο ο ιστή ενιάς Pentium IV και νεότερο. Φυσικά εάν οι απαιτήσεις μας έ ουν να κάνουν με ένα σύστημα που α πρα ματοποιεί real time κατη οριοποίηση και εξα ή προσ ποποιημένης περί ηψης κειμέν ν είναι εύ ο ο να ρησιμοποιη εί ένα πιο σύ ρονο σύστημα στο οποίο η άση δεδομέν ν (η οποία και αποτε εί το bottleneck του συστήματος ό τ ν πο ών συνα α ών) α έ ει κα ύτερους ρόνους εξυπηρέτησης. Ο server ο οποίος εξυπηρετεί το σύστημα προτάσε ν ρίσκεται στο url και έ ει την παρακάτ σύν εση υ ικού (Πίνακας 5): 163

179 gcc [207] MySQL [150] apache [206] php [208] boost [33] cgicc [44] mysql [149] libcurl [127] expat [67] xerces [222] libstemmer [129] gd r3 [74] htmltidy r1 [96] icu r1 [98] libpng [128] openssl-1.0.1c [165] aspell [85] wordnet-3.0-r3 [220] Πίνακας 4: Σύν εση υ ικού ια ανάπτυξη του συστήματος CPU RAM Hard Disk Intel(R) Xeon(R) CPU E GHz 6GB 300GB, 7200rpm Πίνακας 5: Σύν εση υ ικού του εξυπηρετητή του συστήματος προτάσε ν άρ ρ ν νέ ν

180 ΚΕΦΑΛΑΙΟ 7 ΑΞΙΟΛΟΓΗΣΗ ΑΛΓΟΡΙΘΜΩΝ ΚΑΙ ΥΠΟΣΥΣΤΗΜΑΤΩΝ Wise men speak because they have something to say; fools because they have to say something. Plato, Greek Philosopher, 428 BC Στο κεφά αιο αυτό παρουσιάζεται η πειραματική διαδικασία που πρα ματοποιή ηκε σε σ έση με τα διάφορα υποσυστήματα του μη ανισμού που αναπτύ ηκαν ή ε τιώ ηκαν στη διδακτορική διατρι ή. Κά ε ε τί ση αξιο ο είται αυτόνομα κα ώς και συνο ικά με το σύστημα προτάσε ν σε π ήρη ειτουρ ία. Σημαντικό είναι ίσ ς να αναφερ εί ότι τα πειραματικά αποτε έσματα του παρόντος κεφα αίου παρουσιάζονται με νοηματική σειρά σε σ έση με το υποσύστημα που α ίζουν, ό ι με τη σειρά που εκτε έστηκαν. 165

181

182 7.1 Υποσύστημα Προεπεξερ ασίας κειμένου Στην παρούσα ενότητα παρουσιάζουμε την πειραματική διαδικασία που αφορά στην αξιο ό ηση του υποσυστήματος προεπεξερ ασίας κειμένου, σε σ έση με τις α α ές που έ ιναν σε αυτό στα π αίσια της διδακτορικής διατρι ής Αξιοποίηση n-grams Για την αξιο ό ηση της επίπτ σης που έ ει η αξιοποίηση τ ν n-grams έξε ν από τα άρ ρα νέ ν στις διαδικασίες του συστήματος, εκτε έσαμε ορισμένα offline πειράματα με άση π ηροφορία που υπήρ ε ήδη στη ΒΔ του συστήματος. Πιο συ κεκριμένα, προσπα ούμε να εντοπίσουμε τυ όν ε τί ση στην αποτε εσματικότητα του W-kmeans α ορί μου συσταδοποίησης όταν ρησιμοποιούμε τα εξα όμενα n-grams Σύνο ο δεδομέν ν Το σύνο ο δεδομέν ν μας αποτε είται από άρ ρα νέ ν που συ έ ηκαν σε διάστημα 5 μηνών από διάφορα news portals του διαδικτύου (BBC, CNN, κ. π.). Τα άρ ρα αυτά επι έ- ηκαν ώστε να είναι ομοιόμορφα μοιρασμένα μεταξύ τ ν 8 κατη οριών του συστήματος προτάσε ν: business, politics, health, education, science, sports, technology και entertainment. Ο ομοιόμορφος διαμοιρασμός τ ν άρ ρ ν έ ινε προκειμένου να αποφύ ουμε τυ ών προκατα ήψεις ή στατιστικές αν μα ίες που έ ουν να κάνουν πι ανά με συ κεκριμένες κατη ορίες άρ ρ ν. Ως μετρική αξιο ό ησης ρησιμοποιήσαμε τον δείκτη συσταδοποίησης, CI, όπ ς αυτός περι ράφηκε στην ενότητα Αποτε έσματα και ανά υση Για το πρώτο μας πείραμα, προσπα ήσαμε να εντοπίσουμε την κα ύτερη τιμή n ια τα δεδομένα μας, δη αδή μέ ρι ποιο μέ ε ος παρά υρου έξε ν α πρέπει να κρατάμε κατά τον εντοπισμό n- grams ια να έ ουμε τα κα ύτερα αποτε έσματα σε σ έση με τις CI τιμές. Για την περίπτ ση αυτή, αυ αίρετα έσαμε στις σ έσεις 37 και 38 A = B = 0.5 δίνοντας έτσι την ίδια αρύτητα τόσο στην στα εξα όμενα keywords όσο και στα n-grams (η επι ο ή κατα η ότερ ν τιμών συζητείται σε επόμενο πείραμα), και στη συνέ εια δοκιμάσαμε διάφορες τιμές n όπου 2 n 6. Για κά ε τιμή n, τρέξαμε την διαδικασία συσταδοποίησης του α ορί μου W-kmeans (α όρι μος 2) 10 φορές, με διαφορετικές αρ ικές ανα έσεις κά ε φορά, πρα ματοποιώντας έτσι ένα πείραμα 10 περασμάτ ν (10-pass experiment). Τα αποτε έσματα ια τις διάφορες τιμές n φαίνονται στο σ ήμα 18. Από τις τιμές CI που απεικονίζονται στο σ ήμα 18 μπορούμε να δούμε ότι ια n = 3, δη αδή όταν κρατάμε 3-grams ια την ζύ ιση τ ν άρ ρ ν, η απόδοση του α όρι μου W-kmeans αυξάνεται κατά μέσο όρο 0.3 όσον αφορά τις παρα όμενες συστάδες. Η σύ κριση αυτή ίνεται σε σ έση με την περίπτ ση αξιοποίησης μόνο τ ν εξα όμεν ν keywords (περίπτ ση n = 1 στο σ ήμα

183 7.1. Υποσύστημα Προεπεξεργασίας κειμένου Κεφάλαιο 7 Σ ήμα 18: Η επίδραση της αξιοποίησης τ ν n-grams στην διαδικασία συσταδοποίησης ια διάφορες τιμές του n 18). Το αποτέ εσμα αυτό είναι μά ιστα σε συμφ νία με ότι έ ει παρατηρη εί σε προη ούμενες ερ ασίες, π.. [72]. Για n = 4 έπουμε ακόμη μία αύξηση στην απόδοση του α ορί μου σε σ έση με την περίπτ ση που δεν αμ άνονται κα ό ου υπόψιν τα n-grams. Η περαιτέρ αύξηση του παρα ύρου n φαίνεται να έ ει αρνητική επίπτ ση στην απόδοση του W-kmeans, κάτι που μπορεί να ερμηνευ εί ς εξής: με α ύτερα παρά υρα κατά την εξα ή n-grams σημαίνουν ότι n-grams που τυ αία εμφανίζονται μαζί σε με α ύτερες ακο ου ίες ζυ ίζονται περισσότερο απ ότι πρέπει, μία κατάσταση που πι ανά έ ει αρνητική επίπτ ση στην συνο ική ζύ ιση (δεδομένης της τυ αιότητας αυτών). Μία ακόμη ενδιαφέρουσα παρατήρηση από το παραπάν πείραμα είναι ότι ια n = 2, τα αποτε έσματα είναι ε αφρώς ειρότερα από την περίπτ ση που δεν ρησιμοποιούμε κα ό ου n-grams στο ζύ ισμα. Η εκτίμηση μας ια αυτό είναι ότι οφεί εται στην εξα ή μη ρήσιμ ν n-grams όταν n = 2, αφού πρά ματι παρατηρήσαμε ότι ια π η ώρα περιπτώσε ν, τα 2-grams που εξά ονταν, δεν εί αν κάτι παραπάν να προσφέρουν νοηματικά σε σ έση με την αναπαράσταση του κείμενου. Για το δεύτερο πείραμα αξιο ό ησης της επίδρασης τ ν n-grams, προσπα ήσαμε να κα ορίσουμε τις κα ύτερες τιμές ζύ ισης A και B όπ ς αυτές περι ράφονται στις σ έσεις 37 και 38. Έτσι, έτοντας n = 3 (δεδομένου του αποτε έσματος του προη ούμενου πειράματος), τρέξαμε 10 φορές τον α όρι μο W-kmeans κα ώς και τον k-means ια ό α τα δεδομένα και ια κά ε μία από τις αυξανόμενες τιμές, με ήμα 0.1, του B (και επομέν ς μειούμενες τιμές A μιας και A = 1 B), ενώ παρά η α κατα ράψαμε τις CI τιμές ια ό α τα περάσματα συσταδοποίησης. Οι μέσοι όροι τ ν τιμών CI απεικονίζονται στο σ ήμα 19. Όπ ς φαίνεται και στο σ ήμα 19, οι κα ύτερες CI τιμές προκύπτουν ια B = 0.3 και A = 0.7, δη αδή όταν τα n-grams συμμετέ ουν στη διαδικασία ζύ ισης κατά 30% ενώ το υπό οιπο 70% ανήκει στην ζύ ιση BOW. Είναι ενδιαφέρον επίσης ότι η απόδοση τ ν α ορί μ ν ρή ορα ει- 168

184 Κεφάλαιο Υποσύστημα Προεπεξεργασίας κειμένου Σ ήμα 19: Αποτε έσματα απόδοσης τ ν α ορί μ ν W-kmeans και k-means ια διάφορες τιμές ζυ ίσματος τ ν εξα όμεν ν n-grams ροτερεύει όσο το B αυξάνει, φτάνοντας την ειρότερη τιμή όταν B = 1, δη αδή όταν αμ άνονται υπόψιν μόνο τα εξα όμενα n-grams. Το προη ούμενο μπορεί να εξη η εί από το ε ονός ότι δεν έ ουν ό α τα άρ ρα ξε ριστά ή συ νά εμφανιζόμενα n-grams, είδικά τα μικρότερα σε μέ ε ος. Κατά συνέπεια σε αυτή την περίπτ ση όσο περισσότερο αμ άνουμε υπόψιν τα n-grams σε άρος τ ν keywords, τόσο ειροτερεύει η αναπαράσταση τ ν κειμέν ν από την εξα όμενη π ηροφορία (είτε keywords, είτε n-grams) και επομέν ς και οι CI τιμές τ ν αποτε εσμάτ ν. Μία ακόμα σημαντική παρατήρηση που μπορούμε εύκο α να κάνουμε είναι ότι ο W-kmeans εύκο α ξεπερνά σε απόδοση τον τυπικό k-means, ακόμη και ια την περίπτ ση που τα n-grams δεν αμ άνονται υπόψιν στην διαδικασία ζύ ισης. Για την ακρί εια, τα αποτε έσματα ήταν συνε ώς υπερ του W-kmeans ια κά ε τιμή της παραμέτρου B που δοκιμάσαμε. Αυτό αποτε εί μία κα ή ένδειξη ότι το ευρετικό της ρήσης τ ν υπερ νύμ ν του WordNet ρή ορα αποδίδει σε κά ε συνδυασμό ζύ ισης μεταξύ τ ν αρακτηριστικών του κειμένου (περισσότερα ια αυτό στα πειράματα που ακο ου ούν). Παρό α αυτά, οφεί ουμε να ομο ο ήσουμε ότι δεν έ ουμε κάποια εξή ηση ια τα σ εδόν ίδια αποτε έσματα όταν B = 0.9. Στην παρούσα φάση το αποδίδουμε στο ότι η εφαρμο ή κα ενός από τους δύο α ορί μους δεν έ ει ιδιαίτερη αξία όταν όταν σ εδόν μόνο τα n-grams τ ν κειμέν ν συμμετέ ουν στη ζύ ιση. Πρόκειται δη αδή ια μη αποτε εσματική αναπαράσταση τ ν δεδομέν ν ια κά ε περίπτ ση. Συμπερασματικά, α έ αμε ότι η εξα ή και η αξιοποίηση n-grams κατά την διαδικασία ζύ ισης τ ν άρ ρ ν έ ει αξιοσημεί τα οφέ η σε ότι έ ει να κάνει με την συσταδοποίησης άρ ρ ν νέ ν. Ως εκ τούτου, αναμένουμε και η απόδοση του συστήματος προτάσε ν να ενισ υ εί από αυτή την εξέ ιξη (περισσότερα ια αυτό σε επόμενη ενότητα του παρόντος κεφα αίου). 169

185 7.2. Συσταδοποίηση Κεφάλαιο Συσταδοποίηση Στην παρούσα ενότητα παρουσιάζουμε και ανα ύουμε τα πειραματικά αποτε έσματα που προέκυψαν από την διαδικασία αξιο ό ησης του υποσυστήματος συσταδοποίησης του συστήματος προτάσε ν που αναπτύ ηκε. Όπ ς έ ει αναφερ εί η συσταδοποίηση επιτυ άνεται σε δύο διαστάσεις: άρ ρ ν νέ ν και ρηστών Συσταδοποίηση άρ ρ ν νέ ν Ακο ου ούν τα πειράματα και τα αποτε έσματα που αφορούν στη συσταδοποίηση άρ ρ ν νέ ν. Πιο συ κεκριμένα, έ ινε αξιο ό ηση ορισμέν ν α ορί μ ν συσταδοποίσης ια τον τομέα τ ν άρ ρ ν νέ ν και στη συνέ εια αξιο ο ή ηκε και συ κρί ηκε με τους παραπάν ο α όρι μος W-kmeans Αξιο ό ηση ασικών α ορί μ ν ι ιο ραφίας Στα αρ ικά ήματα της διδακτορικής διατρι ής, αξιο ο ή ηκαν αρκετοί α όρι μοι συσταδοποίησης κα ώς και μετρικές ομοιότητας που υπάρ ουν στη ι ιο ραφία. Στό ος μας ήταν να εντοπίσουμε ποιος συνδυασμός α ορί μου/μετρικής ομοιότητας έδινε τα κα ύτερα αποτε έσματα ια την περίπτ ση που μας ενδιαφέρει: συσταδοποίηση άρ ρ ν νέ ν. Ένας σημαντικός παρά οντας που έ ει να κάνει με άρ ρα νέ ν ενικά, είναι τόσο η ποικι ομορφία όσο και η ομοιότητά τους ταυτό ρονα. Όταν ανακτούμε άρ ρα νέ ν από πο απ ά news portals, είναι αναμενόμενο να περιμένουμε, σε κάποιο α μό, ομοιότητα μεταξύ τους όσον αφορά το περιε όμενο, μιας και ο με- α ύτερος ό κος δημοσιευμέν ν άρ ρ ν αποτε ούν αναδημοσιεύσεις ά ν πη ών. Παρό α αυτά, είναι σημαντικό να μπορούμε να αντι αμ ανόμαστε προκατα ήψεις (biases) στα άρ ρα οι οποίες και φανερώνουν συνή ς διαφορετικές απόψεις. Επιπ έον, όταν έ ουμε να κάνουμε με κείμενα σε φυσική ώσσα, το π ή ος τ ν όρ ν τους οποίους μπορούμε να συναντήσουμε είναι πρακτικά απεριόριστοι, συ κριτικά π.. με την περίπτ ση της συσταδοποίησης ονιδί ν. Με ά α ό ια, σε ότι έ ει να κάνει με άρ ρα νέ ν από το διαδίκτυο, πρόκειται ια δεδομένα υψη ής διαστατικότητας και αραιή αναπαράσταση στο vector space μοντέ ο. Οι α όρι μοι και οι μετρικές ομοιότητας α πρέπει επομέν ς να ανταποκρίνονται αποτε εσματικά στα παραπάν προ ήματα Σύνο ο δεδομέν ν Για τα πειράματα που ακο ου ούν ρησιμοποιή ηκε ένα σύνο ο από άρ ρα νέ ν, τυ αία επι ε μένα, με προέ ευση από 50 διαφορετικά news portals και ρονικό εύρος δημοσίευσης 6 μηνών. Τα άρ ρα αυτά ανήκουν αποκ ειστικά σε μία από τις 8 ασικές κατη ορίες του συστήματός μας. Τυ ών διπ ά άρ ρα με διαφορετική προέ ευση αφαιρέ ηκαν ήδη από την ίστα με άση τόσο τον τίτ ο όσο και το περιε όμενο του κειμένου. 170

186 Κεφάλαιο Συσταδοποίηση Αποτε έσματα και ανά υση Σε αυτό το σύνο ο δεδομέν ν, εφαρμόσαμε τους εξής α ορί μους συσταδοποίησης που περι ράφηκαν στην ενότητα 3.7.1: ιεραρ ικοί: pairwise single linkage, όπου η κοντινότερη απόσταση μεταξύ δύο συστάδ ν αμ άνεται υπόψιν ς η δια-συσταδική απόσταση (ομοιότητα) pairwise maximum linkage, όπου η μακρινότερη απόσταση μεταξύ δύο συστάδ ν αμ- άνεται υπόψιν ς η δια-συσταδική απόσταση (ομοιότητα) pairwise average linkage, όπου ο μέσος όρος ό ν τ ν αποστάσε ν μεταξύ δύο συστάδ ν αμ άνεται υπόψιν ς η δια-συσταδική απόσταση (ομοιότητα) centroid linkage, όπου κά ε συστάδα αναπαρίσταται από το κέντρο της το οποίο υπο- ο ίζεται σε κά ε ήμα του α ορί μου. Η δια-συσταδική απόσταση (ομοιότητα) σε αυτή την περίπτ ση είναι η απόσταση μεταξύ τ ν κέντρ ν τ ν συστάδ ν διαμερισματικοί: k-means k-medians k-means++ Επιπ έον, ια κά ε έναν από τους παραπάν α ορί μους, εκτός από τον k-means++ (ο οποίος υποστηρίζει μόνο Ευκ είδεια απόσταση), ρησιμοποιήσαμε τις ακό ου ες μετρικές ομοιότητας: Ευκ είδεια απόσταση City-block / Manhattan απόσταση Απόσταση Pearson Ομοιότητα συνημιτόνου Απόσταση Spearman-rank Απόσταση Kendall s τ Για τους διαμερισματικούς α ορί μους ρησιμοποιήσαμε σ ήμα 10 περασμάτ ν με διαφορετικές αρ ικές συν ήκες κά ε φορά προκειμένου να αποφευ ούν τοπικά ε ά ιστα/μέ ιστα ό ανομοιο ένειας τ ν δεδομέν ν. Για την αξιο ό ηση της αποτε εσματικότητας της κά ε με οδο- ο ίας συσταδοποίησης, ρησιμοποιήσαμε την μετρική αξιο ό ησης CI ( έπε ενότητα ). Επιπ έον, ια τον κα ορισμό της ομοιότητας μεταξύ δύο άρ ρ ν, ρησιμοποιήσαμε τον πίνακα αποστάσε ν που παρά εται από την εκάστοτε μετρική ομοιότητας. 171

187 7.2. Συσταδοποίηση Κεφάλαιο 7 Τα αποτε έσματα ια κά ε με οδο ο ία συσταδοποίησης και μετρικής ομοιότητας ια π ή η συστάδ ν από 100 έ ς 1000, αποτυπώνονται στα σ ήματα Στο πείραμα αυτό δεν ρησιμοποιή ηκαν ό α τα keywords τ ν κειμέν ν παρά μόνο οι ρίζες (stemmed) τ ν ουσιαστικών αυτών. Οι συμ ο ισμοί που ρησιμοποιούνται στις ραφικές παραστάσεις τ ν εν ό σ ημάτ ν ια τις ιεραρ ικές με όδους φαίνονται στον πίνακα 6 Είδος απόστασης Pairwise Maximum (complete) linkage Pairwise Single linkage Pairwise Centroid linkage Pairwise Average linkage Συμ ο ισμός PCL PSL PKL PAL Πίνακας 6: Σημειο ραφία ιεραρ ικής συσταδοποίησης 172

188 Κεφάλαιο Συσταδοποίηση Σ ήμα 20: Αποτε έσματα συσταδοποίησης με ρήση της Ευκ είδειας απόστασης 173

189 7.2. Συσταδοποίηση Κεφάλαιο 7 Σ ήμα 21: Αποτε έσματα συσταδοποίησης με ρήση της απόστασης συνημιτόνου 174

190 Κεφάλαιο Συσταδοποίηση Σ ήμα 22: Αποτε έσματα συσταδοποίησης με ρήση της απόστασης Pearson 175

191 7.2. Συσταδοποίηση Κεφάλαιο 7 Σ ήμα 23: Αποτε έσματα συσταδοποίησης με ρήση της απόστασης Spearman 176

192 Κεφάλαιο Συσταδοποίηση Σ ήμα 24: Αποτε έσματα συσταδοποίησης με ρήση της απόστασης Kendals τ 177

193 7.2. Συσταδοποίηση Κεφάλαιο 7 Σ ήμα 25: Αποτε έσματα συσταδοποίησης με ρήση της απόστασης City-block 178

194 Κεφάλαιο Συσταδοποίηση Από τις ραφικές τ ν σ ημάτ ν 20-25, φαίνεται ότι ο α όρι μος k-means σ εδόν πάντα ξεπερνά κά ε ά η προσέ ιση συσταδοποίησης. Επιπ έον, η ομοιότητα συνημιτόνου και η Ευκ είδεια απόσταση αποδεικνύονται κα ύτερες ια τον k-means μιας και οι συστάδες σε αυτή την περίπτ ση είναι κα ύτερα συνδεδεμένες, σε σ έση π.. με την απόσταση City-block η οποία φαίνεται να ταιριάζει κα ύτερα στον α όρι μο k-medians. Για την ακρί εια, ο k-means ξεπερνά τις ά ες προσε ίσεις ια την Ευκ είδεια απόσταση, την ομοιότητα συνημιτόνου, την απόσταση Spearman και την απόσταση Kendall s. Αντί- ετα ο k-medians είναι κα ύτερος ια την απόσταση city-block και ο ιεραρ ικός Pairwise Centroid linkage είναι κα ύτερος ια την απόσταση Pearson. Ά η μία παρατήρηση που μπορούμε να κάνουμε, είναι ότι το π ή ος τ ν συστάδ ν επηρεάζει άμεσα την μετρική CI και μετά από ένα συ κεκριμένο όριο συστάδ ν, κά ε α όρι μος φαίνεται να ειροτερεύει σε ότι έ ει να κάνει με την CI. Για παράδει μα, η κα ύτερη τιμή CI ια την περίπτ ση τ ν διαμερισματικών α ορί μ ν παρατηρείται ια τον k-means και την ομοιότητα συνημιτόνου και 100 συστάδες, ακο ου ούμενη από τον συνδυασμό k-means, Ευκ είδειας απόστασης και 200 συστάδ ν. Οι κα ύτερες CI τιμές ια τους ιεραρ ικούς α ορί μους παρατηρούνται ια τον Pairwise Centroid linkage α όρι μο και την απόσταση Pearson. Για τις περισσότερες μετρικές ομοιότητας πάντ ς παρατηρήσαμε αμη ότερες τιμές CI ια τους ιεραρ ικούς α ορί μους σε σ έση με τους διαμερισματικούς. Αυτό μά ον προκύπτει από τον συνή ς προ ηματικό τρόπο με τον οποίο οι α όρι μοι αυτοί ενερ ούν ενώ κό ουν το δενδρό ραμμα: παρατηρήσαμε πο ές συστάδες με μόνο 1 στοι είο (singletons) και ί ες συστάδες με πο ά στοι εία, κάτι που ενικά οδη ούσε σε πο ύ αμη ές τιμές CI. Σε ότι έ ει να κάνει με τις διαμερισματικές με οδο ο ίες, ο k-means φάνηκε κα ύτερος από τον k-medians α ά ακόμη και από τον k-means++ (Ευκ είδεια απόσταση μόνο), ο οποίος φαίνεται να ειροτερεύει σύντομα κα ώς το π ή ος τ ν συστάδ ν αυξάνει. Επιπ έον, όπ ς φαίνεται και στο σ ήμα 26, ο k-means++ είναι σημαντικά πιο αρ ός σε σ έση με τους υπο οίπους της ίδιας οικο ένειας α ορί μ ν ια δεδομένο π ή ος συστάδ ν. Για το επόμενο πείραμά μας, προσπα ήσαμε να αξιο ο ήσουμε την επίδραση της εξα ής τ ν ουσιαστικών τ ν κειμέν ν στην διαδικασία συσταδοποίησης. Για το ό ο αυτό, επανα ά αμε την παραπάν πειραματική διαδικασία ρίς να ρησιμοποιήσουμε αυτή τη φορά μόνο τις ρίζες (stemmed) τ ν ουσιαστικών του κειμένου, όπ ς αυτά προκύπτουν από την διαδικασία προεπεξερ- ασίας ( ρησιμοποιούμε δη αδή ό α τα keywords του κειμένου). Η μέση μετα ο ή τ ν CI τιμών που προέκυψαν παρουσιάζονται στον πίνακα 7 Εμφανώς, η διαδικασία του stemming και εξα ής τ ν ουσιαστικών τ ν άρ ρ ν έ ει ένα πο ύ φέ ιμο αποτέ εσμα ια ό ες τις εφαρμοζόμενες με οδο ο ίες, ειδικά δε ια τον α όρι μο k- means, κάτι που εν μέρει εξη εί και τα αποτε έσματα τ ν προη ούμεν ν ραφικών παραστάσε ν (όπου εφαρμόζεται η εξα ή ουσιαστικών). 179

195 7.2. Συσταδοποίηση Κεφάλαιο 7 Σ ήμα 26: Χρόνοι εκτέ εσης διαμερισματικών α ορί μ ν σε σ έση με τα π ή η συστάδ ν Με οδο ο ία συσταδοποίησης Ποσοστιαία μετα ο ή CI PCL +5% PSL +6% PKL +5% PAL +5% k-means +18% k-medians +16% k-means++ +15% Πίνακας 7: Επίδραση της εξα ής ουσιαστικών και stemming στις με οδο ο ίες συσταδοποίησης Παρότι οι μετρικές αξιο ό ησης όπ ς το CI μπορεί να είναι ικανές να δείξουν μία ενική τάση της απόδοσης τ ν τε νικών συσταδοποίησης που αξιο ο ήσαμε, δεν μπορούν πο ές φορές όμ ς να αποτυπώσουν την πρακτική αξία ή την ικανοποίηση τ ν ρηστών. Κατά συνέπεια, ια το επόμενο πείραμά μας, εφαρμόσαμε μία ενα ακτική προσέ ιση η οποία ασίζεται σε αξιο ό- ηση τ ν παρα όμεν ν αποτε εσμάτ ν από τους ίδιους τους ρήστες. Προκειμένου οιπόν να αξιο ο ήσουμε την ποιότητα τ ν παρα όμεν ν συστάδ ν, ζητήσαμε από ένα σύνο ο 10 ρηστών του συστήματος να επιτε έσουν το έρ ο της ειροκίνητης συσταδοποίησης σε ένα μικρό υποσύνο ο από τα αρ ικά μας δεδομένα. Πιο συ κεκριμένα, το ζητούμενο από τους ρήστες ήταν να τοπο ετήσουν 50 τυ αία επι ε μένα άρ ρα σε 10 συστάδες με άση την προσ πική τους και μόνο άποψη. Στη συνέ εια, ά αμε τον μέσο όρο τ ν επι ο ών τους και συ κρίναμε τα αποτε- έσματα με τα περάσματα συσταδοποίησης ια κά ε μία από τις προη ούμενες με οδο ο ίες με ρήση της ομοιότητας Ευκ είδειας απόστασης. Το κριτήριο αξιο ό ησης σε αυτή την περίπτ ση είναι το F-measure ( έπε ενότητα ), δη αδή ο ζυ ισμένος αρμονικός μέσος της ακρί ειας 180

196 Κεφάλαιο Συσταδοποίηση και ανάκ ησης μεταξύ τ ν επι ο ών τ ν ρηστών και τ ν αποτε εσμάτ ν τ ν α ορί μ ν. Τα αποτε έσματα που φαίνονται στον πίνακα 8 φανερώνουν ότι ακόμα και από την μεριά τ ν ρηστών, οι συστάδες που προκύπτουν από τον k-means είναι ε ύτερα στις επι ο ές που οι περισσότεροι ρήστες έκαναν ια το επι ε μένο υποσύνο ο από άρ ρα. Μά ιστα η μέση τιμή 0.61 είναι αρκετά ικανοποιητική δεδομένης της απ ότητας του k-means α ορί μου. Με οδο ο ία συσταδοποίησης F-measure PCL 0.42 PSL 0.42 PKL 0.43 PAL 0.41 k-means 0.61 k-medians 0.57 k-means Πίνακας 8: Αξιο ό ηση τ ν με οδο ο ιών συσταδοποίησης σε σ έση με την συσταδοποίηση τ ν ίδι ν τ ν ρηστών Συνοπτικά α έ αμε ότι από τα αποτε έσματα του σύνο ου τ ν προαναφερ έντ ν πειραμάτ ν, ο συνδυασμός του α ορί μου k-means με την μετρική ομοιότητας συνημιτόνου, ουσιαστικά ο α όρι μος S-kmeans (ενότητα ), αποδεί ηκε ς η κα ύτερη επι ο ή ια το σύνο ο τ ν δεδομέν ν πάν στα οποία έτρεξαν. Το αποτέ εσμα αυτό αξιοποιή ηκε ια την συνέ εια της ερευνητικής δραστηριότητας της διδακτορικής διατρι ής Αξιο ό ηση W-kmeans Ο α όρι μος W-kmeans, όπ ς προείπαμε, ασίζεται στον κ ασικό α όρι μο k-means (Skmeans ια την ακρί εια), αξιοποιώντας την επιπ έον νώση υπερ νύμ ν του WordNet. Έ ει επιπ έον νόημα η απευ είας σύ κριση τ ν αποτε εσμάτ ν που παρά ουν οι δύο α όρι μοι προκειμένου να κατανοήσουμε την ε τί ση που επιφέρουν οι εφαρμοζόμενες τε νικές Σύνο ο δεδομέν ν Για την αξιο ό ηση του α ορί μου ρησιμοποιήσαμε ένα σύνο ο από άρ ρα νέ ν που το σύστημά μας ανέκτησε από news portals όπ ς το bbc.com, cnn.com, κ π. σε ένα ρονικό εύρος 2 μηνών. Τα άρ ρα αυτά ήταν ομοιόμορφα κατανεμημένα στις 8 ασικές κατη ορίες του συστήματος. Ως μετρική αξιο ό ησης ρησιμοποιή ηκε η CI ( έπε ενότητα ) Αποτε έσματα και ανά υση Για το πρώτο μας πείραμα, τρέξαμε τόσο τον α όρι μο k-means όσο και τον W-kmeans ια το σύνο ο δεδομέν ν μας και υπο ο ίσαμε τις CI τιμές τ ν παρα όμεν ν αποτε εσμάτ ν με 181

197 7.2. Συσταδοποίηση Κεφάλαιο 7 ε εύ ερες μετα ητές τις μετα α όμενες κατη ορίες, το π ή ος τ ν άρ ρ ν κα ώς και το π ή ος τ ν συστάδ ν. Για τα αποτε έσματα που φαίνονται στις ραφικές παραστάσεις του σ ήματος 27, το πάν σύνο ο ραμμών δίνει τις CI τιμές ια την περίπτ ση τ ν εκτε έσε ν με αξιοποίηση του WordNet (W-kmeans), ενώ το κάτ σύνο ο ραμμών αφορά τον k-means α όρι μο. Σ ήμα 27: Σύ κριση W-kmeans και k-means ια διάφορες κατη ορίες και π ή η άρ ρ ν Όπ ς φαίνεται ξεκά αρα από το σ ήμα 27, η ποιότητα της συσταδοποίησης (όσον αφορά την μετρική CI) του W-kmeans είναι αισ ητά ε τι μένη σε σ έση με τον απ ό k-means α όρι μο. Κάτι που μά ιστα παρατηρείται ανεξάρτητα από το π ή ος τ ν άρ ρ ν ή της κατη ορίας που αυτά ανήκουν. Το παραπάν αποτε εί μία επι ε αί ση της αρ ικής μας υπό εσης ότι η ρήση εξ τερικής νώσης ( αρακτηριστικών) της Α ικής ώσσας, μπορεί να είναι εξαιρετικά ρήσιμη όσον αφορά την συσταδοποίηση. 182

198 Κεφάλαιο Συσταδοποίηση Μία ακόμη παρατήρηση που μπορούμε να κάνουμε από το σ ήμα 27, είναι ότι όσο το π ή ος τ ν άρ ρ ν αυξάνει, η διαφορά τ ν τιμών CI μεταξύ W-kmeans και k-means αυξάνει επίσης. Θε ρούμε ότι αυτό συμ αίνει διότι όσο με α ώνει το εύρος τ ν δεδομέν ν, τόσο αυξάνει και η πι ανότητα εμφάνισης υπερ νύμ ν μεταξύ τους. Επομέν ς, όσο με α ύτερο το dataset, τόσο με α ύτερη και η πι ανότητα του α ορί μου W-kmeans να παρά ει συστάδες με κα ύτερη συνεκτικότητα και περισσότερο διακριτές μεταξύ τους. Επιπ έον, στο σ ήμα 28 απεικονίζονται οι τιμές CI (μέσος όρος) ια αυξανόμενο π ή ος συστάδ ν σε ό ες τις κατη ορίες ( ια τα ίδια άρ ρα). Η ε τί ση, όπ ς και πριν, είναι περίπου 10 φορές κα ύτερες CI τιμές σε σ έση με τον κ ασικό k-means (οι κ ίμακες στον άξονα y τ ν σ ήματ ν 27 και 28 είναι ο αρι μικές). Επίσης ια το συ κεκριμένο dataset παρατηρήσαμε ότι ια την περίπτ ση τ ν 50 συστάδ ν, οι τιμές CI είναι σ ετικά ε τι μένες σε σ έση με τις υπό οιπες τιμές π ή ους συστάδ ν. Το παραπάν αποτέ εσε μία σαφή ένδειξη ια το πρα ματικό π ή ος συστάδ ν τ ν δεδομέν ν το οποίο πρά ματι στη συνέ εια επι ε αιώσαμε ότι ήταν 51 συστάδες. Στη συνέ εια, προ ρήσαμε σε ένα ακόμη πείραμα προκειμένου να συ κρίνουμε τον W-kmeans με state of the art ερ α εία συσταδοποίησης που υπάρ ουν δια έσιμα online, πιο συ κεκριμένα, τα CLUTO [112] και SenseClusters [175]. Χρησιμοποιήσαμε το ίδιο dataset με πριν και το κριτήριο αξιο ό ησης CI. Το π ή ος τ ν συστάδ ν στα δεδομένα μας τέ ηκε ς 50. Για την περίπτ ση του CLUTO, ο μέσος όρος του CI ια ό ες τις 5 προσε ίσεις που προσφέρει (4 διαμερισματικές και 1 ιεραρ ική) υπο ο ίστηκε. Τα αποτε έσματα της πειραματικής διαδικασίας φαίνονται στον πίνακα 9 όπου επίσης κατα ράφονται και οι ρόνοι εκτέ εσης που απαιτή ηκαν ια κά ε μία από τις προαναφερ είσες προσε ίσεις. Προσέ ιση συσταδοποίησης CI Χρόνος εκτέ εσης (δευτερό επτα) CLUTO (μέσος όρος τ ν 5 προσε ίσε ν) SenseCluster W-kmeans Πίνακας 9: Σύ κριση του W-kmeans με CLUTO και SenseCluster σε σ έση με CI και ρόνο εκτέ εσης. Από τα αποτε έσματα του πίνακα 9 έπουμε ότι ο W-kmeans παρέ ει αποτε έσματα συσταδοποίησης που υπερτερούν τ ν υπο οίπ ν προσε ίσε ν όσον αφορά τις τιμές CI, ειδικά σε σ έση με το SenseCluster. Παρά η α οι ρόνοι εκτέ εσης είναι σημαντικά μικρότεροι σε σ έση με ό ες τις προαναφερ είσες με οδο ο ίες, κάτι που μά ον έ ει να κάνει με την απ ή φύση του α ορί μου. 183

199 7.2. Συσταδοποίηση Κεφάλαιο 7 Σ ήμα 28: Σύ κριση W-kmeans και k-means ια συσταδοποίηση άρ ρ ν νέ ν και ια διάφορα π ή η συστάδ ν 184

200 Κεφάλαιο Συσταδοποίηση Αξιο ό ηση ονοματοδοσίας συστάδ ν Στην συνέ εια, προ ρήσαμε σε πειραματική αξιο ο ήση της αποτε εσματικότητας της διαδικασίας ονοματοδοσίας συστάδ ν που επιτε εί ο α όρι μος W-kmeans Σύνο ο δεδομέν ν Προς αυτή την κατεύ υνση αξιοποιήσαμε το προη ούμενο dataset (8.000 άρ ρα νέ ν) το οποίο και περάσαμε από τον α όρι μο W-kmeans με ζητούμενο π ή ος συστάδ ν ίσο με το π ή ος τ ν κατη οριών του συστήματος (8). Μιας και ν ρίζουμε εκ τ ν προτέρ ν ότι τα άρ ρα ανήκουν σε κάποια από τις 8 κατη ορίες, συ κρίναμε τις ετικέτες που προέκυψαν με ίστες από keywords που παράξαμε από τις κατη ορίες αυτές κα αυτές. Οι ίστες αυτές περιεί αν: τα 10 πιο συ νά keywords της κά ε κατη ορίας το όνομα της εκάστοτε κατη ορίας Οι ετικέτες που έπεφταν κοντά (π.. συνώνυμα ή παρά α) στα περιε όμενα αυτών τ ν ιστών, αξιο ο ούνταν ς αντιπροσ πευτικές (επιτυ ής ονοματοδοσία). Ό ες οι υπό οιπες, αξιο ο ούνταν ς ανεπιτυ είς επι ο ές ονοματοδοσίας (miss) Αποτε έσματα και ανά υση Με άση τα παραπάν, αξιο ο ήσαμε την ακρί εια τ ν παρα όμεν ν ετικετών σε σ έση με την εκάστοτε κατη ορία τ ν άρ ρ ν. Η μετρική επομέν ς που ρησιμοποιήσαμε είναι αυτή της ακρί ειας που ανα ύ ηκε στην ενότητα Η ακρί εια οιπόν της ονοματοδοσίας i και της αναφερόμενης κατη ορίας j ορίζεται ς: P r i,j = avg_rank(i, j) a a + b όπου avg_rank(i, j) η μέση κατάταξη που έ ει η ετικέτα i στην συνο ική ίστα της κατη ορίας j, a το π ή ος τ ν όρ ν που η διαδικασία ονοματοδοσίας i έ ει ια την κατη ορία j και b το π ή ος τ ν όρ ν που η διαδικασία ονοματοδοσίας i έ ει α ά δεν είναι στην j. Τα αποτε έσματα ανά κατη ορία παρουσιάζονται στον πίνακα 10. Από αυτά έπουμε ότι το συνο ικό ποσοστό ακρί ειας τ ν παρα όμεν ν συστάδ ν α ίζει κατά μέσο όρο το 75%. Το παραπάν ποσοστό μά ιστα ίσ ς να ήταν ακόμη κα ύτερο, αν οι κατη ορίες επιστήμη και τε νο ο ία ενώνονταν μιας και παρατηρή ηκε ότι εμφάνιζαν σ ετικά κοντινές ετικέτες. Συνο ικά, από τα πειραματικά αποτε έσματα που παρουσιάστηκαν στην παρούσα ενότητα, α έ αμε ότι ξεκινώντας από τον S-kmeans α όρι μο, ο W-kmeans, αξιοποιώντας την εξ τερική νώση από το WordNet, παρουσιάζει σημαντικά ε τι μένα αποτε έσματα σε ότι έ ει να κάνει με τις παρα όμενες συστάδες, ενώ παρά η α υπερτερεί από άποψη ρόνου εκτέ εσης σε σ έση με τα συ κρινόμενα ερ α εία συσταδοποίησης. Τα αποτε έσματα αυτά ήταν άκρ ς εν αρρυντικά ια την πορεία της διδακτορικής έρευνας και μας οδή ησαν ουσιαστικά στην ενσ μάτ ση του α ορί μου στο συνο ικό σύστημα προτάσε ν. (57) 185

201 7.2. Συσταδοποίηση Κεφάλαιο 7 Κατη ορία Ακρί εια Business 85% Entertainment 78% Health 90% Politics 88% Science 65% Technology 60% Education 75% Sports 90% Πίνακας 10: Αποτε έσματα ακρί ειας της ονοματοδοσίας συστάδ ν του W-kmeans ανά κατη ορία Συσταδοποίηση ρηστών Για την αξιο ό ηση του α ορί μου W-kmeans όσον αφορά την συσταδοποίηση ρήστ ν, εκτε έστηκαν ορισμένα πειράματα τα οποία και περι ράφονται στα επόμενα Σύνο ο δεδομέν ν Το σύνο ο δεδομέν ν ια τα πειράματα που ακο ου ούν αποτε είται από άρ ρα νέ ν από news portals τα οποία ανακτή ηκαν σε εύρος 6 μηνών. Αυτά τα άρ ρα ήταν ομοιόμορφα κατανεμημένα ανάμεσα στις 8 ασικές κατη ορίες του συστήματός μας. Για κα ένα από αυτά τα άρ ρα, το αποτέ εσμα της προεπεξερ ασίας ήταν stemmed ουσιαστικά. Εκτός από τα παραπάν, αξιοποιήσαμε και τα πρότυπα π οή ησης τα οποία κατα ράφηκαν ια 50 ε ε ραμμένους ρήστες του συστήματος την ίδια ρονική περίοδο. Για κά ε ρήστη κρατήσαμε τα επι ε μένα άρ ρα κα ώς και τον ρόνο που ξόδεψαν δια άζοντας το κα ένα, όπ ς ακρι ώς περι ράφεται στον α όρι μο 5, εξά οντας έτσι τις συνεδρίες από τα ιστορικά π οή ησής τους. Ως μετρικές αξιο ό ησης ρησιμοποιή ηκαν η CI (ενότητα ) και το F-measure (ενότητα ) Αποτε έσματα και ανά υση Για το πρώτο μας πείραμα, συ κρίναμε τους α όρι μους W-kmeans και k-means όσον αφορά την εφαρμο ή τους στην συσταδοποίηση ρηστών. Πιο συ κεκριμένα, τρέξαμε τον κά ε α όρι μο ια ό α τα δεδομένα τ ν συνεδριών ρηστών, κα ώς και πο απ ές τιμές π ή ους συστάδ ν. Τα αποτε έσματα συσταδοποίησης τ ν εξα όμεν ν συνεδριών, που φαίνονται στο σ ήμα 29, δεί νουν ότι ο W-kmeans είναι σαφώς αποτε εσματικότερος του k-means, παρέ οντας έτσι, του- ά ιστον σε ότι έ ει να κάνει το CI, συστάδες πο ύ κα ά συνδεδεμένες μεταξύ τους. Ως ο- ική συνέπεια του παραπάν, οι παρα όμενες συστάδες μπορούν να αποτυπώσουν με με α ύτερη ακρί εια ρήστες με παρόμοια ενδιαφέροντα, ενώ παρά η α δια ρίζουν επιτυ ώς ρήστες με αντικρουόμενα ενδιαφέροντα. Στη συνέ εια προσπα ήσαμε να μετρήσουμε την επίδραση της συσταδοποίησης ρηστών σε ότι έ ει να κάνει με τις προτάσεις του συστήματος. Έτσι, το σ ήμα 30, απεικονίζει τα MAE αποτε έ- 186

202 Κεφάλαιο Συσταδοποίηση Σ ήμα 29: Σύ κριση W-kmeans και k-means ια συσταδοποίηση συνεδριών ρηστών και διάφορα π ή η συστάδ ν σματα που αποκομίσαμε κα όσον πέρνα αν οι μέρες, όταν τόσο η συσταδοποίηση άρ ρ ν νέ ν όσο και η συσταδοποίηση ρηστών εφαρμόζεται ια την διαδικασία παρα ής προτάσε ν. Μπορούμε να παρατηρήσουμε ότι η εφαρμο ή της συσταδοποίησης ρηστών οδη εί σε σημαντική μεί ση τ ν τιμών ΜΑΕ τ ν προτάσε ν. Πιο συ κεκριμένα, έπουμε ότι όσο οι ρήστες διά αζαν ο οένα και περισσότερα άρ ρα και το προφί τους διαμορφ νόταν, οι τιμές ΜΑΕ μειώνονται. Το παραπάν είναι α η ές τόσο όταν η συσταδοποίηση ρηστών εφαρμόζεται, όσο και όταν δεν εφαρμόζεται. Η πρακτική αξία της προαναφερ είσας παρατήρησης είναι ότι οι προτάσεις που παρέ ονταν στους ρήστες ήταν, με αυξανόμενη τάση, ακρι είς δεδομένου ότι οι ρήστες επέ ε αν να τις δια άσουν. Επίσης, με το να αμ άνεται υπόψιν και η π ηροφορία συσταδοποίησης ρηστών, οι τιμές ΜΑΕ τ ν προτάσε ν άρ ρ ν νέ ν σε σ έση με τις πρα ματικές επι ο ές τ ν ρηστών μειώ ηκαν κατά μέσο όρο 15%, συ κρινόμενες με την περίπτ ση που η συσταδοποίηση ρηστών δεν εφαρμοζόταν. Το παραπάν είναι πιο σαφές από την ραφική παράσταση ιδί ς τις πρώτες μέρες του πειράματος, όταν τα προφί ρηστών δεν ήταν ακόμη σαφή. Παρό α αυτά όμ ς, ακόμα και όταν τα προφί τ ν ρηστών έφτασαν μία στα ερή κατάσταση, περί τις 45 ημέρες, οι ΜΑΕ τιμές ήταν επίσης πιο αμη ές όταν η συσταδοποίηση ρηστών αμ άνονταν υπόψιν. Για το επόμενο πείραμά μας, προσπα ήσαμε να εκτιμήσουμε την συνο ική ε τί ση του έ ει στον μη ανισμό παρα ής προτάσε ν η αξιοποίηση της π ηροφορίας συσταδοποίησης ρηστών. Για το ό αυτό, όσον αφορά την παρα ή προτάσε ν ρησιμοποιήσαμε τα ήματα που περι ράφονται στον α όρι μο 8. Για ρήστες που επιστρέφουν προτείναμε 10 από τα πιο συ νά ανα ν σμένα άρ ρα από τους ρήστες που ανήκουν στην ίδια συστάδα του ρήστη. Στη συνέ εια κατα ράψαμε ποια από τα προτεινόμενα άρ ρα δια άστηκαν από τον ρήστη μέσα σε ένα ρονικό 187

203 7.2. Συσταδοποίηση Κεφάλαιο 7 Σ ήμα 30: Τιμές MAE τ ν προτάσε ν του συστήματος με και ρίς την ρήση του W-kmeans 188

204 Κεφάλαιο Συσταδοποίηση ορίζοντα 30 επτών από την είσοδό του στο σύστημα. Η διαδικασία επανα ήφ ηκε ρίς την ρήστη της π ηροφορίας συσταδοποίησης ρηστών. Τα αποτε έσματα που παρουσιάζονται στο σ ήμα 31 δεί νουν τους μέσους όρους τ ν τιμών F-measure ια κά ε περίπτ ση και ια αυξανόμενο π ή ος ρηστών. Παρατηρούμε ότι η αποδοτικότητα τ ν προτάσε ν αυξάνει συνε ώς κα ώς ό ο και περισσότεροι ρήστες αμ άνονται υπόψιν από το σύστημα, κάτι που είναι αναμενόμενο δεδομέν ν τ ν αρακτηριστικών προσ ποποίησης του συστήματός μας. Στατιστικά, είδαμε ότι οι παρα όμενες προτάσεις ταιριάζουν στις επι ο ές ρήστη 7 στις 10 φορές, κάτι που κατά τη νώμη μας αποδεικνύει ότι η αξιοποίηση της π ηροφορίας συσταδοποίησης ρηστών μπορεί να επιφέρει σημαντικά οφέ η ια το σύστημα προτάσε ν και σε με α ύτερη κ ίμακα δεδομέν ν και ρηστών. Σ ήμα 31: Σύ κριση της απόδοσης του συστήματος προτάσε ν με ρήστη της π ηροφορίας συσταδοποίησης ρηστών και μη Όπ ς και πριν, ρησιμοποιώντας τα ίδια δεδομένα μετρήσαμε τις τιμές του F-measure με το πέρασμα του ρόνου είτε όταν μόνο η συσταδοποίηση άρ ρ ν νέ ν εφαρμοζόταν, είτε όταν και η συσταδοποίηση άρ ρ ν νέ ν και ρηστών εφαρμοζόταν. Από τα αποτε έσματα, τα οποία παρουσιάζονται στο σ ήμα 32, μπορούμε να παρατηρήσουμε ότι οι προτάσεις που κάνουν ρήση τ ν παρα όμεν ν συστάδ ν άρ ρ ν και ρηστών παρά ουν κατά μέσο όρο 0.1 κα ύτερες τιμές σε σ έση με το F-measure. Όπ ς και πριν, η ε τί ση ίνεται ακόμη κα ύτερη ύστερα από μερικές μέρες ρήσης του συστήματος. Αυτό έ ει δύο εξη ήσεις. Πρώτον, το σύστημα έ ει περισσότερα δεδομένα σ ετικά με τις προτιμήσεις και επι ο ές τ ν ρηστών, και δεύτερον, το σύστημα έ ει περισσότερο ρόνο να παράξει συστάδες με κα ύτερη συνο ή και ενικά πιο σ στές. Από το σ ήμα 32 μπορούμε επίσης να δούμε ότι περίπου στις 45 ημέρες οι προτάσεις φτάνουν στην κα ύτερη απόδοσή τους, αποκα ύπτοντας έτσι ότι, κατά μέσο όρο, τα προφί ρηστών έ ουν φτάσει σε μία 189

205 7.2. Συσταδοποίηση Κεφάλαιο 7 στα ερή φάση. Σ ήμα 32: F-measure τιμές τ ν προτάσε ν του συστήματος με και ρίς την ρήση του W-kmeans Στη συνέ εια και ια το επόμενο πείραμά μας, προσπα ήσαμε να εκτιμήσουμε την απόδοση της προτεινόμενης με οδο ο ίας συσταδοποίσης ρηστών όσον αφορά τις παρα όμενες προτάσεις προς τον ρήστη, σε σύ κριση με state of the art με οδο ο ίες που αξιοποιούνται στον τομέα του CF, όπ ς latent semantic CF, neighbor-based CF, κα ώς και τε νικές μεί σης διαστατικότητας (SVD). Τα αποτε έσματα ια το ίδιο σύνο ο δεδομέν ν με πριν, παρουσιάζονται στον πίνακα 11 και δεί νουν ότι η προσέ ιση συσταδοποίησης W-kmeans είναι σ εδόν τόσο αποτε εσματική όσο και τε νικές μεί σης διαστατικότητας (SVD), ενώ υπερτερεί τ ν Latent semantic CF και Neighbor-based CF. 190

206 Κεφάλαιο Πρόβλημα νέου χρήστη Με οδο ο ία CF Μέσος όρος F-measure ια ό ους τους ρήστες W-kmeans 0.45 Latent semantic CF 0.4 Neighbor-based CF 0.35 SVD 0.5 Πίνακας 11: Σύ κριση με οδο ο ιών CF 7.3 Πρό ημα νέου ρήστη Για την αξιο ό ηση της προτεινόμενης με οδο ο ίας αντιμετώπισης του προ ήματος νέου ρήστη, προ ρήσαμε στην πειραματική διαδικασία η οποία αξιο ο εί ουσιαστικά τον α όρι μο Σύνο ο δεδομέν ν Το σύνο ο δεδομέν ν που ρησιμοποιή ηκε αποτε είται από τα μοτί α α μο ό ησης άρ ρ ν νέ ν τ ν ρηστών του συστήματός μας. Πιο συ κεκριμένα, αφού αφαιρέ ηκαν οι ρήστες του συστήματος με ι ότερες από 50 κατα ε ραμμένες α μο ο ήσεις άρ ρ ν νέ ν, κρατήσαμε τις α μο ο ήσεις από 60 ρήστες οι οποίοι εί αν αξιο ο ήσει 500 άρ ρα νέ ν με πάν από αξιο ο ήσεις. Το όριο τ ν 50 συνο ικών αξιο ο ήσε ν ανά ρήστη είναι σημαντικό, μιας και έ ουμε να αποφύ ουμε ρήστες οι οποίοι δεν έ ουν ρησιμοποιήσει εκτενώς το σύστημα από το να επηρεάσουν την διαδικασία αξιο ό ησης του μη ανισμού. Σε ενικές ραμμές, επι υμούμε πο ές αξιο ο ήσεις από κά ε ρήστη προκειμένου να έ ουμε ένα κα ό δεί μα από άρ ρα τα οποία οι ρήστες ήταν πρό υμοι να αξιο ο ήσουν - κάτι που ουσιαστικά απεικονίζει εμμέσ ς τις προτιμήσεις τους. Δεδομένου ότι ένας νέος ρήστης στην πειραματική διαδικασία που ακο ου εί είναι πρακτικά κά ε ένας από τους 60 ρήστες που προαναφέραμε, ια κά ε εκτέ εση που αφορούσε τον κά ε ρήστη, δεν υπο ο ίζαμε τις προη ούμενες αξιο ο ήσεις που ήταν κατα ε ραμμένες από το σύστημα. Κα ώς παρουσιάζαμε τα άρ ρα ασισμένοι σε κά ε μία από τις στρατη ικές που παρουσιάστηκαν στην ενότητα και που αξιο ο ούμε εδώ, κάναμε την εξής παραδο ή: οι ρήστες αξιο ό ησαν τα άρ ρα εκείνα ια τα οποία έ ουμε κατα ραφή ανά ν σης στη ΒΔ. Έτσι, εάν ένα άρ ρο που παρουσιάζεται στον ρήστη έ ει ρε εί ς ανα ν σμένο ή α μο ο ημένο στη ΒΔ, ε ρούμε ότι ήταν μία επιτυ ής πρόταση ια αξιο ό ηση προς τον ρήστη (hit). Σε ότι έ ει να κάνει με τα σκορ α μο ό ησης, το σκορ εκείνο που ρίσκεται στη ΒΔ ρησιμοποιείται ια την περίπτ ση που ενικά ο ρήστης έ ει αξιο ο ήσει το συ κεκριμένο άρ ρο. Εάν στόσο το άρ ρο έ ει επι ε εί ια ανά ν ση από το ρήστη, ς σκορ ρησιμοποιούμε το μέ ιστο στην κ ίμακα 1-5 που μπορεί ο ρήστης να α μο ο ήσει, δη αδή

207 7.3. Πρόβλημα νέου χρήστη Κεφάλαιο Αποτε έσματα και ανά υση Για το πρώτο και δεύτερο πείραμα που ακο ου ούν, σταματήσαμε να παρουσιάζουμε άρ ρα όταν εί αμε τον απαιτούμενο αρι μό από αξιο ο ήσεις άρ ρ ν, ο οποίος ια την περίπτ σή μας ήταν R min = 20. Στο πρώτο πείραμα, προσπα ήσαμε να εκτιμήσουμε την κα ύτερη τιμή ια την παράμετρο M όπ ς αυτή περι ράφεται στην ενότητα 5.4 και στον α όρι μο 10. Δη αδή, το κα ύτερο π ή ος άρ ρ ν που α πρέπει να παρουσιαστούν στο ρήστη και τα οποία ανήκουν σε συστάδα (είτε άρ- ρ ν είτε ρηστών) εφόσον μία ή περισσότερες αξιο ο ήσεις έ ουν ανακτη εί από τον ρήστη. Για την αξιο ό ηση τ ν προτάσε ν του μη ανισμού ρησιμοποιούμε την μετρική του MAE που περι ράφηκε στην ενότητα Πιο συ κεκριμένα, στη σ έση 27, r(u, i) [1, 5] είναι η πρα ματική αξιο ό ηση του άρ ρου i από τον u (η οποία ρίσκεται όπ ς περι ράφηκε ν ρίτερα) και r (u, i) [1, 5] η προ επόμενη/εκτιμώμενη προτίμηση του ρήστη u ια τα άρ ρα που ανήκουν στο ώρο τ ν προτεινόμεν ν προς αυτόν άρ ρ ν νέ ν, R. Για το συ κεκριμένο πείραμα ρησιμοποιήσαμε έναν αυξανόμενο αρι μό από τιμές ια το M σε κά ε εκτέ εση, αρ ίζοντας με M = 1 και τε ειώνοντας με M = 50. Τα αποτε έσματα παρουσιάζονται στην ραφική παράσταση του σ ήματος 33. Σ ήμα 33: Αξιο ό ηση τ ν επι ο ών του συστήματος ια πρόταση προς το ρήστη ώστε να συ κεντρ ούν οι απαραίτητες α μο ο ήσεις άρ ρ ν νέ ν Από την ραφική παράσταση του σ ήματος 33, μπορούμε να εντοπίσουμε την κα ύτερη τιμή της παραμέτρου M σε σ έση με τις τιμές MAE, δη αδή: M = 5. Η φυσική έννοια αυτού του αποτε έσματος είναι ότι η επι ο ή 5 άρ ρ ν από τις συστάδες άρ ρ ν ή άρ ρ ν που διά ασαν ρήστες της συστάδας είναι η κα ύτερη επι ο ή ια την διαμόρφ ση τ ν ιστών M2, M3 και M4 που περι ράφηκαν στον α όρι μο 10. Εκτε έσεις της διαδικασίας με αμη ότερες τιμές M υπέφεραν από ί ες προτάσεις άρ ρ ν από τις εν ό συστάδες, κάτι που με τη σειρά του 192

208 Κεφάλαιο Πρόβλημα νέου χρήστη οδη ούσε σε αμη ή απόδοση κα ώς και με α ύτερη διάρκεια στην διαδικασία προτάσε ν άρ ρ ν προς αξιο ό ηση. Θε ρούμε επίσης ότι σε ένα τυ ών online πείραμα με πρα ματικούς ρήστες η απόδοση σε αυτές τις περιπτώσεις α ήταν ακόμη ειρότερη αν συνυπο ο ίσουμε τον τυ ών εκνευρισμό τ ν ρηστών ια την με ά η διάρκεια της διαδικασίας. Παρομοί ς, τιμές M > 10 επίσης υπέφεραν από αμη ή απόδοση. Αυτό εξη είται από το ε ονός ότι όταν ρησιμοποιούμε πο ά άρ ρα από τις εν ό συστάδες, οι ρήστες μπορούν με δυσκο ία να υρίσουν πίσ και να αποφύ ουν τις περαιτέρ προτάσεις από αυτές τις συστάδες. Έτσι ια τα πειράματα που ακο ου ούν, ρησιμοποιούμε την τιμή M = 5. Για το δεύτερο πείραμα αξιο ό ησης της αντιμετώπισης του προ ήματος νέου ρήστη, ρησιμοποιήσαμε τις εξής στρατη ικές προτάσε ν άρ ρ ν νέ ν προς το ρήστη, οι οποίες και περι ράφηκαν στην ενότητα 3.9.1: εντροπίας, τυ αία, δημοφι ίας, ζυ ισμένη, προσ ποποιημένη στοι είο προς στοι είο, κα ώς και την προτεινόμενη στρατη ική η οποία αξιοποιεί την π ηροφορία συσταδοποίσης. Όταν η διαδικασία συ ο ής αξιο ο ήσε ν ρηστών ο οκ ηρ νόταν ια κά ε στρατη ική (R min = 20 συ ε μένες αξιο ο ήσεις άρ ρ ν), μετρούσαμε το π ή ος τ ν άρ ρ ν που ο ρήστης ρειάστηκε να δει. Φυσικά, όσο ι ότερα άρ ρα ρειαζόταν να δει ο ρήστης, τόσο το κα ύτερο δεδομένου ότι ιτώνουμε ρόνο και προσπά εια από τη μεριά του. Επίσης, ια την personalized item by item στρατη ική, ρησιμοποιήσαμε την προσέ ιση δημοφι ίας ια την παρουσίαση τ ν αρ ικών άρ ρ ν έ ς ότου μία αξιο ό ηση ηφ εί από τον ρήστη. Η προσέ ιση αυτή είναι παρόμοια και με τη δικιά μας: και εμείς αξιοποιούμε την μέ οδο δημοφι ίας ια την παρουσίαση τ ν αρ ικών άρ ρ ν έ ς ότου μία αξιο ό ηση ηφ εί από τον ρήστη, όμ ς φυσικά στη συνέ εια α άζουμε την στρατη ική μας και αξιοποιούμε την π ηροφορία συσταδοποίησης. Από τα αποτε έσματα που φαίνονται στο σ ήμα 34 μπορούμε να παρατηρήσουμε ότι η προτεινόμενη με οδο ο ία που ασίζεται στην συσταδοποίηση ξεπερνάει ό ες τις ά ες, μιας και οι τιμές CI είναι σαφώς αμη ότερες ια κά ε περίπτ ση. Β έπουμε επίσης ότι η τυ αία στρατη ική απαιτούσε να παρουσιαστούν κατά μέσο όρο 135 άρ ρα προκειμένου να ανακτη ούν 20 αξιο ο ήσεις. Το προη ούμενο σε ενικές ραμμές είναι αναμενόμενο δεδομένης της τυ αίας φύσης της εν ό στρατη ικής, α ά και της μη κανονικότητας τ ν αξιο ο ήσε ν που μπορεί να δίνουν οι ρήστες: κά ε ρήστης ενδιαφέρετε ια ένα συ κεκριμένο πεδίο και ό ι ια ό ες τις εματο ο ίες που κα ύπτονται από τον τεράστιο ό κο άρ ρ ν νέ ν του συστήματος. Για την περίπτ ση της στρατη ικής που ασίζεται στην εντροπία, το π ή ος άρ ρ ν που ρειάστηκε να παρουσιαστούν ήταν κατά μέσο όρ ν 115, ενώ ια την στρατη ική δημοφι ίας ήταν 70. Τα αποτε έσματα ια την στρατη ική εντροπίας, παρότι εντυπ σιακά αρνητικά, έ ουν μία πι ανή εξή ηση: αυτή η στρατη- ική προ εί ι ότερο δημοφι ή άρ ρα, όμ ς, υπάρ ει ευ εία συσ έτιση μεταξύ τ ν δημοφι ών άρ ρ ν και της πι ανότητας ένας νέος ρήστης να ενδιαφέρεται ια αυτά. Ως αποτέ εσμα, με το να α νοεί τα δημοφι ή άρ ρα, η στρατη ική αυτή οδη είται σε αμη ή απόδοση. Η προσ ποποιημένη στοι είο προς στοι είο στρατη ική, παρότι πο ά υποσ όμενη με μέσο όρο 41 προτάσεις, ήταν επίσης ειρότερη της προτεινόμενης με οδο ο ίας που αξιοποιεί την συσταδοποίηση όπου ρειάστηκε κατά μέσο όρο 37.5 προτάσεις ια να πάρει 20 αξιο ο ήσεις. Για το τρίτο μας πείραμα, προσπα ήσαμε να εκτιμήσουμε την ακρί εια προ έψε ν της προ- 193

209 7.3. Πρόβλημα νέου χρήστη Κεφάλαιο 7 Σ ήμα 34: Σύ κριση με οδο ο ιών πρότασης άρ ρ ν σε σ έση με την τε νική μας που ασίζεται στη συσταδοποίηση τεινόμενης προσέ ισης σε σ έση με τις προαναφερ είσες στρατη ικές. Ξανά, ρησιμοποιήσαμε την μετρική MAE. Για τον προσδιορισμό τ ν τιμών MAE ια κά ε στρατη ική, παρουσιάσαμε ια αξιο ό ηση στον ρήστη ένα σύνο ο από 30, 50, 70 και 90 άρ ρα σε 4 ακο ου ιακές εκτε έσεις κα εμίας εκ τ ν 6 στρατη ικών. Τα αποτε έσματα που φαίνονται στο σ ήμα 35 δεί νουν τις MAE μετα ο ές τ ν στρατη ικών σαν συνάρτηση τ ν άρ ρ ν που παρουσιάστηκαν ια αξιο ό ηση. Από το σ ήμα 35 μπορούμε να παρατηρήσουμε την ε τί ση τ ν MAE τιμών κα ώς το π ή ος τ ν άρ ρ ν αυξάνει, κάτι που έ ει σημαντικό αντίκτυπο ειδικά στην προτεινόμενη με οδο ο ία με αξιοποίηση συσταδοποίσης: κα ώς ό ο και περισσότερα άρ ρα αξιο ο ούνται από τον ρήστη, η προσέ ισή μας μπορεί να επι έ ει κα ύτερα υποψήφια άρ ρα ια αξιο ό ηση από τον ρήστη ρησιμοποιώντας τα δεδομένα συσταδοποίησης που υπάρ ουν στη ΒΔ. Πρά ματι, η προτεινόμενη με οδο ο ία δίνει τα αμη ότερα MAE σκορ ια κά ε π ή ος άρ ρ ν που αφορούν τις εκτε έσεις του πειράματος. Ένα ακόμη ρήσιμο αποτέ εσμα που μπορούμε να εξά ουμε από το σ ήμα 35 είναι ότι η τυ αία στρατη ική έ ει την ειρότερη ακρί εια πρό εψης, επικυρώνοντας ουσιαστικά τις παρατηρήσεις μας στα προη ούμενα πειράματα. Μπορούμε τέ ος να δούμε ότι η προσ ποποιημένη στοι είο προς στοι είοι στρατη ική είναι ξανά σ ετικά κοντά στην προτεινόμενη μας με οδο ο ία. 194

210 Κεφάλαιο Προσωποποίηση στο χρήστη / παραγωγή προτάσεων Σ ήμα 35: Σύ κριση με οδο ο ιών πρότασης άρ ρ ν σε σ έση με την τε νική μας που ασίζεται στη συσταδοποίηση 7.4 Προσ ποποίηση στο ρήστη / παρα ή προτάσε ν Προκειμένου να αξιο ο ήσουμε την απόδοση και ακρί εια του συστήματός μας όσον αφορά στις παρα όμενες προτάσεις νέ ν που αξιοποιούν την προσ ποποίηση στο ρήστη, εκτε έσαμε ορισμένα πειράματα τ ν οποί ν η ο ική ακο ου εί την εξής σειρά: αξιο ό ηση της τρέ ουσας αποτε εσματικότητας τ ν παρα όμεν ν προτάσε ν εφαρμο ή νέας τε νικής επαν-αξιο ό ηση και σύ κριση αποτε εσμάτ ν Από την παραπάν διαδικασία προέκυψε ένα σύνο ο από δεδομένα τα οποία έδειξαν την συνο ική τάση όσον αφορά στα συ κεκριμένα κριτήρια/μετρικές αξιο ό ησης που ρησιμοποιή ηκαν. Στα επόμενα οιπόν αξιο ο είται το κομμάτι προσ ποποίησης στο ρήστη, και πιο συ κεκριμένα τα ήματα που περι ράφονται στον α όρι μο Σύνο ο δεδομέν ν Το σύνο ο δεδομέν ν ια τα παρακάτ πειράματα αποτε είται από κατα ραφές που περι αμ- άνουν τα μοτί α π οή ησης 30 ρηστών του συστήματος. Οι ρήστες αυτοί ρησιμοποιούσαν το σύστημα κα ώς οι με οδο ο ίες εφαρμόζονταν μία προς μία, ρίς να έ ουν κάποια νώση ια 195

211 7.4. Προσωποποίηση στο χρήστη / παραγωγή προτάσεων Κεφάλαιο 7 τις α α ές στο σύστημα. Οι επι ο ές τ ν ρηστών, κα ώς και οι προτάσεις του συστήματος κατε ράφησαν σε ό η την διαδικασία. Δεδομένης της φύσης τ ν άρ ρ ν νέ ν, τα οποία α πρέπει εν ένει να είναι νέα ώστε να έ ουν αξία ια τον ρήστη, το σύστημά μας α νόησε εκείνα με ημερομηνία δημοσίευσης πέραν τ ν 3 μηνών. Ως αποτέ εσμα αυτού, παρότι τα συνο ικά δεικτοδοτημένα άρ ρα στη ΒΔ του συστήματος ξεπερνούσαν τα , μόνο από αυτά ρησιμοποιή ηκαν ια την εν ό πειραματική διαδικασία. Όπ ς και πριν, τα άρ ρα αυτά ανήκουν ομοιόμορφα στις 8 ασικές κατη ορίες του συστήματός μας. Ως μετρικές αξιο ό ησης, ρησιμοποιή ηκαν to MAE (ενότητα ) και το F-measure (ενότητα ) Αποτε έσματα και ανά υση Για το πρώτο μας πείραμα, κατα ράψαμε τις MAE τιμές της διαφοράς μεταξύ τ ν πρα ματικών επι ο ών τ ν ρηστών, δη αδή τ ν άρ ρ ν που επι έ ηκαν ια ανά ν ση, και τ ν προτάσε ν άρ ρ ν που έδ σε το σύστημα ια τις διάφορες φάσεις ειτουρ ίας: 1. ρίς κα ό ου ευρετικά, απ ά προτείνοντας τα πιο πρόσφατα άρ ρα που προστέ ηκαν στη ΒΔ 2. όταν η εξα ή keywords και η κατη οριοποίηση εφαρμοζόταν ια την παρα ή προτάσε ν, όπ ς περι ράφεται στη σ έση 32 (περίπτ ση ειτουρ ίας μη ανισμού μεταπτυ ιακής ερ ασίας) 3. όταν εκτός από τα ευρετικά του 2), η π ηροφορία συσταδοποίησης άρ ρ ν νέ ν επίσης αξιοποιούνταν ια την παρα ή προτάσε ν 4. όταν εκτός από τα προη ούμενα ευρετικά, η π ηροφορία συσταδοποίησης ρηστών επίσης αξιοποιούνταν ια την παρα ή προτάσε ν 5. όταν εκτός από τα προη ούμενα ευρετικά, η π ηροφορία ια n-grams επίσης αξιοποιούνταν ια την παρα ή προτάσε ν (σ έση 40) Στο σ ήμα 36 απεικονίζονται τα αποτε έσματα τ ν τιμών MAE που ά αμε από την πειραματική μας διαδικασία. Από αυτά, μπορούμε να παρατηρήσουμε ια ενική τάση ια σημαντική μεί ση τ ν τιμών MΑΕ τόσο ξε ριστά με την εφαρμο ή κά ε μίας από τις προαναφερ είσες τε νικές, όσο και συνο ικά όταν αξιοποιούνται ό ες. Πιο συ κεκριμένα, η μέση τιμή MAE μειώ ηκε από όταν κανένα ευρετικό/τε νική δεν εφαρμοζόταν (επι ο ή από τα πιο πρόσφατα άρ ρα), σε 6.28 όταν η εξα ή έξε ν κ ειδιών μαζί με την κατη οριοποίηση εφαρμόστηκαν. Από φυσική άποψη αυτό σημαίνει ότι στην περίπτ ση 2), υπήρ αν κατά μέσο όρο 6.28 ά ος προτάσεις προς τον ρήστη. Η αξιοποίηση της π ηροφορίας συσταδοποίησης άρ ρ ν μεί σε επίσης σημαντικά την μέση MAE τιμή στο Η ε τί ση αυτή συμ αδίζει με τις παρατηρήσεις μας σε προη ούμενα 196

212 Κεφάλαιο Προσωποποίηση στο χρήστη / παραγωγή προτάσεων Σ ήμα 36: Τιμές MAE τ ν προτάσε ν με ρήση τ ν διαφόρ ν ευρετικών πειράματα όσον αφορά στην επίπτ ση του α ορί μου W-kmeans στην διαδικασία πρ σοποποίησης/προτάσε ν προς τον ρήστη. Ακο ού ς, η αξιοποίηση και της π ηροφορίας συσταδοποίησης ρηστών μεί σε ακόμη περισσότερο την μέση τιμή MAE στο Τέ ος, η αξιοποίηση της π ηροφορίας τ ν εξα όμεν ν n-grams οδή ησε την μέση MAE τιμή στο 0.73, υπονοώντας ότι κατά μέσο όρο υπήρ ε ι ότερο από 1 ά ος πρόταση προς τον ρήστη ανά συνεδρία. Για το επόμενο πείραμα, προσπα ήσαμε να αξιο ο ήσουμε την συνο ική ε τί ση της αποδοτικότητας του συστήματος όταν κά ε μία από τις προαναφερ είσες με οδο ο ίες εφαρμοζόταν. Ως μετρική αξιο ό ησης ρησιμοποιήσαμε το F-measure. Αξιοποιώντας τα ίδια δεδομένα π οή ησης με πριν, εξά αμε τις τιμές F-measure ια ό ους τους ρήστες ια μία περίοδο ρήσης του συστήματος 50 ημερών. Στην περίπτ ση αυτή, κά ε 10 ημέρες μία νέα με οδο ο ία εφαρμοζόταν με τις προτάσεις να είναι όπ ς φαίνονται στον πίνακα 12 Ημέρα Προσέ ιση παρα ής προτάσε ν 1-10 μόνο τα πιο πρόσφατα άρ ρα εξα ή keywords και κατη οριοποίηση επίσης συσταδοποίηση άρ ρ ν επίσης συσταδοποίηση ρηστών επίσης εξα ή n-grams Πίνακας 12: Α άζοντας την με οδο ο ία παρα ής προτάσε ν με άση το ρόνο Τα παρα όμενα αποτε έσματα F-measure τ ν προτάσε ν του συστήματος, εξά οντας τον μέσο όρο ς προς ό ους τους ρήστες, φαίνονται στο σ ήμα 37. Από τα αποτε έσματα του σ ήματος 37 μπορούμε να παρατηρήσουμε ότι οι προτάσεις που κάνουν ρήση ό ν τ ν προτεινόμεν ν ευρετικών, υπερτερούν σημαντικά τ ν περιπτώσε ν που 197

213 7.4. Προσωποποίηση στο χρήστη / παραγωγή προτάσεων Κεφάλαιο 7 Σ ήμα 37: Μέσες τιμές F-measure προτάσε ν προς τον ρήστη με ρήση τ ν διαφόρ ν ευρετικών κα ένα από αυτά εφαρμόζεται αυτοτε ώς. Πιο συ κεκριμένα, ενώ η μέση τιμή F-measure ξεκινά από περίπου 0.05 ια την περίπτ ση που μόνο πρόσφατα άρ ρα προτείνονται (τιμή πο ύ αμη ή ια ένα σύστημα προτάσε ν), φτάνει το 0.8 όταν και η αξιοποίηση της π ηροφορίας τ ν n-grams εφαρμόζεται. Ξανά, η π ηροφορία συσταδοποίησης άρ ρ ν έδ σε μία σημαντική ώ ηση στην απόδοση του συστήματος: από 0.15 όταν αξιοποιούνταν η εξα ή keywords και η κατη οριοποίηση, στο Μία ακόμη παρατήρηση είναι ότι η ε τί ση ενικά αυξάνεται μετά από ορισμένες ημέρες ρήσης του συστήματος. Αυτό έ ει δύο εξη ήσεις που μπορούμε να δώσουμε: το σύστημα έ ει περισσότερα δεδομένα σ ετικά με τις επι ο ές/προτιμήσεις του ρήστη, και επίσης, το σύστημα έ ει περισσότερο ρόνο να παρά ει πιο συνεκτικές και ενικά κα ύτερες συστάδες. Αρ ικά οι τιμές F-measure είναι αμη ές δεδομένου ότι το σύστημα προτάσε ν δεν έ ει ακόμη κα ορίσει το προφί ρήστη σε αποτε εσματικό α μό. Τα παραπάν αποτε έσματα έ ουν επίσης άμεση συνέπεια και από φυσική άποψη σε σ έση με την ποιότητα του παρα όμενου περιε ομένου προτάσε ν: τα άρ ρα νέ ν είναι ενικά ενδιαφέροντα ια τους ρήστες, ταιριάζοντας στο προφί τους και τα περισσότερα από αυτά επι έ ονται ια ανά ν ση (έστ και σε μετα ενέστερο στάδιο). Μία ακόμη σημαντική παρατήρηση είναι ότι οι προτάσεις ενικά στα εροποιούνται ρή ορα στη μέση τιμή τους μέσα στο ρονικό τ ν 10 ημερών, ρίς πο ύ διακύμανση. Αυτό συνεπά εται και το ε ονός ότι ο μη ανισμός παρα ής προτάσε ν συ κ ίνει σ ετικά ρή ορα στα ενδιαφέροντα τ ν ρηστών, κάτι που παρατηρή ηκε και σε προη ούμενο πείραμα. 198

Δείτε περισσότερα