ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Τε νικές και μη ανισμοί συσταδοποίησης ρηστών και κειμέν ν ια την προσ ποποιημένη πρόσ αση περιε ομένου στον πα κόσμιο ιστό Τσό κας Βασί ειος Μη ανικός Η/Υ κ Π ηροφορικής, M.Sc. Α.Μ. 558 Πάτρα, Δεκέμ ριος 2014

2

3 ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Τε νικές και μη ανισμοί συσταδοποίησης ρηστών και κειμέν ν ια την προσ ποποιημένη πρόσ αση περιε ομένου στον πα κόσμιο ιστό Τσό κας Βασί ειος Μη ανικός Η/Υ κ Π ηροφορικής, M.Sc. Α.Μ. 558 Επι έπ ν Κα η ητής: Χρήστος Μπούρας, Κα η ητής Τριμε ής Επιτροπή: Ευστράτιος Γα όπου ος, Κα η ητής Χρήστος Μακρής, Επίκουρος Κα η ητής Χρήστος Μπούρας, Κα η ητής Επταμε ής Επιτροπή: Νικό αος Α ούρης, Κα η ητής Ευστράτιος Γα όπου ος, Κα η ητής Ι άννης Γαροφα άκης, Κα η ητής Χρήστος Μακρής, Επίκουρος Κα η ητής Βασί ειος Με α οοικονόμου, Κα η ητής Χρήστος Μπούρας, Κα η ητής Α ανάσιος Τσακα ίδης, Κα η ητής Η παρούσα έρευνα έ ει συ ρηματοδοτη εί από την Ευρ παϊκή Έν ση (Ευρ παϊκό Κοιν νικό Ταμείο - ΕΚΤ) και από ε νικούς πόρους μέσ του Επι ειρησιακού Προ ράμματος Εκπαίδευση και Δια Βίου Μά ηση του Ε νικού Στρατη ικού Π αισίου Αναφοράς (ΕΣΠΑ) - Ερευνητικό Χρηματοδοτούμενο Έρ ο: Ηράκ ειτος ΙΙ. Επένδυση στην κοιν νία της νώσης μέσ του Ευρ παϊκού Κοιν νικού Ταμείου.

4

5 αφιερωμένη στο γιο μου, το νόημα και το φως της ζωής μου

6 Για την συ ραφή της διδακτορικής διατρι ής ρησιμοποιή ηκε ο ισμικό XƎL A TEX

7

8 ΠΕΡΙΕΧΟΜΕΝΑ 1 Εισα ή Γενικά Υπάρ ουσα κατάσταση Περι ραφή της ερ ασίας Δομή της ερ ασίας Κα ορισμός του προ ήματος Γενικά Άρ ρα νέ ν Web, News και Meta portals Web portals News portals Meta portals Συστήματα προτάσε ν Προεπεξερ ασία δεδομέν ν Χρήση εξ τερικής άσης νώσης WordNet Υπερώνυμα/Υπώνυμα Μερόνυμα/Ο όνυμα n-grams Συσταδοποίηση κειμέν ν Τυπικός ορισμός συσταδοποίησης Π ή ος συστάδ ν Συσταδοποίηση ρηστών Προσ ποποίηση στο ρήστη Συμμετο ή του ρήστη στις διαδικασίες του συστήματος Το Πρό ημα του νέου ρήστη Ερευνητικά Θέματα Φυσική Επεξερ ασία Γ ώσσας Σύνη ες NLP ερ ασίες Ανάκτηση Π ηροφορίας Μοντε οποίηση ανάκτησης π ηροφορίας ii

9 Μοντέ α ανάκτησης π ηροφορίας Διάσταση μα ηματικής άσης μοντέ ν ανάκτησης π ηροφορίας Διάσταση ιδιοτήτ ν του μοντέ ου Vector Space Model Αξιο ό ηση αποτε εσμάτ ν ανάκτησης π ηροφορίας Ανάκ ηση και ακρί εια Fall-out F-measure Μέση τιμή ακρί ειας R-Ακρί εια Φι τράρισμα Π ηροφορίας Εξόρυξη από τον πα κόσμιο ιστό Συνερ ατικό φι τράρισμα - Collaborative Filtering Ροή π ηροφορίας CF Απαιτήσεις CF Κατη ορίες CF Φι τράρισμα άσει περιε ομένου Συστήματα προτάσε ν Προεπεξερ ασία κειμένου Εξα ή έξε ν κ ειδιών Εξα ή n-grams Ταξινόμηση κειμέν ν Συσταδοποίηση κειμέν ν Α όρι μοι συσταδοποίησης Ιεραρ ικοί α όρι μοι Τυπικές ιεραρ ικές μέ οδοι συσταδοποίησης Πο υπ οκότητα Μερισματικοί α όρι μοι Οικο ένεια k-means Expectation Maximization Spherical k-means Πο υπ οκότητα k-means Προ ήματα k-means Ά ες προσε ίσεις συσταδοποίησης Ασαφής συσταδοποίηση Παρα ικοί Α όρι μοι Gaussian Μοντέ α Μεί ση διαστατικότητας Συσταδοποίηση δέντρου επι εμάτ ν DBSCAN Μετρικές απόστασης (ομοιότητας) Ευκ είδεια απόσταση City-block / απόσταση Manhattan Απόσταση Pearson Ομοιότητα συνημιτόνου Απόσταση Spearman-rank Απόσταση Kendall s Μετρικές αξιο ό ησης συσταδοποίησης iii

10 Δείκτης συσταδοποίησης (Clustering Index) Μέσο από υτο σφά μα Αξιοποίηση Εξ τερικών Βάσε ν Γνώσης WordNet Χρήση του WordNet στην συσταδοποίηση Π ή ος συστάδ ν Ονοματοδοσία συστάδ ν Προσ ποποίηση στον Χρήστη Το Πρό ημα του νέου Χρήστη Ερ τήσεις προς, και α μο ο ήσεις από τον ρήστη Αρ ιτεκτονική Στό οι του συστήματος Γενική αρ ιτεκτονική Ροή Π ηροφορίας Προεπεξερ ασία κειμένου Συσταδοποίηση Συσταδοποίηση W-kmeans Συσταδοποίηση άρ ρ ν νέ ν Μοντε οποίηση και συσταδοποίηση ρηστών Υπο ο ισμός π ή ους συστάδ ν Πρό ημα νέου ρήστη Προσ ποποίηση στο ρήστη Ανά υση και Α ορι μική Προσέ ιση Υποσύστημα προεπεξερ ασίας κειμένου Αξιοποίηση n-grams Ζύ ιση άρ ρ ν Ζύ ιση keywords ια την συσταδοποίηση Υποσύστημα συσταδοποίησης Α όρι μος W-kmeans Συσταδοποίηση άρ ρ ν νέ ν Εξα ή και ζύ ιση υπερ νύμ ν Α όρι μος ενίσ υσης άρ ρ ν νέ ν με υπερώνυμα Ονοματοδοσία συστάδ ν Προσ ποποίηση στο ρήστη Εύρεση συνεδρί ν ρηστών Συσταδοποίηση Χρηστών με ρήση του W-kmeans Προφί ρηστών και προσ ποποίηση με ρήση συσταδοποίησης Πρό ημα νέου ρήστη Τε νο ο ίες υ οποίησης και προδια ραφές του συστήματος Γ ώσσα υ οποίησης ασικών υποσυστήματ ν Προεπεξερ ασία Εξα ή n-grams Υπερώνυμα του WordNet Συσταδοποίηση Υ οποιήσεις α ορί μ ν συσταδοποίησης iv

11 CLUTO SenseClusters Συσταδοποίηση στη MATLAB Text to Matrix Generator C Clustering Library Βάση δεδομέν ν MySQL Βάση δεδομέν ν του συστήματος Νέοι πίνακες Πίνακες συσταδοποίησης άρ ρ ν νέ ν clustering_passes clusters article2cluster cluster_similarities Πίνακες συσταδοποίησης ρηστών clustering_passes_sesions session_clusters session2cluster cluster_similarities_sessions user_sessions user_sessions_articles Πίνακες n-grams extraction_ng extraction_ng2ar Διασύνδεση μη ανισμών Προδια ραφές Συ ο ή άρ ρ ν και εξα ή ρήσιμου κειμένου Προεπεξερ ασία κειμένου Κατη οριοποίηση εξα ή περί ηψης και συσταδοποίησης Προσ ποποίηση Απαιτήσεις του συστήματος Λο ισμικό και ι ιο ήκες Υ ικό Αξιο ό ηση Α ορί μ ν και Υποσυστημάτ ν Υποσύστημα Προεπεξερ ασίας κειμένου Αξιοποίηση n-grams Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Συσταδοποίηση Συσταδοποίηση άρ ρ ν νέ ν Αξιο ό ηση ασικών α ορί μ ν ι ιο ραφίας Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Αξιο ό ηση W-kmeans Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Αξιο ό ηση ονοματοδοσίας συστάδ ν v

12 Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Συσταδοποίηση ρηστών Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Πρό ημα νέου ρήστη Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Προσ ποποίηση στο ρήστη / παρα ή προτάσε ν Σύνο ο δεδομέν ν Αποτε έσματα και ανά υση Συμπεράσματα Το πρό ημα και η αντιμετώπισή του Αξιοποίηση n-grams Συσταδοποίηση Αξιο ό ηση α ορί μ ν ι ιο ραφίας W-kmeans ια συσταδοποίηση άρ ρ ν νέ ν Συσταδοποίηση ρήστών συστήματος Πρό ημα νέου ρήστη Προσ ποποίηση στο ρήστη και σύστημα προτάσε ν Με οντική ερ ασία Γενικές περιο ές με οντικής έρευνας Προεπεξερ ασία Συσταδοποίηση Προσ ποποίηση και παρα ή προτάσε ν Παρουσίαση π ηροφορίας Πρό ημα νέου ρήστη vi

13 ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ 1 Stemmed keywords με τις συ νότητες εμφάνισής τους όπ ς εξά ονται από ένα τυ αίο άρ ρο Τα πιο συ νά εμφανιζόμενα n-grams όπ ς εξά ονται από το ίδιο άρ ρο Βάρος ορισμέν ν υπερ νύμ ν του σ ήματος Σύν εση υ ικού ια ανάπτυξη του συστήματος Σύν εση υ ικού του εξυπηρετητή του συστήματος προτάσε ν άρ ρ ν νέ ν Σημειο ραφία ιεραρ ικής συσταδοποίησης Επίδραση της εξα ής ουσιαστικών και stemming στις με οδο ο ίες συσταδοποίησης Αξιο ό ηση τ ν με οδο ο ιών συσταδοποίησης σε σ έση με την συσταδοποίηση τ ν ίδι ν τ ν ρηστών Σύ κριση του W-kmeans με CLUTO και SenseCluster σε σ έση με CI και ρόνο εκτέ εσης Αποτε έσματα ακρί ειας της ονοματοδοσίας συστάδ ν του W-kmeans ανά κατη ορία Σύ κριση με οδο ο ιών CF Α άζοντας την με οδο ο ία παρα ής προτάσε ν με άση το ρόνο vii

14 ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ 1 Δένδρο υπερ νύμ ν του όρου dog Κατη οριοποίηση και συσταδοποίηση Ακρί εια - Ανάκ ηση. Με C είναι τα σ ετικά άρ ρα που ανακτή ηκαν Τυπικό δενδρό ραμμα ιεραρ ικής συσταδοποίησης Ο α όρι μος EM σε τέσσερις επανα ήψεις του Ευαισ ησία του k-means στις αρ ικές συν ήκες Τυπικές συστάδες του α ορί μου DBSCAN Εκτιμώμενη αύξηση διακύμανσης με παρά η η αύξηση του π ή ους τ ν συστάδ ν 93 9 Αρ ιτεκτονική του συστήματος προτάσε ν άρ ρ ν νέ ν Προεπεξερ ασία κειμένου που οδη εί στην εξα ή keywords και n-grams Συσταδοποίηση άρ ρ ν νέ ν και ρηστών Συσταδοποίηση άρ ρ ν νέ ν - τυπικοί α όρι μοι και W-kmeans Ροή π ηροφορίας κατά την ε ραφή νέου ρήστη Α ροιστικό δέντρο υπερ νύμ ν ια τρεις έξεις: pie, apple και orange Γραφική αναπαράσταση της sigmoid συνάρτησης 42 που ρησιμοποιείται από τον α όρι μο W-kmeans Διά ραμμα E-R της ΒΔ ρίς τους νέους πίνακες Διά ραμμα E-R τ ν νέ ν πινάκ ν της ΒΔ Η επίδραση της αξιοποίησης τ ν n-grams στην διαδικασία συσταδοποίησης ια διάφορες τιμές του n Αποτε έσματα απόδοσης τ ν α ορί μ ν W-kmeans και k-means ια διάφορες τιμές ζυ ίσματος τ ν εξα όμεν ν n-grams Αποτε έσματα συσταδοποίησης με ρήση της Ευκ είδειας απόστασης Αποτε έσματα συσταδοποίησης με ρήση της απόστασης συνημιτόνου Αποτε έσματα συσταδοποίησης με ρήση της απόστασης Pearson Αποτε έσματα συσταδοποίησης με ρήση της απόστασης Spearman Αποτε έσματα συσταδοποίησης με ρήση της απόστασης Kendals τ Αποτε έσματα συσταδοποίησης με ρήση της απόστασης City-block Χρόνοι εκτέ εσης διαμερισματικών α ορί μ ν σε σ έση με τα π ή η συστάδ ν viii

15 27 Σύ κριση W-kmeans και k-means ια διάφορες κατη ορίες και π ή η άρ ρ ν Σύ κριση W-kmeans και k-means ια συσταδοποίηση άρ ρ ν νέ ν και ια διάφορα π ή η συστάδ ν Σύ κριση W-kmeans και k-means ια συσταδοποίηση συνεδριών ρηστών και διάφορα π ή η συστάδ ν Τιμές MAE τ ν προτάσε ν του συστήματος με και ρίς την ρήση του W-kmeans Σύ κριση της απόδοσης του συστήματος προτάσε ν με ρήστη της π ηροφορίας συσταδοποίησης ρηστών και μη F-measure τιμές τ ν προτάσε ν του συστήματος με και ρίς την ρήση του W- kmeans Αξιο ό ηση τ ν επι ο ών του συστήματος ια πρόταση προς το ρήστη ώστε να συ κεντρ ούν οι απαραίτητες α μο ο ήσεις άρ ρ ν νέ ν Σύ κριση με οδο ο ιών πρότασης άρ ρ ν σε σ έση με την τε νική μας που ασίζεται στη συσταδοποίηση Σύ κριση με οδο ο ιών πρότασης άρ ρ ν σε σ έση με την τε νική μας που ασίζεται στη συσταδοποίηση Τιμές MAE τ ν προτάσε ν με ρήση τ ν διαφόρ ν ευρετικών Μέσες τιμές F-measure προτάσε ν προς τον ρήστη με ρήση τ ν διαφόρ ν ευρετικών ix

16

17

18 ΕΠΙΤΕΛΙΚΗ ΣΥΝΟΨΗ Με την πρα ματικότητα τ ν υπέρο κ ν και ο οένα αυξανόμεν ν πη ών κειμένου στο διαδίκτυο, κα ίστανται ανα καία η ύπαρξη μη ανισμών οι οποίοι οη ούν τους ρήστες ώστε να ά ουν ρή ορες απαντήσεις στα ερ τήματά τους. Η δημιουρ ία περιε ομένου, προσ ποποιημένου στις ανά κες τ ν ρηστών, κρίνεται απαραίτητη σύμφ να με τις επιτα ές της συνδυαστικής έκρηξης της π ηροφορίας που είναι ορατή σε κά ε νία του διαδικτύου. Ζητούνται άμεσες και αποτε- εσματικές ύσεις ώστε να τι ασευτεί αυτό το άος π ηροφορίας που υπάρ ει στον πα κόσμιο ιστό, ύσεις που είναι εφικτές μόνο μέσα από ανά υση τ ν προ ημάτ ν και εφαρμο ή σύ ρον ν μα ηματικών και υπο ο ιστικών με όδ ν ια την αντιμετώπισή τους. Η παρούσα διδακτορική διατρι ή αποσκοπεί στο σ εδιασμό, στην ανάπτυξη και τε ικά στην αξιο ό ηση μη ανισμών και καινοτόμ ν α ορί μ ν από τις περιο ές της ανάκτησης π ηροφορίας, της επεξερ ασίας φυσικής ώσσας κα ώς και της μη ανικής εκμά ησης, οι οποίοι α παρέ ουν ένα υψη ό επίπεδο φι τραρίσματος της π ηροφορίας του διαδικτύου στον τε ικό ρήστη. Πιο συ κεκριμένα, στα διάφορα στάδια επεξερ ασίας της π ηροφορίας αναπτύσσονται τε νικές και μη ανισμοί που συ έ ουν, δεικτοδοτούν, φι τράρουν και επιστρέφουν κατά η α στους ρήστες κειμενικό περιε όμενο που πη άζει από τον πα κόσμιο ιστό. Τε νικές και μη ανισμοί που σκοπό έ ουν την παρο ή υπηρεσιών π ηροφόρησης πέρα από τα κα ιερ μένα πρότυπα της υφιστάμενης κατάστασης του διαδικτύου. Πυρήνας της διδακτορικής διατρι ής είναι η ανάπτυξη ενός μη ανισμού συσταδοποίησης (clustering) τόσο κειμέν ν, όσο και τ ν ρηστών του διαδικτύου. Στο π αίσιο αυτό με ετή ηκαν κ ασικοί α όρι μοι συσταδοποίησης οι οποίοι και αξιο ο ή ηκαν ια την περίπτ ση τ ν άρ ρ ν νέ ν προκειμένου να εκτιμη εί αν και πόσο αποτε εσματικός είναι ο εκάστοτε α όρι μος. Σε δεύτερη φάση υ οποιή ηκε α όρι μος συσταδοποίησης άρ ρ ν νέ ν που αξιοποιεί μια εξ τερική άση νώσης, το WordNet, και είναι προσαρμοσμένος στις απαιτήσεις τ ν άρ ρ ν νέ ν που πη άζουν από το διαδίκτυο. Ένας ακόμη ασικός στό ος της παρούσας ερ ασίας είναι η μοντε οποίηση τ ν κινήσε ν που ακο ου ούν κοινοί ρήστες κα ώς και η αυτοματοποιημένη αξιο ό ηση τ ν συμπεριφορών, με ορατό ετικό αποτέ εσμα την πρό εψη τ ν προτιμήσε ν που α εκφράσουν στο μέ ον οι ρή- 3

19 στες. Η μοντε οποίηση τ ν ρηστών έ ει άμεση εφαρμο ή στις δυνατότητες προσ ποποίησης της π ηροφορίας με την πρό εψη τ ν προτιμήσε ν τ ν ρηστών. Ως εκ τούτου, υ οποιή ηκε α όρι μος προσ ποποίησης ο οποίος αμ άνει υπ όψιν του π η ώρα παραμέτρ ν που αποκα ύπτουν έμμεσα τις προτιμήσεις τ ν ρηστών. Οι παραπάν μη ανισμοί αφού αξιο ο ή ηκαν ξε ριστά, στη συνέ εια ενσ ματώ ηκαν στην π ατφόρμα αποδε τί σης άρ ρ ν νέ ν 1 που εί ε υ οποιη εί στα π αίσια της μεταπτυ ιακής διπ ματικής ερ ασίας, μετασ ηματίζοντάς την έτσι σε ένα σύστημα προτάσε ν άρ ρ ν νέ ν (news articles recommendation system). Οι τε νικές που προτείνονται σε αυτή τη διδακτορική διατρι ή επεκτείνουν και διαφοροποιούν ερ ασίες ά ν ερευνητών, προσ έτοντας νέες με όδους αντιμετώπισης του προ ήματος προτάσε ν άρ ρ ν νέ ν. Η ερ ασία που πρα ματοποιή ηκε στα π αίσια της παρούσας διδακτορικής διατρι ής αναφέρεται συνοπτικά παρακάτ. Μελέτη αλγορίθμων συσταδοποίησης και αξιολόγησή τους για την περίπτωση των άρθρων νέων από το διαδίκτυο Αυτό το κομμάτι της διδακτορικής διατρι ής αφορά στην με έτη α ορί μ ν συσταδοποίησης κειμέν ν και αξιο ό ηση της εφαρμο ής αυτών στην περίπτ ση τ ν άρ ρ ν νέ ν (news articles) που πη άζουν από το διαδίκτυο. Στό ος αυτής της με έτης ήταν η εφαρμο ή διαφόρ ν τε νικών συσταδοποίησης και η σύ κριση τ ν αποτε εσμάτ ν όσον αφορά στο με ά ο π ή ος και ποικι ομορφία που παρουσιάζουν τα άρ ρα νέ ν του διαδικτύου. Συ κεκριμένα, με ετή ηκαν ιεραρ ικοί (hierarchical) α όρι μοι με διάφορες μετρικές απόστασης μεταξύ τ ν σ ηματιζόμεν ν συστάδ ν: pairwise single, maximum, average, centroid linkage κα ώς επίσης και πο οί διαμερισματικοί (partitional) α όρι μοι: k-means, k-medoids, k- means++. Παρά η α, ια κά ε έναν από τους παραπάν α ορί μους συσταδοποίησης ρησιμοποιή ηκαν και διάφορες μετρικές ομοιότητας: Euclidian, City-block, Pearson correlation coefficient, Cosine similarity, Spearman-rank, Kendall s tau. Για την αξιο ό ηση τ ν παραπάν α όρι μ ν μετρικών ρησιμοποιή ηκαν άρ ρα νέ ν τα οποία συ έ ηκαν από διάφορα online ειδησεο ραφικά πρακτορεία (news portals). Επίσης, ια την σύ κριση της ποιότητας τ ν παρα όμεν ν συστάδ ν ρησιμοποιή ηκε η μετρική του Clustering Index και του F-measure. Τέ ος, έ ινε αξιο ό ηση από πρα ματικούς ρήστες ς προς την ποιότητα τ ν παρα όμεν ν συστάδ ν. Σχεδιασμός και υλοποίηση υβριδικού αλγορίθμου συσταδοποίησης άρθρων νέων (W-kmeans) Έ οντας τα αποτε έσματα από την προαναφερ είσα έρευνα υπόψη, στα π αίσια της διδακτορικής διατρι ής, προ ρήσαμε στον σ εδιασμό και υ οποίηση νέου α ορί μου ια την συσταδοποίηση άρ ρ ν νέ ν. Το αποτέ εσμα αυτής της έρευνας ήταν ο α όρι μος W- kmeans ο οποίος αποτε εί μία προέκταση του κ ασικού k-means α ορί μου ενώ παρά - η α ενισ ύεται από την εξ τερική νώση που μπορεί να προσφέρει το WordNet, ένας από τους πιο ευρέ ς διαδεδομένους ησαυρούς έξε ν ια την Α ική ώσσα. Το WordNet, 1 4

20 ορ ανώνει διάφορες σσο ο ικές σ έσεις σε ιεραρ ίες οι οποίες μπορούν να αναπαραστα- ούν σε δενδροειδής δομές. Κάνοντας ρήση αυτών τ ν δομών, αναζητούμε στο WordNet ια τα υπερώνυμα (hypernyms) τ ν σημαντικότερ ν έξε ν που απαρτίζουν ένα άρ ρο νέου και έτσι επεκτείνουμε το συνο ικό νοηματικό περιε όμενό του. Επί της ουσίας με αυτή τη διαδικασία εισά ουμε νέα νώση στην υπάρ ουσα ίστα έξε ν κάτι που κάνει την διαδικασία συσταδοποίησης ι ότερο ασαφή και περισσότερο αποτε εσματική. Α ροίζοντας τις δενδροειδής δομές τ ν υπερώνυμ ν τ ν σημαντικότερ ν όρ ν ενός κειμένου, αυτό που παρατηρήσαμε είναι ότι όσο πιο πο ύ π ησιάζουμε στην ρίζα του δέντρου (οντότητα - entity), τόσο πιο συ νά εμφανίζεται το υπερώνυμο α ά και τόσο πιο ενικού νοήματος ίνεται αυτό. Επομέν ς τυπικά υπάρ ουν δύο παράμετροι που πρέπει να ηφ ούν υπ όψιν στην διαδικασία της επι ο ής τ ν υπερ νύμ ν που α ενισ ύσουν το κείμενο: η συ νότητα εμφάνισης και το ά ος. Η ζύ ιση τ ν παραπάν παραμέτρ ν έ ινε άσει μίας σι μοειδούς (sigmoid) συνάρτησης της οποίας η παράμετρος που εκφράζει το πόσο απότομη είναι περι αμ άνει τόσο το ά ος όσο και την συ νότητα του υπερ νύμου. Μια ακόμη σημαντική ρήση της εφαρμο ής του WordNet η οποία με ετή ηκε ήταν η εξα- ή ετικετών (labeling) εκ τ ν παρα όμεν ν συστάδ ν. Η διαδικασία του labeling ειτουρ εί ατομικά σε κά ε συστάδα άρ ρ ν αμ άνοντας υπόψιν αρ ικά το 10% τ ν σημαντικότερ ν έξε ν-κ ειδιών τ ν άρ ρ ν της συστάδας. Στη συνέ εια, και ια κά ε μία από τις έξεις-κ ειδιά, παρά ονται τα δέντρα υπερ νύμ ν τους τα οποία και συνδυάζονται σε ένα συνο ικό δέντρο. Οι κόμ οι που προκύπτουν ζυ ίζονται και ταξινομούνται άσει του άρους τους, με τα 5 πρώτα υπερώνυμα να επιστρέφονται ς αντιπροσ πευτικά της συστάδας. Αποτέ εσμα αυτής της διαδικασίας είναι η δημιουρ ία ετικετών που κα ύπτουν νοηματικά την συστάδα και που μά ιστα πο ές φορές δεν είναι μέρος τ ν έξε ν-κ ειδιών τ ν άρ ρ ν που απαρτίζουν τη συστάδα. Συνδυάζοντας τις παραπάν τε νικές, κατα ήξαμε στο α όρι μο W-kmeans, ο οποίος αξιο- ο ή ηκε σε σ έση με παρόμοιους partitional α ορί μους ρησιμοποιώντας την μετρική του Clustering Index. Τα αποτε έσματα της διαδικασίας αξιο ό ησης έδειξαν σημαντική ε τί ση της απόδοσης σε σ έση με τον κ ασικό k-means α όρι μο. Παρά η α, οι παρα- όμενες ετικέτες έ ουν υψη ή ποιότητα και α μπορούσαν να αποτε έσουν ένα σημαντικό ερ α είο ια online υπηρεσίες δεικτοδότησης άρ ρ ν νέ ν και ό ι μόνο. Επέκταση και χρήση του αλγορίθμου W-kmeans για την περίπτωση των χρηστών Στο τμήμα αυτό της διδακτορικής διατρι ής έ ινε επέκταση/προσαρμο ή του α ορί μου W-kmeans στην περίπτ ση συσταδοποίησης ρηστών που παρακο ου ούν άρ ρα νέ ν του διαδικτύου. Πιο συ κεκριμένα, με ετή ηκε και υ οποιή ηκε η επέκταση της εφαρμο ής του α ορί μου ια τις κατα ε ραμμένες συνεδρίες τ ν ρηστών που είναι ε ε ραμμένοι στην online υπηρεσία δεικτοδότησης. Παρά η α, έ ινε αξιο ό ηση τ ν συνεπειών που έ ει η προσέ ιση αυτή στην μη ανή προτάσε ν του συστήματός μας, μετρώντας την συνο ική επίδοση που έ ει αυτή όσον αφορά στην ακρί εια και ανάκ ηση (precision/recall) τ ν πα- 5

21 ρα όμεν ν αποτε εσμάτ ν. Ο α όρι μος W-kmeans ια την περίπτ ση εφαρμο ής του σε ρήστες, προ ράει ς εξής: αρ ικά εξά ονται οι συνεδρίες (sessions) από άρ ρα τα οποία ο ρήστης επέ εξε να δει σε συ κεκριμένου με έ ους ρονικά παρά υρα. Στη συνέ εια, ια κά ε συνεδρία α ροίζουμε τα άρ ρα που απαρτίζουν την συνεδρία και στη συνέ εια εμπ ουτίζουμε τις έξεις-κ ειδιά με σ ετικά υπερώνυμα που εξά ονται από το WordNet με τον τρόπο που περι ράφεται στην συνέ εια. Αρ ικά ια κά ε μία από τις έξεις-κ ειδιά παρά ουμε τις δενδροειδής δομές από υπερώνυμα που οδη ούν στο υπερώνυμο - ρίζα (οντότητα - entity) και στη συνέ εια α ροίζουμε ό ες τις δενδροειδής δομές σε μία. Πρακτικά, υπάρ ουν δύο παράμετροι οι οποίες πρέπει να ηφ ούν υπ όψιν όσον αφορά στη σημαντικότητα του κά ε υπερώνυμου: το ά ος του στο δέντρο και η συ νότητα εμφάνισής του. Ζυ ίζοντας τις παραπάν παραμέτρους με μία σι μοειδή (sigmoid) συνάρτηση και στη συνέ εια ταξινομώντας άσει του άρους, κατα- ή ουμε σε μία ίστα από υπερώνημα τα οποία εκφράζουν το προφί του ρήστη άσει τις επι ο ές που έ ει κάνει. Η ίστα αυτή ρησιμοποιείται έπειτα κατά το στάδιο προτάσε ν στο ρήστη ια την παρουσίαση αποτε εσμάτ ν τα οποία με με ά η πι ανότητα τον ενδιαφέρουν. Για την πειραματική αξιο ό ηση της εφαρμο ής του α ορί μου W-kmeans στα προφί τ ν ρηστών, ρησιμοποιή ηκε με ά ο π ή ος από άρ ρα νέ ν προερ όμενα διάφορα διαδικτυακά ειδησεο ραφικά πρακτορεία κα ώς και αρκετούς ε ε ραμμένοι ρήστες του συστήματος. Επίσης ς κριτήριο αξιο ό ησης τ ν σ ηματιζόμεν ν συστάδ ν ρησιμοποιή ηκε το Clustering Index κα ώς και το F-measure. Τα αποτε έσματα έδειξαν μία σημαντική ε τί- ση σε σ έση με τον κ ασικό k-means α όρι μο. Παρά η α, οι προσφερόμενες προτάσεις άρ ρ ν στους ρήστες ήταν σημαντικά ε τι μένες σε σ έση με πριν όπου δεν εφαρμόζονταν η συσταδοποίηση ρηστών. Προσωποποίηση των προτεινόμενων άρθρων νέων βάσει της πληροφορίας συσταδοποίησης Με άση τα παραπάν αποτε έσματα σε σ έση με την συσταδοποίηση άρ ρ ν νέ ν, κα ώς και τ ν ρηστών αυτών, στο τμήμα αυτό της διδακτορικής διατρι ής αναπτύ ηκε τε νική προσ ποποίησης τ ν προτεινόμεν ν προς τους ρήστες άρ ρ ν νέ ν, η οποία αξιοποιεί την π ηροφορία τ ν συστάδ ν ρηστών του συστήματος. Ο α όρι μος προσ ποποίησης που αναπτύ ηκε, μπορεί να αρακτηριστεί ς υ ριδικός κα ώς ασίζεται τόσο στο ίδιο το περιε- όμενο τ ν άρ ρ ν (content-based) όσο και στο συνερ ατικό φι τράρισμα (collaborative filtering) αξιοποιώντας την συσταδοποίηση και τις επι ο ές τ ν ρηστών του συστήματος. Παρά η α, έ ει τη δυνατότητα της προσαρμο ής στα μετα α όμενα ενδιαφέροντα του ρήστη με σ ετικά μικρές α ά διαρκείς μετα ο ές στα προφί τ ν ρηστών. Ο α όρι μος ενσ ματώνει αρκετά ευρετικά, όπ ς τα επι ε μένα προς ανά ν ση άρ ρα νέ ν από τον ρήστη, τον ρόνο που ξοδεύει δια άζοντάς τα, την κατη ορία τ ν άρ ρ ν, κα ώς και την νώση της συστάδας που ανήκει ο ρήστης. Η εφαρμο ή της προαναφερ είσας τε νικής προσ ποποίησης με ρήση συσταδοποίησης, οδή- ησε σε ε τι μένα αποτε έσματα όσον αφορά τόσο στην ικανότητα του συστήματος να 6

22 συ κ ίνει ρη ορότερα στις πρα ματικές προτιμήσεις τ ν ρηστών, όσο και στην ποιότητα τ ν προτάσε ν ια άρ ρα νέ ν που προσφέρει προς τους ρήστες. Το πρόβλημα του νέου χρήστη και αντιμετώπισή του Ένα σύστημα συστάσε ν (recommendation system), μπορεί να ρε εί σε μία κατάσταση κατά την οποία δεν έ ει αρκετή π ηροφορία στην οποία να ασίσει τις αποφάσεις/προτάσεις του. Αυτού του είδους η κατάσταση είναι ν στή στην ι ιο ραφία ς cold start problem και διακρίνεται σε τρεις περιπτώσεις: α) πρό ημα νέου στοι είου (new item problem) όπου ένα νέο στοι είο (στην περίπτ σή μας ένα άρ ρο νέου) προστί εται στο σύστημα ρίς να υπάρ ουν ακόμη αξιο ο ήσεις ια αυτό, ) πρό ημα νέου ρήστη (new user problem) όπου ένας νέος ρήστης ε ράφεται στο σύστημα ρίς να είναι ν στό κάτι ια τις προτιμήσεις του, ) πρό ημα νέου συστήματος όπου αποτε εί συνδυασμό τ ν παραπάν περιπτώσε ν. Στο τμήμα αυτό της διδακτορικής διατρι ής αναπτύ ηκε μια προσ ποποιημένη με οδο ο ία ια την αντιμετώπιση του προ ήματος νέου ρήστη (new user problem). Η τε νική που υ οποιή ηκε, είναι αρ ικά παρόμοια με την στοι είο προς στοι είο στρατη ική (item by item strategy). Στη συνέ εια, δεδομένης μία του ά ιστον επι ο ής ια αξιο ό ηση άρ ρου από τον ρήστη, αξιοποιείται η π ηροφορία της συσταδοποίησης άρ- ρ ν, και πιο συ κεκριμένα τα αποτε έσματα του W-kmeans α ορί μου που υπάρ ουν στη άση δεδομέν ν ια την μετέπειτα επι ο ή προτάσε ν. Έπειτα, και εφόσον δεν έ ουν ήδη επι ε εί αρκετά άρ ρα ια αξιο ό ηση, ρησιμοποιούμε τα αποτε έσματα του W-kmeans α ορί μου όσον αφορά στην συσταδοποίηση ρηστών του συστήματος ια τις προτάσεις που ακο ου ούν. Η διαδικασία συνε ίζεται έ ς ότου ο συνο ικός αρι μός αξιο ο ήσε ν από τον ρήστη φτάσει σε κάποιο όριο στο οποίο μπορούμε να ε ρήσουμε ότι η διαδικασία εκτίμησης τ ν προτιμήσε ν του ρήστη έ ει ο οκ ηρ εί. Η πειραματική αξιο ό ηση της προαναφερ είσας τε νικής έδειξε ότι με τη ρήση κατά μέσο όρο 5 άρ ρ ν από κά ε σ ετική συστάδα άρ ρου ή ρήστη, παίρνουμε τα κα ύτερα αποτε έσματα και την τα ύτερη σύ κ ιση στο προφί του ρήστη. Χρησιμοποιώντας αυτό το συμπέρασμα, υπο ο ίσαμε ότι η τε νική μας ρειάζεται κατά μέσο όρο 37.5 άρ ρα προς παρουσίαση στη ρήστη προκειμένου να πάρει 20 επιτυ είς αξιο ο ήσεις ένα αποτέ εσμα σημαντικά κα ύτερο από τις τυπικές υπάρ ουσες με όδους της ι ιο ραφίας σ ετικά με την αντιμετώπιση του προ ήματος νέου ρήστη. Αξιοποίηση word n-grams για βελτίωση της συσταδοποίησης άρθρων νέων Ένα n-gram ορίζεται ς η ακο ου ία κειμένου με έ ους n που αποτε είται από συνε όμενα ράμματα ή έξεις. Για την περίπτ ση τ ν word n-grams, ενδιαφερόμαστε μόνο ια σειρές το πο ύ n συνε όμεν ν έξε ν στις ακο ου ίες κειμέν ν. Για παράδει μα ένα 4-gram είναι το εξής: economic situation in Greece. Στο τμήμα αυτό της διδακτορικής διατρι ής αναπτύ ηκε τε νική ενίσ υσης του α ορί μου συσταδοποίησης άρ ρ ν νέ ν από το διαδίκτυο (W-kmeans) με ρήση n-grams έξε ν (word n-grams) κατά την διαδικασία της εξα ής έξε ν κ ειδιών (keyword extraction). Για την 7

23 ενίσ υση του α ορί μου W-kmeans, ρησιμοποιή ηκε μία προσέ ιση ζυ ίσματος η οποία αξιοποιεί τόσο την συ νότητα εμφάνισης τ ν keywords (bag of words representation) όσο και αυτή τ ν n-grams. Πιο συ κεκριμένα, ο α όρι μος ανα έτει άρη στα n-grams του κειμένου (όπου 2 < n < 6) παρόμοια με τα tf-idf (term frequency inverse document frequency) άρη τ ν keywords, κατά τη διαδικασία της εξα ής έξε ν-κ ειδιών (keyword extraction), και έπειτα συνδυάζει τα συνο ικά άρη ια να αξιο ο ήσει ποια keywords και n-grams είναι πιο σημαντικά ώστε να αμ άνονται υπόψη κατά την συσταδοποίηση. Η εκτίμηση της σημαντικότητας τ ν keywords και n-grams στη διαδικασία της συσταδοποίησης αποτέ εσε αντικείμενο της πειραματικής διαδικασίας, από την οποία προέκυψε ότι η ζύ ιση keywords / n-grams σε ό ο 7/3 έδινε τα κα ύτερα αποτε έσματα ια την συσταδοποίηση (συστάδες κα ύτερα δια ρισμένες και με με α ύτερη συνο ή). Παρά η α ρέ ηκε ότι ια n = 3, δη αδή όταν αμ άνονται υπόψη τόσο τα 2-grams όσο και τα 3-grams ια την διαδικασία ζυ ίσματος, έ ουμε κα ύτερα αποτε έσματα ια την συσταδοποίηση άρ ρ ν από το διαδίκτυο (κάτι που επι ε αί σε την υπάρ ουσα σ ετική ι ιο ραφία). 8

24

25 EXECUTIVE SUMMARY With the reality of the ever increasing information sources from the internet, both in sizes and indexed content, it becomes necessary to have methodologies that will assist the users in order to get the information they need, exactly the moment they need it. The delivery of content, personalized to the user needs is deemed as a necessity nowadays due to the combinatoric explosion of information visible to every corner of the world wide web. Solutions effective and swift are desperately needed in order to deal with this information overload. These solutions are achievable only via the analysis of the refereed problems, as well as the application of modern mathematics and computational methodologies. This Ph.d. dissertation aims to the design, development and finally to the evaluation of mechanisms, as well as, novel algorithms from the areas of information retrieval, natural language processing and machine learning. These mechanisms shall provide a high level of filtering capabilities regarding information originating from internet sources and targeted to end users. More precisely, through the various stages of information processing, various techniques are proposed and developed. Techniques that will gather, index, filter and return textual content well suited to the user tastes. These techniques and mechanisms aim to go above and beyond the usual information delivery norms of today, dealing via novel means with several issues that are discussed. The kernel of this Ph.d. dissertation is the development of a clustering mechanism that will operate both on news articles, as well as, users of the web. Within this context several classical clustering algorithms were studied and evaluated for the case of news articles, allowing as to estimate the level of efficiency of each one within this domain of interest. This left as with a clear choice as to which algorithm should be extended for our work. As a second phase, we formulated a clustering algorithm that operates on news articles and user profiles making use of the external knowledge base of WordNet. This algorithm is adapted to the requirements of diversity and quick churn of news articles originating from the web. Another central goal of this Ph.d. dissertation is the modeling of the browsing behavior of system users within the context of our recommendation system, as well as, the automatic 10

26 evaluation of these behaviors with the obvious desired outcome or predicting the future preferences of users. The user modeling process has direct application upon the personalization capabilities that we can over on information as far as user preferences predictions are concerned. As a result, a personalization algorithm we formulated which takes into consideration a plethora or parameters that indirectly reveal the user preferences. The above mechanisms, after being evaluated separately, were later incorporated as modules within the online news indexing service 2 that was implemented as part of my M.Sc. thesis, transforming it into a complete news articles recommendation system. The techniques that are proposed in this Ph.d. dissertation extend and diversify over works from other researchers, adding new methodologies in order to deal with the problem of recommending news articles. The work covered as part of the Ph.d. dissertation is shortly outlined below. Study of existing news clustering algorithms and evaluation for the case of news articles originating from the web This part of the Ph.d. dissertation has to do with the study of clustering algorithms which operate upon texts and the evaluation of this application for the case of news articles. The goal of this study was the application of various clustering methodologies and then the comparison of their performance as far as the great numbers and diversity that news articles exhibit, are concerned. In particular, hierarchical clustering algorithms were studied: pairwise single, maximum, average, centroid linkage. In addition, several partitional clustering algorithms were also studied: k-means, k-medoids, k-means++. For each of the above clustering algorithms various distance measures for calculating the distance among the formulated clusters were used: Euclidian, City-block, Pearson correlation coefficient, Cosine similarity, Spearman-rank, Kendall s tau. For the evaluation of the above combination of clustering algorithms and distance measures, news articles collected from numerous news portals were useds. Furthermore, for comparing the quality of the generated clusters the Clustering Index and F-measure metrics were utilized. Finally, the quality of the generated clusters was evaluated by real system users, giving some useful feedback about the performance of the wining clustering methodology. Design and implementation of a hybrid news articles clustering algorithm (W-kmeans) Having the results of the aforementioned research in mind, within the scope of this Ph.d. dissertation, we moved the design and implementation of a new news articles clustering algorithm. The outcome of this research was the W-kmeans algorithm which is an extension of the classical k-means clustering algorithm, assisted by the external knowledge that WordNet, one of the most widely used English language thesauri, can offer. WordNet, by organizing the various linguistic relationships into hierarchies can be represented into tree-like structures. Using these structures, we seek into WordNet for the hypernyms of the words which constitute a news article, enhancing thus its overall 2 11

27 context meaning. In essence, via this process, we are introducing new knowledge into the existing keywords lists, something that makes the clustering process less fuzzy and more effective. By aggregating the hypernym structures of the text s keywords, what we observed was that the more we got closer to the root of this tree (called entity within WordNet), the more frequently the hypernym would appear but also the more generic its meaning would become. As a results there are typically two parameters that should be taken into consideration with regards to the process of hypernym selection/weighting that shall enhance the text: the frequency of appearance and its depth. The weighting scheme of these parameters was done using a sigmoid function of which the parameter that defines how steep it is includes the both the weight and the frequency of the hypernym. Another important use for the application of WordNet that was studied, is the labeling generation process regarding the produced clusters. The labeling process operates within each individual news articles cluster initially taking into consideration the top 10% of the most important keywords of the articles belonging to the particular cluster. Next, of each of those keywords the WordNet hypernym tree is generated and those trees are aggregated together into a global tree. The nodes that are produced by this process are then weighted and sorted according to their weight, and the top 5 hypernyms are returned as representatives of the cluster. The outcome of the above process is cluster labels which cover the sense of each clyster and which might not even be part of the keywords that make us the cluster. Combining the above techniques into a single process, we named the algorithm as W- kmeans. W-kmeans was then evaluated against similar partitinal algorithms use the Clustering Index metric. The results of the evaluation process showed significant improvement compared with the classical k-means algorithm. Furthermore, the generated labels are of high quality and can constitute an important tool for inline services which index news articles (amongst other things). Expansion and use of the W-kmeans clustering algorithm for the case of system users Within this part of the Ph.d. dissertation, the adaptation of the W-kmeans algorithm for the case of user clustering was performed (as far as users browsing news articles are concerned). In particular, an expansion of the clustering algorithm was investigated and implemented that would take into account the system users as registered into our recommendation system. In addition, we evaluated the consequences of this approach into the recommendation engine of the system, evaluating thus the overall performance improvement that this has with regards to precision/recall metrics on the produced results. The W-kmeans algorithm for the case of users proceeds as follows: initial the user sessions are extracted using news articles for which the user has expressed interest into reading within specific time windows. Following, for each user session, we sum up the articles that make it up and then we enrich the extracted keywords using WordNet hypernyms 12

28 in the way that is described next. Initially for each of the keywowrds we generate the tree-like structures of hypernymes that lead to the hypernym-root and we then aggregate all these structures into a combined one. There are practically two parameters that need to be taken into consideration as far as the importance of each hypernym is concerned: its depth in the tree and its frequency of appearance. By weighting the above parameters into a sigmoid function and then by sorting them by weight, we end up with a list of hypernymes that express the user profile based on the choices that he did. This like can be used later in multiple ways (like in the personalization/recommendation phase, or for dealing with the new user problem). For the experimental evaluation of the application of the W-kmeans algorithm to the user profiles, we used a good number of news articles originating from online news portals, as well as data from registered system users. Again as an evaluative criterion we used the Clustering Index and the F-measure. The results showed a significant improvement compared to the classical k-keans algorithm. In addition, the article recommendations towards the users were significantly improved compared to the case when user clustering was not employed. Personalization of the proposed articles based on clustering information Using the above results regarding news articles and user clustering, in this part of the Ph.d. dissertation we developed a personalization technique that lead to the actual recommendations made by the system. This technique makes use of several heuristics that had been investigated before, but is now enhanced to also incorporate clustering into the weighting scheme. The personalization algorithm that was developed can be characterized as hybrid since it s based both onto the context of the articles themselves, as well as the collaborative filtering, using continuously the clustering information along with the previous user choices. Moreover, it has the capability of adapting to the always evolving user interests with relatively small but continuous profile updates. The algorithm incorporates a multitude of heuristics like the previously viewed articles, the times spent by the user reading them, the articles categorization along with the previously mentioned clustering information. The application of the aforementioned personalization technique resulted in improved results with regards to both the ability of the system to quickly converge to the real user interests, and to the quality of the news articles suggestions offered to the end users. Addressing the new user problem A recommendation system can be found in a situation where it does not have enough information on which to rely its decisions/recommendations. This kind of state is commonly known as the cold start problem and is made up of three individual cases: a) the new item problem, where a new item (in our case a news article) is added to the system without any ratings or choices yet available for it, b) the new user problem, where a new user would register into the system without any kind of information regarding his preferences 13

29 made available, making any future recommendation completely a luck experiment, c) the new system problem which is a combination of a) and b). In this part of the Ph.d. dissertation we developed a personalized methodology for dealing with the new user problem. The technique that was implemented is initially similar to the item by item personalized strategy. However, given at least one successful user rating, the information regarding news clustering, and in particular the W-kmeans clustering results stored in the database, are taken advantage of for the follow-up suggestions for rating. Next, and as long as not enough news articles have been selected by the user for rating, we use the results of the W-kmeans algorithm with regards to user clustering for selecting the upcoming queries for rating. The process continues until the total number of user ratings reaches a particular limit upon which we can assume that the estimation of user interests has completed. The experimental procedure of the aforementioned methodology revealed that by using, on average, 5 articles from each of the relative cluster, either the articles one, or the users one, we get the best results and the fastest convergence to the actual user profile. Making use of this conclusion, we calculated that the proposed technique needs, on average, 37.5 articles to be presented to the user in order to gather 20 successful evaluations - a result far better than the typical methods proposed in the literature regarding the problem. Making use of word n-grams in order to improve the news clustering results An n-gram is the textual sequence of size n which consists of continuous letter or words. For the case of word n-grams, we are interested in sequences of at most n continuous words into the texts. For example, a 4-gram would be the following: economic situation in Greece. Into this part of the Ph.d. dissertation, a technique for improving the process of news article clustering was developed that makes use of word n-grams during the keyword extraction phase. For improving associating n-grams with W-kmeans, we used a weighting scheme which takes advantage of the information of both the article keywords (bag of words representation), as well a similar n-grams representation. More specifically, the algorithm assigns weights to the text n-grams (where 2 < n < 6) similar to the tf-idf (term frequency inverse document frequency) keyword weights during the keyword extraction phase, and then combines the aggregate weights in order to evaluate which n-grams and keywords are important and how so as to be taken under consideration for the clustering process that follows. The assessment of the importance of the keywords and n-grams within the clustering process constituted an area of experimentation from which we found that the weighting of keywords/n-grams in a ratio of 7/3, would give the best clustering results (clusters well connected within and well separated from outside). In addition, we found that for n = 3, meaning that when we kept both 2-grams and 3-grams during the weighting process, we 14

30 would have the best results as far as news clustering is concerned (a result confirming existing bibliography). 15

31

32 ΔΗΜΟΣΙΕΥΣΕΙΣ ΚΑΙ ΑΝΑΦΟΡΕΣ Δημοσιεύσεις σ ετικές με την διδακτορική διατρι ή Δημοσιεύσεις σε διε νή περιοδικά 1. Improving News Articles Recommendations via User Clustering. International Journal of Machine Learning and Cybernetics (to appear) C. Bouras, V. Tsogkas, 2015 Abstract Παρότι συ νά μόνο η συσταδοποίηση αντικειμέν ν συ νά προτείνεται από τε νικές Web mining ια συστήματα προτάσε ν άρ ρ ν νέ ν, μία από τις ποικί ες διερ ασίες την προσ ποποίησης προτάσε ν είναι η συσταδοποίηση τ ν ίδι ν τ ν ρηστών. Με την συνδυαστική έκρηξη τ ν online άρ ρ ν νέ ν, η πρό εψη τ ν συνη ειών π οή ησης τ ν ρηστών με ρήση συνερ ατικού φι τραρίσματος (CF) έ ει κερδίσει αρκετά έδαφος στην περιο ή της προσ ποποίησης του ιστού. Παρό α αυτά, οι κοινές CF τε νικές υποφέρουν από αμη ή ακρί εια και απόδοση. Η παρούσα έρευνα προτείνει μία νέα προσ ποποιημένη προσέ ιση ια παρα ή προτάσε ν, η οποία ενσ ματώνει την συσταδοποίηση τόσο σε επίπεδο περιε ομένου όσο και ρηστών. Βασίζεται στο α όρι μο W-kmeans κα ώς και ά ες IR τε νικές, όπ ς η κατη οριοποίηση και περί ηψη κειμένου, προκειμένου να προσφέρει στους ρήστες άρ ρα που ταιριάζουν στα προφί τους. Το σύστημα προτάσε ν που αναπτύ ηκε μπορεί ρή ορα να προσαρμόζεται στα ρονικά μετα α όμενα ενδιαφέροντα τ ν ρηστών. Επιπ έον, τα πειραματικά αποτε έσματα έδειξαν ότι η αξιοποίηση συσταδοποίησης αντικειμέν ν και ρηστών επιφέρει σημαντικά οφέ η στο σύστημα προτάσε ν. 2. Assisting cluster coherency via N-grams and clustering as a tool to deal with the new user problem. International Journal of Machine Learning and Cybernetics: 1-14, Springer Verlang, C. Bouras, V. Tsogkas, 2014 Abstract 17

33 Οι τε νικές συνερ ατικού φι τραρίσματος (collaborative filtering techniques) πάσ ουν από το ε όμενο πρό ημα νέου ρήστη. Αυτή η κατάσταση συμ αίνει όταν ένας νέος ρήστης προστί εται σε ένα σύστημα προτάσε ν (recommendation system) και δεν υπάρ- ει αρκετή π ηροφορία την οποία μπορεί να ρησιμοποιήσει το σύστημα ια να στηρίξει τις προτάσεις του. Το σύστημα ρειάζεται επομέν ς κάποια δεδομένα σ ετικά με τον νέο ρήστη προκειμένου να μπορεί να κάνει τις προσ ποποιημένες προτάσεις. Σε αυτή τη δημοσίευση επι ειρούμε να αντιμετ πίσουμε το πρό ημα νέου ρήστη ρησιμοποιώντας μία προσ ποποιημένη στρατη ική σ ετικά με τις προτάσεις που ίνονται στο ρήστη προκειμένου να α μο ο η ούν αυτές κατά της διαδικασία αρ ικής εκμά ησης. Η προσέ ισή μας κάνει ρήση υπερ νήμ ν τα οποία εξά ονται από το WordNet και προσε ίζει ρή ορα στα πρα ματικά ενδιαφέροντα του ρήστη ασιζόμενη παρά η α σε ί ες α μο ο ήσεις από την π ευρά του ρήστη. Παρά η α ερευνούμε την ε τί ση που μπορεί να έ ει στα αποτε- έσματα της συσταδοποίησης άρ ρ ν νέ ν από το διαδίκτυο η αξιοποίηση n-grams έξε ν κατά την διαδικασία εξα ής έξε ν-κ ειδιών. Η τε νική αυτή συ κρίνεται με την τυπική bag of words αναπαράσταση που ρησιμοποιούσε προη ούμενα ο α όρι μος W-kmeans. Η πειραματική διαδικασία δεί νει ότι μέσ του κατά η ου ζυ ίσματος της αρύτητας τ ν keywords, τ ν n-grams κα ώς και της τιμής n, μία σημαντική ε τί ση μπορεί να επιτευ εί σ ετικά με τα αποτε έσματα της συσταδοποίησης. 3. A clustering technique for news articles using WordNet. Knowledge-Based Systems Journal, Elsevier Science, Vol. 36, C. Bouras, V. Tsogkas, 2012, Abstract Η συσταδοποίηση κειμενικής π ηροφορίας αποτε εί μία ισ υρή τε νική αντιμετώπισης του προ ήματος δια είρισης της παρα όμενης ποσότητας άρ ρ ν νέ ν που κατακ ύζουν το διαδίκτυο. Μέσ αυτής, μπορούμε να ορ ανώσουμε δεδομένα σε μικρότερους και πιο δια ειρίσημους πυρήνες π ηροφορίας. Π η ώρα προσε ίσε ν έ ουν προτα εί στη ι ιο ραφία με τυπικά προ ήματα να παραμένουν η συν νυμία, η ασάφεια κα ώς και η έ ειψη συ κεκριμέν ν αντιπροσ πευτικών περι ράφ ν τ ν συστάδ ν (labels). Στην παρούσα έρευνα, ερευνούμε την εφαρμο ή ενός φάσματος α ορί μ ν συσταδοποίησης, κα ώς και μετρικών σύ κρισης, στον τομέα τ ν άρ ρ ν νέ ν που προέρ ονται από το διαδίκτυο. Παρά η α προτείνουμε μία τροποποίηση/ ε τιστοποίηση του α ορί μου k-means κάνοντας ρήση την εξ τερική νώση από υπερώνημα (hypernyms) του WordNet με διττό τρόπο: εμπ ουτίζοντας τις έξεις κ ειδιά (bag of words) οι οποίες ρησιμοποιούνται προη ούμενα από την διαδικασία συσταδοποίησης, και επίσης, αξιοποιώντας αυτή την π ηροφορία προκειμένου να υπο οη η εί η παρα ή αντιπροσ πευτικών τίτ ν ια κά ε συστάδα. Παρά η α, εξετάζουμε την επίδραση που έ ει η προεπεξερ ασία κειμένου στη διαδικασία συσταδοποίησης. Χρησιμοποιώντας ένα σώμα (corpus) άρ ρ ν νέ ν που πη άζουν από μείζονα η εκτρονικά ειδησεο ραφικά πρακτορεία, η σύ κριση τ ν υπαρ όντ ν α ορί μ ν συσταδοποίησης έδειξε ότι η k-means δίνει κα ύτερα συνο ικά αποτε έσματα σε σ έση με την αποδοτικότητά του. 18

34 Αυτό ενισ ύεται όταν ο α όρι μος συνοδεύεται από προκαταρκτικά ήματα ια κα αρισμό δεδομέν ν και κανονικοποίηση, παρά την ε ρητικά απ οϊκή του φύση. Εκτός αυτού, ο προτεινόμενος W-kmeans α όρι μος συσταδοποίησης ε τιώνει σημαντικά τον τυπικό k-means παρά οντας επίσης ρήσιμες και ποιοτικές ετικέτες (cluster tags) άσει της διαδικασίας που περι ράφεται στην συ κεκριμένη δημοσίευση. Δημοσιεύσεις σε διε νή συνέδρια 1. Evaluating the Unification of Multiple Information Retrieval Techniques into a News Indexing Service. 3rd Intenational Conference on Data Management Technologies and Applications, Vienna, Austria, C. Bouras, V. Tsogkas, Aug Abstract Όσο οι online πη ές ειδησεο ραφικών νέ ν αυξάνονται, τόσο αυξάνεται και ο ό κος της σ ετικής π ηροφορίας. Πο απ ές προσε ίσεις έ ουν προτα εί ια την ορ άν ση αυτού του ό κου π ηροφορίας. Στην παρούσα δημοσίευση, ερευνούμε την ενοποίηση πο απ ών τε νικών ανάκτησης π ηροφορίας, όπ ς προεπεξερ ασία κειμένου, επέκταση n-grams, περί- ηψη κειμένου, κα ώς και συσταδοποίηση στοι εί ν/ ρηστών, σε έναν μη ανισμό σ εδιασμένο να ενοποιεί και να δεικτοδοτεί άρ ρα νέ ν που πη άζουν από το διαδίκτυο. Στό ος μας είναι να επιτρέψουμε στους ρήστες να μπορούν απρόσκοπτα και ρή ορα να πάρουν την ειδησεο ραφική ενημέρ ση η οποία τους ταιριάζει. Δεί νουμε π ς, η ρήση κα εμίας από τις προτεινόμενες τε νικές, ε τιώνει την ακρί εια του συστήματος σε σ έση με τα προτεινόμενα άρ ρα ια τους ε ε ραμμένους ρήστες. Τέ ος εξετάζουμε π ς αυτές οι τε- νικές συνο ικά μπορούν να αποτε έσουν μία ενοποιημένη ύση ια ένα σύστημα προτάσε ν (recommendation system). 2. Enhancing news articles clustering using word n grams. 2nd Intenational Conference on Data Management Technologies and Applications, Reykjavvk, Iceland, C. Bouras, V. Tsogkas, July , Abstract Σε αυτή την ερ ασία, ερευνούμε την πι ανή ε τί ση τ ν αποτε εσμάτ ν της συσταδοποίησης κειμέν ν, και εν προκειμέν, άρ ρ ν νέ ν που προέρ ονται από το διαδίκτυο, μέσ της ρήσης n-grams έξε ν κατά την διαδικασία της εξα ής έξε ν κ ειδιών. Παρουσιάζουμε και αξιο ο ούμε μία προσέ ιση ζυ ίσματος η οποία συνδυάζει την συσταδοποίηση άρ ρ ν νέ ν με ρήση n-grams τα οποία εξά ονται offline και ρησιμοποιούνται παρά η α με τις έξεις κ ειδιά του εκάστοτε κειμένου. Η συ κεκριμένη τε νική συ κρίνεται με την απ οϊκή bag-of-words αναπαράσταση (όπου αξιοποιούνται μόνο οι έξεις κ ειδιά) την οποία ρησιμοποιούσε προη ούμενα ο α όρι μος συσταδοποίησης W-kmeans. Η πειραματική διαδικασία έδειξε ότι μέσ της ρύ μισης τ ν παραμέτρ ν ζυ ίσματος μεταξύ έξε ν κ ειδιών και n- grams, κα ώς και του n, μπορεί να δώσει σημαντικές ε τιώσεις όσον αφορά την επίδοση 19

35 του α ορί μου συσταδοποίησης. 3. Clustering to Deal with the New User Problem. 15th IEEE International Conference on Computational Science and Engineering, Paphos, Cyrus, C. Bouras, V. Tsogkas, 5-7 December 2012, pp Abstract Οι τε νικές συνερ ατικού φι τραρίσματος (collaborative filtering) επι ειρούν να ανακουφίσουν τον ρήστη από την υπερ-τροφοδότηση π ηροφορίας με το να εντοπίζουν ποια στοι εία ένας ρήστης α έ ρισκε ενδιαφέροντα. Εστιάζουν στον εντοπισμό ρηστών με παρόμοια ενδιαφέροντα και ρησιμοποιούν τις προη ούμενες επι ο ές τους προκειμένου να προτείνουν στοι εία. Συ νά όμ ς, οι τε νικές αυτές πάσ ουν από το αναφερόμενο πρό ημα νέου ρήστη το οποίο αμ άνει ώρα όταν ένας ρήστης προστί εται στο σύστημα ρίς εκείνο να έ ει αρκετές π ηροφορίας ώστε να κάνει προτάσεις. Το σύστημα επομέν ς α πρέπει να αποκτήσει ορισμένα δεδομένα σ ετικά με τον ρήστη προκειμένου να αρ ίζει να προσφέρει προτάσεις. Σε αυτή την δημοσίευση, παρουσιάζουμε έναν καινοτόμο α όρι μο ο οποίος συνδυάζει προη ούμενα αποκτημένη νώση από την συσταδοποίηση τόσο άρ ρ ν νέ ν όσο και ρηστών συστήματος προκειμένου να συμπεράνει όσο πιο ρή ορα ίνεται τις προτιμήσεις του ρήστη. Επι ειρούμε να αντιμετ πίσουμε το πρό ημα νέου ρήστη προσφέροντας μία προσ ποποιημένη στρατη ική παρουσίασης άρ ρ ν νέ ν στον ρήστη προκειμένου να τα α μο ο ήσει. Η προσέ ισή μας επίσης κάνει ρήση υπερ νύμ ν τα οποία εξά ονται από το WordNet και φαίνεται να προσε ίζει ρή ορα στα πρα ματικά ενδιαφέροντα του ρήστη με τις ι ότερο δυνατόν απαιτούμενες α μο ο ήσεις άρ ρ ν νέ ν. 4. User Personalization via W kmeans. KES The 16th International Conference on Knowledge Based & Intelligent Information & Engineering Systems, San Sebastian, Spain, C. Bouras, V. Tsogkas, September 2012, Abstract Με την ρα δαία έκρηξη τον online άρ ρ ν νέ ν, η πρό εψη τ ν προτιμήσε ν του ρήστη με την ρήση τε νικών συνερ ατικού φι τραρίσματος έ ει ε είρει αρκετό ενδιαφέρον σε σ έση με την προσ ποποιημένη πρόσ αση. Παρό α αυτά, οι συνη ισμένες τε νικές συνερ ατικού φι τραρίσματος πάσ ουν από αμη ή ακρί εια και απόδοση. Η δημοσίευση αυτή εστιάζει σε μία νέα προσ ποποιημένη προσέ ιση προτάσε ν που ενσ ματώνει την συσταδοποίση άρ ρ ν νέ ν και ρηστών, μέσ του α ορί μου W-kmeans, μαζί με ά ες τε νικές ανάκτησης π ηροφορίας, όπ ς κατη οριοποίηση και περί ηψη κειμένου. Το προτεινόμενο σύστημα μπορεί εύκο α να προσαρμόζεται σε διαφοροποιημένες προτιμήσεις ρηστών. 5. Clustering user preferences using W kmeans. The 7th International Conference on Signal Image Technology & Internet Based Systems (SITIS 11), Dijion - France, C. Bouras, V. Tsogkas, November 28 - December , pp

36 Abstract Παρότι συ νά μόνο η συσταδοποίηση κειμέν ν ρησιμοποιείται ς τε νική εξόρυξης π ηροφορίας από το Web σε συστήματα προτάσε ν (recommenders), ένα από τα τμήματα της προσ ποποίησης προτάσε ν είναι επίσης η συσταδοποίηση τ ν ρηστών. Σε αυτή τη δημοσίευση προτείνουμε μια με οδο ο ία συσταδοποίησης τ ν μοτί ν τ ν ρηστών του Web. Πιο συ κεκριμένα, προσαρμόζουμε τον W-kmeans α όρι μο, ο οποίος προη ούμενα ρησιμοποιή ηκε ια την περίπτ ση της συσταδοποίησης κειμέν ν, στην περίπτ ση της συσταδοποίησης προφί ρηστών ανα ύοντας τα προη ούμενα μοτί α τους. Παρά η α ερευνούμε την επίδραση που έ ει αυτή η ε τί σε όσον αφορά στον μη ανισμό προτάσε ν του συστήματος και αξιο ο ούμε την απόδοσή του σε σ έση με την ακρί εια ανάκ ηση τ ν παρα όμεν ν προτάσε ν προς τους ρήστες. 6. W - kmeans: Clustering News Articles using WordNet. Advanced Knowledge - based Systems, Invited Session of the 14th International Conference on Knowledge based and Intelligent Information & Engineering Systems, Cardiff Wales, UK, C. Bouras, V. Tsogkas, September , pp Abstract Το Web είναι εμάτο από άρ ρα νέ ν, μία συντριπτική πη ή π ηροφορίας τόσο ό ο της π η ώρας της όσο και της ποικι ομορφίας της. Αντι έτ ς, η ανά εση άρ ρ ν νέ ν σε παρόμοιες κατη ορίες αποτε εί με μια ισ υρή τε νική ανάκτησης π ηροφορίας και δια είρισης δεδομέν ν ια αναζήτηση εματικών κατη οριών σε κείμενα. Σε αυτή τη δημοσίευση ερευνούμε την εφαρμο ή ενός εύρους α ορί μ ν συσταδοποίησης, κα ώς με μετρικών ομοιότητας, ια την περίπτ ση άρ ρ ν νέ ν τα οποία πη άζουν από το διαδίκτυο, ενώ παρά η α συ κρίνουμε την αποδοτικότητά τους ια την ρήση μας. Παρά η α ερευνούμε την επίδραση που έ ει η προεπεξερ ασία κειμένου στην αρ ότερα συσταδοποίησή του. Τα πειραματικά αποτε έσματα έδειξαν ότι ο α όρι μος k-means, παρά την απ οϊκότητα του, συνδυαζόμενος από ορισμένα ήματα προεπεξερ ασίας ια τον κα αρισμό, κανονικοποίηση και ενίσ υση τ ν έξε ν κ ειδιών του κειμένου, μπορεί να δώσει σημαντικά ε τι μένα αποτε έσματα όσον αφορά στην ποιότητά τους. 7. Assigning Web News to Clusters. The Fifth International Conference on Internet and Web Applications and Services, (ICIW 2010), Barcelona, Spain, C. Bouras, V. Tsogkas, May Abstract Η συσταδοποίηση κειμένου (document clustering) αποτε εί μια ισ υρή τε νική η οποία έ ει ρησιμοποιη εί ευρέ ς ια την ορ άν ση δεδομέν ν σε μικρότερους και πιο δια ειρίσημους πυρήνες π ηροφορίας. Πο απ ές προσε ίσεις έ ουν προτα εί στην ι ιο ραφία 21

37 οι οποίες υποφέρουν από προ ήματα όπ ς η συν νυμία, η αμφισημία κα ώς και η έ ειψη μιας περι ραφής τ ν παρα όμεν ν συστάδ ν. Σε αυτή τη δημοσίευση προτείνουμε την ε τί ση του τυπικού α ορί μου k-means ρησιμοποιώντας την εξ τερική νώση από υπερώνυμα του WordNet με διττό τρόπο: ενισ ύοντας την ίστα από έξεις (bag of words) που ρησιμοποιούνται πριν από τη διαδικασία συσταδοποίησης και υπο οη ώντας την παρα ή περι ραφών που ακο ου εί. Η πειραματική μας διαδικασία έδειξε μία σημαντική ε τί ση σε σ έση με τον κ ασικό k-means α όρι μο ια ένα σύνο ο άρ ρ ν νέ ν τα οποία ανακτή ηκαν από πο απ ά online ειδησεο ραφικά πρακτορεία. Παρά η α η διαδικασία παρα ής περι ραφών τ ν συστάδ ν είναι αρκετά αποτε εσματική. 22

38 Λοιπές δημοσιεύσεις Κεφά αια σε ι ία 1. Squeak Etoys: Interactive and Collaborative Learning Environment. Handbook of Research on Social Interaction Technologies and Collaboration Software: Concepts and Trends, IGI Global, Chapter 37, C. Bouras, V. Poulopoulos, V. Tsogkas, 2010, pp Διε νή περιοδικά 1. Adaptation of RSS feeds based on the user profile and on the end device. Journal of Network and Computer Applications, Elsevier Science, Vol. 33, C. Bouras, V. Poulopoulos, V. Tsogkas, 2010, pp Noun Retrieval Effect on Text Summarization and Delivery of Personalized News Articles to the User s Desktop. Data and Knowledge Engineering, Elsevier Science, Special Issue Advanced Knowledge, Vol. 69, C. Bouras, V. Tsogkas, 2010, pp Networking and Security Issues for Remote Gaming: The Approach of International Journal on Advances in Security, IARIA, Vol. 2, No. 2, 3, C. Bouras, V. Poulopoulos, V. Tsogkas, 2009, pp PeRSSonal s core functionality evaluation: Enhancing text labeling through personalized summaries. Data and Knowledge Engineering Journal, Elsevier Science, 2008, Vol. 64, Issue 1, C. Bouras, V. Poulopoulos, V. Tsogkas, 2008, pp Διε νή συνέδρια 1. Caching News Channels on the User s Desktop. IADIS International Conference Applied Computing, Rome, Italy, C. Bouras, G. Tsichritzis, V. Tsogkas, November , pp Personalization Mechanism for Delivering News Articles on the User s Desktop. The Fourth International Conference on Internet and Web Applications and Services ICIW 2009, Venice, Italy, C. Bouras, V. Tsogkas, May 2009, pp Networking Aspects for the Security of Game Input. 5th IEEE International Workshop on Networking Issues in Multimedia Entertaiment - NIME09, Las Vegas, USA, C. Bouras, V. Poulopoulos, V. Tsogkas, 13 January Evaluating PeRSSonal: A Medium for Personalized Dynamically Created News Feeds. IADIS International Conference WWW/Internet Freiburg, Germany, C. Bouras, V. Poulopoulos, V. Tsogkas, October

39 5. Improving text summarization using noun retrieval techniques. Advanced Knowledge based Systems, Invited Session of the 12nd International Conference on Knowledge based and Intelligent Information & Engineering Systems(KES 2008), Zagreb, Croatia, C. Bouras, V. Tsogkas, 3-5 September 2008, pp Creating dynamic personalized RSS summaries. 8th Industrial Conference on Data Mining ICDM 2008,, Leipzig, Germany, C. Bouras, V. Poulopoulos, V. Tsogkas, July 2008, pp Networking Aspects for Gaming Systems. Third International Conference on Internet and Web Applications (ICIW 2008), Athens, Greece, C. Bouras, V. Poulopoulos, I. Sengounis, V. Tsogkas, 8-13 June 2008, pp Efficient Summarization Based On Categorized Keywords. The 2007 International Conference on Data Mining (DMIN07), Las Vegas, Nevada, USA, C. Bouras, V. Poulopoulos, V. Tsogkas, June Personalizing text summarization based on sentence weighting. IADIS European First International Conference Data Mining (ECDM 2007), Lisbon, Portugal, C. Bouras, V. Poulopoulos, V. Tsogkas, 3-8 July 2007, pp Input here - Execute there through networks: the case of gaming. The 15th Workshop on Local and Metropolitan Area Networks (LANMAN 2007), Princeton, NJ, USA, C. Bouras, V. Poulopoulos, I. Sengounis, V. Tsogkas, June The importance of the difference in text types to keyword extraction: Evaluating a mechanism. 7th International Conference on Internet Computing 2006 (ICOMP 2006), Las Vegas, Nevada, USA, C. Bouras, C. Dimitriou, V. Poulopoulos, V. Tsogkas, June 2006, pp

40 Αναφορές από ά ους ερευνητές PeRSSonal s core functionality evaluation: Enhancing text labeling through personalized summaries. Data and Knowledge Engineering Journal, Elsevier Science, 2008, Vol. 64, Issue 1, C. Bouras, V. Poulopoulos, V. Tsogkas, 2008, pp Web News Portal Content Personalization using Information Extraction Techniques and Weighted Voronoi Diagrams. Ševa, J., Hybridization of EM and SVM clusters for efficient text categorization, Murugan, S. A., & Suresh, P A Knowledge Document Structured Summarization Model. International Journal of Electronic Business 11.1, Yang, Shih-Ting, and Yu-Ting Gong., 2013, pp Combining summaries using unsupervised rank aggregation. Computational Linguistics and Intelligent Text Processing. Palshikar, Girish Keshav, Shailesh Deshpande, and G. Athiappan Springer Berlin Heidelberg, 2012, pp Improving text summarization using noun retrieval techniques. Advanced Knowledge based Systems, Invited Session of the 12nd International Conference on Knowledge based and Intelligent Information & Engineering Systems(KES 2008), Zagreb, Croatia, C. Bouras, V. Tsogkas, 3-5 September 2008, pp Latent semantic sentence clustering for multi-document summarization. Geiß, Johanna. University of Cambridge, Computer Laboratory, Technical Report UCAM-CL-TR- 802 (2011). 2. Topic-Dependent-Class-Based-Gram Language Model. Audio, Speech, and Language Processing. Naptali, Welly, Masatoshi Tsuchiya, and Seiichi Nakagawa., IEEE Transactions on 20.5 (2012): An alternative approach for statistical single-label document classification of newspaper articles. Mamakis, Georgios, Athanasios G. Malamos, and J. Andrew Ware. Journal of Information Science (2011). 4. A review of retrospective news event detection. Semantic Technology and Information Retrieval (STAIR), Ramadan, Qusai Hussein, and Masnizah Mohd International Conference on. IEEE, i-jen: visual interactive Malaysia crime news retrieval system. Visual Informatics: Sustaining Research and Innovations. Ali, Nazlena Mohamad, et al. Springer Berlin Heidelberg, A Framework for Progressive Trusting Services. International Journal On Advances in Intelligent Systems 3.3 and 4. Dini, Oana, Pascal Lorenz, and Hervé Guyennet. (2011):

41 7. Document Classification in Summarization. Journal of Information and Computing Science 7.1. Mamakis, Georgios, et al. (2012): Online Service Similarities and Reputation-based Selection. The Second International Conferences on Advanced Service Computing Dini, Oana, et al. SERVICE COMPUTATION 2010 Personalization Mechanism for Delivering News Articles on the User s Desktop. The Fourth International Conference on Internet and Web ASpplications and Services ICIW 2009, Venice, Italy, C. Bouras, V. Tsogkas, May 2009, pp Content-based news recommendation. E-commerce and web technologies. Kompan, Michal, and Mária Bieliková. Springer Berlin Heidelberg, Effective hierarchical vector-based news representation for personalized recommendation. Computer Science and Information Systems 9.1. Bieliková, Mária, Michal Kompan, and Dušan Zeleník (2012): Semantic metadata in the news production process: achievements and challenges. Proceeding of the 16th International Academic MindTrek Conference. Pellegrini, Tassilo. ACM, Integrating linked data into the content value chain: a review of news-related standards, methodologies and licensing requirements. Proceedings of the 8th International Conference on Semantic Systems. Pellegrini, Tassilo. ACM, The Economics of Big Data: A Value Perspective on State of the Art and Future Trends. Big Data Computing. Pellegrini, Tassilo. New York: Chapman and Hall/CRC (2013): Classifying News Headlines for Providing User Centered E-Newspaper Using SVM. Deshmukh, R. R., and Mr DK Kirange 7. Vector-based tree news recommendation. Bielikova, Mária, Michal Kompan, and Dušan Zelenik. A clustering technique for news articles using WordNet. Knowledge-Based Systems Journal, Elsevier Science, Vol. 36, C. Bouras, V. Tsogkas, 2012, Subset K-Means Approach for Handling Imbalanced-Distributed Data., Kumar, Ch N. Santhosh, et al. Emerging ICT for Bridging the Future-Proceedings of the 49th Annual Convention of the Computer Society of India CSI Volume 2. Springer International Publishing, Undersampled K-means approach for handling imbalanced distributed data. Progress in Artificial Intelligence. Kumar, N. Santhosh, et al., 2014: Ninaus, G., Reinfrank, F., Stettinger, M., & Felfernig, A. Content-Based Recommendation Techniques for Requirements Engineering.,

42 4. An updated literature review on the problem of Class Imbalanced Learning in Clustering. Kumar, Ch N. Santhosh, et al. 5. Clustering based on Cuckoo Optimization Algorithm. Intelligent Systems (ICIS). Ameryan, Mahya, Mohammad Reza Akbarzadeh Totonchi, and Seyyed Javad Seyyed Mahdavi. Iranian Conference on. IEEE, Locality mutual clustering for document retrieval. Proceedings of the 8th International Conference on Ubiquitous Information Management and Communication. Nguyen, Khu Phi, and Hong Tuyet Tu. ACM, Performance Evaluation of Semantic Approaches for Automatic Clustering of Similar Web Services. Computing and Communication Technologies (WCCCT), Vadivelou, G., and E. Ilavarasan World Congress on. IEEE, Clustering-based topical Web crawling using CFu-tree guided by link-context. Frontiers of Computer Science: Liu, Lu, and Tao Peng 9. Imbalanced K-Means: An algorithm to cluster imbalanced-distributed data. Kumar, Ch N. Santhosh, et al Assigning Web News to Clusters. The Fifth International Conference on Internet and Web Applications and Services, (ICIW 2010), Barcelona, Spain, C. Bouras, V. Tsogkas, May A survey of techniques for event detection in Twitter. Computational Intelligence (2013). Atefeh, Farzindar, and Wael Khreich 2. A review of retrospective news event detection. Semantic Technology and Information Retrieval (STAIR) 2011 International Conference on. IEEE, Ramadan, Qusai Hussein, and Masnizah Mohd., OPTIMAL INITIAL CENTROID IN K-MEANS FOR CRIME TOPIC. Mohd, Masnizah. (2010). 4. i-jen: visual interactive Malaysia crime news retrieval system. Visual Informatics: Sustaining Research and Innovations. Ali, Nazlena Mohamad, et al. Springer Berlin Heidelberg, Feedback-driven clustering for automated linking of web pages. 8th International Conference for Internet Technology and Secured Transactions (ICITST), Oest, Adam, and Manjeet Rege. IEEE, Information Integration in News Articles from Various Sources. Holub, Michal 7. An Intelligent Document Clustering Approach to Detect Crime Patterns. Procedia Technology 11. Bsoul, Qusay, Juhana Salim, and Lailatul Qadri Zakaria. (2013): Article Recommendations for News Feed. Shen, Minghan 27

43 Networking Aspects for Gaming Systems. Third International Conference on Internet and Web Applications (ICIW 2008), Athens, Greece, C. Bouras, V. Poulopoulos, I. Sengounis, V. Tsogkas, 8-13 June 2008, pp large distributed gaming system. Proc. of Networked & Electronic Media Summit (NEM2009). Laikari, Arto, et al. Saint-Malo, France (2009). 2. Gaming platform for running games on low-end devices. User Centric Media. Laikari, Arto, et al. Springer Berlin Heidelberg, Graph of Game Worlds: New Perspectives on Video Game Architectures. Zhu, M. E. N. G., et al. Manuscript submitted for publication (2012). 4. Entertainment Services-Distributed 3D Gaming System. Laikari, Arto, Editor: Pentti Vähä Graphic design: Tuija Soininen (2009): Game Streaming Prototypen mit Hilfe von Serverseitigem Rendering. Moser, Mario. Entwurf eines. na, Software Architectures and the Creative Processes in Game Development. Wang, Alf Inge, and Njål Nordmark, 2014 Clustering user preferences using W kmeans. The 7th International Conference on Signal Image Technology & Internet Based Systems (SITIS 11), Dijion - France, C. Bouras, V. Tsogkas, November 28 - December , pp Semantic preserving text tepresentation and its applications in text clustering. Howard, Michael. (2012). Noun Retrieval Effect on Text Summarization and Delivery of Personalized News Articles to the User s Desktop. Data and Knowledge Engineering, Elsevier Science, Special Issue Advanced Knowledge, Vol. 69, C. Bouras, V. Tsogkas, 2010, pp SyMSS: A syntax-based measure for short-text semantic similarity. Data & Knowledge Engineering. Oliva, Jesús, et al (2011): Analysis and study on text representation to improve the accuracy of the normalized compression distance. Granados, Ana. AI Communications 25.4 (2012): Is the contextual information relevant in text clustering by compression?. Granados, Ana, David Camacho, and Francisco Borja Rodríguez. Expert Systems with Applications (2012): COMPENDIUM: A text summarization system for generating abstracts of research papers. Natural Language Processing and Information Systems. Lloret, Elena, María Teresa Romá-Ferri, and Manuel Palomar. Springer Berlin Heidelberg, Analysis and study on text representation to improve the accuracy of the normalized compression distance. Granados Fontecha, Ana (2012). 28

44 6. Web Service to Execute A Datamining Task. Velkumar, R., A. Muthukumaravel, and N. Sathya W - kmeans: Clustering News Articles using WordNet. Advanced Knowledge - based Systems, Invited Session of the 14th International Conference on Knowledge based and Intelligent Information & Engineering Systems, Cardiff Wales, UK, C. Bouras, V. Tsogkas, September , pp Keen-Means: A Web Page Clustering Tool Based on an Self-Adjustable K-Means Algorithm. Tseng, Chun Hsiung, et al. Ubi-Media Computing and Workshops (UMEDIA), th International Conference on. IEEE, Semantic Framework to Text Clustering with Neighbors. ICT and Critical Infrastructure: Proceedings of the 48th Annual Convention of Computer Society of India-Vol II. Lalitha, Y. Sri, and A. Govardhan. Springer International Publishing, Beyond cluster labeling: Semantic interpretation of clusters contents using a graph representation. Knowledge-Based Systems 56. Role, François, and Mohamed Nadif. (2014): Clustering system based on text mining using the K-means algorithm: news headlines clustering. Lama, Prabin (2013). Adaptation of RSS feeds based on the user profile and on the end device. Journal of Network and Computer Applications, Elsevier Science, Vol. 33, C. Bouras, V. Poulopoulos, V. Tsogkas, 2010, pp Development and performance evaluation of a new RSS tool for a Web-based system: RSS_PROYECT. Journal of Network and Computer Applications De La Torre- DíEz, Isabel, et al (2013): Automatic multi-label categorization of news feeds. Darabi, Majid, Hossein Adeli, and Nasseh Tabrizi Creating dynamic personalized RSS summaries. 8th Industrial Conference on Data Mining ICDM 2008,, Leipzig, Germany, C. Bouras, V. Poulopoulos, V. Tsogkas, July 2008, pp RSS feeds behavior analysis, structure and vocabulary. Travers, Nicolas, et al. International Journal of web information systems 10.3 (2014): Characterizing web syndication behavior and content. Web Information System Engineering WISE Hmedeh, Zeinab, et al. Springer Berlin Heidelberg, Everything you would like to know about RSS feeds and you are afraid to ask. BDA 11, Base de Données Avancées. Hmedeh, Zeinab, et al. (2011):

45 ΠΡΟΛΟΓΟΣ Όταν το κα οκαίρι του 2002 μά αινα, με απερί ραπτη αρά, ότι ινόμουν δεκτός στο ΤΜΗΥΠ του Πανεπιστημίου Πατρών, ποτέ δεν α περίμενα ότι 12 ρόνια αρ ότερα, α ο οκ ήρ να ένα κείμενο σαν το παρόν. Μία διδακτορική διατρι ή, η οποία αποτε εί το επιστέ ασμα προσπα ειών, ρόνου α ά και προσ πικής αράς και ικανοποίησης από κά ε άποψη. Η εματο ο ία με την οποία ασ ο ή ηκα από την προπτυ ιακή διπ ματική μου ερ ασία, στην μεταπτυ ιακή μου ερ ασία και τώρα στην διδακτορική μου διατρι ή, ήταν μία ήμα προς ήμα προσέ ιση, ένα υπέρο ο ταξίδι στους συ κεκριμένους τομείς της επιστήμης τ ν υπο ο ιστών που ε ρώ ότι μου προσέφερε σημαντικά εφόδια σαν μη ανικό, επιστήμονα, α ά και πάν απ ό α σαν άν ρ πο. Θε ρώ τον εαυτό μου εξαιρετικά τυ ερό που εί α την ευκαιρία να κάν αυτό το ταξίδι σε αυτή τη σ ο ή και με αυτόν τον τρόπο. Βρισκόμενος οιπόν πριν από το τέ ος του δρόμου α ή ε α να ευ αριστήσ ορισμένους αν ρώπους που πρα ματικά με οή ησαν ό α αυτά τα ρόνια, είτε σε ακαδημαϊκό, είτε σε προσ πικό επίπεδο, και ρίς τους οποίους ίσ ς να μην ρισκόμουν σε αυτή την ευ άριστη ια μένα έση. Θα ή ε α οιπόν να ευ αριστήσ τον κα η ητή μου Χρήστο Μπούρα ια την στήριξη και υπομονή που έδειξε προς το πρόσ πό μου ό α αυτά τα ρόνια. Ο ιδιαίτερος τρόπος με τον οποίο αντιμετώπιζε ότι εί ε να κάνει με την ακαδημαϊκή μου σταδιοδρομία, μου έδινε ώ ηση και όραμα ια να συνε ίζ την προσπά εια. Επιπ έον, ευ αριστώ ερμά τον κα η ητή κ. Ευστράτιο Γα όπου ο και τον επίκουρο κα η ητή κ. Χρήστο Μακρή ια την συμμετο ή και στήριξή τους ς μέ η της τριμε ούς επιτροπής, τόσο στην μεταπτυ ιακή μου ερ ασία, όσο και στην παρούσα. Επίσης, ευ αριστώ τους κα η ητές κ. Νικό αο Α ούρη, Α ανάσιο Τσακα ίδη, Ι άννη Γαροφα άκη και Βασί ειο Με α οοικονόμου ια την συμμετο ή τους στην επταμε ή επιτροπή αξιο ό ησης της παρούσας διδακτορικής διατρι ής. Ευ αριστώ από τα ά η της καρδιάς μου τους ονείς μου, Θρασύ ου ο και Θεοδώρα, που με την α άπη και τις αξίες που με με ά σαν, με έκαναν έναν ρήσιμο, σκεπτόμενο και πάν απ ό α Άν ρ πο. Την αδερφή μου, Α εξάνδρα, ια την καταπ ηκτική παιδική η ικία που μοιραστήκαμε και συ νά αναπο ώ και ια το αμό ε ό της. Η ερ ασία αυτή είναι αφιερ μένη στους δύο αν ρώπους που μοιράζονται την πρώτη έση στην 30

46 καρδιά μου. Στην υναίκα μου, Αντι όνη, που είναι πάντα δίπ α μου, συνοδοιπόρος, στα κα ά και στα άσ ημα, με υπομονή και α άπη ια να με στηρίζει. Και φυσικά στο ιο μου, το νόημα και το φ ς της ζ ή μου, τον ό ο ια τον οποίο αισ άνομαι πρα ματικά υπερήφανος σε αυτό τον κόσμο. Κ είνοντας α ή ε α να εκφράζ την ε πίδα μου προς τον ανα νώστη ότι η ανά ν ση της διδακτορικής διατρι ής α είναι τόσο ευ άριστη, ενδιαφέρουσα και δημιουρ ική όσο ήταν η συ ραφή της. Τσό κας Βασί ης, Πάτρα, Δεκέμ ριος

47

48 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ Above all things, reverence yourself. Pythagoras, Greek Mathematician, 497 BC Το παρόν κεφά αιο παρουσιάζει ενικά στοι εία ια την διδακτορική διατρι ή που πρα ματοποιή ηκε, δίνει ορισμένες εισα ικές π ηροφορίες α ίζοντας τις ερευνητικές περιο ές με τις οποίες καταπιάνεται και παρα έτει τη δομή της ερ ασίας. 33

49

50 1.1 Γενικά Ζούμε σε μια κοιν νία α α ής και προόδου. Σε μια κοιν νία που αρακτηρίζεται από τον τεράστιο ό κο της π ηροφορίας που διακινείται μέσα στις τάξεις της. Κυρί ς όμ ς διανύουμε την επο ή της κατάρ ησης τ ν συνόρ ν και της αδιά ειπτης επικοιν νίας μεταξύ τ ν αν ρώπ ν. Το διαδίκτυο αποτε εί τον τρο ό ι αυτές τις α α ές, η ποσότητα όμ ς τ ν δεδομέν ν που υπάρ ουν και διακινούνται μέσ αυτού είναι τόσο τεράστια, ώστε να αποσπά τους πο ίτες της κοιν νίας αυτής στην προσπά ειά τους να ρουν ρήσιμη π ηροφορία και επομέν ς να μετατρέπεται σε τρο οπέδη της α α ής. 1.2 Υπάρ ουσα κατάσταση Τα άρ ρα νέ ν π ημμυρίζουν το διαδίκτυο τόσο με το ακραία με ά ο π ή ος τους, τόσο και από την ο οένα και αυξανόμενη συ νότητα εμφάνιση τ ν πη ών τους. Είναι πρακτικά αδύνατο ια έναν ρήστη του διαδικτύου σήμερα να μπορέσει να παρακο ου ήσει ρίς οή εια (π.. φι τράρισμα ή μέσ προτάσε ν) ένα ε ονός ή μια σειρά ε ονότ ν που τον ενδιαφέρουν. Παρά η α, η αμερο ηψία στην ενημέρ ση είναι ένα μείζον έμα το οποίο δύσκο α αντιμετ πίζεται δί ς σφαιρική ενημέρ ση επί τ ν εν ό ε ονότ ν από πο απ ές πη ές. Από την ά η π ευρά, η συσταδοποίηση άρ ρ ν νέ ν παρέ ει ένα ισ υρό ερ α είο από το πεδίο της ανάκτησης π ηροφορίας ια τον εντοπισμό εμάτ ν (συστάδ ν) π ηροφορίας σε κείμενα. Η συσταδοποίηση μπορεί συνεπώς να αποτυπώσει την υποκείμενη ιεραρ ία περιε ομένου με ά ου π ή ους αντικειμέν ν, παρέ οντας έτσι στα συστήματα ανάκτησης π ηροφορίας (π.. συστήματα προτάσε ν) την δυνατότητα διευκό υνσης τ ν ρηστών, οη ώντας έτσι στην αντιμετώπιση της προαναφερ είσας κατάστασης. 1.3 Περι ραφή της ερ ασίας Η παρούσα διδακτορική διατρι ή προσ έπει στο σ εδιασμό, στην ανάπτυξη και τε ικά στην αξιο ό ηση μη ανισμών και καινοτόμ ν α ορί μ ν από τις περιο ές της ανάκτησης π ηροφορίας, της επεξερ ασίας φυσικής ώσσας κα ώς και της μη ανικής εκμά ησης που α παρέ ουν ένα υψη ό επίπεδο φι τραρίσματος τ ν άρ ρ ν νέ ν του διαδικτύου προς τον τε ικό ρήστη. Πιο συ κεκριμένα, στα διάφορα στάδια επεξερ ασίας της π ηροφορίας αναπτύσσονται τε νικές και μη ανισμοί που συ έ ουν, δεικτοδοτούν, φι τράρουν και επιστρέφουν κατά η α στους ρήστες κειμενικό περιε όμενο που πη άζει από τον πα κόσμιο ιστό. Πυρήνας της διδακτορικής διατρι ής είναι η ανάπτυξη ενός μη ανισμού συσταδοποίησης (clustering) τόσο κειμέν ν, όσο και τ ν ρηστών του διαδικτύου. Στο π αίσιο αυτό με ετή ηκαν κ ασικοί α - όρι μοι συσταδοποίησης οι οποίοι και αξιο ο ή ηκαν ια την περίπτ ση τ ν άρ ρ ν, κειμένου προκειμένου να εκτιμη εί αν και πόσο αποτε εσματικός είναι ο εκάστοτε α όρι μος. Σε δεύτερη

51 1.3. Περιγραφή της εργασίας Κεφάλαιο 1 φάση υ οποιή ηκε α όρι μος συσταδοποίησης άρ ρ ν νέ ν που αξιοποιεί μια εξ τερική άση νώσης, το WordNet, και είναι προσαρμοσμένος στις απαιτήσεις τ ν άρ ρ ν νέ ν που πη άζουν από το διαδίκτυο. Ένας ακόμη ασικός στό ος της παρούσας ερ ασίας είναι η μοντε οποίηση τ ν κινήσε ν που ακο ου ούν κοινοί ρήστες κα ώς και η αυτοματοποιημένη αξιο ό ηση τ ν συμπεριφορών, με ορατό ετικό αποτέ εσμα την πρό εψη τ ν προτιμήσε ν που α εκφράσουν στο μέ ον οι ρήστες. Η μοντε οποίηση τ ν ρηστών έ ει άμεση εφαρμο ή στις δυνατότητες προσ ποποίησης της π ηροφορίας με την πρό εψη τ ν προτιμήσε ν τ ν ρηστών. Ως εκ τούτου, υ οποιή ηκε α όρι μος προσ ποποίησης ο οποίος αμ άνει υπ όψιν του π η ώρα παραμέτρ ν που αποκα ύπτουν έμμεσα τις προτιμήσεις τ ν ρηστών. Σκοπός της διδακτορικής διατρι ής είναι η επέκταση και η ε τί ση, προς συ κεκριμένες κατευ ύνσεις, του μη ανισμού που δημιουρ ή ηκε στα π αίσια της μεταπτυ ιακής διπ ματικής ερ- ασίας που εκπόνησα με τίτ ο Προσωποποιημένη Προβολή Περιεχομένου του διαδικτύου σε Desktop Εφαρμογή με Τεχνικές ανάκτησης δεδομένων, προεπεξεργασίας κειμένου, αυτόματης κατηγοριοποίησης και εξαγωγής περίληψης [235]. Στα π αίσια της παραπάν μεταπτυ ιακής ερ ασίας, δημιουρ- ή ηκε ένας ο οκ ηρ μένος μη ανισμός ο οποίος μπορεί αυτόματα να κάνει ανά υση σε κείμενα του διαδικτύου προκειμένου να εξά ει έξεις-κ ειδιά. Μέσα από αυτή την ανά υση προκύπτουν οι σημαντικότερες προτάσεις του κειμένου που το αρακτηρίζουν, και οι οποίες μπορούν, αν συνεν ούν, να αποτε έσουν μια σύντομη περί ηψη του κειμένου. Ο μη ανισμός αξιοποιεί νώσεις ια την κατη ορία του κειμένου κα ώς και ια τις προτιμήσεις που παρουσιάζουν οι ρήστες προκειμένου να ε τιώσει και να φι τράρει τα αποτε έσματα που παρουσιάζονται. Το σύστημα που κατασκευάστηκε έ ει τα εξής ασικά υποσυστήματα: μη ανισμός ανάκτησης δεδομέν ν και εξα- ής ρήσιμου κειμένου από τον πα κόσμιο ιστό, μη ανισμός εξα ής έξε ν-κ ειδιών από το πη αίο κείμενο, μη ανισμός κατη οριοποίησης κειμένου, ο οποίος μπορεί να συμμετάσ ει στη διαδικασία εξα ής περί ηψης και να ενδυναμώσει τα αποτε έσματά της, μη ανισμοί προσ ποποίησης περιε ομένου στο ρήστη και φυσικά, μη ανισμός εξα ής περί ηψης. Οι παραπάν μη ανισμοί είναι ενσ ματ μένοι στο σύστημα αποδε τί σης PeRSSonal [171], το οποίο ρησιμοποιείται ια την ανάκτηση, προεπεξερ ασία, κατη οριοποίηση, προσ ποποίηση και περί ηψη άρ ρ ν από ειδησεο ραφικούς τόπους του διαδικτύου. Για τη δημιουρ ία του μη ανισμού PeRSSonal συμμετεί αν οι Βασί ης Που όπου ος (συντονισμός ερ ασίας, κατασκευή ο οκ ηρ μένου διαδικτυακού περι ά οντος PeRSSonal, δημιουρ ία α ορί μ ν συ κέντρ σης κειμέν ν, εξα ής εικόν ν, κατη οριοποίησης, εξα ής περι ήψε ν, προσ ποποίησης, προσαρμο ής στο ρήστη) [36] [35] [8] [37] [14], Γεώρ ιος Αδάμ (advarss, cuter, m-cuter + υποστήριξη συνο ικά του συστήματος) [5] [6] [7] [4], Κ νσταντίνος Ασημάκης (greek stemmer and tagger) [5], Γεώρ ιος Τσι ριτζής (garbage article location) [38] και Βασί- ης Τσό κας (οι δημοσιεύσεις δίνονται στην επιτε ική σύνοψη), ενώ ια κομμάτια τα οποία δεν μπήκαν ποτέ στο μη ανισμό ια ερευνητικούς ό ους έ ουν ερ ασ εί οι Αντ νέ ης Ι άννης και Σι ιντζήρης Πανα ιώτης, ερ ασίες τ ν οποί ν έ ουν δημοσιευ εί. Η παρούσα διδακτορική διατρι ή επομέν ς τίζει πάν και επεκτείνει τα αποτε έσματα της μεταπτυ ιακής ερ ασίας και ς εκ τούτου μοιράζεται ένα αρκετά με ά ο κομμάτι τ ν μη ανισμών 36

52 Κεφάλαιο Περιγραφή της εργασίας και α ορί μ ν. Κατά συνέπεια, ερευνητικά έματα ή α ορι μικά κομμάτια που παραμένουν αμετά ητα δεν ανα ύονται διεξοδικά στην παρούσα διδακτορική διατρι ή. Αντ αυτού, αναφέρονται συνοπτικά ή προτείνεται στον ανα νώστη να ανατρέξει στα σ ετικά εδάφια της μεταπτυ ιακής ερ ασίας όπου αυτό κρίνεται ανα καίο. Ο σκοπός οιπόν της παρούσας ερ ασίας είναι διττός. Πρώτον, η ενίσ υση ορισμέν ν από τ ν υπαρ όντ ν διαδικασιών του μη ανισμού που δημιουρ ή ηκε πρότερα με αποτε εσματικότερες με- όδους, ευρετικά και α ορί μους. Δεύτερο, η ανάπτυξη και αξιοποίηση α ορί μου συσταδοποίησης άρ ρ ν νέ ν και ρηστών του συστήματος κα ώς και η με έτη της έ τιστης α η επίδρασης τ ν υποσυστημάτ ν με την νέα παράμετρο της συσταδοποίησης π ηροφορίας. Φυσικά τα παραπάν αξιο ο ούνται τόσο αυτοτε ώς όσο και σε συνδυασμό μεταξύ τους προκειμένου να αποδει εί η ρησιμότητά τους συ κεκριμένα ια το σύστημά μας α ά και ενικά ια τα συστήματα προτάσε ν άρ ρ ν νέ ν. Πιο συ κεκριμένα οιπόν, στο στάδιο προεπεξερ ασίας κειμένου, οι α όρι μοι ανα νώρισης και εξα ής ρήσιμου κειμένου έ ουν ενισ υ εί και ε τιστοποιη εί ώστε να εκτε ούνται τα ύτερα και να επιστρέφουν με υψη ότερη ακρί εια το περιε όμενο που ανταποκρίνεται στο φέ ιμο κείμενο μιας ιστοσε ίδας. Συνοπτικά, η ε τί ση αφορά στη ανάκτηση και αξιοποίηση n-grams έξε ν κα ώς και στην ρήση της εξ τερικής άσης νώσης WordNet. Η εφαρμο ή τ ν νέ ν τε νικών προεπεξερ ασίας κειμένου έ ει ς αποτέ εσμα την κα ύτερη νοηματική απεικόνιση τ ν άρ ρ ν νέ ν στον διανυσματικό ώρο τ ν έξε ν κ ειδιών και n-grams που ανακτούνται, κάτι που όπ ς αποδεικνύεται και πειραματικά, έ ει αξιό ο α οφέ η ια τις διαδικασίες που ακο ου ούν. Ιδιαίτερα δε ια την προσ ποποιημένη επι ο ή άρ ρ ν νέ ν στα μέτρα του εκάστοτε ρήστη, η οποία και είναι ο ασικός στό ος ενός συστήματος προτάσε ν. Στη συνέ εια ακο ου εί το ο οκαίνουρ ιο υποσύστημα συσταδοποίησης δεδομέν ν που ειτουρ εί τόσο σε άρ ρα νέ ν όσο και ρήστες του συστήματος. Για το υποσύστημα αυτό, αφού με- ετή ηκε και αξιο ο ή ηκε μια π η ώρα α ορί μ ν συσταδοποίησης, τόσο ιεραρ ικών (hierarchical) όσο και διαιρετικών (partitional), ερευνή ηκε και υ οποιή ηκε μία νέα παρα α ή του πασί ν στου α ορί μου συσταδοποίησης, k-means. Ο α όρι μος αυτός, τον οποίο και ονομάσαμε W- kmeans (WordNet-enabled k-means), αξιοποιεί την εξ τερική άση νώσης WordNet προκειμένου να ενισ ύσει την υπάρ ουσα κειμενική π ηροφορία με παρόμοια/παραπ ήσια, αξιοποιώντας την σ έση υπερ νύμ ν/υπo νύμ ν που ανακτάται από το WordNet. Στο εύει επομέν ς στην εύρεση υποκείμεν ν σ έσε ν μεταξύ άρ ρ ν ή ρηστών που συ νά δεν κατα ράφονται μόνο με την ρήση τ ν έξε ν κ ειδιών που αποτε ούν μέρος αυτών. Η προσ ποποιημένη παρουσίαση τ ν αποτε εσμάτ ν στη μεριά του ρήστη επίσης ενισ ύεται μέσ τ ν τε νικών συσταδοποίησης. Ο α όρι μος προσ ποποίησης αμ άνει υπ όψιν του πο ές παραμέτρους, μεταξύ τ ν οποί ν το ιστορικό περιή ησης, οι ρόνοι που μένει ο ρήστης σε κάποιο άρ ρο, οι επι ο ές του και φυσικά τα αποτε έσματα της συσταδοποίησης, με σκοπό να παρά ει το προφί του. Ο α όρι μος προσ ποποίησης που προτείνεται ουσιαστικά μα αίνει από τις επι ο ές του ρήστη και προσαρμόζεται στις πρα ματικές προτιμήσεις του με το πέρασμα του ρόνου. Έτσι το σύστημα μπορεί να ανταποκρίνεται στις διαρκώς μετα α όμενες προτιμήσεις τ ν ρηστών, 37

53 1.4. Δομή της εργασίας Κεφάλαιο 1 στοι είο εξαιρετικά επ φε ές ια ένα σύστημα προτάσε ν. Μία ακόμη άμεση αξιοποίηση του νέου α ορί μου W-kmeans που αποτέ εσε επίσης τμήμα της διδακτορικής διατρι ής ήταν η αντιμετώπιση του προ ήματος νέου ρήστη. Το πρό ημα αυτό αποτε εί μια κατάσταση με την οποία έρ ονται συ νά αντιμέτ πα τα συστήματα προτάσε ν και που επηρεάζει αρνητικά την απόδοσή τους. Η αξιοποίηση της π ηροφορίας συσταδοποίησης ς προς αυτή την κατεύ υνση μας οή ησε μέσ συ κεκριμέν ν α ορι μικών ημάτ ν να αντιμετ πίσουμε πρακτικά και με ί α ήματα το εν ό πρό ημα, αξιοποιώντας μία ο ική ανατροφοδότηση σ ετικά με τις επι ο ές αξιο ό ησης που πρα ματοποιούν οι ρήστες. Συνο ικά, μέσα από την ερ ασία προέκυψαν αποτε έσματα που έ ουν να κάνουν με σύ κριση α ορί μ ν σε ό α τα παραπάν στάδια του μη ανισμού α ά και ανταπόκριση του μη ανισμού στις ανά κες του ρήστη. Τα αποτε έσματα αυτά, τα οποία και παρουσιάζονται, είναι ιδιαίτερα εν αρρυντικά και μας παρακινούν ια περαιτέρ έρευνα στα έματα με τα οποία καταπιαστήκαμε, κα ώς και στα ενικότερα ερευνητικά πεδία που αυτά αναφέρονται. 1.4 Δομή της ερ ασίας Η υπό οιπη ερ ασία δομείται ς εξής: στο κεφά αιο 2 ίνεται μία ενικότερη κατα ραφή τ ν προ ημάτ ν στα οποία απευ ύνεται η διδακτορική διατρι ή. Στο κεφά αιο 3 παρουσιάζονται οι τρέ ουσες εξε ίξεις στα ερευνητικά πεδία που μας αφορούν (State of the Art) κα ώς και οι σ ετικές ερ ασίες πάν στις οποίες ασίζεται η διδακτορική διατρι ή. Στο κεφά αιο 4 ίνεται μια ενικότερη περι ραφή της αρ ιτεκτονικής και τ ν αρακτηριστικών που προτείνεται ια ένα σύστημα προτάσε ν άρ ρ ν νέ ν - το σύστημα δη αδή που προϋπήρ ε και η παρούσα διατρι ή ανα α μίζει. Ακο ου εί η παρουσίαση τ ν α ορί μ ν που αναπτύ ηκαν ια κα ένα από τα υποσυστήματα (κεφά αιο 5). Στο κεφά αιο 6 παρουσιάζονται οι τε νο ο ίες που ρησιμοποιή ηκαν ια την υ οποίηση του συστήματος κα ώς και οι προδια ραφές του. Στο κεφά αιο 7 ίνεται μια ανα υτική παρουσίαση τ ν δεδομέν ν και τ ν πειραματικών αποτε εσμάτ ν που αφορούν στην αξιο ό ηση του συστήματος. Στο κεφά αιο 8 δίνονται τα συμπεράσματα που προέκυψαν από την ερ ασία και τέ ος στο κεφά αιο 9 παρουσιάζονται κάποιες προτάσεις ια με οντική επέκταση του μη ανισμού, κα ώς και η ενικότερη με οντική ερ ασία που α μπορούσε να ίνει σε κα ένα από τα υποσυστήματα με τα οποία καταπιαστήκαμε. 38

54

55 ΚΕΦΑΛΑΙΟ 2 ΚΑΘΟΡΙΣΜΟΣ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ The only true wisdom is in knowing you know nothing. Socrates, Greek Philosopher, 469 BC Στο παρόν κεφά αιο ίνεται μία συνοπτική παρουσίαση τ ν εμάτ ν με τα οποία καταπιάνεται η διδακτορική διατρι ή. Αναφέρουμε τα προ ήματα που αφορούν στην κα ημερινή ρήση του διαδικτύου και εξη ούμε π ς και ιατί προσπα ούμε να τα επι ύσουμε. Πιο συ κεκριμένα, παρουσιάζονται ορισμένες προ ηματικές καταστάσεις οι οποίες είναι συ νές στο διαδίκτυο και αφορούν: α) στο τρόπο που μπορεί να ίνει αποτε εσματικότερο το φι τράρισμα π ηροφορίας σε άρ ρα νέ ν (news articles), ) στην ε τιστοποίηση διαδικασιών που τυπικά ρησιμοποιεί ένα σύστημα προτάσε ν και ) σε πιο πρακτικά ζητήματα που αντιμετ πίζουν αυτά - όπ ς ια παράδει μα η εκτίμηση του π ή ους τ ν συστάδ ν σε ένα π ή ος κειμέν ν ή η αντιμετώπιση του προ ήματος νέου ρήστη. 40

56

57 2.1 Γενικά Το διαδίκτυο είναι π έον παντού: σε κά ε συσκευή, σε κά ε μεριά του σπιτιού στην κοιν νία ο όκ ηρη. Εξά ου, το διαδίκτυο τ ν πρα μάτ ν (Internet of Things (IoT)), στο οποίο η συνδεσιμότητα συσκευών από παντού με στο διαδίκτυο έ ει ριμάσει αρκετά ώστε να αποτε εί π έον μια κα ημερινότητα. Με νούμερα, η ρήση του διαδικτύου την δεκαετία έ ει αυξη εί κατά το ασύ ηπτο ποσοστό του 220% [101] και το δεικτοδοτημένο μέ ε ός του από τις μη ανές αναζήτησης Google [83] και Bing [31], το 2014 του ά ιστον, ξεπερνά τις 50 δισεκατομμύρια σε ίδες [221]. Και αυτό αποτε εί μόνο το περιε όμενο που είναι προσ άσιμο, ή α ιώς, δεικτοδοτείται, από τις μη ανές αναζήτησης - μη υπο ο ίζοντας επομέν ς το περιε όμενο του Deep Web. Παρά η α, η συνδυαστική έκρηξη που αμ άνει ώρα όσον αφορά στις τε νο ο ίες που ρησιμοποιούνται στο διαδίκτυο και κατ επέκταση στις νέες υπηρεσίες, τα νέα κοιν νικά δίκτυα που ο οένα και αυξάνονται σε π ή ος κα ώς και η διείσδυση της ευρυζ νικότητας σε ο οένα και με α ύτερα ποσοστά του π η υσμού, φυσικά κάνει την δημιουρ ία νέου περιε ομένου πιο απ ή και ρη ορότερη από ποτέ. Χαρακτηριστικό παράδει μα εδώ αποτε εί το ΥouΤube [225], στο οποίο κά ε επτό που περνάει ανε αίνουν ίντεο α ροιστικής διάρκειας 100 ρών! Ό α αυτά τα στοι εία μας οδη ούν στο συμπέρασμα ότι η διαδικασία αναζήτησης και η επιτυ ής εύρεση π ηροφορίας που μας ενδιαφέρει στο διαδίκτυο είναι αν μη τι ά ο μια υπό εση δύσκο η. Θα μπορούσε εύκο α να ειπ εί ότι όπ ς κά ε κοιν νία, έτσι και το διαδίκτυο, έ ει τα δικά του προ ήματα. Πη ή αυτών τ ν προ ημάτ ν μπορεί να ε ρη εί η άναρ η δόμησή του, η έ ειψη σαφούς νομο εσίας α ά και η αίσ ηση ε ευ ερίας που αφήνει τους κατοίκους του να ενερ ούν ουσιαστικά κατά ού ηση, ρίσκοντας στο διαδίκτυο μία επανάσταση που έ ουν στην πρα ματική τους ζ ή, έναν τρόπο έκφρασης ιδεών, έναν τρόπο έκφρασης της νώσης και της μά ησης. Τη σήμερον ημέρα, η ε ευ ερία της έκφρασης και του ό ου πα κοσμί ς διασφα ίζεται από τον τρόπο με τον οποίο διακινείται το περιε όμενο στο διαδίκτυο. Η διά υση νώσης και εμπειρίας α μπορούσαν επίσης να αρακτηριστούν σαν ετικά επακό ου α από την ύπαρξη με ά ου ό κου π ηροφορίας στον πα κόσμιο ιστό. Θα πρέπει όμ ς κανείς να ανα ο ιστεί κατά πόσο ό ος αυτός ο ό κος π ηροφορίας και ό ες οι πη ές ενημέρ σης του διαδικτύου είναι έ κυρες. Δεν υπάρ ει απο ύτ ς κανένας μη ανισμός που να μπορεί να διασφα ίσει σε κά ε επισκέπτη του διαδικτύου π ς οι σε ίδες που παρακο ου εί και το περιε όμενο που συ έ ει είναι αξιόπιστο και ποιοτικό. Π έον, ακόμα και ο μέσος ρήστης, ν ρίζει μη ανισμούς μέσα από τους οποίους μπορεί να ρει στοι εία ια οποιοδήποτε έμα. Κανείς όμ ς δε μπορεί να του ε υη εί επιτυ ία και τα ύτητα στη διαδικασία ανεύρεσης α ά πάν απ ό α, ποιότητα στα αποτε έσματα της εκάστοτε αναζήτησής του. Απαιτούνται καινοτόμες τε νικές, νέες ιδέες και νέες προσε ίσεις ια να αντιμετ πιστεί το πρό ημα. Οι ρήστες δεν έ ουν απ ά π ηροφορία, έ ουν να μπορούν να εντοπίζουν εύκο α και ρή ορα ποιοτική π ηροφορία, π ηροφορία που τους ενδιαφέρει και ταιριάζει με το ύφος τους.

58 Κεφάλαιο Γενικά Ακόμα περισσότερο, επι υμούν αυτή η π ηροφορία να τους προσφέρετε μέσα από αυτόματους μη ανισμούς που έ ουν τη δυνατότητα να φι τράρουν το άος του διαδικτύου. Η έ ειψη ποιότητας στης τάξεις του διαδικτύου έ ει κεντρίσει το ενδιαφέρον της επιστημονικής κοινότητας εδώ και αρκετά ρόνια. Πο ά πεδία της επιστήμης της π ηροφορικής, και ό ι μόνο, ρίσκονται στο επίκεντρο του ενδιαφέροντος: data mining, text analysis, text categorization, semantic web και πο ά ακόμα, τα οποία αν και ήταν ν στά ακόμα και πριν την εξάπ ση του διαδικτύου, επανεξετάζονται κα ώς φαίνεται να είναι αυτά που δίνουν ύσεις στα μειονεκτήματά του Άρ ρα νέ ν Στην παρούσα διδακτορική διατρι ή δε α ανα ούμε στην κατα ραφή τ ν πο ών, αν μη τι ά ο, προ ημάτ ν του διαδικτύου α ά α επικεντρ ούμε σε ένα κομμάτι τ ν προ ημάτ ν που προκύπτουν από την αέναη, κα ημερινή και καται ιστική παρα ή π ηροφορίας σε αυτό. Ακόμα περισσότερο, α εστιάσουμε την προσο ή μας στις π ηροφορίες που δημιουρ ούνται σε κα ημερινή άση από την π η ώρα τ ν ενημερ τικών δικτυακών πυ ών που κατακ ύζουν στην κυριο εξία το διαδίκτυο. Ο ό ος ια τα ν στά άρ ρα νέ ν ή α ιώς news articles, τα οποία αποτε ούν κειμενική π ηροφορία ενημέρ σης που πη άζει από news portals του διαδικτύου. Ένα άρ ρο νέου κατα ράφει πρόσφατη ή τρέ ουσα π ηροφορία σ ετικά με ένα ε ονός το οποίο παρουσιάζει ενικό (ή μη) ενδιαφέρον ή συσ ετίζεται με συ κεκριμένη εματο ο ία (π.. πο ιτική ή α ητική). Μπορεί να περι αμ άνει ή να μην περι αμ άνει αυτόπτες μάρτυρες οι οποίοι είδαν το ε ονός. Επίσης, μπορεί να περι αμ άνει φ το ραφικό υ ικό, στατιστικά στοι εία, ραφικές αναπαραστάσεις, συνεντεύξεις, δημοσκοπήσεις, αντιπαρα έσεις σε κάποιο έμα, κ. π. Επικεφα ίδες συ νά ρησιμοποιούνται ια να τρα ήξουν το ενδιαφέρον τ ν ανα ν στών σε ένα συ κεκριμένο μέρος του άρ ρου ή και σε ό ο. Ο συ ραφέας ενός άρ ρου νέου μπορεί να παρα έτει ε ονότα και ανα υτικές π ηροφορίες που απαντούν σε ερ τήσεις όπ ς: ποιος, τι, πότε, που, ιατί και π ς. Αν και ο παραπάν ορισμός μοιάζει να ταιριάζει σε άρ ρα νέ ν που δημοσιεύονται στον έντυπο τύπο, η η εκτρονική τους εκδο ή δεν διαφέρει σε τίποτα Web, News και Meta portals Στην παρούσα ενότητα αναφέρουμε ορισμένες π ηροφορίες ια τις πύ ες π ηροφόρησης στο διαδίκτυο, ν στές και ς portals Web portals Ένα web portal είναι συ νά ένας ειδικά σ εδιασμένος ιστότοπος ο οποίος συνδυάζει και α ροίζει π ηροφορία από διάφορες πη ές με έναν ενιαίο τρόπο. Συνή ς κά ε πη ή π ηροφορίας έ ει μία συ κεκριμένη έση στον ιστότοπο ια την απεικόνιση π ηροφορίας (συ νά αναφέρεται ς portlet). Ο ρήστης μπορεί να ρυ μίζει τις π ηροφορίες που α φαίνονται σε αυτό. Ο ενιαίος τρόπος με τον οποίο η π ηροφορία απεικονίζεται σε ένα web portal εξαρτάται συ νά τόσο από τον ρήστη στον οποίο απευ ύνεται, όσο και από την ποικι ομορφία του περιε ομένου. 43

59 2.1. Γενικά Κεφάλαιο 2 Ένα web portal μπορεί να έ ει μία διεπαφή αναζήτησης, (search API) η οποία επιτρέπει στους ρήστες να αναζητούν περιε όμενο μέσα στο ίδιο το portal. Ά ες υπηρεσίες που μπορεί να παρέ ει ένα web portal είναι η δυνατότητα αντα α ής μηνυμάτ ν ( ή IM), απεικόνιση π ηροφορίας πρα ματικού ρόνου (π.. τιμές μετο ών), π ηροφορίες από Βάση Δεδομέν ν (ΒΔ) ή ακόμα και περιε όμενο ψυ α ίας (π.. ι ία ή ταινίες). Μερικά παραδεί ματα από web portals (κάποια από τα οποία π έον δεν υπάρ ουν) είναι τα εξής: AOL [15], Excite [66], Netvibes [155], igoogle [99], MSN [148], Naver [153], Lycos [134], Indiatimes [100], Rediff [180], Yahoo! [223], κ. α News portals Μια ειδική υποκατη ορία από web portals αποτε ούν τα news portals, τα οποία και επικεντρώνονται στην δεικτοδότηση άρ ρ ν νέ ν από διάφορες πη ές. Πρόκειται επομέν ς ια Δικτυακούς τόπους που σαν στό ο έ ουν την ενημέρ ση τ ν ρηστών του διαδικτύου ια τα επίκαιρα κυρί ς νέα σε πα κόσμιο επίπεδο. Μερικά και πο ύ σημαντικά από αυτά είναι το CNN[52], το BBC[25], το Reuters[182], το FoxNews[70], κα ώς και οι υπηρεσίες που προσφέρονται από τους πο υπ η είς και από τους π έον ανα ν ρίσιμους δικτυακούς τόπους Google[83] και Yahoo[223]. Οι Δικτυακοί αυτοί τόποι εστιάζονται στο να ενημερώνουν τους ρήστες τους ια ότι συμ αίνει κα ημερινά στον π ανήτη. Τα νέα/άρ ρα παρουσιάζονται με δομημένο τρόπο στις συ κεκριμένες σε ίδες, στόσο το π ή ος τους είναι τέτοιο ώστε να είναι σ εδόν αδύνατο από κάποιον ρήστη να μπορέσει εντός του εικοσιτετραώρου να παρακο ου ήσει ό ες τις ειδήσεις που δημοσιεύονται στις πο ές διαφορετικές κατη ορίες. Ακόμα και η εστίαση σε μία συ κεκριμένη κατη ορία απαιτεί τη συνε ή και διαρκή παρακο ού ηση κά ε δικτυακού τόπου προκειμένου να υπάρ ει π ήρης ενημέρ ση. Επίσης, πο ά από αυτά τα νέα παρουσιάζονται από την οπτική νία του αρ ρο ράφου κα ώς σπάνια - π έον - δημοσιεύονται ακέραια ακόμα και τα δε τία τύπου, με αποτέ εσμα να άνεται συ νά το κριτήριο της αντικειμενικότητας μίας είδησης. Απόρροια ό ν τ ν παραπάν είναι το εξής: οι ρήστες του διαδικτύου δυσκο εύονται στον εντοπισμό μίας είδησης που τους ενδιαφέρει με αποτέ εσμα να ανα ώνουν το ρόνο τους στην αναζήτηση της είδησης, του νέου, του άρ ρου, παρά στην ανά ν ση του ίδιου του άρ ρου. Σημαντικό είναι επίσης ότι η ενημέρ ση που έ ουν, κά ε ά ο παρά σφαιρική είναι, μιας και τε ικά προτιμούν έναν και μόνο ιστότοπο ια την ενημέρ σή τους Meta portals Όπ ς αναφέρ ηκε και ν ρίτερα, η παρακο ού ηση άρ ρ ν νέ ν από μία σφαιρική και αντικειμενική άποψη απαιτεί την ενημέρ ση από πο απ ές πη ές. Ως εκ τούτου, στα π αίσια της μεταπτυ ιακής μου ερ ασίας, δημιουρ ή ηκε η υπηρεσία PeRSSonal [171] η οποία παρέ ει ακρι- ώς αυτό: εντοπίζοντας άρ ρα νέ ν από πη ές τις οποίες ορίζει είτε ο ρήστης, είτε το ίδιο το σύστημα, παρέ ει την συνδυασμένη π ηροφορία στον ρήστη, εύκο α και ρή ορα. Κα ότι ένα τέτοιο σύστημα αποτε εί κάτι περισσότερο από ένα απ ό news portal ( άση του ορισμού στην παρά ραφο ), α ροίζοντας ουσιαστικά άρ ρα νέ ν από news portals, α μπορούσαμε να 44

60 Κεφάλαιο Συστήματα προτάσεων το αρακτηρίσουμε ς ένα meta portal. Παρόμοια συστήματα, ν στά και ς συστήματα αποδε τί σης άρ ρ ν νέ ν του πα κόσμιου ιστού είναι τα εξής: Google News [84], NewsMe [157], NewsJunkies [156], personews [170], κ. α. 2.2 Συστήματα προτάσε ν Τα συστήματα προτάσε ν (recommendation systems) αποτε ούν μία υποκατη ορία τ ν συστημάτ ν φι τραρίσματος π ηροφορίας τα οποία αποσκοπούν στην πρό εψη α μο ο ιών ή ενικά προτιμήσε ν που πρόκειται να έ ει ο ρήστης προς ένα αντικείμενο (π.. άρ ρο νέου) [184]. Τα συστήματα προτάσε ν έ ουν ίνει εξαιρετικά συνη ισμένα στις μέρες μας, μίας και ρίσκουν εφαρμο ές σε μια π η ώρα προ ημάτ ν. Τα πιο συνη ισμένα είναι πι ανά εκείνα που προτείνουν ταινίες, μουσική, νέα, ι ία, ερευνητικά άρ ρα, ερ τήματα προς μη ανές αναζήτησης και προϊόντ ν στη ενική περίπτ ση. Τα συστήματα προτάσε ν τυπικά παρά ουν μία ίστα από προτάσεις με άση έναν από τους παρακάτ δύο τρόπους [102]: Συνερ ατικό φι τράρισμα (collaborative filtering) Φι τράρισμα ασισμένο στο περιε όμενο (content-based filtering) Οι CF προσε ίσεις τίζουν ένα μοντέ ο με άση την προη ούμενη συμπεριφορά ενός ρήστη (π.. τα αντικείμενα που α όρασε ή επέ εξε ή α μο ό ησε), κα ώς και παρόμοιες αποφάσεις οι οποίες έ ιναν από ά ους ρήστες. Στη συνέ εια ρησιμοποιούν αυτό το μοντέ ο προκειμένου να προ έψουν αντικείμενα (ή α μο ο ήσεις αντικειμέν ν) ια τα οποία ο ρήστης μπορεί να ενδιαφέρεται [142]. Αντί ετα οι προσε ίσεις που κάνουν φι τράρισμα ασισμένο στο περιε όμενο κάνουν ρήση διακριτών αρακτηριστικών τ ν αντικειμέν ν προκειμένου να προτείνουν επιπρόσ ετα αντικείμενα με παρόμοιες ιδιότητες. Ο συνδυασμός και τ ν παραπάν δύο τε νικών (υ ριδική προσέ ιση) είναι επίσης συ νός στης μέρες μας και είναι εξά ου και η ο ική επι ο ή την οποία ακο ου ήσαμε και ια το σύστημα που υ οποιή ηκε. 2.3 Προεπεξερ ασία δεδομέν ν Η προεπεξερ ασία δεδομέν ν αποτε εί τον συνδυασμό τ ν τε νικών εκείν ν που ρησιμοποιούνται από ένα σύστημα που ασίζεται σε κειμενικά ή ά ου είδους πρ το ενή δεδομένα, προκειμένου να κατα ήξει σε π ηροφορία αξιοποιήσιμη από τα υποσυστήματα ανάκτησης π ηροφορίας που συνή ς ακο ου ούν. Με άση τον παραπάν ενικό ορισμό, ια την περίπτ ση ενός συστήματος που ασίζεται σε ρήση έξε ν κ ειδιών (Keywords (KWs)) η προεπεξερ ασία δεδομέν ν αφορά σε μία σειρά τε νικών στις οποίες υπόκεινται το ρήσιμο κείμενο: αφαίρεση τ ν σημεί ν στίξης κα ώς και τ ν αρι μών που τυ όν περιέ ει αφαίρεση έξε ν οι οποίες δεν περικ είουν κάποιο νόημα, ια παράδει μα άρ ρα 45

61 2.3. Προεπεξεργασία δεδομένων Κεφάλαιο 2 εύρεση της ρίζας μίας έξης (Stemming) εύρεση τ ν μερών του ό ου τ ν έξε ν του κειμένου (Part of Speech (POS) tagging) πι ανή αξιοποίηση μιας ή περισσοτέρ ν εξ τερικών άσε ν νώσης εντοπισμός και κατα ραφή n-grams Σαν αποτέ εσμα, η προεπεξερ ασία δεδομέν ν έ ει οιπόν την δομικής π ηροφορίας από το κείμενο, ικανή ια την νοηματική αναπαράστασή του. Τυπικά, πρόκειται ια τις έξεις-κ ειδιά που υπάρ ουν στο κείμενο, συνοδευόμενες από τη συ νότητα με την οποία παρουσιάζονται μέσα σε αυτό, α ά και το σημείο του κειμένου στο οποίο εντοπίζονται. Για την περαιτέρ ενίσ υση τ ν διαδικασιών ανάκτησης π ηροφορίας που ακο ου ούν, στις τε νικές προεπεξερ ασίας κειμένου α εντάξουμε και την ανάκτηση τ ν ουσιαστικών του κειμένου μέσ τε νικών POS tagging, μιας και είναι ενικά αποδεκτό ότι τα ουσιαστικά του κειμένου φέρουν το με α ύτερο ποσοστό της ρήσιμης π ηροφορίας αυτού. Για τους μη ανισμούς εξα ής κειμένου, η απόρριψη οποιασδήποτε π ηροφορίας δεν σ ετίζεται με το κείμενο, και ενικά η προεπεξερ ασία π ηροφορίας, αποτε εί μία με ά η πρόκ ηση. Παρά το ε ονός ότι επιφανειακά ασίζεται σε συ κεκριμένα και στα ερά ήματα, α πρέπει να ίνει εκτενής ανά υση του είδους της π ηροφορίας που είναι επι υμητή προκειμένου το ήμα της προεπεξερ ασίας να κατα ήξει σε σημαντικά αποτε έσματα και πιο συ κεκριμένα στην εξα ή τ ν σ στών έξε ν κ ειδιών. Πο ά ευρετικά έ ουν ερευνη εί στη ι ιο ραφία σ ετικά με το συ κεκριμένο έμα. Η εύρεση τ ν κατα ή ν ια την περίπτ ση τ ν άρ ρ ν νέ ν κα ώς και η σ στή αξιοποίησή τους αποτε εί σημαντικό τμήμα της διδακτορικής διατρι ής Χρήση εξ τερικής άσης νώσης Πέρα από την ίδια την νώση που μπορούν οι μη ανισμοί να αντ ήσουν από τα ίδια τα κείμενα, μία ενδιαφέρουσα προσέ ιση αποτε εί η εξόρυξη π ηροφορίας από εξ τερικές πη ές. Η νώση που εξά εται με αυτόν τον τρόπο προστί εται στην υπάρ ουσα ια την παρα ή ενός αποτε εσματικότερου μοντέ ου ανάκτησης π ηροφορίας στον εκάστοτε τομέα WordNet Το WordNet αποτε εί μία από τις πιο ευρέ ς διαδεδομένες και με α ύτερες εξι ο ικές άσεις δεδομέν ν της Α ικής ώσσας. Επι ειρεί με ά α ό ια να μοντε οποιήσει την εξι ο ική νώση τ ν αν ρώπ ν που μι ούν την α ική ( ς μητρική ώσσα). Παρότι το WordNet είναι προσ άσιμο από τον κα ένα μέσ τ ν πο απ ών διεπαφών του (web-based, εφαρμο ή ή κ ήση ι ιο ηκών), η ασική του ρησιμότητα είναι στην αυτοματοποιημένη ανά υση κειμένου και σε εφαρμο ές τε νητής νοημοσύνης Artificial Intelligence (AI). Περιέ οντας πάν από όρους, το WordNet παρέ ει σύντομους ορισμούς και παραδεί ματα ρήσης. Επίσης ομαδοποιεί ουσιαστικά, ρήματα, επί ετα και επιρρήματα σε ομάδες συν νύμ ν τα οποία και ονομάζει synsets. Το WordNet μπορεί επομέν ς να ερμηνευ εί ς ένας συνδυασμός εξικού και ησαυρού της Α ικής. 46

62 Κεφάλαιο Προεπεξεργασία δεδομένων Τα synsets ορ ανώνονται σε: έννοιες - περιέ οντας έτσι τα συνώνυμα κά ε έξης υπερώνυμα/υπώνυμα μερόνυμα/ο όνυμα δίνοντας έτσι μία ιεραρ ικές δενδρικές δομές ια κά ε όρο που υπάρ ει στο WordNet Υπερώνυμα/Υπώνυμα Η σ έση υπερώνυμου/υπ νύμου (hypernym/hyponym) αποτε εί μία ασική συσ έτιση μεταξύ τ ν όρ ν του WordNet η οποία και α μας απασ ο ήσει αρκετά στη συνέ εια. Πιο συ κεκριμένα, και ια την περίπτ ση τ ν ουσιαστικών ισ ύει ο ορισμός Ορισμός Έστ δύο όροι του WordNet: X και Y, τότε: Ο Y είναι ένα υπερώνυμο του X αν κάθε X είναι ένα είδος από το Y, π.. το φρούτο ένα υπερώνυμο του μή ου. Ο Y είναι ένα υπώνυμο του X αν για κάθε Y είναι ένα είδος από το X, π.. το μή ο ένα υπώνημο του φρούτου. Ένα ράφημα υπερ νύμ ν αποτε εί την δενδρική απεικόνιση της συσ έτισης υπερ νύμου/υπ νύμου που αναφέρ ηκε. Για παράδει μα, το δένδρο υπερ νύμ ν του όρου dog, φαίνεται στο σ ήμα 1. dog, domestic dog, Canis familiaris => canine, canid => carnivore => placental, placental mammal, eutherian, eutherian mammal => mammal => vertebrate, craniate => chordate => animal, animate being, beast, brute, creature, fauna =>... Σ ήμα 1: Δένδρο υπερ νύμ ν του όρου dog Μερόνυμα/Ο όνυμα Για την σ έση μερονύμου/ο ονύμου του WordNet ια την περίπτ ση τ ν ουσιαστικών ισ ύει ο ορισμός Ορισμός Έστ δύο όροι του WordNet: X και Y, τότε: Ο Y είναι ένα μερόνυμο του X αν το Y είναι ένα μέρος του X, π.. το παρά υρο είναι ένα μερόνυμο του κτηρίου. 47

63 2.4. Συσταδοποίηση κειμένων Κεφάλαιο 2 Ο Y είναι ένα ολόνυμο του X αν το είναι ένα είδος από το, π.. το κτήριο είναι ένα ο όνυμο του παρα ύρου n-grams Ένα n-gram είναι μία συνε όμενη ακο ου ία από n αντικείμενα σε μία δεδομένη ακο ου ία από ραπτό κείμενο ή προφορικό ό ο. Τα αντικείμενα μπορεί να είναι φ νήματα, συ α ές, ράμματα, έξεις ή σύνο α έξε ν ανα ό ς την εφαρμο ή. Ένα n-gram με έ ους 1, συ νά αναφέρεται και ς unigram, με έ ους 2 ς bigram η digram, με έ ους 3 ς trigram. Ένα μοντέ ο n-gram είναι ένα είδους πι ανοτικό μοντέ ο ώσσας το οποίο υπο ο ίζει την πι- ανότητα του επομένου αντικειμένου σε μία τέτοια ακο ου ία της μορφής (n-1) μοντέ ου Markov. Τα μοντέ α n-gram ρησιμοποιούνται στις μέρες μας ευρύτατα στην πι ανοτική ε ρία, στη ε ρία επικοιν νίας, στην υπο ο ιστική σσο ο ία (π.. στατιστική φυσική επεξερ ασία ώσσας), στην υπο ο ιστική ιο ο ία (π.. ανά υση ιο ο ικών σειρών), κα ώς και στην συμπίεση π ηροφορίας. Τα ασικά ετικά στοι εία τ ν n-gram μοντέ ν (και τ ν α ορί μ ν που τα ρησιμοποιούν) είναι η σ ετική απ ότητά τους, κα ώς και η ικανότητα κ ιμακοσιμότητας που έ ουν, επιτρέποντας έτσι σε μικρά πειράματα να κ ιμακώνονται αρκετά αποδοτικά. Η αξιοποίηση της π ηροφορίας τ ν n-grams τ ν κειμέν ν, και πιο συ κεκριμένα, ο τρόπος ζύ ισής τους, αποτε εί ένα σημαντικό τμήμα της διδακτορικής διατρι ής όπ ς α παρουσιαστεί στα επόμενα κεφά αια. 2.4 Συσταδοποίηση κειμέν ν Η κειμενική π ηροφορία είναι η πιο συνη ισμένη μορφή π ηροφορίας που διακινείται στο διαδίκτυο και τα κοιν νικά δίκτυα. Τα κείμενα τυπικά αναπαρίστανται στο vector space μοντέ ο όπου η ακρι ής σειρά τ ν όρ ν απα είφεται και τα δεδομένα αντιμετ πίζονται ς ίστα από έξεις (Bag of Words (BOW)). Τα άρ ρα νέ ν έ ουν μία σειρά από ιδιότητες οι οποίες πρέπει να ηφ ούν υπόψιν κατά την αξιοποίησή τ ν δεδομέν ν τους: είναι πο ύ με ά ης διαστατικότητας και αραιά. Αυτό συνά ει με το ε ονός ότι μία ώσσα αποτε είται τυπικά από εξαιρετικά πο ούς όρους ( έξεις), ενώ κά ε κείμενο περι αμ άνει ένα σ ετικά απειροε ά ιστο ποσοστό αυτών τ ν όρ ν. Επομέν ς, τα περισσότερα από τα αρακτηριστικά της αναπαράστασης είναι μηδενικά. οι τιμές τ ν αρακτηριστικών αντιστοι ούν σε συ νότητες έξε ν και είναι επομέν ς τυπικά μη-μηδενικές. Αυτό είναι κάτι σημαντικό ια τις τε νικές εκείνες που αξιοποιούν ακρι ώς αυτό το αρακτηριστικό. Ένας από τους σύνη ες τρόπους ορ άν σης με ά ου ό κου δεδομέν ν, όπ ς στην περίπτ ση μας τα άρ ρα νέ ν ύστερα από την ανάκτησή τους από το διαδίκτυο, είναι η ρήση τε νικών συσταδοποίησης. Η συσταδοποίηση αντικειμέν ν αναφέρεται στην διαδικασία δια ρισμού τ ν αντικειμέν ν μιας συ ο ής σε πο απ ές υπο-συ ο ές, ασιζόμενοι στην ομοιότητα τ ν αντικειμέν ν 48

64 Κεφάλαιο Συσταδοποίηση κειμένων μεταξύ τους. Γενικά η συσταδοποίηση έ ει αποδει εί ς μία εξαιρετικά ρήσιμη Information Retrieval (IR) τε νική αφού εντοπίζει ενδιαφέροντες πυρήνες π ηροφορίας και κατανομών στα υποκείμενα δεδομένα. Βοη ά στην κατασκευή ουσιαστικών διαμερισμάτ ν σε με ά ους ό κους δεδομέν ν με ρήση πο απ ών με οδο ο ιών και ευρετικών που έ ουν αναπτυ εί ανά τα ρόνια. Τυπικές ρήσης της συσταδοποίησης είναι οι: ια την δόμηση αποτε εσμάτ ν που προκύπτουν από ερ τήματα ρηστών ια τον σ ηματισμό της άσης ια περαιτέρ επεξερ ασία τ ν ορ αν μέν ν ομάδ ν με ρήση ά ν τε νικών IR, όπ ς η προσ ποποίηση μέσα στο εύρος συστημάτ ν προτάσε ν επηρεάζοντας άμεσα την απόδοσή τους όσον αφορά στις προτάσεις που κάνουν αυτά στους τε ικούς ρήστες Σε έναν πιο ενικό ορισμό μία αποτε εσματικής τε νικής συσταδοποίησης, α έ αμε ότι είναι εκείνη που ορ ανώνει μία συ ο ή από κείμενα σε ομάδες, τέτοιες ώστε τα κείμενα μέσα στην εκάστοτε ομάδα να είναι τόσο παρόμοια μεταξύ τους, όσο και διαφορετικά από εκείνα τ ν ά ν ομάδ ν [107]. Η συσταδοποίηση μπορεί να παρά ει είτε δια ρισμένες, είτε α η επικα υπτόμενες συστάδες. Στην δεύτερη περίπτ ση, είναι δυνατό ια ένα κείμενο να εμφανίζεται σε πο απ ές συστάδες. Η συσταδοποίηση κειμέν ν (ή ε ράφ ν) αποτε εί ουσιαστικά ένα υποσύνο ο από ένα ευρύτερο πεδίο συσταδοποίησης δεδομέν ν το οποίο μοιράζεται ιδέες από τα πεδία της ανάκτησης π ηροφορίας (IR), φυσικής επεξερ ασίας ώσσας (Natural Language Processing (NLP)) και μη ανικής μά ησης (Machine Learning (ML)) μεταξύ ά ν. Συ νά αναφέροντας την έννοια συσταδοποίηση αναφερόμαστε απ ά στην συσταδοποίηση κειμέν ν. Η διαδικασία της συσταδοποίησης στο εύει στην εύρεση φυσικών ομαδοποιήσε ν και επομέν ς παρουσιάζει μια ενική εικόνα τ ν κ άσε ν (νοηματικές εματο ο ίες) σε μια συ ο ή από κείμενα. Στο πεδίο της τε νητής νοημοσύνης (AI) αναφέρεται ς μη-εποπτευόμενη μη ανική μά ηση (unsupervised machine learning). Η συσταδοποίηση δεν πρέπει να συ έεται με την κατη οροποίηση κειμέν ν όπου το π ή ος τ ν κ άσε ν (και οι ιδιότητές τους) είναι ν στά εκ τ ν προτέρ ν, και επομέν ς, τα κείμενα αντιστοι ίζονται σε αυτές τις κ άσεις. Αντι έτ ς, σε ένα πρό ημα συσταδοποίησης, ούτε το π ή ος τ ν κ άσε ν (συστάδες), ούτε οι ιδιότητές τους είναι ν στές από πριν. Η διαφοροποίηση αυτή απεικονίζεται στο σ ήμα 2, όπου στην περίπτ ση α) οι τρεις κ άσεις στις οποίες αντιστοι ίζονται τα κείμενα είναι ν στές από πριν. Αντί ετα στην περίπτ ση ) ένας ά ν στος αρι μός συστάδ ν συνεπά εται από τα ίδια τα κείμενα άσει κάποιο κριτηρίου ομοιότητας (στην περίπτ ση αυτή το κριτήριο είναι η απόσταση). Η κατη οριοποίηση επομέν ς αποτε εί ένα παράδει μα εποπτευόμενης μη ανικής μά ησης. Παρό α αυτά, υπάρ ουν πο ές προκ ήσεις στις οποίες οι τε νικές συσταδοποίησης πρέπει να αντεπεξέ ουν. Μεταξύ αυτών και η αποδοτικότητα: οι παρα όμενες συστάδες α πρέπει να είναι κα ά συνδεδεμένες νοηματικά, παρά την ποικι ομορφία του περιε ομένου κα ώς και το μέ ε ος τ ν αρ ικών κειμέν ν. Για παράδει μα, είναι συ νό φαινόμενο κάποια άρ ρα νέ ν να ανήκουν στην 49

65 2.4. Συσταδοποίηση κειμένων Κεφάλαιο 2 Σ ήμα 2: Κατη οριοποίηση και συσταδοποίηση ίδια νοηματική συστάδα, παρότι δεν μοιράζονται κοινές έξεις. Το αντίστροφο είναι επίσης πι ανό: άρ ρα νέ ν που μοιράζονται κοινές έξεις, είναι όμ ς άσ ετα μεταξύ τους. Η ασάφεια και η συν νυμία είναι επομέν ς δύο από τα ασικά προ ήματα που οι τε νικές συσταδοποίησης κειμέν ν αποτυ άνουν συ νά να αντιμετ πίσουν αποτε εσματικά. Επίσης, το να έ ουμε συστήματα IR απ ά να παρά ουν συστάδες κειμέν ν δεν είναι αρκετό από μόνο του. Και ο ό ος ι αυτό είναι ότι είναι κυριο εκτικά αδύνατο ια τους αν ρώπους να αντι ηφ ούν την π ηροφορία απ ά και μόνο κοιτάζοντας μέσα σε εκατοντάδες ή ι ιάδες κείμενα. Αντι έτ ς, ανα έτοντας νοηματικές ετικέτες - επικεφα ίδες στις συστάδες έ ει περισσότερο νόημα κα ώς επιτρέπει στους ρήστες εύκο α και ρή ορα να ανα ν ρίσουν σε τι αναφέρεται η κά ε συστάδα κα ώς και να μπορέσουν εν συνε εία να ανα ύσουν τα αποτε έσματα της συσταδοποίησης. Στην παρούσα διδακτορική διατρι ή, περι ράφουμε μία π η ώρα τε νικών, α ορί μ ν και μη ανισμών συσταδοποίησης και αξιο ο ούμε την εφαρμο ή τους στην περίπτ ση τ ν άρ ρ ν νέ ν που πη άζουν από το διαδίκτυο. Ο στό ος μας δεν είναι να παρουσιάσουμε διεξοδικά οτιδήποτε έ ει ερευνη εί σε αυτόν τον τομέα, α ά να συ κρίνουμε τα αποτε έσματα τ ν παραπάν πειραμάτ ν συσταδοποίησης ώστε να εκτιμήσουμε ποια τε νική ταιριάζει κα ύτερα στην με ά η ποικι ομορφία και ποσότητα τ ν άρ ρ ν νέ ν του διαδικτύου Τυπικός ορισμός συσταδοποίησης Ο τυπικός ορισμός του προ ήματος συσταδοποίσης έ ει ς εξής: Ορισμός Δεδομένου ενός συνό ου κειμέν ν D, επι υμούμε την ανά εση κα ενός από τα κείμενα d D σε συστάδες παρόμοι ν κειμέν ν ανακα ύπτοντας έτσι τις φυσικές τους κατη ορίες. Βασιζόμενοι στο vector-space μοντέ ο, μπορούμε να αναπαραστήσουμε κά ε κείμενο d D ς έναν πίνακα συ νοτήτ ν από τα αρακτηριστικά που περιέ ει: d = (f 1,..., f n ). 50

66 Κεφάλαιο Συσταδοποίηση χρηστών Συνή ς τα αρακτηριστικά τ ν κειμέν ν είναι οι όροι από τους οποίους αποτε είται, π.. έξεις κ ειδιά, n-grams, κ. π. Μπορούμε να εκφράσουμε το σύνο ο τ ν κειμέν ν D σαν έναν m n πίνακα, όπου m το π ή ος τ ν κειμέν ν στο D και n το π ή ος τ ν αρακτηριστικών. Το στοι είο (i, j) περιέ ει το π ή ος εμφάνισης του αρακτηριστικού j στο κείμενο i Π ή ος συστάδ ν Ο προσδιορισμός του π ή ους τ ν συστάδ ν σε ένα σύνο ο δεδομέν ν, μία ποσότητα η οποία συ νά αναφέρεται ς k, όπ ς στην περίπτ ση του k-means α ορί μου, είναι ένα σύνη ες πρό- ημα στην συσταδοποίηση δεδομέν ν, τόσο μά ιστα που αποτε εί και ξε ριστό πεδίο έρευνας ανεξάρτητα από τους α ορί μους συσταδοποίησης. Για μία συ κεκριμένη κατη ορία α όρι μ ν συσταδοποίησης (οικο ένεια k-means/expectation Maximization (EM) α όρι μος), ο εκ τον προτέρ ν κα ορισμός του π ή ους τ ν συστάδ ν αποτε εί ασική προϋπό εση. Ά οι α όρι μοι όπ ς οι Density-based spatial clustering of applications with noise (DBSCAN) και Ordering points to identify the clustering structure (OPTICS) δεν απαιτούν τον κα ορισμό μίας τέτοιας παραμέτρου, ενώ η ιεραρ ική συσταδοποίηση αποφεύ ει το πρό ημα εξο οκ ήρου. Η σ στή επι ο ή του k είναι συ νά διφορούμενη, με ερμηνείες οι οποίες εξαρτώνται από το σ ήμα και την κ ίμακα της κατανομής τ ν σημεί ν στο σύνο ο δεδομέν ν, κα ώς και την επι υμητή ύση από τον ρήστη. Παρά η α, η αύξηση του k ρίς κάποιον έ ε ο, πάντα α μειώνει το μέ ε ος του σφά ματος στην τε ική συσταδοποίηση, έ ς την ακραία περίπτ ση του μηδενικού σφά ματος, όπου κά ε σημείο ε ρείται και ς μία συστάδα (k = n). Διαισ ητικά επομέν ς, η έ τιστη επι ο ή του k α ισορροπεί ανάμεσα στην μέ ιστη συμπίεση τ ν δεδομέν ν με όσο το δυνατόν μαζικότερες συστάδες, και την μέ ιστη ακρί εια με όσο το δυνατόν περισσότερες συστάδες. Εάν μία προφανής τιμή ια το k δεν είναι ν στή εκ τ ν προτέρ ν από τις ιδιότητες τ ν ίδι ν τ ν δεδομέν ν, α πρέπει κάπ ς να επι ε εί - και προς αυτή την κατεύ υνση αρκετές μέ οδοι, οι οποίες και παρουσιάζονται στο επόμενο κεφά αιο, έ ουν ερευνη εί στη ι ιο ραφία. 2.5 Συσταδοποίηση ρηστών Ότι αναφέρ ηκε στην ενότητα 2.4 ια την συσταδοποίηση αντικειμέν ν (άρ ρ ν νέ ν) ισ ύει και ια την περίπτ ση συσταδοποίησης ρηστών με την ασική διαφορά ότι η συσταδοποίηση ενερ εί πάν στις προτιμήσεις, ή α ιώς προφί, τ ν ρηστών. Έτσι, κάποιο τμήμα της συ ο ής ονομάζεται συστάδα ρήστη και περι αμ άνει ρήστες που έ ουν εκφράσει παρόμοια ενδιαφέροντα σε ότι έ ει να κάνει με τις προτιμήσεις τους σε άρ ρα νέ ν ενώ π οη ούνται σε μία συ ο ή. Η συσταδοποίηση ρηστών αποτε εί ένα κομ ικό τμήμα της διδακτορικής διατρι ής, μιας και αποτε εί ουσιαστικά τον μο ό με τον οποίο η απόδοση του συστήματος προτάσε ν αυξάνεται σημαντικά. Ο τρόπος που αντιμετ πίζουμε τις συστάδες ρηστών έ ει ς εξής: ξεκινώντας από τις κατα- ε ραμμένες συνεδρίες ρηστών και έτοντας σαφή ρονικά όρια π οή ησης, ανα ύουμε τα επι- 51

67 2.6. Προσωποποίηση στο χρήστη Κεφάλαιο 2 ε μένα άρ ρα τα οποία και συσταδοποιούμε με ρήση του α ορί μου W-kmeans. Κατά συνέπεια, το πρό ημα της συσταδοποίησης ρηστών ανά εται στο αντίστοι ο της συσταδοποίησης άρ ρ ν νέ ν μέσα σε συ κεκριμένα π αίσια και επι ο ές που α ανα υ ούν στις επόμενες ενότητες. 2.6 Προσ ποποίηση στο ρήστη Η προσ ποποίηση στο ρήστη είναι η διαδικασία κατά την οποία τα αποτε έσματα που εμφανίζονται τε ικά στο ρήστη προσαρμόζονται προκειμένου να ανταποκρίνονται στις ανά κες του. Πιο συ κεκριμένα, τα στάδια της προσ ποποίησης αφορούν τον εντοπισμό άρ ρ ν τα οποία ενδιαφέρουν το ρήστη και παρουσίασή τους με τέτοιον τρόπο ώστε να ταιριάζουν στις ανά κες του ρήστη. Το πρό ημα που τί εται είναι ένας έξυπνος α όρι μος ο οποίος α μπορεί να αξιοποιεί ό ες τις π ηροφορίες που μπορούν να συ κεντρ ούν από την περιή ηση του ρήστη στο δικτυακό τόπο και αξιοποίηση αυτών τ ν π ηροφοριών προκειμένου να εμφανιστούν όσο το δυνατόν κα ύτερα και πιο ποιοτικά αποτε έσματα Συμμετο ή του ρήστη στις διαδικασίες του συστήματος Ο ρήστης είναι αυτός που δέ εται την τε ική π ηροφορία και αυτός που ουσιαστικά διαμορφώνει την π ηροφορία ια τον εαυτό του. Αυτό σημαίνει π ς ο ρήστης α πρέπει να είναι αναπόσπαστο κομμάτι του συστήματος. Θα πρέπει να είναι σε έση να διαμορφώσει διαδικασίες του πυρήνα του συστήματος με άση τις π ηροφορίες που δίνει άμεσα ή έμμεσα στο σύστημα ς ανάδραση. Στα περισσότερα συστήματα τα οποία αντιμετ πίστηκαν κατά τη διάρκεια της με έτης ια τη συ κεκριμένη ερ ασία, παρατηρή ηκε π ς ο ρήστης συμμετέ ει μόνο στα επιτε ικά στάδια τ ν συστημάτ ν ενώ έ ουν ήδη εκτε εστεί τα ασικά ήματα του πυρήνα τ ν μη ανισμών. Η συμμετο ή του ρήστη στις διαδικασίες πυρήνα ενός large scale συστήματος είναι επίπονη διαδικασία η οποία απαιτεί α ορί μους που α μπορούν να εκτε ούνται αποδοτικά σε πρα ματικό ρόνο προκειμένου ο ρήστης να διαμορφώνει ό ι μόνον τα τε ικά αποτε έσματα που εμφανίζονται σε αυτόν α ά και συ κεκριμένες διαδικασίες ο όκ ηρου του συστήματος. 2.7 Το Πρό ημα του νέου ρήστη Ένα κοινό πρό ημα από το οποίο ό α τα συστήματα συνερ ατικού φι τραρίσματος συ νά πάσ ουν είναι αυτό της κρύας εκκίνησης (cold start problem). Το πρό ημα αυτό έ ει τρεις εκφάνσεις: το πρό ημα νέου αντικειμένου, όπου ένα νέο αντικείμενο πρ το-εισά εται στο σύστημα και δεδομένου ότι δεν έ ει αξιο ο η εί από κανέναν, το σύστημα δεν μπορεί να το προτείνει (και επομέν ς περνάει στην αφάνεια) το πρό ημα νέου ρήστη, όπου ένας νέος ρήστης ρησιμοποιεί το σύστημα ια πρώτη φορά και ς εκ τούτου δεν υπάρ ουν προτάσεις από το σύστημα προς αυτόν. Το πρό ημα 52

68 Κεφάλαιο Το Πρόβλημα του νέου χρήστη παραμένει του ά ιστον έ ς ότου το σύστημα αποκτήσει κάποια νώση ια τις προτιμήσεις του ρήστη το πρό ημα του νέου συστήματος το οποίο αποτε εί συνδυασμό τ ν δύο παραπάν περιπτώσε ν Στην διδακτορική διατρι ή ασ ο η ήκαμε με το πρό ημα του νέου ρήστη, ια την επί υση του οποίου προτείνουμε μια συ κεκριμένη α ορι μική προσέ ιση. 53

69

70 ΚΕΦΑΛΑΙΟ 3 ΕΡΕΥΝΗΤΙΚΑ ΘΕΜΑΤΑ Beware of false knowledge; it is more dangerous than ignorance. George Bernard Shaw, Irish Dramatist, 1856 Στο παρόν κεφά αιο περι ράφεται η τρέ ουσα κατάσταση σε σ έση με τα έματα που καταπιάνεται η διδακτορική διατρι ή. Παρουσιάζεται επομέν ς το state of the art με άση τις τε ευταίες εξε ίξεις στους τομείς αυτούς, ερ ασίες παραπ ήσιες κα ώς και α ορι μικές προσε ίσεις. 55

71

72 3.1 Φυσική Επεξερ ασία Γ ώσσας Η φυσική επεξερ ασία ώσσας (NLP) είναι ένα πεδίο της επιστήμης υπο ο ιστών, της τε- νητής νοημοσύνης, κα ώς και της σσο ο ίας, το οποίο ασ ο είται με τις διεπαφές μεταξύ σσών υπο ο ιστών και φυσικών (αν ρ πίν ν) σσών. Ως εκ τούτου, το NLP σ ετίζεται με την περιο ή της α η επίδρασης αν ρώπου-υπο ο ιστή. Στις πο ές προκ ήσεις που πρέπει να αντιμετ πίσει το NLP περι αμ άνονται: η κατανόηση φυσικής ώσσας η οποία επιτρέπει στους υπο ο ιστές να εξά ουν νόημα από την αν ρώπινη ώσσα, κα ώς και ά ες που εμπεριέ ουν παρα ή φυσικής ώσσας. Οι σύ ρονοι NLP α όρι μοι ασίζονται στη μη ανική εκμά ηση, και ειδικότερα στην στατιστική μη ανική εκμά ηση [137]. Προη ούμενες υ οποιήσεις της επεξερ ασίας σσών αφορούσαν στην άμεση κατα ραφή και ρήση συ κεκριμέν ν κανόν ν. Μέσ της ρήσης μη ανικής εκμά ησης όμ ς, ίνεται ρήση ενικών α ορί μ ν εκπαίδευσης οι οποίοι συ νά ασίζονται σε στατιστικά συμπεράσματα ώστε να μά ουν αυτόματα τους κανόνες μέσ της ανά υσης με ά ου π ή ους από άσεις νώσης (corpus) και τυπικά πρα ματικά παραδεί ματα ρήσης. Οι άσεις νώσης αυτές αποτε ούνται από ένα σύνο ο κειμέν ν τα οποία έ ουν προ-σημει εί ώστε να εμπεριέ ουν τις σ στές τιμές με τις οποίες πρέπει να ίνει εκμά ηση. Πο ές διαφορετικές κατη ορίες α ορί μ ν μη ανικής εκμά ησης έ ουν εφαρμοστεί σε NLS ερ ασίες. Αυτοί οι α όρι μοι δέ ονται ς είσοδο ένα με ά ο σύνο ο αρακτηριστικών τα οποία παρά ονται από τα δεδομένα εισόδου. Ορισμένοι από τους αρ ικά ρησιμοποιούμενους α ορί μους, όπ ς τα δένδρα απόφασης, παρή α αν συστήματα κανόν ν εάν-τότε (if-then rules). Ό ο και συ νότερα όμ ς η έρευνα επικεντρώ ηκε σε στατιστικά μοντέ α, τα οποία παίρνουν πι ανοτικές αποφάσεις ασισμένα στην εφαρμο ή πρα ματικών αρών σε κα ένα από τα αρακτηριστικά εισόδου. Αυτά τα μοντέ α έ ουν το π εονέκτημα ότι μπορούν να εκφράσουν την σ ετική ε αιότητα από πο ές πι ανές απαντήσεις σε σ έση με μόνο μία, παρά οντας έτσι πιο αποδοτικά αποτε έσματα - ειδικά όταν ένα τέτοιο μοντέ ο συμπερι αμ άνεται ς ένα στοι είο σε ένα με α ύτερο σύστημα. Τα συστήματα που ασίζονται σε α ορί μους μη ανικής εκμά ησης έ ουν πο απ ά π εονεκτήματα σε σ έση με τους ειροκίνητα παρα όμενους κανόνες: Οι διαδικασίες εκμά ησης που ρησιμοποιούνται κατά τη διαδικασία της μη ανικής εκμά ησης εστιάζουν αυτόματα στις πιο συνη ισμένες περιπτώσεις, ενώ οι ειροκίνητοι κανόνες συ νά είναι μη κατανοητό που πρέπει να εστιάσουν Οι αυτόματες διαδικασίες εκμά ησης μπορούν να κάνουν ρήση α ορί μ ν στατιστικής συμπερασματο ο ίας ια να παράξουν μοντέ α τα οποία είναι ισ υρά σε μη συνη ισμένη είσοδο (π.. που περιέ ουν έξεις ή δομές που δεν έ ουν συναντη εί πα αιότερα). Γενικά, ο ειρισμός τέτοιας εισόδου με αποτε εσματικό τρόπο με ρήση ειροκίνητ ν κανόν ν είναι εξαιρετικά δύσκο ος, επιρρεπής σε ά η και ρονο όρος.

73 3.1. Φυσική Επεξεργασία Γλώσσας Κεφάλαιο 3 Τα συστήματα που ασίζονται σε αυτόματη εκμά ηση τ ν κανόν ν μπορούν να ίνουν πιο ακρι ή απ ά παρέ οντας περισσότερα δεδομένα. Αντί ετα, τα συστήματα που ασίζονται σε ειροκίνητους κανόνες μπορούνε να ίνουν πιο ακρι ή μόνο αυξάνοντας την πο υπ οκότητα τ ν κανόν ν, το οποίο είναι αρκετά δυσκο ότερο Σύνη ες NLP ερ ασίες Παρακάτ είναι μία ίστα από μερικές από τις πιο με ετημένες στη ι ιο ραφία ερ ασίες (tasks) NLP. Να σημειώσουμε ότι ορισμένες από αυτές έ ουν άμεσες πρα ματικές εφαρμο ές, ενώ ά ες πιο συ νά εξυπηρετούν ς υπο-ερ ασίες οι οποίες ρησιμοποιούνται ια την επί υση με α ύτερ ν ερ ασιών. Αυτόματη εξα ή περί ηψης (Automatic summarization) Ανά υση συναναφορών (Coreference resolution) Ανά υση ό ου ομι ίας (Discourse analysis) Μη ανική μετάφραση (Machine translation) Μορφο ο ική τμηματοποίηση (Morphological segmentation) Ανα νώριση κανονικών ονομάτ ν (Named entity recognition (NER)) Παρα ή φυσικής ώσσας (Natural language generation) Κατανόηση φυσικής ώσσας (Natural language understanding) Οπτική ανα νώριση αρακτήρ ν (Optical character recognition (OCR)) Εύρεση μερών του ό ου (POS tagging) Διαπέρασμα προτάσε ν (Parsing) Απάντηση ερ τήσε ν (Question answering) Εξα ή συσ ετίσε ν (Relationship extraction) Δια ρισμός προτάσε ν (Sentence breaking - boundary disambiguation) Συναισ ηματική ανά υση (Sentiment analysis) Ανα νώριση ό ου (Speech recognition) Τμηματοποίηση ό ου (Speech segmentation) Τμηματοποίηση και ανα νώριση εμάτ ν (Topic segmentation and recognition) Τμηματοποίηση έξε ν (Word segmentation) 58

74 Κεφάλαιο Ανάκτηση Πληροφορίας Αποσαφήνιση νοήματος έξε ν (Word sense disambiguation) Ανάκτηση π ηροφορίας (IR) Εξα ή π ηροφορίας (Information Extraction (IE)) Οντο ο ική και εξικο ραφική ανά υση (ontological and lexical analysis) Επεξερ ασία ό ου (Speech processing) Εξα ή ρίζας έξε ν (Stemming) Απ ούστευση κειμένου (Text simplification) Κείμενο σε ό ο (Text-to-speech) Ορ ο ραφικός έ ε ος κειμένου (Text-proofing) Αναζήτηση φυσικής ώσσας (Natural language search) Επέκταση ερ τημάτ ν (Query expansion) Στα π αίσια της μεταπτυ ιακής μου ερ ασίας [235] ασ ο ή ηκα με τα ακό ου α NLP tasks: αυτόματη εξαγωγή περίληψης, εξαγωγή και ανάκτηση πληροφορίας, εύρεση μερών του λόγου, διαχωρισμός προτάσεων και εξαγωγή ρίζας λέξεων. Στο π αίσιο του συστήματος προτάσε ν που αναπτύ ηκε στην διδακτορική διατρι ή, τα NLP tasks που μας αφορούν είναι επιπ έον: η επέκταση ερ τημάτ ν, κα ώς και η οντο ο ική και εξικο ραφική ανά υση. 3.2 Ανάκτηση Π ηροφορίας Η Ανάκτηση Π ηροφορίας (ΑΠ)(IR) είναι η διαδικασία αποτε εσματικής εύρεσης πη ών π ηροφόρησης σ ετικών με μία ανά κη από μία δεδομένη συ ο ή (π.. κειμέν ν). Οι αναζητήσεις προκειμένου να επιτευ εί η ΑΠ μπορεί να ασίζονται σε μετα-π ηροφορία ή σε δεικτοδότηση του π ήρους κειμένου. Τυπικά, η διαδικασία ανάκτησης π ηροφορίας ξεκινά όταν ένας ρήστης εισά ει ένα ερώτημα στο σύστημα. Τα ερ τήματα είναι σύνο α από π ηροφοριακές ανά κες, όπ ς αυτές παρουσιάζονται από τους ρήστες, όπ ς ια παράδει μα, συμ ο οσειρές σε μη ανές αναζήτησης. Στην ΑΠ ένα ερώτημα ενικά δεν αρακτηρίζει μοναδικά ένα και μόνο αντικείμενο στην συ ο ή. Αντι έτ ς, πο ά αντικείμενα που ταιριάζουν με το ερώτημα, ίσ ς με διαφορετικούς α μούς ομοιότητας, επιστρέφονται από το σύστημα. Ένα αντικείμενο είναι απ ά μία οντότητα η οποία αναπαρίσταται από κάποια π ηροφορία στη άση δεδομέν ν. Τα ερ τήματα τ ν ρηστών επομέν ς ταιριάζονται με αυτή την π ηροφορία. Τα περισσότερα συστήματα ΑΠ υπο ο ίζουν μία αρι μητική μετρική, ή α ιώς σκορ, το οποίο αντιπροσ πεύει πόσο κα ά κά ε αντικείμενο ταιριάζει με το ερώτημα, και στη συνέ ει ταξινομεί τα αντικείμενα με άση αυτή το το σκορ. Τα αντικείμενα με το με α ύτερο σκορ έπειτα επιστρέφονται στον ρήστη. 59

75 3.2. Ανάκτηση Πληροφορίας Κεφάλαιο Μοντε οποίηση ανάκτησης π ηροφορίας Ακο ου εί ένας τυπικός ορισμό (3.2.1) ενός μοντέ ου ανάκτησης π ηροφορίας. Ορισμός Ένα μοντέ ο ανάκτησης π ηροφορίας [21] είναι η τετράδα [D, Q, F, R(q i, d j )] όπου: 1. D είναι ένα σύνο ο από ο ικές αναπαραστάσεις ια τα κείμενα της συ ο ής 2. Q είναι ένα σύνο ο από ο ικές αναπαραστάσεις ια τις π ηροφοριακές ανά κες του ρήστη. Αυτές οι αναπαραστάσεις κα ούνται ερ τήματα 3. F είναι ένα υπό α ρο ια την μοντε οποίηση της αναπαράστασης τ ν κειμέν ν, τ ν ερ τημάτ ν και τ ν σ έσε ν μεταξύ τους 4. R(q i, d j ) είναι μια συνάρτηση κατάταξης, η οποία συνδέει έναν πρα ματικό αρι μό με ένα ερώτημα q i Q και μια αναπαράσταση κειμένου d j D. Μια τέτοια κατάταξη ορίζει μια διάταξη πάν στα κείμενα πάντα με άση το ερώτημα q i. Αξιοποιώντας οιπόν τον παραπάν ορισμό ενός μοντέ ου ΑΠ, α έ αμε ότι ξεκινούμε από έναν τρόπο αναπαράστασης τ ν κειμέν ν και τ ν π ηροφοριακών ανα κών του ρήστη. Στη συνέ- εια ( ήμα 3) ορίζουμε ένα υπό α ρο πάν στο οποίο αναπαρίσταται τα κείμενα και τα ερ τήματα. Είναι σημαντικό το υπό α ρο να οριστεί με τρόπο τέτοιο ώστε να υποστηρίζει σύ κριση μεταξύ τ ν αντικειμέν ν/ερ τημάτ ν ώστε να κατα ή ουμε σε μία δεδομένη κατάταξη τ ν αποτε εσμάτ ν του εκάστοτε ερ τήματος. Κά ε μοντέ ο δια ειρίζεται το υπό α ρο διαφορετικά. Ο τρόπος που ίνεται αυτό σε ότι έ ει να κάνει με τα πιο διαδεδομένα μοντέ α, περι ράφεται στην επόμενη ενότητα Μοντέ α ανάκτησης π ηροφορίας Τα κ ασσικά μοντέ α ΑΠ, πάν στα οποία ασίζονται και πο ές παρα α ές τους, είναι τα: Boolean Vector Space Πι ανοτικό Το Boolean μοντέ ο ΑΠ ασίζεται στη δυαδική (boolean) ο ική κα ώς και στην ε ρία συνό ν, δεδομένου ότι τόσο τα αντικείμενα προς αναζήτηση, όσο και τα ερ τήματα του ρήστη αντιμετ πίζονται ς σύνο α από όρους. Η ανάκτηση ασίζεται στο αν τα αντικείμενα περιέ ουν τους όρους αναζήτησης. Το μοντέ ο Vector Space είναι ένα α ε ρικό μοντέ ο αναπαράστασης τ ν αντικειμέν ν ς πίνακες αρακτηριστικών, και άρα, όρους δεικτοδότησης. Έ οντας την αναπαράσταση τ ν αντικειμέν ν στον n διάστατο ώρο (όπου n τα συνο ικά αρακτηριστικά ό ν τ ν κειμέν ν), μπορούμε να υπο ο ίσουμε αποστάσεις και ομοιότητες μεταξύ τ ν αντικειμέν ν. 60

76 Κεφάλαιο Ανάκτηση Πληροφορίας Τέ ος το πι ανοτικό μοντέ ο, το οποίο ασίζεται στη ε ρία πι ανοτήτ ν, αντιστοι ίζει πι ανότητες σε κά ε ένα από τα αντικείμενα δεδομένου του ερ τήματος. Πέρα από τα τρία παραπάν κ ασσικά μοντέ α, στην ι ιο ραφία έ ουν προτα εί αρκετά νέα ή ακόμα και παρα α ές αυτών. Για την κα ύτερη αναπαράσταση και απεικόνιση, τα μοντέ α ΑΠ συ νά κατη οριοποιούνται σε δύο διαστάσεις: σε σ έση με την μα ηματική τους άση και σε σ έση με τις ιδιότητες του μοντέ ου Διάσταση μα ηματικής άσης μοντέ ν ανάκτησης π ηροφορίας Σε σ έση με την μα ηματική τους άση, τα μοντέ α ΑΠ ταξινομούνται στις εξής κατη ορίες: Τα συνο ο ε ρητικά μοντέ α (Set-theoretic models), που αναπαριστούν τα κείμενα ς σύνο α έξε ν ή φράσε ν. Οι ομοιότητες συ νά αντ ούνται από συνο ο ε ρητικές πράξεις πάν σε αυτά τα σύνο α. Τέτοια μοντέ α είναι τα: Τυπικό δυαδικό μοντέ ο (Standard Boolean model) [124] Εκτεταμένο δυαδικό μοντέ ο (Extended Boolean model) [190] Ασαφής ανάκτηση (Fuzzy retrieval) [227] Τα α ε ρικά μοντέ α, τα οποία αναπαριστούν τα κείμενα και τα ερ τήματα συ νά ς διανύσματα, πίνακες ή π ειάδες. Η ομοιότητα μεταξύ ενός διανύσματος ερ τήματος και διανύσματος κειμένου αναπαρίσταται ς μια τιμή. Α ε ρικά μοντέ α είναι τα: Μοντέ ο διανυσματικού ώρου (Vector Space Model (VSM)) [191] Γενικευμένο Μοντέ ο διανυσματικού ώρου (Generalized VSM) [219] (Ενισ υμένο) εματικό μοντέ ο διανυσματικού ώρου (Enhanced Topic-based VSM) [26] Εκτεταμένο δυαδικό μοντέ ο (Extended Boolean model) [190] Latent Semantic Indexing (LSI) που συ νά αναφέρεται και ς Latent Semantic Analysis (LSA) [62] Τα πι ανοτικά μοντέ α, τα οποία αντιμετ πίζουν τη διαδικασία της ΑΠ ς μία πι ανοτική συμπερασματο ο ία. Οι ομοιότητες υπο ο ίζονται ς πι ανότητα του κειμένου να είναι σ ετικό ια ένα δεδομένο ερώτημα. Πι ανοτικά ε ρήματα, όπ ς του Bayes, αποτε ούν συ νά τη άση ια αυτά τα μοντέ α. Πι ανοτικά μοντέ α είναι τα: Δυαδικό μοντέ ο ανεξαρτησίας (Binary Independence Model) [226] Πι ανοτικά μοντέ α που ασίζονται στην okapi (BM25) συνάρτηση συσ έτισης [186] Α έ αιης συμπερασματο ο ίας (Uncertain inference models) [213] Μοντέ α ώσσας (Language models) [174] Μοντέ α απόκ ισης από την τυ αιότητα (Divergence-from-randomness model) [88] 61

77 3.2. Ανάκτηση Πληροφορίας Κεφάλαιο 3 Μοντέ α αν άνουσας κατανομής Dirichlet (Latent Dirichlet allocation) [32] Τα μοντέ α ανάκτησης που ασίζονται σε αρακτηριστικά, αντιμετ πίζουν τα κείμενα ς διανύσματα τιμών συναρτήσε ν αρακτηριστικών (ή απ ά ς αρακτηριστικά) και αναζητούν τον έ τιστο τρόπο ια να συνδυάσουν αυτά τα αρακτηριστικά σε ένα μόνο σκορ συσ έτισης [130]. Οι συναρτήσεις αρακτηριστικών είναι άσ ετες με το κείμενο ή το ερώτημα και επομέν ς μπορούν εύκο α να ενσ ματώσουν σ εδόν κα ένα από τα υπό οιπα μοντέ α ΑΠ απ ά ς ένα νέο αρακτηριστικό Διάσταση ιδιοτήτ ν του μοντέ ου Τα μοντέ α δί ς α η εξάρτηση όρ ν, αντιμετ πίζουν τους όρους/ έξεις ς μη εξαρτημένες μεταξύ τους. Αυτό το ε ονός συνή ς αναπαρίσταται στα μοντέ α VSM μέσ της υπό εσης ορ- ο νιότητας τ ν διανυσμάτ ν όρ ν ή στα πι ανοτικά μοντέ α μέσ της υπό εσης ανεξαρτησίας τ ν μετα ητών όρ ν. Τα μοντέ α με έμφυτη την ανεξαρτησία τ ν όρ ν επιτρέπουν μία αναπαράσταση τ ν ανεξαρτησιών μεταξύ τ ν όρ ν. Παρό α αυτά, ο α μός ανεξαρτησίας μεταξύ δύο όρ ν ορίζεται από το ίδιο το μοντέ ο. Συνή ς συνεπά εται άμεσα ή έμμεσα (π.. με την μεί ση τ ν διαστάσε ν) από την συν-εμφάνιση αυτών τ ν όρ ν στο σύνο ο τ ν κειμέν ν. Τα μοντέ α αυτής της κατη ορίας, ναι μεν επιτρέπουν την αναπαράσταση τ ν α η εξαρτήσε ν μεταξύ τ ν όρ ν, δεν κάνουν κάποια υπό εση όμ ς σε σ έση με το π ς ορίζεται η α η εξάρτηση μεταξύ δύο όρ ν. Αντί ετα ασίζονται σε εξ τερική πη ή ια αυτή την π ηροφορία ( ια παράδει μα αν ρώπινη α η επίδραση ή εξε ι μένους α ορί μους) Vector Space Model Το VSM αναπτύ ηκε στην αρ ική του μορφή ια αυτόματη δεικτοδότηση δεδομέν ν [191]. Σύμφ να με το VSM, μία συ ο ή από n κείμενα με m μοναδικούς όρους αναπαρίσταται ς ένας πίνακας όρ ν-κειμέν ν n m όπου δη αδή κά ε κείμενο είναι ένα διάνυσμα από m συντετα μένες. Παρότι το μοντέ ο αυτό κα αυτό είναι είναι κα ά εδραι μένο, αποτε εί την άση ια πο ά μοντέ α και σ ετική έρευνα στο ώρο. Επίσης αποτε εί την άση ια την ανά υσή μας στην διδακτορική διατρι ή και επομέν ς αξίζει να εμ α ύνουμε ί ο περισσότερο σε αυτό. Πο ά σ ήματα ζυ ίσματος όρ ν έ ουν ρησιμοποιη εί στο VSM, συμπερι αμ ανομένου του δυαδικού ζυ ίσματος συ νότητας όρου και της απ ής εκδο ής ζυ ίσματος άση της συ νότητας (δη αδή πόσες φορές εμφανίζονται οι έξεις στο κείμενο). Στο πιο διαδεδομένο σ ήμα, τα διανύσματα αναπαράστασης του κειμένου, αποτε ούνται από άρη που αντιστοι ούν στις συ νότητες τ ν όρ ν του, πο απ ασιαζόμενα με το αντίστροφο της συ νότητας τους στην ό η συ ο ή κειμέν ν (td idf). Η υπό εση πίσ από αυτό είναι ότι οι έξεις οι οποίες εμφανίζονται συ νά σε ένα κείμενο, α ά σπάνια στην συνο ική συ ο ή κειμέν ν έ ουν υψη ή δυνατότητα αναπαράστασης της π ηροφορίας. Σε ό α αυτά τα σ ήματα έ αια είναι σύνη ες να ίνεται μία κανονικοποίηση τ ν διανυσμάτ ν τ ν κειμέν ν σε μοναδιαία κ ίμακα. Οι περισσότεροι α όρι μοι συσταδοποίησης ρησιμοποιούν κάποιας μορφής VSM αναπαρά- 62

78 Κεφάλαιο Ανάκτηση Πληροφορίας στασης παρότι πρέπει να αναφερ εί ότι δεν κατα ράφεται με αυτό το μοντέ ο οποιαδήποτε π ηροφορία σε σ έση με την σειρά εμφάνισης τ ν έξε ν, ι αυτό και το VSM αναφέρεται συ νά και ς αναπαράσταση ίστας έξε ν (BOW representation), η μοντέ ο εξικού. Δύο σημαντικές ιδιότητες του μοντέ ου α πρέπει να τονιστούν. Πρώτον, σε μία συ ο ή από ετερο ενή έματα (κάτι εξαιρετικά σύνη ες ια την περίπτ ση της συσταδοποίησης), ο αρι μός τ ν μοναδικών όρ ν μπορεί, και συ νά είναι, εξαιρετικά με ά ος. Αυτό έ ει ς αποτέ εσμα τα διανύσματα τ ν κειμέν ν να είναι πο ών διαστάσε ν. Για την αντιμετώπιση αυτού του προ ήματος ένα π ή ος τε νικών προεπεξερ ασίας έ ουν ερευνη εί στην ι ιο ραφία. Δεύτερον, ο πίνακας που παρά εται από μία τυπική άση κειμέν ν είναι σε ενικές ραμμές πο ύ αραιός με το VSM, διότι η άση κειμέν ν περιέ ει πο ύ περισσότερους όρους σε σ έση με το κα ένα ξε ριστό κείμενο που την απαρτίζει Αξιο ό ηση αποτε εσμάτ ν ανάκτησης π ηροφορίας Ένα από τα ασικά στοι εία αξιο ό ησης του IR είναι η μέτρηση του κατά πόσο τα ανακτημένα κείμενα είναι σ ετικά με το ερώτημα που κάνουμε. Έτσι οιπόν, ένα ασικό στοι είο στο οποίο εστιάζουμε είναι η εύρεση μετρικών που α μπορούν να αναπαραστήσουν αρι μητικά τη σ ετικότητα τ ν αποτε εσμάτ ν ενός συστήματος IR. Πο ές μετρικές έ ουν αναπτυ εί ανά καιρούς και στην παρούσα ενότητα α κατα ράψουμε συνοπτικά τις σημαντικότερες και πιο συνη ισμένες από αυτές Ανάκ ηση και ακρί εια Ίσ ς οι πιο ν στές μετρικές αξιο ό ησης τ ν αποτε εσμάτ ν ενός συστήματος ανάκτησης π ηροφορίας να είναι η ανάκ ηση και η ακρί εια. Η ακρί εια μας δίνει το ποσοστό (%) τ ν σ ετικών κειμέν ν εν συ κρίσει με αυτά που ανακτή ηκαν, ενώ η ανάκ ηση μας δίνει το ποσοστό (%) τ ν κειμέν ν που ανακτή ηκαν εν συ κρίσει με μία συ ο ή που ν ρίζουμε ότι περιέ ει ό α τα σ ετικά. Φορμα ιστικά, οι σ έσεις που ισ ύουν ια τις δύο αυτές μετρικές είναι οι παρακάτ : R = {A} {B} A (1) P = {A} {B} B όπου R η ανάκ ηση, P η ακρί εια, A τα σ ετικά κείμενα που ρέ ηκαν και B ό α τα άρ ρα που ανακτή ηκαν. Οι παραπάν συσ ετίσεις είναι εμφανείς στο σ ήμα 3. Θα έ αμε επομέν ς ότι η ανάκ ηση μας δίνει ένα μέτρο ια το πόσο κα ά μια αναζήτηση εντοπίζει αυτό που έ ουμε, ενώ η ακρί εια μετράει το πόσο κα ά απορρίπτουμε αυτό που δεν έ ουμε. Αυτές οι μετρικές, παρότι πο ύ ρήσιμες ια την αξιο ό ηση, είναι δύσ ρηστες από τη φύση τους. Πρώτα απ ό α η έννοια της ακρί ειας είναι συνή ς αποκ ειστικά υποκειμενικό κριτήριο και ό ι μια αντικειμενική ετική ή αρνητική απάντηση. Δεύτερον, ια κά ε άση π ηροφορίας που είναι αρκετά με ά η ια να κατασκευαστεί μια μη ανή αναζήτησης πάν της, α είναι δύσκο ο να (2) 63

79 3.2. Ανάκτηση Πληροφορίας Κεφάλαιο 3 Σ ήμα 3: Ακρί εια - Ανάκ ηση. Με C είναι τα σ ετικά άρ ρα που ανακτή ηκαν. υπο ο ιστούν πρα ματικές τιμές ανάκ ησης ό του με έ ους της άσης ( ια να υπο ο ιστεί επακρι ώς η ανάκ ηση α πρέπει να ν ρίζουμε ακρι ώς πόσα matches έ ιναν, και αν ν ρίζαμε κάτι τέτοιο, ποιος ο ό ος να έ ουμε μια μη ανή αναζήτησης;). Τρίτον, η ακρί εια και η ανάκ ηση δεν είναι στον πρα ματικό κόσμο απ ά αρι μοί είναι δύο έννοιες που σ ετίζονται στενά. Για παράδει μα ενώ ψά νουμε στις σε ίδες απάντησης μιας μη ανής αναζήτησης ια ένα ερώτημα που δώσαμε, περιμένουμε κα ώς περνάμε τις σε ίδες η ανάκ ηση να ε τιώνεται ενώ παρά η α η ακρί εια να ειροτερεύει Fall-out Η μετρική Fall-out ορίζεται ς η ανα ο ία τ ν μη σ ετικών κειμέν ν τα οποία ανακτούνται, σε σ έση με ό α τα μη σ ετικά κείμενα τα οποία υπάρ ουν: fall-out = {μη σ ετικά κείμενα} {ανακτημένα κείμενα} μη σ ετικά κείμενα (3) Φυσικά μπορούμε να παρατηρήσουμε ότι εύκο α μπορούμε να παρά ουμε μηδενικές τιμές ια την fall-out μετρική: απ ά δεν επιστρέφουμε αποτε έσματα F-measure Η μετρική F-measure, ή α ιώς F-score, αποτε εί τον αρμονικό μέσο της ακρί ειας και ανάκ ησης ή ενικά ένας ζυ ισμένος συνδυασμός τ ν δύο αυτών μετρικών: F = 2 ακρί εια ανάκ ηση ακρί εια + ανάκ ηση (4) Έστ οιπόν ένα σύνο ο από κείμενα C που ένα recommendation system προτείνει στον ρήστη, κα ώς και ένα σύνο ο από κείμενα C τα οποία επισκέπτεται ο ρήστης μετά τις προτάσεις του συστήματος. Επίσης έστ ότι με r(c, c) είναι το π ή ος τ ν κειμέν ν τα οποία ανήκουν και στα δύο παραπάν σύνο α. Τότε: όπου: F (c, c) = 2r(c, c)p(c, c) r(c, c) + p(c, c) r(c, c) = doc(c, c) doc(c ) 64 (5) (6)

80 Κεφάλαιο Φιλτράρισμα Πληροφορίας και: p(c, c) = doc(c, c) doc(c) (7) Η μετρική (4) ονομάζεται και F1-measure. Στη ενική περίπτ σή οιπόν: F β = (1 + β2 ) (ακρί εια ανάκ ηση) (β 2 ακρί εια) + ανάκ ηση (8) Τέ ος, η φυσική σημασία αυτής της μετρικής αφορά στην αποτε εσματικότητα του συστήματος που αξιο ο ούμε σε σ έση με κάποια εφαρμο ή που ε ρεί β φορές πιο σημαντική την ανάκ ηση σε σ έση με την ακρί εια Μέση τιμή ακρί ειας Η ακρί εια και η ανάκ ηση είναι μετρικές μίας και μόνο τιμής, ασισμένες στην π ήρη ίστα από κείμενα που επιστρέφεται από το σύστημα. Για συστήματα που επιστρέφουν μία ταξινομημένη σειρά από κείμενα, είναι επι υμητό να αμ άνεται υπόψιν επίσης και η σειρά με την οποία τα επιστρεφόμενα αντικείμενα παρουσιάζονται. Υπο ο ίζοντας την ακρί εια και την ανάκ ηση σε κά ε έση της σειράς κατάταξης τ ν κειμέν ν, μπορούμε να σ εδιάσουμε την καμπύ η ακρί ειαςανάκ ησης, ζ ραφίζοντας την ακρί εια p(r) σαν συνάρτηση της ανάκ ησης r. Η μέση τιμής της ακρί ειας είναι επομέν ς: n AveragePr = P (k) r(k) (9) k=1 όπου k είναι η σειρά στην ταξινόμηση τ ν ανακτημέν ν κειμέν ν, n είναι το π ή ος τ ν ανακτημέν ν κειμέν ν, P (k) είναι η ακρί εια στο σημείο αποκοπής k στη ίστα και r(k) είναι η α α ή στην ανάκ ηση από τα σημεία k 1 έ ς k [232] R-Ακρί εια Η μετρική αυτή [20] κατα ράφει την ακρί εια στην R-ιοστή έση στην κατάταξη τ ν αποτε εσμάτ ν ια ένα ερώτημα που έ ει R σ ετικά κείμενα. Η R-ακρί εια είναι υψη ά συσ ετιζόμενη με την μέση ακρί εια. Επίσης, η ακρί εια είναι ίση με την ανάκ ηση στην R-ιοστή έση. 3.3 Φι τράρισμα Π ηροφορίας Ένα σύστημα IR δύσκο α μπορεί να πετύ ει πο ύ υψη ές τιμές τόσο ακρί ειας όσο και ανάκ ησης. Οι τιμές αυτές μά ιστα δεν έ ουν καμία σύ κριση με ένα σύστημα DataBase Management System (DBMS) που τα ποσοστά αυτά ρίσκονται στο 100%. Ωστόσο α μπορούσε κανείς να πει π ς και τα δύο συστήματα πρα ματοποιούν την ίδια διαδικασία, δη αδή ανάκτηση π ηροφορίας. Αυτό έ αια έ ει να κάνει με τον τρόπο με τον οποίο δομείται ένα σύστημα DBMS και ο οποίος είναι τέτοιος ώστε να εξυπηρετεί από υτα τις ανά κες ενός ρήστη. 65

81 3.3. Φιλτράρισμα Πληροφορίας Κεφάλαιο 3 Αυτή η δυσκο ία που αντιμετ πίζουν τα συστήματα IR (μικρές τιμές ανάκ ησης και ακρί- ειας) εννούν ένα ά ο επιστημονικό πεδίο το οποίο υπάρ ει παρά η α με το IR και είναι το Information Filtering (IF). Σε ένα κ ασσικό άρ ρο οι Belkin και Croft παρουσίασαν δύο διαφορετικούς ορισμούς ια τα δύο παραπάν έματα οι οποίοι έ ουν κοινές τε νικές α ά διαφέρουν σε τρία ασικά στοι εία [27]. Πρώτον, στο IR όταν ο ρήστης κάνει ένα ερώτημα περιμένει άμεση απόκριση. Στο IF ο ρήστης μπορεί να περιμένει, εν νώσει του, ια με ά ο ρονικό διάστημα μέ- ρι να του παρουσιαστεί μία απάντηση. Επιπρόσ ετα, το IF ειρίζεται και έματα που από τη φύση τους είναι δυναμικά και εντάσσει στο μη ανισμό του στοι εία εκμά ησης σύμφ να με τα κείμενα που προσ έτει στη συ ο ή του. Τε ευταίο και ασικότερο, είναι π ς το IR αναζητά παραπ ήσια κείμενα από μία με ά η συ ο ή κειμέν ν σε αντί εση με το IF, το οποίο προσπα εί να αφαιρέσει από μία συ ο ή τα εισερ όμενα κείμενα που δεν είναι σ ετικά, κρατώντας έτσι μόνο ότι ε ρεί σ ετικό με τον εκάστοτε ρήστη. Παρ ό ες τις διαφορές που έ ουν τα δύο αυτά πεδία δεν πρέπει να αμε ούμε π ς έ ουν παραπ ήσιο σκοπό: να εξασφα ίσουν ότι τα κείμενα που α παρουσιαστούν στο ρήστη είναι σ ετικά με το ερώτημά του. Τα δια ράμματα ακρί ειας/ανάκ ησης είναι ρήσιμα εφόσον με ετούμε την απόδοση ανάκτησης διαφορετικών α ορί μ ν σε ένα σύνο ο από πρότυπες π ηροφοριακές ανά κες. Ωστόσο υπάρ- ουν περιπτώσεις στις οποίες α έ αμε να συ κρίνουμε την απόδοση α ορί μ ν ανάκτησης ια ατομικές π ηροφοριακές ανά κες. Οι ό οι ια να το κάνουμε αυτό είναι δύο: 1. η ρήση μέσ ν τιμών που προκύπτουν από την εκτέ εση διαφόρ ν ερ τημάτ ν μπορεί να αποκρύπτει σημαντικές αν μα ίες στον α όρι μο ανάκτησης, 2. όταν συ κρίνουμε δύο α ορί μους, μπορεί να έ ουμε να με ετήσουμε κατά πόσο ο ένας είναι κα ύτερος του ά ου ια κά ε μία από τις π ηροφοριακές ανά κες που έ ουμε και ό ι συνο ικά. Σε τέτοιες περιπτώσεις υπο ο ίζουμε μία μόνο τιμή ακρί ειας ια κά ε ερώτημα, η οποία α μπορούσε να ε ρη εί σαν σύνοψη του συνο ικού δια ράμματος ακρί ειας/ανάκ ησης. Συνή ς αυτή η τιμή είναι η ακρί εια σε κάποιο συ κεκριμένο επίπεδο ανάκ ησης. Φυσικά αυτές είναι ί ες από τις πο ές προσε ίσεις αξιο ό ησης που μπορούν να ίνουν Εξόρυξη από τον πα κόσμιο ιστό Η εξόρυξη από τον πα κόσμιο ιστό (Web mining) εστιάζει στην εύρεση φυσικών οντοτήτ ν και συσ ετισμό αυτών από πη ές του διαδικτύου ή ρήστες αυτού. Θα μπορούσαμε να ρίσουμε οντρικά το Web mining σε τρεις ασικές κατη ορίες [54]. Αρ ικά, στο Web content mining, όπου η π ηροφορία εξά εται από το περιε όμενο τ ν σε ίδ ν και τ ν υπερσυνδέσμ ν (hyperlinks) αυτών, ό ι επομέν ς από τους ρήστες κα αυτούς. Δεύτερ ν, στο Web Structure Mining, όπου η δομική π ηροφορία σ ετικά με τα hyperlinks και η ορ άν ση τ ν σε ίδ ν παίζει κυρίαρ ο ρό ο. Και τρίτ ν, στο Web Usage Mining, το οποίο εστιάζει στην εξα ή ρήσιμ ν προτύπ ν ρήσης από την συμπεριφορά τ ν ρηστών. 66

82 Κεφάλαιο Φιλτράρισμα Πληροφορίας Η συσταδοποίηση τ ν ρηστών του διαδικτύου αποτε εί ένα ξε ριστό ερευνητικό πεδίο στην υποκατη ορία του Web Usage Mining το οποίο αποσκοπεί στην περι ραφή ενικών τάσε ν στην συμπεριφορά τ ν ρηστών μέσα σε ένα δεδομένο ρονικό π αίσιο. Όπ ς εξη είται στο [168], το Web mining είναι ουσιαστικά η εξα ή ενδιαφερόντ ν και πι ανά ρησίμ ν προτύπ ν και έμμεσης π ηροφορίας από αντικείμενα ή συμπεριφορές σ ετικές με τον πα κόσμιο ιστό. Το πεδίο έ ει επίσης με ετη εί και στο π αίσιο της προσ ποποίησης του ιστού από πο ούς ερευνητές, π.. [63], [71]. Στο [147] αμ άνονται υπόψιν ασικά δύο τύποι από πρότυπα ρήσης και ίνεται συσταδοποίηση πάν σε αυτά προκειμένου να κατασκευαστούν ενικά προφί π οή ησης τ ν ρηστών, ρίς μά ιστα να έ ει κάποια επίπτ ση η σειρά πρόσ ασης. Στο [71] παρουσιάζεται μία μέ οδος η οποία κάνει ρήση επα ής με άση τα αρακτηριστικά τ ν ρηστών, όπου οι συνεδρίες τ ν ρηστών αναπαρίστανται ς πίνακες στον n-διάστατο Ευκ είδειο ώρο τ ν όρ ν. Η οπτικοποίηση τ ν επι ο ών του ρήστη έ ει επίσης με ετη εί στο [41] ια πρότυπα π οή ησης. Στο [90] εισά εται μία με οδο ο ία στοί ισης ακο ου ίας (Sequence Alignment) η οποία συσταδοποιεί τους ρήστες με άσει τα πρότυπα π οή ησής τους. Αυτή η μέ οδος ασίζεται στην σειρά με την οποία τα ε ονότα π οή ησης αμ άνουν ώρα από τους ρήστες. Το Web usage mining ουσιαστικά οδη εί στο συνερ ατικό φι τράρισμα όταν κάνει ρήση τ ν ν στών προτιμήσε ν από ένα σύνο ο ρηστών προκειμένου να κάνει προτάσεις ή προ έψεις σ ετικά με ά ν στες προτιμήσεις ρηστών Συνερ ατικό φι τράρισμα - Collaborative Filtering Το συνερ ατικό φι τράρισμα (collaborative filtering) έ ει δύο έννοιες [184], μία στενή και μία πιο ευρύτερη [204]. Γενικά, το συνερ ατικό φι τράρισμα είναι η διαδικασία φι τραρίσματος της π ηροφορίας με ρήση τε νικών που εμπεριέ ουν συνερ ασία μεταξύ πη ών, αντι ήψε ν, κ. π. Η προσαρμο ή τ ν CF συστημάτ ν στις προτιμήσεις του ρήστη, μειώνει την προσπά εια αναζήτησης από την π ευρά του. Οι εφαρμο ές του συνερ ατικού φι τραρίσματος τυπικά εμπεριέ ουν πο ύ με ά α σύνο α δεδομέν ν. Μέ οδοι CF έ ουν εφαρμοστεί σε πο ά διαφορετικά είδη δεδομέν ν, συμπερι αμ ανομέν ν τ ν: αίσ ηση και παρακο ού ηση δεδομέν ν, οικονομικά δεδομένα, η εκτρονικό εμπόριο, κ. α. Στην νεότερη, πιο στενή έννοια, το CF είναι μία μέ οδος ια αυτόματες προ έψεις (φι τράρισμα) σε σ έση με τα ενδιαφέροντα του ρήση, με ρήση συ ο ή τ ν ενδιαφερόντ ν ή τ ν προτιμήσεών πο ών ά ν ρηστών (συνερ ασία). Αξίζει να σημει εί ότι οι προ έψεις που κάνει ένα CF είναι στο ευμένες ια τον συ κεκριμένο ρήστη, όμ ς η αρ- ική π ηροφορία πη άζει από πο ούς ά ους. Αυτό διαφέρει από την απ ούστερη προσέ ιση η οποία δίνει ένα μέσο (ό ι συ κεκριμένο) σκορ ια κά ε είδος ενδιαφέροντος, που ασίζεται ια παράδει μα στο π ή ος τ ν ψήφ ν. Η έννοια του συνερ ατικού φι τραρίσματος εισή ηκε από τους ερευνητές ενός εκ τ ν πρώτ ν συστημάτ ν προτάσε ν, του Tapestry [80], προκειμένου να περι ράψουν αυτή την τε νική προσ ποποιημέν ν προτάσε ν που ασίζεται στην ομοιότητα τ ν ενδιαφερόντ ν τ ν ρηστών. Το συνερ ατικό φι τράρισμα στο εύει επομέν ς στο να περι ράψει ενικά τις διάφορες τε νικές προσ ποποιημέν ν προτάσε ν. Από τότε, έ ει ευρέ ς υιο ετη εί και εξε ι εί σε τέτοιο α μό 67

83 3.3. Φιλτράρισμα Πληροφορίας Κεφάλαιο 3 ώστε τα συστήματα προτάσε ν να προτείνουν ιδιαίτερα ενδιαφέροντα αποτε έσματα στους ρήστες, ενώ παρά η α να φι τράρουν αποτε εσματικά τον ό κο δεδομέν ν που δια ειρίζονται. Η ασική υπό εση ενός CF συστήματος [121] είναι ότι: Υπό εση 1. αν οι χρήστες X και Y βαθμολογούν n αντικείμενα παρόμοια, ή γενικά έχουν παρόμοιες συνήθειες (π.χ. αγοραστικές, ακουστικές, κ.λπ.), τότε θα βαθμολογήσουν η θα ενεργήσουν σε άλλα αντικείμενα παρόμοια Οι CF α όρι μοι συ νά απαιτούν: 1. την ενερ ή συμμετο ή τ ν ρηστών στη διαδικασία - συ νά με απαντήσεις σε σ έση ή ενέρ ειες που φανερώνουν τις προτιμήσεις τους 2. έναν εύκο ο τρόπο αναπαράστασης τ ν ενδιαφερόντ ν τ ν ρηστών στο σύστημα 3. α όρι μους οι οποίοι είναι ικανοί να ταιριάξουν αν ρώπους με παρόμοια ενδιαφέροντα Ροή π ηροφορίας CF Τυπικά η ροή π ηροφορίας σε ένα σύστημα CF έ ει ς εξής: ένας ρήστης εκφράζει τα ενδιαφέροντά του α μο ο ώντας/αξιο ο ώντας αντικείμενα (π.. ι ία, ταινίες, άρ ρα νέ ν) του συστήματος. Αυτές οι α μο ο ίες μπορούν να ειδ ούν ς μια στο περίπου αναπαράσταση τ ν ενδιαφερόντ ν του ρήστη στο συ κεκριμένο τομέα ενδιαφέροντος. το σύστημα ταιριάζει τα ενδιαφέροντα του ρήστη με εκείνα ά ν ρηστών και ρίσκει εκείνους με παρόμοια ενδιαφέροντα έ οντας τους παρόμοιους ρήστες, το σύστημα προτείνει αντικείμενα τα οποία οι παρόμοιοι ρήστες έ ουν α μο ο ήσει υψη ά α ά δεν έ ουν ακόμα α μο ο η εί από τον ρήστη (υπο έτοντας ότι η απουσία α μο ό ησης συ νά φανερώνει μη νώση ια το συ κεκριμένο αντικείμενο) Ένα ασικό πρό ημα του συνερ ατικού φι τραρίσματος είναι το π ς να συνδυαστούν και να ζυ ιστούν οι προτιμήσεις τ ν παρόμοι ν ρηστών. Μερικές φορές, οι ρήστες μπορούν να α μο ο ήσουν άμεσα τα προτεινόμενα αντικείμενα. Ως αποτέ εσμα, με το πέρασμα του ρόνου, το σύστημα κερδίζει μία ο οένα και αυξανόμενη αναπαράσταση τ ν προτιμήσε ν του ρήστη. Ένα ακόμη πρό ημα του CF είναι ότι τα σκορ ομοιότητας τυπικά δεν αμ άνουν υπόψιν τους τα μετα α όμενα ενδιαφέροντα ρήστη. Επίσης δεν μπορούν να υπο ο ίζουν την αξιοπιστία τ ν επι ο ών τ ν ρηστών, κάτι που μπορεί εύκο α να οδη ήσει σε άσ ημα αποτε έσματα προτάσε ν, ακόμη και ια τους κα ύτερους α ορί μους. Στην διδακτορική διατρι ή προσπα ούμε να αντιμετ πίσουμε το παραπάν πρό ημα κάνοντας μικρές α ά συνε είς α α ές στα προφί ρηστών άσει τ ν εκάστοτε επι ο ών τους. 68

84 Κεφάλαιο Φιλτράρισμα Πληροφορίας Ένα ακόμη πρό ημα που επίσης έ ουν τα συστήματα συνερ ατικού φι τραρίσματος είναι ότι δεν δου εύουν πάντα κα ά ό του φαινομένου της αραιότητας τ ν δια έσιμ ν δεδομέν ν (data scarcity). Κά ε ρήστης του συστήματος έ ει δει ένα μικρό μέρος μό ις τ ν δεδομέν ν και επομέν ς ακρι είς προ έψεις δεν μπορούν εύκο α να ίνουν, του ά ιστον έ ς ότου η κά υψη τ ν ρηστών στα δεδομένα έ ει αυξη εί σε κάποιο α μό. Ένας τρόπος αντιμετώπισης αυτής της κατάστασης είναι η ομαδοποίηση τ ν ρηστών σε ομάδες παρομοί ν ενδιαφερόντ ν. Έτσι, αξιοποιώντας την πι ανή συμμετρία στις επι ο ές τ ν ρηστών που ρίσκονται στις ίδιες συστάδες, α μπορούσαμε να ομαδοποιήσουμε άρ ρα νέ ν ασιζόμενοι στο ποιος τα έπει - ρησιμοποιώντας έτσι ομάδες άρ ρ ν αντί ια μεμον μένους ρήστες. Η αντίστροφη προσέ ιση είναι επίσης πι ανή: έστ μία ομάδα ρηστών οι οποίοι έ ουν προη ουμέν ς εκφράσει το ενδιαφέρον τους ια ένα συ κεκριμένο έμα. Ένα πρόσφατο άρ ρο με ομοιότητα προς κάποια από τα άρ ρα που προη ουμέν ς έ ουν δια ασ εί από μερικά μέ η της ομάδας, είναι πι ανό να ενδιαφέρει και τους υπό οιπους ρήστες αυτής της ομάδας. Έτσι, αντί να ασιζόμαστε στις επι ο ές μεμον μέν ν ρηστών, η συστάδα ενσ ματώνει και προσ έτει την απαραίτητη π ηροφορία που ρειάζεται ένα CF σύστημα. Την ο ική αυτή ακρι ώς αξιοποιούμε και εμείς προκειμένου να αντιμετ πίσουμε το εν ό πρό ημα. Οι δύο τε νικές που παραδοσιακά αξιοποιούνται ια εφαρμο ή τ ν παραπάν προσε ίσε ν είναι η k Nearest Neighbors (k-nn) και η συσταδοποίηση Απαιτήσεις CF Πο ές τε νικές παρα οντοποίησης πινάκ ν έ ουν εφαρμοστεί στο CF, όπ ς το Singular Value Decompossition (SVD), το probabilistic LSA, το probabilistic matrix factorization, κ. π. Παρό α αυτά, ο συνδυασμός πο απ ών α ορί μ ν φαίνεται να υπερτερεί τ ν απ ούστερ ν με- οδο ο ιών [197]. Οι CF τε νικές συ νά ρησιμοποιούν μία άση δεδομέν ν ια τις προτιμήσεις τ ν ρηστών προς αντικείμενα. Σε ένα τυπικό σενάριο μίας ίστας m ρηστών u 1, u 2,..., u m και μίας ίστας n αντικειμέν ν i 1, i 2,..., i n, όπου κά ε ρήστης u i έ ει μία ίστα από αντικείμενα I ui, τα οποία ο ρήστης α μο ό ησε άμεσα (π.. σε κ ίματα 1-5) ή σε σ έση με τα οποία υπάρ ει έμμεση ένδειξη ενδιαφέροντος με άση τη συμπεριφορά του (π.. μέσ α ορών ή click-throughs). Έτσι οιπόν, οι α όρι μοι CF απαιτείται: να έ ουν τη δυνατότητα να αντιμετ πίζουν τα αραιά δια έσιμα δεδομένα να κ ιμακώνονται με την αύξηση τ ν ρηστών και τ ν αντικειμέν ν να κάνουν ικανοποιητικές προτάσεις σε σύντομο ρονικό διάστημα (ικανοποιητική απόκριση) να μπορούν να αντιμετ πίσουν προ ήματα όπ ς η συν νυμία (όπου παρόμοια αντικείμενα έ ουν διαφορετικά ονόματα), shilling attacks [49], όρυ ο στα δεδομένα κα ώς και έματα προστασίας της ιδι τικότητας [197] 69

85 3.3. Φιλτράρισμα Πληροφορίας Κεφάλαιο Κατη ορίες CF Οι τε νικές CF έ ουν οντρικά τρεις κατη ορίες: 1. Memory-based, όπ ς ια παράδει μα τε νικές που ασίζονται σε είτονους (neighborbased) [91] και item- based top-n τε νικές [192][113] 2. Model-besed, ια παράδει μα Bayesian δίκτυα πεποί ησης (Bayesian belief nets) [202], αν- άνουσα σημασιοδότηση (latent semantic) [94] κα ώς και περιορισμού διαστάσε ν (dimensionality reduction) SVD [173] 3. Υ ριδικά, τα οποία συνδυάζουν τα π εονεκτήματα και τ ν δύο παραπάν κατη οριών ενώ παρά η α ε τιώνουν της απόδοση τ ν προ έψε ν προτιμήσε ν ρήστη [201] Η αρ ική ενιά CF συστημάτ ν ρησιμοποιούσε τα δεδομένα α μο ό ησης τ ν ρηστών προκειμένου να υπο ο ίσει την ομοιότητα ή το άρος μεταξύ ρήστη και αντικειμένου, ώστε να κάνει προ έψεις ή προτάσεις σύμφ να με αυτές τις τιμές ομοιότητας. Τα memory-based CF συστήματα συ νά τα συναντούμε σε εμπορικές εφαρμο ές [94] όπ ς το Amazon [10] και το Barnes and Noble [23] διότι είναι εύκο α ς προς την υ οποίηση τους και αρκετά αποδοτικά. Για να επιτύ ουν κα ύτερα αποτε έσματα στις προ έψεις τους και να αποφύ ουν τα μειονεκτήματα τ ν memory-based α ορί μ ν, οι model-based προσε ίσεις κάνουν ρήση τ ν πρ το ενών δεδομέν ν α μο ό ησης προκειμένου να εκτιμήσουν και να εκμά ουν ένα μοντέ ο το οποίο κάνει τις προ έψεις. Το μοντέ ο μπορεί να είναι κάποιος α όρι μος εξόρυξης δεδομέν ν ή μη ανικής εκμά ησης. Πο ύ συ νές model-based CF τε νικές είναι τα Bayesian δίκτυα πεποί ησης [145][195], τα CF μοντέ α συσταδοποίησης [203][46], κα ώς και τα latent semantic CF μοντέ α [94]. Επίσης τα Markov decision process (MDP) μοντέ α CF [183] παρά ουν αποτε έσματα με πο ύ υψη ή απόδοση Φι τράρισμα άσει περιε ομένου Πέρα από το συνερ ατικό φι τράρισμα, το φι τράρισμα άσει περιε ομένου (content-based filtering) είναι μια πο ύ σημαντική κατη ορία συστημάτ ν προτάσε ν. Τα συστήματα προτάσε ν αυτού του είδους κάνουν προτάσεις ανα ύοντας το περιε όμενο της κειμενικής π ηροφορίας και ρίσκοντας κανονικότητες στο περιε όμενο, όπ ς π.. στο [87]. Η ασική διαφορά μεταξύ τ ν CF και τ ν content-based filtering συστημάτ ν προτάσε ν είναι ότι τα πρώτα ρησιμοποιούν μόνο τις α μο ο ίες ρηστών-αντικειμέν ν ια να κάνουν τις προ έψεις και προτάσεις τους, ενώ τα δεύτερα ασίζονται στα αρακτηριστικά τ ν ρηστών και τ ν αντικειμέν ν ια αυτές [195]. Τόσο τα CF όσο και τα content-based filtering συστήματα όμ ς έ ουν τους περιορισμούς τους: ενώ τα CF συστήματα δεν συμπερι αμ άνουν άμεσα π ηροφορία αρακτηριστικών, τα contentbased συστήματα δεν ενσ ματώνουν απαραίτητα την π ηροφορία ια την ομοιότητα τ ν προτιμήσε ν μεταξύ τ ν ρηστών [13]. Οι υ ριδικές CF τε νικές, όπ ς content-based CF α όρι μοι [141] και τε νικές διά ν σης προσ πικότητας (Personality Diagnosis (PD)) [176], συνδυάζουν το CF με το content-based με σκοπό την αποφυ ή τ ν περιορισμών τ ν δύο κατη οριών και 70

86 Κεφάλαιο Συστήματα προτάσεων συνεπώς την ε τί ση της απόδοσης τ ν προτάσε ν. Η προσέ ιση αυτή αξιοποιείται ια στην διδακτορική διατρι ή ια το σύστημα προτάσε ν που αναπτύ ηκε. 3.4 Συστήματα προτάσε ν Όπ ς εξη είται και στο [120], τα συστήματα προτάσε ν έ ουν μία ιστορία η οποία ξεκίνησε με τους εστιασμένους α όρι μους πρό εψης, οι οποίοι στην συνέ εια επεκτά ηκαν σε εμπορική ρήση και που πρόσφατα εστιάζουν σε πιο επτομερείς με οδο ο ίες ξεφεύ οντας από την ο ική απ ά και μόνο της ακρί ειας τ ν προ έψε ν. Στις αρ ές της δεκαετίας 1990, κα ώς η ρήση του διαδικτύου εξαπ νόταν ρή ορα, συστήματα προτάσε ν που ασίζονται σε συνερ ατικό φι τράρισμα εφευρέ ηκαν ια να οη ήσουν τους ρήστες να αντιμετ πίσουν την υπερφόρτ ση π ηροφορίας με τη δημιουρ ία μοντέ ν πρό εψης που εκτιμούν πόσο ο ρήστης α ή ε ε να έ ει νώση ια τα εν ό αντικείμενα. Το σύστημα GroupLens [181] ασιζόταν στην διαίσ ηση ότι κά ε φορά που ένας ρήστης διά αζε ένα άρ ρο από το Usenet, σ ημάτιζε και στη συνέ εια πετούσε μια πο ύτιμη νώμη. Αυτή η νώμη κατα ράφονταν από το σύστημα και έτσι, ρησιμοποιώντας τις αξιο ο ήσεις τ ν ομοϊδεατών μπορούσε να παρά ει τα προσ ποποιημένες προ έψεις που εμφανίζονταν ς μέρος της επικεφα ίδας του άρ ρου. Το σύστημα Ringo [196] προσέφερε προτάσεις ια μουσικούς κα ιτέ νες ρησιμοποιώντας μια παρόμοια τε νική που ονομάστηκε κοιν νικό φι τράρισμα τ ν π ηροφοριών. Ομοί ς και ια το πεδίο τ ν προτάσε ν π ηροφορίας ίντεο [93], όπου ρησιμοποιή ηκαν παρόμοιοι α όρι μοι και ενημέρ ση μέσ ια τις εικονικές κοινότητες τ ν ταινιόφι ν. Τα συστήματα προτάσε ν ρή ορα έ ιναν δημοφι ή, τόσο όσον αφορά την έρευνα, όσο και την εμπορική τους εκμετά ευση και μέ ρι το 1996, πο ές εταιρείες διαφήμιζαν και προ ούσαν τους μη ανισμούς προτάσε ν τους. Σε σ έση με την παραπάν αρ ή, το πεδίο έ ει προ ρήσει τόσο μέσ της ασικής έρευνας και της εμπορικής ανάπτυξης, έ ς το σημείο όπου τα συστήματα συστάσε ν σήμερα ενσ ματώνονται σε ένα ευρύ φάσμα εφαρμο ών περιε ομένου (online και offline). Παρά η α, το πεδίο εφαρμο ής τ ν συστημάτ ν προτάσε ν έ ει διευρυν εί, ενώ ο όρος, που αρ ικά ήταν συνυφασμένος με το συνερ ατικό φι τράρισμα, ρή ορα επεκτά ηκε ώστε να συμπερι ά ει ένα ευρύτερο φάσμα από προσε ίσεις που ασίζονται στο περιε όμενο (content-based) α ά και στη νώση (knowledgebased). Ό α τα πρώτα οιπόν συστήματα προτάσε ν ρησιμοποιούσαν παρα α ές του ζυ ισμένου k-nn α ορί μου. Διαισ ητικά, αυτός ο α όρι μος προ έπει πόσο ένα αντικείμενο i α αρέσει σε έναν ρήστη u με το να επι έ ει μία ειτονία από ά ους ρήστες με ενδιαφέροντα όσο το δυνατόν κοντινότερα στον u. Η επι ο ή ειτονικότητας ίνεται μέσ του υπο ο ισμού ενός μέτρου ομοιότητας μεταξύ τ ν προη ούμεν ν επι ο ών του u και επι ο ών ά ν ρηστών (συ νά με άση τη μετρική ομοιότητας του Pearson, ή ς ένα πίνακα ομοιότητας συνημιτόνου) και επι έ οντας τα πιο όμοια αντικείμενα ς είτονες [92]. Με την πρό εψη ενδιαφερόντ ν ς το ασικό έρ ο τους, δεν είναι περίερ ο που οι πιο δημο- 71

87 3.5. Προεπεξεργασία κειμένου Κεφάλαιο 3 φι είς στρατη ικές αξιο ό ησης τ ν συστημάτ ν προτάσε ν ήταν (και ακόμα και τώρα είναι σε με ά ο α μό) η ακρί εια τ ν παρα όμεν ν προ έψε ν. Τα περισσότερα από τα πρώτα συστήματα προτάσε ν αξιο ο ούνταν με άσει κριτήρια όπ ς το σφά μα ή η συσ έτιση. Στα παραπάν περι αμ άνονται το από υτο σφά μα και το μέσο τετρα νικό σφά μα, προσφέροντας μία εκτίμηση του πόσο κοντά ρίσκονται οι προ έψεις στα πρα ματικά ενδιαφέροντα ή α μο ο ήσεις. Η συσ έτιση παρέ ει ένα παρόμοιο μέτρο, α ά εστιάζει στις σ ετικές προ έψεις, παρά στις από υτες τιμές πρό εψης. Σε κά ε περίπτ ση, αυτές οι μετρικές εφαρμόζονται σε μέρος τ ν δεδομέν ν (παρακρατημένα από το μη ανισμό προτάσε ν) προκειμένου να εκτιμη εί η ακρί εια. Υπάρ ει ένα σημαντικό μειονέκτημα όπ ς τ ν παραπάν μετρικών που πρέπει να αναφέρουμε. Μπορεί να κάνουν κα ή δου ειά στο να εκτιμούν τα συστήματα προτάσε ν ς προσε ίσεις ανάκτησης ε ιπών δεδομέν ν, δεν κάνουν και τόσο κα ή δου ειά όμ ς στο να αξιο ο ούν αν τα συστήματα προτάσε ν προτείνουν αντικείμενα με αξία και προη ούμενος ά ν στα στον ρήστη (κάτι που είναι και ο ασικός στό ος ά στε τ ν συστημάτ ν προτάσε ν). Σύντομα η ο ική τ ν συστημάτ ν προτάσε ν μετατοπίστηκε στον τομέα της εμπειρίας ρήστη, μία δύσκο η ενικά πρόκ ηση. Η μέτρηση της εμπειρίας ρήστη α αποτε ούσε με έτη διαφορετικού είδους. Το παραπάν όμ ς απαιτεί ρήστες μακράς διαρκείας, οι οποίοι α είναι πρό υμοι να αξιο ο ήσουν το σύστημα - ο μόνος αξιόπιστος τρόπος δη αδή μέτρησης συμπεριφορών σε πρα ματική ρήση. Η έρευνα προς αυτή την κατεύ υνση διακρίνεται σε τρεις κατη ορίες: ανάπτυξη συστημάτ ν αποκ ειστικά ια πειραματική ρήση. Παραδεί ματα σ ετικών με ετών αποτε ούν το [48], το TechLens το οποίο αξιοποιή ηκε από πο ές έρευνες ([111],[65], κ.α.) συνερ ασία με ειριστές live συστημάτ ν ια την εκτέ εση πειραμάτ ν πάν σε συστήματα προτάσε ν, όπ ς π.. με το BookCrossing.com στο [233] και την Wikipedia στο [55]. ανάπτυξη και υποστήριξη ερευνητικών συστημάτ ν και κοινότητες ρηστών. Χαρακτηριστικός αντιπρόσ πος αποτε εί το ερευνητικό project GroupLens [181] Τα παραπάν δεν αποτε ούν παρά μια σύνοψη της ιστορίας τ ν συστημάτ ν προτάσε ν. Για περισσότερες π ηροφορίες σ ετικά με το έμα, παραπέμπουμε τον ανα νώστη στα [120] και [64], πη ές εξαιρετικά ρήσιμες και επίκαιρες. 3.5 Προεπεξερ ασία κειμένου Το να κρατήσουμε μία αναπαράσταση τ ν κειμέν ν η οποία περι αμ άνει κά ε keyoword (ή n-gram), είναι κάτι το απα ορευτικό ια ένα πρα ματικό σύστημα που αξιοποιεί την κειμενική π ηροφορία. Ο ό ος είναι απ ός και έ ει να κάνει με την κ ιμάκ ση του ρόνου και ώρου υπο ο ισμού σε αυτή την περίπτ ση. Αντι έτ ς, είναι απαραίτητη μία διαδικασία προεπεξερ ασίας κειμένου η οποία α κατα ή ει στον εντοπισμό τ ν σημαντικών οντοτήτ ν αυτού, είτε αυτά είναι keywords, είτε n-grams, είτε κάποια ά η (συνή ς στατιστική) π ηροφορία. 72

88 Κεφάλαιο Προεπεξεργασία κειμένου Υπάρ ει μία π η ώρα προσε ίσε ν που έ ουν προτα εί στη ι ιο ραφία σε ότι έ ει να κάνει με την προεπεξερ ασία κειμένου. Οι πιο ν στές τε νικές είναι τα Hidden Markov Models [53], η Naive Bayes [160] και τα Support Vector Machines [115]. Πέρα από τις παραπάν τε νικές μοντε οποίησης τ ν δεδομέν ν, μία συ νά ρησιμοποιούμενη τε νική, και δει αυτή που αξιοποιούμε και στα π αίσια της διδακτορικής διατρι ής, είναι η tf-idf (term frequency - inverse document frequency) [109]. Η μετρική αυτή είναι μία στατιστική μετρική η οποία στο εύει να αναπαραστήσει πόσο σημαντικό είναι ένα keyword σε μία συ ο ή. Αυξάνει δε ανα ο ικά σε σ έση με το π ή- ος που εμφανίζεται το keyword στο κείμενο σε σύ κριση με την συ νότητα εμφάνισής του στη συνο ική άση δεδομέν ν. Η ο ική πίσ από αυτή την αντιμετώπιση είναι σ ετικά απ ή: ενδιαφερόμαστε ια κειμενικές μονάδες (π.. keywords) τα οποία είναι συ νά στο κείμενο α ά όμ ς δεν είναι το ίδιο συ νά σε με ά ο μέρος τ ν κειμέν ν της συ ο ής. Ά ες τε νικές, οι οποίες επίσης προτα εί στη ι ιο ραφία είναι το κέρδος π ηροφορίας [224], odds ratio [146], κ. π Εξα ή έξε ν κ ειδιών Η αυτοματοποιημένη εξα ή έξε ν κ ειδιών αποσκοπεί στον εντοπισμό ενός μικρού συνό ου έξε ν, φράσε ν-κ ειδιών ή πιο συ κεκριμένα, keywords από ένα κείμενο, τα οποία α μπορούν να περι ράψουν το νόημα του κειμένου [97]. Θα πρέπει να ίνεται με συστηματικό τρόπο, είτε με ε ά ιστη ή κα ό ου αν ρώπινη παρεμ ο ή, ανά ο α το μοντέ ο. Ο σκοπός της εξα - ής έξε ν κ ειδιών είναι η αναπαράσταση του κειμένου κατά τρόπο σύντομο, συ κεκριμένο και αποτε εσματικό με την μικρότερη δυνατή απώ εια νοηματικής π ηροφορίας. Τα μοντέ α προεπεξερ ασίας κειμένου που αναφέρ ηκαν στην προη ούμενη ενότητα έ ουν στον πυρήνα τους την διερ ασία εξα ής έξε ν κ ειδιών του κειμένου Εξα ή n-grams Ένα n-gram αποτε εί την κειμενική ακο ου ία μήκους n που ρίσκεται σε ένα κείμενο. Στην ερ ασία μας ασ ο ούμαστε με τα n-grams έξε ν (word n-grams) τα οποία μπορούν να ιδ ούν υπό την ανα ο ία τοπο έτησης ενός μικρού μετα α όμενου παρα ύρου πάν από μία πρόταση του κειμένου, στο οποίο μόνο n έξεις είναι ορατές κά ε στι μή. Σε κά ε έση του παρα ύρου, η ακο ου ία έξε ν μέσα του κατα ράφεται. Σε ορισμένες περιπτώσεις, το παρά υρο μπορεί να μετακινείται περισσότερο από μία έξη αφού κά ε n-gram έ ει κατα ραφεί. Η απ ούστερη μορφή n-gram είναι το unigram, όπου n = 1, η οποία ανά εται στην BOW αναπαράσταση τ ν keywords του κειμένου. Τυπικά το n είναι ένας στα ερός αρι μός, υψη ά εξαρτώμενος από το συ κεκριμένο σύνο ο δεδομέν ν (π.. τη ώσσα, τον τομέα, κ. π.) κα ώς και τα ερ τήματα προς αυτό. Κα ένα από τα n-grams είναι ένα σύνο ο συντετα μέν ν που αναπαριστά το κείμενο που με ετάται, και η συ νότητα εμφάνισης του n-gram μπορεί να είναι το άρος του n-gram. Μπορούμε επομέν ς να ρησιμοποιήσουμε αυτή την αναπαράσταση σε εφαρμο ές όπ ς η συμπίεση κειμένου, κα ώς και π ή ος ά ν εφαρμο ών στον τομέα του IR συμπερι αμ ανομένης και της συσταδοποίησης αντικειμέν ν όπ ς στην περίπτ ση της διδακτορικής διατρι ής. Η ρήση της πι ανότητας κατανομής τ ν n-grams και τ ν n-grams μοντέ ν στο NLP είναι 73

89 3.5. Προεπεξεργασία κειμένου Κεφάλαιο 3 μία σ ετικά απ ή ιδέα, η οποία όμ ς έ ει ρει τεράστια απή ηση. Για παράδει μα μοντέ α n-grams σε επίπεδο αρακτήρ ν κειμένου μπορούν να εφαρμοστούν σε κά ε ώσσα, ή ακόμη και σε μη σσικές ακο ου ίες, όπ ς ακο ου ίες DNA και μουσικής. Έ ουν επίσης ρησιμοποιη εί στην συμπίεση κειμένου, π.. το PPM μοντέ ο [28], και έ ουν επίσης αποδει εί αποτε εσματικά σε προ ήματα εξόρυξης δεδομέν ν [218]. Στον τομέα της κατη οριοποίησης κειμένου, ανεξαρτήτου ώσσας, n-grams μοντέ α σε επίπεδο έξε ν έ ουν ρησιμοποιη εί ια την Α ική και Γερμανική ώσσα με κα ά αποτε έσματα [16]. Η ανά υση τ ν n-grams έ ει επίσης αποδει εί με ά ης σημασίας ια πο ές περιο ές της φυσικής επεξερ ασίας ώσσας και εξόρυξης κειμένου, όπ ς το διαπέρασμα (parsing) κειμένου και IR εφαρμο ές. Ορισμένα παραδεί ματα συμπερι αμ άνουν: αναζήτηση και κατη οριοποίηση παρόμοι ν κειμέν ν, όπ ς στο [152], όπου οι συ ραφείς παρουσιάζουν μία προσέ ιση n-grams αρακτήρ ν ια την περίπτ ση της κατη οριοποίησης κειμέν ν εντοπισμός επανα ρησιμοποιημένου, διπ ότυπου ή κειμένου ο οκ οπής (plagiarized text) [24] εντοπισμός επι α ούς (malicious) κώδικα [3] π ή ος σσο ο ικών διαδικασιών, όπ ς ανα νώριση ώσσας [138] Η διαίσ ηση πίσ από τις προαναφερ είσες προσε ίσεις είναι κοινή: οι φράσεις, ς σύνο ο, μά ον κου α άνε περισσότερη π ηροφορία σε σ έση με το ά ροισμα τ ν αυτόνομ ν συστατικών τους. Έτσι, η εξα ή τους, μπορεί να οδη ήσει σε αποτε εσματικότερη κειμενική αναπαράσταση άρα και αποτε έσματα. Ένα ακόμη έμα που έ ει να κάνει με την ανά υση τ ν n-grams και το οποίο α πρέπει να αναφερ εί, είναι ότι τα εντε ώς σπάνια εμφανιζόμενα n-grams είναι κατά κανόνα μη ενδιαφέροντα και έτσι ρειάζεται μόνο να μετράμε τα n-grams που εμφανίζονται στο σύνο ο δεδομέν ν μας με συ νότητα από κάποιο όριο και πάν. Δεν α πρέπει η παραπάν κατη ορία όμ ς να συ έεται με τα μη συ νά n-grams, τα οποία και αποτε ούν πι ανότητα σημαντικά (αντίστοι η ζύ ιση tf-idf). Τέ ος, ο κα ορισμός της τιμής του n, δη αδή του με έ ους του μήκους παρα ύρου που ρησιμοποιείται, όταν αναφερόμαστε σε n-grams έξε ν, είναι μια περιο ή πειραματισμού ια την συ κεκριμένη περιο ή νώσης τ ν κειμέν ν. Για παράδει μα, στο τομέα του εντοπισμού κειμένου ο οκ οπής, οι συ ραφείς του [24] εξη ούν ότι αμη ές τιμές ια το n φαίνεται να οδη ούν στα κα ύτερα αποτε έσματα ια συ κεκριμένες τιμές ακρί ειας-ανάκ ησης. Τιμές πάν από 4, μά ον έ ουν αρνητική επίπτ ση στην αποτε εσματικότητα της προσέ ισης. Παρόμοιο αποτέ- εσμα δίνεται και στο [73], όπου οι συ ραφείς κατα ή ουν στο συμπέρασμα π ς οι ακο ου ίες έξε ν με έ ους 2 ή 3 είναι πο ύ πιο ρήσιμες σε σ έση με με α ύτερες ακο ου ίες οι οποίες και μειώνουν την απόδοση της κατη οριοποίησης. Όσον αφορά τον τομέα της συσταδοποίησης, την επίδραση στον οποίο η ρήση τ ν n-grams έξε ν με ετάται στην διδακτορική διατρι ή, δεν ρήκαμε κάποια σ ετική έρευνα στην ι ιο ραφία. 74

90 Κεφάλαιο Ταξινόμηση κειμένων 3.6 Ταξινόμηση κειμέν ν Δεδομένου ενός συνό ου πινάκ ν κειμέν ν {d 1, d 2,..., d n } και τ ν συσ ετιζόμεν ν με αυτά ετικετών c(d i ) {c 1, c 2,..., c l }, η διαδικασία της ταξινόμησης αφορά στον κα ορισμό της σ στής ετικέτας του νέου κειμένου d. Η ταξινόμηση κειμέν ν (text classification) έ ει με ετη εί σε με ά ο α μό, ιδιαίτερα ύστερα από την εμφάνιση του διαδικτύου. Οι περισσότεροι α όρι μοι ασίζονται στο μοντέ ο συνό ου έξε ν του κειμένου [189]. Ένας απ ός και συνάμα αποτε εσματικός α - όρι μος είναι αυτός του Naive Bayes [144]. Για το πρό ημα της ταξινόμησης κειμέν ν, διάφορες παρα α ές του Naive Bayes έ ουν ρησιμοποιη εί α ά έ ει ρε εί [139] ότι η παρα α ή που ασίζεται στο πο υ νυμικό μοντέ ο οδη εί σε κα ύτερα αποτε έσματα. Η μέ οδος τ ν Support Vector Machine (SVM) έ ει επίσης ρησιμοποιη εί επίσης με κα ά αποτε έσματα [105][43]. Για ιεραρ ικά δεδομένα κειμέν ν, όπ ς οι ιεραρ ίες εμάτ ν του Yahoo! [223] και το Open Directory Project [164], έ ει με ετη εί στα [119][45][61]. Για να αποφευ ούν οι πο ές διαστάσεις στην αναπαράσταση τ ν κειμέν ν, πο ές μέ οδοι επι ο ής αρακτηριστικών έ ουν προτα εί [224][119][45]. Επίσης συ νά επιζητείται η ιδιότητα της ισ υρής ταξινόμησης όπου η κά ε έξη του κειμένου μπορεί να αντιπροσ πευ εί από τη μοναδική ομάδα που ανήκει. Τέτοια ιδιότητα αξιοποιείται στα [139][198]. Η επι ο ή του με ίστου π ή ους τ ν έξε ν που α απαρτίζουν ένα cluster είναι επίσης κάτι σημαντικό [216][185]. 3.7 Συσταδοποίηση κειμέν ν Η συσταδοποίηση δεδομέν ν ενικά έ ει με ετη εί σε ά ος στην υπάρ ουσα ι ιο ραφία τα τε ευταία 20 ρόνια. Η εξερεύνηση αυτής τις ι ιο ραφίας περιπ έκεται από το ε ονός ότι υπάρ ουν πο ά πεδία νώσης πάν στα οποία η συσταδοποίηση μπορεί να εφαρμοστεί. Ειδικά ια την περίπτ ση της συσταδοποίησης κειμέν ν, μία τεράστια ποικι ία τε νικών έ ει προτα εί. Σε αυτή στην ενότητα δεν α προσπα ήσουμε να παρουσιάσουμε διεξοδικά ό ους τους δια έσιμους α ορί μους, αντί ετα α ασ ο η ούμε περισσότερο με τις ενικότερες κατη ορίες αυτών τ ν α ορί μ ν κα ώς και τους κυριότερους αντιπροσώπους αυτών. Παρότι έ ουμε προσπα ήσει να επι έξουμε προσεκτικά τους κα ύτερους αντιπροσώπους κά ε ομάδας, υπάρ ουν αναμφισ ήτητα α όρι μοι οι οποίοι δεν αναφέρονται κα ώς και πι ανά περισσότερες κατη ορίες α ορί μ ν. Ένας ασικός στό ος της συσταδοποίησης κειμέν ν είναι η ε τί ση τ ν αποτε εσμάτ ν τ ν συστημάτ ν ανάκτησης π ηροφορίας σε σ έση με τις μετρικές αυτών. Αυτό στη συνέ εια οδη εί σε εξυπηρέτηση κα ύτερ ν αποτε εσμάτ ν και φι τραρισμένης π ηροφορίας προς τους ρήστες διευκο ύνοντας έτσι την διαδικασία ήψης αποφάσε ν. Οι α όρι μοι συσταδοποίησης έ ουν αξιο ο η εί κατά καιρούς στην ι ιο ραφία με πο - ούς τρόπους. Δυστυ ώς όμ ς δεν υπάρ ει ένας de-facto προ-συμφ νημένος τρόπος ια αυτή τη διαδικασία. Επίσης, η επι ο ή τ ν με όδ ν αξιο ό ησης συ νά εξαρτάται από το πεδίο νώσης πάν στο οποίο η έρευνα εφαρμόζεται. Για παράδει μα στο πεδίο του AI, μπορεί να προτιμάται η αμοι αία π ηροφορία, ενώ στο πεδίο του IR προτιμάται η μετρική του F-measure. Η συσταδοποίηση έ ει επίσης αξιοποιη εί και ια το πεδίο της μη ανικής εκμά ησης (ML) 75

91 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 [163] όπ ς ια εξόρυξη ρονοσειρών (time series clustering) [187] όποιο αξιοποιούνται συ νές ίστες αντικειμέν ν (κειμέν ν) προκειμένου να εντοπισ ούν κανόνες συσ έτισης σε με ά ες transactional databases. Στα παρακάτ α επι ειρήσουμε μια ενική κατη οριοποίηση τ ν τε νικών συσταδοποίησης της ι ιο ραφίας επιμένοντας ί ο παραπάν στις τε νικές που έ ουν ιδιαίτερο ενδιαφέρον ια την περίπτ ση κειμενικής π ηροφορίας (όπ ς τα άρ ρα νέ ν) Α όρι μοι συσταδοποίησης Παραδοσιακά, οι ποικί οι α όρι μοι συσταδοποίησης κατατάσσονται σε δύο ενικές κατη ορίες: ιεραρ ικοί (agglomerative hierarchical) και μερισματικοί (partitional). Οι τυπικοί ιεραρ ικοί α όρι μοι συσταδοποίησης [86] παρά ουν ένα σύνο ο από διαμερίσματα πάν στα δεδομένα, τα οποία μπορούν να ποικί ουν από μία συστάδα η οποία περιέ ει ό α τα αντικείμενα, μέ ρι και n συστάδες κα εμία από τις οποίες περιέ ει ένα αντικείμενο, και τα οποία μπορούν να αναπαραστα ούν ραφικά ς ένα διαιρετικό (από την ρίζα προς τα φύ α) ή συνδυαστικό (από τα φύ α προς τη ρίζα) δέντρο. Από την ά η μεριά, οι μερισματικοί α όρι μοι συσταδοποίησης τυπικά κα ορίζουν ό ες τις συστάδες μονομιάς, α ά μπορούν να ρησιμοποιη ούν και ς διαμερισματικοί α όρι μοι στην περίπτ ση της ιεραρ ικής συσταδοποίησης (σε συνδυασμό τ ν δύο με οδο ο ιών) Ιεραρ ικοί α όρι μοι Η ιεραρ ική συσταδοποίηση, συ νά αναφερόμενη και ς ανά υση συστάδ ν ή Hierarchical Clustering Analysis (HCA) είναι με οδο ο ία η οποία αναζητεί την κατασκευή μίας ιεραρ ίας συστάδ ν δεδομέν ν τ ν δεδομέν ν προς συσταδοποίηση. Οι στρατη ικές ια ιεραρ ική συσταδοποίηση ενικά ταξινομούνται σε δύο κατη ορίες: Συνδυαστικές (Agglomerative): πρόκειται ια μία από κάτ προς τα πάν προσέ ιση όπου το κά ε αντικείμενο ξεκινάει ς μία συστάδα μόνο του και στη συνέ εια ζεύ η από συστάδες συνενώνονται συνε ώς όσο προ ράμε προς τα πάν στην ιεραρ ία. Οι agglomerative ιεραρ ικοί α όρι μοι επομέν ς ξεκινούν ε ρώντας κά ε αντικείμενο ς μία συστάδα από μόνο του και συνδυάζοντας συστάδες μαζί παρά ουν τους κόμ ους του δέντρου οι οποίοι μοιράζονται ορισμένη ομοιότητα. Δια ριστικές (Divisive): πρόκειται ια μία από πάν προς τα κάτ προσέ ιση όπου ό α τα αντικείμενα ξεκινούν ς μία συστάδα και στη συνέ εια οι συστάδες δια ρίζονται αναδρομικά κα ώς κατε αίνουμε την ιεραρ ία. Οι divisive ιεραρ ικές μέ οδοι παρά ουν επομέν ς μία εμφ ευμένη ακο ου ία από διαμερίσεις τ ν αντικειμέν ν με μία, ό α συμπερι αμ ανόμενη συστάδα στην κορυφή και μοναδιαίες συστάδες (singleton) με ατομικά αντικείμενα στη άση [199] Με τις παραπάν έννοιες, οι ιεραρ ικές τε νικές απαιτούν έναν ορισμό ομοιότητας μεταξύ τ ν συστάδ ν, ή α ιώς μία μετρική απόστασης, προκειμένου σε διαδο ικά ήματα να μπορέσουν να 76

92 Κεφάλαιο Συσταδοποίηση κειμένων δια ρίσουν ή να ενώσουν τις συστάδες. Είναι σύνη ες αυτή η μετρική να είναι ένας πίνακας ομοιοτήτ ν (αποστάσε ν), το στοι είο i, j του οποίου εκφράζει την απόσταση μεταξύ της i και j συστάδας. Αυτός ο πίνακας ανανεώνεται σε κά ε ήμα, όπου μετέπειτα κόμ οι δημιουρ ούνται με την έν ση τους σε ζεύ η ( ια agglomerative) ή δια ρισμό ( ια divisive) έ ς ότου η διαδικασία ο οκ ηρ εί. Το αποτέ εσμα τ ν παραπάν α ορί μ ν είναι μία δεντρική δομή, ή α ιώς δενδρό ραμμα (dendogram), το οποίο αποτυπώνει την διαδικασία συνέν σης (ή δια ρισμού) τ ν συστάδ ν κατά την διαδικασία της ιεραρ ικής συσταδοποίησης. Οι ενδιάμεσες συστάδες που προκύπτουν στην την πορεία, μπορούν να συ ε ούν κό οντας το δέντρο σε επι υμητό επίπεδο ακρί ειας. Ένα τυπικό παράδει μα δενδρο ράμματος φαίνεται στο σ ήμα 4 με τις τομές να μπορούν να ίνουν σε οποιοδήποτε ά ος της ιεραρ ίας κρατώντας τις επι υμητές συστάδες. Σ ήμα 4: Τυπικό δενδρό ραμμα ιεραρ ικής συσταδοποίησης Τυπικές ιεραρ ικές μέ οδοι συσταδοποίησης Υπάρ ουν πο ές διαφορετικές μέ οδοι ιεραρ ικής συσταδοποίησης τις οποίες και αξιο ο ούμε στην διδακτορική διατρι ή. Η διαφορά τους έ κειται στο π ς ορίζεται η απόσταση μεταξύ τ ν συστάδ ν σε σ έση με τα μέ η αυτών (άρ ρα νέ ν). Οι μέ οδοι αυτοί και ο τρόπος ορισμού της απόστασης είναι οι εξής: pairwise single linkage, όπου η κοντινότερη απόσταση μεταξύ τ ν όρ ν δύο συστάδ ν αμ- άνεται υπόψιν ς η δια-συσταδική απόσταση (ομοιότητα) 77

93 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 pairwise maximum linkage, όπου η μακρινότερη απόσταση μεταξύ τ ν όρ ν δύο συστάδ ν αμ άνεται υπόψιν ς η δια-συσταδική απόσταση (ομοιότητα) pairwise average linkage, όπου η μέσος όρος ό ν τ ν αποστάσε ν μεταξύ τ ν όρ ν δύο συστάδ ν αμ άνεται υπόψιν ς η δια-συσταδική απόσταση (ομοιότητα) centroid linkage, όπου κά ε συστάδα αναπαρίσταται από το κέντρο της, το οποίο και υπο ο- ίζεται σε κά ε ήμα του α ορί μου. Η δια-συσταδική απόσταση (ομοιότητα) σε αυτή την περίπτ ση είναι η απόσταση μεταξύ τ ν κέντρ ν τ ν συστάδ ν Κά ε μία από τις προαναφερ είσες με οδο ο ίες ιεραρ ικής συσταδοποίησης αξιο ο ή ηκε στα π αίσια της διδακτορικής διατρι ής και τα αποτε έσματα παρουσιάζονται στο κεφά αιο Πο υπ οκότητα Η προη ούμενη διαδικασία είναι ντετερμινιστική, παρά οντας κά ε φορά το ίδιο δενδρό ραμμα, επομέν ς και το ίδιο αποτέ εσμα συσταδοποίησης, κάτι που δεν ισ ύει ια τους μερισματικούς α ορί μους συσταδοποίησης που περι ράφονται στη συνέ εια. Παρό α αυτά, όπ ς εξη είται από τους Day και Edelsbrunner [58], οι σειριακοί agglomerative μη επικα υπτόμενοι ιεραρ ικοί α όρι μοι συσταδοποίησης (Sequential Agglomerative Hierarchical Non-overlapping (SAHN)) έ ουν μέση πο υπ οκότητα O(n 2 ) και πιο συ νά O(n 3 ) ς προς το μέ ε ος εισόδου (π ή ος αντικειμέν ν) n. Το παραπάν στις περισσότερες περιπτώσεις είναι αποτρεπτικό ια ρήση με πο ά αντικείμενα μιας και ο ρόνος εκτέ εσης κ ιμακώνεται πο ύ ρή ορα ια πρα ματικές εφαρμο ές Μερισματικοί α όρι μοι Στους μερισματικούς α ορί μους συσταδοποίησης ρησιμοποιείται ένα κα ο ικό κριτήριο, η ε τιστοποίηση του οποίου κα οδη εί και την συνο ική διαδικασία, παρά οντας επομέν ς έναν διαμερισμό τ ν δεδομέν ν. Δο έντος του π ή ους τ ν επι υμητών συστάδ ν, έστ k, οι μερισματικοί α όρι μοι ρίσκουν και τις k συστάδες μονομιάς, έτσι ώστε το ά ροισμα τ ν αποστάσε ν ό ν τ ν στοι εί ν από τις συστάδες τους να είναι ε ά ιστο. Επιπ έον, ια ένα αποτέ εσμα συσταδοποίησης να είναι ακρι ές, εκτός από την αμη ή εσ -συσταδική απόσταση, η υψη ή εξ -συσταδική απόσταση είναι επίσης επι υμητή. Προκειμένου επομέν ς ένας α όρι μος συσταδοποίησης να είναι αποτε εσματικός, α πρέπει να ικανοποιούνται όσο το δυνατόν κα ύτερα οι δύο ακό ου ες συν ήκες: μικρή εσ -συσταδική απόσταση: τα μέ η της ίδιας συστάδας να είναι στενά συνδεδεμένα μεταξύ τους με ά η εξ -συσταδική απόσταση: τα μέ η διαφορετικών συστάδ ν να απέ ουν αρκετά μεταξύ τους ώστε οι συστάδες να είναι κα ά διακριτές Μερικοί κ ασικοί μερισματικοί α όρι μοι είναι οι: k-means, k-medians, και k-medoids. Οι α όρι μοι αυτοί ασίζονται στην ο ική του κέντρου συστάδας (cluster center), ένα σημείο 78

94 Κεφάλαιο Συσταδοποίηση κειμένων δη αδή στο ώρο τ ν δεδομέν ν, συ νά μη φυσικά υπαρκτό μέσα στα ίδια τα δεδομένα, το οποίο αντιπροσ πεύει τη συστάδα. Η διαφορά τ ν παραπάν έ κειται στο π ς το κέντρο συστάδας ορίζεται. Στα παρακάτ α περι ράψουμε σύντομα κα εμία από τις πιο συνη ισμένες προσε ίσεις μερισματικών α ορί μ ν, κα ώς και παρα α ές αυτών Οικο ένεια k-means Οι α όρι μοι της οικο ένειας συσταδοποίησης k-means [89] στο εύουν στον διαμερισμών n αντικειμέν ν σε k συστάδες όπου κά ε αντικείμενο ανήκει στην συστάδα με τον κοντινότερο μέσο (κέντρο της συστάδας). Το πρό ημα της συσταδοποίησης είναι υπο ο ιστικά NP-hard [135][215], παρό α αυτά υπάρ ει π η ώρα αποδοτικών ευρετικών παρα α ών που συ νά εφαρμόζονται και οδη ούν σ ετικά ρή ορα σε τοπικό έ τιστο. Οι α όρι μοι της οικο ένειας k-means ρησιμοποιούν τα κέντρα τ ν συστάδ ν ια να μοντε- οποιήσουν τα δεδομένα που ανήκουν σε αυτές. Το κέντρο συστάδας ορίζεται ς το μέσο διάνυσμα δεδομέν ν άσει του μέσου όρου ό ν τ ν στοι εί ν της συστάδας. Στον α όρι μο k-medians, αντί ια τον μέσο όρο, ο διάμεσος υπο ο ίζεται ια κά ε διάσταση του διανύσματος δεδομέν ν. Παρόμοια, στον α όρι μο k-medoids το κέντρο συστάδας ορίζεται ς το αντικείμενο εκείνο το οποίο έ ει το μικρότερο ά ροισμα αποστάσε ν από τα υπό οιπα στοι εία της συστάδας, πρόκειται επομέν ς ια πρα ματικό αντικείμενο στα δεδομένα. Ο k-medoids έ ει το π εονέκτημα της κα ύτερης δια είρισης τ ν ακραί ν τιμών (outliers) στα δεδομένα, ενώ παρά η α δεν εξαρτάται από την σειρά με την οποία τα στοι εία εξετάζονται. Η οικο ένεια τ ν k-means α ορί μ ν [230] συ νά επι ειρεί να ε α ιστοποιήσει μία δεδομένη μετρική ομοιότητας, κατά κανόνα την Ευκ είδεια απόσταση, μεταξύ τ ν στοι εί ν της ίδιας συστάδας. Ένας πιο αυστηρός ορισμός είναι ο παρακάτ : Ορισμός Αν d 1, d 2,..., d n είναι τα n κείμενα και c 1, c 2,..., c k είναι τα k κέντρα συστάδ ν, ο α όρι μος k-means προσπα εί να ε α ιστοποιήσει την κα ο ική συνάρτηση: k n sim(d j, c i ) i=1 j=1 Ένα μέτρο επομέν ς του πόσο κα ά τα κέντρα τ ν συστάδ ν αντιπροσ πεύουν τα αντικείμενα τ ν συστάδ ν είναι υπο ειπόμενο ά ροισμα τετρα ών ν ή α ιώς Residual Sum of Squares (RSoS), η τετρα νική απόσταση του κά ε αντικειμένου (που αναπαρίσταται φυσικά ς πίνακας στο πο υ-διάστατο ώρο τ ν αντικειμέν ν) από το κέντρο του, α ροισμένη ια ό α τα αντικείμενα: RSoS k = x µ(ω k ) 2 (10) x ω k όπου µ ο πίνακας αναπαράστασης του κέντρου της συστάδας ω. Άρα ια ό ες τις k συστάδες 79

95 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 μπορούμε α ροιστικά να υπο ο ίζουμε την κα ο ική συνάρτηση αξιο ό ησης RSoS ς: RSoS = Expectation Maximization k RSoS k (11) n=1 Ο α όρι μος EM [154] αποτε εί μία αποτε εσματική επανα ηπτική διαδικασία ια τον υπο ο- ισμό μίας ύσης μέ ιστης πι ανότητας (Maximum Likelihood (MaxL)) ια το δεδομένο μοντέ ο. Αποτε είται από δύο ήματα. Στο ήμα αναμονής (expectation step, E-step) τα ε ειπή δεδομένα υπο ο ίζονται ασιζόμενοι στα υπάρ οντα δεδομένα (τη συ ο ή τ ν κειμέν ν) κα ώς και την τρέ ουσα εκτίμηση του μοντέ ου ( ια τις συστάδες). Στο ήμα με ιστοποίησης (miximization step, M-step), η συνάρτηση πι ανότητας με ιστοποιείται υπό την υπό εση ότι τα ε ειπή δεδομένα είναι ν στά. Για πιο πο ές π ηροφορίες προτείνουμε το [30]. Μία επανά ηψη του α ορί μου EM αποτε είται: από το ήμα αναμονής στο οποίο η πι ανότητα P υπο ο ίζεται ια κά ε κείμενο δεδομέν ν τ ν προ έψε ν ια τις συστάδες ς: P (θ d) = P (θ)p (d θ) θ Θ P (d θ) (12) P (θ) = d D P (θ d) (13) από το ήμα με ιστοποίησης, το οποίο ανανεώνει τις παραμέτρους του μοντέ ου θ ια με- ιστοποίηση της πι ανότητας δεδομέν ν τ ν πι ανοτήτ ν που υπο ο ίστηκαν στο E-step: d D P (θ d)d µ = d D P (θ d) (14) µ = Σ = d D P (θ d)(d µ)(d µ)t d D P (θ d) (15) Έ ει αποδει εί [140] ότι ο α όρι μος συ κ ίνει σε τοπικό ε ά ιστο με ο αρι μική πι ανότητα με το συνό ο τ ν κειμέν ν D να παρά εται από το μοντέ ο Θ ς συν ήκη τερματισμού. Το σ ήμα 5 δεί νει τέσσερις επανα ήψεις του α ορί μου ΕΜ. Μία οη ητική προσέ ιση ς προς την κατανόηση του α ορί μου είναι ς προς την εκτίμηση κάτ ορίου: σε κά ε επανά ηψη, ένα πιο στενό κατώτερο όριο υπο ο ίζεται και οι εκτιμώμενες συστάδες σκαρφα ώνουν προς την ά ν στη τε ική κατανομή. Όπ ς σε κά ε περίπτ ση μέ ιστης πι ανότητας, το να υπάρ ουν πο ές ε εύ ερες μετα ητές με ε ειπή δεδομένα μπορεί να οδη ήσει σε προ ήματα (π.. overfitting, με ά ος ρόνος εκτέ εσης, κ. π.). Στο [131], αυτό το πρό ημα αντιμετ πίζεται με ρήση SVD στο ώρο τον κειμέν ν. 80

96 Κεφάλαιο Συσταδοποίηση κειμένων Σ ήμα 5: Ο α όρι μος EM σε τέσσερις επανα ήψεις του Στη συνέ εια επι έ ονται ορισμένες διαστάσεις οι οποίες έ ουν τις περισσότερες μοναδικές τιμές ια τον σ ηματισμό ενός μει μένου ώρου πάν στον οποίο διενερ είται η συσταδοποίηση. Ένα πρό ημα του τυπικού EM α όρι μου είναι ότι είναι τετρα νικός ς προς τον αρι μό τ ν συστάδ ν k, η α ιώς O(k 2 n), δεδομένου ότι οι πι ανότητες επανυπο ο ίζονται ια κά ε συστάδα. Για την περίπτ ση της οικο ένειας α ορί μ ν k-means όμ ς, μία πιο περιορισμένη (κομματιασμένη) έκδοση του EM α όρι μου είναι ο model-based k-means. Αυτός ο α όρι μος, μετα αίνει μεταξύ του ήματος επανυπο ο ισμού του μοντέ ου και του ήματος επανανά εσης έ οντας ς αποτέ εσμα ραμμική πο υπ οκότητα. Επίσης, παρά τις σημαντικά ετικές ιδιότητές τους, ο α όρι μος αυτός δεν αποδίδει ειρότερα από τον π ήρη EM α όρι μο [231]. Η σημαντική διαφοροποίηση μεταξύ του κ ασικού EM α ορί μου και της k-means παρα α ής του είναι ότι ο δεύτερος, δεν επανεκπεδεύει το μοντέ ο ασισμένος στην εκ τ ν υστέρ ν πι ανότητα. Τυπικά οιπόν, ό οι οι α όρι μοι της οικο ένειας k-means μοιράζονται τα EM ήματα που δίνονται στον α όρι μο 1 [19]. Ως αποτέ εσμα αυτού παρά εται ένας διαμοιρασμός τ ν αντικειμέ- 81

97 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 ν ν σε ομάδες από τις οποίες η μετρική που έ ουμε να ε α ιστοποιείται μπορεί και υπο ο ίζεται. Α όρι μος 1: Model-based k-means EM α όρι μος (τυπικός k-means α όρι μος) Είσοδος: αντικείμενα προς συσταδοποίηση, k 1 Τυ αία επέ εξε k σημεία στον ώρο που αναπαρίσταται από τα αντικείμενα προς συσταδοποίηση (αυτά τα σημεία είναι τα αρ ικά κέντρα τ ν συστάδ ν) 2 Ανά εσε κά ε αντικείμενο στην ομάδα που έ ει το κοντινότερο κέντρο 3 Όταν ό α τα αντικείμενα έ ουν ανατε εί, επανυπο ό ησε τις έσεις τ ν k κέντρ ν 4 Επανέ α ε τα ήματα 2 και 3 έ ς ότου δεν α άζουν οι ανα έσεις τ ν κέντρ ν Παρότι μπορεί να αποδει εί ότι η παραπάν διαδικασία πάντα τερματίζει, ο α όρι μος EM δεν ρίσκει απαραίτητα και την έ τιστη ανά εση σε συστάδες. Επίσης ο α όρι μος EM συ νά πάσ ει από σύ κ ιση σε τοπικά ε ά ιστα (ή μέ ιστα) δεδομένης της τυ αιότητας της αρ ικής επι ο ής τ ν κέντρ ν τ ν συστάδ ν. Ο υπο ο ισμός επομέν ς μίας εξεζητημένης αρ ικής συν- ήκης μπορεί να επιφέρει σημαντικές ε τιώσεις όπ ς αποδεί ηκε στο [39]. Παραδεί ματος άριν, ο α όρι μος k-means++ [18], αφού επι έξει τυ αία το πρώτο κέντρο συστάδας από τα δεδομένα, στη συνέ εια επι έ ει κά ε σημείο ς αρ ικό κέντρο συστάδας ρησιμοποιώντας μία πι ανότητα η οποία είναι ανά ο η με το τετρά νο της απόστασης μεταξύ κά ε διαδο ικής επι ο ής κέντρου και της προη ούμενης. Τέ ος προ ράει με τα ήματα του κ ασικού k-means ια να κατα ήξει στις συστάδες. Αυτό το ευρετικό προσφέρει μία σημαντική ώ ηση σε σύ κριση με τον τυπικό k-means όσον αφορά στο εύρος σφά ματος κα ώς και στον ρόνο εκτέ εσης. Μία ακόμη προσέ ιση είναι η ρήση πο απ ών εκτε έσε ν του α ορί μου k-means, με διαφορετικές αρ ικές συν ήκες, και τε ικά σύ κριση τ ν αποτε εσμάτ ν ώστε να κρατη εί μόνο το κα ύτερο. Εάν μία συ κεκριμένη ανά εση συστάδ ν εμφανίζεται να επανα αμ άνεται, παρά τις διαφορετικές αρ ικές συν ήκες, αυτό αποτε εί την κα ύτερη ένδειξη ότι η συσταδοποίηση μά ον είναι η έ τιστη. Ο bisecting k-means α όρι μος [126] εισά ει μία ενα ακτική προσέ ιση: αρ ικά ό α τα δεδομένα αντιμετ πίζονται ς μία συστάδα. Μία συστάδα επι έ εται ια διαμερισμό σε δύο σε κά ε ήμα του α ορί μου ρησιμοποιώντας ένα κριτήριο, όπ ς το μέ ε ος της συστάδας, ή η συνο ική ομοιότητα. Ο διαμερισμός της επι ε μένης συστάδας ίνεται με ρήση του κ ασικού k-means και η διαδικασία ο οκ ηρώνεται όταν ο επι υμητός αρι μός συστάδ ν έ ει δημιουρ η εί. Κατά συνέπεια, σε αντί εση με τον τυπικό k-means, ο οποίος δια ρίζει τα συνο ικά δεδομένα σε k συστάδες σε κά ε ήμα επανά ηψης, η bisecting παρα α ή του ρίζει μόνο μία προ-υπάρ ουσα συστάδα σε δύο υπο-συστάδες. Η επι ο ή της συστάδας προς διαμερισμό μπορεί να ασίζεται στο μέ ε ός της, ή στο δίκτυο ειτόν ν του κέντρου της. Ενδιαφέρον αποτε εί ότι ο bisecting k-means αναφέρεται ς κα ύτερος από άποψη απόδοσης σε σ έση με τον τυπικό k-means α ά ακόμα και σε σ έση με ιεραρ ικές προσε ίσεις, ενώ παρά η α κρατάει την πο υπ οκότητα ραμμική Spherical k-means Ο κ ασικός α όρι μος k-means ρησιμοποιεί την Ευκ είδεια απόσταση ια τον κα ορισμό της ομοιότητας μεταξύ τ ν αντικειμέν ν κα ώς και μεταξύ τ ν συστάδ ν και τ ν αντικειμέν ν. 82

98 Κεφάλαιο Συσταδοποίηση κειμένων Όμ ς αυτό το μέτρο απόστασης είναι συ νά αναποτε εσματικό ια την συσταδοποίηση συ ο ών κειμέν ν [200]. Ένα αποτε εσματικό μέτρο ομοιότητας μεταξύ κειμέν ν, και ένα που συ νά ρησιμοποιείται στον τομέα του IR είναι η ομοιότητα συνημιτόνου, η οποία ρησιμοποιεί το συνημίτονο της νίας μεταξύ πινάκ ν. Ο α όρι μος k-means μπορεί να προσαρμοστεί ώστε να ρησιμοποιεί το μέτρο ομοιότητας του συνημιτόνου, κατα ή οντας στον spherical k-means (S-kmeans) α όρι μο, ο οποίος ονομάζεται έτσι διότι δρα πάν σε πίνακες οι οποίοι ρίσκονται πάν στη μοναδιαία σφαίρα [60]. Δεδομένης της μετρικής του, ο (S-kmeans) εκμετα εύεται την αραιότητα τ ν πινάκ ν τ ν κειμέν ν και η εκτέ εσή του μπορεί να παρα η οποιη εί, κάτι που τον κάνει εξαιρετικά αποτε εσματικό [59], [123]. Τις ιδιότητες αυτές ακρι ώς αξιοποιούμε στην διδακτορική διατρι ή σε σ έση με τον προτεινόμενο W-kmeans α όρι μο Πο υπ οκότητα k-means Παρότι το πρό ημα της συσταδοποίησης είναι NP-hard στη ενική περίπτ σή του [9][57][135], η αμη ή υπο ο ιστική πο υπ οκότητα είναι συνη ισμένη ια ό ους από τους προαναφερ έντες μερισματικούς α ορί μους. Ως αποτέ εσμα, αυτοί ταιριάζουν κα ύτερα σε συσταδοποίηση με ά- ου ό κου δεδομέν ν, κάτι που μας ενδιαφέρει ιδιαίτερα και στην περίπτ σή μας (άρ ρα νέ ν). Ειδικά ια τον ενικό α όρι μο 1, η μέση πο υπ οκότητα είναι ουσιαστικά ραμμική, (nk) σε ό ες τις σ ετικές παραμέτρους: επανα ήψεις, π ή ος συστάδ ν κα ώς και π ή ος κειμέν ν [19]. Παρά η α, ια την ειρότερη περίπτ ση ρόνου εκτέ εσης, έ ει υπο ο ιστεί από τους Arthur και Vassilvitskii [17] ς υπερ-πο υ νυμικός και συ κεκριμένα: 2 Ω n Προ ήματα k-means Παρότι ο k-means α όρι μος είναι διαισ ητικά αποτε εσματικός σε αυτό που κάνει, παρουσιάζει ορισμένα μειονεκτήματα. Ένα από αυτά είναι ότι είναι εξαιρετικά ευαίσ ητος στην αρ ικοποίησή του, μιας και η επι ο ή τ ν αρ ικών συστάδ ν παίζει με ά ο ρό ο ς προς το αποτέ εσμα. Όπ ς εξη είται στο [169] και φαίνεται στο σ ήμα 6, δύο διαφορετικές αρ ικοποιήσεις (με αστερίσκο στο σ ήμα) μπορούν να οδη ήσουν σε σημαντικά διαφορετικά αποτε έσματα συσταδοποίησης. Για την αντιμετώπιση του παραπάν προ ήματος, ευρετικές μέ οδοι του k-means έ ουν προτα εί στη ι ιο ραφία [117] [18] οι οποίες επι ειρούν να εντοπίσουν την κατα η ότερη αρ ική ανά εση. Η ευαισ ησία αυτή στην αρ ικοποίηση οφεί εται ουσιαστικά στο μη κυρτό πρό ημα ε τιστοποίησης (non-convex optimization problem) στο οποίο ανά εται ο k-means. Προς αυτή την κατεύ υνση (κυρτότητα) ένα π ή ος προσε ίσε ν συσταδοποίησης έ ουν επίσης προτα εί [125] [162]. Ένα ακόμη πρό ημα του α ορί μου k-means έ ει να κάνει με την εκ τ ν προτέρ ν απαραίτητη νώση του π ή ους τ ν συστάδ ν τ ν δεδομέν ν. Είναι πο ύ συ νό το φαινόμενο τέτοια νώση να μην υπάρ ει ια τα δεδομένα και επομέν ς η επι ο ή είτε να ίνεται ρίς κάποια νώση τ ν δεδομέν ν (τυ αία), είτε με μη αποτε εσματικό τρόπο. Προς αυτή την κατεύ υνση έ ουν εφαρμοστεί μία σειρά από με όδους και ευρετικά στη ι ιο ραφία τα οποία και περι ράφονται στην ενότητα

99 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 Σ ήμα 6: Ευαισ ησία του k-means στις αρ ικές συν ήκες Τέ ος, ένα εξαιρετικά σημαντικό πρό ημα του α ορί μου k-means που α πρέπει να αναφέρουμε είναι η φανερή του αδυναμία να δια ειριστεί τα outliers στα δεδομένα. Μία κατάσταση η οποία μπορεί να επιφέρει σημαντικές α οιώσεις και μει μένη αποδοτικότητα στην ό η διαδικασία Ά ες προσε ίσεις συσταδοποίησης Πέρα από την παραπάν ενική κατη οριοποίηση σε ιεραρ ικούς και διαιρετικούς α ορί μους, αρκετοί ακόμη α όρι μοι έ ουν αναπτυ εί που ασίζονται σε π η ώρα τε νικών [12] μερικές από τις οποίες α περι ραφούν και στη συνέ εια Ασαφής συσταδοποίηση Ό ες οι παραπάν προσε ίσεις προϋπο έτουν ότι τα αντικείμενα προς συσταδοποίηση ανήκουν έκαστο σε μία και μόνο συστάδα. Ενώ αυτό στις περισσότερες περιπτώσεις είναι αρκετό, υπάρ ουν εφαρμο ές στις οποίες το να ανήκουν τα αντικείμενα σε παραπάν τ ν μία συστάδ ν είναι επι υμητό. Η συσταδοποίηση αυτού του είδους αναφέρεται ς ασαφής. Στην ασαφή (fuzzy) συσταδοποίηση [161], σε αντιστοι εία με την ασαφή ο ική, κά ε σημείο έ ει ένα α μό συμμετο ής στις συστάδες. Επομέν ς, τα αντικείμενα που ρίσκονται στις παρυφές τ ν συστάδ ν μπορεί να ανήκουν σε μικρότερο α μό στη συστάδα τους σε σ έση με τα αντικείμενα που ρίσκονται ε ύτερα στο κέντρο της. Κά ε σημείο x οιπόν έ ει ένα σύνο ο από συντε εστές που δίνουν τον α μό με τον οποίο αυτό ανήκει στην k συστάδα: w k (x). Με τον fuzzy c-means α όρι μο, το κέντρο της συστάδας είναι ο μέσος από ό α τα σημεία ζυ ισμένα με τον α μό με τον οποίο αυτά ανήκουν στη συστάδα: c k = x w k(x) m x x w k(x) m. (16) Ο α μός w k (x) είναι σ ετιζόμενος αντίστροφα με την απόσταση του x από το κέντρο της 84

100 Κεφάλαιο Συσταδοποίηση κειμένων συστάδας όπ ς υπο ο ίζεται από το προη ούμενο πέρασμα του α ορί μου. Εξαρτάται επίσης και από την παράμετρο m η οποία ε έ ει πόσο άρος δίνεται στο κοντινότερο κέντρο. Ο fuzzy c-means α όρι μος είναι πο ύ κοντά στον κ ασικό k-means όσον αφορά στα ήματά του: Επέ εξε ένα π ή ος ια τις συστάδες Ανά εσε τυ αία κά ε αντικείμενο συντε εστές ια συμμετο ή στης συστάδες Επανέ α ε έ ς ότου ο α όρι μος έ ει συ κ ίνει: οι συντε εστές ανάμεσα στα δύο τε ευταία περάσματα δεν α άζουν παραπάν από ϵ - το δο έν όριο ευαισ ησίας Υπο ό ισε το κέντρο κά ε συστάδας με άση την συνάρτηση 16 Για κά ε σημείο, υπο ό ισε τους συντε εστές του ια συμμετο ή στις συστάδες με άση την συνάρτηση 16 Ο α όρι μος c-means ε α ιστοποιεί την εσ -συσταδική απόσταση α ά έ ει τα ίδια προ- ήματα όπ ς και ο k-means: το μέ ιστο είναι συ νά τοπικό και τα αποτε έσματα εξαρτώνται σε με ά ο α μό από τις αρ ικές ανα έσεις αρών. Ο α όρι μος c-means έ ει ρησιμοποιη εί ευρύτατα ς ένα σημαντικό ερ α είο ια την επεξερ ασία εικόν ν και εύρεση συστάδ ν σε αυτές.. Μία ακόμη προσέ ιση συσ ετιζόμενη με τον c-means είναι και ο Soft k-means Παρα ικοί Α όρι μοι Α όρι μοι όπ ς ο fuzzy c-means είναι ευαίσ ητοι σε ακραίες τιμές (outliers). Σε ετερο ενείς συ ο ές κειμέν ν, οι ακραίες τιμές είναι ένα αρκετά σύνη ες φαινόμενο. Με το να κάνουμε ορισμένες υπο έσεις όμ ς ια την κατανομή τ ν δεδομέν ν, πιο ισ υρές και μη επιρρεπείς σε σφά ματα στατιστικές μέ οδοι μπορούν να εφαρμοστούν ια την ανί νευση συστάδ ν παρουσία ορύ ου, αμ άνοντας υπόψιν και τις α η επικα υπτόμενες συστάδες. Μέ οδοι διακρίσε ν (discriminative) που ασίζονται σε ζεύ η ομοιοτήτ ν κειμέν ν έ ουν εξ ορισμού O(n 2 ) πο υπ οκότητα. Συ νά κιό ας αυτές οι ομοιότητες μπορούν να προ-υπο ο ιστούν και να απο ηκευ ούν σε πίνακα. Τα παρα ικά (generative) μοντέ α από την ά η π ευρά, δεν απαιτούν κάποιον τέτοιο πίνακα και ρησιμοποιούν μία επανα ηπτική διαδικασία η οποία μετα αίνει μεταξύ τ ν ημάτ ν εκτίμησης μοντέ ου και ανά εσης κειμένου Gaussian Μοντέ α Τα Gaussian μοντέ α αναπαριστούν τα κείμενα ς ένα σύνο ο από πίνακες μέσ ν τιμών (means) και συνδιακύμανσης (covariances). Σε αυτά τα μοντέ α, κά ε συστάδα ρίσκεται στο κέντρο της μέσης τιμής και περι ράφεται από το συσ ετιζόμενο πίνακα. Το πρό ημα συσταδοποίησης ια αυτά τα μοντέ α ανά εται στην εύρεση τ ν παραπάν πινάκ ν οι οποίοι ταιριάζουν κα ύτερα στα κείμενα. 85

101 3.7. Συσταδοποίηση κειμένων Κεφάλαιο Μεί ση διαστατικότητας Στις περισσότερες τ ν περιπτώσε ν, η ανά υση δεδομέν ν μπορεί να ίνει ευκο ότερα και ακρι- έστερα σε ώρο ι ότερ ν διαστάσε ν. Η μεί ση του π ή ους να διαστάσε ν (dimensionality reduction) είναι η διαδικασία ε α ιστοποίησης του αρι μού τ ν ανεξαρτήτ ν μετα ητών ενός προ ήματος (σ.σ. συσταδοποίηση) και μπορεί οντρικά να ριστεί σε επι ο ή αρακτηριστικών και εξα ή αρακτηριστικών. Οι προσε ίσεις επι ο ής αρακτηριστικών προσπα ούν να ρουν ένα υποσύνο ο τ ν αρ ικών μετα ητών ρησιμοποιώντας μία από τις δύο εξής στρατη ικές: φι τράρισμα (κέρδος π ηροφορίας) και αναζήτηση υπο οη ούμενη από την ακρί εια. Η εξα ή αρακτηριστικών μετασ ηματίζει τα δεδομένα από έναν ώρο υψη ού αρι μού διαστάσε ν σε έναν με ι ότερες. Ο μετασ ηματισμός αυτός μπορεί να είναι ραμμικός, όπ ς ια παράδει μα στην περίπτ ση του Principal Component Analysis (PCA), όμ ς υπάρ ουν και πο - ές μη- ραμμικές τε νικές μεί σης του αρι μού τ ν διαστάσε ν. Η ασική ραμμική τε νική μεί σης διαστατικότητας, PCA [108], εφαρμόζει μία ραμμική αντιστοί ηση τ ν δεδομέν ν σε έναν ώρο ι ότερ ν διαστάσε ν, με τέτοιο τρόπο ώστε η διακύμανση (διασπορά) τ ν δεδομέν ν στον νέο ώρο να με ιστοποιείται. Στην πράξη, ο πίνακας συσ ετίσε ν τ ν δεδομέν ν κατασκευάζεται και οι ιδιοτιμές (eigenvalues) του πίνακα υπο ο ίζονται. Οι ιδιοπίνακες (eigenvectors) που αντιστοι ούν στις με α ύτερες ιδιοτιμές, τα ασικά συστατικά δη αδή, μπορούν εν συνε εία να ρησιμοποιη ούν ια να ανακατασκευαστεί ένα με ά ο ποσοστό της διακύμανσης τ ν αρ ικών δεδομέν ν. Επίσης, τα πρώτα ί α ιδιοδιανύσματα μπορούν συ νά να ερμηνευτούν με όρους με ά ης κ ίμακας συμπεριφοράς τους συστήματος. Ο αρ ικός ώρος έ ει μει εί (με απώ εια δεδομέν ν α ά συνή ς κρατώντας την πιο σημαντική διακύμανση) στο ώρο που κα ύπτεται από τα ί α ιδιοδιανύσματα. Η PCA είναι μία στατιστική διαδικασία που ρησιμοποιεί έναν ορ ο ώνιο μετασ ηματισμό ια να μετατρέψει ένα σύνο ο από παρατηρήσεις από πι ανά εξαρτημένες μεταξύ τους μετα ητές, σε ένα σύνο ο από τιμές ραμμικών μη εξαρτημέν ν μετα ητών οι οποίες αποκα ούνται πρ ταρ ικά αρακτηριστικά (principal components). Το π ή ος τ ν principal components είναι μικρότερο ή ίσο του π ή ους τ ν αρ ικών μετα ητών. Αυτός ο μετασ ηματισμός ορίζεται με τέτοιο τρόπο ώστε το πρώτο αρακτηριστικό να έ ει την μέ ιστη δυνατή μετα ητότητα (επομέν ς να ανταποκρίνεται σε όσο περισσότερη μετα ητότητα τ ν δεδομέν ν είναι αυτό εφικτό), και κά ε επόμενο αρακτηριστικό έ ει την επόμενη μέ ιστη δυνατή μετα ητότητα υπό την προϋπό εση ότι είναι ορ ο ώνιο (δη αδή μη συσ ετιζόμενο) με τα προη ούμενα αρακτηριστικά. Τα πρ ταρ ικά αρακτηριστικά είναι ορ ο ώνια διότι είναι τα ιδιοδιανύσματα του πινάκα συνδιακύμανσης, ο οποίος είναι συμμετρικός. Το PCA είναι ευαίσ ητο στην σ ετική κ ιμάκ ση τ ν αρ ικών μετα ητών Συσταδοποίηση δέντρου επι εμάτ ν Η συσταδοποίηση δέντρου επι εμάτ ν (Suffix tree clustering) εξά ει συστάδες ασιζόμενος σε φράσεις που μοιράζονται μεταξύ τους τα κείμενα. Ο α όρι μος είναι ραμμικού ρόνου και 86

102 Κεφάλαιο Συσταδοποίηση κειμένων ασίζεται στον εντοπισμό τ ν φράσε ν εκείν ν που είναι κοινές σε ομάδες κειμέν ν. Μία φράση είναι μία ακο ου ία από έξεις στη σειρά. Ορίζουμε οιπόν μία ασική συστάδα ς το σύνο ο κειμέν ν που μοιράζονται μία κοινή φράση. Το Suffix tree clustering έ ει τρία ο ικά ήματα: 1. κα αρισμός κειμένου 2. εντοπισμός τ ν ασικών συστάδ ν με ρήση δέντρου επι εμάτ ν 3. συνδυασμός ό ν αυτών τ ν ασικών συστάδ ν σε με α ύτερες συστάδες Περισσότερες π ηροφορίες ια το Suffix tree clustering είναι δια έσιμες στα [228] [68] [212] DBSCAN Ο DBSCAN είναι ένας ασιζόμενος στην πυκνότητα α όρι μος ο οποίος ρίσκει ένα π ή ος από συστάδες ξεκινώντας από την εκτιμώμενη κατανομή πυκνότητας τ ν κόμ ν. Ο DBSCAN είναι ένας από τους πιο συνη ισμένους α ορί μους συσταδοποίησης με ά ου ό κου δεδομέν ν. Ο DBSCAN μπορεί να εντοπίσει συστάδες σε με ά ν ρικών διαστάσε ν δεδομένα ε έ οντας την τοπική πυκνότητα τ ν αντικειμέν ν, ρησιμοποιώντας μία μόνο παράμετρο εισόδου. Επίσης, ο ρήστης παίρνει μία πρόταση ια την τιμή της παραμέτρου που α ήταν η πιο ταιριαστή στα δεδομένα. Ως εκ τούτου, απαιτείται ε ά ιστη νώση ια τα ίδια τα δεδομένα. Ο α όρι μος μπορεί επίσης να κα ορίσει ποια π ηροφορία πρέπει να ε ρη εί ς όρυ ος ή outliers. Είναι αρκετά ρή ορος και κ ιμακώνεται σ εδόν ραμμικά με το μέ ε ος τ ν δεδομέν ν εισόδου. Κάνοντας ρήση της κατανομής πυκνότητας τ ν δεδομέν ν, ο DBSCAN μπορεί να κατη οριοποιήσει αυτά σε ριστές συστάδες οι οποίες μά ιστα, όπ ς φαίνεται και στο σ ήμα 7, μπορούν να έ ουν οποιοδήποτε σ ήμα - κάτι που δεν ισ ύει ια τους προη ούμενους α ορί μους που παρουσιάστηκαν στην τρέ ουσα ενότητα. Όμ ς, οι συστάδες που ρίσκονται κοντά μεταξύ τους συνή ς εν τέ ει ανήκουν στην ίδια κ άση δεδομέν ν. Σ ήμα 7: Τυπικές συστάδες του α ορί μου DBSCAN Ο α όρι μος OPTICS μπορεί επίσης να ειδ εί και ς μία ενίκευση του DBSCAN σε πο απ ά εύρη τιμών, που επί της ουσίας αντικα ιστά την παράμετρο ϵ με μία μέ ιστη ακτίνα αναζήτησης. 87

103 3.7. Συσταδοποίηση κειμένων Κεφάλαιο Μετρικές απόστασης (ομοιότητας) Ό ες οι με οδο ο ίες συσταδοποίησης οι οποίες περι ράφηκαν στο παρόν κεφά αιο προϋπο έτουν την ύπαρξη ενός κατά η ου ώρου ομοιότητας (similarity space) και επομέν ς απαιτούν την ρήση μίας μετρικής, ή α ιώς ομοιότητας, μεταξύ δύο σημεί ν δεδομέν ν, δύο συστάδ ν ή ενός σημείου δεδομέν ν και μιας συστάδας. Όταν η μετρική ομοιότητας έ ει κα οριστεί, κα ένας από τους α ορί μους συσταδοποίησης μπορεί να υπο ο ίσει τον πίνακα ομοιότητας (distance matrix) ο οποίος περι αμ άνει ό ες τις αποστάσεις μεταξύ τ ν αντικειμέν ν που συσταδοποιούνται. Έστ οιπόν δύο μετα ητές, σημεία, ή κείμενα a και b. Παρακάτ περι ράφουμε ορισμένες από τις συνη έστερες μετρικές απόστασης που αναφέρονται στη ι ιο ραφία Ευκ είδεια απόσταση Η Ευκ είδεια απόσταση μεταξύ δύο σημεί ν αποτε εί την κανονική απόσταση τους - αυτή που κάποιος ε ρητικά α μετρούσε με ένα άρακα. Η απόσταση αυτή αποτε εί την στανταρ επι ο ή σ εδόν ια ό η την οικο ένεια k-means α ορί μ ν. Ουσιαστικά μά ιστα ο k-means α όρι μος ορίζεται με άσει την ρήση της Ευκ είδειας απόστασης ς μετρικής ομοιότητας. Η Ευκ είδεια απόσταση μεταξύ τ ν a και b ορίζεται άσει του Πυ α ορείου ε ρήματος ς: d(a, b) = 1 n (a i b i ) n 2 (17) όπου a i και b i η αναπαράσταση του κειμένου a και b στην διάσταση i του n-διάστατου ώρου αναπαράστασης τ ν κειμέν ν. Η Ευκ είδεια απόσταση αμ άνει υπόψιν της και το μέ ε ος της εισόδου (π.. κείμενο) και ς εκ τούτου διατηρεί περισσότερη π ηροφορία σ ετικά με αυτή. Επίσης η Ευκ είδεια απόσταση είναι πρα ματική μετρική μιας και ικανοποιεί την τρι νική ανισότητα. i= City-block / απόσταση Manhattan Η απόσταση Manhattan μεταξύ δύο σημεί ν του n-διάστατου ώρου αναπαράστασης τους, είναι το ά ροισμα τ ν μηκών τ ν προ ο ών αυτών πάν στους άξονες συντετα μέν ν. Πιο συ- κεκριμένα: d(a, b) = 1 n n a i b i (18) i=1 Η απόσταση Manhattan είναι επίσης πρα ματική μετρική μιας και ικανοποιεί την τρι νική ανισότητα Απόσταση Pearson Ο συντε εστής συσ έτισης (correlation coefficient) Pearson μεταξύ δύο μετα ητών ορίζεται ς η συνδιακύμανση (covariance) τ ν δύο μετα ητών διαιρεμένη με το ινόμενο της τυπικής τους 88

104 Κεφάλαιο Συσταδοποίηση κειμένων απόκ ισης. Πιο συ κεκριμένα: r(a, b) = 1 n n ( ) ( ai ā bi b ) σ i=1 a σ b (19) όπου ā και b είναι η μέση τιμή του a και b αντίστοι α, ενώ σ a και σ b είναι η τυπική απόκ ιση του a και b. Θα έ αμε ότι ο συντε εστής συσ έτισης του Pearson, ς μετρική, αντιπροσ πεύει πόσο κα ά μία ευ εία ραμμή μπορεί να ταιριάξει στο καρτεσιανό επίπεδο τ ν a και b. Οι από υτες τιμές του συντε εστή συσ έτισης Pearson είναι μικρότερες ή ίσες του 1. Συ κεκριμένα, τιμές ίσες με +1 και -1 αντιστοι ούν σε σημεία δεδομέν ν του πέφτουν ακρι ώς πάν στη ευ εία ραμμή. Επίσης ο συντε εστής συσ έτισης Pearson είναι συμμετρικός ια δύο σημεία: r(a, b) = r(b, a). Μία ασική μα ηματική ιδιότητα του συντε εστή συσ έτισης Pearson είναι ότι είναι αδιάφορος σε ξε ριστές α α ές στην τοπο εσία και κ ίμακα τ ν δύο μετα ητών. Ως εκ τούτου, μπορούμε να μετασ ηματίσουμε το a σε α + βa και το b σε γ + δb, όπου α, β, γ και δ στα ερές με β, δ > 0, ρίς να μετα η εί η τιμή του συντε εστή συσ έτισης. Με άση τα παραπάν, η απόσταση Pearson ορίζεται ς: d(a, b) = 1 r (20) Ομοιότητα συνημιτόνου Πρόκειται ια ίσ ς την πιο ρησιμοποιούμενη μετρική σε συστήματα ανάκτησης π ηροφορίας. Ορίζεται ς: d(a, b) = cos(θ) = a b [0, 1] (21) a b Η ομοιότητα συνημιτόνου μεταξύ δύο σημεί ν αντιστοι εί στην νία που σ ηματίζεται μεταξύ τους στον n-διάστατο ώρο αναπαράστασης. Βασίζεται στο εσ τερικό ινόμενο τ ν διανυσμάτ ν που αποτε ούνται από τις συντετα μένες τ ν a και b. Το συνημίτονο μηδενικής νίας είναι 1 και ια οποιαδήποτε ά η νία είναι μικρότερο του 1. Πρόκειται επομέν ς ια μία μετρική που αποτυπώνει στην διάταξη στον n-διάστατο ώρο και ό ι το μέτρο τ ν παραπάν διανυσμάτ ν Απόσταση Spearman-rank Η απόσταση Spearman-rank είναι μία μη-παραμετρική μετρική η οποία αποδίδει κα ά απέναντι σε ακραίες τιμές δεδομέν ν (outliers). Πη άζει από τον συντε εστής συσ έτισης Pearson μέσ αντικατάστασης κά ε τιμής με την σειρά κατάταξης της αφού οι τιμές έ ουν πρώτα ταξινομη- εί. Λό της απα οιφής τ ν τιμών δεδομέν ν, δεν υπάρ ει π ηροφορία άρους η οποία να έ ει ρό ο στον υπο ο ισμό της απόστασης (σε σ έση με τις προη ούμενες - παραμετρικές μετρικές ομοιότητας). O συντε εστής συσ έτισης Spearman-rank ορίζεται ς ακο ού ς: (a, b) = d 2 i n(n 2 1 ) (22)

105 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 όπου d i = a i b i η απόσταση μεταξύ της σειρά κατάταξης. Η απόσταση Spearman-rank μεταξύ δύο σημεί ν a και b ορίζεται επομέν ς ς: d(a, b) = 1 ρ (23) Απόσταση Kendall s Ο συντε εστής συσ έτιση Kendall s τ (Kendall s tau) είναι παρόμοιος με εκείνον του Spearmanrank, κάνοντας ρήση όμ ς σ ετικών σειρών κατάταξης και ό ι απο ύτ ν. Πιο συ κεκριμένα: Ορισμός έστ (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) η ίστα από τις παρατηρήσεις (δεδομένα) τ ν τυ αί ν μετα ητών a και b, τέτοιες ώστε ό ες οι τιμές x i και y i να είναι μοναδικές. Κά ε ζεύ ος παρατήρησης (x i, y i ) και (x j, y j ) είναι συ κ ίν ν, αν οι σειρές κατάταξης και ια τα δύο στοι εία συμφ νούν, δη αδή: αν x i > x j, τότε και y i > y j, ή αν x i < x j, τότε και y i < y j. Αντίστοι α το ζεύ ος παρατήρησης είναι αποκ ίνον αν x i > x j και y i < y j ή αν x i < x j και y i > y j. Προφανώς αν x i = x j or y i = y j τότε το ζεύ ος δεν είναι ούτε συ κ ίν ν ούτε αποκ ίνον. Με άση τα παραπάν ο συντε εστής συσ έτισης Kendall s τ ορίζεται ς: τ = (π ή ος συ κ ινόντ ν ζευ ών) (π ή ος αποκ ινόντ ν ζευ ών) 1 2 n(n 1) (24) Τέ ος, η απόσταση Kendall s ορίζεται ς d(a, b) = 1 τ (25) Μετρικές αξιο ό ησης συσταδοποίησης Μία συνάρτηση αξιο ό ησης της συσταδοποίησης κειμέν ν αποτε εί ένα ποσοτικό κριτήριο προκειμένου να αποκρι ούμε αν και πόσο αποτε εσματικός είναι ένας α όρι μος συσταδοποίησης. Οι μέ οδοι αξιο ό ησης που έ ουν προτα εί στη ι ιο ραφία α μπορούσαν να ριστούν οντρικά σε τρεις κατη ορίες: Οπτική αναπαράσταση τ ν παρα όμεν ν συστάδ ν, π.. [95]. Ο τρόπος αξιο ό ησης αυτός απ ά παρουσιάζει τα αποτε έσματα της συσταδοποίησης σε ένα δισδιάστατο ώρο, παρέ οντας έτσι ένα οπτικό τρόπο ια την κατανόηση τ ν αποτε εσμάτ ν. Η αξιο ό ηση αυτού του είδους όμ ς δεν είναι συνή ς αρκετή ια την κρίση της απόδοσης τ ν α ορί μ ν. Βασιζόμενοι σε IR κριτήρια αξιο ό ησης. Η συσταδοποίηση, ς ένα κεντρικό IR task, συ- νά μοιράζεται τις ίδιες μετρικές αξιο ό ησης τ ν αποτε εσμάτ ν της όπ ς και τα υπό οιπα IR tasks. Οι μετρικές αυτές οποίες παρουσιάστηκαν ανα υτικά στην ενότητα Για παράδει μα στο [228] ίνεται αξιο ό ηση της συσταδοποίησης με δέντρα επι εμάτ ν ρησιμοποιώντας την μετρική της ακρί ειας. Η ίδια μετρική ρησιμοποιή ηκε και στα [118][114] ια την αξιο ό ηση τ ν δικτύ ν Kohonen ια συσταδοποίηση 90

106 Κεφάλαιο Συσταδοποίηση κειμένων Ακρί εια με άση σύ κρισης της διαφορά μεταξύ τ ν επι υμητών και πρα ματικών αποτε εσμάτ ν συσταδοποίησης. Για παράδει μα [81][228]. Αυτή η μέ οδος αξιο ό ησης απαιτεί τον ορισμό τ ν επι υμητών συστάδ ν ώστε να μπορούμε πρά ματι να αξιο ο ήσουμε ένα μοντέ ο συσταδοποίησης. Είναι οιπόν δυνατή μόνο σε επίπεδα μοντέ α, όπου το π ή ος τ ν συστάδ ν είναι ν στό από πριν (δίνεται σαν παράμετρος), όπ ς ια παράδει μα ο α όρι μος k-means. Μία ακόμα μέ οδος που ανήκει σε αυτή την κατη ορία είναι και η ασιζόμενη στην εντροπία τ ν κειμέν ν εντός και εκτός τ ν συστάδ ν [103] Δείκτης συσταδοποίησης (Clustering Index) Η μετρική αξιο ό ησης Clustering Index [104] ασίζεται στην παραδο ή ότι η κα ύτερη συσταδοποίηση έ ει να κάνει τόσο με την υψη ότερη δυνατή ενδο-συσταδική ομοιότητα, όσο και με τη αμη ότερη δυνατή δια-συσταδική ομοιότητα. Μέσα σε μία συστάδα, τα κείμενα α πρέπει να είναι όσο πιο όμοια ίνεται, ενώ αντί ετα μεταξύ τ ν συστάδ ν, τα κείμενα α πρέπει να είναι όσο πιο διαφορετικά ίνεται. Η μετρική Clustering Index επομέν ς ορίζεται ς ο ό ος της εσ -συσταδικής ομοιότητας, σ, ς προς το άρ ροισμα της εσ -συσταδικής και δια-συσταδικής ομοιότητας, δ. Επομέν ς: CI = σ2 σ + δ Γενικά η τιμή του Clustering Index κανονικοποιείται μεταξύ 0 και 1. Τιμή 1 αντιστοι εί στην από υτα επι υμητή συσταδοποίηση, ενώ τιμή 0 το ακρι ώς αντί ετο. Με ιστοποίηση της τιμής CI σημαίνει με ιστοποίηση της ενδο-συσταδικής ομοιότητας με παρά η η ε α ιστοποίηση της δια-συσταδικής ομοιότητας. Ως εκ τούτου ο δείκτης αυτός μπορεί να απεικονίσει την συνο ή τ ν παρα όμεν ν συστάδ ν. (26) Μέσο από υτο σφά μα Το μέσο από υτο σφά μα ή α ιώς Mean Absolute Error (MAE), αποτε εί μία στατιστική μετρική η οποία ρησιμοποιείται ια την μέτρηση του πόσο κοντά ρίσκονται οι προ έψεις ενός συστήματος προτάσε ν σε σ έση με τα πρα ματικά αποτε έσματα. Το MAE ορίζεται ς: r(u, i) r (u, i) MAE = R (27) όπου r(u, i) R η πρα ματική τιμή της μετα ητής i στο u και r (u, i) R οι προ έψεις που κάνει το σύστημα προτάσε ν ια την μετα ητή i Αξιοποίηση Εξ τερικών Βάσε ν Γνώσης WordNet Το WordNet[220] αποτε εί έναν από τους πιο ρησιμοποιημένους και αξιόπιστους ησαυρούς έξε ν της Α ικής ώσσας, έτσι, μοντε οποιεί την εξι ο ική νώση και ρήση τ ν έξε ν 91

107 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 της Α ικής. Περι αμ άνοντας πάν από όρους, ομαδοποιεί ουσιαστικά, ρήματα, επί ετα και επιρρήματα σε ομάδες συν νύμ ν τα οποία και ονομάζονται Synonym sets (Synsets). Τα synsets ορ ανώνονται σε: ερμηνείες (senses) δίνοντας έτσι τα συνώνυμα από κά ε έξη υπώνυμα / υπερώνυμα (δη αδή, είναι ένα... (Is-A)) και μερώνυμα / ο όνυμα (δη αδή, μέρος από... (Part-Of)) συσ ετίσεις, παρέ οντας έτσι μία ιεραρ ική δενδρική δομή ια κά ε όρο Χρήση του WordNet στην συσταδοποίηση Οι εφαρμο ές του WordNet σε μία ποικι ία από IR τε νικές έ ουν με ετη εί εκτενώς στην ι ιο ραφία σε σ έση με την εύρεση σημασιο ο ικής ομοιότητας τ ν ανακτημέν ν αντικειμέν ν [214], ή σε σ έση με τις τε νικές συσταδοποίσης. Για παράδει μα, στο [47] οι συ ραφείς συνδυάζουν την νώση από το WordNet με ασαφείς κανόνες συσ έτισης, ενώ στο [193] επεκτείνεται ο bisecting k-means α όρι μος με ρήση του WordNet, όμ ς, ό του ότι επι έ ονται τα υπερώνυμα / συνώνυμα σε επίπεδα, οι συ ραφείς κατα ή ουν στο συμπέρασμα ότι ο όρυ ος υπο ι άζει τα αποτε έσματα συσταδοποίησης. Στο [76] ερευνάται η ιδέα ρήσης του WordNet σαν ένα ερ α είο αποσαφήνισης ανα έτοντας τις ρίζες τ ν έξε ν κ ειδιών στην εξικο ο ική τους κατη ορία. Η παραπάν προσέ ιση ε τιώνει την αποτε εσματικότητα του εφαρμοζόμενου α ορί μου συσταδοποίησης, όμ ς, φαίνεται να υπερ- ενικοποιεί τις αναφερόμενες έξεις κ ειδιά. Αυτό προκύπτει και από μία παρόμοια έρευνα στο [11], όπου οι συ ραφείς αποδέ ονται τ ν όρ ν σε έννοιες οντο ο ίας μπορεί να είναι εν ένει διφορούμενη και να οδη ήσει σε απώ εια π ηροφορίας στην προσπά εια μεί σης τ ν διαστάσε ν του προ ήματος. Και οι δύο προαναφερ είσες προσε ίσεις δεν αμ άνουν υπόψιν τους τα υπερώνυμα του WordNet ια την πρα ματική ενίσ υση της ίστα τ ν έξε ν κ ειδιών, κάτι που εμείς προτείνουμε στην παρούσα διατρι ή. Σε αντί εση με τις παραπάν προσε ίσεις, πιστεύουμε ότι ένα αξιόπιστο σύστημα ζυ ίσματος ια τα υπερώνυμα του WordNet μπορεί να επιφέρει σημαντικά οφέ η στη διαδικασία συσταδοποίησης, όπ ς π.. στο [179] Π ή ος συστάδ ν Ο αρι μός τ ν συστάδ ν που τε ικά αντιστοι ούν σε ένα σύνο ο δεδομέν ν, είναι ένα πρό- ημα που αφορά σ εδόν ό ους τους διαμερισματικούς α ορί μους - και δει της οικο ένειας k-means. Μία ατυ ής επι ο ή ια τον αρι μό τ ν συστάδ ν συνή ς οδη εί σε μη ρήσιμα και ενικά αν ασμένα αποτε έσματα. Αρκετές προσε ίσεις έ ουν προτα εί στην ι ιο ραφία: Εμπειρικός κανόνας: σε πο ές περιπτώσεις δεδομέν ν, με έ ους n, έ ει παρατηρη εί ότι το πρα ματικό π ή ος συστάδ ν, k, ρίσκεται κοντά στην τιμή: k = n/2 (28) 92

108 Κεφάλαιο Συσταδοποίηση κειμένων Η μέ οδος του α κώνα: η μέ οδος αυτή κοιτάζει στο ποσοστό διακύμανσης που δίνεται ς μια συνάρτηση του π ή ους τ ν συστάδ ν. Κάποιος α επι έξει ένα π ή ος συστάδ ν έτσι ώστε η προσ ήκη ακόμα μιας δεν δίνει κα ύτερη μοντε οποίηση ια τα δεδομένα. Πιο συ κεκριμένα, αν κάποιος σ εδιάσει το ποσοστό της διακύμανσης που δίνεται από τις συστάδες σε σ έση με το π ή ος τ ν συστάδ ν, η πρώτες συστάδες ενικά α προσ έσουν πο ύ π ηροφορία (υψη ή διακύμανση), όμ ς σε κάποιο σημείο το οριακό κέρδος (κ ίση) α αρ ίσει να πέφτει αποτυπ νόμενο ουσιαστικά σαν μια νία στο ράφημα, όπ ς στο σ ήμα 8 ια παράδει μα. Ο αρι μός τ ν συστάδ ν επι έ εται σε αυτό το σημείο. Συ νά όμ ς αυτό το σημείο δεν μπορεί να αποτυπ εί εύκο α [116]. Το ποσοστό της διακύμανσης στην παραπάν περίπτ ση είναι ο ό ος μεταξύ της ενδο-συσταδικής διακύμανσης προς την συνο ική διακύμανση ( ν στός και ς F-test). Μπορούμε επίσης αντί ια την F-test μετρική να ρησιμοποιήσουμε την μετρική RSoS (11) η οποία α μας δώσει τα ίδια αποτε έσματα όσον αφορά το σημείο οριακού κέρδους α ά με ανεστραμμένη τη ραφική παράσταση (φ ίνουσα RSoS όσο αυξάνεται το π ή ος τ ν συστάδ ν). Εκτός από τα παραπάν ο α όρι μος k-means είναι ενικά αποτε εσματικός όταν οι συστάδες είναι σ εδόν σφαιρικές σε σ έση με το μέτρο ομοιότητας που ρησιμοποιείται. Δεν υπάρ ει όμ ς κάποιος ό ος να πιστεύουμε ότι τα κείμενα μιας συ ο ής, υπό την τυπική αναπαράστασή τους ς ζυ ισμένοι πίνακες έξε ν και κάποιας μορφής κανονικοποίησης μετρικής ομοιότητας εσ τερικού ινομένου, α πρέπει να ανήκουν σε σ εδόν σφαιρικές συστάδες. Σ ήμα 8: Εκτιμώμενη αύξηση διακύμανσης με παρά η η αύξηση του π ή ους τ ν συστάδ ν Προσε ίσεις κριτηρίου π ηροφορίας: πρόκειται ια μία κατη ορία με όδ ν οι οποίες ορίζουν κάποιο κριτήριο π ηροφορίας η κά ε μία και αποφασίζουν ια το π ή ος τ ν συστάδ ν άσει αυτού. Τυπικά παραδεί ματα είναι τα: Akaike information criterion (AIC) [188], Bayesian 93

109 3.7. Συσταδοποίηση κειμένων Κεφάλαιο 3 information criterion (BIC) [217] και Deviance information criterion (DIC) [29]. Μέσ ρήσης silhouette: η silhouette κάποι ν μονάδ ν δεδομέν ν είναι ένα μέτρο του πόσο κοντά ταιριάζει αυτή η μονάδα στα δεδομένα της συστάδας κα ώς και πόσο α αρά ταιριάζει στα δεδομένα τ ν ειτονικών συστάδ ν. Μία silhouette κοντά στο 1 υπονοεί ότι η μονάδα δεδομέν ν είναι στην σ στή συστάδα, ενώ μία τιμή κοντά στο -1 εκφράζει ότι η συστάδα του είναι αν ασμένη. Τε νικές ε τιστοποίησης όπ ς οι ενετικοί α όρι μοι είναι ρήσιμοι στο να κα ορίζουν το π ή ος τ ν συστάδ ν το οποίο παρά ει ουσιαστικά την με α ύτερη silhouette [132]. Μέσ διασταυρ μένης επικύρ σης (cross-validation): σε αυτή την διαδικασία, τα δεδομένα ρίζονται σε y μέρη. Κά ε μέρος τί εται στην άκρη με την σειρά ς δεδομένα ε έ ου (test set) και ένα μοντέ ο συσταδοποίησης υπο ο ίζεται ρησιμοποιώντας τα υπό οιπα y 1 δεδομένα εκμά ησης (training set) και η τιμή της συνάρτησης στό ου ( ια παράδει μα το ά ροισμα του τετρα ώνου τ ν αποστάσε ν τ ν κέντρ ν ια τον k-means) υπο ο ίζεται ια τα δεδομένα ε έ ου. Ο μέσος όρ ν αυτών τ ν y τιμών υπο ο ίζεται ια κά ε ενα ακτικό π ή ος συστάδ ν και το π ή ος μου ε α ιστοποιεί το σφά μα στα δεδομένα ε έ ου επι έ εται [69]. Για άσεις κειμέν ν με έ ους πίνακα όρ ν-κειμέν ν D(mxn) όπου m το π ή ος τ ν κειμέν ν και n το π ή ος τ ν όρ ν, το π ή ος τ ν συστάδ ν μπορεί οντρικά να εκτιμη εί ς: k = mn t όπου t ο αρι μός τ ν μη μηδενικών ε ραφών στον πίνακα D. Βασική προυπό εση του παραπάν αποτε εί ότι στον πίνακα D κά ε ραμμή και κά ε στή η α πρέπει να περιέ ει του ά ιστον ένα μη μηδενικό στοι είο [42]. (29) Ονοματοδοσία συστάδ ν Η ονοματοδοσία συστάδ ν, μία διαδικασία που είναι ευρύτερα ν στή ς ετικετοποίηση ή α ιώς cluster labeling, αποτε εί ένα ήμα που τυπικά έπεται της ίδιας της συσταδοποίησης. Συνη έστερα μά ιστα, στις περιπτώσεις που έ ουμε να κάνουμε με συστάδες κειμενικής π ηροφορίας αν ρ πίνου ό ου (π.. κείμενα στην α ική ώσσα). Σκοπός του cluster labeling είναι η αντιστοί ιση νοηματικά κατανοητών έξε ν ή φράσε ν στις συστάδες προκειμένου το περιε όμενο αυτών να εύκο α αντι ηπτό. Ο τε ικός αποδέκτης έ αια είναι ο άν ρ πος, είτε ο τε ικός ρήστης του συστήματος, είτε κάποιος δια ειριστής αυτού, που μαζί με τις συστάδες παίρνει και τις ετικέτες αυτών ια π ηρέστερη κατανόηση του αποτε έσματος. Οι τε νικές του cluster labelling [211], συ νά αξιο ο ούν ετικέτες οι οποίες προέρ ονται από τα ίδια τα δεδομένα, π.. έξεις κ ειδιά που ήδη εξά ονται από αυτά και ανήκουν στις συστάδες προς ονοματοδοσία [209]. Πρόσφατα στο [210], οι συ ραφείς προτείνουν μία αποτε εσματική Fuzzy Frequent Itemset-based προσέ ιση συσταδοποίησης κειμέν ν η οποία συνδυάζει εξόρυξη 94

110 Κεφάλαιο Προσωποποίηση στον Χρήστη ασαφών κανόν ν συσ έτισης με την νώση που εμπεριέ εται στα υπερώνυμα του WordNet ια την δημιουρ ία τ ν ετικετών. Παρό α αυτά οι συ ραφείς τονίζουν ότι η διαδικασία εξόρυξης τ ν ασαφών κανόν ν συσ έτισης κα ώς και η ίδια η συσταδοποίηση είναι δύο ρονο όρα ήματα, κάτι που οδη εί σε με ά ους ρόνους εκτέ εσης τ ν δεδομέν ν (παρότι αυτοί κ ιμακώνονται ραμμικά με την είσοδο). Αντί ετα, στην περίπτ ση ενός συστήματος προτάσε ν άρ ρ ν νέ ν, εστιάζουμε σε μία προσέ ιση η οποία α παρά ει τόσο τις συστάδες όσο και τις ετικέτες αυτών σ ετικά ρή ορα ώστε να μπορεί να ανταπεξέρ εται στο ρυ μό παρα ής τ ν άρ ρ ν από τις πη ές τους. 3.8 Προσ ποποίηση στον Χρήστη Το ζήτημα της προσ ποποίησης του περιε ομένου στον ρήστη, αποτε εί ένα ερευνητικό πεδίο από μόνο του με π η ώρα διαστάσε ν. Στη συνέ εια προσπα ούμε ουσιαστικά να εισα ά ουμε τον ανα νώστη σε διάφορες τε νικές που έ ουν προτα εί ια το πρό ημα όσον αφορά ορισμένες μόνο διαστάσεις του. Η προσ ποποιημένη αναζήτηση είναι μία σημαντική ερευνητική περιο ή η οποία αποσκοπεί στην επί υση της ασάφειας τ ν αποτε εσμάτ ν. Προσ έποντας στην ε τί ση της σ ετικότητας τ ν αποτε εσμάτ ν αναζήτησης, οι μη ανές προσ ποποιημένης αναζήτησης δημιουρ ούν προφί ρήστη ια να κατα ράψουν τις προσ πικές προτιμήσεις τ ν ρηστών, και ς εκ τούτου, να ανα ν ρίσουν τον πρα ματικό σκοπό ενός ερ τήματος. Δεδομένου όμ ς ότι οι ρήστες είναι συ νά διστακτικοί στην άμεση έκφραση τ ν προτιμήσεών τους, κυρί ς ό της επιπ έον δου ειάς που αυτό περι αμ άνει, η πρόσφατη έρευνα έ ει εστιάσει στην αυτοματοποιημένη εκμά- ηση τ ν προτιμήσε ν του ρήστη κάνοντας ρήση τ ν ιστορικών αναζήτησης και π οή ησης. Τα προσ ποποιημένα συστήματα ενικά σ εδιάζονται ώστε να ασίζονται στις προτιμήσεις ρηστών που έ ουν ήδη εντοπιστεί με τον παραπάν τρόπο. Οι περισσότερες προσε ίσεις εφαρμόζουν ένα μοναδικό (και συνή ς με ά ο) προφί ια κά ε ρήστη που συμμετέ ει στην διαδικασία. Στην πρα ματικότητα όμ ς, οι ετικές προτιμήσεις δεν είναι αρκετές ια να αποτυπώσουν π ήρ ς και εις ά ος τα ενδιαφέροντα ενός ρήστη. Οι στρατη ικές δημιουρ ίας προφί ρηστών μπορούν να αντιστοι ιστούν σε δύο ενικές προσε ίσεις: αυτές που ασίζονται στα κείμενα (document-based), και αυτές που ασίζονται στις έννοιες (concept-based). Οι document-based με οδο ο ίες δημιουρ ίας προφί, στο εύουν στην αποτύπ ση της συμπεριφοράς του ρήστη σε ότι έ ει να κάνει με τα clicks και ενικότερα τα μονοπάτια π οή ησης που ακο ου εί. Οι προτιμήσεις σε κείμενα πρώτα εξά ονται από τα click-through δεδομένα και στη συνέ εια ρησιμοποιούνται ια να παρα ούν μοντέ α συμπεριφοράς ρήστη, τα οποία συνή ς αναπαρίστανται ς ένα σύνο ο από ζυ ισμένα αρακτηριστικά. Από την ά η μεριά, οι concept-based με οδο ο ίες δημιουρ ίας προφί, στο εύουν στην αποτύπ ση τ ν εννοιο ο ικών ανα κών τ ν ρηστών. Τα κείμενα στα οποία οι ρήστες έ ουν π οη η εί, κα ώς και τα ιστορικά αναζήτησής τους, αντιστοι ίζονται αυτομάτ ς σε ένα σύνο ο από εματικές κατη ορίες. Τα προφί ρηστών παρά ονται ασιζόμενοι στις προτιμήσεις τ ν ρηστών 95

111 3.9. Το Πρόβλημα του νέου Χρήστη Κεφάλαιο 3 όπ ς αυτές εξά ονται μέσα από τις εματικές κατη ορίες. Στο [106] με ετάται μία μέ οδος η οποία εφαρμόζει εξόρυξη προτιμήσε ν και μη ανική εκμά- ηση προκειμένου να μοντε οποιη εί η συμπεριφορά από clicks και π οή ησης. Η μέ οδος αυτή υπο έτει ότι ένας ρήστης α δια άσει τα αποτε έσματα από την ίστα που επιστρέφονται από την αρ ή προς το τέ ος. Εάν ο ρήστης προσπεράσει ένα κείμενο d i στην έση i, πριν κάνει click σε ένα κείμενο d j στη έση j, υπο έτει ότι μά ον είδε ια ποιο κείμενο πρόκειται και εσκεμμένα αποφάσισε να το αποφύ ει. Κατά συνέπεια μπορούμε να υπο έσουμε ότι ο ρήστης προτιμά το κείμενο d j περισσότερο από το d i (δη αδή r di < r dj ) όπου r είναι η σειρά προτίμησης τ ν κειμέν ν στην ίστα που επιστράφηκε. Στο [214] οι συ ραφείς εστιάζουν στην προσ ποποιημένη παρα ή προτάσε ν από σε ίδες Web οι οποίες προσαρμόζονται ανά ο α με τα πρότυπα πρόσ ασης που κατασκευάζονται μέσ της ανά υσης της π ηροφορίας π οή ησης τ ν ρηστών. Δεί νουν ότι η με οδο ο ία που ενσ ματώνει την συσταδοποίηση ρηστών μέσα στο π αίσιο ενός συστήματος προτάσε ν εντοπίζοντας ενδιαφέροντα μονοπάτια π οή ησης ρηστών, μπορεί να είναι οη ητική. Στο [133] οι συ ραφείς προ έπουν την προτίμηση του ρήστη ια ένα αντικείμενο μέσ της ζύ ισης τ ν συνεισφορών παρόμοι ν ρηστών, που ονομάζονται είτονες, ια αυτό το αντικείμενο. Η ομοιότητα μεταξύ τ ν ρηστών υπο ο ίζεται μέσ σύ κρισης τ ν τρόπ ν αξιο ό ησης που αυτοί ρησιμοποιούν, π.. ένα σύνο ο από α μο ο ήσεις που δό ηκαν ια τα ίδια αντικείμενα, ή μέσ τ ν συνη ειών π οή ησής τους. Σε αντί εση με τις παραπάν προσε ίσεις, στην διδακτορική διατρι ή προτείνουμε μία νέα με οδο ο ία η οποία ενσ ματώνει τον α όρι μο συσταδοποίησης W-kmeans στο π αίσιο της παρα ής προσ ποποιημέν ν προτάσε ν προς τον ρήστη. Περισσότερα σ ετικά με την προσέ - ισή μας στα επόμενα κεφά αια. 3.9 Το Πρό ημα του νέου Χρήστη Ένα ασικό πρό ημα με το CF είναι ότι δεν δου εύει πάντα κα ά ό ε ιπών δεδομέν ν ια τους ρήστες, κάτι που είναι επίσης ν στό και ς πρό ημα νέου ρήστη. Το πρό ημα αυτό προκύπτει από το ε ονός ότι κά ε ρήστης έ ει δει μόνο ένα μικρό μέρος από τα δεδομένα και επομέν ς ακρι είς προ έψεις δεν μπορούν να ίνουν εύκο α, του ά ιστον μέ ρις ότου η κά υψη ρήστη/δεδομέν ν έ ει φτάσει σε κάποιο επίπεδο. Οι προσε ίσεις που περι ράφονται στη ι ιο ραφία ια το πρό ημα νέου ρήστη εστιάζουν κυρί ς στα μετα-δεδομένα και στις ερ τήσεις προς τους ρήστες. Τα μετα-δεδομένα σ ετικά με αντικείμενα μπορούν να ρησιμοποιη ούν ια να παρα ούν προτάσεις από συστήματα προτάσε ν που ασίζονται στο περιε όμενο, όπ ς στο [22], ή σε υ ριδικές προσε ίσεις με συστήματα ασισμένα σε α μο ο ήσεις, π.. [110]. Τα filterbots [167] συνιστούν μία ακόμη προσέ ιση όπου ψευδο- ρήστες και αντικείμενα παρά ονται α ορι μικά σε μία προσπά εια να παρέ ονται αναφορές α μο ο ήσε ν στο σύστημα, έτσι ώστε κανείς ρήστης ή αντικείμενο να μην είναι ρίς α μο ό ηση. Η τε νική αυτή, όπ ς αποτιμάται στο [82], μπορεί να ειτουρ ήσει κα ύτερα όταν 96

112 Κεφάλαιο Το Πρόβλημα του νέου Χρήστη ρησιμοποιείται σε συνδυασμό με τε νικές CF, και πιο συ κεκριμένα, οι CF τε νικές έ ουν την με α ύτερη επίπτ ση στα αποτε έσματα αυτού του συνδυαστικού σεναρίου ρήσης. Ά ες μέ οδοι οι οποίες συνδυάζουν δημο ραφικά δεδομένα δια έσιμα στο σύστημα έ ουν επίσης προτα εί. Το πρό ημα όμ ς αυτών τ ν προσε ίσε ν είναι ότι η συ ο ή τέτοι ν δεδομέν ν συνή ς προσκρούει σε προ ήματα ιδι τικότητας. Τα συστήματα προτάσε ν, εσ τερικά, έ ουν επίσης ρησιμοποιη εί ια να αντιμετ πίσουν το πρό ημα νέου ρήστη. Μερικές προσε ίσεις, όπ ς περι ράφονται στο [159], παρά ουν κατη ορίες ρηστών όπου νέοι ρήστες αντιστοι ίζονται ρή ορα αξιοποιώντας ένα σύνο ο από προκα ορισμένες ερ τήσεις. Αυτές οι προσε ίσεις εκκινούν το σύστημα ρησιμοποιώντας δημο- ραφικά αρακτηριστικά, ή αρακτηριστικά ασισμένα σε μοντέ α. Παρότι σ ετικά περιορισμένα όσον αφορά τον τομέα νώσης, μπορούν και παρά ουν ακρι ή αποτε έσματα Ερ τήσεις προς, και α μο ο ήσεις από τον ρήστη Μία ακόμη μέ οδος αντιμετώπισης του προ ήματος νέου ρήστη είναι η απευ είας ερώτηση τ ν ρηστών ώστε να παρέ ουν α μο ο ήσεις σε αντικείμενα (άρ ρα νέ ν ια την περίπτ σή μας). Η προσέ ιση αυτή είναι σ ετικά απ ή: όταν ένας νέος ρήστης ε ράφεται στο σύστημα, του παρουσιάζονται αντικείμενα προς α μο ό ηση. Τα αντικείμενα αυτά δεν είναι προτάσεις, α ά επι έ ονται έτσι ώστε να συ έ εται όσο τον δυνατόν περισσότερη π ηροφορία ια το προφί τ ν ρηστών. Όσο ο ρήστης δίνει α μο ο ήσεις, το σύστημα αποφασίζει αν α σταματήσει ή α συνε ίσει τη διαδικασία, ε τιώνοντας στην δεύτερη περίπτ ση ό ο και περισσότερο το προφί του ρήστη. Παρό α αυτά, τα με ά α ερ τηματο ό ια έ ουν και το αντίστοι ο κόστος: οι ρήστες ενο ούνται σ ετικά εύκο α και επομέν ς μπορεί να ε κατα είψουν την διαδικασία α μο ό ησης ή ακόμη ειρότερα, την διαδικασία ε ραφής. Ειδικά κιό ας αν οι ερ τήσεις έρ ονται σε αντιπαρά εση με την ιδι τικότητά τους. Όταν οιπόν η παραπάν διαδικασία τε ειώσει, το σύστημα, έ οντας μία ασική νώση ια τις προτιμήσεις του ρήστη, ξεκινάει τις προτάσεις προς αυτόν. Η επι ο ή ή μη τ ν προτάσε ν μπορεί να διαμορφώνει ένα ρό ο ανάδρασης με το σύστημα το οποίο έτσι να ενημερώνει συνε ώς το προφί ρήστη. Η παραπάν διαδικασία ερ τήσε ν και α μο ο ήσε ν εισή ηκε από τους Kohrs and Merialdo [143] οι οποίοι ερεύνησαν τη διάταξη τ ν αντικειμέν ν σε σ έση με την διακύμανση και την εντροπία. Υπάρ ουν δύο εξαιρετικά σημαντικές παράμετροι που κα ορίζουν την πορεία της παραπάν διαδικασίας: ποια αντικείμενα να επι ε ούν ια αξιο ό ηση από το ρήστη και με ποια σειρά αυτά να προ η ούν. Πο ές προσε ίσεις σ ετικά με την διαδικασία επι ο ής αντικειμέν ν έ ουν προτα εί στη ι ιο ραφία. Κά ε μία από αυτές πρέπει να ά ει υπόψιν της συ κεκριμένες παραμέτρους, όπ ς η προσπά εια που απαιτείται από τον ρήστη και η ικανοποίηση που αμ άνει από την διαδικασία αξιο ό ησης. Επίσης, η ακρί εια προτάσε ν, δη αδή το πόσο κα ές είναι οι επι ο ές προς α μο ό ηση. Οι με οδο ο ίες σε σ έση με την διαδικασία ερ τήσε ν και α μο ο ήσε ν προς τον ρήστη ρίζονται σε μη προσ ποποιημένες και προσ ποποιημένες [56]. Οι μη προσ ποποιημένες περι αμ άνουν: 97

113 3.9. Το Πρόβλημα του νέου Χρήστη Κεφάλαιο 3 την τυ αία μέ οδο (random), όπου τα αντικείμενα προς α μο ό ηση επι έ ονται με τυ αίο τρόπο με ομοιόμορφη πι ανότητα στο σύνο ο τ ν αντικειμέν ν. Αν η κατανομή τ ν α μο- ο ήσε ν είναι κανονική, η συ κεκριμένη προσέ ιση έ ει το π εονέκτημα ότι κα ύπτει το σύνο ο τ ν αντικειμέν ν την μέ οδο δημοφι ίας (popularity), όπου τα αντικείμενα διατάσσονται σε σειρά με άση του π ή ους τ ν αξιο ο ήσε ν που τους έ ουν δο εί από ό ους τους ρήστες. Παρότι εύκο η προς τους υπο ο ισμούς, η συ κεκριμένη προσέ ιση προά ει υπέρμετρα τα αντικείμενα τα οποία έ ουν αξιο ο η εί από πο ούς ρήστες και ς εκ τούτου φανερώνουν μικρή π ηροφορία την μέ οδο εντροπίας (και παρα α ές αυτής), οι οποίες ασίζονται στο ε ονός ότι συ κεκριμένα αντικείμενα μπορούν να φανερώσουν περισσότερη π ηροφορία ια τις προτιμήσεις του ρήστη. Γενικά ένα αντικείμενο που έ ει ορισμένες αρνητικές και μερικές ετικές α μο ο ήσεις μπορεί να μας πει περισσότερα ια τον ρήστη σε σ έση με ένα αντικείμενο που αρέσει σε ό ους τις ζυ ισμένες με όδους, οι οποίες αποτε ούν συνδυασμό τ ν με όδ ν δημοφι ίας και εντροπίας με την μορφή: P opularity entropy ή log (P opularity entropy). Μια προσέ ιση αυτού του είδους, κάνοντας ρήση του ε ρήματος του Bayes, υπο έτει σι πη ά ότι η δημοφι- ία και η εντροπία είναι ανεξάρτητες μετα ητές όσον αφορά στην επι ο ή τ ν αντικειμέν ν (κάτι που προφανώς δεν είναι πάντα σ στό) την άπ ηστη μέ οδο, όπου το επόμενο αντικείμενο επι έ εται από εκείνα τα οποία ο ρήστης μπορεί να α μο ο ήσει, έτσι ώστε το σφά μα πρό εψης ια το σύνο ο ε έ ου του να ε α ιστοποιείται. Εμφανώς αυτή η μέ οδος δεν έ ει πρακτική αξία μίας και απαιτεί εκ τ ν προτέρ ν νώση ό ι μόνο ια το τι ένας ρήστης μπορεί να α μο ο ήσει, α ά και ια το π ς α το α μο ο ήσει την άπ ηστη ά ν ρηστών μέ οδο - other people s greedy (και παρα α ές αυτής), όπου τα αντικείμενα προς παρουσίαση στον ρήστη επι έ ονται από τα top-n της επι ε μένης ίστας ά ν ρηστών. Πρόσφατα, μία νέα μη προσ ποποιημένη [79] και μία προσ ποποιημένη [78] με οδο ο ία στοί- ισης τ ν αντικειμέν ν προτά ηκε από τους Golbandi et al. Επίσης στο [172] οι συ ραφείς κάνοντας ρήση μίας με όδου πρό εψης η οποία είναι μία παρα α ή της παρα οντοποίησης πινάκ ν (matrix factorization), έδειξαν ότι πιο ακρι είς προ έψεις μπορούν να ίνουν όταν ο ρήστης έ ει δώσει ε ά ιστες αξιο ο ήσεις, παρά όταν το σύστημα ρησιμοποιεί μετα-δεδομένα ια τα αντικείμενα προκειμένου να κάνει προ έψεις. Οι προσ ποποιημένες με οδο ο ίες από την ά η μεριά, αμ άνουν υπόψιν τις απαντήσεις τις οποίες ο ρήστης έ ει δώσει στα αντικείμενα που ήδη έ ουν παρουσιαστεί. Ορισμένες προσ ποποιημένες με οδο ο ίες είναι οι εξής: 98

114 Κεφάλαιο Το Πρόβλημα του νέου Χρήστη αντικείμενο με αντικείμενο (item by item), όπου αρ ικά τα αντικείμενα παρουσιάζονται με οποιαδήποτε ά η μη προσ ποποιημένη με οδο ο ία έ ς ότου μία α μο ό ηση ίνει από τον ρήστη. Ύστερα από αυτό, οι προτάσεις ια επόμενες α μο ο ήσεις ίνονται ασιζόμενοι σε κάποιο μέτρο ομοιότητας με το τι έ ει ήδη αξιο ο ήσει ο ρήστης Naive Bayes, όπου με την νώση ια το αν ο ρήστης μπορεί να α μο ο ήσει ένα αντικείμενο, μπορούμε να υπο ο ίσουμε την Naive Bayes πι ανότητα να α μο ο ήσει τα υπό οιπα αντικείμενα διαταρασσόμενη άπ ηστη ά ν ρηστών - perturbed other people s greedy, η οποία συνδυάζει την άπ ηστη ά ν ρηστών με την Naive Bayes μέ οδο. Στο [177] παρουσιάζονται και αξιο ο ούνται αρκετές ακόμη προσ ποποιημένες με οδο ο ίες ια την ε τί ση της σειράς με την οποία παρουσιάζονται αντικείμενα στους ρήστες. Μία ακόμη προσέ ιση που έ ει επιτυ ώς ρησιμοποιη εί ια την αντιμετώπιση του προ ήματος νέου ρήστη είναι η παρα οντοποίηση πινάκ ν (matrix factorization) [122]. 99

115

116 ΚΕΦΑΛΑΙΟ 4 ΑΡΧΙΤΕΚΤΟΝΙΚΗ In science, nothing is ever 100% proven. Michio Kaku, American Physicist, 1947 Στο παρόν κεφά αιο παρουσιάζεται η αρ ιτεκτονική του συστήματος προτάσε ν (recommendation system) το οποίο αναπτύ ηκε κατά τη διάρκεια εκπόνησης της διδακτορικής διατρι ής. Απεικονίζεται η ροή π ηροφορίας τ ν διαφόρ ν υποσυστημάτ ν, εξη ώντας π ς αυτά α η επιδρούν μεταξύ τους προκειμένου το τε ικό αποτέ εσμα να είναι προτάσεις ρήσιμ ν άρ ρ ν νέ ν προς τους ρήστες του συστήματος. 101

117

118 4.1 Στό οι του συστήματος Συ νά στις μέρες μας έ ει παρατηρη εί να μι ούμε ια την ποιότητα στην ενημέρ ση που παρέ ει το διαδίκτυο. Ο κεντρικός στό ος του συστήματος που αναπτύ ηκε είναι να παρέ ει ς έξοδο, στο ρήστη ή σε ά α συστήματα, ποιοτική π ηροφορία. Όπ ς έ ει ήδη αναφερ εί στα προη ούμενα κεφά αια, η π ηροφορία του πα κοσμίου ιστού είναι σ εδόν αοτική με αποτέ εσμα οι ρήστες να μην είναι εφικτό να προσε ίσουν π ηροφορία που τους είναι ρήσιμη και επι υμητή. Σκοπός του συστήματός μας είναι να δημιουρ ήσουμε την κατά η η υποδομή ούτ ς ώστε να πρα ματοποιείται φι τράρισμα και να παρά ονται προτάσεις ια τα άρ ρα νέ ν του διαδικτύου. Για να επιτευ εί αυτό, αξιοποιούμε τε νικές και α ορί μους από πο ά πεδία της επιστήμης τ ν υπο ο ιστών και ό ι μόνο. Το σύστημά μας αντ εί και επεξερ άζεται περιε όμενο που εντοπίζεται σε ειδησεο ραφικούς δικτυακούς τόπους. Το περιε όμενό τους παρα αμ άνεται σε συνε ή ρυ μό, και στη συνέ εια μπαίνει σε μία ακο ου ιακή (pipelining) διαδικασία επεξερ ασίας του, όπου: φι τράρεται, ανα ύεται, κατη οριοποιείται, περι ήπτεται, συσταδοποιείται και στο τέ ος προσ ποποιείται στους ρήστες. Οι ρήστες επίσης συμμετέ ουν στην διαδικασία μέσ συνερ ατικού φι τραρίσματος μιας και οι επι ο ές τους οδη ούν το προτεινόμενο περιε όμενο ό ι μόνο προς αυτούς, α ά και προς ά ους ρήστες που ανήκουν στις ίδιες συστάδες ρηστών. Ορισμένες από τις παραπάν διερ ασίες έ ουν περι ραφεί διεξοδικά και στην μεταπτυ ιακή διπ ματική ερ ασία μου [235], και ς εκ τούτου, α περι ραφούνε επι ραμματικά μόνο στο παρόν κεφά αιο. 4.2 Γενική αρ ιτεκτονική Το σύστημα που αναπτύ ηκε στα π αίσια της παρούσας ερ ασίας είναι αρκετά πο ύπ οκο και περι αμ άνει αρκετά υποσυστήματα που επιτε ούν τις επιμέρους ειτουρ ίες. Αποτε εί επομέν ς έναν τμηματοποιημένο μη ανισμό, κά ε κομμάτι του οποίου σ εδιάστηκε με σκοπό να μπορεί να ειτουρ ήσει και αυτόνομα ή, σε ορισμένες περιπτώσεις, ακόμα και να μπορεί να παρακαμφ εί (όπου αυτό απαιτείται). Η επι υμητή αυτή ιδιότητα επιτυ άνεται με τη ρήση της κοινής άσης δεδομέν ν όπου απο ηκεύονται οι έξοδοι ενός συστήματος όπου αυτές αποτε ούν εισόδους ια κάποιο ά ο. Είναι επομέν ς εύκο ο να αντικαταστα εί ένα τμήμα (module) του συστήματος από ένα νεότερο ή κα ύτερο, όπ ς και να προστε εί κάποιο ακόμα το οποίο α ρησιμοποιεί υπάρ ουσα π ηροφορία από τη ΒΔ, δεδομένου φυσικά ότι α ρησιμοποιεί την υπάρ ουσα διεπαφή επικοιν νίας (communication interface). Η παραπάν ο ική σ εδίασης αναφέρεται συ νά ς modular και αποτε εί σημαντικό στοι είο της αρ ιτεκτονικής προσέ ισης κά ε συστήματος το οποίο σ εδιάζεται με την προοπτική επέκτασης του στο μέ ον.

119 4.3. Ροή Πληροφορίας Κεφάλαιο Ροή Π ηροφορίας Η ενική αρ ιτεκτονική τους συστήματος προτάσε ν άρ ρ ν νέ ν στο οποίο κατα ήξαμε παρουσιάζεται στο σ ήμα 9. Κα ένα από αυτά τα υποσυστήματα που φαίνονται α ανα υ εί στις ενότητες που ακο ου ούν. Στην παρούσα ενότητα απ ά αναφέρουμε συνο ικά και επι ραμματικά τις ειτουρ ίες τους. Σ ήμα 9: Αρ ιτεκτονική του συστήματος προτάσε ν άρ ρ ν νέ ν Αρ ικά, στο στάδιο εισόδου του, το σύστημά μας ανακτά άρ ρα νέ ν που παρά ονται από ειδησεο ραφικά πρακτορεία του διαδικτύου. Αυτό αποτε εί μία offline διαδικασία η οποία επανα αμ- άνεται ανά τακτά ρονικά διαστήματα με ρήση ενός crawler. Ο συ κεκριμένος crawler, δια άζει την ίστα από RSS feeds τα οποία υπάρ ουν κατα ρημένα στη ΒΔ και στη συνέ εια ανακτά τα 104

120 Κεφάλαιο Ροή Πληροφορίας άρ ρα που αυτά αναφέρουν. Η συ νότητα αναζήτησης ια ενημερώσεις στα RSS feeds, επομέν ς και η ανάκτηση τ ν νέ ν άρ ρ ν νέ ν, ίνεται κά ε 10 επτά. Η παραπάν διαδικασία ανακτά σημαντικό ό κο ακατέρ αστ ν δεδομέν ν τα οποία και απο ηκεύεται φυσικά στην ΒΔ προκειμένου να ρησιμοποιη ούν από τα υποσυστήματα που ακο ου ούν. Κομμάτι της ειτουρ ικότητας του crawler είναι επίσης ο εντοπισμός του ρήσιμου κειμένου στις ανακτημένες ιστοσε ίδες (π.. σώμα και τίτ ος νέου, κ. π.). Η προεπεξερ ασία κειμένου αποτε εί μία κεντρική διαδικασία του συστήματος συνο ικά, ίσης ή ίσ ς και με α ύτερης αρύτητας τ ν IR διαδικασιών που την ακο ου ούν. Η προεπεξερ ασία κειμένου εφαρμόζεται στο περιε όμενο τ ν ανακτημέν ν άρ ρ ν και έ ει ς αποτέ εσμα την εξα ή τόσο τ ν έξε ν κ ειδιών (keywords), όσο και τ ν n-grams από τα οποία αποτε είται το κά ε άρ ρο. Σε αυτό το επίπεδο ανά υσης, εφαρμόζουμε ορισμένες τυπικές τε νικές κα αρισμού κειμένου, στην οποίες περι αμ άνονται: εύρεση ρίζας έξε ν (stemming) αφαίρεση stopwords Παρά η α με τα παραπάν, ρησιμοποιούμε και ορισμένες τε νικές που έ ουν να κάνουν με: επι ο ή/μεί ση αρακτηριστικών όπου επι ειρούμε να επι έξουμε ένα υποσύνο ο από τα αρακτηριστικά τα οποία είναι πιο ρήσιμα ια τις IR που ακο ου ούν. Αυτό επιτυ άνεται μέσ : αντιστοί ιση μερών του ό ου (POS tagging) και πιο συ κεκριμένα, εύρεση τ ν ουσιαστικών του κειμένου κ άδεμα ορύ ου ή ασήμαντ ν έξε ν οι οποίες εμφανίζονται με πο ύ μικρή συ νότητα στο σύνο ο τ ν κειμέν ν (corpus). Οι έξεις αυτές επομέν ς δεν εμπεριέ ουν σημαντική νοηματική π ηροφορία αναπαράστασης παρα ή/εξα ή αρακτηριστικών όπου νέα αρακτηριστικά αναζητούνται ια αναπαράσταση. Στην περίπτ σή μας αυτό επιτυ άνεται με δύο τρόπους: με την εξα ή τ ν ουσιαστικών του κειμένου (POS tagging) με την παρα ή τ ν δενδρικών δομών υπερ νύμ ν τ ν έξε ν με ρήση της εξ τερικής άσης νώσης WordNet Μετά τις παραπάν τε νικές προεπεξερ ασίας κειμένου, ακο ου εί η εξα ή έξε ν κ ειδιών, η οποία, κάνοντας ρήση του vector space μοντέ ου, παρά ει τον πίνακα όρ ν-συ νοτήτ ν του κειμένου (term-frequency vector). Ο πίνακας αυτός, ο οποίος περι ράφει το κά ε κείμενο σαν ένα σύνο ο από έξεις, ή α ιώς bag of words (πίνακας έξε ν-συ νοτήτ ν) στις IR τε νικές που ακο ου ούν: κατη οριοποίηση, περί ηψη και συσταδοποίηση. Στην διδακτορική διατρι ή ενισ ύσαμε αυτή την αναπαράσταση με ρήση της εξ τερικής άσης νώσης WordNet, προκειμένου να ε τιώσουμε τα αποτε έσματα του α ορί μου συσταδοποίησης που ακο ου εί. 105

121 4.3. Ροή Πληροφορίας Κεφάλαιο 4 Παρά η α, και κατ αντίστοι ο τρόπο με αυτόν της εξα ής έξε ν κ ειδιών, στην διδακτορική διατρι ή προσ έσαμε μία νέα τε νική παρα ής αρακτηριστικών η οποία κάνει ρήση τ ν n-grams του κειμένου. Τα n-grams εξά ονται και δεικτοδοτούνται σε αυτό το σημείο ανά υσης του κειμένου με τρόπο παρόμοιο με αυτόν της εξα ής έξε ν κ ειδιών. Μά ιστα η εξα ή τ ν keywords μπορεί να ιδ εί ς η απ ούστερη περίπτ ση εξα ής n-grams, όπου n = 1. Για κά ε άρ ρο οιπόν και ια τιμές του n από 2 έ ς 6, εντοπίζουμε τα n-grams έξε ν του κειμένου και τα απο ηκεύουμε στη ΒΔ. Σε αυτή την περίπτ ση, η συνο ική ομοιότητα μεταξύ δύο άρ ρ ν ή ενός άρ ρου και μίας κατη ορίας ή συστάδας, δεν αποτυπώνεται μόνο σε σ έση με την μετρική συσ έτισης συ νότητας κειμένου/ανάστροφης συ νότητας σε ό α τα κείμενα, keyword frequency/inverse document frequency metric (kf-idf), α ά πιο ακρι έστερα ς ο συνδυασμός της παραπάν μετρικής και της αντίστοι ης n-grams μετρικής, έστ : gram frequency/inverse document frequency metric (gf-idf). Ο συνδυασμός τ ν δύο αυτών μετρικών ια ζύ ιση της σημαντικότητας τ ν έξε ν α ανα υ εί στο επόμενο κεφά αιο. Ακο ου ούν ορισμένα IR υποσυστήματα του μη ανισμού και τα οποία αφορούν στην κατη οριοποίηση και εξα ή περί ηψης του κειμένου. Τα υποσυστήματα αυτά δεν α μας απασ ο ήσουν στα π αίσια της διδακτορικής διατρι ής και αναφέρονται απ ά και μόνο διότι αποτε ούν μέρος του συνο ικού συστήματος. Σημαντικό ίσ ς εδώ είναι να αναφέρουμε ότι το υποσύστημα κατη οριοποίησης α η επιδρά με αυτό της εξα ής περί ηψης προκειμένου να το υπο οη ήσει όσον αφορά στην ε τί ση της ποιότητας τ ν εξα όμεν ν περι ήψε ν [235]. Η ενισ υμένη ίστα από αρακτηριστικά που προκύπτει από την προεπεξερ ασία κειμένου, τροφοδοτεί τον W-kmeans α όρι μο συσταδοποίησης που ακο ου εί. Είναι σημαντικό να αναφέρουμε όμ ς ότι η διαδικασία (α όρι μος) συσταδοποίησης είναι ανεξάρτητη από τα υπό οιπα ήματα και επομέν ς α μπορούσε εύκο α να αντικαταστα εί από μία ά η διαδικασία στο μέ ον. Ο W-kmeans αποτε εί μία καινοτόμα προσέ ιση στο πρό ημα της συσταδοποίησης επεκτείνοντας τον κ ασικό α όρι μο συσταδοποίησης k-means. Ο W-kmeans κάνει ρήση της εξ τερικής νώσης από τα υπερώνυμα του WordNet ενισ ύοντας την bag of words αναπαράσταση τ ν κειμέν ν. Ακο ου ώντας τις ασικές IR διερ ασίες του μη ανισμού μας ρίσκεται ο α όρι μος προσ ποποίησης. Ο α όρι μος μπορεί εύκο α να προσαρμοστεί σε επτές α α ές όσον αφορά στις προτιμήσεις τ ν ρηστών. Αυτές οι α α ές, οι οποίες εκφράζονται μέσ της συμπεριφοράς π οή ησης τ ν ρηστών, εντοπίζονται και διαρκώς προσαρμόζουν το προφί του ρήστη όπου αυτό είναι απαραίτητο. Ο α όρι μος προσ ποποίησης ρησιμοποιεί μία π η ώρα π ηροφοριών που έ ουν να κάνουν με τον ρήστη προκειμένου τε ικά να φι τράρει τα αποτε έσματα σε αυτόν, προτείνοντας τε ικά μόνο ότι ε ρεί π ς ταιριάζει κα ύτερα στο προφί του. Επιπ έον, αμ άνει υπόψιν του με έναν ζυ ισμένο τρόπο την π ηροφορία η οποία πη άζει από τις προη ούμενες IR τε νικές, την κατη οριοποίηση, την περί ηψη, κα ώς και την συσταδοποίηση άρ ρ ν νέ ν. Τα προφί από πο απ ούς ρήστες και ρονικά π αίσια επίσης συσταδοποιούνται με ρήση του α ορί μου W-kmeans παρά οντας έτσι συστάδες ρηστών. Ο W-kmeans ια την περίπτ ση της συσταδοποίησης ρηστών ενισ ύει τα προφί ρήστη με υπερώνυμα του εξά ονται από την 106

122 Κεφάλαιο Ροή Πληροφορίας άση νώσης WordNet μέσ ενός ευρετικού τρόπου ο οποίος α ανα υ εί στη συνέ εια. Αυτές οι συστάδες από προφί ρηστών επίσης ρησιμοποιούνται (παρά η α με την παραπάν π ηροφορία) στη φάση παρα ής προτάσε ν προς τον ρήστη, προκειμένου να ε τιώσουν την ευ ρηστία και αποτε εσματικότητα του συστήματος προτείνοντας έτσι πιο προσαρμοσμένα αποτε έσματα στους ρήστες που επανεπισκέπτονται το σύστημα. Όταν οιπόν ένας ρήστης επιστρέφει, το συσταδοποιημένο προφί του ρήστη ανακτάται και άρ ρα τα οποία ταιριάζουν στο προφί αυτό εξά ονται και αξιο ο ούνται προς πρόταση ια τον ρήστη Προεπεξερ ασία κειμένου Ο μη ανισμός προεπεξερ ασίας κειμένου είναι ένα σημαντικό τμήμα του συνο ικού μη ανισμού ο οποίος ανα αμ άνει το κα άρισμα του σώματος του κειμένου και κατα ή ει στην εξα ή έξε ν κ ειδιών και n-grams. Η διαδικασία της προεπεξερ ασίας κειμένου φαίνεται στο Σ ήμα 10. Η είσοδος στο υποσύστημα αυτό από τα δεδομένα της ΒΔ περιέ ει τα απαραίτητα μόνο στοι εία: τίτ ος και σώμα κειμένου. Σ ήμα 10: Προεπεξερ ασία κειμένου που οδη εί στην εξα ή keywords και n-grams Εκτός από τις παραπάν εισόδους, ο μη ανισμός δέ εται ορισμένες παραμέτρους ειτουρ ίας, κάτι που μας επιτρέπει τόσο να μετα ά ουμε εύκο α την ειτουρ ία του, όσο και να αξιο ο- ήσουμε στη συνέ εια τις επιδόσεις ια διάφορες τιμές τ ν εισόδ ν αυτών. Οι παράμετροι του μη ανισμού προεπεξερ ασίας κειμένου είναι: το ε ά ιστο μήκος έξης (οι έξεις που είναι μικρότερες από αυτό το μήκος α αφαιρε ούν) 107

123 4.3. Ροή Πληροφορίας Κεφάλαιο 4 κα ορισμός εάν τα αρι μητικά δεδομένα α κρατη ούν ή α αφαιρε ούν κα ορισμός μιας ίστας από έξεις τετριμμένες και συνη ισμένες οι οποίες δεν εκφράζουν κάποιο συ κεκριμένο νόημα και μπορούν να ε ρη ούν ς σκουπίδια (stopwords) κα ορισμός του α ορί μου stemming που α ρησιμοποιη εί ια τις έξεις κ ειδιά κα ορισμός της αρύτητας που δίνεται στα ουσιαστικά του κειμένου (αν αυτά ζυ ίζουν περισσότερο) κα αρισμός τ ν έξε ν που εμφανίζονται με μικρή συ νότητα (<0.01%) στην ΒΔ (και ς εκ τούτου πι ανότατα αποτε ούν σκουπίδια) εύρος της τιμής n ια τον κα ορισμό τ ν n-grams του κειμένου Η διαδικασία που ακο ου είται από τον μη ανισμό προεπεξερ ασίας κειμένου έ ει ς εξής. Αρ ικά, η ώσσα του κειμένου ανα ν ρίζεται κάτι που ίνεται είτε με ειδικό ο ισμικό ανα- νώρισης είτε έμμεσα ρησιμοποιώντας την προκα ορισμένη ώσσα του RSS feed από το οποίο προέρ εται το άρ ρο. Ακο ου εί η διαδικασία ρισμού τ ν προτάσε ν, ο ορ ο ραφικός έ ε ος, και έπειτα η αφαίρεση τ ν σημεί ν στίξης που υπάρ ουν. Στη συνέ εια αμ άνει ώρα η διερ ασία ανα νώρισης τ ν ουσιαστικών του κειμένου ρησιμοποιώντας τον POS SVM-based tagger από το [77] ο οποίος μπορεί να κα ορίσει με με ά η ακρί εια τα ουσιαστικά που περιέ ει η κά ε πρόταση. Μερικές κοινότυπες τε νικές εξα ής έξε ν κ ειδιών ακο ου ούν με σκοπό να περιοριστεί ο όρυ ος τ ν αποτε εσμάτ ν: η αφαίρεση τ ν stopwords και το stemming. Είναι σημαντικό να τονιστεί ότι η διαδικασία εύρεσης τ ν ουσιαστικών του κειμένου πρέπει να προη είται αυτών τ ν διερ ασιών αν επι υμούμε να επιτύ ει με με ά η πι ανότητα, μιας και οι έξεις μπορούν εύκο α να αντιστοι ιστούν με μέρη του ό ου μέσα στην πρόταση στην οποία ανήκουν. Ένα εξίσου σημαντικό στοι είο είναι ότι οι διαδικασίες της ανα νώρισης τ ν ουσιαστικών, της αφαίρεσης τ ν stopwords και του stemming είναι ισ υρά εξαρτώμενες από την ώσσα του κειμένου. Γν ρίζοντας επομέν ς την ώσσα του κειμένου (κάτι που ίνεται όπ ς είπαμε στα αρ ικά στάδια), μπορούμε να ά ουμε τις σ στές αποφάσεις προεπεξερ ασίας του: να αποφασίσουμε ποια α πρέπει να είναι η ίστα με τα stopwords που α πρέπει να αφαιρε ούν, ποιοι α πρέπει να είναι οι κανόνες ια το POS tagging που α εφαρμόσει ο SVM tagger, ποιοι α είναι οι κανόνες ια την διαδικασία stemming που α εφαρμοστεί και τε ικά ποιο α είναι το μέ ε ος τ ν αρ ικών έξε ν που α πρέπει να κρατη ούν, μιας και ορισμένες ώσσες περιέ ουν κατά κόρ ν με α ύτερες έξεις από κάποιες ά ες. Τα παραπάν αφορούν το δεξί σκέ ος του σ ήματος 10. Παρόμοιες διαδικασίες ακο ου ούνται και ια την εύρεση τ ν n-grams του κειμένου (αριστερό σκέ ος του σ ήματος 10) με την ασική διαφορά ότι η εξα ή της ρίζας τ ν έξε ν (stemming) κα ώς και η αφαίρεση τ ν stopwords δεν προη είται της εξα ής n-grams. Για την ακρί εια, οι τε νικές αυτές δεν έ ουν εφαρμο ή πέρα από συστήματα που ασίζονται μόνο σε εξα ή έξε ν. Και ο ό ος είναι απ ός: σ εδόν ό α τα n-gram που μπορεί να εξα ούν ασίζονται ακρι ώς στα stopwords που συνδέουν ορισμένες 108

124 Κεφάλαιο Ροή Πληροφορίας έξεις, ( ια παράδει μα: president of the United States) κα ώς και στις κατα ήξεις τ ν έξε ν που απαρτίζουν τα n-grams. Τα παραπάν αρακτηριστικά προσδίνουν την content-based φύση του συστήματος, μιας και η ανά υση που περι ράφηκε μέ ρις στι μής ίνεται αποκ ειστικά και μόνο με ρήση του κειμενικού περιε ομένου του ιδίου του κειμένου τ ν άρ ρ ν. Η έξοδος του μη ανισμού προεπεξερ ασίας κειμένου απο ηκεύεται στη άση δεδομέν ν του συστήματος, και έπειτα δια άζεται από τα υποσυστήματα που ακο ου ούν. Στις εξόδους περι αμ- άνονται: οι έξεις κ ειδιά που προέκυψαν από την διαδικασία του keyword extraction τα n-grams που προέκυψαν από την διαδικασία του gram extraction τις έσεις τ ν keywords και τ ν n-grams στο αρ ικό κείμενο, σε ποιες προτάσεις δη αδή εμφανίζονται το π ή ος με το οποίο εμφανίζονται τα keywords και τα n-grams κάτι που εκφράζεται είτε ς από υτη συ νότητα εμφάνισης (π.. ένα keyword εμφανίζεται 5 φορές στο κείμενο), είτε ς σ ετική συ νότητα εμφάνισης (π.. ένα n-gram εμφανίζεται 5 φορές σε ένα κείμενο 50 n-grams, άρα με σ ετική συ νότητα 0,1). την π ηροφορία ια το αν το keyword είναι ουσιαστικό ή ό ι Τα παραπάν αναπαριστώνται μέσ πινάκ ν στο vector space μοντέ ο: term frequency - inverse document frequency (tf-idf) ια την περίπτ ση τ ν έξε ν κ ειδιών, και gram frequency - inverse document frequency (gf-idf) ια την περίπτ ση τ ν n-grams. Οι πίνακες αυτοί απο ηκεύονται στην άση δεδομέν ν και αξιοποιούνται από τις διαδικασίες του επόμενου επιπέδου Συσταδοποίηση Η συσταδοποίηση αποτε εί μία από τις ασικές διερ ασίες πυρήνα του συστήματος προτάσε ν που αναπτύ ηκε. Ο α όρι μος συσταδοποίησης που αναπτύ ηκε ονομάζεται W-kmeans (WordNet-enabled k-means) ο οποίος και παρουσιάζεται στη συνέ εια Συσταδοποίηση W-kmeans Ο α όρι μος συσταδοποίησης W-kmeans εξερευνά την υπό εση ότι η ενσ μάτ ση εξικο- ο ικής π ηροφορίας στην αναπαράσταση κειμένου, μπορεί να οδη ήσει σε ε τιώσεις σ ετικά με την ακρί εια συσταδοποίησης. Αυτό ισ ύει είτε έ ουμε να κάνουμε με άρ ρα νέ ν, είτε με ρήστες προς συσταδοποίηση, κάτι που κάνει τον α όρι μο να δρα με τον ίδιο τρόπο, ανεξάρτητα από την είσοδο (πίνακες έξε ν κ ειδιών άρ ρ ν και πίνακες έξε ν κ ειδιών προφί ρηστών αντίστοι α). Στον πυρήνα του W-kmeans ρίσκεται ο α όρι μος k-means ο οποίος ενισ ύεται ώστε να κάνει ρήση ενός ευρετικού που ασίζεται στη άση νώσης WordNet. Πιο συ κεκριμένα, κάνει 109

125 4.3. Ροή Πληροφορίας Κεφάλαιο 4 ρήση της εξ τερικής άσης νώσης υπερ νύμ ν του WordNet προκειμένου να ενισ ύσει την αναπαράσταση bag of words που προκύπτει από το υποσύστημα προεπεξερ ασίας κειμένου στο στάδιο εισα ής του. Η ενισ υμένη ίστα αρακτηριστικών που προκύπτει οδη εί τον α όρι μο k-means ο οποίος κάνοντας ρήση της μετρικής ομοιότητας συνημιτόνου παρά ει τις συστάδες τ ν αντικειμέν ν (άρα τυπικά, πρόκειται ια τον α όρι μο spherical k-means (s-kmeans)). Σ ήμα 11: Συσταδοποίηση άρ ρ ν νέ ν και ρηστών Όπ ς φαίνεται και στο ρήμα 11, η συσταδοποίηση άρ ρ ν νέ ν και η συσταδοποίηση ρηστών αποτε ούν δύο διαφορετικές διερ ασίες του συστήματος που όμ ς ρησιμοποιούν τον ίδιο πυρήνα (α όρι μο) προκειμένου να παρά ουν την έξοδό τους (τις συστάδες τους). Οι παρα όμενες συστάδες στο τέ ος οδη ούνται προς την διαδικασία εξα ής ετικετών / ονοματοδοσίας συστάδ ν (labelling), η οποία και αντιστοι ίζει μία ή περισσότερες έξεις κ ειδιά σε κά ε συστάδα. Αυτές οι έξεις, εν τέ ει, αντιπροσ πεύουν διαισ ητικά και σε αν ρώπινη ώσσα την κά ε μία συστάδα και αποτε ούν έναν φυσικό τρόπο κατανόησης τ ν περιε ομέν ν τ ν συστάδ ν που προκύπτουν Συσταδοποίηση άρ ρ ν νέ ν Η διαδικασία συσταδοποίησης άρ ρ ν νέ ν απεικονίζεται στο σ ήμα 12, με τις διερ ασίες στο τετρα νισμένο κουτί να αποτε ούν τα εμε ιώδη ήματα του W-kmeans α ορί μου (όπ ς παρουσιάστηκε και στο σ ήμα 11). Αρ ικά, ένας τυπικός α όρι μος συσταδοποίησης δέ εται την έξοδο του συστήματος προεπεξερ ασίας και άσει της δεδομένης μετρικής απόστασής του, προ ράει στην εξα ή συστάδ ν από τα κείμενα. Βάσει της ενικής αυτής ροής αξιο ο ούνται διάφοροι α όρι μοι συσταδοποίησης στην ενότητα Όπ ς αναφέρ ηκε και προη ουμέν ς, ο α όρι μος W-kmeans ια την περίπτ ση της συσταδοποίησης άρ ρ ν νέ ν, δέ εται ς είσοδο την έξοδο του μη ανισμού προεπεξερ ασίας και συ κεκριμένα τις έξεις κ ειδιά του κειμένου κα ώς και τις σ ετικές συ νότητες εμφάνισης αυτών 110

126 Κεφάλαιο Ροή Πληροφορίας στα κείμενα προς συσταδοποίηση, σε σ έση πάντα με τη συνο ική συ νότητα εμφάνισης τους στα κείμενα της ΒΔ (BOW αναπαράσταση). Έ οντας αυτές τις π ηροφορίες, εξά ει ια κά ε μία από τις έξεις κ ειδιά του κά ε κειμένου προς συσταδοποίηση το δέντρο υπερώνυμ ν, όπ ς αυτό δίνεται από το WordNet. Τα αυτόνομα δέντρα υπερ νύμ ν έπειτα προστί ενται, παρά οντας έτσι ένα α ροιστικό δέντρο ια κά ε κείμενο. Ακο ου εί η εφαρμο ή πάν στο σύνο ο τ ν keywords και τ ν υπερ νύμ ν του α ορί μου k-means, απ όπου εξά ονται οι συστάδες τ ν άρ ρ ν νέ ν. Η ενίσ υση τ ν αρακτηριστικών τ ν κειμέν ν κατ αυτόν τον τρόπο ε τιώνει την ποιότητα της συσταδοποίησης αισ ητά, όπ ς α δούμε και σε επόμενα κεφά αια. Παρά η α, εξά ονται και οι ετικέτες που αρακτηρίζουν την κά ε συστάδα - πά ι με ρήση τ ν υπερ νύμ ν του Wordnet. Οι ανα έσεις άρ ρ ν σε συστάδες, κα ώς και ετικετών στις συστάδες, αποτε ούν επομέν ς τις εξόδους του υποσυστήματος συσταδοποίησης άρ ρ ν νέ ν οι οποίες και απο ηκεύονται στη ΒΔ. Σ ήμα 12: Συσταδοποίηση άρ ρ ν νέ ν - τυπικοί α όρι μοι και W-kmeans Μοντε οποίηση και συσταδοποίηση ρηστών Για κά ε ρήστη που δια άζει άρ ρα νέ ν από το σύστημα, κρατάμε τις ενέρ ειες του οι οποίες αρακτη&