Πανεπιστήμιο Πατρών. Πο υτε νική Σ ο ή Τμήμα Μη ανικών Η/Υ και Π ηροφορικής. Διδακτορική Διατρι ή

Πανεπιστήμιο Πατρών Πο υτε νική Σ ο ή Τμήμα Μη ανικών Η/Υ και Π ηροφορικής Διδακτορική Διατρι ή Τε νικές και μη ανισμοί συσταδοποίησης ρηστών και κειμέν ν ια την προσ ποποιημένη πρόσ αση περιε ομένου στον πα κόσμιο ιστό Υποψήφιος Διδάκτωρ: Τσό κας Βασί ης Α.Μ. 558 Επταμελής Επιτροπή: Νικό αος Α ούρης, Κα η ητής Ευστράτιος Γα όπου ος, Κα η ητής (μέ ος τριμε ούς επιτροπής) Ι άννης Γαροφα άκης, Κα η ητής Χρήστος Μακρής, Επίκουρος Κα η ητής (μέ ος τριμε ούς επιτροπής) Βασί ειος Με α οοικονόμου, Κα η ητής Χρήστος Μπούρας, Κα η ητής (επι έπ ν) Α ανάσιος Τσακα ίδης, Κα η ητής Δεκέμ ριος 2014

Περί ηψη Με την πρα ματικότητα τ ν υπέρο κ ν και ο οένα αυξανόμεν ν πη ών κειμένου στο διαδίκτυο, κα ίστανται ανα καία η ύπαρξη μη ανισμών οι οποίοι οη ούν τους ρήστες ώστε να ά ουν ρή ορες απαντήσεις στα ερ τήματά τους. Η δημιουρ ία περιε ομένου, προσ ποποιημένου στις ανά κες τ ν ρηστών, κρίνεται απαραίτητη σύμφ να με τις επιτα ές της συνδυαστικής έκρηξης της π ηροφορίας που είναι ορατή σε κά ε νία του διαδικτύου. Ζητούνται άμεσες και αποτε εσματικές ύσεις ώστε να τι ασευτεί αυτό το άος π ηροφορίας που υπάρ ει στον πα κόσμιο ιστό, ύσεις που είναι εφικτές μόνο μέσα από ανά υση τ ν προ ημάτ ν και εφαρμο ή σύ ρον ν μα ηματικών και υπο ο ιστικών με όδ ν ια την αντιμετώπισή τους. Η παρούσα διδακτορική διατρι ή αποσκοπεί στο σ εδιασμό, στην ανάπτυξη και τε ικά στην αξιο ό ηση μη ανισμών και καινοτόμ ν α ορί μ ν από τις περιο ές της ανάκτησης π ηροφορίας, της επεξερ ασίας φυσικής ώσσας κα ώς και της μη ανικής εκμά ησης, οι οποίοι α παρέ ουν ένα υψη ό επίπεδο φι τραρίσματος της π ηροφορίας του διαδικτύου στον τε ικό ρήστη. Πιο συ κεκριμένα, στα διάφορα στάδια επεξερ- ασίας της π ηροφορίας αναπτύσσονται τε νικές και μη ανισμοί που συ έ ουν, δεικτοδοτούν, φι τράρουν και επιστρέφουν κατά η α στους ρήστες κειμενικό περιε όμενο που πη άζει από τον πα κόσμιο ιστό. Τε νικές και μη ανισμοί που σκοπό έ ουν την παρο ή υπηρεσιών π ηροφόρησης πέρα από τα κα ιερ μένα πρότυπα της υφιστάμενης κατάστασης του διαδικτύου. Πυρήνας της διδακτορικής διατρι ής είναι η ανάπτυξη ενός μη ανισμού συσταδοποίησης (clustering) τόσο κειμέν ν, όσο και τ ν ρηστών του διαδικτύου. Στο π αίσιο αυτό με ετή ηκαν κ ασικοί α όρι μοι συσταδοποίησης οι οποίοι και αξιο ο ή ηκαν ια την περίπτ ση τ ν άρ ρ ν νέ ν προκειμένου να εκτιμη εί αν και πόσο αποτε εσματικός είναι ο εκάστοτε α όρι μος. Σε δεύτερη φάση υ οποιή ηκε α όρι μος συσταδοποίησης άρ ρ ν νέ ν που αξιοποιεί μια εξ τερική άση νώσης, το WordNet, και είναι προσαρμοσμένος στις απαιτήσεις τ ν άρ ρ ν νέ ν που πη άζουν από το διαδίκτυο. Ένας ακόμη ασικός στό ος της παρούσας ερ ασίας είναι η μοντε οποίηση τ ν κινήσε ν που ακο- ου ούν κοινοί ρήστες κα ώς και η αυτοματοποιημένη αξιο ό ηση τ ν συμπεριφορών, με ορατό ετικό αποτέ εσμα την πρό εψη τ ν προτιμήσε ν που α εκφράσουν στο μέ ον οι ρήστες. Η μοντε οποίηση 1

τ ν ρηστών έ ει άμεση εφαρμο ή στις δυνατότητες προσ ποποίησης της π ηροφορίας με την πρό εψη τ ν προτιμήσε ν τ ν ρηστών. Ως εκ τούτου, υ οποιή ηκε α όρι μος προσ ποποίησης ο οποίος αμ άνει υπ όψιν του π η ώρα παραμέτρ ν που αποκα ύπτουν έμμεσα τις προτιμήσεις τ ν ρηστών. Οι παραπάν μη ανισμοί αφού αξιο ο ή ηκαν ξε ριστά, στη συνέ εια ενσ ματώ ηκαν στην π ατφόρμα αποδε τί σης άρ ρ ν νέ ν 1 που εί ε υ οποιη εί στα π αίσια της μεταπτυ ιακής διπ ματικής ερ ασίας, μετασ ηματίζοντάς την έτσι σε ένα σύστημα προτάσε ν άρ ρ ν νέ ν (news articles recommendation system). Οι τε νικές που προτείνονται σε αυτή τη διδακτορική διατρι ή επεκτείνουν και διαφοροποιούν ερ ασίες ά ν ερευνητών, προσ έτοντας νέες με όδους αντιμετώπισης του προ ήματος προτάσε ν άρ ρ ν νέ ν. Η ερ ασία που πρα ματοποιή ηκε στα π αίσια της παρούσας διδακτορικής διατρι ής αναφέρεται συνοπτικά παρακάτ. Μελέτη αλγορίθμων συσταδοποίησης και αξιολόγησή τους για την περίπτωση των άρθρων νέων από το διαδίκτυο Αυτό το κομμάτι της διδακτορικής διατρι ής αφορά στην με έτη α ορί μ ν συσταδοποίησης κειμέν ν και αξιο ό ηση της εφαρμο ής αυτών στην περίπτ ση τ ν άρ ρ ν νέ ν (news articles) που πη άζουν από το διαδίκτυο. Στό ος αυτής της με έτης ήταν η εφαρμο ή διαφόρ ν τε νικών συσταδοποίησης και η σύ κριση τ ν αποτε εσμάτ ν όσον αφορά στο με ά ο π ή ος και ποικι ομορφία που παρουσιάζουν τα άρ ρα νέ ν του διαδικτύου. Συ κεκριμένα, με ετή ηκαν ιεραρ ικοί (hierarchical) α όρι μοι με διάφορες μετρικές απόστασης μεταξύ τ ν σ ηματιζόμεν ν συστάδ ν: pairwise single, maximum, average, centroid linkage κα ώς επίσης και πο οί διαμερισματικοί (partitional) α όρι μοι: k-means, k-medoids, k-means++. Παρά η α, ια κά ε έναν από τους παραπάν α ορί μους συσταδοποίησης ρησιμοποιή ηκαν και διάφορες μετρικές ομοιότητας: Euclidian, City-block, Pearson correlation coefficient, Cosine similarity, Spearman-rank, Kendall s tau. Για την αξιο ό ηση τ ν παραπάν α όρι μ ν μετρικών ρησιμοποιή ηκαν άρ ρα νέ ν τα οποία συ έ ηκαν από διάφορα online ειδησεο ραφικά πρακτορεία (news portals). Επίσης, ια την σύ κριση της ποιότητας τ ν παρα όμεν ν συστάδ ν ρησιμοποιή ηκε η μετρική του Clustering Index και του F-measure. Τέ ος, έ ινε αξιο ό ηση από πρα ματικούς ρήστες ς προς την ποιότητα τ ν παρα όμεν ν συστάδ ν. 1 http://perssonal.cti.gr 2

Σχεδιασμός και υλοποίηση υβριδικού αλγορίθμου συσταδοποίησης άρθρων νέων (W-kmeans) Έ οντας τα αποτε έσματα από την προαναφερ είσα έρευνα υπόψη, στα π αίσια της διδακτορικής διατρι ής, προ ρήσαμε στον σ εδιασμό και υ οποίηση νέου α ορί μου ια την συσταδοποίηση άρ ρ ν νέ ν. Το αποτέ εσμα αυτής της έρευνας ήταν ο α όρι μος W-kmeans ο οποίος αποτε εί μία προέκταση του κ ασικού k-means α ορί μου ενώ παρά η α ενισ ύεται από την εξ τερική νώση που μπορεί να προσφέρει το WordNet, ένας από τους πιο ευρέ ς διαδεδομένους ησαυρούς έξε ν ια την Α ική ώσσα. Το WordNet, ορ ανώνει διάφορες σσο ο ικές σ έσεις σε ιεραρ ίες οι οποίες μπορούν να αναπαραστα ούν σε δενδροειδής δομές. Κάνοντας ρήση αυτών τ ν δομών, αναζητούμε στο WordNet ια τα υπερώνυμα (hypernyms) τ ν σημαντικότερ ν έξε ν που απαρτίζουν ένα άρ- ρο νέου και έτσι επεκτείνουμε το συνο ικό νοηματικό περιε όμενό του. Επί της ουσίας με αυτή τη διαδικασία εισά ουμε νέα νώση στην υπάρ ουσα ίστα έξε ν κάτι που κάνει την διαδικασία συσταδοποίησης ι ότερο ασαφή και περισσότερο αποτε εσματική. Α ροίζοντας τις δενδροειδής δομές τ ν υπερώνυμ ν τ ν σημαντικότερ ν όρ ν ενός κειμένου, αυτό που παρατηρήσαμε είναι ότι όσο πιο πο ύ π ησιάζουμε στην ρίζα του δέντρου (οντότητα - entity), τόσο πιο συ νά εμφανίζεται το υπερώνυμο α ά και τόσο πιο ενικού νοήματος ίνεται αυτό. Επομέν ς τυπικά υπάρ ουν δύο παράμετροι που πρέπει να ηφ ούν υπ όψιν στην διαδικασία της επι ο ής τ ν υπερ νύμ ν που α ενισ ύσουν το κείμενο: η συ νότητα εμφάνισης και το ά ος. Η ζύ ιση τ ν παραπάν παραμέτρ ν έ ινε άσει μίας σι μοειδούς (sigmoid) συνάρτησης της οποίας η παράμετρος που εκφράζει το πόσο απότομη είναι περι αμ άνει τόσο το ά ος όσο και την συ νότητα του υπερ νύμου. Μια ακόμη σημαντική ρήση της εφαρμο ής του WordNet η οποία με ετή ηκε ήταν η εξα ή ετικετών (labeling) εκ τ ν παρα όμεν ν συστάδ ν. Η διαδικασία του labeling ειτουρ εί ατομικά σε κά ε συστάδα άρ ρ ν αμ άνοντας υπόψιν αρ ικά το 10% τ ν σημαντικότερ ν έξε ν-κ ειδιών τ ν άρ ρ ν της συστάδας. Στη συνέ εια, και ια κά ε μία από τις έξεις-κ ειδιά, παρά ονται τα δέντρα υπερ νύμ ν τους τα οποία και συνδυάζονται σε ένα συνο ικό δέντρο. Οι κόμ οι που προκύπτουν ζυ ίζονται και ταξινομούνται άσει του άρους τους, με τα 5 πρώτα υπερώνυμα να επιστρέφονται ς αντιπροσ πευτικά της συστάδας. Αποτέ εσμα αυτής της διαδικασίας είναι η δημιουρ ία ετικετών που κα ύπτουν νοηματικά την συστάδα και που μά ιστα πο ές φορές δεν είναι μέρος τ ν έξε ν-κ ειδιών 3

τ ν άρ ρ ν που απαρτίζουν τη συστάδα. Συνδυάζοντας τις παραπάν τε νικές, κατα ήξαμε στο α όρι μο W-kmeans, ο οποίος αξιο ο ή ηκε σε σ έση με παρόμοιους partitional α ορί μους ρησιμοποιώντας την μετρική του Clustering Index. Τα αποτε έσματα της διαδικασίας αξιο ό ησης έδειξαν σημαντική ε τί ση της απόδοσης σε σ έση με τον κ ασικό k-means α όρι μο. Παρά η α, οι παρα όμενες ετικέτες έ ουν υψη ή ποιότητα και α μπορούσαν να αποτε έσουν ένα σημαντικό ερ α είο ια online υπηρεσίες δεικτοδότησης άρ ρ ν νέ ν και ό ι μόνο. Επέκταση και χρήση του αλγορίθμου W-kmeans για την περίπτωση των χρηστών Στο τμήμα αυτό της διδακτορικής διατρι ής έ ινε επέκταση/προσαρμο ή του α ορί μου W-kmeans στην περίπτ ση συσταδοποίησης ρηστών που παρακο ου ούν άρ ρα νέ ν του διαδικτύου. Πιο συ- κεκριμένα, με ετή ηκε και υ οποιή ηκε η επέκταση της εφαρμο ής του α ορί μου ια τους ρήστες οι οποίοι είναι ε ε ραμμένοι στην online υπηρεσία δεικτοδότησης. Παρά η α έ ινε αξιο ό ηση τ ν συνεπειών που έ ει η προσέ ιση αυτή στην μη ανή προτάσε ν του συστήματός μας, μετρώντας την συνο ική επίδοση που έ ει αυτή όσον αφορά στην ακρί εια και ανάκ ηση (precision/recall) τ ν παρα όμεν ν αποτε εσμάτ ν. Ο α όρι μος W-kmeans ια την περίπτ ση εφαρμο ής του σε ρήστες, προ ράει ς εξής: αρ ικά εξά ονται οι συνεδρίες (sessions) από άρ ρα τα οποία ο ρήστης επέ εξε να δει σε συ κεκριμένου με έ ους ρονικά παρά υρα. Στη συνέ εια, ια κά ε συνεδρία α ροίζουμε τα άρ ρα που απαρτίζουν την συνεδρία και στη συνέ εια εμπ ουτίζουμε τις έξεις-κ ειδιά με σ ετικά υπερώνυμα που εξά ονται από το WordNet με τον τρόπο που περι ράφεται στην συνέ εια. Αρ ικά ια κά ε μία από τις έξειςκ ειδιά παρά ουμε τις δενδροειδής δομές από υπερώνυμα που οδη ούν στο υπερώνυμο - ρίζα (οντότητα - entity) και στη συνέ εια α ροίζουμε ό ες τις δενδροειδής δομές σε μία. Πρακτικά, υπάρ ουν δύο παράμετροι οι οποίες πρέπει να ηφ ούν υπ όψιν όσον αφορά στη σημαντικότητα του κά ε υπερώνυμου: το ά ος του στο δέντρο και η συ νότητα εμφάνισής του. Ζυ ίζοντας τις παραπάν παραμέτρους με μία σι μοειδή (sigmoid) συνάρτηση και στη συνέ εια ταξινομώντας άσει του άρους, κατα ή ουμε σε μία ίστα από υπερώνημα τα οποία εκφράζουν το προφί του ρήστη άσει τις επι ο ές που έ ει κάνει. Η ίστα αυτή ρησιμοποιείται έπειτα κατά το στάδιο προτάσε ν στο ρήστη ια την παρουσίαση 4

αποτε εσμάτ ν τα οποία με με ά η πι ανότητα τον ενδιαφέρουν. Για την πειραματική αξιο ό ηση της εφαρμο ής του α ορί μου W-kmeans στα προφί τ ν ρηστών, ρησιμοποιή ηκε με ά ο π ή ος από άρ ρα νέ ν προερ όμενα διάφορα διαδικτυακά ειδησεο ραφικά πρακτορεία κα ώς και αρκετούς ε ε ραμμένοι ρήστες του συστήματος. Επίσης ς κριτήριο αξιο ό- ησης τ ν σ ηματιζόμεν ν συστάδ ν ρησιμοποιή ηκε το Clustering Index κα ώς και το F-measure. Τα αποτε έσματα έδειξαν μία σημαντική ε τί ση σε σ έση με τον κ ασικό k-means α όρι μο. Παρά η α, οι προσφερόμενες προτάσεις άρ ρ ν στους ρήστες ήταν σημαντικά ε τι μένες σε σ έση με πριν όπου δεν εφαρμόζονταν η συσταδοποίηση ρηστών. Προσωποποίηση των προτεινόμενων άρθρων νέων βάσει της πληροφορίας συσταδοποίησης Με άση τα παραπάν αποτε έσματα σε σ έση με την συσταδοποίηση άρ ρ ν νέ ν, κα ώς και τ ν ρηστών αυτών, στο τμήμα αυτό της διδακτορικής διατρι ής αναπτύ ηκε τε νική προσ ποποίησης τ ν προτεινόμεν ν προς τους ρήστες άρ ρ ν νέ ν, η οποία αξιοποιεί την π ηροφορία τ ν συστάδ ν ρηστών του συστήματος. Ο α όρι μος προσ ποποίησης που αναπτύ ηκε, μπορεί να αρακτηριστεί ς υ ριδικός κα ώς ασίζεται τόσο στο ίδιο το περιε όμενο τ ν άρ ρ ν (content-based) όσο και στο συνερ ατικό φι τράρισμα (collaborative filtering) αξιοποιώντας την συσταδοποίηση και τις επι ο ές τ ν ρηστών του συστήματος. Παρά η α, έ ει τη δυνατότητα της προσαρμο ής στα μετα α όμενα ενδιαφέροντα του ρήστη με σ ετικά μικρές α ά διαρκείς μετα ο ές στα προφί τ ν ρηστών. Ο α όρι μος ενσ ματώνει αρκετά ευρετικά, όπ ς τα επι ε μένα προς ανά ν ση άρ ρα νέ ν από τον ρήστη, τον ρόνο που ξοδεύει δια άζοντάς τα, την κατη ορία τ ν άρ ρ ν, κα ώς και την νώση της συστάδας που ανήκει ο ρήστης. Η εφαρμο ή της προαναφερ είσας τε νικής προσ ποποίησης με ρήση συσταδοποίησης, οδή ησε σε ε τι μένα αποτε έσματα όσον αφορά τόσο στην ικανότητα του συστήματος να συ κ ίνει ρη ορότερα στις πρα ματικές προτιμήσεις τ ν ρηστών, όσο και στην ποιότητα τ ν προτάσε ν ια άρ ρα νέ ν που προσφέρει προς τους ρήστες. Το πρόβλημα του νέου χρήστη και αντιμετώπισή του Ένα σύστημα συστάσε ν (recommendation system), μπορεί να ρε εί σε μία κατάσταση κατά την 5

οποία δεν έ ει αρκετή π ηροφορία στην οποία να ασίσει τις αποφάσεις/προτάσεις του. Αυτού του είδους η κατάσταση είναι ν στή στην ι ιο ραφία ς cold start problem και διακρίνεται σε τρεις περιπτώσεις: α) πρό ημα νέου στοι είου (new item problem) όπου ένα νέο στοι είο (στην περίπτ σή μας ένα άρ ρο νέου) προστί εται στο σύστημα ρίς να υπάρ ουν ακόμη αξιο ο ήσεις ια αυτό, ) πρό ημα νέου ρήστη (new user problem) όπου ένας νέος ρήστης ε ράφεται στο σύστημα ρίς να είναι ν στό κάτι ια τις προτιμήσεις του, ) πρό ημα νέου συστήματος όπου αποτε εί συνδυασμό τ ν παραπάν περιπτώσε ν. Στο τμήμα αυτό της διδακτορικής διατρι ής αναπτύ ηκε μια προσ ποποιημένη με οδο ο ία ια την αντιμετώπιση του προ ήματος νέου ρήστη (new user problem). Η τε νική που υ οποιή ηκε, είναι αρ ικά παρόμοια με την στοι είο προς στοι είο στρατη ική (item by item strategy). Στη συνέ εια, δεδομένης μία του ά ιστον επι ο ής ια αξιο ό ηση άρ ρου από τον ρήστη, αξιοποιείται η π ηροφορία της συσταδοποίησης άρ ρ ν, και πιο συ κεκριμένα τα αποτε- έσματα του W-kmeans α ορί μου που υπάρ ουν στη άση δεδομέν ν ια την μετέπειτα επι ο ή προτάσε ν. Έπειτα, και εφόσον δεν έ ουν ήδη επι ε εί αρκετά άρ ρα ια αξιο ό ηση, ρησιμοποιούμε τα αποτε έσματα του W-kmeans α ορί μου όσον αφορά στην συσταδοποίηση ρηστών του συστήματος ια τις προτάσεις που ακο ου ούν. Η διαδικασία συνε ίζεται έ ς ότου ο συνο ικός αρι μός αξιο ο ήσε ν από τον ρήστη φτάσει σε κάποιο όριο στο οποίο μπορούμε να ε ρήσουμε ότι η διαδικασία εκτίμησης τ ν προτιμήσε ν του ρήστη έ ει ο οκ ηρ εί. Η πειραματική αξιο ό ηση της προαναφερ είσας τε νικής έδειξε ότι με τη ρήση κατά μέσο όρο 5 άρ ρ ν από κά ε σ ετική συστάδα άρ ρου ή ρήστη, παίρνουμε τα κα ύτερα αποτε έσματα και την τα ύτερη σύ κ ιση στο προφί του ρήστη. Χρησιμοποιώντας αυτό το συμπέρασμα, υπο ο ίσαμε ότι η τε νική μας ρειάζεται κατά μέσο όρο 37.5 άρ ρα προς παρουσίαση στη ρήστη προκειμένου να πάρει 20 επιτυ είς αξιο ο ήσεις ένα αποτέ εσμα σημαντικά κα ύτερο από τις τυπικές υπάρ ουσες με όδους της ι ιο ραφίας σ ετικά με την αντιμετώπιση του προ ήματος νέου ρήστη. Αξιοποίηση word n-grams για βελτίωση της συσταδοποίησης άρθρων νέων Ένα n-gram ορίζεται ς η ακο ου ία κειμένου με έ ους n που αποτε είται από συνε όμενα ράμματα ή έξεις. Για την περίπτ ση τ ν word n-grams, ενδιαφερόμαστε μόνο ια σειρές το πο ύ n 6

συνε όμεν ν έξε ν στις ακο ου ίες κειμέν ν. Για παράδει μα ένα 4-gram είναι το εξής: economic situation in Greece. Στο τμήμα αυτό της διδακτορικής διατρι ής αναπτύ ηκε τε νική ενίσ υσης του α ορί μου συσταδοποίησης άρ ρ ν νέ ν από το διαδίκτυο (W-kmeans) με ρήση n-grams έξε ν (word n-grams) κατά την διαδικασία της εξα ής έξε ν κ ειδιών (keyword extraction). Για την ενίσ υση του α ορί μου W-kmeans, ρησιμοποιή ηκε μία προσέ ιση ζυ ίσματος η οποία αξιοποιεί τόσο την συ νότητα εμφάνισης τ ν keywords (bag of words representation) όσο και αυτή τ ν n-grams. Πιο συ κεκριμένα, ο α όρι μος ανα έτει άρη στα n-grams του κειμένου (όπου 2 < n < 6) παρόμοια με τα tf-idf (term frequency inverse document frequency) άρη τ ν keywords, κατά τη διαδικασία της εξα - ής έξε ν-κ ειδιών (keyword extraction), και έπειτα συνδυάζει τα συνο ικά άρη ια να αξιο ο ήσει ποια keywords και n-grams είναι πιο σημαντικά ώστε να αμ άνονται υπόψη κατά την συσταδοποίηση. Η εκτίμηση της σημαντικότητας τ ν keywords και n-grams στη διαδικασία της συσταδοποίησης αποτέ εσε αντικείμενο της πειραματικής διαδικασίας, από την οποία προέκυψε ότι η ζύ ιση keywords / n-grams σε ό ο 7/3 έδινε τα κα ύτερα αποτε έσματα ια την συσταδοποίηση (συστάδες κα ύτερα δια ρισμένες και με με α ύτερη συνο ή). Παρά η α ρέ ηκε ότι ια n = 3, δη αδή όταν αμ άνονται υπόψη τόσο τα 2-grams όσο και τα 3-grams ια την διαδικασία ζυ ίσματος, έ ουμε κα ύτερα αποτε έσματα ια την συσταδοποίηση άρ ρ ν από το διαδίκτυο (κάτι που επι ε αί σε την υπάρ ουσα σ ετική ι ιο ραφία). 7

Δημοσιεύσεις Διε νή περιοδικά 1. Improving News Articles Recommendations via User Clustering. International Journal of Machine Learning and Cybernetics (to appear) C. Bouras, V. Tsogkas, 2015 Although commonly only item clustering is suggested by Web mining techniques for news articles recommendation systems, one of the various tasks of personalized recommendation is categorization of Web users. With the rapid explosion of online news articles, predicting user-browsing behavior using collaborative filtering (CF) techniques has gained much attention in the web personalization area. However common CF techniques suffer from problems like low accuracy and performance. This research proposes a new personalized recommendation approach that integrates both user and text clustering based on our developed algorithm, W-kmeans, with other information retrieval (IR) techniques, like text categorization and summarization in order to provide users with the articles that match their profiles. Our system can easily adapt over time to divertive user preferences. Furthermore, experimental results show that by aggregating item and user clustering with multiple IR techniques like categorization and summarization, our recommender generates results that outperform the cases where each or both of them are used, but clustering is not applied. 2. Assisting cluster coherency via N-grams and clustering as a tool to deal with the new user problem. International Journal of Machine Learning and Cybernetics: 1-14, Springer Verlang, C. Bouras, V. Tsogkas, 2014 Collaborative filtering systems typically need to acquire some data about the new user in order to start making personalized suggestions, a situation commonly referred to as the new user problem. In this work is we attempt to address the new user problem via a unique personalized strategy 8

for prompting the user with articles to rate. Our approach makes use of hypernyms extracted from the WordNet database and proves to be converging fast to the actual user interests based on minimal user ratings, which are provided during the registration process. In addition, we explore the possible enhancement of the document clustering results, and in particular clustering of news articles from the web, when using word-based n-grams during the keyword extraction phase. We present and evaluate a weighting approach that combines clustering of news articles derived from the web, using n-grams that are extracted from the articles at an offline stage. This technique is then compared with the single minded bag-of-words representation that our clustering algorithm, W- kmeans, previously used. Our experimentation reveals that via fine tuning the weighting parameters between keyword and n-grams, as well as the n value itself, a significant improvement regarding the clustering results metrics can be achieved. 3. A clustering technique for news articles using WordNet. Knowledge-Based Systems Journal, Elsevier Science, Vol. 36, C. Bouras, V. Tsogkas, 2012, 115-128 The Web is overcrowded with news articles, an overwhelming information source both with its amount and diversity. Document clustering is a powerful technique that has been widely used for organizing data into smaller and manageable information kernels. Several approaches have been proposed which, however, suffer from problems like synonymy, ambiguity and lack of a descriptive content marking of the generated clusters. In this work, we are investigating the application of a great spectrum of clustering algorithms, as well as similarity measures, to news articles that originate from the Web. Also, we are proposing the enhancement of standard k-means algorithm using the external knowledge from WordNet hypernyms in a twofold manner: enriching the bag of words used prior to the clustering process and assisting the label generation procedure following it. Furthermore, we are examining the effect that text preprocessing has on clustering. Operating on a corpus of news articles derived from major news portals, our comparison of the existing clustering methodologies revealed that k-means, gives better aggregate results when it comes to 9

efficiency. This is amplified when the algorithm is accompanied with preliminary steps for data cleaning and normalizing, despite its simple nature. Moreover, the proposed WordNet-enabled W-k means clustering algorithm significantly improves standard k-means generating also useful and high quality cluster tags by using the presented cluster labeling process. Διε νή συνέδρια 1. Evaluating the Unification of Multiple Information Retrieval Techniques into a News Indexing Service. 3rd Intenational Conference on Data Management Technologies and Applications, Vienna, Austria, C. Bouras, V. Tsogkas, Aug. 29-31 2014 While online information sources are rapidly increasing in amount, so does the daily available online news content. Several approaches have being proposed for organizing this immense amount of data. In this work we explore the integration of multiple information retrieval techniques, like text preprocessing, n-grams expansion, summarization, categorization and item/user clustering into a single mechanism designed to consolidate and index news articles from major news portals from around the web. Our goal is to allow users to seamlessly and quickly get the news of the day that are of appeal to them via our system. We show how, the application of each one of the proposed techniques gradually improves the precision results in terms of the suggested news articles for a number of registered system users and how, aggregately, these techniques provide a unified solution to the recommendation problem. 2. Enhancing news articles clustering using word n grams. 2nd Intenational Conference on Data Management Technologies and Applications, Reykjavvk, Iceland, C. Bouras, V. Tsogkas, July 29-31 2013, 53 60 In this work we explore the possible enhancement of the document clustering results, and in 10

particular clustering of news articles from the web, when using word-based n-grams during the keyword extraction phase. We present and evaluate a weighting approach that combines clustering of news articles derived from the web using n-grams, extracted from the articles at an offline stage. We compared this technique with the single minded bag-of-words representation that our clustering algorithm, W-kmeans, previously used. Our experimentation revealed that via tuning of the weighting parameters between keyword and n-grams, as well as the n itself, a significant improvement regarding the clustering results metrics can be achieved. This reflects more coherent clusters and better overall clustering performance 3. Clustering to Deal with the New User Problem. 15th IEEE International Conference on Computational Science and Engineering, Paphos, Cyrus, C. Bouras, V. Tsogkas, 5-7 December 2012, pp. 58 65 Collaborative filtering (CF) techniques attempt to alleviate information overload by identifying which items a user will find interesting to browse. It focuses on identification of other users with similar tastes and usage of their opinions in order to recommend items. Commonly, however, CF suffers from the so-called new user problem which occurs when a new user is added to the system and there is not enough information to make a good suggestion. The system has to acquire some data about the new user in order to start making personalized recommendations. In this paper, we present a novel algorithm that combines previously acquired knowledge from article and user clustering in order to quickly determine the new user s interests. We attempt to address the new user problem by providing a personalized strategy for prompting the user with articles to rate. Our approach makes use of hypernyms extracted from the WordNet database and proves to be converging fast to the actual user interests based on minimal user ratings which are provided during the registration process. 4. User Personalization via W kmeans. KES2012 - The 16th International Conference on Knowledge Based & Intelligent Information & Engineering Systems, San Sebastian, Spain, C. Bouras, V. Tsogkas, 10-12 September 2012, 555 564 11

With the rapid explosion of online news articles, predicting userbrowsing behavior using collaborative filtering techniques has gained much attention in the web personalization area. However, common collaborative filtering techniques suffer from low accuracy and performance. This research proposes a new personalized recommendation approach that integrates user and text clustering based on our developed algorithm, W-kmeans, with other information retrieval techniques, like text categorization and summarization in order to provide users with the articles that match their profiles. Our system can easily adapt over time to divertive user preferences. Furthermore, experimental results show that by aggregating multiple other information retrieval techniques like categorization, summarization and clustering, our recommender generates results that outperform the cases when clustering is not applied. 5. Clustering user preferences using W kmeans. The 7th International Conference on Signal Image Technology & Internet Based Systems (SITIS 11), Dijion - France, C. Bouras, V. Tsogkas, November 28 - December 1 2011, pp. 75 82 Although commonly only document clustering is suggested by Web mining techniques for recommendation systems, one of the various tasks of personalized recommendation is categorization of Web users. In this paper, a method for clustering navigation patterns of Web users is proposed. We adapt the WordNet-enabled W-kmeans algorithm, an enhancement of standard k-means algorithm which uses the external knowledge from WordNet hypernyms and that has been previously used for document clustering, to user profile clustering by analyzing the users historical data. We also investigate the effects this approach has on the recommendation engine by evaluating the overall performance it has in terms of precision recall on our online recommendation system. 6. W - kmeans: Clustering News Articles using WordNet. Advanced Knowledge - based Systems, Invited Session of the 14th International Conference on Knowledge based and Intelligent Information & 12

Engineering Systems, Cardiff Wales, UK, C. Bouras, V. Tsogkas, September 8-10 2010, pp. 379 388 Document clustering is a powerful technique that has been widely used for organizing data into smaller and manageable information kernels. Several approaches have been proposed suffering however from problems like synonymy, ambiguity and lack of a descriptive content marking of the generated clusters. We are proposing the enhancement of standard kmeans algorithm using the external knowledge from WordNet hypernyms in a twofold manner: enriching the bag of words used prior to the clustering process and assisting the label generation procedure following it. Our experimentation revealed a significant improvement over standard kmeans for a corpus of news articles derived from major news portals. Moreover, the cluster labeling process generates useful and of high quality cluster tags. 7. Assigning Web News to Clusters. The Fifth International Conference on Internet and Web Applications and Services, (ICIW 2010), Barcelona, Spain, C. Bouras, V. Tsogkas, May 9-15 2010 The Web is overcrowded with news articles, an overwhelming information source both with its amount and diversity. Assigning news articles to similar groups, on the other hand, provides a very powerful data mining and manipulation technique for topic discovery from text documents. In this paper, we are investigating the application of a great spectrum of clustering algorithms, as well as similarity measures, to news articles that originate from the Web and compare their efficiency for use in an online Web news service application. We also examine the effect of preprocessing on clustering. Our experimentation showed that k-means, despite its simplicity, accompanied with preliminary steps for data cleaning and normalizing, gives better aggregate results when it comes to efficiency. 13

Αναφορές A clustering technique for news articles using WordNet. Knowledge-Based Systems Journal, Elsevier Science, Vol. 36, C. Bouras, V. Tsogkas, 2012, 115 128 1. Subset K-Means Approach for Handling Imbalanced-Distributed Data., Kumar, Ch N. Santhosh, et al. Emerging ICT for Bridging the Future-Proceedings of the 49th Annual Convention of the Computer Society of India CSI Volume 2. Springer International Publishing, 2015. 2. Undersampled K-means approach for handling imbalanced distributed data. Progress in Artificial Intelligence. Kumar, N. Santhosh, et al., 2014: 1-10. 3. Ninaus, G., Reinfrank, F., Stettinger, M., & Felfernig, A. Content-Based Recommendation Techniques for Requirements Engineering., 2014 4. An updated literature review on the problem of Class Imbalanced Learning in Clustering. Kumar, Ch N. Santhosh, et al. 5. Clustering based on Cuckoo Optimization Algorithm. Intelligent Systems (ICIS). Ameryan, Mahya, Mohammad Reza Akbarzadeh Totonchi, and Seyyed Javad Seyyed Mahdavi. Iranian Conference on. IEEE, 2014. 6. Locality mutual clustering for document retrieval. Proceedings of the 8th International Conference on Ubiquitous Information Management and Communication. Nguyen, Khu Phi, and Hong Tuyet Tu. ACM, 2014. 7. Performance Evaluation of Semantic Approaches for Automatic Clustering of Similar Web Services. Computing and Communication Technologies (WCCCT), Vadivelou, G., and E. Ilavarasan. 2014 World Congress on. IEEE, 2014. 8. Clustering-based topical Web crawling using CFu-tree guided by link-context. Frontiers of Computer Science: 1-15. Liu, Lu, and Tao Peng 9. Imbalanced K-Means: An algorithm to cluster imbalanced-distributed data. Kumar, Ch N. Santhosh, et al 14

Assigning Web News to Clusters. The Fifth International Conference on Internet and Web Applications and Services, (ICIW 2010), Barcelona, Spain, C. Bouras, V. Tsogkas, May 9-15 2010 1. A survey of techniques for event detection in Twitter. Computational Intelligence (2013). Atefeh, Farzindar, and Wael Khreich 2. A review of retrospective news event detection. Semantic Technology and Information Retrieval (STAIR) 2011 International Conference on. IEEE, Ramadan, Qusai Hussein, and Masnizah Mohd., 2011. 3. OPTIMAL INITIAL CENTROID IN K-MEANS FOR CRIME TOPIC. Mohd, Masnizah. (2010). 4. i-jen: visual interactive Malaysia crime news retrieval system. Visual Informatics: Sustaining Research and Innovations. Ali, Nazlena Mohamad, et al. Springer Berlin Heidelberg, 2011. 284-294. 5. Feedback-driven clustering for automated linking of web pages. 8th International Conference for Internet Technology and Secured Transactions (ICITST), Oest, Adam, and Manjeet Rege. IEEE, 2013. 6. Information Integration in News Articles from Various Sources. Holub, Michal 7. An Intelligent Document Clustering Approach to Detect Crime Patterns. Procedia Technology 11. Bsoul, Qusay, Juhana Salim, and Lailatul Qadri Zakaria. (2013): 1181-1187. 8. Article Recommendations for News Feed. Shen, Minghan Clustering user preferences using W kmeans. The 7th International Conference on Signal Image Technology & Internet Based Systems (SITIS 11), Dijion - France, C. Bouras, V. Tsogkas, November 28 - December 1 2011, pp. 75 82 1. Semantic preserving text tepresentation and its applications in text clustering. Howard, Michael. (2012). 15

W - kmeans: Clustering News Articles using WordNet. Advanced Knowledge - based Systems, Invited Session of the 14th International Conference on Knowledge based and Intelligent Information & Engineering Systems, Cardiff Wales, UK, C. Bouras, V. Tsogkas, September 8-10 2010, pp. 379 388 1. Keen-Means: A Web Page Clustering Tool Based on an Self-Adjustable K-Means Algorithm. Tseng, Chun Hsiung, et al. Ubi-Media Computing and Workshops (UMEDIA), 2014 7th International Conference on. IEEE, 2014. 2. Semantic Framework to Text Clustering with Neighbors. ICT and Critical Infrastructure: Proceedings of the 48th Annual Convention of Computer Society of India-Vol II. Lalitha, Y. Sri, and A. Govardhan. Springer International Publishing, 2014. 3. Beyond cluster labeling: Semantic interpretation of clusters contents using a graph representation. Knowledge-Based Systems 56. Role, François, and Mohamed Nadif. (2014): 141-155. 4. Clustering system based on text mining using the K-means algorithm: news headlines clustering. Lama, Prabin (2013). 16