Π Τ Υ Χ Ι Α Κ Η Ε Ρ ΓΑ Σ Ι Α

Transcript

1 Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η Ε Ρ ΓΑ Σ Ι Α «ΤΕΧΝΙΚΕΣ ΟΜΟΙΟΤΗΤΑΣ ΑΝΟΜΟΙΟΤΗΤΑΣ ΣΕ ΠΡΟΤΑΣΙΑΚΑ ΜΟΝΤΕΛΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΣΕ ΔΥΑΔΙΚΑ ΠΡΟΒΛΗΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ» «ΑΔΑΜ ΚΥΡΙΑΚΟΣ» ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΒΑΚΑΛΗ ΑΘΗΝΑ, ΚΑΘΗΓΗΤΡΙΑ ΘΕΣΣΑΛΟΝΙΚΗ 2014

2

3 ARISTOTLE UNIVERSITY OF THESSALONIKI FACULTY OF SCIENCES SCHOOL OF INFORMATICS T H E S I S «SIMILARITY-DISSIMILARITY TECHNIQUES IN RECOMMENDER SYSTEMS APPLIED TO BINARY CLASSIFICATION PROBLEMS» «ADAM KYRIAKOS» SUPERVISOR: VAKALI ATHINA, PROFESSOR THESSALONIKI 2014

4

5 Π ε ρ ί λ η ψ η Αντικείμενο της παρούσας πτυχιακής εργασίας είναι η ανάλυση διαφόρων οικογενειών Προτασιακών Συστημάτων (Π.Σ), αλγορίθμων κατηγοριοποίησης και η προσπάθεια επίλυσης του προβλήματος της περιορισμένης ανάλυσης περιεχομένου το οποίο συναντάται σε περιπτώσεις όπου είτε υπάρχει περιορισμένος αριθμός χαρακτηριστικών για τα διαθέσιμα αντικείμενα είτε τα υπάρχοντα χαρακτηριστικά δεν είναι αρκετά ενδεικτικά. Κατά κανόνα αυτό που κάνει ένα προτασιακό σύστημα καλό, είναι η ικανότητά του να διακρίνει όμοιους χρήστες και αντικείμενα με τα καλύτερα κριτήρια ώστε να παράγει τις καλύτερες δυνατές συστάσεις. Για την επίλυση αυτού του προβλήματος δημιουργήσαμε το πλαίσιο εξαγωγής χαρακτηριστικών ανομοιότητας με στόχο την ενδυνάμωση του παράγοντα διακριτοποίησης, εισάγοντας περισσότερη πληροφορία προς επεξεργασία για την καλύτερη ταξινόμηση των αντικειμένων. Αυτό επιτεύχθηκε πλαισιώνοντας τους χρήστες σε ομάδες «όμοιων» χρηστών με σημείο αναφοράς τα κοινά βαθμολογημένα αντικείμενα και τα χαρακτηριστικά τους. Η πληροφορία της ανομοιότητας λειτουργεί βοηθητικά στην ταξινόμηση των αντικειμένων με αποτέλεσμα οι συστάσεις του προτασιακού συστήματος να είναι περισσότερο στοχευμένες.

6 A b s t r a c t In this thesis we deal with Recommender Systems and specifically with the problem of limited content analysis. We introduce a framework whose target is to create features from existing data and can be encapsulated to a recommender system. A classifier s performance is basically affected by the discriminating power of the included features to precisely separate samples belonging to different classes. The purpose of this thesis is to process the information with the best way to correlate the similar users with the items and increase the discrimination power. Such a system must handle the information with the most functional way. This can be achieved by creating a framework which is capable of capturing different aspects of the analyzed content. Solutions to this challenge solve the limited content analysis problem, which appears when we have items with deficient number of characteristics or when we don t have meta-data to process with. More specifically, each user is framed by a group of similar users, which has either same common items or common attributes. Finally we test our system and then we present and comment the results.

7 Ε υ χ α ρ ι σ τ ί ε ς Πριν την παρουσίαση της παρούσας εργασίας, αισθάνομαι την υποχρέωση να ευχαριστήσω την επιβλέποντα καθηγήτρια κ. Βακάλη Αθηνά για την ευκαιρία που μου έδωσε να ασχοληθώ με ένα τόσο ενδιαφέρον και σύγχρονο θέμα. Τον διδάκτορα κ. Ζιγκόλη Χρήστο για την ιδέα του, πάνω στην οποία βασίστηκα καθώς επίσης για την καθοδήγηση και την βοήθεια που μου παρείχε καθ όλη τη διάρκεια εκπόνησης της εργασίας μέσω συμβουλών και διορθώσεων. Επίσης θα ήθελα να ευχαριστήσω όλους όσους με βοήθησαν και έκαναν υπομονή κατά την διάρκεια υλοποίησης της εργασίας αυτής. Τέλος θέλω να ευχαριστήσω την οικογένεια μου που με στήριξε και μου παρείχε όλα τα απαραίτητα εφόδια για να φτάσω μέχρι εδώ και να συνεχίσω. 20/10/2014 Αδάμ Κυριάκος

8 ΠΕΡΙΕΧΟΜΕΝΑ Π ε ρ ι ε χ ό μ ε ν α Περιεχόμενα... VII Λίστα σχημάτων... XI Λίστα πινάκων... XII Κεφάλαιο 1: Εισαγωγή Προτασιακά Συστήματα ως λύση στην Υπερφόρτωση Πληροφοριών Ανοικτές προκλήσεις Συνεισφορά πτυχιακής Δομή της πτυχιακής Κεφάλαιο 2: Θεωρητική ανάλυση Προτασιακών Συστημάτων Στόχος Προτασιακών Συστημάτων Αύξηση αριθμού πωλήσεων Αύξηση της ικανότητας των χρηστών Πώληση μεγαλύτερης ποικιλίας προϊόντων Οικογένειες Προτασιακών Συστημάτων Διήθηση βασισμένη στο περιεχόμενο Συνεργατική διήθηση Υβριδικές προσεγγίσεις Ανοικτά προβλήματα Βιβλιογραφική ανασκόπηση Κεφάλαιο 3: Υβριδικά προτασιακά μοντέλα με χρήση τεχνικών ομοιότηταςανομοιότητας Μοντελοποίηση χρηστών και αντικειμένων Μετρικές αξιολόγησης χρηστών Συντελεστής γραμμικής συσχέτισης (Pearson correlation) Συντελεστής ομοιότητας (Sorensen) Υπολογισμός ομοιότητας μεταξύ χρηστών Υπολογισμός ομοιότητας χρηστών βάσει των κοινών βαθμολογουμένων αντικειμένων Υπολογισμός ομοιότητας χρηστών βάσει των κοινών ιδιοτήτων Υπολογισμός χαρακτηριστικών ανομοιότητας Κεφάλαιο 4:Πειραματική αξιολόγηση Συλλογή δεδομένων Προεπεξεργασία δεδομένων Webscope VII

9 ΠΕΡΙΕΧΟΜΕΝΑ Δεδομένα προς επεξεργασία Αντικείμενο (item) Χρήστες(users) Συναλλαγές(transactions) Μετασχηματισμός δεδομένων Πλαίσιο εξαγωγής προτάσεων με χρήση μεθόδων ταξινόμησης Δέντρα απόφασης Αλγόριθμος C Αλγόριθμος RandomForrest Μηχανές Διανυσματικής Υποστήριξης (SVM) Αλγόριθμος κατηγοριοποίησης κ-μέσων (k-means) Πλαίσιο πειραματικής αξιολόγησης Εξαγωγή χαρακτηριστικού ανομοιότητας Μετασχηματισμός δεδομένων Κατηγοριοποίηση δειγμάτων Συμπεριλαμβανόμενοι ταξινομητές ως προτασιακοί αλγόριθμοι Κανονικοποίηση συντελεστή ανομοιότητας Μετρικές αξιολόγησης Παρουσίαση και ανάλυση αποτελεσμάτων Κεφάλαιο 5: Συμπεράσματα επεκτάσεις Παράρτημα ΙΙ: Βιβλιογραφία Παράρτημα ΙΙΙ: Ακρώνυμα Παράρτημα ΙV: Γλωσσάριο IX

10

11 ΛΙΣΤΑ ΣΧΗΜΑΤΩΝ Λ ί σ τ α Σ χ η μ ά τ ω ν Σχήμα 1.1: Στατιστικά μεταφοράς δεδομένων μέχρι το έτος Σχήμα 1.2: Αριθμός προιόντων προς πώληση στο Amazon...18 Σχήμα 3.1: Διάγραμμα ροής διαδικασιών πλαισίου εξαγωγής χαρακτηριστικών ανομοιότητας...44 Σχήμα 4.1: Μέθοδος τυχαίων δέντρων...55 Σχήμα 4.2: Ψευδοκώδικας RandomForrest...57 Σχήμα 4.3:Παράδειγμα εμφάνισης του φαινομένου του υπερταιριάσματος στους ταξινομητές SVM...60 Σχήμα 4.4: Ψευδοκώδικας αλγορίθμου k-means...61 Σχήμα 4.5: Διάγραμμα κλάσεων αλγορίθμου εύρεσης ανομοιότητας...63 Σχήμα 4.6: Δεδομένα εισόδου πλαισίου ανομοιότητας...64 Σχήμα 4.7: Βασική κλάση έναρξης εκτέλεσης αλγορίθμου εύρεσης Ανομοιότητας...65 Σχήμα 4.8: Δεδομένα εξόδου πλαισίου ανομοιότητας...67 Σχήμα 4.9: Βασική κλάση έναρξης εκτέλεσης αλγορίθμου μετασχηματισμού δεδομένων...67 Σχήμα 4.10: Δεδομένα εξόδου πλαισίου μετασχηματισμού δεδομένων...67 Σχήμα 4.11: Αποτελέσματα εκτέλεσης αλγορίθμου k-means με k= Σχήμα 4.12: Αποτελέσματα εκτέλεσης αλγορίθμου k-means με k= Σχήμα 4.13: Αποτελεσματικότητα κανονικοποίησης συντελεστών ανομοιότητας με χρήση SVM...76 Σχήμα 4.14: Αποτελέσματα εκτέλεσης αλγορίθμου RandomForrest με κανονικοποιημένες τιμές ανομοιότητας...77 Σχήμα 5.1: Μοντέλο μελλοντικής εφαρμογής σε επίπεδο εφαρμογής...80 XI

12

13

14 Λ ί σ τ α Π ι ν ά κ ω ν Πίνακας 1.1:Τεχνικές των Προτασιακών Συστημάτων...28 Πίνακας 3.1:Μετρικές αξιολόγησης χρηστών...35 Πίνακας 4.1: Περιγραφή συνόλου δεδομένων...47 Πίνακας 4.2: Παρουσίαση αποτελεσμάτων αλγορίθμων κατηγοριοποίησης...70 Πίνακας 4.3: Παρουσίαση αποτελεσμάτων K-means...71 Πίνακας 4.4: Ρυθμίσεις αλγορίθμου k-means...71 Πίνακας 4.5: Παρουσίαση αποτελεσμάτων δένδρων απόφασης...72 Πίνακας 4.6: Ρυθμίσεις αλγορίθμων δέντρων απόφασης...73 Πίνακας 4.7: Παρουσίαση αποτελεσμάτων μηχανής διανυσματικής υποστήριξης με συνάρτηση πυρήνα RBF...73 Πίνακας 4.8: Παρουσίαση αποτελεσμάτων μηχανής διανυσματικής υποστήριξης γραμμικής συνάρτησης πυρήνα...73 Πίνακας 4.9: Ρυθμίσεις αλγορίθμου SVM C-SVC...74 Πίνακας 4.10: Παρουσίαση αποτελεσμάτων αλγορίθμων κατηγοριοποίησης με κανονικοιημένους συντελεστές ανομοιότητας...74 Πίνακας 4.11: Παρουσίαση αποτελεσμάτων K-means με κανονικοιημένους συντελεστές ανομοιότητας...75 Πίνακας 4.12: Παρουσίαση αποτελεσμάτων SVM με κανονικοποιημένους συντελεστές ανομοιότητας...75 Πίνακας 4.13: Παρουσίαση αποτελεσμάτων αλγορίθμων αλγορίθμων δένδρων απόφασης με κανονικοιημένους συντελεστές ανομοιότητας...76

15 ΚΕΦΑΛΑΙΟ 1:ΕΙΣΑΓΩΓΗ Κ ε φ ά λ α ι ο 1 : Ε ι σ α γ ω γ ή 15

16 ΚΕΦΑΛΑΙΟ 1:ΕΙΣΑΓΩΓΗ ΕΙΣΑΓΩΓΗ Με την πάροδο του χρόνου ο όγκος των πληροφοριών που μπορεί να βρει κανείς στο διαδίκτυο αυξάνεται κατακόρυφα. Οι χρήστες του διαδίκτυο κατακλύζονται από προϊόντα και υπηρεσίες και αυτό καθιστά όλο και δυσκολότερη την λήψη αποφάσεων σχετικά με ο ποιά από όλα τα διαθέσιμα προϊόντα (βιβλία CD, νέα, ταινίες) είναι κατάλληλα για τις ανάγκες και τις προτιμήσεις τους. Στο πρόβλημα αυτό ως λύση εμφανίστηκαν τα Προτασιακά συστήματα. Τα Προτασιακά Συστήματα είναι εργαλεία λογισμικού που δουλεύουν με συγκεκριμένους αλγορίθμους φιλτραρίσματος και επεξεργασίας πληροφοριών με σκοπό να προτείνουν στον χρήστη προϊόντα που θα τους ενδιαφέρουν και θα τους βοηθήσουν να καταλήξουν σε απόφαση. Η ανάπτυξη των Recommender System ξεκίνησε από μια απλή παρατήρηση: οι άνθρωποι συχνά στηρίζονται σε προτάσεις άλλων για συνηθισμένες καθημερινές αποφάσεις, όπως για παράδειγμα στην πρόταση ενός φίλου για το ποιο βιβλίο να διαβάσουν ή στην αξιολόγηση ενός κριτικού κινηματογράφου στην εφημερίδα για το ποιά ταινία να παρακολουθήσουν. Στην σημερινή εποχή, με την εξέλιξη του Web 2.0, οι χρήστες πλέον έχουν την δυνατότητα να συμμετέχουν στην δημοσίευση πληροφοριών, να μοιράζονται αρχεία, προτιμήσεις και γνώσεις με ανθρώπους από όλο τον κόσμο σε πλατφόρμες που είναι πλέον γνωστές ως Κοινωνικά Μέσα. Συνεπώς ένας χρήστης χωρίς μεγάλη εμπειρία που αδυνατεί να χειριστεί τον τεράστιο αριθμό επιλογών που έχει στην διάθεση του, στρέφεται προς τα Προτασιακά Συστήματα (Π.Σ). Κοινωνικά Μέσα και διαδικτυακοί τόποι όπως YouTube, Netflix, Amazon, IMDb ή το itunes χρησιμοποιούν ευρέως συστήματα προτάσεων για να διευκολύνουν τους χρήστες στην εύρεση του αντικειμένου που τους ενδιαφέρει. Ειδικότερα, τα Recommender Systems χρησιμοποιούν χαρακτηριστικά όπως το profile του χρήστη, τα στοιχεία των προϊόντων ή το κοινωνικό περιβάλλον του χρήστη (φίλοι) στην περίπτωση που το προτασιακό σύστημα σχεδιάζεται για κοινωνικά μέσα, για να προβλέψουν τον βαθμό που έχει ο χρήστης θα έδινε σε ένα προϊόν που δεν έχει βαθμολογήσει. Στόχος των συστημάτων αυτών είναι να βρουν στον χρήστη όχι μόνο προϊόντα που θα τον ενδιαφέρουν καθότι είναι κοντά στις προτιμήσεις του, αλλά και προϊόντα που πιθανότατα δεν θα έβρισκε ποτέ μόνος του γιατί δεν ανήκουν στον βασικό κύκλο ενδιαφερόντων του. 1.1 Προτασιακά Συστήματα ως λύση στην Υπερφόρτωση Πληροφοριών Περί το 1970 ο Alvin Toffler ανέφερε την υπερφόρτωση πληροφοριών ως ένα πολύ σημαντικό πρόβλημα το οποίο διογκώνεται συνεχώς. Ο όρος απέκτησε ιδιαίτερη σημασία το 2003, όταν ο Jakob Nielsen, ο κορυφαίος ειδικός ευχρηστίας δικτυακών τόπων, δημοσίευσε μια σειρά από άρθρα που πραγματεύονται το θέμα. Οι άνθρωποι χρησιμοποιούν πληροφορίες, ώστε να λαμβάνουν αποφάσεις και να προσαρμόζονται με τις περιστάσεις. Ωστόσο, γνωστικές μελέτες έχουν δείξει ότι υπάρχει ένα οριακό σημείο πληροφοριών που οι άνθρωποι μπορούν να επεξεργαστούν, μερικές φορές, μια επιπρόσθετη πληροφορία μπορεί να αλλάξει την απόφαση και την έκβαση του αποτελέσματος, αλλά δεν υπάρχει ξεκάθαρη απόδειξη ότι περισσότερη πληροφορία οδηγεί σε καλύτερες αποφάσεις. Ενώ υπάρχουν παραδείγματα επιτυχίας και 16

17 ΚΕΦΑΛΑΙΟ 1:ΕΙΣΑΓΩΓΗ αποτυχίας σε καταστάσεις που είτε ήταν διαθέσιμη η πληροφορία είτε όχι. Η πληροφορία αποτελεί έναν πόρο ζωτικής σημασίας. Βελτιώνοντας όμως την ποιότητα και την ποσότητά της, θα δημιουργείται αξία μόνο όταν χρησιμοποιείται με αποτελεσματικό τρόπο. Όπως συμβαίνει με κάθε πόρο, η πληροφορία μπορεί να αχρηστευθεί. Η περίσσεια των πληροφοριών είναι κοινώς γνωστή ως υπερφόρτωση πληροφοριών και μπορεί να οδηγήσει σε αδυναμία λήψης αποφάσεων, όταν το άτομο δεν είναι σε θέση να κρίνει, δεδομένου ότι δεν μπορεί να κατανοήσει αυτό που έχει σημασία πια. Με την είσοδο των χρηστών στις τεχνολογίες Web 2 στις οποίες ο χρήστης έχει γίνει η πηγή της πληροφορίας καθώς διαμοιράζεται δεδομένα και εκφράζει την άποψη του μέσω ψηφοφοριών, περνάει από παθητικό ρόλο του διαδικτύου σε ενεργητικό και παράγει σημαντικό όγκο πληροφορίας. Ως αποτέλεσμα της χρήσης αυτών των τεχνολογιών είναι η αύξηση του ρυθμού παραγωγής πληροφοριών. Η επίδραση της πληροφοριακής υπερφόρτωσης στην ψυχολογία των χρηστών είναι σημαντική, επιφέροντας ποικίλες ψυχολογικές επιβαρύνσεις. Στον τομέα της προώθησης προϊόντων, παρατηρήθηκε ότι η υπερφόρτωση συνδέεται άμεσα με τη λήψη αποφάσεων των χρηστών και με την ικανοποίησή τους για το αποτέλεσμα, ενώ η αύξηση των ειδών και χαρακτηριστικών των προϊόντων σημειώνει αύξηση της ικανοποίησης των καταναλωτών με τις επιλογές τους [1]. Σχήμα 1.1: Στατιστικά μεταφοράς δεδομένων μέχρι το έτος 2018 Μετά την ανάλυση αυτών των δεδομένων συμπεραίνουμε πως πλέον μιλάμε για EB όπου 1 ΕΒ exabyte= terabytes. Πλήθος πληροφορίας το οποίο δεν μπορούμε να συλλάβουμε. Μέχρι το έτος 2018 υπολογίζεται ότι θα παράγεται πληροφορία της τάξης των 15.9 EB. 17

18 ΚΕΦΑΛΑΙΟ 1:ΕΙΣΑΓΩΓΗ Πηγή: J. McAuley and J. Leskovec. Hidden factors and hidden topics: understanding rating dimensions with review text. RecSys, 2013 Σχήμα 1.2 Αριθμός προϊόντων προς πώληση στο Amazon Αναλύοντας τα δεδομένα της Amazon από το έτος 1995 μέχρι το 2013 μπορούμε να καταλάβουμε πως ο αριθμός των προϊόντων προς πώληση (3,161,954 αντικείμενα) είναι πολύ μεγάλος και απαγορευτικός ως προς την ανάλυση από τον άνθρωπο χωρίς την χρήση κάποιου πληροφοριακού συστήματος. Καθώς λοιπόν ο όγκος των δεδομένων αυξήθηκε δραματικά και οι σωστές λήψεις αποφάσεων δεν ήταν εφικτές από όλους τους χρήστες βρέθηκαν πολλοί τρόποι για την αξιοποίηση της υπάρχουσας πληροφορίας με αποδοτικούς αλγορίθμους. Αυτή την πληροφορία την διαχειρίζεται ένα Πληροφοριακό Σύστημα το οποίο οδηγεί τον χρήστη με αποδοτικό τρόπο να βρει αυτό που θέλει με διαδικασίες προτάσεων βάση χαρακτηριστικών που έχει συλλέξει. Οι διαδικασίες αυτές βασίζονται στην μηχανική μάθηση με σκοπό την σωστή καθοδήγηση των χρηστών κατηγοριοποιώντας τα αντικειμένων προς επεξεργασία με τον καλύτερο δυνατό τρόπο.[2] 1.2 Ανοικτές προκλήσεις Ίσως το μεγαλύτερο πρόβλημα που αντιμετωπίζουν τα συστήματα συστάσεων είναι ότι χρειάζονται πολλά δεδομένα για να κάνουν αποτελεσματικές συστάσεις. Δεν είναι τυχαίο ότι οι εταιρείες που έχουν ταυτιστεί με εξαιρετικές συστάσεις είναι αυτές με πολλά δεδομένα: Google, Amazon, Netflix, Last.fm. 18

19 ΚΕΦΑΛΑΙΟ 1:ΕΙΣΑΓΩΓΗ Ένα καλό σύστημα συστάσεων θα πρέπει κατ 'αρχάς να έχει στοιχεία προς επεξεργασία, έπειτα θα πρέπει να αναλύσει τα δεδομένα του χρήστη, και στη συνέχεια να χρησιμοποιήσει έναν ενδεδειγμένο αλγόριθμο για τα δεδομένα προς επεξεργασία. Όσο περισσότερα δεδομένα προς επεξεργασία υπάρχουν τόσο καλύτερη και πιο στοχευμένη γίνεται η κατηγοριοποίηση και η σύσταση των προϊόντων. Ακόμη μια μεγάλη πρόκληση των προτασιακών συστημάτων είναι η αλλαγή της τάσης των χρηστών με την πάροδο του χρόνου. Η χρήση της πληροφορίας του παρελθόντος για έναν χρήστη βάση των επιλογών του δεν βοηθάει πάντα διότι οι τάσεις αλλάζουν συνεχώς. Μια αλγοριθμική προσέγγιση του προβλήματος αυτού είναι δύσκολη αν όχι αδύνατη. Οι περισσότερες προσεγγίσεις του προβλήματος αυτού εμπεριέχουν σύνθετους αλγόριθμους οι οποίοι προσπαθούν να προσομοιώσουν την τάση της μόδας μέσω κοινών φίλων. Σε αυτό το πρόβλημα εμπίπτει και η αλλαγή των «προτιμήσεων» των χρηστών για το σύστημα συστάσεων βάση των αναζητήσεων που γίνονται. Τις περισσότερες φορές οι χρήστες αναζητούν προϊόντα για την κάλυψη των δικών τους αναγκών αλλά δεν είναι λίγες οι φορές που οι χρήστες αναζητούν αντικείμενα για άλλους. Αυτό έχει ως αποτέλεσμα το σύστημα να μπερδεύει τις συστάσεις καθώς δεν είναι σε θέση να γνωρίζει πότε μια αναζήτηση γίνεται για την ικανοποίηση του χρήστη στόχου η όχι. Δεν θα μπορούσαμε να παραλείψουμε να αναφέρουμε την ανοικτή πρόκληση όλων των μεγάλων εταιριών για την διασφάλιση της καλύτερης σύστασης σε χρήστες μέσων κοινωνικής δικτύωσης. Έχουν γίνει πολλές προτάσεις για την κ- αλύτερη διαχείριση της πληροφορίας στα μέσα αυτά, ωστόσο η χρήση των κοινωνικών δικτύων με φορητές συσκευές έχει αυξηθεί ραγδαία τα τελευταία έτη. Οι χρήστες πλέον διαμοιράζονται περισσότερη πληροφορία μεταξύ τους, όπως η τοποθεσία του χρήστη. Οι πληροφορίες αυτές δίνονται από τους χρήστες σε πραγματικό χρόνο το οποίο είναι μια πολύ καλή ευκαιρία από την πλευρά των επιχειρήσεων να εξάγουν γνώση από αυτό. Η χρήση των μέσων κοινωνικής δικτύωσης από φορητές συσκευές έχει δημιουργήσει περισσότερες ανάγκες από την πλευρά των προτασιακών συστημάτων και μπορούμε να πούμε πως ο τομέας αυτός αναπτύσσεται ραγδαία. 1.3 Συνεισφορά Πτυχιακής Στην παρούσα πτυχιακή αντιμετωπίζουμε το πρόβλημα της περιορισμένης ανάλυσης περιεχομένου (Limited Content Analysis Problem) στα (Π.Σ) μέσω ενός πλαισίου υπολογισμού ανομοιότητας. Στην προσπάθεια εξαγωγής των χαρακτηριστικών ανομοιότητας είναι απαραίτητη η εξέταση των εξής περιοχών τις οποίες ερευνήσαμε και εμπλουτίσαμε. Δημιουργία Ομάδων Χρηστών μέσω Υπολογισμού Ομοιοτήτων: Δημιουργούμε δύο τύπους ομάδων χρηστών. Η πρώτη ομάδα δημιουργείται συγκρίνοντας τους χρήστες με μόνο κριτήριο τα αντικείμενα τα οποία έχουν κοινά. Με αυτή την πληροφορία κατατάσσουμε τους χρήστες σε ομάδες «όμοιων» χρηστών και δημιουργούμε μια μετρική ομοιότητας ως προς τα αντικείμενα για τα οποία έχουν εκφράσει ενδιαφέρον. Αντίστοιχα, στην δεύτερη μέθοδο έχουμε ως μέσο αξιολόγησης της ομοιότητας τις ιδιότητες των αντικειμένων. Σε αυτό το σημείο βλέπουμε την ομοιότητα πιο αφαιρετικά 19

20 ΚΕΦΑΛΑΙΟ 1:ΕΙΣΑΓΩΓΗ καθώς οι σχέσεις των χρηστών δεν επηρεάζονται μόνο από τα όμοια αντικείμενα αλλά και από τις επιμέρους ιδιότητες τους. Επικεντρωνόμαστε λοιπόν σε προτιμήσεις ως προς ορισμένες τιμές ιδιοτήτων για τις οποίες και οι δύο χρήστες ενός ζευγαριού έχουν εκφράσει γνώμη, δηλαδή στις κοινές τιμές που εμπεριέχονται στα βαθμολογούμενα αντικείμενα των δύο χρηστών. Οι κοινές τιμές ιδιοτήτων δεν βρίσκονται απαραίτητα μόνο στα κοινά βαθμολογούμενα αντικείμενα μεταξύ δύο χρηστών. Είναι πιθανό για δύο χρήστες να μην έχουν κοινά αντικείμενα, αλλά να έχουν κοινές τιμές ιδιοτήτων. Εξαγωγή Χαρακτηριστικών Ανομοιότητας: Παράλληλα και μέσω της τεχνικής εύρεσης ομοιότητας μεταξύ χρηστών δημιουργήσαμε ένα νέο χαρακτηριστικό το οποίο εξάγεται μέσω των χρηστών που ανήκουν σε ίδιες ομάδες είτε ως προς τα αντικείμενα είτε ως προς τις ιδιότητες των αντικειμένων. Αυτό έχει σαν αποτέλεσμα την ενδυνάμωση της δυνατότητας διακριτοποίησης του προτασιακού συστήματος καθώς αυξάνεται η πληροφορία προς επεξεργασία. Παράλληλα με το υπάρχον σύνολο ένα αντικείμενο περιγράφεται και με το σύνολο των εξαχθέντων χαρακτηριστικών. Αυτό έχει σαν αποτέλεσμα να λειτουργεί αυξητικά στην αποτελεσματική αντιμετώπιση του προβλήματος της περιορισμένης ανάλυσης περιεχομένου. Πλαίσιο ταξινόμησης: Στο παρόν πλαίσιο έγινε η χρήση πολλών αλγορίθμων κατηγοριοποίησης για την εξαγωγή του ποσοστού επιτυχίας μετά την εισαγωγή του χαρακτηριστικού ανομοιότητας που περιγράψαμε παραπάνω. Από τους αλγόριθμους αυτούς καταλήξαμε σε έναν αλγόριθμο που βασίζεται σε δέντρα απόφασης (C4.5), έναν σε μηχανές διανυσματικής υποστήριξης (SVM) και σε έναν αλγόριθμο πλησιέστερων γειτόνων (k- means). Ο πρώτος δέχεται κατηγορηματικές και αριθμητικές τιμές χαρακτηριστικών σε αντίθεση με τον δεύτερο και τον τρίτο που εκτελείται μόνο με αριθμητικές. Για το λόγο αυτό μετατρέπουμε τις κατηγορηματικές τιμές ιδιοτήτων σε συνεχείς κάνοντας χρήση της μεθόδου Naive Bayes [3]. Και οι τρείς τύποι ταξινομητών χρησιμοποιούν τα προτεινόμενα χαρακτηριστικά παράλληλα με τις τιμές ιδιοτήτων των αντικειμένων που έχουν μετατραπεί σε αριθμητικές. Για να αξιολογήσουμε τη χρησιμότητα των προτεινόμενων χαρακτηριστικών, μετράμε την επίδοση των ταξινομητών με όρους ακρίβειας κατηγοριοποίησης (precision) για να διαπιστώσουμε το πόσο πολύ έχουν συνεισφέρει τα χαρακτηριστικά ανομοιότητας στη λύση του δυαδικού προβλήματος ταξινόμησης. Τα πειράματα εκτελέστηκαν σε πραγματικά δεδομένα της υπηρεσίας Yahoo! Music1 που περιέχει βαθμολογίες χρηστών σε μουσικά κομμάτια. Η πειραματική αξιολόγηση έδειξε ότι οι ενισχυμένες αναπαραστάσεις αντικειμένων με τα νέα προτεινόμενα χαρακτηριστικά καταφέρνουν να αυξήσουν την ικανότητα των ταξινομητών ως προς την επιλογή των καταλληλότερων προς σύσταση αντικειμένων. 1.4 Δομή της πτυχιακής Κεφάλαιο 2 ο : Στο κεφάλαιο αυτό παρουσιάζεται η έννοια των Προτασιακών Συστημάτων, ποιός είναι ο ρόλος τους, τι προσπαθούνε να επιτύχουνε με την χρήση τους, ποιές είναι οι βασικές οικογένειες των (Π.Σ) και ποιές οι τεχνικές υλοποίησης τους. Επίσης γίνεται μια εισαγωγή στην ηθική πλευρά των προσωπικών δεδομένων για σωστή χρήση. 20

21 ΚΕΦΑΛΑΙΟ 1:ΕΙΣΑΓΩΓΗ Κεφάλαιο 3 ο : Παρουσιάζεται ο τρόπος με τον οποίο τα υβριδικά μοντέλα ανάπτυξης (Π.Σ) με χρήση τεχνικών ομοιότητας-ανομοιότητας επεξεργάζονται την πληροφορία συσχέτισης μεταξύ χρηστών και αντικειμένων για την δημιουργία στοχευμένων προτάσεων. Επιπλέον παρουσιάζεται ο τρόπος με τον οποίο γίνεται η μοντελοποίηση των δεδομένων για κάθε χρήστη, καθώς επίσης και ο τρόπος με τον οποίο ομαδοποιούνται. Η ομαδοποίηση χωρίζεται σε δύο πλαίσια, το ένα βασίζεται στις βαθμολογίες κοινών αντικειμένων και στο άλλο η ομοιότητα εξάγεται από τις βαθμολογίες των κοινών τιμών ιδιοτήτων. Κατόπιν αναφέρονται εκτενέστερα κάποιες μετρικές οι οποίες βοηθούν στην ομαδοποίηση. Κεφάλαιο 4 ο : Στο κεφάλαιο αυτό γίνεται η πειραματική αξιολόγηση των δεδομένων, τα οποία έχουν υποστεί επεξεργασία με τους τρόπους που αναφέρονται στο κεφάλαιο 3. Επίσης περιγράφουμε τον τρόπο με τον οποίο τα δεδομένα αυτά επεξεργάζονται και μετασχηματίζονται για την χρήση αλγορίθμων κατηγοριοποίησης.ακόμη αναλύεται ο τρόπος λειτουργίας των βασικών αλγορίθμων που χρησιμοποιήθηκαν για την ταξινόμηση των αντικειμένων. Επιπρόσθετα, αναλύεται το πλαίσιο εξαγωγής προτάσεων με χρήση μεθόδων ταξινόμησης, καθώς και η παρουσίαση και η ανάλυση των αποτελεσμάτων. Κεφάλαιο 5 ο :Στο κεφάλαιο αυτό παρουσιάζουμε τα συμπεράσματα και τρόπους με τους οποίους μπορεί να επεκταθεί η παρούσα εργασία σε θεωρητικό και πρακτικό επίπεδο. 21

22 Κ ε φ ά λ α ι ο 2 : Θ ε ω ρ η τ ι κ ή Αν ά λ υ σ η Π ρ ο τ α σ ι α κ ώ ν Σ υ σ τ η μ ά τ ω ν

23 ΚΕΦΑΛΑΙΟ 2:ΘΕΩΡΗΤΙΚΗ ΑΝΑΛΥΣΗ ΠΡΟΤΑΣΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΘΕΩΡΗΤΙΚΗ ΑΝΑΛΥΣΗ Προτασιακά συστήματα Τα προτασιακά συστήματα έχουν ως κύριο στόχο να προτείνουν αντικείμενα σε χρήστες. Τα αντικείμενα αυτά μπορεί να είναι υλικά, όπως προϊόντα ρουχισμού, βιβλία, και οτιδήποτε μπορεί να εμπορευθεί κανείς από το διαδίκτυο καθώς επίσης και δεδομένα σε ηλεκτρονική μορφή. Μία μικρή γκάμα της πληροφορίας αυτής συμπεριλαμβάνει βίντεο, ταινίες, εικόνες, νέα τα οποία μπορεί να τον ενδιαφέρουν. Τα αντικείμενα αυτά βρίσκονται σε όλες τις ιστοσελίδες κοινωνικής δικτύωσης όπως YouTube, Vimeo, Daylimotion, Facebook, Twitter. Στην περίπτωση μας σε σελίδες περιγραφής και σχολιασμού μουσικών επιλογών Yahoo! Music Μπορούμε να καταλάβουμε ότι ένα προτασιακό σύστημα θα μπορούσε να έχει εφαρμογές σε διάφορους τύπους αντικείμενων. Συναθροιστικά μπορούμε να πούμε πως είναι ένας μηχανισμός ο οποίος έχει ως στόχο την εύρεση αντικειμένων με τα οποία ο χρήστης δεν είχε επαφή αλλά τον ενδιαφέρουν. Στη μελέτη επισκόπησης των Adomavicius και Tuzhilin [4] όπου πραγματοποιήθηκε έρευνα σχετικά με το υπάρχον στάδιο των Π.Σ., αντλήθηκαν και παρουσιάζονται τα παρακάτω στοιχεία. Τα συστήματα συστάσεων αναδύθηκαν σαν ερευνητικό πεδίο μετά την εμφάνιση των πρώτων papers σχετικών με το collaborative filtering στα μέσα της δεκαετίας του 90 [5]. Τόσο στην ακαδημαϊκή κοινότητα αλλά και στον επιχειρηματικό κόσμο, την τελευταία δεκαετία, γίνονται προσπάθειες εύρεσης και υλοποίησης νέων προσεγγίσεων. Το ενδιαφέρον παραμένει ακόμα υψηλό καθώς υπάρχουν πολλά ακόμα προβλήματα προς επίλυση και χώρος για την ανάπτυξη προσωποποιημένων εφαρμογών, καθώς οι χρήστες των διαδικτυακών υπηρεσιών καλούνται να αντιμετωπίσουν την ολοένα και μεγαλύτερη υπέρ πληροφόρηση. Σχετικές έννοιες είχαν ήδη αναφερθεί σε διαφορετικούς τομείς όπως στην ανάκτηση πληροφορίας (information retrieval) αλλά και στο μάρκετινγκ, αποτέλεσε όμως ανεξάρτητο πεδίο από την στιγμή που οι ερευνητές άρχισαν να μελετούν προβλήματα βαθμονόμησης (ranking problems) των συστάσεων. Ο πυρήνας ενός Προτασιακού Συστήματος είναι ουσιαστικά μια διαδικασία πρόβλεψης αξιολογήσεων (rating) των αντικειμένων με τα οποία ο χρήστης δεν είχε ακόμα επαφή, και στη συνέχεια βαθμονόμησης των αντικειμένων με βάση την αξιολόγηση, ώστε τελικά να προταθούν στον χρήστη τα αντικείμενα με την υψηλότερη εκτιμώμενη αξιολόγηση. 23

24 ΚΕΦΑΛΑΙΟ 2:ΘΕΩΡΗΤΙΚΗ ΑΝΑΛΥΣΗ ΠΡΟΤΑΣΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ 2.1 Στόχος Προτασιακών Συστημάτων Αύξηση αριθμού πωλήσεων Ένας από τους πιο βασικούς λόγους για την δημιουργία ενός προτασιακού συστήματος είναι η αύξηση των πωλήσεων. Στις μέρες όπου κάθε εταιρία θέλει να αυξήσει τις πωλήσεις της ένα Π.Σ είναι το καλύτερο μέσο για την επίτευξη του στόχου, καθώς συνεχώς συλλέγει δεδομένα και είναι σε θέση να προτείνει προϊόντα τα οποία είναι πιο κοντά στις προσδοκίες των χρηστών. Όσο περισσότερα αντικείμενα προτείνονται σε έναν χρήστη τόσο περισσότερες πιθανότητες έχει να επιλέξει κάποιο από αυτά, αυτό όμως θα έχει ως αποτέλεσμα να προτείνονται συνεχώς προϊόντα τα οποία είναι όσο το δυνατόν πιο ατομοκεντρικά γίνεται, με αποτέλεσμα να αυξάνονται οι πωλήσεις τις εκάστοτε εταιρίας η οποία χρησιμοποιεί ένα τέτοιο σύστημα σε σχέση με αυτές που διαφημίζουν προϊόντα γενικού περιεχομένου χωρίς να επιδρά το ατομοκεντρικό μάρκετινγκ προώθησης των προϊόντων. Ο στόχος είναι ίδιος και σε άλλες υπηρεσίες καθώς ο βασικός στόχος είναι η αύξηση είτε τις δημοτικότητας σε Web εφαρμογές, είτε των πωλήσεων σε επιχειρήσεις αντίστοιχα. Μπορούμε λοιπόν να καταλήξουμε στο ότι ο βασικός στόχος είναι η αύξηση του αριθμού των προτάσεων σε κάθε χρήστη καθώς όσο περισσότερες προτάσεις γίνουν τόσο αυξάνονται οι πιθανότητες να αγοραστούν προϊόντα Αύξηση της ικανοποίησης των χρηστών Ένας πολύ σημαντικός ρόλος ενός Π.Σ είναι η ικανοποίηση του χρήστη. Γνωρίζουμε πως κάθε αγορά μας πρέπει να μας ικανοποιεί για να την θεωρήσουμε καλή. Αυτή η ικανοποίηση μπορεί να είναι ψυχολογική αλλά και πρακτική. Αυτό έχει ως αποτέλεσμα ένα Π.Σ το οποίο ικανοποιεί τους χρήστες να δέχεται περισσότερες επισκέψεις από ανθρώπους οι οποίοι δεν το χρησιμοποιούσαν, καθώς η ικανοποίηση είναι η πηγή της καλύτερης διαφήμισης, το οποίο έχει ως αποτέλεσμα να δημιουργούνται εν δύναμη περισσότερες πωλήσεις, ενώ αντίστοιχα από την πλευρά των υπαρχόντων χρηστών περισσότερη επισκεψιμότητα καθώς το υπάρχον σύστημα λειτουργεί για αυτόν ως μέσο ικανοποίησης για την παροχή υλικών προϊόντων ή υπηρεσιών Πώληση μεγαλύτερης ποικιλίας προϊόντων Καθώς ο αριθμός των αντικειμένων προϊόντων-υπηρεσιών συνεχώς αυξάνεται υπάρχουν αντικείμενα τα οποία έχουν θεωρηθεί είτε παλαιωμένα είτε μη σχετικά με κάποια άλλα καθώς η τεχνοτροπία τους είναι παλιά. Δεν παύουν όμως να σχετίζονται με κάποιον τρόπο με κάποια άλλα. Ένα καλό παράδειγμα προς παρουσίαση είναι τα σχετικά προϊόντα που πωλούνται μαζί με τα επιλεγμένα προς αγορά από ένα ηλεκτρονικό κατάστημα. Όσο ο χρήστης επιλέγει τι θέλει να αγοράσει του εμφανίζονται προϊόντα τα οποία είναι μεν σχετικά με αυτά τα οποία έχει επιλέξει προς αγορά αλλά ανήκουν σε άλλη κατηγορία προϊόντων. Για παράδειγμα σε ένα σύστημα προτάσεων για ηλεκτρονικούς υπολογιστές καθώς γίνεται η αγορά ενός laptop 24

25 ΚΕΦΑΛΑΙΟ 2:ΘΕΩΡΗΤΙΚΗ ΑΝΑΛΥΣΗ ΠΡΟΤΑΣΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ εμφανίζονται σχετικά περιφερειακά προϊόντα, όπως πληκτρολόγια και τσάντες. 2.2 Οικογένειες Προτασιακών Συστημάτων Διήθηση βασισμένη στο περιεχόμενο (Content-Based Systems) Βασίζονται στον εντοπισμό ομοιοτήτων ανάμεσα στα αντικείμενα του ενδιαφέροντος (όπως οι ιστοσελίδες) και στα προφίλ των χρηστών. Τα προφίλ των χρηστών μπορούν να έχουν προκύψει είτε από πληροφορίες που έχει δώσει ο ίδιος ο χρήστης (explicit data) είτε από πληροφορίες που έχουν συλλεχθεί έμμεσα και τον αφορούν (implicit data). Οι τεχνικές contentbased filtering έχουν τις ρίζες τους στην ανάκτηση πληροφοριών (information retrieval) και την έρευνα που γίνεται σχετικά με case-based reasoning. Η επιτυχία τους βασίζεται στην δυνατότητα να παρασταθούν με μεγάλη ακρίβεια αντικείμενα που πρόκειται να προταθούν, υπό τη μορφή των κατάλληλων γνωρισμάτων περιεχομένου (content features). Παράλληλα είναι αναγκαία και η αναπαράσταση των πληροφοριών από το προφίλ του χρήστη χρησιμοποιώντας το ίδιο σύνολο γνωρισμάτων περιεχομένου. Ο συσχετισμός ανάμεσα σε ένα αντικείμενο και σε ένα χρήστη-στόχο είναι ανάλογος με την ομοιότητα αυτού του αντικειμένου με το προφίλ του συγκεκριμένου χρήστη. Το σημαντικότερο πρόβλημα με τις content-based μεθόδους είναι η ανάγκη για μια καλή απεικόνιση των γνωρισμάτων περιεχομένου. Η εύρεση αυτής της απεικόνισης μπορεί να αποδειχτεί προβληματική και χρονοβόρα. Σε μερικές περιπτώσεις μάλιστα ίσως δεν είναι δυνατό να βρεθεί μια τέτοια απεικόνιση. Άλλα προβλήματα που εμφανίζουν οι content-based τεχνικές έχουν να κάνουν με τον τρόπο που επιλέγουν τα αντικείμενα τα οποία προτείνουν στο χρήστη. Επειδή οι προτάσεις που γίνονται βασίζονται σε αντικείμενα παρόμοια με αντικείμενα που ο χρήστης επέλεξε στο παρελθόν, το προφίλ του χρήστη και τα αντικείμενα που αυτό περιλαμβάνει, περιορίζει αυτόματα το πλήθος των προτάσεων που μπορούν να του γίνουν στο μέλλον. Το πρόβλημα αυτό είναι εντονότερο σε περιπτώσεις νέων χρηστών των οποίων τα προφίλ περιέχουν περιορισμένο αριθμό αντικειμένων. Έτσι είναι πολύ δύσκολο να βρεθούν καινούργια αντικείμενα τα οποία να μοιάζουν με αυτά που υπάρχουν ήδη στο προφίλ τους, για να τους προταθούν. Το συγκεκριμένο φαινόμενο είναι γνωστό στη βιβλιογραφία ως diversity problem. [6] Συνεργατική διήθηση (Collaborative Filtering Systems) Τα συστήματα που βασίζονται στην συνεργατική διήθηση δέχονται πληροφορίες με τη ρητή μορφή προτιμήσεων και βαθμολογιών (ratings) ενός χρήστη, και στη συνέχεια με τη βοήθεια μιας μηχανής συσχετίσεων (correlation engine) επιστρέφουν αποτελέσματα που θεωρητικά ταιριάζουν σε μεγάλο βαθμό με τις προτιμήσεις του τελικού χρήστη. Η βασική ιδέα πίσω από τα συστήματα collaborative filtering είναι η άντληση πληροφοριών από τις εμπειρίες μιας ολόκληρης κοινωνίας χρηστών και όχι μόνο από έναν μεμονωμένο άτομο. Τυπικά κάθε χρήστης που αποτελεί «στόχο» του συστήματος (target user) σχετίζεται με ένα σύνολο από άλλους χρήστες, των οποίων τα προφίλ παρουσιάζουν τις μεγαλύτερες ομοιότητες (nearest- 25

26 ΚΕΦΑΛΑΙΟ 2:ΘΕΩΡΗΤΙΚΗ ΑΝΑΛΥΣΗ ΠΡΟΤΑΣΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ neighbor users) με τις πληροφορίες που υπάρχουν για το χρήστη-στόχο. Οι τεχνικές collaborative filtering αναζητούν συσχετισμούς ανάμεσα στους χρήστες, οι οποίοι προκύπτουν από τις προτιμήσεις που τους αποδίδονται στα προφίλ των χρηστών. Οι χρήστες που τελικά επιλέγονται είναι εκείνοι που εμφανίζουν το μεγαλύτερο συσχετισμό με το χρήστη-στόχο. Οι χρήστες αυτοί στη συνέχεια αποτελούν recommendation partners για το χρήστηστόχο και αντικείμενα που εμφανίζονται στα προφίλ τους (και όχι στο προφίλ του χρήστη-στόχου) μπορούν να προταθούν σε αυτόν. Έτσι, οι τελικές προτάσεις που θα γίνουν στο χρήστη-στόχο προκύπτουν με βάση την ομοιότητα ανάμεσα στους χρήστες (user similarity) και όχι την ομοιότητα ανάμεσα στα αντικείμενα (item similarity) όπως γίνεται στα content-based συστήματα. Σύγκριση collaborative filtering και content-based μεθόδων: Τα συστήματα collaborative filtering παρουσιάζουν μια σειρά προτερημάτων σε σχέση με τα content based συστήματα. Καταρχήν, στα συστήματα collaborative filtering δεν είναι αναγκαία η εύρεση μιας αναπαράστασης των γνωρισμάτων περιεχομένου (content features representation) κάτι που έχει ως αποτέλεσμα η διαδικασία εύρεσης γνώσης (knowledge engineering) να είναι πολύ πιο απλή. Επίσης, η ποιότητα των συστημάτων collaborative filtering βελτιώνεται όσο το μέγεθος του πληθυσμού των χρηστών αυξάνεται, επειδή οι προτάσεις που γίνονται ωφελούνται από την ποικιλία που παρουσιάζουν τα πολλά και διαφορετικά προφίλ χρηστών. Αυτό δεν συμβαίνει στα content-based συστήματα, όπου ανεξάρτητα από τον αριθμό των χρηστών, ένας νέος χρήστης δεν θα μπορεί να πάρει ικανοποιητικές προτάσεις, εξαιτίας του περιορισμένου του προφίλ. Τα collaborative filtering συστήματα πάσχουν και αυτά με τη σειρά τους από κάποια μειονεκτήματα. Κατά κύριο λόγο, δεν είναι κατάλληλα όταν πρόκειται να κρίνουν και να προτείνουν στο χρήστη καινούργια αντικείμενα, γιατί οι τεχνικές αυτές μπορούν να προτείνουν μόνο αντικείμενα που έχουν ήδη κριθεί από άλλους χρήστες. Συνεπώς, όταν ένα νέο αντικείμενο εμφανιστεί, θα πρέπει να περάσει πρώτα κάποιος χρόνος μέχρις ότου ένας ικανοποιητικός αριθμός χρηστών να το κρίνει έτσι ώστε στη συνέχεια να μπορεί να προταθεί και σε άλλους χρήστες. Το φαινόμενο αυτό είναι γνωστό ως The latency problem και είναι πολύ έντονο σε συστήματα που χρησιμοποιούν αποκλειστικά μεθόδους collaborative filtering. Ακόμα, τα collaborative filtering συστήματα δεν παρουσιάζουν ικανοποιητική απόδοση στην περίπτωση του «ασυνήθιστου χρήστη» (unusual user). Συγκεκριμένα, δεν υπάρχουν εγγυήσεις ότι θα βρεθούν οι κατάλληλοι recommendation partners για ένα χρήστη, ειδικά αν δεν υπάρχει ικανοποιητική κάλυψη ανάμεσα στο προφίλ του και στα προφίλ των υπολοίπων χρηστών. Αν κάποιος χρήστης περιλαμβάνει στο προφίλ του μικρό αριθμό κρίσεων ή κρίσεις που δεν υπάρχουν σε άλλα προφίλ, τότε είναι πολύ δύσκολο να του γίνουν αξιόπιστες προτάσεις από συστήματα που εφαρμόζουν αποκλειστικά collaborative filtering τεχνικές. 26

27 ΚΕΦΑΛΑΙΟ 2:ΘΕΩΡΗΤΙΚΗ ΑΝΑΛΥΣΗ ΠΡΟΤΑΣΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Υβριδικές προσεγγίσεις (hybrid recommender systems) Η κατηγορία συστημάτων αυτή χρησιμοποιεί ένα συνδυασμό των μεθόδων που αναφέραμε παραπάνω, εκμεταλλεύεται τα προτερήματα τις μίας τεχνικής για να καλύψει τα μειονεκτήματα της άλλης. Υπάρχουν πολλοί διαφορετικοί τρόποι με τους οποίους συνδυάζονται δύο ή και περισσότερες τεχνικές συστημάτων προτάσεων για να δημιουργηθεί ένα υβριδικό σύστημα. Στόχος του συνδυασμού διαφορετικών μεθόδων είναι η βελτίωση της απόδοσής τους [7]. Πλεονεκτήματα υβριδικών μεθόδων Με την υποβολή συνεργατικών συστάσεων, μπορεί να χρησιμοποιηθεί η εμπειρία των άλλων χρηστών ως βάση συστάσεων, αντί για τις ελλιπείς και ανακριβείς μεθόδους ανάλυσης περιεχομένου. Με το να υποβάλλονται και συστάσεις βασισμένες στο περιεχόμενο, μπορούν να εξεταστούν στοιχεία άγνωστα σε άλλους χρήστες. Μπορεί να χρησιμοποιηθεί το προφίλ που χτίζεται από το περιεχόμενο των στοιχείων για να υποβληθούν καλές συστάσεις στους χρήστες, ακόμα κι αν δεν υπάρχουν παρόμοιοι με αυτούς χρήστες. Μπορούν να υποβληθούν συνεργατικές συστάσεις μεταξύ χρηστών που δεν έχουν εκτιμήσει οπωσδήποτε ακριβώς τα ίδια στοιχεία (εφ' όσον έχουν εκτιμήσει παρόμοια στοιχεία), επεκτείνοντας τη δυνατότητα των συνεργατικών συστημάτων για να συμπεριλάβουν και τις βάσεις δεδομένων που αλλάζουν γρήγορα ή είναι πολύ μεγάλες όσον αφορά τον αριθμό χρηστών. Με τη χρησιμοποίηση της ανατροφοδότησης ομάδας απαιτούνται ενδεχομένως λιγότεροι κύκλοι εργασίας για να επιτευχθεί το ίδιο επίπεδο εξατομίκευσης. Τεχνική Δεδομένα Είσοδος Διαδικασία Content-based Χαρακτηριστικά των προϊόντων στο I Βαθμολογήσεις του u για τα προϊόντα στο I Παραγωγή προφίλ με βάση την βαθμολογική συμπεριφορά του u και χρήση του στο I Collaborative Βαθμολογήσεις των U στα προϊόντα του I Βαθμολογήσεις του u για τα προϊόντα στο I Εύρεση χρηστών του U ομοίων του u και χρήση των βαθμολογιών τους για το i Demographic Δημογραφικά δεδομένα για τους χρήστες του U και τις βαθμολογήσεις τους στα προϊόντα του I Δημογραφικές πληροφορίες για τον u Εύρεση χρηστών του U που είναι δημογραφικά όμοιοι με τον u και χρήση των βαθμολογιών τους 27

28 ΚΕΦΑΛΑΙΟ 2:ΘΕΩΡΗΤΙΚΗ ΑΝΑΛΥΣΗ ΠΡΟΤΑΣΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ για το i Hybrid Systems Δεδομένα προς επεξεργασία ανάλογα των μεθόδων που απαρτίζουν το υβριδικό σύστημα Δεδομένα και βαθμολογίες ανάλογα των μεθόδων που απαρτίζουν το υβριδικό σύστημα Παραγωγή προφίλ με βάση των τρόπων δράσεις των μεθόδων που απαρτίζουν το υβριδικό σύστημα. Hybrid Systems based in Contentbased and collaborative filtering Δεδομένα προς επεξεργασία ανάλογα των μεθόδων που απαρτίζουν το υβριδικό σύστημα 2.3 Ανοικτά προβλήματα Βαθμολογήσεις του u για τα προϊόντα στο I Πίνακας 1.1 : Τεχνικές των Συστημάτων Προτάσεων. Παραγωγή προφίλ με βάση την βαθμολογική συμπεριφορά του u και χρήση του στο I και στα χαρακτηριστικά του I Παρά το ενδιαφέρον των εταιριών και τον σημαντικό όγκο ερευνητικής δραστηριότητας για τα συστήματα συστάσεων, υπάρχουν σημαντικά προβλήματα και ανοικτές προκλήσεις που χρίζουν επίλυση. Η Συνεργατική Διήθηση αποτελεί ίσως την πιο πετυχημένη οικογένεια τεχνικών για την παραγωγή συστάσεων. Η μεγάλη απήχησή της στο διαδίκτυο αλλά και η ευρεία εφαρμογή της σε σημαντικά εμπορικά περιβάλλοντα, έχουν οδηγήσει στη σημαντική ανάπτυξη της θεωρίας την τελευταία δεκαετία, όπου μια ευρεία ποικιλία αλγορίθμων και μεθόδων έχουν προταθεί. Ωστόσο, παρά την πρωτοφανή τους επιτυχία οι CF μέθοδοι παρουσιάζουν κάποιους σημαντικούς περιορισμούς. Περιορισμένη κάλυψη (Coverage) Επειδή τα συστήματα συστάσεων βασίζονται στις ομοιότητες μεταξύ χρηστών μέσω τις σύγκρισης των βαθμολογιών τους για τα ίδια προϊόντα, δυο χρήστες μπορούν να θεωρηθούν γείτονες από το σύστημα μόνο αν έχουν βαθμολογήσει τα ίδια προϊόντα. Το γεγονός αυτό είναι αρκετά περιοριστικό, καθώς υπάρχει και η περίπτωση χρήστες που δεν έχουν βαθμολογήσει κοινά προϊόντα ή έχουν βαθμολογήσει μόνο λίγα να έχουν παρόλα αυτά κοινά ενδιαφέροντα. Επιπλέον, επειδή το σύστημα είναι έτσι οργανωμένο ώστε να μπορεί να συστήνει σε έναν χρήστη μόνο προϊόντα που έχουν βαθμολογήσει οι γείτονές του, υπάρχει περιορισμός στην κάλυψη των προϊόντων που προτείνονται. Η κάλυψη λοιπόν μπορεί να καθοριστεί σαν το ποσοστό των αντικειμένων για τα οποία ο αλγόριθμος θα μπορούσε να παρέχει συστάσεις. Το πρόβλημα της περιορισμένης κάλυψης (reduced coverage) συμβαίνει όταν ο αριθμός των βαθμολογιών που έχουν δώσει οι χρήστες είναι πολύ μικρός σε σχέση με τον αριθμό των αντικειμένων που υπάρχουν στο σύστημα. 28

29 ΚΕΦΑΛΑΙΟ 2:ΘΕΩΡΗΤΙΚΗ ΑΝΑΛΥΣΗ ΠΡΟΤΑΣΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αραιά δεδομένα (Data Sparsity) Ένα άλλο σημαντικό πρόβλημα των Collaborative Filtering neighbor based συστημάτων είναι η έλλειψη διαθέσιμων βαθμολογιών. Οι χρήστες σε γενικές γραμμές βαθμολογούν μόνο ένα μικρό ποσοστό όλων των διαθέσιμων προϊόντων που υπάρχουν αποθηκευμένα στο σύστημα. Έτσι λοιπόν, το σύστημα προτάσεων έχει να προβλέψει μεγαλύτερο αριθμό βαθμολογιών από εκείνες που υπάρχουν καταχωρημένες από τους χρήστες, γεγονός που καθιστά δύσκολη την εύρεση όμοιων χρηστών. Κάποιος χρήστης συνεπώς που είναι «δύσκολος» ή έχει πολύ ιδιαίτερες προτιμήσεις δεν θα μπορέσει να πάρει αξιόλογες προτάσεις. Επίσης ένας χρήστης που δεν έχει βαθμολογήσει πολλά προϊόντα, είναι δύσκολο να συνδεθεί με όμοιους χρήστες. Με αραιά δεδομένα, δυο χρήστες ή προϊόντα είναι αρκετά απίθανο να μοιράζονται κοινές βαθμολογίες, με αποτέλεσμα τα neighborbased συστήματα να παράγουν προβλέψεις χρησιμοποιώντας μόνο έναν περιορισμένο αριθμό γειτόνων. Για την εξάλειψη του προβλήματος των αραιών δεδομένων, έχουν προταθεί στη βιβλιογραφία μια σειρά από προσεγγίσεις. Τεχνικές μείωσης διαστάσεων (dimensionality reduction), προβάλλουν τους χρήστες και τα αντικείμενα σε ένα μητρώο μειωμένων διαστάσεων στο χώρο, το οποίο συμπεριλαμβάνει τα πιο βασικά χαρακτηριστικά τους. Με αυτόν τον τρόπο, σε αυτόν τον χώρο πυκνών χαρακτηριστικών, μπορούν να βρεθούν σχέσεις ακόμα και ανάμεσα σε χρήστες που δεν έχουν βαθμολογήσει τα ίδια αντικείμενα. Η μείωση διαστάσεων γίνεται είτε στο user-item μητρώο, είτε στο μητρώο αποθήκευσης των ομοιοτήτων. Ένας τρόπος χειρισμού των προβλημάτων της περιορισμένης κάλυψης και των αραιών δεδομένων, αποτελούν οι graph-based μέθοδοι. Στις προσεγγίσεις που ανήκουν σε αυτή την κατηγορία, τα δεδομένα αναπαρίστανται με τη μορφή γράφου όπου οι κόμβοι είναι χρήστες, αντικείμενα ή και τα δυο μαζί και οι ακμές αντιστοιχούν στις σχέσεις ή στις ομοιότητες μεταξύ των χρηστών και των αντικειμένων. Τα δεδομένα μοντελοποιούνται με ένα διμερή γράφο, όπου τα 2 σύνολα των κόμβων αναπαριστούν χρήστες και αντικείμενα, και μια ακμή του γράφου συνδέει ένα χρήστη u με ένα αντικείμενο i, αν o χρήστης u έχει βαθμολογήσει το αντικείμενο i. Στην ακμή αυτή είναι δυνατόν να δοθεί ένα βάρος, όπως είναι η βαθμολογία που έχει δώσει ο χρήστης. Σε ένα άλλο μοντέλο γράφου, όπου οι κόμβοι αναπαριστούν είτε χρήστες, είτε αντικείμενα, η ακμή που συνδέει δυο κόμβους δηλώνει το βαθμό συσχέτισης τους. Οι graph-based προσεγγίσεις, επιτρέπουν σε κόμβους που δεν συνδέονται απευθείας με μια ακμή να επηρεάζουν ο ένας τον άλλον, καθώς θεωρούν ότι η πληροφορία μεταφέρεται στις συνδεόμενες ακμές. Όσο μεγαλύτερο είναι το βάρος μιας ακμής, τόσο περισσότερη πληροφορία επιτρέπεται να περάσει μέσω αυτής. Επίσης, η επιρροή ενός κόμβου σε έναν άλλον, μικραίνει όσο πιο απομακρυσμένοι είναι οι κόμβοι μεταξύ τους. Αυτές οι δυο ιδιότητες, γνωστές ως propagation και attenuation, παρατηρούνται συχνά σε graph-based μέτρα ομοιότητας. Η εκμετάλλευση των μεταβατικών σχέσεων των δεδομένων σε ένα γράφο μειώνει τα προβλήματα της περιορισμένης κάλυψης και των αραιών δεδομένων, αφού πλέον μπορούν να εκτιμηθούν σχέσεις ανάμεσα σε χρήστες ή αντικείμενα που δεν συνδέονται άμεσα μεταξύ τους. 29

30 ΚΕΦΑΛΑΙΟ 2:ΘΕΩΡΗΤΙΚΗ ΑΝΑΛΥΣΗ ΠΡΟΤΑΣΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Κλίση προς τις δημοφιλείς επιλογές (The Curse of Popularity) Επειδή συνήθως τις περισσότερες βαθμολογήσεις τις παίρνουν τα πιο δημοφιλή προϊόντα που είναι ευρέως γνωστά, τα συστήματα προτάσεων βασισμένα στο περιεχόμενο είναι προκατειλημμένα προς αυτά τα προϊόντα. Αν για παράδειγμα ένα μουσικό κομμάτι έχει βαθμολογηθεί μόνο λίγες φορές, τότε το σύστημα θα το συστήνει μόνο σε σπάνιες περιπτώσεις, καθώς η βαθμολογία που προβλέφθηκε μπορεί να μην είναι αξιόπιστη. Αντιθέτως δε τα μουσικά τραγούδια τα οποία έχουν ψηφιστεί πολλές φορές είναι περισσότερο δημοφιλή. Αυτό έχει ως αποτέλεσμα να προτείνονται περισσότερες φορές και σε περισσότερους χρήστες τα αντικείμενα τα οποία είναι περισσότερο γνωστά σε σχέση με τα λιγότερο δημοφιλή. Πρόβλημα ψυχρής εκκίνησης (Cold-start): Το πρόβλημα αυτό αντιμετωπίζεται κυρίως στην κατηγορία της συνεργατικής διήθησης και αφορά δύο καταστάσεις, έναν νέο χρήστη και ένα νέο αντικείμενο. Στην περίπτωση που έχουμε ένα νέο χρήστη να δημιουργεί έναν λογαριασμό, δεν έχουμε για αυτόν καθόλου πληροφορία σχετικά με τις προτιμήσεις του. Δυστυχώς οι αλγόριθμοι συνεργατικής διήθησης βασίζονται επάνω σε αυτή την υπόθεση, ότι θα έχουν δηλαδή πληροφορίες προτιμήσεων για έναν χρήστη προκειμένου να του προσφέρουν παρόμοιες προτιμήσεις που άλλοι χρήστες με παρόμοιο ιστορικό προτιμήσεων είχαν. Ακόμα και όταν αρχίσει ο χρήστης να έχει κάποιες λιγοστές προτιμήσεις, συνεχίζουμε να αντιμετωπίζουμε προβλήματα που έχουν αντίκτυπο στην ακρίβεια (accuracy), αφού η πληροφορία δεν επαρκεί για να μπορούμε να τον συγκρίνουμε σωστά με άλλους χρήστες. Στην περίπτωση που έχουμε ένα νέο αντικείμενο, αντιμετωπίζουμε το πρόβλημα ότι δεν θα το έχουν προτιμήσει αρκετοί χρήστες. Για άλλη μια φορά οι αλγόριθμοι της συνεργατικής διήθησης έχουν ως προϋπόθεση για να προτείνουν ένα αντικείμενο αυτό να έχει προτιμηθεί από άλλους, οπότε και σε αυτήν την περίπτωση έχουμε πρόβλημα. Τα προβλήματα αυτά δεν εμφανίζονται στους αλγορίθμους που ανήκουν στην κατηγορία της διήθησης βασισμένης στο περιεχόμενο, αφού εάν έχουν επαρκή πληροφορία για ένα αντικείμενο μπορούν να το προωθήσουν προς του χρήστες ακόμη και αν αυτοί έχουν ελάχιστες προτιμήσεις ή ακόμα και αν δεν το έχει προτιμήσει κανείς αυτό το αντικείμενο. Πρόβλημα περιορισμένης ανάλυσης περιεχομένου (Limited Content Analysis) Ένα πρόβλημα που υπάρχει στον τομέα των ταξινομητών και γενικότερα στον τομέα της εξόρυξης γνώσης είναι αυτό της ανάλυσης αντικείμενων τα οποία περιέχουν πολύ μικρό πλήθος πληροφορίας προς επεξεργασία για το εκάστοτε αντικείμενο. Αυτό γιατί όσο λιγότερη είναι η πληροφορία προς ανάλυση τόσο πιο δύσκολη είναι η κατηγοριοποίηση του αντικειμένου. Για την λύση αυτού του προβλήματος έχουν προταθεί τεχνικές οι οποίες βασίζονται σε εξωτερικές πηγές, καθώς επίσης και τεχνικές οι οποίες εξετάζουν περισσότερες πτυχές που σχετίζονται με τις υπάρχουσες ιδιότητες αναλύοντας τις βαθμολογίες των χρηστών έχοντας ως στόχο την δημιουργία σχετικής πληροφορίας. Η επιπρόσθετη πληροφορία χρησιμοποιείται για την ενδυνάμωση του τρόπου δράσης των ταξινομητών αυξάνοντας το συντελεστή διακριτοποίησης. Το πλαίσιο το οποίο παρουσιάζεται στην παρούσα εργασία βασίζεται στην ανάλυση των χαρακτηριστικών των αντικειμένων με στόχο την καλύτερη συσχέτιση των αντικειμένων με την χρήση του χαρακτηριστικού της ανομοιότητας. 30

31 ΚΕΦΑΛΑΙΟ 2:ΘΕΩΡΗΤΙΚΗ ΑΝΑΛΥΣΗ ΠΡΟΤΑΣΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Τα παραπάνω προβλήματα αποτελούν ίσως τα πιο σημαντικά προβλήματα στα Προτασιακά Συστήματα που κρίναμε απαραίτητο ότι πρέπει να αναφερθούν, ενώ η λίστα συνεχίζεται με πολλά άλλα προβλήματα όπως οι μεταβαλλόμενες προτιμήσεις των χρηστών (Changing User Preferences) όπου παρατηρούμε ατομικές αλλαγές στις συνήθειες, και οι τάσεις (Trends) όπου ένα Προτασιακό Σύστημα θα πρέπει να είναι σε θέση να προσαρμόζεται στις νέες τάσεις. Φαίνεται λοιπόν από τα προηγούμενα πως και τα δύο είδη συστημάτων συστάσεων, εάν εφαρμοστούν μεμονωμένα, παρουσιάζουν συγκεκριμένα και κρίσιµα μειονεκτήματα καθώς και προβλήματα. Για να αποφευχθούν και να αντιμετωπιστούν τα προβλήματα αυτά υιοθετούνται υβριδικές προσεγγίσεις όπου χρησιμοποιούνται οι τεχνικές που εφαρµόζονται και στα δύο συστήµατα συστάσεων. Έτσι χρησιµοποιούνται οι τεχνικές που προκύπτουν από τα συστήµατα συστάσεων βάσει περιεχομένου σε συνδυασµό µε τεχνικές που προκύπτουν από αυτά που λειτουργούν βάσει φίλτρου συνεργασίας. 2.4 Βιβλιογραφική Ανασκόπηση Η εξαγωγή νέων χαρακτηριστικών για τα βαθμολογούμενα αντικείμενα τα οποία πάσχουν από το πρόβλημα της περιορισμένης ανάλυσης περιεχομένου είναι ένας τομέας ο οποίος απασχολεί ιδιαίτερα τον κλάδο των προτασιακών συστημάτων. Λύση σε αυτό το πρόβλημα μπορεί να δοθεί είτε με την χρήση εξωτερικών πηγών για την ενσωμάτωση πληροφορίας είτε μέσω της ανάλυσης των αξιολογήσεων των χρηστών. Έχουν γίνει πολλές έρευνες για την ενδυνάμωση του τρόπου λειτουργίας των Content Based ταξινομητών αλλά και των Collaborative Filtering. Μια πολύ καλή προσέγγιση έχει επιτευχθεί με την χρήση εξωτερικών πηγών πληροφορίας στο «A probabilistic approach to semantic collaborative filtering using world knowledge»[6] όπου χρησιμοποιήθηκαν Wikipedia, Open Directory Project ως ενισχυτές της ικανότητας διακριτοποίησης με την εισαγωγή επιπρόσθετης πληροφορίας. Στην προσπάθεια τους να ενδυναμώσουν τα προτασιακά συστήματα χωρίς την χρήση εξωτερικών πηγών γνώσης στο «Semantic Web Recommender Systems»[7] δείχνεται πως μπορεί να επιτευχθεί η καλύτερη εκπαίδευση των συστημάτων σύστασης με την εισαγωγή δομημένης πληροφορίας ως κατασταλτικό παράγοντα διακριτοποίησης. Αντίθετα έχουν υλοποιηθεί τεχνικές οι οποίος αντί να εισάγουν νέα πληροφορία για επεξεργασία με σκοπό την καλύτερη ανάκτηση γνώσης προτείνουν την αποσαφήνιση του προβλήματος με την επιλογή των κατάλληλων χαρακτηριστικών «Efficient Feature Selection in Conceptual Clustering»[8]. Στις περιπτώσεις όπου είναι αδύνατη η χρήση εξωτερικής πληροφορίας ή δεν ενδείκνυται καθώς επίσης και στις περιπτώσεις που η πληροφορία δεν είναι επαρκής ώστε να χρησιμοποιηθούν αλγόριθμοι αποσαφήνισης όπως στο [8] έχουν αναπτυχθεί συνδυαστικοί τρόποι υβριδικών προτασιακών συστημάτων οι οποίοι χρησιμοποιούν την υπάρχουσα πληροφορία για την δημιουργία νέων χαρακτηριστικών χρησιμοποιώντας τα προτερήματα των εκάστοτε αλγορίθμων που απαρτίζουν το υβριδικό μοντέλο. «Content Boosted Collaborative Filtering for Improved Recommendations»[9]. Στην προσπάθεια ανάλυσης των διαθέσιμων βαθμολογιών για εξαγωγή νέων χαρακτηριστικών, στο «Feature-based prediction of unknown preferences for nearestneighbor collaborative filtering»[10] παρουσιάστηκε μια μέθοδο που παράγει χαρακτηριστικά υποσχόμενοι να φέρουν πιο κοντά τους χρήστες που βαθμολόγησαν 31

32 ΚΕΦΑΛΑΙΟ 2:ΘΕΩΡΗΤΙΚΗ ΑΝΑΛΥΣΗ ΠΡΟΤΑΣΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ διαφορετικά αντικείμενα με ίδιες τιμές ιδιοτήτων με αποτέλεσμα να γίνονται συστάσεις με παράγοντα τον χρήστη. Μια άλλη πρακτική αναπτύχθηκε με item-based τεχνικές στο «Item-based collaborative filtering recommendation algorithms»[11] όπου χωρίς την προσθήκη εξωτερικής γνώσης οι ερευνητές εισήγαγαν νέα πληροφορία ομοιότητας στο σύστημα διήθησης μέσω των γειτονικών χρηστών. Σε μια άλλη εργασία «Feature-weighted User Model for Recommender Systems» [12], οι ερευνητές δημιουργούν προφίλ χρηστών βασισμένα σε χαρακτηριστικά με βάρη, τα οποία εξάγονται από συσχετίσεις χρηστών με τιμές ιδιοτήτων των αντικειμένων. Από αυτά τα προφίλ βγαίνουν όμοιοι χρήστες από τους οποίους παράγονται οι τελικές λίστες με τις καλύτερες προτάσεις. Παρομοίως, στην ερευνητική προσπάθεια, «Dissimilarity Features in Recommender Systems» [13] την οποία υλοποιήσαμε στην παρούσα εργασία τα προφίλ χρηστών περιέχουν προτιμήσεις σε τιμές ιδιοτήτων, αποτελώντας έναν άλλο τρόπο συσχέτισης μεταξύ των δύο οντοτήτων. Επίσης, τα προφίλ χρηστών χρησιμοποιούνται για να δημιουργηθούν οι ομάδες. Ωστόσο, στη δική μας περίπτωση, η πληροφορία που προέρχεται από τις ομάδες χρηστών δεν οδηγεί κατευθείαν σε προτάσεις, αλλά χρησιμοποιείται στον υπολογισμό των χαρακτηριστικών ανομοιότητας, τα οποία επηρεάζουν τελικά την επίδοση των προτασιακών αλγορίθμων και τις παρεχόμενες προτάσεις. για τον υπολογισμό της ανομοιότητας των χρηστών ως προς τα αντικείμενα δράσης αναλύοντας τις βαθμολογίες των χρηστών στα χαρακτηριστικά των αντικειμένων «Integrating similarity and dissimilarity notions in recommenders» [14]. 32

33 ΚΕΦΑΛΑΙΟ 3:ΥΒΡΙΔΙΚΑ ΠΡΟΤΑΣΙΑΚΑ ΜΟΝΤΕΛΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΟΜΟΙΟΤΗΤΑΣ-ΑΝΟΜΟΙΟΤΗΤΑΣ Κ ε φ ά λ α ι ο 3 : Υ β ρ ι δ ι κ ά Π ρ ο τ α σ ι α κ ά Μ ο ν τ έ λ α μ ε χ ρ ή σ η τ ε χ ν ι κ ώ ν Ο μ ο ι ό τ η τ α ς - Αν ο μ ο ι ό τ η τ α ς 33

34 ΚΕΦΑΛΑΙΟ 3:ΥΒΡΙΔΙΚΑ ΠΡΟΤΑΣΙΑΚΑ ΜΟΝΤΕΛΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΟΜΟΙΟΤΗΤΑΣ-ΑΝΟΜΟΙΟΤΗΤΑΣ ΥΒΡΙΔΙΚΑ ΠΡΟΤΑΣΙΑΚΑ ΜΟΝΤΕΛΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΟΜΟΙΟΤΗΤΑΣ-ΑΝΟΜΟΙΟΤΗΤΑΣ Σε αυτό το σημείο αναλύουμε τον τρόπο με τον οποίο καταλήγουμε σε ένα υβριδικό Π.Σ. Επίσης θα περιγράψουμε τις διαδικασίες που ακολουθήσαμε σε αλγοριθμικό επίπεδο ώστε να διεκπεραιώσουμε αυτήν την εργασία καθώς επίσης και πως λειτουργεί το πλαίσιο ανομοιοτήτων με περισσότερες λεπτομέρειες. Για να μπορέσουν να παραχθούν συστάσεις από το σύστημα, θα πρέπει να είναι γνωστές οι προτιμήσεις των χρηστών. Επομένως πρέπει να δημιουργηθεί ένα προφίλ για κάθε χρήστη το οποίο θα περιέχει τις κάθε φορά απαραίτητες πληροφορίες που θα επιτρέπουν την σκιαγράφηση των ενδιαφερόντων και την συμπεριφορά του. Στο δικό μας υβριδικό μοντέλο η μόνη πληροφορία που έχουμε για την δημιουργία του προφίλ είναι οι βαθμολογίες των χρηστών σε αντικείμενα, έτσι βασιστήκαμε στην τεχνική διήθησης με βάση το περιεχόμενο αξιολογώντας τους χρήστες με βάση τα αντικείμενα που έχει ψηφίσει και στην τεχνική της συνεργατικής διήθησης ανακτώντας γνώση από τα χαρακτηριστικά των αντικειμένων τα οποία έχει ψηφίσει. Με αυτόν τον τρόπο καταλήξαμε σε μια αφαιρετική δομή η οποία αξιοποιεί την πληροφορία με τον καλύτερο δυνατό τρόπο για να παράξουμε όσο το δυνατόν περισσότερη γνώση μπορούμε από τον χρήστη χρησιμοποιώντας τις βαθμολογίες του σε αντικείμενα. Από αυτές τις βαθμολογίες εξάγουμε μέσω στατιστικών μοντέλων μετρικές οι οποίες θα μας βοηθήσουν αργότερα να δημιουργήσουμε τους συντελεστές ομοιότητας οι οποίοι στην συνέχεια και αυτοί με την σειρά τους αντιπροσωπεύουν ένα κομμάτι στην διαδικασία υπολογισμού της ανομοιότητας όπου είναι και ο τελικός στόχος του πλαισίου. 3.1 Μοντελοποίηση Χρηστών και Αντικειμένων Ως είσοδο στο προτασιακό σύστημα έχουμε αντικείμενα Items με I = {item 1,item 2,item 3...,item i } τα οποία περιέχουν ιδιότητες Attributes A={Attribute 1, Attribute 2, Attribute 3,...A L }. Όπου l = [1,2,...L] προσδιορίζουν των αριθμό των ιδιοτήτων που έχει ένα αντικείμενο. Το κάθε αντικείμενο ανήκει στις κατηγορίες και έχει χαρακτηριστικά Attribute Values, όπου Attribute Values είναι χαρακτηριστικά και ιδιότητες των αντικειμένων. Έχουμε ένα σύνολο από χρήστες U = {user 1,user 2, user 3,...,user N } και τις προτιμήσεις τους στα αντικείμενα Preferences P = {preference1,preference2,preference3,...,preference R }. Κάθε αξιολόγηση του χρήστη χαρακτηρίζεται από μια τριπλέτα ακέραιων αριθμών οι οποίοι δείχνουν ποιοι χρήστες έχουν βαθμολογήσει αντικείμενα και ποιά βαθμολογία έχουν δώσει. Preference R ={user a,,item b,val i } όπου user a U, item b I και val i R. Καθώς οι βαθμολογίες των χρηστών αφορούν αντικείμενα και όχι συγκεκριμένες ιδιότητες τους, κάνουμε την παραδοχή πως εάν ο χρήστης έχει δώσει βαθμολογία για ένα αντικείμενο τότε και οι ιδιότητές του παίρνουν εξίσου την ίδια βαθμολογία. Με τα δεδομένα αυτά, δημιουργούμε ένα προφίλ για κάθε χρήστη, το οποίο περιέχει πληροφορίες οι οποίες είναι σχετικές με την δράση του ως προς στα αντικείμενα και τις ιδιότητές του. 34

35 ΚΕΦΑΛΑΙΟ 3:ΥΒΡΙΔΙΚΑ ΠΡΟΤΑΣΙΑΚΑ ΜΟΝΤΕΛΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΟΜΟΙΟΤΗΤΑΣ-ΑΝΟΜΟΙΟΤΗΤΑΣ Μετρικές αξιολόγησης χρηστών Για τον υπολογισμό του συντελεστή ομοιότητας είναι απαραίτητη η εξέταση μερικών στατιστικών συντελεστών. P (u a ) P (u a, Aj ) d(u ) A(u, a ) avg(u ) Pop u, a Lik u, a AI u, a Αξιολογήσεις του χρήστη Αξιολογήσεις του χρήστη σε μια συγκεκριμένη ιδιότητα των αντικειμένων Προδιάθεση των χρηστών Μέση τιμή του χρήστη σε μια ιδιότητα Μέση τιμή βαθμολόγησης του χρήστη Δημοτικότητα Αρέσκεια Ενδιαφέρον για την ιδιότητα nai u, a Μέση τιμή ενδιαφέροντος για την ιδιότητα Πίνακας 3.1: Μετρικές αξιολόγησης χρήστη Αναλυτικότερα Αξιολογήσεις του χρήστη (User's Preferences): Οι αξιολογήσεις για έναν συγκεκριμένο χρήστη u a παρουσιάζονται από ένα υποσύνολο P (u a ) = { p i P p i = {u a, item, val i }} όπου item I. Αξιολογήσεις του χρήστη σε μια συγκεκριμένη ιδιότητα των αντικειμένων (User's Preferences on a Attribute): Σε αυτή την δομή εκτός από τον χρήστη συγκεκριμενοποιούμε και την ιδιότητα για την οποία έχει εκφράσει ενδιαφέρον. Επομένως έχουμε P (u a, Aj ) = { pi P pi = {u a, item A j, val i }} όπου item I. Προδιάθεση του χρήστη (User's Disposition): Χρησιμοποιείτε ως μετρική για τον χαρακτηρισμό του χρήστη ως αισιόδοξο ή απαισιόδοξο συγκρίνοντας τις αξιολογήσεις του σε σχέση με τις αξιολογήσεις άλλων χρηστών. Υπολογίζεται η μέση τιμή από τις αξιολογήσεις του χρήστη και στην συνέχεια διαιρείται με την μέση τιμή των αξιολογήσεων όλων των χρηστών. Το αποτέλεσμα μας δίνεται από τον παρακάτω τύπο. d(u ) = [val P(u )] P(u ) [15] val P P (3.1) Μετά τον υπολογισμό της τιμής του d(u a ) από τον παραπάνω τύπο μπορούμε να χαρακτηρίσουμε τον χρήστη ως αισιόδοξο ή απαισιόδοξο με βάση τον παραπάνω κανόνα. d(u a )= >1 ο χρήστης είναι αισιόδοξος < 1 ο χρήστης είναι απαισιόδοξος 1 μέσος χρήστης 35

36 ΚΕΦΑΛΑΙΟ 3:ΥΒΡΙΔΙΚΑ ΠΡΟΤΑΣΙΑΚΑ ΜΟΝΤΕΛΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΟΜΟΙΟΤΗΤΑΣ-ΑΝΟΜΟΙΟΤΗΤΑΣ Θεωρούμε αυτή την τιμή ως έναν παράγοντα κανονικοποίησης για τις αξιολογήσεις των χρηστών. Η χρήση του παράγοντα αυτού χρησιμοποιείται γιατί θέλουμε τα δεδομένα μας να υποστούν κάποια κβάντωση για την καλύτερη κατανομή στο εύρος τιμών ανάλογα με την τιμή της αισιοδοξίας. Μέση τιμή του χρήστη σε μια ιδιότητα (User s average value on a attribute): Για κάθε χρήστη υπολογίζουμε ένα διάνυσμα L μέσων τιμών, μία για κάθε διαθέσιμη κατηγορία. Για κάθε χρήστη και κατηγορία έχουμε: A(u, a ) = [d(u ) val ] p u, a P u, a [16] (3.2) p P(u, a )p = [u, item, ri] (3.3) Η τεχνική αυτή χρησιμοποιείται για να εξάγουμε πληροφορία σχετικά με το πόσο ενδιαφέρει μια συγκεκριμένη κατηγορία για κάθε ιδιότητα των αντικειμένων. Μέση τιμή βαθμολόγησης του χρήστη (User Average Rating): Χρησιμοποιήσαμε αυτήν την τεχνική για να προσεγγίσουμε τον μέσο αριθμό βαθμολογιών ενός χρήστη. avg(u ) = ( ) [d(u ) r ] P(u ) (3.4) Δημοτικότητα Αρέσκεια Καθώς μας ενδιαφέρει η επίδραση ενός προϊόντος στις αποφάσεις ενός χρήστη σχετικά με το πόσο δημοφιλές είναι για αυτόν και κατά πόσο του αρέσει σε σχέση με τα υπόλοιπα αντικείμενα τα οποία έχει ψηφίσει εισαγάγαμε δύο μετρικές, την μετρική της δημοτικότητας και αυτή της αρέσκειας [17]. Δημοτικότητα (Popularity) Η μετρική αυτή υπολογίζει το πόσο δημοφιλή είναι μία ιδιότητα των αντικειμένων για κάθε χρήστη και υπολογίζεται μέσω της σχέσης: Pop u, a = P u, a (3.5) P(u ) Αρέσκεια (Likness) Η μετρική αυτή υπολογίζει το πόσο αρέσει μια ιδιότητα από τα αντικείμενα που έχει ψηφίσει ο κάθε χρήστης και υπολογίζεται μέσω της σχέσης: 36

37 ΚΕΦΑΛΑΙΟ 3:ΥΒΡΙΔΙΚΑ ΠΡΟΤΑΣΙΑΚΑ ΜΟΝΤΕΛΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΟΜΟΙΟΤΗΤΑΣ-ΑΝΟΜΟΙΟΤΗΤΑΣ Lik (u a,a j x )= avg (u a,a j x ) l j avg(u a,a j i ) i= 1 (3.6) Ενδιαφέρον για την ιδιότητα Χρησιμοποιώντας τα αποτελέσματα των δύο παραπάνω μετρικών δημιουργούμε μια επιπλέον μετρική η οποία συνδυάζει την αρέσκεια και την δημοτικότητα των αντικειμένων και καταλήγουμε σε έναν συντελεστή ενδιαφέροντος για τις ιδιότητες των αντικειμένων από κάθε χρήστη ο οποίος είναι και ο κεντρικός παράγοντας για την εξαγωγή του συντελεστή ομοιότητας. Ο υπολογισμός του ενδιαφέροντος γίνεται μέσω της σχέσης: AI (u a,a x j )= (1+ β2 ) x Lik (u a, a x j ) x Pop(u a,a x j ) β 2 x Lik (u a,a x j )+Pop(u a, a x j ) Μέση τιμή ενδιαφέροντος για την ιδιότητα (3.7) Μετά τον υπολογισμό του ενδιαφέροντος του χρήστη για τις ιδιότητες κάνουμε μια κανονικοποίηση των τιμών σε σχέση με το ενδιαφέρον το χρήστη για όλα τα άλλα αντικείμενα που έχει ψηφίσει μέσω της σχέσης: nai (u a,a j x )= AI (u a, a j x ) l j AI (u a,a j i ) i= 1 (3.8) Συντελεστής Γραμμικής Συσχέτισης Pearson Correlation Μπορεί να υπολογιστεί η ομοιότητα μεταξύ δυο προϊόντων μέσω της Pearson συσχέτισης. Η συσχέτιση αυτή είναι ανάμεσα σε δυο αντικείμενα και αναπαριστάτε με έναν αριθμό ανάμεσα στο -1 και το 1 και μας δείχνει την κατεύθυνση και το μέγεθος της συσχέτισης των δυο προϊόντων ή χρηστών. Όσο πιο κοντά στο 1 είναι η απόλυτη τιμή τόσο μεγαλύτερη η συσχέτιση των αντικειμένων. Η κατεύθυνση της συσχέτισης μας δείχνει πώς μεταβάλλονται οι μεταβλητές. Έτσι, αρνητική συσχέτιση σημαίνει ότι όταν η βαθμολογία του ενός αντικειμένου ανεβαίνει, η βαθμολογία του άλλου πέφτει, ενώ θετική συσχέτιση δείχνει ότι οι μεταβολές των βαθμολογιών έχουν την ίδια κατεύθυνση. Έστω U η ομάδα των χρηστών που έχουν βαθμολογήσει και το προϊόν i και το j, και Ι η ομάδα των προϊόντων που έχουν βαθμολογηθεί από τους χρήστες u και v. Η ομοιότητα ανάμεσα σε δύο χρήστες υπολογίζεται με τη συσχέτιση Pearson ως εξής: r = (X X ) (Y Y ) (X X ) (Y Y ) (3.9) Αναλυτικότερα και με βάση το πρόβλημα υπολογισμού της ομοιότητας των αντικειμένων οι μεταβλητές των vectors μετασχηματίζονται ως εξής: 37

38 ΚΕΦΑΛΑΙΟ 3:ΥΒΡΙΔΙΚΑ ΠΡΟΤΑΣΙΑΚΑ ΜΟΝΤΕΛΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΟΜΟΙΟΤΗΤΑΣ-ΑΝΟΜΟΙΟΤΗΤΑΣ pc(v, V ) = (V (i) V ) (V (i) V ) (V (i) V ) (V (i) V ) (3.10) Όπου V (i) είναι το διάνυσμα το οποίο περιέχει την κανονικοποιημένη τιμή του ενδιαφέροντος του χρήστη u a στην ιδιότητα A j για το αντικείμενο στην θέση i. Αντίστοιχα όπου V (i) είναι το διάνυσμα το οποίο περιέχει την κανονικοποιημένη τιμή του ενδιαφέροντος του χρήστη u b στην ιδιότητα A j για το αντικείμενο στην θέση i Συντελεστής ομοιότητας Sorensen Ο συντελεστής αυτός χρησιμοποιείται στην στατιστική για την σύγκριση της ομοιότητας μεταξύ δύο συνόλων SI(A, B) = 2x A B A + B [18] (3.11) Στον αριθμητή βάζουμε τον αριθμό των κοινών στοιχείων μεταξύ των δύο συνόλων πολλαπλασιασμένο δύο φορές και στον παρανομαστή αντίστοιχα τον συνολικό αριθμό των στοιχείων των δύο συνόλων, για να μετρήσουμε την ομοιότητα των χρηστών όσον αφορά τα σύνολα των στοιχείων που λαμβάνονται υπόψη (βαθμολογούμενα αντικείμενα ή κοινές τιμές ιδιοτήτων). Ο παράγοντας Sorensen επηρεάζει την τελική ομοιότητα, καθώς ευνοεί ζευγάρια χρηστών που μοιράζονται περισσότερα κοινά στοιχεία μεταξύ τους σε σύγκριση με άλλα ζευγάρια. Ο παράγοντας ομοιότητας με βάση το πρόβλημα που προσπαθούμε να λύσουμε γίνεται: 2 CI(u, u ) I(u ) + I(u ) (3.12) 3.2 Υπολογισμός Ομοιότητας μεταξύ χρηστών Για τον υπολογισμό της ομοιότητας μεταξύ των χρηστών υλοποιήθηκαν δύο τύποι αλγορίθμων. Στην πρώτη περίπτωση θεωρούμε δύο χρήστες όμοιους ένα έχουν ψηφίσει ένα πλήθος ίδιων αντικειμένων το οποίο ξεπερνά έναν αριθμό, κατώφλι. Στην δεύτερη λογική βλέπουμε το αντικείμενο λίγο πιο αφαιρετικά και βγάζουμε ομοιότητες χρηστών βάση των ιδιοτήτων που έχει το κάθε αντικείμενο. Δηλαδή λέμε πως δύο χρήστες είναι όμοιοι εάν έχουν ψηφίσει έναν συγκεκριμένο αριθμό κοινών ιδιοτήτων από οποιοδήποτε αντικείμενο. Αναλυτικότερα για κάθε χρήστη-στόχο ελέγχουμε τα αντικείμενα που έχει ψηφίσει. Έπειτα για κάθε χρήστη, σε συνδυασμό με τον χρήστη-στόχο ελέγχουμε εάν τα δύο αντικείμενα αυτά είναι τα ίδια. Ένα ο αριθμός των όμοιων αντικειμένων είναι μεγαλύτερος από το κατώφλι t CI μπορούμε να πούμε πως αυτοί οι δύο χρήστες μοιάζουν ως προς τα αντικείμενα που έχουν ψηφίσει. Με αυτόν τον τρόπο δημιουργούμε έναν συντελεστή που τον ονομάζουμε SimCI Aj (u a,u b ) ο οποίος είναι ένας δεκαδικός αριθμός που περιγράφει την ομοιότητα των δύο χρηστών σε σχέση με τα 38

39 ΚΕΦΑΛΑΙΟ 3:ΥΒΡΙΔΙΚΑ ΠΡΟΤΑΣΙΑΚΑ ΜΟΝΤΕΛΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΟΜΟΙΟΤΗΤΑΣ-ΑΝΟΜΟΙΟΤΗΤΑΣ αντικείμενα. Αντίστοιχα στην περίπτωση της εξαγωγής της ομοιότητας από τις ιδιότητες των αντικειμένων ο συντελεστής είναι ο SimCAV Aj (u a,u b ) με την διαφορά ότι το κατώφλι t CAV για τα κοινά αντικείμενα δεν είναι ίδιο αλλά εξαρτάτε από τον χρήστη που έχει ψηφίσει τα λιγότερα αντικείμενα. Με την παραπάνω λογική ανατρέχουμε τις λίστες όλων των χρηστών και μπορούμε να πούμε πως η ομοιότητα του χρήστη a προς τον χρήστη b είναι ίδια με την ομοιότητα του χρήστη b ως προς τον a. Καθώς μας ενδιαφέρουν μόνο οι χρήστες οι οποίοι έχουν τουλάχιστον top-k «κοινούς» χρήστες γίνεται έλεγχος στον αριθμό των χρηστών που μοιάζουν για να μειωθεί ο όγκος των χρηστών προς προσπέλαση Ομοιότητες χρηστών βάσει των κοινών βαθμολογουμένων αντικειμένων Αναλυτικότερα ο ψευδοκώδικας υπολογισμού του βαθμού ομοιότητας βάσει των κοινών βαθμολογουμένων αντικειμένων Υπολογισμός ομοιότητας με βάση τα αντικείμενα Algorithm 1 User Simmilarities Based On Common Items Require: U,A,nAI for attribute values for all users in U Ensure: SimCI Αj user simmilarities matrix Aj A for a =1 U do for b=i+1 U do if CI(u a,u b )) t CI then end if end for end for for all Aj A do for i=1 CI(u a,u b ) do end for a xi j item i in CI(u a,u b ) V Aj ua(i)=nai(u a,a j xi) V Aj ub(i)=nai(u b,a j xi) SimCI Aj (u a,u b )=pc(v Aj ua,v Aj ub)x (, ) ( ) ( ) SimCI Aj (u b,u a )=SimCI Aj (u a,u b ) end for Ο παράγοντας ομοιότητας με βάση τα αντικείμενα περιγράφεται από τον εξής τύπο 39

40 ΚΕΦΑΛΑΙΟ 3:ΥΒΡΙΔΙΚΑ ΠΡΟΤΑΣΙΑΚΑ ΜΟΝΤΕΛΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΟΜΟΙΟΤΗΤΑΣ-ΑΝΟΜΟΙΟΤΗΤΑΣ SimCI Aj (u a,u b )=pc(v Aj ua,v Aj ub)x (, ) ( ) ( ) (3.13) Η θεωρητική υπολογιστική πολυπλοκότητα για τη δημιουργία των L πινάκων ομοιότητας επηρεάζεται από τον συνολικό αριθμό των χρηστών, όπως επίσης και από το συνολικό μέσο όρο των κοινών τους αντικειμένων. Πιο συγκεκριμένα, έχουμε : O(pairst CI (2 L μ CI ) e 1 + e 2+ e 3 ) όπου το pairstci ορίζει τα ζευγάρια που πέρασαν το αριθμητικό κατώφλι tci (pairstci < ( U 2 U )/2), για κάθε ένα από τα οποία δημιουργούμε 2 L διανύσματα από πληροφορία προερχόμενη από τα κοινά τους αντικείμενα. Ο μέσος αριθμός των κοινών αντικειμένων για όλους τους χρήστες αναπαρίσταται από το μ CI. Το κόστος e 1 αναπαριστά το συνολικό χρόνο υπολογισμού του συσχετιστή Pearson. Το e 2 αναπαριστά τον παράγοντα Sorensen και του τελικού βαθμού ομοιότητας, ενώ το κόστος e 3 ορίζει τον χρόνο ταξινόμησης των βαθμών ομοιότητας για να βρεθούν οι k πιο όμοιοι. Η πολύπλοκότητα της ταξινόμησης επηρεάζεται πολύ από τον αλγόριθμο που θα την επιτελέσει. Στη δική μας περίπτωση, κάνουμε χρήση του αλγορίθμου συγχώνευσης για ταξινόμηση (merge sort), ο οποίος είναι από τους πιο αποδοτικούς με μέση πολυπλοκότητα O( U log U ) Ομοιότητες χρηστών βάσει των κοινών ιδιοτήτων Ο δεύτερος τρόπος με τον οποίο υπολογίζουμε την ομοιότητα μεταξύ των χρηστών είναι ο υπολογισμός ομοιότητας με βάση τις ιδιότητες των αντικειμένων που έχει ψηφίσει κάθε χρήστης. Βρίσκουμε λοιπόν τους χρήστες που έχουν ψηφίσει κοινές ιδιότητες αντικειμένων και με αυτόν τον τρόπο μπορούμε να δημιουργήσουμε έναν δείκτη για να συσχετίσουμε τους χρήστες που έχουν κοινές ιδιότητες αντικειμένων. Όπως και στην μέθοδο CI (Common Items) έτσι και εδώ αφού ο χρήστης έχει top-k κοινούς χρήστες γίνεται έλεγχος στον αριθμό των κοινών attribute values. Αυτό γίνεται μετά την εύρεση του χρήστη που έχει ψηφίσει τον λιγότερο αριθμό χαρακτηριστικών μέσω του τύπου: CAV (u, u ) t min AV (u ), AV (u ) (3.14) Αναλυτικότερα ο ψευδοκώδικας υπολογισμού του βαθμού ομοιότητας βάσει των κοινών τιμών ιδιοτήτων: Υπολογισμός ομοιότητας με βάση τις ιδιότητες των αντικειμένων Algorithm 2 User Similarities Based On Common Rated Attribute Values Require: U,A,nAI for attribute values for all users in U Ensure: SimCAV Αj user simmilarities matrix Aj A for a =1 U do 40

41 ΚΕΦΑΛΑΙΟ 3:ΥΒΡΙΔΙΚΑ ΠΡΟΤΑΣΙΑΚΑ ΜΟΝΤΕΛΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΟΜΟΙΟΤΗΤΑΣ-ΑΝΟΜΟΙΟΤΗΤΑΣ for b=i+1 U do for all Aj A do if t>t cav then for i=1 CAV Aj (u a,u b ) do j a xi CAV Aj (u a,u b ) V Aj ua(i)=nai(u a,a j xi) V Aj ub(i)=nai(u b,a j xi) end for SimCAVAj(ua,ub)=pC(V Aj ua,v Aj ub+ SimCAV Aj (u b,u a )=SimCAV Aj (u a,u b ) end if end for end for end for (, ) ( ) ( ) Ο παράγοντας ομοιότητας με βάση τις ιδιότητες των αντικειμένων περιγράφεται από τον εξής τύπο (, ) Sim CAV Aj(ua,ub)=pC(V Aj ua,v Aj ub+ ( ) ( ) (3.15) Η θεωρητική υπολογιστική πολυπλοκότητα αυτής της μεθόδου επηρεάζεται από τον αριθμό των χρηστών και από τον συνολικό μέσο αριθμό των κοινών τιμών στις διαθέσιμες ιδιότητες. Πιο συγκεκριμένα, έχουμε : O((pairs μ L ) μ CAV e 1 + e 2 +e 3 ) όπου το pairs = ( U 2 U )/2 είναι ο αριθμός των ζευγαριών των χρηστών, για κάθε ένα από τα οποία ελέγχουμε ποιες ιδιότητες ικανοποιούν το κατώφλι (μ L L). Για αυτές τις ιδιότητες που περνάνε το κατώφλι δημιουργούμε διανύσματα για τους χρήστες από τα σύνολα των κοινών τιμών τους. Ο μέσος όρος των στοιχείων που εμπεριέχονται σε αυτά τα σύνολα για όλους τους χρήστες αναπαριστάται από το μ CAV. Το κόστος e 1 μετράει πάλι το συνολικό χρόνο υπολογισμού του συσχετιστή Pearson. Το e 2 αναπαριστά τον παράγοντα Sorensen και τον τελικό βαθμό ομοιότητας, ενώ το κόστος e 3 ορίζει τον χρόνο ταξινόμησης 3.3 Υπολογισμός Χαρακτηριστικών Ανομοιότητας Με τον όρο ανομοιότητα εννοούμε την συσχέτιση του χρήστη με τα χαρακτηριστικά του αντικειμένου, σε σχέση με τους υπόλοιπους χρήστες που ανήκουν στην ίδια ομάδα χρηστών. Για κάθε χρήστη ανατρέχουμε στους χρήστες που είναι «όμοιοι» με τον χρήστη-στόχο και κρατάμε το w ab το οποίο δείχνει την ομοιότητα μεταξύ των χρηστών, κρατάμε επίσης τις κανονικοποιημένες τιμές ενδιαφέροντος του κάθε 41

42 ΚΕΦΑΛΑΙΟ 3:ΥΒΡΙΔΙΚΑ ΠΡΟΤΑΣΙΑΚΑ ΜΟΝΤΕΛΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΟΜΟΙΟΤΗΤΑΣ-ΑΝΟΜΟΙΟΤΗΤΑΣ χρήστη και χρησιμοποιώντας τον τύπο (3.15) δημιουργούμε τον συντελεστή ανομοιότητας. Θεωρώντας λοιπόν ένα χαρακτηριστικό ajx Aj, βρίσκουμε την ανομοιότητα του χρήστη u a DSua(ajx ) η οποία υπολογίζεται με τον τύπο: D S ua a j x = u b U' ab W x nai j j u,a nai u,a όπου το S αναφέρεται αναλόγως είτε στην μέθοδο CI, είτε στην CAV. Στην πρώτη περίπτωση, έχουμε U = topkci A j (u a ) και w ab = SimCIAj (u a, u b ), ενώ στη δεύτερη περίπτωση ισχύει U = topkcav A j (u a ) και w ab = SimCAVAj (u a, u b ).Ο συντελεστής ομοιότητας w ab δείχνει την ομοιότητα μεταξύ των χρηστών a,b. Όσο ομοιότεροι είναι οι χρήστες τόσο σημαντικότερη θεωρούμε τη διαφορά τους στις προτιμήσεις. Επομένως, στον τύπο 3.15 θέτουμε τους βαθμούς ομοιότητας ως βάρη για να υποστηρίξουμε αυτή τη λογική. Οι βαθμοί ανομοιότητας και τα χαρακτηριστικά ανομοιότητας, σύμφωνα με τους τύπους 3.13 και 3.14, έχουν το ίδιο πεδίο τιμών [ 1, 1] καθώς κανονικοποιούνται. Στο παρακάτω σχήμα αναπαρίστατε μέσω ενώς διαγράμματος ροης διαδικασιών ο τρόπος με τον οποίο το πλαίσιο εξαγωγής ανομοιότητας εξάγει τους συντελεστές βάση των αντικειμένων και των ψαρακτηριστικών τους. Αναλυτικότερα: 1. Γίνεται η εισαγωγή των βαθμολογιών των χρηστών στα αντικείμενα επεξεργασίας. Τα δεδομένα αυτά μοντελοποιούνται κατάλληλα καθώς χρειαζόμαστε πληροφορία συναλλαγής μεταξύ των χρηστών και των χαρακτηριστικών των αντικειμένων για να δημιουργήσουμε τα προφίλ των χρηστών.(υποκεφάλαιο 3.1) 2. Έπειτα δημιουργούμε το προφίλ του χρήση χρησιμοποιώντας τους συντελεστές ομοιότητας τους οποίους εξάγουμε μέσω των τεχνικών συνεργατικής διήθησης και διήθησης με βάση το περιεχόμενο. Έτσι έχουμε: a. Ομοιότητα χρηστών βάση τα κοινά βαθμολογούμενα αντικείμενα (Υποκεφάλαιο 3.2.1) u a b U' b. Ομοιότητα χρηστών βάση των κοινών βαθμολογούμενων χαρακτηριστικών (Υποκεφάλαιο 3.2.2) 3. Χρησιμοποιώντας τους συντελεστές ομοιότητας δημιουργούμε ομάδες χρηστών οι οποίοι είναι όμοιοι είτε ως προς τα κοινά αντικείμενα είτε ως προς τα κοινά χαρακτηριστικά. 4. Με δεδομένα τα κοινά αντικείμενα, κοινά χαρακτηριστικά και τις ομοιότητες των χρηστών ως προς τα αντικείμενα και τα χαρακτηριστικά αντίστοιχα εξάγουμε τους συντελεστές ανομοιότητας: (Υποκεφάλαιο 3.3) a. Ανομοιότητα βασισμένη στα κοινά χαρακτηριστικά των αντικειμένων b. Ανομοιότητα βασισμένη στα κοινά αντικείμενα x W ab b x (3.16) 42

43 ΚΕΦΑΛΑΙΟ 3:ΥΒΡΙΔΙΚΑ ΠΡΟΤΑΣΙΑΚΑ ΜΟΝΤΕΛΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΟΜΟΙΟΤΗΤΑΣ-ΑΝΟΜΟΙΟΤΗΤΑΣ Δεδομένα Δημιουργία προφίλ χρήστη Ομοιότητα χρηστών βασισμένη στα χαρακτηριστικά των αντικειμένων Ομοιότητα χρηστών βασισμένη στα αντικείμενα Ομάδες ανθρώπων βάση συσχέτισης Παράγοντας ανομοιότητας Ανομοιότητα βασισμένη στα κοινά χαρακτηριστικά των αντικειμένων Ανομοιότητα βασισμένη στα κοινά αντικείμενα Σχήμα 3.1:Ροη Διαδικασιών Πλαισίου Εξαγωγής Χαρακτηριστικών Ανομοιότητας. 43

44 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Κ ε φ ά λ α ι ο 4 : Π ε ι ρ α μ α τ ι κ ή α ξ ι ο λ ό γ η σ η 44

45 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Σε αυτό το σημείο θα περιγράψουμε τις διαδικασίες που ακολουθήθηκαν με περισσότερες λεπτομέρειες, δίνοντας βάση στον τρόπο χειρισμού των δεδομένων όπως αναφέρθηκε και στο κεφάλαιο 3 καθώς επίσης και στον τρόπο με τον οποίο υλοποιήθηκαν μερικοί αλγόριθμοι για τον υπολογισμό στατιστικών, με βασικό στόχο τον υπολογισμό της ανομοιότητας μεταξύ των χρηστών οι οποίοι σχετίζονται μεταξύ τους με τον αριθμό των κοινών αντικειμένων ή και ιδιοτήτων. 4.1 Συλλογή Δεδομένων Τα δεδομένα επάνω στα οποία θα πρέπει ένα Π.Σ να μπορεί να εκτελεστεί, αριθμούν από εκατοντάδες χιλιάδες μέχρι και εκατομμύρια ή και παραπάνω βαθμολογήσεις. Για να μπορούμε να κρίνουμε την απόδοση του συστήματός μας διαλέξαμε να εισάγουμε στο σύστημά μας ένα σύνολο δεδομένων που χρησιμοποιείται συχνά στον τομέα της έρευνας των Π.Σ. Επικεντρώνοντας την προσοχή μας σε δεδομένα που αφορούν κυρίως μουσικά τραγούδια, καταλήξαμε σε ένα σύνολο δεδομένων ευρείας αποδοχής το Webscope. Το Webscope είναι ένα αρκετά ισχυρό και αντιπροσωπευτικό δείγμα για να κρίνουμε την ικανότητα του συστήματός μας Προεπεξεργασία δεδομένων Το σύνολο δεδομένων που χρησιμοποιήθηκε για την εξέταση του χαρακτηριστικού ανομοιότητας είναι πραγματικά δεδομένα και έχουν αναλυθεί στην παράγραφο 4.1. Μετά την επεξεργασία τον αρχικών δεδομένων τα οποία περιείχαν 700 εκατομμύρια εγγραφές διατηρήθηκαν μόνο οι εγγραφές οι οποίες περιείχαν τιμές σε όλα τα χαρακτηριστικά (κατηγορία, μουσικό είδος, καλλιτέχνης) και μόνο τους χρήστες οι οποίοι είχαν ψηφίσει πάνω από 20 αντικείμενα. Ως αποτέλεσμα, ο αριθμός των αντικειμένων και των χρηστών μειώθηκε δραστικά (περίπου 4.5 εκατ. βαθμολογίες, 18 χιλιάδες αντικείμενα και 400 χιλιάδες χρήστες). Δημιουργία προφίλ χρήστη Συλλέγουμε τις ψήφους των χρηστών που έχουν δώσει στα αντικείμενα και δημιουργούμε ένα προφίλ για κάθε χρήστη. Αυτό γίνεται με χρήση μαθηματικών μοντέλων τα οποία αναφέρονται στο παράρτημα Ι παράγραφο 1.1. Αυτό μας δίνει την δυνατότητα να γνωρίζουμε τις ψήφους των χρηστών και τον διαχωρισμό τους με δύο κριτήρια. Στην μία περίπτωση κρατάμε την ψήφο του χρήστη στο αντικείμενο. Αυτό μας δίνει την πληροφορία σύνδεσης του χρήστη με το αντικείμενο. Από την άλλη στο προφίλ του χρήστη κρατάμε την πληροφορία συσχέτισής του με τα χαρακτηριστικά του αντικειμένου. Αυτό μας δίνει την δυνατότητα να καταλάβουμε ποιά χαρακτηριστικά επηρεάζουν πιο πολύ τον χρήστη και τον οδηγούν σε κάποια επιλογή αντικειμένου. Με αυτόν τον τρόπο μπορούμε να βρούμε «όμοιους» χρήστες με δύο τρόπους όπου ο καθένας περιγράφει διαφορετική συσχέτιση. Με τον πρώτο τρόπο βρίσκουμε ποιά αντικείμενα είναι κοινά μεταξύ των χρηστών, έτσι μπορούμε να οδηγηθούμε στο συμπέρασμα πως αυτοί οι χρήστες μοιάζουν στις προτιμήσεις τους και να πούμε ότι είναι όμοιοι. Στην δεύτερη περίπτωση βλέπουμε μόνο τα χαρακτηριστικά των αντικείμενων ασχέτως αντικείμενου. Με αυτό τον τρόπο βρίσκουμε «όμοιους» χρήστες οι όποιοι σχετίζονται με 45

46 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ την ομοιότητα χαρακτηριστικών. Έτσι μπορούμε να ξέρουμε ποιές κατηγορίες προϊόντων είναι κοινές μεταξύ των χρηστών. Δημιουργία ομάδων χρηστών Σε αυτό το σημείο έχουμε βρει τα κοινά αντικείμενα μεταξύ των χρηστών και βρίσκουμε τους χρήστες εκείνους οι οποίοι μοιάζουν περισσότερο βάση των αντικειμένων ή των χαρακτηριστικών που έχουν ψηφίσει και δημιουργούμε ομάδες πιο κοντινών χρηστών. Δημιουργία χαρακτηριστικού ανομοιότητας Αφού βρούμε τους κοινούς χρήστες επιλέγουμε τους top-k πιο όμοιους του κάθε χρήστη και βγάζουμε μια μετρική η οποία περιγράφει πόσο αδιαφορεί ο χρήστης για κάποιο χαρακτηριστικό των αντικειμένων τα οποία έχει ψηφίσει αυτός και οι κοινοί με αυτόν χρήστες. Μέσω αυτής της διαδικασίας βρίσκουμε ποιά χαρακτηριστικά των αντικείμενων αντιπροσωπεύουν την προσωπικότητα του σχετικά με τις επιλογές του και τον κάνουν να ξεχωρίζει από την ομάδα κοινών χρηστών. Έτσι η πρόταση αντικείμενων μπορεί να γίνει πιο στοχευμένα και με καλύτερα αποτελέσματα. 1. Ανομοιότητα βασισμένη στο αντικείμενο Σε αυτή την κατηγορία ανομοιότητας η ανομοιότητα βασίζεται στα αντικείμενα τα οποία οι όμοιοι χρήστες έχουν ψηφίσει και βάση αυτών δημιουργούμε τον δείκτη ανομοιότητας. 2. Ανομοιότητα βασισμένη στα χαρακτηριστικά του αντικειμένου Webscope Σε αυτή την κατηγορία ανομοιότητας η ανομοιότητα βασίζεται στα χαρακτηριστικά των αντικείμενων τα οποία οι όμοιοι χρήστες έχουν ψηφίσει και βάση αυτών δημιουργούμε τον δείκτη ανομοιότητας. Το Yahoo! WebscopeTM πρόγραμμα, αποτελεί μια βιβλιοθήκη αναφοράς από ενδιαφέροντα και επιστημονικά χρήσιμα σύνολα δεδομένων που προορίζονται για μη εμπορική χρήση από άτομα του ακαδημαϊκού χώρου και άλλους επιστήμονες. Όλα τα σύνολα δεδομένων έχουν υποστεί αξιολόγηση ώστε να συμμορφώνονται στα πρότυπα της Yahoo περί της προστασίας των προσωπικών δικαιωμάτων, περιλαμβάνοντας αυστηρούς κανόνας ιδιωτικότητας. Συγκεκριμένα από τα πολλά διαθέσιμα σύνολα δεδομένων που μας παρέχει η Yahoo εμείς επιλέξαμε το R4, που ασχολείται με μουσικά τραγούδια. U Χρήστες I Αντικείμενα P Βαθμολογίες A1 = Είδος 18 A2 = Άλμπουμ A3 = Καλλιτέχνης 877 Πίνακας 4.1: Περιγραφή Συνόλου Δεδομένων. 46

47 4.1.3 Δεδομένα προς επεξεργασία ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Τα (Π.Σ) είναι υπεύθυνα για την συλλογή της πληροφορίας, την επεξεργασία της, και την παραγωγή προτάσεων οι οποίες είναι σχετικές με τον κάθε χρήστη ο οποίος έχει έστω και μία εγγραφή στα δεδομένα εισόδου. Οι βασική δομή των δεδομένων εγγραφών είναι οι εξής: Αντικείμενο (Item): Μπορεί να θεωρηθεί οτιδήποτε το οποίο μπορεί να προταθεί σε κάποιον, ακόμη και με φυσική γλώσσα. Άρα λέμε πως αντικείμενο είναι το τελικό προϊόν το οποίο προτείνει το προτασιακό σύστημα. Κάθε αντικείμενο είναι διαφορετικό και περιέχει ιδιότητες οι οποίες μπορεί και να διαφέρουν. Στην περίπτωσή μας το αντικείμενό μας είναι μουσικά τραγούδια και έχουμε σαν ιδιότητες το είδος, το όνομα του δίσκου και τον καλλιτέχνη. Η επιλογή των ιδιοτήτων γίνεται από τον εκάστοτε σχεδιαστή για την καλύτερη λειτουργία του προτασιακού συστήματος με βάση τα αποτελέσματα τα οποία έχει μελετήσει. Μπορούμε πολύ εύκολα να συμπεράνουμε πως υπάρχουν αντικείμενα τα οποία έχουν κοινές ιδιότητες, πχ γνωρίζουμε τουλάχιστον δύο μουσικά τραγούδια τα οποία τα έχει μελοποιήσει ο ίδιος καλλιτέχνης, όπως επίσης πολλά μουσικά τραγούδια ανήκουν στον ίδιο δίσκο Χρήστες(Users): Ο παραλήπτης των προτάσεων. Όπως και στο πραγματικό κόσμο έτσι και εδώ υπάρχουν διαφορές μεταξύ των χρηστών. Θα ήταν αφελές να πούμε πως όλοι οι χρήστες είναι ίδιοι και να συμπεράνουμε πως θα πρέπει να τους προτείνουμε τα ίδια προϊόντα. Η διαφορά των χρηστών έγκειται στις προτιμήσεις του ως προς τα αντικείμενα τα οποία έχουν επιλέξει στο παρελθόν. Για αυτόν τον λόγο λοιπόν δημιουργείται το προφίλ του χρήστη το οποίο περιέχει πληροφορίες σχετικά με τις συνήθειες του.[19] Διάφορες προσεγγίσεις έχουν γίνει ως προς το προφίλ του χρήστη που πρέπει να διατηρείται από το Π.Σ. και κατά κάποιον τρόπο μπορούμε να δούμε το Π.Σ. ως ένα εργαλείο το οποίο καταφέρνει να παράγει προτάσεις κτίζοντας και αξιοποιώντας τα προφίλ των χρηστών [20]. Καθώς, επομένως, οι προσωπικές προτάσεις είναι ο στόχος μας και όχι οι γενικές, όπως στην περίπτωση των Καλύτερων 10 επιλογών, ο ρόλος του μοντέλου του χρήστη θα παραμένει σημαντικός Συναλλαγές (Transactions): Οποιαδήποτε πληροφορία μπορεί να διασυνδέει έναν χρήστη με κάποιο αντικείμενο. Στον όρο αυτό μπορούμε να συμπεριλάβουμε τον τρόπο χρήσης του συστήματος από έναν χρήστη, δηλαδή ποιό ήταν το τελευταίο αντικείμενο το οποίο επισκέφτηκε, για πόση ώρα έψαχνε για το συγκεκριμένο αντικείμενο, ποιό ήταν το επόμενο αντικείμενο το οποίο έψαξε, τί βαθμολογία έδωσε στο αντικείμενο αυτό. Είναι λοιπόν η μόνη πληροφορία η οποία έχουμε για σύνδεση του χρήστη με το αντικείμενο ώστε να γνωρίζουμε εάν το αντικείμενο αυτό του φαίνεται ενδιαφέρον ή όχι και εάν ναι κατά πόσο. Στα δεδομένα που επεξεργαζόμαστε οι συναλλαγές που ασχολούμαστε είναι οι βαθμολογήσεις των χρηστών σε μουσικά τραγούδια. Η πληροφορία που μας ενδιαφέρει λοιπόν είναι ο συνδυασμός των αντικειμένων με τους χρήστες. Δηλαδή η βαθμολογία των χρηστών προς τα αντικείμενα. Η πληροφορία αυτή μπορεί να εισαχθεί στο σύστημα με 47

48 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ διάφορους τρόπους, με ρητό ή σιωπηρό τρόπο. Στην μία περίπτωση ο χρήστης ρωτάται από το σύστημα ώστε να δώσει μια βαθμολογία για το αντικείμενο το οποίο επισκέπτεται πχ βαθμολογία 1-5. Με αυτόν τον τρόπο το σύστημα γνωρίζει το κατά πόσο αρέσει ένα αντικείμενο σε έναν χρήστη στην κλίμακα 1-5. Μια άλλη τεχνοτροπία η οποία υπάρχει είναι η βαθμολόγηση με ετικέτες οι οποίες μεταφράζονται σε αριθμητικά δεδομένα, πχ το μου αρέσει λίγο μπορεί να έχει την τιμή 1 και το μου αρέσει αρκετά να μεταφράζεται στο σύστημα με τον αριθμό 4. Στην περίπτωση της σιωπηρής βαθμολογίας ο χρήστης έχει παθητικό ρόλο ως προς τον τρόπο με τον οποίο βαθμολογεί αντικείμενα καθώς δεν ρωτάται από το σύστημα για κάποια βαθμολογία αλλά το σύστημα το ίδιο συμπεραίνει τη βαθμολογία που θα δώσει για τον χρήστη σε ένα αντικείμενο. Αυτό γίνεται με διάφορους τρόπους οι οποίοι είναι ανάλογοι με το συμπέρασμα το οποίο θέλει να βγάλει το σύστημα για τον κάθε χρήστη. Μια από αυτές τις τεχνικές είναι ο χρόνος που δαπάνησε ο χρήστης για την επίσκεψη ενός αντικειμένου ή το πόσο αναζήτησε παρόμοια αντικείμενα της ίδιας κατηγορίας. Καθώς πολλές φορές η μία εκ των δύο τεχνικών δεν είναι αποτελεσματική μπορεί να χρησιμοποιηθεί και η τεχνική της υβριδικής ανάκτησης της βαθμολογίας η οποία συνδυάζει τις δύο αυτές τεχνικές για να συμπεράνει τις βαθμολογήσεις του χρήστη. Το σύστημα δημιουργεί κάποιες βαθμολογίες με σιωπηρό τρόπο αλλά επίσης ζητάει από τον χρήστη να βαθμολογήσει κάποια αντικείμενα είτε με κλίμακα 1-5 είτε με την τεχνική των ετικετών ώστε η πρόταση που θα του κάνει να είναι πιο στοχευμένη και ειδική. 4.2 Μετασχηματισμός Δεδομένων Καθώς γίνεται χρήση του αλγορίθμου SVM (Support Vector Machine) και k-means θα πρέπει να γίνει μετασχηματισμός των δεδομένων από ακέραιους σε διακριτούς. Αυτό επιτυγχάνεται με την τεχνική μετατροπής ακέραιων τιμών σε διακριτών μέσω Naive Bayes [9] [21] ως εξής: Για κάθε χρήστη u a, λαμβάνουμε αρχικά υπόψη όλους τους όμοιους προς αυτόν χρήστες που συνδέονται με όλες τις ιδιότητες. Άρα, έχουμε το σύνολο χρηστών topk S A(u a ) topk S Aj(u a ) για κάθε A j A, όπου το S υποδηλώνει είτε τη μέθοδο CI, είτε την CAV. Έχοντας συγκεντρώσει όλους τους χρήστες, λαμβάνουμε υπόψη όλες τις αναπαραστάσεις των αντικειμένων που έχουν βαθμολογήσει, δηλαδή όλα τα δείγματά τους, τα οποία συνιστούν το σύνολο I S A(u a ) I (u i ) για κάθε χρήστη u i topk S A(u a ). Μέσω των συγκεντρωμένων δειγμάτων, δημιουργούμε έναν πίνακα δειγμάτων-ιδιοτήτων για κάθε χρήστη u a. Αντικαθιστούμε τις τιμές ιδιοτήτων με συνεχείς τιμές-σκορ (Naive Bayes scores). Ωστόσο, αντί να αντικαταστήσουμε όλες τις τιμές ενός δείγματος με ένα καθολικό σκορ, υπολογίζουμε ένα ξεχωριστό σκορ για κάθε τιμή ιδιοτήτων του δείγματος. Συγκεκριμένα, από τον πίνακα δειγμάτωνιδιοτήτων κάθε χρήστη, λαμβάνουμε υπόψη μία ιδιότητα κάθε φορά με βάση την οποία υπολογίζονται οι εκ των υστέρων πιθανότητες (posterior probabilities) για τις τιμές της εν λόγω ιδιότητας. Οι συγκεκριμένες πιθανότητες μας οδηγούν στις τελικές συνεχείς τιμές. Έχοντας για κάθε χρήστη τις μετατρεπόμενες τιμές ιδιοτήτων, μπορούμε να ενημερώσουμε τις αναπαραστάσεις των αντικειμένων που έχει βαθμολογήσει, δημιουργώντας το σύνολο I (u a )={item 1,...,item I(ua) }, όπου το item i ={{NB S ua(a 1 x1),...,nb S ua(a L xl)},{d S ua(a 1 x1),...,d S ua(a L xl)}} αποτελεί το ενημερωμένο αντικείμενο του i-οστού δείγματος του συνόλου I (u a ). Η προσέγγιση που ακολουθούμε βασίζεται σε ομάδες χρηστών από τις οποίες δημιουργείται ο πίνακας δειγμάτων-ιδιοτήτων για κάθε χρήστη. Υποστηρίζουμε ότι αυτός ο πίνακας αναπαριστά με σχετικά μεγάλη ακρίβεια τις προτιμήσεις ενός χρήστη 48

49 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ σε αντίθεση με έναν άλλον πίνακα που δημιουργείται από τα δείγματα όλων των χρηστών. Στην τελευταία περίπτωση, οι ατομικές προτιμήσεις του χρήστη θα μπορούσαν να είχαν χαθεί, καθώς θα ήταν αρκετά πιθανή η ενσωμάτωση πληροφορίας θορύβου από χρήστες που δεν θα ήταν καθόλου σχετικοί. Κάτι τέτοιο, θεωρούμε ότι θα οδηγούσε σε συνεχείς τιμές χαρακτηριστικών που θα προσέφεραν λιγότερη ακρίβεια στους ταξινομητές. Από την άλλη, θα μπορούσε να δημιουργηθεί ένας πίνακας δειγμάτων-ιδιοτήτων μόνο με τις προτιμήσεις του εκάστοτε χρήστη. Ένας τέτοιος πίνακας θα απεικόνιζε με μέγιστη ακρίβεια τις προτιμήσεις του χρήστη, αλλά θα ήταν επίσης και αρκετά προκατειλημμένος ως προς αυτόν. Για το λόγο αυτό, η συγκεκριμένη προσέγγιση απορρίφθηκε. 4.3 Πλαίσιο Εξαγωγής Προτάσεων με Χρήση Μεθόδων Ταξινόμησης Στο παρόν υποκεφάλαιο θα αναφερθούμε εκτενέστερα στον τρόπο λειτουργίας των βασικών μεθόδων ταξινόμισης αντικειμένων που χρησιμοποιήθηκαν για την ομαδοποίηση των δεδομένων Δέντρα απόφασης Μια ευρέως χρησιμοποιούμενη μέθοδος Μηχανικής Μάθησης είναι και εκείνη που βασίζεται σε δένδρα απόφασης, κατά την οποία επιχειρείται η προσέγγιση μιας άγνωστης διακριτής συνάρτησης στόχου, ακολουθώντας την τεχνική του «διαίρει και βασίλευε» (Divide and Conquer). Ο χώρος του προβλήματος κατάτμείται σε περιοχές από στιγμιότυπα που φέρουν την ίδια τιμή ως προς κάποιο χαρακτηριστικό, μια διαδικασία που επαναλαμβάνεται αναδρομικά, αναπαριστώντας με τον τρόπο αυτό το παραγόμενο μοντέλο ως δένδρο απόφασης. Οι εσωτερικοί κόμβοι ενός τέτοιου δένδρου αντιστοιχούν στη σύγκριση της τιμής ενός χαρακτηριστικού κάποιου στιγμιότυπου με μια σταθερά. Τα φύλλα του δέντρου αντιπροσωπεύουν την απόφαση του μοντέλου για την ταξινόμηση του εν λόγω στιγμιότυπου, η οποία μπορεί να έχει τη μορφή της κλάσης στην οποία αυτό ανήκει, ενός συνόλου κλάσεων, ή ακόμα και μιας πιθανοτικής κατανομής επί του συνόλου των κλάσεων στις οποίες θα μπορούσε να αποδοθεί. Βάσει της παραπάνω αναπαράστασης, ένα άγνωστο στιγμιότυπο ακολουθεί τη διαδρομή από τη ρίζα προς κάποιο φύλλο του δένδρου, καθοδηγούμενο από το αποτέλεσμα των ελέγχων που διεξάγονται στους εσωτερικούς κόμβους από τους οποίους πέρασε. Κατ ουσίαν, ένα δένδρο απόφασης αναπαριστά μια διάζευξη συζευγμένων περιορισμών επί ενός συνόλου δεδομένων απόφασης. Η διαδρομή από τη ρίζα προς κάποιο φύλλο αντιστοιχεί σε σύζευξη περιορισμών στις τιμές των χαρακτηριστικών ενός στιγμιότυπου που θα πρέπει να ισχύουν ταυτόχρονα για την απόδοση της απόφασης που αναφέρεται στο φύλλο. [22] Στα θετικά σημεία της μεθόδου αυτής συγκαταλέγονται: Η ευρωστία που επιδεικνύει αναφορικά με το θόρυβο που ενδέχεται να παρουσιαστεί στα δεδομένα που απαρτίζουν το χώρο του προβλήματος. Η ανοχή στην απουσία τιμών (missing values), σε κάποια χαρακτηριστικά του σώματος εκπαίδευσης. Η χρήση ακόμα και συνεχών (μη διακριτών) χαρακτηριστικών και η προσέγγιση μη διακριτών συναρτήσεων στόχου, μέσω εξειδικευμένων τεχνικών που αναλαμβάνουν τη διακριτοποίησή τους (discretization), της διαδικασία δηλαδή της μετατροπής συνεχών αριθμητικών χαρακτηριστικών σε ονομαστικά. 49

50 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Η δυνατότητα μεταφοράς του παραγόμενου μοντέλου από δένδρο απόφασης σε ένα σύνολο κανόνων συμπερασμού (if then rules), προς διευκόλυνση της κατανόησής του Αλγόριθμος C4.5 Μεταξύ των αλγορίθμων Μηχανικής Μάθησης εξέχουσα θέση κατέχουν οι αλγόριθμοι επαγωγικής κατασκευής δένδρων απόφασης, κυρίως λόγω της παραστατικής μορφής των μοντέλων που παράγουν, η οποία δεν χρειάζεται να αποδοθεί με κάποιο διαφορετικό τρόπο για να γίνει κατανοητή. Σημαντικότεροι εκπρόσωποι αυτής της κατηγορίας είναι ο ID3 [23] και οι διάδοχοί του C4.5 [24] και C5.0. Στην παρούσα ενότητα, θα αναπτύξουμε τον αλγόριθμο C4.5, ο οποίος χρησιμοποιήθηκε στο πειραματικό μέρος της εργασίας, και θα αναφερθούμε περιληπτικά σε κάποιες επεκτάσεις του που αντιμετωπίζουν γνωστά προβλήματα που απασχολούν το χώρο αυτό. Εδώ θα παρουσιάσουμε τη στρατηγική που ακολουθεί ο C4.5 για την κατασκευή του δένδρου από την παρατήρηση των στιγμιότυπων εκπαίδευσης, η οποία μπορεί αναδρομικά να εκφραστεί ως εξής: Αρχικά επιλέγεται το καλύτερο χαρακτηριστικό για να χρησιμοποιηθεί ως ρίζα του δένδρου. Για κάθε διαφορετική τιμή του δημιουργείται ένας απόγονος του κόμβου ρίζας, στον οποίο αντιστοιχούνται όλα τα στιγμιότυπα του σώματος εκπαίδευσης που φέρουν τη συγκεκριμένη τιμή του χαρακτηριστικού αυτού. Η όλη διαδικασία επαναλαμβάνεται αναδρομικά, για κάθε απόγονο του αρχικού κόμβου, περιορίζοντας το εξεταζόμενο υποσύνολο εκπαίδευσης στα στιγμιότυπα που έχουν αντιστοιχηθεί σε αυτό τον κόμβο. Ο τερματισμός της επέρχεται με την εκπλήρωσης μιας εκ των δύο συνθηκών: Όλα τα στιγμιότυπα του τρέχοντος κόμβου ανήκουν στην ίδια κλάση, Όλα τα χαρακτηριστικά έχουν χρησιμοποιηθεί. Ιδιάζουσα βαρύτητα στην κατασκευή ενός δένδρου απόφασης, και κατ επέκταση στη μετέπειτα απόδοσή του, φέρει η επιλογή του κατάλληλου χαρακτηριστικού που θα πρέπει να χρησιμοποιηθεί σε κάθε κόμβο, με σκοπό να μας εξασφαλίσει την αποτελεσματικότερη διαίρεση του χώρου του προβλήματος σε περιοχές. Το μέτρο εκείνο που συνήθως χρησιμοποιείται για την αξιολόγηση των χαρακτηριστικών σε κάθε κόμβο ονομάζεται Πληροφοριακό Κέρδος (Information Gain IG). Προκειμένου να ορίσουμε το πληροφοριακό κέρδος, θα πρέπει προηγουμένως να αναφερθούμε εν συντομία σε ένα μέτρο που χρησιμοποιείται στην περιοχή της Θεωρία Πληροφορίας, την Εντροπία (Entropy), η οποία χαρακτηρίζει την «καθαρότητα» σε πληροφοριακό περιεχόμενο ενός σώματος στιγμιότυπων. Πιο συγκεκριμένα, ας θεωρήσουμε ένα τυχαίο σώμα στιγμιότυπων S του προβλήματος, καθώς και μια συνάρτηση στόχου f με πεδίο ορισμού το διανυσματικό χώρο που ορίζουν τα χαρακτηριστικά του προβλήματος και σύνολο τιμών ένα σύνολο κλάσεων C, με πληθικότητα C = c > 1. Ορίζουμε ως εντροπία του σώματος S τη μέση ποσότητα πληροφορίας ανά κλάση, η οποία δίνεται από τη σχέση:[25] 50

51 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Entropy(S) = p log p (4.1) όπου pi το πλήθος των διανυσμάτων του S που ανήκουν στην κλάση i προς την πληθικότητα του S. Η εντροπία εκφράζει τον ελάχιστο αριθμό bits που απαιτούνται για την κωδικοποίηση της κλάσης στην οποία ταξινομείται ένα τυχαίο στιγμιότυπο του S. Έχοντας ορίσει το μέτρο της εντροπίας στα πλαίσια ενός προβλήματος κατηγοριοποίησης, το Κέρδος Πληροφορίας αντιστοιχεί στη μείωση της εντροπίας ως αποτέλεσμα της υποδιαίρεσης ενός σώματος στιγμιότυπων, μέσω της χρήσης ενός συγκεκριμένου χαρακτηριστικού, έστω Α. Επιχειρώντας ένα πιο τυπικό ορισμό, θα λέγαμε πως το Κέρδος Πληροφορίας, IG(S, A) ενός χαρακτηριστικού Α σε σχέση με ένα σώμα στιγμιότυπων του προβλήματος S αποτελεί τη σχετική μείωση του πλήθους των bits που απαιτούνται για την κωδικοποίηση της τιμής της συνάρτησης στόχου ενός τυχαίου στιγμιότυπου του S, γνωρίζοντας εκ των προτέρων την τιμή του χαρακτηριστικού A. Εκφράζεται δε από τη σχέση: IG(S, A) Entropy(S) S S Entropy(S ) ( ) όπου Values (A), το σύνολο τιμών του χαρακτηριστικού A και S v το υποσύνολο του S με στιγμιότυπα των οποίων οι τιμές του χαρακτηριστικού A ισούνται με v. Οι ιδιότητες του IG το καθιστούν εκ πρώτης όψεως ιδανικό ως μέτρο για την επιλογή του χαρακτηριστικού εκείνου που διαχωρίζει το χώρο των στιγμιότυπων κατά βέλτιστο τρόπο, σε κάθε εσωτερικό κόμβο του δένδρου. Στην πράξη όμως το IG έχει προδιάθεση να επιλέγει χαρακτηριστικά με μεγάλο σύνολο τιμών, σε σχέση με άλλα που λαμβάνουν λιγότερες τιμές. Προκειμένου να καταδείξουμε τον κίνδυνο που ενέχει η επιλογή ενός τέτοιου χαρακτηριστικού, ας θεωρήσουμε ένα πρόβλημα ταξινόμησης, τα στιγμιότυπα του οποίου προσδιορίζονται μοναδικά από την τιμή ενός χαρακτηριστικού, έστω του ID. Κατά το σχηματισμό του δένδρου απόφασης, το χαρακτηριστικό αυτό θα έχει τη μεγαλύτερη τιμή του IG, καθώς θα διαχωρίσει το σώμα εκπαίδευσης σε ισάριθμα των στιγμιότυπων του μονοσύνολα, με την εντροπία καθενός από αυτά να ισούται με μηδέν. Γίνεται επομένως αντιληπτό ότι η παραγωγή ενός τέτοιου δένδρου (βάθος 1 και παράγοντα διακλάδωσης ισάριθμο των στιγμιότυπων εκπαίδευσης), δεν εξυπηρετεί κανένα σκοπό, καθώς το τελευταίο στερείται της απαιτούμενης ικανότητας γενίκευσης που θα του επέτρεπε την ορθή ταξινόμηση ενός άγνωστου στιγμιότυπου. Την αδυναμία αυτή του IG έρχεται να καλύψει ο Λόγος του Κέρδους Πληροφορίας (Information Gain Ratio GR) [23], ο οποίος υιοθετεί το μέτρο της Πληροφορίας ιαχωρισμού (Split Information - SI), με σκοπό να αποθαρρύνει την επιλογή χαρακτηριστικών που παραπλανούν λόγω του μεγάλου κέρδους πληροφορίας τους, τείνοντας να δημιουργήσουν δένδρα με μεγάλο παράγοντα διακλάδωσης. Πιο συγκεκριμένα, το μέτρο της Πληροφορίας ιαχωρισμού ουσιαστικά αποτελεί ένδειξη της ευρύτητας και της ομοιομορφίας του (4.2) 51

52 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ διαχωρισμού του σώματος εκπαίδευσης S που επιτυγχάνει ένα χαρακτηριστικό Α. Το μέτρο αυτό αντιστοιχεί στην εντροπία του S, αναφορικά με τις τιμές του A και εκφράζεται από τη σχέση: SI(S, A) S S log S s όπου Si τα υποσύνολα του S που φέρουν την τιμή i για το χαρακτηριστικό A. Βάσει αυτού, ο Λόγος του Κέρδους Πληροφορίας ορίζεται ως εξής: GR(S, A) (4.3) IG(S, A) SI(S, A) (4.4) Το μέτρο του Λόγου του Κέρδους Πληροφορίας εγγυάται αποτελεσματική διαμέριση του χώρου στην περίπτωση που η πληθικότητα των υποσύνολων SI διαφέρει μεταξύ τους. Σε αντίθετη περίπτωση, η τιμή του SI γίνεται πολύ μικρή με αποτέλεσμα το GR να καθίσταται απροσδιόριστο ή πολύ μεγάλο. Μια ευριστική μέθοδος που μετριάζει την παρενέργεια αυτή, υπολογίζει το GR των χαρακτηριστικών εκείνων που η τιμή του IG είναι μεγαλύτερη της μέσης τιμής του μέτρου αυτού όλων των χαρακτηριστικών. Η μοντελοποίηση του αλγορίθμου που ως τώρα αναπτύξαμε, προϋποθέτει τη χρήση διακριτών χαρακτηριστικών τα οποία στην συνέχεια μετατράπηκαν σε συνεχή όπως αναφέρεται στην παράγραφο 4.3. Ο αλγόριθμος C4.5 ωστόσο και οι διάφορες επεκτάσεις του, έχουν τη δυνατότητα να διαχειριστούν και συνεχή χαρακτηριστικά, εφαρμόζοντας στην αρχή κάθε αναδρομικού βήματος μια διαδικασία μετατροπής τους σε ένα σύνολο διακριτών λογικών (Boolean) χαρακτηριστικών, γνωστή ως ιακριτοποίηση (Discretization). Η διαδικασία αυτή ξεκινά με την διάταξη των στιγμιότυπων του υποσυνόλου του σώματος εκπαίδευσης που πρόκειται να χρησιμοποιηθούν στο τρέχον βήμα κατά αύξουσα σειρά, βάσει της τιμής που φέρουν για ένα συνεχές χαρακτηριστικό Α i. Με αυτό τον τρόπο εντοπίζονται όλα τα διαδοχικά στιγμιότυπα x, x τα οποία ανήκουν σε διαφορετική μεταξύ τους κλάση. Η τιμή του Α i στο δεύτερο κατά σειρά στιγμιότυπο κάθε τέτοιου ζεύγους ανατίθεται σε ένα κατώφλι (threshold), t i,j, με βάση το οποίο ορίζεται ένα λογικό χαρακτηριστικό Α i,j. Το νέο χαρακτηριστικό παίρνει την τιμή 1 αν η τιμή του αρχικού Α i υπερβαίνει την τιμή του κατωφλίου t i,j, διαφορετικά η τιμή του είναι 0. Έτσι το χαρακτηριστικό Α i αντικαθίσταται από ένα σύνολο λογικών χαρακτηριστικών Α i,1,a i,2,...,a i,m με αντίστοιχα κατώφλια. Εν συνεχεία, ο αλγόριθμος εξελίσσεται όπως περιγράφηκε προηγουμένως, αναζητώντας το χαρακτηριστικό Α i,j με το μεγαλύτερο GR για τη δημιουργία του νέου εσωτερικού κόμβου και τον περαιτέρω διαχωρισμό του σώματος εκπαίδευσης. Ολοκληρώνοντας την παρουσίαση του αλγορίθμου C4.5, κρίνεται σκόπιμη η σύντομη αναφορά μας στη μέθοδο που χρησιμοποιείται για την αποφυγή του φαινομένου του υπερταιριάσματος στα δεδομένα εκπαίδευσης. Στην προκειμένη περίπτωση, το εν λόγω φαινόμενο συνδέεται άμεσα με το βάθος ανάπτυξης του δένδρου. Η μέθοδος που 52

53 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ χρησιμοποιεί ο C4.5 ονομάζεται Κλάδεμα (pruning) και συνίσταται στο «κλάδεμα» του δένδρου, αφού αυτό έχει φθάσει στην πλήρη ανάπτυξή του. Δύο από τους πλέον χρησιμοποιούμενες προσεγγίσεις για κλάδεμα είναι αυτές της Αντικατάστασης Υποδένδρου (Subtree Replacement) και της Ανύψωσης Υποδένδρου (Subtree Raising). Σε κάθε κόμβο του δένδρου, ο αλγόριθμος καλείται να αποφασίσει αν θα αφήσει το υποδένδρο που ξεκινά απ αυτόν ως έχει, αν θα το αντικαταστήσει με έναν κόμβο φύλλο (Αντικατάσταση Υποδένδρου) ή αν θα τον αντικαταστήσει με κάποιο από τους άμεσους απογόνους του, αναδιατάσσοντας τα στιγμιότυπα του αρχικού υποδένδρου στο νέο που μόλις δημιουργήθηκε (Ανύψωση Υποδένδρου). [25] Σε κάθε περίπτωση, απαιτείται ο προσδιορισμός του αναμενόμενου σφάλματος ταξινόμησης που ενδέχεται να οδηγήσει σε μία εκ των τριών αποφάσεων. Μια τεχνική που εφαρμόζεται για το σκοπό αυτό, το Κλάδεμα Μειωμένου Σφάλματος (Reduced Error Pruning), προϋποθέτει τη χρήση ενός μέρους του σώματος εκπαίδευσης αποκλειστικά για τη διεξαγωγή του παραπάνω ελέγχου, με το τίμημα βέβαια το δένδρο που θα αναπτυχθεί να βασίζεται σε λιγότερα δεδομένα εκπαίδευσης, ενώ άλλες εναλλακτικές προσεγγίσεις κάνουν χρήση στατιστικών μεθόδων. [26] Αλγόριθμος RandomForest Το τυχαίο δέντρο είναι μια παραλλαγή του bagging που παρουσίασε ο Breiman (2001) [27]. Τα τυχαία δέντρα είναι μια γενική κλάση κατασκευής μεθόδων ομάδας στα οποία χρησιμοποιούνται δένδρα απόφασης ως βασικοί ταξινομητές. Για να ταξινομηθεί ένα τυχαίο δέντρο θα πρέπει να παραχθεί μια ομάδα δέντρων απόφασης κατασκευάζοντας ανεξάρτητα, κατανεμημένα με πανομοιότυπο τρόπο, τυχαία διανύσματα και χρησιμοποιώντας το κάθε διάνυσμα για την ανάπτυξη ενός δέντρου απόφασης. Έτσι ένα τυχαίο δέντρο μπορεί να κατασκευαστεί δειγματολειπτώντας από το σύνολο των χαρακτηριστικών, από το σύνολο των δεδομένων, η απλά μεταβάλλοντας τυχαία κάποιες από τις παραμέτρους του δέντρου. Σχήμα 4.1: Μέθοδος τυχαίων δέντρων. 53

54 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Τα τυχαία διανύσματα, δημιουργούνται από μια σταθερή κατανομή πιθανότητας, σε αντίθεση με την προσέγγιση που χρησιμοποιείται στον AdaBoost [28], όπου η κατανομή πιθανότητας μεταβάλλεται ώστε να εστιάζει σε παραδείγματα που είναι δύσκολο να ταξινομηθούν. Έχει αποδειχθεί θεωρητικά πως το άνω όριο του λάθους γενίκευσης των τυχαίων δέντρων συγκλίνει στην παρακάτω έκφραση, όταν ο αριθμός των δέντρων είναι ικανοποιητικά μεγάλος: Generalization error ρ (1 s2 ) s 2 όπου το ρ είναι η μέση συσχέτιση μεταξύ των δέντρων και το s είναι μια ποσότητα που μετράει τη «δύναμη» ( strength ) των ταξινομητών. Η δύναμη ενός συνόλου ταξινομητών αναφέρεται στη μέση απόδοση των ταξινομητών, όπου η απόδοση μετριέται πιθανοκρατικά με όρους του ορίου του ταξινομητή: margin, M ( X, Y )= Ρ ( Υ θ = Υ ) max Z Y Ρ( Υ θ = Ζ ) Υ Όπου θ είναι η κλάση του Χ σύμφωνα με την πρόβλεψη ενός ταξινομητή που έχει κατασκευαστεί από κάποιο τυχαίο διάνυσμα θ. Όσο πιο υψηλό είναι το όριο (margin), τόσο πιο πιθανό είναι πως ο ταξινομητής έχει ταξινομήσει σωστά το παράδειγμα Χ. Όσο τα δέντρα συσχετίζονται πιο πολύ είτε η δύναμη της ομάδας μειώνεται είτε το όριο του λάθους γενίκευσης τείνει να μειωθεί. Η τυχαιότητα βοηθάει στη μείωση της συσχέτισης μεταξύ των αποφάσεων των δέντρων έτσι ώστε το λάθος γενίκευσης του συνόλου να μπορεί να βελτιωθεί. Κάθε δέντρο απόφασης χρησιμοποιεί όπως είπαμε, ένα τυχαίο διάνυσμα που δημιουργείται από κάποια σταθερή κατανομή συχνότητας. Ένα τυχαίο διάνυσμα μπορεί να ενσωματωθεί στη διαδικασία ανάπτυξης του δέντρου με πολλούς τρόπους. Η πρώτη προσέγγιση είναι να επιλέγονται τυχαία F χαρακτηριστικά εισόδου για να διαχωρίζουν τον κάθε κόμβο του δέντρου απόφασης. Έτσι, αντί να εξετάζονται όλα τα διαθέσιμα χαρακτηριστικά, η απόφαση διαχωρισμού ενός κόμβου καθορίζεται από αυτά τα F χαρακτηριστικά. Στη συνέχεια, το δέντρο αναπτύσσεται πλήρως χωρίς κλάδεμα. Όταν ολοκληρωθεί η κατασκευή του δέντρου, οι προβλέψεις συνδυάζονται χρησιμοποιώντας κάποιο σχήμα πλειοψηφικής ψηφοφορίας. Η προσέγγιση αυτή είναι γνωστή ως Forest-RI, όπου το RI (Random Input) αναφέρεται στην τυχαία επιλογή εισόδου. Για να αυξηθεί η τυχαιότητα, μπορεί να χρησιμοποιηθεί ο Bagging για την παραγωγή bootstrap δειγμάτων για την Forest-RI. Η δύναμη και η συσχέτιση των τυχαίων δέντρων μπορεί να εξαρτάται από το μέγεθος του F. Εάν το F είναι αρκετά μικρό, τότε τα δέντρα τείνουν να είναι λιγότερο συσχετιζόμενα. Από την άλλη πλευρά, η δύναμη του ταξινομητή τείνει να βελτιώνεται με ένα μεγαλύτερο αριθμό χαρακτηριστικών, F. Γενικά, ο αριθμός των χαρακτηριστικών συχνά επιλέγεται να είναι F =log 2 d+1, όπου το d είναι ο αριθμός των χαρακτηριστικών εισόδου. Αφού μόνο ένα υποσύνολο των χαρακτηριστικών χρειάζεται να εξεταστεί σε κάθε κόμβο, αυτή η προσέγγιση βοηθάει σημαντικά στην μείωση του χρόνου εκτέλεσης του αλγορίθμου. 54

55 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Εάν ο αριθμός των αρχικών χαρακτηριστικών d είναι πολύ μικρός, τότε είναι δύσκολο να επιλεγεί ένα ανεξάρτητο σύνολο τυχαίων χαρακτηριστικών που θα κατασκευάσουν τα δέντρα απόφασης. Ένας τρόπος για την αύξηση του χώρου των χαρακτηριστικών είναι η δημιουργία γραμμικών συνδυασμών των χαρακτηριστικών εισόδου. Πιο συγκεκριμένα, σε κάθε κόμβο, δημιουργείται ένα νέο χαρακτηριστικό επιλέγοντας τυχαία L από τα χαρακτηριστικά εισόδου. Τα χαρακτηριστικά εισόδου συνδυάζονται γραμμικά χρησιμοποιώντας συντελεστές οι οποίοι δημιουργούνται από κανονική κατανομή εμβέλειας [- 1,1]. Σε κάθε κόμβο, δημιουργούνται F από αυτά τα τυχαίως συνδυασμένα νέα χαρακτηριστικά και το καλύτερο από αυτά επιλέγεται για τον διαχωρισμό του κόμβου. Η προσέγγιση αυτή είναι γνωστή ως Forest- RC. Μια τρίτη προσέγγιση για την παραγωγή τυχαίων δέντρων είναι η τυχαία επιλογή ενός από τα F καλύτερα διαχωριστικά σε κάθε κόμβο του δέντρου απόφασης. Αυτή η προσέγγιση, αν το F δεν είναι αρκετά μεγάλο, ενδεχομένως να δημιουργήσει δέντρα που είναι πιο συσχετιζόμενα σε σχέση με αυτά των μεθόδων Forest-RI και Forest-RC. Επίσης, δεν μειώνει τον χρόνο εκτέλεσης όπως οι άλλες δύο προσεγγίσεις επειδή ο αλγόριθμος πρέπει να εξετάσει όλα τα χαρακτηριστικά διαχωρισμού σε κάθε κόμβο του δέντρου απόφασης. Έχει αποδειχθεί ότι οι ακρίβειες των τυχαίων δέντρων είναι συγκρίσιμες με αυτές του AdaBoost. Επίσης, τα τυχαία δέντρα είναι πιο ισχυρά στον θόρυβο και τρέχουν πολύ πιο γρήγορα από τον AdaBoost. Κάθε δέντρο κατασκευάζεται βάση του ακόλουθου αλγόριθμου: 1. Έστω Ν ο αριθμός των περιπτώσεων εκπαίδευσης και Μ ο αριθμός των μεταβλητών στον ταξινομητή. 2. Ο αριθμός m των μεταβλητών εισόδου χρησιμοποιείται για να παρθεί απόφαση σε ένα κόμβο του δέντρου. m << M 3. Επιλέγουμε ένα σετ εκπαίδευσης για το δέντρο διαλέγοντας n φορές με αντικατάσταση από όλες τις Ν διαθέσιμες περιπτώσεις εκπαίδευσης. Χρησιμοποιώντας τις υπόλοιπες υποθέσεις υπολογίζουμε το σφάλμα του δέντρου, προβλέποντας τις κλάσεις του. 4. Για κάθε κόμβο στο δέντρο επιλέγουμε τυχαία m μεταβλητές στις οποίες στηρίζουμε την απόφαση του κόμβου. Υπολογίζουμε τον καλύτερο δυνατό διαχωρισμό βασισμένο στις m μεταβλητές του σετ εκπαίδευσης. 5. Κάθε δέντρο αναπτύσσεται πλήρως χωρίς κλάδεμα. Σχήμα 4.2: Ψευδοκώδικας RandomForrest Μηχανές Διανυσματικής Υποστήριξης Θα ολοκληρώσουμε την παρουσίαση των αλγορίθμων μάθησης που χρησιμοποιήθηκαν στην παρούσα εργασία με τις Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines ή SVMs), ένα είδος συγκερασμού γραμμικών μοντέλων και μάθησης βασισμένης σε στιγμιότυπα. Στόχος του αλγορίθμου αυτού είναι η επιλογή ενός μικρού αριθμού στιγμιότυπων εκπαίδευσης από κάθε κλάση, των διανυσμάτων υποστήριξης (support 55

56 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ vectors), που συνορεύουν στο χώρο του προβλήματος με στιγμιότυπα άλλων κλάσεων. Τα επιλεγμένα στιγμιότυπα χρησιμοποιούνται για την κατασκευή μιας γραμμικής συνάρτησης διάκρισης (discriminant function), ικανής να τα διαχωρίσει όσο το δυνατόν περισσότερο. Τα συστήματα ταξινόμησης που βασίζονται στον αλγόριθμο αυτό αποτελούν σήμερα μια από τις δημοφιλέστερες προσεγγίσεις στο χώρο της κατηγοριοποίησης κειμένου, λόγω της ευρωστίας, της αποτελεσματικότητας και της ταχύτητας που επιδεικνύουν, αλλά και της ικανότητάς τους να παράγουν μη γραμμικές επιφάνειες απόφασης, καθιστώντας έτσι υπολογιστικά εφικτή την επίλυση ενός μεγάλου αριθμού πρακτικών προβλημάτων μάθησης που δεν μπορούν να αντιμετωπιστούν από γραμμικά μοντέλα. Εν συνεχεία θα αναπτύξουμε τα βασικά σημεία της θεωρίας των SVMs, στην απλή περίπτωση ενός προβλήματος ταξινόμησης δύο γραμμικά διαχωρίσιμων κλάσεων. Υιοθετώντας για μια ακόμη φορά το μοντέλο της διανυσματικής αναπαράστασης του χώρου ενός προβλήματος, θεωρούμε ένα σύνολο n διανυσμάτων εκπαίδευσης, διάστασης l+1, έστω X = {x,... x,..., x }, όπου x = [a, a.... a,..., y ], με τα α 0,...,α l-1 να αποτελούν τα l χαρακτηριστικά του χώρου S και με y i { 1,1} την κλάση στην οποία το i- οστό στιγμιότυπο ανήκει. Λόγω της γραμμικής διαχωρισιμότητας των κλάσεων που υποθέσαμε, μπορούμε να βρούμε ένα υπερεπίπεδο Π το οποίο να διαχωρίζει κατά βέλτιστο τρόπο τα διανύσματα εκπαίδευσης, με εξίσωση w x + b = 0, όπου w το κανονικό διάνυσμα του Π, * το εσωτερικό γινόμενο δυο διανυσμάτων και b w η κατακόρυφη απόσταση της αρχής του συστήματος συντεταγμένων από το Π. Βάσει των παραπάνω, για το τυχαίο διάνυσμα εκπαίδευσης xi θα ισχύουν οι ακόλουθες σχέσεις: οι οποίες εκφράζονται ισοδύναμα ως εξής: w x + b 1ανy = 1 (4.5) w x + b 1ανy = 1 (4.6) y (w x + b) 1 0 (4.7) Ας εστιάσουμε πλέον την προσοχή μας στα διανύσματα εκπαίδευσης που ικανοποιούν την ισότητα της σχέσης 4.5: Αν τα θεωρήσουμε σαν σημεία του l-διάστατου χώρου S, αυτά θα βρίσκονται στο υπερεπίπεδο Π 1 : w x + b = 1 με w το κανονικό του διάνυσμα και με 1 b w την κατακόρυφη απόσταση της αρχής του συστήματος συντεταγμένων από το Π1. Ομοίως, τα σημεία του S που ικανοποιούν την ισότητα της 4.6 θα βρίσκονται στο υπερεπίπεδο Π2: w x + b = 1 με το κανονικό διάνυσμά του και με w 1 b w την κατακόρυφη απόσταση της αρχής του συστήματος συντεταγμένων από το Π2. Τα προαναφερθέντα διανύσματα εκπαίδευσης καλούνται διανύσματα υποστήριξης (support vectors), ενώ η απόσταση μεταξύ των δύο υπερεπιπέδων που σχηματίζουν, ίση με: 2 w μεγιστοποιείται όταν το w ελαχιστοποιηθεί. Θα πρέπει τέλος να σημειώσουμε ότι για την περίπτωση που εξετάζουμε, στην περιοχή που ορίζεται από τα Π1 και Π2, και που ονομάζεται περιθώριο (margin), δεν αντιστοιχίζεται κανένα διάνυσμα εκπαίδευσης. 56

57 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Αποδεικνύεται [32] ότι η ελαχιστοποίηση της νόρμας του διανύσματος w μπορεί να επιτευχθεί μέσω της συνάρτησης: F(a ) = a 1 2 a a x x y y όπου xi ένα διάνυσμα εκπαίδευσης, και a ένα διάνυσμα πολλαπλασιαστών Lagrange, με τα στοιχεία του θετικά, a j 0. Ένα διάνυσμα x j καλείται διάνυσμα υποστήριξης όταν η αντίστοιχη παράμετρος α j είναι αυστηρά μεγαλύτερη του μηδενός. Έχοντας υπολογίσει τα διανύσματα υποστήριξης κατά την εκπαίδευση του αλγορίθμου, έστω r στον αριθμό, η ταξινόμηση ενός αγνώστου στιγμιότυπων x συνίσταται στον υπολογισμό της τιμής της συνάρτησης: (4.8) f(x ) = sign{w x + b}όπου (4.9) w = a y x Εάν η υπόθεση της γραμμικής διαχωρισιμότητας των κλάσεων δεν ισχύει, αναγκαζόμαστε να χαλαρώσουμε τους περιορισμούς των σχέσεων (4.5) και (4.6), επιτρέποντας σε κάποια διανύσματα εκπαίδευσης να βρίσκονται μεταξύ των υπερεπιπέδων Π1 και Π2. Στην προκειμένη περίπτωση, η ποσότητα που θα πρέπει να ελαχιστοποιηθεί είναι η: υπό τον περιορισμό ότι: w + c ξ (4.10) (4.11) y (w x + b) 1 ξ, μεξ 0 (4.12) Η παράμετρος ξ i επιτρέπει στο αντίστοιχο διάνυσμα εκπαίδευσης να βρεθεί στην περιοχή του περιθωρίου εφόσον είναι μεγαλύτερη του μηδενός, ενώ η παράμετρος c, η οποία πρέπει να προσδιοριστεί από το χρήστη, εκφράζει την αυστηρότητα που αναμένεται να επιδείξει ο αλγόριθμος στην ανοχή στιγμιότυπων στο περιθώριο, κατά την εύρεση του βέλτιστου υπερεπιπέδου. Όπως και στην περίπτωση των γραμμικά v διαχωρίσιμων κλάσεων, μπορούμε να μεγιστοποιήσουμε τη συνάρτηση F(a ), υπό τον περιορισμό 0 a i c αντί του α i 0, ένα πρόβλημα το οποίο συναντάται στη βιβλιογραφία ως πρόβλημα τετραγωνικής βελτιστοποίησης με περιορισμούς (constrained quadratic optimization problem), επιλύσιμο μέσω γενικευμένων τετραγωνικών προγραμματιστικών τεχνικών ή ακόμα και εξειδικευμένων στην περιοχή των SVMs [31]. Καθοριστική σημασία για την ικανότητα γενίκευσης του αλγορίθμου φέρει η επιλογή της παραμέτρου c, καθώς όσο μεγαλύτερη είναι η τιμή της, τόσο πιο αυστηρό είναι το επαγόμενο μοντέλο στον προσδιορισμό ενός υπερεπιπέδου ικανού να διαχωρίσει σωστά την πλειοψηφία των διανυσμάτων εκπαίδευσης, ακόμα και αυτών εντός του περιθωρίου. Μεγάλες τιμές του c επομένως καθιστούν πιθανή την εμφάνιση, σε σχετικά μικρό βαθμό, του φαινομένου του υπερταιριάσματος (overfitting), ιδιαίτερα όταν η διάσταση του χώρου είναι μεγάλη και τα διανύσματα εκπαίδευσης απομακρύνονται μεταξύ τους. Το γεγονός αυτό φαίνεται πως έρχεται σε αντίθεση τόσο με τη γραμμικότητα του μοντέλου, όσο και με τη φύση του αλγορίθμου, 57

58 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ καθώς το φαινόμενο του υπερταιριάσματος μπορεί να παρατηρηθεί μόνο αν προστεθούν ή αφαιρεθούν στο μοντέλο διανύσματα υποστήριξης, με αποτέλεσμα να αλλάξει το υπερεπίπεδο μέγιστου περιθωρίου. Στο σημείο αυτό θα πρέπει να τονίσουμε ότι το προαναφερθέν ενδεχόμενο θεωρείται σχετικά σπάνιο να παρατηρηθεί σε έναν ταξινομητή SVM, αφού τα διανύσματα υποστήριξης αποτελούν ένα πολύ μικρό ποσοστό των διανυσμάτων εκπαίδευσης, όχι όμως και εντελώς απίθανο. Ας θεωρήσουμε για παράδειγμα την περίπτωση δύο γραμμικά διαχωρίσιμων κλάσεων, με τα διανύσματα εκπαίδευσης να μπορούν να αναπαρασταθούν στο χώρο των δύο διαστάσεων (σχήμα 4.1), και τις κλάσεις να απέχουν πολύ μεταξύ τους. Σχήμα 4.3: Σχήμα 4.3: Παράδειγμα εμφάνισης του φαινομένου του υπερταιριάσματος στους ταξινομητές SVM. Στην κάπως εξεζητημένη αυτή περίπτωση, παρατηρούμε ότι όλα τα διανύσματα εκπαίδευσης αποτελούν διανύσματα υποστήριξης, με αποτέλεσμα το υπερεπίπεδο μέγιστου περιθωρίου να είναι μια οριζόντια γραμμή στο μέσο του χώρου που ορίζουν οι δύο κλάσεις και μάλιστα ανεξάρτητη της τιμής του c (σχήμα 4.1, αριστερά). Αν ωστόσο υπεισέλθει θόρυβος στα δεδομένα εκπαίδευσης (σχήμα 4.1, δεξιά), το επαγόμενο μοντέλο ενδέχεται να αλλάξει δραματικά. Στην προκειμένη περίπτωση, η προσθήκη τεσσάρων ακόμα διανυσμάτων εκπαίδευσης στο μέσο του χώρου δεν επιφέρει καμία ουσιαστική αλλαγή στη συμπεριφορά του αλγορίθμου, αν επιλεγεί μικρή τιμή για το c, καθώς τον κάνει ανεκτικό σε μικρό αριθμό σφαλμάτων εκπαίδευσης. Μεγάλη τιμή του c ωστόσο θα ωθήσει τον αλγόριθμο να ταξινομήσει όσο το δυνατόν περισσότερα διανύσματα εκπαίδευσης σωστά, οδηγώντας στο διαγώνιο διαχωρισμό του επιπέδου, όπως φαίνεται στο σχήμα, που απέχει πολύ από τον επιθυμητό. O ο υπό εξέταση αλγόριθμος είναι εφαρμόσιμος και στην περίπτωση που η συνάρτηση διάκρισης δεν είναι γραμμική ως προς τα δεδομένα εκπαίδευσης. Αυτό που απαιτείται είναι ο μετασχηματισμός του χώρου του προβλήματος σε έναν άλλο χώρο, μεγαλύτερης ή και άπειρης διάστασης μέσω μιας απεικόνισης Φ : S H. Ο υπολογισμός όμως των εσωτερικών γινομένων των τύπων (4.8) και (4.9) σε ένα χώρο απείρων διαστάσεων Φ(x ) Φ x, ο οποίος καθίσταται ομολογουμένως προβληματικός, μπορεί να αποφευχθεί αν χρησιμοποιηθεί μια συνάρτηση πυρήνα Κ, τέτοια ώστε: K x, x = Φ(x ) Φ x. Εφαρμόζοντας το τέχνασμα αυτό, επιτυγχάνουμε την κατασκευή μιας μηχανής διανυσμάτων υποστήριξης σ ένα χώρο απείρων διαστάσεων, ανάγοντας τη μη γραμμική επιφάνεια διάκρισης του 58

59 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ αρχικού χώρου S σε γραμμική, χωρίς να εισάγουμε επιπλέον υπολογιστικό φόρτο στο σύστημα.[32]. Ένα ακόμα πλεονέκτημα των SVMs είναι η ικανότητά τους να χειρίζονται πολύ μεγάλους χώρους χαρακτηριστικών, καθιστώντας το στάδιο της επιλογής χαρακτηριστικών, που συνήθως προηγείται αυτού της εκπαίδευσης, περιττό. Επίσης, αξιοσημείωτη είναι και η ανεκτικότητα που παρουσιάζουν όσον αφορά στο πλήθος των στιγμιότυπων εκπαίδευσης, ιδιαίτερα όταν αυτό διαφέρει μεταξύ των δύο κλάσεων, καθώς τα SVMs δεν επιδιώκουν να ελαχιστοποιήσουν το σφάλμα των δεδομένων εκπαίδευσης, αλλά να τα διαχωρίσουν αποτελεσματικά σε ένα χώρο μεγάλης διάστασης. Όσον αφορά τέλος στους χρόνους εκπαίδευσης και ελέγχου του αλγορίθμου, αυτοί αποδεικνύονται κάπως αυξημένοι, ιδιαίτερα όταν η διάσταση του χώρου είναι μεγάλη, ή όταν η συνάρτηση διάκρισης δεν είναι γραμμική. Στα πειράματα αυτής της εργασίας, θεωρήθηκε ότι η συνάρτηση διάκρισης του χώρου των μηνυμάτων ηλεκτρονικού ταχυδρομείου είναι γραμμική, υπόθεση που επιβεβαιώθηκε πειραματικά. Επίσης, για την επιλογή της παραμέτρου c εξετάστηκαν οι περιπτώσεις των τιμών 1, 2, 3, 4, 5, 20, 30 και 50. Τα πειραματικά αποτελέσματα έδειξαν ότι το παραγόμενο μοντέλο ευνοείται όταν c = 1. Αντίθετα, η σταδιακή αύξηση της τιμής του c είχε ως αποτέλεσμα τη μείωση της αποδοτικότητας του μοντέλου στο σώμα ελέγχου, σε χώρους χαμηλής διάστασης, ενώ η χρήση οσοδήποτε μεγάλης τιμής του c σε χώρους μεγάλης διάστασης (αριθμός χαρακτηριστικών > 560) δεν είχε ουσιαστική επίπτωση στην απόδοσή του Αλγόριθμος κατηγοριοποίησης k-means Ο αλγόριθμος k-means (k-µέσων) είναι ένας αλγόριθμος [33] που οµαδοποιεί αντικείμενα βάσει των χαρακτηριστικών των k µεριδίων. Αποτελεί µεταβλητή του αλγόριθμου μεγιστοποίησης αναµονής (expectation-maximization algorithm-em), όπου σκοπός είναι να οριστεί ο k-means δεδομένων που προήλθαν από Gaussian κατανοµές. Ο αλγόριθμος υποθέτει ότι τα χαρακτηριστικά του αντικειμένου δημιουργούν ένα χώρο διανυσµάτων και ο σκοπός του είναι να ελαχιστοποιήσει τη συνολική διακύμανση της αψάδας ή τη συνάρτηση τετραγωνικού σφάλµατος: V = argmin x μ (4.13) όπου υπάρχουν k οµάδες S i, i = 1,2,...,k και µ i είναι το κεντροειδές ή το µεσαίο σηµείο από όλα τα σηµεία. Τα βασικά βήµατα του αλγόριθµου είναι τα εξής: 1. Επιλογή του αριθµού των οµάδων. 2. Τυχαία δηµιουργία k οµάδων και ορισµός των κεντροειδών των οµάδων. 3. Μεταβίβαση του κάθε σηµείου στο κεντροειδές της κοντινότερης οµάδας. 4. Υπολογισµός των νέων κεντροειδών των οµάδων. 5. Επανάληψη µέχρι να συγκλίνει ο αλγόριθµος σε κάποιο κριτήριο. Σχήμα 4.4: Ψευδοκώδικας αλγορίθμου k-means 59

60 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Ο αλγόριθμος ξεκινά διαχωρίζοντας τα αρχικά σηµεία σε k αρχικά σύνολα είτε τυχαία είτε χρησιμοποιώντας ευριτικά δεδομένα. Στη συνέχεια υπολογίζει το μεσαίο ή το κεντροειδές του κάθε συνόλου, υλοποιεί νέο διαχωρισµό ώστε το κάθε σηµείο να σχετίζεται µε το κοντινότερο κεντροειδές. Έπειτα τα κεντροειδή ξαναϋπολογίζονται για τις νέες οµάδες, ο αλγόριθµος επαναλαµβάνει τα δυο βήµατα ωσότου τα σηµεία δεν µπορούν να αλλάξουν οµάδες (ή εναλλακτικά τα κεντροειδή παραµένουν αµετάβλητα). Ο αλγόριθµος αυτός παραµένει διάσηµος επειδή τείνει σε κάποιο όριο πολύ γρήγορα. Όσον αφορά την απόδοση ο αλγόριθµος δεν εγγυάται ότι θα αγγίξει το βέλτιστο. Η ποιότητα της τελική λύσης εξαρτάται πολύ από το αρχικό σύνολο οµάδων και µπορεί να είναι πολύ χαµηλότερη από το συνολικό βέλτιστο. Επίσης ένα άλλο µειονέκτηµα του αλγόριθµου είναι ότι ο αριθµός των οµάδων πρέπει να οριστεί εξαρχής. 4.4 Πλαίσιο πειραματικής αξιολόγησης Στην παράγραφο αυτή αναλύουμε τον τρόπο με τον οποίο υλοποιήσαμε το πλαίσιο ανομοιότητας σε περιβάλλον java, καθώς επίσης τον τρόπο με τον οποίο έγινε ο μετασχηματισμός των δεδομένων για την χρήση αλγορίθμων κατηγοριοποίησης οι οποίοι έχουν ως είσοδο δεκαδικούς αριθμούς. Παραθέτονται επίσης κάποια παραδείγματα δεδομένων εισόδου. Οι βασικοί αλγόριθμοι με τους οποίους έγινε η κατηγοριοποίηση των δειγμάτων και ο τρόπος με τον οποίο έγινε η αξιολόγηση των αποτελεσμάτων Εξαγωγή χαρακτηριστικού ανομοιότητας Για την εξαγωγή του χαρακτηριστικού ανομοιότητας υλοποιήθηκε ο αλγόριθμος που περιγράψαμε στο κεφάλαιο 3 σε περιβάλλον Java. Η κάθε λειτουργία του αλγορίθμου είναι ξεχωριστό κομμάτι module. Υπάρχει μία κεντρική κλάση από την οποία γίνεται ο έλεγχος των δεδομένων εισόδου και η κατανομή των δεδομένα στην εκάστοτε κλάση επεξεργασίας. Μετά την λύση των υποπροβλημάτων γίνεται επιστροφή τον αποτελεσμάτων στην κεντρική κλάση. Η δομή των βαθμολογιών, χρηστών και αντικειμένων είναι όπως παρουσιάζεται στην παράγραφο Ως αποτέλεσμα της σχεδίασης έχουμε το παρακάτω διάγραμμα κλάσεων. 60

61 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ 61

62 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Σχήμα 4.5: Διάγραμμα κλάσεων αλγορίθμου εύρεσης ανομοιότητας Σχήμα 4.6: Δεδομένα εισόδου πλαισίου ανομοιότητας. Με αυτό το αρχείο αναπαριστούνται οι ψήφοι των χρηστών σε αντικείμενα και εν τούτης και στα χαρακτηριστικά τους. Το αρχείο αυτό ακολουθεί την εξής δομή. A/A Χρήστη, Α/Α αντικειμένου, Α/Α Είδους, Α/Α Άλμπουμ, Α/Α Καλλιτέχνη, ψήφος του χρήστη. Μετά την είσοδο των ψήφων το πλαίσιο ακολουθεί την δομή του υποκεφαλαίου 3.1, όπως περιγράφεται στο σχήμα 4.4 μέσω της κεντρικής κλάσης. Δημιουργείται το User Profile του χρήστη-στόχου το οποίο περιέχει όλες τις απαραίτητες πληροφορίες για τον υπολογισμό των μετρικών ομοιότητας, καθώς επίσης και των κανονικοποιημένων τιμών που μπαίνουν ως είσοδος στην κλάση υπολογισμού ανομοιότητας. Μετά το πέρας υπολογισμού του δείκτη ανομοιότητας δημιουργούνται τα αρχεία εισόδου για το πλαίσιο μετασχηματισμού των δεδομένων. Παρακάτω παρουσιάζεται η κεντρική κλάση εκκίνησης. 62

63 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ public class Main { public static void main(string[] args) { DatasetParser parser; parser = new DatasetParser(); UserProfile userprofile = new UserProfile(); Map<Integer, User> Users = new TreeMap<Integer, User>(); Map<Integer, Map<Integer, Item>> preferences = new HashMap<Integer, Map<Integer, Item>>(); datadesc = parser.parsedataset("dataset.dat", Users, preferences); userprofile.calculateavg(b, preferences, sumofratingofallitems, numofallrecords, Users); Map<Integer, AttributeInterest> userattributeinterest = userprofile.getattributeinterest(); SimmilarityBasedOnCommonRatedItems simuseritems = new SimmilarityBasedOnCommonRatedItems(); simuseritems.findcommonusers(tthresholdci, userprofile, Users, userattributeinterest, preferences, topkusers); SimmilarityBasedOnCommonRatedAttributes simuserattributes = new SimmilarityBasedOnCommonRatedAttributes(); simuserattributes.findcommonusers(tthresholdcav, userprofile, Users, userattributeinterest); Dissimilarity dissimilaritybyitem = new Dissimilarity(); dissimilaritybyitem.calculatedissimilaritybyitem(topkusers, userattributeinterest, preferences, Users); Dissimilarity dissimilaritybyattribute = new Dissimilarity(); dissimilaritybyattribute.calculatedissimilaritybyattribute(topkusers, Users, userattributeinterest, preferences); SamplesLabelling labelsamples = new SamplesLabelling(); labelsamples.calculatelabelling(preferences, Users); BuildFilesForNaiveBayes inputbayes = new BuildFilesForNaiveBayes(num_of_files_per_folder_Bayes, topkusers, Users, preferences); } Σχήμα 4.7: Βασική κλάση έναρξης εκτέλεσης αλγορίθμου εύρεσης ανομοιότητας. Μετά την εκτέλεση του παραπάνω κώδικα δημιουργούνται αρχεία τα οποία περιέχουν τις τιμές ανομοιότητας με την εξής μορφή. 63

64 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ 1,41428,5381,106,9473,0.023,0.323,0.017,0.011,0.047,0.008,2.077,false 1,54042,5864,134,8036,0.017,0.263,0.016,0.008,0.05,0.009,3.115,false 1,131376,7962,106,1212,0.017,0.323,0.016,0.007,0.047,0.01,3.115,false 1,62770,5955,106,17769,0.017,0.323,0.016,0.007,0.047,0.006,3.115,false 1,13140,3203,106,14824,0.019,0.323,0.018,0.008,0.047,0.007,4.153,true 1,62982,4261,106,4362,0.017,0.323,0.016,0.009,0.047,0.017,3.115,false Σχήμα 4.8: Δεδομένα εξόδου πλαισίου ανομοιότητας. Με αυτό το αρχείο αναπαριστούνται οι κανονικοποιημένοι συντελεστές αρέσκειας οι συντελεστές ανομοιότητας και η ετικέτα αντικειμένου για τον χρήστη. Το αρχείο αυτό ακολουθεί την εξής δομή. A/A Χρήστη, Α/Α αντικειμένου, Α/Α Είδους, Α/Α Άλμπουμ, Α/Α Καλλιτέχνη, Κ.Τ.Α(Κανικοποιημένη Τιμή Ανομοιότητας) Είδους, Κ.Τ.Α Άλμπουμ, Κ.Τ.Α Καλλιτέχνη, Συντελεστής αισιοδοξίας, Ετικέτα αρέσκειας Μετασχηματισμός δεδομένων Καθώς κάποιοι από τους αλγορίθμους κατηγοριοποίησης δέχονται μόνο διακριτές τιμές τα δεδομένα αυτά εισάγονται στο πλαίσιο μετασχηματισμού το οποίο μετατρέπει τις διακριτές τιμές σε δεκαδικές όπως περιγράφεται στην παράγραφο

65 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ public class Main { private static DecimalFormat df = new DecimalFormat("#.###"); public static void main(string[] args) throws FileNotFoundException, IOException, outofboundsexception, incorrecttypeexception { Map<Integer, String> userindexmap = new HashMap<Integer,String>(); br = new BufferedReader(new InputStreamReader(new DataInputStream(new FileInputStream(userIndex)))); while((linebuffer = br.readline())!=null) { } linetokensbuffer = linebuffer.split("\t"); linetokensbuffer[1] = linetokensbuffer[1].replacefirst("output/common", ""); userindexmap.put(integer.parseint(linetokensbuffer[0]), linetokensbuffer[1]); br.close(); //Then we open our user_file_similar_users and continually get users. filedata = new Vector<Vector<String>>(); formateddata = new Vector<NTuple>(); int counter = 0; br = new BufferedReader(new InputStreamReader(new DataInputStream(new FileInputStream(similarUsersIndex)))); while((linebuffer = br.readline())!=null) { linetokensbuffer = linebuffer.split("\t"); //For each user, our linetokensbuffer has his similar users which we have to find in our files and gather their data. for(int i = 0 ; i < linetokensbuffer.length ; i++) { } try { } br2 = new BufferedReader(new InputStreamReader( new DataInputStream(new FileInputStream( inputdirectoriespath+ userindexmap.get(integer.parseint(linetokensbuffer[i])))))); while((linebuffer = br2.readline())!=null) { } linetokensbuffer2 = linebuffer.split(","); filedata.add(new Vector<String>(Arrays.asList(lineTokensBuffer2))); br2.close(); catch(filenotfoundexception e) { } for(int i = 0 ; i < filedata.size() ; i++) { formateddata.add(ntuplefactory.constructnewtuple()); NTupleFactory.InsertNewFeatureAndValueForTuple("UserID", Integer.parseInt(fileData.get(i).get(0)), formateddata.get(i)); NTupleFactory.InsertNewFeatureAndValueForTuple("ItemID", Integer.parseInt(fileData.get(i).get(1)), formateddata.get(i)); NTupleFactory.InsertNewFeatureAndValueForTuple("ArtistID", filedata.get(i).get(2), formateddata.get(i)); NTupleFactory.InsertNewFeatureAndValueForTuple("GenreID", filedata.get(i).get(3), formateddata.get(i)); NTupleFactory.InsertNewFeatureAndValueForTuple("AlbumID", filedata.get(i).get(4), formateddata.get(i)); NTupleFactory.InsertNewFeatureAndValueForTuple("Like", filedata.get(i).get(12), formateddata.get(i)); 65

66 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Σχήμα 4.9: Βασική κλάση έναρξης εκτέλεσης αλγορίθμου μετασχηματισμού δεδομένων. Μετά τον μετασχηματισμό των δεδομένων οι ακέραιες τιμές μετατρέπονται σε δεκαδικούς και τα δεδομένα παίρνουν την εξής μορφή. 1,41428,0.584,0.541,0.5,0.023,0.323,0.017,0.011,0.047,0.008,2.077,false 1,54042,0.232,0.504,0.185,0.017,0.263,0.016,0.008,0.05,0.009,3.115,false 1,131376,0.6,0.541,0.6,0.017,0.323,0.016,0.007,0.047,0.01,3.115,false 1,62770,0.508,0.541,0.488,0.017,0.323,0.016,0.007,0.047,0.006,3.115,false 1,13140,0.413,0.541,0.508,0.019,0.323,0.018,0.008,0.047,0.007,4.153,true Σχήμα 4.10: Δεδομένα εξόδου πλαισίου μετασχηματισμού δεδομένων. Με αυτό το αρχείο αναπαριστούνται οι κανονικοποιημένοι συντελεστές αρεσκείας, οι συντελεστές ανομοιότητας και η ετικέτα αντικειμένου για τον χρήστη, με όλα τα αριθμητικά δεδομένα να είναι δεκαδικά. Το αρχείο αυτό ακολουθεί την εξής δομή. A/A Χρήστη, Α/Α αντικειμένου, Α/Α Είδους, Α/Α Άλμπουμ, Α/Α Καλλιτέχνη, Κ.Τ.Α Είδους, Κ.Τ.Α Άλμπουμ, Κ.Τ.Α Καλλιτέχνη, Συντελεστής αισιοδοξίας, Ετικέτα αρέσκειας Κατηγοριοποίηση δειγμάτων Καθώς η κατηγοριοποίηση των δεδομένων εντάσσεται στο πλαίσιο των binary κατηγοριοποιητών υπάρχει η έννοια τις ετικέτας αρέσκειας η οποία είναι και το χαρακτηριστικό στο οποίο θέλουμε να καταλήξουμε, με τιμές like-dislike. Το οποίο μπορεί να μεταφραστεί έμμεσα σε true false. Για κάθε εκτέλεση των μεθόδων κατηγοριοποίησης χρησιμοποιήθηκε διαφορετικό σύνολο δεδομένων ώστε να αποδείξουμε ότι η χρήση του χαρακτηριστικού ανομοιότητας βοηθάει στην κατηγοριοποίηση. Ως εκ τούτου έχουμε χωρίσει τα δεδομένα σε (α) ΝΒ το οποίο περιέχει τις συνεχείς τιμές ιδιοτήτων των δειγμάτων (β) το DF σύνολο το οποίο περιέχει τα χαρακτηριστικά ανομοιότητας των δειγμάτων (γ) το σύνολο NB+DF το οποίο περιέχει και τα χαρακτηριστικά των τιμών ιδιοτήτων και τις τιμές ανομοιότητας. Για κάθε σύνολο χαρακτηριστικών, εκπαιδεύουμε και αξιολογούμε έναν ταξινομητή για κάθε χρήστη κάνοντας χρήση της τεχνικής 10-fold cross validation Συμπεριλαμβανόμενοι ταξινομητές ως προτασιακοί αλγόριθμοι Μετά από αξιολόγηση των αλγορίθμων με ένα αντιπροσωπευτικό σύνολο δεδομένων καταλήξαμε σε χρήση αλγορίθμων δενδρικής δομής C4.5, RandomForrest στον Lib- SVM ο οποίος ακολουθεί την λογική των μηχανών διανυσματικής υποστήριξης και στον k-means ο οποίος εντάσσεται στο πλαίσιο των αλγορίθμων πλησιέστερων γειτόνων ανά κεντροιδή. Επίσης χρησιμοποιήθηκαν πειραματικά και άλλοι αλγόριθμοι στο σύνολο των δεδομένων για την εξέταση της απόδοσης. Η παρουσίαση των αποτελεσμάτων γίνεται στην παράγραφο

67 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Κανονικοποίηση συντελεστή ανομοιότητας Σε κάποιους αλγόριθμους κατηγοριοποίησης η μεγάλη απόκλιση μεταξύ των τιμών δημιουργεί πρόβλημα στην κατηγοριοποίηση καθώς οι τιμές οι οποίες βρίσκονται μακριά στον δισδιάστατο χώρο διακρίνονται σαν γειτονικές γίνεται κατηγοριοποιεί σε άλλες κλάσεις αντικειμένων. Καθώς οι τιμές των συντελεστών ανομοιότητας είναι ανά δύο κοντά αλλά βρίσκονται σε μεγάλη απόσταση από αυτές των συντελεστών ομοιότητας γίνεται κανονικοποίηση των συντελεστών αυτών για να υπάρξει καλύτερη κανονικοποίηση μέσω της σχέσης x '= x min(x ) max( x) min( x) (4.14) Όπου x είναι η τιμή ανομοιότητας πριν την κανονικοποίηση, min(x) είναι η μικρότερη τιμή μεταξύ του συνόλου συντελεστών ανομοιότητας, max(x) είναι η μέγιστη τιμή μεταξύ του συνόλου συντελεστών και x είναι η τιμή του συντελεστή μετά την κανονικοποίηση Μετρικές αξιολόγησης Για την αξιολόγηση της χρησιμότητας των χαρακτηριστικών ανομοιότητας χρησιμοποιήθηκε η μετρική της ακρίβειας των αποτελεσμάτων (precision). Καθώς η μετρική αυτή μας δείχνει πόσο σωστά έγινε η κατηγοριοποίηση των αποτελεσμάτων και έχουμε χωρίσει τα σύνολα επεξεργασίας σε σύνολα τα οποία μπορούν να μας εμφανίσουν την απόδοση τους, μπορούμε να εξάγουμε συμπέρασμα μέσω συγκρίσεων του συντελεστή ακρίβειας ο οποίος υπολογίζεται από την σχέση: precision = relevantdocuments retrieveddocuments retrieveddocuments (4.15) Η ένδειξη βελτιωμένης ακρίβειας κατηγοριοποίησης σε τέτοιες περιπτώσεις υποδεικνύει ότι τα χαρακτηριστικά ανομοιότητας προσφέρουν μια πιο αξιόλογη λύση στο δυαδικό μας πρόβλημα. 4.5 Παρουσίαση και Ανάλυση Αποτελεσμάτων Επικεντρωνόμενοι μόνο στην ακρίβεια, υπολογίζουμε τη σταθμισμένη εκδοχή της (weighted precision) για κάθε ταξινομητή συνδυάζοντας τις ακρίβειες όλων των κλάσεων, όπου τα μεγέθη τους λαμβάνονται υπόψη. Για κάθε χρήστη εκπαιδεύουμε και αξιολογούμε έναν ταξινομητή κάνοντας χρήση της τεχνικής 10-fold validation, και στο τέλος, υπολογίζουμε τη μέση σταθμισμένη ακρίβεια κατηγοριοποίησης από όλους τους ταξινομητές. Για κάθε εκτέλεση ορίσαμε την παράμετρο β = 1 στον τύπο 3.7 για τον συνδυασμό δημοτικότητας και αρεσκείας, καθώς και τον αριθμό k = 100 για τον προσδιορισμό του αριθμό των πιο όμοιων χρηστών. Οι εκτελέσεις των μεθόδων CI και CAV εκτελέστηκαν με διαφορετικά κατώφλια t CI και t CAV. Τα σημεία τα οποία περιγράφονται με έντονη γραφή δείχνουν την μεγαλύτερη θετική συσχέτιση μεταξύ του χαρακτηριστικού ανομοιότητας με την επιτυχία κατηγοριοποίησης του αλγορίθμου. 67

68 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Για την επιλογή των αλγορίθμων εκτέλεσης έγινε έλεγχος των κατηγοριοποιήσεων με διάφορους τύπους αλγορίθμων στο σύνολο των δεδομένων για να επιλέξουμε τους καλύτερους από το σύνολο των κατηγοριοποιητών. Παρακάτω παρουσιάζονται τα αποτελέσματα από μερικούς από αυτούς καθώς και αυτών που τελικά επιλέχθηκαν. AdaBoost Μέθοδος CI Μέθοδος CAV t CI =10 t CI =20 t CI =30 t CAV =0.1 t CAV =0.2 t CAV =0.3 DF 76.84% 78.85% 79.08% 72.05% 72.34% 74.44% NB 87.85% 87.11% 86.40% 87.84% 87.84% 87.85% NB+DF 87.58% 86.92% 86.23% 87.42% 87.42% 87.48% Logistic Boost DF 76.78% 78.69% 78.98% 72.02% 72.28% 74.35% NB 87.31% 86.61% 85.96% 87.30% 87.29% 87.35% NB+DF 86.96% 86.29% 85.68% 86.85% 86.83% 86.91% LogisticRegration DF 74.43% 75.25% 75.00% 70.81% 71.05% 72.68% NB 79.39% 78.01% 76.92% 79.42% 79.42% 79.44% NB+DF 78.33% 77.29% 76.54% 77.92% 77.90% 78.00% Decorate DF 78.80% 79.06% NB 87.07% 86.32% NB+DF 86.53% 85.87% Πίνακας 4.2: Παρουσίαση αποτελεσμάτων αλγορίθμων κατηγοριοποίησης. Όπως μπορούμε να διακρίνουμε στον παραπάνω πίνακα η ακρίβεια ταξινόμησης είναι πολύ μεγάλη αλλά καθώς δεν υπάρχει θετική μεταβολή μεταξύ των συνόλων NB και NB+DF μπορούμε να πούμε πως η χρήση του συντελεστή ανομοιότητας δεν ενδείκνυται με την χρήση των παραπάνω αλγορίθμων για τα δεδομένα μας. Εκτέλεση αλγορίθμου k-means Ταξινομητής K-Means Μέθοδος CI Μέθοδος CAV t CI =10 t CI =20 t CI =30 t CAV =0.1 t CAV =0.2 t CAV =0.3 K-Means k=5 DF 74.36% 75.69% 75.82% 70.56% 70.79% 72.25% NB 78.48% 78.29% 78.17% 78.37% 78.38% 78.45% NB+DF 78.73% 78.58% 78.16% 77.44% 77.50% 77.85% K-Means k=10 DF 71.86% 73.99% 74.70% 68.35% 68.52% 69.82% NB 74.99% 75.52% 75.96% 74.72% 74.71% 74.84% NB+DF 75.71% 76.30% 76.55% 74.40% 74.44% 74.85% K-Means k=20 DF 64.55% 69.55% 72.08% 62.10% 62.18% 63.11% NB 67.52% 70.85% 73.02% 66.85% 66.84% 67.12% NB+DF 67.87% 71.49% 73.68% 66.63% 66.65% 67.11% K-Means k=30 DF 49.73% 52.42% 55.16% 49.79% 49.80% 49.77% NB 54.45% 57.58% 60.63% 54.31% 54.29% 54.41% 68

69 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ NB+DF 55.36% 58.45% 61.53% 55.50% 55.41% 55.40% K-Means k=50 DF 53.39% 57.11% 60.83% 53.33% 53.33% 53.47% NB 55.84% 58.74% 61.93% 55.69% 55.69% 55.73% NB+DF 55.74% 58.83% 62.21% 55.57% 55.57% 55.64% Πίνακας 4.3: Παρουσίαση αποτελεσμάτων K-means Για τον ταξινομητή k-means έγινε χρήση 5 διαφορετικών αριθμών κεντροειδών (5,10,20,30,50). Όπως βλέπουμε στον πίνακα 4.3 έχουμε θετικές μεταβολές ως προς την ακρίβεια στα σύνολα δεομένων. Στην παρούσα εκτέλεση ο αλγόριθμος k-means εκτελέστηκε με τις ρυθμίσεις που περιγράφονται στον πίνακα 4.4. Συνάρτηση αξιολόγησης απόστασης Αντικατάσταση ελλιπών τιμών Ευκλείδεια απόσταση ΟΧΙ Μέγιστος αριθμός επαναλήψεων 500 Σπόρος 10 Πίνακας 4.4: Ρυθμίσεις αλγορίθμου k-means Όπως μπορούμε να διακρίνουμε και στο σχήμα 4.11 με την χρήση 5 κεντροειδών τα ποσοστά ακρίβειας στο σύνολο NB+DF είναι μεταξύ του διαστήματος ( )% αλλά η διαφορά ακρίβειας μετά την εισαγωγή του χαρακτηριστικού ανομοιότητας είναι 0.28 συγκριτικά με το σύνολο ΝΒ. Αυτό σημαίνει πως η προσθήκη του συντελεστή ανομοιότητας ενδυνάμωσε την κατηγοριοποίηση μόλις 0.28% % 78.00% 76.00% 74.00% 72.00% 70.00% NB+DF NB DF 68.00% 66.00% tci =10 tci =20 tci=30 tcav =0.1 tcav =0.2 tcav =0.3 Σχήμα 4.11: Αποτελέσματα εκτέλεσης Αλγορίθμου k-means με k=5 Μετά την εκτέλεση του αλγορίθμου κεντροειδών μπορούμε να καταλήξουμε στο ότι με την χρήση 30 κεντροειδών ανά εκτέλεση η σχέση που περιγράψαμε παραπάνω είναι θετική σε όλα τα σύνολα δεδομένων, με κλίμακα απόκλισης ( )% και με ποσοστά ακρίβειας μεταξύ του διαστήματος ( )% ανάμεσα στα σύνολα δεδομένων NB+DF και NB με μέγιστη διαφορά ακρίβειας 1.1 % στο σύνολο δεδομένων με κατώφλι t CI =30. Με αυτά τα αποτελέσματα γνωρίζουμε πως οι

70 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ συντελεστές ανομοιότητας λειτουργούν επικουρικά σε όλα τα σύνολα δεδομένων με ποσοστό ενδυνάμωσης 1.1% % 60.00% 50.00% 40.00% 30.00% 20.00% NB+DF NB DF 10.00% 0.00% tci =10 tci =20 tci=30 tcav =0.1 tcav =0.2 tcav =0.3 Σχήμα 4.12 : Αποτελέσματα εκτέλεσης Αλγορίθμου k-means με k=30 Εκτέλεση αλγορίθμων δένδρων απόφασης Ταξινομητής RandomForrestClassifier Μέθοδος CI Μέθοδος CAV t CI =10 t CI =20 t CI =30 t CAV =0.1 t CAV =0.2 t CAV =0.3 DF 68.89% 72.54% 74.35% 65.80% 65.87% 66.97% NB 82.40% 82.63% 82.64% 82.26% 82.24% 82.35% NB+DF 81.78% 82.03% 82.08% 81.60% 81.59% 81.72% Ταξινομητής C 4.5 DF 76.67% 78.98% 79.37% 71.21% 71.51% 73.93% NB 88.25% 87.46% 86.66% 88.24% 88.23% 88.29% NB+DF 88.06% 87.26% 86.46% 87.98% 87.97% 88.04% Πίνακας 4.5: Παρουσίαση αποτελεσμάτων δένδρων απόφασης Όπως μπορούμε να παρατηρήσομε στον πίνακα 4.5 μετά την εκτέλεση των παραπάνω αλγορίθμων τα ποσοστά ακρίβειας είναι υψηλά αλλά δεν γίνεται καλύτερη κατηγοριοποίηση με την χρήση του χαρακτηριστικού ανομοιότητας καθώς μετά την εισαγωγή του δεν υπάρχει θετική μεταβολή στα σύνολα NB, NB+DF. Ρυθμίσεις αλγορίθμου RandomForrest Μέγιστο βάθος 0 Αριθμός δέντρων 10 Σπόρος 1 Ρυθμίσεις αλγορίθμου C4.5 Παράγοντας εμπιστοσύνης

71 Αριθμός επαναλήψεων για την μείωση σφάλματος ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Σπόρος 1 Πριονισμός δέντρου Πίνακας 4.6: Ρυθμίσεις αλγορίθμων δέντρων απόφασης 3 ΝΑΙ Εκτέλεση αλγορίθμου μηχανής διανυσματικής υποστήριξης με συνάρτηση πυρήνα RBF Ταξινομητής μηχανής διανυσματικής υποστήριξης με συνάρτηση πυρήνα RBF Μέθοδος CI Μέθοδος CAV t CI =10 t CI =20 t CI =30 t CAV =0.1 t CAV =0.2 t CAV =0.3 DF 64.93% 67.60% 69.58% 57.73% 57.71% 58.11% NB 81.92% 81.62% 81.23% 75.94% 75.98% 76.11% NB+DF 68.53% 70.84% 72.29% 61.92% 61.93% 61.97% Πίνακας 4.7: Παρουσίαση αποτελεσμάτων μηχανής διανυσματικής υποστήριξης με συνάρτηση πυρήνα RBF Καθώς η μεταβολή των ποσοστών ακρίβειας δεν ήταν θετικές, μετά την εκτέλεση του παραπάνω αλγορίθμου με την χρήση του συντελεστή ανομοιότητας έγιναν παραμετροποιήσεις στον τρόπου χειρισμού των δεδομένων από την συνάρτηση πυρήνα και επιλέχθηκε η χρήση γραμμικής συνάρτησης. Εκτέλεση αλγορίθμου μηχανής διανυσματικής υποστήριξης με γραμμική συνάρτηση πυρήνα Ταξινομητής μηχανής διανυσματικής υποστήριξης με γραμμική συνάρτηση πυρήνα Μέθοδος CI Μέθοδος CAV t CI =10 t CI =20 t CI =30 t CAV =0.1 t CAV =0.2 t CAV =0.3 DF 53.94% 55.60% 56.78% 53.27% 53.26% 53.43% NB 62.07% 62.15% 62.17% 62.00% 62.07% 62.15% NB+DF 62.51% 63.21% 63.85% 62.28% 62.27% 62.48% Πίνακας 4.8: Παρουσίαση αποτελεσμάτων μηχανής διανυσματικής υποστήριξης γραμμικής συνάρτησης πυρήνα Μετά την χρήση της γραμμικής συνάρτησης ως συνάρτηση πυρήνα στον ταξινομητή διανυσματικής υποστήριξης τα αποτελέσματα είναι θετικά, της τάξης ( )% με ποσοστά επιτυχίας μεταξύ του διαστήματος ( )%. Μέγεθος προσωρινής μνήμης 2000 Συρρίκνωση Εκτίμηση πιθανότητας Κανονικοποίηση ΝΑΙ ΝΑΙ ΝΑΙ 71

72 Πίνακας 4.9: Ρυθμίσεις αλγορίθμου SVM C- SVC ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ Μετά την εκτέλεση τον πειραμάτων στο σύνολο δεδομένων συμπεράναμε πως οι τιμές ανομοιότητας με αυτές των ομοιοτήτων βρίσκονται «μακριά» στον δισδιάστατο χώρο. Αυτό οδηγεί στην δημιουργία συστάδων μόνο ως προς το χαρακτηριστικό ομοιότητας, ανομοιότητας αντίστοιχα. Αποτέλεσμα αυτού είναι να μην λειτουργεί αποδοτικά η προσθήκη του χαρακτηριστικού ανομοιότητας, και τα ποσοστά ακρίβειας να είναι χαμηλά ή και αρνητικά μετά την προσθήκη. Για να λύσουμε το πρόβλημα κοινωνικοποιήσαμε τις τιμές ανομοιότητας όπως εξηγούμε στην παράγραφο AdaBoost Normalized Dissimilarity Μέθοδος CI Μέθοδος CAV t CI =10 t CI =20 t CI =30 t CAV =0.1 t CAV =0.2 t CAV =0.3 DF 75.79% 77.94% 78.40% 71.20% 71.48% 73.46% NB 87.85% 87.11% 86.40% 87.84% 87.84% 87.85% NB+DF 87.50% 86.85% 86.16% 87.35% 87.35% 87.40% Logistic Boost Normalized Dissimilarity DF 75.96% 78.01% 78.48% 71.40% 71.62% 73.61% NB 87.31% 86.61% 85.96% 87.30% 87.29% 87.35% NB+DF 86.88% 86.21% 85.61% 86.79% 86.78% 86.85% LogisticRegration Normalized Dissimilarity DF 72.87% 74.06% 74.16% 69.75% 69.98% 71.50% NB 79.39% 78.01% 76.92% 79.42% 79.42% 79.44% NB+DF 77.95% 76.95% 76.31% 77.68% 77.66% 77.72% Decorate Normalized Dissimilarity DF 77.88% 78.41% NB 87.07% 86.32% NB+DF 86.28% 85.68% Πίνακας 4.10: Παρουσίαση αποτελεσμάτων αλγορίθμων κατηγοριοποίησης με κανονικοποιημένους συντελεστές ανομοιότητας. Μετά την κανονικοποίηση των συντελεστών ανομοιότητας η απόδοση των αλγορίθμων αυξήθηκε σημαντικά. Παρόλα αυτά δεν υπήρξε διαφορά με την χρήση των συντελεστών ανομοιότητας. Καθώς η προσθήκη του συντελεστή ανομοιότητας δεν είχε θετικά αποτελέσματα ακόμη και μετά την κανονικοποίηση των συντελεστών οι παραπάνω αλγόριθμοι απορρίφτηκαν για την κατηγοριοποίηση των δεδομένων μας. K-Means k=5 Normalized Dissimilarity Μέθοδος CI Μέθοδος CAV t CI =10 t CI =20 t CI =30 t CAV =0.1 t CAV =0.2 t CAV =0.3 DF 73.63% 74.98% 75.24% 70.18% 70.39% 71.80% NB 78.48% 78.29% 78.17% 78.37% 78.38% 78.45% NB+DF 78.53% 78.31% 77.99% 77.74% 77.78% 78.02% K-Means k=10 Normalized Dissimilarity DF 71.18% 73.32% 74.09% 68.10% 68.27% 69.51% NB 74.99% 75.52% 75.96% 74.72% 74.71% 74.84% 72

73 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ NB+DF 75.51% 76.04% 76.33% 74.75% 74.78% 75.08% K-Means k=20 Normalized Dissimilarity DF 52.22% 55.70% 58.73% 52.02% 52.00% 51.95% NB 59.27% 62.94% 66.15% 58.83% 58.83% 59.02% NB+DF 60.25% 63.77% 66.85% 60.36% 60.25% 60.31% K-Means k=30 Normalized Dissimilarity DF 47.99% 50.97% 53.99% 48.00% 47.97% 47.97% NB 52.67% 56.12% 59.52% 52.43% 52.40% 52.53% NB+DF 53.68% 57.14% 60.47% 53.75% 53.70% 53.66% K-Means k=50 Normalized Dissimilarity DF 53.32% 56.93% 60.58% 53.33% 53.32% 53.48% NB 55.84% 58.74% 61.93% 55.69% 55.69% 55.73% NB+DF 55.73% 58.78% 62.14% 55.64% 55.64% 55.70% Πίνακας 4.11: Παρουσίαση αποτελεσμάτων K-means με κανονικοποιημένους συντελεστές ανομοιότητας. Αντιθέτως στον πίνακα 4.11 μπορούμε να διακρίνουμε ότι μετά την κανονικοποίηση των συντελεστών και με την χρήση του αλγορίθμου k-means η απόδοση του αλγορίθμου με όλες τις επιλογές κεντροειδών που είχαμε κάνει εξ αρχής τα ποσοστά ακρίβειας καθώς επίσης και η αποτελεσματικότητα του συντελεστή ανομοιότητας αυξήθηκε σημαντικά. Η μεγαλύτερη μεταβολή ως προς τις κανονικοποιημένες τιμές εμφανίζεται με την χρήση 20 κεντροειδών η οποία είναι της τάξης 1.53% μεταξύ του διαστήματος ( )%. Με την χρήση 10 κεντροειδών η μεταβολή είναι μόλις 0.37 αλλά η κατηγοριοποίηση έχει ποσοστά επιτυχίας τα οποία ανήκουν στο διάστημα ( )%. Ταξινομητής SVM με γραμμική συνάρτηση πυρήνα χρησιμοποιώντας κανονικοποιημένες τιμές ανομοιότητας Μέθοδος CI Μέθοδος CAV t CI =10 t CI =20 t CI =30 t CAV =0.1 t CAV =0.2 t CAV =0.3 DF 66.88% 68.82% 69.55% 62.90% 63.08% 64.64% NB 62.07% 62.15% 62.17% 62.00% 62.07% 62.15% NB+DF 74.82% 73.99% 73.51% 74.35% 74.32% 74.49% Πίνακας 4.12: Παρουσίαση αποτελεσμάτων SVM με κανονικοποιημένους συντελεστές ανομοιότητας. 73

74 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% tci =10 tci =20 tci=30 tcav =0.1 tcav =0.2 tcav =0.3 NB NB Norm DF DF Norm NB+DF NB+DF Norm Σχήμα 4.13 Αποτελεσματικότητα κανονικοποίησης συντελεστών ανομοιότητας με χρήση SVM Με την χρήση του ταξινομητή διανυσματικής υποστήριξης αποδεικνύεται ότι η χρήση κανονικοποιημένων συντελεστών έχει ως αποτέλεσμα την αύξηση του ποσοστού ακρίβειας σημαντικά. Συγκρίνοντας τους αλγορίθμους SVM και Adaboost μετά την χρήση κανονικοποιημένων τιμών μπορούμε να καταλήξουμε στο συμπέρασμα ότι η κανονικοποίηση των συντελεστών δεν έχει πάντα θετικά αποτελέσματα. Ταξινομητής RandomForrestClassifier Normalized Dissimilarity Μέθοδος CI Μέθοδος CAV t CI =10 t CI =20 t CI =30 t CAV =0.1 t CAV =0.2 t CAV =0.3 DF 75.13% 76.95% 77.24% 70.67% 70.87% 72.81% NB 82.40% 82.63% 82.64% 82.26% 82.24% 82.35% NB+DF 86.06% 85.21% 84.41% 86.00% 85.99% 86.06% Ταξινομητής C 4.5 Normalized Dissimilarity DF 75.49% 77.85% 78.38% 70.36% 70.64% 72.85% NB 87.56% 86.72% 85.92% 87.58% 87.55% 87.61% NB+DF 87.21% 86.37% 85.56% 87.15% 87.13% 87.20% Πίνακας 4.13: Παρουσίαση αποτελεσμάτων αλγορίθμων δένδρων απόφασης με κανονικοποιημένους συντελεστές ανομοιότητας. Με την χρήση του ταξινομητή RandomForrest με τις κανονικοποιημένες τιμές των συντελεστών ανομοιότητας η ακρίβεια αυξήθηκε σημαντικά. Στον πίνακα 4.13 απεικονίζονται τα αποτελέσματα της εκτέλεσης, όπου μπορούμε να διακρίνουμε ότι τα ποσοστά επιτυχίας είναι μεταξύ του διαστήματος ( )%. Και η διαφορά με την χρήση του χαρακτηριστικού ανομοιότητας είναι 3.71%. Έτσι καταλήγουμε στο συμπέρασμα ότι η καλύτερη κατηγοριοποίηση στα σύνολα δεδομένων γίνεται με την εισαγωγή των συντελεστών ανομοιότητας μετά την κανονικοποίηση τους. 74

75 ΚΕΦΑΛΑΙΟ 4:ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ % 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% tci =10 tci =20 tci=30 tcav =0.1tCAV =0.2tCAV =0.3 NB+DF NB DF Σχήμα 4.14 : Αποτελέσματα εκτέλεσης Αλγορίθμου RandomForrest με κανονικοποιημένες τιμές ανομοιότητας 75

76 ΚΕΦΑΛΑΙΟ 5:ΣΥΜΠΕΡΑΣΜΑΤΑ ΕΠΕΚΤΑΣΕΙΣ Κ ε φ ά λ α ι ο 5 : Σ υ μ π ε ρ ά σ μ α τ α Ε π ε κ τ ά σ ε ι ς 76

77 ΚΕΦΑΛΑΙΟ 5:ΣΥΜΠΕΡΑΣΜΑΤΑ ΕΠΕΚΤΑΣΕΙΣ ΣΥΜΠΕΡΑΣΜΑΤΑ ΕΠΕΚΤΑΣΕΙΣ Στην παρούσα πτυχιακή παρουσιάσαμε ένα πλαίσιο εξαγωγικής χαρακτηριστικών ανομοιότητας μέσω των αντικειμένων και των χαρακτηριστικών τους, με στόχο την ενδυνάμωση των κατηγοριοποιητών συρρικνώνοντας έτσι το πρόβλημα της περιορισμένης ανάλυσης περιεχομένου. Το πλαίσιο αυτό αποδείχθηκε αποτελεσματικό μέσω των κατηγοριοποιητών καθώς η ακρίβεια των προτάσεων αυξήθηκε μετά την εισαγωγή των χαρακτηριστικών ανομοιότητας. Μετά την σύγκριση των ποσοστών ακρίβειας μπορούμε να καταλήξουμε στο συμπέρασμα πως η κανονικοποίηση των συντελεστών ανομοιότητας δεν αποτελεί σημαντικό παράγοντα βελτίωσης για όλους τους αλγορίθμους κατηγοριοποίησης. Στους αλγορίθμους δέντρων απόφασης η βελτίωση των αποτελεσμάτων είναι σημαντική, της τάξης του 5%. Στους αλγορίθμους κοντινότερων γειτόνων η κανονικοποίηση των συντελεστών δεν φέρουν θετικά αποτελέσματα καθώς η σύγκλιση των σημείων στα κεντροειδή γίνεται δυσκολότερα γιατί δημιουργούνται περισσότερες συστάδες. Καθώς επίσης οι αλγόριθμοι AdaBoost, Logistic Boost, LogisticRegration και Decorate έχουν αρνητική επίδραση με την χρήση των συντελεστών ανομοιότητας. Στόχος του κεφαλαίου 4 είναι η εκτέλεση των πειραμάτων και η παρουσίαση του καλύτερου αλγορίθμου για το σύνολο δεδομένων με τις καλύτερες δυνατές ρυθμίσεις ως προς την επεξεργασία των σημείων στον δισδιάστατο χώρο. Αυτό επιτεύχθηκε με την χρήση του κατηγοριοποιητή RandomForrest της οικογένειας αλγορίθμων δέντρων απόφασης με κανονικοποιημένους συντελεστές ανομοιότητας. Συγκρίνοντας τα απότελέσματα των πίνακα 4.5 και 4.12 μπορούμε να διακρίνουμε μια αύξηση του ποσοστού ακρίβειας μεταξύ του διαστήματος ( )% με την κατηγοριοποίηση του συνόλου των δεδομένων ανομοιότητας (DF) και ( )% στο σύνολο όλων των δεδομένων (NB+DF). Τα ποσοστά ακρίβειας με την χρήση του κατηγοριοποιητή RandomForrest είναι μεταξύ του διαστήματος ( ) %. Από αυτά τα αποτελέσματα μπορούμε να συμπεράνουμε πως οι συντελεστές ανομοιότητας ως επιπρόσθετα χαρακτηριστικά στην κατηγοριοποίηση των δειγμάτων λειτουργούν προσθετικά στην ακρίβεια κατηγοριοποίησης για την καλύτερη πρόταση αντικειμένων. Μελλοντικές επεκτάσεις σε επίπεδο υλοποίησης Όπως εξηγήσαμε και στην εισαγωγή της παρούσας πτυχιακής το μεγαλύτερο πρόβλημα των χρηστών του διαδικτύου είναι η υπερφόρτωση πληροφορίας. Έχουν αναπτυχθεί διάφοροι τρόποι για την εξάλειψη αυτού το προβλήματος. Καθώς όμως ο όγκος των δεδομένων είναι εκπληκτικά μεγάλος πρέπει και η επεξεργασία της πληροφορίας μέσω τον (Π.Σ) πρέπει να γίνεται σε παράλληλο περιβάλλον. Αυτό μπορεί να πραγματοποιηθεί με την υλοποίηση των αλγορίθμων σε παράλληλο περιβάλλον όπως το Hadoop [34] ή Redis[29]. 77

78 ΣΥΜΠΕΡΑΣΜΑΤΑ ΕΠΕΚΤΑΣΕΙΣ Εκτέλεση του πλαισίου ανομοιότητας σε περισσότερα σύνολα δεδομένων για καλύτερη αξιολόγηση του συστήματος. Ένα τέτοιο σύνολο δεδομένων θα μπορούσε να είναι το MovieLens το οποίο περιέχει ψηφοφορίες χρηστών σε ταινίες. Μετά από έρευνα καταλήξαμε στο συμπέρασμα πως η εκτέλεση της κατηγοριοποίησης του πλαισίου με νευρωνικά δίκτυα σε πλαίσιο χάρτη SOM[30] θα είχε θετικά αποτελέσματα μετά την εισαγωγή μιας γραμμικής συνάρτησης ως συνάρτηση πυρήνα. Μελλοντικές προεκτάσεις σε επίπεδο εφαρμογής Όπως αναφέραμε και στο πρώτο κεφάλαιο η χρήση των δικτύων κοινωνικής δικτύωσης είναι γίνει αναπόσπαστο κομμάτι της κοινωνικής ζωής των νέων και όχι μόνο. Οι χρήστες των κοινωνικών δικτύων πλέον μεταφέρονται σε όλο τον κόσμο θέλοντας να γνωρίσουν νέα μέρη. Καθώς η διασκέδαση και η ψυχαγωγία είναι επίσης αναπόσπαστο κομμάτι από την ζωή των νέων και όχι μόνο, σκεφτήκαμε να δημιουργήσουμε μια εφαρμογή η οποία θα κάνει έναν συγκερασμό αυτόν των δύο εννοιών και θα είναι σε θέση να βοηθήσει τέτοιους χρήστες σχετικά με τις αποφάσεις που θα πάρουν για το μέρος στο οποίο θα διασκεδάσουν. Η βασική λειτουργία της εφαρμογής θα είναι η σύσταση μαγαζιών και αξιοθέατων μέσω της τεχνικής ομοιότητας-ανομοιότητας. Αυτό θα επιτευχθεί με την σύνδεση του χρήστη στην εφαρμογή χρησιμοποιώντας το λογαριασμό που έχει σε κάποιο μέσο κοινωνικής δικτύωσης. Η εφαρμογή θα καταγράφει τις προτιμήσεις του για μαγαζιά και αξιοθέατα μέσω του RESTfull API το οποίο θα δημιουργηθεί για την επικοινωνία της βάσης από εφαρμογή για φορητές συσκευές, καθώς επίσης και μέσω μιας φιλικής προς τον χρήστη web εφαρμογής και θα τις αποθηκεύει στην βάση δεδομένων. Μετά την αποθήκευση των ψήφων θα γίνεται επεξεργασία των βαθμολογιών μέσω του υβριδικού μοντέλο συσχέτισης χρηστών που περιγράψαμε στο κεφάλαιο 3. Μετά την διεκπεραίωση της επεξεργασίας για την εξαγωγή του προφίλ του χρήστη ακολουθεί η κατηγοριοποίηση των χρηστών με τον αλγόριθμο δέντρων απόφασης και η σύσταση των αντίστοιχων αξιοθέατων.. Web Interface Mobile Appilication Simillarity Dissimilar Databas Σχήμα 5.1: Μοντέλο μελλοντικής εφαρμογής σε επίπεδο εφαρμογής

Δείτε περισσότερα