Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Σχετικά έγγραφα
Πανεπιστήμιο Ιωαννίνων Σχολή Θετικών Επιστημών Τμήμα Πληροφορικής. ΜΑΘΗΜΑ Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Αλγόριθµοι και Πολυπλοκότητα

Ομαδοποίηση ΙΙ (Clustering)

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Ανάκτηση Πληροφορίας

Μοντελοποίηση προβληµάτων

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Προσεγγιστικοί Αλγόριθμοι

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0

Ανάκτηση Πληροφορίας

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015

Οι μελέτες φυσικών φαινομένων ή πραγματικών προβλημάτων καταλήγουν είτε σεπροσδιοριστικά

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Προσεγγιστικοί Αλγόριθμοι

Ανάκτηση Πληροφορίας

ΔΥΣΚΟΛΙΑ ΣΤΗΝ ΠΡΟΣΕΓΓΙΣΙΜΟΤΗΤΑ

Αλγόριθμοι και Πολυπλοκότητα

επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Branch and Bound. Branch and Bound

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1

Κεφάλαιο 5ο: Ακέραιος προγραμματισμός

Αξιολόγηση και επιλογή δράσης (έργου)

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Ακέραιος Γραµµικός Προγραµµατισµός

Ακέραιος Γραµµικός Προγραµµατισµός

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Σύνθετα μέτρα στην ποσοτική έρευνα: Δείκτες, κλίμακες και διαστάσεις

για NP-Δύσκολα Προβλήματα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

General Models & Inapproximability Overview. Influence Maximization σε Social Networks

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Ανάκτηση Πληροφορίας

Συστήματα Επιχειρηματικής Ευφυίας. Ενδεικτική επίλυση του προβλήματος school timetabling με PSO

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών. Συστήματα Επεξεργασίας Σημάτων και Εικόνων: Θεωρία, Υλοποιήσεις, Εφαρμογές (ΣΕΣΕ)

Data Envelopment Analysis

max c 1 x 1 + c 2 x c n x n υπό a 11 x 1 + a 12 x a 1n x n b 1 a 21 x 1 + a 22 x a 2n x n b 2 a m1 x 1 + a m2 x a mn x n b m

Approximation Algorithms for the k-median problem

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Προσεγγιστικοί Αλγόριθμοι για NP- ύσκολα Προβλήματα

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

1.1. Με τι ασχολείται η Αριθμητική Ανάλυση

Information Retrieval

1. Financial New Times Year MAXk {FREQij} D D D D

Προσεγγιστικοί Αλγόριθμοι για NP- ύσκολα Προβλήματα

Μηχανική Μάθηση: γιατί;

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ Λ03Β ΑΛΓΟΡΙΘΜΟΙ ΔΙΚΤΥΩΝ & ΠΟΛΥΠΛΟΚΟΤΗΤΑ ΦΛΕΒΑΡΗΣ 2004

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ. Κεφάλαιο 3 Μορφοποίηση Προβλημάτων Ακέραιου Προγραμματισμού

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΥΣ02 Τεχνητή Νοημοσύνη Χειμερινό Εξάμηνο

Ανάκτηση Πληροφορίας

Οι πράξεις της συνένωσης. Μ.Χατζόπουλος 1

ιαµέριση - Partitioning

Περιεχόμενα. Εισαγωγή του επιμελητή, Γιάννης Σταματίου 15 Πρόλογος 17 Εισαγωγή 23. Μέρος I. ΕΠΑΝΑΛΗΠΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΚΑΙ ΑΝΑΛΛΟΙΩΤΕΣ ΣΥΝΘΗΚΕΣ

Ομαδοποίηση Ι (Clustering)

ΕΡΩΤΗΜΑΤΑ σε ΑΝΑΖΗΤΗΣΗ

Το εσωτερικό ενός Σ Β

1/12/2016. Πλεονεκτήματα. Μειονεκτήματα. (Roy, 1994)

Διαχείριση Περιβάλλοντος - Νομοθεσία

Case 10: Ανάλυση Νεκρού Σημείου (Break Even Analysis) με περιορισμούς ΣΕΝΑΡΙΟ

Εισαγωγικές έννοιες. Κατηγορίες προβλημάτων (σε μια διάσταση) Προβλήματα εύρεσης μεγίστου. Συμβολισμοί

Πετράκης Κώστας ΓΤΠ-61 Μάρτιος 2015

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions

ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ

ΕΘΝΙΚΟ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

Αλγόριθμοι Ταξινόμησης Μέρος 4

substructure similarity search using features in graph databases

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Ανάκτηση Πληροφορίας

Αλγόριθμοι Προσέγγισης για NP-Δύσκολα Προβλήματα

Τεχνητή Νοημοσύνη. 6η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ με το EXCEL

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

Γραμμικός Προγραμματισμός

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΤΕΧΝΙΚΗ ΥΔΡΟΛΟΓΙΑ Πιθανοτική προσέγγιση των υδρολογικών μεταβλητών

Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Δομές Δεδομένων. Τι είναι η δομή δεδομένων; Έστω η ακολουθία αριθμών: 8, 10,17,19,22,5,12 Λογικό Επίπεδο. Φυσικό Επίπεδο RAM. Ταξινομημένος.

2 η ΕΝΟΤΗΤΑ ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 5: Εύρεση σημείων ισορροπίας σε παίγνια μηδενικού αθροίσματος. Ε. Μαρκάκης. Επικ. Καθηγητής

Επερωτήσεις σύζευξης με κατάταξη

Στατιστική Συμπερασματολογία

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Σχεδίαση & Ανάλυση Αλγορίθμων

Transcript:

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων ΜΑΘΗΜΑ Ανάκτηση Πληροφορίας Παππάς Χρήστος Ιωάννινα, Ιανουάριος 2010

Διάρθρωση Εισαγωγή Πρόβλημα Σημαντικότητα Ενδιαφέροντα θέματα Τεχνικό περιεχόμενο Ορισμοί εννοιών Μοντελοποίηση προβλήματος Συναρτήσεις-Αλγόριθμοι Ειδικές περιπτώσεις συναρτήσεων απόστασης

Διάρθρωση(συνέχεια ) Πειραματική αποτίμηση Μέτρα εκτίμησης Semantic disambiguation Product disambiguation Κριτική-Επεκτάσεις εργασίας Πλεονεκτήματα Μειονεκτήματα Επεκτάσεις

ΕΙΣΑΓΩΓΗ

Πρόβλημα Ένα σύστημα αναζήτησης εγγράφων, βάσει επερωτήσεων, είναι αποτελεσματικό όταν ικανοποιεί τις ανάγκες του χρήστη. Όταν υπάρχει ασάφεια των επιδιώξεών του, τότε το σύστημα θα πρέπει να διαφοροποιήσει τα αποτελέσματα. Τα αποτελέσματα θέλουμε να αντιστοιχούν ιδανικά σε κάθε πιθανό σκοπό του χρήστη. Το σύστημα δεν αρκεί να επιστρέφει τα πιο «σχετικά» έγγραφα, αλλά να συνυπολογίζει και την ποικιλομορφία τους.

Σημαντικότητα Ο χρήστης είναι πιο πιθανό να ικανοποιηθεί. Τα αποτελέσματα καλύπτουν διαφορετικές πιθανές προθέσεις του. Το σύστημα δεν κάνει «τυχαία» πρόβλεψη Τυχαία με την έννοια της επιλογής πιο πιθανού σκοπού χρήστη, βάση πιθανοτικού μοντέλου. Το σύστημα λαμβάνει υπόψη διαφορετικές πιθανές επιδιώξεις του χρήστη.

Ενδιαφέροντα θέματα Πρόκειται για πρόβλημα βελτιστοποίησης 2 κριτηρίων Σχετικότητα Ποικιλομορφία Συνδυασμός ranking-clustering. Ανάπτυξη πολλών συναρτήσεων διαφοροποίησης και αντίστοιχων αλγορίθμων βελτιστοποίησής τους.

ΤΕΧΝΙΚΟ ΠΕΡΙΕΧΟΜΕΝΟ

Ορισμοί εννοιών Σύνολο εγγράφων n>=2 Σύνολο ερωτήσεων Q. Δοθέντων ερώτησης και ακεραίου k, θέλουμε ένα υποσύνολο που να είναι και «σχετικό» και «πρωτότυπο». «Σχετικότητα» ορίζεται: «Πρωτοτυπία» ορίζεται: Μεγάλη απόσταση σημαίνει μεγάλη πρωτοτυπία.

Ορισμοί εννοιών(συνέχεια...) Συνάρτηση επιλογής υποσυνόλου Στόχος Δοθέντων q,w,d και ακεραίου k, να βρούμε το υποσύνολο τέτοιο ώστε:

Μοντελοποίηση προβλήματος Ορίζεται ένα σύνολο αξιωμάτων Αναμένουμε να ικανοποιούνται από ένα σύστημα διαφοροποίησης. Έπειτα ορίζουμε συναρτήσεις διαφοροποίησης Ικανοποιούν διαφορετικά υποσύνολα των ορισθέντων αξιωμάτων Δεν υπάρχει συνάρτηση που να ικανοποιεί όλα τα αξιώματα Αξιώματα αποτελούν βάση για σύγκριση συναρτήσεων-συστημάτων

Μοντελοποίηση προβλήματος (συνέχεια...) Αξιώματα Scale invariance: Η f δεν επηρεάζεται από κλιμάκωση σε σχετικότητα και απόσταση Consistency: Δοθέντων, αλλάζουμε τις w,d ως εξής: Η f μεγιστοποιείται πάλι από το ίδιο σύνολο

Μοντελοποίηση προβλήματος (συνέχεια...) Αξιώματα(συνέχεια...) Richness: Πρέπει να υπάρχουν συναρτήσεις w,d ώστε, για οποιοδήποτε k>=2, να υπάρχει μοναδικό που μεγιστοποιεί την f. Stability: Η f πρέπει να οριστεί έτσι ώστε Ιndependence of irrelevant attributes: Δοθέντος συνόλου S, θέλουμε το f(s) να είναι ανεξάρτητο από: Monotonicity: Δοθέντων, θέλουμε για κάθε

Μοντελοποίηση προβλήματος (συνέχεια...) Αξιώματα(συνέχεια...) Strength of relevance: Η f δεν αγνοεί τη συνάρτηση σχετικότητας. Δοθέντων, πρέπει για κάθε : Υπάρχουν, ώστε: Η w προέκυψε από w με την αλλαγή Αν, υπάρχουν ώστε: Η w προέκυψε από w με την αλλαγή

Μοντελοποίηση προβλήματος (συνέχεια...) Αξιώματα(συνέχεια...) Strength of similarity: Η f δεν αγνοεί τη συνάρτηση ομοιότητας(απόσταση). Δοθέντων, πρέπει για κάθε : Υπάρχουν ώστε: Η d προέκυψε από d με την αλλαγή ότι αυξάνουμε τα ώστε Αν, υπάρχουν ώστε: Η d προέκυψε από d με την αλλαγή ότι μειώνουμε τα ώστε

Συναρτήσεις-Αλγόριθμοι Max-sum diversification Μεγιστοποίηση αθροίσματος σχετικότητας και απόστασης. λ>0 ρυθμίζει το trade-off Χαρακτηρισμός: Ικανοποιεί όλα τα αξιώματα, εκτός από το stability.

Συναρτήσεις-Αλγόριθμοι(συνέχεια...) Max-sum diversification(συνέχεια...) Βελτιστοποίηση με αναγωγή στο MaxSumDispersion πρόβλημα του facility dispersion. Ανάγεται στο θεωρήσουμε, αν

Συναρτήσεις-Αλγόριθμοι(συνέχεια...) Max-sum diversification(συνέχεια...) Το MaxSumDispersion είναι NP-hard. Υπάρχει 2-προσεγγιστικός αλγόριθμος Δεδομένου ότι d' είναι metric

Συναρτήσεις-Αλγόριθμοι(συνέχεια...) Max-min diversification Μεγιστοποίηση ελάχιστης σχετικότητας και απόστασης. λ>0 ρυθμίζει το trade-off Χαρακτηρισμός: Ικανοποιεί όλα τα αξιώματα, εκτός από τα consistency και stability.

Συναρτήσεις-Αλγόριθμοι(συνέχεια...) Max-min diversification(συνέχεια...) Βελτιστοποίηση με αναγωγή στο MaxMinDispersion πρόβλημα του facility dispersion. Ανάγεται στο θεωρήσουμε, αν

Συναρτήσεις-Αλγόριθμοι(συνέχεια...) Max-min diversification(συνέχεια...) Το MaxMinDispersion είναι NP-hard. Υπάρχει 2-προσεγγιστικός αλγόριθμος Δεδομένου ότι d' είναι metric

Συναρτήσεις-Αλγόριθμοι(συνέχεια...) Mono-objective formulation Ορίζει μία τιμή για κάθε έγγραφο που συνδυάζει σχετικότητα και απόσταση λ>0 ρυθμίζει το trade-off Μεγιστοποιεί την Χαρακτηρισμός: Ικανοποιεί όλα τα αξιώματα, εκτός από το consistency.

Ειδικές περιπτώσεις συναρτήσεων απόστασης Semantic distance Χρήση στο πρώτο πείραμα Αφορά web pages, όπου u,v ιστοσελίδες Θεωρούμε Jaccard ομοιότητα: Για το S Hash function h: U->[0,1] Min hash συνόλου Α=U ορίζεται: Επέκταση για πολυσύνολο: συχνότητα στοιχείου x Τότε, sketch σελίδας d: h 1,h 2,...,h k hash functions

Ειδικές περιπτώσεις συναρτήσεων απόστασης(συνέχεια...) Categorical distance Χρήση στο δεύτερο πείραμα Αφορά προϊόντα Αρχικά, ταξινομούνται τα προϊόντα σε κατηγορίες. Δημιουργείται δέντρο κατηγοριών u,v κατηγορίες e>=0 βάθος κατηγορίας στο δέντρο Επέκταση για προϊόντα πολλαπλών κατηγοριών, διανύσματα με κατηγορικές πιθανότητες

ΠΕΙΡΑΜΑΤΙΚΗ ΑΠΟΤΙΜΗΣΗ

Μέτρα εκτίμησης Σκοπός να χαρακτηρίσουμε την επιλογή συνάρτησης διαφοροποίησης Διενέργεια 2 πειραμάτων Αποτίμηση κατάλληλων μέτρων Μέτρα πρωτοτυπία(novelty) σχετικότητα(relevance)

Semantic disambiguation Πρώτο πείραμα Q αμφίσημες wikipedia σελίδες. θέματα που σχετίζονται με σελίδα q. πιθανότητα ένα αποτέλεσμα να αναπαριστά ένα θέμα υπολογίζεται μέσω semantic distance Διαδικασία διαφοροποίησης(υπενθύμιση) Ανακτούνται τα top n έγγραφα R(q), ερώτησης, από τη μηχανή αναζήτησης. Εφαρμογή αλγορίθμου διαφοροποίησης για να πάρουμε τα top k διαφοροποιημένα έγγραφα D(q).

Semantic disambiguation(συνέχεια...) Συγκρίνουμε τα D(q) και R k (q) με χρήση των novelty και relevance R k (q) τα πρώτα k έγγραφα της R(q). Novelty Εκτίμηση αριθμού θεμάτων, ερώτησης q, που καλύπτονται σε μία λίστα αποτελεσμάτων L. θ κατώφλι Ι συνάρτηση ίση με 1 ή 0(συνθήκη Α ή Ψ,αντίστοιχα)

Semantic disambiguation(συνέχεια...) Relevance Εκτίμηση σχετικότητας, ερώτησης q, των αποτελεσμάτων λίστας S η ιδανική wikipedia κατάταξη, η διάταξη του s στις και, αντίστοιχα Το της R k (q) βρίσκεται κάνοντας αναζήτηση περιορισμένη στα wikipedia sites To της D(q) βρίσκεται ταξινομώντας βάσει, όπου pos(d) η θέση του d στην D(q)

Semantic disambiguation(συνέχεια...) Συγκρίνουμε τα D(q) και R k (q) Novelty Relevance Relevance q (S)=R(S,q)

Semantic disambiguation(συνέχεια...) Αποτελέσματα n=30, k=10 και Q =100 -FN q >0 -FN q αυξάνει με λ -FN q αυξάνει με θ

Semantic disambiguation(συνέχεια...) Αποτελέσματα(συνέχεια...) a)-maxmindispersion -75% queries produce more diversified results b)-monoobjective -Γενικά καλό ranking

Semantic disambiguation(συνέχεια...) Αποτελέσματα(συνέχεια...) λ=1.0 και θ=0.5 a)-τopics αυξάνει με position -Αλγόριθμοι υπερτερούν μηχανής αναζήτησης -Ισάξιοι μεταξύ τους b)-διαφορές αν position >=5 -MonoObjective μικρότερη distance -MaxSumDispersion μεγαλύτερη distance

Product disambiguation Δεύτερο πείραμα 100 ερωτήσεις προϊόντων. 50 πρώτα αποτελέσματα, βάσει δημοτικότητας. χρήση categorical distance Διαδικασία διαφοροποίησης(υπενθύμιση) Ανακτούνται τα top n έγγραφα R(q), ερώτησης, από τη μηχανή αναζήτησης. Εφαρμογή αλγορίθμου διαφοροποίησης για να πάρουμε τα top k διαφοροποιημένα έγγραφα D(q).

Product disambiguation(συνέχεια...) Συγκρίνουμε τα D(q) και R k (q) με χρήση των novelty και relevance R k (q) τα πρώτα k έγγραφα της R(q). Novelty Εκτίμηση αριθμού κατηγοριών προϊόντων, ερώτησης q, που καλύπτονται σε μία λίστα αποτελεσμάτων L. lca ο ελάχιστος κοινός προκάτοχος Ι συνάρτηση ίση με 1 ή 0(συνθήκη Α ή Ψ,αντίστοιχα)

Product disambiguation(συνέχεια...) Relevance Εκτίμηση σχετικότητας ερώτησης q και αποτελεσμάτων λίστας L Δεν υπάρχει ground truth(π.χ. wikipedia) Χρήση απόστασης των αντίστοιχων κατηγοριών στην ταξινομία pos(u) η θέση του u στην L d η categorical distance

Product disambiguation(συνέχεια...) Αποτελέσματα -Diversified results contain more product brands -Relative positions of brands still remains

Product disambiguation(συνέχεια...) Αποτελέσματα(συνέχεια...) a)-maxmindispersion -Αλγόριθμοι υπερτερούν μηχανής αναζήτησης b)-search engine -MonoObjective παραδόξως δεν αυξάνει relevance συγκριτικά με τους άλλους

ΚΡΙΤΙΚΗ- ΕΠΕΚΤΑΣΕΙΣ ΕΡΓΑΣΙΑΣ

Πλεονεκτήματα Ο τυχαίος χρήστης είναι πιο πιθανό να ικανοποιηθεί σε σχέση με τα αποτελέσματα της μηχανής αναζήτησης. Η χρήση των αξιωμάτων επιτρέπει ένα θεωρητικό χαρακτηρισμό των συναρτήσεων διαφοροποίησης, ανεξάρτητα από τις συναρτήσεις «σχετικότητας» και «απόστασης». Τα μέτρα πρωτοτυπίας και σχετικότητας, κατά την πειραματική ανάλυση, ποσοτικοποιούν κατάλληλα την απόδοση των συναρτήσεων.

Μειονεκτήματα Η πειραματική αξιολόγηση εξαρτάται έμμεσα από τα αξιώματα, καθώς οι συναρτήσεις διαφοροποίησης ικανοποιούν διαφορετικά σύνολα αξιωμάτων. Οι λύσεις των 2 αλγορίθμων διαφοροποίησης είναι προσεγγιστικές, καθώς το γενικότερο πρόβλημα του «facility dispersion» είναι NP-hard. Δεν υπάρχει κάποια διάταξη των αξιωμάτων ως προς τη σημαντικότητά τους, αλλά μας ενδιαφέρει μόνο το ποιά ικανοποιούνται.

Επεκτάσεις Έλεγχος ικανοποίησης και των 8 αξιωμάτων, στην περίπτωση που η απόσταση είναι «metric». «Χαλάρωση» κάποιων αξιωμάτων(π.χ. stability), προκειμένου να διευκολύνουμε την εύρεση κατάλληλων συναρτήσεων διαφοροποίησης. Εύρεση νέων συναρτήσεων, που θα ανάγονται στο «facility dispersion» και θα είναι βέλτιστες για συγκεκριμένες περιοχές(π.χ. web search).

Επεκτάσεις(συνέχεια...) Εισαγωγή βαρών σημαντικότητας στα αξιώματα που ορίζονται. Έτσι, προτιμάται η ικανοποίηση αξιωμάτων με μεγαλύτερα βάρη Μεγάλο βάρος σημαίνει ότι το αξίωμα ικανοποιεί καλύτερα τους στόχους συστήματος διαφοροποίησης. Αξιοποιώντας τα novelty και relevance, εύρεση κατάλληλων μέτρων με συνδυασμό τους. Τα νέα αυτά μέτρα θα στοχεύουν στην καλύτερη αξιολόγηση της απόδοσης των αλγορίθμων.

Ερώτηση Το MonoObjective μεγιστοποιεί την, όπου Πώς προκύπτει η βέλτιστη λύση-σύνολο S? Αποδεικνύεται ότι δεν υπάρχει συνάρτηση που να ικανοποιεί καί τα 8 αξιώματα. Πώς σχετίζεται αυτό το γεγονός με την επιλογή συναρτήσεων διαφοροποίησης?

Ευχαριστώ για την προσοχή σας! ΕΡΩΤΗΣΕΙΣ???