HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Σχετικά έγγραφα
HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Information Integration from the

Other Test Constructions: Likelihood Ratio & Bayes Tests

Parallel and Distributed IR

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

Ανάκτηση Πληροφορίας

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Ανάκτηση Πληροφορίας

Condorcet winner. (1) Αν U j (x) > U j (y) τότε U i (x) > U i (y) και (2) Αν U i (y) > U i (x) τότε U j (y) > U j (x).

Ανάκτηση Πληροφορίας

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

EE512: Error Control Coding

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Approximation of distance between locations on earth given by latitude and longitude

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Nowhere-zero flows Let be a digraph, Abelian group. A Γ-circulation in is a mapping : such that, where, and : tail in X, head in

Statistical Inference I Locally most powerful tests

Reminders: linear functions

Math 6 SL Probability Distributions Practice Test Mark Scheme

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Fractional Colorings and Zykov Products of graphs

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

CHAPTER 48 APPLICATIONS OF MATRICES AND DETERMINANTS

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

CRASH COURSE IN PRECALCULUS

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Κοινωνικά Δίκτυα Κοινωνική Επιλογή

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

k A = [k, k]( )[a 1, a 2 ] = [ka 1,ka 2 ] 4For the division of two intervals of confidence in R +

Abstract Storage Devices

Ανάκτηση Πληροφορίας

On the Galois Group of Linear Difference-Differential Equations

Matrices and Determinants

Cable Systems - Postive/Negative Seq Impedance

PARTIAL NOTES for 6.1 Trigonometric Identities

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

C.S. 430 Assignment 6, Sample Solutions

Ανάκτηση Πληροφορίας

2. THEORY OF EQUATIONS. PREVIOUS EAMCET Bits.

The Simply Typed Lambda Calculus

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Partial Differential Equations in Biology The boundary element method. March 26, 2013

Homework 8 Model Solution Section

ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. Χειµερινό Εξάµηνο ΔΙΑΛΕΞΗ 3: Αλγοριθµική Ελαχιστοποίηση (Quine-McCluskey, tabular method)

A Bonus-Malus System as a Markov Set-Chain. Małgorzata Niemiec Warsaw School of Economics Institute of Econometrics

TMA4115 Matematikk 3

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

UNIVERSITY OF CAMBRIDGE INTERNATIONAL EXAMINATIONS General Certificate of Education Ordinary Level

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

IIT JEE (2013) (Trigonomtery 1) Solutions

Inverse trigonometric functions & General Solution of Trigonometric Equations

Review Test 3. MULTIPLE CHOICE. Choose the one alternative that best completes the statement or answers the question.

ΑΠΑΝΤΗΣΕΙΣ ΔΗΜΟΣΙΑ ΟΙΚΟΝΟΜΙΚΗ I

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

Με βάση τα παραπάνω ορίζουμε την αναμενόμενη χρησιμότητα (expected utility) EU(A) μιας επιλογής A ως εξής:

Commutative Monoids in Intuitionistic Fuzzy Sets

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

SCITECH Volume 13, Issue 2 RESEARCH ORGANISATION Published online: March 29, 2018

The challenges of non-stable predicates

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

EU-Profiler: User Profiles in the 2009 European Elections

Παλεπηζηήκην Πεηξαηώο Τκήκα Πιεξνθνξηθήο Πξόγξακκα Μεηαπηπρηαθώλ Σπνπδώλ «Πξνεγκέλα Σπζηήκαηα Πιεξνθνξηθήο»

Παλαιότερες ασκήσεις

Απόκριση σε Μοναδιαία Ωστική Δύναμη (Unit Impulse) Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο. Απόστολος Σ.

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

SOAP API. Table of Contents

derivation of the Laplacian from rectangular to spherical coordinates

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

1. Ηλεκτρικό μαύρο κουτί: Αισθητήρας μετατόπισης με βάση τη χωρητικότητα

Every set of first-order formulas is equivalent to an independent set

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Dynamic types, Lambda calculus machines Section and Practice Problems Apr 21 22, 2016

Αλγόριθμοι και πολυπλοκότητα NP-Completeness (2)

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "ΠΟΛΥΚΡΙΤΗΡΙΑ ΣΥΣΤΗΜΑΤΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ. Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΠΙΛΟΓΗΣ ΑΣΦΑΛΙΣΤΗΡΙΟΥ ΣΥΜΒΟΛΑΙΟΥ ΥΓΕΙΑΣ "

Πληροφοριακά Συστήματα

Τo ελληνικό τραπεζικό σύστημα σε περιόδους οικονομικής κρίσης και τα προσφερόμενα προϊόντα του στην κοινωνία.

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

(C) 2010 Pearson Education, Inc. All rights reserved.

Second Order Partial Differential Equations

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

Προσωπική Aνάπτυξη. Ενότητα 4: Συνεργασία. Juan Carlos Martínez Director of Projects Development Department

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

w o = R 1 p. (1) R = p =. = 1

Cyclic or elementary abelian Covers of K 4

5. Choice under Uncertainty

Lecture 2. Soundness and completeness of propositional logic

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

Transcript:

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Ενοποίηση Αποτελεσμάτων ( Results Merging, Fusion, Rank Aggregation,...) Γιάννης Τζίτζικας ιάλεξη : 17 Ημερομηνία : 30-5-2007 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 59 Ενοποίηση Αποτελεσμάτων Διάρθρωση Κατηγορίες Τεχνικών Ενοποίησης: Isolated vs Integrated Τεχνικές Ενοποίησης Round Robin interleaving Score-based Weighted Score-based Global-statistics Μετα-Μηχανές Αναζήτησης Ενοποίηση Διατάξεων (Rank-Aggregation) Επιθυμητές Ιδιότητες Ενοποίηση Borda Ενοποίηση Condorcet Το Θεώρημα του Ανέφικτου του Arrow (Arrow s Impossibility theorem) Ενοποίηση Kemeny CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 60

Ενοποίηση Αποτελεσμάτων answer =? ans1 ans2 ans3 ans4 ans5 IRS1 IRS2 IRS3 IRS4 IRS5 UofCrete UofAthens UofPatras CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 61 Περιπτώσεις Ενοποίηση Συνόλων (π.χ. απαντήσεων σε Exact Match Queries) answer(q) = ans1(q) ansk(q) Άρα η ενοποίηση αποτελεσμάτων για το Boolean model είναι εύκολη Ενοποίηση Διατάξεων (απαντήσεων Partial Match Queries) H ενοποίηση αποτελεσμάτων είναι πιο δύσκολη οι διατάξεις/σκορ δεν είναι πάντα συγκρίσημες (αφού εξαρτώνται από τα στατιστικά της συλλογής του κάθε συστήματος (e.g. idf) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 62

Κατηγορίες Στρατηγικών Διατάξεων (A) Ολοκληρωμένες Τεχνικές (Integrated) Οι πηγές παρέχουν επιπρόσθετη πληροφορία που χρησιμοποιείται κατά την ενοποίηση Αδυναμίες: Στενό πεδίο εφαρμογής - απαιτούν συμφωνία μεταξύ των πηγών (e.g. protocol) Συχνά λαμβάνουν υπόψη τους μέτρα όπως Precision/Recall, τα οποία δεν είναι αντικειμενικά ή συγκρίσιμα. (B) Απομονωμένες Μέθοδοι (Isolated) Δεν απαιτούν καμία επιπλέον πληροφορία από τις πηγές (μπορούν να εφαρμοστούν και στις μετα-μηχανές αναζήτησης) Είναι ανεξάρτητες των τεχνικών ευρετηρίασης και των μοντέλων ανάκτησης των υποκείμενων συστημάτων Άρα κατάλληλες για δυναμικά περιβάλλοντα όπου υπάρχουν πολλά συστήματα των οποίων η λειτουργία εξελίσσεται συχνά και απρόβλεπτα Τεχνικές:round robin interleaving, score-based, Borda, Condorcet, download and re-index the contents of the objects (web pages) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 63 Ενοποίηση Διατάξεων: Round Robin interleaving (isolated) (δηλαδή merge sort) Παράδειγμα: ans1(q) = <d10,d2, d30, d7> ans2(q) = <d4, d12, d5, d9> ANS(q) = < {d10,d4}, {d2,d12}, {d30,d5}, {d7,d9}> Προβλήματα στην πραγματικότητα όλα τα έγγραφα του ans1(q) μπορεί να είναι καλύτερα (πιο συναφή) από το 1ο στοιχείο της ans2(q) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 64

Ενοποίηση Διατάξεων: Score-based (isolated) Παράδειγμα: ans1(q) = < (d3,0.8), (d2,0.7) > ans2(q) = < (d5,0.6), (d6,0.3) > ans3(q) = < (d4,0.9) > ANS(q) = < d4, d3, d2, d5, d6> Προβλήματα τα σκορ διαφορετικών συστημάτων δεν είναι συγκρίσιμα (κανονικοποιημένα), αφού εξαρτώνται από τα στατιστικά της συλλογής του κάθε συστήματος (e.g. idf) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 65 Ενοποίηση Διατάξεων: Weighted Score-based Λαμβάνουμε υπόψη το σκορ της πηγής που υπολογίσαμε όταν κάναμε Επιλογή Πηγής Πχ Sc(IRS1) = 0.9 // υπολογίστηκε στη φάση επιλογή πηγής Sc(IRS2) = 0.5 // υπολογίστηκε στη φάση επιλογή πηγής ans1(q) = <(d1, 0.7)> ans2(q) = <(d2, 0.9)> ANS(q) = < (d1, 0.56), (d2, 0.45)> // 0.63 = 0.9*0.7 Εδώ πολλαπλασιάσαμε το σκορ της πηγής με το σκορ των εγγράφων. Διάφορες άλλες παραλλαγές υπάρχουν (Callan94,95) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 66

Ενοποίηση Διατάξεων: Downlοad and re-index/re-score (isolated) ans1 ans2 IRS1 Vector Space Model IRS4 Extended Boolean Model Ανακτούμε τα έγγραφα των απαντήσεων κάθε πηγής Τα επαναευρετηριάζουμε και ξαναυπολογίζουμε το βαθμό συνάφειας τους Αδυναμίες Χρονοβόρα διαδικασία CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 67 Ενοποίηση Διατάξεων: Global term statistics (integrated) Μπορούμε να κάνουμε συγκρίσιμα τα σκορ διαφορετικών συστημάτων αν επιβάλουμε τα ίδια στατιστικά στοιχεία σε όλα τα συστήματα (global statistics) Τρόποι απόκτησης αυτών των στοιχείων Κατά την επιλογή πηγής (πχ Διανύσματα Πηγής, Probe Queries, ) Αποτίμηση Επερωτήσεων σε 2 φάσεις στην 1η συλλέγονται τα στατιστικά (o server στέλνει την επερώτηση και οι πηγές απαντούν με τα στατιστικά των όρων που περιέχονται στην επερώτηση) στην 2η οserver στέλνει σε κάθε πηγή την επερώτηση μαζί με τα καθολικά στατιστικά των όρων της κάθε πηγή αποτιμά την επερώτηση με τα καθολικά στατιστικά και επιστρέφει την απάντηση Ο server λαμβάνει έτοιμα σκορ και απλά τα ενοποιεί (merge sort) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 68

Ενοποίηση Διατάξεων: Global term statistics Παράδειγμα q= Hotels Crete idf(hotels)= log(2000/400) idf(crete)= log(2000/105) ans = score-based merging of ans1 ans2 ans1 ans2 S1 S2 S1 S2 S1 S2 S1 S2 N1 = 1000 N1Hotels = 300 N1Crete = 100 N2 = 1000 N2Hotels = 100 N2Crete = 5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 69 Ενοποίηση Αποτελεσμάτων Διάρθρωση Κατηγορίες Τεχνικών Ενοποίησης: Isolated vs Integrated Τεχνικές Ενοποίησης Round Robin interleaving (isolated) Score-based (isolated) Weighted Score-based (integrated) Global-statistics (integrated) Μετα-Μηχανές Αναζήτησης Ενοποίηση Διατάξεων (Rank-Aggregation) Επιθυμητές Ιδιότητες Ενοποίηση Borda Ενοποίηση Condorcet Ενοποίηση Kemeny Το Θεώρημα του Ανέφικτου του Arrow (Arrow s Imposibility theorem) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 70

Μετα-Μηχανές Αναζήτησης Server: receives requests, initiates a thread for each request, combines the intermediate results into the final answer «Search Protocol»: HTTP/HTML TCP/IP IRS1 IRS2 IRS3 IRS4 IRS5 Google AltaVista Lycos Μετα-Μηχανή Αναζήτησης: Μηχανή αναζήτησης που προωθεί την επερώτηση σε πολλές μηχανές αναζήτησης και ενοποιεί τα αποτελέσματα που επιστρέφουν CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 71 Γιατί φτιάχνουμε μετα-μηχανές αναζήτησης; Καλύτερη κάλυψη: Οι σελίδες που είναι γνωστές σε κάθε μηχανή είναι διαφορετικές Διάταξη Πλειοψηφούσας Γνώμης (consensus ranking) Η διαθεσιμότητα πολλών μηχανών μας δίνει την δυνατότητα να ορίσουμε ένα αθροιστικό (πλειοψηφικό) μέτρο συνάφειας Ενοποίηση αποτελεσμάτων = Πρόβλημα απόφασης ομάδας (group decision problem) Μείωση spam: Δύσκολα μια spam σελίδα μπορεί να ξεγελάσει όλες τις μηχανές CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 72

Μετα-Μηχανές Αναζήτησης Examples: Dogpile (http://www.dogpile.com/) over Google, Yahoo!, msn, Ask Jeaves SurfWax (http://www.surfwax.com/) http://www.jux2.com/ Metacrawler, SavvySearch, Βήματα Λειτουργίας Submit queries to host sites. Parse resulting HTML pages to extract search results. Integrate multiple rankings into a consensus ranking. Present integrated results to user. Διαφορές με την Κατανεμημένη Ανάκτηση Πληροφοριών οι υποκείμενες μηχανές δεν παρέχουν term-statistics, άρα μπορούμε να χρησιμοποιήσουμε μόνο απομονωμένες (isolated) τεχνικές ενοποίησης αποτελεσμάτων οι υποκείμενες μηχανές δεν υποστηρίζουν την ίδια ερωτηματική γλώσσα CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 73 Ενοποίηση Διατάξεων: Rank Aggregation (or Meta-Ranking) (isolated) Διατύπωση του Προβλήματος D: ένα σύνολο αντικειμένων (π.χ. εγγράφων) S1, Sk: ένα σύνολο διατάξεων του D Σκοπός: Ενοποίηση των διατάξεων S1,..Sk σε μία The metaphor: elections Objects Candidates Sources Electors Ordering by a system Elector s voting ticket Fused ordering Election list CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 74

Plurality Ranking (Απλή Πλειοψηφία) O υποψήφιος με τις περισσότερες πρώτες θέσεις είναι ο νικητής Έστω 6 πηγές (S1,,S6) και 4 σελίδες a,b,c,d S1: <a,c,d,b> S2: <a,b,c,d> S3: <b,c,a,b> S4: <b,a,d,c> S5: <a,d,c,b> S6: <c,a,b,d> a: 3 b: 2 c: 1 d: 0 Τελική κατάταξη: <a,b,c,d> CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 75 Plurality Ranking (Απλή Πλειοψηφία) Κάποια προβλήματα 3 συστήματα <a,c,d,b> 6 συστήματα <a,d,c,b> 3 συστήματα <b,c,d,a> 5 συστήματα <b,d, c, a> 2 συστήματα <c,b,d,a> 5 συστήματα <c,d,b,a> 2 συστήματα <d,b,c,a> 4 συστήματα <d,c,b,a> Απόσυρση του d (που ήταν τελευταίο) 3 συστήματα <a,c,b> 6 συστήματα <a,c,b> 3 συστήματα <b,c,a> 5 συστήματα <b,c, a> 2 συστήματα <c,b,a> 5 συστήματα <c,b,a> 2 συστήματα <b,c,a> 4 συστήματα <c,b,a> a:9 b:8 c:7 d:6 Τελική διάταξη: <a,b,c,d> a:9 b:10 c:11 Τελική διάταξη: <c,b,a> Αντίστροφη της αρχικής! CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 76

Plurality Ranking (Απλή Πλειοψηφία) Κάποια προβλήματα 3 συστήματα <a,c,d,b> 6 συστήματα <a,d,c,b> 3 συστήματα <b,c,d,a> 5 συστήματα <b,d, c, a> 2 συστήματα <c,b,d,a> 5 συστήματα <c,d,b,a> 2 συστήματα <d,b,c,a> 4 συστήματα <d,c,b,a> a:9 b:8 c:7 d:6 Τελική διάταξη: <a,b,c,d> Απόσυρση του d Τελική διάταξη: <c,b,a> Απόσυρση του a Τελική διάταξη: <d,c,b> Απόσυρση του b Τελική διάταξη: <d,c,a> Απόσυρση του c Τελική διάταξη: <d,b,a> CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 77 Ενοποίηση Διατάξεων κατά Borda [Jean-Charles Borda 1770] The votes of an object o V ( o) = r i ( o) i= 1.. k r ( o) : the position of the object o in the ordering of system i S i The fused ordering is derived by ordering the objects in ascending order wrt to their votes Reinvented (for the context of Meta-Searching) in [Tzitzikas 2001] Example: S1 : < o1, o2, o S2 : < o1, o3, o S : < o, o, o 3 3 1 3 2 2 > > > V ( o V ( o V ( o 1 2 3 ) = 1+ 1+ 2 = 4 ) = 2 + 3 + 3 = 8 ) = 3 + 2 + 1 = 6 M : o < o1, o3, 2 > If each source S r ( o i j i returns an ordered subset position of o ) = F + 1 j in O i, if o j O O of Obj. i i otherwise where F = max{ O1,..., Ok } Γιατί; CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 78

Ενοποίηση Διατάξεων κατά Borda [Tzitzikas, 2001] Βαθμός Συμφωνίας The distance between two orderings i and j: dist( i, j) = ri ( o) rj ( o) The mean distance of the fused ordering 0 The level of agreement of the fused ordering 0: Dem = i =.. o O dist(0, i) 1 k k linear transformation C Dem LA = C possible mean distance C : max inversion transformation LA = C Dem C > 1,e.g.C = 2 High level may drive the user to read only the very first documents since probably they are the more relevant Low level may drive the user to read more documents CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 79 Ενοποίηση Διατάξεων κατά Condorcet [1785] Condorcet: the winner is a candidate that defeats every other candidate in pairwise majority-rule election S1: <a,b,c> S2: <b,a,c> S2: <c,a,b> a:b 2:1 a:c 2:1 // o a νικά τον b δύο φορές (και χάνει μία) // o a νικά τον c δύο φορές (και χάνει μία) Condorset ordering: <a,b,c> CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 80

Ενοποίηση Διατάξεων κατά Condorcet [1785] S1: <a,b,c> S2: <b,c,a> S3: <c,a,b> a:b 2:1 a:c 1:2 c:b 1:2 // άρα ο b δεν μπορεί να είναι o νικητής // άρα ο a δεν μπορεί να είναι o νικητής // άρα ο c δεν μπορεί να είναι o νικητής Δεν υπάρχει πάντα Condorset νικητής! CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 81 Borda vs Condorcet S1: <a,b,c> S2: <b,a,c> S2: <c,a,b> Condorset a:b 2:1 a:c 2:1 Condorset ordering: <a,b,c> Borda a: 1+2+2 = 5 b: 2+1+3 = 6 c: 3 + 3 + 1 = 7 Borda ordering: <a,b,c> CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 82

Borda Condorcet Borda (1770) Member of French Academy of Sciences Noted for work in hydraulics, optics, navigation instrument Condorcet (1785) Viewed Borda as an enemy Finding best ordering by hypothesis testing Switch to propose Condorcet winner Purpose: Reforming the election procedure of French Academy. Criticize plurality method CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 83 Borda Condorcet S1: <a,b,c,d,e> S2: <b,c,e,d,a> S3: <e,a,b,c,d> S4: <a,b,d,e,c> S5: <b,a,d,e,c> Borda a: 1 + 5 + 2 + 1 + 2 = 11 b: 2 + 1+ 3 + 2 + 1 = 9 c: 3 + 2 + 4 + 5 + 5 =19 d: 4 + 4 + 5 + 3 + 3 = 19 e: 5+3 +1 + 4 + 4 = 17 Borda winner : b Condorset a:b 3:2 a:c 4:1 a:d 4:1 a:e :3:2 Condorset winner a CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 84

Prurality Borda Condorcet 49 votes 48 votes 3 votes 1st x y z 2nd y z y 3rd z x x Prurality winner: x Borda winner: y Condorcet: z> x CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 85 Condorcet and Order 3 candidates, 13 voters a b c a 8 6 b 5 11 c 7 2 <a,b,c> has support 25 a>b:8, a>c:6, b>c:11 <b,c,a> has support 23 a<b:5, c>a:7, b>c:11 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 86

Ενοποίηση Διατάξεων κατά Kemeny (1959) (Kenemy developed BASIC language) Απόσταση μεταξύ δυο διατάξεων = πλήθος των διαφωνιών στη διάταξη ζευγαριών Παράδειγμα 1 r1 = <a,b,c> r2 = <b, a, c> K(r1, r2) = 1 (a > r1 b, a < r2 b) Παράδειγμα 2 r1 = <a, b, c, d> r2 = <b, d, a, c> K(r1, r2) = 3 (a > r1 b, a < r2 b) (a > r1 d, a < r2 d) (c > r1 d, c < r2 d) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 87 Ενοποίηση Διατάξεων κατά Kemeny (1959) Kemeny Optimal Aggregation Η καλύτερη ενοποιημένη διάταξη είναι εκείνη που απέχει το λιγότερο από όλες τις διατάξεις Έστω n διατάξεις: r1, r2,, rn Ενοποιημένη διάταξη r = arg min K(r,ri) Η εύρεση της ενοποιημένης διάταξης είναι ακριβή (πρόβλημα NP-hard) Reconciles Borda and Condorcet CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 88

Ενοποίηση Διατάξεων: Επιθυμητές Ιδιότητες Ουδετερότητα (Neutrality) Καμία εναλλακτική δεν πρέπει να ευνοείται Pareto Optimality Αν X > Y (σε όλες τις διατάξεις) τότε X>Y (στην τελική) Μονοτονία (Monotonicity) // Ranking higher should not hurt a candidate Χ νικητής (στην τελική), αλλαγή ενός ψηφοδελτίου YZX YXZ, o Χ παραμένει νικητής (στην τελική) Ανεξαρτησία από άσχετες εναλλακτικές (Independence from Irrelevant Alternatives) X > Y (στην τελική), αλλαγή ενός ψηφοδελτίου XZY ZXY, to X>Y παραμένει στην τελική Συνέπεια (Consistency) Αν οι ψηφοφόροι διαιρεθούν σε δύο ομάδες και κάθε ομάδα αναδείξει τον ίδιο νικητή, τότε ο τελικός νικητής (αν λάβουμε υπόψη τις ψήφους και των 2 ομάδων) πρέπει να είναι ο ίδιος CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 89 Arrow s Impossibility Theorem Kenneth J. Arrow, Social Choice and Individual Values (1951). Won Nobel Prize in 1972 No voting scheme over three or more alternatives can satisfy the following conditions Universality (no restriction on individual ordering. All orderings are achievable) Monotonicity Independence of irrelevant alternatives Pareto Optimality Non-dictatorship CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 90

Arrow s Impossibility Theorem Συμπέρασμα: δεν υπάρχει μια απολύτως ικανοποιητική συνάρτηση ενοποίησης διατάξεων CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 91