Προσεγγιστικοί αλγόριθµοι για οµαδοποίηση στοιχείων από συγκρίσεις

Σχετικά έγγραφα
Αξιολόγηση Ευριστικών Αλγορίθµων

Προσεγγιστικοί Αλγόριθμοι

EΦΑΡΜΟΓΕΣ ΤΗΣ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ Γραµµική Εκτίµηση Τυχαίων Σηµάτων Φίλτρο Kalman

Πίνακας κατανοµής συχνοτήτων και αθροιστικών συχνοτήτων. Σχετ.

Προσεγγιστικά Σχήµατα για Προβλήµατα Χρονοδροµολόγησης

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

Προσεγγιστικοί Αλγόριθμοι

Ανάλυση κατά Συστάδες. Cluster analysis

Βραχύτερα Μονοπάτια σε Γράφους (CLR, κεφάλαιο 25)

2.6 ΟΡΙΑ ΑΝΟΧΗΣ. πληθυσµού µε πιθανότητα τουλάχιστον ίση µε 100(1 α)%. Το. X ονοµάζεται κάτω όριο ανοχής ενώ το πάνω όριο ανοχής.

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

Προσεγγιστικοί Αλγόριθμοι

2 Αποδείξεις. 2.1 Εξαντλητική µέθοδος. Εκδοση 2005/03/22. Υπάρχουν πολλών ειδών αποδείξεις. Εδώ ϑα δούµε τις πιο κοινές:

4. Αναδροµικός τύπος Είναι ο τύπος που συσχετίζει δύο ή περισσότερους γενικούς όρους µιας ακολουθίας

Μάθηµα Θεωρίας Αριθµών Ε.Μ.Ε

ειγµατοληψία ΜΕΘΟ ΟΛΟΓΙΑ ΤΗΣ ΕΡΕΥΝΑΣ Μέρη της Έρευνας Μέθοδος Πώς ερευνήθηκε το πρόβληµα? Μέθοδος

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πρόβληµα Επιλογής. Αλγόριθµοι & Πολυπλοκότητα (Χειµώνας 2011) Επιλογή 1

οµή δικτύου ΣΧΗΜΑ 8.1

(1) 98! 25! = 4 100! 23! = 4

ΔΥΣΚΟΛΙΑ ΣΤΗΝ ΠΡΟΣΕΓΓΙΣΙΜΟΤΗΤΑ

ΘΕΜΑΤΑ ΕΞΕΤΑΣΗΣ ΚΑΙ ΑΠΑΝΤΗΣΕΙΣ ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟ ΟΣ:

(1) 98! 25! = 4 100! 23! = 4

Πιθανοτικοί Αλγόριθμοι

Αλγόριθµοι και Πολυπλοκότητα

Παρουσίαση 1 ΙΑΝΥΣΜΑΤΑ

ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ

ΣΕΙΡΕΣ TAYLOR. Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων. Πολυώνυµο είναι κάθε συνάρτηση της µορφής:

Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών. ΗΥ-217: Πιθανότητες-Χειµερινό Εξάµηνο 2015 ιδάσκων : Π. Τσακαλίδης. Λύσεις Τρίτης Σειράς Ασκήσεων

ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ. Αλγόριθµοι Ένωσης-Εύρεσης (Union-Find) Κεφάλαιο 1. Ε. Μαρκάκης Επικ. Καθηγητής

Ορισµένοι ερευνητές υποστηρίζουν ότι χρειαζόµαστε µίνιµουµ 30 περιπτώσεις για να προβούµε σε κάποιας µορφής ανάλυσης των δεδοµένων.

ΕΠΛ 232 Αλγόριθµοι και Πολυπλοκότητα 2-1

Μια οµάδα m σηµείων προσφοράς. Μια οµάδα n σηµείων ζήτησης. Οτιδήποτε µετακινείται απο σηµείο προσφοράς σε σηµείο ζήτησης είναι συνάρτηση κόστους.

Heapsort Using Multiple Heaps

Οι θεµελιώδεις έννοιες που απαιτούνται στη Επαγωγική Στατιστική (Εκτιµητική, ιαστήµατα Εµπιστοσύνης και Έλεγχοι Υποθέσεων) είναι:

Ομαδοποίηση ΙΙ (Clustering)

Κεφάλαιο 4 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 4.1 Συσχέτιση δύο τ.µ.

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΚΡΥΠΤΟΛΟΓΙΑ ΣΗΜΕΙΩΣΕΙΣ #6 ΘΕΟ ΟΥΛΟΣ ΓΑΡΕΦΑΛΑΚΗΣ

1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ορισµός. Εστω συναρτήσεις: f : N R και g : N R. η f(n) είναι fi( g(n) ) αν υπάρχουν σταθερές C 1, C 2 και n 0, τέτοιες ώστε:

Δοµές Δεδοµένων. 18η Διάλεξη Ισορροπηµένα δέντρα. Ε. Μαρκάκης

HY118- ιακριτά Μαθηµατικά. Θεωρία γράφων / γραφήµατα. Τι έχουµε δει µέχρι τώρα. Υπογράφηµα Γράφοι

Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 3.1 Συσχέτιση δύο τ.µ.

7. ΣΥΓΚΡΙΣΗ ΚΑΙ ΣΥΝ ΙΑΣΜΟΣ ΤΩΝ

Θεωρία Υπολογισµού Theory of Computation

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

Κεφάλαιο 2: ιατάξεις και Συνδυασµοί.

ΟΜΑ ΟΠΟΙΗΣΗ Ε ΟΜΕΝΩΝ ΥΨΗΛΗΣ ΙΑΣΤΑΣΗΣ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙ ΙΚΕΥΣΗΣ. Υποβάλλεται στην

Σύνοψη Προηγούµενου. Γλώσσες χωρίς Συµφραζόµενα (2) Ισοδυναµία CFG και PDA. Σε αυτό το µάθηµα. Αυτόµατα Στοίβας Pushdown Automata

Kεφάλαιο 10. Πόσα υποπαίγνια υπάρχουν εδώ πέρα; 2 υποπαίγνια.

Αλγόριθµοι και Πολυπλοκότητα

Δοµές Δεδοµένων. 2η Διάλεξη Αλγόριθµοι Ένωσης-Εύρεσης (Union-Find) Ε. Μαρκάκης. Βασίζεται στις διαφάνειες των R. Sedgewick K.

ΚΕΦΑΛΑΙΟ 12: Θεωρία υπολογισµών

ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ. Αρχές Ανάλυσης Αλγορίθµων Κεφάλαιο 2. Ε. Μαρκάκης Επικ. Καθηγητής

Αλγόριθµοι και Πολυπλοκότητα

ιοίκηση Παραγωγής και Υπηρεσιών

4.ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ

ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ

Βασική Εφικτή Λύση. Βασική Εφικτή Λύση

Αριθµητική Ανάλυση. ιδάσκοντες: Τµήµα Α ( Αρτιοι) : Καθηγητής Ν. Μισυρλής, Τµήµα Β (Περιττοί) : Επίκ. Καθηγητής Φ.Τζαφέρης. 21 εκεµβρίου 2015 ΕΚΠΑ

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Αλγόριθµοι και Πολυπλοκότητα

Outline. 6 Edit Distance

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ

ΥΠΟΛΟΓΙΣΜΟΣ ΑΝΑΠΤΥΓΜΑΤΟΣ FOURIER ΜΕ ΑΡΙΘΜΗΤΙΚΟ ΤΡΟΠΟ

ΕΙΣΑΓΩΓΗ. Μη Παραµετρική Στατιστική, Κ. Πετρόπουλος. Τµήµα Μαθηµατικών, Πανεπιστήµιο Πατρών

Επίλυση Γραµµικών Συστηµάτων

Μιατρίτη µέθοδος προσδιορισµού αρχικής λύσης σε προβλήµατα µεταφοράς είναι

5. ΜΕΘΟΔΟΙ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

Κεφάλαιο 8. NP και Υπολογιστική Δυσεπιλυσιµότητα. Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2010 ΕΚΦΩΝΗΣΕΙΣ

ΡΗΤΟΙ ΑΡΙΘΜΟΙ - ΘΕΩΡΙΑ

Κατανεμημένα Συστήματα Ι

Άσκηση 1. i) ============================================================== Πρέπει αρχικά να είναι συνεχής στο x = 1: lim. lim. 2 x + x 2.

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους

Ασκήσεις για το µάθηµα «Ανάλυση Ι και Εφαρµογές»

Διωνυµικοί Συντελεστές. Αλγόριθµοι & Πολυπλοκότητα (Χειµώνας 2011) Δυναµικός Προγραµµατισµός 1

Θεωρία Αποφάσεων και Βελτιστοποίηση

Δοµές Δεδοµένων. 5η Διάλεξη Λίστες και αρχές ανάλυσης αλγορίθµων. Ε. Μαρκάκης

Η εφαρµογή xsortlab. Οπτικός τρόπος ταξινόµησης

Επαναληπτικές δοµές. µτ α.τ. Όχι. ! απαγορεύεται µέσα σε µία ΓΙΑ να µεταβάλλουµε τον µετρητή! διότι δεν θα ξέρουµε µετά πόσες επαναλήψεις θα γίνουν

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Περί της «Αρχής ανεξαρτησίας των κινήσεων»

3. Οριακά θεωρήµατα. Κεντρικό Οριακό Θεώρηµα (Κ.Ο.Θ.)

EΦΑΡΜΟΓΕΣ ΤΗΣ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ. Γραµµική Εκτίµηση Τυχαίων Σηµάτων

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

1 Πολυωνυµική Παρεµβολή

ΕΠΛ 232: Αλγόριθµοι και Πολυπλοκότητα. Κατ οίκον Εργασία 1 Σκελετοί Λύσεων

Κατανεμημένα Συστήματα Ι

1 Συνοπτική ϑεωρία. 1.1 Νόµοι του Προτασιακού Λογισµού. p p p. p p. ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών

ΕπίλυσηΠροβληµάτων Αναθέσεων: Η "Ουγγρική Μέθοδος"

ΕΓΧΕΙΡΙ ΙΟ ΟΡΘΩΝ ΠΡΑΚΤΙΚΩΝ ΕΙΓΜΑΤΟΛΗΨΙΑ Ε ΑΦΟΥΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΜΕΣΟΛΟΓΓΙΟΥ

Θεωρία Αποφάσεων και Βελτιστοποίηση

(f(x)+g(x)) =f (x)+g (x), x R

ΑΠΑΝΤΗΣΕΙΣ - ΥΠΟ ΕΙΞΕΙΣ ΣΤΙΣ ΕΡΩΤΗΣΕΙΣ

Α. 1. Μετρήσεις και Σφάλµατα

Transcript:

Προσεγγιστικοί αλγόριθµοι για οµαδοποίηση στοιχείων από συγκρίσεις Γιάννης Γιώτης Universitat Politècnica de Catalunya http://www.cs.upc.edu/~igiotis/soda06.pdf

Σε αυτή την οµιλία Παρουσίαση του προβλήµατος Γνωστά αποτελέσµατα Νέοι αλγόριθµοι Τι µπορούµε να κρατήσουµε Πολυπλοκότητα της οµαδοποίησης Πότε το πρόβληµα είναι δύσκολο και γιατί Τυχαία δειγµατοληψία Αποτελεσµατικότητα Μία τυπική απόδειξη Ένας πιο πολύπλοκος αλγόριθµος Τι κάνουµε όταν η απλή λύση δε φαίνεται να δουλεύει 2

Οµαδοποίηση στοιχείων σε σµήνη Συγκριτικές εκτιµήσεις Ποσοτικές 0.9 0.2 k-means, k-sum Ποιοτικές όµοια ανόµοια Correlation Clustering 4

Οµαδοποίηση µε ποιοτικές εκτιµήσεις Θεσσαλονίκη + Πάτρα Ηράκλειο + + - - - + - - Αθήνα όμοια ανόμοια 5

Οµαδοποίηση µε ποιοτικές εκτιµήσεις - Μοντέλο Είσοδος Γράφος n κορυφών Χαρακτηρισµός των ακµών Ζητούµενο Μία «καλή» οµαδοποίηση + ακµές θα πρέπει να συνδέουν κορυφές στο ίδιο σµήνος - ακµές θα πρέπει να συνδέουν κορυφές σε διαφορετικά σµήνη + - όμοια ανόμοια Αξιολόγηση της οµαδοποίησης συµφωνίες = #(+εσωτερικές ακµές) + #(-εξωτερικές ακµές) διαφωνίες = #(-εσωτερικές ακµές) + #(+εξωτερικές ακµές) 6

Οµαδοποίηση σε διάφορες ποικιλίες MaxAgree Μεγιστοποίηση Συµφωνιών MinDisAgree Ελαχιστοποίηση Διαφωνιών MaxAgree[k] Μεγιστοποίηση Συµφωνιών χρησιµοποιώντας (µέχρι) k σµήνη MinDisAgree[k] Ελαχιστοποίηση Διαφωνιών χρησιµοποιώντας (µέχρι) k σµήνη Σε πλήρεις γράφους Σηµαντικά διαφορετική πολυπλοκότητα από τους γενικούς γράφους 7

Προσεγγιστικοί αλγόριθµοι Όλες οι ενδιαφέρουσες παραλλαγές του προβλήµατος είναι NP-hard Αφού δεν µπορούµε να βρούµε τη βέλτιστη λύση ας βρούµε µία προσεγγιστική Αν η βέλτιστη λύση είναι αξίας OPT ζητάµε µια λύση αξίας >εopt για προβλήµατα µεγιστοποίησης <εopt για προβλήµατα ελαχιστοποίησης ε: σταθερός προσεγγιστικός παράγοντας 8

Γνωστά αποτελέσµατα δυσκολότερο Γενικοί γράφοι Πλήρεις γράφοι MaxAgree δυσκολότερο MinDisAgree MaxAgree[k] MinDisAgree[k] APX-hard 0.766-προσέγγιση APX-hard logn-προσέγγιση APX-hard, 0.766-προσέγγιση O( logn)-προσέγγιση για k=2. Αδύνατη η προσέγγιση για k>2 PTAS APX-hard 2.5-προσέγγιση PTAS PTAS PTAS: Polynomial Time Approximation Scheme. Προσέγγιση για οποιοδήποτε ε. Ότι καλύτερο προσεγγιστικά. APX-hard: Αδύνατη η προσέγγιση πέρα κάποιου σταθερού παράγοντα εκτός αν P=NP. Δεν υπάρχει PTAS. 9

Σε αυτή την οµιλία Παρουσίαση του προβλήµατος Γνωστά αποτελέσµατα Νέοι αλγόριθµοι MaxAgree[k] MinDisagree[2] MinDisagree[k] 10

MaxAgree[k] PTAS Συνοπτικά PTAS: Θέλουµε να βρούµε µια λύση αξίας τουλάχιστον 1-ε της βέλτιστης λύσης Η βέλτιστη λύση είναι Θ(n 2 ) Αν ο γράφος έχει πολλές + ακµές, χρησιµοποιούµε µόνο µια οµάδα Αν ο γράφος έχει πολλές ακµές, τοποθετώντας τις κορυφές τυχαία στις οµάδες, η µέση τιµή είναι Θ(n 2 ) Θα οµαδοποιήσουµε τον γράφο σε στάδια (V 1,V 2,,V m ),m = O(1/ ε) Θα φράξουµε το σφάλµα σε κάθε στάδιο σε O(ε 2 n 2 ). Έχουµε συνολικά O(1/ε) στάδια. Το συνολικό σφάλµα είναι O(εn 2 ) 11

MaxAgree[k] PTAS Το βασικό εργαλείο Τυχαία Δειγµατοληψία Χρησιµοποιούµε ένα µικρό τυχαίο δείγµα για να εκτιµήσουµε τα σµήνη Θα διατρέξουµε όλες τις πιθανές οµαδοποιήσεις του τυχαίου δείγµατος Στην ανάλυση θα εστιάσουµε στην οµαδοποίηση που ταυτίζεται µε τη βέλτιστη λύση. Μόνο καλύτερη λύση µπορούµε να βρούµε 12

MaxAgree[k] PTAS Αλγόριθµος 1. Χωρίζουµε το γράφο σε 2. Διαλέγουµε m τυχαία δείγµατα σταθερού µεγέθους 3. For i=1 m do a. Για κάθε οµαδοποίηση του i. Βάζουµε τις κορυφές του στο σµήνος που µεγιστοποιεί τις συµφωνίες (σε σχέση µε το S i ) ii. Διατηρούµε την καλύτερη οµαδοποίηση που έχουµε βρει 4. Ενώνουµε τα σµήνη και εξάγουµε το αποτέλεσµα W V (V 1,V 2,,V m ),m =! " 4 / ε# $ S 1,S 2,,S m S i i W i Χρόνος εκτέλεσης: nk log( k / εδ ) O 3 ε 13

MaxAgree[k] PTAS Ανάλυση Θεωρήστε την οµαδοποίηση του τυχαίου δείγµατος µας που ταυτίζεται µε τη βέλτιστη λύση Οι περισσότερες απ τις κορυφές θα οµαδοποιηθούν σωστά (µε O(ε 2 n 2 ) σφάλµα) Το δείγµα µας, θα δώσει µια αντιπροσωπευτική εικόνα των σµηνών (περιθώριο λάθους O(εn) ανά κορυφή) O(ε 2 n 2 ) S Πολύ λίγες κορυφές O(ε 2 n) δεν θα «δουν» αντιπροσωπευτική οµαδοποίηση O(ε 2 n 2 ) Μπορούµε να αγνοήσουµε τα λάθη µέσα στο V 1 V 1 :O(εn) O(ε 2 n 2 ) 14

MinDisagree[2] Θα µπορούσαµε να τρέξουµε το MaxAgree[2]. Δουλεύει εκτός αν υπάρχουν πολύ λίγες διαφωνίες Ας εστιάσουµε στην περίπτωση που η βέλτιστη λύση έχει µόνο γn 2 διαφωνίες,για κάποιο µικρό γ Ο στόχος µας είναι µια λύση µε (1+O(γ))OPT =OPT+O(γ 2 n 2 ) διαφωνίες 15

MinDisagree[2] Οι καλές, οι κακές Ας δούµε τις κορυφές κατά τη βέλτιστη οµαδοποίηση Κάποιες έχουν πολλές συµφωνίες, ας τις ονοµάσουµε καλές κορυφές Κι ας ονοµάσουµε τις υπόλοιπες κακές. Επειδή η βέλτιστη λύση έχει πολλές συµφωνίες, υπάρχουν πολλές καλές κορυφές, τουλάχιστον (1-O(γ))n Διαλέγουµε ένα τυχαίο δείγµα S Και εστιάζουµε στην οµαδοποίηση του S που ταυτίζεται µε τη βέλτιστη λύση Οι καλές κορυφές θα έχουν µια ξεκάθαρη επιλογή βάσει του τυχαίου δείγµατος και άρα θα οµαδοποιηθούν σωστά. καλές κακές 16

MinDisagree[2] και οι όχι και τόσο άσχηµες Για τις υπόλοιπες O(γn) κακές κορυφές Μπορούµε να τις οµαδοποιήσουµε αφού έχουµε οµαδοποιήσει τις καλές κορυφές. Αφού οι καλές κορυφές έχουν οµαδοποιηθεί σωστά, δεν θα εισάγουµε πολλές καινούριες διαφωνίες, το πολύ O(γn) ανά κορυφή. 17

MinDisagree[2] Αλγόριθµος Διαλέγουµε ένα τυχαίο δείγµα S a. Για κάθε οµαδοποίηση του S i. Τοποθετούµε τις κορυφές στο «καλύτερο» σµήνος (βάσει τουs) O(γn) ανά κορυφή= O(γ 2 n 2 ) κακές O(γn) ii. Διατρέχουµε όλες τις κορυφές (παράλληλα) και τις τοποθετούµε στο «καλύτερο» σµήνος (βάσει ολόκληρου του γράφου) O(γ 2 n 2 ) b. Εξάγουµε την καλύτερη οµαδοποίηση 18

MinDisagree[k] Όχι και τόσο απλό Ο προηγούµενος αλγόριθµος δεν δουλεύει Θεωρήστε µια κορυφή µε πολλές διαφωνίες προς ένα σµήνος Για k=2 έχουµε µια προφανή τοποθέτηση Για k>2, δεν είναι πια προφανής Δεν µπορούµε πια να βασιστούµε στις καλές κορυφές 19

MinDisagree[k] Διαίσθηση Οι καλές κορυφές που θα τοποθετηθούν λανθασµένα, θα καταλήξουν σε µικρά σµήνη Οι κορυφές σε µεγάλα σµήνη, θα τοποθετηθούν (περίπου) σωστά Η οµαδοποίηση των µικρών σµηνών µπορεί να γίνει ανεξάρτητα Μπορούµε να χρησιµοποιήσουµε αναδροµικό αλγόριθµο! 20

MinDisagree[k] PTAS Ανάλυση Βασισµένοι στο τυχαίο δείγµα, οµαδοποιούµε τις κορυφές σε σµήνη C 1,,C k καλές κακές καλές κακές Θυµηθείτε τις κακές κορυφές που έχουν λίγες συµφωνίες (πολλές διαφωνίες) κατά τη βέλτιστη λύση OPT Για τα µεγάλα σµήνη C i - κακές= OPT i κακές Χάνουµε λίγες διαφωνίες από τις κακές κορυφές Τα µικρά σµήνη οµαδοποιούνται αναδροµικά Κάνουµε πρόοδο καθώς υπάρχει πάντα τουλάχιστον ένα µεγάλο σµήνος 21

MinDisagree[k] PTAS : C i κακές OPT i - κακές Ας υποθέσουµε ότι µια κορυφή v υπάρχει στο C i - (OPT 1 U bad) αλλά έπρεπε να είναι στο OPT 2 Αφού η v είναι καλή, έχει πολλές συµφωνίες αν τοποθετηθεί στο OPT 2 Το τυχαίο δείγµα µας ήταν αντιπροσωπευτικό και την τοποθετήσαµε στο σµήνος 1, άρα η v έχει πολλές συµφωνίες αν τοποθετηθεί στο OPT 1 Οι ακµές της v προς τα OPT 1,OPT 2 συµφωνούν σε µόνο µία από τις τοποθετήσεις 2xΠολλές συµφωνίες συµφ(1) + συµφ(2) 2n - OPT 1 - OPT 2 Άρα OPT 1 και OPT 2 πρέπει να είναι µικρά C 1 OPT 3?? OPT k OPT 1 OPT 1 OPT 2 OPT 2 OPT 2 Επαναλαµβάνουµε το επιχείρηµα για όλες τις κορυφές C 1. Όλα τα σµήνη OPT i πρέπει να είναι µικρά Στο τέλος, έχουµε ακόµα κορυφές στο C 1. Άτοπο 22

MinDisagree[k] PTAS Αλγόριθµος Διαλέγουµε ένα τυχαίο δείγµα S 1. Για κάθε οµαδοποίηση του S i. Τοποθετούµε τις κορυφές στο «καλύτερο» σµήνος (βασισµένοι στο S) ii. iii. iv. Υπολογίζουµε τα µεγάλα C i και µικρά D j (<n/2k)σµήνη Εκτελούµε αναδροµικά στο σύνολο των µικρών σµηνών Διατηρούµε την καλύτερη οµαδοποίηση 2. Εκτελούµε τον αλγόριθµο MaxAgree[k] 3. Εξάγουµε την καλύτερη οµαδοποίηση k ck O 2 Χρόνος εκτέλεσης k ε n 2 log n k 5 23

Ανακεφαλαίωση Οι διάφορες παραλλαγές του προβλήµατος διαφέρουν σηµαντικά στην πολυπλοκότητα τους Σε πλήρεις γράφους είναι πιο εύκολο Η ελαχιστοποίηση διαφωνιών είναι πιο δύσκολη από την µεγιστοποίηση συµφωνιών Το πρόβληµα προκύπτει όταν οι διαφωνίες είναι λίγες PTAS για MaxAgree[k] PTAS για MinDisagree[k] Απρόσµενο! Θυµηθείτε ότι το MinDisagree είναι APX-hard Η τυχαία δειγµατοληψία είναι ένα ισχυρό εργαλείο Παράγει απλούς και γρήγορους αλγορίθµους Ο αλγόριθµός µας έχει γενικευτεί και για άλλα προβλήµατα (consensus clustering) 24