Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις

Σχετικά έγγραφα
Μεγίστου Σφάλµατος. Παναγιώτης Καρράς. Αθήνα, 26 Αυγούστου 2005

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Λεξικό, Union Find. ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Λεξικό, Union Find. ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

ΕΥΡΕΣΗ ΕΛΑΧΙΣΤΩΝ ΜΟΝΟΠΑΤΙΩΝ & ΚΑΤΗΓΟΡΙΕΣ ΑΛΓΟΡΙΘΜΩΝ

Αλγόριθµοι και Πολυπλοκότητα

έντρα ομές εδομένων 3ο εξάμηνο ιδάσκων: Χρήστος ουλκερίδης ιαφάνειες προσαρμοσμένες από το υλικό της Μαρίας Χαλκίδη

Λεξικό, Union Find. ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Λεξικό, Union Find. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Υπολογιστικό Πρόβληµα

Αλγόριθµοι και Πολυπλοκότητα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Συστήµατα και Αλγόριθµοι Πολυµέσων

Ν. Μ. Μισυρλής. Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών. Καθηγητής: Ν. Μ. Μισυρλής 29 Μαΐου / 18

Πρόβληµα (ADT) Λεξικού. Αλγόριθµοι & Πολυπλοκότητα (Χειµώνας 2011) Λεξικό, Union - Find 2

Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Λεξικό, Union Find. ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Αριθμητική Ανάλυση & Εφαρμογές

ΕΥΡΕΣΗ ΕΛΑΧΙΣΤΩΝ ΜΟΝΟΠΑΤΙΩΝ & ΚΑΤΗΓΟΡΙΕΣ ΑΛΓΟΡΙΘΜΩΝ

ιαµέριση - Partitioning

Heapsort Using Multiple Heaps

ΗΥ360 Αρχεία και Βάσεις εδοµένων

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Union Find, Λεξικό. Δημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Ουρά Προτεραιότητας: Heap

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Τεχνητή Νοημοσύνη. 2η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

ΑΣΥΜΠΤΩΤΙΚΗ ΑΝΑΛΥΣΗ & ΠΡΟΣΘΕΣΗ

Το εσωτερικό ενός Σ Β

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

Ουρά Προτεραιότητας: Heap

Κεφ.11: Ευρετήρια και Κατακερματισμός

Τεχνητή Νοημοσύνη. 3η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

3η Σειρά Γραπτών Ασκήσεων

Κεφάλαιο 2. Η δοµή δεδοµένων Σωρός και η Ταξινόµηση Σωρού (The Heap data structure and Heapsort) Έκδοση 1.1, 12/05/2010

Αλγόριθμοι Ταξινόμησης Μέρος 4

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Συντομότερες ιαδρομές

Αλγόριθµοι Εκτίµησης Καθυστέρησης και

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

Συνόψεις για Δεδομένα XML με Ετερογενές Περιεχόμενο

Διάλεξη 17: O Αλγόριθμος Ταξινόμησης HeapSort

Αλγόριθμοι και πολυπλοκότητα Ταχυταξινόμηση (Quick-Sort)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΠΛΕ075: Προηγμένη Σχεδίαση Αλγορίθμων και Δομών Δεδομένων. Λουκάς Γεωργιάδης

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Επεξεργασία Ερωτήσεων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Δοµές Δεδοµένων. 9η Διάλεξη Ταξινόµηση - Στοιχειώδεις µέθοδοι. Ε. Μαρκάκης

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Ουρές Προτεραιότητας. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

I 1 I 2 I 3 I 4 I 5 I 6 I 7 I 8 I 9 I 10 I 11

Advanced Data Indexing

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Μεθοδολογίες παρεµβολής σε DTM.

Προγραμματισμός Ι (ΗΥ120)

Ουρά Προτεραιότητας: Heap

Δομές Δεδομένων & Αλγόριθμοι

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Αξιολόγηση Ευριστικών Αλγορίθµων

ΠΛΗ111. Ανοιξη Μάθηµα 7 ο. έντρο. Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Πολυτεχνείο Κρήτης

Συντομότερες Διαδρομές

Αποδοτική Επεξεργασία Ερωτήσεων σε ίκτυα Αισθητήρων. Αντώνιος εληγιαννάκης (University of Maryland) ΣχεδιάγραµµαΟµιλίας

Επεξεργασία Ερωτήσεων

3η Σειρά Γραπτών Ασκήσεων

Επεξεργασία Ερωτήσεων

Ταχεία Ταξινόμηση Quick-Sort

Πρόβληµα Επιλογής. Αλγόριθµοι & Πολυπλοκότητα (Χειµώνας 2011) Επιλογή 1

Στοχαστικές Στρατηγικές

HY213. ΑΡΙΘΜΗΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΑΧΙΣΤΑ ΤΕΤΡΑΓΩΝΑ AΝΑΛΥΣΗ ΙΔΙΑΖΟΥΣΩΝ ΤΙΜΩΝ

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Εργασία στο µάθηµα Ανάλυση εδοµένων

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

Insert(K,I,S) Delete(K,S)

Συντομότερες ιαδρομές

Δοµές Δεδοµένων. Αλγόριθµοι & Πολυπλοκότητα (Χειµώνας 2011) Ουρές Προτεραιότητας 2

Advanced Data Indexing

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Προσεγγιστικοί Αλγόριθμοι

Advanced Data Indexing

Δυναμικός Προγραμματισμός

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Το µαθηµατικό µοντέλο του Υδρονοµέα

Προσεγγιστικοί Αλγόριθμοι για NP- ύσκολα Προβλήματα

Διδάσκων: Παναγιώτης Ανδρέου

Quicksort. Επιμέλεια διαφανειών: Δ. Φωτάκης Μικροαλλαγές: Α. Παγουρτζής. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Επιλογή. Επιμέλεια διαφανειών: Δ. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Transcript:

Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις Αντώνιος εληγιαννάκης (University of Maryland) Μίνως Γαροφαλάκης (Bell Labs, Lucent Technologies) Σχεδιάγραµµα Οµιλίας Εισαγωγικά Η ανάγκη για προσέγγιση δεδοµένων Haar wavelets, συµβατικές wavelet συνόψεις Το πρόβληµα µεσυµβατικές wavelet τεχνικές Προηγούµενη Μέθοδος: Πιθανοτικές Wavelet Συνόψεις [Garofalakis & Gibbons, SIGMOD 02] Εγγυήσεις για µέγιστο σχετικό σφάλµαστησύνοψη, αλλά µηαποδοτικός Προσέγγισή µας: Αραιή Μέθοδος υναµικού Προγραµµατισµού (1+ε) Προσέγγιση αλγορίθµου για µέγιστο σχετικό σφάλµα Συµπεράσµατα & Τρέχουσα Έρευνα Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 2 1

Η Ανάγκη Προσέγγισης εδοµένων Πολλές εφαρµογές συλλέγουν µεγάλες ποσότητες δεδοµένων Μεγέθη σχετικά µε χαρακτηριστικά εφαρµογής OLAP συστήµατα, Περιβαντολογικές Εφαρµογές: GB-TB Αισθητήρες (sensors): KB-MB εδοµένα χρειάζονται Αποθήκευση Επεξεργασία Συχνά, µετάδοση σε µακρινές περιοχές Προσέγγιση δεδοµένων αναγκιαία όταν υπάρχουν περιορισµοί χώρου, απόκρισης ερωτήσεων ή χωρητικότητας (bandwidth) Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 3 Η Ανάγκη Προσέγγισης εδοµένων (2) Πολλαπλά Οφέλη Μειωµένες απαιτήσεις αποθήκευσης/bandwidth Γρήγορες, προσεγγιστικές απαντήσεις Μικρές συνόψεις, αποθήκευση στη µνήµη Συναθροιστικές ερωτήσεις, αναγνώριση περιοχών µε ενδιαφέρον Απόλυτη ακρίβεια όχι πάντα αναγκιαία αν απαντήσεις είναι αρκετά ακριβείς Πχ: Ποια ήταν η µέση βροχόπτωση στην περιοχή A τον περασµένο Ιούλιο? Κατασκευή συνόψεων δεδοµένων?? Wavelets: Πολύ καλά για σχετικά οµαλά δεδοµένα Περιβαντολλογικά: θερµοκρασία, πίεση, υγρασία Ευρεία χρήση σε βάσεις δεδοµένων σηµάτων/εικόνων (signal/image) Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 4 2

Haar Wavelet Μετασχηµατισµός Wavelets: ιεραρχική ανάλυση συναρτήσεων Haar wavelets: πιο απλή βάση για wavelets Αναδροµικός υπολογισµός µέσων όρων και µέσης διαφοράς µεταξύ ζευγών Ανάλυση Μέσοι Όροι Συντελεστές 0 [4] [1] 1 [5, 3] ] [-3, 0] ] 2 [2, 8, 3, 3] ---- Haar wavelet µετασχηµατισµός: [4, 1, -3, 0] Εύκολη επέκταση σε πολυδιάστατα δεδοµένα Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 5 Haar Wavelet Συντελεστές Απεικόνιση στο έντρο Σφάλµατος (Error Tree) Περιοχή υποστήριξης (2 level ) Ερωτήσεις Σηµείων (point queries): χρήση συντελεστών σε µονοπάτι προς δεδοµένο Ερωτήσεις Εύρους (range queries): συντελεστές σε µονοπάτι προς κάτω και άνω όρια του εύρους Data 2 8 3 3 Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 6-3 + 4 1 + - + - 13 = 3*4 +1*(2-1) 8 = 4 + 1 (-3) Ανάλυση Μέσοι Όροι Συντελεστές 0 1 2 [4] [1] [5, 3] [-3, 0] [2, 8, 3, 3] ---- - 0 3

Wavelet Συνόψεις εδοµένων Haar wavelet µετασχηµατισµός Συµβατική διαδικασία: Μόνο B << N = Πεδίο Τιµών συντελεστές αποθηκεύονται Συµβατική διαδικασία j Κανονικοποίηση: διαίρεσε συντελεστές στο επίπεδο j µε 2 Το j καθορίζειτοεπίπεδοστοδέντροσφάλµατος Κατάλληλη στάθµιση συντελεστών ανάλογα µε τοναριθµό δεδοµένων που βοηθάνε να προσεγγίσουν Αποθήκευση B κανονικοποιηµένων συντελεστών µετις µεγαλύτερες απόλυτες τιµές Οι υπόλοιποι συντελεστές θεωρούνται 0 Αποδεδειγµένα βέλτιστο για ελαχιστοποίηση µέσου τετραγωνικού σφάλµατος Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 7 Προβλήµατα Συµβατικών Συνόψεων Παράδειγµα δεδοµένων και wavelet σύνοψης ( D =16, B=8 συντελεστές αποθηκεύονται) Πάνω από 2,000% σχετικό σφάλµα! Απόλυτη Ακρίβεια! εδοµένα 127 71 87 31 59 3 43 99 100 42 0 58 30 88 72 130 Απαντήσεις Wavelet 65 65 65 65 65 65 65 65 100 42 0 58 30 88 72 130 Πόσο ακριβής είναι η κάθε απάντηση που λαµβάνουµε? Μεγάλες διακυµάνσεις στην ποιότητα των απαντήσεων Στοίδιοσύνολοδεδοµένων, µε µεγάλες συνόψεις, µεπαρόµοιες τιµές δεδοµένων, µεπαρόµοιες πραγµατικές απαντήσεις Κυρίαρχες αιτίες Εκτίµηση = 195, πραγµατικές τιµές: d(0:2)=285, d(3:5)=93! Επιλογή βασισµένη στην ελαχιστοποίηση µέσου τετραγωνικού σφάλµατος Ανεξάρτητη, greedy επιλογή ( µεγάλες περιοχές χωρίς συντελεστές!) Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 8 4

Λύση: Βελτιστοποίηση για Μέγιστο Σχετικό Σφάλµα Κλειδί για ακριβείς προσεγγιστικές απαντήσεις: Ελαχιστοποίηση µέγιστου σχετικού σφάλµατος dˆ min{ max { i di i }} max{ di, s} d i : πραγµατική τιµή δεδοµένου i ^ d i : εκτιµούµενη τιµή δεδοµένου i Λογικό όριο (sanity bound) s για να µην κυριαρχείται to λάθος από πολύ µικρές τιµές Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 9 Προηγούµενη Τεχνική: Πιθανοτικές Συνόψεις εδοµένων [GG02] Καθόρισε y v = πιθανότητα αποθήκευσης c v (πολ/σια του 1/q) y v = αναµενόµενος χώρος συντελεστή c v ( y v B ) u Πιθανοτικά επέλεξε συντελεστές για αποθήκευση Πιθανοτικά έλεγξε το µέγιστο σχετικό σφάλµα ελαχιστοποιώντας το µέγιστο Κανονικοποιηµένο Σφάλµα (NSE) ανάµεσα σε όλες τις τιµές M[v,b] = βέλτιστη τιµήτουµέγιστου NSE γιατουπόδεντροτου συντελεστή c v για ανάθεση χώρου b σε ολόκληρο το υπόδεντρο Έλεγξε όλες τις πιθανές αναθέσεις χώρου σε κόµβο και αριστερό υπόδεντρο Για κάθε ανάθεση, υπολόγισε max του NSE των 2 υποδέντρων Var[v, y] M[v, b] = miny (0,min{1,b}],b [0,b y] max{ + M[u,bL], L Norm(u) Var[v, y] Όλες οι αναθέσεις σε + M[w,b y b L ]} κόµβο, αριστερό υπόδεντρο Norm(w) Συνεισφορά κόµβου σε NSE υποδέντρου Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 10 v w 5

Ο Στόχος µας και Σκίτσο της Λύσης µας ηµιουργία αποδοτικής τεχνικής επιλογής συντελεστών για ελαχιστοποίηση µέγιστου σχετικού σφάλµατος Αποφυγή µεγάλης πολυπλοκότητας DP λύσης O(NB log B) χρόνος, O(NB) χώρος Ντετερµινιστική λύση [GK04] ακόµα πιο ακριβή σε χώρο/χρόνο Αποδοτικός υπολογισµός και περιορισµένο χώρο Πεδίο τιµών N, µέγεθος σύνοψης B Πολλαπλές διαστάσεις, Ι/Ο αποδοτικότητα Ηλύσηµας Αραιός αλγόριθµος δυναµικού προγραµµατισµού Χρήση λογαριθµικού υποσυνόλου αναθέσεων χώρου εδοµένου ενός ε > 0, ηλύσηµας θα απέχει το πολύ κατά ένα παράγοντα (1+ε) απότηβέλτιστηλύσητου[gg02] Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 11 Παρατηρήσεις/Κύρια Ιδέα Βέλτιστο M * [v,x] είναι φθίνουσα µε τοx Πολλές M * [] λύσεις σε κάθε κόµβο µπορεί να έχουν παρόµοιες τιµές για διαφορετικά x ιατήρησε σε κάθε κόµβο λογαριθµικό σύνολο αναθέσεων χώρου Προσέγγισε M * [v,x] µε τοm[v,b] του αλγορίθµου µας b είναι η µεγαλύτερη αποθηκευµένη ανάθεση χώρου που είναι µικρότερηήίσηµετοx Εγγύηση ότι M * [v,x] M[v,b] (1+ε) M * [v,x] u v w Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 12 6

Φύλλαστο έντροσφάλµατος Θεώρησε κόµβο v που είναι φύλλο (επίπεδο 0 δέντρου σφάλµατος) Βρες φθίσουσες τιµές M * [v,b] για b=0, 1/q, 2/q,, min{b,1} ως * M [v,b] Var[cv,b] min{norm(2v), Norm(2v + 1)} = M[v,x] τιµές µειώνονται Αποθήκευσε τιµές M[] για υποσύνολο b 1 < < b h των αναθέσεων χώρου Αποθήκευσε ανάθεση χώρου b 1 = 0 ιάσχισε υπόλοιπες αναθέσεις χώρου από µικρότερες προς µεγαλύτερες Αποθήκευσε b i+1 > b i : M * [v,b i ] > (1+ε)M * [v,b i+1 ] l v ιάσχιση/ψαλιδισµός αναθέσεων Αποθήκευσε b 1 l v Χώρος ανάθεσης αυξάνει x x [b i, b i+1 ) απάντησε µε τοb i M[v,b i ] (1+ε)M * [v, x] Αφού δεν ίσχυε αυτό για το x b i b i+1 Απάντησε µε b i Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 13 Επαγωγικό Βήµα: Εσωτερικοί Κόµβοι u v w Έστω l u, l w οι ταξινοµηµένες λίστες ανάθεσης χώρου των παιδιών Χώρος ανάθεσης αυξάνει M[u,x] τιµές µειώνονται a i-1 a i a i+1 Υπολόγισε τιµές M[], αναθέσεις χώρου σε v µε l u, l w Ουσιαστικά θεωρούµε τις δυνατές αναθέσεις χώρου στα 2 υποδέντρα Χρειάζονται συνολικά l u l w αναθέσεις χώρου? Ευτυχώς ΟΧΙ l u L u l w b k-1 b k b k+1 πρόσθεσε leftvar, rightvar πιθανότητα αποθήκευσης y του v υπολόγισε NSE τιµές για αναθέσεις χώρου στα 2 υπόδεντρα Πρόσθεσε συνεισφορά leftvar/rightvar του κόµβου στο max NSE κάθε υποδέντρου Έστω L u /L w οι νέες ταξινοµηµένες λίστες L w Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 14 7

Επαγωγικό Βήµα (συν.) πιθανότητα αποθήκευσης y = 0,1/q,,min{1,B} του v L = merge(l u, L w ) Ταξινοµηµένη λίστα στις M [v,x] τιµές, αναθέσεις χώρου από 2 υποδέντρα M[] τιµές του v καθορίζονται από υπόδεντρο µε µέγιστο NSE a i L u, θεώρησε ΜΟΝΟ την πιο αριστερή τιµή b k L w στα δεξιά της στη λίστα L Μεγαλύτερες b τιµές απαιτούν περισσότερο χώρο, δεν µειώνουν M[] a i L u, θεώρησε ΜΟΝΟ την πιο δεξιά τιµή b k L w στα αριστερά της στη λίστα L Αγνόησε αναθέσεις µε χώρο πάνω από B Το πολύ l u + l w αναθέσεις συνολικά L u L u v w Χώρος ανάθεσης αυξάνει M[u,x] τιµές µειώνονται L w a i b k M[v, a i +b k +y] καθορίζεται από υποδέντρο του a i (u) Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 15 Επαγωγικό Βήµα: Εσωτερικοί Κόµβοι (συν.) Ένωσε τις O(q) ταξινοµηµένες λίστες που παράχθηκαν 1 ταξινοµηµένη λίστα για κάθε πιθανότητα επιλογής του συντελεστή στη ρίζα του υποδέντρου Πόρισµα: Οι υπολογισµένες αναθέσεις χώρου προσεγγίζουν το M * [v,x] σε ένα παράγοντα (1+ε) (όµοια µετα2 υπόδεντρα) Απόδειξη στο κείµενο Πρόβληµα: Αναθέσεις χώρου αυξάνουν στα υψηλά επίπεδα: (2q) j Λύση: Ψαλιδισµός αναθέσεων µε επιπλέον κόστος προσέγγισης (1+ε) Συνολικόςπαράγονταςπροσέγγισης(1+ε) log N N : πεδίο τιµών Χρησιµοποιούµεε = ε / log N για το επιθυµητό παράγοντα προσέγγισης Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 16 8

Πολυπλοκότητες Χρόνος Χώρος ε-approxrv O(min{N log N / ε, NB}) O(min{N log N / ε, NB}) MinRelVar O(NB log B) O(NB) Μνήµη O(log Ν min{loglogn/ ε, B}) O(B log N) Βελτίωση και για βέλτιστη λύση (ε = 0) Συνήθως B << N, αλλά B >> log N Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 17 Επεκτάσεις/Βελτιώσεις Αρχικό στάδιο αποκοπής συντελεστών Πολλοί συντελεστές έχουν πολύ µικρές τιµές Πέταξε ασήµαντους συντελεστές, εφάρµοσε αλγόριθµο στους υπόλοιπους N z << N Πολυπλοκότητα εξαρτάται από το N z, όχι το N (πολύ σηµαντικό) Αλγόριθµος µπορεί να χρησιµοποιηθεί και για ελαχιστοποίηση µέγιστου απόλυτου σφάλµατος Υπολογισµός αναθέσεων χώρου σε ένα πέρασµα Post-order υπολογισµός των αναθέσεων χώρου I/O αποδοτικότητα Εύκολη επέκταση σε πολλαπλές διαστάσεις Λεπτοµέρειες στο κείµενο Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 18 9

Πειράµατα Συγκρίναµετονε-ApproxRV αλγόριθµό µας µε τον MinRelVar Χρόνος Ακρίβεια Κύρια ευρήµατα για ε-approxrv Πραγµατική ακρίβεια αρκετά καλύτερη από το όριο προσέγγισης Σηµαντικά πιο γρήγοροι χρόνοι 1-2 τάξεις µεγέθους Καλύτεροι χρόνοι και για τη βέλτιστη λύση (ε = 0) Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 19 Πειράµατα Επεκτασιµότητα Επεκτασιµότητα µε τοε Επεκτασιµότητα µε ΠεδίοΤιµών Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 20 10

Πειράµατα Ακρίβεια Παράγοντας Προσέγγισης Μεταβάλλοντας το ε Μεταβάλλοντας το Πεδίο Τιµών Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 21 Συµπεράσµατα Γρήγορη προσεγγιστική µέθοδος για wavelet συνόψεις στοχεύοντας το µέγιστο σχετικό σφάλµα Αραιή έκδοση προηγούµενης τεχνικής DP Αποθήκευση λογαριθµικού υποσυνόλου αναθέσεων χώρου I/O αποδοτικός υπολογισµός Επεκτάσεις σε πολλαπλές διαστάσεις Πειραµατική έρευνα έδειξε Επεκτασιµότητα σε µεγάλα δεδοµένα Αρκετά πιο ακριβείς λύσεις από τον παράγοντα προσέγγισης ε Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 22 11

Τι Μένει? Χρειαζόµαστε πολύ πιο γρήγορους αλγόριθµους για µέτρα σφάλµατος εκτός του L2 Στόχος: (σχεδόν) γραµµική πολυπλοκότητα, γραµµικό χώρο Όχι µόνο για µονοδιάστατα δεδοµένα Greedy αλγόριθµοι φαίνονται πιο πιθανοί Εγγυήσεις για ποιότητα λύσης (πόσο κοντά στη βέλτιστη?) Βέλτιστος αλγόριθµος για µέσο τετραγωνικό σχετικό σφάλµα (Matias05) Greedy αλγόριθµος (ΚΜ05) για ελαχιστοποίηση µέγιστου απόλυτου/σχετικού σφάλµατος Αποδοτικές επεκτάσεις σε πολυδιάστατα δεδοµένα? Greedy αλγόριθµος για πιθανοτικές συνόψεις Όχι εγγυηµένος παράγοντας απόκλισης από βέλτιστη λύση, αλλά πειραµατικά πολύ καλά αποτελέσµατα Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 23 Ευχαριστούµε - Ερωτήσεις? Αντώνιος εληγιαννάκης Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις 24 12