Multimedia IR. εικτοδότηση και Αναζήτηση. Ανάκτηση Πληροφορίας

Σχετικά έγγραφα
Multimedia IR. Εισαγωγή. Εισαγωγή. εικτοδότηση και Αναζήτηση

Οργάνωση Βάσεων Βιοϊατρικών Δεδομένων Εξόρυξη Γνώσης Βιοϊατρικών Δεδομένων. Σεμινάριο 6, μέρος 2 ο : Δομές ευρετηρίων για αρχεία

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Οργάνωση Βάσεων Βιοϊατρικών Δεδομένων Εξόρυξη Γνώσης Βιοϊατρικών Δεδομένων. Σεμινάριο 6: Δομές ευρετηρίων για αρχεία

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Διάλεξη 14: Δέντρα IV - B-Δένδρα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Διάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

R-Trees, kd-trees, QuadTrees. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Μέγιστη ροή. Κατευθυνόμενο γράφημα. Συνάρτηση χωρητικότητας. αφετηρίακός κόμβος. τερματικός κόμβος. Ροή δικτύου. με τις ακόλουθες ιδιότητες

Ανάκτηση Πληροφορίας

ΑΠΑΝΤΗΣΕΙΣ - ΥΠΟ ΕΙΞΕΙΣ ΣΥΝΤΟΜΕΣ ΛΥΣΕΙΣ ΣΤΙΣ ΕΡΩΤΗΣΕΙΣ

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης

ΕΠΛ 231 Δοµές Δεδοµένων και Αλγόριθµοι 8-1

Χωρικές οµές εδοµένων: Αναλυτικά Μοντέλα και Αποδοτικοί Αλγόριθµοι

Βάσεις Δεδομένων ΙΙ Ενότητα 12

Πληροφορική 2. Δομές δεδομένων και αρχείων

ΛΥΣΗ ΤΗΣ ΔΕΥΤΕΡΗΣ ΑΣΚΗΣΗΣ Όλγα Γκουντούνα

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

«ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΜΕΘΟ ΩΝ ΚΑΤΑΣΚΕΥΗΣ ΤΟΥ R* TREE ΜΕ ΟΡΟΥΣ ΑΠΟ ΟΤΙΚΟΤΗΤΑΣ ΓΙΑ ΕΡΩΤΗΜΑΤΑ ΚΟΝΤΙΝΟΤΕΡΟΥ ΓΕΙΤΟΝΑ ΣΕ ΠΟΛΥ ΙΑΣΤΑΤΟΥΣ ΧΩΡΟΥΣ Ε ΟΜΕΝΩΝ»

13/5/2015 ΟΥΡΕΣ ΠΡΟΤΕΡΑΙΟΤΗΤΑΣ. Δομές Δεδομένων. Ουρές Προτεραιότητας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Ο ΑΤΔ Λεξικό. Σύνολο στοιχείων με βασικές πράξεις: Δημιουργία Εισαγωγή Διαγραφή Μέλος. Υλοποιήσεις

ΕΡΩΤΗΜΑΤΑ σε ΓΕΝΕΤΙΚΟΥΣ

ΚΑΤΑΝΟΜΗ ΠΥΚΝΟΤΗΤΑΣ ΠΙΘΑΝΟΤΗΤΑΣ

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Διάλεξη 18: B-Δένδρα

Μεθοδολογίες παρεµβολής σε DTM.

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Βασισμένης σε Περιπτώσεις (Case Based Reasoning): Το σύστημα PAS (Property Appraisal System) ΣΤΑΥΡΟΥΛΑ ΠΡΑΝΤΣΟΥΔΗ

ΟΥΡΕΣ ΠΡΟΤΕΡΑΙΟΤΗΤΑΣ

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems - GIS)

Βάσεις εδοµένων & Πολυµέσα

ΕΠΑΝΑΛΗΨΗ Β ΓΥΜΝΑΣΙΟΥ ΑΛΓΕΒΡΑ

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ

Σχεδίαση Βάσεων Δεδομένων. Χωρικές Βάσεις Δεδομένων και Μέθοδοι Προσπέλασης Μανώλης Μαραγκουδάκης

Τµήµα Πληροφορικής. Δοµές Δεδοµένων - Εργασία 3. Φθινοπωρινό Εξάµηνο Διδάσκων: E. Μαρκάκης. Εφαρµογές των Δέντρων Δυαδικής Αναζήτησης

1.1. 1o ΚΕΦΑΛΑΙΟ Β ΘΕΜΑΤΑ

Ανάκτηση Πληροφορίας

β) Αν κάποιος αριθµός α επαληθεύει την παραπάνω ανίσωση, να αποδείξετε ότι < α

Ασκήσεις σχολικού βιβλίου σελίδας A Οµάδας. 1.i) 1.ii) 1.iii) 1.iv) Ποιο είναι το πεδίο ορισµού της συνάρτησης f(x) = ln(1.

Βάσεις Δεδομένων ΙΙ Ενότητα 5

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

Διάλεξη 22: Δυαδικά Δέντρα. Διδάσκων: Παναγιώτης Ανδρέου

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

ΑΠΑΝΤΗΣΕΙΣ - ΥΠΟ ΕΙΞΕΙΣ ΣΤΙΣ ΕΡΩΤΗΣΕΙΣ

ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ ΠΑΡΑΣΚΕΥΗ 30 MAΪΟΥ

Θέμα: Ανάπτυξη Βασικής Πλατφόρμας για Υπηρεσίες με Βάση το Προφίλ και τη Θέση (Profile & Location Based Services)

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.

Να αιτιολογήσετε την απάντησή σας µε τη βοήθεια και του ερωτήµατος α). ii) Να αποδείξετε ότι ισχύει η ανισότητα 1+α < 1+ α. α+α

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Linear Hashing. Linear vs other Hashing

Διαχείριση Καταστάσεων προβλημάτων στο Νηπιαγωγείο. Από τη μοιρασιά της τούρτας στην ανάπτυξη γεωμετρικών εννοιών

ΕΠΛ 231 οµές εδοµένων και Αλγόριθµοι Άννα Φιλίππου,

ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2005

ώστε επιλογή: Στη συνέχεια θα διαβάζει την επιλογή του χρήστη και την ακτίνα ενός κύκλου και θα εκτυπώνει το αντίστοιχο αποτέλεσµα.

Βάσεις Δεδομένων ΙΙ Ενότητα 6

Επίλυση προβληµάτων. Περιγραφή προβληµάτων Αλγόριθµοι αναζήτησης Αλγόριθµοι τυφλής αναζήτησης Αλγόριθµοι ευρετικής αναζήτησης

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

1.4. Ασκήσεις σχ. βιβλίου σελίδας A ΟΜΑ ΑΣ. Να βρείτε τα ακρότατα των συναρτήσεων i) f(x) = x 2x ii) f(x) = 3 x iii) f(x) = x 2x + 4

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ Γ ΗΜΕΡΗΣΙΩΝ

MPEG7 Multimedia Content Description Interface

ΕΝΟΤΗΤΑ 1: ΟΡΙΣΜΟΣ ΠΕΔΙΟ ΟΡΙΣΜΟΥ ΠΡΑΞΕΙΣ ΣΥΝΑΡΤΗΣΕΩΝ ΓΡΑΦΙΚΕΣ ΠΑΡΑΣΤΑΣΕΙΣ ΒΑΣΙΚΩΝ ΣΥΝΑΡΤΗΣΕΩΝ ΛΥΜΕΝΑ ΘΕΜΑΤΑ ΘΕΜΑ Α

x Ε ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

Δυναμική Διατήρηση Γραμμικής Διάταξης

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Εισαγωγή στην PostgreSQL Spatial 8.1

Δομές Δεδομένων και Αλγόριθμοι

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ

3. α) Να λύσετε την εξίσωση x 2 = 3. β) Να σχηματίσετε εξίσωση δευτέρου βαθμού με ρίζες, τις ρίζες της εξίσωσης του α) ερωτήματος.

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΚΑΤΑΝΟΜΈΣ. 8.1 Εισαγωγή. 8.2 Κατανομές Συχνοτήτων (Frequency Distributions) ΚΕΦΑΛΑΙΟ

Λειτουργικά Συστήματα Κεφάλαιο 2 Οργάνωση Συστήματος Αρχείων 2.1 Διαχείριση Αρχείων και Σύστημα Αρχείων(File System)

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2015 ΕΚΦΩΝΗΣΕΙΣ

Διαχρονικές δομές δεδομένων

Ασκήσεις κέντρου μάζας και ροπής αδράνειας. αν φανταστούμε ότι το χωρίζουμε το στερεό σώμα σε μικρά κομμάτια, μόρια, μάζας m i και θέσης r i

Branch and Bound. Branch and Bound

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

HY240 : Δομές Δεδομένων. Φροντιστήριο Προγραμματιστικής Εργασίας 2 ο και 3 ο Μέρος

f x g x f x g x, x του πεδίου ορισμού της; Μονάδες 4 είναι οι παρατηρήσεις μιας ποσοτικής μεταβλητής Χ ενός δείγματος μεγέθους ν και w

Αναλυτικές λειτουργίες ΣΓΠ

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Τράπεζα Θεμάτων Διαβαθμισμένης Δυσκολίας- Άλγεβρα Β ΓΕ.Λ.-Σχολικό έτος ΤΡΑΠΕΖΑ ΘΕΜΑΤΩΝ ΔΙΑΒΑΘΜΙΣΜΕΝΗΣ ΔΥΣΚΟΛΙΑΣ. Σχολικό έτος:

ΤΡΑΠΕΖΑ ΘΕΜΑΤΩΝ ΤΗΣ ΑΛΓΕΒΡΑΣ Β ΛΥΚΕΙΟΥ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

ΑΣΚΗΣΕΙΣ ΣΤΙΣ ΔΕΥΤΕΡΟΒΑΘΜΙΕΣ ΕΞΙΣΩΣΕΙΣ

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Μαθηματικά Γενικής Παιδείας. iv) f(x)= v) f(x)= ln(x 2-4) vi) f(x) =, v) f(x) = 6 x 5. vi) vii) f(x) = ln(x 2-2) viii) f(x) = lnx 2.

Μπαλτάς Αλέξανδρος 21 Απριλίου 2015

Κατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1

Άσκηση 3 (ανακοινώθηκε στις 24 Απριλίου 2017, προθεσμία παράδοσης: 2 Ιουνίου 2017, 12 τα μεσάνυχτα).

Ανάκτηση Πληροφορίας

1.2 Το πρόβληµα της ανάκτησης Όµοιων διατάξεων χωρικών αντικειµένων Σκοπός της ιπλωµατικής Οργάνωση της ιπλωµατικής...

Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο Κάθε δομή μπορεί να χρησιμοποιηθεί σε οποιοδήποτε πρόβλημα ή εφαρμογή

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

ΕΦΑΡΜΟΓΕΣ ΔΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ

Transcript:

Multimedia IR εικτοδότηση και Αναζήτηση 1

Εισαγωγή Μεγάλες ποσότητες πληροφορίες υπάρχουν σε αρχεία εικόνων, ήχου, video. Οι τυπικές µέθοδοι ανάκτησης κειµένου δεν µπορούν να εφαρµοστούν άµεσα στην περίπτωση πολυµεσικών (multimedia) αντικειµένων. Απαιτούνται ειδικές µέθοδοι οι οποίες επιτρέπουν την αναπαράσταση των αντικειµένων µε πιο απλές µορφές, ώστε η αναζήτηση να πραγµατοποιείται αποτελεσµατικά και αποδοτικά. 2

Εισαγωγή Στην περίπτωση των κειµένων ο χρήστης δίνει ένα κείµενο ή µερικές λέξεις κλειδιά και το σύστηµα βρίσκει τα κείµενα τα οποία «µοιάζουν» περισσότερο µε τοκείµενο του χρήστη. Στην περίπτωση των πολυµεσικών δεδοµένων, ο χρήστης δίνει µία εικόνα ή µία χρονοσειρά και αναζητά αντικείµενα «όµοια» µετοαντικείµενο του ερωτήµατος. Αν και η γενική ιδέα δε φαίνεται διαφορετική, οι µηχανισµοί επεξεργασίας έχουν πολύ µεγάλες διαφορές. 3

Εισαγωγή Έστω αντικείµενα Ο1 και Ο2. Η µεταξύ τους απόσταση (ή αλλιώς το µέτρο ανοµοιότητας) συµβολίζεται µε D(O1,O2) 4

Εφαρµογές Βάσεις Εικόνων (Image Databases) Οικονοµικές Χρονοσειρές (διακυµάνσεις µετοχών, πωλήσεις προϊόντος σε µία περιοχή, κλπ). Βάσεις Video και Ήχου (audio & video ondemand). Βάσεις DNA. 5

Ένας Απλός Τρόπος Με κάθε αντικείµενο επισυνάπτουµε καιµία περιγραφή (µικρό κείµενο) το οποίο περιγράφει το αντικείµενο όσο γίνεται καλύτερα. Στη συνέχεια µπορούµεναχρησιµοποιήσουµε τις κλασικές µεθόδους IR για την ανάκτηση σχετικών αντικειµένων. Ηαναζήτησητωναντικειµένων πραγµατοποιείται µεαναζήτησηκειµένων. 6

Ένας Απλός Τρόπος 7

Ένας Απλός Τρόπος Η περιγραφή του αντικειµένου πρέπει να γίνει χειροκίνητα. Είναι ακριβό Είναι χρονοβόρο Η περιγραφή συνήθως δεν είναι πλήρης και είναι υποκειµενική. Μερικές ιδιότητες του αντικειµένου είναι δύσκολο να περιγραφούν (υφή και σχήµατα). 8

Ερωτήσεις Οµοιότητας Να βρεθούν εικόνες όµοιες µε τηνεικόναα. Να βρεθούν εταιρίες των οποίων οι διακύµανση της µετοχής µοιάζει µεαυτήντηςwestwood Associates. Να βρεθούν αλυσίδες DNA που µοιάζουν µε τη Χ. Να βρεθούν τα 5 κοµµάτια ήχου που µοιάζουν περισσότερο µε το συγκεκριµένο ήχο. 9

Κατηγορίες Ερωτήσεων Ερωτήσεις Ολικής Ταύτισης: δίνονται Ν αντικείµενα Ο1,,ΟΝ και ένα αντικείµενο Q. Αναζητούµεαντικείµενα τα οποία βρίσκονται το πολύ σε απόσταση ε από το Q. Π.χ. αν τα Οi είναι εικόνες 512x512, τις ίδιες διαστάσεις έχει και το Q. Ερωτήσεις Ταύτισης Sub-pattern: εδώ επιτρέπεται το ερώτηµα να ταυτίζεται µε ένα τµήµα των αντικειµένων. Π.χ. να βρεθούν εικόνες 1024x1024 που περιέχουν το συγκεκριµένο τµήµα 128x128. 10

Μορφές Ερωτηµάτων Ερώτηµα ιαστήµατος (range query): δίνεται αντικείµενο ερώτησης Q και αναζητούνται τα αντικείµενα που βρίσκονται σε απόσταση το πολύ ε από το Q. Q ε 11

Μορφές Ερωτηµάτων Ερώτηµα Πλησιέστερων Γειτόνων (nearestneighbor query): δίνεται αντικείµενο ερώτησης Q και αναζητούµε ταk αντικείµεναταοποία βρίσκονται πλησιέστερα στο Q. Q k=3 12

Μορφές Ερωτηµάτων ΕρώτηµαΣύνδεσης(join query): δίνονται δύο σύνολα αντικειµένων Α και Β και αναζητούµε ζεύγηαντικειµένων ai, bj έτσι ώστε D(ai,bj) <= ε. Π.χ. να βρεθούν τα ζεύγη (κτίριο, parking) έτσι ώστε η µεταξύ τους απόσταση να είναι µικρότερη από 500 µέτρα. 13

Στόχοι Να αποφύγουµε τη σειριακή αναζήτηση όλων των αντικειµένων της βάσης. Τα αντικείµενα που επιστρέφονται να σχετίζονται µε τις προτιµήσεις του χρήστη. Το επιπλέον κόστος σε χώρο να είναι περιορισµένο. Να µπορούµεναπραγµατοποιούµε λειτουργίες εισαγωγής, διαγραφής και ενηµέρωσης δεδοµένων. 14

Η Βασική Ιδέα Μετασχηµατισµός των αντικειµένων σε σηµεία σε κάποιο χώρο µε πολλές διαστάσεις. Αυτό µας επιτρέπει να χρησιµοποιήσουµε µεθόδους αναζήτησης σηµείων. 15

ιαχείριση Σηµείων Για απλότητα έστω ότι βρισκόµαστε στο χώρο 2 διαστάσεων. Έστω σύνολο από Ν σηµεία τα οποία αναπαριστώνται µετιςx,y συντεταγµένες τους. Αναζητούµε αποδοτικούς τρόπους διαχείρισης (αναζήτηση, εισαγωγή, διαγραφή) ώστε να µειώσουµε τον απαιτούµενο χρόνο επεξεργασίας των ερωτήσεων. Στηφύσηδεσυναντούµε καθόλου την οµοιόµορφη κατανοµή (uniform distribution). 16

ιαχείριση Σηµείων 17

ιαχείριση Σηµείων 18

ιαχείριση Σηµείων Θέσεις τόπων στην Καλιφόρνια ιασταυρώσεις δρόµων Long Beach 19

ιαχείριση Σηµείων Μπορούµεναχρησιµοποιήσουµε τηδοµή του Β-δένδρου και να οργανώσουµε τα σηµεία µε βάσητηµία από τις δύο συντεταγµένες (x ή y). Πλεονέκτηµα, χρησιµοποιούµε µία ήδη υπάρχουσα και δοκιµασµένη δοµή. Μειονέκτηµα, αναζητήσειςωςπροςτην άλλη συντεταγµένη δεν γίνονται αποδοτικά. 20

ιαχείριση Σηµείων Μπορούµεναχρησιµοποιήσουµε δύοδοµές Β-δένδρων για κάθε συντεταγµένη χωριστά. Μειονέκτηµα: απαιτείται περισσότερος χώρος για την αποθήκευση των Β-δένδρων. Μειονέκτηµα: ηταξινόµηση των σηµείων µπορεί να γίνει ως προς µία µόνο διάσταση (x ή y). 21

ιαχείριση Σηµείων Χρησιµοποιούµε µετασχηµατισµό ώστενα απεικονίσουµετασηµεία από δύο διαστάσεις σε µία. Για να γίνει αυτό πρέπει να χρησιµοποιήσουµεκαµπύλες κάλυψης χώρου (space filling curves). 22

Καµπύλες Κάλυψης Χώρου Κατά στήλες 3 3 4 11 12 2 2 5 10 13 1 0 1 6 9 14 0 7 8 15 0 1 2 3 23

Καµπύλες Κάλυψης Χώρου Καµπύλη Peanο, προκύπτει µε bit interleaving 3 5 7 13 15 2 4 6 12 14 1 0 1 3 9 11 0 2 8 10 0 1 2 3 24

Καµπύλες Κάλυψης Χώρου Καµπύλη Hilbert 3 5 6 9 10 2 4 7 8 11 1 0 13 12 3 2 0 1 14 15 0 1 2 3 25

Καµπύλες Κάλυψης Χώρου Απλός τρόπος µετασχηµατισµού. ΜπορούµεναχρησιµοποιήσουµετηδοµήτουΒδένδρου (ή παρόµοιες). Η γειτονικότητα δεν ικανοποιείται πάντα (προφανές, αφού δεν υπάρχει ολική διάταξη για πάνω από 1 διαστάσεις). Σηµεία που είναι κοντά στις 2 διαστάσεις υπάρχει περίπτωση να βρεθούν µακριά στην καµπύλη. 26

Εναλλακτικές Λύσεις kd-trees KDB-trees GRID-files LSD-trees (local split decision) R-tree και παραλλαγές (R+-tree, R*-tree). 27

R-tree Guttman 1984. Αρχικά χρησιµοποιήθηκε για την οργάνωση ορθογωνίων σε κυκλώµατα VLSI. Αργότερα βρήκε εφαρµογή σε πολλούς τοµείς (GIS, Multimedia indexing, κλπ). Αποτελεί επέκταση του Β-δένδρου σε πάνω από 1 διαστάσεις. 28

R-tree ενδρική δοµή Τα αντικείµενα αποθηκεύονται στα φύλλα του δένδρου. Όλαταφύλλαβρίσκονταιστοίδιοεπίπεδο. Στους εσωτερικούς κόµβους αποθηκεύονται ορθογώνια (minimum bounding rectangles) τα οποία οµαδοποιούν τα αντικείµενα των κατώτερων επιπέδων. 29

R-tree Ρίζα Γ Α Β 30

R-tree A B Γ 31

R-tree Τα ορθογώνια των εσωτερικών κόµβων µπορούν να επικαλύπτονται. Αναζητώντας ένα σηµείο µπορεί να χρειαστεί να εξετάσουµε πολλάµονοπάτια από τη ρίζα προς τα φύλλα. Αν και δεν υπάρχει εγγύηση για την απόδοση χειρότερης περίπτωσης, στη µέση περίπτωση έχουµεπολύκαλάαποτελέσµατα. Μέχρι τις 20 περίπου διαστάσεις το R-tree τα καταφέρνει αρκετά καλά. 32

R-tree: επεξεργασία ερωτήσεων Αναζήτηση Σηµείου (point query). Έστω σηµείο Q(xq,yq). ιαβάζουµε τη ρίζα του δένδρου. Αναζητούµε ορθογώνια τα οποία περιέχουν το Q. Ακολουθούµεταµονοπάτια χρησιµοποιώντας τη µέθοδο DFS. Όταν καταλήγουµεσεφύλλοαναζητούµε τοq στο φύλλο. 33

R-tree: επεξεργασία ερωτήσεων Ρίζα Γ Α Β 34

R-tree: επεξεργασία ερωτήσεων Αναζήτηση Περιοχής (range query). Έστω περιοχή ερώτησης Q που ορίζεται είτε από κύκλο είτε από ορθογώνιο (ή από τυχαίο σχήµα) Αναζητούµετασηµεία που βρίσκονται µέσα στην περιοχή ερώτησης. ιαβάσουµε τη ρίζα και προσδιορίζουµε τα ορθογώνια που τέµνονται από την περιοχή Q. Ακλουθούµε ταµονοπάτια µέχρι τα φύλλα και επιστρέφουµετασηµεία που ικανοποιούν τη συνθήκη. 35

R-tree: επεξεργασία ερωτήσεων Ρίζα Range Query Γ Α Β 36

R-tree: επεξεργασία ερωτήσεων Ρίζα Range Query Γ Α Β 37

R-tree: επεξεργασία ερωτήσεων Ερώτηµα Πλησιέστερων Γειτόνων (nearestneighbor query) Έστω σηµείο Q. Αναζητούµε k σηµεία που βρίσκονται πλησιέστερα στο Q. Κατά την αναζήτηση απορρίπτουµε ορθογώνια τα οποία απέχουν από το Q απόσταση µεγαλύτερη από την τρέχουσα καλύτερη απόσταση που έχει βρεθεί µέχρι τώρα. Ενηµερώνουµε την απόσταση όταν φτάσουµε σε φύλλο. 38

R-tree: επεξεργασία ερωτήσεων Ρίζα Nearest-Neighbor Query Γ Α Β 39

Εισαγωγή σε R-tree Έστω νέο σηµείο P τοοποίοπρέπειναεισαχθείστο R-tree. Στη ρίζα επιλέγουµε το ορθογώνιο το οποίο «κερδίζει». Ακολουθούµε το δείκτη προς το κατώτερο επίπεδο. Συνεχίζουµε την ίδια διαδικασία µέχρι να φτάσουµε στο φύλλο. Αν υπάρχει χώρος αποθηκεύουµε τοp. ιαφορετικά εκτελείται η πράξη της διάσπασης (split). 40

Εισαγωγή σε R-tree Η επιλογή του ορθογωνίου που θα επιλέξουµε πραγµατοποιείται µε βάση κάποια κριτήρια. Στόχος είναι η καλή ποιότητα της δοµής. Θέλουµενααποφύγουµετιςµεγάλες επικαλύψεις των ορθογωνίων διότι επιδρούν αρνητικά στην απόδοση της επεξεργασίας. Κριτήρια που χρησιµοποιούνται συνήθως: µικρότερη αύξηση της περιµέτρου, µικρότερη αύξηση του εµβαδού, κλπ. 41

Εισαγωγή σε R-tree Κατά τη διάσπαση ενός κόµβου προσπαθούµε πάλι να διατηρήσουµε την καλή ποιότητα της δοµής. Κριτήρια που χρησιµοποιούνται συνήθως είναι: οι κόµβοι που δηµιουργούνται να έχουν όσο το δυνατό µικρότερη επικάλυψη, µικρότερο εµβαδόν, µικρότερη περίµετρο (συνδυασµός των παραπάνω). Ηίδιαµέθοδος ακολουθείται είτε πρόκειται για διάσπαση φύλλου είτε εσωτερικού κόµβου. 42

GEMINI Generic Multimedia Object INdexIng Η µέθοδος εργάζεται σε δύο φάσεις: Filtering: πραγµατοποιείται αναζήτηση µε βάσητη δοµή (R-tree) και απορρίπτονται αντικείµενα που σε καµιά περίπτωση δε µπορούν να συµµετέχουν στην απάντηση. Refinement: τα αντικείµενα που έχουν επιστραφεί από την προηγούµενη φάση ελέγχονται µε βάσητααρχικά τους χαρακτηριστικά και προσδιορίζονται αυτά που τελικά ικανοποιούν την απάντηση. 43

GEMINI Ν αντικείµενα Ο1,,ΟΝ Απόσταση µεταξύ Oi και Oj δίνεται από D(Oi,Oj). Ο χρήστης δίνει ένα αντικείµενο Q και µία απόσταση ε και αναζητά τα αντικείµενα τα οποία βρίσκονται το πολύ σε απόσταση ε από το Q. 44

GEMINI Έστω ότι τα αντικείµενα της βάσης είναι χρονοσειρές (π.χ. διακυµάνσεις µετοχών, διακυµάνσεις θερµοκρασίας). Θεωρούµε ότι η απόσταση µεταξύ δύο χρονοσειρών S και Q δίνεται από την Ευκλείδια απόσταση: D(S,Q) = (Σ(S[i] Q[i])^2 )^(1/2) 45

GEMINI y y t t 46

GEMINI T(Oi) Oi 47

GEMINI Για το µετασχηµατισµό από τον ένα χώρο στον άλλο χρησιµοποιείται µία συνάρτηση T(Oi), Οi T(Oi) Στην περίπτωση των χρονοσειρών συνήθως χρησιµοποιείται ο ιακριτός Μετασχηµατισµός Συνηµιτόνου (Discrete Cosine Transformation) 48