Ο Κατά ο ος Υπο ραφών

Σχετικά έγγραφα
Ανάκτηση πληροφορίας

Ο Αντεστραμμένος Κατά ο ος

Το Διανυσματικό Μοντέ ο

Το Λο ικό Μοντέ ο. Περιε όμενα Κεφα αίου

Α όρι μοι και Πο υπ οκότητα 1η Σειρά Γραπτών Ασκήσε ν

Παρά η η Δια είριση Δεδομέν ν

Το Πι ανοκρατικό Μοντέ ο

Κανονισμός Εποπτικού Συμ ου ίου

Κανονισμός Εκτε εστικής Επιτροπής

Ανάκτηση Π ηροφορίας. Συ ραφή Απόστο ος Ν. Παπαδόπου ος Ι άννης Μαν όπου ος Κ νσταντίνος Τσί ας. Κριτικός Ανα νώστης Δημήτριος Κατσαρός

Ανάκτηση Π ηροφορίας στον Πα κόσμιο Ιστό

Κανονισμός Διοικητικού Συμ ου ίου

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

Κανονισμός Οικονομικής Δια είρισης

Αποτίμηση Αποτε εσματικότητας

Ανάπτυξη Βι ιο ήκης Γραφικών ια Ενσ ματ μένο Σύστημα

Εισα ή στην Ανάκτηση Π ηροφορίας

Απ ή υ οποίηση α ορί μου Fast Multipole Method ανεξάρτητου συνάρτησης πυρήνα

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Επέκταση του συστήματος ανοι τού κώδικα Pig

Εξόρυξη νώσης από μέσα κοιν νικής δικτύ σης: Με έτη περίπτ σης στο Twitter.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

ἔστω Ο...πισινός μας! American Bar το καναμε για όλους μας. * * * κι από τη Σκιά τους. σε κάθε νησί;

Ανάπτυξη Συστήματος Συστάσε ν Συνερ ατικής Διή ησης με ρήση Ιεραρ ικών Α ορί μ ν Κατάταξης

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Η εκτρικής Ισ ύος. Διπ ματική Ερ ασία

ΕΠΑΝΑΛΗΠΣΙΚΕ ΑΚΗΕΙ ΜΙΓΑΔΙΚΟΤ-ΟΡΙΑ-ΤΝΕΧΕΙΑ

Ορ ανισμός Εσ τερικής Υπηρεσίας

Υ οποίηση αντα α ής κ ειδιού DH και ψηφιακών υπο ραφών ασισμένη σε ε ειπτικές καμπύ ες

Π Ε Δ (Π.Ε.Δ.) Ι Ν ΠΕΔ. Κανονισμοί. ΟΕΥ Προσωπικού Διοικητικού Συμβουλίου Εκτελεστικής Επιτροπής Οικονομικής Διαχείρισης Εποπτικού Συμβουλίου

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Χημικών Μη ανικών. Με έτη και σ εδιασμός με όδ ν Εξόρυξης Δεδομέν ν και εφαρμο ές σε προ ήματα Μετα ο ομικής

Ε νικό Μετσό ιο Πο υτε νείο

Ε νικό Μετσό ιο Πο υτε νείο

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ε νικό Μετσό ιο Πο υτε νείο. Α όρι μοι Επανε ραφής Τροποποιημέν ν Ερ τημάτ ν ια Βατές Περι ραφικές Λο ικές

Ανάπτυξη συντακτικού ανα υτή φυσικής ώσσας με ρήση του φορμα ισμού LFG. Πανα ιώτης Μίνος

Ε νικό Μετσό ιο Πο υτε νείο. Πρακτικά Συστήματα Συ ο ιστικής ια Εκφραστικές Ασαφείς Περι ραφικές Λο ικές

ΚΑΝΟΝΙΣ ΜΟ Ι ΙΕΞΑΓΩΓΗΣ ΑΓΩΝΩΝ 1 / 8 SCALE IC TRA CK ΕΛ. Μ. Ε

Ανάκτηση πληροφορίας

Ε νικό Μετσό ιο Πο υτε νείο. Διπ ματική Ερ ασία

Σ εδιασμός Συστημάτ ν Ε έ ου

JEAN-CHARLES BLATZ 02XD RE52755

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

20/5/ /5/ /5/ /5/2005

αναλυτικός απλός 1 Ο αναλυτικός βλέπει τον κόσμο σαν να αποτελείται από πολλά μικρά κομμάτια.

Κεφ.11: Ευρετήρια και Κατακερματισμός

Tη λ.: +30 (210) Fax: +30 (210)

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Επικοιν νιών, Η εκτρονικής και Συστημάτ ν Π ηροφορικής

α κα ρι ι ο ος α α νηρ ος ου ουκ ε πο ρε ε ευ θη εν βου λη η η α α σε ε ε βων και εν ο δω ω α α µαρ τω λω ων ουουκ ε ε ε

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Πα κ έ τ ο Ε ρ γ α σ ί α ς 4 Α ν ά π τ υ ξ η κ α ι π ρ ο σ α ρ µ ο γ ή έ ν τ υ π ο υ κ α ι η λ ε κ τ ρ ο ν ι κ ο ύ ε κ π α ι δ ε υ τ ι κ ο ύ υ λ ι κ ο

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΠΛΑΤΦΟΡΜΑΣ ΠΑΡΟΧΗΣ ΥΠΗΡΕΣΙΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΕΦΑΡΜΟΓΕΣ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΓΕΩΡΓΙΟΣ ΓΟΥΛΑΣ

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Η κ άσση L A TEX dithesis

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ε.Ε. Π α ρ.ι(i), Α ρ.3932, 10/12/2004 Ο ΠΕΡΙ ΚΟΙΜΗΤΗΡΙΩΝ (ΤΑΦΗ ΚΑΙ ΕΚΤΑΦΗ) ΝΟΜΟΣ. H Βουλή των Αντιπροσώπων ψηφίζει ως ακολούθως:

Ε νικό και Καποδιστριακό Πανεπιστήμιο Α ηνών. Δι οτομίες Πο υπ οκότητας σε Προ ήματα Μέτρησης

Θέ α: ωσ ή ια ροφή και άσκηση ια ο ς εφήβο ς.

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

d k 10 k + d k 1 10 k d d = k i=0 d i 10 i.

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing)

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΗΛΙΑΣ Γ. ΚΑΡΚΑΝΙΑΣ - ΕΦΗ Ι. ΣΟΥΛΙΩΤΟΥ ΤΕΤΡΑΔΙΟ ΠΡΩΤΗΣ ΓΡΑΦΗΣ. τ... μαθητ... ΤΑΞΗ Α ΣΧΟΛΙΚΟ ΕΤΟΣ... Β Τεύχος

Ανάκτηση Πληροφορίας

Αλγόριθμοι Ταξινόμησης Μέρος 4

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο


Αρ έ ονα αρυτικά κύματα από τον κοσμο ο ικό π η ρισμό και CMB

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

2. ΑΡΙΘΜΗΤΙΚΗ ΤΟΥ ΥΠΟΛΟΓΙΣΤΗ. 2.1 Αριθμητικά συστήματα

Δυναμικός Κατακερματισμός

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 3ο: ΠΙΘΑΝΟΤΗΤΕΣ ΘΕΜΑ Α. α) Τι λέγεται δειγματικός χώρος και τι ενδεχόμενο ενός πειράματος τύχης;

Η Αρ ιτεκτονική αναφοράς Μα ησιακών Χώρ ν CROP - Μια πρώτη προσέ ιση

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

Α Α Α Α Α Α Α Α Α Α Α Ο

Εισαγωγή στην επιστήμη των υπολογιστών. Οργάνωση εδομένων Κεφάλαιο 11ο ομές εδομένων

ΑΡΧΗ 1 ΗΣ ΣΕΛΙΔΑΣ Δ ΤΑΞΗ ΘΕΜΑΤΑ

Π α σα πνο η αι νε σα τω τον Κυ ρι. Π α σα πνο η αι νε σα α τω τον. Ἕτερον. Τάξις Ἑωθινοῦ Εὐαγγελίου, Ὀ Ν Ψαλµός. Μέλος Ἰωάννου Ἀ. Νέγρη.

LAFARGE BETON A.B.E.E


Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

ΣΥΜΒΑΣΗ ΜΕΤΑΞΥ ΠΑΡΟΧΟΥ ΚΑΤΑΡΤΙΣΗΣ- ΜΕΛΟΣ ΤΟΥ ΜΗΤΡΩΟΥ ΠΑΡΟΧΩΝ, ΩΦΕΛΟΥΜΕΝΟΥ- ΜΕΛΟΣ ΤΟΥ ΜΗΤΡΩΟΥ ΩΦΕΛΟΥΜΕΝΩΝ ΚΑΙ ΕΠΙΧΕΙΡΗΣΗΣ ΠΡΑΚΤΙΚΗΣ ΑΣΚΗΣΗΣ

14/5/ /12/ /5/ /5/2007


Fax: +30 (210)

(RTS) & RTS 16. COBB DOUGLAS ( σ = 1 ) 24 (CES) 27 M2SM COBB DOUGLAS 28 ; 31 COBB DOUGLAS 33

Tηλ.: +30 (210) Fax: +30 (210)


15SYMV

Ανάκτηση Πληροφορίας

Κατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο


1 Θέμα Γενική Περι ραφή Θέματος Υ ικά Εξαρτήματα και Τε νο ο ίες Συνδεσμο ο ία... 2

Συμπίεση Δεδομένων

Κατακερματισμός (Hashing)

Περιεχόµ εν α. Εισαγω γή. Επ ισκόπ ηση υπ ο βο λής φακέλω ν (IUCLID 5) Επ ισκόπ ηση υπ ο βο λής φακέλω ν (Reach-IT) Ερω τήσεις καιαπ αν τήσεις

Ανάκτηση Πληροφορίας

Transcript:

7 Ο Κατά ο ος Υπο ραφών Περιε όμενα Κεφα αίου 7.1 Εισα ή............................ 144 7.2 Μέ οδοι Εξα ής Υπο ραφών................ 144 7.2.1 Βασικές Μέ οδοι Εξα ής Υπο ραφών....... 145 7.2.2 Εξα ή Υπο ραφών με Συμπίεση.......... 149 7.2.3 Ψευδείς Συνα ερμοί και Επεξερ ασία Ερ τήματος.. 152 7.3 Ορ άν ση Αρ είου Υπο ραφών................ 158 7.3.1 Σειριακή Ορ άν ση................... 158 7.3.2 Κά ετος Διαμερισμός.................. 160 7.3.3 Οριζόντιος Διαμερισμός................ 166 7.4 Σύνοψη και Περαιτέρ Με έτη................. 168 7.5 Ασκήσεις............................ 169 143

144 Κεφάλαιο 7. Ο Κατάλογος Υπογραφών 7.1 Εισα ή Στο Κεφά αιο 6 με ετή ηκε η δομή του αντεστραμμένου κατα ό ου και ο τρόπος ρήσης του ια την επεξερ ασία ερ τημάτ ν. Στη ι ιο ραφία έ ουν προτα εί και ά ες μέ οδοι ορ άν σης ε ράφ ν. Στο κεφά αιο αυτό α με ετήσουμε τους κατα ό ους που ασίζονται σε υπο ραφές. Μία υπογραφή (signature) είναι μία ακο ου ία δυαδικών ψηφί ν που αναπαριστά ένα έ ραφο ή ένα τμήμα αυτού. Ο αρι μός τ ν άσσ ν στην υπο ραφή περιέ ει ρήσιμη π ηροφορία σ ετικά με το περιε όμενο του ε ράφου. Αυτό που μας ενδιαφέρει είναι να συνοψίσουμε μέσα στην υπο ραφή τους όρους που περιέ ονται στο έ ραφο. Στην ουσία, μία υπο ραφή αρακτηρίζεται ς μία συνοπτική περι ραφή του ε ράφου. Η ρήση υπο ραφών ια την αναπαράσταση τ ν ε ράφ ν αρακτηρίζεται από απώ εια π ηροφορίας. Αυτό έ αια δε σημαίνει ότι δεν έ ουμε πρόσ αση στην αρ ική μορφή τ ν ε ράφ ν. Σημαίνει όμ ς ότι ενδε ομέν ς κατά τη διαδικασία της αναζήτησης σ ετικών ε ράφ ν α ανακτη ούν έ ραφα τα οποία δεν περιέ ουν τους όρους του ερ τήματος. Τα έ ραφα αυτά α πρέπει να δια ραφούν από την απάντηση, κα ώς δεν ικανοποιούν τις συν ήκες του ερ τήματος. Η ποιότητα της ανάκτησης με τη ρήση υπο ραφών προσδιορίζεται κατά κύριο ό ο από το ποσοστό τ ν ε ράφ ν που ανακτή ηκαν ενώ δεν ικανοποιούν το ερώτημα. Στο κεφά αιο αυτό, ανα ύονται τα έματα που αφορούν στη ρήση υπο ραφών ια την ανάκτηση ε ράφ ν κειμένου. Αρ ικά εξετάζονται μερικά ασικά ζητήματα που σ ετίζονται με την κατασκευή τ ν υπο ραφών ια τους όρους του ε ράφου και ια τμήματα αυτού. Στη συνέ εια, περι ράφονται μέ οδοι που έ ουν προτα εί ια την ορ άν ση τ ν υπο ραφών. Επίσης, με ετώνται α όρι μοι αναζήτησης που έ ουν στό ο την αποδοτική αναζήτηση ε ράφ ν. Τέ ος, πρα ματοποιείται και μία σύ κριση μεταξύ τ ν με όδ ν αναζήτησης που ρησιμοποιούν υπο ραφές και τ ν με όδ ν που ασίζονται στην αντιστροφή. 7.2 Μέ οδοι Εξα ής Υπο ραφών Οι μέ οδοι ανάκτησης με ρήση υπο ραφών έ ουν ρησιμοποιη εί εκτενώς, κυρί ς ό της ρήσης του κατακερματισμού που έ ει με ετη εί διεξοδικά. Μία υπο ραφή αρακτηρίζεται από δύο ασικά στοι εία: (α) το μέ ε ος (μήκος) της υπο ραφής (M) και ( ) το π ή ος τ ν δυαδικών ψηφί ν που είναι μονάδα (m). Οι τιμές τ ν παραμέτρ ν αυτών μπορούν να διαφέρουν και εξαρτώνται από την υ οποίηση ή από τις σ εδιαστικές επι ο ές. Αρ ικά, ό α τα δυαδικά ψηφία της υπο ραφής αρ ικοποιούνται σε 0. Στη συνέ εια, ρησιμοποιούνται συναρτήσεις

7.2. Μέθοδοι Εξαγωγής Υπογραφών 145 µήκος υπογραφής Μ αριθµός άσσων m όρος t Κατασκευή Υπογραφής Υπογραφή 0 0 1 0 1 0 0... 0 1 0 συνάρτηση κατακερµατισµού h(t) Σχήμα 7.1: Κατασκευή υπογραφής όρου. κατακερματισμού που έτουν τα m από τα M δυαδικά ψηφία της υπο ραφής σε 1. Τονίζεται, ότι υπάρ ει περίπτ ση δύο διαφορετικοί όροι να έ ουν την ίδια υπο ραφή. Το φαινόμενο αυτό κα είται σύγκρουση και η εμφάνισή του επηρεάζεται από το μέ ε ος της υπο ραφής και από τη συνάρτηση κατακερματισμού που ρησιμοποιείται. Ο τρόπος δημιουρ ίας μίας υπο ραφής απεικονίζεται στο Σ ήμα 7.1, ενώ στον Πίνακα 7.1 δίνονται τα ασικότερα σύμ ο α που ρησιμοποιούνται στο κεφά αιο αυτό. 7.2.1 Βασικές Μέ οδοι Εξα ής Υπο ραφών Μία από τις πρώτες με όδους παρα ής υπο ραφών ια την επεξερ ασία ε ράφ ν κειμένου προτά ηκε από τους Tsichritzis και Christodoulakis [16]. Σύμφ να με τη μέ οδο αυτή, από τον κά ε όρο t του ε ράφου εξά εται μία υπο ραφή T S(t) μήκους f. Η υπο ραφή του συνο ικού ε ράφου d, που συμ- ο ίζεται με DS(d), προκύπτει με τη συνένωση (concatenation) ό ν τ ν υπο- ραφών τ ν όρ ν που συναντούμε στο έ ραφο. Αυτή η μέ οδος εξα ής υπο ραφών είναι ν στή ς WS (word signatures). Έστ t q ένας όρος που ρίσκεται στο ερώτημα. Αρ ικά, εξά εται η υπο ραφή T S(t q ) και στη συνέ εια ε έ ονται οι υπο ραφές τ ν ε ράφ ν. Σε περίπτ ση που ρε εί μία υπο ραφή DS(d) που αντιστοι εί στο έ ραφο d και περιέ ει την υπο ραφή T S(t q ) τότε αυτό σημαίνει ότι το έ ραφο d μπορεί να περιέ ει τον όρο t q. Στην περίπτ ση αυτή, το d ε ρείται ς υποψήφιο έ ραφο. Ένας ά ος τρόπος εξα ής υπο ραφών προτά ηκε από τους Faloutsos και

146 Κεφάλαιο 7. Ο Κατάλογος Υπογραφών σύμ ο ο D d N t T S(t) DS(d) LBS(b) L T F xx f m n B lb i lb j,i bb i περι ραφή συ ο ή ε ράφ ν ένα έ ραφο της συ ο ής π ή ος ε ράφ ν της συ ο ής (N = D ) ένας όρος υπο ραφή του όρου t (term signature) υπο ραφή του ε ράφου d (document signature) υπο ραφή του ο ικού τμήματος b (logical block signature) π ή ος ο ικών τμημάτ ν αρι μός μοναδικών όρ ν ανά ο ικό τμήμα (μέσο) μήκος υπο ραφής ο ικού τμήματος ια τη μέ οδο xx μήκος υπο ραφής όρου ια τη μέ οδο WS αρι μός άσσ ν στην υπο ραφή ενός όρου ια τη μέ οδο SC αρι μός άσσ ν στην υπο ραφή ενός όρου ια τις με όδους BC, RL μήκος αραιού διανύσματος δυαδικών ψηφί ν το i-οστό ο ικό τμήμα (logical block) ενός ε ράφου το i-οστό ο ικό τμήμα του j-οστού ε ράφου το i-οστό τμήμα δυαδικών ψηφί ν (bit block) Πίνακας 7.1: Σύμβολα και περιγραφές. Christodoulakis [3]. Η μέ οδος εξα ής κα είται SC (superimposed coding) και σύμφ να με αυτήν το έ ραφο ρίζεται σε λογικά τμήματα (logical blocks) και το κά ε τμήμα περιέ ει ένα μέρος του ε ράφου που αποτε είται από T όρους. Μας ενδιαφέρουν οι μοναδικοί όροι του ο ικού τμήματος και επομέν ς δε αμ- άνονται υπόψη οι πο απ ές εμφανίσεις τ ν όρ ν. Από κά ε όρο t υπο ο ίζεται η υπο ραφή του όρου T S(t) μήκους F SC. Στη συνέ εια, ρησιμοποιείται υπέρθεση (superposition) σύμφ να με την οποία εφαρμόζεται ο ο ικός τε εστής OR σε ένα προς ένα τα δυαδικά ψηφία τ ν υπο ραφών και προκύπτει η υπο ραφή του τμήματος. Η υπο ραφή του συνο ικού ε ράφου προκύπτει με τη συνέν ση τ ν υπο ραφών τ ν τμημάτ ν. Για την αναζήτηση τ ν ε ράφ ν που περιέ ουν τον όρο t q ακο ου είται παρόμοια διαδικασία με την προη ούμενη μέ οδο ρησιμοποιώντας τις υπο ραφές τ ν τμημάτ ν. Αρ ικά, εξά εται η υπο ραφή του όρου T S(t q ) και στη συνέ εια προσδιορίζονται οι υπο ραφές τ ν τμημάτ ν τ ν οποί ν οι έσεις που έ ουν άσσους ταυτίζονται με τις αντίστοι ες έσεις τ ν άσσ ν της υπο ραφής T S(t q ). Στην περίπτ ση αυτή, το συ κεκριμένο τμήμα μπορεί να περιέ ει τον όρο t q και επομέν ς το αντίστοι ο έ ραφο ε ρείται υποψήφιο.

7.2. Μέθοδοι Εξαγωγής Υπογραφών 147 Παράδει μα 7.1 Θα εφαρμόσουμε τις δύο προη ούμενες με όδους ια το έ ραφο d 7 της συ - ο ής μας, που είναι το εξής: d 7 = ``Ο Άρης είναι ένας π αντήτης του η ιακού μας συστήματος''. Στο έ ραφο υπάρ ουν εννέα διαφορετικοί όροι. Για τη μέ οδο WS ε ρούμε ότι το μήκος της κά ε υπο ραφής είναι f=5 ενώ ο αρι μός τ ν άσσ ν σε κά ε υπο ραφή είναι m=2. Με εφαρμο ή συναρτήσε ν κατακερματισμού ε ρούμε ότι προκύπτουν οι υπο ραφές του παρακάτ πίνακα: όροι υπο ραφές Ο 0 1 0 0 1 Άρης 0 0 0 1 1 είναι 0 1 0 0 1 ένας 0 0 1 1 0 π ανήτης 1 0 1 0 0 του 1 1 0 0 0 η ιακού 0 0 1 0 1 μας 1 0 0 0 1 συστήματος 0 1 1 0 0 Η υπο ραφή του ε ράφου προκύπτει από τη συνέν ση τ ν υπο αφών τ ν όρ ν. Επομέν ς, σύμφ να με τον παραπάν πίνακα και το περιε όμενο του ε ράφου d 7 έ ουμε: DS(d 7 ) = 01001 00011 01001 00110 10100 11000 00101 10001 01100 Για την εφαρμο ή της με όδου SC, α ε ρήσουμε ότι οι υπο ραφές έ ουν μήκος F SC =12 ενώ ο αρι μός τ ν άσσ ν της κά ε υπο ραφής πρέπει να είναι m=4. Οι υπο ραφές δίνονται στο παρακάτ πίνακα:

148 Κεφάλαιο 7. Ο Κατάλογος Υπογραφών όροι υπο ραφές Ο 000 010 110 001 Άρης 010 000 101 010 είναι 101 001 100 000 111 011 111 011 (υπο ραφή 1ου τμήματος) ένας 011 000 010 001 π ανήτης 100 110 100 000 του 000 100 101 010 111 110 111 011 (υπο ραφή 2ου τμήματος) η ιακού 110 100 010 000 μας 010 010 010 010 συστήματος 100 100 100 100 110 110 110 110 (υπο ραφή 3ου τμήματος) Θε ρούμε ότι το έ ραφο ρίζεται σε τμήματα που το κα ένα αποτε είται από τρεις όρους. Αν ονομάσουμε d 7,1, d 7,2 και d 7,3 τα τμήματα αυτά έ ουμε: d 7,1 = ``Ο Άρης είναι'', d 7,2 = ``ένας π αντήτης του'' και d 7,3 = ``η ιακού μας συστήματος''. Υπο έτουμε ότι η κά ε υπο ραφή ενός όρου αποτε είται από δώδενα δυαδικά ψηφία. Η υπο ραφή του κά ε τμήματος προκύπτει από την υπέρ εση τ ν υπο ραφών τ ν όρ ν που περιέ ονται στο τμήμα. Οι υπο ραφές που προκύπτουν μετά την υπέρ εση είναι σκιασμένες. Η υπο ραφή ια το συνο ικό έ ραφο προκύπτει με συνέν ση τ ν υπο ραφών τ ν τμημάτ ν: DS(d 7 ) = 111 011 111 011 111 110 111 011 110 110 110 110 Για να είναι δυνατή η αναζήτηση μέρους (και ό ι ο όκ ηρου) του όρου, οι Faloutsos και Christodoulakis [3] πρότειναν την ακό ου η παρα α ή: (i) στον όρο t εισά ονται δύο κενοί αρακτήρες στην αρ ή και στο τέ ος του όρου, (ii) δημιουρ ούνται συνε όμενες και επικα υπτόμενες τριάδες αρακτήρ ν, (iii) η κά ε τριάδα μέσ του κατακερματισμού ενερ οποιεί ένα συ κεκριμένο δυαδικό ψηφίο της υπο ραφής και (iv) εάν ο αρι μός ψ τ ν δυαδικών ψηφί ν που ενερ οποιούνται είναι με α ύτερος από m, τότε μόνο m δυαδικά ψηφία α ενερ οποιη ούν, διαφορετικά (αν ψ < m) τότε τα υπό οιπα m-ψ δυαδικά ψηφία ενερ οποιούνται ρησιμοποιώντας μία εννήτρια τυ αί ν αρι μών με φίτρο (seed) που ισούται με μία αρι μητική αναπαράσταση του συ κεκριμένου όρου. Όπ ς και προη ουμέν ς, το έ ραφο ρίζεται σε τμήματα και η διαδικασία εκτε είται ια ό ους

7.2. Μέθοδοι Εξαγωγής Υπογραφών 149 τους όρους του κά ε τμήματος. Στη συνέ εια, δημιουρ ούνται οι υπο ραφές τ ν τμημάτ ν με ρήση υπέρ εσης και τέ ος κατασκευάζεται η υπο ραφή του ε ράφου με συνέν ση τ ν υπο ραφών τ ν τμημάτ ν. Παράδει μα 7.2 Ας ε ρήσουμε τον όρο t = ``π ανήτης''. Υπο έτοντας ότι το σύμ ο ο ``_'' δη ώνει τον κενό αρακτήρα και εισά οντάς το στην αρ ή και το τέ ος του όρου, ο νέος όρος που προκύπτει είναι: ``_π ανήτης_''. Οι διαφορετικές συνε όμενες και επικα υπτόμενες τριάδες αρακτήρ ν που προκύπτουν είναι οι εξής: ``_π '', ``π α'', `` αν'', ``ανή'', ``νήτ'', ``ήτη'', ``της'', ``ης_''. Κά ε τριάδα αρακτήρ ν κατακερματίζεται σε μία συ κεκριμένη έση μέσα στην υπο ραφή του όρου ``π ανήτης'' και έτει το αντίστοι ο δυαδικό ψηφίο σε 1. 7.2.2 Εξα ή Υπο ραφών με Συμπίεση Η τρίτη μέ οδος εξα ής υπο ραφών, που κα είται BC (bit-block compression), ασίζεται στη συμπίεση και προτά ηκε στην ερ ασία [4]. Όπ ς και στην προη- ούμενη μέ οδο, το έ ραφο ρίζεται σε τμήματα. Στην περίπτ ση αυτή ρησιμοποιείται ια κά ε τμήμα μία υπο ραφή με α ύτερου με έ ους που αποτε- είται από B δυαδικά ψηφία. Ο κατακερματισμός του κά ε όρου του τμήματος α ενερ οποιήσει ένα ή περισσότερα (έστ n) δυαδικά ψηφία της υπο ραφής. Το διάνυσμα δυαδικών ψηφί ν που προκύπτει αρακτηρίζεται ς αραιό (περιέ ει ί ους άσσους σε σ έση με τα μηδενικά) και επομέν ς μπορεί να συμπιεστεί κατά η α. Η προτεινόμενη μέ οδος συμπίεσης ρησιμοποιεί τμήματα δυαδικών ψηφί ν (bit-blocks). Το αραιό διάνυσμα που έ ει προκύψει ρίζεται σε τμήματα δυαδικών ψηφί ν. Το μέ ε ος τ ν τμημάτ ν επι έ εται έτσι ώστε να ε τιστοποιείται η απόδοση της με όδου. Στη συνέ εια, ια κά ε τμήμα bb i δημιουρ είται μία νέα υπο ραφή μετα ητού μήκους που αποτε είται από τρία το πο ύ μέρη: Το πρώτο μέρος της υπο ραφής αποτε είται από ένα δυαδικό ψηφίο το οποίο είναι 1 αν υπάρ ει του ά ιστον ένας άσσος στο τμήμα bb i ή 0 διαφορετικά. Αν ισ ύει το δεύτερο, τότε η μέ οδος σταματά εδώ. Το δεύτερο μέρος της υπο ραφής που προκύπτει από το bb i δη ώνει τον αρι μό τ ν άσσ ν που περιέ ονται στο bb i. Ο αρι μός αυτός κ δικοποιείται ρησιμοποιώντας το μοναδιαίο κώδικα, άσει του οποίου ένας αρι μός x κ δικοποιείται με x-1 άσσους και ένα μηδενικό στο τέ ος. Αν και αυτός ο τρόπος κ δικοποίησης δεν είναι ο έ τιστος, στόσο είναι απ ός και δίνει ικανοποιητικά αποτε έσματα.

150 Κεφάλαιο 7. Ο Κατάλογος Υπογραφών Το τρίτο τμήμα της υπο ραφής απο ηκεύει τις έσεις τ ν άσσ ν στο τμήμα bb i ρησιμοποιώντας την απόσταση του ψηφίου από την αρ ή του bb i. Επομέν ς, εάν το μέ ε ος του τμήματος bb i είναι b δυαδικά ψηφία, ια την κατα ώρηση της έσης ενός άσσου απαιτούνται log b δυαδικά ψηφία. Για το σ ηματισμό της τε ικής υπο ραφής του τμήματος bb i έ ουμε δύο ενα ακτικές ύσεις: (i) ίνεται συνέν ση ό ν τ ν τμηματικών υπο ραφών και (ii) παρα έτουμε πρώτα τα πρώτα μέρη, μετά τα δεύτερα και τέ ος τα τρίτα από κά ε τμηματική υπο ραφή. Η διαδικασία αυτή α ίνει περισσότερο κατανοητή με το παράδει μα που ακο ου εί. Παράδει μα 7.3 Θα δου έψουμε με το έ ραφο d 7 της συ ο ής μας, όπ ς και στο προη ούμενο παράδει μα ενώ d 7,1, d 7,2 και d 7,3 είναι τα τμήματα του ε ράφου. Θε ρούμε επίσης ότι ο κά ε όρος του τμήματος ενερ οποιεί ένα μόνο δυαδικό ψηφίο. Αν υπο έσουμε ότι το μήκος της υπο ραφής του τμήματος είναι B = 20 τότε ένα παράδει μα της μορφής που μπορούν να έ ουν οι υπο ραφές τ ν τμημάτ ν δίνεται στον ακό ου ο πίνακα: όροι υπο ραφές Ο 0000 0100 0000 0000 0000 Άρης 1000 0000 0000 0000 0000 είναι 0000 0010 0000 1000 0000 1000 0110 0000 0000 0000 (υπο ραφή 1ου τμήματος) ένας 0000 0000 0000 1000 0000 π ανήτης 0000 0000 0000 0010 0000 του 0000 0000 0000 0000 1000 0000 0000 0000 1010 1000 (υπο ραφή 2ου τμήματος) η ιακού 0000 0000 0000 0000 0010 μας 0000 0000 0000 0000 0001 συστήματος 0000 0000 1000 0010 0000 0000 0000 1000 0000 0011 (υπο ραφή 3ου τμήματος) Στη συνέ εια α εξη ήσουμε τον τρόπο κ δικοποίησης τ ν υπο ραφών. Θα ανα ύσουμε τη μέ οδο ια την υπο ραφή του τρίτου τμήματος του ε ράφου που είναι η 0000 0000 1000 0000 0011. Θα ε ρήσουμε ότι το μέ ε ος του κά ε τμήματος δυαδικών ψηφί ν είναι b = 4. Επομέν ς, η υπο ραφή α ριστεί σε πέντε διαφορετικά τμήματα δυαδικών ψηφί ν, που είναι τα 0000, 0000, 1000, 0000

7.2. Μέθοδοι Εξαγωγής Υπογραφών 151 και 0011. Για κά ε ένα από τα τμήματα αυτά α πρέπει να εφαρμοστεί η μέ οδος εύρεσης της τε ικής υπο ραφής, σύμφ να με τα τρία ήματα που αναπτύ ηκαν προη ουμέν ς. Τα αποτε έσματα συνοψίζονται στον παρακάτ πίνακα. τμήμα 1ο μέρος 2ο μέρος 3ο μέρος 0000 0 -- -- 0 0000 0 -- -- 0 1000 1 0 00 1 0 00 0000 0 -- -- 0 0011 1 10 10 11 1 10 10 11 0 0 1 0 1 0 10 00 10 11 Ας εξετάσουμε μία προς μία τις περιπτώσεις του παραπάν πίνακα. Το τμήμα 0000 αποτε είται μόνο από μηδενικά, οπότε το 1ο μέρος της υπο ραφής α είναι 0 και επομέν ς τα δύο επόμενα μέρη παρα είπονται. Το τμήμα 1000 περιέ ει έναν άσσο, οπότε το δυαδικό ψηφίο του πρώτου μέρους α είναι 1. Στο δεύτερο μέρος πρέπει να κατα ραφεί ο συνο ικός αρι μός τ ν άσσ ν, που είναι 1. Με ρήση του μοναδιαίου κώδικα, ο δεκαδικός αρι μός 1 κ δικοποιείται με το δυαδικό ψηφίο 0. Στο τρίτο μέρος πρέπει να κατα ραφούν οι έσεις τ ν άσσ ν. Έ ουμε μόνο έναν άσσο που ρίσκεται στην πρώτη έση του τμήματος. Όμ ς, η κά ε έση κ δικοποιείται με 2 δυαδικά ψηφία, αφού οι συνο ικές έσεις είναι b=4. Η πρώτη έση κ δικοποιείται με 00, η δεύτερη με 01 η τρίτη με 10 και η τέταρτη με 11. Αφού ο άσσος είναι στην πρώτη έση, το τρίτο μέρος α περιέ ει τα δυαδικά ψηφία 00. Τέ ος, το τμήμα 0011 περιέ ει δύο άσσους. Άρα, το πρώτο μέρος α είναι 1, το δεύτερό μέρος αναφέρει ότι έ ουμε δύο άσσους (ο μοναδιαίος κ δικός του δεκαδικού αρι μού 2 είναι το 10) και τέ ος το τρίτο μέρος απο ηκεύει τις έσεις τ ν δύο άσσ ν στο τμήμα. Οι άσσοι ρίσκονται στην τρίτη και την τέταρτη έση του τμήματος, άρα οι αντίστοι οι δυαδικοί κώδικες είναι 10 και 11. Ας εξετάσουμε στη συνέ εια τον τρόπο σύν εσης της τε ικής υπο ραφής. Σύμφ να με την πρώτη μέ οδο, αρ ικά προσδιορίζονται τα δυαδικά ψηφία ια τα τρία μέρη του κά ε τμήματος και στη συνέ εια οι επί μέρους υπο ραφές συνενώνονται. Η τε εταία στή η του προη ούμενου πίνακα περιέ ει τις επιμέρους υπο ραφές. Άρα, αν συνενώσουμε τα στοι εία της τε ευταίας στή ης παίρνουμε το επι υμητό αποτέ εσμα. Σύμφ να με τη δεύτερη μέ οδο, πρώτα σ ηματίζονται οι επιμέρους υπο ραφές κατά στή ες (1ο μέρος, 2ο μέρος, 3ο μέρος) και στη συνέ εια πρα ματοποιείται η συνέν ση. Η τε ευταία ραμμή του πίνακα δεί νει τη μορφή τ ν επιμέρους υπο ραφών πριν τη συνέν ση. Συνοψίζοντας, έ ουμε ότι η υπο ραφή που προκύπτει σύμφ να με την πρώτη μέ οδο είναι 00100001101011

152 Κεφάλαιο 7. Ο Κατάλογος Υπογραφών (συνέν ση τ ν περιε ομέν ν της τε ευταίας στή ης) ενώ η αντίστοι η υπο- ραφή σύμφ να με τη δεύτερη μέ οδο είναι 00101010001011 (συνέν ση τ ν στοι εί ν της τε ευταίας ραμμής του πίνακα). Στην ερ ασία [4] περι ράφεται και μία ακόμη μέ οδος εξα ής υπο ραφών που ασίζεται στη συμπίεση, ρησιμοποιεί κωδικοποίηση μήκους (run-length encoding) και κα είται RL. Η μέ οδος εί ε προτα εί αρ ικά από τον McIlroy [14] ια διαφορετικό περι ά ον α ά στην ερ ασία [4] προσαρμόστηκε ια την εξα ή υπο ραφών. Το αραιό διάνυσμα μπορεί να συμπιεστεί κ δικοποιώντας τον αρι μό τ ν μηδενικών που δια ρίζουν δύο συνε όμενους άσσους. Για την κ δικοποίηση ρησιμοποιή ηκε η μέ οδος Golomb [10] που με ετή ηκε στο Κεφά αιο 6 κατά την περι ραφή τ ν με όδ ν συμπίεσης του αντεστραμμένου κατα ό ου. Στην ίδια ερ ασία [4] προτείνεται και μία ακόμη μέ οδος που προσπα εί να περιορίσει την επίδραση του αρι μού τ ν όρ ν ανά τμήμα στην απόδοση της με όδου BC. Επομέν ς, με τη ρήση αυτής της με όδου δεν απαιτείται π έον ο δια ρισμός του ε ράφου σε τμήματα, ενώ η επεξερ ασία τ ν πο ύπ οκ ν ερ τημάτ ν ίνεται απ ούστερη. Η μέ οδος κα είται VBC (variable bit-block compression) και η ασίζεται στην επι ο ή διαφορετικού μήκους ια τα τμήματα δυαδικών ψηφί ν του κά ε ε ράφου. Το μήκος αυτό εξαρτάται από το π ή ος τ ν μοναδικών όρ ν του κά ε ε ράφου. 7.2.3 Ψευδείς Συνα ερμοί και Επεξερ ασία Ερ τήματος Το κοινό αρακτηριστικό ό ν τ ν με όδ ν εξα ής υπο ραφών είναι το ε ονός ότι μπορεί να δώσουν αν ασμένο αποτέ εσμα ς προς το αν ένας όρος περιέ εται ή ό ι σε ένα έ ραφο. Έστ ένα όρος t του ερ τήματος με υπο ραφή 00110. Έστ τώρα ότι ρησιμοποιώντας τη μέ οδο εξα ής υπο ραφών με υπέρ εση (SC) έ ουμε εντοπίσει ένα τμήμα του ε ράφου με υπο ραφή 10110. Το ε ονός ότι η υπο ραφή του τμήματος έ ει άσσους στις έσεις όπου εμφανίζονται οι άσσοι στην υπο ραφή του όρου δε σημαίνει ότι ο όρος σί ουρα α περιέ εται στο τμήμα. Πρά ματι, αν υποτε εί ότι το κά ε τμήμα του ε ράφου αποτε είται από δύο όρους, τότε η υπο ραφή 10110 μπορεί να έ ει προκύψει από την υπέρ εση τ ν υπο ραφών 10100 και 10010. Στην περίπτ ση αυτή είναι προφανές ότι ο όρος t δεν περιέ εται στο τμήμα του ε ράφου. Η παραπάν συζήτηση οδη εί στο συμπέρασμα ότι μετά τον προσδιορισμό τ ν υποψήφι ν ε ράφ ν α πρέπει να ίνει ένα δεύτερο πέρασμα ώστε τα έ ραφα που τε ικά δεν περιέ ουν τον όρο (ή τους όρους) του ερ τήματος να μην επιστραφούν στο ρήστη. Ένα έ ραφο που ανήκει στο σύνο ο τ ν υποψηφί ν α ά τε ικά δεν ανήκει στην απάντηση

7.2. Μέθοδοι Εξαγωγής Υπογραφών 153 Α όρι μος SignatureSearch (t) t: όρος αναζήτησης 1. υπο ο ισμός της υπο ραφής T S(t) του όρου t 2. αναζήτηση τ ν ο ικών τμημάτ ν lb i ια τα οποία ισ ύει LBS(lb i ) AND T S(t) = T S(t) 3. εισα ή της υπο ραφής sig i = LBS(lb i ) στο σύνο ο υποψηφί ν C 4. ια κά ε υπο ραφή sig i C 4.1. έ ε ος αν το ο ικό τμήμα lb i περιέ ει τον όρο t 4.2. αν ό ι, τότε επανά ηψη από το ήμα 4. 4.3. αν ναι, τότε το έ ραφο d που περιέ ει το lb i προστί εται στο σύνο ο A 5. τα έ ραφα με κ δικούς που ανήκουν στο A επιστρέφονται στο ρήστη Σχήμα 7.2: Αναζήτηση εγγράφων με χρήση υπογραφών. κα είται ψευδής συναγερμός (η αντίστοι ος α ικός όρος είναι false alarm ή false positive). Είναι προφανές ότι όσο μικρότερος είναι ο αρι μός τ ν ψευδών συνα ερμών τόσο ι ότερη προσπά εια α απαιτη εί ια το τε ικό ξεκα άρισμα. Στο Σ ήμα 7.2 δίνονται τα ασικά ήματα του ενικού α ορί μου αναζήτησης τ ν ε ράφ ν που περιέ ουν έναν όρο. Βασική συμμετο ή στο κόστος αναζήτησης έ ει ο προσδιορισμός τ ν ψευδών συνα ερμών. Υπο έτουμε ότι το έ ραφο έ ει ριστεί σε ο ικά τμήματα και ια κά ε ο ικό τμήμα έ ει προσδιοριστεί μία ξε ριστή υπο ραφή με ρήση της με όδου υπερ εσης (SC). Σύμφ να με τον α όρι μο αναζήτησης, αρ ικά προσδιορίζεται η υπο ραφή του όρου t. Στη συνέ εια, προσδιορίζονται ό α τα ο ικά τμήματα τ ν οποί ν οι υπο ραφές έ ουν άσσους στις έσεις τ ν άσσ ν της υπο ραφής του όρου t. Τα τμήματα αυτά αρακτηρίζονται ς υποψήφια να περιέ ουν τον όρο t. Ο προσδιορισμός τ ν ψευδών συνα ερμών πρα ματοποιείται στο ήμα 4.1 του α ορί μου. Η αναζήτηση ε ράφ ν ια ερ τήματα που περιέ ουν περισσότερους όρους που συνδέονται με ο ικούς τε εστές πρα ματοποιείται με παρόμοιο τρόπο. Παράδει μα 7.4 Στο παράδει μα αυτό, εξετάζεται η εμφάνιση τ ν ψευδών συνα ερμών ια τη μέ- οδο της υπέρ εσης ρίς συμπίεση (SC). Θα υπο έσουμε ότι το κά ε έ ραφο ρίζεται σε συνε όμενα ο ικά τμήματα που το κα ένα αποτε είται από το πο ύ τρεις μοναδικούς όρους. Η υπο ραφή του κά ε ο ικού τμήματος προκύπτει με υπέρ εση τ ν υπο ραφών τ ν όρ ν που περιέ ονται μέσα στο τμήμα. Σύμφ να με αυτή τη ο ική, τα ο ικά τμήματα που προκύπτουν ια κά ε έ ραφο είναι

154 Κεφάλαιο 7. Ο Κατάλογος Υπογραφών τα ακό ου α: d 1 : Ο κομήτης του Χά εϋ μας επισκέπτεται περίπου κά ε ε δομήντα έξι ρόνια. d 2 : Ο κομήτης του Χά εϋ ανακα ύφ ηκε από τον αστρονόμο Έντμοντ Χά εϋ. d 3 : Ένας κομήτης δια ράφει ε ειπτική τρο ιά. d 4 : Ο π ανήτης Άρης έ ει δύο φυσικούς δορυφόρους, το Δείμο και το Φό ο. d 5 : Ο π ανήτης Δίας έ ει εξήντα τρεις ν στούς φυσικούς δορυφόρους. d 6 : Ο Ή ιος είναι ένας αστέρας. d 7 : Ο Άρης είναι ένας π ανήτης του η ιακού μας συστήματος. Στον παρακάτ πίνακα δίνονται οι υπο ραφές τ ν όρ ν τ ν ε ράφ ν της συ ο ής μας. Το μήκος της κά ε υπο ραφής είναι F SC = 9 και κά ε όρος ενερ οποιεί m = 3 δυαδικά ψηφία. όρος υπο ραφή όρος υπο ραφή όρος υπο ραφή Ο 111 000 000 τον 100 110 000 το 011 010 000 κομήτης 011 100 000 αστρονόμο 010 011 000 Δείμο 001 101 000 του 001 110 000 Έντμοντ 001 001 100 και 000 110 100 Χά εϋ 000 111 000 ένας 000 100 110 Φό ο 000 011 010 μας 000 011 100 δια ράφει 000 010 011 Δίας 000 001 101 επισκέπτεται 000 001 110 ε ειπτική 100 011 000 εξήντα 101 010 000 περίπου 000 000 111 τρο ιά 010 001 100 τρεις 010 101 000 κά ε 101 100 000 π ανήτης 001 000 110 ν στούς 001 010 100 ε δομήντα 010 110 000 Άρης 000 100 011 Ή ιος 000 101 010 έξι 001 011 000 έ ει 100 001 100 αστέρας 000 010 101 ρόνια 000 101 100 δύο 010 000 110 του 101 000 010 ανακα ύφ ηκε 000 010 110 φυσικούς 001 000 011 η ιακού 000 001 110 από 000 001 011 δορυφόρους 110 100 000 συστήματος 000 101 100 είναι 100 010 001 Στη συνέ εια, ια κά ε ο ικό τμήμα υπο ο ίζεται η αντίστοι η υπο ραφή

7.2. Μέθοδοι Εξαγωγής Υπογραφών 155 με τη ρήση της υπέρ εσης. Δεί ουμε τη διαδικασία μόνο ια το έ ραφο d 1. Κάτ από κά ε ο ικό τμήμα δίνεται η αντίστοι η υπο ραφή: d 1 : Ο κομήτης του }{{} 111 110 000 Χά εϋ μας επισκέπτεται }{{} 000 111 110 περίπου κά ε ε δομήντα }{{} 111 110 111 έξι ρόνια. }{{} 001 111 100 Με εφαρμο ή της ίδιας διαδικασίας και ια τα υπό οιπα έ ραφα, οι υπο ραφές τε ικές υπο ραφές τ ν ε ράφ ν διαμορφώνονται ς εξής: DS(d 1 ): 111 110 000 000 111 110 111 110 111 001 111 100 DS(d 2 ): 111 110 000 000 111 111 111 111 100 000 111 000 DS(d 3 ): 011 110 111 110 011 100 DS(d 4 ): 111 100 111 111 001 111 111 111 000 011 111 110 DS(d 5 ): 111 001 111 111 111 100 111 110 111 111 110 111 DS(d 6 ): 111 111 011 000 110 111 DS(d 7 ): 111 110 011 101 100 110 000 111 110 Έστ ότι ο ρήστης ενδιαφέρεται ια τα έ ραφα που περιέ ουν τον όρο Χά ευ. Από τον πίνακα τ ν υπο ραφών τ ν όρ ν προσδιορίζεται η αντίστοι η υπο ραφή του όρου που είναι 000 111 000. Προφανώς, ο όρος αυτός μπορεί να ρίσκεται στα ο ικά τμήματα τ ν οποί ν οι υπο ραφές έ ουν άσσους στα τρία μεσαία δυαδικά ψηφία. Από την εξέταση τ ν υπο ραφών τ ν ο ικών τμημάτ ν, διαπιστώνεται ότι τα υποψήφια ο ικά τμήματα είναι τα: lb 1,2, lb 1,3, lb 2,2, lb 2,3, lb 2,4, lb 4,3, lb 5,2, lb 6,2 και lb 7,3. Ο συμ ο ισμός lb j,i δη ώνει το i-οστό ο ικό τμήμα του j-οστού ε ράφου. Για να διαπιστ εί αν τε ικά ένα υποψήφιο ο ικό τμήμα περιέ ει τον όρο Χά ευ α πρέπει να αναζητη εί ο όρος μέσα στο κείμενο του ε ράφου. Μετά από τη επτομερή εξέταση τ ν υποψηφί ν ο ικών τμημάτ ν προκύπτει ότι τα τμήματα που περιέ ουν τον όρο Χά ευ είναι τα lb 1,2, lb 2,2 και lb 2,4. Επομέν ς, από τα εννέα υποψήφια ο ικά τμήματα μόνο τα τρία από αυτά περιέ ουν τον όρο του ερ τήματος. Τα υπό οιπα έξι αρακτηρίζονται ς ψευδείς συνα ερμοί.

156 Κεφάλαιο 7. Ο Κατάλογος Υπογραφών Στη συνέ εια α συζητήσουμε ια την επίδοση τ ν με όδ ν εξα ής υπο- ραφών ς προς τις δυνατότητές τους να περιορίζουν τον αρι μό τ ν ψευδών συνα ερμών. Γίνεται η υπό εση ότι το ερώτημα περιέ ει μόνο έναν όρο. Έστ δύο ε ονότα Γ 1 και Γ 2, όπου το Γ 1 δη ώνει το ε ονός ότι η υπο ραφή ενός ο ικού τμήματος ε ράφου ανήκει στους υποψηφίους και Γ 2 δη ώνει το ε ονός ότι το τμήμα του ε ράφου δεν περιέ ει τον όρο του ερ τήματος. Επομέν ς, η πι ανότητα να εμφανιστεί ένας ψευδής συνα ερμός είναι η πι ανότητα να ισ ύει το ε ονός Γ 1 δεδομένου ότι ισ ύει το ε ονός Γ 2 (P rob(γ 1 Γ 2 )). Η πι ανότητα αυτή συμ ο ίζεται με F AP xx (false alarm probability) ια τη μέ οδο xx. Είναι προφανές, ότι όσο μικρότερη η τιμή της πι ανότητας αυτής τόσο κα ύτερη η επίδοση της με όδου. Η με έτη της πι ανότητας εμφάνισης ψευδών συνα ερμών οδη εί σε ρήσιμα συμπεράσματα σ ετικά με την απόδοση τ ν με όδ ν υπο ραφών ς προς την ικανότητά τους να εντοπίζουν τους όρους μέσα στα έ ραφα. Στην ερ ασία [4] υπάρ ει μία εκτενής ανά υση της πι ανότητας F AP. Εδώ απ ά α ίνει αναφορά τ ν σημαντικότερ ν συμπερασμάτ ν, κα ώς οι αποδείξεις είναι εκτενείς. Από τη με έτη της συμπεριφοράς τ ν με όδ ν προκύπτουν τα ακό ου α αποτε έσματα σε σ έση με την πι ανότητα ψευδών συνα ερμών: Οι τε νικές BC και RL που ασίζονται στη συμπίεση δίνουν κα ύτερα αποτε έσματα από τις WS και SC όταν ο κά ε όρος έτει έναν άσσο στην υπο ραφή του ο ικού τμήματος (n = 1). Για τις τε νικές BC και RL ο έ τιστος αρι μός τ ν άσσ ν που επιτρέπεται να έσει ένας όρος είναι n = 1. Οι ραφική παράσταση του ο άρι μου της πι ανότητας F AP xx σε σ έση με το μήκος F xx της υπο ραφής είναι σ εδόν ευ εία ραμμή ια με ά ες τιμές της παραμέτρου F xx. Η κ ήση τ ν ραφικών παραστάσε ν τ ν καμπυ ών της ποσότητας log F AP xx ς προς F xx ια τις με όδους WS, BC και RL είναι η ίδια. Η κ ήση της καμπύ ης ια τη μέ οδο SC στόσο είναι διαφορετική, διότι η μέ οδος SC έ ει την κα ύτερη επίδοση όταν στην υπο ραφή του ο ικού τμήματος τα μισά δυαδικά ψηφία είναι άσσοι. Επομέν ς, δεν εκμετα εύεται π ήρ ς ό ες τις δυνατές 2 F SC διαφορετικές υπο ραφές που μπορούν να προκύψουν από μία ακο ου ία από F SC δυαδικών ψηφί ν. Στη συνέ εια ια κά ε μία από τις με όδους WS, SC, BC και RL δίνεται ο μα ηματικός τύπος που συνδέει την πι ανότητα F AP xx με το μήκος F xx της

7.2. Μέθοδοι Εξαγωγής Υπογραφών 157 υπο ραφής. Σημειώνεται ότι οι τύποι είναι προσε ιστικοί και έ ουν προκύψει από μα ηματικούς συ ο ισμούς. Ο ανα νώστης που ενδιαφέρεται ια τον τρόπο παρα ής τ ν τύπ ν κα είται να ανατρέξει στην ερ ασία [4]. log F AP W S = log T F W S T F SC log F AP SC = T log e = 0.693 FSC T log F AP BC = 1.913 n F BC T log F AP RL = 1.528 n F RL T Εκτός από την επίδοση τ ν με όδ ν σε σ έση με την πι ανότητα ψευδών συνα ερμών, ιδιαίτερο ενδιαφέρον παρουσιάζουν και μερικά ά α στοι εία όπ ς η τα ύτητα κατά τον έ ε ο τ ν υπο ραφών, η απόδοση τ ν με όδ ν σε πιο πο ύπ οκα ερ τήματα, η δυνατότητα τ ν με όδ ν να απαντούν σε ερ τήματα που αφορούν σε τμήμα ενός όρου και η δυνατότητα διατήρησης της σειράς τ ν όρ ν στο έ ραφο. Το κά ε στοι είο εξετάζεται ξε ριστά: Ως προς την τα ύτητα ε έ ου τ ν υπο ραφών, με άση τον τρόπο ειτουρ ίας τ ν με όδ ν και τ ν παρατηρήσε ν της ερ ασίας [4] η μέ οδος SC εκτε εί τις ι ότερες συ κρίσεις μεταξύ δυαδικών ψηφί ν. Υπεν υμίζεται ότι ια να αρακτηριστεί ένα ο ικό τμήμα ς υποψήφιο α πρέπει οι έσεις τ ν άσσ ν στην υπο ραφή του όρου να ταυτίζονται με τις έσεις τ ν άσσ ν στην υπο ραφή του τμήματος. Συνή ς, ο αρι μός m τ ν δυαδικών ψηφί ν που έτει η μέ οδος SC είναι μικρός (π.., 10). Αντί ετα, οι μέ οδοι BC και RL απαιτούν πο ύ περισσότερες συ κρίσεις. Τέ ος η μέ- οδος WS απαιτεί την εξέταση ο όκ ηρης της υπο ραφής (του ε ράφου ή του τμήματος) ια να διαπιστ εί εάν περιέ ει ή ό ι τον όρο. Ό ες οι μέ οδοι αναμένεται να έ ουν κα ή επίδοση κατά την επεξερ ασία συζευκτικών ερ τημάτ ν (τύπου AND). Αυτό ισ ύει διότι το ο ικό AND μεταξύ τ ν υπο ραφών τ ν όρ ν έ ει ς αποτέ εσμα τη μεί ση τ ν άσσ ν στην υπο ραφή που προκύπτει μετά την υπέρ εση. Αυτό έ ει ς άμεσο αποτέ εσμα τη μεί ση του κόστους εξέτασης τ ν υπο ραφών.

158 Κεφάλαιο 7. Ο Κατάλογος Υπογραφών Από τις με όδους που εξετάστηκαν μόνο η SC έ ει τη δυνατότητα να υποστηρίξει ερ τήματα που αφορούν σε τμήμα του όρου. Αυτό επιτυ άνεται ρησιμοποιώντας επικα υπτόμενες τριάδες συνε όμεν ν αρακτήρ ν. Κά ε τριάδα ενερ οποιεί και ένα δυαδικό ψηφίο της υπο ραφής του όρου. Η μόνη μέ οδος που διατηρεί τη σειρά τ ν όρ ν μέσα στο έ ραφο είναι η WS. Αυτό είναι ιδιαίτερα ο ικό διότι διευκο ύνει την αναζήτηση φράσε ν όπου οι όροι στο ερώτημα πρέπει να εμφανίζονται συνε όμενοι στα έ ραφα. 7.3 Ορ άν ση Αρ είου Υπο ραφών Στην προη ούμενη συζήτηση με ετή ηκε το έμα της εξα ής τ ν υπο ραφών από μία συ ο ή ε ράφ ν. Η μέ οδος εξα ής επηρεάζει σημαντικά την απόδοση ενός συστήματος που στηρίζει την αναζήτηση ε ράφ ν στις υπο ραφές, κα ώς ευ ύνεται ια την πι ανότητα ψευδών συνα ερμών ενώ παρά η α μπορεί να επιφέρει αυξημένος κόστος επεξερ ασίας αν η εξέταση τ ν υπο ραφών επιφέρει συ κρίσεις πο ών δυαδικών ψηφί ν και πράξεις αποκ δικοποίησης. Ωστόσο, ένας ά ος παρά οντας που μπορεί να επηρεάσει την απόδοση ενός συστήματος σ ετίζεται με τον τρόπο ορ άν σης τ ν υπο ραφών. Ένα σύνο ο υπο ραφών μπορεί να ορ αν εί με πο ούς διαφορετικούς τρόπους, όπ ς συμ αίνει και με ένα σύνο ο ακεραί ν αρι μών, ή ένα σύνο ο από ε ραφές (records). Για παράδει μα, υπο έτοντας ότι η απο ήκευση ίνεται στην κύρια μνήμη του συστήματος, ια την ορ άν ση ενός συνό ου ακεραί ν αρι μών α μπορούσε να ρησιμοποιη εί μία δομή πίνακα (array), μία συνδεδεμένη ίστα (linked list), ένα δυαδικό δένδρο αναζήτησης (binary search tree), ένας πίνακας κατακερματισμού (hash table) κα ώς και μια π η ώρα ά ν δομών και παρα α ών τους. Η κά ε δομή έ ει διαφορετική συμπεριφορά και η απόδοσή της εξαρτάται άμεσα από το π ή ος τ ν στοι εί ν και τις ειτουρ ίες ια τις οποίες ενδιαφερόμαστε. Ανά ο α, και στην περίπτ ση τ ν υπο ραφών, υπάρ ουν διαφορετικοί τρόποι ορ άν σής τους, με διαφορετικές ιδιότητες και απόδοση. 7.3.1 Σειριακή Ορ άν ση Η πιο απ ή μορφή κατα ό ου ασίζεται στη σειριακή παρά εση τ ν υπο ραφών σε ένα αρ είο που κα είται σειριακό αρχείο υπογραφών (sequential signature file - SSF). Η μορφή του SSF απεικονίζεται στο Σ ήμα 7.4. Το αρ είο υπο ραφών είναι στην ουσία ένας πίνακας L F με L ραμμές (π ή ος ο ικών τμημάτ ν)

7.3. Οργάνωση Αρχείου Υπογραφών 159 κατάλογος υπογραφών σειριακή οργάνωση οριζόντιος διαµερισµός κάθετος διαµερισµός χωρίς συµπίεση συµπίεση ανεξάρτητος από τα δεδοµένα εξαρτώµενος από τα δεδοµένα χωρίς συµπίεση συµπίεση σειριακός κατάλογος υπογραφών (SSF) συµπίεση τµηµάτων δυαδικών ψηφίων (BC) µεταβλητού µήκους συµπίεση τµηµάτων δυαδικών ψηφίων (VBC) µέθοδος Gustafson partiotioned SFs 2-επίπεδος κατάλογος S-trees bit-sliced signature file (BSSF) frame-sliced signature file (FSSF) generalized framesliced signature file (GFSSF) compressed bit slices (CBS) doubly compressed bit slices (DCBS) no false drop (NFD) Σχήμα 7.3: Κατηγορίες μεθόδων οργάνωσης υπογραφών. F δυαδικά ψηφία δείκτες 1 0... 1 0 0 0... 0 1 L λογικά τµήµατα... 1 0...... 1 1... 0 1... 0 1 1 0... 1 0 αρχείο υπογραφών αρχείο εγγράφων Σχήμα 7.4: Σειριακό αρχείο υπογραφών (SSF). και F στή ες (π ή ος δυαδικών ψηφί ν ανά υπο ραφή). Σε κά ε υπο ραφή αντιστοι εί και ένα δείκτης (pointer) που δεί νει στην αρ ή του ο ικού τμήματος του ε ράφου. Σε περίπτ ση που οι υπο ραφές έ ουν παρα εί με την απ ή μέ- οδο της υπέρ εσης (SC) τότε το μήκος ό ν τ ν υπο ραφών είναι κοινό. Εάν έ ει ρησιμοποιη εί μία από τς με όδους BC ή VBC τότε στη ενική περίπτ ση τα μήκη δύο υπο ραφών μπορεί να είναι διαφορετικά. Με άση την κατη οριοποίηση τ ν με όδ ν του Σ ήματος 7.3, διακρίνουμε τις μορφές SC-SSF, BC-SSF και VBC-SSF, ανά ο α με τη μέ οδο εξα ής υπο ραφών που ρησιμοποιείται.

160 Κεφάλαιο 7. Ο Κατάλογος Υπογραφών Ο κατά ο ος SSF υποστηρίζει αναζητήσεις, εισα ές και δια ραφές. Για την αναζήτηση ενός όρου, αρ ικά εξά εται η υπο ραφή του όρου και στη συνέ εια προσπε αύνεται το αρ είο υπο ραφών με στό ο να ρε ούν οι σ ετικές υπο ραφές τ ν ο ικών τμημάτ ν. Στη συνέ εια, ακο ου ούνται οι δείκτες που οδη ούν στα ο ικά τμήματα τ ν ε ράφ ν. Στην τε ική φάση της αναζήτησης, ο όρος αναζητείται μέσα σε κά ε υποψήφιο ο ικό τμήμα ρησιμοποιώντας με όδους αναζήτησης συμ ο οσειράς. Οι εισα ές και οι δια ραφές υποστηρίζονται εύκο α. Για την εισα ή ενός νέου ε ράφου αρ ικά το έ ραφο δια ρίζεται σε ο ικά τμήματα, στη συνέ εια εξά ονται οι υπο ραφές τ ν τμημάτ ν και τέ- ος ενημερώνεται το αρ είο υπο ραφών, το αρ είο ε ράφ ν και η ίστα τ ν δεικτών. Για τη δια ραφή, εντοπίζονται ό α τα ο ικά τμήματα του ε ράφου τα οποία δια ράφονται από το αρ είο ε ράφ ν και στη συνέ εια δια ράφονται οι αντίστοι ες υπο ραφές από το αρ είο υπο ραφών. Η ειτουρ ία της ενημέρ σης ενός μέρους του ε ράφου είναι πιο πο ύπ οκη, κα ώς α πρέπει ενδε ομέν ς να επαναπροσδιοριστούν οι υπο ραφές τ ν ο ικών τμημάτ ν που έπονται του τμήματος που έ ει μετα η εί. 7.3.2 Κά ετος Διαμερισμός Με άση τον τρόπο ειτουρ ίας του κατα ό ου SSF προκύπτει ότι ια την αναζήτηση ενός και μόνο όρου α πρέπει να εξεταστούν ό ες οι υπο ραφές τ ν ο ικών τμημάτ ν. Ένα από τα έματα που απασ ό ησαν του ερευνητές ήταν το π ς α ε τι εί ο ρόνος επεξερ ασίας. Προς αυτήν την κατεύ υνση έ ουν προτα εί ενα ακτικές μορφές ορ άν σης του αρ είου υπο ραφών. Η πρώτη από τις με όδους που α εξετάσουμε ασίζεται στον τεμαχισμό (slicing) του πίνακα υπο ραφών [8] και κα είται BSSF (bit-sliced signature file). Πρόκειται ια μία μέ οδο που στηρίζεται στον κάθετο διαμερισμό του πίνακα υπο ραφών. Η απο ήκευση του πίνακα ίνεται κατά στή ες (και ό ι κατά ραμμές όπ ς στη μέ οδο SSF). Ο πίνακας υπο ραφών του Σ ήματος 7.4 αντιστρέφεται, και αποκτά διαστάσεις F L (F ραμμές και L στή ες). Η κά ε ραμμή του αντεστραμμένου πίνακα κα είται τεμάχιο (slice) και αποτε είται από τα δυαδικά ψηφία που ρίσκονται στην ίδια έση σε ό ες τις υπο ραφές τ ν ο ικών τμημάτ ν. Για να μπορεί η δομή να υποστηρίξει εισα ές και δια ραφές αποδοτικά, η κά ε ραμμή του αντεστραμμένου πίνακα απο ηκεύεται σε ξε ριστό αρ είο. Η δομή BSSF απεικονίζεται στο Σ ήμα 7.5. Η αναζήτηση ενός όρου στη δομή BSSF ξεκινά με τον υπο ο ισμό της υπο- ραφής του όρου. Υπεν υμίζεται, ότι η υπο ραφή του όρου α περιέ ει άσσους σε ακρι ώς m δυαδικά ψηφία. Επομέν ς, σε αντί εση με τη δομή SSF, απαιτείται η εξέταση m τεμα ί ν ( ραμμών του αντεστραμμένου πίνακα). Τα δυαδικά

7.3. Οργάνωση Αρχείου Υπογραφών 161 L λογικά τµήµατα δείκτες F αρχεία 1 0... 1 0 1 0 0... 0 1 0.................. 1 0... 1 0 1 0 1... 1 1 0... αρχεία υπογραφών αρχείο δεικτών αρχείο εγγράφων Σχήμα 7.5: Η δομή BSSF. ψηφία τ ν m ραμμών συνδυάζονται με τη ρήση υπέρ εσης ( ο ικό AND) και προκύπτει ένα διάνυσμα L έσε ν. Στη συνέ εια, αμ άνονται υπόψη οι έσεις τ ν άσσ ν στο διάνυσμα αυτό και προσπε αύονται οι αντίστοι οι δείκτες του αρ είου δεικτών ια να οδη η ούμε τε ικά στα ο ικά τμήματα τ ν ε ράφ ν. Για την εισα ή ενός νέου ε ράφου, αρ ικά προσδιορίζονται τα νέα ο ικά τμήματα και οι αντίστοι ες υπο ραφές. Στη συνέ εια, ια κά ε νέο ο ικό τμήμα πρα ματοποιείται τεμα ισμός της υπο ραφής του και κά ε ένα από τα F διαφορετικά αρ εία αμ άνει και ένα δυαδικό ψηφίο της υπο ραφής που απο ηκεύεται στο τέ ος. Παράδει μα 7.5 Για το παράδει μα αυτό, α ρειαστούμε τις υπο ραφές τ ν ο ικών τμημάτ ν όπ ς έ ουν εξα εί στο Παράδει μα 7.4. Υπάρ ουν συνο ικά L = 24 ο ικά τμήματα, ενώ το μήκος της κά ε υπο ραφής είναι F = 9. Για τη μέ οδο SSF ο πίνακας υπο ραφών αποτε είται από L ραμμές και F στή ες, ενώ ια τη μέ οδο BSSF ο αντεστραμμενος πίνακας αποτε είται από F ραμμές και L στή ες. Θα ε ρήσουμε ότι το ερώτημα αποτε είται από τον όρο Χά εϋ. Η υπο ραφή του όρου, σύμφ να πάντα με τον πίνακα υπο ραφών του Παραδεί ματος 7.4 είναι: T S("Χά εϋ") = 000 111 000. Η διαδικασία αναζήτησης παρουσιάζεται στο παρακάτ Σ ήμα.

162 Κεφάλαιο 7. Ο Κατάλογος Υπογραφών 000 111 000 TS ( Χάλεϋ ) L=24 λογικά τµήµατα d 1 d 2 d 3 d 4 d 5 d 6 d 7 101010100111101111100110 101010101111111111100110 101110101011111111101110 111111111010110111111111 111111111100110111010101 010101110101111100110001 011101101111011111111011 011001001011011011111111 001001001011001011011100 AND 010101100100010100010001 δείκτες Η αναζήτηση εστιάζει στα τεμά ια που αναφέρονται στα τρία μεσαία δυαδικά ψηφία της υπο ραφής που είναι άσσοι. Τα δυαδικά ψηφία συνδυάζονται με το ο ικό AND και προκύπτει το διάνυσμα που φαίνεται στα δεξιά του σ ήματος. Τα ο ικά τμήματα που εξετάζονται αντιστοι ούν στους άσσους του διανύσματος. Η μέ οδος BSSF είναι πιο αποδοτική από την SSF ς προς τη ειτουρ ία της αναζήτησης. Ωστόσο, υπάρ ει επιπ έον ώρος ια ε τί ση που οφεί εται σε δύο κυρί ς ό ους: (i) Η αναζήτηση ενός όρου επι ά ει την προσπέ αση m τεμα ί ν, όπου m είναι ο αρι μός τ ν άσσ ν στην υπο ραφή του όρου. Αν m=1 τότε α μπορούσε να αυξη εί η απόδοση της με όδου. (ii) Η εισα ή ενός νέου ο ικού τμήματος απαιτεί ένα με ά ο αρι μό προσπε άσε ν που ρυ μίζεται από τον αρι μό τ ν δυαδικών ψηφί ν της υπο- ραφής του ο ικού τμήματος F. Αν η τιμή της παραμέτρου F είναι με ά η (π.. 1000) τότε αυξάνεται σημαντικά το κόστος εισα ής. Εάν έσουμε m = 1, τότε α πρέπει να αυξη εί σημαντικά το μήκος της υπο- ραφής ώστε η πι ανότητα ψευδών συνα ερμών (F AP ) να μην αυξη εί. Αυτό έ ει ς αποτέ εσμα, ο πίνακας διαστάσε ν F L που α προκύψει να αρακτηρίζεται ς αραιός, διότι το ποσοστό τ ν άσσ ν σε σ έση με αυτό τ ν μηδενικών είναι μικρό. Άρα, μπορούν να εφαρμοστούν μέ οδοι συμπίεσης με στό ο τη μεί ση του με έ ους του κά ε τεμα ίου. Η πιο απ ή μέ οδος που μπορεί

7.3. Οργάνωση Αρχείου Υπογραφών 163 F bits K bytes κάδοι πίνακας κατακερµατισµού αρχείο εγγράφων Σχήμα 7.6: Η δομή CBS. να εφαρμοστεί είναι να απο ηκεύονται οι έσεις τ ν άσσ ν σε κά ε τεμά ιο. Με τον τρόπο αυτό, το μέ ε ος του κά ε τεμα ίου δεν είναι στα ερό, οπότε το κά ε αρ είο απο ηκεύεται σε έναν ή περισσότερους κάδους (buckets) οι οποίοι συνδέονται με τη μορφή συνδεδεμένης ίστας. Το μέ ε ος του κά ε κάδου (K) αποτε εί σ εδιαστική παράμετρο. Η μέ οδος αυτή προτά ηκε στην ερ ασία [8] και κα είται CBS (compressed bit slices). Εκτός από το ότι κά ε όρος ενερ οποιεί μόνο ένα δυαδικό ψηφίο, η δομή CBS δε ρειάζεται το αρ είο δεικτών. Αντί να απο ηκεύεται η έση του κά ε άσσου, απο ηκεύεται απευ είας ο δείκτης στο αρ είο ε ράφ ν. Η δομή CBS απεικονίζεται στο Σ ήμα 7.6. Παρατηρήστε την ομοιότητα της δομής με τον αντεστραμμένο κατά ο ο. Ωστόσο, σε αντί εση με τον αντεστραμμένο κατά ο ο όπου οι όροι απο ηκεύονται στο εξικό, οι όροι δεν απο ηκεύονται που ενά (ούτε στον πίνακα κατακερματισμού, ούτε στους κάδους). Για την αναζήτηση ενός όρου, αρ ικά εφαρμόζεται η συνάρτηση κατακερματισμού και δια άζονται οι αντίστοι οι κάδοι. Στη συνέ εια, προσπε αύνονται τα στοι- εία του κά ε κάδου και τέ ος τα αντίστοι α τμήματα τ ν ε ράφ ν. Για να μει εί ο αρι μός τ ν ψευδών συνα ερμών, ο πίνακας κατακερματισμού πρέπει να είναι αραιός, έτσι ώστε να μει εί στο ε ά ιστο το π ή ος τ ν συ κρούσε ν. Σε περίπτ ση που δύο ή περισσότεροι όροι κατακερματίζονται στην ίδια έση του πίνακα, τότε κατά την αναζήτηση ενός εκ τ ν όρ ν α έ ουμε ψευδείς συνα ερμούς. Μία δεύτερη προσπά εια να συμπιεστεί ακόμη περισσότερο ο κατά ο ος οδή-

164 Κεφάλαιο 7. Ο Κατάλογος Υπογραφών ησε στην ανάπτυξη της δομής DCBS (doubly compressed bit slices) [8]. Η δομή αυτή μοιάζει πο ύ με τη δομή CBS κα ώς ρησιμοποιεί πά ι έναν πίνακα κατακερματισμού ια την ορ άν ση τ ν όρ ν. Ο κά ε όρος κατακερματίζεται σε μία έση του πίνακα, ρησιμοποιώντας μία συνάρτηση κατακερματισμού h 1 (t) που δίνει τιμές από 0 έ ς και F -1. Για τη δια είριση τ ν συ κρούσε ν, ρησιμοποιείται μία δεύτερη συνάρτηση κατακερματισμού h 2 (t) που επιστρέφει ένα διάνυσμα από h δυαδικά ψηφία. Η δομή DCBS ρησιμοποιεί δύο επίπεδα κάδ ν. Στο πρώτο επίπεδο κάδ ν απο ηκεύονται τα διανύσματα τ ν h δυαδικών ψηφί ν με τη μορφή h-bit-vector, bucket-ptr, όπου bucket-ptr είναι ο δείκτης στο επόμενο επίπεδο κάδ ν όπου απο ηκεύονται οι δείκτες προς το αρ είο ε ράφ ν. 1ο επίπεδο 2ο επίπεδο F bits K bytes 101001 101011 πίνακας κατακερµατισµού h bits Η δομή DCBS δίνεται στο Σ ήμα 7.7. Η διασικασία της αναζήτησης ενός όρου t αρ ίζει με την εφαρμο ή της πρώτης συνάρτησης κατακερματισμού h 1 (t) που α οδη ήσει σε μία έση του πίνακα κατακερματισμού. Στη συνέ εια, εφαρμόζεται η δεύτερη συνάρτηση κατακερματισμού h 2 (t) που παρά ει ένα διάνυσμα από h δυαδικά ψηφία. Εξετάζονται οι κάδοι του πρώτου επιπέδου ώστε να εντοπιστεί κάποια ε ραφή που να ισούται με h 2 (t). Αν ναι, τότε δια άζονται οι κάδοι του δευτέρου επιπέδου και τέ ος ακο ου ώντας τους δείκτες προσπε αύνονται τα τμήματα από το αρ είο ε ράφ ν. Με μία προσεκτική εξέταση του τρόπου ειτουρ ίας της δομής DCBS εύκο α διαπιστώνεται ότι οι κάδοι του δευτέρου επιπέδου α είναι ακρι ώς οι ίδιοι με αυτούς της δομής CBS αν εί αμε ρησιμοαρχείο εγγράφων Σχήμα 7.7: Η δομή DCBS.

7.3. Οργάνωση Αρχείου Υπογραφών 165 ποιήσει F 2 h έσεις στον πίνακα κατακερματισμού. Ό ες οι προη ούμενες μέ οδοι ορ άν σης αρακτηρίζονται από την παρουσία ψευδών συνα ερμών. Η μέ οδος που εξετάζεται στη συνέ εια δεν έ ει αυτό το πρό ημα και ια το ό ο αυτό κα είται NFD (no false drops) [8]. Η ασική ιδέα είναι η προσ ήκη επιπ έον π ηροφορίας στο ενδιάμεσο επίπεδο τ ν κάδ ν. Μία ε ραφή σε έναν ενδιάμεσο κάδο έ ει τη μορφή h-bit-vector, bucket-ptr, term-ptr όπου term-ptr είναι ο δείκτης στο αρ είο ε ράφ ν όπου ρίσκεται ο όρος. Με τον τρόπο αυτό, αποφεύ ονται εντε ώς οι ψευδείς συνα ερμοί, κα ώς έ ουμε άμεση πρόσ αση στον όρο πριν την εξέταση τ ν κάδ ν του δευτέρου επιπέδου. Η δομή FSSF (frame-sliced signature files) [12] προτά ηκε με ασικό στό ο τη μεί ση του ρόνου επεξερ ασίας, και στηρίζεται στον τεμαχισμό σε πλαισία. Η ασική ιδέα είναι ο κά ε όρος να κατακερματίζεται σε ειτονικά δυαδικά ψηφία της υπο ραφής του ε ράφου, τα οποία απο ηκεύονται μαζί, με αποτέ εσμα να ανακτώνται με ι ότερες τυ αίες προσπε άσεις στο δίσκο. Μεί ση του αρι μού τ ν τυ αί ν προσπε άσε ν οδη εί σε μεί ση του ρόνου επεξερ ασίας τ ν ερ τημάτ ν. Ας εξετάσουμε τη δομή FSSF με με α ύτερη επτομέρεια. Η υπο ραφή του ε ράφου, που αποτε είται από F δυαδικά ψηφία, ρίζεται σε r π αίσια 1ο επίπεδο 2ο επίπεδο bucket-ptr F bits K bytes 101001 term-ptr πίνακας κατακερµατισµού h bits αρχείο εγγράφων Σχήμα 7.8: Η δομή NFD.

166 Κεφάλαιο 7. Ο Κατάλογος Υπογραφών (frames). Το κά ε π αίσιο αποτε είται από F /r συνε όμενα δυαδικά ψηφία (εκτός ίσ ς από το τε ευταίο π αίσιο που μπορεί να έ ει ι ότερα). Για την εισα ή ενός όρου στην υπο ραφή, αρ ικά ρησιμοποιείται μία συνάρτηση κατακερματισμού ώστε να επι ε εί ένα από τα r π αίσια. Στη συνέ εια, ρησιμοποιείται μία δεύτερη συνάρτηση κατακερματισμού η οποία ενερ οποιεί m δυαδικά ψηφία μέσα στο επι ε μένο π αίσιο. Ο πίνακας τ ν υπο ραφών απο ηκεύεται κατά π αίσια, ενώ κά ε π αίσιο κατα αμ άνει συνε όμενες σε ίδες δίσκου. Για την απάντηση ενός ερ τήματος που αποτε είται από έναν μόνο όρο, απαιτείται η εξέταση ενός μόνο π αισίου, επομέν ς πρα ματοποιείται μία μόνο τυ αία προσπέ αση. Για την απάντηση ενός ερ τήματος που αποτε είται από k όρους, απαιτείται η εξέταση το πο ύ k π αισί ν. Η δομή FSSF μπορεί να ενικευ εί, επι έ οντας περισσότερα από ένα π αίσια ια τον κατακερματισμό ενός όρου, και ενερ οποιώντας m δυαδικά ψηφία σε κά ε π αίσιο. Η νέα δομή που προκύπτει κα είται GFSSF (generalized frame-sliced signature file) και προτά ηκε επίσης στην ερ ασία [12]. 7.3.3 Οριζόντιος Διαμερισμός Οι μέ οδοι ορ άν σης υπο ραφών που ασίζονται στον οριζόντιο διαμερισμό προσπα ούν να αποφύ ουν τη σειριακή προσπέ αση τ ν υπο ραφών του κατα ό- ου ρησιμοποιώντας ομαδοποίηση τ ν υπο ραφών. Η ομαδοποίηση αυτή προκα εί τον οριζόντιο διαμερισμό του πίνακα υπο ραφών. Το κριτήριο άσει του οποίου πρα ματοποιείται η ομαδοποίηση του πίνακα υπο ραφών είτε προσδιορίζεται εξ' αρ ής ( ια παράδει μα ρησιμοποιώντας κάποια συνάρτηση κατακερματισμού), είτε προσδιορίζεται κατά τη διάρκεια της εισα ής τ ν υπο ραφών στον κατά ο ο (όπ ς συμ αίνει στην περίπτ ση τ ν κατα ό ν τύπου B-δένδρου ια την ορ άν ση ενός συνό ου ακεραί ν). Στην πρώτη περίπτ ση ο διαμερισμός είναι ανεξάρτητος δεδομέν ν, ενώ στη δεύτερη περίπτ ση είναι εξαρτώμενος από τα δεδομένα. Η πρώτη μέ οδος οριζόντιου διαμερισμού που είναι ανεξάρτητη δεδομέν ν προτά ηκε από τον Gustafson [11]. Το κά ε έ ραφο μπορεί να ε ρη εί ς ε ραφή (record) r όπου οι όροι που περιέ ονται στο έ ραφο αποτε ούν τις ιδιότητες (attributes) της ε ραφής. Η μέ οδος στηρίζεται στη ρήση συναρτήσε ν κατακερματισμού. Έστ t ένας όρος και h(t) μία τιμή μεταξύ τ ν αρι μών 0 και 15 που προκύπτει με εφαρμο ή της συνάρτησης κατακερματισμού h. Η υπο ραφή του όρου t (T S(t)) αποτε είται από 16 δυαδικά ψηφία που ό α είναι μηδενικά εκτός από τη έση h(t) που περιέ ει άσσο. Η υπο ραφή της ε ραφής

7.3. Οργάνωση Αρχείου Υπογραφών 167 r (RS(r)) προκύπτει με υπέρ εση τ ν υπο ραφών τ ν όρ ν. Έστ k ο αρι μός τ ν άσσ ν στην υπο ραφή της ε ραφής. Εάν k<6 τότε τα υπό οιπα 6-k δυαδικά ψηφία ενερ οποιούνται με τυ αίο τρόπο. Το π ή ος τ ν διαφορετικών υπο ραφών που μπορούν να προκύψουν ισούται με ( ) 16 6 = 8008 (επι ο ή 6 αντικειμέν ν από 16). Χρησιμοποιείται ένας πίνακας κατακερματισμού 8008 έσε ν και κά ε ε ραφή κατακερματίζεται σε μία από τις έσεις του πίνακα αυτού, σύμφ να με την ακό ου η μέ οδο. Εάν p a < p b < p c < p d < p e < p f οι έσεις τ ν άσσ ν στην υπο ραφή της ε ραφής, τότε η ε ραφή r κατακερματίζεται στη έση H(r) όπου: H(r) = ( ) pa + 1 ( ) pb + 2 ( ) pc + 3 ( ) pd + 4 ( ) pe + 5 ( ) pf 6 Το ασικό π εονέκτημα της με όδου Gustafson είναι ότι ο αρι μός τ ν υπο- ραφών που πρέπει να ε ε ούν μειώνεται εκ ετικά ς προς τον αρι μό τ ν όρ ν του ερ τήματος (σε ένα ερώτημα σύζευξης). Ωστόσο, τα μειονεκτήματα της με όδου είναι αρκετά σημαντικά με αποτέ εσμα η ρήση της με όδου να είναι περιορισμένη: (i) η επιδόσεις της με όδου μειώνονται με την αύξηση του με έ ους του αρ είου, (ii) αν ο αρι μός τ ν όρ ν ανά έ ραφο είναι με ά ος τότε το μέ ε ος του πίνακα κατακερματισμού α είναι με ά ο ή ερ τήματα που περιέ ουν τρεις ή τέσσερις όρους α εξετάσουν ένα με ά ο τμήμα της συ ο- ής ε ράφ ν και (iii) η επεξερ ασία ενικών ερ τημάτ ν (ό ι σύζευξης) είναι πο ύπ οκη. Μία δεύτερη μέ οδος που ασίζεται στον οριζόντιο διαμερισμό προτά ηκε από τους Lee και Leng [13]. Η προτεινόμενη μέ οδος ορ άν σης κα είται διαμοιραζόμενο αρχείο υπογραφών (partitioned SF) και ρησιμοποιεί τα πρώτα k δυαδικά ψηφία τ ν υπο ραφών ια να δια ρίσει τις υπο ραφές. Με τον τρόπο αυτό το αρ είο υπο ραφών ρίζεται σε τμήματα. Ό ες οι υπο ραφές που ανήκουν στο ίδιο τμήμα έ ουν τα πρώτα k δυαδικά ψηφία κοινά. Για την επεξερ ασία ενός ερ τήματος πρώτα επι έ ονται τα τμήματα με άση τα πρώτα k ψηφία της υπο ραφής του ερ τήματος και στη συνέ εια πρα ματοποιείται έ ε ος τ ν υπο ραφών που ανήκουν στα τμήματα. Μία από τις με όδους ορ άν σης που εξαρτάται από τα δεδομένα προτά ηκέ από τους Sack-Davis και Ramamohanarao [15]. Σύμφ να με τη μέ οδο αυτή, σ ηματίζονται δύο επίπεδα υπο ραφών, εκ τ ν οποί ν το πρώτο αναφέρεται σε υπο ραφές ε ράφ ν και το δεύτερο σε υπο ραφές τμημάτ ν. Για την ορ άν ση του πρώτου επιπέδου ρησιμοποιείται η τε νική SSF ενώ ια την ορ άν ση του δεύτερου επιπέδου ρησιμοποιείται η τε νική BSSF. Πειραματικές μετρήσεις έ ουν δείξει ότι επιτυ άνεται σημαντική μεί ση του ρόνου επεξερ ασίας σε

168 Κεφάλαιο 7. Ο Κατάλογος Υπογραφών σ έση με ά ες μορφές ορ άν σης (π.., SSF ή BSSF). Τέ ος, αναφέρουμε την ιεραρ ική μέ οδο ορ άν σης υπο ραφών, η οποία προτά ηκε από τον Deppisch [2] και πρόκειται ια μία δενδρική δομή δεδομέν ν δευτερεύουσας μνήμης που έ ει πο ά κοινά στοι εία με τις δενδρικές με όδους τύπου B-δένδρου. Η μέ οδος κα είται S-δένδρο (δένδρο υπο ραφών) και οι υπο- ραφές ορ ανώνονται ιεραρ ικά. Υπο ραφές που έ ουν με ά η ομοιότητα (αυτό κα ορίζεται ια παράδει μα με άση την απόσταση Hamming) απο ηκεύονται στο ίδιο φύ ο του S-δένδρου. Στη συνέ εια, οι υπο ραφές τ ν ανώτερ ν επιπέδ ν δημιουρ ούνται με ρήση υπέρ εσης. Η μέ οδος δεν έ ει με ά ες απαιτήσεις ώρου, στόσο είναι δύσκο ο να εκτιμη εί ο ρόνος εκτέ εσης τ ν ερ τημάτ ν. Ένα πι ανό πρό ημα που μπορεί να εμφανιστεί είναι οι υπο ραφές τ ν ανώτερ ν επιπέδ ν (κοντά στη ρίζα του δένδρου) να περιέ ουν πο ούς άσσους. Σε μία τέτοια περίπτ ση ο αρι μός τ ν μονοπατιών που πρέπει να εξεταστούν ια να απαντη εί ένα ερώτημα αυξάνει σημαντικά. 7.4 Σύνοψη και Περαιτέρ Με έτη Οι κατά ο οι υπο ραφών αποτε ούν μία διαφορετική προσέ ιση ια την ορ άν ση μίας συ ο ής ε ράφ ν. Το ασικό αρακτηριστικό τ ν κατα ό ν αυτών είναι ότι στηρίζονται στη δημιουρ ία υπο ραφών από τους όρους τ ν ε ράφ ν. Μία υπο ραφή είναι μία ακο ου ία δυαδικών ψηφί ν (bits) τα οποία περιέ ουν άσσους σε συ κεκριμένες έσεις που κα ορίζονται από τη συνάρτηση κατακερματισμού που ρησιμοποιείται. Στη ι ιο ραφία έ ουν προτα εί πο ές μέ οδοι εξα ής υπο ραφών και δόμησης του κατα ό ου υπο ραφών. Ένα από τα δυνατά σημεία τ ν κατα ό ν υπο ραφών είναι ότι μπορούν να συμπιεστούν αποτε εσματικά, μειώνοντας έτσι το ώρο που απαιτεί η δομή ια την απο ήκευσή της. Σύμφ να με πειραματικές με έτες σ ετικά με την επίδοση τ ν κατα ό ν υπο ραφών σε σ έση με τους αντεστραμμένους κατα ό ους, έ ει επα η ευτεί ότι οι κατά ο οι που στηρίζονται στην αντιστροφή έ ουν ενικά κα ύτερες επιδόσεις από τους κατα ό ους που στηρίζονται σε υπο ραφές. Ωστόσο, οι κατά ο οι υπο ραφών έ ουν μερικές πο ύ κα ές ιδιότητες (π.., ευκο ία στον παρα η ισμό) και επομέν ς η με έτη τους ε ρείται ρήσιμη. Μία εκτενής περι ραφή τ ν με όδ ν εξα ής υπο ραφών και τ ν κατα- ό ν ρίσκεται στο Κεφά αιο 4 του ι ίου [9] κα ώς επίσης και στο ι ίο [17]. Στις ερ ασίες [3, 6, 4, 7] ο ανα νώστης α ρει πο ές επτομέρειες σ ετικά με τις ιδιότητες τ ν ασικών με όδ ν υπο ραφών, ενώ στην ερ ασία [12]

7.5. Ασκήσεις 169 προτείνονται οι κατά ο οι ασισμένοι σε π αίσια (FSSF και GFSSF). Επίσης, συ κριτικές με έτες μεταξύ αντεστραμμέν ν κατα ό ν και κατα ό ν υπο ραφών υπάρ ουν στις ερ ασίες [18, 1] ενώ μία ενική επισκόπηση τ ν με όδ ν που ρησιμοποιούνται ια την ορ άν ση ε ράφ ν υπάρ ει στην ερ ασία [5]. 7.5 Ασκήσεις 7.1 Τι ονομάζουμε υπο ραφή; 7.2 Ποιές οι ασικές διαφορές μεταξύ ενός κατα ό ου υπο ραφών και ενός αντεστραμμένου κατα ό ου; 7.3 Τι είναι ένας ψευδής συνα ερμός και σε ποιές περιπτώσεις εμφανίζεται; 7.4 Ποιές μορφές κατα ό ν υπο ραφών ν ρίζετε; Για την κά ε περίπτ ση να δώσετε σύντομη περι ραφή. 7.5 Ποιά προ ήματα έ ει η σειριακή ορ άν ση του κατα ό ου υπο ραφών; Ποιές ενα ακτικές μορφές ορ άν σης ν ρίζετε; 7.6 Πώς καταφέρνει η μέ οδος NFD να μην εμφανίζει κα ό ου ψευδείς συνα- ερμούς; 7.7 Να περι ράψετε τη ασική μέ οδο εξα ής υπο ραφών που ασίζεται στην υπέρ εση. 7.8 Να περι ράψετε τη μέ οδο εξα ής υπο ραφών BC και να δώσετε αντίστοι ο παράδει μα. 7.9 Σε ποιά σημεία διαφέρουν οι δομές CBS και DCBS; 7.10 Σε ποιά σημεία διαφέρουν οι δομές FSSF και GFSSF; 7.11 Να εντοπίσετε τα σημαντικότερα στοι εία που πιστεύετε ότι επηρεάζουν περισσότερο την αναζήτηση με ρήση υπο ραφών. 7.12 Να κατασκευάσετε πρό ραμμα που να δημιουρ εί έναν κατά ο ο υπο ραφών, ρησιμοποιπώντας το ασικό α όρι μο εξα ής υπο ραφών με υπέρ εση, ρησιμοποιώντας τη συ ο ή ε ράφ ν CACM. Να δώσετε διαφορετικές τιμές ια τις παραμέτρους που επηρεάζουν την επίδοση της δομής (π.., αρι μός δυαδικών ψηφί ν που ενερ οποιεί η υπο ραφή κά ε όρου). Στη συνέ εια, να επι έξετε 100 τυ αίους όρους από τη συ ο ή και