Ε Ξ Α Γ Ω Γ H Γ Ε Ω Γ ΡΑ Φ Ι Κ H Σ Π Λ Η Ρ Ο Φ Ο Ρ Ί Α Σ Α Π O Η Μ Ι Δ Ο Μ Η Μ E Ν Ο Κ Ε I Μ Ε Ν Ο ( G E O P A R S I N G W E B P A G E S )

Σχετικά έγγραφα
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Π Ο Λ Ι Τ Ι Κ Α Κ Α Ι Σ Τ Ρ Α Τ Ι Ω Τ Ι Κ Α Γ Ε Γ Ο Ν Ο Τ Α

Προηγµένη ιασύνδεση µε τοπεριβάλλον

Το στοιχείο που διαφοροποιεί τις γεωγραφικές πληροφορίες από τους υπόλοιπους τύπους πληροφοριών

ΕΞΕΤΑΣΤΕΑ ΥΛΗ KeyCERT EXPERT: ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΟΥ. Έκδοση 2.0

Καταχώρηση ονομάτων χώρου

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Αλλαγή καταχωρητή ονομάτων χώρου

Θέματα Παρουσίασης. OntoGeo Research Group

Το σύστημα Βοήθειας του Internet Explorer

Α Διαγώνισμα 1 ου Τριμήνου στο μάθημα της Πληροφορικής Γ Γυμνασίου Ονοματεπώνυμο:...

ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΟΥ

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ Η ΣΥΝΟΡΘΩΣΗ ΤΩΝ ΟΡΙΖΟΝΤΙΩΝ ΔΙΚΤΥΩΝ (Η ΕΝΝΟΙΑ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ ΑΝΑΦΟΡΑΣ ΚΑΙ Η ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΠΟΙΟΤΗΤΑΣ ΤΟΥ ΔΙΚΤΥΟΥ)

TEC610 Δυναμικές Εφαρμογές Διαδικτύου (ΣΤ εξάμηνο)

ΜΟΝΑΔΕΣ ΑΡΙΣΤΕΙΑΣ ΑΝΟΙΧΤΟΥ ΛΟΓΙΣΜΙΚΟΥ

ΥΠ.ΕΣ. - Δ.Μ.Η.Ε.Σ. ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΕΦΑΡΜΟΓΗΣ ΛΗΞΙΑΡΧΕΙΟΥ V 1.2

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Η ΤΕΧΝΟΛΟΓΙΑ ΟΡΥΦΟΡΙΚΟΥ ΕΝΤΟΠΙΣΜΟΥ ΘΕΣΗΣ ΣΤΗΝ ΤΟΠΟΓΡΑΦΙΑ ΚΑΙ Η ΧΡΗΣΗ ΤΟΥ ΣΕ ΤΟΥΡΙΣΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΠΕΡΙΟΧΗ ΤΗΣ ΗΓΟΥΜΕΝΙΤΣΑΣ.

Παρουσίαση νέου Γεω-Eυρετηρίου Δυνατότητες και Τρόπος Χρήσης

Backorder ονομάτων χώρου

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βήματα προς τη δημιουργία εκτελέσιμου κώδικα

Εύρεση ν-στού πρώτου αριθμού

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 3 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΥΠΟΛΟΓΙΣΤΩΝ

Ευφυής Προγραμματισμός

Μάθημα Εισαγωγή στις Τηλεπικοινωνίες Κωδικοποίηση πηγής- καναλιού Μάθημα 9o

Καινοτόμες Διαδυκτιακές Εφαρμογές και Απασχόληση. Ανδρουλακάκης Νικόλαος Αντιπεριφερειάρχης Αττικής Σε θέματα Ηλεκτρονικής Διακυβέρνησης & Διαφάνειας

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος

Μεθοδολογίες παρεµβολής σε DTM.

Α Ρ Ι Θ Μ Ο Σ : 6.913

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΑΓΡΟΝΟΜΩΝ ΚΑΙ ΤΟΠΟΓΡΑΦΩΝ ΜΗΧΑΝΙΚΩΝ. Σπύρος Τσιπίδης. Περίληψη διατριβής

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

ΥΠ.ΕΣ. - Δ.Μ.Η.Ε.Σ. ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΕΦΑΡΜΟΓΗΣ ΛΗΞΙΑΡΧΕΙΟΥ

Ανάκτηση πολυμεσικού περιεχομένου

Εξισώσεις παρατηρήσεων στα τοπογραφικά δίκτυα

Επεξεργασία Ερωτήσεων

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

Θέματα Μεταγλωττιστών

Γ ΓΥΜΝΑΣΙΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΜΕ ΤΗ ΓΛΩΣΣΑ MicroWorlds Pro

Επίσημη Εφημερίδα της Ευρωπαϊκής Ένωσης L 274/9

Δομές Δεδομένων και Αλγόριθμοι. Λουκάς Γεωργιάδης

Η ΧΡΗΣΗ ΤΗΣ ΥΠΟΔΟΜΗΣ ΧΩΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΓΙΑ ΤΗΝ ΑΝΑΖΗΤΗΣΗ ΚΑΙ ΑΠΕΙΚΟΝΙΣΗ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ

Ποια cookies χρησιμοποιούμε στον ιστότοπό μας;

Βάσεις Δεδομένων. Εργαστήριο 1. Ηλεκτρονικοί Υπολογιστές ΙI. Ακαδημαϊκό Έτος Διαφάνεια 1. Κάπαρης Αναστάσιος

Τίτλος Πακέτου Certified Computer Expert-ACTA

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία

Προσεγγιστικοί Αλγόριθμοι

Επεξεργασία Ερωτήσεων

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Πίνακας περιεχοµένων

ιαµέριση - Partitioning

Αναστασίου Χριστόφορος Βόλη Βαρβάρα Γιαννίρη Ζωή Ζέρβας Χρήστος

Βασίλειος Κοντογιάννης ΠΕ19

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Ανοιχτά γεωγραφικά δεδομένα : Καινοτομία - Υπεραξία

Γραφικά με υπολογιστές. Διδάσκων: Φοίβος Μυλωνάς. Διαλέξεις #11-#12

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Πίνακας 1: Απασχολούμενοι, άνεργοι, οικονομικά μη ενεργοί και ποσοστό ανεργίας, Ιανουάριος

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Κεφάλαιο 2 Α Ν Τ Ι Γ Ρ Α Φ Η

ΕΙΣΑΓΩΓΗ ΣΤOΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

Διαδικτυακές Υπηρεσίες Αναζήτησης, Απεικόνισης και Απευθείας Πρόσβασης στα δεδομένα ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ. Έκδοση 0.1.

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

ΧΩΡΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ

Γεωπροσδιορισμός σε κινητές συσκευές και αξιοποίησή τους (Geolocation) ΓΤΠ61 Κοντάκης Σπυριδάκης

Διαχρονικές δομές δεδομένων

/software/web_tools/webapps/speller/.

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ορισμός Κάθε ζήτημα που τίθεται προς επίλυση, κάθε δύσκολη κατάσταση που μας απασχολεί και πρέπει να αντιμετωπιστεί.

ΚΕΦΑΛΑΙΟ 6 ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ. 03/01/09 Χαράλαμπος Τζόκας 1

Field Service Management ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Μοντελοποίηση δικτύου μέσω εξισώσεων παρατήρησης

ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος 6 ΓΑΛ 103 Γραπτός λόγος I 6 ΓΑΛ 170 e-french 6 ΓΑΛ Μάθημα περιορισμένης επιλογής 6

Πρόλογος... xiii ΜΕΡΟΣ 1 1 Εισαγωγή στο Excel Βασικές λειτουργίες του Excel... 21

Εθνική Υποδομή ΓΕωχωρικών Πληροφοριών

Επίλυση εξισώσεων δευτέρου βαθμού με ανάλυση σε γινόμενο παραγόντων

Δεδομένα Ζητούμενο Επίλυση Κατανόηση «περιβάλλον»

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

2. Α ν ά λ υ σ η Π ε ρ ι ο χ ή ς. 3. Α π α ι τ ή σ ε ι ς Ε ρ γ ο δ ό τ η. 4. Τ υ π ο λ ο γ ί α κ τ ι ρ ί ω ν. 5. Π ρ ό τ α σ η. 6.

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

Ωρολόγιο Πρόγραμμα Χειμερινού Εξαμήνου

ΕΦΑΡΜΟΓΕΣ ARCGIS ΚΑΙ INNOVYZE INFOWATER ΓΙΑ ΤΗΝ ΑΝΑΛΥΣΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΔΙΚΤΥΩΝ ΥΔΡΕΥΣΗΣ

Θέματα Μεταγλωττιστών

Τηλεπισκόπηση - Φωτοερμηνεία

Οδηγίες Χρήσης Εφαρµογής Καταχώρησης Αποδείξεων µε απλά βήµατα

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Transcript:

Ε Ξ Α Γ Ω Γ H Γ Ε Ω Γ ΡΑ Φ Ι Κ H Σ Π Λ Η Ρ Ο Φ Ο Ρ Ί Α Σ Α Π O Η Μ Ι Δ Ο Μ Η Μ E Ν Ο Κ Ε I Μ Ε Ν Ο ( G E O P A R S I N G W E B P A G E S ) ΠΕΡΙΛΗΨΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ Αλβέρτος-Δαυΐδ Άντζελ el01004@mail.ntua.gr

Ε Ξ Α Γ Ω Γ Η Γ Ε Ω Γ ΡΑΦ Ι Κ Η Σ Π Λ Η Ρ Ο Φ Ο Ρ Ι Α Σ Α Π Ο Η Μ Ι ΔΟ Μ Η Μ Ε Ν Ο Κ Ε Ι Μ Ε Ν Ο ΓΙΑΤΙ; Η αναζήτηση, πλοήγηση, ευρετηριοποίηση, οργάνωση του παγκόσμιου ιστού μπορεί να γίνει πάνω σε διάφορους άξονες χαρακτηριστικών (π.χ. με λέξεις κλειδιά, τοπολογικά-μέσω υπερσυνδέσμων, θεματικά, χρονολογικά, γεωγραφικά,...). Πολλές ιστοσελίδες (εμπορικές, ειδησεογραφικές, τουριστικές,...) περιέχουν γεωγραφική πληροφορία (π.χ. τηλέφωνα, διευθύνσεις, τοπωνύμια,...). Εξάγοντάς την μπορούμε να δημιουργήσουμε ένα γεωγραφικό ευρετήριο του ιστοχώρου. Αυτό μας ανοίγει δρόμους για πολλές εφαρμογές, όπως εναλλακτικούς τρόπους πλοήγησης και αναζήτησης, π.χ. για αναζητήσεις ιστοσελίδων για "κεμπάπ στου Ζωγράφου", ή για πλοήγηση στον ιστό σε ιστοσελίδες "γεωγραφικά κοντά στην τρέχουσα". Κάνουμε έτσι ένα ακόμη βήμα στην προσθήκη δομής και σημασιολογίας στον παγκόσμιο ιστό, και άρα στο χτίσιμο μιας υπηρεσίας σημασιολογικού ιστού πάνω σε αυτόν. ΣΤΟΧΟΣ Στην διπλωματική εργασία αυτή, μελετώνται διάφορες προσεγγίσεις ανακάλυψης γεωγραφικής-χωρικής πληροφορίας σε ιστοσελίδες (geoparsing), και απόδοσης ακριβών συντεταγμένων στην πληροφορία αυτή (geocoding). Ξεκινώντας από μια ιστοσελίδα, θέλουμε να της αποδώσουμε γεωγραφικές συντεταγμένες σύμφωνα με το περιεχόμενό της (π.χ. αν αναφέρεται στην ακρόπολη, να αποκτήσει τις συντεταγμένες του μνημείου). Εκμεταλλευόμαστε διάφορα στοιχεία από τη σελίδα, όπως ταχυδρομικούς κώδικες, τηλέφωνα, διευθύνσεις, τοπωνύμια, τη διεύθυνση IP του εξυπηρετητή. Επικεντρωνόμαστε στον ελληνικό ιστοχώρο, ο οποίος αφ'ενός έχει έλλειψη τέτοιων υπηρεσιών, αφ'ετέρου παρουσιάζει επιπλέον ενδιαφέροντα προβλήματα. 2

ΠΩΣ; Ανάκτηση της σελίδας από το διαδίκτυο, και μετατροπή της σε κατάλληλη μορφή (ανίχνευση κωδικοσελίδας, διόρθωση συντακτικών λαθών HTML). Ανίχνευση πιθανής γεωγραφικής πληροφορίας (geoparsing), με κατάλληλες γραμματικές. Έπειτα από πρωτυποποίηση στο περιβάλλον επεξεργασίας φυσικής γλώσσας GATE, προτιμήθηκε η επανασχεδίαση με χρήση διαδοχικών κανονικών γραμματικών (cascaded regular grammar transducers), συνεπικουρούμενων από προσεγγιστική αναζήτηση λέξεων σε ευρετήριο (approximate string lookup - βλ. παρακάτω). Η πληροφορία που ανιχνεύεται, κανονικοποιείται και τεχνολογείται (standardised & parsed) (π.χ. "οδ. Αγ.Σώστη 3, Χαλάνδρι 231-35" οδός: "Αγίου Σώστη", αρ: 3, περιοχή:"χαλάνδρι", ΤΚ:"23135"). Γεωκωδικοποίηση της πληροφορίας που βρήκαμε, δηλ. αντιστοίχισή της σε συντεταγμένες. Γίνεται με την προσεγγιστική αναζήτηση της πληροφορίας σε βάσεις γεω-δεδομένων, και συνεκτίμηση των επιμέρους αποτελεσμάτων (π.χ. αν η οδός μιας διεύθυνσης αντιστοιχηθεί με βεβαιότητα 70% σε κάποιες συντεταγμένες, και η περιοχή της με 80% σε κάποια γεωμετρία που περιέχει τις ανωτέρω, είναι λογικό να θεωρήσουμε ότι οι πρώτες εκφράζουν με μεγάλη βεβαιότητα τις συντεταγμένες της διεύθυνσης). Προσεγγιστική αναζήτηση: Αναζήτηση ανεκτική σε σφάλματα, ιδίως ορθογραφικά (π.χ. η "Pelloponisos" να αντιστοιχηθεί σωστά στην "Πελοπόννησος", αλλά η "Λωζάνη" να μην αντιστοιχηθεί με την "Κοζάνη"). Κύριο πρόβλημα η επίδοση, δεδομένου του μεγάλου πλήθους στοιχείων που ελέγχουμε. Για αυτόν τον σκοπό αναπτύχθηκαν ταχείς αλγόριθμοι, προσαρμοσμένοι στην Ελληνική γλώσσα (με υποστήριξη greeklish, που είναι άλλο ένα μείζον πρόβλημα), βασισμένοι σε υπάρχουσες προτάσεις στον χώρο. Η λειτουργία τους περιγράφεται παρακάτω. Οι αλγόριθμοι επιτυγχάνουν γρήγορη προσεγγιστική φωνητική αναζήτηση (ενδεικτικά: αναζήτηση 1800 ονομάτων οδών με ποικίλα λάθη, σε έναν πίνακα με όλες τις οδούς της Αττικής σε λιγότερο από 2', χωρίς βελτιστοποιήσεις) Γεωδεδομένα: Χρειαζόμαστε βάσεις αντιστοίχησης τοπωνυμίων σε συντεταγμένες (π.χ. οδών, πόλεων, τοποθεσιών). Δυστυχώς, στην Ελλάδα υπάρχουν ελάχιστα τέτοια datasets που διατίθενται δωρεάν, οδηγώντας σε εναλλακτικούς τρόπους απόκτησής τους. Έπειτα, τίθεται και το ζήτημα της ποιότητάς τους. Για τον καθαρισμό των δεδομένων από σφάλματα χρησιμοποιήθηκαν γνώσεις από το αντίστοιχο γνωστικό πεδίο, και οι ανωτέρω αλγόριθμοι. 3

Ομαδοποίηση των επιμέρους πληροφοριών (διευθύνσεων, τηλεφώνων κ.ο.κ.), και συνεκτίμησή τους, για την εύρεση πληροφορίας για την ιστοσελίδα γενικότερα (π.χ. μπορούμε να συμπεραίνουμε πως μια σελίδα αναφέρεται συνολικά σε μια περιοχή του χώρου, σε ένα σημείο, ή σε πολλά, άσχετα μεταξύ τους σημεία), με βάση την εγγύτητά τους τόσο στη σελίδα (οπτικά) (π.χ. σε κοντινά κελιά ενός πίνακα) όσο και στην πραγματικότητα (γεωγραφικά). ΠΡΟΣΕΓΓΙΣΤΙΚΗ ΑΝΑΖΗΤΗΣΗ ΣΥΜΒΟΛΟΣΕΙΡΩΝ Εισαγωγικές πληροφορίες: Μεταγραφή σε φωνητικό αλφάβητο: Αναπτύχθηκε ένα φωνητικό αλφάβητο για τα Ελληνικά, με βάση τις ιδιότητες των φθόγγων της γλώσσας. Δύο ομόηχες λέξεις έχουν ίδια φωνητική αναπαράσταση. Παράδειγμα: Λευτέρη, Λεφτέρη lefteri. Και με τα greeklish, τι; Τα greeklish, καθότι εμφανίζονται πολύ συχνά στον ελληνικό ιστό, είναι σημαντικό πρόβλημα σε αυτό το βήμα, γιατί υπάρχουν πολλοί διαφορετικοί τρόποι γραφής σε αυτά (π.χ. Eleftheriu Venizelu, Eleu8eriou Benizelou). Στην εργασία χρησιμοποιήθηκαν διάφορες προσεγγίσεις, με διαβαθμισμένη πολυπλοκότητα και ποιότητα αποτελεσμάτων. Απόσταση δύο λέξεων: Για την εύρεση λέξεων που μοιάζουν, χρειαζόμαστε μια μετρική ομοιότητάς τους. Από τις διάφορες διαθέσιμες, επιλέχθηκε την απόσταση Levenshtein (αριθμός εισαγωγών, διαγραφών και αντικαταστάσεων χαρακτήρων), η οποία τροποποιήθηκε, μεταξύ άλλων για υποστήριξη φωνητικής ομοιότητας (π.χ. η "Μάσιου" μοιάζει περισσότερο με την "Νάσιου" από την "Τάσιου"), καθώς και συντμήσεων, που συνηθίζονται στα ελληνικά ("Κων/νου"-"Κωνσταντίνου"). Κώδικας φωνητικής ομοιότητας (π.χ. Soundex, Metaphone κ.λ.π.): Μετατροπή μιας λέξης σε έναν σύντομο κώδικα, με την ιδιότητα: δύο λέξεις που προφέρονται σχετικά όμοια να έχουν ίδιο κώδικα. Αναπτύξαμε τέτοιον κώδικα για τα Ελληνικά. Προσεγγιστικό φωνητικό ταίριαγμα συμβολοσειρών: Πρόβλημα: Θέλουμε να βρούμε από έναν κατάλογο συμβολοσειρών αν υπάρχουν κάποιες που μοιάζουν πολύ με μια δεδομένη. Όμως, ο υπολογισμός της απόστασης της συμβολοσειράς αυτής από όλες τις άλλες είναι υπολογιστικά απρόσιτος. Λύση: Το ταίριαγμα γίνεται σε δύο βήματα: Πρώτα βρίσκουμε όλες τις συμβολοσειρές που έχουν τον ίδιο κώδικα φωνητικής ομοιότητας με την δεδομένη (υπολογιστικά "φθηνή" πράξη). (Έτσι, "φιλτράρουμε" 4

ένα μεγάλο ποσοστό των συμβολοσειρών, οι οποίες με συντριπτικά μεγάλη πιθανότητα δεν μοιάζουν με την δεδομένη συμβολοσειρά.) Υπολογίζουμε την απόστασή της δεδομένης συμβολοσειράς από αυτές. Η βασική παραλλαγή των αλγορίθμων μας είναι η εξής: Προεπεξεργασία: Δημιουργία φωνητικού ευρετηρίου πάνω στον πίνακα που περιέχει τις φράσεις-στόχους (π.χ. "οδός ανθυπολοχαγού Νικ. Τερτσέτη"). Αυτό μας επιτρέπει την γρήγορη εύρεση φράσεων-τοπωνυμίων που περιέχουν συγκεκριμένες λέξεις (π.χ. τις λέξεις "Νικόλας" και "Τερτσέτης"), ακόμη και με ορθογραφικά λάθη. Για την κατασκευή αυτού, επεκτείνουμε την βασική ιδέα προσεγγιστικού φωνητικού ταιριάγματος συμβολοσειρών, φροντίζοντας όσο το δυνατόν περισσότεροι υπολογισμοί να εκτελούνται από το ίδιο το σύστημα διαχείρησης βάσεων δεδομένων (άρα βελτιστοποιημένα). Μετατροπή της αναζητούμενης φράσης-συμβολοσειράς στο ενδιάμεσο φωνητικό αλφάβητο, και αναζήτηση αυτής μέσω του φωνητικού ευρετηρίου. 5