Ερευνητικό Πρόγραµµα BalkaNet



Σχετικά έγγραφα
Μοντέλο Κατανόησης Κειµένου

Επέκταση του Ελληνικού WordNet µε Όρους Πληροφορικής και Σηµασιολογικές Σχέσεις Βασισµένες σε Μοντέλο Κατανόησης Κειµένου

Σημασιολογικά Λεξικά WordNet

Συνθετική Εργασία Μεταπτυχιακών Φοιτητών Πληροφορικής σε Υπολογιστικά Σηµασιολογικά Λεξικά στα πλαίσια του µαθήµατος «Υπολογιστική Γλωσσολογία»

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

Software Production Company

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

Βάσεις δεδομένων και Microsoft Access

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

Γλώσσα και Γλωσσική Τεχνολογία στην Ελλάδα

ΑΝΩΤΑΤΗ ΕΚΚΛΗΣΙΑΣΤΙΚΗ ΑΚΑΔΗΜΙΑ ΘΕΣΣΑΛΟΝΙΚΗΣ

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Ενέργεια. Εκφρασµένη µε λέξεις.

ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ.

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου

ΑΥΤΟΜΑΤΗ ΕΞΑΓΩΓΗ ΛΕΞΙΚΗΣ - ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΓΝΩΣΗΣ ΑΠΟ ΗΛΕΚΤΡΟΝΙΚΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ ΜΕ ΧΡΗΣΗ ΕΛΑΧΙΣΤΩΝ ΠΟΡΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

2, µε τίτλο: «Υλοποίηση Εργαλείων Ανάπτυξης ιαχείρισης Σώµατος Κειµένων και Αυτόµατης Εξαγωγής Ορολογίας».

Έρευνα Περιφερειακής Κατανοµής της Ετήσιας Τουριστικής απάνης

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

ΑΓΓΛΙΚΑ ΣΑΒΒΑΤΟ 12 ΜΑΪΟΥ 2012

πλήρως σε σύνθετες ανάγκες και υψηλές απαιτήσεις οποιουδήποτε Νοσοκοµείου.

Λίγα λόγια από το συγγραφέα Βάσεις δεδομένων και Microsoft Access Microsoft Access... 22

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Επεξεργασία Ερωτήσεων

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ

Προηγµένη ιασύνδεση µε τοπεριβάλλον

ΠΡΟΣΚΛΗΣΗ ΕΚΔΗΛΩΣΗΣ ΕΝΔΙΑΦΕΡΟΝΤΟΣ

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. «Υλοποίηση εφαρμογής λογιστικών και στατιστικών δεδομένων μιας επιχείρησης Δ.Ε.Υ.Α.» Αρ. Μητρώου:

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

Περιεχόµενα. 1 Tο βιβλίο "µε µια µατιά" Εισαγωγή στη Microsoft Access Γνωριµία µε τις βάσεις δεδοµένων της Access...

Τα Πληροφοριακά Συστήματα Ερευνητικής Δραστηριότητας (CRIS) ως φορείς της Ανοικτής Έρευνας στην Ελλάδα

Αναβάθμιση και εμπλουτισμός ΙδρυματικούΑποθετηρίουΕΜΠ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων


ΘΕΜΑ: Εκτίμηση του εμπορικού ισοζυγίου των χωρών της Ευρωπαϊκής Ένωσης (27), με χώρες εκτός αυτής, για τον μήνα Σεπτέμβριο Πηγή Eurostat -

Δημοκρίτειο Πανεπιστήμιο Θράκης Τμήμα Μοριακής Βιολογίας και Γενετικής

Αποσαφήνιση της σημασίας λέξεων μέσω συνδυασμού Δικτύων Διάδοσης Ενεργοποίησης και του αλγορίθμου PageRank

Δημοκρίτειο Πανεπιστήμιο Θράκης Τμήμα Μοριακής Βιολογίας και Γενετικής

Σχετικά με τη διδακτική προσέγγιση του γλωσσικού δανεισμού

Κεφάλαιο 8. Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής. Τεχνητή Νοηµοσύνη - Β' Έκδοση

ΠΛΗΡΗΣ ΛΙΣΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ CRM

Επιχειρησιακή Έρευνα

Β τάξη. Κειµενικοί στόχοι Λεξικογραµµατικοί στόχοι Γραπτά µηνύµατα του περιβάλλοντος

ASTECH Advance Sustainable Energy Technology for Cooling and Heating Applications

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014

Καλώς ήλθατε στην παρουσίαση του έργου SmartGov.

ΘΕΜΑ: Εκτίμηση του εμπορικού ισοζυγίου των χωρών της Ευρωπαϊκής Ένωσης (27), με χώρες εκτός αυτής, για το μήνα Σεπτέμβριο Πηγή Eurostat -

Περιεχόµενα. 1 Εισαγωγή: Λίγα λόγια για το βιβλίο Τι νέο υπάρχει στο Outlook Ξεκίνηµα Ευχαριστίες...

Πνευµατικά ικαιώµατα

Προσαρμογή της Βάσης Δεδομένων του WordNet στο σχεσιακό μοντέλο. WordNet. a lexical database for the English language

Σχεδίαση και Ανάπτυξη Εφαρμογής Ηλεκτρονικού Φακέλου Ασθενούς του Τμήματος Κοινωνικής Υπηρεσίας του Γενικού Νοσοκομείου Ρεθύμνου

Βασίλειος Κοντογιάννης ΠΕ19

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Τι είναι; Ο Πίνακας Συμβόλων είναι όπως ένα λεξικό:

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ ΕΚΠΑΙΔΕΥΣΗ

G. Kokkinankis, E. Dermatas, E. Coutsogeorgopoulos

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

ΚΕΦΑΛΑΙΟ 9 ΕΛΕΓΧΟΣ ΙΑ ΙΚΑΣΙΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΤΩΝ ΣΧΕ ΙΩΝ ΡΑΣΗΣ

AquaLingua. Οδηγός Χρήσης

Συστήματα. βάση την εικόνα. Συγγραφέας: Κουταλά Ματίνα Καθηγητής: Στυλιαράς Γιώργος ΓΤΠ61 ΠΛΗΡΟΦΟΡΙΚΗ-ΠΟΛΥΜΕΣΑ ΕΑΠ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. 4o Εργαστήριο Σ.Α.Ε

2 Μάρκετινγκ µηχανών αναζήτησης (Search Engine Marketing).

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ. Γλωσσολογικές πηγές για τεχνικές εξόρυξης γνώμης (opinion mining) προσαρμοσμένες στις ιδιαιτερότητες της Νέας Ελληνικής

Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο Κάθε δομή μπορεί να χρησιμοποιηθεί σε οποιοδήποτε πρόβλημα ή εφαρμογή

Επεξεργασία Ερωτήσεων

ΘΕΜΑ ΕΡΓΑΣΙΑΣ: «ΈΚΘΕΣΗ ΈΚΦΡΑΣΗ ΜΟΥΣΙΚΑ ΘΕΜΑΤΑ»

Ψηφίδες για τη Νεοελληνική Γλώσσα

Διπλωματική Εργασία. Σχεδιασμός & Ανάπτυξη ενός πληροφοριακού συστήματος διαχείρισης θέσεων πρακτικής άσκησης για το Πανεπιστήμιο Δυτικής Μακεδονίας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

Εργαστήριο Τεχνολογίας Λογισμικού και Ανάλυσης Συστημάτων - 7 ο Εργαστήριο -

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων

Διαχείριση Πολιτισμικών Δεδομένων

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

ΘΕΜΑ: Εκτίμηση του εμπορικού ισοζυγίου των χωρών της Ευρωπαϊκής Ένωσης (27), με χώρες εκτός αυτής, για το μήνα Οκτώβριο Πηγή Eurostat -

Συγκεκριµένα τα τρία βασικά modules περιέχουν τα παρακάτω στοιχεία :

Σχεδιασµός Ανάπτυξη Οντολογίας

ΜΙΑ ΔΥΝΑΜΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΓΙΑ ΤΟΝ ΤΟΠΟΓΡΑΦΟ ΜΗΧΑΝΙΚΟ ΣΤΗΝ ΕΥΡΩΠΗ

To IBCALLCENTER, είναι ένα πρωτοποριακό προϊόν διαχείρισης και οργάνωσης επαφών πελατολογίου.

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

Μάθηµα: ιαχείριση Ενέργειας και Περιβαλλοντική Πολιτική. Καθηγητής Ιωάννης Ψαρράς. Εργαστήριο Συστηµάτων Αποφάσεων & ιοίκησης

Επιστήμη της Πληροφορικής. Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4

Μάθημα Εισαγωγή στις Τηλεπικοινωνίες Κωδικοποίηση πηγής- καναλιού Μάθημα 9o

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

Αποτελέσματα της υπ αριθμ. Πρωτ. Β14954/ Πρόσκλησης Εκδήλωσης Ενδιαφέροντος

Transcript:

Ερευνητικό Πρόγραµµα BalkaNet 1

Ερευνητικό Πρόγραµµα BalkaΝet Χρηµατοδοτούµενο από την ΕΕ πρόγραµµα (IST-2000-29388) µε σκοπό την ανάπτυξη ενός πολύγλωσσου σηµασιολογικού λεξικού σύµφωνα µε τις αρχές του EuroWordNet. (Σεπτέµβριος 2001-Αύγουστος 2004) Γλώσσες για τις οποίες αναπτύσσονται σηµασιολογικά λεξικά: Βουλγαρικά, τσεχικά, ελληνικά, ρουµανικά, σερβικά, τουρκικά. Ηλεκτρονική ιεύθυνση: http://www.ceid.upatras.gr/balkanet/ 2

Φορείς Έργου Πανεπιστήµιο Πατρών (DBLAB) - Ελλάδα (Συντονιστής προγράµµατος) Πανεπιστήµιο Αθηνών (UOA) - Ελλάδα Ίδρυµα Τεχνολογίας Yπολογιστών (CTI) - Ελλάδα University of Alexandru Ioan Cuza (UAIC) - Ρουµανία Academia Romana (RACAI) - Ρουµανία Bulgarian Academy of Science (IBL-DCMB) - Βουλγαρία Masaryk University Brno (FI MU) ηµοκρατία της Τσεχίας Memodata (MEM) - Γαλλία University of Plovdiv (PU) - Βουλγαρία Υπεργολάβοι: Belgrad University - Σερβία OTENet - Ελλάδα 3

Οικονοµικά εδοµένα Συνολικός Προϋπολογισµός Έργου: 1.814.882 ευρώ Προϋπολογισµός Πανεπιστηµίου Αθηνών: 88.826 ευρώ 4

Τι είναι το WordNet Το WordNet είναι ένα ηλεκτρονικό λεξικό βασισµένο στις έννοιες τωνλέξεωνκαιστιςσηµασιολογικές σχέσεις που ισχύουν µεταξύ τους. Με τη βοήθεια των σηµασιολογικών σχέσεων, οι έννοιες των λέξεων σε µια γλώσσα µπορούν να διασυνδεθούν, αποτελώντας ένα δίκτυο εννοιών, δηλ. το WordNet. Το WordNet αρχικά αναπτύχθηκε στο Princeton για τα αγγλικά. Μετά την επιτυχία του WordNet ένας αριθµός προγραµµάτων ξεκίνησε µε σκοπό την ανάπτυξη WordNets για άλλες γλώσσες από τα αγγλικά. Π.χ. EuroWordNet, BalkaNet... 5

Σύνολο Συνωνύµων (synset) Ένα σύνολο συνωνύµων (synset) είναι ένα σύνολο λέξεων οι οποίες σε ένα συγκεκριµένο περιβάλλον µπορούν να χρησιµοποιηθούν η µία στη θέση της άλλης. Κάθε σύνολο συνωνύµων συνοδεύεται και από έναν επεξηγηµατικό ορισµό (gloss). Π.χ. το σύνολο {ασθενοφόρο, νοσοκοµειακό} αποτελεί ένα σύνολο συνώνυµων µε ορισµό: κατάλληλα εξοπλισµένο αυτοκίνητο που µεταφέρει ασθενείς στο νοσοκοµείο. Το σύνολο {car, auto, automobile, machine, motorcar} αποτελεί ένα σύνολο συνώνυµων του αγγλικού WordNet µε ορισµό: 4- wheeled motor vehicle; usually propelled by an internal combustion engine. 6

Σηµασιολογικές σχέσεις στο WordNet Υπωνυµία / Υπερωνυµία: Το Α είναι υπερώνυµο του Β (ή µε άλλα λόγια το Β είναι υπώνυµο του Α), σηµαίνει ότι το Β είναι ένα είδος Α. Π.χ. Το {ασθενοφόρο, νοσοκοµειακό} είναι ένα υπώνυµο του{αυτοκίνητο}(δηλ. το ασθενοφόρο είναι ένα είδος αυτοκινήτου). Μερωνυµία / Ολωνυµία: Το Α είναι ολώνυµο του Β (ή µε άλλα λόγια το Β είναι µερώνυµο του Α), σηµαίνει ότι το Β είναι µέρος του Α. Π.χ, Το {προφυλακτήρας} είναι µερώνυµο του {αυτοκίνητο} (δηλ. ο προφυλακτήρας είναι µέρος του αυτοκινήτου). 7

Ελληνικό WordNet Αναπτύσσεται στο Πανεπιστήµιο Πατρών από οµάδα γλωσσολόγων µε τη χρήση των εξής υπολογιστικών εργαλείων: Εργαλεία για εξαγωγή γλωσσικής πληροφορίας από ηλεκτρονικά λεξικά και σώµατα κειµένων (Πανεπιστήµιο Αθηνών). VisDic: Εργαλείο ανάπτυξης σηµασιολογικών λεξικών (Πανεπιστήµιο Masaryk, Brno, Τσεχία). WMS (WordNet Management System): Εργαλείο διαχείρισης σηµασιολογικών λεξικών (Πανεπιστήµιο Πατρών) 8

Στατιστικά στοιχεία του Ελληνικού WordNet Σύνολα Συνωνύµων (synsets): 18461 Ουσιαστικά: 14426 Ρήµατα: 3402 Επίθετα: 617 Επιρρήµατα: 16 Λέξεις: 24366 Λέξεις / synset: 1.33 Σηµασιολογικές Σχέσεις: 24368 Σχέσεις / synset: 1.33 Ορισµοί: 18649 9

VisDic: Εργαλείο Ανάπτυξης WordNet 10

Συµµετοχή του Πανεπιστηµίου Αθηνών στο BalkaNet Σχεδιασµός και υλοποίηση γλωσσικών υπολογιστικών εργαλείων για την υποστήριξη της ανάπτυξης και την πιστοποίηση του ελληνικού WordNet. α. Χρήση ηλεκτρονικών λεξικών και των αντίστοιχων εργαλείων για την εξαγωγή των γλωσσικής πληροφορίας. β. Χρήση σωµάτων κειµένου (text corpora) και των αντίστοιχων εργαλείων για την ανάπτυξη και την πιστοποίηση των WordNets ηµιουργία ενός ευθυγραµµισµένου και εµπλουτισµένου µε γλωσσική πληροφορία σώµατος κειµένου για την πιστοποίηση του ελληνικού WordNet. 11

Υπολογιστικά Εργαλεία για την Εξαγωγή Γλωσσικής Πληροφορίας από Λεξικά Βασισµένα στο ηλεκτρονικό λεξικό Τριανταφυλλίδη, το οποίο ήταν σε µορφή Microsoft Access. εξαγωγή πληροφορίας σχετική µε τοµέρος του λόγου: Το εργαλείο εξάγει τα λήµµατα από το λεξικό βασισµένο στις πληροφορίες για το µέρος του λόγου τους. εξαγωγή των συνδεδεµένων ληµµάτων και των συνθέτων ληµµάτων: Το εργαλείο εξάγει τα συνδεµένα λήµµατα: π.χ. θηλυκές µορφές (π.χ. Αδελφή - αδελφός). εξαγωγή συνωνύµων και αντωνύµων: Αναζήτηση συνωνυµικών και αντωνυµικών σχέσεων στους ορισµούς των ληµµάτων του λεξικού. 12

Παράδειγµα Εξαγωγής Συνωνύµων 13

Υπολογιστικά Εργαλεία που χρησιµοποιούν Σώµατα Κειµένων Ληµµατοποιητής (Lemmatizer) για την ελληνική γλώσσα Όταν δίνεται ως εισαγωγή µια ελληνική λέξη, αναλύει τη λέξη και βρίσκει τη µορφή µε την οποία η λέξη εµφανίζεται στα λεξικά (λήµµα) (π.χ.ανθρώπου -> άνθρωπος) Στόχοι σχεδιασµού Να είναι χρήσιµος σε διαφορετικά εργαλεία. Να απαιτεί όσο το δυνατόν λιγότερους λεξικούς πόρους (Απαιτεί µόνο µια λίστα λέξεων). Να είναι υπολογιστικά αποδοτικός. 14

Υπολογιστικά Εργαλεία που χρησιµοποιούν το Ληµµατοποιητή Μετρητής συχνότητας ληµµάτων λέξεων σε σώµατα κειµένου. Μεταφραστής λέξεων από ελληνικά στα αγγλικά Εργαλείο που βρίσκει το µέρος του λόγου των λέξεων (Part of Speech Tagger) Υπολογιστικό εργαλείο για την εξαγωγή συµφωνιών (concoradances) και παραθέσεων (collocations) λέξεων σε σώµατα κειµένου. 15

Μετρητής Συχνότητας Ληµµάτων Λέξεων Παράδειγµα εµφάνισης συχνότητας ληµµάτων ουσιαστικών σε σώµα κειµένων µεγέθους περίπου 1.3Μ λέξεων. 16

Εργαλείο για την Εξαγωγή Συµφωνιών και Παραθέσεων Παραθέσεις της λέξης «µέρα» ταξινοµηµένες ως προς συχνότητα εµφάνισης 17

ηµιουργία ενός σώµατος κειµένου για την πιστοποίηση του Ελληνικού WordNet. Το 1984 του George Orwell Το κείµενο του 1984 υπήρχε ήδη έτοιµο (δηλ. ευθυγραµµισµένο σε επίπεδο πρότασης και εµπλουτισµένο µε πληροφορία για το µέρος του λόγου και τα λήµµατα των λέξεων) για όλες τις γλώσσες που συµµετέχουν στο BalkaNet, εκτός από τα ελληνικά και τα τουρκικά (στα πλαίσια του προγράµµατος Multext-East) Η αντίστοιχη έκδοση του ελληνικού κειµένου αναπτύχθηκε για την πιστοποίηση του WordNet. 18

ηµιουργία ενός σώµατος κειµένου για την πιστοποίηση του Ελληνικού WordNet. Ευθυγράµµιση προτάσεων Ευθυγράµµιση των προτάσεων του ελληνικού κειµένου µετις αντίστοιχες του αγγλικού κειµένου. Ηµιαυτόµατη ευθυγράµµιση. Αρχικά αναπτύχθηκε ένας αλγόριθµος αυτόµατης ευθυγράµµισης ο οποίος εφαρµόστηκε στο κείµενο και έπειτα έγινε διόρθωση των λαθών του αλγορίθµου µε το χέρι. Εµπλουτισµός µε πληροφορία για το µέρος του λόγου και τα λήµµατα των λέξεων Οληµµατοποιητής και το εργαλείο εύρεσης µερών του λόγου χρησιµοποιήθηκαν για να εκτελέσουν αυτές τις εργασίες. Επίσης χρησιµοποιήθηκε και ένα εργαλείο ανάθεσης µερών του λόγου (Part-of-Speech Tagger) το οποίο αναπτύχθηκε στο Ινστιτούτο Επεξεργασίας Λόγου. 19

Εργαλείο Ευθυγράµµισης Προτάσεων Ελληνικού και Αγγλικού Κειµένου 20

Παράδειγµα πρότασης του κειµένου Verb: <tu id="ozz.3751"> Verb: Indicative, Indicative, Past, Past, 3 rd <seg lang="gr"><s> rd Singular, Singular, Passive, Passive, Perfective Perfective <w lemma="ακούω" ana="v-is3s-p------e">ακούστηκε</w> Noun: <w lemma="πάλι" ana="r-p">πάλι</w> Noun: Common, Common, Male, <w lemma="ένας" ana="ti">ένας</w> Male, Singular Singular <w lemma="πάταγος" ana="ncms">πάταγος</w> <c>.</c></s></seg> </tu> <tu id="ozz.3751"> <seg lang="en"><s> <w lemma="there" ana="pt3">there</w> <w lemma="be" ana="vmis3s">was</w> <w lemma="another" ana="dg--s">another</w> <w lemma="crash" ana="ncns">crash</w> <c>.</c></s></seg> </tu> 21