Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα



Σχετικά έγγραφα
Αναγνώριση παραπομπών σε ελληνικά νομικά κείμενα με χρήση κανόνων

24 Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. Database construction of Greek acronyms, used in Greek law texts

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

26 Αναγνώριση παραπομπών σε ελληνικά νομικά κείμενα με χρήση κανόνων. Reference identification, in greek law texts with use of regular expressions

Κεφάλαιο 2: Τυπικές γλώσσες. Νίκος Παπασπύρου, Κωστής Σαγώνας Μεταγλωττιστές Μάρτιος / 216

Βάσεις Περιβαλλοντικών Δεδομένων

Τεχνητή Νοημοσύνη ΙΙ. Εργαστηριακή Άσκηση 3. Μουστάκας Κωνσταντίνος. Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστων

Διαχείριση Πολιτισμικών Δεδομένων

Τίτλος Εργασίας Καινοτόμου Προγράμματος και Δράσης

ΚΑΤΕΥΘΥΝΣΕΙΣ ΠΡΟΣ ΔΙΚΑΙΟΥΧΟΥΣ ΓΙΑ ΤΗΝ ΚΑΤΑΧΩΡΙΣΗ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΟΠΣ ΠΟΥ ΔΗΜΟΣΙΕΥΟΝΤΑΙ ΣΤΟ anaptyxi

Εθνικόν και Καποδιστριακόν Πανεπιστήμιον Αθηνών

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Εισαγωγή Κεφάλαιο 1: Εγκατάσταση της Access Κεφάλαιο 2: Βάσεις δεδομένων και δομικά στοιχεία της Access

Μεταγλωττιστές. Ενότητα 6: Λεκτική ανάλυση (Μέρος 2 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

ΚΕΝΤΡΟ ΣΥΝΕΧΙΖΟΜΕΝΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΕΠΙΜΟΡΦΩΣΗΣ

Εκτύπωση Γενικού Ημερολογίου

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 3 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

Ενότητα. Εισαγωγή στη Microsoft Access

ΗΛΕΚΤΡΟΝΙΚΟ ΣΥΣΤΗΜΑ ΥΠΟΒΟΛΗΣ ΜΗΧΑΝΟΓΡΑΦΙΚΟΥ ΔΕΛΤΙΟΥ

Τίτλος Εργασίας. Επώνυμο και Όνομα Πρώτου Εισηγητή (ΠΡΟΣΟΧΗ: πρώτα το Επώνυμο) Ιδιότητα, Εργασιακός Φορέας, Διεύθυνση

Ενότητα. Σχεδίαση Βάσεων Δεδομένων

Οδηγός Κατάθεσης στο Ιδρυματικό Αποθετήριο του Πολυτεχνείου Κρήτης

ΠΡΑΞΗ: «ΜΟ.ΔΙ.Π» (Μονάδα Διασφάλισης Ποιότητας) του Πανεπιστημίου Μακεδονίας» Κωδικός MIS ΥΠΟΕΡΓΟ:

Υποσύστημα. Διαχείρισης Δαπανών. του Τακτικού Προϋπολογισμού

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού

ΥΠΟΥΡΓΕΙΟ ΟΙΚΟΝΟΜΙΑΣ & ΑΝΑΠΤΥΞΗΣ ΓΕΝΙΚΗ ΓΡΑΜΜΑΤΕΙΑ ΔΗΜΟΣΙΩΝ ΕΠΕΝΔΥΣΕΩΝ & ΕΣΠΑ ΕΘΝΙΚΗ ΑΡΧΗ ΣΥΝΤΟΝΙΣΜΟΥ ΕΙΔΙΚΗ ΥΠΗΡΕΣΙΑ Ο.Π.Σ.

APMSS Air Pollution Measurement Statistical System

ΕΞΩΛΕΚΤΙΚΗ ΕΠΙΚΟΙΝΩΝΙΑ

Ηλεκτρονική υποβολή εντύπου Ε5 Αναγγελία Οικειοθελούς Αποχώρησης

Διαχείριση Αξιόγραφων

Σύλλογος Οδηγίες Χρήσης Εφαρμογής

1. ΣΤΟΙΧΕΙΑ ΤΙΤΛΟΥ ΔΙΑΤΡΙΒΗΣ

ΓΕΝΙΚΗ ΓΡΑΜΜΑΤΕΙΑ ΔΗΜΟΣΙΩΝ ΕΠΕΝΔΥΣΕΩΝ & ΕΣΠΑ

Κεντρική δράση ΕΠΕΑΕΚ ΕΜΠ. Κυριάκος Ι. Σπυρόπουλος Αν. Καθηγητής, Επιστ. Υπεύθυνος ΚΗΥ, ΕΜΠ

ΗΛΕΚΤΡΟΝΙΚΟ ΣΥΣΤΗΜΑ ΥΠΟΒΟΛΗΣ ΜΗΧΑΝΟΓΡΑΦΙΚΟΥ ΔΕΛΤΙΟΥ

Πρόλογος... 7 ΕΙΔΙΚΟΣ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ

Εγχώριες Πωλήσεις Φαρμακαποθηκών

ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ ΤΟΥ ΤΜΗΜΑΤΟΣ ΣΤΟΧΟΙ ΓΙΑ ΤΗΝ ΠΕΡΙΟΔΟ ΠΑΡΑΡΤΗΜΑ ΧΙ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Διαχείρισης Πρότυπων Εγγραφών Εσόδων Εξόδων και Άρθρων Γενικής Λογιστικής

ΟΔΗΓΙΕΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΕΡΓΑΣΙΩΝ

Βασικές έννοιες προγραμματισμού

Παρουσίαση της απαλλακτικής εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2015)

Απλά ηλεκτρικά κυκλώματα - Νόμος του Ωμ

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ ΠΡΟΣΩΠΙΚΑ ΣΤΟΙΧΕΙΑ

Διαχείριση Βάσης Δεδομένων (dbadmin)

Η ΣΕΙΣΜΙΚΟΤΗΤΑ ΤΗΣ ΕΛΛΑΔΑΣ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος

Διαχείριση Δεδομένων

1. ΣΤΟΙΧΕΙΑ ΤΙΤΛΟΥ ΔΙΑΤΡΙΒΗΣ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

Ταξινόμηση, φίλτρα, γραφήματα στα υπολογιστικά φύλλα.

Kεφάλαιο 11 Λίστες και Ανάλυση Δεδομένων Kεφάλαιο 12 Εργαλεία ανάλυσης πιθανοτήτων Kεφάλαιο 13 Ανάλυση δεδομένων...

Θέματα Υπολογισμού στον Πολιτισμό

Τίτλος Εργασίας Εργαστηριακής Παρουσίασης

1 ο Θερινό Σχολείο: ICT και Εφαρμογές»

Πληροφοριακό Σύστημα ΜΟΔΙΠ του ΕΑΠ. Δρ. Γιάννης Ντόκας Μέλος Ομάδας Έργου

ΠΡΟΓΡΑΜΜΑ B ΕΞΑΜΗΝΟΥ. ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ "Εξειδίκευση στις Τ.Π.Ε. και Ειδική Αγωγή Ψυχοπαιδαγωγική της Ένταξης"

Κβαντική Επεξεργασία Πληροφορίας

Τίτλος Εργασίας Εκπαιδευτικού Σεναρίου

ΑΝΑΚΟΙΝΩΣΗ. Κομοτηνή

Π14.3.1) ΣΥΛΛΟΓΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΩΝ ΦΟΙΤΗΤΩΝ / ΦΟΡΕΩΝ / ΕΠΟΠΤΩΝ

Pylon Entry. Υπηρεσίες. Στην διαδικασία αυτή περιγράφεται η Δημιουργία- Μεταβολή-Διαγραφή και Αναζήτηση υπηρεσίας

Τα Μεταπτυχιακά Προγράμματα και τα Προγράμματα Κατάρτισης της Α.Σ.ΠΑΙ.Τ.Ε.

Θέματα Υπολογισμού στον Πολιτισμό

Επικεντρώνεται στην περιγραφή της χρήσης της Ανέμη και στην αξιολόγησή της.

Περιεχόμενα. Μέρος 1: Βασικές έννοιες Πληροφορικής και επικοινωνιών Μέρος 2: Χρήση υπολογιστή και διαχείριση αρχείων Πρόλογος...

Κεφάλαιο 7 ο Βασικές Έννοιες Προγραμματισμού (σελ )

ΠΡΟΚΗΡΥΞΗ ΠΛΗΡΩΣΗΣ ΘΕΣΗΣ ΤΑΚΤΙΚΟΥ ΕΚΠΑΙΔΕΥΤΙΚΟΥ ΠΡΟΣΩΠΙΚΟΥ

Το διαδίκτυο ως εργαλείο αξιολόγησης του Εκπαιδευτικού Προσωπικού. Το παράδειγμα του Τμήματος Τυποποίησης & Διακίνησης Προϊόντων (Logistics)

Ελληνική Στατιστική Αρχή 3ο Συνέδριο Χρηστών. Πειραιάς

Pylon Entry. Υπηρεσίες. Στην διαδικασία αυτή περιγράφεται η Δημιουργία- Μεταβολή-Διαγραφή και Αναζήτηση υπηρεσίας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

Εργαστηριακό Μέρος του Μαθήματος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ. Κ. Δεμέστιχας, Κ. Κωστοπούλου Εργαστήριο Πληροφορικής Γεωπονικό Πανεπιστήμιο Αθηνών

ΓΕΝΙΚΗ ΓΡΑΜΜΑΤΕΙΑ ΔΗΜΟΣΙΩΝ ΕΠΕΝΔΥΣΕΩΝ & ΕΣΠΑ ΕΘΝΙΚΗ ΑΡΧΗ ΣΥΝΤΟΝΙΣΜΟΥ ΕΙΔΙΚΗ ΥΠΗΡΕΣΙΑ Ο.Π.Σ.

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Microsoft PowerPoint 2007

Θέματα υπολογισμού στον πολιτισμό

ΘΕΡΙΝΑ ΣΧΟΛΕΙΑ Αξιοποιώντας Ψηφιακά Μαθησιακά Αντικείμενα στη Διδασκαλία

Υλοποίηση συστημάτων ανοικτής πρόσβασης στο Εθνικό Κέντρο Τεκμηρίωσης

One button AAC: Πλατφόρμα εναλλακτικής επικοινωνίας ατόμων με σοβαρά κινητικά προβλήματα. Βιλελμίνη Καλαμπρατσίδου

Ε ΛΙΣΤΑ ΙΣΧΥΟΥΣΑΣ ΝΟΜΟΘΕΣΙΑΣ ΕΡΓΩΝ

Τίτλος Πακέτου Certified Computer Expert-ACTA

Η Βιβλιοθήκη του Α.Τ.Ε.Ι.Θ

ΗΛΕΚΤΡΟΝΙΚΟ ΣΥΣΤΗΜΑ ΥΠΟΒΟΛΗΣ ΜΗΧΑΝΟΓΡΑΦΙΚΟΥ ΔΕΛΤΙΟΥ

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΟΛΟΚΛΗΡΩΜΕΝΟΥ ΠΛΗΡΟΦΟΡΙΑΚΟΥ ΣΥΣΤΗΜΑΤΟΣ (ΟΠΣ) ΓΙΑ ΤΗΝ ΠΡΟΓΡΑΜΜΑΤΙΚΗ ΠΕΡΙΟΔΟ ΣΕΣ ΕΝΟΤΗΤΑ «ΕΣΟΔΑ ΕΡΓΩΝ»

Μεταγλωττιστές. Ενότητα 5: Λεκτική ανάλυση (Μέρος 1 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Λίγα λόγια από το συγγραφέα...7

Ηλεκτρονική υποβολή εντύπου Ε7 Βεβαίωση Δήλωση Εργοδότη για Σύμβαση Ορισμένου Χρόνου

Το συγκεκριμένο εγχειρίδιο δημιουργήθηκε για να βοηθήσει την κατανόηση της διαδικασίας των αριθμοδεικτών. Παρακάτω προτείνεται μια αλληλουχία

12 ο Συνέδριο Αθλητικής Ψυχολογίας «Η Αθλητική Ψυχολογία στην παιδεία, την ποιότητα ζωής και τον αθλητισμό» Αθήνα, Δεκεμβρίου 2012

1. «ΚΕΝΤΡΟΥ ΕΥΡΩΠΑΪΚΟΥ ΚΑΙ ΣΥΝΤΑΓΜΑΤΙΚΟΥ ΙΚΑΙΟΥ Ι ΡΥΜΑ ΘΕΜΙΣΤΟΚΛΗ ΚΑΙ ΗΜΗΤΡΗ ΤΣΑΤΣΟΥ»,

Αλλαγή καταχωρητή ονομάτων χώρου

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

Σκοπός του μαθήματος

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων

Transcript:

9ο Συνέδριο «Ελληνική Γλώσσα και Ορολογία», Αθήνα, 7-9 Νοεμβρίου 2013 Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα Τσιμπούρης Χαράλαμπος Υπ. Διδάκτορας Εργαστήριο Ενσύρματης Τηλ. Τμήμα Ηλ. Μηχ. & Τεχ. Υπολ. Πανεπιστήμιο Πατρών xtsimpouris [at] upatras [dot] gr Κυριάκος Σγάρμπας Επίκουρος Καθηγητής Εργαστήριο Ενσύρματης Τηλ. Τμήμα Ηλ. Μηχ. & Τεχ. Υπολ. Πανεπιστήμιο Πατρών sgarbas [at] upatras [dot] gr Υπό την αιγίδα της Επιτροπής Ερευνών του Πανεπιστημίου Πατρών, στα πλαίσια της βασικής έρευνας Καραθεοδωρής

Δομή Παρουσίασης Εισαγωγή Ανάλυση & αντιμετώπιση προβλήματος Μελέτη Βάση δεδομένων e-themis Μεθοδολογία Αποτελέσματα Συμπεράσματα Τσιμπούρης Χαράλαμπος, Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. [ 2 / 15 ]

Ανάλυση & αντιμετώπιση προβλήματος 1.. Βασικές κατηγορίες εκτεταμένης χρήσης ακρωνυμίων: Τεχνικά εγχειρίδια (RFC, εγχειρίδια χρήσεως, κ.α.) ) Νομικά κείμενα Ιατρικά κείμενα Επεξήγηση ορισμού: Περιεχόμενα, Ευρετήριο όρων (διατριβής, ή άλλου ακαδημαϊκού χαρακτήρα) Μέσα στην πρόταση, κατά την πρώτη αναφορά Στατιστικά: 1% λεξικό Κοραής (857 λήμματα σε σύνολο 81.000) ~0.6% κείμενο γενικού περιεχομένου αυξάνεται σε 1.5% στα νομικά κείμενα Τσιμπούρης Χαράλαμπος, Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. [ 3 / 15 ]

Ανάλυση & αντιμετώπιση προβλήματος..2 Προβλήματα που πρέπει να αντιμετωπιστούν για αυτόματη εξαγωγή: Απαραίτητη υποδομή Βάση εκπαίδευσης & ελέγχου Εκπαίδευση με αλγόριθμους μάθησης Προαιρετικά Διαχείριση ποικιλομορφίας γλώσσας Εξαγωγή μερών λόγου και σύνταξης Τσιμπούρης Χαράλαμπος, Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. [ 4 / 15 ]

Μελέτη Πώς Πού Χωρίς επίσημη τυποποίηση (ΕΛΟΤ, Ιούνιος 2013) Κανονικές εκφράσεις Αυτόματα πεπερασμένων καταστάσεων Ταξινομητές Naive Bayes Δημιουργείται; ; Αναφέρεται την πρώτη φορά; Αναφέρεται στην συνέχεια; Αναγνωρίζεται; Ανεπίσημες ιστοσελίδες με λίστες Ακρωνυμίων όπως asas.gr Καταχωρείται; lexeis.gr Πότε Παύει να υπάρχει ; Ζει εφ' όρου ζωής στην επίσημη λίστα ή πρέπει να συνοδεύεται και από κάποιο χρονικό προσδιορισμό; Τσιμπούρης Χαράλαμπος, Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. [ 5 / 15 ]

Βάση δεδομένων e-themis e-themis.gov.gr Υποστηρίζεται από το Τμήμα Λογιστικής και Γραμματειακής Υποστήριξης του Υπουργείου εξωτερικών Τελευταία προσπέλαση, Ιούνιος 2012 Μη διαθέσιμο πλέον Δωρεάν πρόσβαση σε 40 θεματικές ενότητες κώδικα νομοθεσίας Συνταγματικό Διοικητικό Νομαρχίες... 105 Έγγραφα σε μορφή Microsoft Word Κωδικοποίηση UTF-8 410 Mbytes ~ 32 εκ. λεκτικές μονάδες (tokens) Τσιμπούρης Χαράλαμπος, Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. [ 6 / 15 ]

Μεθοδολογία, στατιστική ανάλυση.. Επιλογή αρχικού σώματος κειμένων Στατιστική ανάλυση με χρήση κανονικής έκφρασης Ταξινόμηση κειμένων ως προς την πυκνότητα αποτελεσμάτων Επιλογή τριών πρώτων κειμένων Α/Α Λεκτ. Μονάδες Ακρ. Παράδειγμα ακρ. Αρχείο μελέτης 1 1672173 249 Υ.Ε.Ο., Υ.Ε.Ε.Π.Π. 13β_βιομηχανία_ανάπτυξη_αλιεία 2 1048518 154 Β.Π., Υ.Ε.Α., Υ.Α. 37_πολεμικό λ ό ναυτικό 3 2367870 288 Ο.Ε.Σ.Β., Γ.Α.Κ. 32_εκπαιδευτική_νομοθεσία_αθλητισμός 4 1560683 185 Υ.Ν., Σ.Ν.Δ., Α.Ν.Σ. 37α_πολεμικό_ναυτικό μ _ 5 1674019 198 Γ.Ε.Α., Ε.Β.Α. 38_πολεμική_αεροπορία_πολιτική_αεροπορία Τσιμπούρης Χαράλαμπος, Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. [ 7 / 15 ]

Μεθοδολογία, εξαγωγή ακρωνυμίων.. Ημιαυτόματη διαδικασία εξαγωγής αποτελεσμάτων 533 Διαφορετικά ακρωνύμια Διαφορετικά == Εφόσον έχουν διαφορετικό ορισμό 339 Με επεξήγηση ορισμού ( ~63% ) Εφόσον αναφερόταν μέσα στην ίδια πρόταση Εξαγωγή χαρακτηριστικών (features): Επεξήγηση σε επόμενη διαφάνεια Εξαγωγή επισημείωσης: Ενσωμάτωση επισημείωσης XML στα κείμενα μελέτης Τσιμπούρης Χαράλαμπος, Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. [ 8 / 15 ]

Μεθοδολογία, εξαγωγή χαρακτηριστικών & δημιουργία λεξικού/corpus Εξαγωγή των παρακάτω χαρακτηριστικών: Ακρωνύμιο (σε κανονική μορφή) Ακρωνύμιο (όπως ανιχνεύτηκε) Επεξήγηση/Ορισμός (εφόσον έχει δηλωθεί) Θέση μέσα στο αρχείο Παράθυρο 200 χαρακτήρων πριν την εμφάνιση ακρωνυμίου Παράθυρο 200 χαρακτήρων μετά την εμφάνιση ακρωνυμίου 0/1 αν η επεξήγηση βρίσκεται εντός του παραθύρου χαρακτήρων πριν το ακρωνύμιο 0/1 αν η επεξήγηση βρίσκεται εντός του παραθύρου χαρακτήρων μετά το ακρωνύμιο 0/1 αν το ακρωνύμιο βρίσκεται μέσα σε παρενθέσεις Τσιμπούρης Χαράλαμπος, Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. [ 9 / 15 ]

Αποτελέσματα, προβλήματα αναγνώρισης ακρωνυμίων Αδυναμία χρήσης απλοϊκής κανονικής έκφρασης, τύπου Δηλαδή, κεφαλαία γράμματα που ακολουθούνται από τελεία ή κενό ([Α-Ω].[ ])+ ή ([Α-Ω])+ για αναγνώριση ακρωνυμίων. Ανάμεικτη χρήση πεζών & κεφαλαίων χαρακτήρων Λέξεις/Προτάσεις με μόνο κεφαλαία γράμματα (Τίτλοι, κ.α.) Υπερβολική χρήση σημείων στίξης τελείας & παύλας, και πιθανού κενού -> προβλήματα στον αυτόματο διαχωριστή προτάσεων (sentence tokeniser) και λέξεων (word tokeniser) Ελάχιστη χρήση αριθμών Τσιμπούρης Χαράλαμπος, Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. [ 10 / 15 ]

Αποτελέσματα, προβλήματα αναγνώρισης ορισμού (1/3) Διαφορετική κλίση ή τρόπος γραφής Ακρωνύμιο: Α.Ε. Επεξήγηση, γραφή 1: Ανώνυμος Εταιρεία Επεξήγηση, γραφή 2: Ανωνύμων Εταιρειών Επεξήγηση, γραφή 3: Ανωνύμων Εταιριών Δυσκολία συσχέτισης μεταξύ γραμμάτων ακρωνυμίου και λέξεων επεξήγησης Ακρωνύμιο: ΚΥΣΕΠ Επεξήγηση: Κεντρικόν Υπηρεσιακόν και Πειθαρχικόν Συμβούλιον Εποπτικού Προσωπικού Μέσης Τεχνικής και Επαγγελματικής Εκπαιδεύσεως Επαναλαμβανόμενη χρήση λέξης κατάρτιση Ακρωνύμιο: Ε.Ε.Κ. Επεξήγηση, γραφή 1: επαγγελματική εκπαίδευση και κατάρτιση Επεξήγηση, γραφή 2: επαγγελματική εκπαίδευση και επαγγελματική Τσιμπούρης Χαράλαμπος, Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. [ 11 / 15 ]

Αποτελέσματα, προβλήματα αναγνώρισης ορισμού (2/3) Η επεξήγηση βασίζεται σε άλλες συντομεύσεις Ακρωνύμιο: ΥΠΕΠΘ Επεξήγηση, γραφή 1: Υπουργείο Εθνικής Παιδείας και Θρησκευμάτων Επεξήγηση, γραφή 2: υπ. εθν. παιδείας και θρησκευμάτων Ασάφεια στον επίσημο τίτλο δημόσιας υπηρεσίας Ακρωνύμιο: Ε.Σ.Α.Π. Επεξήγηση: Εθνικό Συμβούλιο Ανώτατης Παιδείας Ακρωνύμιο 2: Σ.Α.Π. Επεξήγηση: Συμβούλιο Ανώτατης Παιδείας Ακρωνύμιο 3: Ε.Σ.Π. Επεξήγηση: Εθνικό Συμβούλιο Παιδείας Τσιμπούρης Χαράλαμπος, Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. [ 12 / 15 ]

Αποτελέσματα, προβλήματα αναγνώρισης ορισμού (3/3) Αλλαγή σειράς λέξεων Ακρωνύμιο: ΣΕΛΕΤΕ Επεξήγηση, γραφή 1: Σχολής Εκπαιδευτικών Λειτουργών Επαγγελματικής και Τεχνικής Εκπαιδεύσεως Επεξήγηση, γραφή 2: σχολής εκπαιδευτικών λειτουργών τεχνικής και επαγγελματικής εκπαιδεύσεως Τσιμπούρης Χαράλαμπος, Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. [ 13 / 15 ]

Συμπεράσματα & Μελλοντικές κατευθύνσεις Σημαντική έλλειψη επίσημης τυποποίησης Δημιουργίας ακρωνυμίων Αναφοράς ορισμού Έλλειψη επίσημης καταγραφής σε ενιαία βάση δεδομένων Έλλειψη ενημέρωσης κοινού (δικηγόροι, νομοτεχνικοί & δημ. υπάλληλοι, δημοσιογράφοι, πολίτες) Διαδικτυακή έκδοση (υπό κατασκευή) Αυτόματη αναζήτηση ακρωνυμίων Σύνδεση με αντίστοιχο ορισμό Τσιμπούρης Χαράλαμπος, Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα. [ 14 / 15 ]

Ερωτήσεις Σας ευχαριστώ για την προσοχή σας