ΙΑΤΡΟΛΕΞΗ Το ορολόγιο της βιοϊατρικής: συλλογή και επεξεργασία του γλωσσικού υλικού. Μαβίνα Πανταζάρα, ρ. Γλωσσολόγος



Σχετικά έγγραφα
ΙΑΤΡΟΛΕΞΗ. Όροι της βιοϊατρικής: συλλογή και επεξεργασία του γλωσσικού υλικού. Μαβίνα Πανταζάρα, ρ. Γλωσσολογίας. Σελίδα 1 Ηµεροµηνία: 10/12/2007

14 Ζητήματα αναγνώρισης των πολυλεκτικών σύμπλοκων όρων στον τομέα της βιοϊατρικής

Ηµεροµηνία: Έκδοση: Τύπος: Final Eµπιστευτικό

Software Production Company

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

Π22: Τελική Αναφορά Έργου

Σχεδιασµός Ανάπτυξη Οντολογίας

2, µε τίτλο: «Υλοποίηση Εργαλείων Ανάπτυξης ιαχείρισης Σώµατος Κειµένων και Αυτόµατης Εξαγωγής Ορολογίας».

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ 3 2 ΤΟ ΠΡΟΓΡΑΜΜΑ ΤΗΣ ΗΜΕΡΙ ΑΣ 4 3 ΑΝΑΛΥΤΙΚΗ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΘΕΜΑΤΩΝ ΕΙΣΑΓΩΓΗ ΕΝΑΡΚΤΗΡΙΑ ΣΥΝΕ ΡΙΑ ΠΡΟΣΚΕΚΛΗΜΕΝΟ

Γλωσσική επιμέλεια: επιλογή ή αναγκαιότητα; Άννα Ιορδανίδου

Ανάπτυξη Οντολογίας Βιοϊατρικών Όρων Βαγγελάτος A. 1, Ορφανός Γ. 2, Τσαλίδης Χ. 2, Καλαμαρά Χ. 3

3. Με ποιο άλλο σύστημα είναι συνδεδεμένο το κυκλοφορικό σύστημα;

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β )

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς

ΠΟΙΟΤΙΚΟΣ ΕΛΕΓΧΟΣ ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΑΠΟΔΟΣΕΩΝ ΣΤΗΝ ΟΡΟΛΟΓΙΚΗ ΒΑΣΗ ΙΑΤΕ ΑΠΘ. 5η ΣΥΝΑΝΤΗΣΗ ΕΛΛΗΝΟΦΩΝΩΝ ΜΕΤΑΦΡΑΣΕΟΛΟΓΩΝ

Θέµατα Πανελληνίων Βιολογίας Γ.Π Άµυνα - Ανοσία

ΦΩΝΗΤΙΚΗ-ΦΩΝΟΛΟΓΙΑ (Ι)

7 0 0 /2 /7 0 : 2 1 ( 2 ( Google Yahoo

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού

Θέµατα Μορφολογίας της Νέας Ελληνικής Ι. Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας

ΚΥΚΛΟΦΟΡΙΚΟ ΕΠΑΝΑΛΗΨΗ Α ΛΥΚΕΙΟΥ

2. ΣΥΝΟΠΤΙΚΗ ΠΕΡΙΓΡΑΦΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΡΟΓΡΑΜΜΑΤΩΝ ΣΠΟΥΔΩΝ ΕΝΓ

Κυκλοφορικό σύστημα. Από μαθητές και μαθήτριες του Στ 1

ΛΕΞΙΛΟΓΙΚΟ ΒΟΗΘΗΜΑ ΓΙΑ ΤΗΝ ΥΠΟΣΤΗΡΙΞΗ ΤΩΝ ΔΙΔΑΣΚΟΝΤΩΝ ΤΗΝ ΕΛΛΗΝΙΚΗ ΩΣ ΔΕΥΤΕΡΗ/ΞΕΝΗ ΓΛΩΣΣΑ ΕΙΣΑΓΩΓΙΚΟ ΣΗΜΕΙΩΜΑ

Στάδια Ανάπτυξης Λόγου και Οµιλίας

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου

Κ. Δανακτσή, Α. Ευαγγελίου, Ο. Μουρογιάννη, Α. Τζοτζαδίνη

ΛΑΝΙΤΕΙΟ ΓΥΜΝΑΣΙΟ ΣΧΟΛΙΚΗ ΧΡΟΝΙΑ:

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη

Τύποι πόρων προς συγκέντρωση Σενάρια χρήσης

Η γλώσσα ως σύστημα και ως χρήση. Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ

Η ύλη για τις εξετάσεις υποτροφιών: (για οποιαδήποτε διευκρίνιση μπορείτε να απευθύνεστε στις γραμματείες των φροντιστηρίων).

όλοι αναπνευστική οδός στομάχι στόμα

Β τάξη. Κειµενικοί στόχοι Λεξικογραµµατικοί στόχοι Γραπτά µηνύµατα του περιβάλλοντος

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών


ΕΙΔΙΚΗ ΓΛΩΣΣΙΚΗ ΔΙΑΤΑΡΑΧΗ. Πολυδύναµο Καλλιθέας Φεβρουάριος 2008 Αναστασία Λαµπρινού

Β. ΚΑΜΙΝΕΛΛΗΣ ΒΙΟΛΟΓΙΑ. Είναι η επιστήμη που μελετά τους ζωντανούς οργανισμούς. (Αποτελούνται από ένα ή περισσότερα κύτταρα).

προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

ΣΕΤ ΑΣΚΗΣΕΩΝ 4. Προθεσµία: 8/1/12, 22:00

ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΓΛΩΣΣΙΚΟΥ ΜΑΘΗΜΑΤΟΣ

ΥΛΗ ΕΞΕΤΑΣΕΩΝ 2007 ΥΠΟΨΗΦΙΩΝ ΥΠΟΤΡΟΦΩΝ ΚΑΘΙΔΡΥΜΑΤΟΣ ΑΘΑΝΑΣΙΟΥ ΜΑΤΑΛΑ Α ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ

ορολογίας στο έργο του ελληνόφωνου νομικού Παναγιώτης Γ. Κριμπάς Επίκουρος Καθηγητής Ορολογίας και Μετάφρασης (Δ.Π.Θ.) Δικηγόρος (Δ.Σ.Α.

1ο Επεισόδιο. Ταξίδι στο υγρό της ζωής- Το αίμα

Προηγµένη ιασύνδεση µε τοπεριβάλλον

ΓΥΜΝΑΣΙΟ ΑΠ. ΠΑΥΛΟΥ ΣΧΟΛΙΚΗ ΧΡΟΝΙΑ:


Επανάληψη πριν τις εξετάσεις Καλό διάβασμα

ΜΑΘΗΜΑ: ΦΥΣΙΚΑ (ΦΥΣΙΚΗ-ΧΗΜΕΙΑ/ΒΙΟΛΟΓΙΑ ) ΣΥΝΟΛΙΚΟΣ ΧΡΟΝΟΣ: 1.30 (ΩΡΕΣ 90 λεπτά) ΠΡΟΣΟΧΗ

ΓΥΜΝΑΣΙΟ ΑΓΙΟΥ ΔΟΜΕΤΙΟΥ ΣΧΟΛΙΚΗ ΧΡΟΝΙΑ ΓΡΑΠΤΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΙΟΥΝΙΟΥ 2015

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ -

ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ

ΓΥΜΝΑΣΙΟ ΑΓ.ΑΘΑΝΑΣΙΟΥ ΣΧΟΛΙΚΗ ΧΡΟΝΙΑ ΓΡΑΠΤΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΙΟΥΝΙΟΥ 2014

ΟΔΗΓΙΕΣ ΓΙΑ ΤΗΝ ΕΚΠΟΝΗΣΗ ΤΗΣ ΥΠΟΧΡΕΩΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΣΤΟ ΠΛΑΙΣΙΟ ΤΟΥ ΜΑΘΗΜΑΤΟΣ

μαθητικό φροντιστήριο

ΕΚΠΑΙΔΕΥΤΗΡΙΑ «ΝΕΑ ΠΑΙΔΕΙΑ» Τομέας Νέων Ελληνικών

ΙΑΤΡΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΑΘΗΝΩΝ (ΕΚΠΑ) ΚΑΤΑΤΑΚΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΑΚ.ΕΤΟΥΣ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΧΗΜΕΙΑ

Οξεία μυελογενής λευχαιμία

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

ΚΥΚΛΟΦΟΡΙΚΟ ΣΥΣΤΗΜΑ ΚΑΡΔΙΑ

Ενότητα 3 Επεξεργασία Κειμένου

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

Ενηµέρωση για το µάθηµα Γενικής Παιδείας «Νέα Ελληνικά» της α και β τάξης των Ηµερήσιων και Εσπερινών ΕΠΑ.Λ. Σχ. Έτους

Βασικές Αρχές Ανατομίας Μεθοδολογία της Έρευνας

Τύποι πόρων προς συγκέντρωση Σενάρια χρήσης

Βιολογία Α Λυκείου Κεφ. 3. Κυκλοφορικό Σύστημα. Καρδιά Αιμοφόρα αγγεία Η κυκλοφορία του αίματος Αίμα

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

Βιολογία Προσανατολισμού Γ Λυκείου Κεφάλαιο: Κεφάλαια 1,2,4 Ονοματεπώνυμο Μαθητή: Ημερομηνία: 08/12/2018 Επιδιωκόμενος Στόχος: 75/100

«Παρατηρήσεις και προβλήµατα. Παντελής Α. Μπράττης Βιβλιοθηκονόµος Τεχνική Υποστήριξη ΣΚΕΑΒ

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

Τρίτη, 27 Μαΐου 2008 Γ ΛΥΚΕΙΟΥ ΚΑΤΕΥΘΥΝΣΗΣ ΒΙΟΛΟΓΙΑ

Tρίτη, 1 η Ιουνίου 2004 ΘΕΤΙΚΗ ΚΑΤΕΥΘΥΝΣΗ Γ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

ΜΑΘΗΜΑ: ΦΥΣΙΚΑ (ΦΥΣΙΚΗ-ΧΗΜΕΙΑ/ΒΙΟΛΟΓΙΑ ) ΣΥΝΟΛΙΚΟΣ ΧΡΟΝΟΣ: 1.30 (ΩΡΕΣ 90 λεπτά) ΠΡΟΣΟΧΗ

ΑΥΤΟΝΟΜΟ ΝΕΥΡΙΚΟ ΣΥΣΤΗΜΑ (ΑΝΣ) ΠΑΥΛΟΣ Γ. ΚΑΤΩΝΗΣ ΑΝΑΠΛ. ΚΑΘΗΓΗΤΗΣ ΙΑΤΡΙΚΗΣ ΣΧΟΛΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΚΡΗΤΗΣ

«ΠΡΩΤΕΪΝΕΣ: ΧΗΜΙΚΗ ΔΟΜΗ ΚΑΙ ΒΙΟΛΟΓΙΚΟΣ ΡΟΛΟΣ»

Π18: Τεκµηρίωση Εφαρµογών Ιστού

Οδηγίες χορήγησης και διόρθωσης κατατακτήριων τεστ. «Ας μιλήσουμε Ελληνικά Ι, ΙΙ, ΙΙΙ»

ΜΑΘΗΜΑ / ΤΑΞΗ : ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ / Γ ΛΥΚΕΙΟΥ ΗΜΕΡΟΜΗΝΙΑ: 21/09/2015 ΕΠΙΜΕΛΕΙΑ: ΝΟΤΑ ΛΑΖΑΡΑΚΗ ΑΠΑΝΤΗΣΕΙΣ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

ΜΑΘΗΜΑ / ΤΑΞΗ : ΧΗΜΕΙΑ - ΒΙΟΧΗΜΕΙΑ / Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: 1 ΗΜΕΡΟΜΗΝΙΑ: 21 / 09 /2014

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

ΚΑΤΑΛΟΓΟΣ ΑΣΘΕΝΕΙΩΝ ΠΟΥ ΑΝΑΦΕΡΟΝΤΑΙ ΣΤΟ ΣΧΟΛΙΚΟ ΕΓΧΕΙΡΙΔΙΟ

ΚΕΦΑΛΑΙΟ 11. Βιοενεργητική & Μεταβολισµός: Μιτοχόνδρια, Χλωροπλάστες & Υπεροξειδιοσώµατα

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ. Γραμματική της Νέας Ελληνικής

ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ (ΚΥΚΛΟΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΠΑΡΑΓΩΓΗΣ) ΤΡΙΤΗ 1 ΙΟΥΝΙΟΥ 2004

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Ανακεφαλαιώνοντας, οι διάφορες ρυθµίσεις ώστε να µη γίνεται ταυτόχρονα και βιοσύνθεση και β-οξείδωση είναι οι ακόλουθες: Ηγλυκαγόνηκαιηεπινεφρίνη

Transcript:

ΙΑΤΡΟΛΕΞΗ Το ορολόγιο της βιοϊατρικής: συλλογή και επεξεργασία του γλωσσικού υλικού Μαβίνα Πανταζάρα, ρ. Γλωσσολόγος

Η µακροδοµή της οντολογίας Ένα από τα βασικά βήµατα για την ανάπτυξη της οντολογίας των βιοϊατρικών όρων αποτελεί η κατάρτιση της µακροδοµής της, δηλαδή του συνόλου των όρων που αποτελούν πραγµατώσεις των βιοϊατρικών εννοιών και απαρτίζουν το λεξιλόγιό της (ορολόγιο). Το ορολόγιο του ΙΑΤΡΟΛΕΞΗ καταρτίστηκε κατόπιν επεξεργασίας των συλλεχθέντων βιοϊατρικών κειµένων και άλλων λεξικογραφικών πηγών ώστε να εξαχθούν οι όροι. Θα παρουσιαστούν αναλυτικά: η συλλογή των όρων: πηγές και µέθοδοι η επεξεργασία των όρων: κανονικοποίηση και κωδικοποίηση η διαδικασία αναγνώρισης των πολυλεκτικών όρων

Πηγές: ειδικά λεξιλόγια και κείµενα λεξιλόγια βιοϊατρικών όρων MeSH-Hellas (έκδοση 1997) ~17.500 λήµµατα (µονολεκτικοί και πολυλεκτικοί όροι) δίγλωσσο (αγγλικά - ελληνικά) MeSH (έκδοση 2006) Σώµα Βιοϊατρικών Κειµένων (ΣΒΚ) του ΙΑΤΡΟΛΕΞΗ: 11,5 εκ. λέξεων εντοπισµός του βασικού (εν χρήσει) λεξιλογίου της βιοϊατρικής εξαγωγή των άγνωστων λέξεων

Στάδια επεξεργασίας Στάδιο 1 ο : επεξεργασία των κειµένων εξαγωγή άγνωστων λέξεων Στάδιο 2 ο : επεξεργασία των άγνωστων λέξεων εκκαθάριση του υλικού, εξαγωγή των λέξεων που παρουσιάζουν µεγάλη πιθανότητα να είναι όροι, ταξινόµηση και οργάνωση καταλόγων Στάδιο 3 ο : επεξεργασία των καταλόγων που προέκυψαν αξιολόγηση των δεδοµένων µε βάση στατιστικά και γραµµατικά κριτήρια Στάδιο 4 ο : γλωσσική επεξεργασία των εξαχθέντων βιοϊατρικών όρων κανονικοποίηση και κωδικοποίηση Στάδιο 5 ο: περαιτέρω επεξεργασία των πολυλεκτικών όρων κανόνες αναγνώρισης και κλίσης

Εξαγωγή των άγνωστων λέξεων Ως άγνωστες λέξεις θεωρήθηκαν όσοι λεκτικοί τύποι δεν περιέχονταν στο Μορφολογικό Λεξικό της NEUROSOFT 90.000 λήµµατα (= 1.500.000 κλιτικοί τύποι) της γενικής γλώσσας λέξεις ιατρικής, ανατοµίας κτλ. που ανήκουν ΚΑΙ στο γενικό λεξιλόγιο (π.χ. φυµατίωση, γρίπη, λύσσα, καρδιά, εγκέφαλος κτλ.) Οι άγνωστες λέξεις που εντοπίστηκαν ανήκουν σε τρεις κατηγορίες: υποψήφιοι όροι (υψηλή συχνότητα εµφάνισης σε ειδικά κείµενα) κύρια ονόµατα (ονόµατα ανθρώπων, οργανισµών, χωρών κτλ.) εσφαλµένοι τύποι (κοµµένες λέξεις, διάφορα λάθη κτλ.)

Εξαγωγή υποψήφιων όρων (1) Σε πρώτη φάση, αποµακρύνθηκαν µε αυτόµατο τρόπο από τον κατάλογο των άγνωστων λέξεων όσες είχαν αρχικό γράµµα κεφαλαίο (τοπωνύµια, ονόµατα προσώπων, ιδρυµάτων, νοσοκοµείων κτλ.). Σε δεύτερη φάση, το υλικό εξετάστηκε προσεκτικά ώστε να αποµακρυνθούν µε χειρωνακτικό τρόπο : εσφαλµένοι τύποι λόγω µετατροπής των κειµένων (λέξεις κολληµένες µεταξύ τους ή κολληµένες µε αριθµούς και άλλα σύµβολα, λέξεις που τους λείπουν γράµµατα κ.ο.κ.) γραµµατικά εσφαλµένοι τύποι (ορθογραφικά λάθη, παλαιότερη ορθογραφία κ.ο.κ.): π.χ. ωοθηλακιορρηξία, κοκκύτης δύσχρηστοι τύποι της καθαρεύουσας (λόγιες γενικές ουσιαστικών, λόγιοι ρηµατικοί τύποι κ.ο.κ.)

Εξαγωγή υποψήφιων όρων (2) Αποτελέσµατα: 25.000 άγνωστοι λεκτικοί τύποι 87% είναι όροι ή συστατικά όρων της βιοϊατρικής 9.500 λεκτικοί τύποι (κοινοί στο ΣΒΚ και στο MeSH) 12,5 % άγνωστοι τύποι στο Μορφολογικό Λεξικό

Κατάρτιση του ορολογίου (1) κατάρτιση ενός αρχικού καταλόγου υποψήφιων µονολεκτικών και πολυλεκτικών όρων από τις πηγές που αναφέρθηκαν περαιτέρω επεξεργασία και έλεγχος για την επιστηµονική τους εγκυρότητα και τη γλωσσική τους ορθότητα από τους ειδικούς επιστήµονες του έργου, γιατρούς και γλωσσολόγους έλεγχος στο ΣΒΚ των όρων που εντοπίστηκαν στο MeSH µέσω του Συλλογέα λεξιλογικών συνάψεων (CONCORDANCER)

Κατάρτιση του ορολογίου (2) Αποκλείστηκαν από το ορολόγιο του ΙΑΤΡΟΛΕΞΗ: όροι που εντοπίστηκαν στο MeSH αλλά δεν εµφανίστηκαν καθόλου στα κείµενα του ΣΒΚ και του Google.gr όροι λατινικής προέλευσης ή µε ξένο όνοµα το οποίο δεν έχει αποδοθεί στα ελληνικά, π.χ. Coxiella, biomphalaria, bulinus Εξαιρούνται τα αρκτικόλεξα και τα ακρώνυµα, π.χ. DNA, RNA, AIDS. κύρια ονόµατα Εξαιρούνται τα ξένα κύρια ονόµατα που αποτελούν συστατικό πολυλεκτικού όρου, π.χ. σύνδροµο Caplan, ρίκνωση Dupuytren, όργανο του Corti, φαινόµενο Shwartzman.

Κανονικοποίηση των όρων Mετατροπή του πληθυντικού αριθµού σε ενικό τριχοστοµατίδες τριχοστοµατίδα, µυξοµύκητες µυξοµύκητας αδενοβλάστες αδενοβλάστη, ανοσοβλάστες ανοσοβλάστης αντισώµατα ηπατίτιδας B αντίσωµα ηπατίτιδας B Αλλαγή της σειράς της κεφαλής και των συµπληρωµάτων που λειτουργούν ως προσδιοριστικά, καθώς επίσης και των παραλλαγών του όρου µε τα κόµµατα ινωδογόνα µη φυσιολογικά µη φυσιολογικά ινωδογόνα αδενοϊών πρώιµες πρωτεΐνες πρώιµες πρωτεΐνες αδενοϊών πρωτεΐνες αυγού, διαιτητικές διαιτητικές πρωτεΐνες αυγού

Κωδικοποίηση των όρων Προσθήκη µορφολογικής πληροφορίας (γραµµατική κατηγορία, κλίση και χαρακτηρισµό «βιοϊατρικό») και ενσωµάτωση στο Μορφολογικό Λεξικό της NEUROSOFT Στο πέρας του 1 ου χρόνου έχουν κωδικοποιηθεί 7.250 λέξεις του βιοϊατρικού τοµέα 4.574 ουσιαστικά 2.542 επίθετα 55 ρήµατα (π.χ. ωοθετώ, φωσφορυλιώνω, οστεοποιούµαι,...) 62 µετοχές (π.χ. σπληνεκτοµηθείς, ραγείς, υποτροπιάζων,...) 7 επιρρήµατα (π.χ. µικροσκοπικά, νευροαπεικονιστικά, παρακαρδιακά,...)

Συλλογή των πολυλεκτικών όρων Για τη συγκέντρωση των πολυλεκτικών (σύµπλοκων) όρων της βιοϊατρικής ακολουθήθηκαν οι εξής διαδικασίες: Επεξεργασία του MeSH για να εντοπιστεί το βασικό λεξιλόγιο της βιοϊατρικής ορολογίας που εκφράζεται µέσω πολυλεκτικών δοµών για να συγκεντρωθεί ένα ικανό και επαρκές σώµα όρων το οποίο θα χρησιµεύσει ως βάση για τον προσδιορισµό µορφοσυντακτικών σχηµάτων (morphosyntactic patterns) Έλεγχος των πολυλεκτικών όρων του MeSH στο ΣΒΚ για να επιβεβαιωθούν τα µορφοσυντακτικά σχήµατα που είχαν καταγραφεί για να αναδειχθεί η µορφολογική και συντακτική τους ποικιλία Μελέτη και επεξεργασία των ~ 5.000 εξαχθέντων πολυλεκτικών όρων

Ορισµός του πολυλεκτικού σύµπλοκου όρου Στις ειδικές γλώσσες, πολυλεκτικός σύµπλοκος όρος ονοµάζεται κάθε όρος που αποτελείται από δύο ή περισσότερες λέξεις, τα οροστοιχεία του, και ο οποίος αντιπροσωπεύει µία αντίστοιχη έννοια, ειδική ή γενική, του σχετικού θεµατικού πεδίου. Ο πολυλεκτικός όρος αποτελεί ένα δυαδικό σχηµατισµό που µπορεί να αναλυθεί σε δύο µέρη, τα άµεσα συνθετικά, τα οποία αποτελούνται από ένα ή περισσότερα οροστοιχεία το καθένα. Συνήθως, το ένα από τα άµεσα συνθετικά είναι το προσδιοριζόµενο και το άλλο το προσδιοριστικό. Οι πολυλεκτικοί όροι που µελετήσαµε είναι ονοµατικές φράσεις, π.χ. νωτιαίος µυελός, ιός της λύσσας, που αντιστοιχούν σε καθιερωµένες έννοιες του βιοϊατρικού τοµέα.

Αναγνώριση πολυλεκτικών όρων Το σύστηµα αναγνώρισης και κλίσης των πολυλεκτικών όρων του ΙΑΤΡΟΛΕΞΗ βασίστηκε στην ανάλυση ενός σώµατος ~ 5.000 βιοϊατρικών πολυλεκτικών όρων που αντλήθηκε από διαφορετικές σηµασιολογικές κατηγορίες της αρχικής ταξινοµίας. περιγραφή της συντακτικής τους δοµής (~200 διαφορετικές δοµές) διατύπωση µορφοσυντακτικών κανόνων (19 κανόνες) καταγραφή των οροστοιχείων τους (λεξικά και µη λεξικά στοιχεία) αποτύπωση της ορολογικής τους σύστασης (συνδυασµός όρων και µη όρων) προσθήκη σηµασιολογικής πληροφορίας (σχήµατα συνεµφάνισης σηµασιολογικών κατηγοριών)

Κατανοµή των δοµών διάκριση σε δοµές, ανάλογα µε τον αριθµό των οροστοιχείων µέτρηση του αριθµού των αντίστοιχων όρων Το 82% των πολυλεκτικών όρων είναι διλεκτικοί Το 15% τριλεκτικοί Το 1,9% τετραλεκτικοί Το 1,1% πενταλεκτικοί και άνω µελέτη των πρωτογενών δοµών (διλεκτικών όρων) µελέτη των επαυξηµένων δοµών (τριλεκτικών, τετραλεκτικών κτλ.)

Σχηµατισµός διλεκτικών όρων Οι διλεκτικοί όροι της βιοϊατρικής κατατάσσονται στις τέσσερις γενικές κατηγορίες πολυλεκτικών ονοµατικών σύνθετων της νέας ελληνικής: 1. επίθετο+ουσιαστικό π.χ. ρυθµιστικό γονίδιο, οφθαλµικό διάλυµα, βραχιόνιο πλέγµα 2. ουσιαστικό+ουσιαστικό σε γενική π.χ. συνθάση χιτίνης, κοιλίες του εγκεφάλου, ιός της λύσσας 3. ουσιαστικό+πρόθεση+ουσιαστικό π.χ. αντισυλληπτικά από το στόµα, δηλητηρίαση από σταφυλόκοκκο 4. ουσιαστικό+ουσιαστικό (οµοιόπτωτο) π.χ. βάκιλος µεγαθήριο, µέλος φάντασµα

Σχηµατισµός τριλεκτικών και τετραλεκτικών όρων ιεργασίες παραγωγής των επαυξηµένων δοµών: προσθήκη νέου προσδιοριστικού νευρικό σύστηµα κεντρικό νευρικό σύστηµα λιπαρά οξέα ακόρεστα λιπαρά οξέα προσθήκη νέου προσδιοριζόµενου ερυθρά αιµοσφαίρια όγκος ερυθρών αιµοσφαιρίων σύνδεση προσδιοριστικών (παρατακτική, συµπλεκτική, διαζευκτική) άνω κοιλία, κάτω κοιλία άνω-κάτω κοιλία κιρσοί οισοφάγου, κιρσοί στοµάχου κιρσοί οισοφάγου και στοµάχου µεσοκολπικό διάφραγµα, µεσοκοιλιακό διάφραγµα µεσοκολπικό ή µεσοκοιλιακό διάφραγµα σύνδεση προσδιοριζόµενων χολικά οξέα, χολικά άλατα χολικά οξέα και άλατα σηµεία λοίµωξης, συµπτώµατα λοίµωξης σηµεία και συµπτώµατα λοίµωξης

Ορολογική σύσταση Επαναπροσδιορισµός των συντακτικών δοµών λαµβανοµένης υπόψη της εσωτερικής τους σύστασης ως προς τη συνεµφάνιση όρων και µη όρων

Κατηγορίες οροστοιχείων 1. Λεξικά στοιχεία λόγιοι τύποι (π.χ. έσω ους, ιερό οστούν) ελληνικά ακρώνυµα (π.χ. Χ.Α.Π., Ο.Μ.Λ.) λέξεις µε λατινικούς χαρακτήρες (π.χ. αγγειοπλαστική µε laser) ονόµατα µε λατινικούς χαρακτήρες (π.χ. σύνδροµο Down) ακρώνυµα µε λατινικούς χαρακτήρες (π.χ. πρόδροµοι RNA ) 2. Μη λεξικά στοιχεία αριθµοί (π.χ. ιντερλευκίνη 1, ηµιχολίνιο 3) ελληνικά και λατινικά γράµµατα (π.χ. βιταµίνη C, ακτίνες βήτα) σηµεία στίξης, όπως παύλες, κόµµατα, παρενθέσεις (π.χ. 1,4-άλφαγλυκοσιδάση γλυκάνης) συνδυασµός αριθµών και γραµµάτων (π.χ. ωµέγα-3 λιπαρά οξέα, κύτταρα 3Τ3) συνδυασµός µη λεξικών και λεξικών στοιχείων (π.χ. Ν- αποθεµελιωτικές οξειδορεδουκτάσες, 2-αµινοαδιπικό οξύ, κυκλικά P- οξείδια).

Μορφολογική ποικιλία (1) ποικιλία σε επίπεδο γραφής: χρήση/απουσία παύλας, πεζά/κεφαλαία, αναπαράσταση ελληνικών γραµµάτων, αναπαράσταση αριθµητικών, µεταγραφή ξένων ονοµάτων π.χ. ωµέγα-3 λιπαρά οξέα / ωµέγα 3 λιπαρά οξέα 1,4-άλφα-γλυκοσιδάση γλυκάνης / 1, 4 άλφα γλυκοζιδάση γλυκάνης β-αλανίνη / βήτα αλανίνη α 1-αντιθρυψίνη / άλφα 1-αντιθρυψίνη enterococcus faecium / εντερόκοκκος faecium διοξυγονάση / διοξυγενάση 4-υδροξυφαινυλοπυροσταφυλικού κτλ.

Μορφολογική ποικιλία (2) ποικιλία σε επίπεδο ορθογραφίας: παλαιότερη/νεότερη ορθογραφία, παράλληλοι τύποι π.χ. µπορέλια burgdorferi / µπορρέλια burgdorferi βάκιλος άνθρακα / βάκιλλος άνθρακα διοξείδιο του θείου / διοξίδιο του θείου κτλ.

Μορφολογική ποικιλία (3) ποικιλία σε µορφοσυντακτικό επίπεδο: παραγωγή, σύνθεση, σχηµατισµός ελληνικών και ξένων ακρώνυµων, λόγιοι τύποι, αλλαγή πτώσης, αλλαγή γραµµατικής κατηγορίας π.χ. χρόνια αναπνευστική πνευµονοπάθεια / Χ.Α.Π. υποδοχείς ανοσοσφαιρίνης E / υποδοχείς IgE λιποπρωτεΐνες υψηλής πυκνότητας / λιποπρωτεΐνες HDL διοξείδιο του άνθρακα / διοξείδιο του άνθρακος αρτηρίες του εγκεφάλου / εγκεφαλικές αρτηρίες πρωτεϊνοκινάση C / πρωτεϊνική κινάση C κτλ.

Σηµασιολογική ανάλυση Στάδιο 1 ο: σηµασιολογική κατηγοριοποίηση των όρων Η γνώση των σηµασιολογικών κατηγοριών στις οποίες ανήκουν οι έννοιες, και κατ επέκταση οι όροι που τις κατασηµαίνουν, αντλήθηκε από την οντολογία του ΙΑΤΡΟΛΕΞΗ, η οποία στηρίχτηκε στο Μεταθησαυρό του UMLS. Για τα συνθετικά των όρων, κυρίως επίθετα, που δεν περιλαµβάνονται ως αυτόνοµες έννοιες ούτε στην οντολογία του ΙΑΤΡΟΛΕΞΗ ούτε στο Μεταθησαυρό του UMLS χρειάστηκε να δηµιουργηθούν νέες σηµασιολογικές κατηγορίες. Στάδιο 2 ο: προσδιορισµός των σχηµάτων συνεµφάνισης των σηµασιολογικών κατηγοριών Συγκεκριµένες υποκατηγορίες εννοιών συνδυάζονται σε συγκεκριµένα σχήµατα συνεµφάνισης ώστε να σχηµατιστούν οι πολυλεκτικοί όροι και αντίστοιχα η σηµασιολογική τους κατηγορία.

Εργασίες σε εξέλιξη Μορφολογικό Λεξικό: κωδικοποίηση και προσθήκες Στόχος: ~ 10.000 βιοϊατρικούς όρους Μονολεκτικοί όροι και συνθετικά πολυλεκτικών όρων Αναγνώριση των πολυλεκτικών όρων Έλεγχος των κανόνων αναγνώρισης και κλίσης µε βάση τα εξαγόµενα αποτελέσµατα Οντολογία του ΙΑΤΡΟΛΕΞΗ Προσθήκη σηµασιολογικής κατηγορίας στους όρους που έχουν εξαχθεί από το ΣΒΚ και ένταξή τους στην οντολογία