συνεργασία επιστηµονικών πεδίων Πληροφορική Γλωσσολογία Ορολογία Ιατρική / Βιολογία 2

Σχετικά έγγραφα
ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ 3 2 ΤΟ ΠΡΟΓΡΑΜΜΑ ΤΗΣ ΗΜΕΡΙ ΑΣ 4 3 ΑΝΑΛΥΤΙΚΗ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΘΕΜΑΤΩΝ ΕΙΣΑΓΩΓΗ ΕΝΑΡΚΤΗΡΙΑ ΣΥΝΕ ΡΙΑ ΠΡΟΣΚΕΚΛΗΜΕΝΟ

2, µε τίτλο: «Υλοποίηση Εργαλείων Ανάπτυξης ιαχείρισης Σώµατος Κειµένων και Αυτόµατης Εξαγωγής Ορολογίας».

MULTI-WORD TERMS AND TERM VARIATION IN AUTOMATIC TERM EXTRACTION Katerina Kehagia Sofia Ananiadou SUMMARY

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Software Production Company

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Προβλήματα και μέθοδοι αυτόματης αναγνώρισης όρων σε υπολογιστικά συστήματα ΣΟΦΙΑ ΑΝΑΝΙΑΔΟΥ & ΚΑΛΛΙΟΠΗ ΖΕΡΒΑΝΟΥ

ΣΟΦΙΑ ΑΝΑΝΙΑΔΟΥ & ΚΑΛΛΙΟΠΗ ΖΕΡΒΑΝΟΥ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Σχεδιασµός Ανάπτυξη Οντολογίας

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Μελέτη της έκφρασης του ογκοκατασταλτικού γονιδίου Cyld στον καρκίνο του μαστού

Ανάκτηση Πληροφορίας

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

ΙΑΤΡΟΛΕΞΗ Το ορολόγιο της βιοϊατρικής: συλλογή και επεξεργασία του γλωσσικού υλικού. Μαβίνα Πανταζάρα, ρ. Γλωσσολόγος

Introduction to Bioinformatics

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Opinion Mining and Sentiment analysis

Μελέτη της αντιμεταλλαξιγόνου δράσης φλαβονοειδών του φυτού Lotus Edulis με τη μέθοδο Ames test

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ INFORMATION EXTRACTION

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Γλώσσα και Γλωσσική Τεχνολογία στην Ελλάδα

Σ τ η ν Π ά τ ρ α σ ή μ ε ρ α σ τ ι ς έ ν τ ε κ α ( 1 1 ) τ ο υ μ ή ν α Α π ρ ι λ ί ο υ η μ έ ρ α Π α ρ α σ κ ε υ ή, τ ο υ έ τ ο υ ς δ ύ ο χ ι λ ι ά

Π22: Τελική Αναφορά Έργου

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ


Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

Language Resources for Information Extraction:

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Ψηφίδες για τη Νεοελληνική Γλώσσα

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

Μεταδεδομένα στο Ψηφιακό περιβάλλον

Ανάκτηση πολυμεσικού περιεχομένου

Τεχνικές Προδιαγραφές Έργου. «Ηλεκτρονικό πρωτόκολλο και ηλεκτρονική διαχείριση - αρχειοθέτηση εγγράφων στο Α.Π.Σ.»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Κανονικοποίηση. Άτυπες Οδηγίες. Παράδειγµα. Αξιολόγηση Σχεσιακών Σχηµάτων Β. Περιττές Τιµές και Ανωµαλίες Ενηµέρωσης

Τύποι πόρων προς συγκέντρωση Σενάρια χρήσης

ΠΡΟΚΗΡΥΞΗ ΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΗ «ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ» ΠΡΟΣΚΛΗΣΗ ΥΠΟΒΟΛΗΣ ΥΠΟΨΗΦΙΟΤΗΤΩΝ

Εισαγωγή στην Ιατρική Πληροφορική

ΕΙ ΙΚΑ ΚΕΦΑΛΑΙΑ ΧΑΡΤΟΓΡΑΦΙΑΣ ΧΑΡΤΟΓΡΑΦΙΑ ΧΑΡΤΗΣ ΧΡΗΣΗ ΗΜΙΟΥΡΓΙΑ. β. φιλιππακοπουλου 1

ΑΠΟΤΕΛΕΣΜΑΤΑ ΕΞΕΤΑΣΕΩΝ ΣΕΜΙΝΑΡΙΟΥ ΠΙΣΤΟΠΟΙΗΣΗΣ ΤΥΠΟΣ ΠΙΣΤΟΠ.

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

ΕΙΔΙΚΗ ΓΛΩΣΣΙΚΗ ΔΙΑΤΑΡΑΧΗ. Πολυδύναµο Καλλιθέας Φεβρουάριος 2008 Αναστασία Λαµπρινού

Ανάκτηση Πληροφορίας

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Ερευνητικό Πρόγραµµα BalkaNet

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Γλωσσολογική προσέγγιση της ελληνικής και γερμανικής στρατιωτικής ορολογίας

Δικαστική Γλωσσολογία: Αυτόματη Εξαγωγή Υφολογικών Γλωσσικών Χαρακτηριστικών

Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών. (Geographical Information Systems GIS)

Τεχνικές Εξόρυξης Δεδομένων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας

Γλωσσική Τεχνολογία. Μάθημα 3 ο : Βασικές Γλωσσολογικές Έννοιες Ι: Μορφολογία. Βασιλική Σιμάκη

Στάδια Ανάπτυξης Λόγου και Οµιλίας

ΠΡΟΚΗΡΥΞΗ ΔΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗ «ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ» ΠΡΟΣΚΛΗΣΗ ΥΠΟΒΟΛΗΣ ΥΠΟΨΗΦΙΟΤΗΤΩΝ

7 0 0 /2 /7 0 : 2 1 ( 2 ( Google Yahoo

Προηγµένη ιασύνδεση µε τοπεριβάλλον

Στην Ορολογία δεν ορίζονται οι όροι, αλλά οι έννοιες. Those which are defined in Terminology are not the terms but the concepts

Social Web: lesson #4

Μοριακή Διαγνωστική. Σύγχρονες Εφαρμογές Μοριακής Διαγνωστικής. Κλινική Χημεία ΣΤ Εξάμηνο - Παραδόσεις

ΓΕΝΙΚΕΣ ΑΡΧΕΣ ΑΝΟΣΟΠΑΘΟΓΕΝΕΙΑΣ ΣΤΗ ΣΗΨΗ

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

Ολοκληρωµένο Σύστηµα ιαχείρισης Ασφαλισµένου

Από τις Βάσεις Ορολογίας στις Βάσεις Γνώσης: Το Παράδειγµα του Συστήµατος ιαχείρισης Ορολογίας της Εγνατία Οδός Α.Ε. (Οδο-λέξις)

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

Ανάκτηση Πληροφορίας

ΙΩΑΝΝΗΣ ΚΛΑΓΚΑΣ. Χημικός, MSc ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ ΥΠΟΒΛΗΘΗΚΕ ΣΤΗΝ ΙΑΤΡΙΚΗ ΣΧΟΛΗ ΤΟΥ ΑΡΙΣΤΟΤΕΛΕΙΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΕΞΑΣΘΕΝΗΣΗ ΟΦΕΙΛΟΜΕΝΗ ΣΕ ΝΕΦΩΣΗ ΚΑΙ ΟΜΙΧΛΗ1

Βιοπληροφορική. Βάσεις Δεδοµένων 1ο εργαστήριο. Γρηγόρης Αµούτζιας

Η βασική μας εκπαίδευση στο WPPSI-III GR αποτελείται από 2 μέρη:

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση Πληροφορίας

Τύποι πόρων προς συγκέντρωση Σενάρια χρήσης

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Transcript:

Σώµατα Κειµένων και Εξόρυξη Ιατρικών Όρων: C-value Κατερίνα Φραντζή Τµήµα Μεσογειακών Σπουδών Πανεπιστήµιο Αιγαίου frantzi@rhodes.aegean.gr 1

συνεργασία επιστηµονικών πεδίων Πληροφορική Γλωσσολογία Ορολογία Ιατρική / Βιολογία 2

οι Όροι οι όροι είναι η γλωσσολογική υλοποίηση ειδικών εννοιών protein kinase C, basal cell carcinoma η αναγνώριση των όρων δεν είναι απλή υπόθεση δεν υπάρχουν τυπικά κριτήρια για να ξεχωρίσουν οι όροι από τους µη όρους γνωστές λέξεις µπορούν να είναι όροι WAS Wiskott-Aldrich Syndrome Ward Atmosphere Scale η συχνότητα εµφάνισης δεν είναι πάντα ο καλύτερος 3 δείκτης

Αυξανόµενη ανάγκη για ορολογικούς πόρους Οι όροι είναι ο τρόπος της επιστηµονικής επικοινωνίας, αναγκαίοι για την κατανόηση Νέοι όροι (γονίδιa, πρωτεΐνες, φάρµακα, χηµικά, κτλ) δηµιουργούνται συνεχώς Εκθετική αύξηση της βιοϊατρικής λογοτεχνίας Η επεξεργασία της ορολογίας προκαλεί µποτιλιάρισµα στην επεξεργασία πληροφορίας στην βιολογία/ιατρική ιατρική 4

Βήµατα για την απόκτηση ορολογίας (term identification) Αναγνώριση όρων (term recognition) Κατηγοριοποίηση όρων (term classification) Ταίριασµα των όρων σε οντολογίες, βάσεις δεδοµένων (term mapping) 5

Με την Αναγνώριση Όρων χειριζόµαστε άγνωστες λέξεις ενηµερώνουµε λεξικά και οντολογίες Αποφεύγουµε την ορολογική σύγχυση 6

Αυτόµατη Αναγνώριση Όρων (ATR) είναι το πρώτο βήµα για την απόκτηση ορολογίας βρίσκει τους όρους και τις ποικιλίες τους στο κείµενο ξεχωρίζει τους όρους από τους µη όρους 7

Εφαρµογές της ATR Ανάκτηση και Εξαγωγή Πληροφορίας Information Retrieval and Extraction Κατηγοριοποίηση Κειµένων Document categorisation Περίληψη - Summarisation 8

ATR facts 1. Οι περισσότεροι όροι είναι πολυ-λεκτικοί λεκτικοί 2. Οι φωλιασµένοι όροι είναι συχνοί 3. Τα ακρώνυµα είναι συχνά 4. Υπάρχει ποικιλία στους όρους 5. χρήση προθέσεων η C/NC-value αντιµετωπίζει τα 1 και 2 9

Ποικιλία στους όρους (1/3) Οι όροι εµφανίζονται µε διάφορους τύπους oestrogen amino acid human cancer DNA και και και και estrogen amino-acid acid cancer in humans deoxyribonucleic acid 10

Κανονικοποίηση των ποικιλιών των όρων retinoic acid receptor retinoic acid receptor retinoic acid receptors RAR, RARs nuclear receptor nuclear receptor nuclear receptors NR, NRs all trans retinoic acid all trans retinoic acid all-trans trans-retinoic retinoic acids ATRA, at-ra 11

ορθογραφικές Απλές ποικιλίες (2/3) οριζόντιες, κάθετες παύλες (amino acid και amino- acid) µικρά-κεφαλαία κεφαλαία (NF-KB και NF-kb kb) γραφή (tumour και tumor) µεταγραφή σε άλλο αλφάβητο - transliterations (oestrogen και estrogen) µορφολογικές κλίση (πληθυντικός, κτητικά) λεκτικές συνώνυµα (carcinoma και cancer) 12

Απλές ποικιλίες Αφορούν τα συστατικά των όρων και όχι τη δοµή τους Η κανονικοποίηση είναι άµεση Κανόνες για τη γραφή (παύλες, κτλ.) Κανόνες για τη µεταγραφή µεταξύ αλφάβητων (π.χ. ph f; oe e) Κανόνες για τα λήµµατα (φαινόµενα κλίσης) Λεξικά συνωνύµων (λεκτικές ποικιλίες) 13

στη δοµή Πιο σύνθετες ποικιλίες (3/3) κτητική µε τη χρήση προθέσεων (clones of human και human clones) προθέσεις (cell in blood και cell from blood) Συνδυασµός όρων - term coordination (adrenal glands and gonads) ακρώνυµα (nuclear factor kappa-b: NF-KB, NF-kb kb, ) 14

Συνδυασµός Όρων Ηδοµή είναι ασαφής συνδυασµός(coordination) ή σύνδεση(conjunction) όρων; adrenal glands and παράδειγµα gonads συνδυασµός [adrenal [glands and gonads]] σύνδεση όρων (N A) + CC (N A)* N + [adrenal glands] and [gonads] chicken and mouse receptors cell differentiation and proliferation 15

Ακρώνυµα (1/3) Ένας πολύ παραγωγικός τύπος ποικιλίας όρων Ποικιλία στα ακρώνυµα (συνώνυµα) nuclear factor kappa B NF-kappaB NF kappa B NF(kappa)B NFKB NF-KB, NF kb 16

Ακρώνυµα (2/3) Η ασάφεια στα ακρώνυµα (πολυσηµία) υπάρχει ακόµα και σε ελεγχόµενα λεξικά GR για glucocorticoid receptor glutathione reductase 17

Ακρώνυµα (3/3) ακρώνυµα Ανεπτυγµένες φόρµες κανονικοποιηµένα RAR alpha RAR-alpha RARA RARa retinoic acid receptor alpha retinoic-acid receptor-alpha retinoic-acid receptor alpha retinoic acid receptor alpha APL 9-c-RA 9cRA RAR RARs acute promyelocytic leukae aemia acute promyelocytic leukemia 9-cis-retinoic acid 9-cis retinoic acid retinoic acid receptor retinoic acid receptors acute promyelocytic leukemia 9 cis retinoic acid retinoic acid receptor 18

Φωλιασµένοι Όροι Nested terms (1/2) Οι περισσότεροι όροι είναι πολύ-λεκτικοί λεκτικοί (περιορισµένο σύνολο συντακτικών δοµών) µέγιστοι και φωλιασµένοι όροι αναγνώριση µερών του όρου τα οποία επίσης αποτελούν όρους enzyme inhibitors angiotensin-converting enzyme inhibitors 19

Φωλιασµένοι Όροι (2/2) Ορισµός σηµασιολογικών σχέσεων µεταξύ των συστατικών (σαν πρώτο βήµα για το χτίσιµο οντολογιών) Εσωτερική δοµή όρου [leukaemic [T [cell line]] Kit225] 20

Γλωσσολογία Σωµάτων Κειµένων Πραγµατική χρήση της γλώσσας Μεγάλες συλλογές φυσικών κειµένων 21

Τα ΣΚ προσφέρουν συστηµατική ακριβή πλήρη γρήγορη επεξεργασία 22

Εφαρµογές των ΣΚ Μορφολογία Σύνταξη Σηµασιολογία Φωνολογία Λεξικογραφία ιαλεκτολογία Ιστορικοσυγκριτική γλωσσολογία 23

Εφαρµογές των ΣΚ εκτός των καθαρά γλωσσολογικών Εξόρυξη πληροφορίας: Ορολογία ικαστική γλωσσολογία (forensic linguistics) Πολιτική γλωσσολογία (political linguistics) Παιδαγωγική Ψυχολογία 24

C-value: µια υβριδική µέθοδος (1/3) η C/NC-value είναι µέθοδος για την εξαγωγή των πολύ- λεκτικών όρων ίνει ιδιαίτερη προσοχή στους φωλιασµένους όρους (nested terms) υβριδική προσέγγιση εκµεταλλευόµενη Γλωσσολογία (term formation patterns) Στατιστική (ranking term candidates) Πληροφορία από το «περιβάλλον» (contextual information, re-ranking) ranking) δίνει τιµές στους υποψήφιους όρους και τους ταξινοµεί 25

C-value (2/3) συνολική συχνότητα της ακολουθίας λέξεων στο σώµα κειµένων συχνότητα της ακολουθίας λέξεων σαν µέρος µεγαλύτερων υποψήφιων όρων αριθµός αυτών των µεγαλύτερων υποψήφιων όρων µήκος του string (σε( αριθµό λέξεων) 26

C-value (3/3) adenoid cystic basal cell carcinoma cystic basal cell carcinoma ulcerated basal cell carcinoma recurrent basal cell carcinoma basal cell carcinoma 27

28

National Centre for Text Mining (NaCTem) http:// ://www.nactem.ac.uk/ Ανάκτηση Πληροφορίας Εξαγωγή Πληροφορίας ιαχείριση όρων Biosciences Humanities etc Information Retrieval Information Extraction Term management 29

TerMine http://www.nactem.ac.uk/software/termine www.nactem.ac.uk/software/termine/ Ένα σύστηµα για τη διαχείριση της ορολογίας Χρησιµοποιεί την µέθοδο C-value για την εξαγωγή των όρων Σχετικά µε την ταχύτητα της υλοποίησης: δοσµένου συνόλου από 1.3 εκατ. περιλήψεις από το MEDLINE (2GB κείµενο), το TerMine εξάγει 9.8 εκατ. υποψήφιους όρους καθώς και την τιµή τους (termhood) σε περίπου 10 λεπτά 30

ATR Input documents POS tagger acronyms terms from coordinations & prepositional terms Extraction of term candidates Ordinary candidates Acronym acquisition Inflectional normalisation Structural normalisation Ortho-lexical normalisation NP-filter, e.g. (A N) + N lemmatisation spelling heuristics C-value estimation Extracted terms 31

TerMine (C-value) analysis demonstration http://www www-tsujii.is.s.u-tokyo.ac.jp/termine/ 32

έχει γίνει έρευνα η οποία έχει περάσει στην εφαρµογή Επειδή όµως εµπλέκονται Ορολογία Πληροφορική Ιατρική υπάρχει ακόµα αρκετός χώρος για πρόοδο 33