EXTRACTION TERMINOLOGIQUE ET CORPUS ALIGNÉS ANGLAIS GREC Tita Kyriacopoulou Claude Martineau Eleni Tziafa 28e Colloque International sur le Lexique et la Grammaire Bergen 2009
Objectifs Traitement automatique des langues et en particulier du grec Extraction de terminologie bilingue dans le corpus des télécommunications grecs (GR) et anglais (EN) Exploration des nouvelles techniques de filtrage / formatage / recherche
Le problème de la terminologie (1/2) Manque de ressources linguistiques Difficultés pour la construction des dictionnaires terminologiques Néologismes Textes techniques Problèmes de traduction Acronymes ou symboles Entités nommées
Le problème de la terminologie (2/2) Terme Acronyme GR ασύμμετρου ρυθμού σύνδεση ΑΡΥΣ ENAsymmetric Digital Subscriber Line ADSL Variations possibles ασύμμετρη ψηφιακή συνδρομητική γραμμή
Recherche expérimentale Tester l aligneur intégré récemment dans UNITEX Constituer des textes parallèles Systèmes de mémoire de traduction Repérage automatique des termes techniques dans les documents exploités
Corpus Vérification des outils et des ressources linguistiques sur le corpus de la Commission Nationale de Télécommunications et de Services Postaux Helléniques (EETT) Corpus bilingue grec / anglais (449 Ko) 16 706 (EN) + 17 165 (GR) = 33 871 occurrences de mots Corpus parallèle
Typologie des termes des télécommunications (1/4) Mots simples ευρυζωνικότητα / broadband ευρυζωνικά / with broadband Mots composés κινητή τηλεφωνία / mobile telephony Noms complexes ενεργοποιημένη γραμμή προεπιλογής φορέα / Activated Line of Carrier Pre-Selection Adverbes με κάρτα / by card με συμβόλαιο / by contract από σταθερό προς κινητό / from fixed to mobile phone
Typologie des termes des télécommunications (2/4) Acronymes ΑΡΥΣ / ADSL Combinaisons de noms, symboles et acronymes διείσδυση PSTN γραμμών και καναλιών ISDN / penetration of PSTN lines and ISDN channels γραμμή PSTN / PSTN line γραμμή ISDN BRA / ISDN BRA line γραμμή xdsl εναλλακτικών παρόχων μέσω ΑΠΤΒ / xdsl Line of Other Local Operators via LLU Combinaisons d acronymes et de chiffres ΑΡΥΣ 8Mbps / ADSL 8Mbps
Typologie des termes des télécommunications (3/4) Adj + Nom καρτοκινητή τηλεφωνία / prepaid mobile telephony σταθερή τηλεφωνία / fixed telephony φωνητικός τηλεφωνητής / voice mail γραπτό μήνυμα / SMS Nom + Nom (au génitif) καλάθι κλήσεων / call basket ζώνη χρέωσης / charging zone συνδρομητής συμβολαίου / post-paid mobile subscriber βήμα χρέωσης / charge Nom +Adj +Nom συνδρομητής καρτοκινητής τηλεφωνίας / prepaid mobile subscriber καλάθι χαμηλής χρήσης / low usage basket καλάθι υψηλής χρήσης / high usage basket
Typologie des termes des télécommunications (4/4) Nom + Nom + Adj + Nom φορείς παροχής καθολικής υπηρεσίας, ΦΠΚΥ / universal service providers, USP τέλος εγκατάστασης νέας σύνδεσης / installation charge for a new connection Adj + Nom + Nom + Nom ενεργοποιημένη γραμμή προεπιλογής φορέα / Activated Line of Carrier Pre-Selection Adj + Nom + Adj + Nom αδεσμοποίητη πρόσβαση στον τοπικό βρόχο / Local Loop Unbundling, LLU Adj + Nom + Nom ασύμμετρου ρυθμού σύνδεση - ΑΡΥΣ, adaptation en grec du terme ADSL, Asymmetric Digital Subscriber Line, ou quelquefois ασύμμετρη ψηφιακή συνδρομητική γραμμή
Méthode et ressources utilisées (1/2) Valider la couverture et la pertinence de nos ressources Les adapter pour passer de la simple reconnaissance à l extraction Unitex
Méthode et ressources utilisées (2/2) L alignement s appuie sur des textes «prétraités» et découpés en phrase Problèmes de mise en page des documents (tables de matières, schémas, graphiques) Utilisation des grammaires locales avec l exploitation du contexte immédiat Adaptation des graphes pour l extraction des termes Transformations des automates en transducteurs Variables Pas de mots «déclencheurs»
La grammaire du grec moderne
Graphe qui permet de reconnaître un nom suivi de son sigle
Graphs/Charts 2
Conclusion Validation des ressources linguistiques existantes Non présence systématique de «déclencheurs» Typologie et vocabulaire Amélioration de la qualité et de la quantité de termes extraits ainsi que l alignement de textes