«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Διονύσης Γούτσος ΕΚΠΑ, 01/03/2019

Σχετικά έγγραφα
Bank of English Corpus British National Corpus (BNC) Cambridge International Corpus. International Corpus of English (ICE) Oxford English Corpus

Μαρίνα Ματθαιουδάκη. Περίληψη

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Ειρήνη Φλώρου ΕΚΠΑ, 01/03/2019

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟ ΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΕΙ ΙΚΟΣ ΛΟΓΑΡΙΑΣΜΟΣ ΚΟΝ ΥΛΙΩΝ ΕΡΕΥΝΑΣ

Τύποι πόρων προς συγκέντρωση Σενάρια χρήσης

Τύποι πόρων προς συγκέντρωση Σενάρια χρήσης

Το Διαχρονικό Σώμα Ελληνικών Κειμένων του 20ού αιώνα

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ ΕΚΠΑΙΔΕΥΣΗ

Συμπόσιο για την Ανοικτή Επιστήμη Αθήνα, Νοεμβρίου Πάνος Κωνσταντόπουλος Οικονομικό Πανεπιστήμιο Αθηνών και Ερευνητικό Κέντρο «Αθηνά»

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Κλεοπάτρα Φέρλα ΕΚΠΑ, 01/03/2019

Τη γλώσσα μου έδωσαν ellhnikh. Μαρία Γαβριηλίδου, ΙΕΛ/ΕΚ Αθηνά Παγκόσμια Ημέρα Μετάφρασης 29 Σεπτεμβρίου 2018, ΕΙΕ

Η Ευρωπαϊκή Υποδομή CLARIN και η Εθνική Υποδομή CLARIN EL

Στη συνέχεια παρατίθενται οι αναφορές των διδακτορικών φοιτητών για τη συνάφεια του προγράμματος στα πεδία έρευνάς τους.

Greek corpus building and analysis: The story so far and what is to follow Dionysis Goutsos

Πρόσφατη γλωσσική αλλαγή σταελληνικά: Σχεδιασμός του Διαχρονικού Σώματος Ελληνικών Κειμένων του 20ού αιώνα

ΓΛΩΣΣΑ & ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΤΗΝ ΚΥΠΡΟ

ΑΓΓΛΙΚΑ ΣΑΒΒΑΤΟ 12 ΜΑΪΟΥ 2012

Η ΤΡΙΓΩΝΟΠΟΙΗΣΗ ΜΕΣΑ ΑΠΟ

ΠΡΟΣΦΑΤΗ ΓΛΩΣΣΙΚΗ ΑΛΛΑΓΗ ΣΤΑ ΕΛΛΗΝΙΚΑ: ΣΧΕΔΙΑΣΜΟΣ ΤΟΥ ΔΙΑΧΡΟΝΙΚΟΥ ΣΩΜΑΤΟΣ ΕΛΛΗΝΙΚΩΝ ΚΕΙΜΕΝΩΝ ΤΟΥ 20ΟΥ ΑΙΩΝΑ

Ανάλυση ποσοτικών δεδομένων

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

Η αξιοποίηση των Ηλεκτρονικών Σωμάτων Κειμένων στη διδασκαλία της Ισπανικής ως ξένης γλώσσας

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Σώματα Κειμένων & Λεξιλογική Σημασιολογική Πληροφορία - Ι.Ε. Σαριδάκης

Ανάλυση ποιοτικών δεδομένων

Διδασκαλία της Νεοελληνικής Γλώσσας

Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας

ΕΠΙΣΗΜΕΙΩΣΗ ΓΡΑΠΤΩΝ ΠΑΡΑΓΩΓΩΝ ΤΟΥΡΚΟΦΩΝΩΝ ΜΑΘΗΤΩΝ ΜΕ Γ2 ΤΗΝ ΕΛΛΗΝΙΚΗ. Η ΕΞΕΤΑΣΗ ΤΗΣ ΣΥΜΦΩΝΙΑΣ

Η παρούσα ανακοίνωση εντάσσεται στο πλαίσιο μίας ευρύτερης μελέτης (διδακτορική διατριβή) με θέμα: Η ορολογία των φυσικών κινδύνων από την σκοπιά της

Τι είναι το αρχείο Γεωργακά;

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ Α ΘΕΩΡΙΑ ΤΗΣ ΓΝΩΣΗΣ ΚΑΙ ΘΕΩΡΙΑ ΤΟΥ ΑΝΤΙΚΕΙΜΕΝΟΥ ΣΤΙΣ ΚΟΙΝΩΝΙΚΕΣ ΕΠΙΣΤΗΜΕΣ. του αντικειμένου προσεγγίσεων...

Η θεματική ευρετηρίαση στη Βιβλιοθήκη 2.0 : η συνάντηση του παραδοσιακού. με το νέο

Βιβλιογραφία κοινωνικής έρευνας

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

Κεφάλαιο 2 Σχεδιασμός και δημιουργία σωμάτων κειμένων

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Πύλη Ηλεκτρονικής Μάθησης του ΕΔΙΑΜΜΕ

133 Γαλλικής Γλώσσας και Φιλολογίας Θεσσαλονίκης

G. Kokkinankis, E. Dermatas, E. Coutsogeorgopoulos

Διαμοιρασμός δεδομένων & γλωσσικών πόρων: τεχνικά ζητήματα. Πένυ Λαμπροπούλου ΙΕΛ/ΕΚ "ΑΘΗΝΑ"

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΑΔΑ: 4ΑΡΟ46941Δ-Ε. Συνολικός Προϋπολογισμός Έργου : ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΙΑ ΙΚΤΥΟ 137/

ΚΟΡΜΟΣ. 2. Στοιχεία Οπτικής - Θεωρία Χρώματος - Φωτομετρία (3) (3) 3. Εισαγωγή στην Ανθρωπολογία της Τέχνης 3 4. Αισθητική Ι 3

Α εξάμηνο Γενική Κατεύθυνση. Μάθημα. Τουρκική Γλώσσα Ι (Α) Μορφολογία και Σύνταξη (70001Α) Τουρκική Γλώσσα Ι (Β) Δεξιότητες στο γραπτό λόγο (70001Β)

ΕΦΗΜΕΡΙ Α ΤΗΣ ΚΥΒΕΡΝΗΣΕΩΣ

Μάθημα. Τουρκική Γλώσσα Ι (Α) Μορφολογία και Σύνταξη (70001Α) Τουρκική Γλώσσα Ι (Β) Δεξιότητες στο γραπτό λόγο (70001Β)

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Δόμηση ενός ερευνητικού προγράμματος

«Ηράκλειο, έξυπνη πόλη» : Η τεχνολογία μετασχηματίζει την οικονομία. Μοχιανάκης Κωστής. Προϊστάμενος πληροφορικής επικοινωνιών Δήμου Ηρακλείου

Γλώσσα και Γλωσσική Τεχνολογία στην Ελλάδα

Η Ευρωπαϊκή Υποδομή CLARIN και η Εθνική Υποδομή CLARIN EL

Η Ευρωπαϊκή Υποδομή CLARIN και η Εθνική Υποδομή CLARIN EL

Η Ευρωπαϊκή Υποδομή CLARIN και η Εθνική Υποδομή CLARIN EL

Δίκτυο καινοτόμων εκπαιδευτικών. Ανάδειξη και προβολή ανοιχτών πρακτικών αξιοποίησης ψηφιακού εκπαιδευτικού περιεχομένου

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

25 CLARIN EL: Δημιουργώ, επεξεργάζομαι, μοιράζομαι. CLARIN EL: Creating, processing, sharing. 0 Εισαγωγή

ΑΑ ΘΕ ΕΞ ΑΝΑΛΥΤΙΚΑ ΘΕ ΠΑΡΑΤΗΡΗΣΕΙΣ. Applied Linguistics and Second Language Acquisition. Migration, Multilingualism and Intercultural Communication

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

ΥΠΟΥΡΓΕΙΟ ΤΟΥΡΙΣΜΟΥ ΨΗΦΙΑΚΟΣ ΣΧΕΔΙΑΣΜΟΣ

Ψηφιακά Mέσα Υπολογιστική Νοημοσύνη

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Η ΕΞΕΛΙΞΗ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΚΑΤΑ ΤΟΝ 20 Ο ΑΙΩΝΑ ΜΕ ΒΑΣΗ ΤΟ ΕΛΛΗΝΙΚΟ ΤΡΑΓΟΥΔΙ» ΧΡΗΣΤΟΣ ΚΩΤΣΑΚΟΠΟΥΛΟΣ

Αξιοποίηση και διάθεση ελληνικού ψηφιακού έγκριτου περιεχομένου

Ellogon: Μία Πλατφόρμα Επεξεργασίας Φυσικής Γλώσσας. Γεώργιος Πετάσης

Μάθημα ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ ΕΙΣΑΓΩΓΗΣ. Τουρκική Γλώσσα ΙΙ (Α) Φωνητική/Φωνολογία Μορφολογία/Σύνταξη*** (70005Α)

από αναπτυξιακά προγράμματα στους οργανισμούς πληροφόρησης»

ΑΠΟΘΕΤΗΡΙΟ ΕΦΑΡΜΟΓΩΝ ΥΠΠΕΘ ΚΑΙ ΕΠΟΠΤΕΥΟΜΕΝΩΝ ΦΟΡΕΩΝ (git.minedu.gov.gr)

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ηλεκτρονικά σώματα κειμένων και γλωσσική διδασκαλία: Διεθνείς αναζητήσεις και διαφαινόμενες προοπτικές για την ελληνική γλώσσα

Αποτύπωση επιχειρηματικής γνώσης και Διαδικασιών

Τμήμα Ιταλικής Γλώσσας και Φιλολογίας ΑΠΘ. Πρόγραμμα εξεταστικής περιόδου Ιουνίου 2019

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

ΕΚΠΑΙΔΕΥΤΗΡΙΑ «ΝΕΑ ΠΑΙΔΕΙΑ» Τομέας Νέων Ελληνικών

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 1. Βασικές αρχές 1-1

Μεθοδολογία Εκπαιδευτικής Έρευνας στη ΜΕ

ΠΑΡΑΡΤΗΜΑ ΕΝΔΕΙΚΤΙΚΑ ΔΕΛΤΙΑ ΕΚΘΕΣΕΩΝ ΑΞΙΟΛΟΓΗΣΗΣ

ΕΦΗΜΕΡΙ Α ΤΗΣ ΚΥΒΕΡΝΗΣΕΩΣ

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 5. Σύνθετα μέτρα 5-1

ΤΟ ΜΟΝΤΕΛΟ ΤΩΝ ΤΡΙΩΝ ΚΥΚΛΩΝ ΓΙΑ ΤΗΝ ΑΞΙΟΠΟΙΗΣΗ ΤΩΝ ΤΠΕ ΣΤΗ ΓΛΩΣΣΙΚΗ ΕΚΠΑΙΔΕΥΣΗ

Βιβλιοθήκη. Ωράριο Δευτέρα Τετάρτη Παρασκευή 8:00 15:00 Tρίτη Πέμπτη 8:00 20:00

Επιμορφωτικό υλικό για την επιμόρφωση των εκπαιδευτικών Τεύχος 3 (Κλάδος ΠΕ02) γ έκδοση 396

ΠΕΡΙΕΧΟΜΕΝΑ 7 ΠΕΡΙΕΧΟΜΕΝΑ

Οι Ανοικτοί Εκπαιδευτικοί Πόροι του Αποθετηρίου «Κάλλιπος» του ΣEAB: Οφέλη χρήσης και προοπτικές βιώσιμης ανάπτυξης

Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων

Μεθοδολογία Εκπαιδευτικής Ερευνας στη ΜΕ

Τα Επιτεύγματα του ΕΜΠ ως Συμβολή στην Αειφόρο Ανάπτυξη: Υπηρεσίες Δικτύων & Υπολογιστών και Ποιότητα Ζωής

Α εξάμηνο Γενική Κατεύθυνση

6 Αγγλικά Ι 8. Γαλλικά Ι 2. Γερμανικά Ι. Aγγλικά Ι 8. 2 Γαλλικά Ι

ΒΙΒΛΙΟΘΗΚΗ Γ Κ Ο Υ Ν Τ Α Β Α Ε.

Περιεχόμενα. Πρόλογος στην πέμπτη έκδοση... 13

þÿ Á±Æµ¹ ºÁ±Ä ± º±¹»µºÄÁ ½¹º þÿ ¹±ºÅ² Á½ à ÃÄ ¼Ìù± ¹ º

ΠΡΟΓΡΑΜΜΑ ΔΙΔΑΣΚΑΛΙΑΣ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ Μαθήματα 1 ου έτους ΕΥΡΩΠΑΪΚΗ ΠΟΛΙΤΙΚΗ ΙΣΤΟΡΙΑ 4 4 ΟΙΚΟΝΟΜΙΚΗ ΑΝΑΛΥΣΗ 3 4

Περιεχόμενα. Πρόλογος 15

ΕΘΝΙΚΗ ΠΟΛΙΤΙΚΗ για το Ψηφιακό Εκπαιδευτικό Περιεχόμενο

Ανάλυση ποιοτικών δεδομένων

Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών. Α Κύκλος Εκπαίδευσης Προσωπικού Υποστήριξης (ΠΥ) & 20-22/5/2014

ΤΠΕ στη Διδακτική των γλωσσών - Πολύγλωσσα ψηφιακά περιβάλλοντα γλωσσικής διδασκαλίας

Transcript:

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία Διονύσης Γούτσος ΕΚΠΑ, 01/03/2019

Γλωσσικοί πόροι και εργαλεία Γλωσσικοί πόροι: σώματα κειμένων. «εκτεταμένο δείγμα αυθεντικής χρήσης της υπό εξέταση γλώσσας, που συγκροτείται και χρησιμοποιείται ως πηγή στοιχείων για την παραγωγή ή εξέταση υποθέσεων για τη φύση της γλώσσας» (Sampson 2001: 6) - όχι αρχείο, αποθετήριο, βιβλιοθήκη, αλλά με πρόσβαση στη γλώσσα Γιατί; - βασικό μεθοδολογικό εργαλείο σε όλους τους κλάδους - εμπειρική θεμελίωση ερευνητικών υποθέσεων - αλλαγή στην επιστημολογική θεώρηση της γλώσσας

Σώματα κειμένων της Ελληνικής Τι έχουμε ποσοτικά; Λίγο περισσότερα από 100 εκατ. λέξεις διαθέσιμα Ιστοσελίδα Αριθμός λέξεων ΕΘΕΓ hnc.ilsp.gr 40.000.000 ΣΕΚ sek.edu.gr 30.000.000 ΣΚ Πύλης Προφορικό ΣΚ ΙΝΣ greeklanguage.g r 7.000.000 corpus-ins.lit.auth.gr 1.700.000 Corpus of MG web-corpora.net 35.700.000 + GkWaC sketchengine.co.uk 100.000.000

Σώματα κειμένων σε άλλες γλώσσες Ι Τι έχουν οι άλλοι; Renouf (2007): English language corpora 1960-1970: one-million word Small Corpus: LOB, Brown corpus 1980: the multi-million word Large Corpus: super-corpus: Bank of English, BNC 1990: the Modern Diachronic Corpus: dynamic, open-ended, chronological data flow: FLOB, Frown 2000: Web as corpus, cyber corpus

Σώματα κειμένων σε άλλες γλώσσες ΙΙ Τι έχουν οι άλλοι; Αγγλικά: - Oxford English Corpus: πάνω από 2,5 δισ. - Cambridge English Corpus: Written English πάνω από 1 δισ. Spoken English 70 εκατ. Business English 200 εκατ. English for Specific Purposes Academic English πάνω από 400 εκατ. Learner English 200.000 γραπτά

Σώματα κειμένων σε άλλες γλώσσες ΙΙΙ

Σώματα κειμένων σε άλλες γλώσσες ΙV

Σώματα κειμένων σε άλλες γλώσσες ΙV

Σώματα κειμένων στα Ελληνικά Ι Τι έχουμε ποιοτικά; Κυρίως: - συγχρονικά 20ού αιώνα - γραπτά - μονόγλωσσα * - πρότυπης γλώσσας

Σώματα κειμένων στα Ελληνικά ΙΙ * Πολύγλωσσα JRC-Acquis DGT-Acquis DGT-TM Europarl Ιστοσελίδα ec.europa.eu/jrc/en/ languagetechnologies www.statmt.or g/europarl Αριθμός λέξεων (97.832.281) 27.772.533 PANACEA www.elra.info 600.000 MLCC OPUS www.elra.info opus.lingfil.uu.se/ FREL niobe.frl.auth.gr/ 500.000

Σώματα κειμένων σε άλλες γλώσσες Εξειδικευμένα: Διαχρονικά Διαλεκτικά Κοινωνιολέκτων Πεδίων του λόγου Μαθητικών κειμένων (learner corpora) Επισημειωμένα για προσωδιακά φαινόμενα Πολυμεσικά

Γλωσσικοί πόροι: Σώματα κειμένων Ι Τι θέλουμε; Περισσότερα, μεγαλύτερα και εξειδικευμένα Σώματα Κειμένων Προτάσεις/κατευθύνσεις: Έμφαση σε διαχρονικά/ανοιχτά σώματα κειμένων Αλλαγή αντίληψης για τα ψηφιακά δεδομένα Ανάπτυξη εθνικής στρατηγικής Συλλογική προσπάθεια συγκέντρωσης και διαμοιρασμού δεδομένων

Γλωσσικοί πόροι: Σώματα κειμένων ΙΙΙ Έμφαση σε διαχρονικά/ανοιχτά σώματα κειμένων

Γλωσσικοί πόροι: Σώματα κειμένων IV Αλλαγή αντίληψης για τα ψηφιακά δεδομένα

Γλωσσικοί πόροι: Σώματα κειμένων V Ανάπτυξη εθνικής στρατηγικής

Γλωσσικοί πόροι: Σώματα κειμένων ΙΙ Συλλογική προσπάθεια συγκέντρωσης και διαμοιρασμού δεδομένων

Γλωσσικά εργαλεία Βασικά εργαλεία: Διαχωρισμός & εντοπισμός λεκτικών μονάδων (segmentation / tokenization) Λημματοποίηση (lemmatization) Επισημείωση με μέρος του λόγου (PoS tagging) Μορφοσυντακτική επισημείωση (below-pos tagging) Συντακτική ανάλυση (constituency/dependency parsing) Σημασιολογική επισημείωση (semantic annotation) Κειμενική επισημείωση (text annotation) Στοίχιση δί-/πολύγλωσσων κειμένων (alignment) Εξειδικευμένα εργαλεία/οπτικοποίηση

Γλωσσικά εργαλεία της Ελληνικής Τι έχουμε;

Γλωσσικά εργαλεία σε άλλες γλώσσες Ι Τι έχουν οι άλλοι;

Γλωσσικά εργαλεία σε άλλες γλώσσες ΙΙ

Γλωσσικά εργαλεία σε άλλες γλώσσες ΙΙΙ

Γλωσσικά εργαλεία σε άλλες γλώσσες ΙV

Γλωσσικά εργαλεία σε άλλες γλώσσες V

Γλωσσικά εργαλεία σε άλλες γλώσσες VΙ

Γλωσσικά εργαλεία Τι θέλουμε; Διαθέσιμα εργαλεία σε φιλική μορφή για τους χρήστες Ολοκληρωμένες πλατφόρμες γλωσσικής ανάλυσης Εργαλεία για παλαιότερες και διαλεκτικές ποικιλίες Ελληνικής π.χ. πολυτονικό OCR

Γλωσσικά εργαλεία Προσανατολισμός στους χρήστες των γλωσσικών εργαλείων Οπτικοποίηση γλωσσολογικών ευρημάτων

ΕΥΧΑΡΙΣΤΩ!