clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ
το πρόβλημα 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 2
σενάριο 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 3
απαιτήσεις 14.11.2015 τι χρειάζεται; γλωσσικά δεδομένα σώματα κειμένων (λόγοι των πολιτικών αλλά και σώμα κειμένων γενικής χρήσης) λεξικά / θεματικά λεξιλόγια / σημασιολογικά λεξικά εργαλεία επεξεργασίας και επισημείωσης ανάλυσης αποτελεσμάτων πού θα τα βρει; πρωτότυπες πηγές αρχειακές συλλογές άλλα πανεπιστήμια & ερευνητικά ιδρύματα συρτάρια συναδέλφων σε τι κατάσταση; μόνο κείμενο ιδανικά, ήδη σε ψηφιακή επεξεργάσιμη μορφή επισημειωμένα επιπλέον απαιτήσεις τεχνικές και νομικές γνώσεις απαιτήσεις σε υπολογιστική δύναμη 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 4
η λύση: CLARIN 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 5
στόχοι Η Ερευνητική Υποδομή CLARIN (www.clarin.eu) στοχεύει να δημιουργήσει μία ολοκληρωμένη και διαλειτουργική ερευνητική υποδομή Γλωσσικών Πόρων και Τεχνολογιών καταπολεμώντας την ισχύουσα αποσπασματικότητα και προσφέροντας ένα σταθερό, συνεπές, εύχρηστο και επεκτάσιμο περιβάλλον πρόσβασης σε γλωσσικά δεδομένα στην υπηρεσία όλων των επιστημών και κυρίως των Κοινωνικών και Ανθρωπιστικών Επιστημών (ΚΑΕ) 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 6
δηλαδή το CLARIN ενσωματώνει Γλωσσικούς Πόρους: ψηφιακό περιεχόμενο κάθε είδους (κείμενο, ήχο, εικόνα, βίντεο), πρωτογενείς και επισημειωμένους, λεξικά, οντολογίες, γραμματικές κτλ. Εργαλεία Γλωσσικής Τεχνολογίας: εργαλεία αναγνώρισης φωνής, λημματοποιητές, εργαλεία εξαγωγής περίληψης, κτλ. σε ένα συστηματικά οργανωμένο δίκτυο αποθετηρίων το οποίο είναι διαθέσιμο σε ερευνητές όλων των επιστημών μέσα από εθνικά υπο-δίκτυα που μεριμνούν για την έρευνα και την ψηφιακή προσαρμογή και ετοιμότητα των διαφόρων γλωσσών (σήμερα: περισσότερα από 200 μέλη από 33 χώρες) 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 7
όραμα Ένας ερευνητής από το γραφείο του στην Κέρκυρα θα μπορεί: με μία εγγραφή (με το ήδη υπάρχον ακαδημαϊκό login) με πιστοποίηση να ψάξει, να βρει και να πάρει την έγκριση να χρησιμοποιήσει κείμενα από την Οξφόρδη, το Μπέργκεν και το Λέιντεν να επιλέξει το σύνολο δεδομένων στα οποία θέλει να δουλέψει και να αποθηκεύσει την επιλογή του να επεξεργαστεί το υλικό του με εργαλεία σημασιολογικής ανάλυσης από την Αθήνα και στατιστικά εργαλεία από τη Βουδαπέστη να χρησιμοποιήσει την υπολογιστική ισχύ ενός άλλου υπολογιστικού κέντρου, όπου και όποτε απαιτείται να αποθηκεύσει τη διαδικασία και τα αποτελέσματα της ανάλυσης και να τα μοιραστεί με συνεργάτες του στο Παρίσι, στη Βιέννη και στο Ελσίνκι 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 8
η ελληνική υποδομή clarin:el 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 9
το clarin στην Ελλάδα κατασκευαστική φάση (2012 2015) μέλος του CLARIN ERIC από τον Φεβρουάριο του 2015 φιλοδοξεί να προσφέρει τους πόρους που χρειάζεται ένας ερευνητής για την έρευνά του σε 5 βήματα και με ένα επιπρόσθετο 6 ο βήμα, όταν αυτό είναι δυνατό... 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 10
ελληνική υποδομή: δύο στενά διασυνδεδεμένα υποσυστήματα υποσύστημα γλωσσικών πόρων τεκμηρίωση αποθήκευση διαμοιρασμός αναζήτηση ανάκτηση καταφόρτωση πάροχος καταναλωτής υποσύστημα επεξεργασίας γλωσσικών δεδομένων διαδικτυακές υπηρεσίες γλωσσικής επεξεργασίας για επεξεργασία πόρων παραγωγή νέων δεδομένων 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 11
χρήση της υποδομής από καταναλωτές πόρων 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 12
1. αναζήτηση με λέξεις κλειδιά, π.χ. ελληνικό σώμα κειμένων στη θεματική περιοχή "νομικά" 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 13
2. φυλλομέτρηση αποτελεσμάτων 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 14
2α. αναζήτηση με χρήση φίλτρων 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 15
3. θέαση επιλεγμένου πόρου 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 16
4. όροι χρήσης - αδειοδότηση 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 17
5. καταφόρτωση του πόρου 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 18
6. γλωσσική επεξεργασία πόρων process υπηρεσίες επεξεργασίας μονογλωσσικών σωμάτων κειμένων αναγνώριση λέξεων και προτάσεων (tokenisation and sentence splitting) μορφοσυντακτική ανάλυση (part of speech tagging) λημματοποίηση (lemmatisation) συντακτική ανάλυση (syntactic parsing) αναγνώριση και εξαγωγή ορολογίας (term recognition and extraction) αναγνώριση οντοτήτων (named entity recognition) υπηρεσίες επεξεργασίας πολυγλωσσικών σωμάτων κειμένων για Ελληνικά Αγγλικά: όλες οι υπηρεσίες για Ελληνικά - Χ (γλώσσα της ΕΕ): στοίχιση σε επίπεδο πρότασης, 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 19
Το δίκτυο clarin:el 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 20
Μέλη δικτύου clarin:el πάροχοι Γλωσσικών Πόρων μέλη του δικτύου μπορούν να γίνουν φορείς-μέλη (με ή χωρίς ιδρυματικά αποθετήρια) συνεργαζόμενοι ερευνητές (στο Αποθετήριο Φιλοξενούμενων Πόρων) ποιοι είναι ήδη μέλη - Κατασκευαστική Φάση (μέχρι 31/12/2015) Πιλοτική Φάση (από 1/1/2016) Όλοι οι υπόλοιποι ακαδημαϊκοί φορείς (πανεπιστήμια, ερευν. κέντρα) 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 21
χρήστες υποδομής πίσω από την υποδομή, το περιεχόμενο! χρήστες της υποδομής: καταναλωτές και πάροχοι γιατί να διαθέσει κανείς τους πόρους του; διαμοιρασμός, εμπλουτισμός, αξιοποίηση, πολλαπλασιασμός 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 22
περισσότερες πληροφορίες www.clarin.gr http://inventory.clarin.gr info@clarin.gr clarin.gr @CLARIN_el https://www.linkedin.com/grp/home?gid=8309819 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 23
Ευχαριστώ πολύ! 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 24