ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Εισαγωγικό Φροντιστήριο

Σχετικά έγγραφα
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Python & NLTK: Εισαγωγή

Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Εργαλεία ΕΙΣΑΓΩΓΙΚΟ ΦΡΟΝΤΙΣΤΗΡΙΟ

Γλωσσική Τεχνολογία. Εισαγωγικό Φροντιστήριο

Εισαγωγικό Φροντιστήριο

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΜΕ ΧΡΗΣΗ PHP

Εισαγωγή στον Προγραμματισμό

Π. Σταθοπούλου ή Οµάδα Α (Φοιτητές µε µονό αριθµό Μητρώου ) ιδασκαλία : Παρασκευή 11πµ-13µµ ΗΛ7

Παράλληλη Επεξεργασία

Η γλώσσα προγραμματισμού C

Hancock. Ζωγραφάκης Ιωάννης Εξαρχάκος Νικόλαος. ΕΠΛ 428 Προγραμματισμός Συστημάτων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Εισαγωγή στο προγραμματιστικό περιβάλλον ANSI

ΕΡΓΑΣΤΗΡΙΟ 3: Προγραμματιστικά Περιβάλλοντα και το Πρώτο Πρόγραμμα C

Εισαγωγή στην Python. Διάλεξη 0

Προγραμματισμός I (Θ)

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

7. Είσοδος / Έξοδος Δεδομένων, Μορφοποίηση Δεδομένων Εξόδου

ΚΕΦΑΛΑΙΟ 6. Περιβάλλοντα Ανάπτυξης Εφαρμογών. ΚΕΦΑΛΑΙΟ 6 Περιβάλλοντα Ανάπτυξης Εφαρμογών. Α Γενικού Λυκείου

Εισαγωγή στον Προγραμματισμό

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Ενότητα 5: «Εισαγωγή στον Προγραμματισμό. Απλές ασκήσεις με γλώσσα C»

Ενότητα 4: «Εισαγωγή στον Προγραμματισμό. Τα πρώτα προγράμματα σε γλώσσα C»

Εισαγωγή στην Γλώσσα Προγραμματισμού Python. 12/10/16 1

Εισαγωγή στον Προγραμματισμό Python Μάθημα 1: Μεταβλητές, τελεστές, είσοδος/έξοδος προγράμματος, συνθήκη ελέγχου if Νοέμβριος 2014 Χ. Αλεξανδράκη, Γ.

(Κεφάλαιο 2.7 και 12) Αρχεία στην C. (Διάλεξη 15)

ΜΔΛΔΣΖ ΚΑΗ ΔΛΔΓΥΟ ΣΟΤ PYTHON NATURAL LANGUAGE TOOLKIT ΣΖΝ ΔΛΛΖΝΗΚΖ ΓΛΧΑ

Σημειώσεις του εργαστηριακού μαθήματος Πληροφορική ΙΙ. Εισαγωγή στην γλώσσα προγραμματισμού

ΕΡΓΑΣΤΗΡΙΟ 3: Προγραμματιστικά Περιβάλλοντα και το Πρώτο Πρόγραμμα C

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Γλωσσική Τεχνολογία. Natural Language Toolkit

Φροντιςτήριο. Linked-List

ΕΡΓΑΣΤΗΡΙΟ 3: Προγραμματιστικά Περιβάλλοντα και το Πρώτο Πρόγραμμα C

Κεφάλαιο Πίνακες Ι. (Διάλεξη 16)

Η-Υ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ. Εργαστήριο 1 Εισαγωγή στη C. Σοφία Μπαλτζή s.mpaltzi@di.uoa.gr

Βασικά Στοιχεία Python 3

Διάλεξη 1η: Εισαγωγή

Εισαγωγή στους Υπολογιστές

Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας

Π. Σταθοπούλου ή Οµάδα Α (Φοιτητές µε µονό αριθµό Μητρώου ) ιδασκαλία : Παρασκευή 11πµ-13µµ ΗΛ7

Ενδεικτικές λύσεις και στατιστικά

ΣΕΤ ΑΣΚΗΣΕΩΝ 2. Προθεσμία: Τετάρτη 23/11/2016, 21:00

Συµβολοσειρές - Strings

είκτες και Πίνακες (2)

Προεπεξεργαστής της C. C Preprocessor. Προγραμματισμός II 1

ΘΕΜΑΤΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Η/Υ

Στην ενότητα αυτή θα µελετηθούν τα εξής επιµέρους θέµατα: ΕΠΛ 131 Αρχές Προγραµµατισµού I 4-2

Εργαστήριο Βάσεων Δεδομένων

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Ακαδημαϊκό έτος ΤΕΤΡΑΔΙΟ ΕΡΓΑΣΤΗΡΙΟΥ #3

Προγραμματισμός Ι (HY120)

ΜΑΘΗΜΑΤΑ PYTHON. Καθηγητής Ι. Δημητρίου.

PERL. Δήμος Παύλου Δημήτρης Κουζαπάς

Α Β Γ static; printf("%c\n", putchar( A +1)+2); B DB BD. int i = 0; while (++i); printf("*");

Εξοικείωση με το πρόγραμμα DEV C++ Επικοινωνία Χρήστη - Υπολογιστή

ΚΕΦΑΛΑΙΟ 1. Εισαγωγή στην Python. 1.1 Εισαγωγή

Μεθόδων Επίλυσης Προβλημάτων

Αλγόριθμοι Ταξινόμησης Μέρος 1

Μεθόδων Επίλυσης Προβλημάτων

Προγραμματισμός Ι (ΗΥ120)

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. Eισαγωγή στον Προγραμματισμό

Α. unsigned int Β. double. Γ. int. unsigned char x = 1; x = x + x ; x = x * x ; x = x ^ x ; printf("%u\n", x); Β. unsigned char

Γλώσσα Προγραμματισμού C++ Εισαγωγή - Μια πρώτη ματιά

Προγραμματισμό για ΗΜΥ

Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Εργαλεία ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ FILE & PROCESS HANDLING

Εισαγωγή στη Βιοπληροφορική

Προγραμματισμός Ι (HY120)

Κεφάλαιο 2.6: Είσοδος / Έξοδος εδοµένων, Μορφοποίηση εδοµένων Εξόδου. ( ιάλεξη 7) ιδάσκων: ηµήτρης Ζεϊναλιπούρ

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

Εργαστήριο 2: Πίνακες

Πληροφορική ΙΙ Θεματική Ενότητα 2

Αντικειμενοστραφής Προγραμματισμός I (5 ο εξ) Εργαστήριο #1 ο : Εισαγωγή στο Περιβάλλον Ανάπτυξης (IDE)

Γραφικά υπολογιστών Εργαστήριο 1 Εισαγωγή στην Python

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΥΠΟΛΟΓΙΣΤΩΝ & ΥΠΟΛΟΓΙΣΤΙΚΗ ΦΥΣΙΚΗ

Συστήματα Παράλληλης και Κατανεμημένης Επεξεργασίας

Αντικειμενοστραφής Προγραμματισμός I(5 ο εξ) Εργαστήριο #1 ο : Εισαγωγή στο Περιβάλλον Ανάπτυξης (IDE)

Κεφάλαιο Πίνακες Ι. ( ιάλεξη 15) ιδάσκων: ηµήτρης Ζεϊναλιπούρ

Προγραμματισμός Ι (ΗΥ120)

Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας

Π. Σταθοπούλου ή Οµάδα Α (Φοιτητές µε µονό αριθµό Μητρώου ) ιδασκαλία : Παρασκευή 11πµ-13µµ ΗΛ7

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Εργαστήριο 9: Αρχεία

Διαδικασιακός Προγραμματισμός

Παρουσίαση της εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2016) Β Μέρος. Γιώργος Μικρός ΕΚΠΑ

abistarakis PASS - Σωστή κατασκευή tgz και ονοµασία αρχείων

Τμήμα Πληροφορικής & Επικοινωνιών Δρ. Θεόδωρος Γ. Λάντζος

ΑΡΧΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ

Bizagi Modeler: Συνοπτικός Οδηγός

ΑΡΧΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ

(Κεφάλαιο 2.7 και 12) Αρχεία στην C. ( ιάλεξη 13) ιδάσκων: ηµήτρης Ζεϊναλιπούρ

Κεφάλαιο 2.6: Είσοδος / Έξοδος Δεδομένων, Μορφοποίηση Δεδομένων Εξόδου. (Διάλεξη 7) Είσοδος/ Έξοδος

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΩΝ & Δ ΤΑΞΗΣ ΕΣΠΕΡΙΝΩΝ ΥΠΟΛΕΙΠΟΜΕΝΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ HMEΡΗΣΙΩΝ ΚΑΙ ΕΣΠΕΡΙΝΩΝ ΕΠΑΓΓΕΛΜΑΤΙΚΩΝ ΛΥΚΕΙΩΝ

Κεφάλαιο 2.6: Είσοδος / Έξοδος Δεδομένων, Μορφοποίηση Δεδομένων Εξόδου. (Διάλεξη 7)

Εισαγωγή στον Προγραµµατισµό. Πανεπιστήµιο Θεσσαλίας Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Η/Υ

APP INVENTOR ΟΔΗΓΟΣ 8 Οκτωβρίου 2018

Κατανεμημένος και Παράλληλος Προγραμματισμός. Εισαγωγή στο MPI. Εγκατάσταση MPICH σε ένα ΗΥ 10/3/2017

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Μάριος Αγγελίδης Ενότητες βιβλίου: 2.1, 2.3, 6.1 (εκτός ύλης αλλά χρειάζεται για την συνέχεια) Ώρες διδασκαλίας: 1

Εγκατάσταση του AutoCAD

Transcript:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Εισαγωγικό Φροντιστήριο

Project του μαθήματος Εργασία 2 ατόμων Προφορική εξέταση για: Project (80%) Θεωρία (20%) Στο φροντιστήριο: Ζητήματα σχεδιασμού Παρουσίαση εργαλείων Γλώσσα υλοποίησης της επιλογής σας αλλά: Το φροντιστήριο θα γίνει σε Python 2.x.x Although Python 3.0 is now available, NLTK has not yet been ported. For now you should use NLTK with Python 2.5.*, 2.6.*, or 2.7.* only. NLTK 3.0 will hopefully be ready during 2012.

Γιατί Python; Εύκολη! Θα τη μάθετε αμέσως. Χρειάζεται να γράψετε πολύ λιγότερο κώδικα. (Ο χρόνος development είναι 10 φορές μικρότερος) Είναι scripting, παρόλα αυτά αρκετά γρήγορη. (Implemented in C) Ο κώδικας σε Python είναι μικρότερος και πιο «καθαρός», εύκολος να διαβαστεί και να κατανοηθεί. (Τα blocks κώδικα ορίζονται από κενά) Cross-Platform: Μπορείτε να προγραμματίσετε σε Windows ή Linux Υπάρχουν πολλά και δωρεάν διαθέσιμα resources στο δίκτυο για να διαβάσετε. Υπάρχει σε Python το NLTK (Natural Language Toolkit), το οποίο περιλαμβάνει ήδη υλοποιημένα εργαλεία για επεξεργασία φυσικής γλώσσας.

Βαθμολόγηση Η παράδοση του project θα γίνει τη μέρα της εξέτασης. Βαθμολογούνται: Η ορθότητα της υλοποίησης (σωστά αποτελέσματα) Η πληρότητα της υλοποίησης (όλα τα ζητούμενα) Ο καλός σχεδιασμός Τεκμηριωμένες σχεδιαστικές επιλογές Ολοκληρωμένη εφαρμογή, σχεδιασμός κοντά σε πραγματικές ανάγκες Εφαρμογή της θεωρίας, σωστή χρήση της θεωρίας Καλή απόδοση!!! (μεγάλος όγκος δεδομένων εισόδου) Να έχετε ασχοληθεί και να ξέρετε να απαντήσετε στις ερωτήσεις για το project.

Python High Level Scripting Elegant Syntax Interpreted Object Oriented Functional Dynamic Typing Automatic Memory Management

My First Program print Hello World! Αντί για: #include <stdio.h> int main(int argc, char** argv) { printf( HelloWorld!\n ); }

Interactive Mode

Πηγές για Python Python Documentation Dive into Python Ελληνική κοινότητα προγραμματιστών Python effbot.org Google

Editors Editors Windows Notepad etc. Linux Gedit etc. IDEs Windows Active Python Netbeans Linux Eclipse Netbeans

NLTK Natural Language Toolkit Πακέτο βιβλιοθηκών και προγραμμάτων της Python για εφαρμογές Επεξεργασίας Φυσικής Γλώσσας. Χρησιμοποιείται ευρύτατα ως ερευνητικό εργαλείο στο πεδίο της υπολογιστικής γλωσσολογίας Περιλαμβάνει πολλά γνωστά corpora Πρέπει να το εγκαταστήσετε χωριστά Download του NLTK & οδηγίες για εγκατάσταση το βιβλίο Natural Language Processing with Python Περιλαμβάνει περιγραφή όλων των διαθέσιμων εργαλείων

Πρόσβαση στα resources Το NLTK με την εντολή download δίνει τη δυνατότητα εγκατάστασης διάφορων resources

Διαθέσιμα resources Μέρος της λίστας των διαθέσιμων:

Βιβλίο Natural Language Processing with Python Μπορείτε να εγκαταστήσετε τις πηγές του βιβλίου:

Βιβλίο Χρήση των πηγών Σε άγνωστα αντικείμενα θυμηθείτε το dir για να δουλέψετε

Βιβλίο Μέτρηση συχνοτήτων Απόδοση?

Βιβλίο Frequency Distribution FreqDist Δέχεται ως είσοδο τη λίστα από tokens Δίνει ένα dictionary με key το token και value τη συχνότητα εμφάνισής του

Βιβλίο Concordances

Βιβλίο Concordances Από το περιβάλλον συνεμφάνισης μπορούμε να αντλήσουμε στοιχεία για τη σημασιολογία των λέξεων:

Webtext Συλλογή κειμένων από το διαδίκτυο Τι διαφορές έχουν από τα υπόλοιπα κείμενα?

Κείμενα από τον Παγκόσμιο Ιστό Προκλήσεις στην επεξεργασία κειμένων από τον Παγκόσμιο Ιστό: Τεράστιος όγκος δεδομένων Συνεχής αύξηση των δεδομένων Πολλές γλώσσες Κείμενα χαμηλής ποιότητας (πχ ασύντακτα και ανορθόγραφα) Html μορφή και προβλήματα στην επεξεργασία της (not wellformed) Ιδιαιτερότητες στην επικοινωνία: Transliteration (greeklish, romanization etc.) Internet Acronyms(afk, lol, btw, twot etc.) Internet slang(noob, troll, fail etc.)

Penn Treebank Corpus Sample

Penn Treebank Corpus Sample Penn Treebang Tagset: το tagset του Treetagger

Brown Corpus Ξεκίνησε τη δεκαετία του 60 στο Brown University Συλλογή αντιπροσωπευτικών κειμένων της αγγλικής Αποτέλεσε τη βάση για πολλά μορφοσυντακτικά σχολιασμένα corpora Το Brown Corpus αποτελεί ιστορικό κομμάτι της υπολογιστικής γλωσσολογίας

Brown Corpus Περιέχει κείμενα ταξινομημένα σε κατηγορίες Επιτρέπει ανάκτηση λέξεων και προτάσεων ανά κατηγορία

Brown Corpus Παράδειγμα χρήσης Εύρεση του λεξιλογίου που συναντάται στα κείμενα επιστημονικής φαντασίας