ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Σχετικά έγγραφα
Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Εισαγωγικό Φροντιστήριο

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Γλωσσική Τεχνολογία. Natural Language Toolkit

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Παρουσίαση Παρεχόμενων Υπηρεσιών Πληροφορικής της DBS AE

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Python & NLTK: Εισαγωγή

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Γλωσσική Τεχνολογία. Εισαγωγικό Φροντιστήριο

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0. Εφαρμογές Πληροφορικής Κεφ. 9 Καραμαούνας Πολύκαρπος 1

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

Εργαστήριο 4: Εργαλεία Συστήματος UNIX. Διδάσκων: Γιώργος Χατζηπολλάς. Στο εργαστήριο θα μελετηθούν: Εργαστηριακή Άσκηση 2 Παραδείγματα χρήσης awk

Γιάννης Σαμωνάκης. 1 ο ΣΧΟΛΕΙΟ ΚΩΔΙΚΑ «Βασικά Θέματα Προγραμματισμού στην Ανάπτυξη Δυναμικών Διαδικτυακών Εφαρμογών» (Part 4 - PHP)

ΜΔΛΔΣΖ ΚΑΗ ΔΛΔΓΥΟ ΣΟΤ PYTHON NATURAL LANGUAGE TOOLKIT ΣΖΝ ΔΛΛΖΝΗΚΖ ΓΛΧΑ

Ανάκτηση πολυμεσικού περιεχομένου

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

Software Production Company

Εκπαιδευτικό Εργαλείο Κανονικοποίησης

Διαδικασιακός Προγραμματισμός

Οικονόμου Βαγγέλησ Διάλεξη Νο 2. Δομημένοσ Προγραμματιςμόσ - Διάλεξη 2

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Εργαλεία ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ FILE & PROCESS HANDLING

Εισαγωγή στον Προγραμματισμό

Εγκατάσταση αρχείων βιβλιοθήκης VHOPE και VHOPE

Πληροφοριακά Συστήματα

Ανάκτηση Πληροφορίας

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Μαλούτα Θεανώ Σελίδα 1

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Λειτουργικά Συστήματα (Λ/Σ)

Πρόβλημα 37 / σελίδα 207

Εισαγωγή στους Η/Υ. Γιώργος Δημητρίου. Μάθημα 11 ο και 12 ο

2, µε τίτλο: «Υλοποίηση Εργαλείων Ανάπτυξης ιαχείρισης Σώµατος Κειµένων και Αυτόµατης Εξαγωγής Ορολογίας».

Ευφυείς Τεχνικές για Εφαρμογές Αποθετηρίων

ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Εργαλεία ΕΙΣΑΓΩΓΙΚΟ ΦΡΟΝΤΙΣΤΗΡΙΟ

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ÁÎÉÁ ÅÊÐÁÉÄÅÕÔÉÊÏÓ ÏÌÉËÏÓ

Γκέγκα Ευρώπη Κωστοπούλου Ειρήνη

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Javascript. του project /software/web_tools/webapps/search_engine/.

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος

Ανάκτηση Πληροφορίας

Σχολικό Βιβλίο - Κεφάλαιο 7 ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΜΕ PASCAL ΠΑΡΟΥΣΙΑΣΗ 13

(Blended Executive Learning)

Τμήμα Πληροφορικής & Επικοινωνιών Δρ. Θεόδωρος Γ. Λάντζος

Οικονομικές Καταστάσεις βάσει Ε.Λ.Π.

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 9 ο : Σύνολα χαρακτήρων και UNICODE. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 2 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Λειτουργικά Συστήματα Κεφάλαιο 2 Οργάνωση Συστήματος Αρχείων 2.1 Διαχείριση Αρχείων και Σύστημα Αρχείων(File System)

Αποµακρυσµένη κλήση διαδικασιών

ΜΑΘΗΜΑ: Εργαλεία Ανάπτυξης εφαρμογών internet.

Παραδοτέο Π2.2 Υπηρεσία σημασιολογικής αντιστοίχισης

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 3 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

Δομημένος Προγραμματισμός

Αλγοριθμική & Δομές Δεδομένων- Γλώσσα Προγραμματισμού Ι (PASCAL)

Διαδικασιακός Προγραμματισμός

ΕΙΔΗ,ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙ- ΣΜΟΥ

Εισαγωγή Κεφάλαιο 1: Εγκατάσταση της Access Κεφάλαιο 2: Βάσεις δεδομένων και δομικά στοιχεία της Access

Εργαστήριο Σημασιολογικού Ιστού

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Κεφάλαιο 4: Λογισμικό Συστήματος

ΠΛΕ075: Προηγμένη Σχεδίαση Αλγορίθμων και Δομών Δεδομένων. Λουκάς Γεωργιάδης

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Εξόρυξη γνώσης από Blogs: Εφαρμογές στο πεδίο της εξόρυξης ψυχικής διάθεσης

Αρχιτεκτονικη υπολογιστων

Ανάκτηση Πληροφορίας

Προγραμματισμός Ι (HY120)

MANAGER SIDE BAR. Μία άλλη λειτουργία είναι το ξυπνητήρι. Μπορείτε να ορίσετε τον χρόνο υπενθύμισης. Μετά την λήξη του χρόνου θα ειδοποιηθείτε ηχητικά

Προγραμματισμός διαδικτυακών εφαρμογών με PHP

Θέματα Μεταγλωττιστών

SilverPlatter WebSPIRS 4.1.

Λειτουργικό Σύστημα: διαχείριση πόρων. Τι είναι ένα αρχείο ; Διαχείριση αρχείων. Λειτουργικά Συστήματα (ΙΙ) (διαχείριση αρχείων)

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς

Transcript:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου

Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε το πληροφοριακό περιεχόμενο Μετρήσουμε την ομοιότητα μεταξύ κειμένων Χρειάζεται φορμαλιστική αναπαράσταση Εφαρμογές: Συστήματα δεικτοδότησης για Ανάκτηση Πληροφορίας Κατηγοριοποίηση κειμένου Σχεδόν ο,τιδήποτε έχει να κάνει με αυτόματη επεξεργασία κειμένου...

Βασικές Έννοιες Όροι Κάθε κείμενο περιγράφεται από ένα σύνολο από αντιπροσωπευτικές λέξεις κλειδιά που ονομάζονται όροι. Λεξιλόγιο Το σύνολο όλων των μοναδικών όρων που υπάρχουν στη συλλογή κειμένων Αναπαράσταση κειμένου Η αντιστοίχιση του κειμένου (αδόμητη πληροφορία) σε δομημένη αναπαράσταση

Πίνακας όρων-κειμένων term 1 term 2 term 3 d1 1,1 2,1 3,1 d2 1,2 2,2 3,2 Η ύπαρξη ενός όρου σε ένα κείμενο δημιουργεί μια σχέση μεταξύ τους Αυτή η σχέση ποσοτικοποιείται από τη συνάρτηση (i,j), διαφορετική σε κάθε μοντέλο αναπαράστασης Πόσες ξέρετε? Οι αντιπροσωπευτικοί όροι παρέχουν μια λογική αναπαράσταση του κειμένου.

Αναπαράσταση Κειμένου Λογική αναπαράσταση κειμένου Από το πλήρες κείμενο σε σύνολο αντιπροσωπευτικών όρων

Βασικά σημεία προεπεξεργασίας Επεξεργασία της δομής Εξαγωγή του κειμένου με επεξεργασία των μεταδεδομένων και των στοιχείων δομής, αν υπάρχουν Λεξική ανάλυση Μετατροπή του κειμένου σε ακολουθία λέξεων Αφαίρεση των τερματικών όρων (stopwords) Αφαίρεση των λέξεων που δεν φέρουν σημασιολογικό περιεχόμενο Κανονικοποίηση των λέξεων Αναγωγή όλων των μορφολογικών τύπων μιας λέξης σε μια ενιαία αναπαράσταση Επιλογή των αντιπροσωπευτικών όρων Κατασκευή της λογικής αναπαράστασης του κειμένου

Επεξεργασία της δομής ιστοσελίδων Αφαίρεση του html markup με το NLTK: Για πλήρη επεξεργασία html δείτε: Built-in python support Dive into Python : Chapter 8. HTML Processing Beautiul Soup package

Encodings Για τα encodings που υποστηρίζονται δείτε: http://docs.python.org/library/codecs.html#standard-encodings

Λεξική Ανάλυση Μετατροπή του κειμένου από ακολουθία χαρακτήρων σε ακολουθία δομικών μονάδων. Οι λέξεις που αναγνωρίζονται είναι υποψήφιες για αντιπροσωπευτικοί όροι του κειμένου. Απλούστερη μορφή: αναγνώριση των ορίων των δομικών μονάδων στα κενά. Η λεξική ανάλυση περιλαμβάνει πολλά περισσότερα...

Λεξική Ανάλυση όχι και τόσο απλή... 4 βασικά θέματα: Ψηφία Παύλες Σημεία στίξης Κεφαλαία/πεζά Web-speciic... Διευθύνσεις email URLs

Λεξική Ανάλυση Λύσεις NTLK tokenizer Regular Expressions

Λεξική Ανάλυση - Επιλογές Δεν υπάρχει ενιαία λύση που να καλύπτει όλες τις περιπτώσεις. Δεν επιτυγχάνεται 100% απόδοση. Αποφασίζουμε τι είναι token και τι όχι ανάλογα με το πεδίο εφαρμογής. Αντιμετωπίζουμε τις περιπτώσεις που συναντάμε συχνότερα στα δεδομένα μας. Στο NLTK περιλαμβάνεται παράδειγμα του «ιδεατού» tokenization:

Αφαίρεση Τερματικών Όρων Τερματικοί Όροι (stopwords) Όροι οι οποίοι δεν φέρουν πληροφορία για το θέμα του κειμένου Αφαιρούμε: Συγκεκριμένα μέρη του λόγου Όρους με υπερβολικά μεγάλη συχνότητα σε όλα τα κείμενα

Αναγνώριση μέρους του λόγου Χρειάζεται μορφοσυντακτική ανάλυση (Part-O- Speech Tagging) Προσοχή: Αν χρησιμοποιηθεί tagger τότε στην είσοδό του δεν πρέπει να έχει αφαιρεθεί τίποτα από το κείμενο! (Γιατί?)

Κανονικοποίηση Κανονικοποίηση λέξεων: μετατροπή σε τύπους που μπορούν να ομαδοποιηθούν. Επιλογές: Αναγωγή στο θέμα πχ: runs, running -> run colder, colds -> cold beginning,begins->begin Αναγωγή στον πρώτο κλιτικό τύπο πχ: am,was -> be has,had -> have

Κανονικοποίηση - Αποκατάληξη Stemming (αποκατάληξη) Αναγωγή στο θέμα της λέξης Χρησιμοποιεί σύνολο κανόνων αποκατάληξης

Κανονικοποίηση - Λημματοποίηση Lemmatization (λημματοποίηση) Αναγωγή στον πρώτο κλιτικό τύπο Χρησιμοποιεί μορφολογικό λεξικό Το πόσο ενημερωμένο είναι επηρεάζει την απόδοση!

Επιλογή αντιπροσωπευτικών όρων Ποσοτικοποίηση του πόσο σημαντικός είναι ο κάθε όρος Υπολογισμός βαρών Επιλογή των πιο σημαντικών (=όρων με τα μεγαλύτερα βάρη) Προσοχή: Η μέτρηση συχνοτήτων εμφάνισης και ο υπολογισμός της id είναι bottleneck!

Τελικά Με τους επιλεγμένους όρους κατασκευάζω τον πίνακα: term 1 term 2 term 3 d1 1,1 2,1 3,1 d2 1,2 2,2 3,2 Όπου η είναι: Boolean μοντέλο: 0 ή 1 Vector μοντέλο: Συχνότητα εμφάνισης: απλοϊκή επιλογή TId: Συχνότητα όρων & αντίστροφη συχνότητα εγγράφου Πως τον αποθηκεύω? Πως τον φορτώνω στη μνήμη?

Εργαλεία Tree-tagger Tree-tagger κλήση από windows Δέχεται tokenized είσοδο

Εργαλεία - Gposttl tagger Gposttl tagger κλήση από linux Δεν χρειάζεται tokenized είσοδο.

Recommended Reading Natural Language Processing with Python Chapter 3: Preprocessing Raw Text