Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Σχετικά έγγραφα
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Γλωσσική Τεχνολογία. Natural Language Toolkit

Ανάκτηση Πληροφορίας

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Εισαγωγικό Φροντιστήριο

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Ανάκτηση πολυμεσικού περιεχομένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Παρουσίαση Παρεχόμενων Υπηρεσιών Πληροφορικής της DBS AE

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ανάκτηση Πληροφορίας

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Εισαγωγή στον Προγραμματισμό

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

Εκπαιδευτικό Εργαλείο Κανονικοποίησης

Γλωσσική Τεχνολογία. Εισαγωγικό Φροντιστήριο

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

2, µε τίτλο: «Υλοποίηση Εργαλείων Ανάπτυξης ιαχείρισης Σώµατος Κειµένων και Αυτόµατης Εξαγωγής Ορολογίας».

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Python & NLTK: Εισαγωγή

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

Software Production Company

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Ανάκτηση πληροφορίας

Αναγνώριση Προτύπων Ι

EBSCOhost Research Databases

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Ανάκτηση πληροφορίας

Εξόρυξη γνώσης από Blogs: Εφαρμογές στο πεδίο της εξόρυξης ψυχικής διάθεσης

Περιοδικοί δεκαδικοί αριθμοί. Περίοδος περιοδικού δεκαδικού αριθμού. Γραφή των περιοδικών δεκαδικών αριθμών. Δεκαδική μορφή ρητού :

Διαδικασιακός Προγραμματισμός

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Σημειώσεις του εργαστηριακού μαθήματος Πληροφορική ΙΙ. Εισαγωγή στην γλώσσα προγραμματισμού

Δομές Δεδομένων και Αλγόριθμοι

Εγκατάσταση αρχείων βιβλιοθήκης VHOPE και VHOPE

Ανταγωνιστική Εκμάθηση Δίκτυα Kohonen. Κυριακίδης Ιωάννης 2013

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

(Blended Executive Learning)

Εργαστήριο 4: Εργαλεία Συστήματος UNIX. Διδάσκων: Γιώργος Χατζηπολλάς. Στο εργαστήριο θα μελετηθούν: Εργαστηριακή Άσκηση 2 Παραδείγματα χρήσης awk

Ανάκτηση Πληροφορίας

Οικονομικές Καταστάσεις βάσει Ε.Λ.Π.

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Ευφυείς Τεχνικές για Εφαρμογές Αποθετηρίων

Κιτμερίδης Νικόλαος ΑΕΜ 1272

Μεταγλωττιστές. Ενότητα 6: Λεκτική ανάλυση (Μέρος 2 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Εξαγωγή ζευγών ερώτησης απάντησης από forum και αυτόματη απάντηση νέων ερωτήσεων

Πρόβλημα 37 / σελίδα 207

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

Σύστημα Πλεονάσματος και Αναπαράσταση Αριθμών Κινητής Υποδιαστολής

Εισαγωγή στους Η/Υ. Γιώργος Δημητρίου. Μάθημα 11 ο και 12 ο

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

3 ο Εργαστήριο Μεταβλητές, Τελεστές

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 9 ο : Σύνολα χαρακτήρων και UNICODE. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΤΟΠΙΚΟ ΜΟΝΤΕΛΟ ΠΕΠΕΡΑΣΜΕΝΩΝ ΣΤΟΙΧΕΙΩΝ

Παραδοτέο Π2.2 Υπηρεσία σημασιολογικής αντιστοίχισης

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

n, C n, διανύσματα στο χώρο Εισαγωγή

ΤΕΤΥ Εφαρμοσμένα Μαθηματικά 1. Τελεστές και πίνακες. 1. Τελεστές και πίνακες Γενικά. Τι είναι συνάρτηση? Απεικόνιση ενός αριθμού σε έναν άλλο.

Σημειωματάριο Τετάρτης 29 Νοε. 2017

Σχεσιακό Μοντέλο Περιορισμοί Μετατροπή ER σε Σχεσιακό Παράδειγμα.. Εργαστήριο Βάσεων Δεδομένων. Relational Model

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

Οικονόμου Βαγγέλησ Διάλεξη Νο 2. Δομημένοσ Προγραμματιςμόσ - Διάλεξη 2

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 3: Παίγνια με περισσότερους παίκτες και μέθοδοι απλοποίησης παιγνίων. Ε. Μαρκάκης. Επικ.

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Διονύσης Γούτσος ΕΚΠΑ, 01/03/2019

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Διαδικασιακός Προγραμματισμός

Ανάκτηση Πληροφορίας

DOM. Διδάσκοντες: Π. Αγγελάτος, Δ. Ζήνδρος Επιμέλεια διαφανειών: Π. Αγγελάτος Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

ΔΙΑΧΕΙΡΙΣΗ ΓΛΩΣΣΙΚΩΝ ΜΕΤΑΒΛΗΤΩΝ. Πολυκριτήρια Ανάλυση Αποφάσεων

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού

Σημειώσεις διαλέξεων: Βελτιστοποίηση πολυδιάστατων συνεχών συναρτήσεων 1 / 20

Transcript:

Γλωσσικη τεχνολογια Προεπεξεργασία Κειμένου

Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε το πληροφοριακό περιεχόμενο Μετρήσουμε την ομοιότητα μεταξύ κειμένων Χρειάζεται φορμαλιστική αναπαράσταση Εφαρμογές: Συστήματα δεικτοδότησης για Ανάκτηση Πληροφορίας Κατηγοριοποίηση κειμένου Σχεδόν ο,τιδήποτε έχει να κάνει με αυτόματη επεξεργασία κειμένου...

Βασικές Έννοιες Όροι Κάθε κείμενο περιγράφεται από ένα σύνολο από αντιπροσωπευτικές λέξεις κλειδιά που ονομάζονται όροι. Λεξιλόγιο Το σύνολο όλων των μοναδικών όρων που υπάρχουν στη συλλογή κειμένων Αναπαράσταση κειμένου Η αντιστοίχιση του κειμένου (αδόμητη πληροφορία) σε δομημένη αναπαράσταση

Πίνακας όρων-κειμένων term 1 term 2 term 3 d1 1,1 2,1 3,1 d2 1,2 2,2 3,2 Η ύπαρξη ενός όρου σε ένα κείμενο δημιουργεί μια σχέση μεταξύ τους Αυτή η σχέση ποσοτικοποιείται από τη συνάρτηση (i,j), διαφορετική σε κάθε μοντέλο αναπαράστασης Πόσες ξέρετε? Οι αντιπροσωπευτικοί όροι παρέχουν μια λογική αναπαράσταση του κειμένου.

Αναπαράσταση Κειμένου Λογική αναπαράσταση κειμένου Από το πλήρες κείμενο σε σύνολο αντιπροσωπευτικών όρων

Βασικά σημεία προεπεξεργασίας Επεξεργασία της δομής Εξαγωγή του κειμένου με επεξεργασία των μεταδεδομένων και των στοιχείων δομής, αν υπάρχουν Λεξική ανάλυση Μετατροπή του κειμένου σε ακολουθία λέξεων Αφαίρεση των τερματικών όρων (stopwords) Αφαίρεση των λέξεων που δεν φέρουν σημασιολογικό περιεχόμενο Κανονικοποίηση των λέξεων Αναγωγή όλων των μορφολογικών τύπων μιας λέξης σε μια ενιαία αναπαράσταση Επιλογή των αντιπροσωπευτικών όρων Κατασκευή της λογικής αναπαράστασης του κειμένου

Επεξεργασία της δομής ιστοσελίδων Αφαίρεση του html markup με το NLTK: Για πλήρη επεξεργασία html δείτε: Built-in python support Dive into Python : Chapter 8. HTML Processing Beautiul Soup package

Encodings Για τα encodings που υποστηρίζονται δείτε: http://docs.python.org/library/codecs.html#standard-encodings

Λεξική Ανάλυση Μετατροπή του κειμένου από ακολουθία χαρακτήρων σε ακολουθία δομικών μονάδων. Οι λέξεις που αναγνωρίζονται είναι υποψήφιες για αντιπροσωπευτικοί όροι του κειμένου. Απλούστερη μορφή: αναγνώριση των ορίων των δομικών μονάδων στα κενά. Η λεξική ανάλυση περιλαμβάνει πολλά περισσότερα...

Λεξική Ανάλυση όχι και τόσο απλή... 4 βασικά θέματα: Ψηφία Παύλες Σημεία στίξης Κεφαλαία/πεζά Web-speciic Διευθύνσεις email URLs...

Λεξική Ανάλυση Λύσεις NTLK tokenizer Regular Expressions

Λεξική Ανάλυση - Επιλογές Δεν υπάρχει ενιαία λύση που να καλύπτει όλες τις περιπτώσεις. Δεν επιτυγχάνεται 100% απόδοση. Αποφασίζουμε τι είναι token και τι όχι ανάλογα με το πεδίο εφαρμογής. Αντιμετωπίζουμε τις περιπτώσεις που συναντάμε συχνότερα στα δεδομένα μας. Στο NLTK περιλαμβάνεται παράδειγμα του «ιδεατού» tokenization:

Αφαίρεση Τερματικών Όρων Τερματικοί Όροι (stopwords) Όροι οι οποίοι δεν φέρουν πληροφορία για το θέμα του κειμένου Αφαιρούμε: Συγκεκριμένα μέρη του λόγου Όρους με υπερβολικά μεγάλη συχνότητα σε όλα τα κείμενα

Αναγνώριση μέρους του λόγου Χρειάζεται μορφοσυντακτική ανάλυση (Part-O-Speech Tagging) Προσοχή: Αν χρησιμοποιηθεί tagger τότε στην είσοδό του δεν πρέπει να έχει αφαιρεθεί τίποτα από το κείμενο! (Γιατί?)

Κανονικοποίηση Κανονικοποίηση λέξεων: μετατροπή σε τύπους που μπορούν να ομαδοποιηθούν. Επιλογές: Αναγωγή στο θέμα πχ: runs, running -> run colder, colds -> cold beginning,begins->begin Αναγωγή στον πρώτο κλιτικό τύπο πχ: am,was -> be has,had -> have

Κανονικοποίηση - Αποκατάληξη Stemming (αποκατάληξη) Αναγωγή στο θέμα της λέξης Χρησιμοποιεί σύνολο κανόνων αποκατάληξης

Κανονικοποίηση - Λημματοποίηση Lemmatization (λημματοποίηση) Αναγωγή στον πρώτο κλιτικό τύπο Χρησιμοποιεί μορφολογικό λεξικό Το πόσο ενημερωμένο είναι επηρεάζει την απόδοση!

Επιλογή αντιπροσωπευτικών όρων Ποσοτικοποίηση του πόσο σημαντικός είναι ο κάθε όρος Υπολογισμός βαρών Επιλογή των πιο σημαντικών (=όρων με τα μεγαλύτερα βάρη) Προσοχή: Η μέτρηση συχνοτήτων εμφάνισης και ο υπολογισμός της id είναι bottleneck!

Τελικά Με τους επιλεγμένους όρους κατασκευάζω τον πίνακα: term 1 term 2 term 3 d1 1,1 2,1 3,1 d2 1,2 2,2 3,2 Όπου η είναι: Boolean μοντέλο: 0 ή 1 Vector μοντέλο: Συχνότητα εμφάνισης: απλοϊκή επιλογή TId: Συχνότητα όρων & αντίστροφη συχνότητα εγγράφου Πως τον αποθηκεύω? Πως τον φορτώνω στη μνήμη?

Διάνυσμα Κειμένου Κάθε κείμενο αντιπροσωπεύεται τελικά από ένα διάνυσμα: vector(d n ) = term 1 term 2 term 3 Το διάνυσμα αναπαριστά φορμαλιστικά το κείμενο στο μοντέλο που εφαρμόζουμε Διευκολύνει ποσοτικοποίηση εννοιών όπως πχ ομοιότητα μεταξύ κειμένων Ομοιότητα: πως μπορεί να οριστεί όταν αναφερόμαστε σε διανύσματα? d1 1, n 2, n 3, n

Υπολογισμός βαρών με TId wwwwwwwwwwww ii = kk vvvvvvvvvvvv tttt ii iiiiii ii tttt kk iiii kk 22 Όπου: t (term requency) είναι η συχνότητα εμφάνισης ενός όρου σε ένα κείμενο id (inverse document requency) η αντίστροφη συχνότητα κειμένου στη συλλογή παρονομαστής (παράγοντας κανονικοποίησης) το ευκλείδιο μήκος του διανύσματος για κάθε κείμενο iiiiii ιι = llllll NN nn ii Όπου: N είναι ο συνολικός αριθμός κειμένων της συλλογής ni ο αριθμός των κειμένων της συλλογής στα οποία εμφανίζεται ο όρος i

Recommended Reading Natural Language Processing with Python Chapter 3: Preprocessing Raw Text