Διαχείριση Web Περιεχομένου & Γλωσσικά Εργαλεία

Σχετικά έγγραφα
7 Present PERFECT Simple. 8 Present PERFECT Continuous. 9 Past PERFECT Simple. 10 Past PERFECT Continuous. 11 Future PERFECT Simple

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

Επικοινωνία Ανθρώπου Υπολογιστή

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

Πέτρος Γ. Οικονομίδης Πρόεδρος και Εκτελεστικός Διευθυντής

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Τομέας Τηλεπικοινωνιών Αναπληρωτής Καθηγητής: Αλέξανδρος Ποταμιάνος

Οδηγίες Αγοράς Ηλεκτρονικού Βιβλίου Instructions for Buying an ebook

Δημιουργία Λογαριασμού Διαχείρισης Business Telephony Create a Management Account for Business Telephony

FINAL TEST B TERM-JUNIOR B STARTING STEPS IN GRAMMAR UNITS 8-17

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Τοµέας Τηλεπικοινωνιών Αναπληρωτής Καθηγητής: Αλέξανδρος Ποταµιάνος

How to register an account with the Hellenic Community of Sheffield.

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Ανάκτηση Πληροφορίας

Γραμμική Αλγεβρα ΙΙ Διάλεξη 1 Εισαγωγή Χρήστος Κουρουνιώτης Πανεπισ τήμιο Κρήτης 19/2/2014 Χ.Κουρουνιώτης (Παν.Κρήτης) Διάλεξη 1 19/2/ / 13

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΜΙΑ ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ: ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΤΩΝ ΒΑΘΜΟΛΟΓΙΩΝ ΤΩΝ ΜΑΘΗΤΩΝ ΕΝΟΣ ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ 2000 ΩΣ ΤΟ 2013.

Παρουσίαση της εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2016) Β Μέρος. Γιώργος Μικρός ΕΚΠΑ

ΤΟ ΣΤΑΥΡΟΔΡΟΜΙ ΤΟΥ ΝΟΤΟΥ ΤΟ ΛΙΜΑΝΙ ΤΗΣ ΚΑΛΑΜΑΤΑΣ

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

Πρακτική Εφαρμογή του Προγράμματος Σπουδών Επιπέδου Α' στην Διδασκαλία της Ελληνικής Γλώσσας. Στέφανος Παπαζαχαρίας

1 ο ΔΙΔΑΚΤΙΚΟ ΦΥΛΛΟ «Jeu speech» ΠΩΣ ΕΙΣΑΙ;

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Επιστημονικός Υπολογισμός (set3) Δρ. Γιώργος Τσιρογιάννης

LESSON 12 (ΜΑΘΗΜΑ ΔΩΔΕΚΑ) REF : 202/055/32-ADV. 4 February 2014

ΒΑΡΥΤΙΚΟ ΠΕΔΙΟ. Young Ζήσος Κεφ.8

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Εισαγωγικό Φροντιστήριο

Αλεξία!Γιαννακοπούλου,!Δείγματα!για!δοκιμασίες!παραγωγής!γραπτού!λόγου!

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Άσκηση 11 Υπολογισμός συντελεστών κινητικής και στατικής τριβής

Ειδικό πρόγραμμα ελέγχου για τον ιό του Δυτικού Νείλου και την ελονοσία, ενίσχυση της επιτήρησης στην ελληνική επικράτεια (MIS )

Writing for A class. Describe yourself Topic 1: Write your name, your nationality, your hobby, your pet. Write where you live.

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ

Section 7.6 Double and Half Angle Formulas

APEIROSTIKOS LOGISMOS I

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΕΝΙΣΧΥΣΗ ΤΩΝ ΚΟΜΒΩΝ ΟΠΛΙΣΜΕΝΟΥ ΣΚΥΡΟΔΕΜΑΤΟΣ ΜΕ ΒΑΣΗ ΤΟΥΣ ΕΥΡΩΚΩΔΙΚΕΣ

Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.

Μεταπτυχιακή διατριβή. Ανδρέας Παπαευσταθίου

ΟΙ ΑΞΙΕΣ ΤΗΣ ΖΩΗΣ THE VALUES OF LIFE Η ΥΠΕΥΘΥΝΟΤΗΤΑ..THE RESPONSIBILITY ΔΗΜΗΤΡΑ ΚΩΝΣΤΑΝΤΙΝΟΥ

ΔΙΑΔΙΚΑΣΙA ΜΕΤΑΦΟΡΑΣ ΥΛΙΚΟΥ ΜΑΘΗΜΑΤΟΣ ΑΠΟ BLACKBOARD VISTA ΣΕ MOODLE

Can I open a bank account online? Ερώτηση αν μπορείτε να ανοίξετε τραπεζικό λογαριασμό μέσω του ίντερνετ

ΧΡΗΣΗ ΣΩΜΑΤΩΝ ΚΕΜΕΝΩΝ ΩΣ ΛΕΞΙΚΟΓΡΑΦΙΚΗ ΕΛΛΗΝΟ ΑΓΓΛΙΚΟ ΣΩΜΑ ΚΕΙΜΕΝΩΝ ΣΟΦΙΑ ΤΡΥΠΑΝΑΓΝΩΣΤΟΠΟΥΛΟΥ

Πτυχιακή Εργασία. Παραδοσιακά Προϊόντα Διατροφική Αξία και η Πιστοποίηση τους

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Numerical Analysis FMN011

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ342: Βάσεις Δεδομένων. Χειμερινό Εξάμηνο Φροντιστήριο 10 ΛΥΣΕΙΣ. Επερωτήσεις SQL

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΥΝΤΑΞΗ: ΣΤΟΧΑΣΤΙΚΕΣ ΜΕΘΟΔΟΙ STOCHASTIC PARSING

Part III - Pricing A Down-And-Out Call Option


Ms. Mesimeri. 4 th Grade Greek Language HW 10/14-10/21 Week 9 NOTES

Μηχανική Μάθηση: γιατί;

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ

LESSON 6 (ΜΑΘΗΜΑ ΕΞΙ) REF : 201/045/26-ADV. 10 December 2013

Εγκατάσταση λογισμικού και αναβάθμιση συσκευής Device software installation and software upgrade

Επιχειρηματικότητα και Εκπαίδευση. Ανάπτυξη Ικανοτήτων Μαθητών 12 Δεκεμβρίου, 2015

Σύνθεση ενός Fire-fighting robot. Ζαχιώτης Γεώργιος. Λέσχη Ρομποτικής

ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1

ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «ΘΕΜΑ»

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. «Προστασία ηλεκτροδίων γείωσης από τη διάβρωση»

2.153 Adaptive Control Lecture 7 Adaptive PID Control

AΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 7. Στατιστικός έλεγχος υποθέσεων

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΥΠΟΛΟΓΙΣΤΩΝ

Προγραμματιστικά Εργαλεία και Τεχνολογίες για Επιστήμη Δεδομένων

ΠΕΡΙΕΧΟΜΕΝΑ. Μάρκετινγκ Αθλητικών Τουριστικών Προορισμών 1

Όλοι οι χρήστες του Turnitin πρέπει να δημιουργήσουν ένα προφίλ χρήστη.

ΠΣΤΥΙΑΚΗ ΔΡΓΑΙΑ ΘΔΜΑ ΜΔΛΔΣΗ ΥΔΓΙΑΗ ΚΑΙ ΑΝΑΠΣΤΞΗ ΚΙΝΟΤΜΔΝΟΤ ΡΟΜΠΟΣ ΚΑΙ Ο ΔΛΔΓΥΟ ΣΟΤ ΜΔ ΦΩΝΗΣΙΚΔ ΔΝΣΟΛΔ

Η νοθεία των τροφίμων, μελέτη περίπτωσης η νοθεία του ελαιόλαδου

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ. Δυναμικός Προγραμματισμός. Παντελής Μπάγκος

Παλεπηζηήκην Πεηξαηώο Τκήκα Πιεξνθνξηθήο Πξόγξακκα Μεηαπηπρηαθώλ Σπνπδώλ «Πξνεγκέλα Σπζηήκαηα Πιεξνθνξηθήο»

Εκπαίδευση και Πολιτισμός: έρευνα προκαταρκτικής αξιολόγησης μίας εικονικής έκθεσης

Μοντελοποίηση Υπολογισμού. Γραμματικές Πεπερασμένα Αυτόματα Κανονικές Εκφράσεις

Σχεδίαση Βάσεων Δεδομένων

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΗΡΑΚΛΕΙΟ ΚΡΗΤΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ

Αρχές Τεχνολογίας Λογισμικού Εργαστήριο

CYTA Cloud Server Set Up Instructions

ΕΠΛ664 ΑΝΑΛΥΣΗ ΚΑΙ ΕΠΑΛΗΘΕΥΣΗ ΣΥΣΤΗΜΑΤΩΝ

Κατανεμημένα Συστήματα. Javascript LCR example

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Proforma C. Flood-CBA#2 Training Seminars. Περίπτωση Μελέτης Ποταμός Έ βρος, Κοινότητα Λαβάρων

ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ

VBA ΣΤΟ WORD. 1. Συχνά, όταν ήθελα να δώσω ένα φυλλάδιο εργασίας με ασκήσεις στους μαθητές έκανα το εξής: Version ΗΜΙΤΕΛΗΣ!!!!

Λογικά Διανύσματα. >>x = -3/2*pi : pi/100 : 3/2*pi; >>y = tan(x); >>plot(x, y)

Living and Nonliving Created by: Maria Okraska

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Πρόσβαση μέσω webdav. ΚΕ.Δ.Δ. Τ.Ε.Ι. Μεσολογγίου. 3. Στην συνέχεια πληκτρολογούμε το username και το password και πατάμε στο κουμπί Είσοδος.

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ

ΣΤΥΛΙΑΝΟΥ ΣΟΦΙΑ

36 ο Δημοτικό Σχολείο Αθηνών ΣΧΕΔΙΟ ΔΡΑΣΗΣ. ΤΙΤΛΟΣ: ΠΑΙΔΙ και ΕΥΡΩΠΑΙΚΗ ΕΝΩΣΗ-Μάθε τα Δικαιώματά σου

Assalamu `alaikum wr. wb.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Transcript:

Διαχείριση Web Περιεχομένου & Γλωσσικά Εργαλεία Μάθημα7 ο N-grams Σοφία Στάμου Άκ.Έτος 2008-09 Acknowledgement: McCoy, http://www.cis.udel.edu/~mccoy/courses/cisc882.03f/lectures/lect5-ngrams.ppt

Μια μική άσκηση Πώς θα συμπληρώνατε τις προτάσεις; Ο διαιτητής ακύρωσε το... Σύνδεσμος, υπερσύνδεσμος, ποια η...; Όταν τελείωσα το διάβασμα πήγα... 21/5/2013 Web and NLP 2

Πρόβλεψη λέξεων από τον άνθρωπο Κάποιοι προβλέπουν τις επόμενες λέξεις των προτάσεων Πώς; Γνώση πεδίου Γνώση σύνταξης Γνώση λέξεων 21/5/2013 Web and NLP 3

Ισχυρισμός Μέρος της απαιτούμενης γνώσης για την πρόβλεψη των λέξεων εντοπίζεται με στατιστικά μοντέλα Δηλ. πιθανότητα μιας ακολουθίας (λέξεων, φράσεων) 21/5/2013 Web and NLP 4

Εφαρμογές Γιατί να προβλέψουμε την επόμενη λέξη βάσει των προηγούμενων; Αυτόματη αναγνώριση λόγου, OCR, κτλ Αξιολόγηση πρότασης για μηχανική μετάφραση, κτλ 21/5/2013 Web and NLP 5

Ορθογραφικά λάθη They are leaving in about fifteen minuets to go to her house. The study was conducted mainly be John Black. The design an construction of the system will take more than a year. Hopefully, all with continue smoothly in my absence. Can they lave him my messages? I need to notified the bank of. He is trying to fine out. Παράδειγμα από Dorr, http://www.umiacs.umd.edu/~bonnie/courses/cmsc723-04/lecture-notes/lecture5.ppt 21/5/2013 Web and NLP 6

Μοντελοποίηση γλώσσας Θεμελιώδες NLP εργαλείο Βασική ιδέα Μερικές λέξεις συνεμφανίζονται πιο συχνά από άλλες Η πιθανότητα συνεμφάνισης μπορεί να προβλεφθεί Μπορούμε να υλοποιήσουμε ένα γλωσσικό μοντέλο 21/5/2013 Web and NLP 7

N-Grams Ακολουθίες από tokens N = πόσοι όροι εξετάζονται Unigrams: 1 όρος Bigrams: 2 όροι Trigrams: 3 όροι Διαφορετικά είδη tokens N-grams χαρακτήρων N-grams λέξεων N-grams Part of Speech Πληροφορία για το περιβάλλον συνεμφάνισης του token που εξετάζουμε 21/5/2013 Web and NLP 8

N-Gram μοντελοποίηση γλώσσας Γλωσσικό μοντέλο υπολογισμού πιθανότητας μιας πρότασης S, P(S). Το N-Gram μοντέλο χρησιμοποιεί τις προηγούμενες Ν-1 λέξεις σε μια ακολουθία για να προβλέψουν την επόμενη λέξη Πώς θα δημιουργήσουμε ή θα εκπαιδεύσουμε αυτά τα γλωσσικά μοντέλα; Μέτρηση συχνοτήτων σε μεγάλα σώματα κειμένων Καθορισμός πιθανοτήτων με χρήση μοντέλων Markov 21/5/2013 Web and NLP 9

Μετρώντας λέξεις σε σώματα κειμένων Τι είναι λέξη; δώρο και δώρα είναι μία λέξη; Σεπτέμβρης και Σεπτ.; Είναι λέξη το _, το ;, το ( ; Πόσες λέξεις είναι το εντωμεταξύ; Το παρόλη; 21/5/2013 Web and NLP 10

Ορολογία Πρόταση: μονάδα γραπτού λόγου Εμφάνιση: μονάδα προφορικού λόγου Κλιτικός τύπος: τύπος μιας λέξης στο σώμα κειμένων Λήμμα: ο πρώτος κλιτικός τύπος της λέξης Τύποι: ο αριθμός των διαφορετικών λέξεων του σώματος κειμένων (μέγεθος λεξιλογίου) Tokens: συνολικός αριθμός λέξεων 21/5/2013 Web and NLP 11

Απλά N-Grams Έστω μια γλώσσα με V τύπους λέξεων, ποια η πιθανότητα η λέξη x να ακολουθεί τη λέξη y; Απλούστερο πιθανοτικό μοντέλο: 1/V Εναλλακτικά (α): υπολογισμός της πιθανότητας το x να εμφανίζεται σε ένα νέο κείμενο βάσει της συχνότητας εμφάνισής του σε ένα σώμα κειμένων (unigram probability) Εναλλακτικά (β): υπολoγίζουμε τη δεσμευμένη πιθανότητα το x να εμφανίζεται στα συμφραζόμενα προηγούμενων λέξεων (bigrams, trigrams, ) 21/5/2013 Web and NLP 12

Υπολογισμός πιθανότητας Υπολογίζουμε το γινόμενο των επιμέρους δεσμευμένων πιθανοτήτων P(the mythical unicorn) = P(the) P(mythical the) P(unicorn the mythical) Όσο μεγαλύτερη η ακολουθία, τόσο μικρότερη η πιθανότητα να την εντοπίσουμε στο σώμα εκπαίδευσης P(Most biologists and folklore specialists believe that in fact the mythical unicorn horns derived from the narwhal) Λύση: υπολογίζουμε προσσεγιστικά με χρήση n-grams 21/5/2013 Web and NLP 13

Bigram μοντέλο Υπολογίσουμε προσεγγιστικά το από το P( wn wn 1) P ( wn w 1 n 1) Υπόθεση Markov: η πιθανότητα μιας λέξης εξαρτάται μόνο από την πιθανότητα μιας περιορισμένης προγενέστερης γνώσης Γενικεύοντας: η πιθανότητα μιας λέξης εξαρτάται μόνο από την πιθανότητα των n προηγούμενων λέξεων Trigrams, 4-grams,. Όσο μεγαλύτερο το n τόσο περισσότερα δεδομένα εκπαίδευσης απαιτούνται 21/5/2013 Web and NLP 14

Χρησιμοποιώντας N-grams Για τα μοντέλα N-Grams P( wn w n 1) P wn w ) P(w n-1,w n ) = P(w n w n-1 ) P(w n-1 ) Βάσει του Αλυσιδωτού κανόνα αποσυνθέτουμε στην από κοινού πιθανότητα (joint probability), π.χ. P(w 1,w 2,w 3 ) P(w 1,w 2,...,w n ) = P(w 1 w 2,w 3,...,w n ) P(w 2 w 3,...,w n ) P(w n-1 w n ) P(w n ) Για τα bigrams η πιθανότητα μιας ακολουθίας είναι το γινόμενο των δεσμευμένων πιθανοτήτων των bigrams που περιέχει P(the,mythical,unicorn) = P(unicorn mythical) P(mythical the) P(the <start>) n P( wn) P( wk wk 1) 1 k= 1 21/5/2013 Web and NLP 15 1 ( n 1 n N + 1

Παράδειγμα P(I want to eat Chinese food) = P(I <start>) * P(want I) P(to want) * P(eat to) P(Chinese eat) * P(food Chinese) 21/5/2013 Web and NLP 16

Μετρήσεις από το Berkeley Restaurant Project Nth term N-1 term 21/5/2013 Web and NLP 17

Πίνακας Bigrams Nth term N-1 term 21/5/2013 Web and NLP 18

Παράδειγμα P(I want to eat Chinese food) = P(I <start>) * P(want I) P(to want) * P(eat to) P(Chinese eat) * P(food Chinese).25*.32*.65*.26*.02*.56 =.00015 21/5/2013 Web and NLP 19

Και; P(I want to eat British food) = P(I <start>) P(want I) P(to want) P(eat to) P(British eat) P(food British) =.25*.32*.65*.26*.001*.60 =.000080 vs. I want to eat Chinese food =.00015 Οι πιθανότητες εντοπίζουν συντακτικά γεγονότα, τη γνώση για τον κόσμο' Το ρήμα eat ακολουθείται συχνά από NP Το British food δεν είναι πολύ δημοφιλές 21/5/2013 Web and NLP 20

Τι μάθαμε για τη γλώσσα; Μετρήσαμε τα εξής: P(want I) =.32 P(to want) =.65 P(eat to) =.26 P(food Chinese) =.56 P(lunch eat) =.055 21/5/2013 Web and NLP 21

Και γι αυτά; P(I I) =.0023 P(I want) =.0025 P(I food) =.013 Βρήκαμε ότι: P(I I) =.0023 I I I I want P(I want) =.0025 I want I want P(I food) =.013 the kind of food I want is... Άρα, το σώμα κειμένων μας περιέχει λάθη 21/5/2013 Web and NLP 22

Παρατηρήσεις Ορισμένα γεγονότα έχουν μεγάλη συχνότητα εμφάνισης Πολλά γεγονότα έχουν μικρή συχνότητα εμφάνισης Μπορούμε να συλλέξουμε στατιστικά δεδομένα για πολύ συχνά γεγονότα εύκολα Ορισμένες μηδενικές συχνότητες γεγονότων είναι πράγματι μηδενικές, ενώ για άλλες τα γεγονότα απλά δεν έχουν εντοπιστεί ακόμα! Πώς θα το αντιμετωπίσουμε; 21/5/2013 Web and NLP 23

Ο νόμος του Zipf Για πολλές κατανομές συχνοτήτων η ν -ιοστή μεγαλύτερη συχνότητα είναι ανάλογη της αρνητικής δύναμης της σειράς ταξινόμησης του ν Έστω t ανήκει σε ένα σύνολο μοναδικών γεγονότων. Ακόμα, έστω f(t) η συχνότητα του t και r(t) η σειρά ταξινόμησής του. Τότε: t r(t) c * f(t) -b για κάποιες σταθερές b και c 21/5/2013 Web and NLP 24

Τεχνικές Smoothing Κάθε πίνακας εκπαίδευσης n-grams είναι αραιός για μεγάλα σώματα κειμένων (νόμος του Zipf) Λύση: υπολογισμός της πιθανότητας των n-grams που δεν έχουμε συναντήσει ακόμα Προβλήματα: πώς θα τροποποιήσουμε το υπόλοιπο σώμα κειμένου για να εντοπίσουμε αυτά τα αόρατα n-grams; Ένας τρόπος με smoothing τεχνικές 21/5/2013 Web and NLP 25

Add-one Smoothing Για unigrams: Πρόσθεσε 1 σε κάθε count λέξης (τύπου) Normalize με N (tokens) /(N (tokens) +V (types)) Smoothed count (προσαρμοσμένο για προσθήκες στο N): + ci 1 N N + V Normalize με N για τον υπολογισμό της πιθανότητας του νέου unigram: p*= i N c i+ + 1 V Για bigrams: Πρόσθεσε 1 σε κάθε bigram c(wn-1 wn) + 1 Αύξησε το unigram count με το μέγεθος του λεξιλογίου V c(wn-1) + V 21/5/2013 Web and NLP 26

Witten-Bell Discounting Ένα μηδενικό n-gram είναι ένα unseen n-gram όμως κάθε n-gram υπήρξε κάποτε unseen συνεπώς... Πόσες φορές συναντήσαμε ένα n-gram για πρώτη φορά; Μία για κάθε τύπο n-gram (T) Υπολογίζουμε την πιθανότητα των unseen bigrams N T +T Το σώμα εκπαίδευσης είναι μια ακολουθία γεγονότων, ένα για κάθε token (N) και ένα για κάθε νέο τύπο (T) Κατανέμουμε την πιθανότητα του συνόλου ισομερώς μεταξύ των unseen bigrams.ή υπολογίζουμε τη δεσμευμένη πιθανότητα ενός unseen bigram για την πρώτη λέξη του bigram 21/5/2013 Web and NLP 27

Backoff methods Για ένα trigram μοντέλο Υπολογίζουμε τις πιθανότητες για το unigram,το bigram και το trigram Στην πράξη: Όταν δεν υπάρχει διαθέσιμο trigram υποχωρούμε στο bigram αν υπάρχει ή στην πιθανότητα του unigram 21/5/2013 Web and NLP 28

Συνοψίζοντας Οι N-gram πιθανότητες μπορούν να χρησιμοποιηθούν για να υπολογίσουμε την πιθανότητα Μια λέξη να εμφανίζεται στο περιβάλλον (N-1) Μια πρόταση να εμφανίζεται σε ένα κείμενο Οι τεχνικές smoothing αντιμετωπίζουν προβλήματα με λέξεις που δεν έχουμε συναντήσει σε ένα σώμα κειμένων Τα n-grams είναι χρήσιμα για μεγάλη ποικιλία NLP εργασιών 21/5/2013 Web and NLP 29

...στο επόμενο μάθημα Data mining 21/5/2013 Web and NLP 30

Ερωτήσεις... 21/5/2013 Web and NLP 31