«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Σχετικά έγγραφα
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 4 ο : Συντακτική ανάλυση. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Επικοινωνία Ανθρώπου Υπολογιστή. Β3. Κατανόηση φυσικής γλώσσας

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΥΝΤΑΞΗ: ΟΡΘΟΛΟΓΙΚΗ ΠΡΟΣΕΓΓΙΣΗ (FORMAL SYNTAX)

Θέματα Μεταγλωττιστών

Ασκήσεις μελέτης της ενότητας «Συντακτική Ανάλυση»

Θέματα Μεταγλωττιστών

Ασκήσεις μελέτης της ενότητας «Συντακτική Ανάλυση»

Γλωσσική Τεχνολογία. 5 η Ενότητα: Συντακτική ανάλυση. Ίων Ανδρουτσόπουλος.

Κεφάλαιο 2: Τυπικές γλώσσες

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (1)

Αυτόματα. Παράδειγμα: πωλητής καφέ (iii) Παράδειγμα: πωλητής καφέ (iv) Εισαγωγή στην Επιστήμη των Υπολογιστών 6

Σχεδίαση Γλωσσών Προγραμματισμού Συντακτική Ανάλυση Ι. Εαρινό Εξάμηνο Lec /03/2019 Διδάσκων: Γεώργιος Χρ. Μακρής

Εισαγωγή στην Επιστήμη των Υπολογιστών

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 2 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Μοντελοποίηση Υπολογισμού. Γραμματικές Πεπερασμένα Αυτόματα Κανονικές Εκφράσεις

Συντακτική Ανάλυση. Ίων Ανδρουτσόπουλος.

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 7: Ασυμφραστικές Γλώσσες (Γλώσσες Ελεύθερες Συμφραζομένων)

Γλώσσες Χωρίς Συμφραζόμενα

Αυτόματα. Παράδειγμα: πωλητής καφέ (iii) Παράδειγμα: πωλητής καφέ (iv) Εισαγωγή στην Επιστήμη των Υπολογιστών. Προδιαγραφές

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Λογισμικό Συστήματος. Κλειώ Σγουροπούλου

Σχεδίαση Γλωσσών Προγραμματισμού Λεξική Ανάλυση Ι. Εαρινό Εξάμηνο Lec 05 & & 26 /02/2019 Διδάσκων: Γεώργιος Χρ.

Γενικές Παρατηρήσεις. Μη Κανονικές Γλώσσες - Χωρίς Συµφραζόµενα (1) Το Λήµµα της Αντλησης. Χρήση του Λήµµατος Αντλησης.

Σχεδίαση Γλωσσών Προγραμματισμού Συντακτική Ανάλυση ΙII. Εαρινό Εξάμηνο Lec 11 26/03/2019 Διδάσκων: Γεώργιος Χρ. Μακρής

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Δημήτρης Πλεξουσάκης

Στοιχεία Θεωρίας Υπολογισµού (1): Τυπικές Γλώσσες, Γραµµατικές

Ποιές οι θεµελιώδεις δυνατότητες και ποιοί οι εγγενείς περιορισµοί των υπολογιστών ; Τί µπορούµε και τί δε µπορούµε να υπολογίσουµε (και γιατί);

Έστω συμβολοσειρά Το σύνολο FIRST περιέχει τα τερματικά σύμβολα από τα οποία αρχίζουν οι συμβολοσειρές που παράγονται από την

Θέματα υπολογισμού στον πολιτισμό

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 4 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

Κεφάλαιο 2: Τυπικές γλώσσες. Νίκος Παπασπύρου, Κωστής Σαγώνας Μεταγλωττιστές Μάρτιος / 216

Μεταγλωττιστές. Ενότητα 7: Συντακτική ανάλυση (Μέρος 1 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΗΜΑΣΙΟΛΟΓΙΑ - SEMANTICS

771 Η - Θεωρία Υπολογισμών και Αλγορίθμων

Μεταγλωττιστές. Ενότητα 2: Τυπικές γλώσσες (Μέρος 1 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Περιεχόμενα Τι περιγράφει ένα ΣΔ ΣΔ και παραγωγές Θεωρία Υπολογισμού Ενότητα 15: Συντακτικά Δέντρα Επ. Καθ. Π. Κατσαρός Τμήμα Πληροφορικής Επ. Καθ. Π.

Σύνοψη Προηγούµενου. Γλώσσες χωρίς Συµφραζόµενα (2): Αυτόµατα Στοίβας. Παραδείγµατα Σχεδιασµού CFG. Παράδειγµα 1.

Εισαγωγή στο Bison. Μεταγλωττιστές, Χειμερινό εξάμηνο

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

ΑΣΚΗΣΗ 11: ΕΠΕΞΕΡΓΑΣΙΑ ΦΥΣΙΚΗΣ ΓΛΩΣΣΑΣ - ΣΥΝΤΑΚΤΙΚΗ ΑΝΑΛΥΣΗ (PARSING)

Γραµµατικοί κανόνες Κανόνες µεταγραφής συµβόλων

Εισαγωγή στη Γλωσσολογία Ι

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Διακριτά Μαθηματικά. Ενότητα 8: Υπολογισιμότητα & Γλώσσες

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 5 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Θεωρία Υπολογισμού και Πολυπλοκότητα

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Επανάληψη Μαθήματος

Γραµµατικοί κανόνες Κανόνες µεταγραφής συµβόλων

Ασκήσεις μελέτης της 8 ης διάλεξης

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β )

Εισαγωγή στη Γλωσσολογία Ι

CSC 314: Switching Theory

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (3)

Τεχνητή Νοημοσύνη ( )

Κατηγορικές Γραµµατικές

Ενότητες Α και Β (Α' Μέρος). Από τη γραμμικότητα στη συστατικότητα. Δομή και συστατικότητα. Δομικοί κανόνες.

Τεχνητή Νοημοσύνη. 8η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Διάλεξη 22: Δυαδικά Δέντρα. Διδάσκων: Παναγιώτης Ανδρέου

Περιεχόμενα. Εισαγωγή του επιμελητή, Γιάννης Σταματίου 15 Πρόλογος 17 Εισαγωγή 23. Μέρος I. ΕΠΑΝΑΛΗΠΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΚΑΙ ΑΝΑΛΛΟΙΩΤΕΣ ΣΥΝΘΗΚΕΣ

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Διάλεξη 17: Δυαδικά Δέντρα. Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Λογική Δημήτρης Πλεξουσάκης Φροντιστήριο 6: Προτασιακός Λογισμός: Μέθοδος Επίλυσης Τμήμα Επιστήμης Υπολογιστών

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

Υπολογίσιμες Συναρτήσεις

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Πληρότητα της μεθόδου επίλυσης

Στοιχεία Θεωρίας Γλωσσών. (συνέχεια) (συνέχεια) Πέμπτη 27 Οκτωβρίου 2016 Θεόδωρος Τζουραμάνης Επίκουρος Καθηγητής

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Μεταγλωττιστές. Δημήτρης Μιχαήλ. Ακ. Έτος Ανοδικές Μέθοδοι Συντακτικής Ανάλυσης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Εισαγωγή στην Επιστήμη των Υπολογιστών

Η ΘΕΩΡΙΑ ΤΟΥ Χ --Η ΔΟΜΗ ΤΗΣ ΡΦ, ΠΡΦ, ΕΦ, ΟΦ

Οργάνωση Βάσεων Βιοϊατρικών Δεδομένων Εξόρυξη Γνώσης Βιοϊατρικών Δεδομένων. Σεμινάριο 6: Δομές ευρετηρίων για αρχεία

HY Λογική Διδάσκων: Δ. Πλεξουσάκης

Σειρά Προβλημάτων 4 Λύσεις

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Συστήματα Γνώσης. Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής

HY Λογική Διδάσκων: Δ. Πλεξουσάκης Εαρινό Εξάμηνο. Φροντιστήριο 6

ΚΕΦΑΛΑΙΟ 6: Γλώσσες. 6.1 Ιστορική εξέλιξη 6.4 Υλοποίηση γλώσσας. Κεφάλαιο 6: «Γλώσσες Προγραµµατισµού»

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Δομές Δεδομένων & Αλγόριθμοι

ΗΥ180: Λογική Διδάσκων: Δημήτρης Πλεξουσάκης. Φροντιστήριο 8 Επίλυση για Horn Clauses Λογικός Προγραμματισμός Τετάρτη 9 Μαΐου 2012

Τεχνητή Νοημοσύνη. 23η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 15: Διαγνωσιμότητα (Επιλυσιμότητα) ΙΙ

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

ΚΕΦΑΛΑΙΟ 8: Αφαίρεση δεδοµένων

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

Τυπικές Γραμματικές και Άλλα Αυτόματα

Περιεχόμενα Ορισμός και λειτουργία των μηχανών Turing Θεωρία Υπολογισμού Ενότητα 20: Μηχανές Turing: Σύνθεση και Υπολογισμοί Επ. Καθ. Π. Κατσαρός Τμήμ

Διδάσκων: Κωνσταντίνος Κώστα

Περιεχόμενα. 1 Υπολογισιμότητα. Ιστορία - Εισαγωγή. Μαθηματικό Υπόβαθρο. LOOP: Μια απλή γλώσσα προγραμματισμού

Σύνοψη Προηγούµενου. Γλώσσες χωρίς Συµφραζόµενα (2) Ισοδυναµία CFG και PDA. Σε αυτό το µάθηµα. Αυτόµατα Στοίβας Pushdown Automata

Επανάληψη. ΗΥ-180 Spring 2019

Transcript:

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 4: Συντακτική Ανάλυση Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών, Ε.Κ.Ε.Φ.Ε. Δημόκριτος Τηλ.: 210-6503197, Fax: 210-6532175, {vangelis, petasis}@iit.demokritos.gr Ακαδημαϊκό Έτος: 2013 2014 Διεπιστημονικό-Διαπανεπιστημιακό ΠΜΣ «Τεχνογλωσσία», VIII κύκλος, 2013 2014

«Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση < 1 > Οι διαφάνειες αυτού του μαθήματος βασίζονται στα κεφάλαια 12 και 13 του βιβλίου: «Speech and Language Processing» των D. Jurafsky και J.H. Martin, 2η έκδοση, Pearson, 2009 Το βιβλίο δεν απαιτείται για το μάθημα αυτό. Μερικά παραδείγματα βασίζονται σε διαφάνειες του Δρ. Ίων Ανδρουτσόπουλου, ΟΠΑ. http://www.aueb.gr/users/ion/

Σύνταξη Ο τομέας της γλωσσολογίας που μελετά τη δομή των προτάσεων Δηλαδή ποιές σχέσεις συνδέουν μια ακολουθία Σε καμία φυσική γλώσσα οι προτάσεις δεν αποτελούν τυχαία παράθεση λέξεων ή ομάδων λέξεων Ύπαρξη κανόνων δόμηση πρότασης Συντακτικοί κανόνες: καθολικοί ή όχι π.χ. α) Π ΟΦ + ΡΦ β) γράφω/ εγώ γράφω, ενώ I write/*write «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 2

Γλωσσική ικανότητα και πλήρωση (1) Γλωσσική ικανότητα: γενικά η γνώση του φυσικού ομιλητή για τη γλώσσα του, μέρος της οποίας είναι και η γραμματική Ικανότητα γραμματικότητα πρότασης, γνώση δομής συστήματος Γλωσσική πλήρωση: η γλωσσική συμπεριφορά του ομιλητή κατά την επικοινωνία Η Μαρία ξεκίνησε να διαβάζει το βιβλίο. *Κώστας ο βάζο έσπασε το. *Ο σκύλος τραγούδησε τα κίτρινα δάπεδα. *Κοντεύω να φτάσεις. «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 3

Γλωσσική ικανότητα και πλήρωση (2) H διάκριση γραμματικών από μη-γραμματικές προτάσεις είναι μέρος της γλωσσικής μας ικανότητας. Αυτό αποτελεί το γλωσσικό μας αίσθημα ή γλωσσική διαίσθηση H γλωσσική πλήρωση, από την άλλη μεριά, επιτρέπει τόσο γραμματικές όσο και μηγραμματικές προτάσεις και δεν κάνει αυτή τη διάκριση «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 4

Συντακτική ανάλυση (1) Η μετατροπή μιας πρότασης φυσική γλώσσας σε μια ιεραρχική δομή Η οποία ανταποκρίνεται στην διασύνδεση των δομικών στοιχείων της πρότασης Η ανάλυση μπορεί να επιστρέψει περισσότερες από μία δομές (parses) Η πιο απλή μορφή δομής είναι ένα συντακτικό δέντρο (syntax tree) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 5

Συντακτική ανάλυση (2) Συνήθως τα υπάρχοντα συστήματα έχουν δύο συστατικά: Γραμματική (grammar): ρητή αναπαράσταση των συντακτικών κανόνων της γλώσσας Δηλωτικοί φορμαλισμοί που ορίζουν τις έγκυρες προτάσεις μιας γλώσσας, αλλά δεν καθορίζουν πως θα γίνει η αναγνώριση και η παραγωγή συντακτικών δομών Αναλυτής (parser): αναλύει τις προτάσεις εισόδου, συγκρίνοντάς τες με την γραμματική, και παράγει συντακτικές δομές «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 6

Τι χρειαζόμαστε για την ανάλυση; (1) Τι γλωσσική πληροφορία χρειαζόμαστε για την συντακτική ανάλυση; Λέξεις Κατηγορίες: σύνολα λέξεων που συμπεριφέρονται όμοια Μέρη του λόγου: Ουσιαστικά, ρήματα, επίθετα, προθέσεις, κλπ. Συστατικά (constituents): Ομαδοποίηση λέξεων σε μεγαλύτερες ενότητες, οι οποίες συμπεριφέρονται όμοια Και έχουν ένα συγκεκριμένο μέρος του λόγου σαν «κύριο» (head) Φράσεις: Ονοματική φράση με «κύριο» το ουσιαστικό, ρηματική φράση με «κύριο» το ρήμα, κλπ. «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 7

Τι χρειαζόμαστε για την ανάλυση; (2) Έχοντας: Μορφολογική ανάλυση: ανάλυση λέξεων σε μορφήματα και προσφύματα Με κανόνες, FSA, FST Αναγνώριση μερών του λόγου Περιμένουμε από την συντακτική ανάλυση: Να προσδιορίσει τα συστατικά, και πως σχετίζονται Να προσδιορίσει αν μια πρόταση είναι γραμματικά σωστή Να παραγάγει συντακτικές δομές «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 8

Παράδειγμα: Ανάλυση 1 Πρόταση ΟΦ ΡΦ Εγώ ΡΜ ΟΦ είδα ΑΡΘ ΟΥΣ ΠΦ τον άνδρα ΠΡΘ ΟΦ με ΑΡΘ τα ΟΥΣ κιάλια «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 9

Παράδειγμα: Ανάλυση 2 Πρόταση ΟΦ ΡΦ Εγώ ΡΜ ΟΦ είδα ΑΡΘ ΟΥΣ ΠΦ τον άνδρα ΠΡΘ ΟΦ με ΑΡΘ τα ΟΥΣ κιάλια «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 10

NP Det Nominal NP ProperNoun Γραμματικές ΦΓ (1) Nominal Noun Nominal Noun Det a Det the Noun flight Διάζευξη Ουσιαστικά δύο κανόνες Λεξικό Στην πράξη πληροφορίες από την μορφολογική ανάλυση Τερματικά σύμβολα, Μη τερματικά σύμβολα Κανόνες α β: ορίζουν τις δυνατές «παραγωγές» Αρχικό σύμβολο: ένα από τα μη τερματικά «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 11

Γραμματικές ΦΓ (2) Οι γραμματικές χρησιμοποιούνται: Για την ανάλυση φυσικής γλώσσας Για την παραγωγή φυσικής γλώσσας Γλώσσα της γραμματικής: οι ακολουθίες τερματικών συμβόλων που παράγονται από το αρχικό σύμβολο «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 12

Ιεραρχία γραμματικών του Chomsky (1) Τύπος 3: κανονικές γραμματικές (regular grammars) Μορφή κανόνων A x και A xb (δεξιά γραμμικές) A x και A Bx (αριστερά γραμμικές) x: (πιθανώς κενή) ακολουθία τερματικών συμβόλων A, B: μεμονωμένα μη τερματικά σύμβολα «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 13

Ιεραρχία γραμματικών του Chomsky (2) Τύπος 2: γραμματικές χωρίς συμφραζόμενα (context free grammars) Μορφή κανόνων A a a: (πιθανός κενή) ακολουθία τερματικών και μη τερματικών συμβόλων Επιτρέπουν κανόνες της μορφής: NP Det Nominal (δεν επιτρέπεται στις κανονικές γραμματικές) Ονομάζονται και Phrase-Structure Grammars (PSG) Ο φορμαλισμός είναι ισοδύναμος με Backus-Naur Form (BNF) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 14

Ιεραρχία γραμματικών του Chomsky (3) Τύπος 1: γραμματικές με συμφραζόμενα (context sensitive grammars) Μορφή κανόνων αaβ aγβ a, β, γ: ακολουθίες τερματικών και μη τερματικών συμβόλων Το γ μη κενό, τα α, β πιθανώς κενά Επιτρέπουν κανόνες της μορφής: ( Date ) ( Day / Month / Year ) Αυτή η μορφή δεν επιτρέπεται στις γραμματικές χωρίς συμφραζόμενα «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 15

Ιεραρχία γραμματικών του Chomsky (4) Τύπος 0: αναδρομικά απαριθμήσιμες Μορφή κανόνων α β a, β: ακολουθίες τερματικών και μη τερματικών συμβόλων Το α μη κενό «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 16

Παραγωγική ισχύς γραμματικών (1) Γλώσσες (τύπος 3) γλώσσες (τύπος 2) Π.χ.: οι κανονικές γραμματικές δεν μπορούν να ορίσουν γλώσσες της μορφής a n b n (ab, aabb, aaabbb, ) Οι ΓΧΣ μπορούν: S ab, S asb Γλώσσες (τύπος 2) γλώσσες (τύπος 1) Π.χ.: οι κανονικές γραμματικές δεν μπορούν να ορίσουν γλώσσες της μορφής a n b n c n Οι ΓMΣ μπορούν: S abc, S asbc, cb Bc, bb bb Γλώσσες (τύπος 1) γλώσσες (τύπος 0) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 17

Παραγωγική ισχύς γραμματικών (2) Τύπος 0 Τύπος 1 (με συμφραζόμενα) Τύπος 2 (χωρίς συμφραζόμενα) Τύπος 3 (κανονικές) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 18

Μοντέλα υπολογισμού (1) Οι κανονικές γραμματικές αντιστοιχούν σε αυτόματα πεπερασμένων καταστάσεων (FSA) Για κάθε κανονική γραμματική, μπορεί να οριστεί FSA που να ορίζει την ίδια ακριβώς γλώσσα (και το αντίστροφο) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 19

Μοντέλα υπολογισμού (2) Οι γραμματικές χωρίς συμφραζόμενα αντιστοιχούν σε μη αιτιοκρατικά (non deterministic) FSA με στοίβα Μη αιτιοκρατικό: η τρέχουσα κατάσταση και το σύμβολο εισόδου δεν προσδιορίζουν μονοσήμαντα την επόμενη κατάσταση Κάθε μη αιτιοκρατικό FSA μπορεί να μετατραπεί σε αιτιοκρατικό (με περισσότερες καταστάσεις) Δεν ισχύει αυτό για αυτόματα με στοίβα «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 20

Μοντέλα υπολογισμού (3) Οι γραμματικές τύπου 0 αντιστοιχούν σε μηχανές Turing «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 21

Τι γραμματικές χρειαζόμαστε; (1) Σχεδόν όλα τα συντακτικά φαινόμενα των φυσικών γλωσσών μπορούν να παρασταθούν με κανονικές γραμματικές Άρα μπορούμε να κάνουμε συντακτική ανάλυση με αυτόματα πεπερασμένων καταστάσεων Πολύ αποδοτικοί αλγόριθμοι Συχνά, όμως, χρησιμοποιούμε ΓΧΣ επειδή είναι πιο σύντομες Και επειδή τα συντακτικά δέντρα που παράγουν είναι πιο χρήσιμα στη σημασιολογική ανάλυση «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 22

Τι γραμματικές χρειαζόμαστε; (2) Υπάρχουν φαινόμενα για τα οποία φαίνεται να απαιτούνται ΓΧΣ [Jurafsky & Martin 2009]: The cat likes tuna fish. The cat (that) the dog chased likes tuna fish. Αντιστοιχία με γλώσσες a n b n (NP n V n tuna fish) Η τομή (κοινές προτάσεις) των αγγλικών με την κανονική γλώσσα [NP n V m tuna fish] είναι η [NP n V n tuna fish], που είναι μη κανονική Άρα τα αγγλικά είναι μη κανονική γλώσσα, γιατί η τομή κανονικών γλωσσών είναι κανονική Αλλά και οι άνθρωποι δυσκολεύονται για n > 2 Για πεπερασμένες τιμές του n αρκούν κανονικές γραμματικές «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 23

Τι γραμματικές χρειαζόμαστε; (3) Υπάρχουν φαινόμενα σε μερικές γλώσσες που φαίνεται να απαιτούν γραμματικές με συμφραζόμενα Ελβετικά γερμανικά: υπάρχουν εκφράσεις τις μορφής wa n b m c n d m y Στις περισσότερες άλλες γλώσσες δεν έχουν βρεθεί τέτοια φαινόμενα «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 24

Ανακεφαλαίωση Σύνταξη Συντακτική ανάλυση Συντακτικά δέντρα Γραμματικές Ιεραρχία γραμματικών Chomsky Παραγωγική ισχύ γραμματικών Αντιστοιχία με μοντέλα υπολογισμού Τύποι γραμματικών για την ΕΦΓ «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 25

Αλγόριθμοι συντακτικής ανάλυσης Είσοδος: Μια γραμματική του τύπου που υποστηρίζει ο αλγόριθμος (π.χ. γραμματική χωρίς συμφραζόμενα) Μια ακολουθία σ από τερματικά σύμβολα της γραμματικής Αποκρίσεις: Ανήκει η σ στη γλώσσα που ορίζει η γραμματική; Ποιο είναι το συντακτικό δέντρο της σ; Το συντακτικό δέντρο αποτελεί μια απόδειξη ότι η σ είναι σύμφωνη με τη γραμματική Παρέχει πληροφορίες για τη συντακτική δομή της σ «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 26

ΓΧΣ για τμήμα της αγγλικής «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 27

ΣΑ σαν πρόβλημα αναζήτησης Αναζήτηση σε αυτόματα πεπερασμένων κατ. (FSA) Εύρεση της σωστής διαδρομής εντός του αυτόματου Ο χώρος αναζήτησης ορίζεται από την δομή του αυτόματου Αναζήτηση σε ΓΧΣ Εύρεση του σωστού συντακτικού δέντρου ανάμεσα στα δυνατά συντακτικά δέντρα Ο χώρος αναζήτησης ορίζεται από την γραμματική Περιορισμοί (constraints) που προέρχονται: Από την πρόταση εισόδου Αυτόματο/γραμματική «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 28

Στρατηγικές αναζήτησης Δύο στρατηγικές αναζήτησης Top-Down Αναζήτηση για δέντρο ξεκινώντας από το S (αρχικό σύμβολο), μέχρι να καλυφθούν όλες οι λέξεις της εισόδου Bottom-Up Αναζήτηση για δέντρο ξεκινώντας από τις λέξεις, και προσπαθώντας να καλυφθεί το σύμβολο S Οι κανόνες εφαρμόζονται αντίστροφα (ταίριασμα δεξιού μέρους) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 29

Αναλυτής Top-Down Δημιουργεί δέντρα από το αρχικό σύμβολο S, προχωρώντας προς τα φύλλα Υποθέτοντας την κατασκευή όλως των δέντρων παράλληλα: Εύρεση όλων των δέντρων με ρίζα το S Ανάπτυξη όλων των συστατικών (κόμβων) αυτών των δέντρων, μέχρι τα φύλλα Απόρριψη δέντρων που τα φύλλα τους δεν ταιριάζουν με την είσοδο «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 30

Χώρος αναζήτησης «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 31

Ξεκινά από τις λέξεις Αναλυτής Bottom-Up Κατασκευάζει δέντρα εφαρμόζοντας του κανόνες που το δεξί τους μέρος ταιριάζει Οδηγούνται από την είσοδο Και όχι από την γραμματική, όπως οι αναλυτές Top-Down «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 32

Χώρος αναζήτησης «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 33

Σύγκριση στρατηγικών αναζήτησης (1) Αναλυτές Top-Down: Δεν λαμβάνουν υπ όψιν άκυρες αναλύσεις (π.χ. δέντρα που δεν περιέχουν το S ) Χάνουν χρόνο σε δέντρα που δεν ταιριάζουν με την είσοδο Αναλυτές Bottom-Up: Δεν λαμβάνουν υπ όψιν αναλύσεις που δεν ταιριάζουν με την είσοδο Χάνουν χρόνο παράγοντας άκυρες αναλύσεις «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 34

Σύγκριση στρατηγικών αναζήτησης (2) Κοινό πρόβλημα: Πώς πρέπει να γίνει η αναζήτηση στον χώρο των δέντρων; Θα δημιουργηθούν όλα τα εναλλακτικά δέντρα παράλληλα; Ποιος κόμβος πρέπει να αναλυθεί στο επόμενο στάδιο; Ποιος κανόνας πρέπει να εφαρμοστεί στο επόμενο στάδιο; «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 35

Στρατηγική και έλεγχος αναζήτησης (1) Παραλληλία Εξερεύνηση όλων των δέντρων παράλληλα Αναζήτηση σε βάθος (depth first search) Ατζέντα από καταστάσεις: βαθμιαία διαστολή του χώρου αναζήτησης, χρησιμοποιώντας την κατάσταση (δέντρο) που παράχθηκε τελευταία Αν η τρέχουσα κατάσταση είναι ασύμβατη με την είσοδο, οπισθοχώρηση (backtrack) στην πιο πρόσφατη ανεξερεύνητη κατάσταση «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 36

Στρατηγική και έλεγχος αναζήτησης (2) Ποιος κόμβος πρέπει να αναλυθεί στο επόμενο στάδιο; Αυτός που βρίσκεται «αριστερά» Ποιος κανόνας πρέπει να εφαρμοστεί στο επόμενο στάδιο; Ανάλογα με την θέση (σειρά) του στην γραμματική «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 37

Βασικός αλγόριθμος Top-Down, Depth-First, Left-Right Αρχικοποίηση ατζέντας με την κατάσταση: δέντρο S, δείκτης στην 1 η λέξη (cur) Επανέλαβε μέχρι: άδεια ατζέντα ή επιτυχής ανάλυση Εφαρμογή όλων των εφαρμόσιμων κανόνων στο αριστερό, μη ανεπτυγμένο κόμβο του cur Αν ο κόμβος είναι τερματικό σύμβολο και ταιριάζει με την είσοδο, «πίεσε» (push) το στην ατζέντα Αλλιώς, «πίεσε» τα νέα δέντρα στην ατζέντα Pop νέο cur από την ατζέντα «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 38

Τρία κρίσιμα προβλήματα Αριστερή αναδρομή Αμφισημία Επαναληπτική ανάλυση των ίδιων υπο-δέντρων «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 39

Αριστερή αναδρομή Η αναζήτηση σε βάθος (depth-first) δεν θα τερματίσει ποτέ, αν η γραμματική περιέχει αριστερή αναδρομή: A ABβ NP NP PP, VP VP PP, S S & S Έμμεση αναδρομή: NP Det Nominal, Det NP Διαρκείς επαναλήψεις χωρίς κατανάλωση λέξεων εισόδου Με ένα δέντρο που μεγαλώνει διαρκώς «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 40

Λύσεις για την αριστερή αναδρομή Αλλαγή σειράς κανόνων στην γραμματική NP NP PP, NP Det Nominal NP Det Nominal, NP NP PP Απαλοιφή αναδρομικών κανόνων NP NP PP, NP Det Nominal NP Det Nominal Stuff, Stuff PP Stuff, Stuff Τοποθέτηση (εμπειρικού) ορίου στο βάθος της αναδρομής κατά την ανάλυση Αποφυγή αναζήτησης Top-Down «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 41

Αμφισημία (1) Συντακτικά διφορούμενες προτάσεις «Είδαμε τον επιστήμονα με το τηλεσκόπιο.» Είδαμε [NP τον [Nominal επιστήμονα [PP με το τηλεσκόπιο]]] Όπως «την πτήση από τη Θεσσαλονίκη» «Είδαμε τον επιστήμονα με το τηλεσκόπιο.» Είδαμε [NP τον επιστήμονα] [PP με το τηλεσκόπιο]. Θα είχαμε και κανόνα: VP V NP PP. «Είδαμε τον επιστήμονα με το τηλεσκόπιο από το Παρίσι.» Είδαμε [τον επιστήμονα] [με το τηλεσκόπιο] [από το Παρίσι] Είδαμε [τον επιστήμονα με το τηλεσκόπιο] [από το Παρίσι] Είδαμε [τον επιστήμονα] [με το [τηλεσκόπιο από το Παρίσι]] Είδαμε [τον [επιστήμονα με το [τηλεσκόπιο από το Παρίσι]]] «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 42

Αμφισημία (2) «Είδαμε τον επιστήμονα με την άσπρη μπλούζα.» Χρειαζόμαστε σημασιολογικούς περιορισμούς που να αποκλείουν την περίπτωση η μπλούζα να είναι το μέσο της παρατήρησης Από καθαρά συντακτική σκοπιά, οι περισσότερες προτάσεις είναι εξαιρετικά διφορούμενες Πολύ μεγάλος αριθμός συντακτικών δένδρων (συχνά εκθετική αύξηση όσο αυξάνει ο αριθμός των φράσεων που συνδυάζονται) Χρονοβόρο να ανακαλύψουμε και να επιστρέψουμε όλα τα συντακτικά δέντρα ξεχωριστά Πρόβλημα για όλους τους απλούς αλγορίθμους συντακτικής ανάλυσης που έχουμε εξετάσει ως τώρα «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 43

Κανονική μορφή Chomsky Γραμματικές χωρίς συμφραζόμενα σε κανονική μορφή Chomsky (CNF) Επιτρέπονται μόνο κανόνες της μορφής A BC και A w, όπου A, B, C μη τερματικά και w τερματικό Κάθε ΓΧΣ μπορεί να μετατραπεί σε CNF Χωρίς να σημαίνει ότι τα συντακτικά δέντρα παραμένουν ίδια Γραμματικές σε CNF μπορούν να αναλυθούν με τον αλγόριθμο CKY (Cocke-Younger-Kasami, 1960) Αλγόριθμος δυναμικού προγραμματισμού «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 44

Δυναμικός προγραμματισμός Δημιουργία πινάκων με λύσεις σε υποπροβλήματα (π.χ. υπο-δέντρα), καθώς γίνεται η ανάλυση Αναζήτηση έτοιμων λύσεων αντί για την επαναανάλυσή τους Όλα τα δέντρα αποθηκεύονται έμμεσα Είναι διαθέσιμα για αποσαφήνιση σε μετέπειτα στάδιο «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 45

Γραμματική σε CNF Ο αλγόριθμος CKY (1) Κάθε κόμβος, έχει το πολύ 2 παιδιά Ένας δισδιάστατος πίνακας μπορεί να αναπαραστήσει ένα δέντρο Για είσοδο ν λέξεων, χρειαζόμαστε ν + 1 (ν + 1) Κάθε κελί [i, j] περιέχει το σύνολο των μη τερματικών συμβόλων που περιέχουν την είσοδο από την λέξη i μέχρι την λέξη j Ξεκινώντας από το 0, σημαδεύουμε τα κενά μεταξύ των λέξεων «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 46

Ο αλγόριθμος CKY (2) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 47

Ο αλγόριθμος CKY (3) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 48

Μια απλή γραμματική S V NP V θέλω, V επιθυμώ NP Det Nominal Nominal Adj Nominal Det μια Adj πρωινή, Adj απογευματινή N πτήση Nominal πτήση «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 49

Ο αλγόριθμος CKY 0 1 2 3 4 θέλω μια πρωινή πτήση 0 V (0,1) 0 1 2 3 4 1 Det (1,2) 2 Adj (2,3) 3 Nominal N (3,4) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 50

Ο αλγόριθμος CKY 0 1 2 3 4 θέλω μια πρωινή πτήση 0 V (0,1) 0 1 2 3 4 1 Det (1,2) Χ (0,2) 2 Adj (2,3) Δεν υπάρχει κανόνας που να συνδυάζει V με Det 3 Nominal N (3,4) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 51

Ο αλγόριθμος CKY 0 1 2 3 4 θέλω μια πρωινή πτήση 0 1 2 3 4 0 V (0,1) (0,2) Δεν υπάρχει κανόνας που να συνδυάζει Det με Adj 1 Det (1,2) Χ (1,3) 2 Adj (2,3) 3 Nominal N (3,4) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 52

Ο αλγόριθμος CKY 0 1 2 3 4 θέλω μια πρωινή πτήση 0 1 2 3 4 0 V (0,1) (0,2) 1 Det (1,2) (1,3) 2 Adj (2,3) X (0,3) Το (1,3) είναι κενό 3 Nominal N (3,4) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 53

Ο αλγόριθμος CKY 0 1 2 3 4 θέλω μια πρωινή πτήση 0 1 2 3 4 0 V (0,1) (0,2) 1 Det (1,2) (1,3) 2 Adj (2,3) X (0,3) Το (0,2) είναι κενό 3 Nominal N (3,4) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 54

Ο αλγόριθμος CKY 0 1 2 3 4 θέλω μια πρωινή πτήση 0 1 2 3 4 0 V (0,1) (0,2) (0,3) 1 Det (1,2) (1,3) 2 Adj (2,3) Nominal (2,4) 3 Nominal N (3,4) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 55

Ο αλγόριθμος CKY 0 1 2 3 4 θέλω μια πρωινή πτήση 0 1 2 3 4 0 V (0,1) (0,2) (0,3) 1 Det (1,2) (1,3) 2 Adj (2,3) NP, X (1,4) Nominal (2,4) 3 Nominal N (3,4) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 56

Ο αλγόριθμος CKY 0 1 2 3 4 θέλω μια πρωινή πτήση 0 1 2 3 4 0 V (0,1) (0,2) (0,3) 1 Det (1,2) (1,3) 2 Adj (2,3) S, X, X (0,4) NP (1,4) Nominal (2,4) 3 Nominal N (3,4) «Τεχνογλωσσία» VIII, Σεμινάριο 4, Συντακτική Ανάλυση 57