Κεφάλαιο 6ο: Παρόν και μέλλον της Υπολογιστικής Γλωσσολογίας Σύνοψη Στο τελευταίο αυτό κεφάλαιο του βιβλίου, αρχικά θα ανακαλέσουμε συνοπτικά το υλικό των προηγούμενων κεφαλαίων και θα δούμε τις συνδέσεις της Υπολογιστικής Γλωσσολογίας με άλλους γνωστικούς τομείς, με στόχο να επισημάνουμε με ποιο τρόπο ταιριάζουν μεταξύ τους τα κομμάτια στο παζλ που επιχειρήσαμε να συνθέσουμε. Με δεδομένη την εστίαση του βιβλίου στα κομβικά σημεία του αντικειμένου και όχι την πλήρη και σε βάθος παρουσίαση όλων των υποαντικειμένων της Υπολογιστικής Γλωσσολογίας, θα αναφερθούμε συνοπτικά σε εκείνες τις κατευθύνσεις του αντικειμένου που συνδέονται ή και βασίζονται πάνω στις έννοιες που αναλύθηκαν και παρουσιάστηκαν στα προηγούμενα κεφάλαια. Τέλος, θα δούμε το παρόν και μέλλον του αντικειμένου μέσα από το διπλό πρίσμα των σύγχρονων τάσεων για εφαρμογές Γλωσσικής Τεχνολογίας που διευκολύνουν την διεπαφή ανθρώπου και υπολογιστή, αλλά και της προώθησης της βασικής έρευνας σε θέματα γλώσσας. Προαπαιτούμενη γνώση Όλα τα προηγούμενα κεφάλαια. 6.1. Τι είδαμε μέχρι τώρα Αν κανείς ακολούθησε μέχρι τώρα το υλικό αυτού του βιβλίου και διαπιστώνει ότι η Υπολογιστική Γλωσσολογία αποτελεί ένα αντικείμενο με πολλές πτυχές και ότι επιπλέον αφορά την αυτοματοποίηση της επεξεργασίας γλωσσικών δεδομένων σε όλα τα επίπεδα γλωσσικής ανάλυσης, δεν θα έχει πέσει έξω. Επομένως, στο άκουσμα ότι κάποιος ασχολείται με την Υπολογιστική Γλωσσολογία, η επόμενη φυσική ερώτηση είναι «με ποιο υποαντικείμενό της;». Ακριβώς επειδή υπάρχει μια πληθώρα υποαντικειμένων που αντιστοιχούν σε όλα τα επίπεδα γλωσσικής ανάλυσης, επιλέξαμε να παρουσιάσουμε εκείνες τις πτυχές εισαγωγικής γνώσης που είναι κοινές σε όλα αυτά τα υποαντικείμενα, στη βάση τριών επιπέδων ανάλυσης: μορφολογικό, συντακτικό και σημασιολογικό. Επιπλέον, η δύναμη των δεδομένων και η συνεχώς αυξανόμενη χρήση γλωσσικών δεδομένων για την «εκπαίδευση» των υπολογιστών στη φυσική γλώσσα μάς οδήγησαν να συμπεριλάβουμε στο τελευταίο κεφάλαιο του εγχειριδίου εισαγωγικές έννοιες μιας κοινής πλέον μεθοδολογίας δημιουργίας, αξιοποίησης και ανάλυσης γλωσσικών βάσεων δεδομένων, των Σωμάτων Κειμένων. Έννοιες όπως η ανάλυση (parsing), οι συμβολικοί φορμαλιστικοί κανόνες και τα αυτόματα είναι κοινές σε όλους τους υποτομείς της Υπολογιστικής Γλωσσολογίας. Πριν όμως οι έννοιες αυτές αποκτήσουν νόημα στο κάθε ένα από τα τρία επίπεδα γλωσσικής ανάλυσης που εστιάζει το βιβλίο μας, είναι απαραίτητη η γνώση ορισμένων βασικών μαθηματικών εννοιών, στις οποίες στηρίζονται όλες οι προσεγγίσεις αυτοματοποίησης της γλωσσικής επεξεργασίας. Για το λόγο αυτό, το πρώτο κεφάλαιο αφιερώθηκε στην εξοικείωση του αναγνώστη με τις θεμελιώδεις έννοιες μαθηματικής ανάλυσης που θα αποτελούν σημεία αναφοράς στη μετέπειτα πορεία του ως υπολογιστικού γλωσσολόγου. Στο επόμενο κεφάλαιο, παρουσιάσαμε μια αρκετά πλήρη εικόνα για τις αρχές αυτοματοποιημένης μορφολογικής ανάλυσης, ενώ στο τρίτο κεφάλαιο εκθέσαμε δύο προσεγγίσεις στη συντακτική ανάλυση, τη μία από την οπτική γωνία μιας θεωρίας ενοποιητικής γραμματικής και την άλλη από την πλευρά κατασκευής ενός λεξικού δομών. Στο επόμενο κεφάλαιο δώσαμε έμφαση στη σημασιακή ανάλυση κειμένων μέσα από τη σκοπιά των σύγχρονων εφαρμογών Γλωσσικής Τεχνολογίας, χωρίς όμως να αναλύσουμε μεθόδους βαθιάς σημασιολογικής ανάλυσης. Αυτή η επιλογή υπαγορεύτηκε από τη σημερινή παντοκρατορία των πιο «ρηχών» προσεγγίσεων στη γλωσσική σημασία. Εξ άλλου, πρόθεση των συγγραφέων είναι το εισαγωγικό αυτό εγχειρίδιο να καθοδηγήσει τον αναγνώστη στην εξοικείωσή του με τις βασικές έννοιες και τις επικρατούσες 247
τάσεις της Υπολογιστικής Γλωσσολογίας και όχι να αποτελέσει έναν πλήρη οδηγό σπουδής που να καλύπτει και να εμβαθύνει σε όλα τα υποαντικείμενα και τις κατευθύνσεις του γνωστικού αντικειμένου και των εφαρμογών τους στη Γλωσσική Τεχνολογία. [Στο 5 ο κεφάλαιο τέλος έγινε μια σύντομη εισαγωγή στα Σώματα Κειμένων (ΣΚ), τόσο τα διεθνή όσο και τα ελληνικά. Παρουσιάστηκε η έννοια και μερικά στοιχεία σχετικά με τη διαδικασία επισημείωσης, καθώς και οι βασικές στατιστικές μέθοδοι που χρησιμοποιούνται για την αξιοποίηση των ΣΚ.] 6.2. Πού ακριβώς «στέκεται» η Υπολογιστική Γλωσσολογία; Μέχρις εδώ δεν έχουμε κάνει αυστηρό διαχωρισμό ανάμεσα στους όρους Υπολογιστική Γλωσσολογία και Γλωσσική Τεχνολογία και πιστεύουμε ότι είχαμε καλούς λόγους για αυτή μας την επιλογή. Η Υπολογιστική Γλωσσολογία συνδέεται άμεσα και στενά με τη Γλωσσική Τεχνολογία και αυτό είναι φανερό και στο παρόν εγχειρίδιο. Η εμφανής αιτία είναι ότι η υλοποίηση προγραμμάτων ανάλυσης και παραγωγής φυσικού λόγου είναι αξιοποιήσιμη για τη δημιουργία εφαρμογών που βελτιώνουν την επικοινωνία ανθρώπου και υπολογιστή. Στο πρώτο κεφάλαιο έχει παρατεθεί ένας κατάλογος εφαρμογών Γλωσσικής Τεχνολογίας άμεσα συνδεδεμένων με την Υπολογιστική Γλωσσολογία σε όλα τα επίπεδα γλωσσικής ανάλυσης. Η σχέση όμως των δύο αυτών γνωστικών περιοχών δεν είναι αμφιμονοσήμαντη: Δεν υπάρχει δηλαδή αντιστοίχιση ένα προς ένα ανάμεσα σε εφαρμογές (της Γλωσσικής Τεχνολογίας) και σε υποαντικείμενα (της Υπολογιστικής Γλωσσολογίας). Και αυτό, επειδή η Υπολογιστική Γλωσσολογία δεν περιορίζεται μόνο στη δημιουργία εφαρμογών Γλωσσικής Τεχνολογίας, αλλά είναι και ένα ευρύ ερευνητικό πεδίο, στο οποίο μελετώνται δομικές ιδιότητες της ανθρώπινης γλώσσας. Έτσι, στο αντικείμενο εμπλέκονται δύο τύποι ερευνητών: Αυτοί που επιδιώκουν να δημιουργήσουν εφαρμογές Γλωσσικής Τεχνολογίας με στόχο τη βελτίωση της επίδοσης των υπαρχόντων συστημάτων Γλωσσικής Τεχνολογίας: οι επιστήμονες αυτοί συχνά εστιάζουν σε ρηχές προσεγγίσεις που φέρνουν γρήγορα και όχι πάντα αξιόπιστα αποτελέσματα. Αυτοί που στοχεύουν στην αποκωδικοποίηση πτυχών της ανθρώπινης γλώσσας: οι επιστήμονες χρησιμοποιούν τον υπολογιστή ως εργαλείο ή ως μεθοδολογικό μέσο για την ανάπτυξη γλωσσολογικών θεωριών. Επιπλέον, η Υπολογιστική Γλωσσολογία είναι ένα κατεξοχήν διεπιστημονικό γνωστικό αντικείμενο και εμπλέκεται στην εξέλιξη θεωριών σε γειτονικά αντικείμενα, όπως φαίνεται στην Εικόνα 6.1. Πιο συγκεκριμένα, επωφελείται από τα πορίσματα της Θεωρητικής Γλωσσολογίας σε όλα τα επίπεδα της γλωσσικής ανάλυσης, ενώ ταυτόχρονα αξιοποιεί και βασικές αρχές γλωσσικής επεξεργασίας από την Ψυχογλωσσολογία. Για παράδειγμα, για την επίλυση αναφορικών αμφισημιών και την αυτόματη αποκατάσταση των αναφορικών συνδέσεων σε ένα κείμενο, μια μεγάλη μερίδα διαλογικών συστημάτων στηρίζεται σε ψυχογλωσσολογικές θεωρίες επεξεργασίας αναφορικών στοιχείων. 248
Εικόνα 6.1: Οι διεπαφές της Υπολογιστικής Γλωσσολογίας με συναφή αντικείμενα Τέλος, εκτός από την προφανή σύνδεση με τη Θεωρητική Γλωσσολογία και την Επιστήμη Υπολογιστών που έχει ήδη αναλυθεί διεξοδικά εδώ και σε όλη την έκταση του βιβλίου, η σύνδεση της Υπολογιστικής Γλωσσολογίας με τη Στατιστική και τη Θεωρία Πιθανοτήτων είναι εξίσου σημαντική, καθώς σε αυτήν βασίζεται η ανάλυση των γλωσσικών δεδομένων. 6.3. Το μέλλον της Υπολογιστικής Γλωσσολογίας Κατά κοινή ομολογία, το μέλλον της Υπολογιστικής Γλωσσολογίας προδιαγράφεται ευοίωνο, ειδικά ενόψει δύο σημαντικών εξελίξεων στην επιστήμη και την έρευνα: α) τη γενικότερη τεχνολογική έκρηξη που επιτρέπει ολοένα και πιο δυνατά υπολογιστικά συστήματα από άποψη αποθηκευτικού χώρου και επεξεργαστικής ισχύος και β) την ανάπτυξη έξυπνων μεθόδων διαχείρισης μαζικών γλωσσικών (και όχι μόνο) δεδομένων (big data). Οι δύο αυτές εξελίξεις, αφενός επηρεάζουν την υλοποίηση συστημάτων Γλωσσικής Τεχνολογίας, αφετέρου παρέχουν προηγμένα εργαλεία ανάλυσης και επεξεργασίας τεράστιας μάζας γλωσσικών δεδομένων συντελώντας έτσι καθοριστικά στην προώθηση της θεωρητικής έρευνας. Θα επεκταθούμε λίγο περισσότερο στη δεύτερη εξέλιξη, αφού η πρώτη αφορά κυρίως την Επιστήμη των Υπολογιστών και προκλήσεις που δεν άπτονται της δικής μας «ευθύνης». Έτσι, θα αντιληφθούμε τη σημασία που δίνεται σήμερα στην κατασκευή γλωσσικών πόρων, είτε αυτή ακολουθεί τις μεθοδολογικές αρχές της Γλωσσολογίας σωμάτων κειμένων, είτε όχι. 6.3.1 Ο ρόλος των γλωσσικών δεδομένων στο μέλλον της Υπολογιστικής Γλωσσολογίας Αν και ο εικοστός αιώνας χαρακτηρίστηκε από την ανάπτυξη των πιο βασικών αλγόριθμων προσπέλασης των διαφόρων τύπων δεδομένων, από τα τέλη του και ύστερα η ανάπτυξη και ανάλυση αλγορίθμων περιορίστηκε, ενώ δόθηκε έμφαση στην αναπαράσταση και αποθήκευση της πληροφορίας. Αυτή η στροφή στην ίδια τη φύση των δεδομένων ευνόησε την Υπολογιστική Γλωσσολογία, αφού στην προσπάθεια διερεύνησης των κεντρικών ερωτημάτων της, θεωρητικών και πρακτικών, βρήκε σύμμαχό της ένα ρεύμα νέων ιδεών που προήλθαν από άλλα αντικείμενα, όπως η Στατιστική και η Επιστήμη των Υπολογιστών. Τα δύο αυτά αντικείμενα παρέχουν σήμερα μια πληθώρα πολύτιμων εργαλείων για την ποικίλη αξιοποίηση μεγάλης μάζας 249
γλωσσικών δεδομένων, ώστε να εξαχθούν κρίσιμα συμπεράσματα για επαναλαμβανόμενα μοτίβα στη γλωσσική χρήση. Στην κατεύθυνση αυτή, η Υπολογιστική Γλωσσολογία αξιοποιεί και ένα υπάρχον πλούσιο μεθοδολογικό οπλοστάσιο τόσο για τη δειγματοληψία, όσο και για την ταξινόμηση των δεδομένων με γλωσσολογικά κριτήρια. Η δημιουργία και η υποστήριξη θεωριών και των υποθέσεών τους για φλέγοντα γλωσσολογικά ζητήματα θα στηρίζεται στην εξέταση των γλωσσικών πόρων. Έτσι, η εκπαίδευση ενός υπολογιστικού γλωσσολόγου θα συνδέεται πλέον άμεσα τόσο με την εξοικείωση με τον προγραμματισμό και τις γλωσσολογικές θεωρητικές αρχές, όσο και με τον τρόπο συλλογής και αξιοποίησης των δεδομένων που μπορούν να υποστηρίξουν ή να διαψεύσουν ερευνητικές υποθέσεις ή κατευθύνσεις για τη δημιουργία πρακτικών και χρήσιμων εφαρμογών γλωσσικής τεχνολογίας. 6.3.2 Και τώρα τι ακολουθεί; Το παρόν εγχειρίδιο επιχείρησε να προσφέρει τις βασικές αρχές του αντικειμένου και να χαρτογραφήσει το δρόμο για την κατάρτιση ενός υπολογιστικού γλωσσολόγου. Προσπαθήσαμε να περιγράψουμε τη σύνδεση μεταξύ πράξης και θεωρίας ενός κατεξοχήν διεπιστημονικού γνωστικού αντικειμένου. Το επόμενο βήμα για όποιον ενδιαφέρεται να εμβαθύνει στα θέματα που θίξαμε, είναι να ανατρέξει σε πιο εξειδικευμένες πηγές του υποαντικειμένου που θα επιλέξει. Όπως είναι φανερό πλέον, η Υπολογιστική Γλωσσολογία είναι ένα αντικείμενο σπουδής ανάλογο σε μέγεθος και αντίστοιχο σε ευρύτητα με τη Θεωρητική Γλωσσολογία, καθώς σε κάθε επίπεδο γλωσσικής ανάλυσης, η Θεωρητική και η Υπολογιστική Γλωσσολογία εξειδικεύονται για να παράσχουν απαντήσεις. Η περαιτέρω εξειδίκευση σε ένα από αυτά τα υποαντικείμενα προϋποθέτει εμβάθυνση στις γνώσεις του φοιτητή σε τρία διαφορετικά πεδία: α) τη Θεωρητική Γλωσσολογία, β) τα Διακριτά Μαθηματικά και την αλγοριθμική προσέγγιση και γ) τη διαχείριση γλωσσικών πόρων. Στόχος των υπολογιστικών γλωσσολόγων σήμερα είναι η αποκάλυψη πτυχών της γλωσσικής χρήσης και, συνεπώς, εμμέσως και της γλωσσικής ικανότητας. Γι αυτό και η κατεύθυνση του υπολογιστικού γλωσσολόγου εξαρτάται από την προσωπική έμφαση που θα δώσει. Μια ολοκληρωμένη και σε βάθος παρουσίαση του αντικειμένου δίνεται μέσα από το εγχειρίδιο των Jurafsky & Martin (2009). Η δυσκολία του συγκεκριμένου βιβλίου έγκειται στο γεγονός ότι οι συγγραφείς, στην προσπάθεια κάλυψης των περισσότερων ζητημάτων της Υπολογιστικής Γλωσσολογίας και της Γλωσσικής Τεχνολογίας, υποθέτουν ότι ο αναγνώστης κατέχει ήδη τα απαραίτητα μαθηματικά εργαλεία και ως εκ τούτου παραλείπουν την παρουσίασή τους. Ακριβώς αυτό το γεγονός συχνά αποθαρρύνει τους φοιτητές/τριες των τμημάτων φιλολογίας να ακολουθήσουν το αντικείμενο της Υπολογιστικής Γλωσσολογίας. Το παρόν εγχειρίδιο αποτελεί, πιστεύουμε, την κατάλληλη βάση για μια ομαλή μετάβαση από το επίπεδο του αρχάριου στο επίπεδο κατανόησης αυτού του πιο πλήρους οδηγού της Υπολογιστικής Γλωσσολογίας και της Γλωσσικής Τεχνολογίας. Υπάρχουν βεβαίως και αρκετά άλλα εισαγωγικά βιβλία στην Υπολογιστική Γλωσσολογία, ανάμεσα στα οποία ξεχωρίζει για την αμεσότητα και ευκολία κατανόησής του το βιβλίο του James Allen, Natural Language Understanding (2nd Edition). Αν και έχει συγγραφεί αρκετά παλαιότερα (το 1995), και επομένως δεν ακολουθεί όλες τις πρόσφατες εξελίξεις στο αντικείμενο, προϋποθέτει ελάχιστη γνώση Μαθηματικών αλλά και Γλωσσολογίας και επομένως αποτελεί μια καλή πηγή για αρχάριους φοιτητές τμημάτων Φιλολογίας αλλά και Επιστήμης των Υπολογιστών. Ελπίζουμε να ανοίξαμε τον δρόμο στους αναγνώστες μας για την εξερεύνηση ενός τόσο συναρπαστικού αντικειμένου που εμπλέκει τη μελέτη της γλώσσας με τέτοιο τρόπο, ώστε οι ανθρωπιστικές και οι θετικές επιστήμες να μπορούν να βρουν κοινό τόπο ανάπτυξης και αλληλοκατανόησης. 250
Βιβλιογραφία Allen, J. (1995). Natural Language Understanding (2nd Edition). Benjamin Cummings / Addison Wesley. ISBN 0-805-30334-0. Jurafsky, D., & Martin, J.H. (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. 2nd edition. Prentice Hall. 251