Εργαστήριο Ευφυών Συστημάτων http://www.islab.ntua.gr Αξιοποίηση Ευφυών Τεχνικών και Πηγών Γνώσης σε Ζητήματα Ανάλυσης Κειμένου Γεράσιμος Σπανάκης Ινστιτούτο ΙΕΛ/ΑΘΗΝΑ 10 Οκτωβρίου 2012
Το πρόβλημα των πληροφοριών Στην εποχή μας παρατηρείται ολοένα αυξανόμενος όγκος εγγράφων Οι διάφορες οντολογίες και ο Παγκόσμιος Ιστός αποτελούν μια ανεξάντλητη πηγή πληροφοριών Υπάρχει ανάγκη για αποδοτικές και ακριβείς μεθόδους οργάνωσης και ανάλυσης κειμένου 2/35
Δομή της παρουσίασης Επισκόπηση μεθόδων αναπαράστασης κειμένου και προβλημάτων Πως μπορεί να εξαχθεί σημασιολογική πληροφορία χρήσιμη για την αντιμετώπιση των προβλημάτων αυτών Ευφυείς τεχνικές που δρουν σε διάφορα επίπεδα αναπαράστασης κειμενικής πληροφορίας (λέξεις, έννοια, θέματα και σε διάφορα ζητήματα: σημασιολογική συσχέτιση λέξεων αναπαράσταση εγγράφων ομαδοποίηση εγγράφων και εξαγωγή θέματος 3/35
Αναπαράσταση κειμένου Χρήση αριθμητικών αναπαραστάσεων και αξιοποίηση τεχνικών (απλών και ευφυών για την αποδοτική αναπαράσταση και ανάλυση εγγράφων Ποια είναι η βασική μονάδα αναπαράστασης ενός κειμένου; (χαρακτήρας, μόρφημα, συλλαβή, λέξη, πρόταση, φράση, παράγραφος κ.α. Ποιο είναι το βάρος αυτής της μονάδας στο κάθε κείμενο; Μέχρι σήμερα πιο αποδοτική θεωρείται η αναπαράσταση με βάση τις λέξεις και το μοντέλο χώρου διανυσμάτων (Vector Space Model που βασίζεται στις εξισώσεις tf/idf 4/35
Προβλήματα αναπαράστασης Προβλήματα του μοντέλου: Αγνοεί τη σειρά των λέξεων ( Bag of Words, BOW John killed Mary, Mary killed John έχουν ίδιες διανυσματικές αναπαραστάσεις Αγνοεί φράσεις αποτελούμενες από πολλές λέξεις data mining, traffic jam Απαιτεί μεγάλο διανυσματικό χώρο για την αναπαράσταση των λέξεων Προβλήματα της γλώσσας: Εγγενής παραμόρφωση σημασιολογικού χώρου Σημασιολογικές σχέσεις λέξεων : συνωνυμία, αντωνυμία κτλ Οι λέξεις δεν είναι ατομικές οντότητες Εξάρτηση από τις περικείμενες λέξεις ( context Αναλογίες μεταξύ λέξεων Ο Γιάννης είναι (ψηλός σα κυπαρίσσι Πρότερη γνώση ή εμπειρία Σήμερα το πρωί είδα τη μητέρα σου Υπάρχει ένας ακήρυχτος πόλεμος μεταξύ Ισραήλ και Παλαιστίνης 5/35
Από το χώρο των λέξεων στο χώρο των εννοιών και των θεμάτων Θέματα Έννοιες Λέξεις Ομαδοποίηση εγγράφων Εξαγωγή θεματικών περιοχών Διανυσματικό μοντέλο Σημασιολογικό περιεχόμενο Μονοδιάστατα μέτρα Σημασιολογική συσχέτιση 6/35
Από το χώρο των λέξεων στο χώρο των εννοιών και των θεμάτων Θέματα Έννοιες Λέξεις Ομαδοποίηση εγγράφων Εξαγωγή θεματικών περιοχών Διανυσματικό μοντέλο Σημασιολογικό περιεχόμενο Μονοδιάστατα μέτρα Σημασιολογική συσχέτιση 7/35
Σημασιολογική συσχέτιση λέξεων Χρήσιμη σε εφαρμογές επέκτασης ερωτήσεων, επισήμανσης σελίδων, αποσαφήνισης εννοιών, εξαγωγής συνωνύμων, ταίριασμα οντολογιών κ.τ.λ. Συσχέτιση ή ομοιότητα; Αξιοποίηση στατιστικής σημασιολογίας Αξιοποίηση πηγών γνώσης όπως: θησαυροί και άλλες λεξιλογικές βάσεις (λεξικά, WordNet Wikipedia Παγκόσμιος ιστός (όπως προσεγγίζεται από τις μηχανές αναζήτησης 8/35
Υβριδική προσέγγιση (1/2 Μέτρο Rel BOW Reltotal λ RelBOW = + (1 λ Rel SVM λ (0,1 o Κάθε λέξη w της συλλογής αναπαρίσταται με ένα έγγραφο d, το οποίο δημιουργείται από τα αποτελέσματα αναζήτησης για αυτή τη λέξη w o Βάσει του μοντέλου BOW, κατασκευάζεται ένα διάνυσμα v (tfidf για κάθε λέξη Re l BOW = 2 v( w v( w 1 1 2 v( w + v( w 2 2 2 9/35
Υβριδική προσέγγιση (2/2 Μέτρο Rel SVM Reltotal λ RelBOW = + (1 λ Rel SVM λ (0,1 Εκπαίδευση με λέξεις (των οποίων γνωρίζουμε τη συσχέτιση ενός SVM που θα αποφασίζει για τη σχετικότητα δύο λέξεων βάσει των εξής χαρακτηριστικών : - 4 μέτρων εκτίμησης συνεμφάνισης στα αποτελέσματα αναζήτησης (page-counts - Συχνότητας εμφάνισης λεξικο-συντακτικών προτύπων που εξάγονται από τα αποτελέσματα αναζήτησης για λέξεις των οποίων ξέρουμε τη σχέση Page Counts Πρότυπα... x(1 x(2 x(3 x(4 x(5 x(n-1 x(n 10/35
Μέτρα εκτίμησης συνεμφάνισης : # αποτελεσμάτων για τον όρο P : # αποτελεσμάτων για τον όρο Q : # αποτελεσμάτων για τους όρους P AND Q ( ( ( (, ( Q P H Q H P H Q P H Q P Jaccard + = ( ( ( 2, ( Q H P H Q P H Q P Dice + = (, ( min( (, ( Q H P H Q P H Q P Overlap = N Q H N P H N Q P H Q P PMI ( ( ( log, ( = N είναι ο αριθμός των εγγράφων που αναζητά η μηχανή αναζήτησης ( Q P H H (P H (Q 11/35
Εξαγωγή λεξικο-συντακτικών προτύπων Αλγόριθμος : Με δεδομένο ένα σύνολο λέξεων των οποίων γνωρίζουμε τη σχέση βάσει WordNet : Ανακτώνται τα αποτελέσματα αναζήτησης για το ζεύγος λέξεων Επεξεργάζονται χωριστά τίτλοι, snippets, urls Εξετάζεται το context κοντά στις λέξεις και εξάγονται τα ανάλογα πρότυπα Υπολογίζεται η συχνότητα εμφάνισης κάθε προτύπου Δημιουργείται μία λίστα των πιο κοινών προτύπων σε τίτλο, snippet και URL Xs or Υs Xs or Ys Xs and a Y Xs_or_Ys XsandYs 12/35
Τελική κατασκευή διανύσματος SVΜ για τα ζεύγη του συνόλου εκπαίδευσης - Συλλέγονται τα αποτελέσματα αναζήτησης για κάθε ζεύγος λέξεων (P,Q - Υπολογίζονται τα 4 μέτρα που βασίζονται στα page counts - Διαχωρίζονται τίτλοι, snippets, urls για την αναζήτηση P AND Q και εξάγονται οι συχνότητες προτύπων ανά τίτλο, snippet και URL Title Patterns Snippet patterns Jaccard Dice Overlap PMI X or Y X in Y X, Y X and Y X or Y X in Y X and Y x(1 x(2 x(3 x(4 x(5 x(6... x(i-2 x(i-1 x(i... x(j-2 x(j-1 - Εκπαιδεύεται το SVM και καθορίζονται τα βάρη των χαρακτηριστικών URL patterns X-or-Y X+Y X/Y X&Y x(j... 13/35 x(n-2 x(n-1 x(n
Από το χώρο των λέξεων στο χώρο των εννοιών και των θεμάτων Θέματα Έννοιες Λέξεις Ομαδοποίηση εγγράφων Εξαγωγή θεματικών περιοχών Διανυσματικό μοντέλο Σημασιολογικό περιεχόμενο Μονοδιάστατα μέτρα Σημασιολογική συσχέτιση 14/35
Βάσεις αναπαράστασης μοντέλου VSM Ν-grams (+ μικρότερη ευαισθησία σε λάθη (γραμματικά κλπ (- δε μειώνει τη διάσταση του διανύσματος Ομάδες λέξεων (+ σημαντική μείωση της διάστασης (- αποτελεσματικός εντοπισμός όλων των ομάδων Προτάσεις/φράσεις (+ σημαντικότερο σημασιολογικό περιεχόμενο (- μειωμένη δυνατότητα σύγκρισης μεταξύ κειμένων Ονοματικές φράσεις (+ συμπυκνώνουν το περιεχόμενο των κειμένων (- ακριβής προσδιορισμός όλων των περιπτώσεων 15/35
Άλλες βελτιώσεις Μείωση της διάστασης μέσω: προεπεξεργασίας, κανονικοποίησης κλπ τεχνικών όπως η LSI (Latent Semantic Indexing Εισαγωγή εξωτερικής γνώσης Οντολογίες (WordNet, GeneOntology κλπ Wikipedia Εντοπισμός εννοιών (concepts και όχι απλών λέξεων Καθορισμός της σημασίας τους για το έγγραφο βάσει του περιεχομένου τους 16/35
Μοντέλο αναπαράστασης εγγράφων με γνώση από τη Wikipedia Στόχοι: Να εντοπιστούν έννοιες (όροι αντί για απλές λέξεις: Data mining combines methods from statistics and artificial intelligence with database management... και πιο συγκεκριμένα μας ενδιαφέρουν ονοματικές φράσεις (noun phrases γιατί περιέχουν πιο σημαντικό σημασιολογικό περιεχόμενο Να καθοριστεί ποιες ονοματικές φράσεις είναι σημαντικές από σημασιολογική άποψη Μεθοδολογία: Εντοπισμός noun phrases με χρήση Part-Of-Speech (POS tagger On the fly έλεγχος (βάσει API της Wikipedia αν υπάρχει το noun phrase ως άρθρο της Wikipedia Εφόσον υπάρχει, εξάγεται πληροφορία από το άρθρο για τον εμπλουτισμό του κειμένου και ορίζει αυτό που ονομάζεται έννοια ή concept επιτρέποντας την κατάταξη των όρων από άποψη σημαντικότητας 17/35
Αναπαράσταση εγγράφων (1/4- Τι μπορεί να εξαχθεί για κάθε concept 1. Textual content 2. Links 3. Categories 4. Backlinks 5. Pagehits 18/35
Αναπαράσταση εγγράφων (2/4- Τι μπορεί να κατασκευαστεί για κάθε έννοια 1. Weighted Frequency: πόσες φορές εμφανίζεται μία έννοια στο έγγραφο, πολλαπλασιασμένες με τον αριθμό των λέξεων που σχηματίζουν την έννοια 2. LinkRank: πόσους συνδέσμους έχει κοινούς μία έννοια με τις υπόλοιπες έννοιες του εγγράφου 3. ConceptSim: η ομοιότητα του εγγράφου και του περιεχομένου του άρθρου της έννοιας, υπολογισμένη με όρους tf-idf 4. OrderRank: παίρνει μεγαλύτερες τιμές για έννοιες που παρατηρούνται στην αρχή του εγγράφου 5. Keyphraseness: πόσο περιγραφική και συγκεκριμένη είναι μία έννοια Keyphraseness = BackLinks / PageHits π.χ. woman έχει μικρό Keyphraseness σε σύγκριση με το network management 19/35
Αναπαράσταση εγγράφων (3/4- Αποσαφήνιση σημασίας (disambiguation Εισάγεται το μέτρο SenseSim που ενσωματώνει: το ConceptSim τον αριθμό των κοινών κατηγοριών μεταξύ της πολύσημης έννοιας και των κατηγοριών του εγγράφου (λαμβάνοντας υπ όψιν όλες τις κατηγορίες των μηπολύσημων εννοιών του εγγράφου Since the server end is (or was always at this end (California it is faster to remotely run the client via DESQview X and have a short hop to the server than running the client locally and having a long hop to the server. Client senses SenseSim Client (computing 0.0578 Client (ancient Rome 0.0240 Client (band 0.0170 Clients (album 0.0168 Client (album 0.0097 20/35
Αναπαράσταση εγγράφων (4/4- Τελική αναπαράσταση εγγράφου Για κάθε έννοια (μονοσήμαντη και αποσαφηνισμένη αποθηκεύονται οι τιμές για τα χαρακτηριστικά (1 έως (5 Concept WFreq LinkRank ConceptSim OrderRank Keyphraseness Network segment 0.3333 0.7302 0.5041 0.1055 0.7174 File server 0.3333 0.4529 1 0.1604 0.6338 Ethernet 0.3333 1 0.9499 0.2919 0.632 xserver 0.1 0.4432 0.2759 0.2948 0.3077 Traffic flow 0.3333 0.2958 0.7869 0.4711 0.1045 Word for Windows 0.6667 0.3576 0.7278 0.4032 0.0833 Mouse pointer 0.3333 0.8342 0.7488 0.3858 0.046 Client (computing 0.6667 0.4246 0.6661 0.435 0.0426 Process (computing 0.1 0.4332 0.8365 0.1647 0.0415 21/35
Πλεονεκτήματα του μοντέλου αναπαράστασης Εμπλουτίζεται σημασιολογικά η αναπαράσταση με περιεχόμενο από τη Wikipedia Εντοπίζονται επώνυμες οντότητες (named entities που αποτελούν τις έννοιες (concepts του εγγράφου Αντιμετωπίζεται το πρόβλημα των ομάδων λέξεων (multi-words Αντιμετωπίζεται η πολυσημία των εννοιών Συμπιέζεται σημαντικά ο χώρος αναπαράστασης 22/35
Από το χώρο των λέξεων στο χώρο των εννοιών και των θεμάτων Θέματα Έννοιες Λέξεις Ομαδοποίηση εγγράφων Εξαγωγή θεματικών περιοχών Διανυσματικό μοντέλο Σημασιολογικό περιεχόμενο Μονοδιάστατα μέτρα Σημασιολογική συσχέτιση 23/35
Ομαδοποίηση εγγράφων Document Self- Organizer ( DoSO Στόχοι-Κίνητρα: Να αξιοποιηθεί η ιδέα των αυτο-οργανούμενων χαρτών για την ομαδοποίηση εγγράφων Να τοποθετηθούν οι ομάδες στο χώρο τοπολογικά ορθά ώστε να τηρούνται οι σημασιολογικές τους σχέσεις Weight = α Weighted _ Frequency + concept + β LinkRank + + γ OrderRank + 24/35 + (1 ConceptSim α β γ
Ορισμοί DoSO Ένα καθολικά σημαντικό σύνολο εννοιών ορίζεται ως ένα σύνολο από εννοιών (μίας ή περισσότερων τα οποία πληρούν τα εξής : Keyphraseness MinKeyph o o Corpus Frequency MinFreq Ένα σύνολο εννοιών καλείται σημαντικό σε ένα νευρώνα εάν περιέχεται σε ένα ελάχιστο ποσοστό εγγράφων που ανατίθενται στο νευρώνα αυτό Οι νευρώνες του μοντέλου περιγράφονται από: Ένα διάνυσμα βαρών (ίδιας διάστασης με το διάνυσμα χαρακτηριστικών των εγγράφων Μια ετικέτα που καθορίζεται από τα καθολικά σημαντικά σύνολα εννοιών της συλλογής εγγράφων Μια θέση στο δισδιάστατο επίπεδο (προκύπτει μετά την αρχικοποίηση 25/35
Στάδιο 1/3: Αρχικοποίηση Για κάθε καθολικά σημαντικό σύνολο εννοιών κατασκευάζεται ένας νευρώνας που περιέχει όλα τα έγγραφα που περιέχουν τις αντίστοιχες έννοιες Η ετικέτα του νευρώνα καθορίζεται από αυτό το καθολικά σημαντικό k-σύνολο εννοιών Κάθε νευρώνας αναλαμβάνει όλα τα έγγραφα που περιέχουν ως έννοιες την ετικέτα του neuron 1 doc1 neuron 2 doc2 neuron 3 docj neuron 4 label1 label2 label3 label4 Αρχικοποίηση βαρών διανυσμάτων νευρώνων βάσει των βαρών των εννοιών των εγγράφων Μονοσήμαντη αντιστοίχηση νευρώνων-εγγράφων Με προβολή προκύπτει η θέση νευρώνων r στο δισδιάστατο επίπεδο NW ( k, i neuron 4 neuron 1 = neuron 2 neuron 3 j M ki Weight( j, i M 26/35
Στάδιο 2/3: Εκπαίδευση Προσαρμογή εξισώσεων SOM ώστε να ανταποκρίνονται στο μοντέλο Ανταγωνισμός: Sim( N m, j = { Weight( j, i NW( m, i } i m* = arg max{ Sim( N, j } Ανανέωση: Τόσο στο δισδιάστατο χώρο εξόδου όσο και στο χώρο εισόδου m m Στο χώρο εισόδου NW m i = NW m i + η h t Weight j i NW m i t+ 1 t t t (, (, mm, *( [ (, (, ] = + ζ t H t t+ 1 t t t rm r m ( mm, *([rm* r m ] Στο χώρο εξόδου Καταλυτική βελτίωση χρόνου εκτέλεσης λόγω της αρχικοποίησης όσο και της διπλής ανανέωσης βαρών και θέσεων 27/35
Παράδειγμα εκπαίδευσης 4 ομάδες (atheism, medicine, autos, graphics 28/35 Μετά την αρχικοποίηση Μετά την εκπαίδευση
Στάδιο 3/3: Εντοπισμός ομάδων και ιεραρχική δόμηση Εντοπισμός ομάδων βάσει συνάρτησης αναδρομικής ομοιότητας νευρώνων Ιεραρχική δόμηση βάσει διαφόρων κατωφλίων ομοιότητας νευρώνων 1 comp.windows.x 0.8 Threshold T 0.6 0.4 0.2 Emacs Macintosh opcode xview xwb SunOS SPARCstation DECstation dialog box window manager openwindows X Consortium X Window System ethernet 29/35
Ανακεφαλαίωση μεθόδου DoSO Λειτουργία βάσει ενός συμπιεσμένου χωρικά αλλά πλούσιου σημασιολογικά μοντέλου αναπαράστασης Αυτόματη εξαγωγή ετικετών νευρώνων Βελτίωση αποτελεσμάτων ομαδοποίησης Βελτίωση χρόνου εκπαίδευσης και κατάλληλος εντοπισμός μεγέθους χαρτών Πλήρης τοπολογική απεικόνιση των σχέσεων ανάμεσα στις ομάδες που δημιουργούνται Ετικετοποίηση + Ομαδοποίηση = Εξαγωγή θέματος 30/35
DoSO: Εξαγωγή θέματος MONEY- SUPPLY CPI INTEREST ALUMINIUM GNP SHIP COCOA COFFEE COPPER GOLD 31/35
Ανακεφαλαίωση Προβλήματα αναπαράστασης κειμένου και ζητημάτων ανάλυσης/αναζήτησης Αναγκαία η χρήση εξωτερικής πηγής γνώσης για το σημασιολογικό εμπλουτισμό εγγράφων Λέξεις Βασικότερη μονάδα αναπαράστασης έως σήμερα Αναζήτηση βαθμωτού μέτρου συσχέτισης λέξεων Χρήση WordNet και αποτελεσμάτων μηχανών αναζήτησης στο WWW Έννοιες Θέματα Αδυναμίες μοντέλου λέξεων οδηγούν σε αναζήτηση διανυσματικών μορφών αναπαράστασης βάσει των εννοιών (concepts του κάθε εγγράφου Δυνατότητα αναπαράστασης ομάδων λέξεων και γενικά επώνυμων οντοτήτων Συμπίεση χώρου αναπαράστασης και σημασιολογικός εμπλουτισμός μέσω της κατασκευής χαρακτηριστικών από τη Wikipedia Αξιοποίηση μοντέλου αναπαράστασης βάσει εννοιών στην κατασκευή αλγορίθμων ομαδοποίησης εγγράφων βάσει σημασιολογικού περιεχομένου Τοπολογική κατανομή ομάδων εγγράφων στο επίπεδο ώστε να διατηρούνται οι σημασιολογικές τους σχέσεις Ετικετοποίηση και Ομαδοποίηση οδηγεί σε πλήρη εξαγωγή θέματος Βελτίωση αποτελέσματος τόσο ως προς το αποτέλεσμα της ομαδοποίησης, της οπτικοποίησης και τις απαιτήσεις χρόνου 32/35
Θέματα για περαιτέρω έρευνα (1/2 Βελτίωση μεθοδολογιών με χρήση και άλλων πηγών γνώσης (π.χ. οντολογιών Βελτίωση μεθοδολογιών ομαδοποίησης ώστε να καθορίζουν το βαθμό που κάθε έγγραφο ανήκει σε κάθε ομάδα 33/35
Θέματα για περαιτέρω έρευνα (2/2 Δυνατότητες ενσωμάτωσης μεθοδολογιών σε ένα ενιαίο μοντέλο οργάνωσης και διαχείρισης Λέξη1 Λέξη2 Λέξη3 ΛέξηN Έγγραφo1 Έγγραφo2 Έγγραφo3... ΈγγραφoM Σημασιολογική συσχέτιση Ομαδοποίηση εγγράφων Εξαγωγή θέματος 34/35
Ευχαριστώ για την προσοχή σας! Ερωτήσεις; 35/35