Αξιοποίηση Ευφυών Τεχνικών και Πηγών Γνώσης σε Ζητήματα Ανάλυσης Κειμένου

Σχετικά έγγραφα
ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Τεχνικές Εξόρυξης Δεδομένων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

Μορφές των χωρικών δεδομένων

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Ειρήνη Φλώρου ΕΚΠΑ, 01/03/2019

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

Ευφυείς Τεχνικές για Εφαρμογές Αποθετηρίων

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

ΠΕΡΙΓΡΑΦΗ Μέθοδος και σύστηµα για τη συγκέντρωση, περιγραφή, οργάνωση και διαχείριση ψηφιακών/διαδικτυακών εγγράφων µε βάση σηµασιολογικά

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Ανάκτηση πολυμεσικού περιεχομένου

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Software Production Company

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

ΕΠΛ 012 Εισαγωγή στο Παγκόσμιο Πλέγμα Πληροφοριών

Ανάκτηση Πληροφορίας

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

Ερευνητικό Πρόγραµµα BalkaNet

Αναζήτηση Πληροφοριών στο Διαδίκτυο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014

Εργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Ανάκτηση Πληροφορίας

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Ανάκτηση Πληροφορίας

Αναγνώριση Προτύπων Ι

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Τι είναι ένα σύστημα διαχείρισης περιεχομένου; δυναμικό περιεχόμενο

Διδακτική της Χημείας

Εξαγωγή ζευγών ερώτησης απάντησης από forum και αυτόματη απάντηση νέων ερωτήσεων

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ-ΕΙΣΑΓΩΓΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΤΜΗΜΑΤΟΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Ομαδοποίηση ΙΙ (Clustering)

Joomla! with K2 - User Guide

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΧΑΡΤΟΓΡΑΦΗΣΗ ΦΥΣΙΚΩΝ ΠΟΡΩΝ

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Αρχίζοντας. Το Joomla τρέχει: Στο Joomla μπορούμε να προσθέσουμε επιπλέον λειτουργικότητα, να την επεκτείνουμε δηλαδή (extensions) PHP MySql

Information Retrieval

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Τι (άλλο) θα δούμε σήμερα;

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Ανάκτηση Πληροφορίας

Μάθημα: Δ3. Δίκτυα Γνώσης και Σημασιολογικός Ιστός. Διάλεξη 01 & 02. Δρ. Γεώργιος Χρ. Μακρής

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Διπλωματικές των κ. Ι. Βλαχάβα και Ν. Βασιλειάδη

Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Παιδαγωγική ή Εκπαίδευση ΙΙ

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Μάθημα: Δ3. Δίκτυα Γνώσης και Σημασιολογικός Ιστός. Διάλεξη 02 & 03. Δρ. Γεώργιος Χρ. Μακρής

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Μοντελοποίηση Γεωγραφικών Δεδομένων

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Transcript:

Εργαστήριο Ευφυών Συστημάτων http://www.islab.ntua.gr Αξιοποίηση Ευφυών Τεχνικών και Πηγών Γνώσης σε Ζητήματα Ανάλυσης Κειμένου Γεράσιμος Σπανάκης Ινστιτούτο ΙΕΛ/ΑΘΗΝΑ 10 Οκτωβρίου 2012

Το πρόβλημα των πληροφοριών Στην εποχή μας παρατηρείται ολοένα αυξανόμενος όγκος εγγράφων Οι διάφορες οντολογίες και ο Παγκόσμιος Ιστός αποτελούν μια ανεξάντλητη πηγή πληροφοριών Υπάρχει ανάγκη για αποδοτικές και ακριβείς μεθόδους οργάνωσης και ανάλυσης κειμένου 2/35

Δομή της παρουσίασης Επισκόπηση μεθόδων αναπαράστασης κειμένου και προβλημάτων Πως μπορεί να εξαχθεί σημασιολογική πληροφορία χρήσιμη για την αντιμετώπιση των προβλημάτων αυτών Ευφυείς τεχνικές που δρουν σε διάφορα επίπεδα αναπαράστασης κειμενικής πληροφορίας (λέξεις, έννοια, θέματα και σε διάφορα ζητήματα: σημασιολογική συσχέτιση λέξεων αναπαράσταση εγγράφων ομαδοποίηση εγγράφων και εξαγωγή θέματος 3/35

Αναπαράσταση κειμένου Χρήση αριθμητικών αναπαραστάσεων και αξιοποίηση τεχνικών (απλών και ευφυών για την αποδοτική αναπαράσταση και ανάλυση εγγράφων Ποια είναι η βασική μονάδα αναπαράστασης ενός κειμένου; (χαρακτήρας, μόρφημα, συλλαβή, λέξη, πρόταση, φράση, παράγραφος κ.α. Ποιο είναι το βάρος αυτής της μονάδας στο κάθε κείμενο; Μέχρι σήμερα πιο αποδοτική θεωρείται η αναπαράσταση με βάση τις λέξεις και το μοντέλο χώρου διανυσμάτων (Vector Space Model που βασίζεται στις εξισώσεις tf/idf 4/35

Προβλήματα αναπαράστασης Προβλήματα του μοντέλου: Αγνοεί τη σειρά των λέξεων ( Bag of Words, BOW John killed Mary, Mary killed John έχουν ίδιες διανυσματικές αναπαραστάσεις Αγνοεί φράσεις αποτελούμενες από πολλές λέξεις data mining, traffic jam Απαιτεί μεγάλο διανυσματικό χώρο για την αναπαράσταση των λέξεων Προβλήματα της γλώσσας: Εγγενής παραμόρφωση σημασιολογικού χώρου Σημασιολογικές σχέσεις λέξεων : συνωνυμία, αντωνυμία κτλ Οι λέξεις δεν είναι ατομικές οντότητες Εξάρτηση από τις περικείμενες λέξεις ( context Αναλογίες μεταξύ λέξεων Ο Γιάννης είναι (ψηλός σα κυπαρίσσι Πρότερη γνώση ή εμπειρία Σήμερα το πρωί είδα τη μητέρα σου Υπάρχει ένας ακήρυχτος πόλεμος μεταξύ Ισραήλ και Παλαιστίνης 5/35

Από το χώρο των λέξεων στο χώρο των εννοιών και των θεμάτων Θέματα Έννοιες Λέξεις Ομαδοποίηση εγγράφων Εξαγωγή θεματικών περιοχών Διανυσματικό μοντέλο Σημασιολογικό περιεχόμενο Μονοδιάστατα μέτρα Σημασιολογική συσχέτιση 6/35

Από το χώρο των λέξεων στο χώρο των εννοιών και των θεμάτων Θέματα Έννοιες Λέξεις Ομαδοποίηση εγγράφων Εξαγωγή θεματικών περιοχών Διανυσματικό μοντέλο Σημασιολογικό περιεχόμενο Μονοδιάστατα μέτρα Σημασιολογική συσχέτιση 7/35

Σημασιολογική συσχέτιση λέξεων Χρήσιμη σε εφαρμογές επέκτασης ερωτήσεων, επισήμανσης σελίδων, αποσαφήνισης εννοιών, εξαγωγής συνωνύμων, ταίριασμα οντολογιών κ.τ.λ. Συσχέτιση ή ομοιότητα; Αξιοποίηση στατιστικής σημασιολογίας Αξιοποίηση πηγών γνώσης όπως: θησαυροί και άλλες λεξιλογικές βάσεις (λεξικά, WordNet Wikipedia Παγκόσμιος ιστός (όπως προσεγγίζεται από τις μηχανές αναζήτησης 8/35

Υβριδική προσέγγιση (1/2 Μέτρο Rel BOW Reltotal λ RelBOW = + (1 λ Rel SVM λ (0,1 o Κάθε λέξη w της συλλογής αναπαρίσταται με ένα έγγραφο d, το οποίο δημιουργείται από τα αποτελέσματα αναζήτησης για αυτή τη λέξη w o Βάσει του μοντέλου BOW, κατασκευάζεται ένα διάνυσμα v (tfidf για κάθε λέξη Re l BOW = 2 v( w v( w 1 1 2 v( w + v( w 2 2 2 9/35

Υβριδική προσέγγιση (2/2 Μέτρο Rel SVM Reltotal λ RelBOW = + (1 λ Rel SVM λ (0,1 Εκπαίδευση με λέξεις (των οποίων γνωρίζουμε τη συσχέτιση ενός SVM που θα αποφασίζει για τη σχετικότητα δύο λέξεων βάσει των εξής χαρακτηριστικών : - 4 μέτρων εκτίμησης συνεμφάνισης στα αποτελέσματα αναζήτησης (page-counts - Συχνότητας εμφάνισης λεξικο-συντακτικών προτύπων που εξάγονται από τα αποτελέσματα αναζήτησης για λέξεις των οποίων ξέρουμε τη σχέση Page Counts Πρότυπα... x(1 x(2 x(3 x(4 x(5 x(n-1 x(n 10/35

Μέτρα εκτίμησης συνεμφάνισης : # αποτελεσμάτων για τον όρο P : # αποτελεσμάτων για τον όρο Q : # αποτελεσμάτων για τους όρους P AND Q ( ( ( (, ( Q P H Q H P H Q P H Q P Jaccard + = ( ( ( 2, ( Q H P H Q P H Q P Dice + = (, ( min( (, ( Q H P H Q P H Q P Overlap = N Q H N P H N Q P H Q P PMI ( ( ( log, ( = N είναι ο αριθμός των εγγράφων που αναζητά η μηχανή αναζήτησης ( Q P H H (P H (Q 11/35

Εξαγωγή λεξικο-συντακτικών προτύπων Αλγόριθμος : Με δεδομένο ένα σύνολο λέξεων των οποίων γνωρίζουμε τη σχέση βάσει WordNet : Ανακτώνται τα αποτελέσματα αναζήτησης για το ζεύγος λέξεων Επεξεργάζονται χωριστά τίτλοι, snippets, urls Εξετάζεται το context κοντά στις λέξεις και εξάγονται τα ανάλογα πρότυπα Υπολογίζεται η συχνότητα εμφάνισης κάθε προτύπου Δημιουργείται μία λίστα των πιο κοινών προτύπων σε τίτλο, snippet και URL Xs or Υs Xs or Ys Xs and a Y Xs_or_Ys XsandYs 12/35

Τελική κατασκευή διανύσματος SVΜ για τα ζεύγη του συνόλου εκπαίδευσης - Συλλέγονται τα αποτελέσματα αναζήτησης για κάθε ζεύγος λέξεων (P,Q - Υπολογίζονται τα 4 μέτρα που βασίζονται στα page counts - Διαχωρίζονται τίτλοι, snippets, urls για την αναζήτηση P AND Q και εξάγονται οι συχνότητες προτύπων ανά τίτλο, snippet και URL Title Patterns Snippet patterns Jaccard Dice Overlap PMI X or Y X in Y X, Y X and Y X or Y X in Y X and Y x(1 x(2 x(3 x(4 x(5 x(6... x(i-2 x(i-1 x(i... x(j-2 x(j-1 - Εκπαιδεύεται το SVM και καθορίζονται τα βάρη των χαρακτηριστικών URL patterns X-or-Y X+Y X/Y X&Y x(j... 13/35 x(n-2 x(n-1 x(n

Από το χώρο των λέξεων στο χώρο των εννοιών και των θεμάτων Θέματα Έννοιες Λέξεις Ομαδοποίηση εγγράφων Εξαγωγή θεματικών περιοχών Διανυσματικό μοντέλο Σημασιολογικό περιεχόμενο Μονοδιάστατα μέτρα Σημασιολογική συσχέτιση 14/35

Βάσεις αναπαράστασης μοντέλου VSM Ν-grams (+ μικρότερη ευαισθησία σε λάθη (γραμματικά κλπ (- δε μειώνει τη διάσταση του διανύσματος Ομάδες λέξεων (+ σημαντική μείωση της διάστασης (- αποτελεσματικός εντοπισμός όλων των ομάδων Προτάσεις/φράσεις (+ σημαντικότερο σημασιολογικό περιεχόμενο (- μειωμένη δυνατότητα σύγκρισης μεταξύ κειμένων Ονοματικές φράσεις (+ συμπυκνώνουν το περιεχόμενο των κειμένων (- ακριβής προσδιορισμός όλων των περιπτώσεων 15/35

Άλλες βελτιώσεις Μείωση της διάστασης μέσω: προεπεξεργασίας, κανονικοποίησης κλπ τεχνικών όπως η LSI (Latent Semantic Indexing Εισαγωγή εξωτερικής γνώσης Οντολογίες (WordNet, GeneOntology κλπ Wikipedia Εντοπισμός εννοιών (concepts και όχι απλών λέξεων Καθορισμός της σημασίας τους για το έγγραφο βάσει του περιεχομένου τους 16/35

Μοντέλο αναπαράστασης εγγράφων με γνώση από τη Wikipedia Στόχοι: Να εντοπιστούν έννοιες (όροι αντί για απλές λέξεις: Data mining combines methods from statistics and artificial intelligence with database management... και πιο συγκεκριμένα μας ενδιαφέρουν ονοματικές φράσεις (noun phrases γιατί περιέχουν πιο σημαντικό σημασιολογικό περιεχόμενο Να καθοριστεί ποιες ονοματικές φράσεις είναι σημαντικές από σημασιολογική άποψη Μεθοδολογία: Εντοπισμός noun phrases με χρήση Part-Of-Speech (POS tagger On the fly έλεγχος (βάσει API της Wikipedia αν υπάρχει το noun phrase ως άρθρο της Wikipedia Εφόσον υπάρχει, εξάγεται πληροφορία από το άρθρο για τον εμπλουτισμό του κειμένου και ορίζει αυτό που ονομάζεται έννοια ή concept επιτρέποντας την κατάταξη των όρων από άποψη σημαντικότητας 17/35

Αναπαράσταση εγγράφων (1/4- Τι μπορεί να εξαχθεί για κάθε concept 1. Textual content 2. Links 3. Categories 4. Backlinks 5. Pagehits 18/35

Αναπαράσταση εγγράφων (2/4- Τι μπορεί να κατασκευαστεί για κάθε έννοια 1. Weighted Frequency: πόσες φορές εμφανίζεται μία έννοια στο έγγραφο, πολλαπλασιασμένες με τον αριθμό των λέξεων που σχηματίζουν την έννοια 2. LinkRank: πόσους συνδέσμους έχει κοινούς μία έννοια με τις υπόλοιπες έννοιες του εγγράφου 3. ConceptSim: η ομοιότητα του εγγράφου και του περιεχομένου του άρθρου της έννοιας, υπολογισμένη με όρους tf-idf 4. OrderRank: παίρνει μεγαλύτερες τιμές για έννοιες που παρατηρούνται στην αρχή του εγγράφου 5. Keyphraseness: πόσο περιγραφική και συγκεκριμένη είναι μία έννοια Keyphraseness = BackLinks / PageHits π.χ. woman έχει μικρό Keyphraseness σε σύγκριση με το network management 19/35

Αναπαράσταση εγγράφων (3/4- Αποσαφήνιση σημασίας (disambiguation Εισάγεται το μέτρο SenseSim που ενσωματώνει: το ConceptSim τον αριθμό των κοινών κατηγοριών μεταξύ της πολύσημης έννοιας και των κατηγοριών του εγγράφου (λαμβάνοντας υπ όψιν όλες τις κατηγορίες των μηπολύσημων εννοιών του εγγράφου Since the server end is (or was always at this end (California it is faster to remotely run the client via DESQview X and have a short hop to the server than running the client locally and having a long hop to the server. Client senses SenseSim Client (computing 0.0578 Client (ancient Rome 0.0240 Client (band 0.0170 Clients (album 0.0168 Client (album 0.0097 20/35

Αναπαράσταση εγγράφων (4/4- Τελική αναπαράσταση εγγράφου Για κάθε έννοια (μονοσήμαντη και αποσαφηνισμένη αποθηκεύονται οι τιμές για τα χαρακτηριστικά (1 έως (5 Concept WFreq LinkRank ConceptSim OrderRank Keyphraseness Network segment 0.3333 0.7302 0.5041 0.1055 0.7174 File server 0.3333 0.4529 1 0.1604 0.6338 Ethernet 0.3333 1 0.9499 0.2919 0.632 xserver 0.1 0.4432 0.2759 0.2948 0.3077 Traffic flow 0.3333 0.2958 0.7869 0.4711 0.1045 Word for Windows 0.6667 0.3576 0.7278 0.4032 0.0833 Mouse pointer 0.3333 0.8342 0.7488 0.3858 0.046 Client (computing 0.6667 0.4246 0.6661 0.435 0.0426 Process (computing 0.1 0.4332 0.8365 0.1647 0.0415 21/35

Πλεονεκτήματα του μοντέλου αναπαράστασης Εμπλουτίζεται σημασιολογικά η αναπαράσταση με περιεχόμενο από τη Wikipedia Εντοπίζονται επώνυμες οντότητες (named entities που αποτελούν τις έννοιες (concepts του εγγράφου Αντιμετωπίζεται το πρόβλημα των ομάδων λέξεων (multi-words Αντιμετωπίζεται η πολυσημία των εννοιών Συμπιέζεται σημαντικά ο χώρος αναπαράστασης 22/35

Από το χώρο των λέξεων στο χώρο των εννοιών και των θεμάτων Θέματα Έννοιες Λέξεις Ομαδοποίηση εγγράφων Εξαγωγή θεματικών περιοχών Διανυσματικό μοντέλο Σημασιολογικό περιεχόμενο Μονοδιάστατα μέτρα Σημασιολογική συσχέτιση 23/35

Ομαδοποίηση εγγράφων Document Self- Organizer ( DoSO Στόχοι-Κίνητρα: Να αξιοποιηθεί η ιδέα των αυτο-οργανούμενων χαρτών για την ομαδοποίηση εγγράφων Να τοποθετηθούν οι ομάδες στο χώρο τοπολογικά ορθά ώστε να τηρούνται οι σημασιολογικές τους σχέσεις Weight = α Weighted _ Frequency + concept + β LinkRank + + γ OrderRank + 24/35 + (1 ConceptSim α β γ

Ορισμοί DoSO Ένα καθολικά σημαντικό σύνολο εννοιών ορίζεται ως ένα σύνολο από εννοιών (μίας ή περισσότερων τα οποία πληρούν τα εξής : Keyphraseness MinKeyph o o Corpus Frequency MinFreq Ένα σύνολο εννοιών καλείται σημαντικό σε ένα νευρώνα εάν περιέχεται σε ένα ελάχιστο ποσοστό εγγράφων που ανατίθενται στο νευρώνα αυτό Οι νευρώνες του μοντέλου περιγράφονται από: Ένα διάνυσμα βαρών (ίδιας διάστασης με το διάνυσμα χαρακτηριστικών των εγγράφων Μια ετικέτα που καθορίζεται από τα καθολικά σημαντικά σύνολα εννοιών της συλλογής εγγράφων Μια θέση στο δισδιάστατο επίπεδο (προκύπτει μετά την αρχικοποίηση 25/35

Στάδιο 1/3: Αρχικοποίηση Για κάθε καθολικά σημαντικό σύνολο εννοιών κατασκευάζεται ένας νευρώνας που περιέχει όλα τα έγγραφα που περιέχουν τις αντίστοιχες έννοιες Η ετικέτα του νευρώνα καθορίζεται από αυτό το καθολικά σημαντικό k-σύνολο εννοιών Κάθε νευρώνας αναλαμβάνει όλα τα έγγραφα που περιέχουν ως έννοιες την ετικέτα του neuron 1 doc1 neuron 2 doc2 neuron 3 docj neuron 4 label1 label2 label3 label4 Αρχικοποίηση βαρών διανυσμάτων νευρώνων βάσει των βαρών των εννοιών των εγγράφων Μονοσήμαντη αντιστοίχηση νευρώνων-εγγράφων Με προβολή προκύπτει η θέση νευρώνων r στο δισδιάστατο επίπεδο NW ( k, i neuron 4 neuron 1 = neuron 2 neuron 3 j M ki Weight( j, i M 26/35

Στάδιο 2/3: Εκπαίδευση Προσαρμογή εξισώσεων SOM ώστε να ανταποκρίνονται στο μοντέλο Ανταγωνισμός: Sim( N m, j = { Weight( j, i NW( m, i } i m* = arg max{ Sim( N, j } Ανανέωση: Τόσο στο δισδιάστατο χώρο εξόδου όσο και στο χώρο εισόδου m m Στο χώρο εισόδου NW m i = NW m i + η h t Weight j i NW m i t+ 1 t t t (, (, mm, *( [ (, (, ] = + ζ t H t t+ 1 t t t rm r m ( mm, *([rm* r m ] Στο χώρο εξόδου Καταλυτική βελτίωση χρόνου εκτέλεσης λόγω της αρχικοποίησης όσο και της διπλής ανανέωσης βαρών και θέσεων 27/35

Παράδειγμα εκπαίδευσης 4 ομάδες (atheism, medicine, autos, graphics 28/35 Μετά την αρχικοποίηση Μετά την εκπαίδευση

Στάδιο 3/3: Εντοπισμός ομάδων και ιεραρχική δόμηση Εντοπισμός ομάδων βάσει συνάρτησης αναδρομικής ομοιότητας νευρώνων Ιεραρχική δόμηση βάσει διαφόρων κατωφλίων ομοιότητας νευρώνων 1 comp.windows.x 0.8 Threshold T 0.6 0.4 0.2 Emacs Macintosh opcode xview xwb SunOS SPARCstation DECstation dialog box window manager openwindows X Consortium X Window System ethernet 29/35

Ανακεφαλαίωση μεθόδου DoSO Λειτουργία βάσει ενός συμπιεσμένου χωρικά αλλά πλούσιου σημασιολογικά μοντέλου αναπαράστασης Αυτόματη εξαγωγή ετικετών νευρώνων Βελτίωση αποτελεσμάτων ομαδοποίησης Βελτίωση χρόνου εκπαίδευσης και κατάλληλος εντοπισμός μεγέθους χαρτών Πλήρης τοπολογική απεικόνιση των σχέσεων ανάμεσα στις ομάδες που δημιουργούνται Ετικετοποίηση + Ομαδοποίηση = Εξαγωγή θέματος 30/35

DoSO: Εξαγωγή θέματος MONEY- SUPPLY CPI INTEREST ALUMINIUM GNP SHIP COCOA COFFEE COPPER GOLD 31/35

Ανακεφαλαίωση Προβλήματα αναπαράστασης κειμένου και ζητημάτων ανάλυσης/αναζήτησης Αναγκαία η χρήση εξωτερικής πηγής γνώσης για το σημασιολογικό εμπλουτισμό εγγράφων Λέξεις Βασικότερη μονάδα αναπαράστασης έως σήμερα Αναζήτηση βαθμωτού μέτρου συσχέτισης λέξεων Χρήση WordNet και αποτελεσμάτων μηχανών αναζήτησης στο WWW Έννοιες Θέματα Αδυναμίες μοντέλου λέξεων οδηγούν σε αναζήτηση διανυσματικών μορφών αναπαράστασης βάσει των εννοιών (concepts του κάθε εγγράφου Δυνατότητα αναπαράστασης ομάδων λέξεων και γενικά επώνυμων οντοτήτων Συμπίεση χώρου αναπαράστασης και σημασιολογικός εμπλουτισμός μέσω της κατασκευής χαρακτηριστικών από τη Wikipedia Αξιοποίηση μοντέλου αναπαράστασης βάσει εννοιών στην κατασκευή αλγορίθμων ομαδοποίησης εγγράφων βάσει σημασιολογικού περιεχομένου Τοπολογική κατανομή ομάδων εγγράφων στο επίπεδο ώστε να διατηρούνται οι σημασιολογικές τους σχέσεις Ετικετοποίηση και Ομαδοποίηση οδηγεί σε πλήρη εξαγωγή θέματος Βελτίωση αποτελέσματος τόσο ως προς το αποτέλεσμα της ομαδοποίησης, της οπτικοποίησης και τις απαιτήσεις χρόνου 32/35

Θέματα για περαιτέρω έρευνα (1/2 Βελτίωση μεθοδολογιών με χρήση και άλλων πηγών γνώσης (π.χ. οντολογιών Βελτίωση μεθοδολογιών ομαδοποίησης ώστε να καθορίζουν το βαθμό που κάθε έγγραφο ανήκει σε κάθε ομάδα 33/35

Θέματα για περαιτέρω έρευνα (2/2 Δυνατότητες ενσωμάτωσης μεθοδολογιών σε ένα ενιαίο μοντέλο οργάνωσης και διαχείρισης Λέξη1 Λέξη2 Λέξη3 ΛέξηN Έγγραφo1 Έγγραφo2 Έγγραφo3... ΈγγραφoM Σημασιολογική συσχέτιση Ομαδοποίηση εγγράφων Εξαγωγή θέματος 34/35

Ευχαριστώ για την προσοχή σας! Ερωτήσεις; 35/35