ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ: «ΕΦΑΡΜΟΓΗ ΣΤΑΤΙΣΤΙΚΩΝ ΜΕΘΟ ΩΝ ΓΙΑ ΤΗΝ ΑΝΑΛΥΣΗ ΒΙΟΛΟΓΙΚΩΝ ΚΕΙΜΕΝΩΝ»

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ: «ΕΦΑΡΜΟΓΗ ΣΤΑΤΙΣΤΙΚΩΝ ΜΕΘΟ ΩΝ ΓΙΑ ΤΗΝ ΑΝΑΛΥΣΗ ΒΙΟΛΟΓΙΚΩΝ ΚΕΙΜΕΝΩΝ» ΕΠΙΜΕΛΕΙΑ ΕΡΓΑΣΙΑΣ: ΦΡΑΓΚΟΠΟΥΛΟΥ ΜΟΡΦΟΥΛΑ (Α.Ε.Μ.: 678) ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΑΓΓΕΛΗΣ ΛΕΥΤΕΡΗΣ ΘΕΣΣΑΛΟΝΙΚΗ, ΙΟΥΛΙΟΣ 26

2 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ... 1 ΓΕΝΙΚΑ... 4 ΜΕΡΟΣ Α: ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΕΙΣΑΓΩΓΗ TEXT MINING TEXT MINING ΣΤΟ ΒΙΟΛΟΓΙΚΟ ΚΕΙΜΕΝΟ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΚΙΝΗΤΡΑ ΙΑΡΘΡΩΣΗ ΚΕΙΜΕΝΟΥ ΜΕΘΟ ΟΛΟΓΙΑ ΑΝΑΚΤΗΣΗ ΚΑΙ ΑΝΑΠΑΡΑΣΤΑΣΗ Ε ΟΜΕΝΩΝ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ ΓΙΑ ΤΗΝ ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΩΝ ΚΕΙΜΕΝΩΝ TOKENIZATION STOP WORDS STEMMING ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΟΡΩΝ ΣΤΗ ΣΥΛΛΟΓΗ ΚΕΙΜΕΝΩΝ INDEXING ΑΠΟ ΟΣΗ ΒΑΡΩΝ ΣΤΟΥΣ ΟΡΟΥΣ (TERM WEIGHTING) TF.IDF ΕΠΕΞΕΡΓΑΣΙΑ ΤΩΝ Ε ΟΜΕΝΩΝ ΜΕ ΤΗΝ PRINCIPAL COMPONENTS ANALYSIS LATENT SEMANTICS INDEXING (LSI) PRINCIPAL COMPONENT ANALYSIS MULTINOMIAL LOGISTIC REGRESSION Η ΜΕΘΟ ΟΣ ΤΗΣ MLR ΜΕΘΟ ΟΙ ΚΑΙ ΜΕΤΡΙΚΕΣ ΑΞΙΟΛΟΓΗΣΗΣ TESTS ΓΕΝΙΚΟ LIKELIHOOD RATIO TEST LIKELIHOOD RATIO TEST ΓΙΑ ΚΑΘΕ ΠΑΡΑΜΕΤΡΟ PSEUDO R-SQUARED STATISTICS WALD STATISTIC ΑΛΛΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΝΤΕΛΕΣΤΕΣ Β (LOGITS ΚΑΙ ODDS RATIO) CONFIDENCE INTERVAL FOR THE ODDS RATIO CASE PROCESSING SUMMARY CLASSIFICATION TABLE ΜΕΤΡΙΚΕΣ ΑΠΟ ΟΣΗΣ PRECISION ΚΑΙ RECALL F-SCORE, ACCURACY ΜΕΡΟΣ Β: ΠΕΙΡΑΜΑ ΥΛΟΠΟΙΗΣΗ ΠΕΙΡΑΜΑΤΟΣ ΗΜΙΟΥΡΓΙΑ ΤΟΥ ΣΥΝΟΛΟΥ Ε ΟΜΕΝΩΝ ΑΠΟΤΕΛΕΣΜΑΤΑ ΤΗΣ PCA ΑΠΟΤΕΛΕΣΜΑΤΑ ΤΗΣ MULTINOMIAL LOGISTIC REGRESSION

3 4. ΣΥΜΠΕΡΑΣΜΑΤΑ ΕΥΧΑΡΙΣΤΙΕΣ ΠΑΡΑΡΤΗΜΑ Α: ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΑΡΑΡΤΗΜΑ Β: ΕΥΡΕΤΗΡΙΟ ΟΡΩΝ

4 ΓΕΝΙΚΑ Υπόβαθρο: Η περιγραφή της λειτουργίας των γονιδίων είναι ένα πολύ σηµαντικό θέµα στη βιολογία. Οι λειτουργίες αυτές περιγράφονται και είναι καταχωρηµένες σε πρότυπα δοµηµένα λεξικά, που ονοµάζονται οντολογίες. Η αυτοµατοποιηµένη εύρεση και ανάθεση του κατάλληλου όρου, από τις οντολογίες αυτές, είναι ένα νέο πεδίο έρευνας. Οι προσπάθειες που έχουν γίνει, χρησιµοποιούν κλασικές µεθόδους από το πεδίο του data mining, όπως τις maximum entropy και support vector machines (SVM), καθώς και στατιστικές µεθόδους, όπως τη linear discriminant analysis (LDA). Σκοπός: Ο σκοπός της εργασίας αυτής είναι να προτείνει µία διαφορετική µέθοδο στην αυτοµατοποιηµένη περιγραφή των λειτουργιών των γονιδίων. Στην µεθοδολογία συµπεριλαµβάνονται η ανακάλυψη κρυµµένων συσχετίσεων µεταξύ των δεδοµένων, η κατασκευή ενός µοντέλου κατηγοριοποίησης, η αξιολόγηση της µεθόδου και η γραφική αναπαράσταση των αποτελεσµάτων. Μέθοδοι: Η ανεξαρτητοποίηση των δεδοµένων έγινε µε την µέθοδο Principal Component Analysis (PCA). Το µοντέλο κατηγοριοποίησης δηµιουργήθηκε µε την στατιστική µέθοδο multinomial logistic regression (MLR). Η αξιολόγηση του µοντέλου έγινε µε test, όπως τα likelihood ratio test, wald test και µε µετρικές απόδοσης όπως ο πίνακας κατηγοριοποίησης, precision, recall και F-score. Επίσης χρησιµοποιήθηκαν για το λόγο αυτό και γραφικές παραστάσεις όπως boxplots. Αποτελέσµατα: Η µεθοδολογία εφαρµόστηκε σε ένα σύνολο άρθρων από τη βιολογική βιβλιογραφία για 12 Gene Ontology όρους. Η αξιολόγηση της MLR και η σύγκρισή της µε την LDA έδειξε ότι η MLR (µέσο F-score 82.6%) ανταποκρίνεται καλύτερα από την LDA (µέσο F-score 75.4%) για τα συγκεκριµένα δεδοµένα. Συµπέρασµα: Η εφαρµογή συγκεκριµένων στατιστικών µεθόδων µπορεί να περιγράψει καλά τη λειτουργία των γονιδίων από άρθρα της βιολογίας. Πέρα από την καλή απόδοση, τα αποτελέσµατα µε την ερµηνεία τους µπορούν να δώσουν πληροφορίες σχετικές µε την δοµή των βιολογικών κειµένων. 4

5 ΜΕΡΟΣ Α: ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ 5

6 1. ΕΙΣΑΓΩΓΗ Η περιγραφή της λειτουργίας των γονιδίων και των γονιδιακών προϊόντων είναι ένα πολύ σηµαντικό θέµα στη βιολογία, αφού δίνει πληροφορίες για τις αλληλεπιδράσεις των γονιδίων αλλά και για τα οµόλογά τους σε άλλους οργανισµούς [Raychaudhuri, 22]. Η ανάγκη µίας καθολικά αποδεκτής ορολογίας και σηµειολογίας για την περιγραφή των γονιδιακών λειτουργιών, ώθησε τους επιστήµονες στη δηµιουργία λεξικών και οντολογιών. Η πληρέστερη οντολογία για το σκοπό αυτό είναι η Gene Ontology (GO). Η Gene Ontology είναι µία ιεραρχία µε δοµή κατευθυνόµενου άκυκλου γράφου. Η διαφορά από τις συνηθισµένες ιεραρχίες, που συνήθως έχουν δοµή δένδρου, είναι το γεγονός ότι ένας κόµβος παιδί µπορεί να έχει περισσότερους του ενός κόµβου γονέα. ύο κόµβοι συνδέονται µεταξύ τους µε δύο είδη σχέσεων: part of και is a, δηλώνοντας ότι ο κόµβος παιδί είναι µέρος του κόµβου γονέα ή είναι ένας είδος του αντίστοιχα. Έχουν αναπτυχθεί τρεις οντολογίες που περιγράφουν γονίδια και γονιδιακά προϊόντα και σχετίζονται µε τα κυτταρικά στοιχεία, τις βιολογικές διεργασίες και τις µοριακές λειτουργίες. [Suprana Mundoni, 26]. Η λειτουργία των γονιδίων περιγράφεται κάπου µέσα στη βιβλιογραφία του βιολογικού κειµένου. Η απόδοση στο κάθε γονίδιο ενός GO code (ενός «κωδικού» που περιγράφει τη λειτουργία του) είναι µία επίπονη διαδικασία, αφού απαιτείται η αναζήτηση και η εξέταση αρκετών άρθρων από ειδικούς. Τα τελευταία χρόνια, γίνεται µία προσπάθεια να αυτοµατοποιηθεί η διαδικασία αυτή, κάνοντας χρήση των τεχνικών του Natural Language Processing [Raychaudhuri, 22]. Οι µέθοδοι που έχουν χρησιµοποιηθεί για το σκοπό αυτό, προέρχονται από το πεδίο του data mining και του machine learning, όπως οι maximum entropy και support vector machines, ενώ τελευταία, παρουσιάστηκε µία µέθοδος που στηρίζεται στην Linear discriminant analysis [Theodosiou, 26]. Ο σκοπός της εργασίας αυτής είναι η εφαρµογή µίας γνωστής στατιστικής µεθόδου, της Multinomial Logistic Regression, για την κατηγοριοποίηση κειµένων που αφορούν στο βιολογικό κείµενο, σύµφωνα µε όρους από την Gene Ontology. Η µέθοδος περιλαµβάνει την εφαρµογή της Principal Components Analysis για τη µείωση του όγκου και την ανεξαρτησία των δεδοµένων, την κατασκευή του µοντέλου κατηγοριοποίησης µε την Multinomial Logistic Regression και την αξιολόγηση των αποτελεσµάτων. 6

7 1.1 TEXT MINING Τα τελευταία χρόνια σηµειώθηκε τεράστια αύξηση της πληροφορίας στο πεδίο της βιολογίας. Οι εξελίξεις τόσο στις υπολογιστικές, όσο και στις βιολογικές µεθόδους άλλαξαν την κλίµακα στη βιολογική έρευνα. Ολόκληρα γονιδιώµατα µπορούν πλέον, να αναλυθούν µέσα σε λίγους µήνες, ακόµα και µέσα σε λίγες βδοµάδες, υπολογιστικές µέθοδοι επισπεύδουν την αναγνώριση δεκάδων χιλιάδων γονιδίων σε ένα αποκωδικοποιηµένο DNA και αυτοµατοποιηµένα εργαλεία αναπτύσσονται για να αναλύσουν ιδιότητες γονιδίων και πρωτεϊνών. Καινούριες τεχνικές, όπως οι DNA microarrays, επιτρέπουν ταυτόχρονες µετρήσεις όλων των γονιδίων-πρωτεϊνών που εκφράζονται σε ένα ζωτικό σύστηµα. Αυτές οι µεγάλης κλίµακας πειραµατικές µέθοδοι παράγουν τεράστιες ποσότητες δεδοµένων. Μετά από επεξεργασία, τα δεδοµένα µπορούν να παράγουν «πραγµατική» πληροφορία σχετικά µε την έκφραση των αντιγράφων των γονιδίων, για παράδειγµα, ποια γονίδια εκφράζονται σε διάφορες περιπτώσεις και ποια γονίδια υπερλειτουργούν ή υπολειτουργούν σε µία επίθεση µίας ασθένειας ή κατά τη διάρκεια µίας συγκεκριµένης φάσης της ανάπτυξης του κυττάρου. Ο πρωταρχικός στόχος της πραγµατοποίησης τέτοιων πειραµάτων είναι η ερµηνεία της πληροφορίας και η µετατροπή της σε γνώση, µε απώτερο σκοπό την κατανόηση της πολύπλοκης βιολογικής διεργασίας που κυβερνά το ανθρώπινο σώµα και η χρήση της γνώσης αυτής στην ιατρική. Σχεδόν όλη η γνωστή πληροφορία που αναφέρεται στα γονίδια, στις πρωτεΐνες και στο ρόλο αυτών στη βιολογική διεργασία, είναι καταγεγραµµένη κάπου στο τεράστιο όγκο της βιβλιογραφίας. Ωστόσο, η εξέλιξη των τεχνικών της αποκωδικοποίησης των γονιδιωµάτων συνεπάγεται και τεράστια αύξηση συγγραµµάτων που αναλύουν τα γονίδια αυτά. Αυτό, σε συνδυασµό µε το πλήθος των γονιδίων και της βιβλιογραφίας, προκαλεί µεγάλη σύγχυση στην ερµηνεία και στο σχεδιασµό πειραµάτων. Έτσι, η ικανότητα να ερευνήσει κανείς τη βιβλιογραφία απαιτεί ένα επιπλέον βήµα στη σχεδίαση και ερµηνεία των µεγάλης κλίµακας πειραµάτων. Επίσης, η αυτοµατοποιηµένη εξόρυξη της βιβλιογραφίας προσφέρει µία ευκαιρία στην ολοκλήρωση πολλών επιµέρους πληροφοριών που έχουν ανακαλυφθεί από τους ερευνητές από πολλά διαφορετικά πεδία εξειδίκευσης σε µία ολοκληρωµένη εικόνα που φαίνονται οι σχέσεις µεταξύ των γονιδίων, πρωτεϊνών και χηµικών αντιδράσεων στα κύτταρα και στους οργανισµούς. 7

8 Κατά τη διάρκεια των τελευταίων ετών υπήρξε µία τεράστια αύξηση ενδιαφέροντος για τη χρήση και εκµετάλλευση της βιολογικής βιβλιογραφίας, που εκτείνεται από σχετικά απλά θέµατα, όπως η εύρεση της θέση του γονιδίου µέσα στο χρωµόσωµα µέχρι πιο φιλόδοξες προσπάθειες, όπως η κατασκευή υποτιθέµενων δικτύων γονιδίων βασιζόµενα στη συνύπαρξη ονοµάτων γονιδίων µέσα σε άρθρα. Αφού η βιβλιογραφία καλύπτει όλους τους τοµείς της βιολογίας, της χηµείας και της ιατρικής, δεν υπάρχει σχεδόν κανένα όριο στον τύπο της πληροφορίας που ίσως ανακαλυφθεί µε προσεκτική και εξαντλητική εξόρυξη. Κάποιες πιθανές εφαρµογές περιέχουν την απόδειξη σχέσεων µεταξύ ασθενειών και γονιδίων, την εύρεση σχέσεων µεταξύ γονιδίων και συγκεκριµένων βιολογικών λειτουργιών και πολλών ακόµα [Shatkay, Feldman, 23]. Πέρα από τους ξεκάθαρους στόχους, υπάρχουν αρκετά εµπόδια που πρέπει να ξεπεραστούν όταν χρησιµοποιείται η βιβλιογραφία για την εύρεση πληροφορίας. Το πιο προφανές είναι ο τεράστιος αριθµός των διαθέσιµων άρθρων, που συνεχίζει να αυξάνεται. Για παράδειγµα, η πιο διαδεδοµένη και ευρέως χρησιµοποιούµενη βάση δεδοµένων στο βιολογικό κείµενο η PubMed περιέχει πάνω από 12.. abstract κείµενα. Ένα ερώτηµα που αναφέρεται σε γονίδιο ή σε πρωτεΐνη επιστρέφει σχεδόν 3.. άρθρα, που περίπου τα 2/3, εκδόθηκαν µέσα στην περασµένη δεκαετία. Αξίζει να σηµειωθεί, ότι η βάση αυτή δεν καλύπτει όλες τις εκδόσεις στο πεδίο της βιολογίας, αλλά αυτές που ανταποκρίνονται σε ορισµένα κριτήρια [Grivell, 22]. Ο αυτοµατοποιηµένος χειρισµός των κειµένων είναι µία ενεργή περιοχή έρευνας. Ανήκει στο ευρύτερο πεδίο του Data Mining. Η ειδοποιός διαφορά µεταξύ των παραδοσιακών τεχνικών του Data Mining και του Text Mining είναι ότι το text mining εξάγει την πληροφορία από κείµενα γραµµένα σε φυσική γλώσσα, ενώ στο data mining η πληροφορία εξάγεται από δοµηµένες βάσεις δεδοµένων. Το γεγονός ότι επεξεργάζεται δεδοµένα χωρίς καµία δοµή σηµαίνει ότι είναι απαραίτητη µία προεπεξεργασία των δεδοµένων. Τεχνικές του NLP χρησιµοποιούνται για το λόγο αυτό. Οι πιο διαδεδοµένες τεχνικές που έχουν εφαρµοστεί στο βιολογικό κείµενο είναι το Information retrieval (IR) και το Information Extraction (IE), που συχνά αναφέρονται ως τεχνικές text mining. Το IR αφορά στην εύρεση και ανάκτηση κειµένων που ικανοποιούν µία συγκεκριµένη ανάγκη πληροφορίας µέσα σε µία µεγάλη βάση δεδοµένων µε κείµενα, το information extraction επικεντρώνεται στην εύρεση συγκεκριµένων οντοτήτων και γεγονότων σε αδόµητο κείµενο, ενώ πολλοί κάνουν τη διάκριση ορίζοντας ως text mining τη συνδυαστική και αυτοµατοποιηµένη 8

9 διαδικασία ανάλυσης κειµένων γραµµένων στη φυσική γλώσσα µε σκοπό την ανακάλυψη πληροφορίας και γνώσης που είναι δύσκολο να ανακτηθεί [Hearst, 1999]. Ωστόσο, µιας και οι διαδικασίες που χρησιµοποιούνται στο text mining όπως ορίζεται από τον Hearst, προέρχονται από τα πεδία του IR και του IE στο παρόν κείµενο δε θα γίνει αυτή η διάκριση, αλλά ο όρος text mining θα αναφέρεται στο σύνολο των διαδικασιών εξαγωγής πληροφορίας από κείµενα γραµµένα σε φυσική γλώσσα. Όλες αυτές οι τεχνικές µπορούν να συνδυαστούν µε διαδικασίες επεξεργασίας της φυσικής γλώσσας (διαδικασίες Natural Language Processing) και λεξικά ή θησαυρούς για καλύτερα αποτελέσµατα. Ο σκοπός του information retrieval είναι η ανάκτηση ήδη γνωστής πληροφορίας, από µία µεγάλη συλλογή δεδοµένων, σύµφωνα µε κάποια κριτήρια που θέτει ο χρήστης συνήθως µε τη µορφή ερωτήµατος (query). Στο πεδίο της βιολογίας η πληροφορία βρίσκεται σε µορφή κειµένων και σκοπός είναι η ανάκτησή της και όχι η ανακάλυψη νέας γνώσης. Η αναζήτηση γίνεται είτε µε τη µορφή ερωτήµατος (query) είτε µε αναζήτηση παρόµοιων κειµένων που έχουν θεµατική συνάφεια προς ένα δοθέν κείµενο. Στην περίπτωση των query, που είναι και ο πιο συνηθισµένος τρόπος αναζήτησης, ο χρήστης αναζητά κείµενα µε βάση µία λέξη ή φράση-κλειδί που συνοψίζει την πληροφορία. Ο τρόπος αυτός είναι οικείος στους χρήστες του web, αφού µηχανές αναζήτησης όπως το google, το yahoo και το altavista, που έχουν ως βάση το query, αποτελούν τα πιο διαδεδοµένα εργαλεία αναζήτησης. Η αναζήτηση µέσω κειµένων γίνεται όταν ο χρήστης δίνει ένα κείµενο-πρότυπο, ενώ αναζητά παρεµφερή µε αυτό κείµενα. Παράδειγµα τέτοιας αναζήτησης είναι ο σύνδεσµος που υπάρχει στο google δίπλα σε ανακτηµένες σελίδες που αναγράφει «παρόµοιες σελίδες». Οι µέθοδοι του information retrieval δεν κάνουν καµία σηµασιολογική ή συντακτική ανάλυση, αντιµετωπίζοντας το κείµενο ως σωρό λέξεων. Η µόνη προεργασία που γίνεται αφορά στην εύρεση του λεξιλογίου και στη συνέχεια τη δεικτοδότησή του [Manning and Schütze]. Το πεδίο του information extraction αφορά στην εξόρυξη συγκεκριµένης πληροφορίας από δεδοµένα γραµµένα σε φυσική γλώσσα. Υπάρχει µία σύγχυση του information extraction µε το information retrieval. Πολλοί πιστεύουν ότι οι δύο αυτοί όροι είναι δύο διαφορετικές ονοµασίες του ίδιου πεδίου. Η θεώρηση αυτή είναι λανθασµένη. Το information retrieval σχετίζεται µε την ανάκτηση κειµένων σύµφωνα µε βάση ένα ερώτηµα που έχει τεθεί από κάποιο χρήστη, ενώ το information 9

10 extraction σχετίζεται µε την ανακάλυψη συγκεκριµένης πληροφορίας µέσα σε µία συλλογή κειµένων ή ακόµα και µέσα σε ένα κείµενο. Το information extraction είναι από τις πιο υποσχόµενες τεχνικές που εφαρµόζονται στο πεδίο του text mining. Συνδυάζει εργαλεία του Natural Language Processing και πηγές σηµασιολογικής ανάλυσης, όπως λεξικά, θησαυρούς, οντολογίες µε σκοπό την ανακάλυψη συγκεκριµένης γνώσης ανάµεσα σε κείµενα, που πολλές φορές µπορεί να χρησιµοποιηθούν για ανακαλυφθούν σχέσεις και γεγονότα άγνωστα µέχρι τότε [Appelt and Israel]. 1

11 1.2 TEXT MINING ΣΤΟ ΒΙΟΛΟΓΙΚΟ ΚΕΙΜΕΝΟ Ο στόχος της βιολογικής έρευνας είναι η ανακάλυψη της γνώσης, που αφορά στους κανόνες που διέπουν τους ζωντανούς οργανισµούς και η εφαρµογή της στη βελτίωση της ανθρώπινης ζωής. Ωστόσο, η διαχείριση και η οργάνωσή της είναι µία επίπονη και χρονοβόρα διαδικασία. Η χρήση τεχνικών text mining επιτάχυνε τις διαδικασίες και έχει γίνει πλέον αναπόσπαστο κοµµάτι της βιολογική έρευνας, δίνοντας τη δυνατότητα στους επιστήµονες να έχουν πρόσβαση και να χειρίζονται γρήγορα και αποτελεσµατικά πληροφορίες που βρίσκονται σε κείµενα γραµµένα σε φυσική γλώσσα ή ακόµα και ανακαλύπτουν γεγονότα, άγνωστα µέχρι τότε. Το text mining έχει εδραιωθεί στη βιολογική έρευνα και έχει κάνει πολλούς επιστήµονες να στρέψουν το ενδιαφέρον τους προς τα εκεί, αναζητώντας αποτελεσµατικότερα συστήµατα για τη διαχείριση και εκµετάλλευση της πληροφορίας. Το ενδιαφέρον αυτό φαίνεται και από τις προσπάθειες που έχουν γίνει για την αξιολόγηση αυτών των συστηµάτων και την ενσωµάτωσή τους στην βιολογική έρευνα. Ένα forum για την προτυποποίηση αξιολόγησης των retrieval συστηµάτων είναι το TREC, Text Retrieval Conference. Το TREC δηµιουργήθηκε το 1992 και επιχορηγείται από το ιεθνές Ινστιτούτο Προτύπων και Τεχνολογίας (National Institute of Standards and Technology, NIST). Κάθε χρόνο προσφέρονται αρκετά θέµατα (track). Κάθε θέµα εφαρµόζεται σε συγκεκριµένα σύνολα δεδοµένων. Καινούρια συστήµατα εφαρµόζονται στα σύνολα που προσφέρει το TREC και τα αποτελέσµατα αξιολογούνται. Από το 23 προσφέρονται θέµατα που αφορούν στο βιολογικό κείµενο. Μία τελευταία προσπάθεια είναι η BioCreAtIvE. ηµιουργήθηκε στη Γρανάδα της Ισπανίας το Μάρτιο του 24. Σκοπός της είναι να προσφέρει συνηθισµένα θέµατα προς αξιολόγηση των information extraction συστηµάτων στο βιολογικό κείµενο. Η BioCrAtIvE τείνει να γίνει η κυριότερη µέθοδος αξιολόγησης συστηµάτων literature mining στο πεδίο της βιολογία. Έχουν γίνει αρκετές προσπάθειες για την αντιµετώπιση προβληµάτων που αντιµετωπίζονται στο βιολογικό κείµενο κάνοντας χρήση τεχνικών του text mining. Οι κυριότεροι τοµείς στους οποίους έχουν στρέψει το ενδιαφέρον τους οι ερευνητές αναφέρονται παρακάτω. 11

12 Το Name Entity Recognition απασχόλησε και απασχολεί αρκετούς ερευνητές. Ανήκει στο πεδίο του information extraction και σκοπός του είναι η επιτυχηµένη αναγνώριση οντοτήτων µέσα σε µία συλλογή κειµένων. Η ανυπαρξία µίας ενοποιηµένης ορολογίας καθιστά δύσκολη την αναγνώριση των οντοτήτων σε ένα κείµενο. Σε µία έρευνα που διεξήχθη από τον Χατζηβασίλογλου, ένα σύνολο κειµένων δόθηκε σε τρεις επιστήµονες της βιολογίας για αναγνώριση ονοµάτων ως γονίδιο, πρωτεΐνη ή mrna. Οι τρεις επιστήµονες συµφώνησαν µόνο στο 78% των περιπτώσεων. Αυτό το ποσοστό δείχνει τη σηµασία του προβλήµατος καθώς ακόµη και για ανθρώπους που η βιολογία βρίσκεται στο γνωστικό τους πεδίο, τους είναι δύσκολο να αναγνωρίσουν ονόµατα οντοτήτων. Μερικοί από τους λόγους που επικρατεί τέτοια σύγχυση αναφέρονται παρακάτω. Πολλοί επιστήµονες δίνουν ονόµατα σε γονίδια που δεν ανταποκρίνονται αποκλειστικά σε γονίδια. Γενικότερα, η ονοµασία γονιδίων µε λέξεις που έχουν µία άλλη σηµασία στην καθοµιλούµενη γλώσσα είναι συχνό φαινόµενο και δηµιουργεί αρκετά προβλήµατα στην αναγνώριση του περιεχοµένου του κειµένου. Χαρακτηριστικό παράδειγµα είναι η µύγα δροσόφιλα (drosofila). Ονοµασίες όπως vamp, eve, disco, boss, gypsy, zip ή ogre δεν είναι εύκολο να αναγνωριστούν ότι αναφέρονται σε γονίδια [Proux et al.,1998]. Προβλήµατα δηµιουργούν επίσης, τα συνώνυµα και τα πολυσήµαντα. Γονίδια αναφέρονται στη βιβλιογραφία µε διάφορα ονόµατα και σηµειολογίες. Τέλος, σε αρκετές περιπτώσεις ένα όνοµα αναφέρεται τόσο στο γονίδιο όσο και σε παράγωγά του όπως πρωτεΐνες ή RNA και ο µόνο τρόπος αναγνώρισης του περιεχοµένου του κειµένου είναι τα συµφραζόµενα [Cohen, 24]. Πολλές εργασίες έχουν γίνει στον τοµέα της κατηγοριοποίησης κειµένων. Η κατηγοριοποίηση των κειµένων είναι η διαδικασία ένταξης των κειµένων σε κάποιες προκαθορισµένες κατηγορίες. Ο γενικότερος ορισµός του text categorization είναι ο ακόλουθος: δίνονται ένα σύνολο κειµένων D και ένα σύνολο κατηγοριών C={c 1,c 2, c N }. Σε κάθε κείµενο δίνεται µία λογική τιµή για κάθε ζευγάρι (d i,c j ) D C. Η τιµή 1 δίνεται αν το κείµενο ανήκει στην κατηγορία, ενώ η τιµή, όταν το κείµενο δεν ανήκει. Το text categorization ανήκει στο πεδίο του information retrieval. Η βιολογική βιβλιογραφία αντιµετωπίζει το πρόβληµα των διφορούµενων λέξεων. Μία βιολογική οντότητα µέσα στο σωρό από τα κείµενα που υπάρχουν αναφέρεται µε διάφορα ονόµατα και συντοµογραφίες. Οι υπάρχουσες βάσεις δεδοµένων, τα λεξικά και οι οντολογίες επιβάλλεται να παραµένουν ενηµερωµένα µε τα νέα συνώνυµα και 12

13 συντοµογραφίες που εµφανίζονται στα κείµενα. Η λύση αυτού του προβλήµατος θα βοηθούσε πολύ στην απόδοση άλλων συστηµάτων text mining. Έχουν αναπτυχθεί αρκετά συστήµατα που χαρτογραφούν όλα τα συνώνυµα και τις συντοµογραφίες σε ένα και µοναδικό όρο και αφορούν κυρίως τα ονόµατα των γονιδίων. Τα συστήµατα αυτά αναφέρονται ως συστήµατα εξόρυξης συνωνύµων και συντοµογραφιών και ανήκουν στο πεδίο του information extraction. Ένα άλλο πολύ σηµαντικό πεδίο είναι η εξόρυξη σχέσεων, που επίσης ανήκει στο πεδίο του information extraction. Ο στόχος της εξόρυξη σχέσεων είναι να ανιχνεύει έναν προκαθορισµένο τύπο σχέσεων µεταξύ ενός ζευγαριού οντοτήτων συγκεκριµένου τύπου. Ο τύπος των οντοτήτων είναι πολύ συγκεκριµένος, για παράδειγµα µία οντότητα µπορεί να είναι γονίδιο, πρωτεΐνη, φάρµακο κτλ. Αντίθετα, ο τύπος της σχέσης µπορεί να είναι πολύ γενικός, όπως αναζήτηση βιοχηµικής σχέσης ή πολύ συγκεκριµένος, για παράδειγµα ρυθµιστική σχέση. Οι περισσότεροι ερευνητές έχουν στρέψει το ενδιαφέρον τους στις σχέσεις µεταξύ γονιδίων και πρωτεϊνών. Αυτό έγινε µε το σκεπτικό ότι η οµαδοποίηση των γονιδίων σύµφωνα µε τη λειτουργία τους θα βοηθήσει στην ανάλυση της γονιδιακής έκφρασης και στις βάσεις δεδοµένων. Υπάρχουν αρκετά συστήµατα για την εξόρυξη σχέσεων µεταξύ γονιδίων. Ενώ η εξόρυξη σχέσεων που αναφέρθηκε προηγουµένως, ασχολείται µε την εύρεση σχέσεων µεταξύ οντοτήτων που βρίσκονται αποκλειστικά σε κείµενα, η δηµιουργία υποθέσεων προσπαθεί να ανακαλύψει σχέσεις που δεν υπάρχουν στα κείµενα, αλλά συµπεραίνονται από άλλες σχέσεις που υπάρχουν. Ο στόχος είναι η ανακάλυψη σχέσεων, άγνωστων µέχρι τότε, που να παρουσιάζουν ενδιαφέρον για περαιτέρω µελέτη και έρευνα. Όλη η έρευνα που γίνεται στο πεδίο της δηµιουργίας υποθέσεων στηρίζεται σε µία ιδέα του Swanson που διατυπώθηκε τη δεκαετία του 8 και ονοµάζεται complementary structures in disjoint literature (CSD). Σε αυτή την εργασία ο Swanson υποστηρίζει ότι είναι δυνατό να πραγµατοποιηθούν ανακαλύψεις χρησιµοποιώντας µεγάλες βάσεις επιστηµονικής βιβλιογραφίας µε απλά λογικά συµπεράσµατα. Πρότεινε ένα απλό µοντέλο, το ABC που είναι της µορφής «το A επηρεάζει το Β, το Β επηρεάζει το C, άρα το A ίσως να επηρεάζει το C». Με το πείραµά του, ο Swanson ανακάλυψε αιτίες που προκαλούν ηµικρανίες εξάγοντας γεγονότα από τη βιβλιογραφία της βιολογίας. Πιο συγκεκριµένα εξήγαγε τα παρακάτω στοιχεία: 1. Το άγχος σχετίζεται µε τις ηµικρανίες. 13

14 2. Το άγχος µπορεί να οδηγήσει στην απώλεια µαγνησίου. 3. Οι υποδοχές δέσµευσης ασβεστίου προλαµβάνουν τις ηµικρανίες. 4. Το µαγνήσιο είναι µία φυσική υποδοχή δέσµευσης ασβεστίου. 5. Η εξάπλωση εγκεφαλικής κατάθλιψης (Spreading Cortical Depression, SCD) σχετίζεται σε ορισµένες περιπτώσεις µε τις ηµικρανίες. 6. Μεγάλες ποσότητες µαγνησίου αναστέλλουν την SCD. 7. Οι ασθενείς που πάσχουν από ηµικρανίες έχουν µεγάλο αριθµό αιµοπεταλίων. 8. Το µαγνήσιο µπορεί να αναστείλει την αύξηση των αιµοπεταλίων. Τα στοιχεία αυτά υπήρχαν στη βιβλιογραφία και οδήγησαν τον Swanson στην υπόθεση ότι η έλλειψη µαγνησίου µπορεί να σχετίζεται µε την ηµικρανία. Η πρόταση αυτή δεν υπήρχε στη βιβλιογραφία. Τέλος, έχουν αρχίσει και αναπτύσσονται συστήµατα που ολοκληρώνουν τις παραπάνω µεθόδους και µπορούν να ικανοποιήσουν διαφορετικές ανάγκες των χρηστών. Τα συστήµατα αυτά βρίσκονται στη φάση της έρευνας και της ανάπτυξης. Αποµένει να φανεί αν θα καταφέρουν να αντεπεξέλθουν στις προσδοκίες των επιστηµόνων και αν θα υιοθετηθούν από την επιστηµονική κοινότητα ως αναπόσπαστο εργαλείο της βιολογικής έρευνας. 14

15 1.3 ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ Πολλοί ερευνητές έχουν ασχοληθεί µε την κατηγοριοποίηση κειµένων στο βιολογικό κείµενο. Το 22 ο Yeh οργάνωσε ένα διαγωνισµό text mining στα πλαίσια του KDD (Knowledge Discovery in Databases) διαγωνισµού. Το θέµα του διαγωνισµού ήταν η αξιολόγηση κειµένων από τη FlyBase και ο καθορισµός για το αν το κάθε κείµενο µπορεί να εισαχθεί στη βάση, σύµφωνα µε πειραµατικά στοιχεία για τα γονίδια και γονιδιακά προϊόντα της δροσόφιλας. Την καλύτερη απόδοση είχαν οι εισαγωγές που έγιναν στηριζόµενες σε ένα σύνολο κανόνων. Το σύνολο κανόνων δηµιουργήθηκε από τους ερευνητές και στηριζόταν σε POS ετικέτες, σε σηµασιολογικούς και λεξικολογικούς περιορισµούς. Το σύστηµα είχε F-score 78%. Μία διαφορετική προσέγγιση στηριζόταν στην αναζήτηση λέξεων-κλειδιά. Στη συνέχεια υπολογίστηκε η απόσταση µεταξύ των λέξεων-κλειδιά και των ονοµάτων γονιδίων. ύο άλλα παρόµοια συστήµατα χρησιµοποίησαν κανονικές εκφράσεις για να βρουν σχετικές λέξεις και µε Support Vector Machine (SVM) κατηγοριοποίησαν τα κείµενα. Ο Donaldson χρησιµοποίησε µία SVM, που την εκπαίδευσε σε λέξεις abstract κειµένων της MEDLINE, µε σκοπό να βρει abstract κείµενα που περιείχαν πληροφορίες σχετικά µε την αλληλεπίδραση πρωτεϊνών και στη συνέχεια να εισάγει τα κείµενα αυτά στη βάση δεδοµένων BIND. Τα κείµενα αντιµετωπίστηκαν ως σωρός από λέξεις και εφαρµόστηκε ένας SVM κατηγοριοποιητής. Σε ένα µικρό σύνολο εκατό κειµένων το σύστηµα είχε 96% precision και 84% recall. Υπολογίζεται ότι το σύστηµα µειώνει τα κείµενα που πρέπει να διαβάσουν οι χειριστές της βάσης κατά δύο τρίτα. Πολλοί προσπάθησαν να κατηγοριοποιήσουν κείµενα της MEDLINE σύµφωνα µε τους όρους από την Gene Ontology, χρησιµοποιώντας κοινούς machine-learning αλγορίθµους τους maximum entropy, naïve Bayes και nearest neighbor. Προτάθηκε από τον Raychauduri και τους συνεργάτες του και η µέθοδός του έδειξε καλά αποτελέσµατα. Αναλυτικότερα, οι τρεις αλγόριθµοι εφαρµόστηκαν σε ένα σύνολο abstract άρθρων από την PubMed που ανταποκρινόταν σε 21 GO codes, ένα υποσύνολο της GO για τα γονίδια του Saccharomyces cerecisiae. Η σύγκριση των τριών διαφορετικών µοντέλων έδειξε ότι ο αλγόριθµος maximum entropy έδινε καλύτερα αποτελέσµατα µε µέση επίδοση (accuracy) 72% σε σχέση µε τους 15

16 αλγορίθµους nearest-neighbor και naïve Bayes που έδωσαν accuracy 61.5% και 59.62% αντίστοιχα [Raychauduri, 22]. Οι Izumitani, Taira, Kazawa και Maeda, εφάρµοσαν Support Vector Machines (SVM) και maximum entropy σε άρθρα που αναφερόταν γονίδια µαγιάς (yeast genes) καταχωρηµένα στη βάση Saccharomyces Genome Database (SGD), µε σκοπό να αποδώσουν στα κείµενα 12 GO codes. Η κατηγοριοποίηση µε SVM έδωσε καλύτερα αποτελέσµατα από την κατηγοριοποίηση µέσω maximum entropy µε F- score 67% και 49% αντίστοιχα. Τέλος, οι Theodosiou, Angelis, Vakali και Thomopoulos εφάρµοσαν µία στατιστική µέθοδο, τη Linear Discriminant Analysis, για την κατηγοριοποίηση κειµένων της PubMed σύµφωνα µε 12 όρους της Gene Ontology. Για την κατασκευή του µοντέλου χρησιµοποιήθηκαν 1,485 άρθρα που είχαν εκδοθεί ως το 1999, ενώ για την αξιολόγηση του µοντέλου χρησιµοποιήθηκε ένα σύνολο 1,76 άρθρων που δηµοσιεύτηκαν µεταξύ 2 και 24. Το µοντέλο είχε µέσο F-score 75.4%, ενώ η µέθοδος SVM έδωσε µέσο F-score 68.7% για το ίδιο σύνολο δεδοµένων [Θεοδοσίου, 26]. Η προσπάθεια αυτή έδειξε ότι κλασικές µέθοδοι στατικής ανάλυσης µπορούν να χρησιµοποιηθούν για την κατασκευή µοντέλων κατηγοριοποίησης. Τελευταία γίνεται µία προσπάθεια ιεραρχηµένης κατηγοριοποίησης κειµένων σύµφωνα µε όρους από την GO. Έγινε από τους Svetlana Kiritchenko, Stan Matwin και A. Fazel Famili, χωρίς όµως µέχρι στιγµής, να δώσει ιδιαίτερα καλά αποτελέσµατα. Η έρευνα στο πεδίο του text classification εφαρµόζεται µε επιτυχία στην εισαγωγή εγγραφών σε βάσεις δεδοµένων. Το TREC (Text Retrieval Conference) το 24 είχε ως ένα από τα θέµατα ένα πρόβληµα κατηγοριοποίησης. 16

17 1.4 ΚΙΝΗΤΡΑ Σκοπός της εργασίας αυτής είναι η εφαρµογή της στατιστικής µεθόδου multinomial logistic regression σε ένα σύνολο δεδοµένων για την κατηγοριοποίηση κειµένων µε βάση όρους της Gene Ontology και η εξέταση αν αυτή η µέθοδος µπορεί να ανταποκριθεί ικανοποιητικά σε τέτοιου είδους προβλήµατα. Η multinomial logistic regression είναι µία µέθοδος κατάλληλη για κατηγοριοποίηση και έχει εφαρµοστεί σε αρκετές περιπτώσεις σε διάφορους τοµείς έρευνας δίνοντας ικανοποιητικά αποτελέσµατα. Θεωρήθηκε ότι µπορεί να ανταγωνιστεί άλλες κλασικές µεθόδους κατηγοριοποίησης και να καθιερωθεί η εφαρµογή της στο πεδίο αυτό. Στην επιλογή της µεθόδου αυτής συντέλεσαν η απλότητα, η ευελιξίας της, αφού µπορεί να εφαρµόζεται χωρίς κανένα σχεδόν περιορισµό για το είδος και την κατανοµή των δεδοµένων, καθώς και η δυνατότητα που έχει να χειρίζεται ταυτόχρονα πολλές κατηγορίες. Τα αποτελέσµατα έδειξαν, ότι ανταποκρίνεται αρκετά καλά στο πρόβληµα σε σύγκριση µε τις ήδη υπάρχουσες µεθόδους. 17

18 1.5 ΙΑΡΘΡΩΣΗ ΚΕΙΜΕΝΟΥ Στην ενότητα 2 περιγράφεται η µεθοδολογία που ακολουθήθηκε για την κατασκευή του µοντέλου και οι γενικές αρχές των διαδικασιών που χρησιµοποιήθηκαν. Στην ενότητα 3 περιγράφεται το σύνολο των δεδοµένων στο οποίο εκπαιδεύτηκε και αξιολογήθηκε το µοντέλο, καθώς και τα αποτελέσµατά του. Στην ενότητα 4 γίνεται µία γενική αποτίµηση του µοντέλου. 18

19 2. ΜΕΘΟ ΟΛΟΓΙΑ Η κατηγοριοποίηση των κειµένων και η απόδοση στο καθένα από αυτά ενός GO code µε τη βοήθεια της multinomial logistic regression είναι µέρος µίας γενικότερης διαδικασίας, που περιλαµβάνει την ανάκτηση των κατάλληλων κειµένων, την αναπαράστασή τους σε διανυσµατική µορφή και την εφαρµογή στα δεδοµένα µίας στατιστική µεθόδου ώστε να είναι όσο το δυνατό ανεξάρτητα µεταξύ τους και να µειωθεί ο όγκος τους. Πιο συγκεκριµένα: Η πρώτη φάση ήταν η ανάκτηση κειµένων που σχετίζονται µε τους GO codes που χρησιµοποιήθηκαν, η αρχική επεξεργασία τους και η µετατροπή τους σε µία µορφοποίηση που να είναι δυνατό να την επεξεργαστεί ένα υπολογιστικό σύστηµα. Μετά το τέλος της φάσης αυτής, είχε δηµιουργηθεί το αρχικό σύνολο των δεδοµένων πάνω στο οποίο στηρίχτηκε η εφαρµογή. Στη δεύτερη φάση, στο αρχικό σύνολο δεδοµένων εφαρµόστηκε η Principal Components Analysis (PCA), µία στατιστική µέθοδος που ελαχιστοποίησε τις εξαρτήσεις και έδωσε το τελικό σύνολο των δεδοµένων, αρκετά µικρότερο από το αρχικό. Πάνω στο σύνολο αυτό εκπαιδεύτηκε το µοντέλο. Στην τρίτη φάση, δηµιουργήθηκε το µοντέλο κατηγοριοποίησης από τη multinomial logistic regression και εκπαιδεύτηκε πάνω στα δεδοµένα που προέκυψαν µετά την εφαρµογή της PCA. Στην τέταρτη και τελευταία φάση, αξιολογήθηκαν και ερµηνεύτηκαν τα αποτελέσµατα του µοντέλου. 19

20 2.1 ΑΝΑΚΤΗΣΗ ΚΑΙ ΑΝΑΠΑΡΑΣΤΑΣΗ Ε ΟΜΕΝΩΝ Η πρώτη φάση της εργασίας περιλαµβάνει την ανάκτηση των κατάλληλων βιολογικών κειµένων, την επεξεργασία τους και την µετατροπή τους σε κατάλληλη µορφή. Αρχικά ανακτήθηκαν κατάλληλα για τον σκοπό αυτό abstract κείµενα (τίτλος και άλλες λεπτοµέρειες του άρθρου), που είναι δηµοσιευµένα στην βάση δεδοµένων PubMed ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ ΓΙΑ ΤΗΝ ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΩΝ ΚΕΙΜΕΝΩΝ Στη συνέχεια, τα κείµενα που ανακτήθηκαν επεξεργάστηκαν και µετατράπηκαν σε µία µορφή ικανή να επεξεργαστεί ένας υπολογιστής. Η πιο διαδεδοµένη µορφή αναπαράστασης των κειµένων είναι το Vector Space Model (VSM). Το µοντέλο διανυσµατικού χώρου (vector space model) είναι ένα αλγεβρικό µοντέλο που χρησιµοποιείται για ανάκτηση πληροφορίας. Η ανάκτηση συγκεκριµένης πληροφορίας χρησιµοποιώντας το vector space model είναι µία ιδιαίτερα δηµοφιλής µέθοδος, λόγω της απλότητας του µοντέλου, αφού αναπαριστά κάθε κείµενο, γραµµένο σε φυσική γλώσσα, σε ένα διάνυσµα χώρου. Η γενική ιδέα του vector space model είναι η αναπαράσταση των κειµένων και των ερωτηµάτων τα ερωτήµατα που τίθενται για την ανάκτηση κάποιας συγκεκριµένης πληροφορίας σε έναν πολυδιάστατο διανυσµατικό χώρο. Κάθε διάσταση του χώρου ανταποκρίνεται σε µία λέξη που υπάρχει στο λεξιλόγιο της συλλογής κειµένων που γίνεται η αναζήτηση. Τα κείµενα κρίνονται σχετικά, λιγότερο σχετικά ή καθόλου σχετικά υπολογίζοντας τη γωνία που σχηµατίζεται ανάµεσα στο διάνυσµα του κάθε κειµένου µε το διάνυσµα του ερωτήµατος. Έτσι, τα διανύσµατα των κειµένων που χρησιµοποιούν τις ίδιες λέξεις µε το ερώτηµα, σχηµατίζουν µικρότερη γωνία µε το διάνυσµα του ερωτήµατος σε σχέση µε κείµενα στα οποία οι λέξεις αυτές εµφανίζονται ελάχιστα ή και καθόλου. Πριν την αναπαράσταση των κειµένων έγινε κάποια επεξεργασία στα δεδοµένα που περιγράφεται παρακάτω. Κάποιες διαδικασίες είναι απαραίτητες, ενώ κάποιες άλλες µπορούσαν να παραλειφθούν, ωστόσο χρησιµοποιήθηκαν για αποτελεσµατικότερη αναπαράσταση των κειµένων. 2

21 TOKENIZATION Η µέθοδος του tokenization ανήκει στο πεδίο του natural language processing (NLP). Σκοπός της µεθόδου αυτής είναι ο χωρισµός των κειµένων σε επιµέρους µονάδες που ονοµάζονται token. Τα token ποικίλουν σε µέγεθος ανάλογα µε τις απαιτήσεις της κάθε εφαρµογής. Το κάθε κείµενο µπορεί να χωριστεί σε κεφάλαια, σε παραγράφους, λέξεις ή ακόµα και συλλαβές. Για κάθε περίπτωση υπάρχουν διαφορετικοί αλγόριθµοι που επιτυγχάνουν το χωρισµό του κειµένου στα επιµέρους «συστατικά» του. Στην περίπτωση του information retrieval τα token είναι συνήθως οι λέξεις που αποτελούν το κάθε κείµενο, µιας και η αναζήτηση γίνεται µέσω λέξεων-κλειδιά ή φράσεων. Επιπλέον, το κείµενο συρρικνώνεται, αφαιρώντας χαρακτήρες ή γραµµατοσειρές, που σε πρώτο επίπεδο τουλάχιστον, δεν έχουν σχέση µε το περιεχόµενο του κειµένου. Στα κείµενα περιέχονται στοιχεία, χαρακτηριστικά του κάθε τύπου κειµένου που καθορίζουν τη µορφή αυτού. Αυτά τα στοιχεία πρέπει να αφαιρεθούν, αφού δεν σχετίζονται µε το περιεχόµενό του. Για παράδειγµα, σε ένα κείµενο γραµµένο σε HTML πρέπει να αφαιρεθούν οι ετικέτες (tags) αφού σχετίζονται µόνο µε τη µορφοποίησή του. Τα κείµενα, εκτός από λέξεις, περιλαµβάνουν και άλλους χαρακτήρες, όπως σηµεία στίξης και αριθµητικά σύµβολα. Όλα αυτά στη φυσική γλώσσα έχουν καθοριστικό ρόλο αφού χωρίς αυτά η πλήρης κατανόηση θα ήταν αδύνατη. Για την ανάκτηση ενός κειµένου, όµως, δεν έχουν καµία απολύτως λειτουργικότητα, αφού δεν αποτελούν διακριτικό χαρακτηριστικό του κειµένου. Οι κενοί χαρακτήρες χρησιµοποιούνται για το διαχωρισµό των λέξεων. Σε αυτό το στάδιο µετατρέπονται επίσης, όλα τα γράµµατα σε πεζά. Αν δε γίνει αυτό, ενέχει ο κίνδυνος η ίδια λέξη να θεωρηθεί διαφορετική, απλά και µόνο επειδή ένα γράµµα της είναι κεφαλαίο. Μετατρέποντας όλους τους αλφαβητικούς χαρακτήρες σε πεζούς δε θα υπάρξει διάκριση µεταξύ της λέξης «γονίδιο» και «Γονίδιο», αλλά θα αντιστοιχηθούν και οι δύο στην ίδια λέξη «γονίδιο». Τέλος, θα πρέπει οι χαρακτήρες να µετατραπούν σε µία πρότυπη αναπαράσταση (π.χ. Unicode). Είναι πολύ πιθανό, στη συλλογή να υπάρχουν κείµενα σε διαφορετικές γλώσσες ή ακόµη και στο ίδιο κείµενο να χρησιµοποιούνται χαρακτήρες από διαφορετικά αλφάβητα (παραδείγµατος χάριν, ένα κείµενο γραµµένο στα ελληνικά που περιέχει µερικούς όρους γραµµένους µε λατινικούς χαρακτήρες). 21

22 Σε αυτές τις περιπτώσεις είναι επιβεβληµένη η µετατροπή της κωδικοποίησης, έτσι ώστε να είναι δυνατή η αναζήτηση και η ανάκτηση κειµένων µέσω λέξεων γραµµένων σε κάποια άλλη γλώσσα [Baldi, Frasconi and Smyth, 23]. Η διαδικασία του tokenization εφαρµόζεται σε κάθε κείµενο υποχρεωτικά. Τα token όλων των κειµένων αποτελούν µία αρχική µορφή του λεξιλογίου της συλλογής. Το λεξιλόγιο, που έχει προκύψει µετά την εφαρµογή της µεθόδου του tokenization, διαµορφώνεται στη συνέχεια από τις ακόλουθες τεχνικές, οι οποίες εφαρµόζονται κατ επιλογήν STOP WORDS Μία αρκετά συνηθισµένη τεχνική είναι η δηµιουργία της stop list. Η stop list είναι µία λίστα αποτελούµενη από λέξεις µε λειτουργικό χαρακτήρα εµφανιζόµενες σε όλα τα κείµενα, αλλά χωρίς κανένα εννοιολογικό περιεχόµενο. Οι λέξεις που υπάρχουν στη stop list αφαιρούνται από το λεξιλόγιο. Η ιδέα, στην οποία στηρίζεται αυτή η διαδικασία, είναι ότι υπάρχουν λέξεις σε όλα τα κείµενα που δεν σχετίζονται µε το περιεχόµενο του κειµένου ούτε βοηθούν στο διαχωρισµό των κειµένων µεταξύ τους. Τέτοιες λέξεις είναι τα βοηθητικά ρήµατα (είµαι, έχω, µπορώ κτλ) σε όλους τους χρόνους και όλα τα πρόσωπα, σύνδεσµοι, προθέσεις, άρθρα, αντωνυµίες κτλ. Η διαδικασία αυτή συµβάλλει σηµαντικά στη µείωση του λεξιλογίου, γεγονός που καθιστά την αναζήτηση και ανάκτηση των κειµένων πολύ πιο γρήγορη και αποτελεσµατική. Για την εξαγωγή των stop words από τα κείµενα στην εργασία αυτή, χρησιµοποιήθηκε ο αλγόριθµος που χρησιµοποιείται από την PubMed STEMMING Η διαδικασία του stemming είναι αρκετά διαδεδοµένη στο πεδίο του information retrieval. Σύµφωνα µε αυτήν, οι λέξεις που έχουν κοινή ρίζα κόβουν την κατάληξή τους και οµαδοποιούνται όλες στην ίδια ρίζα. Πέρα από τη µείωση του µεγέθους του λεξιλογίου, η µέθοδος του stemming είναι σηµαντική για την ανάκτηση των κειµένων. Σε µία συλλογή κειµένων που δεν έχει εφαρµοστεί η διαδικασία του stemming είναι πολύ πιθανό να µην ανακτηθούν κείµενα, τα οποία όµως περιέχουν πληροφορία σχετική µε το ερώτηµα. Αυτό γίνεται 22

23 κατανοητό µε ένα παράδειγµα. Αν ο χρήστης θέσει σαν ερώτηµα τη λέξη «πρωτεΐνη», η οποία δεν υπάρχει σε ένα κείµενο, αλλά άντ αυτής υπάρχουν οι λέξεις «πρωτεΐνες» ή «πρωτεϊνικός», το κείµενο δε θα επιστραφεί στο χρήστη. Με τη µέθοδο του stemming όλα τα παράγωγα, και κάθε πιθανή µορφή αυτών οµαδοποιούνται στη ρίζα «πρωτεϊν-». ηµοφιλείς αλγόριθµοι που αποκόπτουν τις καταλήξεις και οµαδοποιούν τις λέξεις στη ρίζα τους, για την Αγγλική γλώσσα είναι οι αλγόριθµοι του Lovins και του Porter [KOU and Gardarin]. Οι τεχνικές του stemming έχουν κατακριθεί, λόγω του ότι υπάρχει περίπτωση να οµαδοποιηθούν λέξεις που δεν έχουν εννοιολογική σχέση. Αν στο προηγούµενο παράδειγµα η λέξη αποκόπτονταν στη ρίζα «πρωτ-», θα επιστρέφονταν αρκετά κείµενα που ίσως δεν έχουν σχέση µε τη λέξη «πρωτεΐνη», αλλά εµπεριέχουν τις λέξεις «πρώτος», «πρώτα» κτλ. Ωστόσο, αν έχουν προνοηθεί τέτοιου είδους προβλήµατα, η διαδικασία του stemming είναι ιδιαίτερα αποτελεσµατική. O αλγόριθµος stemming που εφαρµόστηκε στην εργασία αυτή στηρίζεται στην υλοποίηση της Perl από τη Mary D. Taffet ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΟΡΩΝ ΣΤΗ ΣΥΛΛΟΓΗ ΚΕΙΜΕΝΩΝ Η µέθοδος αυτή εφαρµόζεται σε σχετικά µικρές συλλογές κειµένων µε κοινό περιεχόµενο. Όταν εφαρµόζεται, επιτυγχάνεται η περαιτέρω µείωση του λεξιλογίου. Στην ουσία, είναι κάτι σαν τη stop list, αλλά για συγκεκριµένη συλλογή. Συγκεκριµένα, απορρίπτονται λέξεις οι οποίες δεν αποτελούν στοιχείο διάκρισης των κειµένων και άρα δεν παρέχουν κάποια πληροφορία για την αναζήτηση. Οι περισσότερες τεχνικές εύρεσης αυτών των λέξεων χρησιµοποιούν τη συχνότητα των όρων. Έτσι, σε µία συλλογή κειµένων όταν ένας όρος εµφανίζεται σχεδόν σε όλα τα κείµενα, αυτός δεν αποτελεί διακριτικό στοιχείο για κανένα από αυτά. Η παράλειψή του, λοιπόν, όχι µόνο κρίνεται δυνατή, αλλά επιβάλλεται. Παράδειγµα: σε µια συλλογή κειµένων που αναφέρεται σε γονίδια, η λέξη γονίδιο θα εµφανίζεται, κατά πάσα πιθανότητα σε όλα τα κείµενα και κατ επέκταση ο όρος είναι περιττός [KOU and Gardarin]. 23

24 Αυτό επιτυγχάνεται µε εφαρµογή κάποιων αλγορίθµων στη συλλογή των κειµένων. Χρησιµοποιώντας τον αλγόριθµο DF, υπολογίζεται αρχικά, ο αριθµός των κειµένων της συλλογή που περιέχουν έναν όρο και αυτό γίνεται επαναληπτικά για κάθε όρο. Μετά προσδιορίζεται ένα άνω και ένα κάτω όριο. Όλοι οι όροι που η συχνότητα εµφάνισής τους στα κείµενα είναι είτε µεγαλύτερη από το άνω όριο είτε µικρότερη από το κάτω όριο αφαιρούνται από το λεξιλόγιο. Εκτός από τον αλγόριθµο DF, υπάρχουν και άλλοι αλγόριθµοι που χρησιµοποιούνται για αυτόν το σκοπό. Αναφέρονται ενδεικτικά οι αλγόριθµοι IG, Χ 2 και LSI [KOU and Gardarin]. Στην παρούσα εφαρµογή χρησιµοποιήθηκε ο αλγόριθµος DF, απορρίπτοντας τους όρους µε συχνότητα πάνω από 95% και κάτω από.5% στο σύνολο των κειµένων. Οι τεχνικές αυτές είναι τεχνικές επεξεργασίας των κειµένων για αποτελεσµατικότερη και γρηγορότερη αναζήτηση και ανάκτηση πληροφοριών µε συστήµατα information retrieval. Είναι συµπληρωµατικές µεταξύ τους και όχι αλληλοαποκλειόµενες. Εφαρµόζονται προαιρετικά (εκτός από τη µέθοδο του tokenization) όσες είναι κατάλληλες για τη συγκεκριµένη εφαρµογή. Η τεχνική που εφαρµόζεται κατά κόρον στο information retrieval είναι η µέθοδος του stemming. Στην παρούσα εργασία εφαρµόστηκαν όλες οι προαναφερθείσες διαδικασίες INDEXING Αφού βρεθεί το λεξιλόγιο, χρησιµοποιώντας είτε όλες είτε κάποιες µεθόδους από αυτές που περιγράφηκαν παραπάνω, γίνεται η δεικτοδότηση των κειµένων, δηλαδή η αντιστοίχηση του κάθε όρου µε τα κείµενα της συλλογής. Για να επιτευχθεί αυτό υπάρχουν διάφορες τεχνικές. Μια αρκετά δηµοφιλής τεχνική είναι η τεχνική της αντιστροφής (inversion), η οποία θεωρείται από πολλούς η µόνη αποτελεσµατική για µεγάλες συλλογές κειµένων και εφαρµόστηκε στην παρούσα εργασία. Η τεχνική αυτή, βασίζεται στη δηµιουργία µία δοµής δεδοµένων ανεστραµµένου δείκτη (inverted index). Ένας ανεστραµµένος δείκτης είναι µία δοµή δεδοµένων και χρησιµοποιείται για τη δηµιουργία µίας λίστας. Η λίστα αυτή περιέχει τα κείµενα στα οποία εµφανίζεται ο κάθε όρος και σε ορισµένες περιπτώσεις τη συχνότητα του. Πιο απλά, ο κάθε όρος του λεξιλογίου (το κάθε term) έχει ένα δείκτη, ο οποίος δείχνει σε µία λίστα, τη λεγόµενη posting list. Η posting list είναι στην ουσία µία λίστα από 24

25 δείκτες. Οι δείκτες αυτοί δείχνουν όλα τα κείµενα στα οποία υπάρχει ο όρος [Manning and Schütze]. Στην εργασία αυτή δεν χρησιµοποιήθηκε η συχνότητα των όρων. Στην εικόνα 1 φαίνεται ένα απλοποιηµένο παράδειγµα µιας δεικτοδότησης. Η συλλογή αποτελείται από 2 κείµενα, τα κείµενα 1 και 2 και το λεξιλόγιο αποτελείται από 3 όρους, τους vector, stem και index. Αριστερά, βρίσκεται ο inverted index. Κάθε όρος συνδέεται µε µία λίστα, την posting list (κέντρο). Η κάθε posting list αναφέρει σε ποια κείµενα υπάρχει ο όρος αυτός και κάθε στοιχείο της λίστας δείχνει στο συγκεκριµένο κείµενο. Έτσι, στο παράδειγµα, το vector περιέχεται από µία φορά στα κείµενα 1 και 2, το stem υπάρχει µόνο στο κείµενο 2 και τέλος ο όρος index εµφανίζεται µία φορά στο κείµενο 1 και δύο φορές στο κείµενο 2. vector vector space model indexing where content stem 2 index an inverted index stemming index vector 2 Εικόνα ΑΠΟ ΟΣΗ ΒΑΡΩΝ ΣΤΟΥΣ ΟΡΟΥΣ (TERM WEIGHTING) Μετά την εύρεση του λεξιλογίου, κάθε όρος αντιπροσωπεύεται µε ένα διάνυσµα. Τα διανύσµατα είναι κάθετα µεταξύ τους, που στην πράξη σηµαίνει, ότι κάθε όρος θεωρείται ανεξάρτητος από τους άλλους. Λαµβάνονται υπόψη µόνο οι θετικοί άξονες της κάθε διάστασης. Κατά συνέπεια, ο διανυσµατικός χώρος αυτός, έχει τόσες 25

26 διαστάσεις όσοι είναι και οι όροι του λεξιλογίου 1. Σε ένα απλουστευµένο παράδειγµα, όπου το λεξιλόγιο αποτελείται από δύο όρους (έστω Term1 και Term2), ο διανυσµατικός χώρος αποτελείται από δύο διαστάσεις. (εικόνα 2) Term1 Term2 Εικόνα 2 Σε αυτόν το διανυσµατικό χώρο, τα κείµενα αντιπροσωπεύονται επίσης από διανύσµατα. Τα διανύσµατα των κειµένων δεν δηµιουργούνται αυθαίρετα, αλλά από τις συνιστώσες τους, δηλαδή τους όρους. Σε αυτό το σηµείο πρέπει να βρεθούν οι συνιστώσες του κάθε κειµένου για να γίνει δυνατή και η αναπαράστασή του από ένα διάνυσµα. Αν σε ένα κείµενο υπάρχει ένας όρος, τότε το κείµενο αυτό έχει µία συνιστώσα σε αυτόν τον άξονα. Ωστόσο, ο κάθε όρος δεν έχει την ίδια βαρύτητα σε κάθε κείµενο. Κάποιοι όροι είναι πιο σηµαντικοί, ενώ άλλοι όχι τόσο. Μία απλοποιηµένη προσέγγιση είναι ότι αν κάποιος όρος εµφανίζεται περισσότερες φορές σε ένα κείµενο, τότε θα έχει και µεγαλύτερη βαρύτητα. Με µαθηµατικούς όρους ένα κείµενο αντιπροσωπεύεται από το διάνυσµα d 1 ( w1, i, w2, i,... wj, i) = Σε αυτό το σηµείο, λοιπόν, πρέπει να αποδοθούν τα βάρη των όρων για κάθε κείµενο. 1 Αυτό αφορά το κλασσικό vector space model. Υπάρχουν παραλλαγές του, όπου οι όροι δε θεωρούνται ανεξάρτητοι εκ των προτέρων, αφού δύο όροι µπορεί να έχουν εννοιολογική σχέση. Η γωνία που σχηµατίζεται κυµαίνεται από ως 9, ανάλογα µε τη σχέση µεταξύ τους. Αν δύο όροι είναι άσχετοι εννοιολογικά σχηµατίζουν γωνία 9, όπως και στο κλασικό vector space model, που περιγράφεται στο κείµενο αυτό, ενώ αν δύο όροι είναι συνώνυµοι σχηµατίζουν γωνία. Σε όλες τις άλλες περιπτώσεις, η γωνία µεταξύ δύο όρων κυµαίνεται ανάµεσα στις δύο αυτές τιµές. 26

27 TF.IDF Υπάρχουν αρκετές µέθοδοι για την απόδοση των βαρών. Μία ιδιαίτερα δηµοφιλής είναι µέσω του tf.idf. Το tf.idf 2 είναι µία οικογένεια συναρτήσεων που υπολογίζουν τα βάρη των όρων. Ένας τύπος απόδοσης βαρών χρησιµοποιώντας το tf.idf είναι: ( 1+ log( tfi, j) ) weight(i, j) =, αν tf i, j = log N dfi,αν tf i, j 1 σχέση 1, όπου tf i,j η συχνότητα εµφάνισης του όρου i στο κείµενο j, Ν ο αριθµός των κειµένων που ανήκουν στη συλλογή και df i η συχνότητα των κειµένων που περιέχουν τον όρο i. Αυτός ο τύπος υπολογίζει το βάρος του κάθε όρου του λεξιλογίου σε κάθε κείµενο. Για να γίνει κατανοητό ο τύπος αυτός είναι αναγκαίος ο ορισµός κάποιων παραµέτρων που χρησιµοποιεί ή σχετίζονται µε αυτόν [KOU and Gardarin]. ΟΡΙΣΜΟΙ ΠΑΡΑΜΕΤΡΩΝ Συχνότητα όρου (term frequency): ισούται µε τον αριθµό εµφάνισης του συγκεκριµένου όρου σε ένα συγκεκριµένο κείµενο. Συµβολίζεται tf i,j. Παράδειγµα το tf 1,1 ισούται µε τον αριθµό εµφάνισης του όρου w 1 στο κείµενο d 1. Συχνότητα κειµένου (document frequency): ισούται µε τον αριθµό των κειµένων στα οποία εµφανίζεται ένας συγκεκριµένος όρος. Συµβολίζεται df i. Παράδειγµα το df 1 ισούται µε τον αριθµό των κειµένων στα οποία υπάρχει ο όρος w 1. Συχνότητα συλλογής (collection frequency): ισούται µε το συνολικό αριθµό εµφάνισης ενός συγκεκριµένου όρου σε όλη τη συλλογή κειµένων. Συµβολίζεται cf i. Παράδειγµα το cf 1 ισούται µε τον αριθµό εµφάνισης του όρου w 1 σε όλη τη συλλογή κειµένων 3. 2 tf.idf από term frequency. inverse document frequency. Οικογένεια συναρτήσεων που υπολογίζουν τα βάρη των όρων χρησιµοποιώντας τη συχνότητα του κάθε όρου και τη συχνότητα κειµένου. Το inverse σηµαίνει ότι η συχνότητα κειµένου λειτουργεί αρνητικά στο βάρος. Μεγάλη συχνότητα κειµένου συµβάλλει στη µείωση του βάρους του όρου. 3 Οι όροι συχνότητα υπάρχουν µόνο εφόσον υπάρχει συλλογή κειµένων. 27

28 Προφανείς σχέσεις µεταξύ αυτών των παραµέτρων είναι: df i cf i, η ισότητα ισχύει αν ο όρος εµφανίζεται µία φορά µόνο σε κάθε κείµενο που εµφανίζεται. j tf, = cf i. i j ΑΝΑΛΥΣΗ ΠΑΡΑΜΕΤΡΩΝ Η συχνότητα του όρου παίζει σηµαντικό ρόλο στην απόδοση βαρών. Όπως προαναφέρθηκε, όταν ένας όρος εµφανίζεται πολλές φορές σε ένα κείµενο, έχει, κατά πάσα πιθανότητα, άµεση σχέση µε αυτόν τον όρο. Ωστόσο, η σχέση δεν είναι γραµµική, αφού αν σε ένα κείµενο εµφανίζεται ο όρος µία φορά και σε ένα άλλο δύο θα ήταν υπερβολικό να θεωρηθεί ότι ο όρος είναι δύο φορές πιο σηµαντικός στο ένα κείµενο από ότι στο άλλο και άρα το βάρος του όρου να είναι διπλάσιο στο δεύτερο κείµενο. Έτσι, µετριάζεται η επίδραση της συχνότητας του όρου µέσω είτε της f (tf) = tf είτε της f (tf) = 1+log(tf), tf>. Η δεύτερη παράµετρος, αναφέρεται στον αριθµό των κειµένων που περιέχουν έναν όρο. Η παράµετρος αυτή είναι ιδιαίτερα σηµαντική. Όροι που δεν προσδιορίζουν το περιεχόµενο κάποιου κειµένου, θα βρίσκονται σε όλα τα κείµενα. Έτσι, όπως αναφέρθηκε και σε προηγούµενο παράδειγµα, σε µία συλλογή κειµένων που αφορά πρωτεΐνες, ο όρος πρωτεΐνες δεν αποτελεί διακριτικό και κατά πάσα πιθανότητα θα εµφανίζεται σε όλα τα κείµενα. Επιπλέον, αν ένας όρος χαρακτηρίζει ένα κείµενο, τότε ο όρος αυτός θα εµφανίζεται µάλλον περισσότερες από µία φορά. Σύµφωνα µε αυτά, αν το df i είναι σχεδόν ίσο µε τον αριθµό των κειµένων που υπάρχουν στη συλλογή, τότε ο όρος αυτός έχει ελάχιστη σηµασία και κατά συνέπεια προσδίδεται σε αυτόν µικρό ή και µηδενικό βάρος. Ο όρος που συµβάλλει στην απόδοση βαρών σύµφωνα µε τα παραπάνω είναι ο N. dfi Η επίδραση της συχνότητας κειµένων, όπως και µε τη συχνότητα όρου, µετριάζεται και µεταβάλλεται λογαριθµικά. Η παραπάνω ποσότητα λογαριθµίζεται και προκύπτει ο λογάριθµος log N. Η ποσότητα αυτή αναφέρεται και ως inverse dfi document frequency. Από τις ιδιότητες των λογαρίθµων, ισχύει log N = log N log dfi df i. Η ποσότητα αυτή µεγιστοποιείται όταν ο όρος εµφανίζεται σε ένα και µόνο κείµενο και ισούται µε log N, ενώ µηδενίζεται και κατ επέκταση µηδενίζεται και το 28

29 βάρος του όρου, όταν το df i ισούται µε N, δηλαδή όταν ο όρος εµφανίζεται σε όλα τα κείµενα της συλλογής. Αυτή η ιδιότητα ανταποκρίνεται απόλυτα στη θεωρητική προσέγγιση που αναλύθηκε παραπάνω. Πολλαπλασιάζοντας τη συχνότητα όρου µε τη συχνότητα κειµένου, προκύπτει η σχέση 1. Εξ ορισµού, όταν ένας όρος δεν εµφανίζεται σε ένα κείµενο, δηλαδή tf i,j =, το βάρος του είναι µηδέν (weight(i,j) = ). Από την άλλη, το βάρος του όρου αυξάνεται αν ο όρος εµφανίζεται αρκετές φορές µέσα σε ένα κείµενο και µειώνεται αν ο όρος εµφανίζεται σε πολλά κείµενα. Για την απόδοση βαρών στην εργασία αυτή, χρησιµοποιήθηκε το δυαδικό σχήµα, που σύµφωνα µε αυτό, το βάρος x di ισούται µε 1 όταν ο όρος t i εµφανίζεται µέσα στο κείµενο d, ενώ ισούται µε όταν ο όρος t i δεν εµφανίζεται στο κείµενο. Η µαθηµατική αναπαράσταση της απόδοσης των βαρών µε το δυαδικό σχήµα φαίνεται στη σχέση 2. x di 1, =, αν αν σχέση 2 t t i i d d Μετά την εφαρµογή των παραπάνω διαδικασιών, κάθε κείµενο αναπαριστάται από ένα n-διάστατο διάνυσµα. Κάθε διάσταση αντιπροσωπεύει έναν όρο του λεξιλογίου και ένα διάνυσµα έχει µία συνιστώσα µοναδιαίου µέτρου στη διάσταση αυτή αν ο όρος βρίσκεται µέσα στο κείµενο, ενώ σε αντίθετη περίπτωση δεν έχει συνιστώσα στην διάσταση αυτή. 29

30 2.2 ΕΠΕΞΕΡΓΑΣΙΑ ΤΩΝ Ε ΟΜΕΝΩΝ ΜΕ ΤΗΝ PRINCIPAL COMPONENTS ANALYSIS Στην τρίτη φάση, τα δεδοµένα επεξεργάστηκαν περαιτέρω µε την PCA, σε µία προσπάθεια να ανακαλυφθούν οι κρυµµένες εξαρτήσεις µεταξύ των δεδοµένων. Σύµφωνα µε αυτή της την ιδιότητα η PCA µπορεί να θεωρηθεί ως µία µορφή Latent Semantics Analysis και για το λόγο αυτό γίνεται µία αναφορά στην τεχνική Latent Semantics Indexing (LSI). Στη συνέχεια περιγράφεται η PCA LATENT SEMANTICS INDEXING (LSI) Το vector space model δεν αντιµετωπίζει το πρόβληµα των συνωνύµων και πολυσήµαντων λέξεων. Λέξεις µε ίδια σηµασία αντιµετωπίζονται ως ανεξάρτητες και η γωνία µεταξύ τους είναι 9, ενώ λέξεις µε τελείως διαφορετική σηµασία αντιµετωπίζονται ως ίδιες λόγω του γεγονότος ότι έχουν την ίδια ακριβώς ορθογραφία. Τα προβλήµατα αυτά οφείλονται στη φυσική γλώσσα και δεν µπορούν να αντιµετωπιστούν µε µεθόδους που στηρίζονται σε ταυτοποίηση όρων (term matching). Λύση σε αυτό το πρόβληµα προσπαθεί να δώσει µία στατιστική τεχνική, που ονοµάζεται Latent Semantics Indexing [Deerwester et al. (199), Dumais (199), Dumais et al. (1988), Furnas et al. (1988)]. Η βασική ιδέα της ανάλυσης latent semantics στηρίζεται στο γεγονός ότι η συχνή συνύπαρξη όρων σε κείµενα κρύβει µία σηµασιολογική σχέση µεταξύ των όρων αυτών. Για την αναγνώριση και συσχέτιση των όρων αυτών µεταξύ τους χρησιµοποιεί µία γραµµική αλγεβρική µέθοδο, τη Singular Value Decomposition (SDV). Εναλλακτικά της SDV µπορεί να χρησιµοποιηθεί η PCA. Τα κείµενα σε µία συλλογή κειµένων αναπαριστούνται από πολυδιάστατα διανύσµατα. Τα διανύσµατα αυτά µπορούν να θεωρηθούν και ως πίνακες M 1. Η συλλογή των κειµένων µπορεί να αναπαρασταθεί µε έναν πίνακα Μ [αριθµό των κειµένων στη συλλογή]. Στους πίνακες µπορούν να εφαρµοστούν αλγεβρικοί τελεστές για την επεξεργασία τους. Αυτή είναι η βασική θεώρηση της ανάλυσης Latent Semantics. 3

31 Στον πίνακα που αναπαριστά τη συλλογή κειµένων εφαρµόζεται η SVD µέθοδος, η οποία αναγνωρίζει τις πιο σηµαντικές συνιστώσες. Αυτές είναι οι k µεγαλύτερες τιµές. Το κάθε κείµενο αναπαριστάται µε ένα γραµµικό συνδυασµό των k τιµών, όπου το k είναι κατά πολύ µικρότερο από το M. Για αυτόν το λόγο, η LSI µπορεί να θεωρηθεί και ως τεχνική µείωσης των διαστάσεων ενός χώρου, αφού αναπαριστά ικανοποιητικά έναν πολυδιάστατο χώρο σε έναν κατά πολύ µικρότερο διανυσµατικό χώρο. Η LSI εφαρµόστηκε σε αρκετές συλλογές κειµένων και στις περισσότερες περιπτώσεις έδωσε καλύτερα αποτελέσµατα από την κλασσική διανυσµατική αναπαράσταση, όπου κάθε διάσταση αντιπροσωπεύει και έναν όρο, ιδίως καλύτερο recall, όπως και αναµενόταν. Ωστόσο, σε ορισµένες περιπτώσεις βρέθηκε µειωµένο το precision. Η LSI, αν και δίνει αρκετά καλά αποτελέσµατα και χειρίζεται ως ένα βαθµό τις συνώνυµες και πολυσήµαντες λέξεις, έχει ένα βασικό µειονέκτηµα, εφαρµόζεται µόνο σε µικρές συλλογές κειµένων [Manning and Schütze] PRINCIPAL COMPONENT ANALYSIS Η PCA είναι µία αλγεβρική µέθοδος που µετασχηµατίζει τα δεδοµένα. Στόχος της είναι η ανακάλυψη κρυµµένων σχέσεων ή/ και η µείωση των διαστάσεων ενός πολυδιάστατου χώρου µε ελάχιστη απώλεια πληροφορίας. Με ελάχιστο κόπο, αφού η PCA είναι αρκετά απλή µέθοδος, µειώνει ένα σύνολο δεδοµένων µε σκοπό την ευκολότερη επεξεργασία τους ή ακόµη την ανακάλυψη κρυµµένων απλοποιηµένων δοµών, που πολλές φορές είναι «θαµµένες» µέσα στο πλήθος των δεδοµένων. Έχει εφαρµογές σε πολλά πεδία της επιστήµης, από τη νευρολογία µέχρι και τα γραφικά των υπολογιστών. Έστω ένα σύνολο δεδοµένων στα οποία θα εφαρµοστεί η PCA, που φαίνεται στον πίνακα 1. 31

32 X Y Πίνακας 1 Για λόγους ευκολίας, τα δεδοµένα που χρησιµοποιούνται ως παράδειγµα είναι δύο µεταβλητές που έχουν από 1 τιµές. Στη συνέχεια ο πίνακας µετασχηµατίζεται. Υπολογίζεται η µέση τιµή της κάθε µεταβλητής και η κάθε τιµή υπολογίζεται αν αφαιρεθεί η αρχική τιµή από τη µέση τιµή. Η µέση τιµή της κάθε µεταβλητής τώρα είναι µηδέν. Ο µετασχηµατισµένος πίνακας φαίνεται στον πίνακα 2 (DataAdjust πίνακας). Χ Y Πίνακας 2 32

33 Έπειτα υπολογίζεται ο πίνακας συσχέτισης. Ο πίνακας συσχέτισης προκύπτει από τη σχέση 3. C n n =(c i,j, c i,j =conv(dim i, Dim j )) σχέση 3, όπου ο C n n είναι ένας n-διάστατος τετραγωνικός πίνακας και Dim i είναι η i-οστή διάσταση. Η συσχέτιση µεταξύ δύο µεταβλητών βρίσκεται από τη σχέση 4: i= 1 conv( X, Y ) = n σχέση 4 ( X X)( Y Y) i n 1 i,όπου X και Yείναι η µέση τιµή των τιµών της µεταβλητής X και Y αντίστοιχα. Έτσι, για το στοιχείο που βρίσκεται στην πρώτη γραµµή και στην πρώτη στήλη, ο πίνακας συσχέτισης θα είναι η συσχέτιση της πρώτης διάστασης (µεταβλητής) µε την ίδια, το στοιχείο στην πρώτη γραµµή και δεύτερη στήλη θα είναι η συσχέτιση της πρώτης διάστασης (µεταβλητής) µε τη δεύτερη κοκ. Στο παράδειγµα, ο πίνακας συσχέτισης θα είναι 2 2, αφού τα δεδοµένα είναι δύο µεταβλητών και µετά από υπολογισµούς προκύπτει ο παρακάτω πίνακας (πίνακας 3): Πίνακας 3 Επειδή τα στοιχεία του πίνακα 3, εκτός των στοιχείων που βρίσκονται πάνω στην κύρια διαγώνιο, είναι θετικά, σηµαίνει ότι οι µεταβλητές αυξάνονται ταυτόχρονα. Στη συνέχεια, δεδοµένου ότι ο πίνακας είναι τετραγωνικός, υπολογίζονται οι ιδιοτιµές και τα ιδιοδιανύσµατα. Οι τιµές που προκύπτουν φαίνονται αντίστοιχα, στους πίνακες 4 και 5. 33

34 eigenvalue s = Πίνακας 4 eigenvecto rs = Πίνακας 5 Αξίζει να σηµειωθεί, ότι τα ιδιοδιανύσµατα αυτά είναι µοναδιαία, έχουν δηλαδή, µοναδιαίο µήκος. Αν τα ιδιοδιανύσµατα δεν έχουν µοναδιαίο µήκος, πρέπει να κανονικοποιηθούν. Υπάρχουν αρκετά εργαλεία που κάνουν αυτή τη δουλειά. Από τα ιδιοδιανύσµατα, αυτό µε τη µεγαλύτερη ιδιοτιµή είναι και η κύρια συνιστώσα (principal component) των δεδοµένων. Γενικότερα, τα ιδιοδιανύσµατα µε τη µεγαλύτερη ιδιοτιµή περιέχουν την περισσότερη πληροφορία για το σύνολο των δεδοµένων. Ο χρήστης µπορεί να διαλέξει όσες συνιστώσες επιθυµεί. Αν οι συνιστώσες είναι λιγότερες από τα ιδιοδιανύσµατα, δηλαδή από τις αρχικές διαστάσεις του συνόλου των δεδοµένων, επιτυγχάνεται η µείωση των διαστάσεων. Η αφαίρεση κάποιων συνιστωσών θα έχει ως αποτέλεσµα την απώλεια κάποιων δεδοµένων, αλλά εφόσον η ιδιοτιµή τους είναι µικρή, η απώλεια θα είναι και εκείνη µικρή. Ο χρήστης δηµιουργεί ένα χαρακτηριστικό διάνυσµα (πίνακας 6), το οποίο περιέχει όλα τα ιδιοδιανύσµατα που επιθυµεί να κρατήσει: ( eig eig ) FeatureVec tor =, 2, eig k Πίνακας 6 1 K Στο παράδειγµα, υπάρχουν δύο επιλογές, είτε να κρατηθούν και τα δύο ιδιοδιανύσµατα, οπότε και προκύπτει ο χαρακτηριστικός πίνακας 7 είτε να κρατηθεί µόνο το ένα, οπότε προκύπτει ο χαρακτηριστικός πίνακας 8. 34

35 FeatureVec tor = Πίνακας FeatureValue= Πίνακας 8 Στη συνέχεια, στον FeatureValue πίνακα γίνεται αλλαγή των γραµµών µε τις στήλες (ο ανάστροφος πίνακας, RowFeatureValue), έτσι στην πρώτη γραµµή του πίνακα που προκύπτει, υπάρχει το ιδιοδιάνυσµα µε τη µεγαλύτερη ιδιοτιµή. Ο ίδιος µετασχηµατισµός γίνεται και στα δεδοµένα που προέκυψαν αφαιρώντας από την κάθε τιµή τη µέση τιµή της κάθε µεταβλητής (RowDataAdjust). Το τελευταίο στάδιο είναι η δηµιουργία του νέου συνόλου δεδοµένων. Τα νέα δεδοµένα προκύπτουν από τον πολλαπλασιασµό των παραπάνω πινάκων. Τα δεδοµένα που προκύπτουν είναι γραµµικός συνδυασµός των ιδιοδιανυσµάτων που υπάρχουν στον πίνακα FeatureValue. Στην ουσία, αυτό που γίνεται είναι ένας µετασχηµατισµός των αξόνων σε κάθετα µεταξύ τους ιδιοδιανύσµατα. Η σχέση υπολογισµού των νέων δεδοµένων φαίνεται στη σχέση 5. FinalData = RowFeatureVector RowDataAdjust σχέση 5 Στην περίπτωση που επιλεγούν και τα δύο ιδιοδιανύσµατα στο παράδειγµα, το τελικό σύνολο δεδοµένων που προκύπτει φαίνεται στον πίνακα 9. 35

36 Πίνακας 9 Στην περίπτωση αυτή, δεν υπάρχει µείωση των δεδοµένων, αλλά η αναπαράστασή τους γίνεται στους άξονες των ιδιοδιανυσµάτων. Οι άξονες τώρα, δεν είναι οι x=x και y=y όπως συνήθως, αλλά x= x y και y= x y. Στην περίπτωση που ο FeatureValue έχει µόνο ένα ιδιοδιάνυσµα (πίνακας 8) προκύπτει ο πίνακας Πίνακας 1 Εδώ, τα δεδοµένα βρίσκονται όλα πάνω στον ίδιο άξονα. Ο άξονας αυτός είναι ο ίδιος µε τον άξονα x που προέκυψε προηγουµένως. 36

37 Η ανάκτηση των αρχικών δεδοµένων γίνεται πολλαπλασιάζοντας τον ανάστροφο πίνακα των δεδοµένων µε τον αντίστροφο του ανάστροφου πίνακα των χαρακτηριστικών ιδιοδιανυσµάτων από τα αριστερά, όπως φαίνεται και στη σχέση 6. FinalData = RowFeatureVector RowDataAdjust RowDataAdjust = RowFeatureVector' FinalData σχέση 6 Η σχέση 4 δίνει τον πίνακα RowDataAdjust, που είναι ο ανάστροφος πίνακας των δεδοµένων µειωµένα κατά την τιµή της µέσης τιµής. Τα αρχικά δεδοµένα προκύπτουν αν αναστραφεί ο πίνακας και προστεθεί η µέση τιµή. Αξίζει να σηµειωθεί, ότι τα αρχικά δεδοµένα ανακτούνται χωρίς καµία απώλεια, αν ο FeatureVector αποτελούνταν από όλα τα ιδιοδιανύσµατα. Σε αυτή την περίπτωση ο αντίστροφος του RowFeatureVector ισούται µε τον ανάστροφό του, όποτε και οι υπολογισµοί είναι πιο εύκολοι (σχέση 7) [Smith 22]. RowFeatureVector' = RowFeatureVector Τ σχέση 7 37

38 2.3 MULTINOMIAL LOGISTIC REGRESSION Στη συνέχεια, τα δεδοµένα που προέκυψαν από την εφαρµογή της PCA χρησιµοποιούνται για να εκπαιδευτεί το µοντέλο. Εφαρµόζεται λοιπόν, σε αυτά η multinomial logistic regression. Στο κεφάλαια αυτό, περιγράφονται η µέθοδος της multinomial regression, κάποια test που χρησιµοποιούνται και τα αποτελέσµατα σύµφωνα µε τα οποία θα αξιολογηθεί η εφαρµογή Η ΜΕΘΟ ΟΣ ΤΗΣ MLR Η παλινδρόµηση (regression) είναι µία στατιστική τεχνική που χρησιµοποιείται για την εύρεση της σχέσης µεταξύ µίας εξαρτηµένης µεταβλητής και ενός συνόλου ανεξάρτητων µεταβλητών µε τη βοήθεια κάποιων παρατηρήσεων. Γενικά, η µέθοδος αυτή χρησιµοποιεί τις ανεξάρτητες µεταβλητές, των οποίων οι τιµές είναι γνωστές για να προβλέψει την τιµή της εξαρτηµένης µεταβλητής. Κάθε ανεξάρτητη µεταβλητή αξιολογείται προσδίδοντας, σε κάθε µία, ένα συντελεστή βαρύτητας έτσι ώστε να προβλεφθεί όσο το δυνατόν καλύτερα η εξαρτηµένη µεταβλητή. Οι συντελεστές βαρύτητας δείχνουν τη σχετική συνεισφορά των ανεξάρτητων µεταβλητών στην τελική πρόβλεψη και διευκολύνει στην ερµηνεία, για παράδειγµα στην επιρροή της κάθε µεταβλητής στην πρόβλεψη, αν και η συσχέτιση µεταξύ των ανεξάρτητων µεταβλητών µπερδεύει τη διαδικασία της ερµηνείας. Ο σκοπός της regression analysis είναι η πρόβλεψη µίας εξαρτηµένης µεταβλητής, γνωρίζοντας τις τιµές των ανεξάρτητων µεταβλητών. Η ανάλυση της συµπεριφοράς ενός συνόλου και η κατηγοριοποίηση νέων παρατηρήσεων είναι µόνο κάποιες από τις λίγες χρήσεις της regression. Για παράδειγµα, ο διευθυντής µίας εταιρείας που παράγει ένα προϊόν επιθυµεί να ελέγξει τα χαρακτηριστικά του συνόλου του πληθυσµού που θα αγόραζε το συγκεκριµένο προϊόν, ώστε να προσαρµόσει ανάλογα και την τηλεοπτική διαφηµιστική εκστρατεία του προϊόντος. Σε ένα αντιπροσωπευτικό στατιστικό δείγµα, γίνεται µία έρευνα στην οποία εξετάζεται το φύλο, η ηλικία, το µορφωτικό επίπεδο, η οικογενειακή κατάσταση, οι ώρες παρακολούθησης τηλεόρασης των ερωτηθέντων και αν θα τους ενδιέφερε η αγορά του συγκεκριµένου προϊόντος. Σύµφωνα µε τις παρατηρήσεις αυτές, µπορεί να γίνει η ανάλυση του προφίλ του πιθανού αγοραστικού κοινού και να προσαρµοστεί η διαφήµιση του προϊόντος στα χαρακτηριστικά του target group, στοχεύοντας στο 38

39 µεγαλύτερο κέρδος µε µικρότερο κόστος. Η ανάλυση του προφίλ γίνεται µε µία ανάλυση παλινδρόµησης θεωρώντας ως εξαρτηµένη µεταβλητή την πιθανή αγορά του συγκεκριµένου προϊόντος και ως ανεξάρτητες τα χαρακτηριστικά των ερωτηθέντων. Υπάρχουν πολλές µορφές παλινδρόµησης ανάλογα µε το είδος και τον αριθµό των µεταβλητών. Η πιο απλή περίπτωση παλινδρόµησης είναι η εύρεση της γραµµική σχέσης µεταξύ µόνο µίας ανεξάρτητης µεταβλητής µε την εξαρτηµένη µεταβλητή και ονοµάζεται απλή γραµµική παλινδρόµηση. Αν y η εξαρτηµένη µεταβλητή και x η ανεξάρτητη υπολογίζεται η ευθεία y = a +bx. Ο συντελεστής b καθώς και ο σταθερός όρος a υπολογίζονται συνήθως µε τη µέθοδο των ελαχίστων τετραγώνων, µία µέθοδο που προσπαθεί να ελαχιστοποιήσει το συνολικό σφάλµα. Η logistic regression είναι η ιδανική µέθοδος στην περίπτωση που η εξαρτηµένη µεταβλητή Υ χωρίζεται σε ένα σύνολο προκαθορισµένων κατηγοριών ενώ οι ανεξάρτητες µεταβλητές Χ µπορούν να είναι είτε συνεχόµενες είτε να χωρίζονται και αυτές σε κάποιες προκαθορισµένες κατηγορίες. Όταν η µεταβλητή Y παίρνει τιµές από δύο και µόνο κατηγορίες, τότε η παλινδρόµηση που εφαρµόζεται ονοµάζεται διωνυµική παλινδρόµηση (binary ή binomial logistic regression), ενώ όταν οι τιµές της Y προέρχονται περισσότερες των δύο κατηγορίες ονοµάζεται πολυωνυµική παλινδρόµηση (multinomial ή polychotomous regression). Έστω ένα σύνολο παρατηρήσεων, µε µία εξαρτηµένη µεταβλητή Υ που χωρίζεται σε Ν κατηγορίες και ένα σύνολο ανεξάρτητων µεταβλητών X i, i=1,2, J. Επιλέγεται µία κατηγορία αναφοράς, συνήθως η τελευταία κατηγορία, η Ν στην περίπτωση αυτή και όλες οι πιθανότητες γράφονται σε σχέση µε αυτήν. Χρειάζονται µόνο Ν-1 ισότητες για να περιγράψουµε µία µεταβλητή µε Ν κατηγορίες και δεν έχει καµία σηµασία ποια κατηγορία διαλέγουµε σαν κελί αναφοράς, γιατί µπορούµε εύκολα να µετατρέψουµε ένα τύπο σε έναν άλλο. Η πιθανότητα µία παρατήρηση να ανήκει στην k-κατηγορία φαίνεται στη σχέση 8. π ik = e z i1 e z + e z i 2 ik +Ke z in σχέση 8 ή 39

40 π ik e = j = N j= 1 z ik e z ij σχέση 9 µε π ik να είναι η πιθανότητα η i-οστή παρατήρηση να ανήκει στην κατηγορία k και το z ik να είναι ο φυσικός λογάριθµος της πιθανότητας η i-στή παρατήρηση να ανήκει στην k κατηγορία προς την πιθανότητα η παρατήρηση να ανήκει στην κατηγορία αναφοράς. z π log π = b + b + b ik = ik ko k1 i1 k2 i2 in X σχέση 1 X + Kb kj X kj Η logistic regression γενικά και η multinomial regression συγκεκριµένα, δε θεωρεί γραµµική τη σχέση µεταξύ της εξαρτηµένης µεταβλητής µε τις ανεξάρτητες, όπως στην απλή γραµµική παλινδρόµηση. Οι παρατηρήσεις είναι ανεξάρτητες µεταξύ τους και ο λογάριθµος των ανεξάρτητων µεταβλητών σχετίζεται γραµµικά µε την εξαρτηµένη. Επίσης, η logistic regression υπολογίζει τις αλλαγές που γίνονται στο λογάριθµο των πιθανοτήτων της εξαρτηµένης µεταβλητής και όχι τις αλλαγές που γίνονται στην ίδια µεταβλητή όπως γίνεται στην απλή γραµµική παλινδρόµηση. Για το υπολογισµό των συντελεστών b εφαρµόζεται µία µέθοδος που ονοµάζεται Maximum likelihood estimation. Η Maximum Likelihood Estimation προσπαθεί να µεγιστοποιήσει το λογάριθµο της πιθανότητας (log likelihood), ο οποίος δείχνει αν η γνωστή τιµή µίας παρατήρησης της εξαρτηµένης µεταβλητής µπορεί προβλεφθεί από τις τιµές των ανεξάρτητων µεταβλητών. Η likelihood, όπως κάθε πιθανότητα παίρνει τιµές από ως 1 και κατά συνέπεια ο λογάριθµός της παίρνει τιµές από - ως. Ο λογάριθµος της πιθανότητας αυξάνει αισθητά καθώς µεγαλώνει η πιθανότητα και για το λόγο αυτό και χρησιµοποιείται αντί της καθαρής πιθανότητας. Ο MLE είναι ένας επαναληπτικός αλγόριθµος και η γενική ιδέα της λειτουργίας του αλγορίθµου για τον υπολογισµό των συντελεστών είναι η εξής: αρχίζει µε µία αρχική υποθετική τιµή των λογαριθµικών συντελεστών, κατά κάποιο τρόπο µαντεύει 4

41 την τιµή των συντελεστών και στη συνέχεια καθορίζει αν ο κάθε συντελεστής πρέπει να αυξηθεί ή να µειωθεί και κατά πόσο αυξάνοντας έτσι την πιθανότητα επιτυχηµένης πρόβλεψης (αύξηση του log likelihood). Αφού η αρχική συνάρτηση υπολογιστεί, τα υπόλοιπα ελέγχονται και γίνεται µία επανεκτίµηση µε τη βελτιωµένη συνάρτηση και η διαδικασίας επαναλαµβάνεται µέχρι να επιτευχθεί η σύγκλιση, συνήθως µέχρι το LL να µην αλλάζει σηµαντικά. Μετά την δηµιουργία του µοντέλου, χρειάζεται να καθοριστεί αν αυτό αναπαριστά τα δεδοµένα ικανοποιητικά. Ένα σύνολο από tests γίνονται για να καθοριστεί η «δύναµη» του µοντέλου, καθώς εµφανίζονται και κάποια άλλα αποτελέσµατα τα οποία βοηθούν στην αξιολόγησή του. Τα tests, τα αποτελέσµατα και η ερµηνεία τους αναφέρονται στην παράγραφο

42 2.4 ΜΕΘΟ ΟΙ ΚΑΙ ΜΕΤΡΙΚΕΣ ΑΞΙΟΛΟΓΗΣΗΣ Τα συστήµατα information retrieval και information extraction µπορούν να αξιολογηθούν µόνο από ανθρώπους που τα χρησιµοποιούν και µπορούν να κρίνουν αν τα αποτελέσµατα τα οποία τους επιστράφηκαν είναι ικανοποιητικά. Ωστόσο, ήταν αναγκαία η εύρεση µετρικών και συστηµάτων, αποδεκτά από όλους, τα οποία να είναι κοινώς αποδεκτά και να προσφέρουν µία αντικειµενική αξιολόγηση TESTS ΓΕΝΙΚΟ LIKELIHOOD RATIO TEST Το γενικό likelihood ratio test δείχνει κατά πόσο το µοντέλο ανταποκρίνεται στα δεδοµένα. Συγκεκριµένα, υπολογίζει το λογάριθµο της συνάρτησης πιθανότητας πολλαπλασιασµένο µε το -2 (συµβολίζεται -2LL) και συγκρίνει το µοντέλο που εφαρµόστηκε µε το µηδενικό µοντέλο. Ένα µοντέλο που προσαρµόζει καλά τα δεδοµένα έχει επίπεδο σηµαντικότητας συνήθως.5, που σηµαίνει ότι το µοντέλο έχει σηµαντική διαφορά από το µηδενικό µοντέλο. Αυτό βέβαια δεν είναι απόλυτο, καθώς σε διάφορες περιπτώσεις µπορεί να απαιτείται µικρότερο επίπεδο σηµαντικότητας ή ένα επίπεδο σηµαντικότητας.1 να είναι ικανοποιητικό. Έτσι, ένα likelihood ratio test ενός µοντέλου ελέγχει τη διαφορά µεταξύ του -2LL του µοντέλου µε το -2LL του µηδενικού µοντέλου. Αυτό ονοµάζεται chi-square (X 2 ) test. Στο µηδενικό µοντέλο, όλοι οι συντελεστές των εξαρτηµένων µεταβλητών είναι µηδέν και συµπερασµατικά ότι ο λογάριθµος της συνάρτησης πιθανότητας ισούται µε το σταθερό όρο. Αυτό συνεπάγεται ότι η εφαρµογή του µηδενικού µοντέλου κατηγοριοποιεί όλες τις παρατηρήσεις στην κατηγορία αναφοράς. Το µοντέλο chisquare ελέγχει τη µηδενική υπόθεση ότι όλοι οι συντελεστές της logistic regression είναι µηδενικοί εκτός του σταθερού όρου. Το test αυτό δίνει µία γενική εικόνα του µοντέλου και δείχνει ότι το µοντέλο γενικά προσαρµόζει καλά τα δεδοµένα, χωρίς αυτό να σηµαίνει ότι κάθε ανεξάρτητη µεταβλητή συνεισφέρει στη σωστή πρόβλεψη της εξαρτηµένης. Στο test αυτό οι βαθµοί ελευθερίας ισούνται µε τον αριθµό των όρων στο µοντέλο µείον 1 για το σταθερό όρο. Στα αποτελέσµατα του SPSS το γενικό likelihood ratio test φαίνεται στον πίνακα model fitting information. 42

43 LIKELIHOOD RATIO TEST ΓΙΑ ΚΑΘΕ ΠΑΡΑΜΕΤΡΟ Όταν κατασκευάζει κανείς ένα µοντέλο γενικά θέλει να περιέχει εκτιµητές που συνεισφέρουν ικανοποιητικά στο µοντέλο. Ο πίνακας του likelihood ration test εξετάζει τη συνεισφορά κάθε µεταβλητής στο µοντέλο. Το γενικό likelihood ratio test εξετάζει γενικά το µοντέλο παλινδρόµηση που εξετάστηκε και δε δίνει καµία πληροφορία αν κάποιες ανεξάρτητες µεταβλητές είναι πιο σηµαντικές από άλλες. Το test για την κάθε παράµετρο συγκρίνει το -2LL του συνολικού µοντέλου µε ένα µοντέλο στο οποίο απουσιάζει µία από τις ανεξάρτητες µεταβλητές. Μπορεί να χρησιµοποιηθεί το likelihood ratio test για να παραλειφθεί µία µεταβλητή από το µοντέλο και να δηµιουργηθεί έτσι το µειωµένο µοντέλο. Στην περίπτωση αυτή το likelihood ratio test ελέγχει αν ο συντελεστής που παραλείφθηκε στο µειωµένο µοντέλο µπορεί να αντικατασταθεί µε και αν αυτό ισχύει τότε παραλείπεται η µεταβλητή από το µοντέλο. Ένα likelihood ratio test που δεν αναγνωρίζει σηµαντική διαφορά µεταξύ του πλήρους και του µειωµένου µοντέλου παραλείπει τη µεταβλητή έχοντας έτσι ένα µοντέλο µε λιγότερες µεταβλητές, που δουλεύει όµως το ίδιο καλά. Στο SPSS τα αποτελέσµατα φαίνονται στον πίνακα Likelihood ratio tests PSEUDO R-SQUARED STATISTICS Το R 2 ή ο συντελεστής προσδιορισµού παριστάνει το ποσοστό της ολικής µεταβλητότητας του Y που υπολογίζεται από τις ανεξάρτητες µεταβλητές Χ 1, Χ 2, Χ J. Ωστόσο, η µεταβλητότητα της κατηγορικής εξαρτηµένης µεταβλητής εξαρτάται από την κατανοµή των συχνοτήτων της συγκεκριµένης µεταβλητής. To Pseudo R-squared είναι σχεδιασµένο ώστε να έχει παρόµοιες ιδιότητες µε το R 2 και προσαρµόζεται εύκολα στη multinomial logistic regression. Οι µεγάλες τιµές του pseudo R-square δείχνει ότι η µεγαλύτερη µεταβλητότητα εξηγείται από το µοντέλο µε µέγιστη τιµή τη µονάδα. Το pseudo R-square δεν ελέγχει το πόσο καλά ανταποκρίνεται το µοντέλο στα δεδοµένα, αλλά προσπαθεί να µετρήσει τη δύναµη της σχέσης. Το SPSS δίνει τρεις προσεγγίσεις του R-square των Cox και Snell, του Nagelkerke και του McFadden. 43

44 WALD STATISTIC Το Wald statistic είναι ένα test που χρησιµοποιείται για το έλεγχο της σηµαντικότητας του κάθε συντελεστή στην multinomial regression, ελέγχοντας τη µηδενική υπόθεση ότι ένας συγκεκριµένος συντελεστής είναι µηδέν. Το Wald statistic ισούται µε το λόγο του συντελεστή προς το standard error στο τετράγωνο. Το επίπεδο σηµαντικότητας του Wald statistic είναι αυτό που δείχνει αν η παράµετρος παίζει ρόλο ή αν ο συντελεστής είναι µηδενικός. Μικρό (<.5) επίπεδο σηµαντικότητας σηµαίνει ότι η παράµετρος δεν είναι. Το Wald statistic στο SPSS φαίνεται στην τέταρτη στήλη του πίνακα Parameter Estimates, ενώ το Standard Error και το επίπεδο σηµαντικότητας κάθε συντελεστή φαίνονται στην τρίτη και πέµπτη στήλη αντίστοιχα ΑΛΛΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΝΤΕΛΕΣΤΕΣ Β (LOGITS ΚΑΙ ODDS RATIO) Ο πίνακας εκτίµησης των παραµέτρων είναι δείχνει τη συνολική επιρροή κάθε εκτιµητή στην πρόβλεψη. Για κάθε κατηγορία υπολογίζεται ο συντελεστής (οι συντελεστές b στη σχέση 1) κάθε ανεξάρτητης µεταβλητής. Αν ο συντελεστής (logit) µίας παραµέτρου έχει αρνητικό πρόσηµο, η πιθανότητα να ανταποκρίνεται η παράµετρος στην κατηγορία αυτή µειώνεται σε σχέση πάντα µε την κατηγορία αναφοράς. Οι παράµετροι µε θετικούς συντελεστές αυξάνουν την πιθανότητα ότι η παράµετρος ανταποκρίνεται στην κατηγορία. Οι παράµετροι που σχετίζονται µε την κατηγορία αναφοράς για κάθε παράγοντα είναι περιττοί και δίνουν τον σταθερό όρο. Αν ο σταθερός όρος δεν περιεχόταν στο µοντέλο, τότε ο όρος αυτό δε θα ήταν περιττός. Οι τιµές των συντελεστών στο SPSS φαίνονται στη δεύτερη στήλη του πίνακα Parameter Estimates, που ονοµάζεται B. Οι συντελεστές B υψωµένοι στην e δίνουν το ρυθµό πιθανοτήτων και ονοµάζονται odds ratio. Στο SPSS φαίνονται στην έβδοµη στήλη του πίνακα Parameter Estimates Table που ονοµάζεται Exp(B). 44

45 CONFIDENCE INTERVAL FOR THE ODDS RATIO Στις δύο τελευταίες θέσεις του πίνακα Parameter Estimates του SPSS υπάρχουν η ελάχιστη και η µέγιστη τιµή για το κάθε odds ratio (Exp(B)) σε ένα διάστηµα εµπιστοσύνης 95%. Αν στο διάστηµα των τιµών µεταξύ του κάτω και του πάνω ορίου περιέχεται η τιµή 1 τότε η τιµή της µεταβλητής στην κατηγορία αυτή δεν επηρεάζει τη πιθανότητα της εξαρτηµένη µεταβλητής και άρα η µεταβλητή αυτή δε θεωρείται χρήσιµη CASE PROCESSING SUMMARY Ο πίνακας case processing summary δεν έχει σχέση µε τα αποτελέσµατα του µοντέλου, αλλά δίνει µία γενική εικόνα των αρχικών δεδοµένων. Για κάθε κατηγορία στον πίνακα αυτό αναφέρεται ο αριθµός των παρατηρήσεων που ανήκουν σε αυτή καθώς και το ποσοστό επί του συνόλου των παρατηρήσεων. Ο πίνακας αυτός βοηθάει στην αξιολόγηση του µοντέλου, όπως θα γίνει κατανοητό στη συνέχεια. Στο SPSS φαίνονται στον πίνακα µε το όνοµα case processing summary CLASSIFICATION TABLE Ο πίνακας κατηγοριοποίησης είναι ένας πίνακας n n για n κατηγορίες και καταχωρούνται σε αυτόν οι σωστές και οι λάθος εκτιµήσεις του µοντέλου. Στις στήλες φαίνονται οι τιµές που προβλέφθηκαν σε κάθε κατηγορία µε τη χρήση του µοντέλου, ενώ στις γραµµές του πίνακα φαίνονται οι πραγµατικές τιµές των παρατηρήσεων. Στην κύρια διαγώνιο είναι οι τιµές που προβλέφθηκαν σωστά από το µοντέλο, ενώ κάθε τιµή σε άλλη θέση πέρα της κύριας διαγωνίου είναι λανθασµένη. Ένα τέλειο µοντέλο θα έδινε έναν πίνακα κατηγοριοποίησης µε τιµές µόνο στην κύρια διαγώνιό του και µηδενικές τιµές σε κάθε άλλη θέση. Στην τελευταία στήλη, καταχωρείται το ποσοστό σωστής πρόβλεψης για κάθε κατηγορία και στην τελευταία θέση, το ποσοστό σωστής πρόβλεψη για όλες τις κατηγορίες. Στην τελευταία γραµµή του πίνακα δίνεται το ποσοστό από το σύνολο των δεδοµένων που κατηγοριοποιήθηκαν στην κάθε κατηγορία. Ο πίνακας κατηγοριοποίησης µπορεί να συγκριθεί µε τον πίνακα case processing summary για να αποφασιστεί αν το µοντέλο κατηγοριοποιεί καλύτερα τα δεδοµένα 45

46 από το µηδενικό µοντέλο. Στην περίπτωση της χρήσης του µηδενικού µοντέλου, όλα τα δεδοµένα κατηγοριοποιούνται στην κατηγορία αναφοράς. Αν το συνολικό ποσοστό επιτυχηµένης κατηγοριοποίησης είναι µεγαλύτερο από το ποσοστό των παρατηρήσεων που ανήκουν στην κατηγορία αναφοράς, τότε το µοντέλο προσαρµόζει καλύτερα τα δεδοµένα [Garson, 26]. Στο SPSS τα αποτελέσµατα της κατηγοριοποίησης φαίνονται στον πίνακα classification ΜΕΤΡΙΚΕΣ ΑΠΟ ΟΣΗΣ PRECISION ΚΑΙ RECALL Τα precision και recall είναι µετρικές αξιολόγησης, τόσο των συστηµάτων information retrieval, όσο και των συστηµάτων information extraction. Το precision αναφέρεται στο ποσοστό της επιστρεφόµενης πληροφορίας που είναι σχετική, σε σχέση µε την πληροφορία που επιστράφηκε. Σε ένα σύστηµα information retrieval, για παράδειγµα, έστω ότι έχουν επιστραφεί δέκα κείµενα µετά την αναζήτηση. Αν τα οχτώ από τα δέκα που επιστράφηκαν είναι σχετικά µε το ερώτηµα, τότε το precision έχει την τιµή 8%. Η τιµή του recall δείχνει την ποσότητα της σχετική πληροφορίας που ανακτήθηκε, σε σχέση µε την ποσότητα σχετικής πληροφορίας που υπάρχει στο σύνολο που γίνεται η αναζήτηση. Αν στο προηγούµενο παράδειγµα, η συλλογή των κειµένων, στην οποία πραγµατοποιείται η αναζήτηση, είχε δεκαέξι κείµενα σχετικά µε το ερώτηµα που τέθηκε και ανακτήθηκαν τα οχτώ, τότε η τιµή του recall είναι 5%. Αναλυτικότερα, έστω ότι υπάρχει ένα σύνολο N αντικειµένων (όροι, προτάσεις, κείµενα). Τα αντικείµενα αυτά θα αξιολογηθούν ως θετικά ή αρνητικά, σε σύµφωνα µε κάποια κριτήρια, αν για παράδειγµα είναι σχετικά µε ένα ερώτηµα (στην περίπτωση query based συστηµάτων), αν ανήκουν σε µία κατηγορία κειµένων (στην περίπτωση του text categorization) ή αν ανήκουν σε µία κατηγορία όρων (στην περίπτωση των information extraction συστηµάτων). Υπάρχουν τέσσερις πιθανότητες: 46

47 1. Κάποια αντικείµενα, έστω Α στον αριθµό, αξιολογούνται σωστά ως σχετικά. 2. Κάποια αντικείµενα, έστω Β στον αριθµό, αξιολογούνται λανθασµένα ως σχετικά. 3. Κάποια αντικείµενα, έστω C στον αριθµό, αξιολογούνται σωστά ως µη σχετικά. 4. Κάποια αντικείµενα, έστω D στον αριθµό, αξιολογούνται λανθασµένα ως µη σχετικά., όπου ισχύει η σχέση N = A + B + C + D Το precision, έστω P ισούται µε A P= A+ B σχέση 11,δηλαδή ισούται µε τον αριθµό των αντικειµένων που αξιολογήθηκαν σωστά ως σχετικά προς τον αριθµό των αντικειµένων που αξιολογήθηκαν ως σχετικά, είτε αξιολογήθηκαν σωστά είτε λανθασµένα. Το recall, έστω R ισούται µε A R= A+ D σχέση 12, δηλαδή το recall ισούται µε τον αριθµό των αντικειµένων που αξιολογήθηκαν σωστά ως σχετικά προς τον αριθµό των αντικειµένων που είναι σχετικά, άσχετα αν έχουν αξιολογηθεί σωστά ή λανθασµένα [Manning and Schütze] F-SCORE, ACCURACY Πολλές φορές υπάρχει µία «δοσοληψία» µεταξύ του precision και του recall. Μία εναλλακτική λύση που συνδυάζει τις δύο αυτές τιµές είναι το F-score (Rijsbergen, 1979). Στην πιο απλή µορφή του περιγράφεται από τη σχέση: PR F = 2 P+ R σχέση 13 47

48 ,όπου P το precision και R το recall, όπως ορίστηκαν παραπάνω. Η τιµή του F κυµαίνεται µεταξύ και 1, όπου το 1 σηµαίνει ότι το σύστηµα αξιολογεί σωστά όλα τα αντικείµενα και χαρακτηρίζει, κατ επέκταση τα όλα τα σχετικά αντικείµενα της συλλογής ως σχετικά και όλα τα µη σχετικά αντικείµενα ως µη σχετικά. Μία πιο γενική έκφραση του F-score επιτρέπει την εισαγωγή ενός συντελεστή βαρύτητας στο precision ή στο recall (Shaw et al., 1997, Yang, 1999). Η ιδέα στηρίζεται στο γεγονός ότι σε κάποια συστήµατα είναι σηµαντικότερη η µία µετρική και πρέπει να της δοθεί µία παραπάνω βαρύτητα. To F-score, που συµβολίζεται F β, ισούται µε: F 2 ( β + 1) β = 2 PR β P+ R σχέση 14 όταν το β ισούται µε 1 τότε το F β ισούται µε το F. Μία άλλη µετρική τέτοιων συστηµάτων είναι η accuracy. Εισήχθη από τον Yang (1999) και αξιολογεί την ακρίβεια του συστήµατος. Ισούται µε το λόγο των αντικειµένων που έχουν αξιολογηθεί σωστά είτε ως σχετικά είτε ως µη σχετικά, προς το σύνολο των αντικειµένων. A+ C acc= N σχέση 15 το acc παίρνει τιµές από ως 1 και ισούται µε τη µονάδα όταν όλα τα αντικείµενα έχουν αξιολογηθεί σωστά, ενώ ισούται µε το όταν κανένα αντικείµενο δεν έχει αξιολογηθεί σωστά [Manning and Schütze]. 48

49 ΜΕΡΟΣ Β: ΠΕΙΡΑΜΑ 49

50 3. ΥΛΟΠΟΙΗΣΗ ΠΕΙΡΑΜΑΤΟΣ Για την δηµιουργία και την αξιολόγηση του µοντέλου κατηγοριοποίησης ακολουθήθηκε η µεθοδολογία που περιγράφηκε στην προηγούµενη ενότητα. Το σύνολο των δεδοµένων για την κατασκευή του µοντέλου είναι το ίδιο που χρησιµοποιήθηκε και για την αξιολόγησή του. 5

51 3.1 ΗΜΙΟΥΡΓΙΑ ΤΟΥ ΣΥΝΟΛΟΥ Ε ΟΜΕΝΩΝ Στην πρώτη φάση, ανακτήθηκαν 99 abstract κείµενα από την PubMed. Για την ανάκτησή τους, χρησιµοποιήθηκαν κάποιες λέξεις κλειδιά µε τη µορφή ερωτήµατος (query) στην PubMed. Οι λέξεις κλειδιά που χρησιµοποιήθηκαν, είναι όροι της Medical Subject Headings (MeSH) για καλύτερα αποτελέσµατα στην αναζήτηση. Αξίζει να σηµειωθεί ότι ο στόχος των όρων της MeSH είναι να δεικτοδοτήσει τα άρθρα στην PubMed, ενώ οι όροι της GO έχουν σκοπό να περιγράψουν τις λειτουργίες των γονιδίων ή των γονιδιακών προϊόντων. Ωστόσο, κάποιοι όροι της MeSH µπορούν να αντιστοιχηθούν σε όρους της GO [Theodosiou, 26]. Η αντιστοίχηση των όρων της MeSH που χρησιµοποιήθηκαν µε τους όρους της GO φαίνεται στον πίνακα 11. Πίνακας 11 Χρησιµοποιήθηκαν λοιπόν, 12 λέξεις κλειδιά από τη MeSH, όπου κάθε µία από αυτές αντιστοιχίζεται µε τον αντίστοιχο GO code για τη ανάκτηση 99 κειµένων. Τα κείµενα χωρίστηκαν σε k=12 κατηγορίες σύµφωνα µε τη λέξη κλειδί που χρησιµοποιήθηκε για την ανάκτησή τους, όπως φαίνεται και στον πίνακα 11. Λόγω ευκολία, οι κατηγορίες δεικτοδοτήθηκαν µε αριθµούς από 11 ως 22, όπου ο αριθµός 11 αναφέρεται στην κατηγορία 1, ο αριθµός 12 στην κατηγορία 2 κοκ. Αξίζει να σηµειωθεί ότι ο αριθµός των κειµένων που ανήκουν σε κάθε κατηγορία δεν είναι ο ίδιος (τα κείµενα δεν είναι οµοιόµορφα κατανεµηµένα), ωστόσο αυτό δε δηµιουργεί προβλήµατα στην κατασκευή του µοντέλου. Στο παρακάτω διάγραµµα (εικόνα 3), φαίνεται η κατανοµή των κειµένων ανάλογα µε την κατηγορία στην οποία ανήκουν. 51

52 Groups 11, 12, 13, 14, 15, 16, 17, 18, 19, 2, Εικόνα 3 Στα κείµενα αυτά, εφαρµόστηκαν µε τη σειρά που αναφέρονται οι διαδικασίες: Tokenization Απόρριψη των stop words σύµφωνα µε τον αλγόριθµο που χρησιµοποιείται στην PubMed. Stemming, κάνοντας χρήση ενός αλγορίθµου που στηρίζεται στην υλοποίηση της Perl από τη Mary D. Taffet. Απόρριψη των όρων που έχουν συχνότητα πάνω από 95% και κάτω από.5% στο σύνολο των κειµένων. Από την εφαρµογή των διαδικασιών αυτών προέκυψε το λεξιλόγιο το οποίο µετρά 1621 όρους. Στη συνέχεια, κάθε κείµενο d, αντιπροσωπεύτηκε από ένα n-διάστατο διάνυσµα (x d1, x d2,, x dn ), όπου x di είναι το βάρος του όρου t i στο κείµενο d. Για την απόδοση βαρών χρησιµοποιήθηκε το δυαδικό σχήµα, που σύµφωνα µε αυτό, το βάρος x di ισούται µε 1 όταν ο όρος t i εµφανίζεται µέσα στο κείµενο d, ενώ ισούται µε όταν ο όρος t i δεν εµφανίζεται στο κείµενο. Το αποτέλεσµα των παραπάνω διαδικασιών είναι ένας πίνακας , 99 γραµµές, µία για κάθε κείµενο και 1623 στήλες, 1621 στήλες για τους όρους του λεξιλογίου, µία στήλη που αναγράφεται ο κωδικός του κάθε κειµένου και µία στήλη που αναφέρει την κατηγορία στην οποία ανήκει το κείµενο. Οι 1621 στήλες για τους όρους του λεξιλογίου συµπληρώνονται µε και 1 σύµφωνα µε τη σχέση 1, ενώ η δεύτερη στήλη συµπληρώνεται µε έναν φυσικό αριθµό από 11 ως 22 που αναπαριστούν τις 12 κατηγορίες. 52

53 Κάποιοι όροι µπορούν να θεωρηθούν χαρακτηριστικοί κάθε κατηγορίας, καθώς εµφανίζονται ιδιαίτερα συχνά στα κείµενα που ανήκουν σε αυτές. Παρακάτω, (πίνακας 12) φαίνονται οι 5 όροι για κάθε κατηγορία που εµφανίζονται συχνότερα. Κατηγορία 11 Αριθµός κειµένων: 178 Όρος Συχνότητα autophagy 124 protein 17 degrad 15 cell 11 autoph 1 Κατηγορία 12 Αριθµός κειµένων: 678 Όρος Συχνότητα cell 616 gene 452 cycl 413 protein 368 express 3 Κατηγορία 13 Αριθµός κειµένων: 316 Όρος Συχνότητα prol 315 cell 315 express 193 gene 185 or 145 Κατηγορία 14 Αριθµός κειµένων: 182 Όρος Συχνότητα gene 11 express 12 synapt 91 protein 88 cell 79 Κατηγορία 15 Αριθµός κειµένων: 931 Όρος Συχνότητα gene 729 express 527 protein 449 cell 424 Sequ 373 Κατηγορία 16 Αριθµός κειµένων: 842 meiot 638 meios 489 protein 48 cell 384 not 382 or 345 Κατηγορία 17 Αριθµός κειµένων: 869 Όρος Συχνότητα gene 679 express 395 not 374 sequ 352 protein 346 Κατηγορία 18 Αριθµός κειµένων:184 Όρος Συχνότητα cell 92 transform 782 gene 644 express 6 act 558 Κατηγορία 19 Αριθµός κειµένων: 973 Όρος Συχνότητα gene 717 dna 68 cell 516 repair 482 or

54 Κατηγορία 2 Αριθµός κειµένων: 93 Όρος Συχνότητα transport 914 gene 684 protein 66 encod 441 cell 426 Κατηγορία 21 Αριθµός κειµένων: 989 Όρος Συχνότητα apoptos 886 cell 875 express 624 induc 599 gene 559 Πίνακας 12 Κατηγορία 22 Αριθµός κειµένων:137 Όρος Συχνότητα sign 882 act 71 cell 679 protein 631 gene 62 54

55 3.2 ΑΠΟΤΕΛΕΣΜΑΤΑ ΤΗΣ PCA Στο σύνολο των δεδοµένων εφαρµόστηκε η µέθοδος PCA ως µία τεχνική LSI για την ανακάλυψη εννοιολογικών σχέσεων µεταξύ των όρων του λεξιλογίου. Η PCA, υπολογίζει αρχικά την διακύµανση και στη συνέχεια την ιδιοτιµή κάθε µεταβλητής και αφαιρεί τις µεταβλητές µε ιδιοτιµές µικρότερες του 1. Πιο συγκεκριµένα παράχθηκαν τα εξής αποτελέσµατα: Πίνακας 13 Στον πίνακα 13 υπολογίζονται τα Communalities, που δείχνουν το σύνολο της διακύµανσης για την κάθε µεταβλητή. Τα initial communalities είναι οι εκτιµήσεις της διακύµανσης σε κάθε µεταβλητή που ερµηνεύονται για όλους τους παράγοντες. Στην PCA ισούται πάντα µε 1. Το extraction communalities είναι οι εκτιµήσεις της διακύµανσης για την κάθε µεταβλητή που ερµηνεύεται σαν component. 55

56 Πίνακας 14 Η στήλη total στον πίνακα Total Variance Explained (πίνακας 14) δίνει τις ιδιοτιµές των αρχικών µεταβλητών που συµπεριλαµβάνονται για κάθε συστατικό. Το %variance δίνει το λόγο σε ποσοστό %, της διακύµανσης για κάθε συστατικό σε σχέση µε τη συνολική διακύµανση για όλες της µεταβλητές. Το αθροιστικό ποσοστό δίνει το ποσοστό της διακύµανσης για τα πρώτα n συστατικά. Αρχικά υπάρχουν τόσοι συντελεστές όσες και οι µεταβλητές, και στην ανάλυση συσχέτισης το άθροισµα των ιδιοτιµών ισούται µε τον αριθµό των συστατικών. Οι ιδιοτιµές µεγαλύτερες του1 κρατούνται, ενώ οι υπόλοιπες εξαιρούνται. 56

57 Πίνακας 15 Στο Scree Plot αναπαριστάται γραφικά το ιδιοτιµές κάθε component. Η γραφική παράσταση βοηθάει στο να καθοριστεί ο ιδανικός αριθµός των components που θα χρησιµοποιηθούν στη µετέπειτα επεξεργασία των δεδοµένων. Τα components µε µεγάλη τιµή ιδιοτιµές µπορούν να περιγράψουν ικανοποιητικά τα δεδοµένα, ενώ τα components µε µικρές τιµές συνεισφέρουν ελάχιστα και µπορούν να παραλειφθούν. 57

58 Πίνακας 16 Ο ανεστραµµένος πίνακας των συστατικών (πίνακας 16) βοηθάει για να καθοριστεί τι αντιπροσωπεύει το κάθε στοιχείο, δηλαδή σε τι ποσοστό συνεισφέρει κάθε µία από τις αρχικές µεταβλητές στην κάθε νέα µεταβλητή που δηµιουργήθηκε µετά την εφαρµογή της µεθόδου PCA. Μετά την εφαρµογή της µεθόδου PCA, δηµιουργήθηκαν 622 µεταβλητές, που αντικατέστησαν τις 1621 αρχικές ανεξάρτητες µεταβλητές. Οι τιµές που παίρνει κάθε µεταβλητή για κάθε κατηγορία µπορεί να θεωρηθεί ένδειξη για την κατηγορία που χαρακτηρίζει καλύτερα. Έτσι, αν οι τιµές µίας µεταβλητής διαφέρουν για µία συγκεκριµένη κατηγορία, σηµαίνει ότι η µεταβλητή αυτή συνεισφέρει αρκετά στην πρόβλεψη της κατηγορίας αυτής. 58

59 REGR factor score 1 for analysis 1 4, 2,, -2, -4, , 12, 13, 14, 15, 16, 17, 18, 19, 2, 21, 22, Groups Εικόνα 4 REGR factor score 2 for analysis 1 4, 2,, -2, , 12, 13, 14, 15, 16, 17, 18, 19, 2, 21, 22, Groups Εικόνα 5 Από τα boxplots για τις µεταβλητές 1 και 2 (εικόνα 4 και 5 αντίστοιχα) φαίνεται, ότι η πρώτη µεταβλητή διακρίνει καλύτερα τις κατηγορίες 2 και 21, ενώ οι τιµές της δεύτερης µεταβλητής σε κάθε κατηγορία, δεν φαίνεται να διαφέρουν ιδιαίτερα, ώστε να συµπεράνει κανείς ότι η µεταβλητή αυτή είναι χαρακτηριστική για µία κατηγορία. Στην εικόνα 6, ωστόσο, που φαίνεται το boxplot για την τέταρτη µεταβλητή, φαίνεται καθαρά, ότι η µεταβλητή παίρνει αρκετά διαφορετικές τιµές για την κατηγορία

60 REGR factor score 4 for analysis 1 8, 6, 4, 2,, -2, , 12, 13, 14, 15, 16, 17, 18, 19, 2, 21, 22, Groups Εικόνα 6 Αν η κάθε µεταβλητή µπορεί να διακρίνει κάποια κατηγορία, η χρήση παραπάνω µεταβλητών κάνει τη διάκριση ακόµα πιο φανερή. Στα scatter plots που ακολουθούν παραθέτονται δύο µεταβλητές κάθε φορά και φαίνονται οι τιµές που παίρνουν σε κάθε κατηγορία. REGR factor score 2 for analysis 1 4, 2,, -2, Groups 11, 12, 13, 14, 15, 16, 17, 18, 19, 2, 21, 22, -4, -2,, 2, 4, REGR factor score 1 for analysis 1 Εικόνα 7 6

61 REGR factor score 3 for analysis 1 6, 4, 2,, -2, -4, -4, -2,, 2, 4, REGR factor score 1 for analysis 1 Groups 11, 12, 13, 14, 15, 16, 17, 18, 19, 2, 21, 22, Εικόνα 8 Στις εικόνες 7 και 8, φαίνονται τα scatter γραφήµατα για τις µεταβλητές 1 και 2, και 1 και 3 αντίστοιχα. Η κάθε κατηγορία δεικτοδοτείται µε διαφορετικό χρώµα. Οι µεταβλητές διακρίνουν αρκετά καλά τις κατηγορίες, αφού οι τιµές της κάθε κατηγορίας είναι οµαδοποιηµένες. Από την εικόνα 1, φαίνεται ότι η πρώτη και η δεύτερη µεταβλητή διακρίνουν αρκετά καλά τις κατηγορίες 2, 21 και 22, ενώ η χρήση της πρώτης και της τρίτης µεταβλητής, εκτός από τις προαναφερθείσες κατηγορίες διακρίνει και τις κατηγορίες 15 και 19 (εικόνα 8). Η χρήση της τρίτης και της τέταρτης µεταβλητής διακρίνει αρκετά καλά την 16 η κατηγορία (εικόνα 9). REGR factor score 4 for analysis 1 8, 6, 4, 2,, -2, -4, -2,,2,4, 6, REGR factor score 3 for analysis 1 Groups 11, 12, 13, 14, 15, 16, 17, 18, 19, 2, 21, 22, Εικόνα 9 61

62 Αν η χρήση δύο και µόνο µεταβλητών ξεχωρίζει κάποιες από τις κατηγορίες, τότε περισσότερες µεταβλητές είναι δυνατόν να ξεχωρίζουν και τις 22 κατηγορίες. Στις εικόνες 1 και 11 φαίνονται αντίστοιχα οι τιµές µεταβλητών 1, 2,3 και 2, 4, 5 ανά κατηγορία. REGR factor score 2 for analysis 1 4, 2,, Groups 11, 12, 13, 14, 15, 16, 17, 18, 19, 2, 21, 22, -2, -4, -2,, 2, REGR factor score 1 for analysis 1 4,, 2, 4, -2, -4, REGR factor score 3 for analysis 1 Εικόνα 1 62

63 REGR factor score 4 for analysis 1 8, 6, 4, 2, Groups 11, 12, 13, 14, 15, 16, 17, 18, 19, 2, 21, 22,, -2, -2,, 2, 4, REGR factor score 2 for analysis 1 4, 2, -2,, -4, REGR factor score 5 for analysis 1 Εικόνα 11 Για την κατασκευή του µοντέλου κατηγοριοποίησης, χρησιµοποιήθηκαν 1 µεταβλητές, οι πρώτες 1 µεταβλητές της PCA, πράγµα που σηµαίνει ότι το scatter plot, είναι ένα γράφηµα 1 διαστάσεων, µε κάθε διάσταση να αντιπροσωπεύει µία µεταβλητή και οι τιµές της κάθε κατηγορίας δεικτοδοτούνται µε διαφορετικό χρώµα. 63

64 3.3 ΑΠΟΤΕΛΕΣΜΑΤΑ ΤΗΣ MULTINOMIAL LOGISTIC REGRESSION Κατόπιν, από τις 622 µεταβλητές χρησιµοποιήθηκαν οι πρώτες 1 για την εφαρµογή της multinomial logistic regression. Ο λόγος που δεν χρησιµοποιήθηκαν και οι 622 µεταβλητές ήταν η αδυναµία επεξεργασίας ενός τόσο µεγάλου συνόλου δεδοµένων µε τα υπάρχοντα υπολογιστικά µέσα. Ωστόσο, οι 1 πρώτες µεταβλητές αντιπροσωπεύουν αρκετά καλά τα δεδοµένα, όπως φαίνεται και από το Scree Plot (πίνακας 15). Τα αποτελέσµατα της multinomial logistic regression είναι τα παρακάτω: Πίνακας 17 Ο πίνακας Case Processing Summary (πίνακας 17) καταγράφει τον αριθµό των κειµένων που έχουν κατηγοριοποιηθεί σε κάθε κατηγορία και το ποσοστό της κάθε κατηγορίας επί του συνόλου των δεδοµένων. Αξίζει να σηµειωθεί ακόµη µία φορά, ότι ο πίνακας αυτός αφορά τα αρχικά δεδοµένα και όχι τα αποτελέσµατα του µοντέλου. Η κατηγορία 22 είναι η κατηγορία αναφοράς, πράγµα που σηµαίνει ότι 64

65 αντιπροσωπεύει το µηδενικό µοντέλο. Κατά συνέπεια, το µηδενικό µοντέλο θα κατηγοριοποιούσε σωστά το 11,5% των δεδοµένων (137 παρατηρήσεις από τις 99), µιας και όλες οι παρατηρήσεις θα κατηγοριοποιούταν στην 22 κατηγορία. Η σύγκριση αυτού του πίνακα µε τον πίνακα κατηγοριοποίησης δείχνει κατά πόσο βελτιώνει τα αποτελέσµατα η εφαρµογή του µοντέλου. Πίνακας 18 Ο πίνακας Model Fitting Information (πίνακας 18) είναι ένα γενικό likelihood ratio test. Το µοντέλο που χρησιµοποιήθηκε είναι καλύτερο από το µηδενικό µοντέλο και αυτό φαίνεται τόσο από το Chi-Square Statistic, όσο και από το επίπεδο σηµαντικότητας (Sig.). Αφού το sig. είναι µικρότερο.5 ( στην προκειµένη περίπτωση) το µοντέλο είναι καλύτερο από το µηδενικό µοντέλο και άρα αναπαριστά καλά τα αρχικά δεδοµένα. Πίνακας 19 Το στατιστικό Pseudo R-Square (πίνακας 19), δείχνει ότι ένα µεγάλο ποσοστό της ολικής µεταβλητότητας της εξαρτηµένης µεταβλητής υπολογίζεται από τις ανεξάρτητες µεταβλητές. Οι προσεγγίσεις των Cox και Snell και του Nagelkerke 65

Δείτε περισσότερα