ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΚΑΤΕΥΘΥΝΣΗ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Τεχνικές εξόρυξης σε θεµατικά οργανωµένο περιεχόµενο του Παγκόσµιου Ιστού» Μπαλασάς Αντώνιος AEM 109 Επιβλέπουσα Καθηγήτρια: Βακάλη Αθηνά Τριµελής Επιτροπή: Βακάλη Αθηνά Αγγελής Ελευθέριος Παπαδόπουλος Απόστολος Θεσσαλονίκη 2007

2 Μια διπλωµατική εργασία είναι πάντοτε καρπός µελέτης και προσπάθειας. Μελέτης, για να γνωρίζεις τι γράφεις, Προσπάθειας για να µπορέσεις να προσθέσεις και εσύ κάτι παραπάνω σε αυτό που κάποιοι άλλοι ξεκίνησαν για όλους µας. Η µελέτη ήταν ευκολότερη χάρη στην πολύτιµη βοήθεια της κυρίας Αθηνάς Βακάλη Και η προσπάθεια λιγότερο κουραστική εξ αιτίας της αµέριστης συµπαράστασης που µου προσέφερε η οικογένειά µου 1

3 Περιεχόµενα Περιεχόµενα...2 Περίληψη...4 Abstract...4 Εισαγωγή...5 Στόχος υλοποίησης...5 ιάρθρωση Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση Εξόρυξη δεδοµένων στον Παγκόσµιο Ιστό Γενικά Τι είναι η εξόρυξη δεδοµένων Παγκοσµίου Ιστού Η εξόρυξη δεδοµένων στον Π.Ι. και η σχέση του µε άλλα πεδία Εξόρυξη δεδοµένων στον Π.Ι. και ανάκτηση πληροφορίας Εξόρυξη δεδοµένων στον Π.Ι. και εξαγωγή πληροφορίας Κατηγορίες εξόρυξης δεδοµένων στον Π.Ι Εξόρυξη δεδοµένων περιεχοµένου στον Π.Ι Εξόρυξη δεδοµένων δοµής στον Π.Ι Εξόρυξη δεδοµένων χρήσης στον Π.Ι ιάκριση των κατηγοριών στην εξόρυξη δεδοµένων στον Π.Ι Εξόρυξη δεδοµένων στον Π.Ι. και τα συστήµατα πρακτόρων Εξόρυξη δεδοµένων Π.Ι. σε ηµιδοµηµένα δεδοµένα Οµαδοποίηση Εισαγωγή Ορισµός της έννοιας ιαδικασία Οµαδοποίησης Στάδια οµαδοποίησης Είδη αλγορίθµων Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων Ανάκτηση πληροφορίας µέσω του TF-IDF Γενικά Ο ρόλος του TF IDF στην ανάκτηση ερωτηµάτων Μαθηµατικό υπόβαθρο Κωδικοποίηση του TF-IDF Πειραµατικά αποτελέσµατα Εύρεση θεµατικών ενοτήτων από αρχεία νέων χρησιµοποιώντας τον αλγόριθµο TF*PDF Εισαγωγή TF*PDF Η λογική στον TF*PDF Ο αλγόριθµος TF*PDF ιάνυσµα πρότασης Πειραµατικά αποτελέσµατα Εντοπισµός τάσεων (trends) µε χρήση δυναµικής εξόρυξης δεδοµένων περιεχοµένου στον Παγκόσµιο Ιστό

4 2.3.1 Εισαγωγή υναµική ανάλυση νέων Πειραµατικά αποτελέσµατα Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού Η προσέγγιση µας Εισαγωγή Περιγραφή του αλγορίθµου Γραµµατική Ανίχνευση (Part of Speech Tagging) Stemming Πειραµατικά αποτελέσµατα Συµπεριφορά του k-means ως προς τον αριθµό των αδύναµων οµάδων (outliers) Αποτελέσµατα της ιεραρχικής οµαδοποίησης...68 Σύνοψη...76 Μελλοντική εργασία...76 Παράρτηµα - Εργαλεία εφαρµογής...77 Π1. RSS aggregators...77 Π1.1 Τι είναι τα RSS;...77 Π1.2 Ο SharpReader...77 Π2. Εξαγωγή HTML σελίδων...78 Π3. Το εργαλείο εξόρυξης δεδοµένων Knime...81 Βιβλιογραφία

5 Περίληψη Περίληψη Ο Παγκόσµιος Ιστός κατακλύζεται καθηµερινά από εκατοµµύρια ειδησεογραφικές ιστοσελίδες κάθε µία από τις οποίες πραγµατεύεται ένα συγκεκριµένο θεµατικό αντικείµενο. Οι χρήστες κατά την πλοήγησή τους στον Π.Ι. αναζητούν τα περισσότερο σηµαντικά νέα. Είναι λοιπόν χρήσιµή µία τεχνική που να µπορεί να οµαδοποιεί τα νέα, βάσει του θεµατικού τους αντικειµένου έτσι ώστε νέα µε παρεµφερές περιεχόµενο να ανήκουν στην ίδια οµάδα και νέα που διαφέρουν στο περιεχόµενο να ανήκουν σε διαφορετική. Στην παρούσα διπλωµατική εργασία προτείνεται µία µέθοδος εξαγωγής των κυρίων θεµατικών ενοτήτων από ένα σύνολο εγγράφων. Μέσω αυτής της µεθόδου ο χρήστης µπορεί να αναλύσει ένα σύνολο εγγράφων και να τα οµαδοποιήσει χρησιµοποιώντας από τη βιβλιογραφία, τους διαθέσιµους αλγορίθµους οµαδοποίησης. Abstract The Web is submerged daily by million web pages for news concerning a specific topic. During browsing, users search for the most important news. It is therefore useful to find a technique that could cluster the news, based on their topic so that news with resembling content belong in the same cluster and news that differ in the content, belong in different cluster. In this dissertation, there is a presentation of a method of exporting basic topics from a document set. Any user, using this method, can analyze a set of documents and he can cluster them using the available clustering algorithms found in literature. 4

6 Εισαγωγή Εισαγωγή Στόχος υλοποίησης Η παρούσα διπλωµατική εργασία πραγµατεύεται την εξόρυξη δεδοµένων στον Παγκόσµιο Ιστό (ή αλλιώς Web Mining). Μέσα από την εργασία αυτή γίνεται µία προσπάθεια κατανόησης του όρου της εξόρυξης και της οµαδοποίησης των δεδοµένων παγκοσµίου ιστού. Για την παρούσα εργασία, τα δεδοµένα αυτά προέρχονται από ειδησεογραφικές δικτυακές πηγές (web sites, news wire κτλ.). Αναλύονται διαφορετικές τεχνικές που µελετήθηκαν στην βιβλιογραφία, σχετικές µε την εύρεση θεµατικών ενοτήτων και στην συνέχεια προτείνεται ένας νέος τρόπος προσέγγισης των παραπάνω δεδοµένων που συνδυάζει τις ήδη υπάρχουσες τεχνικές. Σκοπός της παρούσας διπλωµατικής εργασίας είναι η ανεύρεση θεµατικών ενοτήτων πάνω σε έγγραφα του Π.Ι.. Για ένα σύνολο ειδησεογραφικών εγγράφων γίνεται προσπάθεια οµαδοποίησης αυτών σε οµάδες που πιθανόν να έχουν ίδιο θέµα. Η προσέγγιση αυτή, παρέχει καλύτερες µεθόδους για την οµαδοποίηση ενός συνόλου εγγράφων παγκοσµίου ιστού βασιζόµενη αποκλειστικά στο περιεχόµενο των εγγράφων που αναλύονται. ιάρθρωση Η διπλωµατική εργασία αποτελείται από τρεις κύριες ενότητες η διάρθρωση των οποίων έχει ως εξής: Στην πρώτη ενότητα µελετάται περισσότερο θεωρητικά η έννοια της εξόρυξης δεδοµένων στον Π.Ι. και των τριών κατηγοριών που αυτή αντιπροσωπεύει: o την εξόρυξη δεδοµένων περιεχοµένου στον Π.Ι. (Web Content Mining), o την εξόρυξη δεδοµένων δοµής στον Π.Ι. (Web Structure Mining) και o την εξόρυξη δεδοµένων χρήσης στον Π.Ι. (Web Usage Mining). 5

7 Εισαγωγή Στη συνέχεια εξηγείται ο όρος της οµαδοποίησης και ο ρόλος που παίζει στην εξόρυξη δεδοµένων. Η δεύτερη ενότητα εστιάζεται περισσότερο πάνω στο θεµατικό µας αντικείµενο. Την εξόρυξη δεδοµένων πάνω σε δυναµικές πηγές νέων (news sources). Σε αυτή την ενότητα παρουσιάζονται τρία είδη αλγορίθµων που µε διαφορετική φιλοσοφία ο καθένας προσπαθεί να βρει τα θέµατα εκείνα που περιγράφουν ένα έγγραφο Π.Ι. Έτσι µελετάται: o Ο αλγόριθµος TF-IDF, ίσως ο πιο γνωστός αλγόριθµος που συναντάται στην βιβλιογραφία και εστιάζει στην ανάθεση βαρών για κάθε όρο ενός εγγράφου. Όροι µε µεγαλύτερο βάρος, περιγράφουν καλύτερα το έγγραφο στο οποίο περιέχονται. o Ο αλγόριθµος TF*PDF που διαχωρίζει τις δικτυακές πηγές νέων σε διαφορετικά κανάλια. Για κάθε κανάλι ανιχνεύει τα θέµατα που έχουν συζητηθεί εντονότερα. Κάθε θέµα αποτελείται από ορισµένους όρους οι οποίοι βαθµολογούνται υψηλά λόγω της σηµαντικότητάς τους o Εντοπισµός των τάσεων (trends τον πιο δηµοφιλών νέων) µέσω στατιστικής ανάλυσης που βασίζεται στο POS tagging (δηλαδή στην γραµµατική ανάλυση των µερών του λόγου για κάθε όρο ενός εγγράφου). Στην τρίτη ενότητα, προτείνεται µία υβριδική προσέγγιση σύµφωνα µε την οποία το POS Tagging σε συνδυασµό µε τη µέτρηση συχνότητας για κάθε όρο µπορούν να συντελέσουν σε µία απλούστερη και καλύτερη µορφή εντοπισµού των θεµατικών ενοτήτων πάνω σε ένα σύνολο εγγράφων. Στη συνέχεια παρουσιάζονται τα πειραµατικά αποτελέσµατα για την µέθοδο αυτή και τα συµπεράσµατα που προκύπτουν. Η διπλωµατική εργασία κλείνει συνοψίζοντας την συνολική προσπάθειά µας. 6

8 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση 1. Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση 1.1 Εξόρυξη δεδοµένων στον Παγκόσµιο Ιστό Γενικά Εξαιτίας του µεγάλου όγκου πληροφορίας που είναι διαθέσιµη online, ο Παγκόσµιος Ιστός είναι µια αξιόλογη περιοχή για την έρευνα στην εξόρυξη δεδοµένων. Σχετική έρευνα για την εξόρυξη του Παγκοσµίου Ιστού (Π.Ι) γίνεται από διάφορες περιοχές όπως τις βάσεις δεδοµένων, την ανάκτηση πληροφορίας και την Τεχνητή Νοηµοσύνη, και πιο συγκεκριµένα στις επιστηµονικές περιοχές σχετικές µε την µηχανική µάθηση (Machine Learning) και την επεξεργασία φυσικής γλώσσας (Natural Language Processing). Παρόλα αυτά επικρατεί σύγχυση όταν συγκρίνονται διαφορετικές προσεγγίσεις. Ο Παγκόσµιος Ιστός είναι ένα δηµοφιλές και διαδραστικό µέσο συγκέντρωσης πληροφορίας. Ο Π.Ι. είναι τεράστιος, διαφόρων ειδών και δυναµικός, γι αυτό το λόγο αυξάνονται αντίστοιχα και η κλιµάκωση, τα πολυµεσικά δεδοµένα και τα χρονικά προβλήµατα. Εξαιτίας αυτών των καταστάσεων, είναι διαθέσιµη µια υπερπληθώρα πληροφορίας. Οι χρήστες που αλληλεπιδρούν µε τον Π.Ι. για αναζήτηση πληροφοριών, συναντούν τα ακόλουθα προβλήµατα: 1. Την εύρεση σχετικής πληροφορίας: Οι χρήστες για να βρουν συγκεκριµένες πληροφορίες από το ιαδίκτυο πλοηγούνται στον Π.Ι. ή χρησιµοποιούν µια υπηρεσία αναζήτησης. Στην περίπτωση εκείνη που ο χρήστης χρησιµοποιεί µια µηχανή αναζήτησης, εισάγει συνήθως µια απλή ακολουθία λέξεων κλειδιών ως ερώτηµα και η απάντηση του ερωτήµατος είναι µια λίστα από σελίδες που παρουσιάζονται ταξινοµηµένες µε βάση την οµοιότητα τους σε σχέση µε το ερώτηµα. Παρόλα αυτά, οι σηµερινές µηχανές αναζήτησης έχουν τα ακόλουθα προβλήµατα. Το πρώτο πρόβληµα σχετίζεται µε την χαµηλή ακρίβεια (precision), που προκύπτει εξαιτίας της µη σχετικότητας των αποτελεσµάτων αναζήτησης. Με τον όρο ακρίβεια ορίζουµε το πηλίκο του αριθµού 7

9 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση των σελίδων που έχουν ανακτηθεί και ικανοποιούν το ερώτηµα προς το πλήθος όλων των σελίδων που ανακτήθηκαν. Το δεύτερο πρόβληµα είναι η χαµηλή απόκριση (recall), που οφείλεται στην αδυναµία να εµφανιστούν όλες οι πληροφορίες που είναι διαθέσιµες στον Π.Ι.. Αυτό προκαλεί τη δυσκολία να βρεθούν οι µη καταγεγραµµένες πληροφορίες που είναι σχετικές. Με τον όρο απόκριση ορίζουµε το πηλίκο του αριθµού των σελίδων που έχουν ανακτηθεί και ικανοποιούν το ερώτηµα προς το πλήθος των σελίδων που ικανοποιούν το ερώτηµα (άσχετα αν αυτές ανακτήθηκαν ή όχι). 2. ηµιουργία νέας γνώσης από τις πληροφορίες που είναι διαθέσιµες στον Π.Ι.: Το πρόβληµα αυτό, θα µπορούσε να θεωρηθεί ως µια υποκατηγορία του 1. Ενώ το παραπάνω είναι συνήθως µια διαδικασία που ενεργοποιείται µέσω ενός ερωτήµατος (προσανατολισµένη προς την ανάκτηση), αυτό το πρόβληµα είναι µια διαδικασία που ενεργοποιείται από τα δεδοµένα τα ίδια και προϋποθέτει ότι υπάρχει ήδη µια συλλογή δεδοµένων από τον Π.Ι. και το ζητούµενο είναι η εξαγωγή χρήσιµης γνώσης από αυτά (διαδικασία προσανατολισµένη προς την εξόρυξη δεδοµένων). 3. Προσωποποίηση της πληροφορίας (Personalization of the information): Tο πρόβληµα αυτό, σχετίζεται µε τον τύπο και την αναπαράσταση της πληροφορίας αφού είναι πιθανό οι άνθρωποι να διαφέρουν στις προτιµήσεις τους όσον αφορά το περιεχόµενο και την παρουσίαση της πληροφορίας όταν αλληλεπιδρούν µε τον Π.Ι.. Αντίστοιχα, οι κόµβοι παροχής πληροφορίας (τα web sites) στον Π.Ι. συναντούν µεταξύ άλλων τα παρακάτω προβλήµατα: 4. Ανάγκη για πληροφόρηση σχετικά µε τις συνήθειες των πελατών τους ή τους µεµονωµένους χρήστες: Αυτό είναι ένα πρόβληµα που συγκεκριµένα αντιµετωπίζεται µε την προσωποποίηση της πληροφορίας που αναφέρθηκε παραπάνω και το οποίο σχετίζεται µε το τι κάνουν και τι θέλουν οι πελάτες. Η ανάγκη για πληροφόρηση µπορεί να αναλυθεί ως το πρόβληµα της µαζικής παραµετροποίησης της πληροφορίας για τους µελλοντικούς πελάτες ή ακόµη και της προσωποποίησης της για ένα συγκεκριµένο 8

10 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση χρήστη, την αποτελεσµατικότητα του σχεδιασµού µιας ιστοσελίδας, το marketing κτλ. Οι τεχνικές εξόρυξης δεδοµένων στον Π.Ι. θα µπορούσαν να χρησιµοποιηθούν για να λύσουν προβλήµατα υπερφόρτωσης πληροφορίας µε άµεσο ή έµµεσο τρόπο. Με την έννοια άµεση προσέγγιση εννοείται ότι η εφαρµογή των τεχνικών εξόρυξης δεδοµένων στον Π.Ι. απευθύνονται άµεσα στα παραπάνω προβλήµατα. Για παράδειγµα, ένας πράκτορας ενός Newsgroup ο οποίος κατηγοριοποιεί τα νέα µε κριτήριο κατά πόσο αυτά είναι σχετικά για το χρήστη. Με την έννοια της έµµεσης προσέγγισης εννοείται ότι οι τεχνικές εξόρυξης δεδοµένων στον Π.Ι. χρησιµοποιούνται ως µέρος µιας µεγαλύτερης εφαρµογής που απευθύνεται στα παραπάνω προβλήµατα. Για παράδειγµα, οι τεχνικές εξόρυξης θα µπορούσαν να χρησιµοποιηθούν για να δηµιουργήσουν όρους δεικτοδότησης (index terms) για τις µηχανές αναζήτησης στον Π.Ι.. Παρόλα αυτά, οι τεχνικές εξόρυξης δεδοµένων στον Π.Ι. δεν είναι τα µόνα εργαλεία που λύνουν τέτοια προβλήµατα. Άλλες τεχνικές από διαφορετικές περιοχές έρευνας όπως οι βάσεις δεδοµένων, η ανάκτηση πληροφορίας και η επεξεργασία φυσικής γλώσσας θα µπορούσαν επίσης να χρησιµοποιηθούν. Η έρευνα πάνω στην εξόρυξη δεδοµένων Π.Ι. είναι µια συγγενική περιοχή µε διαφορετικές κοινότητες έρευνας όπως οι Βάσεις εδοµένων, η Ανάκτηση Πληροφορίας και κοινότητες έρευνας Τεχνητής Νοηµοσύνης, ειδικά αυτές που σχετίζονται µε τη µηχανική µάθηση και την Επεξεργασίας Φυσικής Γλώσσας. [3] Τι είναι η εξόρυξη δεδοµένων Παγκοσµίου Ιστού Ως εξόρυξη δεδοµένων Π.Ι. ορίζεται η χρήση τεχνικών εξόρυξης δεδοµένων για την ανακάλυψη και την εξαγωγή πληροφορίας από έγγραφα και υπηρεσίες του Π.Ι. µε αυτόµατο τρόπο.[29] Από τι απαρτίζεται όµως η εξόρυξη δεδοµένων στον Π.Ι.; Ποιες είναι οι διεργασίες του; Στη βιβλιογραφία, προτείνεται ο διαχωρισµός της εξόρυξης δεδοµένων στον Π.Ι. σε υποκατηγορίες (Σχήµα 1.1), και συγκεκριµένα: 9

11 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση 1. Εύρεση πόρων: Η διαδικασία της εξόρυξης των σχετικών εγγράφων του Π.Ι.. 2. Επιλογή και προεπεξεργασία πληροφορίας: Επιλογή και προεπεξεργασία συγκεκριµένης πληροφορίας από τους πόρους του Π.Ι. που ανακτήθηκαν, µε αυτόµατο τρόπο. 3. Γενίκευση: Ανακάλυψη γενικών προτύπων (patterns) σε συγκεκριµένα Web sites όπως και σε πολλαπλά sites, µε αυτόµατο τρόπο. 4. Ανάλυση: Επικύρωση ή/και επεξήγηση των προτύπων (patterns) που ανακαλύφθηκαν. Σχήµα 1.1 Οι διεργασίες της εξόρυξης δεδοµένων στον Π.Ι. Με τον όρο «εύρεση πόρων» εννοείται η διαδικασία της ανάκτησης των δεδοµένων που βρίσκονται είτε online είτε offline από τις πηγές κειµένου που είναι διαθέσιµες στον Π.Ι. όπως για παράδειγµα τα ηλεκτρονικά newsletters, newswires, newsgroups, κείµενο που περιέχεται στα έγγραφα HTML (µε την αποµάκρυνση των HTML ετικετών) και τη µη αυτόµατη επιλογή πόρων στον Π.Ι.. Η επιλογή και προεπεξεργασία της πληροφορίας περιλαµβάνει οποιαδήποτε αλλαγή στα αρχικά δεδοµένα που εντοπίστηκαν κατά τη διαδικασία της ανάκτησής τους. Αυτοί οι µετασχηµατισµοί µπορούν να είναι είτε ένα είδος προεπεξεργασίας, (όπως αναφέρθηκε και παραπάνω), π.χ. η αποµάκρυνση των συνδέσµων, stemming (δείτε και παρ ), κτλ είτε µια προεπεξεργασία που 10

12 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση στοχεύει στην απόκτηση της επιθυµητής αναπαράστασης όπως η µετατροπή της αναπαράστασης σε σχεσιακή ή σε µορφή λογικής πρώτης τάξης κτλ. Στο 3 ο βήµα που αναφέρθηκε παραπάνω, εφαρµόζονται τεχνικές µηχανικής µάθησης ή εξόρυξης δεδοµένων για γενίκευση. Ας σηµειωθεί ότι οι άνθρωποι παίζουν καθοριστικό ρόλο στην διαδικασία ανακάλυψης γνώσης ή πληροφορίας στον Π.Ι. καθώς το ιαδίκτυο είναι ένα µέσο αλληλεπίδρασης. Αυτό είναι ιδιαίτερα σηµαντικό για την επιβεβαίωση ή/και την ερµηνεία του τέταρτου βήµατος. Εποµένως, η αλληλεπιδραστική ανακάλυψη γνώσης µέσω ερωτηµάτων είναι εξίσου σηµαντική όσο η αυτοµατοποιηµένη ανακάλυψη γνώσης µέσω δεδοµένων. Παρόλα αυτά, αποκλείουµε την ανακάλυψη γνώσης που γίνεται αποκλειστικά µόνο από ανθρώπους. [3] Η εξόρυξη δεδοµένων στον Π.Ι. και η σχέση του µε άλλα πεδία Η εξόρυξη δεδοµένων στον Π.Ι. αναφέρεται στην συνολική διαδικασία ανακάλυψης πιθανώς χρήσιµης και προηγουµένως άγνωστης πληροφορίας ή γνώσης πάνω στα δεδοµένα του Π.Ι.. Αναµφίβολα, καλύπτει την τυπική διαδικασία της ανακάλυψης γνώσης σε βάσεις δεδοµένων (KDD Knowledge Discovery in Databases). Θα µπορούσαµε απλουστευµένα, να δούµε την εξόρυξη δεδοµένων στον Π.Ι. ως µια επέκταση του KDD που εφαρµόζεται σε δεδοµένα του Π.Ι.. Από την πλευρά του KDD, οι έννοιες της πληροφορίας και της γνώσης είναι ταυτόσηµες. Υπάρχει στενή σχέση µεταξύ της εξόρυξης δεδοµένων, της µηχανικής µάθησης και της προηγµένης ανάλυσης δεδοµένων. Η εξόρυξη δεδοµένων στον Π.Ι. αρκετά συχνά σχετίζεται µε την ανάκτηση πληροφορίας (IR) και την εξαγωγή πληροφορίας (IE). Παρόλα αυτά, η ανακάλυψη ή εξόρυξη πληροφορίας στον Π.Ι, δεν είναι ίδια µε την ανάκτηση ή την εξαγωγή πληροφορίας. [3][29] Εξόρυξη δεδοµένων στον Π.Ι. και ανάκτηση πληροφορίας Η ανακάλυψη πόρων ή εγγράφων (IR) στον Π.Ι. µπορεί να θεωρηθεί ως µια περίπτωση της εξόρυξη δεδοµένων περιεχοµένου στον Π.Ι.. Στην πραγµατικότητα το IR είναι η αυτόµατη ανάκτηση όλων των σχετικών εγγράφων µε την 11

13 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση ταυτόχρονη προσπάθεια για ανάκτηση όσο το δυνατόν λιγότερων µη σχετικών εγγράφων. Βασικοί στόχοι του IR είναι η δεικτοδότηση ενός κειµένου και η αναζήτηση χρήσιµων εγγράφων µέσα σε µια συλλογή. Σήµερα η έρευνα στο IR περιλαµβάνει την µοντελοποίηση, την ταξινόµηση των εγγράφων και την κατηγοριοποίηση τους, διεπαφές χρήστη, οπτικοποίηση δεδοµένων, φιλτράρισµα κτλ. Η εργασία που θεωρείται ως µέρος της εξόρυξης δεδοµένων στον Π.Ι. είναι η ταξινόµηση εγγράφων ή η κατηγοριοποίηση που θα µπορούσε να χρησιµοποιηθεί για τη δεικτοδότηση. Από την άποψη αυτή, η εξόρυξη δεδοµένων στον Π.Ι. είναι τµήµα της διαδικασίας του Web IR. Ωστόσο, δεν χρησιµοποιείται από όλες τις εργασίες δεικτοδότησης. [3] Εξόρυξη δεδοµένων στον Π.Ι. και εξαγωγή πληροφορίας Η εξαγωγή πληροφορίας στοχεύει στην τροποποίηση µιας συλλογής εγγράφων συχνά µε τη βοήθεια ενός συστήµατος ανάκτησης πληροφορίας, σε πληροφορία που να µπορεί να αναλύεται και να κατανοείται ευκολότερα. Η εξαγωγή πληροφορίας έχει σκοπό να εξάγει σχετικά στοιχεία (γεγονότα) από τα έγγραφα ενώ η ανάκτηση πληροφορίας έχει σκοπό να επιλέξει τα σχετικά έγγραφα. Η εξαγωγή της πληροφορίας ενδιαφέρεται για τη δοµή ή την αναπαράσταση ενός εγγράφου, ενώ αντίστοιχα η ανάκτηση πληροφορίας αντιµετωπίζει το κείµενο σε ένα έγγραφο ως ένα σύνολο λέξεων. Εποµένως, γενικά, η εξαγωγή πληροφορίας απαιτεί λεπτοµερέστερη ανάλυση των εγγράφων σε σχέση µε την ανάκτηση πληροφορίας. Ωστόσο, οι διαφορές τους συχνά γίνονται ασαφείς, όπως στην περίπτωση που η ανάκτηση πληροφορίας χρησιµοποιείται σε ένα περιεχόµενο µε ασαφώς δοµηµένες πληροφορίες. Σε µια τέτοια περίπτωση ένα σύστηµα ανάκτησης πληροφορίας πλήρους κειµένου µπορεί να παρέχει και κάποια χαρακτηριστικά εξαγωγής πληροφορίας. [3] Η δηµιουργία συστηµάτων εξαγωγής πληροφορίας µε µη-αυτόµατες µεθόδους δεν είναι δυνατή και ευέλικτη για ένα τόσο δυναµικό και διαφορετικό µέσο όπως τα περιεχόµενα του Π.Ι.. Εξαιτίας της φύσης του Π.Ι., τα περισσότερα IE συστήµατα επικεντρώνονται σε συγκεκριµένα Web sites για εξαγωγή. Μερικά συστήµατα χρησιµοποιούν τεχνικές µηχανικής µάθησης ή εξόρυξης δεδοµένων για να «µάθουν» ηµιαυτόµατα ή αυτόµατα τους κανόνες εξαγωγής για τα έγγραφα στον Π.Ι.. Από αυτή τη σκοπιά, η εξόρυξη δεδοµένων στον Π.Ι. είναι µέρος της 12

14 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση διαδικασίας Web ΙΕ. Τα αποτελέσµατα της διαδικασίας IE µπορούν να έχουν τη µορφή δοµηµένης βάσης δεδοµένων ή συµπιεσµένης ή περιληπτικής µορφής των αρχικών κειµένων ή εγγράφων. Με αυτή τη λογική, θα µπορούσαµε να αντιµετωπίσουµε την εξαγωγή πληροφορίας σαν ένα είδος προεπεξεργασίας κατά τη διαδικασία της εξόρυξης δεδοµένων στον Π.Ι., το στάδιο δηλαδή µετά την εξόρυξη πληροφορίας και πριν την εκτέλεση των τεχνικών εξόρυξης δεδοµένων. Οµοιοτρόπως, η εξαγωγή πληροφορίας µπορεί να χρησιµοποιηθεί για τη βελτίωση της διαδικασίας δεικτοδότησης, που είναι µέρος της διαδικασίας ανάκτησης πληροφορίας. Αντίστροφα, κάποιος θα µπορούσε να υποστηρίξει ότι στην τελευταία περίπτωση, η εξαγωγή πληροφορίας δεν µπορεί να είναι µέρος της εξόρυξης δεδοµένων στον Π.Ι., αφού η περίληψη ή η συµπιεσµένη µορφή του κειµένου που προκύπτει είναι µια νέα µορφή πληροφορίας που δεν υπήρχε νωρίτερα. Παρόλα αυτά, επικρατέστερη είναι η άποψη που υποστηρίζει ότι η εξόρυξη δεδοµένων στον Π.Ι. χρησιµοποιείται για να βελτιώσει την εξαγωγή πληροφορίας από τον Π.Ι. (δηλαδή, αντιµετωπίζει την εξόρυξη δεδοµένων στον Π.Ι. ως µέρος της εξαγωγής πληροφορίας). Υπάρχουν δύο τύποι εξαγωγής πληροφορίας: IE από αδόµητα κείµενα και IE από ηµι-δοµηµένα δεδοµένα. Υπάρχουν αξιοσηµείωτες διαφορές µεταξύ των συστηµάτων IE που χρησιµοποιούνται για τα αδόµητα έγγραφα σε σχέση µε αυτά που χρησιµοποιούνται για τα ηµι-δοµηµένα ή και δοµηµένα έγγραφα. Οι διαδικασίες IE για αδόµητα κείµενα φυσικής γλώσσας (κλασσική IE) χρησιµοποιούν µια βασική ή λίγο πιο βαθιά γλωσσική προεπεξεργασία πριν την εκτέλεση της εξόρυξης δεδοµένων. Η κλασσική IE συνήθως βασίζεται σε γλωσσική προεπεξεργασία όπως συντακτική ανάλυση, σηµασιολογική ανάλυση και λεκτική ανάλυση. Με τη συνεχώς αυξανόµενη δηµοτικότητα του Π.Ι., δηµιουργήθηκε η ανάγκη κατασκευής συστηµάτων IE τα οποία θα εξάγουν πληροφορίες από ηµι-δοµηµένα έγγραφα. Η έρευνα στην δοµηµένη IE είναι διαφορετική από την κλασσική καθώς συνήθως χρησιµοποιεί τις µετα-πληροφορίες (π.χ. HTML tags, απλό συντακτικό ή διαχωριστικά σηµεία στίξης που είναι διαθέσιµα σε ηµι-δοµηµένα δεδοµένα). Οι 13

15 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση προσεγγίσεις δοµηµένης IE, που δεν χρησιµοποιούν γλωσσικούς περιορισµούς ονοµάζονται wrappers (αφού «τυλίγουν» την πληροφορία στο ίδιο πλαίσιο). Όλο και περισσότερα δοµηµένα συστήµατα IE για τον Π.Ι. δηµιουργούνται (ηµι-) αυτόµατα χρησιµοποιώντας τεχνικές µηχανικής µάθησης ή άλλους αλγορίθµους καθώς η δηµιουργία συστηµάτων µε µη αυτόµατο τρόπο δεν θεωρείται πλέον κατάλληλη. Τέτοια συστήµατα, συνήθως δηµιουργούνται χρησιµοποιώντας τεχνικές µηχανικής µάθησης ή εξόρυξης δεδοµένων τα οποία µαθαίνουν κανόνες εξαγωγής από σχολιασµένα (ενδεικνυόµενα) τµήµατα. [3][28][29] 1.2 Κατηγορίες εξόρυξης δεδοµένων στον Π.Ι. Η εξόρυξη δεδοµένων στον Π.Ι. κατηγοριοποιείται σε τρεις περιοχές ενδιαφέροντος ανάλογα µε το τµήµα του Π.Ι. που ερευνείται [29]: εξόρυξη του περιεχοµένου του Π.Ι. (Web content mining), εξόρυξη δοµής του Π.Ι. (Web structure mining) και εξόρυξη χρήσης του Π.Ι. (Web usage mining) Εξόρυξη δεδοµένων περιεχοµένου στον Π.Ι. Η εξόρυξη δεδοµένων περιεχοµένου στον Π.Ι. περιγράφει την ανακάλυψη χρήσιµης πληροφορίας από περιεχόµενα, δεδοµένα ή έγγραφα του Π.Ι.. Τα περιεχόµενα του Π.Ι. περιλαµβάνουν ένα µεγάλο εύρος δεδοµένων. Το ιαδίκτυο αρχικά περιείχε διαφορετικούς τύπους υπηρεσιών και πηγές δεδοµένων όπως Gopher, FTP, και Usenet. Σήµερα, τα περισσότερα δεδοµένα είτε µεταφέρονται είτε είναι προσβάσιµα στον Π.Ι.. Η πληροφορία που βρίσκεται αποθηκευµένη σήµερα στον Παγκόσµιο Ιστό είναι τεράστια. Η ύπαρξη Ψηφιακών Βιβλιοθηκών που είναι προσβάσιµες από τον Π.Ι. και οι επιχειρήσεις που µετατρέπουν τις υπηρεσίες τους σε ηλεκτρονικές είναι µερικά µόνο παραδείγµατα του µεγάλου όγκου δεδοµένων που υπάρχει διαθέσιµος. Ως συνέπεια των παραπάνω, οι εργαζόµενοι, οι συνεργάτες αλλά ακόµη και πελάτες θα πρέπει να µπορούν να έχουν πρόσβαση σε βάσεις δεδοµένων της εταιρίας χρησιµοποιώντας απευθείας µια web διεπαφή. Μια ακόµη συνέπεια της µετατροπής των εταιριών σε ψηφιακές είναι η ανάπτυξη Web εφαρµογών (web applications) που επιτρέπουν στους 14

16 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση χρήστες να έχουν πρόσβαση σε εφαρµογές χρησιµοποιώντας επίσης Web διεπαφές. Πολλές εφαρµογές και συστήµατα µεταφέρθηκαν στον Π.Ι. και πολλοί τύποι εφαρµογών εµφανίζονται να λειτουργούν σε περιβάλλοντα του Π.Ι.. Φυσικά, κάποια από τα δεδοµένα του Π.Ι. µένουν κρυφά και δεν µπορούν να δεικτοδοτηθούν. Αυτά τα δεδοµένα είτε παράγονται δυναµικά ως αποτέλεσµα ερωτηµάτων και καταχωρούνται στη συνέχεια σε ένα DBMS είτε είναι ιδιωτικά. Εν συντοµία, ο Π.Ι. ήδη περιέχει πολλά είδη και τύπους δεδοµένων. Το περιεχόµενο του Π.Ι. αποτελείται από διάφορους τύπους δεδοµένων όπως κείµενο, εικόνα, ήχο, video, µετά δεδοµένα καθώς και υπερσυνδέσµους. Τα δεδοµένα του Π.Ι. αποτελούνται από µη δοµηµένα δεδοµένα όπως για παράδειγµα κείµενο, ηµι-δοµηµένα δεδοµένα όπως για παράδειγµα HTML έγγραφα, και περισσότερο δοµηµένα δεδοµένα όπως αυτά των πινάκων ή των βάσεων δεδοµένων που προκύπτουν από τις HTML σελίδες. Ωστόσο, το µεγαλύτερο µέρος του περιεχοµένου είναι µη δοµηµένα δεδοµένα κειµένου. Η ερευνητική περιοχή που σχετίζεται µε την εφαρµογή τεχνικών εξόρυξης δεδοµένων σε µη δοµηµένα κείµενα, ονοµάζεται ανακάλυψη γνώσης σε κείµενα (Knowledge Discovery in Texts, KDT), ή εξόρυξη δεδοµένων κειµένου ή εξόρυξη κειµένου. Εποµένως, η εξόρυξη κειµένου µπορεί να θεωρηθεί ως µια περίπτωση της εξόρυξης δεδοµένων περιεχοµένου στον Π.Ι.. Η έρευνα στην εξόρυξη δεδοµένων περιεχοµένου στο Π.Ι. µπορεί να προσεγγιστεί από δύο διαφορετικές οπτικές γωνίες: την ανάκτηση πληροφορίας (IR) και τις βάσεις δεδοµένων (DB). Σκοπός της εξόρυξης δεδοµένων περιεχοµένου στον Π.Ι. από την πλευρά της ανάκτησης πληροφορίας είναι να βοηθήσει ή να βελτιώσει την εύρεση πληροφορίας και το φιλτράρισµα αυτής, για τους χρήστες κάνοντας χρήση συµπερασµάτων που προκύπτουν ανάλογα µε τα προφίλ των χρηστών. Στόχος της εξόρυξης δεδοµένων περιεχοµένου στον Π.Ι. από την πλευρά των βάσεων δεδοµένων είναι ότι προσπαθεί να µοντελοποιήσει τα δεδοµένα στον Π.Ι. και να τα ενοποιήσει σε ένα ολοκληρωµένο σύνολο, ώστε να µπορούν να εκτελούνται περισσότερο έξυπνα ερωτήµατα σε σχέση µε αυτά που στηρίζονται µόνο σε αναζητήσεις µε βάση τις λέξεις κλειδιά. [3][28][29] 15

17 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση Εξόρυξη δεδοµένων δοµής στον Π.Ι. Η εξόρυξη της δοµής στον Π.Ι. προσπαθεί να ανακαλύψει το µοντέλο που υπάρχει στη δοµή των συνδέσµων του Παγκοσµίου Ιστού. Το µοντέλο βασίζεται στην τοπολογία των υπερσυνδέσµων µε ή χωρίς την περιγραφή των συνδέσµων. Το µοντέλο αυτό, µπορεί να χρησιµοποιηθεί για να κατηγοριοποιεί τις ιστοσελίδες και είναι χρήσιµο για να παράγει πληροφορίες όπως για παράδειγµα την οµοιότητα και την σχέση µεταξύ διάφορων Web sites. Η εξόρυξη της δοµής στο Π.Ι., µπορεί να χρησιµοποιηθεί για την εύρεση hubs και authorities. Authority είναι ένα web site που περιέχει ένα συγκεκριµένο θέµα και δεικτοδοτείται από πολλά hubs. Hub είναι το web site που δείχνει σε πολλά authorities. [3] [29] Εξόρυξη δεδοµένων χρήσης στον Π.Ι. Η εξόρυξη χρήσης στον Π.Ι. προσπαθεί να εξηγήσει τα δεδοµένα που δηµιουργούνται από την πλοήγηση και τη συµπεριφορά του χρήστη. Ενώ η εξόρυξη του περιεχοµένου του Π.Ι. και της δοµής του Π.Ι. χρησιµοποιούν τα πραγµατικά ή κύρια δεδοµένα του Π.Ι., η εξόρυξη της χρήσης ασχολείται µε τα δευτερεύοντα δεδοµένα που προκύπτουν από τις αλληλεπιδράσεις των χρηστών στο ιαδίκτυο. Τα δεδοµένα της χρήσης του Π.Ι. περιλαµβάνουν δεδοµένα του ιστορικού πρόσβασης σε Web servers, του ιστορικού των proxy servers, του ιστορικού των φυλλοµετρητών, προφίλ χρηστών, δεδοµένα εγγραφής, συνόδων χρηστών ή συναλλαγών, cookies, αιτηµάτων χρηστών, δεδοµένα σελιδοδεικτών, κινήσεις του ποντικιού, και οποιαδήποτε άλλα δεδοµένα προκύπτουν από αλληλεπιδράσεις. [3] [29] ιάκριση των κατηγοριών στην εξόρυξη δεδοµένων στον Π.Ι. H διάκριση µεταξύ των παραπάνω κατηγοριών αυτών δεν είναι ξεκάθαρη. Η εξόρυξη περιεχοµένου του Π.Ι. µπορεί να χρησιµοποιήσει κείµενο και συνδέσµους ακόµη και προφίλ που είτε εισάγονται είτε εξάγονται από χρήστες. Τα προφίλ των χρηστών προορίζονται κυρίως για την µοντελοποίηση των 16

18 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση εφαρµογών των χρηστών ή για προσωπικούς βοηθούς. Παρόµοια συµβαίνει και µε την εξόρυξη της δοµής του Π.Ι. που θα µπορούσε να χρησιµοποιήσει πληροφορίες για τους συνδέσµους σε συνδυασµό µε τις δοµές των συνδέσµων. Επιπλέον, θα µπορούσαν να συλλεχθούν οι σύνδεσµοι που έχουν ήδη επισκεφθεί από τα έγγραφα που ζητήθηκαν κατά τη διάρκεια των συνόδων των χρηστών µέσα από το ιστορικό που διατηρεί ο server. Οι παραπάνω κατηγορίες θα µπορούσαν να χαρακτηριστούν ανάλογα µε την εµβέλεια της δουλειάς που γίνεται στις αντίστοιχες περιοχές: η τοπική εµβέλεια εκτείνεται σε ένα µεµονωµένο Web site ενώ η καθολική σκοπιά εκτείνεται σε όλο τον Π.Ι. Η εµβέλεια της εξόρυξης δεδοµένων περιεχοµένου στον Π.Ι. από την άποψη της IR και της εξόρυξης δεδοµένων δοµής στον Π.Ι. είναι καθολική, ενώ η σκοπιά της εξόρυξης δεδοµένων περιεχοµένου στον Π.Ι. από την πλευρά της DB και της εξόρυξης δεδοµένων χρήσης στον Π.Ι. είναι τοπική. Ούτε αυτή η διάκριση όµως, είναι ξεκάθαρη. Στην πράξη, οι τρεις κλάδοι της εξόρυξης δεδοµένων στον Π.Ι. που αναφέρθηκαν παραπάνω θα µπορούσαν να χρησιµοποιούνται µεµονωµένα ή σε συνδυασµό µε µια εφαρµογή, ειδικά στις περιπτώσεις της εξόρυξης δεδοµένων περιεχοµένου στον Π.Ι. και εξόρυξης δεδοµένων δοµής στον Π.Ι. αφού τα έγγραφα του Π.Ι. µπορούν να περιέχουν συνδέσµους. [3] 17

19 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση Μορφή εδοµένων Κύρια εδοµένα Αναπαράσταση Μέθοδος Κατηγορία Εφαρµογών Web Mining Web Content Mining IR Άποψη DB Άποψη Ηµιδοµηµένα, Αδόµητα, ιστοσελίδες Ηµιδοµηµένα παραγόµενες από Βάση εδοµένων Έγγραφα Κειµένου, Έγγραφα Υπερκειµένου. Σύνολο λέξεων, Όροι & φράσεις, Οντολογίες Σχεσιακή TF-IDF και παραλλαγές, Machine Learning, Στατιστική Κατηγοριοποίηση, Οµαδοποίηση, Εύρεση κανόνων εξαγωγής, Εύρεση προτύπων στο κείµενο, Μοντελοποίηση Χρήστη Έγγραφα Υπερκειµένου Γράφος (µε επιγραφή σε κάθε ακµή) Σχεσιακή Ειδικοί αλγόριθµοι, Επαγωγική λογική, Κανόνες συσχέτισης Εύρεση συχνών υπο-δοµών, Ανακάλυψη του σχήµατος (schema) ενός web site Web Structure Mining οµή Συνδέσµων οµή Συνδέσµων Γράφος Ειδικοί αλγόριθµοι Κατηγοριοποίηση, Οµαδοποίηση Web Usage Mining Αλληλεπίδραση Server & Browser Logs Σχεσιακός πίνακας, Γράφος Machine Learning, Στατιστική, Κανόνες συσχέτισης Κατασκευή, αναπροσαρµογή και διαχείριση ιστοσελίδας, Marketing, Μοντελοποίηση Χρήστη Πίνακας 1.1 Οι κατηγορίες της εξόρυξης δεδοµένων στον Π.Ι. µε τις ιδιότητες τους όπως αυτές φαίνονται από πέντε απόψεις Εξόρυξη δεδοµένων στον Π.Ι. και τα συστήµατα πρακτόρων Η εξόρυξη δεδοµένων στον Π.Ι. συχνά αντιµετωπίζεται ή εφαρµόζεται µε ένα παράδειγµα πράκτορα. Εποµένως η εξόρυξη δεδοµένων στον Π.Ι. έχει µια στενή σχέση µε τους πράκτορες λογισµικού ή τους έξυπνους πράκτορες. Στην πραγµατικότητα, µερικοί από αυτούς τους πράκτορες εκτελούν λειτουργίες data mining για να πετύχουν τους στόχους τους. Τρεις είναι οι υποκατηγορίες πρακτόρων λογισµικού: οι πράκτορες διεπαφής χρήστη, οι κατανεµηµένοι πράκτορες και οι κινητοί πράκτορες. Οι υποκατηγορίες των πρακτόρων λογισµικού που είναι σχετικοί µε την εξόρυξη δεδοµένων είναι οι πράκτορες διεπαφής χρήστη και οι κατανεµηµένοι πράκτορες. 18

20 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση Οι πράκτορες διεπαφής χρήστη προσπαθούν να µεγιστοποιήσουν την παραγωγικότητα της αλληλεπίδρασης των υπαρχόντων χρηστών µε το σύστηµα προσαρµόζοντας τη συµπεριφορά. Εδώ εντάσσεται και το θέµα της προσωποποίησης. Οι πράκτορες διεπαφής χρήστη, που µπορούν να ταξινοµηθούν σαν πράκτορες εξόρυξης δεδοµένων του Π.Ι., είναι πράκτορες ανάκτησης πληροφορίας, πράκτορες φιλτραρίσµατος πληροφορίας, και πράκτορες προσωπικής βοήθειας. Η τεχνολογία των κατανεµηµένων πρακτόρων αφορά στην επίλυση προβληµάτων από ένα σύνολο πρακτόρων και σχετικοί µε αυτή την κατηγορία πρακτόρων είναι οι κατανεµηµένοι πράκτορες για την ανακάλυψη γνώσης ή την εξόρυξη δεδοµένων. Υπάρχουν δυο συχνά χρησιµοποιούµενες προσεγγίσεις για την ανάπτυξη έξυπνων πρακτόρων που βοηθούν τους χρήστες να βρουν και να ανακτήσουν σχετικές πληροφορίες από τον Π.Ι.: η προσέγγιση που βασίζεται στο περιεχόµενο (content-based) και η προσέγγιση συνεργασίας (collaborative). Στην content-based προσέγγιση, το σύστηµα αναζητά αντικείµενα που ταιριάζουν µεταξύ τους βάσει µιας ανάλυσης του περιεχοµένου χρησιµοποιώντας τις προτιµήσεις των χρηστών. Στην προσέγγιση συνεργασίας, το σύστηµα προσπαθεί να βρει χρήστες µε παρόµοια ενδιαφέροντα για να τους δώσει υποδείξεις. Αυτό επιτυγχάνεται αναλύοντας τα προφίλ των χρηστών και τις συνόδους ή τις συναλλαγές που αυτοί έχουν δηµιουργήσει. Υποθέτει ότι εφόσον κάποιοι χρήστες αξιολόγησαν ένα αντικείµενο υψηλά τότε και άλλοι χρήστες που έχουν παρόµοια ενδιαφέροντα θα το αξιολογούσαν εξίσου ψηλά το ίδιο αντικείµενο. Αυτή η προσέγγιση χρησιµοποιεί κυρίως τα δεδοµένα χρήσης (δηλαδή τις βαθµολογίες των χρηστών). Από αυτή την οπτική γωνία, οι content-based µέθοδοι µπορούν να κατηγοριοποιηθούν ως µέθοδοι εξόρυξης δεδοµένων περιεχοµένου στον Π.Ι. ενώ οι µέθοδοι συνεργασίας ως µέθοδοι εξόρυξης δεδοµένων χρήσης στον Π.Ι.. Ωστόσο, οι προσεγγίσεις συνεργασίας, θα µπορούσαν να χρησιµοποιηθούν ή να συνδυαστούν µε το περιεχόµενο του Παγκοσµίου Ιστού. [3] 19

21 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση Εξόρυξη δεδοµένων Π.Ι. σε ηµιδοµηµένα δεδοµένα Στις ενότητες που ακολουθούν η πλειονότητα των αλγορίθµων που εξετάζονται αφορά ηµιδοµηµένα δεδοµένα. Η διαδικασία λοιπόν της εξόρυξης δεδοµένων στον Π.Ι. στα δεδοµένα αυτού του τύπου ακολουθεί τα κλασσικά βήµατα εύρεσης πόρων, επιλογής και προεπεξεργασίας πληροφορίας, γενίκευσης και ανάλυσης. Οι µέθοδοι που χρησιµοποιούνται είναι συχνά µέθοδοι εξόρυξης δεδοµένων. Οι εφαρµογές ποικίλλουν από την ταξινόµηση υπερκειµένων ή την κατηγοριοποίησή τους και την οµαδοποίησή τους, την µάθηση συσχετίσεων µεταξύ των εγγράφων Π.Ι., την µάθηση εξαγωγής προτύπων ή κανόνων και την εύρεση προτύπων σε ηµι-δοµηµένα δεδοµένα.[3] 1.3 Οµαδοποίηση Εισαγωγή Η ανάλυση των δεδοµένων αποτελεί βασικό στοιχείο για πολλές εφαρµογές τόσο κατά την φάση της σχεδίασης όσο και κατά την διάρκεια λειτουργίας των εφαρµογών. Κλειδί στην διαδικασία της ανάλυσης αποτελεί η οµαδοποίηση ή ταξινόµηση των µετρήσεων µε βάση κάποιο µοντέλο ή κάποια οµαδοποίηση όπως προκύπτει από την διαδικασία της ανάλυσης[2]. Η ανάλυση των οµάδων οδηγεί στη δηµιουργία συλλογών από πρότυπα που παρουσιάζουν κάποια οµοιότητα. Συνεπώς τα δεδοµένα που ανήκουν σε µια συγκεκριµένη οµάδα παρουσιάζουν περισσότερες οµοιότητες σε σχέση µε τα δεδοµένα κάποιας άλλης οµάδας. Στο σχήµα 1.2 δίνεται ένα παράδειγµα οµαδοποίησης δεδοµένων. Στο σχήµα 1.2α παρατηρούµε τα διαφορετικά δεδοµένα και στο 1.2β τις οµάδες που έχουν δηµιουργηθεί. Τα σηµεία που ανήκουν στην ίδια οµάδα έχουν τον ίδιο αριθµό. 20

22 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση Σχήµα 1.2 Τρόπος κατανοµής υποθετικών δεδοµένων και δηµιουργία οµάδων για τα δεδοµένα αυτά Ορισµός της έννοιας Η οµαδοποίηση δεδοµένων είναι µία τεχνική στατιστικής ανάλυσης - µεγάλων κυρίως - σε µέγεθος δεδοµένων η οποία εφαρµόζεται σε πολλές περιοχές όπως η µηχανική µάθηση, η εξόρυξη δεδοµένων, η αναγνώριση προτύπων, η ανάλυση εικόνων και η βιοπληροφορική. Η λειτουργία της οµαδοποίησης στηρίζεται στο διαχωρισµό (partitioning) σε υποσύνολα (subset clusters) έτσι ώστε για κάθε αντικείµενο ενός υποσύνόλου στο οποίο εφαρµόζεται µία µετρική απόστασης (distance measure) να επιστρέφεται τιµή περίπου ίση µε τα υπόλοιπα αντικείµενα του ίδιου συνόλου. [15] ηλαδή: d(x) d(y) x, y є A και (1.1) d(x) <> d(y) x є A, y є A (1.2) όπου x και y αντικείµενα, d µία µετρική απόστασης, Α ένα υποσύνολο και Α οποιοδήποτε υποσύνολο εκτός του Α. Φυσικά οι παραπάνω επιστηµονικές περιοχές µπορούν να εφαρµόσουν τη γνώση που εξάγουν και σε άλλους τοµείς της ανθρώπινης δραστηριότητας όπως τις εµπορικές εφαρµογές. Η εµπορική εκµετάλλευση κάποιων αγαθών µιας αγοράς 21

23 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση που ανήκουν στην ίδια οµάδα, δηµιουργεί τα προφίλ καταναλωτών. Έτσι η µείωση της τιµής ενός αγαθού A θα προκαλέσει µεγαλύτερη ζήτηση όχι µόνο για το προϊόν αυτό αλλά και για όλα τα προϊόντα B που βρίσκονται στην ίδια οµάδα µε αυτή του Α. Μπορούν ακόµα να τυπώνονται κατάλογοι προσφορών προϊόντων ανάλογα µε τη περιοχή διαµονής του πελάτη, το εισόδηµά του, την οικογενειακή του κατάσταση κ.τ.λ. 1.4 ιαδικασία Οµαδοποίησης Στάδια οµαδοποίησης Η διαδικασία της οµαδοποίησης περιλαµβάνει τα ακόλουθα στάδια[2]: Αναπαράσταση προτύπων (προαιρετικά συµπεριλαµβανοµένης της εξαγωγής και επιλογής χαρακτηριστικών) Ορισµός της µετρικής που θα εφαρµοστεί Οµαδοποίηση ή ταξινόµηση Γενίκευση δεδοµένων (αν χρειάζεται) Αποτίµηση του αποτελέσµατος (αν χρειάζεται) Αναπαράσταση προτύπων Η αναπαράσταση προτύπων σχετίζεται µε τον αριθµό των κλάσεων, τον αριθµό των διαθέσιµων προτύπων και τον αριθµό, τύπο και κλίµακα των χαρακτηριστικών που υπάρχουν διαθέσιµα στον αλγόριθµο οµαδοποίησης. [2] Η επιλογή χαρακτηριστικών είναι η διαδικασία εκείνη που αναγνωρίζει ένα υποσύνολο αντικείµένων µε τα καλύτερα χαρακτηριστικά που πρέπει να χρησιµοποιηθεί κατά την οµαδοποίηση. Η εξαγωγή χαρακτηριστικών είναι η χρήση µετασχηµατισµών στα χαρακτηριστικά ώστε να παραχθούν νέα µε καλύτερες ιδιότητες. Για παράδειγµα αν πρέπει να οµαδοποιήσουµε ένα σύνολο ανθρώπων µε βάση το επίπεδο γνώσης τους τότε ενδεχοµένως το χαρακτηριστικό ύψος µπορεί να µην είναι απαραίτητο εποµένως να απορριφθεί. Επιπλέον ένα χαρακτηριστικό µε όνοµα εκπαίδευση που µπορεί να πάρει τιµές µέση, ανώτερη, ανώτατη να πρέπει να χρησιµοποιηθεί όχι µε λεκτικές τιµές, αλλά µε αριθµητικές. 22

24 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση Ορισµός της µετρικής που θα εφαρµοστεί Η µετρική που χρησιµοποιείται για τα πρότυπα είναι συνήθως µια συνάρτηση απόστασης που εφαρµόζεται ανά ζεύγη. Οι συναρτήσεις µέτρησης ποικίλουν, καθεµία από τις οποίες µπορούν να χρησιµοποιηθεί για διαφορετικούς σκοπούς. Η Ευκλείδεια π.χ. απόσταση µετρά την ανοµοιότητα µεταξύ δύο προτύπων, ενώ αντίθετα άλλες µετρικές µπορούν να χρησιµοποιηθούν για να χαρακτηρίσουν την οµοιότητα µεταξύ δύο προτύπων. Οµαδοποίηση Η διαδικασία της οµαδοποίησης µπορεί να εκτελεστεί µε πολλούς διαφορετικούς τρόπους. Το αποτέλεσµα του αλγορίθµου οµαδοποίησης µπορεί να είναι σκληρό (τα δεδοµένα διαιρεµένα σε οµάδες) ή ασαφές (κάθε πρότυπο έχει ένα µεταβλητό βαθµό συµµετοχής σε καθεµία από τις οµάδες). Οι ιεραρχικοί αλγόριθµοι (hierarchical algorithms) παράγουν ακολουθίες «φωλιασµένων» οµάδων βασισµένοι σε κριτήρια ένωσης ή διάσπασης οµάδων σύµφωνα µε την οµοιότητά αυτών. Οι αλγόριθµοι διαίρεσης (partitioning algorithms) εντοπίζουν την διαίρεση εκείνη που βελτιστοποιεί ένα κριτήριο για οµαδοποίηση. Μπορούν επιπλέον να χρησιµοποιηθούν τεχνικές που βασίζονται στη θεωρία πιθανοτήτων ή σε γράφους. Γενίκευση δεδοµένων Κατά την γενίκευση δεδοµένων γίνεται εξαγωγή ενός περιεκτικού και απλού συνόλου δεδοµένων. Αποτίµηση του αποτελέσµατος Η αποτίµηση έχει να κάνει, συνήθως, µε το χώρο των δεδοµένων (data domain) παρά µε τον αλγόριθµο οµαδοποίησης. Η ανάλυση της εγκυρότητας των οµάδων, αντίθετα, είναι η αποτίµηση του αποτελέσµατος της διαδικασίας οµαδοποίησης. Συχνά αυτή η ανάλυση χρησιµοποιεί ένα συγκεκριµένο κριτήριο βελτιστοποίησης. Ωστόσο αυτά τα κριτήρια συνήθως προκύπτουν µε 23

25 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση υποκειµενικό τρόπο. Για το λόγο αυτό δεν υπάρχουν κοινά αποδεκτά κριτήρια εκτός από κάποια καλά ορισµένα υποσύνολα δεδοµένων. Η αποτίµηση της εγκυρότητας είναι αντικειµενική και χρησιµοποιείται για να καθορίσει εάν το αποτέλεσµα έχει νόηµα. Όταν χρησιµοποιούνται στατιστικές προσεγγίσεις στην οµαδοποίηση ο έλεγχος της εγκυρότητας συνοδεύεται από στατιστικές µεθόδους και ελέγχους υποθέσεων Είδη αλγορίθµων ύο είναι οι βασικότερες κατηγορίες των αλγόρίθµων οµαδοποίησης δεδοµένων: Στους ιεραρχικούς αλγόριθµους. Οι ιεραρχικοί σχηµατίζουν οµάδες µε βάση τις ήδη υπάρχουσες σχηµατισµένες οµάδες, δηλαδή λειτουργούν επαναληπτικά λαµβάνοντας υπ όψιν τους σε κάθε επανάληψη τις οµάδες που δηµιουργήθηκαν προηγουµένως. Οι ιεραρχικοί αλγόριθµοι µπορούν να σχεδιαστούν µε δύο τεχνικές, o από πάνω προς τα κάτω - agglomerative ή o από κάτω προς τα πάνω - divisive. Αυτό σηµαίνει πως κάθε στοιχείο του αρχικού συνόλου δεδοµένων µπορεί να θεωρηθεί στην αρχή ξεχωριστή οµάδα (από κάτω προς τα πάνω τεχνική), όπου στη συνέχεια εφαρµόζονται συγχωνεύσεις οµάδων. Ακόµα, µπορεί να θεωρηθεί ότι το σύνολο των δεδοµένων είναι µία οµάδα (από πάνω προς τα κάτω τεχνική) όπου στη συνέχεια θα διαιρείται. [2][15] Στους αλγόριθµους διαίρεσης στους οποίους οι οµάδες σχηµατίζονται χωρίς την επαναληπτική εκτέλεση, των προηγούµενων αλγορίθµων αλλά µε την επαναληπτική κατανοµή των δεδοµένων σε οµάδες. [15] Η ιεραρχική οµαδοποίηση δηµιουργεί µία ιεραρχία οµάδων. Η συνήθης αναπαράσταση της ιεραρχίας γίνεται µε ένα δέντρο όπου στο ένα του άκρο περιέχονται ξεχωριστά αντικείµενα και στο άλλο η οµάδα στην οποία ανήκει το αντικείµενο. 24

26 Εξόρυξη δεδοµένων στον παγκόσµιο ιστό & οµαδοποίηση Η οµαδοποίηση δεδοµένων µπορεί να κατηγοριοποιηθεί µε πολλές διαφορετικές προσεγγίσεις. Ένα υποσύνολο των κατηγοριών µπορούµε να δούµε στο επόµενο σχήµα: Σχήµα 1.3 Τα διαφορετικά είδη των αλγορίθµων οµαδοποίησης 25

27 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων 2. Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων 2.1 Ανάκτηση πληροφορίας µέσω του TF-IDF Γενικά Ο TF-IDF (term frequency inverse document frequency) είναι µία µετρική που χρησιµοποιείται συχνά στην ανάκτηση πληροφορίας και στην εξόρυξη κειµένου (text-mining). Η µετρική αυτή χρησιµοποιείται στατιστικά ώστε να υπολογίσει πόσο σηµαντική είναι µία λέξη για κάθε κείµενο µέσα σε µία συλλογή (document collection). Η σηµαντικότητα αυξάνεται αναλογικά, σε σχέση µε τη συχνότητα της λέξης µέσα στο κείµενο αλλά αντισταθµίζεται (αντιστρόφως ανάλογα) µε την συχνότητα της λέξης αυτής σε όλη τη συλλογή. Συµβολισµός t i n i tf i D w d f w,d f w,d W j F jc N jc K T Ο i-στος όρος σε ένα έγγραφο Επεξήγηση Το πλήθος των εµφανίσεων του όρου t i σε ένα δοθέν έγγραφο Η συχνότητα εµφάνισης (term frequency) του όρου i για ένα δοθέν έγγραφο Το σύνολο εγγράφων O όρος σε ένα έγγραφο d Η συχνότητα εµφάνισης του όρου w στο έγγραφο d Η συχνότητα εµφάνισης του όρου w στο σύνολο όλων των εγγράφων D Το βάρος ενός όρου j σύµφωνα µε τον TF*PDF Η συχνότητα του όρου j στο κανάλι c Ο συνολικός αριθµός των εγγράφων στο κανάλι c Ο συνολικός αριθµός των όρων σε ένα κανάλι Ο συνολικός αριθµός των καναλιών Πίνακας Συνοπτική επεξήγηση των συµβολισµών που χρησιµοποιούνται για τους αλγορίθµους TF-IDF και TF*PDF 26

28 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων Η συχνότητα ενός όρου (term frequency) για ένα δοθέν έγγραφο είναι ο αριθµός των εµφανίσεων του όρου µέσα στο κείµενο. Ο αριθµός αυτός συνήθως κανονικοποιείται, έτσι ώστε να µην ευνοούνται µεγαλύτερα σε µέγεθος έγγραφα (αφού αυτά πιθανόν έχουν κάποιους όρους περισσότερες φορές, άσχετα µε την σηµαντικότητά του), και δίνει µία εκτίµηση της σηµαντικότητας του όρου t i σε ένα έγγραφο. ni tf i = (2.1) n k όπου ο αριθµητής n i είναι ο αριθµός των στιγµιότυπων του όρου που µετρήθηκαν και ο παρονοµαστής είναι το άθροισµα των εµφανίσεων όλων των όρων µέσα στο κείµενο. k Η αντίστροφη συχνότητα κειµένου (inverse document frequency) είναι µια µετρική σηµαντικότητας ενός όρου. Αυτή µπορεί να µετρηθεί µε τον επόµενο τύπο: D idf i = log (2.2) D D = d : t D (2.3) i όπου: D είναι ο συνολικός αριθµός των εγγράφων D ο αριθµός των εγγράφων στο D, στα οποία ο όρος t i παρουσιάζεται. Συνεπώς: tfidf = tf idf (2.4) Υψηλή τιµή tfidf ενός όρου σε ένα έγγραφο επιτυγχάνεται όταν υπάρχει µεγάλη συχνότητα του όρου σε εκείνο το έγγραφο και χαµηλή συχνότητα στην υπόλοιπη συλλογή των εγγράφων.[27] 27

29 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων Ο ρόλος του TF IDF στην ανάκτηση ερωτηµάτων Η εφαρµογή του TF-IDF σε µία συλλογή εγγράφων, µπορεί να καθορίσει ένα σύνολο λέξεων που ενδεχοµένως να είναι περισσότερο ευνοϊκά κατά την εκτέλεση ερωτηµάτων για την ανάκτηση των εγγράφων αυτών. Όπως αναφέρθηκε προηγουµένως ο TF-IDF αποδίδει ένα βάρος σε κάθε λέξη, κάθε εγγράφου, το οποίο είναι ανάλογο της συχνότητας που η λέξη εµφανίζεται στο κείµενο και αντιστρόφως ανάλογο ως προς το ποσοστό των εγγράφων στα οποία η λέξη περιέχεται Λέξεις µε υψηλό βάρος έχουν στενή σύνδεση µε το έγγραφο που εµφανίζονται, συνεπώς αν η λέξη εµφανίζονταν σε ένα ερώτηµα το ανακτώµενο έγγραφο θα ήταν χρήσιµο για το χρήστη. Τι είναι όµως η ανάκτηση εγγράφων µέσω ερωτηµάτων; Ανάκτηση µέσω ερωτηµάτων Ανεπίσηµα, η ανάκτηση µέσω ερωτήµατος (query retrieval) µπορεί να περιγραφεί σαν την διαδικασία αναζήτησης σε µια συλλογή από δεδοµένα (έγγραφα κειµένου, βάση δεδοµένων, δίκτυα κτλ) για συγκεκριµένες περιπτώσεις δεδοµένων. Το ακριβές πρόβληµα ανάγεται στη διαδικασία αναζήτησης ενός συνόλου εγγράφων, για τα οποία το σύστηµα ανάκτησης ερωτηµάτων θεωρεί ως σχετικά ως προς το ερώτηµα του χρήστη. Ας υποθέσουµε, συνεπώς, πως έχουµε ένα σύνολο εγγράφων D, και ένα ερώτηµα q µε τις λέξεις w 1, w 2,, w n. Στόχος είναι η επιστροφή ενός υποσυνόλου του D έστω D* για το οποίο ισχύει ότι σε κάθε έγγραφο d που ανήκει στο D*, η επόµενη πιθανότητα µεγιστοποιείται: max ( P(d q) ), d D (2.5) Από την παραπάνω εξίσωση συµπεραίνουµε ότι το έγγραφο d ανήκει στο σύνολο D* εάν αυτό, µεγιστοποιεί την πιθανότητα να ικανοποιεί το ερώτηµα q Μαθηµατικό υπόβαθρο Όπως αναφέρθηκε, ο TF-IDF λειτουργεί ορίζοντας τη σχετική συχνότητα των λέξεων σε ένα έγγραφο σε σχέση µε την αντιστρόφως ανάλογη συχνότητα της λέξης σε όλα τα έγγραφα. Συνεπώς, αυτός ο υπολογισµός καθορίζει τη σηµαντικότητα µιας λέξης σε ένα έγγραφο. Λέξεις, περισσότερο συχνές σε ένα 28

30 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων έγγραφο ή σε µια µικρή οµάδα εγγράφων έχουν µεγαλύτερη τιµή TF-IDF σε σχέση µε λέξεις όπως άρθρα και προθέσεις. Η διαδικασία υπολογισµού του TF-IDF διαφέρει, µερικώς, σε ορισµένες εφαρµογές αλλά τα επόµενα βήµατα είναι γενικά, για όλα τα είδη εφαρµογών. οθέντος ενός συνόλου εγγράφων D, µία λέξη w, και ένα ξεχωριστό έγγραφο d που ανήκει στο D, υπολογίζουµε το w = f log( D / f ) (2.6) d w, d * w, D όπου f w,d είναι ίσο µε τη συχνότητα του w στο d (σχέση 2.1), D ο αριθµός των συνολικών εγγράφων, και f w,d είναι ο αριθµός των εγγράφων στο D στα οποία εµφανίζεται η λέξη w (σχέση 2.2). Υπάρχουν ωστόσο µερικές διαφορετικές καταστάσεις που µπορούν να συµβούν για κάθε λέξη, ανάλογα µε τις τιµές του f w,d, D, και f w,d, από τις οποίες θα δούµε τις περισσότερο σηµαντικές: Περίπτωση 1: Ας υποθέσουµε ότι D ~ f w,d, δηλαδή το µέγεθος του συνόλου των εγγράφων είναι περίπου όµοιο µε τη συχνότητα του w στο D. Εάν 0 < log ( D / f w, D ) < c για κάποια µικρή σταθερά c, τότε το w d θα είναι µικρότερο από το f w,d αλλά θετικό. Αυτό σηµαίνει ότι ο όρος w είναι σχετικά συνηθισµένος στη συλλογή εγγράφων, ωστόσο κατέχει κάποια σηµαντικότητα στο D. Για παράδειγµα, αν εφαρµόζαµε τον TF-IDF για να εξετάσουµε τη λέξη Ιησούς στην Καινή ιαθήκη θα εµφανιζόταν µία αντίστοιχη περίπτωση. Παροµοίως, τα ίδια αποτελέσµατα θα είχαµε στη λέξη «ηνωµένα», όταν αυτή ερευνάται στα έγγραφα των Ηνωµένων Εθνών. Τέτοια φαινόµενο είναι συχνά για συνηθισµένες λέξεις όπως άρθρα, αντωνυµίες και προθέσεις οι οποίες δεν έχουν συνήθως σχέση µε το ερώτηµα του χρήστη (εκτός κι αν αυτό δηλώνεται ρητά). Συνεπώς τέτοιες λέξεις έχουν πολύ µικρή βαθµολόγηση από τον TF-IDF (το βάρος δηλαδή που ο TF-IDF δίνει στον όρο είναι αµελητέο) καθιστώντας αυτές λιγότερο σηµαντικές στο ερώτηµα του χρήστη. Περίπτωση 2: Επιπλέον ας υποθέσουµε ότι το f w, d είναι µεγάλο και το f w, D είναι µικρό. Τότε το log ( D / f w, D ) θα είναι πιθανόν µεγάλο, και συνεπώς και το w d θα είναι µεγάλο. 29

31 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων Στη περίπτωση αυτή, οι λέξεις w µε υψηλή τιµή w d παίζουν σπουδαίο ρόλο για το έγγραφο d και γενικά δεν είναι συνηθισµένες στο D. Ο όρος w έχει τότε δύναµη διάκρισης (discriminatory power). Εποµένως, όταν ένα ερώτηµα περιέχει το w, η επιστροφή ενός εγγράφου d µε υψηλό w d είναι πιθανό να ικανοποιήσει το χρήστη Κωδικοποίηση του TF-IDF Για ένα ερώτηµα q (το οποίο αποτελείται από ένα σύνολο λέξεων w i, υπολογίζουµε το w i, d για κάθε w i σε όλο το D. Στη απλούστερη µορφή, µπορεί να εφαρµοσθεί διατρέχοντας όλη τη συλλογή εγγράφων και κρατώντας το άθροισµα των f w, d και f w, D. Όταν ολοκληρωθεί, µπορούµε να υπολογίσουµε το w i, d σύµφωνα µε τους µαθηµατικούς τύπους που παρουσιάστηκαν προηγουµένως.. Όταν υπολογιστούν όλοι οι όροι w i, d, επιστρέφεται το σύνολο D* που περιέχει εκείνα τα έγγραφα d που µεγιστοποιούν την επόµενη εξίσωση: i w, (2.7) i d Ο χρήστης ή το σύστηµα µπορούν να ορίσουν το µέγεθος του D* πριν το ερώτηµα. Επιπλέον, τα έγγραφα επιστρέφονται σε φθίνουσα διάταξη σύµφωνα µε τις τιµές απ την προηγούµενη εξίσωση. [11] Πειραµατικά αποτελέσµατα Η εφαρµογή του TF-IDF ελέγχθηκε σε µία συλλογή 1400 εγγράφων από το LDC (Less Developed Country) των Ηνωµένων Εθνών. Τα έγγραφα κωδικοποιήθηκαν µέσω της γλώσσας SGML[30], οι ετικέτες (tags) της οποίας δεν αποµακρύνθηκαν προκειµένου να ελεγχθεί η ανθεκτικότητα του αλγορίθµου σε δεδοµένα µε θόρυβο. Επιπλέον, προκειµένου να προσοµοιωθεί περισσότερος θόρυβος, λήφθηκε υπόψη η διάκριση πεζών κεφαλαίων σε ένα ερώτηµα. Ο υπολογισµός του TF-IDF για τα ερωτήµατα των χρηστών έγινε σύµφωνα µε την εξίσωση 2.7, και στη συνέχεια εντοπίστηκαν τα 100 έγγραφα που µεγιστοποιούσαν την εξίσωση αυτή, ταξινοµηµένα σε φθίνουσα σειρά. Για τη σύγκριση των αποτελεσµάτων εκτελέστηκε και µία δεύτερη, brute-force µέθοδος ανάκτησης η οποία βασιζόταν µόνο στη συχνότητα της λέξης w µέσα στο έγγραφο d, λάµβανε δηλαδή υπόψη µόνο το f w, d. ιαισθητικά, η µέθοδος αυτή δεν µπορεί να είναι 30

32 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων κατάλληλη, αφού θα επέστρεφε έγγραφα που περιέχουν άσχετες µεταξύ τους λέξεις οι οποίες εµφανίζονται περισσότερο (κυρίως σε έγγραφα µεγάλου µήκους µε πλήθος άρθρων και προθέσεων που πιθανόν δεν έχουν σχέση µε το ερώτηµα). Όπως ήταν αναµενόµενο, η απλή brute force µέθοδος της επιστροφής εγγράφων µε υψηλό άθροισµα f w,d για κάθε λέξη στο ερώτηµα ήταν ανακριβής. Στο επόµενο σχήµα βλέπουµε τα οκτώ καλύτερα έγγραφα που επιστράφηκαν για το δοθέν ερώτηµα. Όλα τα έγγραφα δεν είχαν σχέση µε το ερώτηµα (δεν ικανοποιούσαν το ερώτηµα του χρήστη). Θέση κατάταξης Αριθµός εγγράφου Άθροισµα f w, d Άθροισµα w d Πίνακας Τα πρώτα οχτώ έγγραφα µε την υψηλότερη τοµή f w, d που επιστράφηκαν από τον απλό αλγόριθµο για το ερώτηµα «the trafficking of drugs in Colombia». Οι υψηλές τιµές f w,d έρχονται κυρίως από µεγάλα σε έκταση έγγραφα µε πολλά άρθρα και προθέσεις. Τα έγγραφα αυτά είχαν µικρές τιµές w d συνεπώς ήταν λιγότερο σηµαντικά για το ερώτηµα 31

33 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων Σχήµα Αποτελέσµατα εκτέλεσης της απλής προσέγγισης στα δεδοµένα. Όπως αναφέρθηκε, ο αλγόριθµος δεν λαµβάνει υπόψη το w d αλλά επιστρέφει τα αποτελέσµατα βασιζόµενος µόνο στο f w, d. Συνεπώς τα σχετικά έγγραφα εξαπλώνονται σποραδικά γεγονός που καθιστά τον αλγόριθµο αναποτελεσµατικό. Στην περίπτωση του αλγορίθµου που υλοποιεί τον TF-IDF τα έγγραφα που εµφανίζονται πρώτα είναι αυτά µε υψηλό άθροισµα του w d, συνεπώς ένα ερώτηµα που περιέχει τον όρο w θα πάρει το έγγραφο d ως απάντηση. Θέση κατάταξης Αριθµός εγγράφου Άθροισµα f w, d Άθροισµα w d Πίνακας Τα οκτώ πρώτα έγγραφα ταξινοµηµένα (κατά αύξουσα) σύµφωνα µε το w d (που υπολογίζεται από τον TF-IDF) για το ερώτηµα «the trafficking of drugs in Colombia». Όπως δείχνει ο παραπάνω πίνακας, η ανάκτηση µε τη µέθοδο του TF-IDF επιστρέφει έγγραφα µε υψηλή συσχέτιση για ένα ερώτηµα. Τα δύο σηµαντικότερα έγγραφα κάνουν συχνή χρήση λέξεων του ερωτήµατος, οι οποίες δεν 32

34 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων εµφανίζονται γενικά σε άλλα έγγραφα. Αυτό δίνει υψηλό άθροισµα στο w d, άρα µεγάλη σχετικότητα (relevance) στο έγγραφο. Σχήµα Αποτελέσµατα ανάκτησης µε τον TF-IDF. Οι υψηλές τιµές του w d συγκεντρώνονται στην αρχή του γραφήµατος. Οι δύο επιπλέον γράφοι, δείχνουν τα άνω και κάτω όρια που µπορούν να φτάσουν κατά την ανάκτηση. Η δυνατότητα του TF-IDF, να µεροληπτεί πάνω στα έγγραφα, επιτρέπει στην µηχανή αναζήτησης, να εντοπίσει, γρήγορα, σχετικά έγγραφα που µπορούν να ικανοποιήσουν τα ερωτήµατα χρήστη. Αντίθετα η brute-force µέθοδος δεν λαµβάνει υπόψη την ιδιαιτερότητα ορισµένων όρων που µπορεί να είναι σηµαντικοί για ένα έγγραφο. Αυτός είναι και ο λόγος που ο TF-IDF µπορεί να δώσει καλύτερα αποτελέσµατα σε σχέση µε την brute-force τεχνική. [11] 2.2 Εύρεση θεµατικών ενοτήτων από αρχεία νέων χρησιµοποιώντας τον αλγόριθµο TF*PDF Εισαγωγή Ο Παγκόσµιος Ιστός µεγαλώνει συνεχώς µε νέες πληροφορίες να ενσωµατώνονται καθηµερινά. Εβδοµαδιαία, δεκάδες ή εκατοντάδες megabyte κειµένου, προστίθενται σε αρχεία νέων (news archive) σε οποιαδήποτε διαθέσιµη δικτυακή πηγή (newswire). Επιπρόσθετα, πολλά από αυτά τα έγγραφα περιέχουν ασήµαντη πληροφορία. Η ανάγνωση του αρχείου νέων και ο διαχωρισµός της πληροφορίας σε σηµαντική ή µη είναι µία εξαντλητική εργασία η οποία δεν 33

35 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων µπορεί να εξασφαλίσει ότι έχουν ανακαλυφθεί όλα τα σηµαντικά θέµατα. Θα ήταν επιθυµητή λοιπόν, η κατασκευή ενός συστήµατος που θα µπορούσε να απαντήσει σε γενικά ερωτήµατα όπως «Τι νέα;» ή «Έχεις κάτι σηµαντικό να µου πεις;». υστυχώς, τα περισσότερα συστήµατα ανάκτησης που εµφανίστηκαν ως τώρα λειτουργούν µόνο για ερωτήµατα περιεχοµένου (content based queries). Τα συστήµατα αυτά είναι χρήσιµα όταν ο χρήστης γνωρίζει ακριβώς για τι ψάχνει. Ωστόσο βρισκόµενοι σε ένα υψηλότερο επίπεδο αφαιρετικότητας, ο καθορισµός των στόχων για το τι ακριβώς ψάχνουµε χωρίς να γνωρίζουµε τα γεγονότα της προηγούµενης εβδοµάδας, για παράδειγµα, είναι αδύνατος. Είναι επιθυµητή λοιπόν η κατασκευή ενός ευφυούς συστήµατος που αυτόµατα, θα συνοψίζει µια εβδοµαδιαία αναφορά για τα κύρια θέµατα που απασχόλησαν τις δικτυακές πηγές. Ο αλγόριθµος TF*PDF (Term Frequency * Proportional Document Frequency / Συχνότητα Όρου * Αναλογική Συχνότητα Εγγράφου) χρησιµεύει στην ανεύρεση ανερχόµενων θεµάτων σε συγκεκριµένες περιοχές ενδιαφέροντος, στον Παγκόσµιο Ιστό, συνοψίζοντας τις αλλαγές που έχουν σταλεί σε αυτόν. Αυτή η περιοχή ενδιαφέροντος, αποτελείται, από έναν αριθµό web domains τα οποία περιέχουν καθορισµένο τύπο πληροφορίας ο οποίος είναι µάλλον στατικός. Στη συνέχεια, θα µελετήσουµε της εφαρµογή του TF*PDF σε δικτυακές πηγές στον Παγκόσµιο Ιστό, οι οποίες έχουνε µεγαλύτερη ροή πληροφορίας (ουσιαστικά περισσότερες και πιο δυναµικές πληροφορίες). Συνεπώς η απάντηση στην ερώτηση «Ποια ήταν τα σηµαντικότερα θέµατα, την περασµένη εβδοµάδα;», µπορεί να απαντηθεί ως, τα θέµατα εκείνα που συζητήθηκαν περισσότερο από τις περισσότερες δικτυακές πηγές την προηγούµενη εβδοµάδα. Ο αλγόριθµος TF*PDF αναδιοργανώνει τους όρους και προσπαθεί να βρει τα κύρια θέµατα. Οι όροι που ο TF*PDF αποκαλύπτει είναι αυτοί που εµφανίζονται σε πολλά έγγραφα πολλών δικτυακών πηγών ταυτόχρονα. Ο αλγόριθµος TF*PDF σχεδιάστηκε µε τρόπο ώστε να αναθέτει υψηλά βάρη (τιµές) σε όρους τέτοιου είδους και συνεπώς να αποκαλύπτει τα κύρια θέµατα. [4] TF*PDF Ο αλγόριθµος TF*PDF χρησιµοποιείται για την αναγνώριση των όρων που περιγράφουν πληρέστερα τα κυριότερα θέµατα εβδοµαδιαίων δεδοµένων. 34

36 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων Επιπρόσθετα, οι προτάσεις, µε υψηλό µέσο βάρος κατατάσσονται ή οµαδοποιούνται σύµφωνα µε το θέµα που αυτές αντιπροσωπεύουν, χρησιµοποιώντας το διάνυσµά τους. Κάθε πρόταση συσχετίζεται µε ένα διάνυσµα, του οποίου οι συνιστώσες είναι µοναδιαία διανύσµατα, που αντιπροσωπεύουν τους όρους µε το υψηλότερο βάρος. Χρησιµοποιώντας τα διανύσµατα των προτάσεων, µπορούµε να τις κατατάξουµε σε συγκεκριµένες θεµατικές ενότητες εξετάζοντες τα µοναδιαία διανύσµατά τους. Κάθε οµάδα προτάσεων αναπαριστά µία συγκεκριµένη θεµατική ενότητα. Οι προτάσεις σε κάθε θεµατική ενότητα διατάσσονται χρονολογικά για να σχηµατίσουν την περίληψη του θέµατος. Το επόµενο σχήµα δείχνει τη διαδικασία που µόλις περιγράφηκε.[4] Σχήµα 2.3 Η διαδικασία ανεύρεσης των σηµαντικότερων θεµάτων από τα κανάλια πληροφοριών Η λογική στον TF*PDF Η ιδέα στην οποία βασίζεται η λογική του αλγορίθµου είναι πως η ύπαρξη ενός σπουδαίου θέµατος στον παγκόσµιο ιστό θα προκαλέσει την έντονη συζήτησή του στην πλειοψηφία των δικτυακών πηγών. Έτσι, αντί για τη συλλογή όλων των πηγών, σε ένα ενιαίο σύνολο και τον υπολογισµό κάθε όρου µε τον αλγόριθµο TF*IDF, δίνεται προσοχή σε κάθε κανάλι πληροφορίας ξεχωριστά, το οποίο και τοποθετείται στο σύστηµα παράλληλα. Οι όροι που περιγράφουν τα σηµαντικά θέµατα εµφανίζονται συχνά σε αρκετά έγγραφα σε κάθε κανάλι όπου και βαθµολογούνται σηµαντικά. Όταν η πλειοψηφία των καναλιών περιέχει ένα 35

37 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων συνηθισµένο όρο µε υψηλό βάρος, ταυτόχρονα, τότε αυτός ο όρος περιγράφει καλύτερα τις κύριες θεµατικές ενότητες. Επιπλέον, παρατηρώντας ότι οι όροι είναι κυρίως λέξεις µε περιεχόµενο (content words), απορρίπτονται λέξεις όπως προθέσεις και σύνδεσµοι (stop words). Η επιλογή των λέξεων προς απόρριψη γίνεται µέσω µιας «λίστας λέξεων προς απόρριψη». [4] Ο αλγόριθµος TF*PDF Ο TF*PDF λοιπόν, είναι σχεδιασµένος ώστε να µετράει την σηµαντικότητα των όρων (αναθέτοντας βάρη). Αντίθετα µε την τεχνική µέτρησης των όρων στον TF*IDF, το βάρος ενός όρου σε ένα κανάλι στον TF*PDF είναι ευθέως ανάλογο µε τη συχνότητα του όρου µέσα στο κανάλι, και εκθετικά ανάλογο µε τη συµµετοχή του όρου στα έγγραφα του καναλιού. Το συνολικό βάρος ενός όρου είναι το άθροισµα των βαρών του όρου για κάθε ένα από τα κανάλια. W c = = T j c= 1 F n jc jc exp( ) (2.8) N c F jc = F jc k = K k= 1 F 2 kc (2.9) όπου W j, το βάρος του όρου j, F jc η συχνότητα του όρου j στο κανάλι c, n jc ο αριθµός των εγγράφων στο κανάλι c που εµφανίζεται ο όρος j, N c ο συνολικός αριθµός των εγγράφων στο κανάλι c, K ο συνολικός αριθµός όρων στο κανάλι και T ο αριθµός των καναλιών. Τρεις είναι οι βασικές συνιστώσες στον TF*PDF αλγόριθµο. Η πρώτη συνιστώσα, που συνεισφέρει στο βάρος ενός όρου σηµαντικά είναι το άθροισµα των βαρών για κάθε ένα από τα κανάλια µε την προϋπόθεση ότι ο όρος εξηγεί το σηµαντικό θέµα που συζητείται στην πλειοψηφία των καναλιών. Οι όροι, δηλαδή, που εξηγούν το κύριο θέµα έχουν µεγαλύτερο βάρος. Επιπλέον, όσο µεγαλύτερος είναι ο αριθµός των καναλιών, τόσο πιο ακριβής είναι ο αλγόριθµος στην αναγνώριση των όρων που περιγράφουν το θέµα. Η δεύτερη και τρίτη συνιστώσα συνδυάζονται ώστε να υπολογιστεί το βάρος του όρου στο κανάλι. Η δεύτερη συνιστώσα (TF / Term Frequency) αποτελείται από 36

38 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων την κανονικοποιηµένη συχνότητα του όρου στο κανάλι F jc όπως φαίνεται και στην εξίσωση 2.9. Η συχνότητα του όρου πρέπει να κανονικοποιείται, γιατί στα διάφορα κανάλια υπάρχουν διαφορετικά µεγέθη κειµένων. Ένας όρος από κάποιο κανάλι µε περισσότερα έγγραφα σε σχέση µε κάποιο άλλο έχει αναλογικά µεγαλύτερη πιθανότητα να εµφανίζεται πιο συχνά. Για να δοθεί λοιπόν ίση σηµαντικότητα σε κάθε όρο για κάθε κανάλι, απαιτείται κανονικοποίηση. Η τρίτη συνιστώσα (PDF / Proportional Document Frequency) ενός όρου σε ένα κανάλι είναι η exp(n jc /N c ). Είναι το εκθετικό του αριθµού των εγγράφων που περιέχουν τον όρο, προς τον συνολικό αριθµό των εγγράφων µέσα στο κανάλι. Στην περίπτωση αυτή, όροι που εµφανίζονται σε πολλά έγγραφα είναι περισσότερο σηµαντικοί σε σχέση µε εκείνους που εµφανίζονται λιγότερες φορές. Συνεπώς ο όρος που εµφανίζεται περισσότερο συχνά σε αρκετά έγγραφα σε ένα κανάλι, θα είναι αυτός που περιγράφει καλύτερα το κύριο θέµα στο κανάλι. Πειραµατικά, ο PDF έχει αποδειχθεί ότι αποδίδει καλά µεγαλώνοντας εκθετικά σε σχέση µε τον αριθµό των εγγράφων που περιέχουν τον όρο αντί γραµµικά, ώστε να δίνεται σηµαντικότερο βάρος στους όρους που εµφανίζονται σε πολλά έγγραφα σε σχέση µε άλλους που εµφανίζονται σε λίγα. Με µαθηµατική ορολογία, όσο µεγαλύτερος είναι ο αριθµός των εγγράφων που περιέχουν τον όρο στο κανάλι τόσο υψηλότερος θα είναι ο λόγος PDF του όρου αυτού. Τέλος, αριθµητικά η τιµή του PDF µπορεί να ανήκει στο διάστηµα από 1 (e 0 ) µέχρι (e 1 ) (βάση του e). Το συνολικό βάρος ενός όρου (W j ) είναι ίσο µε το άθροισµα του βάρους του όρου για κάθε κανάλι. Το ερώτηµα που τίθεται είναι γιατί το W j υπολογίζεται µε αυτό τον τρόπο, αντί για τη µεταχείριση όλων των εγγράφων από όλα τα κανάλια ως ίδια και τον υπολογισµό του σαν το γινόµενο της συνολικής συχνότητας του όρου επί τη συνολικής αναλογικής συχνότητας των εγγράφων. Πρέπει να τονιστεί ότι οι όροι που περιγράφουν το κύριο θέµα σε εβδοµαδιαίο επίπεδο είναι οι όροι αυτοί που εξηγούν το κύριο θέµα στη πλειοψηφία των καναλιών. Είναι, δηλαδή, οι όροι που εµφανίζονται περισσότερο στην πλειοψηφία των καναλιών. Για το λόγο αυτό το W j πρέπει να υπολογιστεί όπως αναλύθηκε προηγουµένως αφού διαφορετικά, αν υπήρχε κάποιο κανάλι µε µεγάλο αριθµό εγγράφων που περιέχουν συγκεκριµένους όρους σηµαντικού βάρους (για εκείνο το κανάλι µόνο), τα 37

39 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων αποτελέσµατα θα απέκλιναν από άλλους όρους που θα περιέγραφαν σηµαντικά θέµατα στη πλειοψηφία των καναλιών.[4] ιάνυσµα πρότασης Όπως φαίνεται και στο σχήµα 2.3, όταν ολοκληρωθεί η µέτρηση του βάρους από τον TF*PDF, ακολουθεί η οµαδοποίηση προτάσεων για τη γενίκευση των κυρίων θεµάτων. Κάθε οµάδα προτάσεων αναπαριστά ένα συγκεκριµένο θέµα. Κάθε διάνυσµα πρότασης, στις οµάδες αποτελείται από διαφορετικούς συνδυασµούς µοναδιαίων διανυσµάτων. Οι 30 υψηλότεροι όροι (βάσει βάρους) αποτελούν τα µοναδιαία διανύσµατα. Ο βασικός κανόνας ορίζει ότι αν ένα διάνυσµα πρότασης έχει γωνία που δεν είναι µεγαλύτερη από µοίρες µε οποιοδήποτε συνδυασµό µοναδιαίων διανυσµάτων µε κάποιο άλλο διάνυσµα πρότασης (που ονοµάζεται διάνυσµα αναφοράς), η πρόταση αυτή κατατάσσεται στην ίδια οµάδα µε τη πρόταση αναφοράς. Για παράδειγµα το διάνυσµα πρότασης µε αριθµό 5 (έχοντας τα µοναδιαία διανύσµατα Palestinian, official και Arafat ) του πίνακα 2.3 (έχει γωνία µοιρών µε το διάνυσµα αναφοράς των όρων Palestinian και official της πρότασης Νο.1. Έτσι η πρόταση 5 θα οµαδοποιηθεί µε την πρόταση 1. Όµοια, η πρόταση 9 οµαδοποιείται µε τη πρόταση 1 ή 11. Εναλλακτικά όλες οι προτάσεις 1, 5 και 9 µπορούν να οµαδοποιηθούν µε την πρόταση

40 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων Αριθµός πρότασης Πρόταση Βάρος In Washington, a senior Bush administration official declined comment on the Likud resolution, but said President Bush remains committed to the establishment of a Palestinian state. Meanwhile, 15 Palestinian Cabinet ministers offered to resign Saturday, officials said, a gesture to spur reforms in the Palestinian Authority, headed by Arafat. Wolfowitz repeated the Bush administration s view that an end to Israeli military occupation of Palestinian territory and a Palestinian state was key to solving the Arab-Israeli problem. The New York Times on Thursday quoted a senior Israeli official telling reporters in Washington on condition of anonymity that reforming the Palestinian security forces could not be accomplished while Arafat was in charge. Πίνακας 2.4 Μέρος από τις προτάσεις µε το υψηλότερο βάρος από τα πειράµατα που εκτελέστηκαν σε 4 πηγές δικτυακών νέων (Associated Press, The New York Times, Reuters και USATODAY). Η τιµή της γωνίας επιλέχτηκε ευριστικά, ύστερα από δοκιµές µε διάφορες τιµές. Σε αυτή την τιµή, η γωνία δίνει πιθανότητες για οµαδοποίηση µιας πρότασης µε τρία µοναδιαία διανύσµατα µε µία άλλη µε τουλάχιστον δύο ίδια µοναδιαία διανύσµατα. Κατά την οµαδοποίηση, εµφανίζεται θόρυβος όταν µία πρόταση οµαδοποιείται µε προτάσεις που µόνο τα µισά µοναδιαία διανύσµατα τους είναι ίδια. Συνεπώς προτάσεις για παράδειγµα µε δύο µοναδιαία διανύσµατα οµαδοποιούνται µόνο µε προτάσεις που έχουν ίδια µοναδιαία διανύσµατα και προτάσεις µε τέσσερα µοναδιαία διανύσµατα οµαδοποιούνται στις προτάσεις που περιέχουν τουλάχιστον ίδια τρία µοναδιαία διανύσµατα. Υπάρχουνε τέσσερις κατηγορίες διανυσµάτων πρότασης που προκύπτουν κατά τη διάρκεια ή στο πέρας της οµαδοποίησης: 1. CS (cluster sentence / πρόταση οµάδας): η πρόταση οµαδοποιήθηκε σε ένα θέµα κατάλληλα. 2. MS (miss sentence / χαµένη πρόταση): η πρόταση οµαδοποιήθηκε σε ένα θέµα λανθασµένα. 3. FS (fail sentence / αποτυχηµένη πρόταση): η πρόταση ανήκει σε ένα θέµα που ήδη έχει σχηµατιστεί, αλλά απέτυχε να οµαδοποιηθεί µε αυτό. 4. NC (not clustered sentence / µη οµαδοποιηµένη πρόταση): η πρόταση δεν ανήκει σε κανένα θέµα από τα υπάρχοντα. 39

41 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων Ο αριθµός των προτάσεων που ανήκουν σε κάθε οµάδα µπορεί να διαφέρει. πολύ. Κάτι τέτοιο είναι λογικό, ειδικά όταν η οµαδοποίηση ξεκινά από µία πρόταση µε το υψηλότερο µέσο βάρος και επεκτείνεται σε προτάσεις µε µικρότερες τιµές µέσου βάρους. Μετά τη διαδικασία της οµαδοποίησης όλες οι προτάσεις σε κάθε οµάδα, αναδιατάσσονται χρονολογικά για να σχηµατίσουν µία περίληψη του θέµατος. Τέλος, λόγω πιθανής µεγάλης διαφοράς στο µέγεθος µετάξι οµάδων, απαιτείται η µείωση του µήκους του περιληπτικού κειµένου χρησιµοποιώντας κάποιες τεχνικές περίληψης όπως συµπίεση ή συµπύκνωση. [4] Σχήµα 2.4 Το υπό εξέταση διάνυσµα Α, ελέγχεται κατά πόσο απέχει από το διάνυσµα αναφοράς Β. Αν η γωνία που σχηµατίζει είναι µικρότερη από µοίρες τότε τα δύο διανύσµατα ανήκουν στην ίδια οµάδα Πειραµατικά αποτελέσµατα Τα πειράµατα εκτελέστηκαν λαµβάνοντας υπ όψη 4 δικτυακές πηγές ταυτόχρονα: το Associated Press (AP), το New York Times (NYT), το Reuters και το USATODAY. Στη συνέχεια αναλύονται οι πειραµατικές εκτελέσεις για τα έγγραφα µε ηµεροµηνίες που ανήκουν στην περίοδο 6 Μαΐου 2002 έως 12 Μαΐου Το σύνολο των εβδοµαδιαίων νέων αποτελείται από περίπου σηµαντικά έγγραφα. Ο επόµενος πίνακας δείχνει τους 30 πιο σηµαντικούς όρους σύµφωνα µε τον TF*PDF. Το σχήµα 2.5 παρουσιάζει τις τρεις σελίδες που θεωρήθηκαν ως σηµαντικότερες. Και οι τρεις σελίδες σχετίζονταν µε θέµατα της Παλαιστίνης και του Ισραήλ. Από τον πίνακα 2.5 οι όροι Palestinian και Israeli έχουν το 40

42 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων µεγαλύτερο βάρος. Επιπρόσθετα, η πλειοψηφία των 10 πρώτων όρων «αναλύουν» τα έγγραφα που αναφέρονται στην Παλαιστίνη και το Ισραήλ. Ωστόσο σε χαµηλότερη κατάταξη, εντοπίζονται σηµαντικοί όροι δευτερευόντων θεµάτων. Επιπλέον, έχουµε τη δυνατότητα να δηµιουργήσουµε µία περίληψη για κάθε ένα από τα σηµαντικότερα θέµατα µέσω των τεχνικών οµαδοποίησης προτάσεων που περιγράφηκαν στην προηγούµενη ενότητα. Σχήµα 2.5 Οι τρεις σηµαντικότερες σελίδες για την περίοδο 6 Μαΐου 2002 έως 12 Μαΐου 2002 όπως αυτές είχαν προταθεί από τον TF*PDF 41

43 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων Όρος Βάρος Όρος Βάρος Όρος Βάρος Palestinian kill Washington Israeli security Enron official church West Bush Gaza White bomb Point House Israel Helder Home attack Peace Student Sharon suicide Troop Arafat talk Minister American federal Letter Πίνακας 2.5 Οι 30 σηµαντικότεροι όροι, µε το βάρος τους, όπως αυτό υπολογίστηκε από τον TF*PDF για την περίοδο 6 Μαΐου 2002 ως 12 Μαΐου Εντοπισµός τάσεων (tr ( trends ends) ) µε χρήση δυναµικής εξόρυξης δεδοµένων περιεχοµένου στον Παγκόσµιο Ιστό Εισαγωγή Ο Π.Ι. είναι ένα µέσο πρόσβασης σε ένα µεγάλο σύνολο πληροφοριών το οποίο βρίσκεται αποθηκευµένο σε όλο τον κόσµο, κατανεµηµένα. Η ταχεία ανάπτυξη του παγκοσµίου ιστού προκαλεί την σταθερή αύξηση της πληροφορίας οδηγώντας σε πολλαπλά προβλήµατα: Αυξανόµενη δυσκολία στην εύρεση σχετικής πληροφορίας, εξαγωγή γνώσης και µάθηση σχετικά µε τις συνήθειες χρηστών. Η εξόρυξη δεδοµένων στον Π.Ι., όπως ειπώθηκε και στην πρώτη ενότητα, εστιάζει στην επίλυση αυτών των προβληµάτων. Στη συνέχεια, παρουσιάζεται µία πλήρης µέθοδος για εξόρυξη νέων από online ειδησεογραφικές σελίδες. Η µέθοδος αυτή πλοηγείται, ανάµεσα στις ιστοσελίδες, εξάγει αναφορές νέων (news reports) και τις αναλύει έτσι ώστε να βρεθούν ενδιαφέρουσες τάσεις νέων (news trends). Βασικά, η προτεινόµενη µέθοδος προσαρµόζεται για ειδικά χαρακτηριστικά νέων. Για παράδειγµα, εφαρµόζει δυναµικά µοντέλα, για την εξαγωγή νέων και στατιστικές στρατηγικές για αναγνώριση θεµάτων (topic identification) και ανάλυση των τάσεων (trend analysis). Συνολικά η µέθοδος, είναι µια εφαρµογή εξόρυξης παγκοσµίου ιστού που προσπαθεί να κατανοήσει τα ενδιαφέροντα µιας 42

44 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων κοινωνίας και να µετρήσει το δηµόσιο αντίκτυπο πάνω σε πραγµατοποιούµενα γεγονότα. Η ουσιαστική διαφορά στη µέθοδο αυτή, σε σχέση µε αυτή που παρουσιάστηκε στην παράγραφο 2.2 είναι η διαφορετική φιλοσοφία µε την οποία επεξεργάζονται τα δεδοµένα (σήµανση µερών του λόγου, αντί για µέτρηση συχνότητας των όρων), καθώς επίσης και η διαφορετική προέλευση των δεδοµένων (σελίδες διαδικτύου αντί για newswire).[9] υναµική ανάλυση νέων Η προτεινόµενη µέθοδος, όπως κάθε άλλη µέθοδος εξόρυξης παγκοσµίου ιστού αποτελείται από τέσσερις φάσεις (Σχήµα 2.6): αναγνώριση πόρων (resource identification), προεπεξεργασία (preprocessing), γενίκευση (generalization) και ανάλυση (analysis). Σχήµα 2.6 Τα βήµατα στην ανεύρεση τάσεων από µία ειδησεογραφική πηγή στο διαδίκτυο. Ανεύρεση πόρων 43

45 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων Σε αυτή τη φάση, συλλέγονται και εξάγονται όλα τα νέα από µία δοθείσα ιστοσελίδα. Ένας περιηγητής (crawler) πλοηγείται σε ένα web site και εξάγει συνεχώς νέα. Ο περιηγητής λειτουργεί σύµφωνα µε τις επόµενες οδηγίες: Κατεβάζει την ιστοσελίδα από ένα τρέχων URL (αρχικά το URL είναι η κύρια σελίδα (main page) του web site. Φιλτράρει τη κατεβασµένη ιστοσελίδα, π.χ. διαγράφει τη σελίδα αν έχει κατεβεί προηγουµένως, ή ανήκει σε κάποιο άλλο web site (εξωτερικός σύνδεσµος). Επιπλέον, ελέγχει εάν η σελίδα εµπεριέχει πρόσφατα νέα. Εάν πληροί όλα τα προηγούµενα χαρακτηριστικά τότε περιλαµβάνεται στα επόµενα βήµατα. Αναλύει τις αποθηκευµένες σελίδες, αποµακρύνοντας µη σχετική πληροφορία (πληροφορίες που δεν έχουν να κάνουν µε το περιεχόµενο που ενδιαφέρει τον χρήστη) όπως σχόλια, HTML ετικέτες και αποθηκεύει το περιεχόµενο των νέων µόνο, για επεξεργασία. Επιπλέον αναγνωρίζει και εξάγει urls για µετέπειτα χρήση. Τα urls αυτά αποθηκεύονται σε µία ουρά. Επαναλαµβάνει τα προηγούµενα βήµατα µέχρι η ουρά των urls να αδειάσει. Όταν συµβεί το γεγονός αυτό το web site θεωρείται ότι έχει εξερευνηθεί πλήρως. Η παραπάνω διαδικασία, ενεργοποιείται περιοδικά, περίπου µία µε δύο φορές την ηµέρα. Όταν η διαδικασία ολοκληρώνεται, τα έγγραφα που συγκεντρώθηκαν δηµιουργούν ένα στιγµιότυπο των τρεχόντων γεγονότων. Ακολουθεί η διαδικασία της προεπεξεργασίας και αποθήκευσης αυτών όπου, αργότερα, ο χρήστης µπορεί να διαλέξει µία περίοδο για ανάλυση.[9] Προεπεξεργασία Η φάση της προεπεξεργασίας µετατρέπει τα εισερχόµενα έγγραφα νέων σε µία νέα δοµηµένη µορφή. Αυτή η µορφή αποτελείται από τις πληροφορίες της πηγής (από την οποία προήλθαν τα νέα), την ηµεροµηνία και µία αναπαράσταση του περιεχοµένου. Η αναπαράσταση αποτελεί την µετατροπή του κειµένου σε µία λίστα από λέξεις κλειδιά ή θέµατα (topics). Στα πειράµατα που ακολούθησαν χρησιµοποιήθηκε µία µέθοδος όπου τα θέµατα αποτελούνταν από ουσιαστικά[5]. 44

46 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων Η εξαγωγή των θεµάτων από µία αναφορά νέων γίνεται ακολουθώντας τα επόµενα βήµατα: Για κάθε πρόταση γίνεται αναγνώριση των µερών του λόγου (Part-ofspeech tagging). Βάσει των µερών του λόγου, εντοπίζονται τα ουσιαστικά και συνδέονται ώστε να δηµιουργήσουν µία ενιαία δοµή αντικειµένου. Τα περισσότερο συχνά αντικείµενα επιλέγονται, και καταχωρούνται στη λίστα των θεµάτων. Γενίκευση Ο στόχος αυτής της φάσης είναι η ανακάλυψη ενδιαφερόντων τάσεων (interesting trends) ανάµεσα στα θέµατα. Αποτελείται από δύο εργασίες: την κατασκευή των θεµατικών κατανοµών και την ανάλυση των τάσεων. 1. Κατασκευή των θεµατικών κατανοµών Βασισµένοι στην τυπική αναπαράσταση των νέων, η συχνότητα f i k ανατίθεται σε κάθε θέµα που συζητείται µία συγκεκριµένη περίοδο (η οποία υποδεικνύεται από τον χρήστη). Υπολογίζεται ως ο αριθµός των αναφορών νέων στην περίοδο i που σχετίζονται µε το θέµα k. Στη συνέχεια χρησιµοποιώντας αυτές τις συχνότητες η i κατανοµή πιθανότητας των θεµάτων για την περίοδο i είναι ίση µε D i = { p k } όπου p i k είναι p i k f i k = n j = 1 f i j (2.10) η πιθανότητα ύπαρξης του θέµατος k στην περίοδο i, και το n δείχνει τον αριθµό των θεµάτων που έχουν καταγράφει για αυτή την περίοδο i. 2. Ανάλυση τάσεων Οι τάσεις ανακαλύπτονται από τη σύγκριση των κατανοµών πιθανοτήτων D i = { p k i } δύο θεµατικών ενοτήτων για δύο δοθέντες περιόδους i = 1, 2. Η σύγκριση γίνεται µέσα από την ποσότητα C c το οποίο υπολογίζεται ως το πηλίκο της περιοχής που έχει αλλάξει ως προς τη µέγιστη περιοχή. Αυτή η µετρική δείχνει τη 45

47 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων συνολική τάση και δεν µετρά τα ξεχωριστά γεγονότα που αλλάζουν για την εξεταζόµενη περίοδο. Έτσι έχουµε: A c C C= (2.11) Am n = k = A C d 1 k Συντελεστής αλλαγής (change coefficient) (2.12) Περιοχή αλλαγής A m n = k = 1 max( p, p ) (2.13) Μέγιστη περιοχή 1 k 2 k d k = p p (2.14) Ανεξάρτητη αλλαγή θέµατος 1 k 2 k Πίνακας 2.6 Υπολογισµός του συντελεστή αλλαγής ανάµεσα σε δύο περιόδους. Αν ο συντελεστής αλλαγής ανάµεσα στις δύο κατανοµές πιθανότητας είναι κοντά στο 1, τότε υπάρχει αξιοσηµείωτη αλλαγή στα θέµατα για τις υπό ανάλυση περιόδους. Αντίθετα, εάν ο συντελεστής αλλαγής βρίσκεται κοντά στο 0, µπορούµε να συµπεράνουµε ότι τα νέα στις δύο περιόδους είναι περίπου όµοια. Σε περίπτωση αλλαγής της τάσης, είναι σηµαντικό να προσδιοριστούν εκείνα τα θέµατα µε την µεγαλύτερη συνεισφορά στην αλλαγή. Τα θέµατα αυτά ονοµάζονται παράγοντες (factors) και ορίζονται ως η αλλαγή που είναι µεγαλύτερη (σε µέγεθος) από µια τυπική αλλαγή. Ας υποθέσουµε ότι, d µ είναι µια τυπική τιµή του d k και d σ είναι η µετρική του µήκους της κατανοµής. Τότε ένα θέµα k για το οποίο ισχύει d k > d µ + (C x d σ ) µπορεί να θεωρηθεί ως παράγοντας αλλαγής. Η τιµή του C µπορεί να χρησιµοποιηθεί σαν παράµετρος ώστε να καθορίσουµε πότε µια αλλαγή µπορεί να θεωρηθεί σηµαντική ή όχι. d s = 1 n dµ = k = d 1 k (2.15) Μέση αλλαγή n 1 n n k = 1 ( d k 2 dµ ) (2.16) Τυπική απόκλιση της αλλαγής Πίνακας 2.7 Μέτρηση της µέσης αλλαγής θεµάτων σε δύο περιόδους. Επιπλέον γίνεται προσπάθεια προσδιορισµού των περισσότερο σηµαντικών θεµάτων για τις δύο περιόδους. Τα θέµατα αυτά ονοµάζονται παράγοντες σταθερότητας και ορίζονται ως ένα σύνολο θεµάτων που παραµένουν σταθερά και 46

48 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων διατηρούν ένα σηµαντικό επίπεδο σηµαντικότητας στις δύο περιόδους. Συνεπώς ένα θέµα k είναι παράγοντας σταθερότητας εάν d k < d µ (C x d σ ) και p k i > p µ i και για τις δύο περιόδους i = 1, 2. i n p i j pµ = j = (2.17) 1 n το C είναι και πάλι η σταθερά που χρησιµοποιείται σαν κριτήριο για να προσδιορίσει αν το ένα θέµα είναι σταθερό.[9] Ανάλυση Σε αυτή τη φάση ο χρήστης αλληλεπιδρά µε το σύστηµα ως ακολούθως: [9] Ο χρήστης διαλέγει την χρονική περίοδο της επιλογής του. Έτσι επιλέγονται τα έγγραφα εκείνα που δηµοσιεύτηκαν εκείνη τη χρονική περίοδο. Έπειτα καθορίζει τις παραµέτρους που απαιτούνται στη διαδικασία της γενίκευσης. Στη συνέχεια ο χρήστης αναλύει τα πρότυπα (patterns) που έχουν ανακαλυφθεί από το σύστηµα στη φάση της γενίκευσης για την περίοδο αυτή. Αν τα πρότυπα δεν είναι ενδιαφέροντα για τον χρήστη, µπορεί να επαναλάβει την διαδικασία, επιλέγοντας µία άλλη χρονική περίοδο και παραµέτρους µέχρι να τον ικανοποιούν τα αποτελέσµατα που θα παραλάβει από την ανάλυση Πειραµατικά αποτελέσµατα Ο κύριος στόχος του συστήµατος είναι η ανάλυση των τωρινών ενδιαφερόντων και γεγονότων της κοινωνίας εντοπίζοντας τάσεις από ειδησεογραφικές ιστοσελίδες νέων. Στη συνέχεια αναλύονται τα αποτελέσµατα από την εφαρµογή της µεθόδου στην Μεξικανική ειδησεογραφική ιστοσελίδα, η οποία χρησιµοποιεί τη αγγλική γλώσσα, The News. Η ανάλυση αποτελείται από δύο σηµαντικές συνιστώσες: 47

49 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων Εξαγωγή των αναφορών νέων (news reports) από την ιστοσελίδα και µετατροπή τους στην κατάλληλη αναπαράσταση (η διαδικασία αυτή ενεργοποιείται αυτόµατα δύο φορές την ηµέρα). Ανακάλυψη των κυριότερων τάσεων των γεγονότων για µία συγκεκριµένη χρονική περίοδο (η διαδικασία ενεργοποιείται από αίτηµα του χρήστη). Στο πρώτο βήµα πραγµατοποιούνται οι ακόλουθες ενέργειες: Ο περιηγητής κατεβάζει κατά µέσο όρο 350 ιστοσελίδες καθηµερινά. Από αυτές µόνο οι 130 περιγράφουν τρέχοντα νέα και επιλέγονται για επιπλέον ανάλυση, οι υπόλοιπες διαγράφονται κατά τη φάση του φιλτραρίσµατος. Το επόµενο σχήµα δείχνει τον αριθµό των ιστοσελίδων που κατεβαίνουν σε κάθε επίπεδο για τον υπό εξέταση χώρο (µε εφαρµογή της αναζήτησης πρώτα σε πλάτος breadth-first). Θα πρέπει ακόµα να σηµειωθεί ότι η ανάλυση των πέντε πρώτων επιπέδων του δικτυακού τόπου (όλη η διαδικασία ανεύρεσης πόρων) διήρκησε περίπου 18 λεπτά. Σχήµα Ο αριθµός των φιλτραρισµένων και των ενδιαφερόντων νέων σε κάθε επίπεδο του δικτυακού τόπου. Στις επιλεχθείσες ιστοσελίδες εφαρµόζεται προεπεξεργασία και µετατροπή στην κατάλληλη αναπαράσταση (δηλαδή µία λίστα λέξεων κλειδιών ή θεµάτων). Η λίστα αποτελείται από 20 περίπου θέµατα ανά ιστοσελίδα. Ο επόµενος πίνακας δείχνει ένα τµήµα µιας αναφοράς νέων και την αντίστοιχη αναπαράστασή της. Η λίστα θεµάτων που δηµιουργήθηκε αποθηκεύεται για µετέπειτα χρήση στην ανακάλυψη των τάσεων. 48

50 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων The News - Government identifies areas of strife in Oaxaca. The government has identified dozens of areas of conflict, including some designated as red alert zones, in the southern state of Oaxaca, where land disputes have raged for decades. One long-standing land dispute between indigenous and peasant communities came to a head last Friday, with the massacre of 26 Indians in the village of Santiago Xochiltepec. Xochitl Galvez, the director of the president's Indigenous Peoples' Development Office, said the federal government needs to conduct an exhaustive analysis of the region's problems, which also affect other states in southern Mexico, such as Chiapas and Guerrero.. {Government, strife, Oaxaca, government, land-disputes, massacre, Galvez, Wednesday, Authorities, areas, PGR, } Πίνακας 2.8 Τµήµα αναφοράς νέων και η αναπαράστασή της ως λίστα θεµάτων µέσω της µετατροπής που προηγείται. Στο δεύτερο βήµα, αναλύονται τα νέα που δηµοσιεύτηκαν στα τέλη Μαΐου και αρχές Ιουνίου 2002 (την τελευταία εβδοµάδα του πρώτου µήνα και την πρώτη του δεύτερου). Οι αναφορές νέων περιέχουν 663 θέµατα συνολικά. Η ανάλυσή τους έδωσε τα αποτελέσµατα που φαίνονται στο επόµενο σχήµα. Σχήµα 2.8 Οι παράγοντες αλλαγής θέµατος για τις δύο υπό εξέταση περιόδους. Κατά την διάρκεια των δύο εβδοµάδων θέµατα παύουν να απασχολούν την ενηµέρωση κι άλλα ανέρχονται στο προσκήνιο. 49

51 Τεχνικές ανάκτησης πληροφορίας & εύρεσης θεµατικών ενοτήτων Για την τιµή Cc = 0.591, παρατηρούµε ότι υπάρχει ελαφρώς διαφορά στις τάσεις για τις δύο περιόδους (υπήρχαν δηλαδή αρκετές διαφορές στα θέµατα ανάµεσα στην τελευταία εβδοµάδα του Μαΐου και την πρώτη εβδοµάδα Ιουνίου). Οι σηµαντικότεροι παράγοντες αλλαγής σχετίζονται µε τα θέµατα: World-Cup, massacre, Oaxaca (ως προς τα θέµατα που εµφανίζονται) και Bush, France και Uribe (για τα θέµατα που εξαφανίζονται). Τα αποτελέσµατα δείχνουν ότι την τελευταία εβδοµάδα του Μαΐου η προσοχή στο Μεξικό επικεντρώθηκε σε διεθνή γεγονότα όπως την επίσκεψη του προέδρου Bush στη Γαλλία, και τις προεδρικές εκλογές στην Κολοµβία. Αντίθετα, την πρώτη εβδοµάδα Ιουνίου, στο Μεξικό τα κύρια θέµατα εστιάστηκαν σε εσωτερικά ζητήµατα όπως οι δολοφονίες των κατοίκων στην πολιτεία Oaxaca, Επιπλέον, τα αποτελέσµατα επιβεβαιώνουν την έλξη που προκαλείται από το παγκόσµιο κύπελλο ποδοσφαίρου που ξεκίνησε τον Ιούνιο. 50

52 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού 3. Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού 3.1 Η προσέγγιση µας Εισαγωγή Μια διαφορετική προσέγγιση στην οµαδοποίηση δεδοµένων στον Π.Ι. µπορεί να είναι ο συνδυασµός των προηγούµενα αναφερθέντων τεχνικών µε σκοπό την παραγωγή καλύτερων και περισσότερο συµπαγών οµάδων. Τα κύρια σηµεία πάνω στα οποία η προσέγγιση µας ξεχωρίζει σε σχέση µε τις µεθόδους που εξετάστηκαν προηγουµένως και τη βιβλιογραφία είναι: Η µέτρηση της συχνότητας µέσα σε ένα έγγραφο γίνεται µόνο για τα µέρη του λόγου που είναι ουσιαστικά (nouns). Η εύρεση των ουσιαστικών βασίζεται στην ανίχνευση των µερών του λόγου µέσω του Part of Speech Tagging (POS Tagging). ηµιουργία ενός θέµατος (topic) για κάθε έγγραφο, το οποίο αποτελείται από τις λέξεις-κλειδιά που έχουν συγκεντρώσει τη µεγαλύτερο βαθµολογία (µεγαλύτερη κανονικοποιηµένη συχνότητα µέσα στο έγγραφο). Οµαδοποίηση των θεµάτων µε χρήση τόσο του K-means όσο και Ιεραρχικού αλγορίθµου. Το χαρακτηριστικό αυτό δίνει ευελεξία ως προς την επιλογή του καταλληλότερου αλγορίθµου οµαδοποίησης για κάθε πιθανή περίπτωση. Με την παρούσα µέθοδο προτείνεται ένας εναλλακτικός τρόπος εύρεσης θεµατικών ενοτήτων στον Π.Ι. που βασίζεται ως επί το πλείστο στη γραµµατική ανίχνευση του όρου και λιγότερο σε στατιστικά τεχνάσµατα αντίθετα µε τους περισσότερους προτεινόµενους αλγορίθµους στην βιβλιογραφία Περιγραφή του αλγορίθµου Το επόµενο σχήµα (Σχήµα 3.1) δείχνει αναλυτικά τις φάσεις από τις οποίες περνάνε τα αρχικά δεδοµένα του Π.Ι. µέχρι τον τελικό σχηµατισµό τους σε οµάδες: 51

53 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού Σχήµα 3.1 ιαγραµµατική αναπαράσταση του αλγορίθµου Ο Π.Ι. µπορεί να θεωρηθεί ως ένα σύνολο δεδοµένων (dataset) πάνω στο οποίο θα µπορούσαµε να βασιστούµε και να εκτελέσουµε τις πειραµατικές µας µετρήσεις και αποτελέσµατα. Οι ιστοσελίδες που προσφέρουν καθηµερινή ειδησεογραφία είναι πολλές και η επιλογή κάποιας δεν αποτέλεσε ιδιαίτερο πρόβληµα. Καλές θεωρήθηκαν όλες οι πηγές που είχανε 1. Περιεχόµενο γραµµένο στην αγγλική γλώσσα. Όπως θα δούµε στην συνέχεια, ο αλγόριθµος εκτελεί γραµµατική ανίχνευση επί των εγγράφων. Σύµφωνα µε µελέτες η αγγλική γλώσσα έχει πολύ λιγότερους γραµµατικούς κανόνες σε σχέση µε την ελληνική. Αυτό έχει σαν αποτέλεσµα ευκολότερη και µε λιγότερο κόστος επεξεργασία. Γραµµατικοί ανιχνευτές άλλων (πλην της αγγλικής) γλωσσών είναι περισσότερο πολύπλοκοι. Ωστόσο η προτεινόµενη µέθοδος µπορεί να επεκταθεί εύκολα και σε άλλες γλώσσες χρησιµοποιώντας διαφορετικό γραµµατικό ανιχνευτή που υποστηρίζει τη συγκεκριµένη γλώσσα. 52

54 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού 2. Το περιεχόµενο να είναι πρωταρχικά διαχωρισµένο. Να υπάρχει δηλαδή, κατά το δυνατόν διαχωρισµός των εγγράφων σε πρωταρχικές κατηγορίες. Για παράδειγµα, να µην υπάρχουν στην ίδια σελίδα πληροφορία που αφορά σε διαφορετικές κατηγορίες νέων όπως αθλητικές και πολιτικές ειδήσεις. Τα έγγραφα κατεβαίνουν και αποθηκεύονται σε µορφή HTML. Για κάθε ένα από τα έγγραφα γίνεται χρονική καταγραφή, δηλαδή, αποθηκεύεται η ηµεροµηνία αποθήκευσης του εγγράφου. Ένα HTML έγγραφο δεν προσφέρει πάντα καθαρό κείµενο, αλλά και πληροφορίες άσχετες µε το περιεχόµενο (π.χ. διαφηµίσεις, µενού πλοήγησης, ετικέτες κ.α.). Συνεπώς το επόµενο βήµα είναι η εξαγωγή περιεχοµένου από τα HTML έγγραφα έτσι ώστε το εξαγχθέν έγγραφό να έχει τη λιγότερη δυνατή περιττή πληροφορία. Το Crunch 2[6][22], ένα εργαλείο που λειτουργεί ως proxy server χρησιµοποιήθηκε για την εξαγωγή περιεχοµένου και µε τον τρόπο αυτό όλα τα άρθρα µετατράπηκαν από ένα πλούσιο (σε µορφοποίηση) HTML έγγραφό σε ένα έγγραφο απλού κειµένου. Στη συνέχεια, εκτελείται γραµµατική ανίχνευση σε κάθε όρο των εγγράφων. Κάθε έγγραφο δηλαδή, αναλύεται λεκτικά στα διάφορα µέρη του λόγου: ρήµατα, επίθετα, ουσιαστικά κ.ο.κ. Για την υλοποίηση της γραµµατικής ανίχνευσης χρησιµοποιήθηκε ο γραµµατικός ανιχνευτής του πανεπιστηµίου του Stanford [19]. Περισσότερα για την γραµµατική ανίχνευση θα βρείτε στις ενότητες και [5] [26]. Από τα µέρη του λόγου, τα ουσιαστικά είναι αυτά που περιέχουν την µεγαλύτερη «πληροφορία» σχετικά µε το περιεχόµενο µιας πρότασης. Τα ουσιαστικά είναι οι όροι που δίνουν σηµασία στο λόγο, είναι οι λέξεις εκείνες που µας βοηθούν να κατανοήσουµε καλύτερα το περιεχόµενο της πρότασης που διαβάζουµε. Με αυτή την παρατήρηση, κρίθηκε σωστό, οι λέξεις που θα αναπαριστούν το θέµα ενός κειµένου να είναι µόνο ουσιαστικά. Εποµένως, όροι µε οποιοδήποτε άλλο γραµµατικό χαρακτηρισµό απορρίπτονται. Η µέθοδος εξαγωγής του θέµατος από κάθε έγγραφο υλοποιήθηκε µε την εύρεση της συχνότητας εµφάνισης κάθε όρου στο κείµενο που ήταν ουσιαστικό. Στην 53

55 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού συνέχεια επιλέγονταν οι z συχνότεροι όροι (top z frequency list). Η επιλογή του z ήταν διαφορετική για κάθε ένα από τα πειραµατικά αποτελέσµατα που περιγράφονται στη συνέχεια. Συµβολισµός s i,j K z M N Επεξήγηση Κανονικοποιηµένη συχνότητα του όρου i στο έγγραφο j Αριθµός των οµάδων που παράγονται από τον αλγόριθµο οµαδοποίησης Αριθµός των λέξεων κλειδιών που περιγράφουν κάθε θεµατική ενότητα Το πλήθος των εγγράφων για οµαδοποίηση Το πλήθος των διαφορετικών λέξεων που απαρτίζουν τις θεµατικές ενότητες για όλα τα έγγραφα. Πίνακας 3.1 Συνοπτική επεξήγηση των συµβολισµών που χρησιµοποιούνται για τη µέθοδο διαχωρισµού θεµατικών ενοτήτων. Στο τέλος της παραπάνω διαδικασίας, κάθε έγγραφο αποτελούνταν από ένα διάνυσµα. Οι συνιστώσες του διανύσµατος είναι οι λέξεις που χρησιµοποιούνται από όλα τα κείµενα και οι τιµές που αυτά παίρνουν είναι η συχνότητα εµφάνισής τους µέσα στο κείµενο κανονικοποιηµένη ως προς την συχνότητας της λέξης µε την µεγαλύτερη εµφάνιση. Τυπικότερα µπορούµε να πούµε ότι : fi, j s i, j = (3.1) max( f *, j ) όπου s i,j είναι η κανονικοποιηµένη συχνότητα της λέξης i στο κείµενο j, f i,j είναι η συχνότητα της λέξης i στο έγγραφο j και max(f *,j ) είναι η µεγαλύτερη συχνότητα από όλες τις λέξεις του εγγράφου j Γραµµατική Ανίχνε νίχνευση (Part of Speech Tagging) Το Part-of-speech tagging (POS tagging), είναι η διαδικασία εκείνη κατά την οποία οι λέξεις σε ένα κείµενο χαρακτηρίζονται γραµµατικά ως ένα µέρος του λόγου (π.χ. ρήµα, ουσιαστικό, επίθετο κ.τ.λ) βάσει του ορισµού τους και του 54

56 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού περιεχόµενου (δηλαδή τη γειτνίασή τους µε άλλες λέξεις µέσα σε µία φράση, πρόταση ή παράγραφο). Το POS tagging γίνεται ακολουθώντας απλούς γραµµατικούς κανόνες που διδάσκονται σε κάθε γλώσσα. Μπορεί να υλοποιηθεί όµως χρησιµοποιώντας αλγορίθµους που συνδέουν διακριτούς όρους, κρυµµένα µέρη του λόγου, σε συνδυασµό µε άλλα περιγραφικά µέρη του λόγου. [18] [19] [26]. Η καταγραφή κάθε λέξης σαν ένα συγκεκριµένο µέρος του λόγου δεν είναι δυνατή, αφού ορισµένες λέξεις µπορεί να αναπαριστούν διαφορετικές γραµµατικές έννοιες σε διαφορετικές συνθήκες. Αυτό συµβαίνει γιατί στις περισσότερες φυσικές γλώσσες (όπως η αγγλική ή η ελληνική) η συντακτική ερµηνεία µιας λέξης µπορεί να είναι διφορούµενη. Για παράδειγµα η αγγλική λέξη «dogs» µπορεί να θεωρηθεί ως ουσιαστικό πληθυντικού. Όµως για την πρόταση The sailor dogs the hatch η λέξη «dogs» θεωρείται ρήµα. Γενικά, στην Αγγλική γλώσσα διακρίνονται 8 κύρια µέρη του λόγου: ουσιαστικά, ρήµατα, επίθετα, προθέσεις, αντωνυµίες, επιρρήµατα, συνδέσµους και επιφωνήµατα. Ωστόσο υπάρχουν περισσότερες κατηγορίες και υποκατηγορίες. Για παράδειγµα τα επίθετα διαιρούνται σε υποκατηγορίες χρώµατος, µεγέθους, αριθµών και άλλων τύπων. Αυτός ο διαχωρισµός δεν έχει µόνο σηµασιολογική ύπαρξη αφού ανάλογα µε τον τύπο της υποκατηγορίας το επίθετο έχει αντίστοιχη διάταξη σύνταξης Stemming Πως όµως γίνεται η αναγνώριση των όµοιων λέξεων; ύο λέξεις, από τις οποίες η µία είναι στον ενικό και η άλλη στο πληθυντικό θα πρέπει να καταχωρηθούν ως όµοιες. Πως µπορεί να γίνει αναγνώριση της ίδιας λέξης ώστε να µην κατηγοριοποιηθεί διαφορετικά; Το πρόβληµα επιλύεται µε την βοήθεια του Stemming. Το stemming είναι η διαδικασία µετατροπής των ελαφρά αλλαγµένων (ή παράγωγων) λέξεων στην βάση τους. Η διαδικασία του stemming, είναι χρήσιµη στις µηχανές αναζήτησης (search engines), επέκταση ερωτηµάτων (query 55

57 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού expansion), ή στη δεικτοδότηση (indexing) και σε άλλα προβλήµατα επεξεργασίας φυσικής γλώσσας (natural language processing). Στις περισσότερες περιπτώσεις, διαφορές στην µορφολογία των λέξεων δεν έχουν καµία επίπτωση στο νόηµα που αυτές προσδίδουν στο κείµενο και έτσι µπορούν να θεωρηθούν ως ισότιµες σε µία εφαρµογή ανάκτησης πληροφορίας. Για το λόγο αυτό οι αλγόριθµοι stemming [23] προσπαθούν να µετατρέψουν µία λέξη στη βασική της µορφή. Οι διαφορετικές αναπαραστάσεις µιας λέξης, µπορούνε συνεπώς να έχουνε µία κοινή µορφή. Αυτό, διευκολύνει κατά πολύ όχι µόνο στην αναζήτηση, αλλά και στην αποθήκευση των λέξεων, αφού για πολλές διαφορετικές µε ίδιο νόηµα αποθηκεύεται µία µόνο µορφή. Η βασική λέξη η οποία παράγεται πολλές φορές δεν είναι λέξη της καθοµιλούµενης αλλά µία αναπαράστασή της. Για παράδειγµα η αγγλική λέξη computation µπορεί να αναχθεί στην λέξη comput η οποία δεν σηµαίνει κάτι, ωστόσο στην ίδια µορφή µπορεί να έρθει οποιαδήποτε άλλη λέξη έχει ίδιο νόηµα (για παράδειγµα compute) και µπορεί να διακριθεί από οποιαδήποτε λέξη έχει διαφορετικό νόηµα. Οι περισσότεροι αλγόριθµοι που έχουν προταθεί βασίζονται στην αγγλική γλώσσα (µε σηµαντικότερο τον αλγόριθµο Porter [23]). Υπάρχουν ωστόσο αλγόριθµοι που ενεργούν πάνω σε άλλες γλώσσες όπως τα γαλλικά, τα ιταλικά ισπανικά κ.α. Γενικά, οι αλγόριθµοι που βασίζονται στα αγγλικά είναι απλούστεροι στην υλοποίηση µε µικρά µόνο προβλήµατα στην εκτέλεσή τους. (για παράδειγµα οι λέξεις axes και axis µπορούν να πάρουν την ίδια µορφή ανεξάρτητα µε τη διαφορετική ερµηνεία). Οι αλγόριθµοι γίνονται δυσκολότεροι στην υλοποίηση όταν η µορφολογία, η ορθογραφία και η κωδικοποίηση των χαρακτήρων µιας γλώσσας γίνεται συνθετότερη. 3.2 Πειραµατικά αποτελέσµατα Εφαρµόζοντας τις τεχνικές που αναφέρθηκαν προηγουµένως για την ανάκτηση, προεπεξεργασία και εύρεση θεµατικών ενοτήτων σε έγγραφα του Π.Ι. συγκεντρώθηκε µία συλλογή εγγράφων από τον δικτυακό τόπο του CNN [25]. Τα έγγραφα αυτά είχαν ένα ενιαίο θεµατικό αντικείµενο, την πολιτική. Έτσι για την 56

58 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού περίοδο 07/03/2006 έως και 24/03/2006 συλλέχθηκαν όλα εκείνες οι ιστοσελίδες που το CNN έκανε διαθέσιµές µέσα από το RSS κανάλι του για την πολιτική. Κάθε έγγραφο αναπαρίσταται από µία σειρά λέξεων κλειδιών (keywords). Οι λέξεις αυτές θεωρούνται (όπως αναλύθηκε) ότι περιγράφουνε καλύτερα το θέµα που πραγµατεύονται. Ο αριθµός των λέξεων που θα απαρτίζουν την θεµατική ενότητα ήταν µεταβλητός. Συνολικά εξήχθησαν οι θεµατικές ενότητες όλων των εγγράφων όπως αυτές περιγράφονται από 5, 6, 7, 8 και 9 λέξεις κλειδιά. Κάθε λέξη, συνεπώς, µπορεί να θεωρηθεί σαν µία ιδιότητα στον Ν-διάστατο χώρο (όπου Ν το πλήθος των διαφορετικών λέξεων που απαρτίζουν τις θεµατικές ενότητες για όλα τα έγγραφα). Αν λοιπόν µε z συµβολίζουµε των αριθµό των λέξεων που θα απαρτίζει κάθε θεµατική ενότητα και M είναι το πλήθος όλων των εγγράφων, τότε προφανώς ισχύει: z * M N (3.2) αφού πολλές από τις λέξεις κλειδιά θα υπάρχουνε κοινές σε περισσότερα από ένα έγγραφα. Έχοντας, λοιπόν, ένα σύνολο εγγράφων και ένα σύνολο ιδιοτήτων (η τιµές των οποίων είναι η κανονικοποιηµένη συχνότητα της λέξης στο έγγραφο) µπορούµε να προχωρήσουµε στην εύρεση προτύπων, µε την τεχνική της οµαδοποίησης. Θα εφαρµοστούν δύο είδη αλγορίθµων οµαδοποίησης 1. η k-means οµαδοποίηση και 2. η ιεραρχική οµαδοποίηση Κατά την εκτέλεση των πειραµάτων µελετήθηκαν οι τιµές του z από 5 έως 9. Αυτό έγινε για δύο λόγους: Τιµές µικρότερες από 5 δεν µπορούν να περιγράψουν καλά ένα θέµα. Ένα θέµα που περιγράφεται µε λιγότερες από 5 λέξεις θεωρείται ότι δεν αντιπροσωπεύεται σωστά. Τιµές µεγαλύτερες από 9 εισάγουν λέξεις κλειδιά µε µικρό βάρος στην αντιπροσώπευση του θέµατος που δε µπορούν να συνεισφέρουν αρκετά στην οµαδοποίηση µε αποτέλεσµα µόνο να αυξάνουν τον χρόνο εκτέλεσης της µεθόδου. 57

59 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού Στους πίνακες που ακολουθούν δίνεται µια συνοπτική περιγραφή για το πώς οι αλγόριθµοι αυτοί λειτουργούν και ποιοι παράµετροι µας ενδιαφέρουν κατά την οµαδοποίηση. Οµαδοποίηση µε τον k-means Ο αλγόριθµος k-means οµαδοποιεί τα αντικείµενα βάσει των ιδιοτήτων τους σε k οµάδες. Ο αλγόριθµος ξεκινά διαιρώντας τα σηµεία (κάθε αντικείµενο είναι ένα σηµείο στο χώρο) εισόδου σε k αρχικά σύνολα, τυχαία ή χρησιµοποιώντας ευριστικά δεδοµένα. Στη συνέχεια υπολογίζει το µέσο σηµείο (ή το κέντρο) του κάθε συνόλου. Ύστερα, τα σηµεία ανακατανέµονται στα νέα κοντινότερα κέντρα. Τα κέντρα υπολογίζονται ξανά από τις νέες οµάδες και ο αλγόριθµος επαναλαµβάνεται ώσπου να επέλθει σύγκλιση (δηλαδή να µην έχουµε σηµεία που να µετακινούνται σε άλλη οµάδα) ή µέχρι να εκτελεστεί ένας συγκεκριµένος αριθµός επαναλήψεων. Κρίσιµες παράµετροι Αριθµός των οµάδων. Πόσες οµάδες θα δηµιουργηθούν. Μέγιστο πλήθος επαναλήψεων. Ο αριθµός των επαναλήψεων που θα εκτελεστεί ο αλγόριθµος προτού τερµατίσει ανεξάρτητα από την ακρίβεια που έχουν οι οµάδες στο κέντρο τους. Ιεραρχική Οµαδοποίηση Υπάρχουν δύο µέθοδοι ιεραρχικής οµαδοποίησης: Οι από πάνω προς τα κάτω ή διαιρετικές όπου ο αλγόριθµος ξεκινά θεωρώντας ότι όλα τα δεδοµένα σχηµατίζουν µία µεγάλη οµάδα και κατά τη διάρκεια εκτέλεσής του τα περισσότερο ανόµοια στοιχεία χωρίζονται σε διαφορετικές οµάδες µέχρις ότου κάθε στοιχείο να αποτελεί µία δική του οµάδα. Οι από κάτω προς τα πάνω ή συγχώνευσης όπου γίνεται η αντίθετη διαδικασία. Κάθε στοιχείο αποτελεί µία οµάδα και κατά τη διάρκεια 58

60 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού εκτέλεσής του τα περισσότερο όµοια στοιχεία συγχωνεύονται στην ίδια οµάδα µέχρις ότου να σχηµατιστεί µία οµάδα για όλα τα στοιχεία. Για να βρεθεί η απόσταση ανάµεσα στις οµάδες, ορίζεται ένα µέτρο. Γενικά, υπάρχουν τρεις µέθοδοι για τη σύγκριση δύο οµάδων: Απλού συνδέσµου: ορίζει την απόσταση ανάµεσα σε δύο οµάδες c 1 και c 2 ως την ελάχιστη απόσταση µεταξύ των σηµείων x και y όπου το x ανήκει στην οµάδα c 1 και το y ανήκει στην οµάδα c 2. Πλήρους συνδέσµου: ορίζει την απόσταση ανάµεσα σε δύο οµάδες c 1 και c 2 ως τη µέγιστη απόσταση µεταξύ των σηµείων x και y όπου το x ανήκει στην οµάδα c 1 και το y ανήκει στην οµάδα c 2. Μέσου συνδέσµου: ορίζει την απόσταση ανάµεσα σε δύο οµάδες c 1 και c 2 ως το µέσο την απόστασης ανάµεσα σε όλα τα σηµεία του c 1 και του c 2. Για να µετρηθεί η απόσταση µεταξύ δύο σηµείων πρέπει να χρησιµοποιηθεί κάποια κατάλληλη µετρική. Επιλέγουµε ανάµεσα στην απόσταση Manhattan και την Ευκλείδεια απόσταση. Κρίσιµες παράµετροι Αριθµός των παραγόµενων οµάδων. Σε ποιο επίπεδο της ιεραρχίας θα σταµατήσει ο αλγόριθµος για να παράγει τον αντίστοιχο αριθµό οµάδων. Συνάρτηση απόστασης. Ποιο µέτρο θα χρησιµοποιηθεί για την µέτρηση της απόστασης. Τύπος συνδέσµου. Ποια µέθοδος θα χρησιµοποιηθεί για την µέτρηση της απόστασης. Πίνακας 3.2 Περιληπτική περιγραφή των δύο αλγορίθµων οµαδοποίησης Με την βοήθεια του Knime[16] µπορούµε να εκτελέσουµε τους παραπάνω αλγορίθµους βάσει των δεδοµένων µας. 59

61 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού Συµπεριφορά του k-means ως προς τον αριθµό των αδύναµων οµάδων (outliers outliers) Συχνά, κατά την οµαδοποίηση δηµιουργούνται οµάδες αρκετά µικρές και µεµονωµένες οι οποίες έχουν διαφορετικό θεµατικό αντικείµενο από τις υπόλοιπες οµάδες. Οι οµάδες αυτές ονοµάζονται αδύναµες (outlier) Σε αυτή τη περίπτωση µελετήθηκε ο αριθµός των αδύναµων οµάδων που δηµιουργούνται από τον k-means. Μία οµάδα θεωρήθηκε αδύναµη όταν απαρτίζονταν από δύο ή λιγότερα αντικείµενα. Αριθµός Οµάδας Αριθµός Εγγράφων Αριθµός Οµάδας Αριθµός Εγγράφων Πίνακας Οι 35 διαφορετικές οµάδες όπως αυτές δηµιουργήθηκαν από τον k- means για 7 keywords / θεµατική ενότητα. Λαµβάνοντας υπόψη τα αποτελέσµατα του προηγούµενου πίνακα µπορούµε να ελέγξουµε τα έγγραφα που ανήκουν στις ίδιες οµάδες. Τα δύο έγγραφα που ακολουθούν αποτελούν ένα τυπικό δείγµα του συνόλου εγγράφων που χρησιµοποιήθηκε. Τα έγγραφα οµαδοποιήθηκαν µαζί εξαιτίας των κοινών λέξεων κλειδιών. Ο αριθµός των λέξεων κλειδιών ήταν για κάθε έγγραφο 7. Ας σηµειωθεί ότι κατά την οµαδοποίηση δεν λαµβάνεται υπ όψη µόνο η ύπαρξη η µη κοινής λέξης στο θέµα, αλλά και το βάρος που έχει η λέξη αυτή (πόσο δηλαδή συνεισφέρει) στο θέµα που αναλύεται. 60

62 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού Democratic leaders struggle for votes on Iraq deadline Story Highlights NEW: President Bush again challenges Democrats to pass his war spending bill House debate on an anti-war measure expected to begin Thursday Senate committee plans to vote Thursday on a similar measure House speaker delays final vote till Friday, allowing more time to press Democrats WASHINGTON (AP) -- President Bush on Thursday again challenged Congress to pass his war spending bill without conditions. Democrats, believing they have a clear mandate from voters, were searching for votes to adopt their own plan. "Congress needs to get their business done quickly, get the monies we've requested funded, and let our folks on the ground do the job," Bush said after meeting with leaders of joint civilian-military units headed soon to Iraq. Democratic Party leaders are facing a caucus deeply divided on the issue and hold only a narrow majority in Congress. With their hands tied if just a few members stray, Democratic leaders are finding it tough to pass legislation that would require Bush to start bringing troops home. House debate on an anti-war measure was expected to begin Thursday, with a vote the following day, while a Senate committee planned to vote Thursday on a similar measure. The stakes are high for Congress' new Democratic leadership, which wants to prove it can govern, influence Bush's war policy and still support the military. "If they fail to provide our troops with what they need, it's on their backs," said Rep. Eric Cantor, R-Virginia. The House's $124 billion spending bill would fund the wars in Iraq and Afghanistan and require that combat troops leave Iraq by fall of 2008, and possibly sooner if the Iraqi government does not make progress on its political and security commitments. But several hurdles remain. Some anti-war liberals are expected to join Republicans in opposing the measure because they say it continues to bankroll an immoral war. And if the bill does scrape by in the House, it may sink in the Senate, where many Democrats have resisted firm timetables on the war. On top of that, Bush has vowed to veto such a restrictive measure if it ever reaches his desk. House Speaker Nancy Pelosi, D-California, continued Wednesday to press party members to back the bill, unsure whether she had enough votes to pass it. In a closeddoor meeting, former President Carter's national security adviser, Zbigniew Brzezinski, tried to convince party skeptics that the bill was their best chance at ending the war. Pelosi initially had planned for a final vote Thursday but pushed it off until Friday, a tactic that gives her more time to ensure she has the 218 votes to pass it. "This is not going to go anywhere," said Rep. Lynn Woolsey, a California Democrat who wants legislation to end the war immediately. "So if you're going to be symbolic, be bold." But some of Woolsey's colleagues say it's not that easy. Rep. Elijah Cummings, a Maryland Democrat and former chairman of the Congressional Black Caucus, said he feels the heat from voters who do not want another penny to go toward the war. "But I'm thinking about if the bill fails, what happens?" Cummings said. "If the bill 61

63 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού fails, we start from scratch." Democrats then would be forced to pass spending legislation without the deadlines, whereas the current bill would at least send Bush a message that Congress is not behind the war, he said. "I think when all the dust settles, no matter what, we're going to have troops in Iraq. And so long as they're there, I have a duty to protect them and provide them what they need," Cummings said. Nonbinding deadline in Senate bill In the Senate, the Appropriations Committee bill would require troops to start coming home in four months. Unlike the House bill, which sets a firm deadline for combat operations to cease, the $122 billion Senate bill identifies a nonbinding goal of getting troops out by March 31, Both the House and Senate measures would allow an unspecified number of troops to be left behind to conduct anti-terror missions, train Iraqi forces and protect U.S. diplomatic personnel and infrastructure. Of the more than 140,000 U.S. troops in Iraq, fewer than half are combat forces. The Senate bill is similar to a resolution rejected last week. It failed on a procedural vote, falling 12 votes shy of the 60 needed to move forward to final vote. () But Democrats think the spending legislation has a better chance of passing. Sen. Ben Nelson, who voted against last week's resolution, has agreed to support the spending legislation because of language added outlining benchmarks for the Iraqi government. Nelson, a Nebraska Democrat, opposes arbitrary deadlines to end the war but wanted legislation that would put pressure on the Iraqi government to take more responsibility. Republican leaders and the White House say they will reject the bill. "It is unfortunate that the Senate is wanting to delay vital funds for our troops by producing a bill that mirrors House legislation that will never become law, attempts to tie the hands of our military commanders and is a Christmas wish list of non-war related spending add-ons," said Sean Kevelighan, spokesman for the White House budget office. Λέξεις κλειδιά (z=7) war senate house bill troops iraq house House passes spending bill with Iraq deadline Story Highlights NEW: President Bush say House has "abdicated its responsibility" on Iraq House passes war spending bill by vote; Bush repeats veto promise Legislation includes 2008 deadline for withdrawal of U.S. troops from Iraq Two House Republicans vote for bill; 14 Democrats vote against it WASHINGTON (CNN) -- President Bush slammed Democrats on Friday after the House narrowly approved a supplemental war spending bill that includes an August 31, 2008, deadline for combat troops to leave Iraq. "Today, a narrow majority in the House of Representatives abdicated its responsibility by passing a war spending bill that has no chance of becoming law, and brings us no closer to getting our troops the resources they need," Bush said about an hour after the vote. The House voted to approve the $124 billion spending bill that includes the deadline. 62

64 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού Bush said the vote had only one outcome: "It delays the delivery of vital resources for our troops." ( ) He repeated his promise to veto the legislation if it reaches his desk. The measure appears unlikely to pass the Senate with the deadline intact. Bush said a spending bill must become law by April 15 to avoid causing hardships for military personnel. "Congress needs to send me a clean bill that I can sign without delay," he said. ( ) Two House Republicans -- Reps. Walter Jones of North Carolina and Wayne Gilchrest of Maryland -- voted in favor of the bill. Fourteen Democrats voted against it. After the bill's passage, House Speaker Nancy Pelosi, D-California, told reporters that voters' voices "have been heard." "Congress has acted on the concerns of the American people," she said. Before the vote, Pelosi said the bill would address the problems in Iraq by "rebuilding our military, honoring our promises to our veterans, holding the Iraqi government accountable and enabling us to bring our troops home." "The American people have lost faith in the president's conduct of this war," she added. "The American people see the reality of this war -- the president does not." But Republicans called the measure a "prescription for failure." ( ) "We all want our troops to come home -- when the job is done," said Rep. Sam Johnson, R-Texas. "We want to win. Internationally announcing our timelines for withdrawal literally hands the enemy our war plan," Johnson said. "What world superpower would do such a thing?" Republicans also denounced the unrelated appropriations attached to the bill. The legislation includes some $21 billion to pay for items not in Bush's original request to fund the wars in Iraq and Afghanistan, including $25 million to bail out spinach growers in California hurt by last year's E. coli outbreak. ( ) The leadership had to win over anti-war Democrats who felt that the measure didn't go far enough. But some of the war's most liberal critics said they weren't buying it. "Four years ago, we were told we had no alternative but to go to war. Now we're told we have no alternative but to continue to war for another year or two," Rep. Dennis Kucinich, D-Ohio, said before the vote. "The fact of the matter is we do have alternatives." Kucinich said, "Congress has the power to stop funding the war. That's what we should do. That's what we should have done, and that's what I'm going to continue to work toward. We have to get out of Iraq, period." However, Rep. James McGovern, an anti-war Democrat from Massachusetts who had been on the fence, said he would vote yes. On the other side of the Capitol, the Senate Appropriations Committee on Thursday approved a version of the supplemental bill that calls for combat troops to be out of Iraq by March 31, Republicans say they'll fight to strip out the deadline provisions when the bill reaches the floor next week. () Last week, Senate Democrats fell short, on a vote, in another attempt to impose a timeline for withdrawal from Iraq. Once both the House and Senate versions are approved, a conference committee will hammer out the differences. Meanwhile, Defense Secretary Robert Gates called for Congress to pass a bill quickly, or the military would be forced to take severe stopgap measures because of a lack of funding. 63

65 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού Among those measures, Gates said, would be slowing deployment of replacement troops in Iraq and Afghanistan and extending the tours of units already there. "This kind of disruption to key programs will have a genuinely adverse effect on the readiness of the Army and the quality of life for soldiers and their families," Gates said. "I urge the Congress to pass the supplemental as soon as possible." Λέξεις κλειδιά (z=7) war house bill troops iraq spending house Κατά την εκτέλεση των πειραµάτων προέκυψαν τα επόµενα αποτελέσµατα: Λέξεις ανά θεµατικό αντικείµενο (z) : Οµάδες ,67 74,29 77, ,33 77, , ,67 71,43 72,5 75, , , ,67 82,86 82,5 84,44 Πίνακας Τα ποσοστά των αδύναµων οµάδων κάνοντας χρήση του k-means για k = 25, 30, 35, 40 & 45 χρησιµοποιώντας 5, 6, 7, 8 και 9 λέξεις για τη δηµιουργία θεµάτων Στα πειράµατα, ο k-means έτρεξε για διαφορετικά δεδοµένα (διαφορετικό αριθµό λέξεων ανά θεµατική ενότητα) και για διαφορετικό αριθµό οµάδων. Για κάθε εκτέλεση του αλγορίθµου µετρήθηκαν οι αδύναµες οµάδες και το ποσοστό τους σε σχέση µε τον συνολικό αριθµό των οµάδων φαίνεται στον προηγούµενο πίνακα. Γραφικά τα αποτελέσµατα φαίνονται στα επόµενα σχήµατα: 64

66 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού 5 Ποσοστό (%) Αριθµός Οµάδων Σχήµα Το ποσοστό των αδύναµων οµάδων στον k-means (σε συνάρτηση µε τον συνολικό αριθµό οµάδων), για z = 5 keywords / θεµατική ενότητα Ποσοστό (%) Αριθµός Οµάδων Σχήµα Το ποσοστό των αδύναµων οµάδων στον k-means (σε συνάρτηση µε τον συνολικό αριθµό οµάδων), για z = 6 keywords / θεµατική ενότητα 65

67 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού Ποσοστό (%) Αριθµός Οµάδων Σχήµα Το ποσοστό των αδύναµων οµάδων στον k-means (σε συνάρτηση µε τον συνολικό αριθµό οµάδων), για z = 7 keywords / θεµατική ενότητα Ποσοστό (%) Αριθµός Οµάδων Σχήµα Το ποσοστό των αδύναµων οµάδων στον k-means (σε συνάρτηση µε τον συνολικό αριθµό οµάδων), για z = 8 keywords / θεµατική ενότητα 66

68 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού 9 Ποσοστό (%) Αριθµός Οµάδων Σχήµα Το ποσοστό των αδύναµων οµάδων στον k-means (σε συνάρτηση µε τον συνολικό αριθµό οµάδων), για z = 9 keywords / θεµατική ενότητα Ποσοστά αδύναµων οµάδων Ποσοστό (%) Keywords per topic (z) : 5 Keywords per topic (z) : 6 Keywords per topic (z) : 7 Keywords per topic (z) : 8 Keywords per topic (z) : Αριθµός Οµάδων Σχήµα 3.7 Ποσοστά αδύναµων οµάδων σε σχέση µε τον συνολικό αριθµό οµάδων που παράγονται και του αριθµού των λέξεων που απαρτίζουν ένα θέµα. Από το παραπάνω σχήµα εξάγονται τα επόµενα συµπεράσµατα: 67

69 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού Ο αριθµός των αδύναµων οµάδων αυξάνεται αναλογικά µε τον αριθµό των οµάδων που ο k-means παράγει. Η χρήση 7 λέξεων (που αποτελεί τη µέση τιµή από εκείνες που δοκιµάστηκαν) αποδεικνύεται η καλύτερη για τη δηµιουργία λιγότερων αδύναµων οµάδων. Αξίζει επιπλέον να παρατηρήσουµε ότι ο αριθµός των αδύναµων οµάδων που προκύπτουν κατά την οµαδοποίηση είναι αυξηµένος. Αυτό µπορεί να ερµηνευθεί µε δύο εκδοχές: Οι οµάδες αντιπροσωπεύουν θέµατα που υπερεξειδικεύουν σε ένα συγκεκριµένο θεµατικό αντικείµενο µε αποτέλεσµα να αποκόπτονται από τα άλλα. Οι οµάδες αντιπροσωπεύουν θέµατα που δεν έχουν καµία θεµατική συνοχή µε τα υπόλοιπα και δεν έπαιξαν µεγάλο ρόλο στην επικαιρότητα. Επιπρόσθετα θα πρέπει να σηµειώσουµε ότι τόσο η κατάλληλη επιλογή του αριθµού k (του αριθµού των οµάδων) όσο και του z δίνουν τη βέλτιστη λύση στο πρόβληµα των αδύναµων οµάδων Αποτελέσµατα της ιεραρχικής οµαδοποίησης Ένα δεύτερο σύνολο πειραµάτων εκτελέστηκε για την εφαρµογή ιεραρχικού αλγορίθµου και τη µελέτη των διαφορετικών οµάδων που αυτός παράγει κάτω από διαφορετικό αριθµό λέξεων που απαρτίζουν ένα θέµα και διαφορετική τιµή στην απόσταση. Στον πίνακα και το σχήµα που ακολουθούν παρατηρούµε πως ο αριθµός των οµάδων δεν µεταβάλλεται σηµαντικά για τις διαφορετικές τιµές του k. Ο αριθµός των οµάδων που προκύπτουν είναι ανεξάρτητος του αριθµού των λέξεων που θα χρησιµοποιηθούν. 68

70 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού Απόσταση Αριθµός Οµάδων z = 5 z = 6 z = 7 z = 8 z = Πίνακας 3.5 Ο αριθµός των οµάδων που προκύπτουν σε σχέση µε την απόσταση, που τίθεται σαν κριτήριο για τη συγχώνευση των οµάδων και του αριθµού των λέξεων που απαρτίζουν το θέµα Αριθµός Οµάδων z = 5 z = 6 z = 7 z = 8 z = 9 Λέξεις / Θέµα Σχήµα 3.8 O αριθµός των οµάδων που προκύπτει σε σχέση µε τις λέξεις που ορίζονται ανά θέµα και της απόστασης που θέτουµε σαν κριτήριο συγχώνευσης των οµάδων. Ο αριθµός των οµάδων, όπως µπορούµε να παρατηρήσουµε από το παραπάνω διάγραµµα στον Ιεραρχικό αλγόριθµο δεν σχετίζεται τόσο µε τις λέξεις ανά θέµα (δεν υπάρχει δηλαδή ένας ιδανικός αριθµός για τη µεταβλητή z) που θα χρησιµοποιηθούν για την οµαδοποίηση αλλά µε την απόσταση που θα χρησιµοποιήσουµε για να δηµιουργήσουµε τις οµάδες. Παρατηρούµε πόσο µικρός είναι ο αριθµός των οµάδων που προκύπτει για απόσταση 1.2. Αντίθετα για 0.8 ο αριθµός των οµάδων είναι σηµαντικά αυξηµένος για όλα τα µεγέθη λέξεων στα θέµατα. 69

71 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού Σε ότι αφορά, τέλος, τη σχετικότητα των αποτελεσµάτων µπορούµε να αναφέρουµε ότι τα αποτελέσµατα των δύο αλγορίθµων (k-means και Ιεραρχικός) έδιναν περίπου τις ίδιες οµάδες εγγράφων (σε πλήθος & ποιότητα) σχετικές πάντοτε µε το θεµατικό αντικείµενο. 70

72 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού Σχήµα Αποτελέσµατα οµαδοποίησης για z = 5. 71

75 Οµαδοποίηση θεµατικών ενοτήτων Παγκοσµίου Ιστού Σχήµα Αποτελέσµατα οµαδοποίησης για z = 8, 74

77 Σύνοψη Σύνοψη Από τις προτεινόµενες βιβλιογραφικές µεθόδους και τεχνικές που προτάθηκαν στην δεύτερη ενότητα της διπλωµατικής εργασίας και από την προτεινόµενη υβριδική µέθοδο της τρίτης ενότητας µπορούµε να συµπεράνουµε πως η εξαγωγή θεµατικών ενοτήτων µέσα από ένα σύνολο εγγράφων του Π.Ι. εξαρτάται κυρίως από την φύση των δεδοµένων. Οι συγκρινόµενες µέθοδοι καταλήγουν συχνά στα ίδια αποτελέσµατα επιτυγχάνοντας αρκετά ακριβείς προσεγγίσεις των πραγµατικών θεµατικών ενοτήτων. Μπορούµε επιπλέον να καταλήξουµε στο συµπέρασµα ότι οι αλγόριθµοι οµαδοποίησης δεν είναι η µόνη συνιστώσα που καθορίζει την ποιότητα στο παραγόµενο αποτέλεσµα αλλά κυρίως η µέθοδος που θα προηγηθεί της οµαδοποίησης και θα παράγει την είσοδο των δεδοµένων. Παρόλη την ευελεξία που προσφέρει η προτεινόµενη υβριδική µέθοδος ο αριθµός των αδύναµων οµάδων δείχνει πως η κατάλληλη επιλογή της µεταβλητής z (του αριθµού των λέξεων που θα απαρτίζουν το θέµα) είναι σηµαντική. Επιπρόσθετα η ταχύτητα της µεθόδου εξαρτάται άµεσα από τις δυνατότητες του αλγορίθµου που επιτελεί την γραµµατική ανίχνευση (POS Tagging). Συνεπώς η µέθοδος µπορεί να εκτελεστεί γρήγορα για γραµµατικές ανιχνεύσεις που βασίζονται σε µικρά λεξικά όπως η αγγλική γλώσσα αλλά πιο αργά για γλώσσες µε πιο πλούσιο λεξιλόγιο. Μελλοντική εργασία Όπως αναφέρθηκε τα δεδοµένα εισόδου έρχονται σε ηµιδοµηµένη HTML µορφή. Ίσως ήταν καλή πρακτική η ανάθεση βαρών σε ετικέτες µορφοποίησης της HTML που µπορεί να δίνουν σηµασία στο περιεχόµενο (όπως π.χ. η ετικέτα που µορφοποιεί µε έντονη ή πλάγια γραφή) ώστε οι όροι που περιέχονται σε αυτές να έχουν µεγαλύτερη σηµαντικότητα για το έγγραφο στο οποίο εµφανίζονται. Επιπλέον η εφαρµογή περισσότερων µετρικών απόστασης πλην της κλασικής Ευκλείδειας ενδεχοµένως να βελτιώσει τα παραγόµενα αποτελέσµατα σε ότι αφορά τον αριθµό των αδύναµων οµάδων. 76

78 Εργαλεία εφαρµογής Παράρτηµα - Εργαλεία εφαρµογής Π1. RSS aggregators Π1.1 Τι είναι τα RSS; Το RSS είναι ένας τύπος αρχείου για τροφοδοσία πληροφοριών από τον Π.Ι. (web feeds), και χρησιµοποιείται για τη δηµοσίευση περιεχοµένου που αλλάζει συχνά, όπως στις σελίδες νέων ή στα blogs. Ένα έγγραφο RSS, που ονοµάζεται feed, web feed ή «κανάλι» (channel) περιέχει περίληψη του περιεχοµένου ενός website ή και ολόκληρο το κείµενο. Μέσω των RSS οι χρήστες µπορούν ευκολότερα να µαθαίνουν για τις ενηµερώσεις της σελίδας που έχουν επιλέξει µε ένα περισσότερο αυτοµατοποιηµένο τρόπο (σε σύγκριση µε τον κλασικό, του ανοίγµατος δηλαδή της σελίδας και της αναζήτησης για αλλαγές). Ο τύπος RSS έχει οριστεί µέσω της γλώσσας XML, µιας γλώσσας που χρησιµοποιείται για τη δηµιουργία της µορφής δεδοµένων (data formats). Τα περιεχόµενα ενός RSS αρχείου µπορούν να διαβαστούν από ειδικό λογισµικό που ονοµάζετε feed reader ή aggregator (συσσωρευτής). Ο χρήστης εγγράφεται σε ένα feed καταχωρώντας τον σύνδεσµο του feed στο λογισµικό και στην συνέχεια το λογισµικό ελέγχει περιοδικά τα feeds του χρήστη για νέο περιεχόµενο κατεβάζοντας το όταν αυτό είναι διαθέσιµο. [20] Π1.2 Ο SharpReader Ένας από τους δηµοφιλέστερους RSS Readers στο διαδίκτυο είναι ο SharpReader. Μερικά από τα χαρακτηριστικά του αποτυπώνονται παρακάτω: Χειρίζεται όλες τις εκδόσεις RSS Ταξινοµεί τα feeds σε καθορισµένες κατηγορίες από τον χρήστη. Υποστηρίζει πολύγλωσσο σύνολο χαρακτήρων (International Characterset) Υποστηρίζει πιστοποίηση χρήστη µέσω proxy Πιστοποίηση µέσω HTTP 77

79 Εργαλεία εφαρµογής Φιλτράρισµα αντικειµένων. Σχήµα Π1. Εικόνα από το περιβάλλον εργασίας του SharpReader Η συλλογή των πειραµατικών δεδοµένων που περιγράφηκε στην προηγούµενη ενότητα έγινε µε τη βοήθεια του SharpReader. Ο SharpReader γράφτηκε ως συνδροµητής στην υπηρεσία RSS του CNN για το κανάλι cnn politics που αφορά νέα του CNN σε σχέση µε την πολιτική. Ο RSS client συνέλεγε τα νέα καθηµερινά. [17] Π2. Εξαγωγή HTML σελίδων Οι ιστοσελίδες σχεδόν στην πλειοψηφία τους αποτελούνται από µεγάλο όγκο πληροφορίας. Τα εργαλεία αναζήτησης, τα µενού πλοήγησης, οι διαφηµίσεις, τα pop up (αναδυόµενα) παράθυρα καταλαµβάνουν µεγάλο χώρο πάνω σε µια ιστοσελίδα και συνεπώς αποπροσανατολίζουν τον χρήστη από το κυρίως κείµενο, το θέµα, της ιστοσελίδας. 78

80 Εργαλεία εφαρµογής Η αυτόµατη εξαγωγή χρήσιµης και σχετικής πληροφορίας από ιστοσελίδες έχει πολλές εφαρµογές, που κυµαίνονται από τη διευκόλυνση των χρηστών να έχουν πρόσβαση στον Π.Ι. ευκολότερα µέσω φορητών συσκευών όπως PDAs και κινητά τηλέφωνα έως την παροχή καλύτερης πρόσβασης στον Π.Ι. σε άτοµα µε ειδικές ανάγκες. Επιπρόσθετα, αλγόριθµοι επεξεργασίας φυσικής γλώσσας (Natural Language Processing / NLP) και ανάκτησης πληροφορίας (Information Retrieval / IR) µπορούν να επωφεληθούν, αφού βασίζονται πάνω σε «καθαρότερο κείµενο», από το οποίο και εξαρτάται η εγκυρότητα των αποτελεσµάτων. Η εξαγωγή περιεχοµένου επιτρέπει στους αλγορίθµους να ενεργήσουν µόνο πάνω στην εξαγόµενη πληροφορία σε αντίθεση µε την προηγούµενη µορφή της σελίδας η οποία θα περιείχε µεγάλο αριθµό περιττής πληροφορίας (λόγω διαφηµίσεων κ.τ.λ.). Οι περισσότερες εφαρµογές ανάκτησης πληροφορίας που έχουν γραφτεί έως τώρα χρειάζονται ειδικευµένο λογισµικό που µπορεί να ενεργεί πάνω σε έναν µόνο δικτυακό τόπο, είναι δηλαδή ειδικευµένοι για µία συγκεκριµένη µορφή ιστοσελίδας. Η γενικευµένη εξαγωγή περιεχοµένου είναι λιγότερο ακριβής αφού ο τρόπος εξαγωγής σε κάθε σελίδα διαφοροποιείται. Συνεπώς, είναι λίγες οι υλοποιήσεις αλγορίθµων που κάνουνε γενική εξαγωγή. Η προσέγγιση του Crunch [22] βασίζεται σε µία σειρά τεχνικών που αντιµετωπίζουν τις δυσκολίες που προκύπτουν από την διαφορετική µορφή της κάθε ιστοσελίδας. Η σελίδα αναλύεται από έναν λεκτικό αναλυτή HTML (HTML parser) ανοιχτού κώδικα το openxml ( το οποίο διορθώνει τα λάθη στην σήµανση (markup) και δηµιουργεί ένα Document Object Model δέντρο. [6] 79

81 Εργαλεία εφαρµογής Σχήµα Π2 Το Crunch 2 είναι λογισµικό για εξαγωγή σελίδων και λειτουργεί σαν proxy server. Το Document Object Model είναι µία δια πλατφορµική (multiplatform) και διαγλωσσική (multilanguage) διασύνδεση (interface) που επιτρέπει σε προγράµµατα και scripts (σενάρια, µικρά δηλαδή προγράµµατα που κάνουνε µια συγκεκριµένη λειτουργία) να έχουν πρόσβαση και να ανανεώνουν δυναµικά το περιεχόµενο, την δοµή και τη µορφοποίηση των εγγράφων. Αναλύοντας ένα HTML έγγραφο σε ένα DOM δέντρο εξάγουµε, όχι µόνο πληροφορία από µεγάλες λογικές µονάδες, αλλά και από µικρότερες µονάδες, όπως συγκεκριµένοι σύνδεσµοι µέσα στη δοµή του DOM δέντρου. Επιπρόσθετα, τα δέντρα µπορούν να τροποποιηθούν εύκολα και να ανακατασκευάσουν πλήρως τη σελίδα. Ακόµη, χρησιµοποιώντας το DOM, η τελική λύση γίνεται φορητή σε περισσότερες πλατφόρµες. [6] 80

82 Εργαλεία εφαρµογής Π3. Το εργαλείο εξόρυξης δεδοµένων Knime Το KNIME, είναι µία σπονδυλωτή (modular) πλατφόρµα εξόρυξης δεδοµένων, που επιτρέπει στον χρήστη τη δηµιουργία ροών (data flows), ώστε να τα αναλύσει και να δηµιουργήσει µοντέλα µέσα από τα αποτελέσµατα που θα προκύψουν.. Σχήµα Π3 Το περιβάλλον εργασίας του Knime Το περιβάλλον του Knime αποτελείται από ένα σύνολο κόµβων οι οποίοι συνδεόµενοι κατάλληλα µεταξύ τους µπορούν να προσπελάσουν και να ενεργήσουν πάνω στα δεδοµένα ώστε να διαµορφώσουν τα αντίστοιχα πρότυπα συµπεριφοράς τους. Η βασική έκδοση του Knime έχει ενσωµατώσει πάνω από 100 κόµβους επεξεργασίας, για είσοδο και έξοδο δεδοµένων, προεπεξεργασία και καθαρισµό δεδοµένων, µοντελοποίηση, ανάλυση, εξόρυξη δεδοµένων, όπως επίσης και διάφορες διαδραστικές µεθόδους εµφάνισης των δεδοµένων. Περιέχει όλες τις λειτουργίες που είναι γνωστές από το περιβάλλον εξόρυξης του Weka καθώς επίσης και ένα σύνολο επιπλέον διαθέσιµων ενεργειών. [16] 81

Δείτε περισσότερα