«Αλγόριθμος εξόρυξης γνώσης από δεδομένα δομής, περιεχομένου και χρήσης του Παγκόσμιου Ιστού»

Σχετικά έγγραφα
Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Τεχνικές Εξόρυξης Δεδομένων

Ηλεκτρονικός οδηγός για τους φοιτητές ενός Α.Ε.Ι.

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Ανάκτηση Πληροφορίας

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ

ΚΒΑΝΤΙΚΟΙ ΥΠΟΛΟΓΙΣΤΕΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Θέμα: Παχυσαρκία και κύηση:

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε

Πλασμονικές Οργανικές Δίοδοι Εκπομπής Φωτός Υψηλής Απόδοσης

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή διατριβή

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Σχολή Μηχανικής και Τεχνολογίας. Πτυχιακή εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή διατριβή

Αναγνώριση Προτύπων Ι

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»

Ο νοσηλευτικός ρόλος στην πρόληψη του μελανώματος

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Ακριβής 3Δ Προσδιορισμός Θέσης των Σημείων του Κεντρικού Τομέα του Δικτύου LVD με τη μέθοδο του Σχετικού Στατικού Εντοπισμού

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Κτίρια nζεβ και προσομοίωση με την χρήση του energy+

Η θέση ύπνου του βρέφους και η σχέση της με το Σύνδρομο του αιφνίδιου βρεφικού θανάτου. ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου Σχολιασμός ερευνητικής πρότασης

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία ΕΠΙΛΟΧΕΙΑ ΚΑΤΑΘΛΙΨΗ: Ο ΡΟΛΟΣ ΤΗΣ ΚΑΤ ΟΙΚΟΝ ΝΟΣΗΛΕΙΑΣ. Φοινίκη Αλεξάνδρου

Πτυχιακή διατριβή. Η επίδραση της τασιενεργής ουσίας Ακεταλδεΰδης στη δημιουργία πυρήνων συμπύκνωσης νεφών (CCN) στην ατμόσφαιρα

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Ανάπτυξη διαδικτυακής διαδραστικής εκπαιδευτικής εφαρμογής σε λειτουργικό σύστημα Android

Διαχείριση Πολιτισμικών Δεδομένων

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία

ΑΛΓΟΡΙΘΜΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ AΠΟ ΡΟΕΣ ΔΕΔΟΜΕΝΩΝ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ

ΝΑΥΤΙΛΙΑΚΟΙ ΚΥΚΛΟΙ ΚΑΙ ΧΡΗΜΑΤΟΔΟΤΗΣΗ ΝΑΥΤΙΛΙΑΚΩΝ ΕΠΕΝΔΥΣΕΩΝ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΣΧΕΔΙΑΣΗ ΚΑΙ ΚΑΤΑΣΚΕΥΗ ΠΡΟΕΝΙΣΧΥΤΗ ΜΟΥΣΙΚΩΝ ΟΡΓΑΝΩΝ ΜΕ ΔΥΝΑΤΟΤΗΤΑ ΕΦΕ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία ΑΓΧΟΣ ΚΑΙ ΚΑΤΑΘΛΙΨΗ ΣΕ ΓΥΝΑΙΚΕΣ ΜΕ ΚΑΡΚΙΝΟΥ ΤΟΥ ΜΑΣΤΟΥ ΜΕΤΑ ΑΠΟ ΜΑΣΤΕΚΤΟΜΗ

þÿ ½ Á Å, ˆ»µ½± Neapolis University þÿ Á̳Á±¼¼± ¼Ìù±Â ¹ º à Â, Ç» Ÿ¹º ½ ¼¹ºÎ½ À¹ÃÄ ¼Î½ º±¹ ¹ º à  þÿ ±½µÀ¹ÃÄ ¼¹ µ À»¹Â Æ Å

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ

Πτυχιακή Εργασία Η ΑΝΤΙΛΑΜΒΑΝΟΜΕΝΗ ΚΟΙΝΩΝΙΚΗ ΣΤΗΡΙΞΗ ΣΤΙΣ ΘΗΛΑΖΟΥΣΕΣ ΜΗΤΕΡΕΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ

þÿ ½ ÁÉÀ ºµ½ÄÁ¹º ÀÁ à ³³¹Ã Ä þÿ Á³±½Éù±º  ±»»±³  ¼ ÃÉ þÿà» Á Æ Á¹±º Í ÃÅÃÄ ¼±Ä Â.

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ. Πτυχιακή Εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία

Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Βάσεις Δεδομένων Ενότητα 1

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ

Μεταπτυχιακή Διατριβή

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

ΕΤΑΙΡΙΚΗ ΚΟΙΝΩΝΙΚΗ ΕΥΘΥΝΗ ΣΤΗΝ ΝΑΥΤΙΛΙΑΚΗ ΒΙΟΜΗΧΑΜΙΑ

Διακριτικές Συναρτήσεις

Μαθησιακές δραστηριότητες με υπολογιστή

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΒΕΛΤΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΕΡΓΑΣΤΗΡΙΟΥ ΕΛΕΓΧΟΥ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΣΕ ΜΕΤΑΛΛΟΒΙΟΜΗΧΑΝΙΑ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία. Κόπωση και ποιότητα ζωής ασθενών με καρκίνο.

Πτυχιακή εργασία Ο ΡΟΛΟΣ ΤΩΝ ΚΟΙΝΟΤΙΚΩΝ ΝΟΣΗΛΕΥΤΩΝ ΣΤΗ ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΠΑΙΔΙΟΥ ΜΕ ΧΡΟΝΙΟ ΑΣΘΜΑ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΕΤΟΙΜΑΣΙΑ ΔΕΛΤΙΟΥ ΠΟΣΟΤΗΤΩΝ ΜΕ ΤΗ ΧΡΗΣΗ ΛΟΓΙΣΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων

ΣΧΕΔΙΑΣΜΟΣ ΕΠΙΓΕΙΟΥ ΣΥΣΤΗΜΑΤΟΣ ΑΛΥΣΟΚΙΝΗΣΗΣ ΓΙΑ ΜΕΤΑΦΟΡΑ ΤΡΟΛΕΪ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Η Επίδραση των Events στην Απόδοση των Μετοχών

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

Θέματα Ατομικής Διπλωματικής Εργασίας Ακαδημαϊκό Έτος 2017/2018. Γεωργία Καπιτσάκη (Επίκουρη Καθηγήτρια)

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

Μικροβιολογική ποιότητα έτοιμων προς κατανάλωση σαλατών

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

ΧΡΗΣΗ ΤΟΥ ΠΡΟΪΟΝΤΟΣ ΤΗΣ ΗΛΕΚΤΡΟΛΥΣΗΣ ΝΕΡΟΥ ΩΣ ΠΡΟΣΘΕΤΟ ΚΑΥΣΙΜΟΥ ΣΕ ΜΗΧΑΝΗ ΕΣΩΤΕΡΙΚΗΣ ΚΑΥΣΗΣ

Ηµερίδα: Γεωπληροφορική και Εκπαίδευση Η Ελληνική Πραγµατικότητα Χαροκόπειο Πανεπιστήµιο ευτέρα και Τρίτη, Maΐου Γεώργιος Ν.

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Αλγόριθμος εξόρυξης γνώσης από δεδομένα δομής, περιεχομένου και χρήσης του Παγκόσμιου Ιστού» Παπαρρίζος Κ. Ιωάννης Επιβλέπουσα: Βακάλη Αθηνά, Καθηγήτρια του τμήματος Πληροφορικής Α.Π.Θ. Θεσσαλονίκη Ιούλιος 2009

2 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Αλγόριθμος εξόρυξης γνώσης από δεδομένα δομής, περιεχομένου και χρήσης του Παγκόσμιου Ιστού» Παπαρρίζος Κ. Ιωάννης Επιβλέπουσα: Βακάλη Αθηνά, Καθηγήτρια του τμήματος Πληροφορικής Α.Π.Θ. Θεσσαλονίκη Ιούλιος 2009 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 3

.. Ιωάννης Κ. Παπαρρίζος Διπλωματούχος Πληροφορικής Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης Copyright Ιωάννης Κ. Παπαρρίζος, 2009 Mε επιφύλαξη παντός δικαιώματος. All rights reserved. Απαγορεύεται η αντιγραφή, αποθήκευση και διανομή της παρούσας εργασίας, εξ ολοκλήρου ή τμήματος αυτής για εμπορικό σκοπό. Επιτρέπεται η ανατύπωση, αποθήκευση και διανομή για σκοπό μη κερδοσκοπικό, εκπαιδευτικής ή ερευνητικής φύσης, υπό την προϋπόθεση να αναφέρεται η πηγή προέλευσης και να διατηρείται το παρόν μήνυμα. Ερωτήματα που αφορούν τη χρήση της εργασίας για κερδοσκοπικό σκοπό πρέπει να απευθύνονται προς το συγγραφέα. Οι απόψεις και τα συμπεράσματα που περιέχονται σε αυτό το έγγραφο εκφράζουν το συγγραφέα και δεν πρέπει να ερμηνευθεί ότι αντιπροσωπεύουν τις επίσημες θέσεις του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης. 4 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

ΠΕΡΙΛΗΨΗ Η ραγδαία αύξηση της χρήσης του Παγκόσμιου Ιστού τα τελευταία χρόνια, τον έχει μετατρέψει στο μεγαλύτερο και δημοφιλέστερο μέσω επικοινωνίας και διάδοσης πληροφοριών παγκοσμίως. Ταυτόχρονα όμως, μαζί με τη χρήση, αυξήθηκε και το μέγεθος του, με αποτέλεσμα να είναι πολύ δύσκολη η επεξεργασία του τεράστιου αυτού όγκου δεδομένων. Έτσι δημιουργήθηκε η ανάγκη για ένα νέο ερευνητικό τομέα της επιστήμης των υπολογιστών, αυτού της εξόρυξης γνώσης από δεδομένα του Παγκόσμιου Ιστού (Web Mining), που να μπορεί να δώσει απαντήσεις στα σημαντικά προβλήματα που προέκυπταν, και που οι ως τότε τεχνικές και μέθοδοι αδυνατούσαν. Στόχος λοιπόν αυτής της διπλωματικής εργασίας είναι αφενός μεν η εκτενής βιβλιογραφική μελέτη του τομέα της Εξόρυξης γνώσης από δεδομένα του Παγκόσμιου Ιστού και αφετέρου η παρουσίαση ενός νέου αλγόριθμου που μπορεί να αξιοποιήσει και τα τρία είδη δεδομένων που υπάρχουν στον Παγκόσμιο Ιστό, δηλαδή τα δεδομένα δομής, δεδομένα περιεχομένου και δεδομένα χρήσης, τα οποία με τη σειρά τους συνθέτουν τους αντίστοιχούς τρεις άξονες της εξόρυξης γνώσης από δεδομένα του Παγκόσμιου Ιστού: Εξόρυξη γνώσης από δεδομένα δομής, δεδομένα περιεχομένου ή δεδομένα χρήσης του Παγκόσμιου Ιστού. Είναι επομένως αντιληπτό ότι η εργασία αυτή αποτελείται από δύο λογικές ενότητες, γι αυτό το λόγο είναι χωρισμένη σε δύο μέρη. Το πρώτο μέρος περιλαμβάνει την εκτενή βιβλιογραφική μελέτη του τομέα της εξόρυξης γνώσης. Πιο συγκεκριμένα, στην πρώτη ενότητα μελετάται η εξόρυξη γνώσης από βάσεις και αποθήκες δεδομένων, ώστε να γίνει αντιληπτό από που ξεκίνησε ο τομέας της εξόρυξης γνώσης από δεδομένα του Παγκόσμιου Ιστού. Στη δεύτερη ενότητα παρουσιάζεται ο τομέας της εξόρυξης γνώσης από δεδομένα του Παγκόσμιου Ιστού και δίνεται λεπτομερέστερα ο διαχωρισμός της στους τρεις άξονες, ανάλογα με τα δεδομένα που μελετά ο καθένας. Στις επόμενες τρεις ενότητες μελετώνται διεξοδικά οι τρείς άξονες, ενώ στην έκτη ενότητα γίνεται μια εκτενής αναφορά στον Σημασιολογικό Ιστό. Το δεύτερο μέρος περιλαμβάνει το ερευνητικό κομμάτι αυτής της διπλωματικής εργασίας, όπου αρχικά παρουσιάζεται ο πρώτος συνδυαστικός αλγόριθμος εξόρυξης γνώσης από δεδομένα δομής, περιεχομένου. Στη συνέχεια μελετάται o crawler που υλοποιήθηκε στο πλαίσιο αυτής της εργασίας με σκοπό τη συλλογή δεδομένων και την εφαρμογή του συνδυαστικού αλγόριθμου σε πραγματικά δεδομένα. Τέλος, αναλύονται τα στατιστικά αποτελέσματα του αλγόριθμου πάνω στα δεδομένα που συλλέχθηκαν και επιπλέον εφαρμόζεται μια τεχνική γνωστή ως ανάλυση σύνθεσης (Compositional Analysis) τόσο για την καλύτερη οπτικοποίηση των αποτελεσμάτων όσο και για την εξαγωγή χρήσιμων συμπερασμάτων σχετικά με την κατηγοριοποίηση και συσταδοποίηση των ιστοσελίδων που συλλέχθηκαν. ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Ανάκτηση Πληροφορίας, Εξόρυξη Γνώσης, Εξόρυξη Γνώσης από βάσεις και αποθήκες δεδομένων, Εξόρυξη Γνώσης από τον Παγκόσμιο Ιστό, Εξόρυξη Γνώσης από δεδομένα δομής του Παγκόσμιου Ιστού, Εξόρυξη Γνώσης από δεδομένα περιεχομένου του Παγκόσμιου Ιστού, Εξόρυξη Γνώσης από δεδομένα χρήσης του Παγκόσμιου Ιστού, Σημασιολογικός Ιστός. Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 5

6 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

ARISTOTETLE UNIVERSITY OF THESSALONIKI FACULTY OF SCIENCE COMPUTER SCIENCE DEPARTMENT Bachelor of Science Thesis «Web mining algorithm based on structure, content and usage data of World Wide Web» Paparrizos K. Ioannis Supervisor: Vakali Athena, Professor of Computer Science Department of A.U.TH. Thessaloniki July 2009 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 7

8 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

ABSTRACT The rapidly increasing use of the Web in recent years has turned it into the largest and most popular mean of communication and dissemination of information worldwide. However, with the increasing of use, also its size increased, making it very difficult to process the enormous volume of data. This created the need for a new research field of computer science that of mining data from web (Web Mining), which can provide answers to important problems which have arisen that the existant techniques and methods were unable to provide. Therefore, the aim of this diploma thesis is firstly, a comprehensive study of the literature of web mining and secondly the presentation of a new algorithm that can utilize all three types of data available on the Web, ie. data of structure, content and usage, on which based the corresponding three axes of web mining: Web Structure Mining, Web Content Mining or Web Usage Mining. It is therefore conceivable that this work consists of two logical sections and as that it is divided into two parts. The first part includes an extensive literature study of the web mining field. To be more specific, the first section studies data mining on warehouses and databases in order to understand the begining of the web mining field. The second section shows the area of web mining and a more detailed presentation of the three axes, according to the data each one uses. The following three sections study in detail the three axes, while the sixth section is a comprehensive reference to the Semantic Web. The second part contains the research part of this thesis, which initially shows the first algorithm that combines the use of structure, content and usage data. Then the crawler which was implemented to collect data using the proposed algorithm is presented. Finally, the statistical results of the collected data are being analysed and a method known as Compositional Analysis is applied for better visualization of the results and to extract useful conclusions about the classification and clustering of the collected websites. KEYWORDS: Information Retrieval, Warehouses and Data Mining, Web Mining, Web Structure Mining, Web Content Mining, Web Usage Mining, Semantic Web. Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 9

10 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

ΠΕΡΙΕΧΟΜΕΝΑ ΛΙΣΤΑ ΣΧΗΜΑΤΩΝ... 15 ΛΙΣΤΑ ΠΙΝΑΚΩΝ... 16 ΕΥΧΑΡΙΣΤΙΕΣ... 17 ΜΕΡΟΣ Α... 21 1. Εξόρυξη γνώσης από βάσεις και αποθήκες δεδομένων... 23 1.1. Εισαγωγή... 23 1.2. Η ανάγκη για ένα νέο τομέα... 23 1.3. Ο τομέας της εξόρυξης δεδομένων... 25 1.4. Εφαρμογές εξόρυξης δεδομένων... 27 1.5. Διαδικασία εξόρυξης γνώσης από βάσεις δεδομένων... 28 1.6. Απαιτήσεις εξόρυξης δεδομένων... 29 1.7. Αλγόριθμοι εξόρυξης δεδομένων... 30 1.8. Συμπεράσματα... 32 2. Εξόρυξη γνώσης από τον Παγκόσμιο Ιστό... 33 2.1. Ο Παγκόσμιος Ιστός... 33 2.2. Κατηγορίες δεδομένων στην εξόρυξη γνώσης από τον Παγκόσμιο Ιστό... 35 2.3. Ερευνητικές Περιοχές στην εξόρυξη γνώσης από τον Παγκόσμιο Ιστό... 36 2.3.1. Εξόρυξη γνώσης από δεδομένα περιεχομένου του Παγκόσμιου Ιστού... 37 2.3.2. Εξόρυξη γνώσης από δεδομένα δομής του Παγκόσμιου Ιστού... 38 2.3.3. Εξόρυξη γνώσης από δεδομένα χρήσης του Παγκόσμιου Ιστού... 38 2.4. Στάδια διαδικασίας εξόρυξης γνώσης από δεδομένα Παγκόσμιου Ιστού... 39 2.4.1. Συλλογή δεδομένων... 39 2.4.2. Προεπεξεργασία δεδομένων... 41 2.4.3. Ανακάλυψη προτύπων... 43 2.4.4. Εκμετάλλευση της γνώσης... 44 2.5. Εφαρμογές... 44 2.6. Λογισμικό... 46 2.7. Από τις τεχνικές στις εφαρμογές... 46 2.8. Θέματα ασφάλειας... 48 3. Εξόρυξη γνώσης από δεδομένα δομής του Παγκόσμιου Ιστού... 49 3.1. Εισαγωγή... 49 3.2. Ο Παγκόσμιος Ιστός ως Γράφος και ο ρόλος των υπερσυνδέσεων του... 49 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 11

3.3. Ανάλυση Αναφορών στα Κοινωνικά Δίκτυα... 51 3.4. Predecessors και βαθμολόγηση Ιστοσελίδων... 52 3.5. Ανάλυση αλγόριθμων που στηρίζονται σε υπερσυνδέσεις... 53 3.5.1. Αλγόριθμος HITS... 54 3.5.2. Αλγόριθμος PageRank... 60 3.5.3. Αλγόριθμος SALSA... 61 3.6. Αξιολόγηση και σύγκριση Αλγόριθμων που στηρίζονται σε υπερσυνδέσεις... 62 3.6.1. Αξιολόγηση Αλγόριθμου HITS... 62 3.6.2. Αξιολόγηση Αλγορίθμου PageRank... 63 3.6.3. Αξιολόγηση Αλγόριθμου SALSA... 64 4. Εξόρυξη γνώσης από δεδομένα περιεχομένου του Παγκόσμιου Ιστού... 65 4.1. Εισαγωγή... 65 4.2. Ανάκτηση Πληροφορίας από τον Παγκόσμιο Ιστό... 65 4.2.1. Εισαγωγή... 65 4.2.2. Εξέλιξη Μηχανών Αναζήτησης και ζητήματα γύρω από αυτές... 68 4.2.3. Τα μέρη των μηχανών αναζήτησης... 69 4.3. Τα στάδια εξόρυξης γνώσης με βάση το περιεχόμενο του Παγκόσμιου Ιστού... 72 4.3.1. Εισαγωγή... 72 4.3.2. Προεπεξεργασία Κειμένων... 73 4.3.3. Αναπαράσταση Κειμένων Τα τρία Κλασικά Μοντέλα... 74 4.3.4. Εξαγωγή χαρακτηριστικών γνωρισμάτων από κείμενα... 83 4.4. Αλγόριθμοι Συσταδοποίησης με βάση το περιεχόμενο των ιστοσελίδων... 84 4.5. Αλγόριθμοι Κατηγοριοποίησης με βάση το περιεχόμενο των ιστοσελίδων... 87 5. Εξόρυξη γνώσης από δεδομένα χρήσης του Παγκόσμιου Ιστού... 91 5.1. Εισαγωγή... 91 5.2. Στάδια και Διαδικασία Εξατομίκευσης του Παγκόσμιου Ιστού... 92 5.3. Σύστημα Εξατομίκευση του Παγκόσμιου Ιστού... 94 5.4. Δημιουργία Προφίλ Χρηστών... 96 5.4.1. Πηγές Δεδομένων... 96 5.4.2. Συλλογή Δεδομένων... 97 5.4.3. Διαφύλαξη προσωπικών δεδομένων... 98 5.5. Εξόρυξη γνώσης από δεδομένα χρήσης του Παγκόσμιου Ιστού... 99 5.5.1. Εισαγωγή... 99 5.5.2. Αρχεία Πρόσβασης... 100 12 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

5.5.3. Προεπεξεργασία δεδομένων... 100 5.5.4. Ανάλυση Αρχείων Πρόσβασης... 102 5.6. Τεχνικές Εξόρυξης γνώσης από δεδομένα χρήσης του Παγκόσμιου Ιστού... 102 6. Σημασιολογικός Ιστός... 107 6.1. Εισαγωγή... 107 6.2. Δομή του Σημασιολογικού ιστού... 108 6.3. Μεταδεδομένα και Οντολογίες... 111 6.3.1. Μεταδεδομένα... 111 6.3.2. Οντολογίες... 113 6.4. Μοντέλα και Πρότυπα... 116 6.4.1. Uniform Resource Identifier (URI)... 116 6.4.2. XML... 117 6.4.3. RDF... 125 6.4.4. OWL... 133 6.5. Εργαλεία... 136 6.5.1. Κατασκευή Οντολογιών... 136 6.5.2. Αποθήκες Οντολογιών... 137 6.5.3. Επεξεργαστές γλώσσας Οντολογιών... 137 6.5.4. Σημασιολογική Αναζήτηση... 139 ΜΕΡΟΣ Β... 143 7. Συνδυαστικός αλγόριθμος εξόρυξης γνώσης... 145 7.1. Εισαγωγή... 145 7.2. Η γενική ιδέα... 146 7.3. Ο Συνδυαστικός Αλγόριθμος... 149 7.4. Επιλογή Δεδομένων... 158 7.5. Συλλογή Δεδομένων και Σάρωση Ιστοσελίδων... 159 7.5.1. Εισαγωγή... 159 7.5.2. Αρχιτεκτονική Web Crawler... 160 7.5.3. Web Crawlers... 162 7.5.4. Προβλήματα κατά το crawling... 164 7.6. Προδιαγραφές και απαιτήσεις crawler στη δική μας περίπτωση... 171 7.6.1. Εισαγωγή... 171 7.6.2. Δομή Multi thread Crawler και Διαδικασία Σάρωσης... 171 7.6.3. Στιγμιότυπα του Crawler... 174 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 13

7.6.4. Απόδοση... 177 7.7. Πειραματικά αποτελέσματα συνδυαστικού αλγόριθμου... 177 7.8. Εφαρμογή Compositional Analysis στα δεδομένα... 181 7.8.1. Εισαγωγή... 181 7.8.2. Ternary Diagrams... 182 7.8.3. Άλλα διαγράμματα... 186 7.9. Συμπεράσματα και μελλοντική εργασία... 187 ΑΝΑΦΟΡΕΣ... 189 Βιβλία... 189 Δημοσιεύσεις... 189 Ιστοσελίδες... 195 ΠΑΡΑΡΤΗΜΑ Α CODAPACK3D. A new version of Compositional Data Package... 199 ΠΑΡΑΡΤΗΜΑ Β Συνολικά αποτελέσματα των μεθόδων του CODAPACK3D... 207 ΠΑΡΑΡΤΗΜΑ Γ Το αρχικό σύνολο δικτυακών τόπων που χρησιμοποιήθηκε από τον crawler... 227 14 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

ΛΙΣΤΑ ΣΧΗΜΑΤΩΝ Εικόνα 1.1: Το γράφημα του Gordon Moore το 1965... 24 Εικόνα 1.2: Ορισμός σπουδαιότητας ενός αλγόριθμου... 25 Εικόνα 1.3: Τα βήματα της διαδικασίας εξόρυξης γνώσης από βάσεις δεδομένων [P154]... 28 Εικόνα 2.1: Γράφος βάθους δύο της σελίδας www.csd.auth.gr με χρήση του WebSphinx [S95]... 34 Εικόνα 2.2: Οι κατηγορίες δεδομένων στον Παγκόσμιο Ιστό... 36 Εικόνα 2.3: Οι τρεις άξονες στην εξόρυξη γνώσης από τον Παγκόσμιο Ιστό... 37 Εικόνα 2.4: Στάδια διαδικασίας εξόρυξης γνώσης από δεδομένα Παγκόσμιου Ιστού... 39 Εικόνα 3.1: Ο Παγκόσμιος Ιστός ως Γράφος Παπιγιόν [P63]... 50 Εικόνα 3.2: Επέκταση του αρχικού συνόλου σελίδων στο βασικό σύνολο... 56 Εικόνα 3.3: Ένα ισχυρά συνδεδεμένο σύνολο σελίδων hubs και authorities... 57 Εικόνα 3.4: Υπολογισμός hubs και authorities... 59 Εικόνα 3.5: Διάδοση PageRank... 60 Εικόνα 3.6: Δίκτυο με PageRank scores... 60 Εικόνα 4.1: Τα μέρη των μηχανών αναζήτησης... 70 Εικόνα 4.2: Στάδια εξόρυξης γνώσης με βάση το περιεχόμενο του Παγκόσμιου Ιστού... 72 Εικόνα 4.3: Οι συζευκτικές συνιστώσες του ερωτήματος [ q = ka kb kc ]... 76 Εικόνα 5.1: Δεδομένα Εξατομίκευσης του Παγκόσμιου Ιστού... 92 Εικόνα 5.2: Αρχιτεκτονική συστήματος εξατομίκευσης του Παγκόσμιου Ιστού... 95 Εικόνα 6.1: Δομή Σημασιολογικού Ιστού... 108 Εικόνα 6.2: RDF γράφος... 128 Εικόνα 6.3: Εκτεταμένος RDF γράφος... 129 Εικόνα 6.4: Παράδειγμα RDF γράφου... 131 Εικόνα 7.1: Οι άξονες της εξόρυξης γνώσεις από δεδομένα του Παγκόσμιου Ιστού... 145 Εικόνα 7.2: Εξαγωγή χαρακτηριστικών για δεδομένα δομής, περιεχομένου και χρήσης... 146 Εικόνα 7.3: Περιγραφή διαδικασίας εξαγωγής αποτελεσμάτων... 147 Εικόνα 7.4: Αναπαράσταση του Παγκόσμιου Ιστού ως Τρίγωνο (Web Triangle)... 148 Εικόνα 7.5: Συστατικά του Τριγώνου του Παγκόσμιου Ιστού... 148 Εικόνα 7.6: Επίπεδα Μελέτης Αλγόριθμου... 157 Εικόνα 7.7: Κατηγορίες Ιστοσελίδων που επιλέχθηκαν ως δεδομένα... 158 Εικόνα 7.8: Αρχιτεκτονική Crawler... 160 Εικόνα 7.9: Δομή Crawler Εργατών (Threads)... 171 Εικόνα 7.10: Βήματα Crawler... 172 Εικόνα 7.11: Υλοποίηση Crawler Κλάσεις... 173 Εικόνα 7.12: Γραφικό Περιβάλλον Crawler... 174 Εικόνα 7.13: Επιλογές και Ρυθμίσεις για τον Crawler... 174 Εικόνα 7.14: Διαχείριση Crawler... 175 Εικόνα 7.15: Στατιστικά χρήσης του Crawler... 176 Εικόνα 7.16: Γραφικό Περιβάλλον Crawler σε λειτουργία... 176 Εικόνα 7.17: Διάγραμμα ποσοστών δομής, περιεχομένου και χρήσης των δημοφιλέστερων websites... 177 Εικόνα 7.18: Διάγραμμα ποσοστών δομής, περιεχομένου και χρήσης των υποσελίδων του myspace.com... 178 Εικόνα 7.19: Διάγραμμα ποσοστών δομής, περιεχομένου και χρήσης των υποσελίδων του friendster.com... 178 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 15

Εικόνα 7.20: Διάγραμμα ποσοστών (με περιοχές) δομής, περιεχομένου και χρήσης των υποσελίδων δημοφιλέστερων websites... 179 Εικόνα 7.21: Διάγραμμα ποσοστών (με περιοχές) δομής, περιεχομένου και χρήσης των υποσελίδων του myspace.com... 179 Εικόνα 7.22: Διάγραμμα ποσοστών (με περιοχές) δομής, περιεχομένου και χρήσης των υποσελίδων του friendster.com... 180 Εικόνα 7.23: Συγκριτικό διάγραμμα με ράβδους... 180 Εικόνα 7.24: Συγκριτικό διάγραμμα των τριών συνόλων δεδομένων... 181 Εικόνα 7.25: Ternary Diagram Κορυφή Α... 182 Εικόνα 7.26: Ternary Diagram Κορυφή Β Εικόνα 7.27: Ternary Diagram Κορυφή C... 183 Εικόνα 7.28: Ternary Diagram Κορυφές A, B και C... 183 Εικόνα 7.29: Ternary Diagram του Friendster.com... 184 Εικόνα 7.30: Ternary Diagram του Friendster.com με centering... 184 Εικόνα 7.31: Ternary Diagram των δημοφιλέστερων ιστοσελίδων... 185 Εικόνα 7.32: Ternary Diagram των δημοφιλέστερων ιστοσελίδων με centering... 185 Εικόνα 7.33: Δενδρόγραμμα με boxplot για το Friendster.com... 186 Εικόνα 7.34: Δενδρόγραμμα με boxplot για τις δημοφιλέστερες ιστοσελίδες... 186 ΛΙΣΤΑ ΠΙΝΑΚΩΝ Πίνακας 2.1: Εφαρμογές και τεχνικές εξόρυξης γνώσης στον Παγκόσμιο Ιστό... 47 Πίνακας 6.1: Εγγραφή μεταδεδομένων... 111 Πίνακας 6.2: Εργαλεία ανάπτυξης οντολογιών... 136 Πίνακας 6.3: Αποθήκες για δημοσίευση και αναζήτηση οντολογιών στον Παγκόσμιο Ιστού... 137 Πίνακας 6.4: Εργαλεία επεξεργασίας γλωσσών οντολογιών του Σημασιολογικού Ιστού... 138 Πίνακας 7.1: Συνδυαστικός Αλγόριθμος Κατηγοριοποίηση Δεδομένων Δομής... 155 Πίνακας 7.2: Συνδυαστικός Αλγόριθμος Κατηγοριοποίηση Δεδομένων Περιεχομένου... 156 Πίνακας 7.3: Συνδυαστικός Αλγόριθμος Κατηγοριοποίηση Δεδομένων Χρήσης... 157 Πίνακας 7.4: Γνωστοί Crawlers... 163 Πίνακας 7.5: Παράδειγμα συστατικών των σημείων του τριγώνου... 184 16 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

ΕΥΧΑΡΙΣΤΙΕΣ Η εργασία αυτή πολύ πιθανό να είχε τελείως διαφορετικό θέμα και διαφορετική μορφή αν δεν είχε προηγηθεί κατά το 3 ο έτος σπουδών μου μια συζήτηση με την καθηγήτρια και τώρα επιβλέπουσα της διπλωματικής μου κα. Αθηνά Βακάλη σχετικά με την έρευνα στην Επιστήμη της Πληροφορικής και πιο συγκεκριμένα σε τομείς που σχετίζονται με το Ιντερνέτ όπως Ανάκτηση Πληροφορίας, Εξόρυξη Γνώσης στον Παγκόσμιο Ιστό, Σημασιολογικός Ιστός κλπ. Θα ήθελα να την ευχαριστήσω, αρχικά για τη δυνατότητα που μου έδωσε να ασχοληθώ με την έρευνα κατά τις προπτυχιακές μου σπουδές, για την αμέριστη συμπαράσταση, κατανόηση και βοήθεια που μου έδειξε όλο τον προηγούμενο χρόνο της συνεργασίας μας και για την καθοδήγηση και συνεχή συμβολή της κατά την εκπόνηση αυτής της εργασίας. Πρόκειται για έναν άνθρωπο τον οποίο θαυμάζω για τις γνώσεις του και τη συμβολή στην Επιστήμη της Πληροφορικής, και του οποίου οι παροτρύνσεις και οι υποδείξεις ήταν πολύτιμες για τη συνέχιση των σπουδών μου. Θέλω, επίσης, να ευχαριστήσω θερμά τον καθηγητή κ. Ελευθέριο Αγγελή για τη βοήθεια και την καθοδήγηση που μου προσέφερε γύρω κυρίως από ζητήματα μαθηματικών και στατιστικής που ήταν απαραίτητα για την ολοκλήρωση αυτής της ερευνητικής προσπάθειας. Ευχαριστώ επίσης, τη διδάκτορα Βασιλική Κουτσονικόλα για το ευχάριστο κλίμα συνεργασίας, την υποστήριξη και την πολύτιμη βοήθεια της σε κρίσιμα σημεία της έρευνας μου. Η εργασία αυτή δεν θα ήταν ολοκληρωμένη χωρίς τη συμβολή της. Ευχαριστώ ακόμα, όλους τους φίλους και συμφοιτητές μου για τη στήριξη και την κατανόηση τους σε αυτή μου την προσπάθεια. Θέλω να ευχαριστήσω ιδιαίτερα τους Αλεξάνδρα, Ανανία, Ανδρέα, Αποστόλη, Βαγγέλη, Βασίλη, Βασίλη, Βίλυ, Γιάννη, Γιώργο, Γεωργία, Γρηγόρη, Δημήτρη, Δημήτρη, Δήμητρα, Δέσποινα, Εβελίνα, Ελένη, Ερασμία, Θάνο, Θωμά, Κατερίνα, Κώστα, Κωνσταντίνα, Κωνσταντίνα, Λοίζο, Λουκά, Νίκο, Νίκο, Παναγιώτα, Πένυ, Σεμίνα, Σταυρούλα, Τάσο, Τζένη, Φένια, Χριστίνα, Χρήστο, Χρήστο, Χρύσα, Χρύσα και Χρυσή για τις αξέχαστες στιγμές που ζήσαμε αυτά τα τέσσερα χρόνια στη Θεσσαλονίκη. Τέλος, το μεγαλύτερο ευχαριστώ το οφείλω στους γονείς μου, Κωνσταντίνο και Όλγα, στην αδερφή μου Νατάσα και στη γιαγιά μου Άννα, για τη συμπαράσταση, την αγάπη και την εμπιστοσύνη που μου έδειξαν όλα αυτά τα χρόνια, και στους οποίους είναι αφιερωμένη αυτή η εργασία. Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 17

18 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

«Πάντα στον νου σου νάχεις την Ιθάκη. Το φθάσιμον εκεί είν ο προορισμός σου. Aλλά μη βιάζεις το ταξείδι διόλου. Καλλίτερα χρόνια πολλά να διαρκέσει και γέρος πια ν αράξεις στο νησί, πλούσιος με όσα κέρδισες στον δρόμο, μη προσδοκώντας πλούτη να σε δώσει η Ιθάκη. Η Ιθάκη σ έδωσε τ ωραίο ταξείδι. Χωρίς αυτήν δεν θάβγαινες στον δρόμο. Άλλα δεν έχει να σε δώσει πια. Κι αν πτωχική την βρεις, η Ιθάκη δεν σε γέλασε. Έτσι σοφός που έγινες, με τόση πείρα, ήδη θα το κατάλαβες η Ιθάκες τι σημαίνουν.» Κ.Π. Καβάφης - Ιθάκη Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 19

20 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

ΜΕΡΟΣ Α Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 21

22 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

1. Εξόρυξη γνώσης από βάσεις και αποθήκες δεδομένων 1.1. Εισαγωγή Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων και αποτελεί αντικείμενο μελέτης από πολλούς ερευνητές και μηχανικούς, ιδιαίτερα τα τελευταία χρόνια με τη ραγδαία αύξηση του όγκου της πληροφορίας. Η έρευνα στον τομέα αυτόν έχει προχωρήσει θεαματικά και έχουν εξαχθεί πολλά και σημαντικά αποτελέσματα. Την τελευταία δεκαετία έχει παρατηρηθεί μια αλματώδης αύξηση στην παραγωγή και στη συλλογή δεδομένων. Ωστόσο η πρόοδος στην τεχνολογία των βάσεων δεδομένων μας παρέχει νέες τεχνικές για την αποδοτικότερη και αποτελεσματικότερη συλλογή, αποθήκευση και διαχείριση των δεδομένων. Είναι κοινώς αποδεκτό ότι κάθε χρόνο τα δεδομένα διπλασιάζονται, ενώ η χρήσιμη πληροφορία δείχνει να μειώνεται. Αυτό είναι και το κύριο πρόβλημα που προσπαθεί να λύσει ο τομέας της εξόρυξης γνώσης. Οι δικτυακές εφαρμογές που διαχειρίζονται μεγάλες αποθήκες δεδομένων έχουν αρχίσει να κάνουν χρήση μεθόδων και τεχνικών της εξόρυξης γνώσης με σκοπό τη βελτίωση της ποιότητας των παρεχόμενων υπηρεσιών μέσω της μελέτης της συμπεριφοράς των πελατών και της εξαγωγής συμπερασμάτων από αυτή. Κάθε χρόνο παράγονται τεράστιοι όγκοι δεδομένων (της τάξης των petta-bytes και exa-bytes) τόσο από εταιρίες όσο και από πανεπιστήμια, τα οποία αποθηκεύονται σε τεράστιες βάσεις δεδομένων. Η δυνατότητα ανάλυσης και ερμηνείας των δεδομένων καθώς και η εξαγωγή «χρήσιμης» γνώσης από αυτά έχει ξεπεράσει κάθε όριο. Έτσι, φαίνεται επιτακτική η ανάγκη για μια νέα γενιά εργαλείων, μεθόδων και τεχνικών για ευφυή ανάλυση των βάσεων δεδομένων. Αυτή η ανάγκη έχει προσελκύσει την προσοχή πολλών ερευνητών από διάφορες ερευνητικές περιοχές όπως τεχνητή νοημοσύνη, στατιστική, αποθήκες δεδομένων, διαδραστική ανάλυση και επεξεργασία, έμπειρα συστήματα και οπτικοποίηση δεδομένων, με αποτέλεσμα ένας νέος ερευνητικός τομέας να δημιουργείται, γνωστός ως εξόρυξη δεδομένων και γνώσης (Data and Knowledge Mining). Στις επόμενες ενότητες αυτού του κεφαλαίου θα παρουσιαστούν τα βασικά προβλήματα που οδήγησαν στη δημιουργία του τομέα της εξόρυξης δεδομένων, θα δοθεί μια γενική περιγραφή της εξόρυξης δεδομένων και θα παρουσιαστούν οι σχέσεις που έχει με άλλους τομείς, θα παρουσιαστεί επίσης μια κατηγοριοποίηση των εφαρμογών και των αλγορίθμων της εξόρυξης δεδομένων και τέλος θα δοθεί μια σφαιρική θεώρηση της διαδικασίας που πρέπει να ακολουθήσει κάποιος έτσι ώστε να αναλύσει τα δεδομένα του με τη βοήθεια εργαλείων εξόρυξης δεδομένων. 1.2. Η ανάγκη για ένα νέο τομέα Σύμφωνα με το νόμο του Moore η υπολογιστική ισχύς των υπολογιστών διπλασιάζεται κάθε 18 μήνες [S1]. Επιπλέον η χωρητικότητα για δεδομένα διπλασιάζεται κάθε 12 εβδομάδες [P1]. Όπως είναι φανερό υπάρχει μια διαφορά στις δύο τάσεις η οποία αυξάνεται εκθετικά και καλείται κενό δεδομένων (data gap) ή νόμος της αποθήκευσης (storage law) [P2]. Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 23

Εικόνα 1.1: Το γράφημα του Gordon Moore το 1965 Ένα από τα σημαντικότερα προβλήματα είναι το κενό μεταξύ της απόδοσης του υλικού και της ποσότητας των δεδομένων που θέλουμε να επεξεργαστούμε. Οι τυπικοί αλγόριθμοι που διαχειρίζονται πολύ λιγότερα δεδομένα αντιμετωπίζουν προβλήματα απόδοσης από τη στιγμή που το υλικό δεν μπορεί να καλύψει το κενό από τον όγκο δεδομένων. Για παράδειγμα ένας αλγόριθμος ταξινόμησης που λειτουργεί ορθά με λίγα gigabytes δεδομένων θα μπορούσε να έχει προβλήματα απόδοσης αν εφαρμοστεί σε terabytes δεδομένων. Στην πραγματικότητα υπάρχουν συγκεκριμένα προβλήματα με τους κλασικούς αλγορίθμους, το κυριότερο εκ των οποίων θα παρουσιαστεί συνοπτικά στη συνέχεια. Το βασικό πρόβλημα των κλασικών αλγορίθμων είναι ο χρόνος εκτέλεσης. Ωστόσο, μπορεί να υπάρχουν άλλοι λόγοι που έχουν ως αποτέλεσμα μεγάλους χρόνους εκτέλεσης. Αρχικά, από τη στιγμή που μιλάμε για μεγάλο όγκο δεδομένων δεν μπορούμε να θεωρήσουμε πως θα χωρέσει ολόκληρος στη μνήμη RAM του υπολογιστή όπου γίνεται ο χειρισμός των υπολογισμών, αλλά ούτε μπορούμε να θεωρούμε πως έχουμε διαθέσιμο άπειρο χώρο βοηθητικής μνήμης. Εάν σχεδιάσουμε έναν αλγόριθμο ο οποίος θα τοποθετεί όλα τα δεδομένα στην μνήμη RAM έτσι ώστε να είναι γρήγορη και άμεση η προσπέλαση των δεδομένων, τότε ο αλγόριθμος αυτός πιθανό να μην λειτουργήσει ορθά για μεγέθη δεδομένων μεγαλύτερα από το μέγεθος της. Ακόμη δεν μπορούμε να υποθέσουμε πως θα έχουμε δύο ή τρία αντίγραφα των δεδομένων μας στην βοηθητική μνήμη, γιατί μπορεί να μην έχουμε τον απαιτούμενο χώρο γι αυτό. Έτσι, χρειαζόμαστε αλγόριθμους που λαμβάνουν υπ όψιν όλες αυτές τις παραμέτρους. Επιπρόσθετα, όταν θέλουμε να επεξεργαστούμε μεγάλο όγκο δεδομένων, η πολυπλοκότητα της διαδικασίας μπορεί να μην είναι και πολύ σημαντικός παράγοντας. Για παράδειγμα, παρόλο που ένας πολυωνυμικός αλγόριθμος με πολυπλοκότητα O(n 2 ) μπορεί να είναι αποδεκτός, όταν το n είναι της τάξης του τρισεκατομμυρίου ο χρόνος εκτέλεσης μπορεί να είναι απαγορευτικά τεράστιος. Από την άλλη πλευρά, αν έχουμε στη διάθεση μας έναν αλγόριθμο ο οποίος παίρνει ως είσοδο μικρά τμήματα δεδομένων και έχει μεγάλη πολυπλοκότητα, θα είναι προτιμότερος από έναν αλγόριθμο που θα σαρώνει όλα τα δεδομένα και θα παρουσιάζει μικρή πολυπλοκότητα. 24 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

1.3. Ο τομέας της εξόρυξης δεδομένων Όλα τα παραπάνω ζητήματα οδήγησαν την επιστημονική κοινότητα στη δημιουργία ενός νέου τομέα, που καλείται σήμερα εξόρυξη δεδομένων. Με τον όρο αυτό καλούμε τον ορθό προσδιορισμό ενδιαφερουσών δομών σε δεδομένα [P2]. Πρέπει σε αυτό το σημείο να τονιστεί - επειδή δεν αναφέρεται στον ορισμό - πως για να εξάγουμε πραγματικά χρήσιμη πληροφορία συνήθως απαιτείται να έχουμε όσο το δυνατό πιο πολλά δεδομένα. Αυτό έχει να κάνει περισσότερο με την ακρίβεια και την λεπτομέρεια της πληροφορίας αυτής. Έτσι μπορούμε να πούμε γενικά πως η σπουδαιότητα ενός αλγόριθμου εξόρυξης δεδομένων μπορεί να περιγραφεί από τον τύπο που φαίνεται στην Εικόνα 2: Απόδοση Ποιότητα Πληροφορίας Σπουδαιότητα Εικόνα 1.2: Ορισμός σπουδαιότητας ενός αλγόριθμου Από το παραπάνω συμπεραίνουμε πως στις περισσότερες εφαρμογές είναι άσκοπο να έχουμε υψηλή απόδοση αποτελεσμάτων με υπολογισμούς που απαιτούν απροσδιόριστα πολύ χρόνο ή να έχουμε πολύ γρήγορα αποτελέσματα πολύ χαμηλής ποιότητας. Επίσης από τον τύπο αυτό φαίνεται το trade-off που συναντούμε συνήθως σε πολλούς αλγόριθμους εξόρυξης δεδομένων και συστήματα. Ο όρος «εξόρυξη δεδομένων» είναι σχετικά καινούργιος και εμφανίστηκε στη δεκαετία του 90. Ωστόσο, παρεμφερείς τάσεις και έρευνες είναι ακόμα πιο παλιές. Ο τομέας της εξόρυξης δεδομένων σχετίζεται με πολλούς άλλους τομείς όπως την στατιστική (statistics), την τεχνητή νοημοσύνη (artificial intelligence), τη μηχανική μάθησης (machine learning), τις βάσεις δεδομένων (data bases), τις μηχανές αναζήτησης (search engines), τα συστήματα υποστήριξης αποφάσεων (decision support systems), τα συστήματα άμεσης ανάλυσης δεδομένων (OLAP) και του ταιριάσματος προτύπων (pattern matching). Παρακάτω θα αναλύσουμε τη σχέση που έχει η εξόρυξη δεδομένων με μερικούς από τους πιο βασικούς τομείς που μόλις αναφέρθηκαν. Στατιστική: Είναι γνωστό πως ένα μεγάλο μέρος της ερευνητικής βάσης της εξόρυξης δεδομένων βασίζεται στη στατιστική. Αυτό είναι λογικό μιας και η στατιστική έχει ανάλογους σκοπούς με την εξόρυξη δεδομένων αφού αποσκοπούν στην αναγνώριση χρήσιμων πληροφοριών και προτύπων στα δεδομένα. Μέρος των διαδικασιών σε ένα μοντέλο εξόρυξης δεδομένων μπορεί να αποτελεί η αναζήτηση των δεδομένων και η εξαγωγή συμπερασμάτων από τα αποτελέσματα μιας αναζήτησης. Μια συχνά χρησιμοποιούμενη τεχνική στην εξόρυξη δεδομένων είναι αυτή της δειγματοληψίας. Αυτός ο τρόπος στη στατιστική λέγεται «στατιστική εξαγωγή συμπεράσματος». Ακόμα και σήμερα, Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 25

ένα σημαντικό τμήμα των νέων υλοποιημένων αλγόριθμων εξόρυξης δεδομένων αποτελούν στην ουσία στατιστικές τεχνικές που έχουν προσαρμοστεί στις απαιτήσεις των αλγορίθμων και των υπολογισμών. Όπως και με τις κλασικές τεχνικές στατιστικής στην εξόρυξη δεδομένων ακολουθούμε ανάλυση παλινδρόμησης (regression analysis), ανάλυση συστάδων (cluster analysis) κ.α. Ακόμα και όταν οι αλγόριθμοι εξόρυξης δεδομένων δεν χρησιμοποιούν άμεσα τεχνικές στατιστικής, πολλές φορές οι βασικές τους ιδέες έχουν ως αρχική επιρροή την στατιστική. Τεχνητή Νοημοσύνη: Δύο άλλοι τομείς που σχετίζονται με αυτόν της εξόρυξης δεδομένων είναι η τεχνητή νοημοσύνη και η μηχανική μάθηση. Σκοπός της τεχνητής νοημοσύνης είναι να βγάζει λογικά συμπεράσματα από ανεπεξέργαστα δεδομένα, κάτι που κάνει και ο τομέας της εξόρυξης δεδομένων. Επίσης ο τομέας της εξόρυξης δεδομένων κάνει εκτεταμένη χρήση εργαλείων τεχνητής νοημοσύνης και μηχανικής μάθησης. Μερικά παραδείγματα είναι τα νευρωνικά δίκτυα, δέντρα απόφασης και μηχανές διανυσμάτων (vector machines). Γενικά ο τομέας της τεχνητής νοημοσύνης είναι πιο γενικός και εμπεριέχει περιοχές εκτός των κλασικών μεθόδων εξόρυξης δεδομένων. Επίσης εφαρμογές τεχνητής νοημοσύνης μπορεί να μην σχετίζονται με κλιμάκωση δεδομένων μιας και ο όγκος τους μπορεί να είναι αρκετά μικρός. Μηχανική Μάθησης: Η μηχανική μάθησης είναι μια περιοχή της τεχνητής νοημοσύνης η οποία εξετάζει πως μπορούμε να δημιουργούμε προγράμματα τα οποία μπορούν να μαθαίνουν. Στην εξόρυξη δεδομένων, η μηχανική μάθησης χρησιμοποιείται για τεχνικές πρόβλεψης ή κατηγοριοποίησης [B1]. Με τη μηχανική μάθηση, ο υπολογιστής κάνει κάποιες προβλέψεις και μετά, βασιζόμενος στην ανατροφοδότηση (feedback), όποτε αυτό είναι ορθό, μαθαίνει από αυτό. Μαθαίνει από τα παραδείγματα, την αποθηκευμένη γνώση, και την ανατροφοδότηση. Όταν συμβεί μελλοντικά ανάλογη περίπτωση, η ανατροφοδότηση χρησιμοποιείται για να κάνει την ίδια πρόβλεψη ή για να κάνει μια εντελώς διαφορετική πρόβλεψη. Η στατιστική είναι πολύ σημαντική σε προγράμματα μηχανικής μάθησης γιατί τα αποτελέσματα των προβλέψεων πρέπει να είναι στατιστικά σημαντικά. Βάσεις δεδομένων: Μια βάση δεδομένων είναι μια συλλογή από δεδομένα. Αντίθετα με ένα απλό σύνολο, τα δεδομένα σε μια βάση έχουν μια ορισμένη δομή ή σχήμα με το οποίο είναι σχετιζόμενα. Έτσι τα δεδομένα σε μια βάση αναπαρίστανται με ένα πιο θεωρητικό τρόπο ή μοντέλο δεδομένων. Αυτό το μοντέλο χρησιμοποιείται για να περιγράψει τα δεδομένα, τα χαρακτηριστικά τους, και τις σχέσεις μεταξύ τους. Ένα μεγάλο μέρος των σημερινών ερευνητών στην εξόρυξη δεδομένων είναι άτομα προερχόμενα από τον τομέα των βάσεων δεδομένων. Η σχέση των δύο αυτών τομέων είναι εμφανής μια και πριν επεξεργαστούμε τα δεδομένα μας πρέπει πρώτα να μπορούμε να τα διαχειριστούμε ορθά. Έτσι χωρίς καλά συστήματα διαχείρισης δεδομένων δεν μπορούμε να εφαρμόσουμε αλγόριθμους εξόρυξης δεδομένων. Οι δύο τομείς ακόμη μοιράζονται πολλά, όπως διαδικτυακές βάσεις δεδομένων (Web databases), προσωρινές ή χωρικές βάσεις δεδομένων κ.α. Ένα αξιοσημείωτο παράδειγμα ενός πετυχημένου συνδυασμού εξόρυξης δεδομένων και βάσεων δεδομένων 26 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

είναι η μηχανή αναζήτησης Google [S2] η οποία εκτελεί εργασίες πολύ γρήγορα, αποδοτικά και με ακριβή αποτελέσματα σε οποιοδήποτε ερώτημα. 1.4. Εφαρμογές εξόρυξης δεδομένων Σε αυτή την ενότητα θα παρουσιάσουμε τις βασικές περιοχές εφαρμογής του τομέα της εξόρυξης δεδομένων. Παγκόσμιος ιστός: Ο τομέας της εξόρυξης δεδομένων είχε άμεση εφαρμογή με επιτυχία στο Διαδίκτυο. Το πιο δημοφιλές παράδειγμα εξόρυξης δεδομένων στο διαδίκτυο είναι η Google [S2]. Για να γίνει πιο κατανοητή η σημαντικότητα της συνεισφοράς αυτής θα πρέπει να αντιληφθούμε πως ο όγκος της πληροφορίας που υπάρχει μέχρι τώρα στο διαδίκτυο είναι αδύνατο να μετρηθεί με ακρίβεια. Κάθε ερώτημα στην μηχανή αναζήτησης δεν ξεπερνά σε χρόνο τα δυο δευτερόλεπτα. Η Google και γενικά ο τομέας της εξόρυξης δεδομένων στο Διαδίκτυο έχουν σήμερα τεράστια επιτυχία γιατί έχουν εκπληρώσει δυο σημαντικούς στόχους. Πρώτα, μπορούν να κάνουν αναζήτηση (με κάθε ερώτημα) σε τόσα πολλά δεδομένα σε πολύ σύντομο χρόνο. Δεύτερον, μπορούν να επιστρέψουν σε κάθε ερώτημα τα πρώτα αποτελέσματα που είναι πιο χρήσιμα. Έτσι τελικά ο χρήστης λαμβάνει γρήγορα και εύκολα μόνο την ουσιώδη πληροφορία που θέλει. Επιστήμη: Αλγόριθμοι εξόρυξης δεδομένων χρησιμοποιούνται ευρέως σε εφαρμογές από διάφορους άλλους επιστημονικούς τομείς. Ένα αξιοσημείωτο παράδειγμα είναι το SKYCAT [P3], ένα σύστημα εξόρυξης δεδομένων που αναλαμβάνει ανάλυση και κατηγοριοποίηση χωρικών αντικειμένων. Αυτό που είναι αξιοσημείωτο, είναι πως το SKYCAT εκτελεί αλγόριθμους για την ανίχνευση αντικειμένων από εικόνες. Μάρκετινγκ: Μια κατηγορία πολύ γνωστών εφαρμογών εξόρυξης δεδομένων είναι αυτή του μάρκετινγκ. Αυτό είναι αναμενόμενο μιας και μεγάλες εταιρίες χρησιμοποιούν μεγάλα συστήματα διαχείρισης δεδομένων για να διαχειρίζονται μεγάλο αριθμό πελατών και οικονομικών στοιχείων. Τα τελευταία χρόνια οι τάσεις του μάρκετινγκ ορίζουν μια πολιτική έρευνας των αναγκών των πελατών. Αναζητούν απαντήσεις σε ερωτήματα όπως, τι είναι αυτό που θέλουν οι πελάτες, ποιες είναι οι ανάγκες τους κ.α. Ο τομέας της εξόρυξης δεδομένων έχει συνεισφέρει σημαντικά σε αυτή την κατεύθυνση από την ανάλυση δεδομένων μια επιχείρησης και την εξαγωγή χρήσιμων συμπερασμάτων για την συμπεριφορά των πελατών. Ένας αρκετά γνωστός αλγόριθμος εξόρυξης δεδομένων είναι ο A-Priori [P4]. Ο αλγόριθμος αυτός κάνει ανάλυση δεδομένων αγοράς, όπου υπάρχουν δεδομένα σχετικά με πελάτες ή αγορές σε καταστήματα. Ο A-Priori μπορεί αποδοτικά να δώσει συμπεράσματα όπως «κάθε πελάτης που αγοράζει βαμβακερά υφάσματα θα αγοράσει και μπίρα με μεγάλη πιθανότητα». Άλλα παραδείγματα εξόρυξης δεδομένων στο μάρκετινγκ είναι η ανάλυση της συμπεριφοράς των πελατών ηλεκτρονικών καταστημάτων χρησιμοποιώντας τα log αρχεία ή η πρόβλεψη εάν ένας πελάτης θα αγοράσει ένα συγκεκριμένο προϊόν χρησιμοποιώντας παρελθοντικές του κινήσεις. Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 27

Επένδυση: Πολυάριθμες χρηματιστηριακές εταιρίες χρησιμοποιούν τεχνικές εξόρυξης δεδομένων έτσι ώστε να μπορούν να γνωρίζουν που να επενδύσουν. Στην πραγματικότητα μια μεγάλη μερίδα έρευνας στο τομέα εξόρυξης δεδομένων έχει γίνει έχοντας ως αφετηρία χρηματιστηριακές εφαρμογές. Μια άλλη χρήση των τεχνικών εξόρυξης δεδομένων είναι οι εφαρμογές εξόρυξης δεδομένων από κείμενα. Για παράδειγμα αλγόριθμοι που εξάγουν χρήσιμη πληροφορία από μη δομημένα κείμενα, έτσι ώστε να προβλεφθούν οι τάσεις σε μετοχές [P5]. Πρόληψη και Ασφάλεια: Η εξόρυξη δεδομένων έχει με επιτυχία εφαρμοστεί και στην πρόληψη και αποφυγή διάφορων τύπων απάτης. Από την αναγνώριση κακόβουλων ενεργειών σε συναλλαγές κάποιος μπορεί να αντιληφθεί συναλλαγές που μπορεί να σχετίζονται με οικονομικές παρανομίες ή άλλου είδους απάτες. Ένα παράδειγμα συστήματος είναι το FAIS [P6]. Ωστόσο τα τελευταία χρόνια, όπως βλέπουμε και ακούμε, υπάρχει μια τάση για πρόληψη σε κακόβουλες ενέργειες. Οι κινήσεις μας σε δημόσιους χώρους καταγράφεται όπως και αυτές που έχουν να κάνουν με τον παγκόσμιο ιστό. Για παράδειγμα μια πρόσφατη εφαρμογή μπορούσε να αναγνωρίζει ανώμαλα πρότυπα χρησιμοποιώντας κανόνες σε δεδομένα νοσοκομείων έτσι ώστε να αναγνωρίζει, σε πραγματικό χρόνο, εμφάνιση ασθενειών. 1.5. Διαδικασία εξόρυξης γνώσης από βάσεις δεδομένων Η διαδικασία της εξόρυξης γνώσης από βάσεις δεδομένων είναι μια διαλογική και επαναληπτική διαδικασία που αποτελείται από μια σειρά από τα ακόλουθα βήματα [B2]: Εικόνα 1.3: Τα βήματα της διαδικασίας εξόρυξης γνώσης από βάσεις δεδομένων [P154] 28 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

Την ανάπτυξη και κατανόηση της περιοχής της εφαρμογής, της σχετικά προγενέστερης γνώσης, του προς εξέταση τομέα και τους στόχους του τελικού χρήστη. Την ολοκλήρωση των δεδομένων. Υπάρχουν διαφορετικά είδη αποθηκών πληροφοριών που μπορούν να χρησιμοποιηθούν στη διαδικασία εξόρυξης γνώσης. Κατά συνέπεια, οι πολλαπλές πηγές δεδομένων μπορούν να συνδυαστούν καθορίζοντας το σύνολο στο οποίο τελικά η διαδικασία εξόρυξης πρόκειται να εφαρμοστεί. Τη δημιουργία του στόχου-συνόλου δεδομένων. Επιλογή του συνόλου δεδομένων (μεταβλητές, δείγματα δεδομένων) στο οποίο η διαδικασία εξόρυξης πρόκειται να εκτελεσθεί. Τον καθορισμό και την προ-επεξεργασία δεδομένων. Αυτό το βήμα περιλαμβάνει βασικές διαδικασίες όπως η αφαίρεση του θορύβου, η συλλογή των απαραίτητων πληροφοριών για τη διαμόρφωση ή τη μέτρηση του θορύβου, η απόφαση σχετικά με τις στρατηγικές διαχείρισης των ελλειπόντων πεδίων δεδομένων Το μετασχηματισμό των δεδομένων. Τα δεδομένα μετασχηματίζονται ή παγιώνονται σε μορφές κατάλληλες για εξόρυξη. Χρήση των μεθόδων μείωσης διαστάσεων ή μετασχηματισμού για τη μείωση του αριθμού των υπό εξέταση μεταβλητών ή την εύρεση κατάλληλης αντιπροσώπευσης των δεδομένων χωρίς μεταβλητές. Την επιλογή των στόχων και των αλγορίθμων εξόρυξης δεδομένων. Σε αυτό το βήμα αποφασίζουμε το στόχο της διαδικασίας εξόρυξης γνώσης, επιλέγοντας τους στόχους εξόρυξης δεδομένων που θέλουμε να επιτύχουμε. Επίσης, επιλέγονται οι μέθοδοι που θα χρησιμοποιηθούν. Αυτό περιλαμβάνει την επιλογή του κατάλληλου μοντέλου και παραμέτρων. Επίσης η μέθοδος εξόρυξης δεδομένων πρέπει να αντιστοιχηθεί με τις απαιτήσεις και τα γενικά κριτήρια της διαδικασίας εξόρυξης γνώσης. Την εξόρυξη δεδομένων. Εφαρμόζοντας ευφυείς μεθόδους, ψάχνουμε για ενδιαφέροντα πρότυπα γνώσης. Τα πρότυπα θα μπορούσαν να είναι μιας συγκεκριμένης αντιπροσωπευτικής μορφής ή ενός συνόλου τέτοιων αντιπροσωπευτικών, όπως κανόνες κατηγοριοποίησης, δένδρα, παλινδρόμηση, συσταδοποίηση κλπ. Η απόδοση και τα αποτελέσματα της μεθόδου εξόρυξης δεδομένων εξαρτώνται από τα προηγούμενα βήματα. Την αξιολόγηση των προτύπων. Τα εξαγόμενα πρότυπα αξιολογούνται με κάποια μέτρα, προκειμένου να προσδιοριστούν τα πρότυπα τα οποία αντιπροσωπεύουν τη γνώση, δηλαδή τα αληθινά ενδιαφέροντα πρότυπα. Τη σταθεροποίηση και παρουσίαση της γνώσης. Σε αυτό το βήμα, η εξορυγμένη γνώση ενσωματώνεται στο σύστημα και κάποιες τεχνικές αντιπροσώπευσης γνώσης χρησιμοποιούνται για να παρουσιάσουν την εξορυγμένη γνώση στο χρήστη. Επίσης, ελέγχουμε για επίλυση τυχών συγκρούσεων με προηγούμενη εξορυγμένη γνώση. 1.6. Απαιτήσεις εξόρυξης δεδομένων Για να επιτύχουμε μια αποτελεσματική διαδικασία εξόρυξης γνώσης από δεδομένα, πρέπει πρώτα να εξετάσουμε το είδος των χαρακτηριστικών που ένα σύστημα εξόρυξης δεδομένων αναμένεται να έχει καθώς επίσης και τις απαιτήσεις που πρέπει να λάβουμε υπόψη στην ανάπτυξη Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 29

των τεχνικών εξόρυξης δεδομένων. Οι κύριες απαιτήσεις μπορούν να συνοψιστούν στα εξής [P7][P8]: Χειρισμός των διαφορετικών τύπων δεδομένων Απόδοση και εξελιξιμότητα των αλγορίθμων εξόρυξης δεδομένων Χρησιμότητα, βεβαιότητα και εκφραστικότητα των αποτελεσμάτων εξόρυξης δεδομένων Διαφορετικού τύπου εκφράσεις των ερωτήσεων και αποτελεσμάτων της εξόρυξης δεδομένων Διαλογική ανακάλυψη γνώσης στα πολυ-εννοιολογικά επίπεδα. Εξόρυξη γνώσης από διαφορετικές πηγές δεδομένων. 1.7. Αλγόριθμοι εξόρυξης δεδομένων Οι αλγόριθμοι εξόρυξης δεδομένων είναι πολλοί και σε αυτή την ενότητα θα παρουσιαστούν σε κατηγορίες οι πιο σημαντικοί από αυτούς. Οι κατηγορίες στις οποίες θα τους συναντήσουμε είναι οι εξής: Κατηγοριοποίηση, Συσταδοποίηση, Κανόνες Συσχέτισης, Πρότυπα Ακολουθιών, Παλινδρόμηση, Δέντρα Απόφασης. Οι παραπάνω κατηγορίες χωρίς αμφιβολία αναπαριστούν όλη την περιοχή των αλγορίθμων που χρησιμοποιούνται στον τομέα αυτό. Τα τελευταία χρόνια η ερευνητική κοινότητα δίνει πολύ βάση στη βελτίωση υπαρχόντων τεχνικών και δημιουργία νέων για να αντιμετωπιστούν τα προβλήματα που τίθενται σε αυτές τις κατηγορίες οι οποίες θα αναλυθούν παρακάτω: Κατηγοριοποίηση: Η κατηγοριοποίηση (classification) αποτελεί μια από τις βασικές εργασίες (tasks) εξόρυξης δεδομένων. Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειμένου το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Τα αντικείμενα που πρόκειται να κατηγοριοποιηθούν αναπαριστάνονται γενικά από τις εγγραφές της βάσης δεδομένων και η διαδικασία της κατηγοριοποίησης αποτελείται από την ανάθεση κάθε εγγραφής σε κάποιες από τις προκαθορισμένες κατηγορίες. Η εργασία της κατηγοριοποίησης χαρακτηρίζεται από έναν καλά καθορισμένο ορισμό των κατηγοριών και το σύνολο που χρησιμοποιείται για την εκπαίδευση του μοντέλου αποτελείται από προ-κατηγοριοποιημένα παραδείγματα. Η βασική εργασία είναι να δημιουργηθεί ένα μοντέλο το οποίο θα μπορούσε να εφαρμοστεί για να κατηγοριοποιήσει δεδομένα που δεν έχουν ακόμα κατηγοριοποιηθεί (να ανατεθεί σε κάποια από τις κατηγορίες). Στις περισσότερες περιπτώσεις, υπάρχει ένα περιορισμένος αριθμός κατηγοριών και εμείς θα πρέπει να αναθέσουμε κάθε εγγραφή στην κατάλληλη κατηγορία. Για αυτό το σκοπό χρησιμοποιούνται κάποιες τεχνικές, τις οποίες μπορούμε να κατατάξουμε σε δύο κατηγορίες. Η πρώτη χρησιμοποιεί δέντρα απόφασης (decision trees) και η δεύτερη νευρωνικά δίκτυα (neural networks). 30 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

Συσταδοποίηση: Η συσταδοποίηση (clustering) είναι η εργασία του καταμερισμού ενός ετερογενούς πληθυσμού σε ένα σύνολο περισσότερων ετερογενών συστάδων (clusters). Αυτό που διαφοροποιεί τη συσταδοποίηση από την κατηγοριοποίηση είναι ότι η συσταδοποίηση δε βασίζεται σε προκαθορισμένες κατηγορίες. Στην κατηγοριοποίηση, ο πληθυσμός διαιρείται σε κατηγορίες αναθέτοντας κάθε στοιχείο ή εγγραφή σε μια προκαθορισμένη κατηγορία με βάση ένα μοντέλο που αναπτύσσεται μέσω της εκπαίδευσης του με παραδείγματα που έχουν κατηγοριοποιηθεί εκ των προτέρων. Όπως και στην κατηγοριοποίηση έτσι και στη συσταδοποίηση υπάρχουν πολλές εφαρμογές. Για παράδειγμα, ας θεωρήσουμε πως έχουμε διαθέσιμα τα δεδομένα πελατών μιας εταιρίας πωλήσεων. Χρησιμοποιώντας τεχνικές συσταδοποίησης, μπορούμε να βρούμε τον καταμερισμό των πελατών και της αγοράς, π.χ. μπορούμε να δούμε ποιοι πελάτες αγοράζουν για την οικογένεια τους και ποιοι για τον εαυτό τους ή ποιοι έχουν μεγάλο εισόδημα και ποιοι όχι. Περισσότερες πληροφορίες για αλγόριθμους συσταδοποίησης υπάρχουν στο [P9]. Κανόνες Συσχέτισης: Η εξαγωγή κανόνων συσχέτισης (association rules) θεωρείται μια από τις σημαντικότερες διεργασίες εξόρυξης δεδομένων. Έχει προσελκύσει μεγάλο ενδιαφέρον γιατί παρέχουν έναν συνοπτικό τρόπο για να εκφραστούν οι ενδεχομένως χρήσιμες πληροφορίες που γίνονται εύκολα κατανοητές από τους τελικούς χρήστες. Οι κανόνες συσχέτισης ανακαλύπτουν κρυμμένες «συσχετίσεις» μεταξύ των γνωρισμάτων ενός συνόλου των δεδομένων. Αυτοί οι συσχετισμοί παρουσιάζονται στην ακόλουθη μορφή Α Β όπου το Α και το Β αναφέρονται στα σύνολα γνωρισμάτων που υπάρχουν στα υπό ανάλυση δεδομένα. Πρότυπα Ακολουθιών: Η εξόρυξη πρότυπων ακολουθιών (sequential patterns) είναι η εξόρυξη των συχνά εμφανιζόμενων προτύπων σχετικών με το χρόνο ή άλλες ακολουθίες. Οι περισσότερες μελέτες στα πρότυπα ακολουθιών επικεντρώνονται στα συμβολικά πρότυπα. Ο χρήστης εδώ μπορεί να προσδιορίσει τους περιορισμούς στα είδη των προτύπων ακολουθιών που εξάγονται με την παροχή των προσχεδίων προτύπων (template patterns) υπό μορφή σειριακών επεισοδίων, παράλληλων επεισοδίων ή κανονικών εκφράσεων. Παραδείγματα προτύπων ακολουθιών έχουμε στην καθημερινή μας ζωή όπως τα κείμενα, οι μουσικές νότες, τα δεδομένα του καιρού και οι ακολουθίες του DNA. Παλινδρόμηση: Η παλινδρόμηση (regression) είναι θέμα το οποίο έχει μελετηθεί πολύ στην στατιστική και στα νευρωνικά δίκτυα. Κύριος σκοπός εδώ είναι η πρόβλεψη της τιμής μιας μεταβλητής μελετώντας τις τιμές που είχε στο παρελθόν. Συνήθως χρησιμοποιούμε ένα μοντέλο για την μεταβλητή. Η παλινδρόμηση καλύπτει ένα μεγάλο τμήμα του τομέα της εξόρυξης δεδομένων που έχει να κάνει με προβλέψεις. Ένα χαρακτηριστικό παράδειγμα αλγορίθμου παλινδρόμησης για εξόρυξη δεδομένων είναι ο [B3]. Δέντρα Απόφασης: Τα δέντρα απόφασης (decision trees) έχουν μελετηθεί αρκετά σαν ένα ζήτημα μηχανικής μάθησης. Για να γίνει κατανοητό, ας υποθέσουμε ότι έχουμε ένα σύνολο Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 31

εγγραφών και καθεμία από αυτές έχει μια λίστα χαρακτηριστικών. Ένα δέντρο απόφασης στο σύνολο των εγγραφών είναι ένα δέντρο όπου σε κάθε κόμβο του (που δεν είναι φύλλο) υπάρχει ένα ερώτημα που αναφέρεται στα χαρακτηριστικά των εγγραφών και κάθε ερώτημα καταλήγει σε ένα συγκεκριμένο παιδί ενός κόμβου. Τα φύλλα του δηλώνουν τις κλάσεις. Έτσι ένα δέντρο απόφασης εκτελεί κατηγοριοποίηση χρησιμοποιώντας ερωτήματα σχετικά με τα χαρακτηριστικά των εγγραφών. Οι εφαρμογές που χρησιμοποιούν δέντρα απόφασης είναι παρόμοιες με αυτές που κάνουν κατηγοριοποίηση. Μια γενική επισκόπηση υπάρχει στο [B4]. 1.8. Συμπεράσματα Η πρόοδος στην τεχνολογία βάσεων δεδομένων μας έχει οδηγήσει στην παροχή των βασικών εργαλείων και των μεθόδων για την αποδοτική συλλογή δεδομένων, αποθήκευση και αναζήτηση των συνόλων δεδομένων. Ο τομέας τη εξόρυξης δεδομένων συνδυάζει τομείς όπως βάσεις δεδομένων, αποθήκες δεδομένων, αναγνώριση προτύπων, μηχανική μάθηση, στατιστική και ανάκτηση πληροφορίας. Πλήθος μεθόδων έχουν προταθεί για να ικανοποιήσουν τις απαιτήσεις των διαφορετικών εφαρμογών. Στο επόμενο κεφάλαιο θα γίνει παρουσίαση μιας υποκατηγορίας εξόρυξης γνώσης όπου τα δεδομένα προς ανάλυση δεν είναι γενικά αλλά προέρχονται από τον παγκόσμιο ιστό. 32 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.

2. Εξόρυξη γνώσης από τον Παγκόσμιο Ιστό 2.1. Ο Παγκόσμιος Ιστός Όπως είχε προταθεί αρχικά από τον Tim Berners-Lee [P10], ο Παγκόσμιος Ιστός δημιουργήθηκε με σκοπό να βελτιώσει τη διαχείριση των γενικών πληροφοριών σχετικά με τους επιταχυντές και τα πειράματα στο CERN. Η πρόταση του ήταν να οργανώσει τις πληροφορίες που χρησιμοποιούνταν σε αυτό το ινστιτούτο, σε μια δομή τύπου γράφου, όπου οι κόμβοι είναι έγγραφα που περιγράφουν αντικείμενα, όπως σημειώματα, άρθρα, υπηρεσίες ή πρόσωπα, και οι σύνδεσμοι είναι σχέσεις μεταξύ τους, όπως "εξαρτάται" "είναι μέρος του," "αναφέρεται σε" ή "χρησιμοποιεί". Αυτό φαινόταν κατάλληλο για ένα μεγάλο οργανισμό όπως το CERN, και αμέσως μετά φάνηκε ότι το πλαίσιο που είχε προτείνει ο Berners-Lee ήταν πολύ γενικό και μπορούσε να δουλέψει πολύ καλά για κάθε σύνολο εγγράφων που παρέχουν ευελιξία και ευκολία στην πρόσβαση μεγάλων ποσοτήτων κειμένου. Μια πολύ σημαντική εξέλιξη αυτής της ιδέας ήταν ότι τα έγγραφα δεν χρειάζονταν να είναι αποθηκευμένα στον ίδιο ηλεκτρονικό υπολογιστή ή στην ίδια βάση δεδομένων, αλλά μάλλον, θα μπορούσαν να διανεμηθούν σε ένα δίκτυο υπολογιστών. Ευτυχώς, οι υποδομές για τη διανομή αυτού του τύπου (Διαδίκτυο) είχαν ήδη αναπτυχθεί. Με λίγα λόγια, αυτό είναι το πώς γεννήθηκε ο Παγκόσμιος Ιστός. Τα τελευταία χρόνια ο Παγκόσμιος Ιστός έχει αναπτυχθεί στο μεγαλύτερο και δημοφιλέστερο τρόπο επικοινωνίας και διάδοσης της πληροφορίας. Έτσι, κοιτάζοντας τον Παγκόσμιο Ιστό πολλά χρόνια αργότερα σε σύγκριση με την αρχική πρόταση του 1989, θα δούμε δύο βασικές διαφορές: 1) Ο τωρινός Παγκόσμιος Ιστός είναι τεράστιος και μεγαλώνει απίστευτα γρήγορα. Το 2006 έχει υπολογιστεί πως υπήρχαν περίπου 96,854,877 σελίδες με ρυθμό αύξησης τεσσάρων περίπου εκατομμυρίων σελίδων το μήνα [S4]. Η δημοφιλής μηχανή αναζήτησης Yahoo! ανακοίνωσε το 2005 μέσα από την σελίδα της [S5] πως έχει στο ευρετήριο της περίπου 20 εκατομμύρια αντικείμενα από τα οποία τα 19 εκατομμύρια είναι δεδομένων κειμένου. Σήμερα, ο Παγκόσμιος Ιστός περιλαμβάνει περισσότερες από 215,675,903 σελίδες, με περίπου 30 εκατομμύρια να προστίθενται κάθε μήνα [S4]. 2) Η τυπική σημασιολογία των ιστοσελίδων είναι πολύ περιορισμένη οι κόμβοι είναι απλά ιστοσελίδες και οι σύνδεσμοι είναι ενιαίου τύπου (π.χ., "αναφέρεται σε"). Η έννοια των κόμβων και των συνδέσμων δεν είναι ένα μέρος του δικτυακού συστήματος, αντίθετα, έχει αφεθεί στους προγραμματιστές των ιστοσελίδων να περιγράφουν στο περιεχόμενο των ιστοσελίδων τους ποίο είναι το νόημα των εγγράφων τους και ποίο το είδος των σχέσεων με τα έγγραφα στα οποία συνδέονται. Δεδομένου ότι δεν υπάρχει κάποια κεντρική αρχή ή συντάκτες, η σημασία, η δημοτικότητα, και το κύρος των ιστοσελίδων του Διαδικτύου είναι δύσκολο να αξιολογηθεί. Οι σύνδεσμοι είναι πολύ διαφορετικοί μεταξύ τους και πολλοί από αυτούς δεν σχετίζονται με το περιεχόμενο ή το κύρος των ιστοσελίδων (π.χ., σύνδεσμοι πλοήγησης). Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ. 33

Εικόνα 2.1: Γράφος βάθους δύο της σελίδας www.csd.auth.gr με χρήση του WebSphinx [S95] Σήμερα ο Παγκόσμιος Ιστός είναι το μεγαλύτερο, το πιο ανοικτό και το περισσότερο δημοκρατικό σύστημα έκδοσης στον κόσμο. Από τη σκοπιά των «εκδοτών» (υπεύθυνων για την ανάπτυξη ιστοσελίδων), αυτό είναι ένα από τα σημαντικότερα χαρακτηριστικά γνωρίσματα του Παγκόσμιου Ιστού, μια και οποιουδήποτε είδους πληροφορία μπορεί να διανεμηθεί παγκοσμίως χωρίς κανένα περιορισμό στο περιεχόμενό του, και το σπουδαιότερο, χρησιμοποιώντας την ερμηνεία της έννοιας των συνδέσεων της ιστοσελίδας από τον υπεύθυνο για την ανάπτυξη της. Από την άποψη ενός χρήστη, εντούτοις, αυτό είναι το χειρότερο πράγμα για τον Παγκόσμιο Ιστό. Για να καθορίσει τον τύπο του εγγράφου ο χρήστης πρέπει να το διαβάσει όλο. Οι συνδέσεις αναφέρονται σε άλλα έγγραφα, το οποίο σημαίνει πάλι ότι ο μόνος σίγουρος τρόπος να καθοριστούν οι τύποι των εγγράφων ή οι περιοχές τους, είναι η ανάγνωση ολόκληρου του συνόλου των εγγράφων που είναι συνδεδεμένα. Αυτός ο τύπος πρόσβασης στα έγγραφα είναι ακριβώς αντίθετος από αυτόν που ξέρουμε από τις βάσεις δεδομένων και τις βιβλιοθήκες, όπου όλα τα στοιχεία ή τα έγγραφα οργανώνονται με διάφορους τρόπους: με βάση τον τύπο, το θέμα, την περιοχή, τον συντάκτη, το έτος, και ούτω καθεξής. Η χρησιμοποίηση μιας βιβλιοθήκης με έναν τρόπο παρόμοιο με αυτό του Παγκόσμιου Ιστού, θα σήμαινε ότι κάποιος πρέπει να διαβάσει πρώτα ολόκληρη την συλλογή των βιβλίων (ή τουλάχιστον των τίτλων και των περιλήψεών τους) για να βρει ένα στην περιοχή ή το θέμα που χρειάζεται. Ακόμα χειρότερα, μερικοί εκδότες ιστοσελίδων εξαπατούν τους χρήστες σχετικά με το περιεχόμενο των σελίδων τους, χρησιμοποιώντας τίτλους ή συνδέσεις με ελκυστικά ονόματα για να κάνουν τους χρήστες να επισκεφτούν σελίδες που δεν θα εξέταζαν ποτέ ειδάλλως. Συγχρόνως, ο Παγκόσμιος Ιστός είναι η μεγαλύτερη αποθήκη γνώσης στο Διαδίκτυο. Έτσι ο καθένας μπαίνει στον πειρασμό να το χρησιμοποιήσει, και κάθε φορά που αρχίζει κάποιος να εξερευνεί τον Παγκόσμιο Ιστό, ξέρει ότι η επιδιωκόμενη πληροφορία είναι «εκεί έξω». Αλλά η μεγάλη ερώτηση είναι πώς να το βρει. Η απάντηση σε αυτή την ερώτηση είναι η βασική κινητήρια δύναμη στην ανάπτυξη των τεχνολογιών αναζήτησης στον Παγκόσμιο Ιστό, που τώρα είναι ευρέως 34 Παπαρρίζος Κ. Ιωάννης Τμήμα Πληροφορικής Α.Π.Θ.