ΕΦΑΡΜΟΓΗ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΓΙΑ ΠΡΟΣΩΠΟΠΟΙΗΜΕΝΕΣ ΥΠΗΡΕΣΙΕΣ ΙΑΙΤΟΛΟΓΙΑΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ. της ΟΙΚΟΝΟΜΟΥ ΦΛΩΡΑΣ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΕΦΑΡΜΟΓΗ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΓΙΑ ΠΡΟΣΩΠΟΠΟΙΗΜΕΝΕΣ ΥΠΗΡΕΣΙΕΣ ΙΑΙΤΟΛΟΓΙΑΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ. της ΟΙΚΟΝΟΜΟΥ ΦΛΩΡΑΣ"

Transcript

1 ΕΦΑΡΜΟΓΗ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΓΙΑ ΠΡΟΣΩΠΟΠΟΙΗΜΕΝΕΣ ΥΠΗΡΕΣΙΕΣ ΙΑΙΤΟΛΟΓΙΑΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ της ΟΙΚΟΝΟΜΟΥ ΦΛΩΡΑΣ ιπλωµατική εργασία στα πλαίσια του µεταπτυχιακού διπλώµατος ειδίκευσης «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» του Τµήµατος Μηχανικών Η/Υ και Πληροφορικής ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Επιβλέπων Καθηγητής: Καθηγητής Ιωάννης Γαροφαλάκης Τριµελής Εξεταστική Επιτροπή: Γαροφαλάκης Ιωάννης, Αναπληρωτής Καθηγητής Μακρής Χρήστος, Επίκουρος Καθηγητής Χατζηλυγερούδης Ιωάννης, Επίκουρος Καθηγητής Πάτρα, Μάιος 2010

2 [ii]

3 ΠΕΡΙΛΗΨΗ Ο παγκόσµιος ιστός αποτελεί µία τεράστια αποθήκη πληροφοριών και αναπτύσσεται µε τάχιστους ρυθµούς, ενώ η ανθρώπινη ικανότητα να εντοπίζει, να επεξεργάζεται και να αντιλαµβάνεται τις παρεχόµενες πληροφορίες παραµένει πεπερασµένη. Οι µηχανές αναζήτησης διευκολύνουν την αναζήτηση στον παγκόσµιο ιστό και έχουν γίνει αναπόσπαστο κοµµάτι της καθηµερινής ζωής των χρηστών του διαδικτύου. Οι χρήστες όµως χαρακτηρίζονται από διαφορετικές ανάγκες, προτιµήσεις, ιδιαιτερότητες και κατά την πλοήγησή τους µπορεί να χάσουν τον στόχο της αναζήτησής τους. Η προσωποποίηση στον παγκόσµιο ιστό, δηλαδή η εξατοµίκευση των παρεχόµενων αποτελεσµάτων, αποτελεί µία πολλά υποσχόµενη προσέγγιση για την λύση του πληροφοριακού υπερφόρτου, παρέχοντας κατάλληλα προσαρµοσµένες εµπειρίες πλοήγησης. Στα πλαίσια αυτής της διπλωµατικής εργασίας αναπτύχθηκε µία µεθοδολογία για την προσωποποίηση των αποτελεσµάτων µίας µηχανής αναζήτησης ώστε αυτά να ανταποκρίνονται στις προτιµήσεις των χρηστών και στα διαιτολογικά τους χαρακτηριστικά. Η µεθοδολογία αναπτύχθηκε σε δύο µέρη: στο εκτός σύνδεσης τµήµα και στο συνδεδεµένο. Στο πρώτο µε την χρησιµοποίηση των αρχείων πρόσβασης µίας µηχανής αναζήτησης και των διαιτολογικών χαρακτηριστικών των χρηστών, έγινε εξαγωγή πληροφορίας για τις προτιµήσεις των τελευταίων. Στην συνέχεια µε την χρήση µίας οντολογίας που κατασκευάστηκε για τα πλαίσια της διπλωµατικής αυτής εργασίας, έγινε σηµασιολογική κατηγοριοποίηση των επιλογών των χρηστών και κατασκευάστηκαν τα προφίλ που τους χαρακτηρίζουν. Έπειτα µε την χρήση ενός αλγορίθµου οµαδοποίησης οι χρήστες κατηγοριοποιήθηκαν µε βάση τα διαιτολογικά τους χαρακτηριστικά και τις επιλογές τους στην µηχανή αναζήτησης. Στο συνδεδεµένο τµήµα ο αλγόριθµος προσωποποίησης εκµεταλλευόµενος την σηµασιολογική αντιστοίχιση των αποτελεσµάτων της µηχανής αναζήτησης και τις οµάδες των χρηστών που δηµιουργήθηκαν στο εκτός σύνδεσης τµήµα αναδιοργανώνει τα παρεχόµενα από την µηχανή αναζήτησης αποτελέσµατα. Η αναδιοργάνωση γίνεται προωθώντας στις υψηλότερες θέσεις των αποτελεσµάτων της µηχανής αναζήτησης τα αποτελέσµατα που ταιριάζουν καλύτερα µε τις προτιµήσεις και τα χαρακτηριστικά της οµάδας στην οποία εντάσσεται ο χρήστης. Στο τέλος έγιναν πειράµατα και εξακριβώθηκαν τα επιθυµητά αποτελέσµατα για την προσωποποίηση σύµφωνα µε τις σηµασιολογικές οµάδες των χρηστών. [iii]

4 [iv]

5 ABSTRACT The World Wide Web has become a huge data repository and it keeps growing exponentially, whereas the human capability to find, process and understand the provided content remains constant. Search engines facilitate the search process in the World Wide Web and they have become an integral part of the web users' daily lives. However users who are characterized by different needs, preferences and special characteristics, navigate through large Web structures and may lost their goal of inquiry. Web personalization, i.e. the customization of the search engines returned results, is one of the most promising approaches for alleviating information overload providing tailored navigation experiences to Web users. The present dissertation presents the methodology which was implemented in order to personalize a search engine s results for corresponding users preferences and dietary characteristics. This methodology was implemented in two parts: the offline and the online part. The first one uses a search engines log files and the dietary characteristics of the users in order to extract information for the latter preferences. Afterwards, with the use of an ontology which was created explicitly for this work, semantic profiling of users interests was achieved and their corresponding profiles were formed. Then with the use of a clustering algorithm, users categorization was made based on their dietary profiles and their preferences in the search engine. In the online part the methodology re-ranks the search engines results, based on the semantic characterization of those results and the users clusters which were created at the offline part. Re-ranking is achieved by placing those results which match better the interests and the characteristics of the user s cluster at the top of the list of the search engines returned results. Experimental evaluation of the presented methodology shows that the expected objectives from the semantic users clustering in search engines are achievable. [v]

6 [vi]

7 ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω τον καθηγητή κ. Ιωάννη Γαροφαλάκη για την εµπιστοσύνη που µου έδειξε, την καθοδήγηση που µου παρείχε και γιατί µου έδωσε την ευκαιρία να δουλέψω σε ένα ακαδηµαϊκό περιβάλλον. Επίσης θα ήθελα να ευχαριστήσω τους επίκουρους καθηγητές κ. Ιωάννη Χατζηλυγερούδη και κ. Χρήστο Μακρή, για την συνεργασία τους. Ακόµα θέλω να ευχαριστήσω την κ. Αγορίτσα Βόπη και την κ. Γιαννακούδη Θεοδούλα για την πολύτιµη βοήθειά τους και τα σχόλια τους κατά την εκπόνηση αυτής της διπλωµατικής εργασίας καθώς και τους υπόλοιπους φίλους µου και συναδέλφους για την συµπαράστασή τους. εν θα µπορούσα βέβαια να µην ευχαριστήσω την οικογένειά µου για την κατανόηση, την συµπαράσταση και την βοήθεια που µου παρέχει όλα αυτά τα χρόνια. Οικονόµου Φλώρα [vii]

8 [viii]

9 1 Εισαγωγή 3 2 Βασικές Έννοιες της Επιστήμης της Διατροφής Εισαγωγή Βασικές έννοιες και ορισμοί Διατροφή και ενέργεια Θερμίδες και ενέργεια Βιολογικός ρόλος πρωτεϊνών Βιολογικός ρόλος υδατανθράκων Βιολογικός ρόλος λιπών Βιολογικός ρόλος βιταμινών και μεταλλικών στοιχείων Βιολογικός ρόλος νερού Μεταβολισμός και ενέργεια Βασικός μεταβολισμός και ενεργειακές απαιτήσεις ανθρώπινου οργανισμού Στάδια σύνταξης διαιτολογίου Υπολογισμός της ενεργειακής (ή θερμιδικής) και διαιτητικής πρόσληψης ατόμου Στάδια υπολογισμού της θερμιδικής απώλειας (ενεργειακών αναγκών) ατόμου Μέθοδοι αξιολόγησης σωματικού βάρους βάση ανθρωπομετρήσεων Σύγκριση των πραγματικών προσλήψεων με τις ενεργειακές ανάγκες του ατόμου Επιστημονικές ενδείξεις για τις σχέσεις διατροφής και υγείας 28 3 ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ Σύντοµη περιγραφή Ιστορία Μηχανών Αναζήτησης Σηµαντικές Μηχανές Αναζήτησης Google Bing Yahoo! Search Live Search Τρόπος λειτουργίας µηχανών αναζήτησης Προκλήσεις για τις µηχανές αναζήτησης 41 4 ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ Εισαγωγή Τι είναι το Semantic Web; Δομή του σημασιολογικού ιστού Προϋποθέσεις ύπαρξης του σημασιολογικού ιστού Λόγοι ύπαρξης του σημασιολογικού ιστού Υπερφόρτωση Πληροφορίας Stovepipe Συστήματα Ελλιπής συνάθροιση περιεχομένου XML και σημασιολογικός ιστός 55 [ix]

10 4.7 Web services και σημασιολογικός ιστός Λόγοι επιτυχίας του σημασιολογικού ιστού Επιχειρηματικό μοντέλο για τον σημασιολογικό ιστό Υποστήριξη αποφάσεων Ανάπτυξη επιχειρήσεων Διαμοιρασμός πληροφοριών και εύρεση γνώσης Διαχείριση και αυτοματισμός 62 5 ΟΝΤΟΛΟΓΙΕΣ Εισαγωγή Ορισμός Είδη οντολογιών Οντολογίες αναπαράστασης γνώσης Οντολογίες ανώτατου είδους Γλωσσολογικές οντολογίες Οντολογίες θεματικών πεδίων Επίπεδα αναπαράστασης οντολογιών Σπουδαιότητα οντολογιών Κύριες λειτουργίες των οντολογιών Γλώσσες ανάπτυξης οντολογιών Οντολογίες για τον Σημασιολογικό Ιστό 76 6 ΤΕΧΝΙΚΕΣ ΠΡΟΣΩΠΟΠΟΙΗΣΗΣ Εισαγωγή Αρχεία Πρόσβασης Δικτυακού Τόπου Σύντοµη περιγραφή Οντολογίες και δημιουργία προφίλ Ορισµός Συστήµατα βασισμένα σε οντολογίες OntoSeek Telltale Ontology-Based Semantic Online Classification of Documents Οντολογίες αναφοράς-προφίλ SUMO the Suggested Upper Merged Ontology WordNet Μια Online λεξικογραφική βάση δεδοµένων Συστήµατα Προσωποποίησης ONTOCOPI MyPlanet Quickstep SEWeP Προσωποποιημένη Αναζήτηση Βασισµένη σε Οντολογίες Οντολογία Αναφοράς Δηµιουργία Προφίλ Χρήστη 98 [x]

11 Εκπαίδευση του ταξινοµητή ηµιουργώντας τα Προφίλ Χρηστών Προσωποποίηση αποτελεσµάτων αναζήτησης Εκτίµηση αποτελεσµάτων Ο ρόλος της ομαδοποίησης στην προσωποποίηση Εξόρυξη δεδοµένων χρησιµοποίησης για προσωποποίηση Ενέργειες προεπεξεργασίας Ανακάλυψη συχνών συνόλων αντικειµένων και κανόνων συσχέτισης Οµαδοποίηση συναλλαγών Οµάδες χρησιµοποίησης Η διαδικασία προτάσεων Σκοπός της διπλωματικής Περιγραφή μεθοδολογίας Εκτός σύνδεσης τμήμα (Offline Part) Δημιουργία διαιτολογικού προφίλ χρηστών Οργάνωση αρχείων πρόσβασης Σημασιολογική κατηγοριοποίηση σελίδων Δημιουργία προφίλ χρηστών Ομαδοποίηση προφίλ χρηστών Συνδεδεμένο τμήμα (Online Part) Διαφορές από άλλες λύσεις Υλοποίηση Μεθοδολογίας Εργαλεία που χρησιμοποιήθηκαν Η βάση δεδομένων Βασικοί πίνακες βάσης δεδομένων Βοηθητικοί πίνακες βάσης δεδομένων Δημιουργία διαιτολογικού προφίλ χρηστών Δημιουργία αρχείων πρόσβασης Ajax search API Δημιουργία οντολογίας προφίλ Ανάλυση των αρχείων πρόσβασης Σημασιολογικός χαρακτηρισμός Ορισμός του προφίλ των χρηστών Προσδιορισμός συντελεστή βάρους σχετικά με τις έννοιες της οντολογίας Προσδιορισμός συντελεστή βάρους με βάση το διαιτολογικό προφίλ του χρήστη Σημασιολογική ομαδοποίηση προφίλ χρηστών Αλγόριθμος K-Means Συνδεδεμένο τμήμα προσωποποίησης Σύνδεση online τμήματος αναζήτησης με την Perl 165 [xi]

12 9 Πειραματικά Αποτελέσματα Παράδειγμα πρώτο Παράδειγμα δεύτερο Συμπεράσματα και μελλοντικές επεκτάσεις Βιβλιογραφία 179 [xii]

13 Εικόνα 1: ιατροφική πυραµίδα Εικόνα 2: Γραφική απεικόνιση ποσοστού χρησιµοποίησης Εικόνα 3: Λειτουργία µηχανής αναζήτησης Εικόνα 4: Η αρχική πρόταση για το Web στο Cern Εικόνα 5: Η διαρκής εξέλιξη των έξυπνων δεδοµένων (The smart data continuum) Εικόνα 6: Η δοµή του σηµασιολογικού ιστού Εικόνα 7: Σηµασιολογικές web services Εικόνα 8: Χρήσεις του σηµασιολογικού ιστού σε µία επιχείρηση Εικόνα 9: Εξέλιξη του Παγκόσµιου Ιστού Εικόνα 10: Αναπαράσταση οντολογίας Εικόνα 11: Επίπεδα Οντολογίας Εικόνα 12: Πρώτα επίπεδα της SUMO οντολογίας Εικόνα 13: Η λογική δοµή του Wordnet Εικόνα 14: Η ιεραρχία των υπερωνυµιών των συνόλων λέξεων Εικόνα 15: Ψευδοκώδικας ONTOCOPI Εικόνα 16: Αρχιτεκτονική MyPlanet Εικόνα 17: Γενική µεθοδολογία Quickstep και Foxtrot Εικόνα 18: Ο K-Nearest Neighbor αλγόριθµος του Quickstep Εικόνα 19: O αλγόριθµος AdaBoostM1 του Quickstep Εικόνα 20: Αλγόριθµος δηµιουργίας προφίλ του Quickstep Εικόνα 21: Η αρχιτεκτονική του SEWeP Εικόνα 22: Σύστηµα οµαδοποίησης Εικόνα 23: Online αλγόριθµος συστήµατος συστάσεων Εικόνα 24: Γενική Εικόνα Μεθοδολογίας Εικόνα 25: Offline τµήµα της µεθοδολογίας Εικόνα 26: Εισαγωγή στοιχείων χρήστη για καθορισµό διαιτολογικού προφίλ Εικόνα 27: Επιστρεφόµενα αποτελέσµατα µηχανής αναζήτησης(χωρισ προσωποποίηση) 117 Εικόνα 28: Βήµα εξαγωγής λέξεων κλειδιών Εικόνα 29: Βήµα σηµασιολογικής κατηγοριοποίησης λέξεων κλειδιών Εικόνα 30: Βήµα δηµιουργίας προφίλ χρηστών Εικόνα 31: Βήµα οµαδοποίησης των χρηστών Εικόνα 32: On-line τµήµα προσωποποίησης Εικόνα 33: ιάγραµµα ER βάσης δεδοµένων του συστήµατος Εικόνα 34: ηµιουργία διαιτολογικού προφίλ χρηστών,αρχείων πρόσβασης, επεξεργασία 130 Εικόνα 35: Εισαγωγή στοιχείων και καθορισµός διαιτολογικού προφίλ χρήστη Εικόνα 36: Κώδικας για την αποθήκευση του ΜΣ Εικόνα 37: Πειραµατική µηχανή αναζήτησης Εικόνα 38: Κώδικας για εµφάνιση επιστρεφόµενων αποτελεσµάτων από την web service. 133 Εικόνα 39: Εκτέλεση του query του χρήστη µε την χρήση AJAX search API Εικόνα 40: Μερική γραφική απεικόνιση οντολογίας Εικόνα 41: Ανάπτυξη οντολογίας µέσω Protégé Εικόνα 42: Κώδικας για την ανάλυση των αρχείων πρόσβασης Εικόνα 43: Σηµασιολογικός χαρακτηρισµός λέξεων κλειδιών Εικόνα 44: Στιγµιότυπο σηµασιολογικής κατηγοριοποίησης λέξεων κλειδιών (αναγνώριση εννοιών οντολογίας αναφοράς) [xiii]

14 Εικόνα 45: Κώδικας για αναγνώριση λέξεων κλειδιών Εικόνα 46: Κώδικας για αναγνώριση κλάσεων και στιγµιότυπων οντολογίας Εικόνα 47: Perl κώδικας για σηµασιολογική κατηγοριοποίηση Εικόνα 48: Module που υλοποιεί την ορισµό των προφίλ των χρηστών Εικόνα 49: Αλγόριθµος δηµιουργίας σηµασιολογικών οµάδων χρηστών Εικόνα 50: Εύρεση κλάσεων που χαρακτηρίζουν τις λέξεις κλειδιά της οντολογίας Εικόνα 51: Προσδιορισµός συντελεστή βάρους Εικόνα 52: Module για δηµιουργία προφίλ των χρηστών Εικόνα 53: Κώδικας για την δηµιουργία οµάδων χρηστών Εικόνα 54: Κώδικας για εµφάνιση αποτελεσµάτων προσωποποιηµένης αναζήτησης Εικόνα 55: Κώδικας για έναρξη του Perl module Εικόνα 56: Αποτελέσµατα της µηχανής αναζήτησης χωρίς προσωποποίηση για την λέξη κλειδί "cookie" Εικόνα 57: Αναζήτηση µε προσωποποίηση για την λέξη κλειδί "cookie" Εικόνα 58: Αποτελέσµατα της µηχανής αναζήτησης χωρίς προσωποποίηση για την λέξη κλειδί "eggs" Εικόνα 59: Αναζήτηση µε προσωποποίηση για την λέξη κλειδί "eggs" [xiv]

15 Πίνακας 1: Επίπεδο φυσικής δραστηριότητας PAL Πίνακας 2: Εξισώσεις βασικού µεταβολισµού Σηµείωση: Σε όλες τις εξισώσεις το βάρος µετριέται σε κιλά, το ύψος σε εκατοστά (εκτός από FAO/WHO/UNU, όπου ύψος σε µέτρα) και η ηλικία σε χρόνια Πίνακας 3: Ταξινόµηση του ΜΣ Πίνακας 4: Επιθυµητός ΜΣ µε την αύξηση της ηλικίας Πίνακας 5: Ποσοστά χρήσης µηχανών αναζήτησης (Search Engine Market Share) Πίνακας 6: Επίπεδα αναπαράστασης των οντολογιών Πίνακας 7: Συγκεντρωτικά αποτελέσµατα για την λέξη κλειδί "cookie" Πίνακας 8: Συγκεντρωτικά αποτελέσµατα για την λέξη κλειδί "eggs" [xv]

16 [xvi]

17 1 Εισαγωγή [1]

18 [2]

19 1 Εισαγωγή Ο παγκόσµιος ιστός είναι ένα πλέγµα από εκατοµµύρια διασυνδεδεµένους υπολογιστές που εκτείνεται σχεδόν σε κάθε γωνιά του πλανήτη και παρέχει τις υπηρεσίες του σε εκατοµµύρια χρήστες. Οι άνθρωποι χρησιµοποιούν τον παγκόσµιο ιστό κυρίως για δύο πράγµατα: για να αντλήσουν πληροφορίες και για να επικοινωνήσουν µε άλλους ανθρώπους που είναι και αυτοί χρήστες του. Με βάση το πρώτο µπορούµε να θεωρήσουµε τον παγκόσµιο ιστό ως µία τεράστια αποθήκη πληροφορίας, µια παγκόσµια βιβλιοθήκη που αυξάνεται διαρκώς µε εκθετικούς ρυθµούς. Η ανθρώπινη ικανότητα όµως να εντοπίζει, να επεξεργάζεται και να αντιλαµβάνεται τις παρεχόµενες πληροφορίες παραµένει πεπερασµένη. Οι µηχανές αναζήτησης διευκολύνουν την εύρεση περιεχοµένου στον παγκόσµιο ιστό και έχουν γίνει αναπόσπαστο κοµµάτι της καθηµερινής ζωής των χρηστών του διαδικτύου. Οι χρήστες όµως χαρακτηρίζονται από διαφορετικές ανάγκες, προτιµήσεις, ιδιαιτερότητες και κατά την πλοήγησή τους µπορεί να χάσουν τον στόχο της αναζήτησής τους. Η προσωποποίηση στον παγκόσµιο ιστό, δηλαδή η εξατοµίκευση των παρεχόµενων αποτελεσµάτων, αποτελεί µία πολλά υποσχόµενη προσέγγιση για την λύση του πληροφοριακού υπερφόρτου, παρέχοντας κατάλληλα προσαρµοσµένες εµπειρίες πλοήγησης. Οι περισσότερες ερευνητικές προσπάθειες για εξατοµίκευση στον παγκόσµιο ιστό είναι ανάλογες της εξέλιξης της έρευνας στην εξόρυξη χρησιµοποίησης του ιστού. Η εξόρυξη χρησιµοποίησης από τον ιστό αφορά στην εφαρµογή τεχνικών εξόρυξης δεδοµένων στα clickstream δεδοµένα του ιστού, ώστε να εξαχθούν πρότυπα χρησιµοποίησής του. Μέχρι τώρα η επιτυχία των εγχειρηµάτων αξιοποίησης των αρχείων δεδοµένων των ιστοτόπων είναι περιορισµένη και συχνά εξαρτάται από τις συγκεκριµένες ιδιότητες της ιστοσελίδας που δεν βρίσκουν γενική εφαρµογή. Οι αλγόριθµοι εξόρυξης δεδοµένων για την ανακάλυψη προτύπων ή τάσεων από ένα σύνολο δεδοµένων χρησιµοποίησης είναι άφθονοι αλλά ένα βασικό στοιχείο που συχνά παραβλέπεται από τους αλγορίθµους αυτούς είναι το περιεχόµενο. Τελευταία όµως έχει γίνει µία προσπάθεια συγχώνευσης του περιεχοµένου του ιστού στην διαδικασία εξόρυξης χρησιµοποίησης ενός ιστοτόπου. Ο Σηµασιολογικός Ιστός (Semantic Web) αποτελεί µία επέκταση του σηµερινού ιστού όπου οι πληροφορίες έχουν καλά ορισµένες έννοιες, διευκολύνοντας τους ανθρώπους και τους υπολογιστές να συνεργαστούν καλύτερα. Το όραµα του σηµασιολογικού ιστού, όπως αυτό περιγράφηκε από τον δηµιουργό του Tim Berners Lee, είναι οι πληροφορίες να έχουν ακριβή σηµασία, να είναι επεξεργάσιµες από τους υπολογιστές και οι υπολογιστές να µπορούν να ενοποιήσουν πληροφορίες από τον ιστό. Όλα αυτά βέβαια απαιτούν να γίνει ένα βήµα πιο πέρα από τις λέξεις κλειδιά των ιστοσελίδων και να καθοριστούν οι έννοιες των πηγών που περιγράφονται στον παγκόσµιο ιστό. Σε αυτό το επίπεδο γνώσης βρίσκεται η σηµασιολογία των δεδοµένων. Οι οντολογίες ανήκουν στην σηµασιολογία των δεδοµένων τα οποία έρχονται να αναπαραστήσουν την πληροφορία που µπορεί να κατανοήσει ένα [3]

20 πρόγραµµα λογισµικού. Η οντολογία είναι ένας όρος που δανείζεται από την φιλοσοφία και αναφέρεται στην επιστήµη της περιγραφής των ειδών των οντολογιών στον κόσµο και το πως αυτές σχετίζονται µεταξύ τους. Η διπλωµατική αυτή διατριβή ασχολείται µε το ζήτηµα της προσωποποίησης στον παγκόσµιο ιστό για την παροχή υπηρεσιών διαιτολογίας µε την χρήση οντολογιών. Ουσιαστικά κατασκευάστηκε ένα σύστηµα σηµασιολογικής προσωποποίησης µίας µηχανής αναζήτησης, το οποίο στηρίζεται σε µία OWL οντολογία που αφορά τρόφιµα και τα διατροφικά τους χαρακτηριστικά. Στόχος της διατριβής αυτής είναι η προσωποποίηση των αποτελεσµάτων της µηχανής αναζήτησης χρησιµοποιώντας τα αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους, τα διαιτολογικά χαρακτηριστικά των χρηστών της µηχανής αναζήτησης και τις οντολογίες. Από τα αρχεία πρόσβασης θα εξάγεται πληροφορία, που σε συνδυασµό µε τις πληροφορίες που θα έχει δώσει ο χρήστης σχετικά µε διάφορα διαιτολογικά χαρακτηριστικά του, θα χρησιµοποιείται για την δηµιουργία του προφίλ κάθε χρήστη µε χρήση αλγορίθµων κατηγοριοποίησης και µε βάση µια οντολογία. Κατόπιν, οι χρήστες θα οµαδοποιούνται σε οµάδες χρηστών µε παρόµοια ενδιαφέροντα και παρόµοιο διαιτολογικό προφίλ. Στη συνέχεια µε βάση το προφίλ της οµάδας που ανήκει ο χρήστης σε συνδυασµό µε τη σηµασιολογική προσέγγιση των αποτελεσµάτων που επιστρέφει η µηχανή αναζήτησης και κάποιους αλγόριθµους ανακατανοµής και φιλτραρίσµατος θα γίνεται η προσαρµογή των αποτελεσµάτων της µηχανής αναζήτησης. Αρχικά θα υλοποιηθεί µία εφαρµογή που θα καταγράφει ορισµένα χαρακτηριστικά των χρηστών, όπως χαρακτηριστικά που αφορούν το βάρος και το ύψος τους, για να µπορέσει να γίνει καθορισµός του διαιτολογικού τους προφίλ. Με βάση αυτό το προφίλ και τα ενδιαφέροντα των χρηστών που θα προκύψουν από τα αρχεία πρόσβασης του ιστοτόπου, θα µπορέσουν να καθοριστούν οµάδες χρηστών και να γίνει προσωποποίηση των παρεχόµενων σ αυτούς αποτελεσµάτων. Στην συνέχεια, θα υλοποιηθεί µια εφαρµογή που θα χρησιµοποιηθεί για τη δηµιουργία των αρχείων πρόσβασης δεδοµένου ότι είναι δύσκολο να τα βρούµε έτοιµα από κάποια από τις µηχανές αναζήτησης. Συγκεκριµένα, µε χρήση µιας web service θα γίνεται αναζήτηση στο Google και θα παρουσιάζονται τα αποτελέσµατα στο χρήστη. Ο χρήστης θα πλοηγείται στα αποτελέσµατα ακριβώς, όπως συµπεριφέρεται στην ίδια τη µηχανή αναζήτησης. Οι επιλογές του χρήστη (ερώτηµα που τέθηκε και σύνδεσµοι αποτελεσµάτων που ακολουθήθηκαν) θα αποθηκεύονται µε αποτέλεσµα να δηµιουργούνται τα αρχεία πρόσβασης. Στη συνέχεια έχοντας τις σελίδες που έχει επισκεφτεί κάθε χρήστης και χρησιµοποιώντας µια κατάλληλη οντολογία αναφοράς, θα δηµιουργηθεί ένα αρχικό προφίλ κάθε χρήστη. Το προφίλ αυτό θα συνδυαστεί µε το διαιτολογικό προφίλ που καθορίστηκε αρχικά για κάθε χρήστη και θα προκύψει ένα τελικό προφίλ που θα περιέχει στοιχεία τόσο για τα ενδιαφέροντα του χρήστη όσο και για τα προσωπικά του χαρακτηριστικά. Θα υλοποιηθεί ένας ταξινοµητής ο οποίος µε χρήση της λεξικογραφικής βάσης του WordNet θα καταχωρεί τις σελίδες στην έννοια της οντολογίας αναφοράς µε την οποία σχετίζεται. Για την καταχώρηση των σελίδων στις έννοιες της οντολογίας αναφοράς χρησιµοποιούνται τόσο οι κλάσεις της οντολογίας [4]

21 όσο και τα στιγµιότυπα που έχουν καταχωρηθεί σ αυτή. Χρησιµοποιώντας αυτόν τον ταξινοµητή µια σελίδα θα καταχωρείται αυτόµατα στις έννοιες της οντολογίας που αντιστοιχεί. Το αποτέλεσµα της ταξινόµησης των σελίδων που έχει επισκεφτεί ο χρήστης είναι να συγκεντρώνονται οι σελίδες που έχουν αντιστοιχιστεί σε κάθε έννοια και να υπολογίζεται το βάρος κάθε έννοιας της οντολογίας. Οπότε για κάθε χρήστη έχει δηµιουργηθεί µια οντολογία µε βάρη για κάθε έννοια, που σχετίζεται µε τις σελίδες που έχει επισκεφτεί ο χρήστης, η οποία και καλείται προφίλ. Η παραπάνω διαδικασία θα µπορεί να επαναλαµβάνεται αναµορφώνοντας δυναµικά τα προφίλ των χρηστών. Για κάθε ερώτηµα στη µηχανή αναζήτησης θα γίνεται αντιστοίχηση των αποτελεσµάτων µε τη βοήθεια του ταξινοµητή στις κατηγορίες της οντολογίας αναφοράς. Παράλληλα, υπολογίζουµε και το ενδιαφέρον του χρήστη για κάθε αποτέλεσµα µε βάση το προφίλ του. Στη συνέχεια οι χρήστες οµαδοποιούνται µε χρήση του αλγορίθµου οµαδοποίησης K-Means. Ο συνδυασµός των παραπάνω µε χρήση αλγορίθµων ανακατάταξης και φιλτραρίσµατος δίνει τα προσωποποιηµένα αποτελέσµατα στο χρήστη. Όσον αφορά τη δοµή της εργασίας, αρχικά στο δεύτερο κεφάλαιο πραγµατοποιείται µία αναφορά στις βασικές έννοιες της επιστήµης της διατροφής που χρησιµοποιούνται για τον καθορισµό του διαιτολογικού προφίλ των χρηστών της εφαρµογής. Έπειτα στο τρίτο κεφάλαιο πραγµατοποιείται µια σύντοµη αναφορά στις µηχανές αναζήτησης. Στην συνέχεια στο τέταρτο κεφάλαιο γίνεται µία παρουσίαση βασικών εννοιών του σηµασιολογικού ιστού ενώ στο πέµπτο κεφάλαιο γίνεται περιγραφή των οντολογιών που αποτελούν καίριο σηµείο της διπλωµατικής αυτής εργασίας. Ακολούθως, στο έκτο κεφάλαιο, γίνεται µια περιγραφή τεχνικών και συστηµάτων προσωποποίησης µε βάση οντολογίες, αρχεία πρόσβασης, οµαδοποίηση καθώς και συνδυασµό αυτών. Στο κεφάλαιο επτά παρουσιάζεται ο σκοπός της διπλωµατικής και µετά γίνεται µια σύντοµη περιγραφή των τµηµάτων που απαρτίζεται η µεθοδολογία που προτείνεται. Το επόµενο κοµµάτι αποτελεί την αναλυτική περιγραφή της µεθοδολογίας, τα εργαλεία που χρησιµοποιήθηκαν, τα επιµέρους τµήµατά του, τις τεχνικές λεπτοµέρειες. Στη συνέχεια αναλύεται η πειραµατική υλοποίηση που αναπτύχθηκε πραγµατοποιείται παράθεση των αποτελεσµάτων προσωποποίησης σε σχέση µε µη προσωποποιηµένα αποτελέσµατα. Τέλος, παραθέτονται τα συµπεράσµατα όσον αφορά τη µεθοδολογία και τις µεθόδους που χρησιµοποιήθηκαν καθώς και µελλοντικές επεκτάσεις. [5]

22 [6]

23 2 Βασικές Έννοιες της Επιστήμης της Διατροφής [7]

24 [8]

25 2 Βασικές Έννοιες της Επιστήμης της Διατροφής Στο κεφάλαιο αυτό γίνεται αναφορά στις έννοιες της επιστήµης της διατροφής καθώς και σε τεχνικές σύνταξης ενός ισορροπηµένου διαιτολογίου. Η γνώση των εννοιών αυτών βοηθά στον υπολογισµό διαφόρων µετρικών όπως είναι το ΒΜΙ ( είκτης Μάζας Σώµατος) που χρησιµοποιήθηκαν κατά την υλοποίηση της διπλωµατικής αυτής εργασίας. 2.1 Εισαγωγή Η διατήρηση της υγείας του ανθρώπου εξαρτάται σε µεγάλο βαθµό από την καλή διατροφή. Έχει αποδειχθεί και στατιστικά ότι η συχνότητα της εµφάνισης διάφορων ασθενειών και γενικά η υγεία ενός ολόκληρου λαού βρίσκεται σε άµεση σχέση µε την ποιότητα βασικά και την ποσότητα κατά δεύτερο λόγο της διατροφής. Οι ουσίες αυτές περιέχουν όλα τα απαραίτητα υλικά που χρειάζεται ο οργανισµός, για να δηµιουργήσει και να αναπλάσει τους ιστούς του, για να συµπληρώσει τα υγρά που του είναι απαραίτητα και για να εξασφαλίσει την απαραίτητη ενέργεια που χρειάζεται τόσο για τη λειτουργία των διάφορων οργάνων του, όσο και για την κίνησή του. Οι θρεπτικές ουσίες που περιέχουν οι διάφορες τροφές χωρίζονται, ανάλογα µε τη χηµική τους σύνθεση, σε οργανικές και σε ανόργανες (Ζερφυρίδης Γ., 1998). Οργανικές λέγονται εκείνες που περιέχουν άνθρακα και ανόργανες εκείνες που δεν περιέχουν. Έτσι οργανικές ουσίες είναι τα λίπη, οι υδατάνθρακες και οι πρωτεΐνες (ή λευκώµατα) και ανόργανες ουσίες είναι τα διάφορα άλατα και τα διάφορα ιχνοστοιχεία. Οι οργανικές ουσίες αποτελούν τα δοµικά υλικά για την ανάπλαση των ιστών και εξασφαλίζουν την απαραίτητη ενέργεια στον οργανισµό. Οι ανόργανες, ενώ συµµετέχουν και αυτές στη δοµή των διάφορων ιστών, και κυρίως των οστών, ο ρόλος τους είναι περισσότερο ρυθµιστικός. Συµµετέχουν σε όλες σχεδόν τις χηµικές και τις βιοχηµικές αντιδράσεις που συµβαίνουν στον οργανισµό και τις υποβοηθούν, ενώ αποτελούν, συγχρόνως και βασικό συστατικό στη σύνθεση των διάφορων ιστών του οργανισµού. Όσον αφορά τις τροφές, ανάλογα µε την προέλευσή τους, χωρίζονται σε ζωικές και φυτικές. Οι τροφές, αφού διασπαστούν σε απλούστερες ενώσεις, άλλες αφοµοιώνονται και άλλες καίγονται και αποδίδουν θερµότητα. Με βάση αυτό καθορίζεται και η θερµιδογόνος αξία τους. Πηγές θερµότητας είναι µόνο οι οργανικές ουσίες που περιέχουν τα παρακάτω ποσά θερµίδων: ένα γραµµάριο υδατάνθρακες 4,1 θερµίδες, ένα γραµµάριο λεύκωµα 41 θερµίδες, ενώ ένα γραµµάριο λίπους 9,3 θερµίδες. [9]

26 Εικόνα 1: ιατροφική πυραµίδα Είναι γεγονός ότι ο οργανισµός έχει την ικανότητα να µετατρέπει τη µια ουσία σε άλλη (Παπανικολάου Γ., 1993). Έτσι από τους υδατάνθρακες παράγει λίπος, µε τη διαφορά ότι η µετατροπή αυτή έχει περισσότερο θεωρητική αξία. Ο οργανισµός για την κανονική του λειτουργία έχει ανάγκη και από τα τρία είδη των θρεπτικών ουσιών και µάλιστα σε ορισµένη ποσότητα και ποιότητα. [10]

27 Στην περίπτωση που η τροφή παρουσιάζει έλλειψη από ένα αµυνοξύ, τότε θα συµβεί το εξής: θα λάβει ο οργανισµός το απαραίτητο αµυνοξύ από κάποιο όργανό του διαλύοντας µια ολόκληρη ένωση. Από την ένωση αυτή δηλ. θα πάρει µόνο το αµυνοξύ που του είναι απαραίτητο, ενώ τα υπόλοιπα θα τα αποβάλλει. Από υδατάνθρακες ο οργανισµός έχει ανάγκη από 100 gr περίπου την ηµέρα, αν και το ποσοστό αυτό είναι άµεσα συνδεµένο µε το επάγγελµα, τη γεωγραφική περιοχή και την εποχή του έτους. Τα λίπη είναι στην ουσία µια συµπυκνωµένη µορφή ενέργειας. Ο οργανισµός έχει ανάγκη από µια ορισµένη ποσότητα κάθε ηµέρα µεταξύ 50 και 60 gr, που και αυτή όµως εξαρτάται: από την εποχή του έτους, τη γεωγραφική περιοχή, την ηλικία, το επάγγελµα κλπ. Εκτός από τις παραπάνω βασικές θρεπτικές ουσίες, υπάρχουν και οι συµπληρωµένες που δεν έχουν άµεση σχέση µε τη θρέψη του οργανισµού, αλλά χωρίς αυτές δεν είναι δυνατό να εξασφαλιστεί η οµαλή λειτουργία του. Μια από αυτές είναι το νερό που αποτελεί και τα 70% του οργανισµού. Μια µείωση αυτού κατά 20% οδηγεί στο θάνατο. Μετά το νερό ακολουθούν οι διάφορες βιταµίνες, που καθεµιά ρυθµίζει και µια ορισµένη λειτουργία του οργανισµού. Η έλλειψη µερικών βιταµινών οδηγεί στην εµφάνιση ασθενειών. Η ανεπάρκεια π.χ. της βιταµίνης C προκαλεί το σκορβούτο, την ασθένεια παλαιότερα των ναυτικών. Η έλλειψη της βιταµίνης D προκαλεί τη ραχίτιδα κλπ. Εκτός όµως από τις βιταµίνες απαραίτητη στη διατροφή είναι και η παρουσία µερικών ενζύµων. Στο κεφάλαιο αυτό θα γίνει µία αναφορά για όσα αναφέρθηκαν παραπάνω. Επίσης θα παρουσιαστούν τα στάδια σύστασης ενός ισορροπηµένου διαιτολογίου και οι βασικοί τύποι και τεχνικές που αποτέλεσαν την βάση για τον υπολογισµό διαφόρων µεγεθών στα πλαίσια της διπλωµατικής αυτής (π.χ. υπολογισµός BMI). 2.2 Βασικές έννοιες και ορισμοί Στην παράγραφο αυτή γίνεται αναφορά σε βασικές έννοιες και ορισµούς που αφορούν την επιστήµη της διατροφής Διατροφή και ενέργεια Πριν ξεκινήσει η ανάλυση σχετικά µε τα δοµικά συστατικά των τροφών, είναι απαραίτητο να οριστούν έννοιες όπως η διατροφολογία και ο διατροφολόγος. ιατροφολογία είναι η επιστήµη που µελετά τα τρόφιµα ως πηγές θρεπτικών συστατικών και διερευνά τον καλύτερο τρόπο κατανάλωσης τους, µε σκοπό τη [11]

28 διατήρηση, βελτίωση και ανάκτηση της υγείας των ενήλικων ατόµων καθώς και τη διασφάλιση της ανάπτυξης των νέων (Lavon J. Dunne, 2002). Με βάση αυτόν τον ορισµό µπορεί να οριστεί η έννοια του διατροφολόγου ο οποίος καθορίζει και προτείνει το είδος και την ποσότητα των τροφών για την επίτευξη ισορροπηµένης διατροφής ενός ατόµου ή ενός πληθυσµού. Ο ανθρώπινος οργανισµός καταναλώνει συνεχώς ενέργεια, συνεπώς χρειάζεται συνεχώς ενέργεια. Πηγή ενέργειας αποτελούν οι τροφές, οι οποίες περιέχουν διάφορες χηµικές ενώσεις που χαρακτηρίζονται θρεπτικά συστατικά και τα οποία είναι απαραίτητα για τη φυσιολογική λειτουργία του οργανισµού. Ταξινοµούνται στα θερµιδογόνα, αυτά που παρέχουν ενέργεια κατά την καύση, και στα µη θερµιδογόνα, αυτά δηλαδή που δεν παρέχουν ενέργεια. Στην πρώτη κατηγορία ανήκουν οι υδατάνθρακες (4 kcal/gr), τα λίπη (9 kcal/gr) και οι πρωτεΐνες (4 kcal/gr), ενώ στη δεύτερη κατηγορία ανήκουν οι βιταµίνες, τα ανόργανα στοιχεία, το νερό και οι φυτικές ίνες (Union, 2002). Προαναφέρθηκε ότι πηγή ενέργειας αποτελούν οι διάφορες τροφές. Θα πρέπει όµως να οριστεί σαφώς τι είναι ενέργεια. Εποµένως ενέργεια είναι η κατάσταση εκείνη ενός σώµατος, η οποία το κάνει ικανό να παράγει έργο ή η δυνατότητα για πρόκληση µιας αλλαγής στην ύλη. Στην περίπτωση που το θεωρούµενο σώµα είναι ο ζωντανός οργανισµός, τότε ως ενέργεια ορίζεται η ικανότητα που έχει ο οργανισµός να επιτελέσει τις δραστηριότητές του εκείνες, οι οποίες είναι αναγκαίες για την εκδήλωση της ζωής. Η ενέργεια είναι δυνατόν να καθοριστεί είτε µέσω του έργου (µηχανικό ισοδύναµο της ενέργειας), είτε µέσω της θερµότητας (θερµικό ισοδύναµο της ενέργειας). Η θερµότητα και το µηχανικό έργο είναι ισοδύναµες µορφές ενέργειας και σε ορισµένες συνθήκες, έργο µετατρέπεται σε θερµότητα και θερµότητα σε µηχανικό έργο. Η µονάδα µέτρησης της ενέργειας που χρησιµοποιείται ευρέως στη διατροφολογία είναι η χιλιοθερµίδα όπου 1 kcal = 4,184 kjoules. Η χιλιοθερµίδα (kcal) ισούται µε χίλιες θερµίδες. Στην πραγµατικότητα όµως η θερµίδα (cal) είναι µονάδα θερµότητας και είναι το ποσό θερµότητας που απαιτείται για την αύξηση της θερµοκρασίας 1ml H2O από 14,5oC σε 15,5oC. Μονάδα ενέργειας είναι το joule και είναι το ποσό της ενέργειας που απαιτείται για τη µετακίνηση βάρους 1kg, σε απόσταση 1m, ασκώντας δύναµη 1 Newton. Ο όρος ενέργεια στη διατροφή αναφέρεται στο ποσό της χηµικής ενέργειας που υπάρχει στα διάφορα τρόφιµα. Η πρωταρχική πηγή της ενέργειας όλων των ζώντων οργανισµών είναι η ηλιακή ενέργεια. Με τη φωτοσύνθεση η ηλιακή ενέργεια χρησιµοποιείται και µετατρέπεται σε χηµική ενέργεια, η οποία αποθηκεύεται στα φυτά. Τα ζώα όπως και ο άνθρωπος, προσλαµβάνουν την ενέργεια από την τροφή µε τη µορφή της χηµικής ενέργειας άµεσα, δηλαδή καταναλώνοντας απ' ευθείας φυτικές τροφές ή έµµεσα, δηλαδή τρώγοντας κρέας από άλλα ζώα που είχαν διατραφεί µε φυτά. Η ενέργεια αυτή βρίσκεται αποθηκευµένη στα µόρια των λιπών, υδατανθράκων, πρωτεϊνών και αλκοόλης. Στο σώµα αυτές οι πηγές ενέργειας µετατρέπονται σε απλές ενεργειακές µονάδες όπως είναι η γλυκόζη, τα λιπαρά οξέα, τα αµινοξέα κλπ και οι οποίες σε κυτταρικό επίπεδο οξειδώνονται για να ελευθερώσουν ενέργεια, µε τελικά προϊόντα της οξείδωσης των πηγών ενέργειας το CO2 και H2O. [12]

29 2.2.2 Θερμίδες και ενέργεια Το ανθρώπινο σώµα µεταβολίζει το φαγητό ώστε να παράγει ενέργεια υπό µορφή θερµότητας. Αυτή η θερµότητα ζεσταίνει το σώµα και βοηθά σε κάθε κίνηση που αυτό κάνει. Οι διατροφολόγοι υπολογίζουν το ποσό της θερµότητας που παράγεται από τον µεταβολισµό της τροφής σε µονάδες που ονοµάζονται χιλιοθερµίδες (kilocalories). Μία χιλιοθερµίδα είναι το ποσό της ενέργειας που απαιτείται ώστε να αυξηθεί η θερµοκρασία ενός γραµµαρίου νερού κατά έναν βαθµό Κελσίου, σε επίπεδο θαλάσσης. Στην πράξη, οι διατροφολόγοι αντικαθιστούν την λέξη χιλιοθερµίδα (kilocalorie) µε την λέξη θερµίδα (calorie) αν και αυτό δεν είναι 1 επιστηµονικά ακριβές αφού µία θερµίδα είναι το 1000µίας χιλιοθερµίδας. Όταν αναγράφεται ότι µία µερίδα φαγητού, π.χ. µίας µπανάνας, έχει 105 θερµίδες σηµαίνει ότι ο µεταβολισµός του τροφίµου αυτού παράγει 105 θερµίδες θερµότητας τις οποίες χρησιµοποιεί το ανθρώπινο σώµα για τις διάφορες λειτουργίες του. Παρακάτω εµφανίζονται ενδεικτικά οι θερµίδες που παρέχουν κάποιες ουσίες, δεδοµένου ότι καταναλώνουµε 1 γραµµάριο από αυτές. Πρωτεΐνες: 4 θερµίδες Υδατάνθρακες : 4 θερµίδες Αλκοόλ : 7 θερµίδες Λίπος : 9 θερµίδες Όλες οι τροφές έχουν θερµίδες και όλες οι θερµίδες παρέχουν ενέργεια (Krause's Food, nutrition and diet therapy,11th edition, 2004). Αλλά δεν έχουν όλες οι θερµίδες ευεργετικά συστατικά όπως αµινοξέα, λιπαρά οξέα, φυτικές ίνες, βιταµίνες και ιχνοστοιχεία. Μερικές τροφές παρέχουν «κενές θερµίδες». Ο όρος «κενές θερµίδες» δεν έχει σχέση µε το ενεργειακό ισοζύγιο των θερµίδων αλλά µε το γεγονός ότι αυτές οι θερµίδες δεν έχουν επιπλέον ευεργετικά συστατικά. Οι ευρέως διαδεδοµένες τροφές µε κενές θερµίδες είναι η κρυσταλλική ζάχαρη και η αιθανόλη (το είδος του αλκοόλ που υπάρχει στο κρασί, στην µπύρα κτλ.). Οι τροφές αυτές παρέχουν ενέργεια αλλά δεν έχουν καθόλου θρεπτικά συστατικά. Πρέπει βέβαια να επισηµανθεί ότι η ζάχαρη και το αλκοόλ είναι συστατικά που εµφανίζονται σε άλλες τροφές οι οποίες παρέχουν θρεπτικά συστατικά, όπως είναι το ψωµί και η µπύρα αντιστοίχως τα οποία έχουν ασβέστιο, φώσφορο, σίδηρο, κάλιο, νάτριο και βιταµίνες του συµπλέγµατος Β. Οι διατροφολόγοι χωρίζουν το ποσό της ενέργειας που κάθε άτοµο προσλαµβάνει σε µία ηµέρα, σε δύο τµήµατα: στην ενέργεια που απαιτείται όταν το σώµα βρίσκεται σε κατάσταση ανάπαυσης και δεύτερο στην ενέργεια που απαιτείται ώστε να γίνουν οι απαραίτητες σωµατικές λειτουργίες. Προκειµένου να διατηρηθεί το ενεργειακό ισοζύγιο σε µία ισορροπία, απαιτείται η κατανάλωση αρκετών θερµίδων σε µία ηµέρα. Ως γενικός κανόνας τα νήπια και οι έφηβοι καταναλώνουν περισσότερη ενέργεια από τους ενήλικες, αφού διαρκώς κατασκευάζουν µεγάλες ποσότητες καινούριου ιστού. Επίσης, ένας µέσος άνδρας καίει περισσότερη ενέργεια από µία [13]

30 µέση γυναίκα επειδή το σώµα του είναι µεγαλύτερο και έχει περισσότερους µύες. Για παράδειγµα ένας µέσος άνδρας που έχει βάρος 70 κιλά καταναλώνει περίπου 10% περισσότερες θερµίδες από µία γυναίκα βάρους 70 κιλών Βιολογικός ρόλος πρωτεϊνών Οι πρωτεΐνες είναι απαραίτητα συστατικά για τον ανθρώπινο οργανισµό και το όνοµά τους προέρχεται από την λέξη «πρώτος». Ένα µόριο µίας πρωτεΐνης µοιάζει µε µία πολύ µακριά αλυσίδα, όπου οι δεσµοί των διάφορων συστατικών της αλυσίδας ονοµάζονται αµινοξέα. Εκτός από τα µόρια άνθρακα, οξυγόνου και υδρογόνου τα αµινοξέα περιέχουν και µόρια αζώτου (amino group). Αυτά τα µόρια αζώτου είναι απαραίτητα για την σύνθεση εξειδικευµένων πρωτεϊνών στο ανθρώπινο σώµα. Ο ανθρώπινος οργανισµός είναι γεµάτος από πρωτεΐνες, οι οποίες υπάρχουν τόσο στην εξωτερική όσο και στην εσωτερική µεµβράνη κάθε κυττάρου. Το σώµα χρησιµοποιεί τις πρωτεΐνες προκειµένου να δηµιουργήσει νέα κύτταρα, να διατηρήσει τους ιστούς και να συνθέσει νέες πρωτεΐνες που είναι απαραίτητες για την διεκπεραίωση βασικών ανθρώπινων λειτουργιών. Οι πρωτεΐνες παρέχουν τα απαραίτητα αµινοξέα για τη σύνθεση ιστών και τη συντήρηση του οργανισµού αντικαθιστώντας γενικά φθορές του και είναι απαραίτητες για την ανάπτυξή του. Επίσης παρέχουν την πρώτη ύλη για τη δηµιουργία πεπτικών υγρών, ορµονών, πλάσµατος, αιµογλοβίνης και ενζύµων (ανοσοποιητικό σύστηµα) και έχουν ρυθµιστικές ιδιότητες βοηθώντας έτσι στη διατήρηση των αντιδράσεων σε διάφορα υποστρώµατα µέσα στον οργανισµό όπως το πλάσµα, το εγκεφαλονωτιαίο υγρό και τις εντερικές εκκρίσεις. Εκτός από αυτά παρέχουν ενέργεια, όταν πλεονάζουν και έχουν καλύψει τις παραπάνω ανάγκες. Τα κύτταρα στον πεπτικό σωλήνα µπορούν να απορροφήσουν µόνο απλά αµινοξέα ή πολύ µικρές αλυσίδες δύο ή τριών αµινοξέων, που ονοµάζονται πεπτίδια. Εποµένως οι πρωτεΐνες που προσλαµβάνονται µε το φαγητό διασπόνται µε την βοήθεια των πεπτικών ενζύµων σε ειδικά αµινοξέα, τα οποία µε την σειρά τους προσλαµβάνονται από άλλα ένζυµα και δηµιουργούν άλλες πρωτεΐνες που το ανθρώπινο σώµα χρειάζεται για να λειτουργήσει. Όλη αυτή η διαδικασία ονοµάζεται πρωτεϊνοσύνθεση. Καθηµερινά, ο ανθρώπινος οργανισµός χρησιµοποιεί περισσότερες πρωτεΐνες από αυτές που προσλαµβάνει µε τις τροφές εποµένως απαιτείται µία διαρκής πρόσληψη συστατικών ώστε να διατηρηθεί το πρωτεϊνικό ισοζύγιο. Αν µία διατροφή δεν περιλαµβάνει επαρκείς ποσότητες πρωτεϊνών, τότε το σώµα αρχίζει να καταναλώνει τις πρωτεΐνες που βρίσκονται αποθηκευµένες σ αυτό, όπως είναι αυτές στους µύες, οδηγώντας τελικά σε προβλήµατα. Προκειµένου να κατασκευαστούν οι απαραίτητες πρωτεΐνες που το σώµα χρειάζεται, απαιτούνται 22 διαφορετικά αµινοξέα. έκα (10) από αυτά θεωρούνται ουσιώδη, δηλαδή δεν µπορούν να δηµιουργηθούν στο ανθρώπινο σώµα και πρέπει να προσληφθούν από διάφορες τροφές και τα υπόλοιπα είναι µη-ουσιώδη, δηλαδή αν δεν προσληφθούν µέσω της τροφής τότε µπορούν να κατασκευαστούν µε την βοήθεια λιπών, υδατανθράκων και άλλων αµινοξέων. [14]

31 Οι διατροφολόγοι χωρίζουν τις πρωτεΐνες σε δύο µεγάλες κατηγορίες: αυτές της υψηλής ποιότητας και αυτές της χαµηλής. Οι πρωτεΐνες ζωικής προέλευσης θεωρούνται υψηλής ποιότητας επειδή το ανθρώπινο σώµα µπορεί να τις απορροφήσει περισσότερο αποδοτικά και µπορούν να χρησιµοποιηθούν χωρίς να απαιτείται σύνθεση άλλων πρωτεϊνών. Οι πρωτεΐνες φυτικής προέλευσης από την άλλη, θεωρούνται χαµηλής ποιότητας επειδή περιέχουν µικρές ποσότητες ορισµένων αµινοξέων. Για παράδειγµα, τα αυγά περιέχουν 11% πρωτεΐνες ενώ τα ξηρά φασόλια 22%. Παρόλα αυτά, οι πρωτεΐνες στα φασόλια δεν παρέχουν επαρκείς ποσότητες όλων των ουσιωδών αµινοξέων και έτσι δεν είναι διατροφικά πλήρεις όπως οι πρωτεΐνες ζωικής προέλευσης. Ως γενικό κανόνα, οι διατροφολόγοι λένε ότι οι υγιείς άνθρωποι πρέπει να λαµβάνουν 10 µε 35% των καθηµερινών τους θερµίδων από τις πρωτεΐνες. Αυτό αντιστοιχεί σε 45 γραµµάρια πρωτεΐνης περίπου καθηµερινά για τις γυναίκες και σε 52 γραµµάρια για τους άνδρες. Η πρόσληψη µικρότερων ποσοτήτων οδηγεί σε πρωτεϊνική ανεπάρκεια και το πρώτο σηµάδι αυτής είναι οι αδύναµοι µύες, ο ιστός δηλαδή που σχετίζεται άµεσα µε τις πρωτεΐνες Βιολογικός ρόλος υδατανθράκων Ο όρος υδατάνθρακες προέρχεται από τις λέξεις ύδωρ και άνθρακας και αντιπροσωπεύει σακχαρώδεις ενώσεις που φτιάχνουν τα φυτά όταν εκτίθενται στο φως, όταν δηλαδή φωτοσυνθέτουν. Υπάρχουν 3 είδη υδατανθράκων: οι απλοί υδατάνθρακες, οι σύνθετοι και οι διαιτητικές ίνες (ή φυτικές ίνες όπως αλλιώς αποκαλούνται). Αυτό που καθιστά το κάθε είδος διαφορετικό από το άλλο είναι το πλήθος των σακχάρων που περιέχουν καθώς και ο τρόπος που τα σάκχαρα αυτά ενώνονται µεταξύ τους. Έτσι οι απλοί υδατάνθρακες έχουν µόνο µία ή δύο µονάδες σακχάρων, οι σύνθετοι έχουν παραπάνω από δύο µονάδες σακχάρων ενώ οι διαιτητικές ίνες αποτελούνται από σάκχαρα οι δεσµοί των οποίων δεν µπορούν να διασπαστούν από τα ανθρώπινα πεπτικά ένζυµα. Το ανθρώπινο σώµα χρειάζεται γλυκόζη, τα µόρια που τα κύτταρά µας χρησιµοποιούν για την παραγωγή ενέργειας. Μέσα στα κύτταρα η γλυκόζη καίγεται παράγοντας θερµότητα και τριφωσφορική αδενοσίνη (ΑΤΡ), ένα µόριο που αποθηκεύει και απελευθερώνει ενέργεια σύµφωνα µε τις ανάγκες του κάθε κυττάρου. Οι υδατάνθρακες επιτελούν και άλλες λειτουργίες εκτός από το να αποτελούν την κύρια πηγή ενέργειας του οργανισµού. Έχουν πρωτεϊνοπροστατευτική δράση, δηλαδή όταν η πρόσληψη υδατανθράκων δεν είναι επαρκής, ο οργανισµός µετατρέπει ορισµένα αµινοξέα σε γλυκόζη (γλυκονεογένεση). Η γλυκόζη αποτελεί την κύρια πηγή ενέργειας για το κεντρικό νευρικό σύστηµα και κατ επέκταση του εγκεφάλου. Επίσης έχουν άµεση σχέση µε τα λίπη, αφού σε µειωµένη πρόσληψη υδατανθράκων τα λίπη διασπώνται σε λιπαρά οξέα για ενέργεια και γλυκερόλη για µετατροπή σε γλυκόζη. Σε περίσσεια όµως, οι υδατάνθρακες µετατρέπονται σε λίπη. Επιπροσθέτως προστατεύουν τους µύες αφού όταν το σώµα χρειάζεται ενέργεια ο οργανισµός αναζητά γλυκόζη πρώτα από τους υδατάνθρακες. Αν η απαιτούµενη ενέργεια δεν [15]

32 βρεθεί τότε το σώµα τραβά ενέργεια από τον λιπώδη ιστό και αν δεν βρει τότε προχωρά στην πρόσληψη ενέργειας από τους µύες. Εποµένως µία διατροφή πλούσια σε υδατάνθρακες προστατεύει τον οργανισµό από το να καταστρέφει τον µυώδη ιστό του. Επίσης ρυθµίζουν την ποσότητα των σακχάρων που κυκλοφορούν στο αίµα, ώστε όλα τα κύτταρα να προσλαµβάνουν την ενέργεια που χρειάζονται και παρέχουν θρεπτικά συστατικά στα βακτήρια του γαστρεντερικού σωλήνα τα οποία βοηθούν στην πέψη της τροφής. Οι υδατάνθρακες βοηθούν στην απορρόφηση του ασβεστίου στον οργανισµό, στην µείωση της χοληστερόλης καθώς και στην ρύθµιση της αρτηριακής πίεσης. Οι φυτικές ίνες ανήκουν στην οµάδα των υδατανθράκων, αλλά δεν αποδίδουν ενέργεια επειδή δεν υποβάλλονται σε πέψη. Η καθηµερινή λήψη τους όµως βοηθάει στην καλή λειτουργία του γαστρεντερικού σωλήνα προστατεύοντας από τη δυσκοιλιότητα και τον καρκίνο του παχέως εντέρου. Επιπρόσθετα µειώνουν τα λιπίδια του αίµατος µειώνοντας έτσι τον κίνδυνο εµφάνισης καρδιαγγειακών ασθενειών. Οι κύριες πηγές πρόσληψης υδατανθράκων είναι οι φυτικές τροφές, όπως είναι τα φρούτα, τα λαχανικά και τα σιτηρά. Το γάλα και τα γαλακτοκοµικά προϊόντα περιέχουν τον υδατάνθρακα λακτόζη, αλλά το κρέας, τα ψάρια και τα πουλερικά δεν περιέχουν καθόλου υδατάνθρακες. Για την σωστή λειτουργία του οργανισµού απαιτείται η πρόσληψη υδατανθράκων να αντιστοιχεί στο 45 µε 65% των ηµερήσιων θερµίδων Βιολογικός ρόλος λιπών Ο χηµικός όρος για την οικογένεια των λιπών και των συσχετιζόµενων ενώσεων είναι λιπίδια. Τα λίπη που είναι σε υγρή µορφή ονοµάζονται έλαια ενώ αυτά που είναι σε στερεή µορφή ονοµάζονται λίπη. Εξαιρώντας την χοληστερόλη που είναι µία παχυντική ουσία χωρίς θερµίδες και δεν παρέχει ενέργεια, όλα τα λίπη είναι θρεπτικά συστατικά που παρέχουν µεγάλες ποσότητες ενέργειας και µάλιστα τα λίπη έχουν παραπάνω από διπλάσιες θερµίδες σε σύγκριση µε τις πρωτεΐνες και τους υδατάνθρακες. Τα λίπη είναι πηγές ενέργειας που προσθέτουν γεύση στο φαγητό και ένα υγιής οργανισµός τα έχει ανάγκη. Το ανθρώπινο σώµα χρησιµοποιεί τα λίπη που προσλαµβάνει από το φαγητό ώστε να κατασκευάσει ιστούς και να φτιάξει βιοχηµικές ουσίες όπως είναι οι ορµόνες. Επίσης τα λίπη αποτελούν µία αποθηκευτική µορφή ενέργειας, µορφοποιούν το ανθρώπινο σώµα, στηρίζουν και προστατεύουν όργανα ζωτικής σηµασίας και προστατεύουν το σώµα από υπερβολική απώλεια θερµότητας. Ακόµα συµµετέχουν στον σχηµατισµό κυτταρικών µεµβρανών και του εγκεφάλου, παρέχουν πολυακόρεστα λιπαρά οξέα (Ω3 και Ω6) που είναι απαραίτητα για την σύνθεση των κυττάρων, την καλή ανάπτυξη και λειτουργία του οργανισµού, είναι πρόδροµες ουσίες ορµονών και παρέχουν τις λιποδιαλυτές βιταµίνες Α,D,E,K. Εκτός από τα παραπάνω προσδίδουν οργανοληπτικά χαρακτηριστικά στα τρόφιµα και κυρίως γεύση. [16]

33 Παρόλο που τα λίπη έχουν περισσότερη ενέργεια από τις πρωτεΐνες και τους υδατάνθρακες, ο ανθρώπινος οργανισµός δυσκολεύεται αρκετά προκειµένου να εξάγει αυτήν την ενέργεια και εποµένως τα λίπη χωνεύονται µε αργότερους ρυθµούς σε σύγκριση µε τις πρωτεΐνες και τους υδατάνθρακες. Αυτό οδηγεί σε µία κατάσταση πληρότητας και κορεσµού µετά την κατανάλωση µίας τροφής πλούσιας σε λίπη. Η γλυκόζη, το µόριο δηλαδή που προσλαµβάνεται µε την πέψη των υδατανθράκων, αποτελεί την βασική πηγή ενέργειας του σώµατος. Το κάψιµο της γλυκόζης είναι ευκολότερο και περισσότερο αποδοτικό από το να καίει το σώµα µας λίπος, εποµένως το λίπος χρησιµοποιείται ως πηγή ενέργειας για τον οργανισµό όταν έχουν εξαντληθεί τα αποθέµατα της γλυκόζης. Ένζυµα αναλαµβάνουν να διασπάσουν τα αποθηκευµένα τριγλυκερίδια από τον λιπώδη ιστό. Η ενζυµική δράση παράγει γλυκερόλη και λιπαρά οξέα που µεταφέρονται µέσω του αίµατος στα κύτταρα, και ενώνονται µε οξυγόνο παράγοντας θερµότητα, νερό και διοξείδιο του άνθρακα Τα λίπη όµως διαχωρίζονται σε 3 οµάδες όπου κάθε µία επιτελεί διαφορετικό ρόλο. Έτσι υπάρχουν τα τριγλυκερίδια όπου χρησιµοποιούνται στην κατασκευή λιπώδους ιστού και βοηθούν στην παραγωγή ενέργειας, τα φωσφολιπίδια όπου µεταφέρουν ορµόνες και τις λιποδιαλυτές βιταµίνες Α, D, E, Κ στο σώµα και οι στερόλες όπου αποτελούν την βάση πάνω στην οποία δηµιουργούνται οι ορµόνες και οι βιταµίνες. Ο ανθρώπινος οργανισµός προσλαµβάνει τα λίπη από τις τροφές. Εποµένως τα φρούτα και τα λαχανικά έχουν ίχνη από λίπος, κυρίως ακόρεστα λιπαρά οξέα. Τα δηµητριακά έχουν µικρές ποσότητες λίπους, το πολύ 3% του συνολικού τους βάρους ενώ στα γαλακτοκοµικά προϊόντα τα πράγµατα διαφέρουν ανάλογα µε το είδος του προϊόντος. Για παράδειγµα η κρέµα γάλακτος είναι πλούσια σε λιπαρές ουσίες ενώ το άπαχο γάλα έχει λίγες. Τα κρεατικά έχουν αρκετό λίπος, το περισσότερο από το οποίο είναι κορεσµένα λιπαρά οξέα ενώ τα πουλερικά χωρίς την πέτσα δεν έχουν πολύ λίπος. Τα ψάρια αναλόγως µε το είδος τους µπορεί να περιέχουν αρκετά ή όχι λίπη. Τέλος τα φυτικά έλαια, το βούτυρο και τα επεξεργασµένα τρόφιµα είναι πλούσια σε λιπαρές ουσίες Βιολογικός ρόλος βιταμινών και μεταλλικών στοιχείων Οι βιταµίνες είναι οργανικές χηµικές ουσίες, δηλαδή ουσίες που περιέχουν άνθρακα, υδρογόνο και οξυγόνο. Εµφανίζονται σε όλους τους ζωντανούς οργανισµούς, δηλαδή στα φυτά, στα ζώα και στους ανθρώπους. Οι βιταµίνες χωρίζονται σε λιποδιαλυτές και υδατοδιαλυτές και ρυθµίζουν µία πληθώρα σωµατικών λειτουργιών. Οι λιποδιαλυτές βιταµίνες είναι απαραίτητες για την ρύθµιση του µεταβολισµού δοµικών µονάδων του σώµατος ενώ οι υδατοδιαλυτές του συµπλέγµατος Β χρησιµοποιούνται κυρίως για την µεταφορά ενέργειας από ένα ενεργειακό σύστηµα σε ένα άλλο (Maham JK, Escott-Stump S, 2004). Γενικότερα οι βιταµίνες είναι βασικό συστατικό για την δηµιουργία σωµατικών ιστών όπως είναι τα οστά, οι αδένες, τα νεύρα και το αίµα. Επίσης βοηθούν στον µεταβολισµό των πρωτεϊνών, των λιπών και των υδατανθράκων ώστε να προσληφθεί η απαραίτητη [17]

34 ενέργεια από τις τροφές, αποτρέπουν ασθένειες που δηµιουργούνται από έλλειψη θρεπτικών συστατικών, συνδράµουν στην επούλωση πληγών και γενικότερα συµβάλουν στην καλή υγεία του οργανισµού. Ο ανθρώπινος οργανισµός χρειάζεται τουλάχιστον 11 είδη βιταµινών: Α, D, E, K, C καθώς και τις βιταµίνες του συµπλέγµατος Β. Οι ποσότητες βέβαια που πρέπει να προσλαµβάνονται είναι πολύ µικρές και µερικές φορές είναι της τάξης των µικρογραµµαρίων. Προβλήµατα εµφανίζονται όταν κάποιος δεν προσλαµβάνει τις απαιτούµενες ποσότητες ή όταν προσλαµβάνει πολύ µεγάλες ποσότητες βιταµινών. Η πρώτη περίπτωση είναι περισσότερο σπάνια σήµερα αν κάποιος έχει πρόσβαση σε µία ποικιλία τροφών και ξέρει πώς να τις συνδυάζει σε µία ισορροπηµένη διατροφή. Ελλείψεις µπορούν να εµφανιστούν για ειδικές κατηγορίες ατόµων όπως είναι οι έγκυες και τα µωρά. Όσον αφορά την δεύτερη περίπτωση, δεν υπάρχει σαφής ορισµός για το πόσο µεγάλες ποσότητες µίας βιταµίνης πρέπει να καταναλωθούν ώστε να θεωρείται υπερκατανάλωση. Η γενική περίπτωση είναι ότι µία µεγαδόση µίας βιταµίνης είναι πολλαπλάσιο της συνιστώµενης ηµερήσιας ποσότητας. Βέβαια για να καταναλώσει κάποιος τεράστιες ποσότητες βιταµινών θα πρέπει να παίρνει συµπληρώµατα διατροφής γιατί τα τρόφιµα δεν περιέχουν µεγάλες ποσότητες. Εξαίρεση αποτελεί η βιταµίνη Α που µπορεί να συσσωρευτεί στο συκώτι και να προκαλέσει σωρεία προβληµάτων. Τα µεταλλικά στοιχεία είναι ουσίες που συντίθενται από µόνο ένα είδος ατόµου. Είναι ανόργανες, δηλαδή δεν περιέχουν άτοµα άνθρακα, υδρογόνου και οξυγόνου και δεν εµφανίζονται σε ζωντανούς οργανισµούς από την φύση τους. Τα φυτά προσλαµβάνουν τις ουσίες αυτές από το έδαφος ενώ τα ζώα τρώγοντας τα διάφορα φυτά. Τα µεταλλικά στοιχεία είναι απαραίτητα για την κατασκευή του οργανισµού και τη ρύθµιση των λειτουργιών του. Υπάρχουν στοιχεία τα οποία βρίσκονται σε µεγάλες ποσότητες στο σώµα, όπως το ασβέστιο, ο φώσφορος, νάτριο κλπ, ενώ άλλα βρίσκονται σε µικρές ποσότητες και ονοµάζονται ιχνοστοιχεία, όπως ο σίδηρος, χαλκός, ιώδιο κλπ. Κάποια µεταλλικά στοιχεία αλληλεπιδρούν µε άλλα στοιχεία ή µε ουσίες και αυτό έχει επίπτωση στην αποτελεσµατικότητά τους. Για παράδειγµα κάποια αντιβιοτικά δεν λειτουργούν όταν καταναλώνονται µαζί µε γαλακτοκοµικά προϊόντα. Τα κυριότερα µεταλλικά στοιχεία που είναι απαραίτητα για τον ανθρώπινο οργανισµό είναι το ασβέστιο, ο φώσφορος, το µαγνήσιο, το θείο, το νάτριο, το ποτάσιο και το χλωρίδιο. Τα 3 τελευταία αποτελούν τους βασικούς ηλεκτρολύτες που έχει το σώµα µας. Τα κυριότερα ιχνοστοιχεία που είναι ζωτικής σηµασίας για το σώµα ο σίδηρος, ο ψευδάργυρος, το ιώδιο, το σελήνιο, ο χαλκός, το µαγγάνιο, το φθόριο, το χρώµιο και ο µόλυβδος. Οι κύριες λειτουργίες των µεταλλικών στοιχείων είναι ότι αποτελούν δοµικά στοιχεία των οστών (όπως το ασβέστιο), ελέγχουν την ισορροπία των υγρών του σώµατος, ρυθµίζουν την λειτουργία διαφόρων ενζύµων και πρωτεϊνών, βοηθούν στον µεταβολισµό των υδατανθράκων στην σύνθεση των πρωτεϊνών καθώς και στην µεταφορά λιπαρών οξέων στο αίµα. Επίσης βοηθούν στην µεταφορά θρεπτικών συστατικών µέσα και έξω από τα κύτταρα καθώς και στην µεταφορά του DNA όταν [18]

35 τα κύτταρα διαιρούνται και αναπαράγονται, προστατεύουν τα νεύρα και τα εγκεφαλικά κύτταρα και γενικότερα είναι απαραίτητα για την ανάπτυξη ενός φυσιολογικού και υγιούς οργανισµού Βιολογικός ρόλος νερού Το ανθρώπινο σώµα αποτελείται από 50-70% νερό. Η ακριβής ποσότητα νερού εξαρτάται από την ηλικία, τους µύες και το λίπος που έχει το κάθε σώµα. Ο µυϊκός ιστός έχει περισσότερο νερό σε σύγκριση µε τον λιπώδη ιστό ενώ το µέσο ανδρικό σώµα έχει περισσότερους µύες σε σύγκριση µε το γυναικείο και εποµένως περιέχει περισσότερο νερό. Για τους ίδιους λόγους ένα νεανικό σώµα περιέχει περισσότερο νερό σε σύγκριση µε ένα µεγαλύτερης ηλικίας. Το νερό είναι ένας διαλύτης. ιαλύει άλλες ουσίες και µεταφέρει θρεπτικά συστατικά και άλλα στοιχεία (όπως κύτταρα του αίµατος) στο σώµα, καθιστώντας δυνατή την λειτουργία του κάθε οργάνου. Το νερό είναι απαραίτητο για την πέψη της τροφής, την απορρόφηση και την απέκκρισής της. Αποτελεί ένα µέσο στο οποίο βιοχηµικές αντιδράσεις, όπως ο µεταβολισµός, λαµβάνουν χώρα ενώ βοηθά στην αποστολή ηλεκτρικών σηµάτων ανάµεσα στα κύτταρα και ρυθµίζει την θερµοκρασία του σώµατος. Είναι απαραίτητο στοιχείο όλων των σωµατικών ιστών και αποτελεί δοµικό υλικό παρέχοντας σχήµα στα κύτταρα. Τέλος δρα ως υπόστρωµα στις µεταβολικές αντιδράσεις και καθιστά πολλά διαλύµατα διαθέσιµα στην κυτταρική λειτουργία. Περίπου ¾ του νερού που υπάρχει στο σώµα, βρίσκεται αποθηκευµένο ως ενδοκυτταρικό υγρό ενώ το υπόλοιπο είναι το εξωκυτταρικό υγρό δηλαδή το υγρό ανάµεσα στα κύτταρα, το πλάσµα του αίµατος, τα ούρα και ανθρώπινες εκκρίσεις όπως ο υδρώτας και τα αναπαραγωγικά υγρά. Ένα υγιές σώµα έχει την σωστή ποσότητα υγρού µέσα και έξω από κάθε κύτταρο. Η κατάσταση αυτή ονοµάζεται ισορροπία για τα υγρά και η διατήρησή της είναι ουσιώδης για την διατήρηση της ζωής. Το σώµα καταφέρνει να διατηρεί αυτήν την ισορροπία σε σωστά επίπεδα µε την χρήση των ηλεκτρολυτών, µεταλλικών ενώσεων που όταν διαλύονται στο νερό γίνοται ηλεκτρικά φορτισµένα σωµατίδια που ονοµάζονται ιόντα. Ο πιο γνωστός ηλεκτρολύτης είναι το χλωριούχο νάτριο ή διαφορετικά το µαγειρικό αλάτι. Επειδή το ανθρώπινο σώµα δεν αποθηκεύει νερό, είναι αναγκαίο καθηµερινά να προσλαµβάνονται οι απαραίτητες ποσότητες νερού που χάνονται µε την εφίδρωση, την ούρηση και µε άλλες ανθρώπινες λειτουργίες. Κατά µέσο όρο η αναγκαία ποσότητα νερού κυµαίνεται από 1500 σε 3000 milliliters από τα οποία χάνονται µε την αναπνοή και την εφίδρωση, αποβάλλονται µε τα ούρα και χάνονται µε την αφόδευση. Βέβαια, δεν απαιτείται η πρόσληψη όλης της ποσότητας του νερού από την βρύση µιας και ένα ποσοστό της τάξης του 15% δηµιουργείται κατά την πέψη και τον µεταβολισµό των τροφών. Ένας υγιής ενήλικας σε ένα κλίµα στο οποίο δεν εµφανίζει έντονη εφίδρωση, µπορεί να προσλαµβάνει όσο νερό χρειάζεται απλά µε το να πίνει όταν νιώθει δίψα. Πρέπει τέλος να αναφερθεί ότι [19]

36 απώλεια 20% του σωµατικού νερού ίσως οδηγήσει σε θάνατο ενώ απώλεια µόλις 10% προκαλεί σοβαρές διαταραχές. 2.3 Μεταβολισμός και ενέργεια Στην παράγραφο αυτή γίνεται αναφορά στην έννοια του µεταβολισµού καθώς και στο πως συνδέεται η ενέργεια που προσλαµβάνεται µε την κατανάλωση των τροφών µε αυτόν Βασικός μεταβολισμός και ενεργειακές απαιτήσεις ανθρώπινου οργανισμού Μεταβολισµός είναι όλες εκείνες οι χηµικές διεργασίες του οργανισµού µε τις οποίες ουσίες που βρίσκονται αρχικά στις τροφές, µετατρέπονται σε άλλες ουσίες µε παράλληλη απελευθέρωση ενέργειας. ηλαδή, µεταβολισµός είναι η διεργασία της µετατροπής της χηµικής ενέργειας σε άλλες µορφές ενέργειας, αναγκαίες για τη φυσιολογική λειτουργία του οργανισµού (Worthington-Roberts, B.S., Williams, S.R., 2000). Ο βασικός µεταβολισµός (BMR) ή αλλιώς µεταβολισµός ηρεµίας (RMR) αντιπροσωπεύει την ελάχιστη ενέργεια που απαιτείται προκειµένου να διατηρηθούν όλες οι φυσιολογικές ιστικές, καθώς και υπόλοιπες λειτουργίες του ανθρωπίνου σώµατος (όπως αναπνοή, µεταβολισµός των κυττάρων, κυκλοφορία του αίµατος, δραστηριότητα του γαστρεντερικού σωλήνα και των ενδοκρινών αδένων, καθώς και η διατήρηση της θερµοκρασίας του σώµατος κ.τ.λ.), απαραίτητες για τη ζωή του ανθρώπου, σε σταθερή κατάσταση και απόλυτη ηρεµία. Προσδιορίζεται µε τη µέτρηση του καταναλωθέντος οξυγόνου του ατόµου (και του παραγόµενου διοξειδίου του άνθρακα) υπό συνθήκες απόλυτης ηρεµίας και σε φυσιολογική θερµοκρασία περιβάλλοντος (20-250C), ελαφρά ντυµένο, ύστερα από ολονύκτια ασιτία (12-14 ώρες από το τελευταίο γεύµα). (Ο λόγος του παραγόµενου CO2 προς το καταναλωθέν Ο2 καλείται αναπνευτικό πηλίκο RQ). Η µέτρηση αυτή δίνεται σε Kcal/min/Kgr βάρους σώµατος. Είναι δυνατόν αντί της άµεσης µέτρησης να υπολογίζεται βάσει ειδικών εξισώσεων, όπως η εξίσωση Harris-Benedict και Mifflin-St Jeor. Το RMR είναι το ποσό της θερµιδικής απώλειας κάτω από συνθήκες παρόµοιες µε τον ΒΜ, αλλά σε οποιοδήποτε µεσοδιάστηµα των γευµάτων, δηλαδή περιλαµβάνει και τη θερµογενετική (ή ειδική λειτουργική) επίδραση των τροφών. Ο όρος χρησιµοποιείται για να καθορίσει την επίδραση της τροφής στην αύξηση του µεταβολισµού µετά την πρόσληψη τροφής. Η ολική αύξηση της θερµιδικής απώλειας, πάνω από το ΒΜ, για 6 ώρες µετά από ένα γεύµα το οποίο αποδίδει 1000Κcal είναι περίπου 10%. Υπάρχουν όµως διάφοροι παράγοντες που επηρεάζουν το BMR και περισσότερο συγκεκριµένα: [20]

37 Ηλικία Ο βασικός µεταβολισµός (όταν εκφράζεται ανά Kgr βάρους σώµατος) ποικίλει µε την ηλικία. Ο ΒΜR είναι υψηλότερος κατά τη διάρκεια της ταχείας ανάπτυξης, ιδιαίτερα κατά το πρώτο και δεύτερο έτος της ηλικίας και στη διάρκεια της εφηβείας και στα δύο φύλα, ενώ µειώνεται στην ενήλικη ζωή. Φύλο Παρατηρείται µια σηµαντική κατά µέσο όρο διαφορά (περίπου 10%) στο ΒΜR των γυναικών σε αντίθεση µε αυτό των ανδρών, που εκτιµάται ότι είναι 0,9 έναντι 1,0 Kcal/Kgr/h (όπου h το ύψος σε εκ). Το γεγονός αυτό οφείλεται στο υψηλότερο ποσοστό λίπους στις γυναίκες (περίπου 25% του συνολικού βάρους, έναντι 15% που υπάρχει στους άνδρες). Επιφάνεια σώµατος Τα µεγαλόσωµα άτοµα του ίδιου φύλου τείνουν να έχουν υψηλότερο ΒΜR. Σύνθεση Σώµατος Ο ΒΜR εξαρτάται κυρίως από το ποσοστό της άλιπης µάζας (lean body mass), καθώς ο µυϊκός ιστός είναι µεταβολικά πιο δραστήριος από τον λιπώδη. Άτοµα µε έντονη φυσική δραστηριότητα, αθλητές και οι άνδρες σε σχέση µε τις γυναίκες εµφανίζουν υψηλότερο ΒΜR. Κύηση Κατά την διάρκεια την εγκυµοσύνης ο ΒΜR αυξάνεται λόγω αύξησης της µυϊκής µάζας της µήτρας, του πλακούντα και του εµβρύου, καθώς και την επιβάρυνση της αναπνευστικής και καρδιακής λειτουργίας. Στα αρχικά στάδια όµως της εγκυµοσύνης παρατηρείται µια ελαφριά µείωση του ΒΜR. Θηλασµός Ο θηλασµός επίσης συνοδεύεται από αύξηση του ΒΜR λόγω της λειτουργίας παραγωγής του γάλακτος, αν και στα αρχικά στάδια παρατηρείται επίσης µια ελαφριά µείωση του. ιατροφική κατάσταση Καταστάσεις υποσιτισµού ή νηστείας συνοδεύονται από µείωση του ΒΜR κατά 5-10%, ενώ αντίστοιχη αύξηση παρατηρείται σε κατάσταση υπερσιτισµού. Κλίµα Σε κλίµατα πολύ ψυχρά ή πολύ θερµά ο ΒΜR αυξάνεται στην προσπάθεια του οργανισµού να διατηρήσει σταθερή θερµοκρασία. Εµπύρετες καταστάσεις, τραύµα, έγκαυµα, όγκος Σε καταστάσεις καταπόνησης του οργανισµού ο ΒΜR αυξάνεται. Παχυσαρκία Τα παχύσαρκα άτοµα εµφανίζουν µικρότερο ΒΜR ανά κιλό σωµατικού βάρους από τα αντίστοιχα (ιδίου ύψους, ηλικίας, φύλου) φυσιολογικού [21]

38 βάρους άτοµα, καθώς ο λιπώδης ιστός είναι λιγότερο µεταβολικά ενεργός από το µυϊκό ιστό. Ενδοκρινείς αδένες Ορµόνες όπως η αυξητική, τα ανδρογόνα, η γλουκαγόνη και η αδρεναλίνη σε µικρές δόσεις αυξάνουν το ΒΜR, σε αντίθεση µε τα κορτικοστεροειδή και την ινσουλίνη που πιθανόν να συµβάλουν στη µείωση του. Πνευµατική εργασία Οι περισσότεροι ερευνητές υποστηρίζουν ότι δεν υπάρχει διαφορά στο ΒΜR στη διάρκεια πνευµατικής εργασίας. Συναισθηµατική κατάσταση Σε έντονες συναισθηµατικές καταστάσεις αυξάνεται παροδικά ο ΒΜR. Φάρµακα Η νικοτίνη και η καφεΐνη αυξάνουν λίγο το ΒΜR, ενώ οι β-αναστολείς, που χρησιµοποιούνται στην υπέρταση, ίσως οδηγούν σε ελαφριά µείωση του ΒΜR. Γενετικές διαφορές Ο ΒΜR ποικίλει κατά + 10% σε άτοµα ιδίου φύλου, ύψους, βάρους, άλιπης µάζας σώµατος και ηλικίας, το πιθανότερο λόγω γενετικών παραγόντων. Ιστοί Οι διάφοροι ιστοί δεν επηρεάζουν εξίσου το βασικό µεταβολισµό. Ως παράδειγµα των διαφορετικών αυτών απαιτήσεων αναφέρεται ότι το ήπαρ και ο εγκέφαλος, που συνολικά αποτελούν το 4% του βάρους του σώµατος, απαιτούν περισσότερο από το 40% του βασικού µεταβολισµού, ενώ οι µυς (οι οποίοι µπορεί να αποτελούν το 40% ή ακόµα και περισσότερο του βάρους σώµατος) υπολογίζεται ότι απαιτούν µόνο περί το 25% των βασικών ενεργειακών αναγκών. Οι ενεργειακές απαιτήσεις ενός ατόµου καθορίζονται από την διατήρηση του σώµατος στην ζωή (BMR), από την αύξηση του σώµατος καθώς και την φυσική δραστηριότητα και όλοι οι παράγοντες που επηρεάζουν το BMR επηρεάζουν και το ύψος των ενεργειακών απαιτήσεων. 2.4 Στάδια σύνταξης διαιτολογίου Στην παράγραφο αυτή γίνεται αναφορά στον τρόπο µε τον οποίο συντάσσεται ένα διαιτολόγιο µε βάση όσα έχουν αναφερθεί παραπάνω. Στοιχεία από την παράγραφο αυτή αποτελούν βασικό τµήµα της διπλωµατικής εργασίας για τον καθορισµό της σειράς των επιστρεφοµένων αποτελεσµάτων που προτείνονται στους χρήστες της εφαρµογής όταν κάνουν αναζήτηση µίας έννοιας στην µηχανή αναζήτησης. [22]

39 2.4.1 Υπολογισμός της ενεργειακής (ή θερμιδικής) και διαιτητικής πρόσληψης ατόμου Η αξιολόγηση της διαιτητικής πρόσληψης προϋποθέτει την καταγραφή πληροφοριών για τις διατροφικές συνήθειες του ατόµου (ή της οµάδας) και την αναγνώριση στη συνέχεια πιθανών διατροφικών ανισορροπιών και παραγόντων που επηρεάζουν την πρόσληψη τροφής. Οι πληροφορίες για τις διατροφικές συνήθειες σε συνδυασµό µε πρόσθετα δεδοµένα παρέχουν επίσης το κατάλληλο υπόβαθρο για να τεθούν ρεαλιστικοί στόχοι στο σχεδιασµό του διαιτολογίου (Μανιός Ι., 2006). Ο υπολογισµός της ενεργειακής και διαιτητικής πρόσληψης του ατόµου (ή οµάδας) γίνεται µε τη χρήση των διαιτητικών ηµερολογίων και περισσότερο όπως είναι το διαιτητικό ιστορικό, το 7ηµερο ζυγίσεως, το ηµερολόγιο συχνότητας και άλλα Στάδια υπολογισμού της θερμιδικής απώλειας (ενεργειακών αναγκών) ατόμου Προκειµένου να υπολογιστούν οι ενεργειακές ανάγκες ενός ατόµου θα πρέπει αρχικά να υπολογιστεί ο βασικός του µεταβολισµός (Lee RD and Nieman DC, 2006). Ο υπολογισµός του βασικού µεταβολισµού (ΒΜ ή BMR ή RMR) γίνεται βάσει των εξισώσεων: Των Harris and Benedict (1919): ΒΜΓ: [9,6 * Β(kg)] + [1,8 * Υ(cm)] [4,7 * Η (yrs)] =...kcal/24h ΒΜΑ: 66 + [13,7 * Β(kg)] + [5 * Υ(cm)] [6,8 * Η (yrs)] =...kcal/24h Σηµείωση: Αν, ΜΣ<25, τότε όπου Β χρησιµοποιούµε το πραγµατικό βάρος του ατόµου, ενώ αν: ΜΣ 25 (περίπου 115% Επιθυµητού Βάρους) χρησιµοποιούµε το διορθωµένο βάρος ( Β), Β=ΙΒ+0,25*(ΠΒ ΙΒ) (Cutts et al, 1997), όπου ΙΒ= ιδανικό βάρος και υπολογίζεται από το ΜΣ ή από πίνακες βάρους ύψους (πιν. 9)* ή µε τη µέθοδο Hamwi, και ΠΒ = Πραγµατικό Βάρος. Αν, ΜΣ 17 (περίπου 75% Επιθυµητού Βάρους) το Β θα δώσει πιθανόν πιο αξιόπιστα αποτελέσµατα στον υπολογισµό του BMR. Των Mifflin-St Jeor (1990): ΒΜΓ: 10 * Β (kg) + 6,25 * Υ (cm) 5 * Η (yrs) 161 = kcal/24h ΒΜΑ: 10 * Β (kg) + 6,25 * Υ (cm) 5 * Η (yrs) + 5 = kcal/24h, όπου Β=πραγµ. βάρος Αφού γίνει ο υπολογισµός των ενεργειακών αναγκών ενός ατόµου, στην συνέχεια θα πρέπει να καθοριστεί η φυσική του δραστηριότητα (Φ..). Ο υπολογισµός της Φυσικής ραστηριότητας (Φ ) γίνεται είτε µε το Ηµερολόγιο Φυσικής ραστηριότητας το οποίο υπολογίζει τις συνολικές ενεργειακές ανάγκες είτε µε το [23]

40 PAL (Physical Activity Level), συντελεστής που λαµβάνει υπόψη του τη φυσική δραστηριότητα εργασίας και ελεύθερου χρόνου και υπολογίζεται PAL = ΕΑ/ ΒΜ. Η τιµή PAL εµπεριέχει τη θερµογενετική επίδραση της τροφής (ΘΕΤ). Πίνακας 1: Επίπεδο φυσικής δραστηριότητας PAL Πίνακας 2: Εξισώσεις βασικού µεταβολισµού Σηµείωση: Σε όλες τις εξισώσεις το βάρος µετριέται σε κιλά, το ύψος σε εκατοστά (εκτός από FAO/WHO/UNU, όπου ύψος σε µέτρα) και η ηλικία σε χρόνια Στο τέλος υπολογίζονται οι ενεργειακές ανάγκες (ή οι θερµιδικές απώλειες) ενός ατόµου µε βάση τους ακόλουθους τύπους: ΕΑ = ΒΜ (Mifflin) *PAL(kcal/24h) ΕΑ = ΒΜ (H&B) * PAL (kcal/24h) [24]

41 ΕΑ = άθροισµα ενεργειακής κατανάλωσης από ηµερολ. Φυσ. δραστηριότητας Σύµφωνα µε Dietary Guidelines for Americans 2005 οι ΕΑ ενήλικα µε ΜΣ<25, µπορούν να υπολογιστούν χωρίς προηγούµενο υπολογισµό του BMR: ΕΑΑ: 662-9,53 * ηλικία (yrs) + Φ * [15,9 * Β(kg) + 539,6* Y(m)] = kcal/24h ΕΑΓ: 354 6,9 * ηλικία (yrs) + Φ * [9,36 * Β(kg) + 726* Y(m)] = kcal/24h Όπου Φ είναι συντελεστής του PAL δηλαδή Φ = 1(Α+Γ) αν PAL 1 < 1,4 (καθιστική ζωή) Φ = 1,11(Α)/1,12(Γ) αν PAL 1,4 < 1,6 (χαµηλή δραστηριότητα) Φ = 1,25(Α)/1,27(Γ) αν PAL 1,6 < 1,9 (µέτρια δραστηριότητα) Φ = 1,48(Α)/1,45(Γ) αν PAL 1,9 < 2,5 (υψηλή δραστηριότητα) Μέθοδοι αξιολόγησης σωματικού βάρους βάση ανθρωπομετρήσεων Ο ΜΣ ή δείκτης Quetelet, Βάρος(kg)/ Ύψος(m) 2, αποτελεί µια έγκυρη µέτρηση της διατροφικής κατάστασης του ατόµου, υποδεικνύοντας υπερθρεψία ή υποθρεψία αυτού. Ο ΜΣ ερµηνεύει διαφορές στη σύσταση σώµατος και ορίζει το επίπεδο παχυσαρκίας λαµβάνοντας υπόψη τη σχέση βάρους προς ύψος, ενώ παραβλέπει το µέγεθος σκελετού. Οι τιµές του ΜΣ τείνουν να αυξάνουν µε την ηλικία. Πίνακας 3: Ταξινόµηση του ΜΣ Πίνακας 4: Επιθυµητός ΜΣ µε την αύξηση της ηλικίας [25]

42 Αν υπάρχει συνοσηρότητα, τότε ΜΣ >27 (27,8 στις γυναίκες και 27,3 στους άνδρες) αποτελεί ένδειξη παχυσαρκίας και αυξηµένου κινδύνου εµφάνισης προβληµάτων υγείας, όπως υπέρταση, διαβήτης και καρδιαγγειακά προβλήµατα (Najar MF, Rowland M., ). Το συνιστώµενο εύρος ΜΣ για επίτευξη του επιθυµητού (ιδανικού) βάρους είναι: Για γυναίκες: 21,3 22,1 (π.χ.: ΙΒ = 22,1 * Υ2 (m) =.kgr) και Για άνδρες: 21,9 22,4 (π.χ.: ΙΒ = 22,4 * Υ2 (m) =.kgr) Συνήθως αρχικός στόχος επιθυµητού ΜΣ για άτοµα µε ΜΣ 25 χρησιµοποιείται στις γυναίκες 22,4 και στους άνδρες 22,7. Ο ΜΣ καθώς και οι πίνακες βάρους-ύψους δεν είναι ενδεικτικοί της κατανοµής του σωµατικού λίπους, παράγοντας που επηρεάζει τον κίνδυνο ανάπτυξης νοσηρότητας. Μια διαδεδοµένη απλή µέτρηση του σπλαχνικού λίπους αποτελεί ο λόγος των περιµέτρων µέσης προς ισχία (WHR, waist/hip ratio). Εναλλακτικά µπορεί να χρησιµοποιηθεί µόνο η περίµετρος µέσης ως δείκτης επικινδυνότητας. Ο ΜΣ δεν έχει εφαρµογή πρώτον σε αθλητές (αυξηµένο βάρος λόγω αυξηµένης µυϊκής µάζας), σε εγκύους και τέλος σε άτοµα σε ανάπτυξη, που λόγω διαφορετικής σύστασης σώµατος έχουν διαφορετικά όρια στις τιµές του ΜΣ. Το ιδανικό σωµατικό βάρος ενός ατόµου µπορεί να υπολογιστεί µε τη µέθοδο Hamwi, ως ακολούθως: Γυναίκες: Για τα πρώτα 150 εκατοστά ύψους αναλογούν 45 κιλά βάρους, ενώ για κάθε επιπλέον 2,5 εκατ. Θα προσθέτετε 2,25 κιλά. Άνδρες: Για τα πρώτα 150 εκατοστά ύψους αναλογούν 47,7 κιλά βάρους, ενώ για κάθε επιπλέον 2,5 εκατ. Θα προσθέτετε 2,7 κιλά. Η προσαρµογή για µεγάλο σκελετό είναι + 10% ΙΒ, ενώ για µικρό σκελετό 10% ΙΒ, όπου το µέγεθος σκελετού προσδιορίζεται µε την περίµετρο καρπού ή το πλάτος αγκώνα. Ένας, πρόσθετος παράγοντας που έχει σηµασία για τη διάγνωση της παχυσαρκίας είναι η κατανοµή του σωµατικού λίπους. Το υπερβολικό λίπος που βρίσκεται κατανεµηµένο στο πάνω µέρος του σώµατος σχετίζεται περισσότερο µε κινδύνους για την υγεία από το λίπος που είναι συσσωρευµένο στους γοφούς, τους γλουτούς ή τους µηρούς (Najar MF, Rowland M., ). Η µέση αποτελεί νοητή περιµετρική γραµµή ανάµεσα στα κάτω όρια των πλευρών και στα ανώτερα σηµεία των πρόσθιων άνω λαγόνιων ακάνθων και δείχνει τη συγκέντρωση λίπους στην κοιλιά και τα σπλάχνα. Η περίµετρος µέσης µετριέται σε κατάσταση νηστείας από το προηγούµενο βράδυ, σε θέση φυσιολογικής αναπνοής, οριζόντια, ανάµεσα στα κάτω όρια των πλευρών και τα ανώτερα σηµεία των λαγόνιων ακάνθων. Η περίµετρος µέσης αποτελεί απλή και εύκολη µονάδα µέτρησης της παχυσαρκίας, η οποία χωρίς να έχει σχέση µε το ύψος του ατόµου σχετίζεται µε τον ΜΣ. Η περίµετρος µέσης θεωρείται ότι βρίσκεται σε παραδεκτά όρια όταν είναι για µεν τους άνδρες < 94cm για τις γυναίκες < 80cm. Ο κίνδυνος αυξάνεται [26]

43 ουσιαστικά όταν η περίµετρος µέσης είναι 102cm για τους άνδρες και 88cm για τις γυναίκες (Πλέσσας Σ., 1998). Οι πρόσφατες έρευνες έχουν δείξει ότι η περίµετρος µέσης είναι καλύτερος δείκτης του ολικού σπλαχνικού λίπους από το λόγο W/H και καλύτερος προγνωστικός δείκτης για κίνδυνο εµφάνισης µεταβολικών επιπλοκών Σύγκριση των πραγματικών προσλήψεων με τις ενεργειακές ανάγκες του ατόμου Έχοντας υπολογίσει τις θερµιδικές ανάγκες και το σωµατικό βάρος του ατόµου προχωράµε στην σύγκριση των πραγµατικών προσλήψεων µε τις ενεργειακές ανάγκες του. Στην συνέχεια γίνεται καθορισµός των πρωτεϊνικών απαιτήσεων και της πρωτεϊνικής επάρκειας του διαιτολογίου. Αν το πραγµατικό βάρος του ατόµου βρίσκεται στα φυσιολογικά όρια του ΜΣ: 18,5-24.9, αυτό µπορεί να χρησιµοποιηθεί για τον υπολογισµό των πρωτεϊνικών αναγκών. Εφόσον τα γραµµάρια πρωτεΐνης που υπολογίστηκαν στο διαιτολόγιο καλύπτουν τις πρωτεϊνικές απαιτήσεις του ατόµου το διαιτολόγιο θεωρείται επαρκές σε πρωτεϊνική πρόσληψη και γίνεται στη σύνταξη διαιτολογίου. Στην περίπτωση που πρέπει να συνταχθεί ένα υποθερµιδικό διαιτολόγιο τότε θα πρέπει να ληφθεί απόφαση για το ηµερήσιο αρνητικό θερµιδικό ισοζύγιο που θα δηµιουργηθεί και θα πρέπει να γίνει καθορισµός της νέας θερµιδικής πρόσληψης του ατόµου στο µελλοντικό διαιτολόγιο. Ο υπολογισµός του ηµερήσιου αρνητικού θερµιδικού ισοζυγίου ή ρυθµός απώλειας ανά µήνα γίνεται από τον ακόλουθο τύπο: 7500 * x( κιλά) = α kcal, όπου x = η επιθυµητή απώλεια σε κιλά/µήνα 30 Η επιθυµητή (ασφαλής) απώλεια ενήλικα ατόµου κυµαίνεται στα 2,5-4 kg/µήνα. Η τιµή α αφαιρείται από τις ενεργειακές ανάγκες του ατόµου, ειδικά όταν η θερµιδική του πρόσληψη υπολογίστηκε σε παρόµοια επίπεδα µε τη θερµιδική του απώλεια ( στάδιο συντήρησης αυξηµένου βάρους), καθορίζοντας έτσι τη νέα θερµιδική του πρόσληψη. Αν παρατηρηθεί πολύ µεγάλη διαφορά στις δύο τιµές (ΕΠ >>> ΕΑ, στάδιο αύξησης βάρους) µπορεί να ληφθεί «αυθαίρετα» απόφαση παρακολούθησης ενός προσαρµοστικού διαιτολόγιου, αποφασίζοντας για το ύψος του θερµιδικού του περιεχοµένου, αφού συνυπολογιστούν διάφοροι παράγοντες του εξεταζοµένου: θερµιδική πρόσληψη, διατροφικές συνήθειες, φυσική δραστηριότητα, ηλικία, φύλο κλπ. Επίσης θεωρείται ότι 7500 kcal (ή 7700 kcal) αποδίδουν κατά µέσο όρο 1 kg λίπους, καθώς αποτελούνται περίπου από κατά 80-85% λίπος, 13-15% νερό και 2-3% πρωτεΐνες. Στην συνέχεια γίνεται κατανοµή των θερµίδων σε γραµµάρια πρωτεϊνών, λιπών και υδατανθράκων σύµφωνα µε τα προτεινόµενα ποσοστά. Στο τέλος γίνεται η συγγραφή του διαιτολογίου, η οποία κατευθύνεται από τις προτιµήσεις του ασθενούς [27]

44 σε συνδυασµό µε τις σύγχρονες συστάσεις για ένα υγιεινό και ισορροπηµένο διαιτολόγιο. 2.5 Επιστημονικές ενδείξεις για τις σχέσεις διατροφής και υγείας Υπάρχουν σηµαντικές ενδείξεις όσον αφορά το ρόλο της διατροφής στην υγεία. Ανασκόπηση των ενδείξεων αυτών έχει γίνει σε µία δηµοσίευση του Εθνικού Συµβουλίου Ερευνών των ΗΠΑ (Overview of the CDC growth charts) ενώ τα νεότερα ευρήµατα συνοψίζονται σε πολλές πρόσφατες δηµοσιεύσεις. Σηµαντική ερευνητική δραστηριότητα έχει αναπτυχθεί και στην Ελλάδα, αρχικά από τους Έλληνες συνεργάτες της µελέτης των Επτά Χωρών και αργότερα από πολλές ερευνητικές οµάδες που εργάστηκαν και εργάζονται στην επιδηµιολογία των νεοπλασιών, των καρδιαγγειακών νοσηµάτων και των παιδιατρικών νοσηµάτων. Σηµαντική ερευνητική δραστηριότητα έχει πρόσφατα αναπτυχθεί στη χώρα µας στη διερεύνηση της σχέσης της διατροφής µε το σακχαρώδη διαβήτη του ενηλίκου (Voyatzoglou D, Loupa C, Phillipides P, Siskoudis P., Kitsou E., Alevizou V et al, 1995). εν είναι σκόπιµο να εκτεθούν αναλυτικά τα δεδοµένα της παγκόσµιας βιβλιογραφίας για τις σχέσεις της διατροφής µε την επίπτωση διαφόρων νοσηµάτων. Επισηµαίνονται απλώς τα βασικά ευρήµατα µε ειδική αναφορά στη σηµερινή Ελληνική πραγµατικότητα. Σύνδροµα από έλλειψη συγκεκριµένων θρεπτικών συστατικών δεν είναι πιθανό να εµφανιστούν όταν οι σχετικές προσλήψεις φθάνουν ή υπερβαίνουν τις προσλήψεις αναφοράς πληθυσµού. Προσοχή απαιτείται όσον αφορά την πρόσληψη ασβεστίου για την πρόληψη της οστεοπόρωσης, σιδήρου για την πρόληψη της σιδηροπενικής αναιµίας, φυλλικού οξέος για την πρόληψη ορισµένων συγγενών διαµαρτιών, ιωδίου για την πρόληψη της απλής βρογχοκήλης και φθορίου για την πρόληψη της τερηδόνας. Η αυξηµένη ενεργειακή πρόσληψη έχει κατά καιρούς ενοχοποιηθεί για αρνητικές επιδράσεις στην υγεία. Στην πραγµατικότητα, για δεδοµένο δείκτη µάζας σώµατος (body mass index - BMI), υψηλότερη ενεργειακή πρόσληψη συνδέεται µε χαµηλότερη ολική θνησιµότητα και ιδιαίτερα θνησιµότητα από καρδιαγγειακά νοσήµατα. Αυτό συµβαίνει επειδή, για να παραµένει ο δείκτης µάζας σώµατος σταθερός, η αυξηµένη ενεργειακή πρόσληψη θα πρέπει να αντισταθµίζεται από αυξηµένη κατανάλωση ενέργειας, η οποία σε µεγάλο βαθµό ορίζεται από τη φυσική δραστηριότητα. Στην πραγµατικότητα, η έλλειψη φυσικής δραστηριότητας και η παχυσαρκία είναι αυτές που επηρεάζουν αρνητικά την υγεία, η πρώτη αυξάνοντας τον κίνδυνο για καρδιαγγειακά νοσήµατα, οστεοπόρωση, καρκίνο του παχέος εντέρου και πιθανόν καρκίνους άλλων εντοπίσεων, και η δεύτερη αυξάνοντας τον κίνδυνο για µη ινσουλινοεξαρτώµενο σακχαρώδη διαβήτη, υπέρταση και δυσλιπιδαιµίες. Με άλλα λόγια, µεταξύ δύο ατόµων µε τον ίδιο δείκτη µάζας σώµατος, αυτός που καταναλώνει περισσότερη τροφή είναι πιθανότερο να είναι υγιέστερος από αυτόν που καταναλώνει λιγότερη τροφή. Επισηµαίνεται ότι η [28]

45 ανδρικού τύπου παχυσαρκία θεωρείται γενικά περισσότερο νοσογόνος από τη γυναικείου τύπου παχυσαρκία. Η κατανάλωση δηµητριακών ολικής άλεσης δεν έχει συσχετισθεί θετικά µε κάποια συγκεκριµένη νόσο, και ίσως µειώνει τον κίνδυνο εµφάνισης εκκολπωµάτωσης ή δυσκοιλιότητας. Η γλυκαιµική επίδραση των αµυλούχων τροφών, η οποία συχνά µετριέται µε το γλυκαιµικό δείκτη, είναι συνάρτηση του ρυθµού πέψης, ο οποίος µε τη σειρά του εξαρτάται µέχρι ενός βαθµού από την περιεκτικότητα της τροφής σε διαιτητικές ίνες, αλλά κυρίως από την περιεκτικότητα της σε άµυλο. Η ζύµωση και το ψήσιµο αυξάνουν τη γλυκαιµική δράση του αµύλου του ψωµιού, αλλά το άµυλο των ζυµαρικών και των οσπρίων έχει µικρή και επιβραδυνόµενη γλυκαιµική δράση. Σε υπερτριγλυκεριδαιµικά άτοµα, η µακροχρόνια κατανάλωση τροφίµων µε χαµηλό γλυκαιµικό δείκτη ενδέχεται να ελαττώνει τον κίνδυνο εµφάνισης καρδιαγγειακών νοσηµάτων βελτιώνοντας την ανοχή γλυκόζης, µειώνοντας την έκκριση ινσουλίνης και ελαττώνοντας τα επίπεδα λιπιδίων του ορού. Οι πατάτες παρέχουν ποσοστό ενέργειας από πρωτεΐνες αντίστοιχο µε αυτό που παρέχουν το σιτάρι και το ρύζι. Είναι, επίσης, καλή πηγή βιταµίνης C. Όπως και το λευκό ψωµί, όµως, οι πατάτες έχουν υψηλό γλυκαιµικό δείκτη, καθώς µετατρέπονται γρήγορα σε γλυκόζη. Η κατανάλωση πατάτας έχει βρεθεί ότι σχετίζεται θετικά µε τον κίνδυνο ανάπτυξης διαβήτη τύπου 2 σε άνδρες και γυναίκες. Η κατανάλωση ζάχαρης έχει συσχετισθεί µε αυξηµένη επίπτωση τερηδόνας, ιδιαίτερα όταν απουσιάζει η φθορίωση του νερού και τα απαραίτητα µέτρα στοµατικής υγιεινής. Οι γλυκαιµικές επιδράσεις των απλών σακχάρων είναι συγκρίσιµες, αν όχι µικρότερες, αυτών του αµύλου των µαγειρευµένων τροφών. Τα λαχανικά και τα φρούτα θεωρείται ότι προστατεύουν κατά της στεφανιαίας νόσου και των περισσότερων νεοπλασιών, πιθανόν λόγω της αυξηµένης περιεκτικότητάς τους σε διαιτητικές ίνες, φυλλικό οξύ, βιταµίνη C, βήτα καρωτίνη, άλλα καροτινοειδή, πολυφαινόλες και φυτοοιστρογόνα. Τα όσπρια δεν έχουν σταθερά συσχετισθεί µε οποιαδήποτε νόσο, παρά την ύπαρξη ορισµένων αναφορών για θετική συσχέτιση τους µε τον καρκίνο του στοµάχου. Οι γλυκαιµικές τους επιδράσεις είναι ηπιότερες αυτών των κονδύλων (όπως της πατάτας) και η υψηλή περιεκτικότητά τους σε πρωτεΐνες και χαµηλή περιεκτικότητά τους σε λιπίδια αυξάνουν τη διατροφική τους αξία. Υπάρχουν ισχυρές ενδείξεις ότι οι διαιτητικές ίνες (µη αµυλούχοι πολυσακχαρίτες) από τα δηµητριακά, τα όσπρια, τα λαχανικά και τα φρούτα έχουν ευνοϊκή επίδραση στο λιπιδαιµικό φάσµα, την αντιµετώπιση της δυσκοιλιότητας την πρόληψη της εκκολπωµάτωσης και τη ρύθµιση του σακχαρώδη διαβήτη. Οι ξηροί καρποί έχουν κατά κανόνα υψηλή περιεκτικότητα σε µονοακόρεστα λιπίδια και πολλοί από αυτούς φαίνεται να έχουν και υποχοληστερολαιµική δράση. Συχνά µελετώνται µαζί µε τους σπόρους οι οποίοι, όπως και οι ξηροί καρποί, έχουν υψηλή περιεκτικότητα σε βιταµίνη Ε και φυτικές ίνες. Στο βαθµό στον οποίο η ενεργειακή πρόσληψη δεν ξεπερνά την κατανάλωση ενέργειας, οι ξηροί καρποί αποτελούν µία από τις υγιεινότερες επιλογές δεκατιανού. [29]

46 Το κρέας και τα αυγά παρέχουν πρωτεΐνες υψηλής βιολογικής αξίας. Το κρέας περιέχει επίσης βιταµίνες του συµπλέγµατος Β και σελήνιο. Επιπλέον, αποτελεί καλή πηγή σιδήρου και ψευδαργύρου, αλλά οι συνέπειες της αυξηµένης πρόσληψης των µετάλλων αυτών στην ενήλικη ζωή δεν έχουν ακόµη διευκρινιστεί. Επιπλέον, η πρόσληψη κρέατος, και ιδιαίτερα κόκκινου κρέατος, σχετίζεται σταθερά µε τον καρκίνο του παχέος εντέρου και ενδεχοµένως µε άλλες µορφές καρκίνου και τη στεφανιαία νόσο. Τόσο το κρέας όσο και τα αυγά περιέχουν σχετικά υψηλές ποσότητες χοληστερόλης, και αυτό θα πρέπει να λαµβάνεται πάντοτε υπόψη, µολονότι η διατροφική πρόσληψη χοληστερόλης επηρεάζει σε σχετικά µικρό βαθµό τα επίπεδα της χοληστερόλης του αίµατος. Τα ψάρια (κυρίως τα λιπαρά ψάρια) και τα θαλασσινά θεωρείται ότι µειώνουν τον κίνδυνο στεφανιαίας νόσου, πιθανόν γιατί περιέχουν µεγάλες ποσότητες ω-3 πολυακόρεστων λιπαρών οξέων µακράς αλύσου. Οι συνέπειες στην υγεία από την υψηλή κατανάλωση γαλακτοκοµικών προϊόντων δεν έχουν οριστικά τεκµηριωθεί. Αφ ενός τα τρόφιµα αυτά είναι πλούσια σε ασβέστιο, αφ ετέρου όµως περιέχουν πολλά κορεσµένα λιπίδια. Η κατανάλωση αποβουτυρωµένων γαλακτοκοµικών προϊόντων ενέχει σηµαντικά θεωρητικά πλεονεκτήµατα, τα οποία όµως δεν έχουν εµπειρικά τεκµηριωθεί. Τα κορεσµένα λιπαρά οξέα έχουν συσχετισθεί µε τη στεφανιαία νόσο, τον καρκίνο του προστάτη, πιθανόν τον καρκίνο του παχέος εντέρου και ίσως και άλλες νεοπλασίες. Τα trans λιπαρά οξέα, που περιέχονται σε πολλές µαργαρίνες και βιοµηχανοποιηµένα προϊόντα (π.χ. µπισκότα), έχουν ιδιότητες ανάλογες, αν όχι περισσότερο επιβλαβείς από αυτές των κορεσµένων λιπαρών οξέων. Τα πολυακόρεστα λιπαρά οξέα θεωρείται ότι προστατεύουν από τη στεφανιαία νόσο γιατί ελαττώνουν τη συγκέντρωση των λιποπρωτεϊνών χαµηλής πυκνότητας (LDL) στον ορό, αν και τείνουν επίσης να ελαττώνουν και τα επίπεδα των λιποπρωτεϊνών υψηλής πυκνότητας (HDL), αποτέλεσµα που δεν είναι επιθυµητό. Τα πολυακόρεστα λιπαρά οξέα εµπλέκονται στην καρκινογένεση σε πειραµατόζωα, αλλά τα δεδοµένα σε ανθρώπους είναι ακόµη περιορισµένα. Τα ω-3 πολυακόρεστα λιπαρά οξέα µακράς αλύσου έχει αναφερθεί ότι ελαττώνουν τον κίνδυνο στεφανιαίας νόσου, πιθανόν µέσω δράσης τους στη θροµβογένεση και στα επίπεδα των τριγλυκεριδίων του αίµατος. Τα µονοακόρεστα λιπαρά οξέα, και ιδιαίτερα το ελαιόλαδο, ελαττώνουν τα επίπεδα της LDL χοληστερόλης, χωρίς να ελαττώνουν την HDL χοληστερόλη, έτσι ώστε να παρέχουν προστασία κατά της στεφανιαίας νόσου και της αθηρωµάτωσης γενικότερα. Ενδέχεται επίσης να παρέχουν κάποιο βαθµό προστασίας απέναντι στον καρκίνο του µαστού και ίσως άλλες µορφές καρκίνου. Είναι αξιοσηµείωτο ότι το ελαιόλαδο έχει βρεθεί είτε να έχει ευνοϊκές, ή οπωσδήποτε µη δυσµενείς, επιδράσεις σε σχέση µε οποιοδήποτε χρόνιο νόσηµα, συµπεριλαµβανοµένου του σακχαρώδη διαβήτη. Το γεγονός αυτό αποδίδεται τόσο στην υψηλή περιεκτικότητά του ελαιολάδου στο µονοακόρεστο ελαϊκό οξύ, όσο και στην πληθώρα των αντιοξειδωτικών παραγόντων, που κυρίως ανευρίσκονται στο παρθένο ελαιόλαδο. Τα λιπίδια, ανεξάρτητα από τη χηµική τους δοµή, αναφέρεται ότι διευκολύνουν την αύξηση του σωµατικού βάρους, αλλά τα δεδοµένα που έχουµε για τους ανθρώπους δεν είναι επαρκή. [30]

47 Το νερό δε δίνει ενέργεια, αλλά είναι αναγκαίο για τη ζωή και µπορεί επίσης να αποτελέσει σηµαντική πηγή απαραίτητων στοιχείων, όπως το ιώδιο και το φθόριο. Η διαθεσιµότητα χηµικά και µικροβιολογικά ασφαλούς νερού είναι προϋπόθεση για την υγεία, και η πρόσληψη του ρυθµίζεται επαρκώς µε το αίσθηµα της δίψας, µε εξαίρεση ίσως στους ηλικιωµένους. Τα µη οινοπνευµατώδη ποτά, συµπεριλαµβανοµένων των ανθρακούχων αναψυκτικών, δε φαίνεται να έχουν θετικές ή αρνητικές συνέπειες στην υγεία, µε εξαίρεση το γεγονός ότι έχουν υψηλή περιεκτικότητα σε απλούς υδατάνθρακες, κυρίως ζάχαρη. Οι χυµοί των φρούτων φαίνεται να εµφανίζουν ορισµένες από τις ευεργετικές ιδιότητες των φρούτων. Η κατανάλωση αιθυλικής αλκοόλης αυξάνει τον κίνδυνο ανάπτυξης καρκίνου του ανώτερου πεπτικού συστήµατος, ιδιαίτερα µεταξύ των καπνιστών, είναι βασική αιτία κίρρωσης του ήπατος και χρόνιας υποτροπιάζουσας παγκρεατίτιδας, και ενδέχεται επίσης να συµβάλλει στην αιτιολογία του καρκίνου του µαστού και ίσως του εντέρου. Επιπλέον, ο αλκοολισµός αποτελεί σοβαρό κοινωνικό πρόβληµα. Παρόλα αυτά, η ισχυρή προστατευτική επίδραση της αιθανόλης, και πιθανόν και άλλων συστατικών ορισµένων οινοπνευµατωδών ποτών, κατά των καρδιαγγειακών νοσηµάτων καθιστά εξαιρετικά δύσκολη τη διαµόρφωση σχετικών οδηγιών από τις υπεύθυνες υπηρεσίες υγείας. Η συµφωνία στην οποία φαίνεται να καταλήγουν τώρα οι επιστήµονες είναι η µετρηµένη κατανάλωση οινοπνευµατωδών ποτών, ειδικά µε τη µορφή του κρασιού και κυρίως κατά τα γεύµατα, έχει ευνοϊκή επίδραση στην υγεία του µέσου ενήλικα. Οι σχετικές οδηγίες, όµως, θα πρέπει σε ατοµικό επίπεδο να λαµβάνουν υπόψη το οικογενειακό ιστορικό αλκοολισµού, την ενδεχόµενη ύπαρξη ηπατοπάθειας, τις καπνισµατικές συνήθειες, ή ακόµη και το φύλο, αφού τα οφέλη από την κατανάλωση οινοπνεύµατος φαίνεται να είναι µεγαλύτερα για τους άνδρες παρά για τις γυναίκες. Όσον αφορά τις προστιθέµενες ουσίες και τους ρυπαντές, ισχυρές επιδηµιολογικές ενδείξεις µπορούν να υπάρξουν µόνο για τις προστιθέµενες ουσίες που υπόκεινται στον έλεγχο του ατόµου, ιδιαίτερα για το αλάτι και τα καρυκεύµατα. Το αλάτι συµβάλλει στην ανάπτυξη υπέρτασης σε προδιατεθειµένα άτοµα. Είναι επίσης πιθανό να συµβάλει στην ανάπτυξη καρκίνου του στοµάχου. Για τις επιδράσεις στην υγεία άλλων καρυκευµάτων που ευρέως χρησιµοποιούνται στην Ελλάδα δεν υπάρχουν ισχυρές ενδείξεις. [31]

48 [32]

49 3 Μηχανές Αναζήτησης [33]

50 [34]

51 3 ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ Η ραγδαία ανάπτυξη του Παγκόσµιου Ιστού και η ταχύτατη διείσδυσή του σε κάθε έκφανση της καθηµερινότητας του σύγχρονου ανθρώπου είναι έκδηλη. Μια από τις συνήθειες που έχουν αλλάξει ριζικά είναι ο τρόπος αναζήτησης πληροφοριών. Παλαιότερα, η αναζήτηση γινόταν κυρίως µέσω έντυπου υλικού ή µέσω τηλεφωνικής επικοινωνίας µε διάφορα εξειδικευµένα τηλεφωνικά κέντρα. Σήµερα, η αναζήτηση έχει γίνει κατά βάση ηλεκτρονική διαδικασία µε πρώτη µορφή τις µηχανές αναζήτησης του Παγκόσµιου Ιστού. 3.1 Σύντοµη περιγραφή Μια µηχανή αναζήτησης είναι µια διεπαφή ανάκτησης πληροφορίας στον Παγκόσµιο Ιστό. Οι πληροφορίες στις οποίες γίνεται αναζήτηση είναι ιστοσελίδες, εικόνες ή άλλοι τύποι αρχείων. Μερικές µηχανές αναζήτησης ανακτούν πληροφορία από δεδοµένα που είναι διαθέσιµα σε βάσεις δεδοµένων, newsgroups ή ανοιχτούς καταλόγους. Σε αντίθεση µε τους καταλόγους του διαδικτύου, που αναπτύσσονται και διατηρούνται χειροκίνητα, οι µηχανές αναζήτησης λειτουργούν αλγοριθµικά ή είναι µια συνδυαστική µίξη αλγοριθµικής και ανθρώπινης εισόδου δεδοµένων. 3.2 Ιστορία Μηχανών Αναζήτησης Το πρώτο εργαλείο που χρησιµοποιήθηκε για αναζήτηση στο διαδίκτυο ήταν το Archie (Archie search engine). Το πρόγραµµα αυτό χρησιµοποιούνταν για λήψη λιστών καταλόγων από δηµόσιους ανώνυµους FTP ιστοτόπους, δηµιουργώντας µια βάση αναζήτησης που περιείχε ονόµατα αρχείων χωρίς όµως να είναι δεικτοδοτηµένα. Η πρώτη µηχανή αναζήτησης ήταν η Wandex, που ήταν ένας συλλέκτης (crawler) που αναπτύχθηκε από το τον Matthew Gray στο MIT το Ακόµη µια άλλη µηχανή αναζήτησης, η Aliweb, επίσης εµφανίστηκε το 1993, και λειτουργεί ακόµη και σήµερα. Η JumpStation, µια ακόµη µηχανή που εµφανίστηκε το 1994, χρησιµοποιούσε έναν συλλέκτη σελίδων για να βρει σελίδες για αναζήτηση, αλλά η αναζήτηση περιοριζόταν µόνο στον τίτλο των σελίδων. Μια από τις πρώτες µηχανές αναζήτησης που προχώρησε στην αναζήτηση σε όλο το κείµενο των σελίδων ήταν η WebCrawler (WebCrawler Web Search), το Σε αντίθεση, µε όλες τις προηγούµενες µηχανές αναζήτησης, άφηνε τους χρήστες να ψάχνουν σε όλο το κείµενο των ιστοσελίδων και αυτό αποτέλεσε το πρότυπο για όλες τις µετέπειτα µηχανές αναζήτησης. Παράλληλα, ήταν και η πρώτη µηχανή αναζήτηση που έγινε ευρέως γνωστή από το κοινό του διαδικτύου. Επιπλέον, η [35]

52 µηχανή αναζήτησης Lycos εµφανίστηκε το 1994, και αποτέλεσε µια µεγάλη επιχειρηµατική δραστηριότητα. Αµέσως αργότερα, πολλές µηχανές αναζήτησης εµφανίστηκαν πολλές µηχανές αναζήτησης που συναγωνιζόταν για δηµοσιότητα. Σε αυτές περιέχονται οι Excite (My Excite), Infoseek, Inktomi, Northern Light (Northern Light Strategic Research Portals) και Altavista (Altavista). Με κάποιους τρόπους οι µηχανές αυτές συνδεόταν µε δηµοφιλείς καταλόγους όπως το Yahoo!. Αργότερα, η ενοποίηση µε τους καταλόγους ή η προσθήκη αναβάθµισε την τεχνολογία των µηχανών αναζήτησης και αύξησε τη λειτουργικότητα. Στη συνέχεια µέσα από τις αναφορές στις σηµαντικότερες µηχανές συµπληρώνεται η ιστορική εξέλιξη των µηχανών αναζήτησης. 3.3 Σηµαντικές Μηχανές Αναζήτησης Στη συνέχεια γίνεται µια µικρή αναφορά στις ευρύτερα χρησιµοποιούµενες και περισσότερο γνωστές µηχανές αναζήτησης καθώς αυτή η εργασία προσανατολίζεται στο να βελτιώσει τα αποτελέσµατά τους µέσα από τη µεθοδολογία προσωποποίησης που προτείνει Google Το 2001, η µηχανή αναζήτησης Google (Google) ήρθε στο προσκήνιο για να διακριθεί. Η επιτυχία της βασίστηκε εν µέρει στην έννοια της δηµοφιλίας των συνδέσµων και του PageRank (της σχετικής σηµασίας του συνδέσµου σε µια σελίδα σε σχέση µε τους συνδέσµους σε άλλες σελίδες στο σύνολο των σελίδων του γράφου του διαδικτύου). Ο αριθµός των άλλων ιστοτόπων και ιστοσελίδων που έχουν σύνδεσµο σε µια δοσµένη ιστοσελίδα λαµβάνεται υπόψη µε το PageRank, µε την προϋπόθεση ότι οι σηµαντικές και επιθυµητές σελίδες έχουν περισσότερους συνδέσµους από τις άλλες. Το PageRank των συνδεόµενων ιστοσελίδων και ο αριθµός των συνδέσµων συµβάλλουν στο PageRank της συνδεόµενης ιστοσελίδας. Αυτή η σύµβαση δίνει τη δυνατότητα στο Google να κατατάξει τα αποτελέσµατά του µε βάση πόσες ιστοσελίδες έχουν σύνδεσµο σε κάθε ευρεθείσα ιστοσελίδα. Παράλληλα, η µινιµαλιστική διεπαφή που χρησιµοποιεί είναι πολύ δηµοφιλής από τους χρήστες και έχει δηµιουργήσει ένα πλήθος µιµητών. Το Google και πολλές άλλες µηχανές αναζήτησης δε χρησιµοποιούν µόνο το PageRank αλλά ακόµη 150 κριτήρια για να καθορίσουν την συσχέτιση (S. Brin,L. Page, 1998). Ο αλγόριθµος «θυµάται» που βρισκόταν και δεικτοδοτεί τον αριθµό των συνδέσµων που διασταυρώνονται και τους συσχετίζει σε οµάδες. Το PageRank βασίζεται στην ανάλυση των παραθέσεων (citations) που αναπτύχθηκε από τον Eugene Garfield το 1950 στο Πανεπιστήµιο της Πενσυλβανίας. Οι ιδρυτές του Google έκαναν αναφορά στην εργασία του Garfiled στην αρχική παρουσίασή τους. [36]

53 Η Google σήµερα είναι η πιο δηµοφιλής µηχανή αναζήτησης. Πάνω σε αυτή θα γίνει πειραµατική υλοποίηση σε αυτή την εργασία ώστε τα αποτελέσµατά της να προσωποποιηθούν µέσα από την µεθοδολογία που προτείνεται Bing Η πιο πρόσφατη µηχανή αναζήτησης της Microsoft που αποτελεί εξέλιξη των Live Search, Windows Live Search, MSN Search είναι το Bing. Παρουσιάστηκε για πρώτη φορά τον Μάιο του 2009 σε ένα συνέδριο στο San Diego και τέθηκε σε εφαρµογή τον Ιούνιο του Το Bing (wikipedia) (Bing) έχει κάποιες σηµαντικές διαφοροποιήσεις από τις άλλες µηχανές αναζήτησης που είχε αναπτύξει η Microsoft. Αυτές περιλαµβάνουν την ταξινόµηση των προτάσεων αναζήτησης κατά την εγγραφή της λέξης κλειδί στην µηχανή αναζήτησης, την εµφάνιση µίας λίστας από παρόµοιες αναζητήσεις η οποία ονοµάζεται Explorer Pane και στηρίζεται στον σηµασιολογικό ιστό, την οργάνωση των αποτελεσµάτων της αναζήτησης σε κατηγορίες. Ένα άλλο στοιχείο που έχει ενσωµατωθεί στην µηχανή αναζήτησης είναι το ιστορικό αναζητήσεων (Search History) το οποίο επιτρέπει την αποθήκευση των queries για 48 ώρες εφόσον ο χρήστης χρησιµοποιεί τον ίδιο browser. Το Bing έχει επίσης την δυνατότητα των άµεσων απαντήσεων όπου αν κάποιος χρήστης δώσει για παράδειγµα ως κλειδί αναζήτησης την λέξη Oscar, να του επιστραφεί ως πρώτο αποτέλεσµα ποιοι πήραν το Oscar για την φετινή χρονιά. Εκτός από την αναζήτηση εικόνων, χαρτών, άρθρων που έχουν και οι άλλες µηχανές αναζήτησης ενσωµατώνει την αναζήτηση για θέµατα υγείας, αναζήτηση για θέµατα ταξιδιών και άλλα. Το ranking του Bing γίνεται µε αυτόµατο τρόπο. Ο αλγόριθµος που χρησιµοποιεί αναλύει παράγοντες όπως το περιεχόµενο µιας ιστοσελίδας, τον αριθµό και την ποιότητα των σελίδων που οδηγούν σε µία άλλη σελίδα, καθώς και την σχετικότητα της ιστοσελίδας µε τις λέξεις αναζήτησης. Αυτή την στιγµή το Bing είναι η δεύτερη κατά σειρά µηχανή αναζήτησης µετά το Google. Το ποσοστό των χρηστών που δοκιµάζουν να κάνουν σ αυτήν τις αναζητήσεις τους διαρκώς αυξάνεται αλλά παραµένει σηµαντικά µικρότερο από το µερίδιο της Google Yahoo! Search Οι δύο ιδρυτές της Yahoo! (S. Brin,L. Page, 1998), David Filo Και Jerry Yang, υποψήφιοι διδάκτορες στο Πανεπιστήµιο Στανφόρντ, προσπαθώντας να βρεθεί ένας τρόπος να προσωποποιήσουν τα προσωπικά τους ενδιαφέροντά τους στο διαδίκτυο. Μέχρι τότε σπαταλούσαν πολύ χρόνο για να οργανώσουν τις λίστες από τους αγαπηµένους τους συνδέσµους που συσχετιζόταν µε τη διδακτορική τους διατριβή. Μετά από αρκετό καιρό οι λίστες έγιναν πολύ µεγάλες και δύσκολες στη διαχείριση, [37]

54 µε αποτέλεσµα να τις κατανέµουν σε κατηγορίες. Όταν οι κατηγορίες έγιναν αρκετά πλήρεις, ανέπτυξαν υποκατηγορίες και µε αυτό τον τρόπο αναπτύχθηκε ο πυρήνας της µηχανής αναζήτησης Yahoo!. Το 2002, η Yahoo! Απέκτησε την Inktomi και το 2003 την Overtune, που κατείχε την AltheWeb και την AltaVista. Παρόλο, που είχε τη δική της µηχανή αναζήτησης, Yahoo! αρχικά συνήθιζε να χρησιµοποιεί τη Google για να παράσχει στους χρήστες της αποτελέσµατα στο βασικό της ιστότοπο Yahoo.com. Παρόλα αυτά, το 2004, η Yahoo! λάνσαρε τη δική της µηχανή αναζήτησης που βασιζόταν σε συνδυασµένες τεχνολογίες των µηχανών που απέκτησε. Τον Ιούλιο του 2009 η Microsoft και η Yahoo! ανακοίνωσαν ότι για τα επόµενα 10 χρόνια η µηχανή αναζήτησης της Yahoo! θα αντικατασταθεί από το Bing. H Yahoo! θα κρατήσει το 88% των εσόδων από τις διαφηµίσεις για τα 5 πρώτα χρόνια της συµφωνίας και θα έχει το δικαίωµα να πωλεί διαφηµίσεις σε κάποιες ιστοσελίδες της Microsoft. Η µηχανή αναζήτησης της Yahoo! θα διατηρήσει το user interface που έχει αλλά σταδιακά θα ενσωµατώσει το logo της Bing Live Search Μία ευρέως χρησιµοποιούµενη µηχανή αναζήτησης είναι η MSN Search της Microsoft (Windows Live), που προηγουµένως βασιζόταν σε λίστες άλλων µηχανών αναζήτησης. Το 2004, πρωτοεµφανίστηκε µια δοκιµαστική έκδοση µε τα δικά της αποτελέσµατα, που χρησιµοποιούσε έναν δικό της συλλέκτη (crawler) που ονοµαζόταν msnbot. Στις αρχές του 2005, άρχισε να δείχνει τα πρώτα αποτελέσµατά της ζωντανά, και σταµάτησε να παίρνει αποτελέσµατα από την Inktomi που ήταν απόκτηµα της Yahoo!. Το 2006, η Microsoft δηµιούργησε µια νέα πλατφόρµα αναζήτησης, την Live Search, αποσύροντας την ονοµασία MSN Search για το χαρακτηρισµό αυτής της διαδικασίας. Στο τέλος όµως του 2009 η Microsoft, σε µία προσπάθεια να δηµιουργήσει µία καινούρια ταυτότητα για τις µηχανές αναζήτησης που είχε, αντικατέστησε το Live Search µε την νέα µηχανή αναζήτησης που κατασκεύασε, το Bing. Μηχανή Total Οκτ. Νοεµ. εκ. Ιαν. Φεβρ. Μαρ. Αναζήτησης Avg Google 85.63% 86.90% 85.94% 85.74% 85.49% 84.67% 85.43% Bing 5.66% 4.05% 5.03% 5.71% 5.97% 6.39% 6.24% Yahoo 5.56% 6.18% 5.92% 5.47% 5.38% 5.63% 5.04% AOL 2.36% 2.48% 2.55% 2.39% 2.38% 2.37% 2.08% Ask 0.79% 0.39% 0.55% 0.67% 0.76% 0.93% 1.20% Other 0.01% 0.01% 0.01% 0.01% 0.01% 0.01% 0.01% Πίνακας 5: Ποσοστά χρήσης µηχανών αναζήτησης (Search Engine Market Share) [38]

55 Google; 85,63 Other; 0,01 Yahoo; 5,56 AOL; 2,36 Bing; 5,66 Ask; 0,79 Εικόνα 2: Γραφική απεικόνιση ποσοστού χρησιµοποίησης 3.4 Τρόπος λειτουργίας µηχανών αναζήτησης Μια µηχανή αναζήτησης λειτουργεί µε την ακόλουθη σειρά: 1. Web Crawling παρακολούθηση του διαδικτύου 2. εικτοδότηση 3. Αναζήτηση Εικόνα 3: Λειτουργία µηχανής αναζήτησης Οι µηχανές αναζήτησης δουλεύουν αποθηκεύοντας πληροφορίες για ένα µεγάλο αριθµό ιστοσελίδων, τις οποίες ανακτούν από τον ίδιο τον Παγκόσµιο Ιστό. Αυτές οι σελίδες ανακτώνται από ένα crawler (που είναι γνωστός και ως spider) που είναι ένας αυτόµατος πλοηγητής του διαδικτύου που ακολουθεί κάθε σύνδεσµο που βλέπει. Μπορεί να υπάρχουν εξαιρέσεις µε τη χρήση robots αποτρέπουν την προσπέλαση από crawlers για κάποια τµήµατα των σελίδων. Τα περιεχόµενα ενα κάθε σελίδας αναλύονται για να καθοριστεί πως πρέπει να δεικτοδοτηθούν δοτηθούν (για παράδειγµα εξάγονται λέξεις από τίτλους, επικεφαλίδες ή ειδικά πεδία που καλούνται µεταπεδία που είναι µεταδεδοµένα για τις σελίδες). εδοµένα για σελίδες του διαδικτύου καταχωρούνται σε µια βάση δεικτοδότησης που χρησιµοποιείται οποιείταιγια αναζήτηση σε επόµενα ερωτήµατα στη µηχανή. [39]

56 Μερικές µηχανές αναζήτησης, όπως η Google, αποθηκεύουν όλες ή µέρος του πηγαίου κώδικα (που αναφέρονται ως cache) όπως πληροφορίες σχετικά µε τις σελίδες, σε αντίθεση µε άλλες, όπως η Altavista, που αποθηκεύουν κάθε λέξη για κάθε σελίδα που βρίσκουν. Αυτή η αποθηκευµένη σελίδα, κρατάει πάντα το κείµενο που γίνεται αναζήτηση αφού είναι αυτό που δεικτοδοτείται, ώστε µπορεί να είναι αρκετά χρήσιµο όταν το περιεχόµενο της τρέχουσας σελίδας έχει ανανεωθεί και οι όροι αναζήτησης δεν περιέχονται πλέον σε αυτό. Αυτό το πρόβληµα, µπορεί να θεωρηθεί σαν µια ήπια µορφή του προβλήµατος linkrot, όπου οι σύνδεσµοι και οι σελίδες που δείχνουν τείνουν να είναι άσχετα µε το πέρασµα του χρόνου επειδή το περιεχόµενο των σελίδων ανανεώνεται. Ο τρόπος που το Google διαχειρίζεται το πρόβληµα αυτό αυξάνει τη χρησιµοποιησιµότητα ικανοποιώντας τις απαιτήσεις των χρηστών τοποθετώντας του όρους αναζήτησης µέσα στη σελίδα που επιστρέφεται. Αυτό ικανοποιεί την αρχή της ελάχιστης έκπληξης, αφού ο χρήστης τουλάχιστον περιµένει τους όρους που αναζητεί να τους εντοπίσει µέσα στο επιστρεφόµενο έγγραφο. Η αυξανόµενη σχετικότητα αναζήτησης κάνει αυτές τις σελίδες πολύ χρήσιµες, ακόµη περισσότερο από το γεγονός ότι µπορεί να περιέχουν δεδοµένα που µπορεί να µην είναι πλέον αλλού διαθέσιµα. Όταν ένας χρήστης θέτει ένα ερώτηµα σε µια µηχανή αναζήτησης, συνήθως χρησιµοποιώντας λέξεις κλειδιά, η µηχανή εξετάζει το ευρετήριό της και παρέχει µια λίστα µε τις καλύτερα ταιριασµένες σελίδες σύµφωνα µε τα κριτήρια, συνήθως µε ένα σύντοµο κείµενο, που περιέχει τον τίτλο του εγγράφου και µερικές φορές τµήµατα που κειµένου που περιέχει η σελίδα. Οι περισσότερες µηχανές αναζήτησης υποστηρίζουν τη χρήση λογικών τελεστών AND, OR και NOT για να συγκεκριµενοποιήσουν περισσότερο το ερώτηµα που τίθεται. Μερικές µηχανές αναζήτησης παρέχουν ένα χαρακτηριστικό που καλείται εγγύτητα αναζήτησης (proximity search) που επιτρέπει στους χρήστες να καθορίσει την απόσταση µεταξύ των λέξεων κλειδιά. Η χρησιµότητα µιας µηχανής αναζήτησης εξαρτάται από τη σχετικότητα τους συνόλου αποτελεσµάτων που επιστρέφει. Ενώ µπορεί να υπάρχουν εκατοµµύρια ιστοσελίδων που περιέχουν µια συγκεκριµένη λέξη ή φράση, µερικές σελίδες είναι περισσότερο σχετικές, δηµοφιλείς ή έγκυρες από κάποιες άλλες. Οι περισσότερες µηχανές αναζήτησης εφαρµόζουν µεθόδους για να διαβαθµίσουν τα αποτελέσµατα που παρέχουν και να παρουσιάσουν τα καλύτερα αποτελέσµατα πρώτα. Το πως µια µηχανή αναζήτησης αποφασίζει ποιες σελίδες αποτελούν το βέλτιστο ταίριασµα στο ερώτηµα που τέθηκε, και ποια σειρά των αποτελεσµάτων θα πρέπει να παρουσιαστεί, ποικίλει από µια µηχανή αναζήτησης στην άλλη. Επιπλέον, οι µέθοδοι αλλάζουν µε το πέρασµα του χρόνου καθώς η χρήση του διαδικτύου αλλάζει και εµπλέκονται νέες τεχνικές. Οι περισσότερες µηχανές αναζήτησης αποτελούν εµπορικά εγχειρήµατα που υποστηρίζονται από διαφηµιστικούς πόρους και σαν αποτέλεσµα µερικές εφαρµόζουν την αντιφατική πρακτική να επιτρέπουν σε διαφηµιστές να πληρώνουν χρήµατα για να έχουν τις ιστοσελίδες που σχετίζονται µε αυτούς ψηλά στη λίστα των αποτελεσµάτων που επιστρέφει η µηχανή αναζήτησης. Εκείνες οι µηχανές αναζήτησης που δεν δέχονται χρήµατα για τα αποτελέσµατά τους βγάζουν χρήµατα [40]

57 τρέχοντας διαφηµίσεις σχετικές µε την αναζήτησης παράλληλα µε το κανονικό ψάξιµο των µηχανών αναζήτησης. Η µηχανή κερδίζει χρήµατα κάθε φορά που κάποιος χρήστης κάνει κλικ σε κάποια από αυτές τις διαφηµίσεις. Οι περισσότερες µηχανές αναζήτησης διατηρούνται από ιδιωτικές εταιρίες που χρησιµοποιούν αποκλειστικούς καταλόγους και κλειστές βάσεις δεδοµένων, παρόλα αυτά κάποιες είναι ανοικτής αρχιτεκτονικής όπως οι DataparkSearch, Egothor, Gonzui, Grub, Lucene, Namazu, Nutch, OpenFTS, Search Wikia, Sphinx, SWISH-E, Terrier Search Engine, Xapian, YaCy και Zettair. 3.5 Προκλήσεις για τις µηχανές αναζήτησης Οι µηχανές αναζήτησης είναι έχουν να αντιµετωπίσουν αρκετές προκλήσεις που καθορίζουν τον τρόπο ανάπτυξής τους. Τέτοιες προκλήσεις αποτελούν τα παρακάτω: Ο Παγκόσµιος Ιστός µεγαλώνει πολύ πιο γρήγορα από όσο µπορεί οποιαδήποτε µηχανή αναζήτησης να δεικτοδοτήσει. Μια σελίδα θα πρέπει να δεικτοδοτείται ξανά όταν αλλάζει το περιεχόµενό της. Η αναζήτηση που κάνουν οι µηχανές αναζήτησης περιορίζονται στην αναζήτηση λέξεων κλειδιών ειδικά όταν γίνεται αναζήτηση στο περιεχόµενο των σελίδων. Καλύτερα αποτελέσµατα µπορεί να επιτευχθούν χρησιµοποιώντας αναζήτηση εγγύτητας σε σύγκριση µε την αναζήτηση σκόρπιων λέξεων µέσα σε ολόκληρες σελίδες. Μια άλλη εναλλακτική είναι η χρήση ανθρώπινων τελεστών για να κάνουν την επόµενη αναζήτηση για τους συστηµατικούς χρήστες µιας µηχανής αναζήτησης. Οι δυναµικές σελίδες είναι δύσκολο έως αδύνατο να δεικτοδοτηθεί, και µπορεί να δώσει υπερβολικά πολλά αποτελέσµατα, ίσως να δηµιουργήσει 500 φορές περισσότερες σελίδες από το µέσο όρο. Για παράδειγµα: για µια δυναµική ιστοσελίδα που αλλάζει περιεχόµενο που βασίζεται στις εισόδους που παίρνει η ιστοσελίδα από µια βάση, µια µηχανή αναζήτησης καλείται να δεικτοδοτήσει στατικές σελίδες µε διαφορετικές παραµέτρους που περνιούνται δυναµικά στην ιστοσελίδα. Πολλές σελίδες που δηµιουργούνται δυναµικά δεν είναι δυνατόν να δεικτοδοτηθούν από τις µηχανές αναζήτησης. Το φαινόµενο αυτό είναι ο αόρατος ιστός (hidden web). Μερικές µηχανές αναζήτησης ειδικεύονται στη συλλογή δυναµικού περιεχοµένου στον αόρατο ιστό που είναι προστατευµένο από κωδικούς πρόσβασης ή απαιτεί να συµπληρωθούν φόρµες. Συνάφεια: µερικές φορές µια µηχανή αναζήτησης δεν µπορεί να βρει τι ψάχνει ένας άνθρωπος. Μπορεί να δώσει µια λίστα από ανεπιθύµητα αποτελέσµατα, µη σχετικές ιστοσελίδες, ηλεκτρονικά spam ή pop-ups. [41]

58 Μερικές µηχανές αναζήτησης που δεν κατατάσσουν τα αποτελέσµατα µε βάση τη συνάφεια, αλλά µε βάση τα χρήµατα που πληρώνονται από τις ιστοσελίδες που περιέχονται στα αποτελέσµατα. Πολλές ιστοσελίδες χρησιµοποιούν τεχνάσµατα για να διαβεβαιώσουν ότι θα βρίσκονται ψηλά στη λίστα των αποτελεσµάτων µιας µηχανής αναζήτησης, για πολλές λέξεις κλειδιά. Αυτό µπορεί να οδηγήσει σε «µόλυνση» των αποτελεσµάτων µιας µηχανής αναζήτησης µε spam σελίδες που περιέχουν ελάχιστη ή καθόλου πληροφορία σχετική µε τις εκφράσεις που αναζητούνται. Ασφαλές περιεχόµενο που φιλοξενείται σε συνδέσµους αποτελούν µια πρόκληση για τους crawlers που είτε δεν µπορούν να πλοηγηθούν στο περιεχόµενο για τεχνικούς λόγους είτε δεν δεικτοδοτούν το περιεχόµενο για ιδιωτικούς λόγους. Στο κεφάλαιο αυτό έγινε µια σύντοµη αναφορά στις µηχανές αναζήτησης, στον τρόπο λειτουργίας τους, στα βασικά χαρακτηριστικά τους και στις προκλήσεις που έχουν να αντιµετωπίσουν. Η µεθοδολογία που θα προταθεί σε αυτή τη διπλωµατική προσπαθεί να προσπελάσει κάποια από τα µειονεκτήµατά τους και να προσαρµόσει τα αποτελέσµατα µε βάση τους χρήστες. [42]

59 4 Σημασιολογικός Ιστός (Semantic Web) [43]

60 [44]

61 4 ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ Τα τελευταία χρόνια γίνεται πολύς λόγος και για το Semantic Web, ενός διαδικτύου δηλαδή στο οποίο η πληροφορία είναι καλύτερα ορισµένη επιτρέποντας µε αυτόν τον τρόπο την ολοκλήρωση, αυτοµατοποίηση και επαναχρησιµοποίηση των δεδοµένων. Ο Ιστός (Web) του µέλλοντος προβλέπεται να αποτελεί µια παγκόσµια βάση δεδοµένων και γνώσης µε πληροφορίες οι οποίες θα είναι "κατανοητές" από µηχανές (machine-understandable information). Στο κεφάλαιο αυτό γίνεται εκτενής αναφορά στην έννοια του σηµασιολογικού ιστού. 4.1 Εισαγωγή Ο παγκόσµιος ιστός (World Wide Web) έχει αλλάξει δραµατικά την διαθεσιµότητα της ηλεκτρονικά διαθέσιµης πληροφορίας. Το web αυτή την στιγµή περιέχει περίπου 3 δισεκατοµµύρια στατικά έγγραφα, τα οποία προσπελαύνονται από περισσότερους από 500 δισεκατοµµύρια ανθρώπους σε όλο τον κόσµο. Την ίδια στιγµή, αυτός ο τεράστιος όγκος πληροφορίας κατέστησε εξαιρετικά δύσκολη την αναζήτηση, προσπέλαση και διατήρηση του παραπάνω όγκου πληροφοριών. Αυτό συµβαίνει επειδή οι πληροφορίες που διατίθενται στο web, είναι αρχικά γραµµένες σε φυσική γλώσσα. Έτσι δηµιουργήθηκε ένα µεγάλο κενό ανάµεσα στις πληροφορίες που διατίθενται για επεξεργασία από διάφορα εργαλεία που λύνουν τα παραπάνω προβλήµατα και στις πληροφορίες που διατηρούνται σε µορφή κατανοητή από τους ανθρώπους. Για την αντιµετώπιση του παραπάνω προβλήµατος, πολλές νέες ερευνητικές µονάδες καθώς και επιχειρήσεις ξεκίνησαν να εµπλουτίζουν την διαθέσιµη πληροφορία που υπάρχει στο web µε σηµασιολογία που µπορούν να την επεξεργαστούν µηχανές (machine processable semantics). Αυτή η υποστήριξη ήταν απαραίτητη ώστε να «φθάσει το Web στο έπακρο των δυνατοτήτων του» όπως είχε πει και ο Tim Berners Lee σε µία αναφορά του για το µέλλον του web και την εξέλιξη του στο Semantic Web, ενός web δηλαδή όπου η πληροφορία είναι κατανοητή από µηχανές (machine readable information) και οι υπηρεσίες (services) που παρέχονται ενισχύουν το Web πέρα από τις δυνατότητες που είχε µέχρι τώρα. Η ρητή αναπαράσταση της σηµασιολογίας των δεδοµένων, των προγραµµάτων, των ιστοσελίδων και των άλλων εφαρµογών του web θα καταστήσει δυνατή την δηµιουργία ενός knowledge-based web, που θα παρέχει ένα περισσότερο ποιοτικό επίπεδο υπηρεσιών. Αυτόµατες υπηρεσίες θα βελτιώσουν τον τρόπο λειτουργίας τους ώστε να βοηθούν τους ανθρώπους να πετύχουν τους στόχους τους, µε το να καταλαβαίνουν περισσότερο το περιεχόµενο του Web και παρέχοντας έτσι περισσότερο ακριβές φιλτράρισµα, κατηγοριοποίηση και αναζήτηση των απαραίτητων πηγών πληροφορίας. Αυτές οι υπηρεσίες θα υποστηρίζουν σχεδόν όλες [45]

62 τις πτυχές της ανθρώπινης δραστηριότητας, καθιστώντας έτσι την πρόσβαση στην πληροφορία τόσο επιτακτική όπως είναι σήµερα η πρόσβαση στο ηλεκτρικό ρεύµα. Το όραµα της δηµιουργίας του Semantic Web στηρίζεται στην επέκταση των υπαρχόντων πλαισίων περιγραφής µεταδεδοµένων και ειδικότερα στην ύπαρξη σηµασιολογικού περιεχοµένου που είναι δυνατόν να υπόκειται σε αυτόµατη επεξεργασία από τον υπολογιστή χωρίς την επέµβαση του ανθρώπινου παράγοντα. Η ερευνητική προσπάθεια έγκειται στην δηµιουργία γενικών πλαισίων όπως το UN/SPSC και γλωσσών όπως η OWL τα οποία θα υποστηρίζουν οντολογικά όσο το δυνατόν περισσότερα πεδία εφαρµογών γίνεται. Πρόσφατα, η οµάδα εργασίας οντολογίας του Παγκοσµίου Ιστού εξέδωσε ένα υπό διαµόρφωση προσχέδιο τελικού σχολιασµού των παραδειγµάτων της OWL το οποίο συνοδεύει τον ορισµό της γλώσσας. Η κυριαρχία του semantic web έχει αρχίσει και γίνεται εµφανής µε τις µεταβάσεις από την XML στις web services στις ταξινοµίες στις οντολογίες στην συνεπαγωγή. Όλα αυτά είναι αποτέλεσµα έρευνας και πειραµατισµού πολλών χρόνων στον τοµέα της αναπαράστασης της γνώσης. Το υπάρχον Web δεν θα εξαφανιστεί, αλλά η εµφάνιση των semantic web τεχνολογιών θα το εµπλουτίσει και θα το καταστήσει ικανό να εισάγει στις δυνατότητές του τον διαµοιρασµό και την αναζήτηση γνώσης. 4.2 Τι είναι το Semantic Web; Ο Tim Berners-Lee είχε ένα διττό όραµα για το µέλλον του web. Το πρώτο µέρος ήταν να καταστήσει το web ένα περισσότερο συνεργατικό µέσο. Το δεύτερο ήταν να γίνει το web κατανοητό και εποµένως προσβάσιµο από τις µηχανές. Το αρχικό όραµα του Tim Berners-Lee προφανώς περιελάµβανε κάτι παραπάνω από την επεξεργασία HTML σελίδων από web servers. Στην παρακάτω εικόνα βλέπουµε σχέσεις ανάµεσα τµήµατα πληροφορίας όπως το includes, describes και wrote. υστυχώς, αυτές οι σχέσεις ανάµεσα στις πηγές δεν υπάρχουν αυτή την στιγµή στο web. Η τεχνολογία για την δηµιουργία τέτοιων σχέσεων ονοµάζεται Resource Description Framework (RDF). Το σηµαντικό σηµείο είναι ότι το αρχικό όραµα του web περιελάµβανε την ενσωµάτωση µεταδεδοµένων στα υπάρχοντα δεδοµένα του web. Αυτά τα επιπλέον µεταδεδοµένα είναι απαραίτητα για τις µηχανές ώστε να µπορούν να επεξεργαστούν την πληροφορία στο web. Εποµένως, πως δηµιουργείται ένα web από δεδοµένα τα οποία να µπορούν να τα επεξεργαστούν οι µηχανές; Το πρώτο βήµα είναι ένα να δοθεί ένα παράδειγµα για τον τρόπο µε τον οποίο σκεφτόµαστε τα δεδοµένα. Ιστορικά, τα δεδοµένα βρίσκονταν αποθηκευµένα σε ιδιωτικές εφαρµογές. Οι επιστήµονες της τεχνολογίας των υπολογιστών άρχισαν να συνειδητοποιούν πως τα δεδοµένα ήταν σηµαντικά και πως πρέπει να επαληθεύονται και να προστατεύονται. Οι γλώσσες προγραµµατισµού άρχισαν να αποκτούν αντικειµενοστραφείς δυνατότητες και κατέστησαν έτσι τα δεδοµένα αρκετά σηµαντικά. Παρόλα αυτά η προσέγγιση ότι τα δεδοµένα είναι τα πλέον σηµαντικά, διατηρήθηκε εσωτερικά στις εφαρµογές ώστε οι επιχειρήσεις να [46]

63 Εικόνα 4: Η αρχική πρόταση για το Web στο Cern µπορέσουν να κρατήσουν ιδιωτικά δεδοµένα για τις εφαρµογές τους κυρίως για λόγους ανταγωνισµού. Όµως µε το web, την Extensible Markup Language (XML) και το ανερχόµενο semantic web υπάρχει µία µετάβαση νοοτροπίας από τις εφαρµογές στα δεδοµένα. Ο δρόµος για την επεξεργασία των δεδοµένων από τις µηχανές έχει σαν απαιτούµενο το να γίνουν τα δεδοµένα εξυπνότερα. Η παρακάτω εικόνα απεικονίζει την εξέλιξη των δεδοµένων σε συνδυασµό µε µία διαρκή αύξηση την νοηµοσύνης. Η παρακάτω εικόνα απεικονίζει τέσσερα σηµεία της διαρκούς εξέλιξης των δεδοµένων. Η απεικόνιση ξεκινά από τα δεδοµένα µε την ελάχιστη «νοηµοσύνη» και καταλήγει στα δεδοµένα που έχουν ενσωµατωµένη αρκετή σηµασιολογία ώστε να µπορούν οι µηχανές να εξάγουν συµπεράσµατα από αυτά. Περισσότερο αναλυτικά: Text and databases (pre XML): Είναι η αρχική κατάσταση όπου τα περισσότερα δεδοµένα ανήκουν αποκλειστικά και µόνο σε µία εφαρµογή. Εποµένως, η «ευφυΐα» εντοπίζεται στην εφαρµογή και όχι στα δεδοµένα. XML documents for a single domain: Είναι το σηµείο όπου τα δεδοµένα επιτυγχάνουν µία ανεξαρτησία από την εφαρµογή για ένα συγκεκριµένο τοµέα. Τα δεδοµένα σ αυτό το σηµείο είναι αρκετά έξυπνα ώστε να µπορούν να µετακινηθούν ανάµεσα σε εφαρµογές που ανήκουν στον ίδιο τοµέα. Ένα παράδειγµα γι αυτό θα [47]

64 Εικόνα 5: Η διαρκής εξέλιξη των έξυπνων δεδοµένων (The smart data continuum) µπορούσε να είναι τα XML πρότυπα που χρησιµοποιούνται σε τοµείς της υγείας, των ασφαλιστικών γραφείων ή της κτηµαταγοράς. Taxonomies and documents with mixed taxonomies: Σε αυτό το σηµείο, τα δεδοµένα µπορούν να δηµιουργηθούν από διάφορους τοµείς και µπορούν να ταξινοµηθούν σωστά σε µία ιεραρχική ταξινοµία. Η ταξινόµηση µπορεί να βοηθήσει στην αναζήτηση των δεδοµένων. Απλές σχέσεις ανάµεσα στις κατηγορίες της ταξινοµίας µπορούν να χρησιµοποιηθούν στην συσχέτιση των δεδοµένων και εποµένως στον συνδυασµό τους. Οπότε, σ αυτό το σηµείο τα δεδοµένα είναι αρκετά έξυπνα ώστε να µπορούν εύκολα να τα αναζητήσουν εφαρµογές και να µπορούν να συνδυαστούν µε άλλα δεδοµένα. Ontologies and rules: Σ αυτό το σηµείο, νέα δεδοµένα µπορούν να εξαχθούν από τα υπάρχοντα ακολουθώντας λογικούς κανόνες. Στην ουσία τα δεδοµένα είναι αρκετά έξυπνα ώστε να µπορούν να περιγραφούν µε συµπαγείς σχέσεις και εξεζητηµένους φορµαλισµούς και κατ επέκταση µπορούν να γίνουν λογικές πράξεις πάνω σ αυτά. Αυτό επιτρέπει τον συνδυασµό των δεδοµένων σε ένα περισσότερο ατοµικό επίπεδο και την αρκετά λεπτοµερή ανάλυση των δεδοµένων. Εποµένως, σ αυτό το επίπεδο τα δεδοµένα δεν υπάρχουν ως µεµονωµένες οντότητες αλλά ως τµήµατα ενός εξεζητηµένο συνόλου. Ένα παράδειγµα για τα παραπάνω θα µπορούσε να είναι η αυτόµατη µετάφραση ενός εγγράφου από ένα τοµέα στο αντίστοιχο κείµενο ενός άλλου τοµέα. Από όλα τα παραπάνω µπορεί να εξαχθεί ένας νέος ορισµός του Semantic Web: «Ο σηµασιολογικός ιστός είναι ένας επεξεργαζόµενος από µηχανές ιστός έξυπνων δεδοµένων». Επιπροσθέτως, τα έξυπνα δεδοµένα µπορούν να οριστούν ως δεδοµένα που είναι ανεξάρτητα εφαρµογών, συνθέσιµα, ταξινοµηµένα και τµήµατα ενός µεγαλύτερου συστήµατος δεδοµένων (µίας οντολογίας). Ο Σηµασιολογικός Ιστός, αποτελεί µια πρωτοβουλία της Κοινοπραξίας του Παγκοσµίου Ιστού (World Wide [48]

65 Web Consortium W3C), παρέχει µια διεθνώς προσβάσιµη πλατφόρµα που επιτρέπει σε αυτοµατοποιηµένα εργαλεία αλλά και σε ανθρώπους να επεξεργάζονται και να µοιράζονται δεδοµένα. Το κλειδί για την επίτευξη του παραπάνω στόχου είναι τα µεταδοµένα (metadata) ή, αλλιώς, η µεταπληροφορία. Ο ορισµός που έδωσε ο Tim Berners-Lee είναι ο ακόλουθος: «Ο σηµασιολογικός ιστός δεν είναι ένα ξεχωριστός ιστός αλλά µία επέκταση του υπάρχοντος ιστού, στον οποίο η πληροφορία παρέχεται σε ένα καλώς ορισµένο πλαίσιο και επιτρέπει την καλύτερη συνεργασία υπολογιστών και ανθρώπων.» (Tim Berners- Lee, James Hendler and Ora Lassila, 2001) 4.3 Δομή του σημασιολογικού ιστού Τα παραπάνω βήµατα αντιστοιχούν στα επίπεδα της δοµής του Σηµασιολογικού ιστού όπως την πρότεινε ο Tim Berners-Lee και φαίνεται στην ακόλουθη εικόνα: Εικόνα 6: Η δοµή του σηµασιολογικού ιστού Η ανάπτυξη ξεχωριστά καθενός από τα βήµατα-επίπεδα αυτά θα βοηθήσει έτσι ώστε ο Σηµασιολογικός ιστός να γίνει πραγµατικότητα µε αυξητικό τρόπο. Στα κατώτερα επίπεδα της παραπάνω εικόνας τονίζεται η σηµασία ενός κοινού συντακτικού. Τα URIs (Uniform Resource Identifiers) παρέχουν ένα πρότυπο τρόπο αναφοράς σε οντότητες, ενώ το Unicode είναι ένα πρότυπο για την ανταλλαγή συµβόλων. Η XML (extensible Markup Language) είναι µια γλώσσα για τη δόµηση δεδοµένων, δηλαδή ένα σύνολο κανόνων και κατευθυντήριων γραµµών για το σχεδιασµό µορφών κειµένου οι οποίες διευκολύνουν τη δόµηση των δεδοµένων. Κατ επέκταση το XML Schema παρέχει τη δυνατότητα καθορισµού γραµµατικών για δηµιουργία «έγκυρων» XML αρχείων. Τα αρχεία αυτά µπορούν να αναφέρονται σε [49]

66 διαφορετικούς χώρους ονοµάτων (namespaces) για να διαχωρίζουν µεταξύ δύο ετικετών, που αντιπροσωπεύουν διαφορετικά πράγµατα αλλά έχουν το ίδιο όνοµα. Οι τεχνολογίες-πρότυπα των δύο αυτών βασικών επιπέδων έχουν γίνει ευρέως αποδεκτά και ο αριθµός των XML αρχείων διαρκώς αυξάνεται µε ταχείς ρυθµούς. Το τρίτο κατά σειρά επίπεδο αναφέρεται στο RDF (Resource Description Framework) και µπορεί να θεωρηθεί ως το πρώτο κοµµάτι που αναπτύχθηκε εξ αρχής για το Σηµασιολογικό ιστό. Σύµφωνα µε την πρόταση του W3C (RDF Primer), το RDF αποτελεί το θεµέλιο για την επεξεργασία µεταδεδοµένων. Παρέχει δυνατότητα διαλειτουργικότητας (interoperability) µεταξύ εφαρµογών που ανταλλάσσουν πληροφορία στο Παγκόσµιο Ιστό. Το µοντέλο δεδοµένων κάθε αρχείου που αντιπροσωπεύει το RDF είναι αυτό ενός κατευθυνόµενου, ψευδογράφου µε ετικέτες. Το RDF Schema καθορίζει µια απλή γλώσσα επάνω στο RDF για να συµπεριλάβει τις έννοιες των κλάσεων, is-a σχέσεις µεταξύ κλάσεων και µεταξύ ιδιοτήτων, καθώς και περιορισµούς πεδίου/εµβέλειας για τις ιδιότητες. Το RDF και το RDF Schema είναι κωδικοποιηµένα µε XML σύνταξη αλλά δεν εφαρµόζουν αναγκαστικά τη δενδρική δοµή της XML. Στο επόµενο επίπεδο τοποθετούνται οι Οντολογίες. Μια οντολογία είναι an explicit formalization of a shared understanding of a conceptualization. Αυτός ο υψηλού επιπέδου ορισµός αφήνει πολλά περιθώρια παραπλήσιων και συνάµα διαφορετικών ερµηνειών από την ερευνητική κοινότητα και συνεπώς στις δηµιουργούµενες γλώσσες αναπαράστασης οντολογιών. Παρουσιάζουν όµως όλες αυτές οι γλώσσες οµοιότητες καθώς οι περισσότερες περιλαµβάνουν ένα σύνολο εννοιών, µια ιεραρχία σε αυτό, και συσχετίσεις µεταξύ των εννοιών. Μερικές περιέχουν επίσης αξιώµατα µε κάποια συγκεκριµένη λογική. Η λογική τοποθετείται στο αµέσως επόµενο επίπεδο, αν και συνήθως οι ερευνητές την τοποθετούν στο επίπεδο οντολογίας καθώς οι οντολογίες βασίζονται στη λογική και θα έπρεπε να επιτρέπουν λογικά αξιώµατα. Εφαρµόζοντας τη λογική θα µπορούσε να εξαχθεί νέα γνώση από την πληροφορία που δηλώνεται ρητά. Για παράδειγµα, το αξίωµα που καθορίζει ότι η σχέση «συνεργάζεται µε» είναι συµµετρική οδηγεί λογικά στο συµπέρασµα ότι εάν µια οντότητα Α συνεργάζεται µε µια Β τότε και η Β συνεργάζεται µε την Α. Το πλήθος και το είδος των συµπερασµάτων που µπορούν να εξαχθούν εξαρτώνται κυρίως από τη λογική που επιλέγεται. Ενώ είναι ενδιαφέρον να υπάρχουν συστήµατα που θα καταλαβαίνουν τις βασικές έννοιες (υποκλάση, αντίστροφο κ.τ.λ.) θα ήταν ακόµη καλύτερο αν µπορούσαµε να δηλώσουµε οποιαδήποτε λογική αρχή και να µπορεί ο υπολογιστής να βγάζει κατάλληλα συµπεράσµατα από αυτές τις αρχές. Έστω για παράδειγµα ότι µια εταιρεία αποφασίζει πως όποιος πουλήσει περισσότερα από 100 προϊόντα της θα ανήκει εφεξής στο κλαµπ των Υπερπωλητών της. Ένα «έξυπνο» πρόγραµµα που θα εφαρµόζει τα παραπάνω θα µπορεί να οδηγηθεί στο εξής συµπέρασµα: «Ο Γιώργος έχει πουλήσει 101 αντικείµενα εποµένως ο Γιώργος είναι µέλος του κλαµπ Υπερπωλητών της εταιρείας». [50]

67 Στα δύο ανώτερα επίπεδα τοποθετούνται η τεκµηρίωση και η εµπιστοσύνη. Καλύπτουν την ανάγκη για έλεγχο της εγκυρότητας των δηλώσεων (statements) που γίνονται στο Σηµασιολογικό ιστό. Οι δηµιουργοί δηλώσεων θα πρέπει να µπορούν να παρέχουν τεκµήρια της εγκυρότητας των δηλώσεών τους τα οποία θα είναι ελέγξιµα από κάποια µηχανή. Στο επίπεδο αυτό δεν είναι απαραίτητο ότι η µηχανή του αναγνώστη της δήλωσης θα µπορεί να βρει µόνη της τις απαραίτητες αποδείξεις για την εγκυρότητα η µη της δήλωσης, αλλά απλώς να µπορεί να ελέγξει τις αποδείξεις που παρέχονται από το δηµιουργό της δήλωσης. Μόλις λοιπόν καταφέρουµε να φτιάξουµε συστήµατα που ακολουθούν τη λογική, θα έχει νόηµα να τα χρησιµοποιούµε για διάφορες αποδείξεις (τεκµηρίωση). Άνθρωποι από όλο τον κόσµο θα µπορούν να γράφουν λογικές δηλώσεις και θα εναπόκειται στη µηχανή να ακολουθήσει αυτούς τους σηµασιολογικούς «συνδέσµους» για να κατασκευάσει αποδείξεις. Έστω για παράδειγµα ότι τα αρχεία µιας εταιρείας δείχνουν πως ο Χ πούλησε 49 σκούπες και 53 τηλεοράσεις. Το σύστηµα καταγραφής προϊόντων δηλώνει πως οι σκούπες και οι τηλεοράσεις είναι δύο διαφορετικά προϊόντα της εταιρείας. Οι ενσωµατωµένοι µαθηµατικοί κανόνες του υπολογιστή δηλώνουν πως = 102 και πως 102>100. Καθώς η εταιρεία έχει δηλώσει πως όποιος πουλήσει πάνω από 100 προϊόντα της ανήκει στο κλαµπ των Υπερπωλητών της, ο υπολογιστής µπορεί να συνδυάσει τις παραπάνω δηλώσεις και λογικούς κανόνες σε µια απόδειξη του γεγονότος ότι ο Χ ανήκει πλέον στο κλαµπ των Υπερπωλητών. Ενώ είναι πολύ δύσκολο να δηµιουργηθούν τέτοιες αποδείξεις (µπορεί να χρειαστεί να ακολουθηθούν χιλιάδες σηµασιολογικοί σύνδεσµοι), εντούτοις είναι πολύ εύκολο να ελεγχθούν. Με αυτό τον τρόπο αρχίζει να δηµιουργείται ένα δίκτυο υπολογιστών πληροφόρησης, όπου κάποιοι απλώς παρέχουν δεδοµένα για να χρησιµοποιήσουν άλλοι. Κάποιοι άλλοι «εξυπνότεροι» µπορούν να χρησιµοποιήσουν τα δεδοµένα για να δηµιουργήσουν κανόνες. Οι «εξυπνότεροι» ακολουθούν όλους αυτούς τους κανόνες και τις δηλώσεις για να εξάγουν συµπεράσµατα και µετά να παραθέσουν τα αποτελέσµατα πίσω στο δίκτυο ως αποδείξεις ή και ως απλά δεδοµένα. Τα επίπεδα της τεκµηρίωσης και της εµπιστοσύνης αρχίζουν ήδη να απασχολούν την ερευνητική κοινότητα και σίγουρα θα την απασχολήσουν πολύ περισσότερο στο µέλλον όπου θα εδραιωθούν και τα κατάλληλα πρότυπα. Θα µπορούσε για παράδειγµα ένας διακοµιστής ιστοσελίδων να αναγνωρίζει την προέλευση του προγράµµατος (π.χ. Googlebot) που προσπαθεί να διαπεράσει κάποια από αυτές και να του παρουσιάζει τη σελίδα στη µορφή που νοµίζει ότι ταιριάζει στα δεδοµένα ταυτοποίησης του προγράµµατος κερδίζοντας κατά κάποιο τρόπο την «εύνοιά» του. Ενώ όταν θα την προσπελαύνει κάποιος απλός χρήστης θα του παρουσιάζει µια εντελώς διαφορετική µορφή της ιστοσελίδας. Ένα σπουδαίο ερώτηµα λοιπόν θα είναι το πόσο θα µπορούµε να εµπιστευτούµε τα παρεχόµενα δεδοµένα και να τα αξιοποιήσουµε στις εφαρµογές µας. Μια αρχή προς την κατεύθυνση αυτή θα µπορούσε να ήταν η αρχικοποίηση µιας XML υπογραφής συνδυασµένης µε ιδιωτικό κλειδί κρυπτογράφησης που θα συνδέονται άµεσα µε κάποιο στιγµιότυπο του αντικειµένου foaf:person. Χωρίς να [51]

68 λύνονται όλα τα προβλήµατα, θα βελτιωνόταν η λύση για κάθε νέα παρουσιαζόµενη µεταπληροφορία. Το W3C έχει καθορίσει ανοιχτά πρότυπα για τη σύνταξη µεταδεδοµένων το RDF και την OWL (Web Ontology Language) και η υποστήριξη για αυτά τα πρότυπα τόσο από τη βιοµηχανία όσο και από την ακαδηµαϊκή κοινότητα αυξάνεται ραγδαία. Επιπλέον, οµάδες του επαγγελµατικού χώρου συνεχώς δηµιουργούν λεξικά µεταδεδοµένων (δηλαδή οντολογίες). Υπάρχουν ήδη για παράδειγµα µεγάλες οντολογίες για ιατρική ορολογία, για τα γονίδια, για γεωγραφικά συστήµατα πληροφοριών και για νοµικά πλαίσια. Αν και οι περισσότερες είναι χειροποίητες, τα συστήµατα βελτιώνονται συνεχώς ώστε να µπορούν να τις εξάγουν ηµιαυτόµατα από µεγάλες ποσότητες κειµένου. Ένα από τα σηµαντικότερα ανοιχτά προβλήµατα είναι αυτό της αυτόµατης µετάφρασης µεταξύ δύο διαφορετικών ορολογιών οι οποίες σχεδιάστηκαν για την ίδια θεµατική ενότητα (domain). Για το πρόβληµα αυτό, της αντιστοίχισης οντολογιών (ontology mapping problem), στην εργασία (Doan A, Madhaven J, Dhamankar R, Domingos P, Helevy A., 2003) περιγράφεται το GLUE, ένα σύστηµα το οποίο επιχειρεί να αντιστοιχίσει κάθε έννοια της µιας οντολογίας στην πιο όµοια έννοια της άλλης οντολογίας χρησιµοποιώντας διάφορες πρακτικές µεθόδους µέτρησης οµοιότητας που βασίζονται είτε στη δοµή των οντολογιών είτε στα ίδια τα δεδοµένα τους. Για προφανείς λόγους, η απόκτηση µεγάλων ποσοτήτων µεταδεδοµένων από το Παγκόσµιο Ιστό θα πρέπει να βασιστεί σε µηχανές, αλλά για αυτή την εργασία δεν αναµένεται η ύπαρξη γενικευµένων λύσεων µε ευρεία εφαρµογή. Αντιθέτως, αναµένεται η εφαρµογή πολλών ειδικού σκοπού τεχνικών όπως η αυτόµατη εξαγωγή εννοιών από τη φυσική γλώσσα σε περιορισµένες θεµατικές ενότητες, η εξαγωγή χρήσιµων και µε νόηµα όρων που βρίσκονται σε URLs, κ.ο.κ. 4.4 Προϋποθέσεις ύπαρξης του σημασιολογικού ιστού Σύµφωνα µε όσα έχουν γραφεί παραπάνω, µπορεί να δηµιουργηθεί η εντύπωση ότι ναι µεν το πλαίσιο του σηµασιολογικού ιστού ακούγεται αρκετά δελεαστικό αλλά υπάρχει διαθέσιµη η τεχνολογία που θα τα υλοποιήσει όλα αυτά; Παρόλο που η κατασκευή του σηµασιολογικού ιστού στο διαδίκτυο δεν έχει ολοκληρωθεί ακόµα, κάποια µικρά αλλά θεµελιώδη τµήµατα έχουν κατασκευαστεί. Τα τελευταία χρόνια έχει παρατηρηθεί µία στροφή προς τα πρότυπα ανοικτού κώδικα. Η χρησιµοποίηση της XML είχε ως αποτέλεσµα της εµφάνιση πολλών τεχνολογιών που βασίζονται σε XML (XML-based technologies), όπως είναι οι web services που είναι βασισµένες σε SOAP (SOAP-based web services) οι οποίες προσφέρουν διαλειτουργικά περιβάλλοντα εφαρµογής σε εφαρµογές του Internet. Το RDF προσφέρει ένα τρόπο ώστε να γίνει συσχετισµός πληροφοριών. Χρησιµοποιώντας την XML ως συντακτικό, το RDF αποτελεί το θεµέλιο γλωσσών που βασίζονται σε οντολογίες του σηµασιολογικού ιστού. Οι XML Topic Maps (ΧΤΜ) παρέχουν έναν άλλο µηχανισµό για την αναπαράσταση πληροφοριών από ταξινοµίες ώστε αργότερα να ταξινοµήσουν [52]

69 δεδοµένα. Οι web services παρέχουν ένα µηχανισµό στα προγράµµατα λογισµικού ώστε τα τελευταία να µπορούν να επικοινωνούν µεταξύ τους. Πολλοί οργανισµοί χρησιµοποιούν γλώσσες όπως η OWL και η DAML+OIL, ώστε να προσθέσουν σηµασιολογικό περιεχόµενο στις βάσεις γνώσης που διαθέτουν. Στην παρούσα χρονική περίοδο, υπάρχει µία πληθώρα τεχνολογιών ικανών να βοηθήσουν στην εξάπλωση και την αποδοχή του σηµασιολογικού ιστού. Οι επιχειρήσεις έχουν αρχίσει να ανακαλύπτουν τα οφέλη των web services πάνω σε θέµατα διαλειτουργικότητας διάφορων εφαρµογών. Το επόµενο βήµα στον χώρο των web services θα είναι η κατασκευή σηµασιολογικών web services (semanticenabled web services) όπου θα γίνεται χρησιµοποίηση πληροφοριών από web services διαφορετικών οργανισµών. Ακαδηµαϊκά ερευνητικά προγράµµατα όπως το TAP στο Stanford, προσπαθούν να γεφυρώσουν το κενό ανάµεσα σε παρεκκλίνουσες web service-based πηγές δεδοµένων και στον συνεκτικό σηµασιολογικό ιστό από παρεκκλίνοντα τµήµατα πληροφορίας. Μία από τις λειτουργίες που κάνει το TAP είναι ότι διαθέτει δυνατότητες σηµασιολογικής αναζήτησης χρησιµοποιώντας βάσεις γνώσης διαφόρων πληροφοριών οι οποίες βασίζονται σε οντολογίες (ontology-based knowledge bases). Οι επιχειρήσεις έχουν αρχίσει να επενδύουν αρκετά χρήµατα στις τεχνολογίες του σηµασιολογικού ιστού. Η Adobe για παράδειγµα, έχει ξεκινήσει να αναδιοργανώνει τα µεταδεδοµένα των προγραµµάτων της γύρω από το RDF και χρησιµοποιεί web τεχνολογίες βασισµένες σε οντολογίες ώστε να διαχειριστεί τα έγγραφά της. Λόγω αυτών των αλλαγών τις πληροφορίες στα PDF αρχεία θα µπορούν να τις καταλάβουν και άλλα προγράµµατα, ακόµα και αυτά που δεν µπορούν να καταλάβουν τι είναι ένα PDF έγγραφο ή προγράµµατα που δεν ξέρουν πώς να προβάλουν ένα PDF αρχείο στον χρήστη. Η IBM επίσης, έχει αρχίσει και κάνει µεγάλες επενδύσεις στην έρευνα για τον σηµασιολογικό ιστό καθώς και η εταιρεία Germany s Ontoprise κατασκευάζει εργαλεία που χρησιµοποιούνται στην µοντελοποίηση των δεδοµένων, στην ανάκτησή τους και στην ολοκλήρωσή τους. Σύµφωνα µε τα παραπάνω µπορεί να εξαχθεί το συµπέρασµα ότι οι χώροι της πληροφορικής και των επιχειρήσεων είναι έτοιµοι για την έλευση του σηµασιολογικού ιστού. Τα θεµελιώδη κοµµάτια έχουν κατασκευαστεί, οι τεχνολογίες και τα προγράµµατα που θα υποστηρίζουν σηµασιολογικές εφαρµογές στο διαδίκτυο έχουν αρχίσει και κατασκευάζονται και οι εταιρείες έχουν αρχίσει και επενδύουν περισσότερα χρήµατα ώστε να καταστήσουν τις επιχειρήσεις τους ικανές να µπορούν να χρησιµοποιήσουν αυτές τις τεχνολογίες για ανταγωνιστικούς και κερδοσκοπικούς λόγους. 4.5 Λόγοι ύπαρξης του σημασιολογικού ιστού Ο σηµασιολογικός ιστός δεν είναι µόνο για τον παγκόσµιο ιστό. Αντιπροσωπεύει ένα σύνολο τεχνολογιών που θα δουλεύουν εξίσου καλά σε εσωτερικά συνεργατικά intranets. Αυτό είναι ανάλογο µε τις web services που αντιπροσωπεύουν services όχι µόνο στον παγκόσµιο ιστό αλλά και σε ένα εσωτερικό intranet. Εποµένως, ο [53]

70 σηµασιολογικός ιστός θα λύσει αρκετά σηµαντικά προβλήµατα που αντιµετωπίζουν οι σύγχρονες αρχιτεκτονικές της τεχνολογίας της πληροφορίας Υπερφόρτωση Πληροφορίας Η υπερφόρτωση πληροφορίας είναι ένα από τα περισσότερο προφανή προβλήµατα στο διαδίκτυο που πρέπει να αντιµετωπιστεί, και οι ειδικοί της πληροφορικής προειδοποιούν γι αυτό για πάνω από 50 χρόνια. Η κατάσταση αυτή προέκυψε από την ραγδαία ανάπτυξη της διαθέσιµης πληροφορίας, ενώ η διαχείριση αυτής της πληροφορίας από τους ανθρώπους δεν ακολούθησε τους ίδιους ρυθµούς αύξησης. Το πρόβληµα αυτό διογκώθηκε από τεράστια εξάπλωση του Internet, του ηλεκτρονικού ταχυδροµείου και των εφαρµογών άµεσων µηνυµάτων. υστυχώς η λανθασµένη αντίληψη για την παραγωγή αντί της επαναχρησιµοποίησης της γνώσης, άφησε αυτό το πρόβληµα άλυτο έχοντας ως επακόλουθο πλήθος αρνητικών επιπτώσεων. Η πρώτη καταγεγραµµένη χρήση της φράσης «υπερφόρτωση πληροφοριών» χρησιµοποιήθηκε από τον µελλοντολόγο Alvin Toffler το 1970, όταν πρόβλεψε ότι τα γρήγορα αυξανόµενα ποσά του παραγωγής των πληροφοριών θα προκαλούσαν τελικά προβλήµατα στους ανθρώπους. Αν και οι άνθρωποι µιλούν για "τη ζωή στην εποχή της πληροφορίας" οι γραπτές πληροφορίες έχουν χρησιµοποιηθεί για χιλιάδες έτη. Η εφεύρεση της εκτύπωσης µερικές εκατοντάδες έτη πριν έδωσαν τη δυνατότητα να διανεµηθούν οι γραπτές πληροφορίες σε πλήθη ανθρώπων. Εντούτοις, είναι δεκτό ότι µε την εµφάνιση των σύγχρονων υπολογιστών η δυνατότητα να δηµιουργηθούν, να αναπαραχθούν και να προσεγγιστούν απέραντα ποσά πληροφοριών έχει δηµιουργήσει την υπερφόρτωση πληροφοριών. Η ρίζα του προβλήµατος είναι ότι, αν και η επεξεργασία υπολογιστών και η µνήµη αυξάνονται όλη την ώρα, τα ανθρώπινα µυαλά που πρέπει να χρησιµοποιήσουν τις πληροφορίες δεν λειτουργούν γρηγορότερα Stovepipe Συστήματα Ένα stovepipe σύστηµα είναι ένα σύστηµα όπου όλα του τα τµήµατα είναι διασυνδεδεµένα ώστε να λειτουργούν όλα µαζί. Εποµένως, η πληροφορία χρησιµοποιείται µόνο µέσα σ αυτό το σύστηµα και δεν µπορούν να την µοιραστούν άλλα συστήµατα ή οργανισµοί που ενδεχοµένως να την χρειάζονται. Για παράδειγµα, ένα πελάτης µπορεί να επικοινωνήσει µε ένα συγκεκριµένο middleware το οποίο καταλαβαίνει µία συγκεκριµένη βάση δεδοµένων µε σταθερή δοµή. Ο κατακερµατισµός των stovepipe συστηµάτων πρέπει να γίνει σε όλα τα επίπεδα µίας αρχιτεκτονικής. Οι τεχνολογίες του σηµασιολογικού ιστού θα καταστήσουν δυνατό τον αποτελεσµατικό τεµαχισµό των stovepipe συστηµάτων βάσεων δεδοµένων (stovepipe database systems). [54]

71 4.5.3 Ελλιπής συνάθροιση περιεχομένου Συγκεντρώνοντας πληροφορίες από ανόµοιες πηγές είναι ένα επαναλαµβανόµενο πρόβληµα σε ένα πλήθος περιοχών όπως είναι τα οικονοµικά, οι αγορές, η εξόρυξη περιεχοµένου και άλλα. υστυχώς, η πιο συνηθισµένη τεχνική για αυτές τις εφαρµογές είναι το screen scraping. Με τον όρο screen scraping εννοούµε την τεχνική κατά την οποία ένα πρόγραµµα εξάγει δεδοµένα µε βάση τα αποτελέσµατα εξόδου ενός άλλου προγράµµατος. Το κύριο µειονέκτηµα της τεχνικής αυτής είναι ότι τα αποτελέσµατα/ µηνύµατα που είναι γραµµένα σε HTML και περιγράφουν την δοµή µίας ιστοσελίδας (γραµµατοσειρά, παράγραφοι κτλ) δεν παρέχουν καµία απολύτως πληροφορία για το περιεχόµενο/ νόηµα του εγγράφου. Και σ αυτού του είδους τα προβλήµατα όµως οι τεχνολογίες του σηµασιολογικού ιστού έρχονται να δώσουν κάποιες λύσεις. 4.6 XML και σημασιολογικός ιστός Η XML είναι το συντακτικό υπόβαθρο του σηµασιολογικού ιστού. Όλες οι υπόλοιπες τεχνολογίες που παρέχουν χαρακτηριστικά για τον σηµασιολογικό ιστό θα χρησιµοποιήσουν ως βάση την XML. Απαιτώντας από τις άλλες τεχνολογίες του σηµασιολογικού ιστού να βασιστούν στην XML, εγγυάται ένα βασικό επίπεδο διαλειτουργικότητας. Οι τεχνολογίες πάνω στις οποίες έχει κατασκευαστεί η XML είναι οι Unicode χαρακτήρες και οι Unicode Resource Identifiers (URIs). Οι Unicode χαρακτήρες επιτρέπουν την συγγραφή της XML µε διεθνείς χαρακτήρες. Τα URIs χρησιµοποιούνται ως µοναδικοί αναγνωριστές για τις έννοιες του σηµασιολογικού ιστού. Η ΧΜL όµως δεν είναι αρκετή µιας και παρέχει µόνο συντακτική διαλειτουργικότητα. ηλαδή ο διαµοιρασµός ενός XML εγγράφου ναι µεν προσθέτει νόηµα στο περιεχόµενο, µόνο όµως στην περίπτωση που και οι 2 πλευρές ξέρουν και αναγνωρίζουν τα ονόµατα των elements που χρησιµοποιούνται. Για παράδειγµα εάν κάποιος χρησιµοποιήσει το ακόλουθο : <price> $12.00 </price> ενώ κάποιος άλλος το <cost> $12.00 </cost>, δεν υπάρχει περίπτωση µία µηχανή να καταλάβει ότι οι δύο προηγούµενες δηλώσεις σηµαίνουν το ίδιο πράγµα, εκτός αν χρησιµοποιηθούν τεχνολογίες σηµασιολογικού ιστού όπως είναι πχ. οι οντολογίες. 4.7 Web services και σημασιολογικός ιστός Ο σηµασιολογικός Ιστός (semantic web) επιτρέπει την πρόσβαση στους πόρους Ιστού από το σηµασιολογικό περιεχόµενο παρά απλώς από τις λέξεις κλειδιά. Οι πόροι (σε αυτήν την περίπτωση υπηρεσίες Ιστού) ορίζονται κατά τέτοιο τρόπο ώστε να είναι αυτόµατα κατανοητοί και επεξεργάσιµοι. Αυτό επιτρέπει την εκτέλεση των [55]

72 σηµασιολογικών υπηρεσιών Ιστού, περιλαµβάνοντας αυτοµατοποίηση της ανακάλυψης υπηρεσιών, απόκτηση, σύνθεση και παρακολούθηση. Οι τεχνολογίες SOAP, UDDI (Universal Description, Discovery, and Integration) και WSDL (Web Services Description Language) έχουν γίνει τα de facto πρότυπα για τη δηµιουργία και τη χρήση των Υπηρεσιών Ιστού. Εντούτοις, υπάρχουν περιορισµοί στις ικανότητές τους. Το UDDI δεν προσφέρει µια πλούσια περιγραφή µιας υπηρεσίας: εάν αναχθεί το ζήτηµα στο WWW, είναι εύκολο να φανταστούµε ότι η έρευνα από το UDDI οδηγεί σε έναν µεγάλο αριθµό υποψήφιων υπηρεσιών. Μια πιο λεπτοµερής επιλογή απαιτείται επικοινωνώντας µε καθένα service provider για επιπλέον πληροφορίες. Οµοίως, ενώ η WSDL περιγράφει τη µορφή εισόδου/εξόδου µιας υπηρεσίας Ιστού, δεν αναφέρει τίποτα για τον αντίκτυπο της υπηρεσίας αυτής στο φυσικό κόσµο ή στην πρόοδο µιας επιχειρησιακής διαδικασίας. Ένας περαιτέρω περιορισµός κοινός σε όλα τα XML- βασισµένα πρότυπα είναι η έλλειψη µιας ρητής σηµασιολογίας. Για να αντιµετωπισθούν αυτοί οι περιορισµοί, απαιτείται µια πλουσιότερη περιγραφή των υπηρεσιών Ιστού. Ευτυχώς, παράλληλα µε την ανάπτυξη της τεχνολογίας υπηρεσιών Ιστού, ο σηµασιολογικός Ιστός έχει αναπτύξει ενδιαφέρουσα δραστηριότητα. Ο σηµασιολογικός ιστός στηρίζεται επίσης στην XML και θεωρείται η επέκταση του τρέχοντος ιστού, όπου εκτός από το να είναι κατανοητό από τον άνθρωπο χρησιµοποιώντας τους WWW browsers, τα έγγραφα σχολιάζονται µε µεταδεδοµένα. Αυτά τα µεταδεδοµένα καθορίζουν τι πληροφορίες περιέχει το έγγραφο µε έναν τρόπο που είναι επεξεργάσιµες από µηχανή. Ενώ η XML είναι χρήσιµη για τη δοµή εγγράφων, δεν αναφέρει τίποτα για τη σηµασιολογία. Η απόδοση των σηµασιολογικών µεταδεδοµένων σε έγγραφα WWW, µπορεί να ενισχύσει την αυτοµατοποιηµένη επεξεργασία τέτοιων εγγράφων για εφαρµογές σε περιοχές όπως η διαχείριση γνώσης. Εντούτοις, αυτή η ιδέα µπορεί να επεκταθεί σε σηµασιολογικές περιγραφές των Υπηρεσιών Ιστού προκειµένου να υπερνικηθούν οι περιορισµοί της τρέχουσας τεχνολογίας Υπηρεσιών Ιστού. Όσον αφορά τη λειτουργικότητα και τη σύνθεση υπηρεσιών, η χρήση της σηµασιολογικής τεχνολογίας Ιστού στην περιγραφή των υπηρεσιών Ιστού προσφέρει τη δυνατότητα να συνθέσει αυτόµατα ένα σύνολο υπηρεσιών για να ικανοποιήσει ένα συγκεκριµένο αίτηµα χρηστών. Η σχέση µεταξύ των υπηρεσιών Ιστού και της σηµασιολογικής τεχνολογίας Ιστού παρουσιάζεται στο παρακάτω σχήµα. Οι Υπηρεσίες Ιστού προσθέτουν τα υπολογιστικά αντικείµενα στον Ιστό, ενώ ο σηµασιολογικός Ιστός φέρνει δοµηµένα, επεξεργάσιµα από µηχανή µεταδεδοµένα. Ο συνδυασµός των δύο τεχνολογιών δηµιουργεί την επόµενη γενιά Υπηρεσιών Ιστού σηµασιολογικά ενισχυµένες υπηρεσίες Ιστού µε περιπλοκότερες ικανότητες συµπεριλαµβανοµένης της αυτοµατοποιηµένης ανακάλυψης, σύνθεσης, κλήσης και παρακολούθησης. [56]

73 Εικόνα 7: Σηµασιολογικές web services Η τεχνολογία σηµασιολογικού Ιστού παρέχει έναν τρόπο να περιγραφούν τα στοιχεία SOA (Service Oriented Architecture) µε έναν τρόπο ώστε να είναι κατανοητά και από τον άνθρωπο και από µηχανή, γεγονός που διευκολύνει την αυτόµατη ανακάλυψη και σύνθεση των στοιχείων σε νέες εφαρµογές. Το όραµα στον Σηµασιολογικό Ιστό είναι η περιγραφή των δυνατοτήτων και του περιεχοµένου των Υπηρεσιών Ιστού µε τρόπο που θα είναι αναγνωρίσιµος και κατανοητός από µηχανές (machine-understandable) και βελτίωση της ποιότητας και απόδοσης σε ήδη υπάρχοντες διαδικασίες, όπως η ανακάλυψη των υπηρεσιών και η δυναµική εκτέλεση τους. Για την υποστήριξη αυτού του οράµατος, οι Σηµασιολογικά ορισµένες Υπηρεσίες Ιστού θα χρειαστούν να περιγραφούν αναλυτικά µε τη χρήση οντολογιών ώστε να παρέχουν την δυνατότητα για την ανάπτυξη έξυπνων εφαρµογών που θα εκµεταλλευτούν την σηµασιολογική περιγραφή τους και θα προσφέρουν πλέον στον άνθρωπο τις υπηρεσίες που χρειάζεται. Οι web services είναι υπηρεσίες λογισµικού που αναγνωρίζονται από ένα URI και περιγράφονται, εντοπίζονται και προσπελαύνονται χρησιµοποιώντας διάφορα πρωτόκολλα. Το σηµείο που πρέπει να δοθεί έµφαση είναι ότι οι web services παράγουν και χρησιµοποιούν την XML. Εποµένως, µία από τις χρήσεις των web services στον σηµασιολογικό ιστό µπορεί να είναι η επέκταση της υιοθέτησης της XML ή η ενσωµάτωση περισσότερο ευφυών δεδοµένων. Επίσης καθώς οι web services αυξάνονται, αρχίζουν και εµφανίζουν οµοιότητες µε τις ιστοσελίδες στο ότι γίνονται περισσότερο δύσκολο να εντοπιστούν. Οι τεχνολογίες του σηµασιολογικού ιστού θα πρέπει να βρουν τρόπους να λύσουν αυτό το πρόβληµα. Υπάρχουν αρκετές ερευνητικές προσπάθειες που προσπαθούν να δηµιουργήσουν σηµασιολογικές web-enabled web services και η ακόλουθη εικόνα απεικονίζει τον τρόπο που συνδυάζονται διάφορες τεχνολογίες ώστε να δηµιουργηθούν σηµασιολογικές web services. Τέλος, οι web services αλληλεπιδρούν µε άλλες web services. Προηγµένες εφαρµογές που χρησιµοποιούν web services και περιλαµβάνουν συγκρίσεις, συνθέσεις και συντονισµό υπηρεσιών απαιτούν αυτοµατοποιηµένες αλληλεπιδράσεις και επικοινωνία των τεχνολογιών του σηµασιολογικού ιστού. [57]

74 4.8 Λόγοι επιτυχίας του σημασιολογικού ιστού Κάθε νέα τεχνολογία αντιµετωπίζει ένα σκεπτικισµό κατά το πρώτο διάστηµα εφαρµογής της και αυτό συµβαίνει και στην περίπτωση του σηµασιολογικού ιστού. Όµως ο σηµασιολογικός ιστός δεν είναι τεχνητή νοηµοσύνη. Η έννοια των εγγράφων που θα µπορούν να γίνουν κατανοητά από µηχανές δεν υπονοεί κάποιο µαγικό είδος τεχνητής νοηµοσύνης που θα επιτρέπει στις µηχανές να καταλαβαίνουν ανθρώπινες έννοιες. Απλά επισηµαίνει την δυνατότητα µίας µηχανής να είναι σε θέση να λύσει ένα καλώς ορισµένο πρόβληµα, εκτελώντας καλώς ορισµένες πράξεις σε υπάρχοντα καλώς ορισµένα δεδοµένα. Στην προκειµένη δηλαδή περίπτωση αντί να υπάρχει απαίτηση από τις µηχανές να καταλάβουν την ανθρώπινη γλώσσα, απαιτείται οι άνθρωποι να κάνουν κάποια επιπλέον προσπάθεια και να προσθέσουν σηµασία στα δεδοµένα. Η επιτυχία της τεχνολογίας του σηµασιολογικού ιστού έχει στηριχτεί στην σύγκλιση διάφορων σηµαντικών παραγόντων. Οι παράγοντες αυτοί είναι οι ακόλουθοι: ιαθέσιµη υπολογιστική δύναµη: Σήµερα υπάρχει η τεχνολογία για την διαρκώς διαθέσιµη, συνδεδεµένη και υπολογιστικά δυνατή υποδοµή για την διαχείριση της πληροφορίας. Συνδέοντας αυτή την εποχή τα κινητά τηλέφωνα, τα PDAs, τους προσωπικούς υπολογιστές σε servers υπάρχει πολύ µεγαλύτερη απευθείας υπολογιστική ισχύ από οποιαδήποτε άλλη στιγµή στην ιστορία. Περισσότερη υπολογιστική ισχύ σηµαίνει ότι περισσότερα πράγµατα στον τοµέα της τεχνολογίας µπορούν να επιτευχθούν. Για παράδειγµα, η έννοια για τις εικονικές µηχανές της Java και της C++ διατυπώθηκε πριν από 20 χρόνια περίπου όµως οι εικονικές αυτές µηχανές δεν ήταν ευρέως διαθέσιµες µέχρι την δεκαετία του 1990 όπου η απαραίτητη υπολογιστική δύναµη ήταν διαθέσιµη. Απαιτήσεις από τους καταναλωτές και τις επιχειρήσεις: Ένα µεγάλο τµήµα του πληθυσµού είναι πλέον εξοικειωµένο µε την χρήση των ηλεκτρονικών υπολογιστών και του διαδικτύου και θέλει να τα χρησιµοποιεί για την επεξεργασία των προσωπικών του πληροφοριών. Ένας µέσος καταναλωτής διαθέτει έναν ή περισσότερους ηλεκτρονικούς υπολογιστές τους οποίους θέλει να είναι διασυνδεδεµένοι στο δίκτυο. Επίσης διάφορες επιχειρήσεις και κυβερνητικοί οργανισµοί βλέπουν διάφορες θετικές για τα σχέδιά τους προοπτικές, µε την χρησιµοποίηση των τεχνολογιών του σηµασιολογικού ιστού. Απαιτήσεις από τον ερευνητικό τοµέα: Μία ενδιαφέρουσα προσέγγιση στον ερευνητικό τοµέα που ονοµάζεται συνδυαστικός πειραµατισµός (combinational experimentation) είναι αυτήν την στιγµή σε ανάπτυξη στο διαδίκτυο. Αυτή η προσέγγιση αναγνωρίζει ότι αφού τα ερευνητικά αποτελέσµατα είναι άµεσα προσβάσιµα παγκοσµίως, η δυνατότητα επεξεργασία τους από τον οποιοδήποτε παγκοσµίως είναι εφικτή. Αποτελεσµατική όµως επεξεργασία αυτών των δεδοµένων και κοινοποίηση των αποτελεσµάτων στην παγκόσµια κοινότητα, απαιτεί την ύπαρξη του σηµασιολογικού ιστού. [58]

75 4.9 Επιχειρηματικό μοντέλο για τον σημασιολογικό ιστό Το όραµα για τον σηµασιολογικό ιστό περιελάµβανε την υπόσχεση ότι θα παραγόταν γνώση και αντίληψη από ανεπεξέργαστα δεδοµένα. Πολλοί επιχειρηµατίες αναρωτήθηκαν όµως πως θα µπορούσαν να χρησιµοποιήσουν τον σηµασιολογικό ιστό για τις επιχειρήσεις τους και για ποιο λόγο να επενδύσουν σ αυτόν. Στον χώρο των επιχειρήσεων ισχύει ότι όποια επιχείρηση έχει τις καλύτερες πληροφορίες, ξέρει που να τις βρει και µπορεί να τις χρησιµοποιήσει το συντοµότερο δυνατόν τότε βρίσκεται σίγουρα σε πλεονεκτική θέση. Προκύπτει εποµένως το συµπέρασµα ότι η γνώση είναι δύναµη. Στο παρελθόν πίστευαν ότι όποιος διαθέτει τις περισσότερες πληροφορίες είναι και κερδισµένος, όµως στην σηµερινή εποχή όπου υπάρχει διαθέσιµος τεράστιος όγκος πληροφορίας η αντίληψη είναι ότι η ικανότητα αναζήτησης της σωστής πληροφορίας στον µικρότερο δυνατό χρόνο είναι αυτή που καθιστά κάποιον πραγµατικά κερδισµένο. Έχει γίνει επίσης αντιληπτό ότι η γνώση, το αποτέλεσµα της εφαρµογής των δεδοµένων δηλαδή, και όχι τα δεδοµένα αυτά καθ αυτά είναι το πλέον σηµαντικό. Εποµένως το κλειδί είναι η διαχείριση της γνώσης και ο οργανισµός/ εταιρεία που θα το καταφέρει αυτό θα έχει πλεονεκτική θέση έναντι των ανταγωνιστών που υπάρχουν. Οι παραδοσιακές τεχνικές διαχείρισης γνώσης δεν είναι τόσο αποδοτικές στο χώρο του Internet σήµερα λόγω του τεράστιου όγκου πληροφοριών που υπάρχει διαθέσιµος, της ανεπάρκειας αποδοτικών αναζητήσεων µε την χρήση λέξεων κλειδιών, της έλλειψης εµπιστοσύνης για τις πληροφορίες που παρέχονται και λόγω της έλλειψης υπολογιστών συστηµάτων που επεξεργάζονται την φυσική γλώσσα. Ο σηµασιολογικός ιστός όµως µπορεί να οργανώσει αυτήν την χαοτική κατάσταση εφόσον γίνουν και κάποιες κινήσεις από την πλευρά των χρηστών του διαδικτύου όπως η αποδοτικότερη αξιοποίηση των νέων τεχνολογιών. Στην παρακάτω εικόνα απεικονίζεται πως µία επιχείρηση µπορεί να επικεντρωθεί γύρω από τον εταιρικό σηµασιολογικό ιστό της και αυτό να έχει επίδραση σε όλους της τους τοµείς. Συγκεντρώνοντας όλα τα δεδοµένα, οργανώνοντας τα και γνωρίζοντας πως τα δεδοµένα αυτά θα αναζητηθούν/ ανακτηθούν αργότερα, µπορεί να επιτευχθεί µεγιστοποίηση κερδών. Εικόνα 8: Χρήσεις του σηµασιολογικού ιστού σε µία επιχείρηση [59]

76 Ένα από τα περισσότερο πιθανά σενάρια είναι ότι µία επιχείρηση διαθέτει πολλές πληροφορίες τις οποίες δεν χρησιµοποιεί. Αν ένας οργανισµός είναι τεράστιος τότε µπορεί να υπάρχουν έργα µέσα σ αυτόν που υλοποιούν τα ίδια πράγµατα δύο ή και περισσότερες φορές. Αν όµως αυτός ο οργανισµός διέθετε µία συλλογική βάση γνώσης στην οποία θα µπορούσε να γίνει αναζήτηση και ανάλυση από software agents, τότε θα µπορούσαν να κατασκευαστούν web-based εφαρµογές που θα εξοικονοµούσαν τόσο χρόνο όσο και χρήµατα. Παρακάτω παρουσιάζονται µερικά παραδείγµατα αυτού του είδους Υποστήριξη αποφάσεων ιαθέτοντας την γνώση και όχι απλά τα δεδοµένα µπορεί να ευνοήσει την λήψη αποφάσεων σε µία επιχείρηση. Η χρήση του σηµασιολογικού ιστού µε την εφαρµογή software agents που ανακαλύπτουν κρυφές σχέσεις ανάµεσα σε δεδοµένα, τα οποία έχουν αποθηκευθεί σε βάσεις δεδοµένων, µπορεί να παίξει σηµαντικό ρόλο στην λήψη αποφάσεων µίας επιχείρησης. Λόγω του ότι οι διάφορες επιχειρήσεις έχουν διαφορετικές βάσεις δεδοµένων και servers, όσα συστήµατα υποστήριξης αποφάσεων κατασκευάστηκαν ήταν µεµονωµένα γι αυτές τις επιχειρήσεις. Έγιναν όµως πάρα πολλές προσπάθειες ώστε τα συστήµατα αυτά να µπορούν να επικοινωνήσουν µεταξύ τους και µε την έλευση των web services αυτό κατέστει δυνατό. Οι επιχειρήσεις έχουν µικρότερους οργανισµούς, τµήµατα και έργα τα οποία περιέχουν πηγές πληροφορίας. Προκειµένου να γίνει αποδοτική διαχείριση όλης αυτής της γνώσης είναι απαραίτητος ο συνδυασµός των πληροφοριών από όλες αυτές τις µονάδες και η κατανόηση των σχέσεων ανάµεσα στις πληροφορίες αυτές. Ένα παράδειγµα διαχείρισης γνώσης είναι η αναφορά της κατάστασης του κάθε εργαζοµένου (status report process). Με βάση αυτή ένας εργαζόµενος γράφει µία αναφορά σχετικά µε την πρόοδο των εργασιών που έχει αναλάβει. Ο προϊστάµενος µαζεύει όλες τις αναφορές των εργαζοµένων ενός τµήµατος και τις συνδυάζει σε µία αναφορά προόδου για το έργο. Ο προϊστάµενος των υπεύθυνων έργων ενός τµήµατος µαζεύει τις αναφορές των υπεύθυνων έργων για τα έργα που έχουν στον τοµέα τους, τις συνδυάζει και γράφει µία αναφορά για όλο τον τοµέα. Ο προϊστάµενος του τελευταίου µαζεύει και συνδυάζει τις αναφορές από τους τοµείς της επιχείρησης και γράφει µία αναφορά για όλη την εταιρεία την οποία παραδίδει στον πρόεδρο της εταιρείας. Κατά την διάρκεια όλης αυτής της διαδικασίας, οι πληροφορίες φιλτράρονται ώστε στο τέλος να γραφεί µία κατανοητή αναφορά µε βάση την οποία θα µπορούν να ληφθούν αποφάσεις. υστυχώς, κάποιες σηµαντικές πληροφορίες ή η αποτύπωση σχέσεων ανάµεσα σε διάφορα έργα µπορεί να µην συµπεριληφθούν στην τελική αναφορά. Γίνεται αρκετή έρευνα ώστε να κατασκευαστούν σηµασιολογικά ικανά συστήµατα υποστήριξης αποφάσεων που επικεντρώνονται στην ανάλυση των software agents και στην αλληλεπίδραση ανάµεσα στον τελικό χρήστη και στο υπολογιστικό σύστηµα υποστήριξης αποφάσεων, ώστε ο τελικός χρήστης να λαµβάνει τις καλύτερες δυνατές αποφάσεις. Ακόµα όµως και χωρίς τα συστήµατα υποστήριξης αποφάσεων, οι [60]

77 software agents µπορούν να παρακολουθούν την βάση γνώσης µίας επιχείρησης και να εµφανίζουν κατάλληλα µηνύµατα. Για να ληφθούν όµως ανώτερες αποφάσεις απαιτείται η ύπαρξη ανώτερης γνώσης και ο σηµασιολογικός ιστός βοηθά στο να φθάσει µία επιχείρηση σ αυτήν την γνώση Ανάπτυξη επιχειρήσεων Είναι πολύ σηµαντικό για τα µέλη ενός οργανισµού να έχουν όσο το δυνατόν περισσότερο ενηµερωµένες πληροφορίες που µπορούν να συµβάλουν στην ανάπτυξη της επιχείρησης. Οι ανταγωνιστικές προσφορές µπορούν να θεωρηθούν ως µία χρήση του σηµασιολογικού ιστού της εταιρείας. Αν κάποιος διαθέτει περισσότερη γνώση για τους µελλοντικούς του πελάτες και για τις απαιτήσεις που έχουν, τότε έχει περισσότερες πιθανότητες να συνεργαστεί µαζί τους σε αντίθεση µε κάποιον που δεν έχει επαρκή πληροφόρηση. Αν σε µία επιχείρηση υπήρχε µία διαρκώς αυξανόµενη βάση γνώσης στην οποία παλιές αναφορές, προτάσεις, µαθήµατα, γνώση από τα διάφορα έργα της επιχείρησης αλληλοσυνδέονταν, τότε υπάρχει περίπτωση όλο αυτό το υλικό που είναι αποθηκευµένο στην βάση γνώσης να χρησιµοποιηθεί για κάποια µελλοντική πρόταση για έργο. Επίσης αν η οµάδα που κάνει προτάσεις για τα έργα της επιχείρησης, είχε την δυνατότητα να εισάγει πληροφορίες στην βάση γνώσης και υπήρχε ένας software agent που θα ανέλυε αυτές τις πληροφορίες τότε θα µπορούσε να γίνει σύνδεση όλων αυτών των στοιχείων και να εξαχθούν πληροφορίες που µπορεί να µην ήταν από την αρχή προφανείς. Το customer relationship management (CRM) επιτρέπει την συνεργασία ανάµεσα σε εταίρους, πελάτες και υπαλλήλους παρέχοντας σχετικές και προσωποποιηµένες πληροφορίες από µία ποικιλία πηγών δεδοµένων του οργανισµού. Τα CRM συστήµατα παίζουν πολύ σηµαντικό ρόλο πια σε µία επιχείρηση καθώς βοηθούν στην διατήρηση της εµπιστοσύνης των πελατών. Οι ειδικοί της βιοµηχανίας του ηλεκτρονικού εµπορίου θεωρούν ότι ο σηµασιολογικός ιστός µπορεί να χρησιµοποιηθεί στο ταίριασµα (matchmaking) της βιοµηχανίας αυτής µε άλλες βιοµηχανίες. Το matchmaking είναι η διαδικασία κατά την οποία οι επιχειρήσεις έρχονται σε επαφή µε πιθανούς συνεργάτες ή πελάτες. Παραδοσιακά, αυτή η διαδικασία γίνεται από εξειδικευµένους υπαλλήλους και πολλοί έχουν προτείνει να δηµιουργηθεί µία υπηρεσία όπου θα διαχειρίζεται τις διαφηµιστικές υπηρεσίες και θα εκτελεί διάφορα queries σ αυτές. Οι ειδικοί όµως υποστηρίζουν ότι µόνο οι τεχνολογίες του σηµασιολογικού ιστού µπορούν να εκπληρώσουν ικανοποιητικά αυτές τις απαιτήσεις και πιστεύουν ότι ο σηµασιολογικός ιστός µπορεί να αυτοµατοποιήσει την διαδικασία του matchmaking και των διαπραγµατεύσεων. Συµπερασµατικά, οι ευκαιρίες για την µεγιστοποίηση των δυνατοτήτων µίας επιχείρησης µε την χρήση των τεχνολογιών του σηµασιολογικού ιστού είναι απεριόριστες. [61]

78 4.9.3 Διαμοιρασμός πληροφοριών και εύρεση γνώσης Ο διαµοιρασµός των πληροφοριών και η επικοινωνία είναι πολύ σηµαντικές σε κάθε επιχείρηση, όµως καθώς η πληθώρα των επιχειρήσεων αναπτύσσονται και συλλέγουν όλο και περισσότερες πληροφορίες καθιστούν τις προαναφερθείσες δραστηριότητες αρκετά απαιτητικές και χρονοβόρες. Όταν οι επιχειρήσεις µεγαλώνουν τα κενά επικοινωνίας διογκώνονται. Με µία µικρή προσπάθεια όµως, µία συλλογική βάση γνώσης µέσα στην επιχείρηση θα µπορούσε να περιλαµβάνει µία καταγραφή των έργων και των οµάδων που απασχολούνται σ αυτά τα έργα µέσα σε µία επιχείρηση και θα βοηθούσε τους υπαλλήλους να βρουν διάφορες πληροφορίες που τους ενδιαφέρουν. Επίσης όταν οι υπάλληλοι µίας επιχείρησης φεύγουν, παίρνουν µαζί τους ένα αναντικατάστατο µέρος γνώσης που δεν αποθηκεύεται κάπου και το οποίο έχει αποκτηθεί κατά την παραµονή τους στην επιχείρηση. Αν όµως υπήρχε η δυνατότητα να διατηρηθεί όλη η δουλειά ενός υπαλλήλου σε µία βάση γνώσης µέσα στην επιχείρηση, ούτως ώστε όλοι οι υπάλληλοι της εταιρείας να µπορούν να έχουν πρόσβαση σε έγγραφα, s, σηµειώσεις, κωδικούς τότε η επιχείρηση θα είχε ένα πολύ µεγάλο πλεονέκτηµα έναντι άλλων επιχειρήσεων. Επίσης αν οι πληροφορίες αυτές µπορούσαν να αποθηκευθούν µε την προσθήκη µεταδεδοµένων σε µία µορφή που να την καταλαβαίνουν οι µηχανές, όπως το RDF, τότε η βάση γνώσης της εταιρείας θα µπορούσε να εµπλουτιστεί ακόµα περισσότερο. Οι τεχνολογίες του σηµασιολογικού ιστού µπορούν να βοηθήσουν στην καταγραφή αυτού του είδους των πληροφοριών Διαχείριση και αυτοματισμός Μέχρι τώρα έχει γίνει αναφορά σε παραδείγµατα διαµοιρασµού γνώσης µέσα σε µία επιχείρηση και ένα πλεονέκτηµα ύπαρξης µίας τέτοιας βάσης γνώσης είναι η δυνατότητα αυτοµατοποίησης διαφόρων διαχειριστικών εργασιών µε την χρήση προγραµµάτων λογισµικού. Για παράδειγµα, η κράτηση εισιτηρίων για ταξίδια είναι ένας τοµέας όπου ο σηµασιολογικός ιστός και οι web services µπορούν να απλουστεύσουν µία αρκετά πολύπλοκη και χρονοβόρα εργασία. Αν οι προτιµήσεις των ταξιδιωτών και οι διάφοροι περιορισµοί που µπορεί να υπάρχουν σε κάποιο ταξίδι, είναι καταχωρηµένοι σε µία βάση γνώσης της επιχείρησης τότε ένα πρόγραµµα θα µπορούσε να κάνει όλους τους απαραίτητους υπολογισµούς και στο τέλος να προτείνει µία ολοκληρωµένη λύση για ένα ταξίδι η οποία να συνάδει µε τις προτιµήσεις του ταξιδιώτη. Έχοντας πρόσβαση σε tags του σηµασιολογικού ιστού που αφορούν online ταξιδιωτικές και ξενοδοχειακές υπηρεσίες, η προαναφερθείσα εφαρµογή θα µπορούσε να συγκρίνει και να αξιολογεί τις διάφορες επιλογές και να παρουσιάζει µία λίστα µε επιλογές που ταιριάζουν όσον το δυνατό περισσότερο στις προτιµήσεις του ταξιδιώτη. Συµπερασµατικά οι semantic web-enabled web services έχουν την δυνατότητα να αυτοµατοποιήσουν κουραστικές και περίπλοκες δουλειές µέσα σε µία επιχείρηση. [62]

79 5 Οντολογίες [63]

80 [64]

81 5 ΟΝΤΟΛΟΓΙΕΣ Όπως αναφέρθηκε και στο προηγούµενο κεφάλαιο, οι οντολογίες αποτελούν δοµικό στοιχείο του σηµασιολογικού ιστού συµβάλλοντας στην επαναχρησιµοποίηση και στον διαµοιρασµό της γνώσης. Η ραγδαία ανάπτυξη του Παγκόσµιου Ιστού καθώς και η ανάγκη για αποδοτικότερη συνεργασία µεταξύ των υπολογιστικών µηχανών, οδήγησαν στο όλο και αυξανόµενο ενδιαφέρον για τον χώρο αυτό. Στο κεφάλαιο αυτό γίνεται εκτενής αναφορά στην έννοια της οντολογίας, στα είδη που υπάρχουν καθώς και στα επίπεδα αναπαράστασης αυτών. 5.1 Εισαγωγή Με την ανάπτυξη του Παγκόσµιου Ιστού δηµιουργήθηκε η ανάγκη για επαναχρησιµοποίηση και διαµοιρασµό της γνώσης. Οι οντολογίες στοχεύουν στην εκπλήρωση αυτής της ανάγκης µετατοπίζοντας το σηµείο εστίασης στο σχεδιασµό συστηµάτων µακριά από τις τεχνολογίες υλοποίησης αλλά προς λύσεις οι οποίες λειτουργούν τόσο στο επίπεδο της τεχνολογίας όσο και στο επίπεδο της γνώσης. Η λέξη «οντολογία» αποτελεί ένα διαδεδοµένο όρο µεταξύ προγραµµατιστών αλλά δεν είναι προφανής η σηµασία του σε όλους. Όπως αφήνει να διαφανεί ετυµολογικά η ονοµασία της, σχετίζεται µε τη φύση των όντων και εποµένως µε καθετί που τα περιγράφει, τα προσδιορίζει και τα διαχωρίζει µεταξύ τους. Την τελευταία δεκαετία το ενδιαφέρον για οντολογίες µεταβλήθηκε από αναδυόµενο επιστηµονικό θέµα έρευνας σε κυρίαρχο ενδιαφέρον της επιστήµης των υπολογιστών και της ανάπτυξης λογισµικού. Η µεταβολή αυτή οφείλεται κυρίως στην έξαρση της ανάπτυξης του Παγκόσµιου Ιστού και της ανάγκης για µεγαλύτερη συνεργασία και αλληλεπιδραστικότητα µεταξύ υπολογιστικών µηχανών και προγραµµάτων, γεγονός που τονίζεται και στο όραµα του Σηµασιολογικού ιστού από τον Tim B. Lee (Daconta M., Obrst L., Smith K., 2003). Τα δύο ακόλουθα παραδείγµατα επιχειρούν να περιγράψουν τη χρησιµότητα και εποµένως την έννοια των οντολογιών πριν παρουσιαστούν κάποιοι πιο τυπικοί ορισµοί τους. Έστω ότι κάποια στιγµή είναι εφικτό το ταξίδι στο µέλλον και φτάνοντας εκεί ο ταξιδιώτης διαπιστώνει πως πλέον άλλα νοήµονα όντα έχουν κυριαρχήσει στη γη αντί των ανθρώπων, τα οποία µιλάνε µια εντελώς διαφορετική γλώσσα. Θέλοντας να τους δηλώσει τη φιλική του διάθεση και την ανάγκη του για προµήθειες τροφίµων βρίσκεται µπροστά στο πρόβληµα της περιγραφής αυτής της ανάγκης σε κάποιους που πιθανότατα έχουν τελείως διαφορετική αντίληψη του κόσµου. Έστω από την άλλη ότι ένα προηγµένο ροµπότ που βρίσκεται υπό την υπηρεσία ενός ανθρώπου θέλει να βρει την καλύτερη προσφορά διακοπών στο Ντουµπάι. Το [65]

82 Εικόνα 9: Εξέλιξη του Παγκόσµιου Ιστού ροµπότ γνωρίζει µια διαδικτυακή υπηρεσία που παρέχει καλές τιµές και αποφασίζει να έρθει σε επικοινωνία µαζί της για να ακούσει τις προσφορές της. Το πρόβληµα είναι πως η υπηρεσία αυτή δε µοιάζει µε καµία από όσες είχε ξαναδεί το ροµπότ και δεν είναι σίγουρο πως θα καταλάβει το αίτηµά του. Τα δύο σενάρια µοιράζονται κάποια κοινά χαρακτηριστικά. Και στις δυο περιπτώσεις, ένας πράκτορας (είτε άνθρωπος είτε µηχανή) προσπαθεί να επικοινωνήσει µε έναν άλλο πράκτορα ώστε να εξυπηρετήσει ένα αίτηµά του. Το εµπόδιο που πρέπει να ξεπεραστεί είναι το ίδιο και έγκειται στην έλλειψη επικοινωνίας και αµφίδροµης κατανόησης. ηλαδή στο επίπεδο της επεξεργασίας των µηνυµάτων που στέλνονται και της κατανόησής τους. Στην πρώτη περίπτωση θα µπορούσε απλώς να ζητήσει τρόφιµα αλλά πως θα ήταν βέβαιος ότι η λέξη «τρόφιµα» θα γινόταν κατανοητή; Επιπλέον, η έννοια της τροφής θα ήταν κατανοητή από όντα που πιθανόν να µην έχουν το ίδιο τρόπο λήψης τροφής µε εµάς; Με άλλα λόγια, η αποδοτικότητα της επικοινωνίας µεταξύ πρακτόρων απαιτεί µια κοινή ορολογία (ή γλώσσα) και µια κοινή εννοιολογική αντιµετώπιση (ή σηµασία) για τα διάφορα αντικείµενα. Αυτό το ρόλο καλείται να παίξει µια οντολογία. Μια οντολογία λοιπόν είναι µια κατανοητή από µηχανές αναπαράσταση της ορολογίας µιας θεµατικής περιοχής και των σχέσεων µεταξύ των όρων που ανήκουν στην περιοχή αυτή. Άλλοι ορισµοί του όρου οντολογία και των στοιχείων που την αποτελούν είναι και οι ακόλουθοι: Μια οντολογία είναι ένα σύνολο εννοιών όπως αντικείµενα, συµβάντα και σχέσεις που καθορίζονται µε έναν ορισµένο τρόπο, µε στόχο τη δηµιουργία ενός κοινά αποδεκτού λεξικού ανταλλαγής πληροφοριών (What is Ontology). Οντολογία είναι µια κοινή κατανόηση µιας θεµατικής περιοχής ενδιαφέροντος (Kalyanpur Aditya, Parsia Bijan, Hendler James, 2005). [66]

83 Οντολογία είναι ένας τυπικός και ξεκάθαρα σαφής προσδιορισµός µιας εννοιολογικής σύλληψης (T. R. Gruber, 2003). Μια εναλλακτική προσέγγιση είναι ο προσδιορισµός µιας οντολογίας µέσω των ερωτήσεων που ακολουθούν. Εάν µπορούν όλες να απαντηθούν καταφατικά τότε το εξεταζόµενο µοντέλο γνώσης µπορεί να θεωρηθεί οντολογία. Αποτελεί µια δηλωτική και ξεκάθαρα σαφής αναπαράσταση µιας θεµατικής περιοχής; Είναι αναγνώσιµη από µηχανές; Τυγχάνει ευρείας αποδοχής, δηλαδή την έχουν κρίνει, αναθεωρήσει και καταλήξει στους όρους και τις σχέσεις τους που θα πρέπει να περιέχει αρκετοί άνθρωποι που ασχολούνται µε το αντικείµενο; Μπορεί να χρησιµοποιηθεί για να λύσει περισσότερα του ενός προβλήµατα στη θεµατική περιοχή; Θα χρησιµοποιηθεί σε πολλαπλές εφαρµογές; Είναι σταθερή (αλλάζοντας ελάχιστα µε την πάροδο του χρόνου) και χρησιµοποιείται ήδη για αξιόλογο χρονικό διάστηµα; Θα µπορούσε κάποιος να χρησιµοποιεί ήδη κάτι που να πληροί τα παραπάνω κριτήρια αλλά να χρησιµοποιεί άλλο όνοµα για να το περιγράψει, όπως µοντέλο εννοιών θεµατικής περιοχής ή σχήµα εφαρµογής. Σε αυτή τη περίπτωση έχει χρησιµοποιήσει ήδη πρακτικές ανάπτυξης λογισµικού για την αξιοποίηση ωφέλιµων χαρακτηριστικών των οντολογιών κάτω από την κάλυψη ενός διαφορετικού ονόµατος. Όταν λοιπόν συµφωνεί κάποιος στη χρήση µιας οντολογίας, αποδέχεται τα περιεχόµενά της και δεσµεύεται να χρησιµοποιήσει την ορολογία της και να διατηρήσει τις σχέσεις που περιέχει. Για να είναι αποδοτική και αξιόπιστη η επικοινωνία µεταξύ δύο πρακτόρων θα πρέπει και οι δύο να έχουν συµφωνήσει στη χρήση της ίδιας οντολογίας για τη θεµατική περιοχή που τους ενδιαφέρει. Με άλλα λόγια, εάν οι πράκτορες δεν µοιράζονται µια κοινή κατανόηση της θεµατικής ενότητας τότε σίγουρα θα υπάρξουν παρεξηγήσεις. Τέτοιου είδους παρεξηγήσεις οφείλονται σε οντολογικές ασυµφωνίες (ontological mismatches), οι οποίες είναι ιδιαίτερα δύσκολο να εντοπιστούν όταν οι πράκτορες χρησιµοποιούν παραπλήσιες αλλά όχι ίδιες οντολογίες. Ο εντοπισµός και η επιδιόρθωση τέτοιων ασυµφωνιών είναι ένα δύσκολο πρόβληµα, ανοικτό στην παγκόσµια ερευνητική κοινότητα. Το κίνητρο για την ανάπτυξη, εφαρµογή και διάδοση οντολογιών είναι η καταγραφή γνώσης µε έναν ξεκάθαρο και διακριτό τρόπο, δυνατό για επεξεργασία και ανάγνωση τόσο από ανθρώπους όσο και από µηχανές, απελευθερωµένης από τις λεπτοµέρειες χιλιάδων γραµµών κώδικα συστήµατος. Επιπλέον, οι τεχνολογίες που χρησιµοποιούνται για την κατασκευή υπολογιστικών συστηµάτων αλλάζουν συχνά, σε αντίθεση µε την αναπαράσταση µιας θεµατικής ενότητας µε τη µορφή µιας οντολογίας η οποία είναι αρκετά πιο ανεπηρέαστη στις τεχνολογικές εξελίξεις και πιο ελεύθερη από περιορισµούς υλοποίησης των διάφορων εφαρµογών. Συνεπώς, η χρήση οντολογίας αποσκοπεί στη διαχρονικότητα των πληροφοριών, την ανεξαρτησία των δεδοµένων από την εκάστοτε υλοποίηση και την επαναχρησιµοποίηση της σε πολλαπλές ξεχωριστές εφαρµογές. Επιπρόσθετα, παρέχει µια κοινή ονοµατολογία όρων για τους ανθρώπους που αναπτύσσουν ένα σύστηµα βοηθώντας στην αποφυγή παρεξηγήσεων µεταξύ των [67]

84 µελών της οµάδας ανάπτυξης. Τέλος, είναι εξίσου σηµαντικά τα οφέλη από την προώθηση της οντολογίας από τους παρόχους κάποιας υπηρεσίας στους πελάτες τους, ώστε να τους βοηθήσει στην προσπάθεια αναγνώρισης και κατανόησης τυχόν διαφορών µεταξύ της δικιάς τους άποψης για κάποια θεµατική ενότητα και της άποψης των παρόχων. Απαραίτητο βήµα για κάποιον που σχεδιάζει να χρησιµοποιήσει µια οντολογία σε κάποια εφαρµογή είναι πρώτα ο έλεγχος µεταξύ των υπαρχόντων οντολογιών στο Παγκόσµιο Ιστό, εάν κάποια από αυτές καλύπτει τις απαιτήσεις του. Εάν βρεθεί η κατάλληλη τότε αποφεύγεται ο κόπος σχεδιασµού µιας οντολογίας από την αρχή και επιπλέον, ίσως να είναι επιτεύξιµο κάποιο όφελος από την ανταλλαγή γνώσεων µεταξύ των διάφορων εφαρµογών που ήδη χρησιµοποιούν την οντολογία αυτή και της νέας υπό ανάπτυξη εφαρµογής. Ο βαθµός επαναχρησιµοποίησης µιας οντολογίας εξαρτάται και από το πόσο γενικευµένη είναι αυτή. Όσο πιο γενική είναι µια έννοια που περιγράφεται τόσο πιο πιθανή είναι η επαναχρησιµοποίηση της και για διαφορετικές εφαρµογές. Καθώς η γενικοί όροι συνήθως τοποθετούνται ψηλά στα επίπεδα της ιεραρχικής κληρονοµικότητας, οι συλλογές που περιγράφουν τέτοιες έννοιες είναι γνωστές ως άνω οντολογίες (upper ontologies). Μερικές από τις πιο γνωστές είναι οι CYC και OpenCYC, Sumo, Wordnet, µε την τελευταία να είναι περισσότερο χρήσιµη στην κατασκευή οντολογιών παρά ως οντολογία για απευθείας χρήση σε κάποια εφαρµογή. 5.2 Ορισμός Οι οντολογίες εµφανίστηκαν ως εναλλακτικός τρόπος αναπαράστασης γνώσης στον κλάδο της Τεχνητής Νοηµοσύνης (W Shen, D Norrie, 1999). Στη σύγχρονη εποχή αποτελούν πεδίο ενδιαφέροντος σε διαφορετικούς τοµείς έρευνας και η χρησιµότητα τους µπορεί να φανεί σε ένα µεγάλο αριθµό εφαρµογών. Η οντολογία, σύµφωνα µε τους Studer et al (J. Christensen, 1994), οι οποίοι συγχωνεύουν παλαιότερους ορισµούς των Gruber (Fischer K., 1999) και Borst (Adriana Giret, 2005), ορίζεται ως εξής: Η οντολογία συνιστά ένα τυπικό και σαφή προσδιορισµό µίας κοινής σύλληψης ενός εννοιολογικού µοντέλου. Με το εννοιολογικό µοντέλο εννοούµε ένα αφηρηµένο µοντέλο κάποιου φαινόµενου στον κόσµο, το οποίο έχει δηµιουργηθεί µε την αναγνώριση των εννοιών των σχετικών µε το φαινόµενο αυτό. Το "σαφής" σηµαίνει ότι το είδος των χρησιµοποιούµενων εννοιών, καθώς και οι περιορισµοί στη χρήση τους είναι σαφώς καθορισµένοι. Το "τυπικός" σηµαίνει ότι η οντολογία θα πρέπει να είναι αναγνώσιµη από µηχανές. Το "κοινή" υποδηλώνει το ότι η οντολογία εκφράζει συλλογική γνώση, δηλαδή όχι τη γνώση ενός ατόµου παρά τη γνώση που είναι κοινώς αποδεκτή από µία οµάδα (Luder, Arndt, Peschke, Jorn,Deter, Steffen, Bratoukhine, Alexei). Από τα παραπάνω συνάγεται ότι οι οντολογίες αποτελούν µία κοινή αντίληψη για ένα θεµατικό πεδίο και συνίστανται από ένα σύνολο εννοιών, οι οποίες έχουν [68]

85 καθορισµένη σηµασία και συσχετίζονται. Τεχνολογικά θα µµπορούσε κανείς να την παροµοιάσει µε µία βάση δεδοµένων, η οποία αποτελείται από τρία βασικά στοιχεία: α) το γλωσσικό στοιχείο που αντιπροσωπεύει τις έννοιες β) το περιεχόµενο, δηλαδή, το σύνολο των εννοιών που απαρτίζουν την οντολογία (το γνωσιακό µοντέλο ενός συγκεκριµένου θεµατικού πεδίου γ) το λογισµικό διαχείρισης της οντολογίας Εικόνα 10: Αναπαράσταση οντολογίας 5.3 Είδη οντολογιών Στη παρούσα παράγραφο επιχειρείται µία συνοπτική, µη εξαντλητική παρουσίαση των πιο γνωστών και ευρύτερα χρησιµοποιούµενων οντολογιών, οι οποίες ξεχωρίζουν λόγω της χρησιµοποίησής τους σε σηµαίνοντα προγράµµατα, της θεωρητικής τους συµβολής, της λειτουργίας τους ως βάσης για την παγίωση σχεδιαστικών κριτηρίων και µεθοδολογιών κλπ. Συγκεκριµένα, παρουσιάζονται 4 είδη οντολογιών (Luder, Arndt, Peschke, Jorn,Deter, Steffen, Bratoukhine, Alexei): 1. Οντολογίες αναπαράστασης γνώσης (Knowledge representation ontologies) 2. Οντολογίες ανώτατου επιπέδου (Top-level ontologies) 3. Γλωσσολογικές οντολογίες (Linguistic ontologies) 4. Οντολογίες θεµατικών πεδίων (Domain ontologies) Οντολογίες αναπαράστασης γνώσης Μία οντολογία αναπαράστασης γνώσης (Knowledge representation ontology) συγκεντρώνει τα αρχέτυπα µοντελοποίησης, τα οποία χρησιµοποιούνται για την [69]

86 τυποποίηση της γνώσης σε ένα παράδειγµα αναπαράστασης γνώσης. Τέτοια αρχέτυπα είναι, για παράδειγµα, οι τάξεις (classes) οι σχέσεις (relations), τα χαρακτηριστικά (attributes) κ.ά. Μερικές από τις οντολογίες αυτού του τύπου είναι οι ακόλουθες: Frame Ontology, RDF, OIL, OWL κ.ά Οντολογίες ανώτατου είδους Οι οντολογίες ανώτατου επιπέδου (Top-level ontologies) περιγράφουν πολύ γενικές έννοιες, κοινές σε όλα τα θεµατικά πεδία, µε τις οποίες θα πρέπει να συνδέονται όλοι οι όροι των υπαρχουσών οντολογιών. Ορισµένες φορές αυτού του είδους οι οντολογίες χρησιµοποιούνται ως βάση για την ανάπτυξη οντολογιών θεµατικών πεδίων, αν και η συνηθέστερη τακτική είναι η κατασκευή των τελευταίων και στη συνέχεια η σύνδεσή τους µε οντολογίες ανώτατου επιπέδου. Κατά προτίµηση, οι οντολογίες ανώτατου επιπέδου θα πρέπει να είναι: Καθολικές. Κάθε έννοια οποιασδήποτε οντολογίας µπορεί να συνδεθεί σε κατάλληλους κόµβους της οντολογίας ανώτατου επιπέδου. Συνεκτικές. Κάθε έννοια της οντολογίας ανώτατου επιπέδου πρέπει να είναι αιτιολογηµένη. Στις οντολογίες ανώτατου επιπέδου περιλαµβάνονται, µεταξύ άλλων, οι οντολογίες καθολικών και συγκεκριµένων εννοιών (top-level ontologies of universals and particulars), η οντολογία Sowa, η οντολογία Cyc κ.ά Γλωσσολογικές οντολογίες Ο σκοπός των οντολογιών αυτού του τύπου (Linguistic ontologies) είναι η περιγραφή σηµασιολογικών δοµηµάτων παρά η µοντελοποίηση ενός συγκεκριµένου θεµατικού πεδίου. Καλύπτουν ένα αρκετά ετερογενές φάσµα πόρων, που χρησιµοποιούνται κατά κύριο λόγο στην επεξεργασία φυσικής γλώσσας (Natural Language Processing NLP). Το βασικό χαρακτηριστικό τέτοιων οντολογιών είναι το ότι συναρτώνται προς τη σηµασιολογία των γραµµατικών µονάδων (λέξεων, ονοµατικών συστατικών, επιθέτων κλπ.). Στις γλωσσολογικές οντολογίες συγκαταλέγονται οι εξής: WordNet, The Mikrokosmos ontology, Sensus κ.ά Οντολογίες θεματικών πεδίων Οι οντολογίες θεµατικών πεδίων (Domain ontologies) είναι επαναχρησιµοποιήσιµα λεξιλόγια: [70]

87 των εννοιών ενός θεµατικού πεδίου και των σχέσεων µεταξύ αυτών, των δραστηριοτήτων που λαµβάνουν χώρα σε αυτό το θεµατικό πεδίο και των θεωριών και των στοιχειωδών αρχών που διέπουν το εν λόγω θεµατικό πεδίο. Οι υπάρχουσες οντολογίες αυτού του τύπου καλύπτουν τα θεµατικά πεδία του ηλεκτρονικού εµπορίου (UNSPSC, RosettaNet), της Ιατρικής (GALEN, UMLS), του προγραµµατισµού (EngMath), της επιχειρησιακής δραστηριότητας (Enterprise Ontology, TOVE), της Χηµείας (Chemical Elements, Ions) κ.ά. 5.4 Επίπεδα αναπαράστασης οντολογιών Όταν γίνεται αναφορά σε οντολογίες, είναι αναγκαίο να γίνει διαχωρισµός ανάµεσα σε ένα αριθµό από επίπεδα αναπαράστασης. Αυτή η διαφοροποίηση είναι απαραίτητη αφού οι οντολογίες µπορούν να θεωρηθούν ως γλώσσες ή συντακτικά λεξικά (syntactic vocabularies) που έχουν σηµασιολογία. Επιπλέον, επειδή οι οντολογίες έχουν σχέση µε τον περιεχόµενο και το περιεχόµενο µπορεί να εκφραστεί χρησιµοποιώντας µία γλώσσα περιεχοµένου (content language) ή όπως αλλιώς λέγονται γλώσσες αναπαράστασης γνώσης (knowledge representation language), απαιτούνται τουλάχιστον δύο επίπεδα αναπαράστασης: το επίπεδο γλωσσών αναπαράστασης γνώσης (knowledge representation language level) το οποίο αποκαλείται meta level, και το object level που είναι το επίπεδο στο οποίο αναπαριστώνται οι οντολογίες. Όµως οι έννοιες των meta και object επιπέδων εξαρτώνται από τα εκάστωτε επίπεδα στα οποία γίνεται αναφορά. Εποµένως, απαιτείται και ένα τρίτο επίπεδο το οποίο ονοµάζεται instances level. Αυτό είναι το επίπεδο στο οποίο οι κλάσεις της οντολογίας (ontology classes) υπάρχουν. Ο παρακάτω πίνακας παρουσιάζει τα τρία επίπεδα αναπαράστασης που απαιτούνται για τις οντολογίες και τους τύπους των δεδοµένων που αναπαριστώνται σε κάθε ένα από αυτά τα επίπεδα. Τα επίπεδα αυτά είναι τα : Επίπεδο 1: Το επίπεδο αναπαράστασης γνώσης (knowledge representation level) Επίπεδο 2: Αναπαράσταση της έννοιας της οντολογίας (ontology concept level) Επίπεδο 3: Παραδείγµατα της οντολογίας (ontology instance level) [71]

88 Επίπεδο Knowledge representation language level: Meta level του ontology concept level Ontology concept level: Object level του παραπάνω επιπέδου και meta level στο instance level Ontology instance level: Object level του παραπάνω επιπέδου Παραδείγµατα αναπαράστασης Κλάσεις, σχέσεις, παραδείγµατα, συναρτήσεις, ορίσµατα, ιδιότητες, περιορισµοί, κανόνες κτλ Άτοµο, τοποθεσία, γεγονός, εµπορική συναλλαγή κτλ Φλώρα Οικονόµου, Καραϊσκάκη, Αριθµός παραγγελίας κτλ Πίνακας 6: Επίπεδα αναπαράστασης των οντολογιών Στο knowledge representation language level, που είναι το υψηλότερο meta level, ορίζονται όσα θα χρησιµοποιηθούν στο ακριβώς επόµενο επίπεδο. Παραδείγµατα γλωσσών αναπαράστασης γνώσης περιλαµβάνουν και γλώσσες που προϋπήρχαν του σηµασιολογικού ιστού, όπως η KL-ONE, Ontolingua, Classic, Loom, Cycl, UML, καθώς και γλώσσες που χρησιµοποιούνται στον σηµασιολογικό ιστό όπως RDF/S, DAML+OIL, OWL. Στο δεύτερο επίπεδο, ontology concept level, οι οντολογίες ορίζονται χρησιµοποιώντας τα δεδοµένα του knowledge representation language level. Σ αυτό το επίπεδο, το ενδιαφέρον είναι εστιασµένο στην µοντελοποίηση του περιεχοµένου, της βάσης γνώσης σχετικά µε πχ τα άτοµα, τις τοποθεσίες, τα γεγονότα κλπ. Στο τρίτο και χαµηλότερο επίπεδο υπάρχουν παραδείγµατα όσων ορίστηκαν στο ακριβώς παραπάνω επίπεδο. Εποµένως αυτό το επίπεδο αφορά την βάση γνώσης, την εισαγωγή παραδειγµάτων όπως είναι πχ το «Φλώρα Οικονόµου» κλπ. Εκτός από τα επίπεδα αναπαράστασης γνώσης, οι οντολογίες χωρίζονται ανάλογα και µε τον τύπο της γνώσης που αναπαρίσταται στα διαφορετικά επίπεδα µέσα στο συνολικό επίπεδο γνώσης (στο ontology concept και instance επίπεδο που παρουσιάστηκε παραπάνω). Οι οντολογίες στην ουσία υπάρχουν σε τρία γενικά επίπεδα: το ανώτερο, το µεσαίο και το χαµηλότερο επίπεδο. Στο ανώτερο επίπεδο, οι οντολογικές πληροφορίες που αναπαρίστανται αφορούν πρωταρχικές σηµασιολογικές διαφοροποιήσεις που εφαρµόζονται σε όλες τις οντολογίες. Αυτές αφορούν βασικές διαφορές ανάµεσα σε απτά και αφηρηµένα αντικείµενα, δηλαδή αντικείµενα που µπορεί κάποιος να τα αγγίξει ή να τα ακούσει και σε αντικείµενα που δεν µπορεί να τα αντιληφθεί, ανάµεσα σε σηµασιολογίες ολότητας, δηλαδή τι αποτελεί ένα τµήµα και τι είδους σχέσεις υπάρχουν ανάµεσα σε τµήµατα και στις ολότητες. Σε πολλές περιπτώσεις υπάρχουν πολλές ερµηνείες της έννοιας της ολότητας, κάποιες µεταβατικές κάποιες όχι, κάποιες µε άλλες ιδιότητες που πρέπει να καθοριστούν σε µία οντολογία και στην συνέχεια να κληρονοµηθούν από το µεσαίο και το χαµηλότερο επίπεδο της αναπαράστασης της οντολογίας. Στην παρακάτω εικόνα απεικονίζονται τα τρία γενικά επίπεδα της οντολογίας. Στην κορυφή είναι η ανώτατη οντολογία (upper ontology). Αυτή αναπαριστά την [72]

89 συνηθισµένη γενική πληροφορία που ενώνει όλες τις οντολογίες. Στην µέση εµφανίζεται η µεσαία οντολογία. Αυτό το επίπεδο αναπαριστά γνώση που ενώνει διάφορους τοµείς και µπορεί να µην είναι τόσο γενική όσο η γνώση του ανώτατου επιπέδου. Τέλος, το χαµηλότερο επίπεδο αναπαριστά οντολογίες που αφορούν τοµείς (domains) ή υπο-τοµείς (subdomains) και αφορά συνήθως γνώση σχετικά µε περισσότερες ή λιγότερες περιοχές γνώσης. Στην εικόνα δίνεται κυρίως έµφαση στις πιθανές περιοχές ενδιαφέροντος για τον χώρο του ηλεκτρονικού εµπορίου και γενικά το ηλεκτρονικό εµπόριο έχει σηµασία για όλα τα επίπεδα και τις περιοχές της οντολογίας, επειδή το εµπόριο εµπεριέχει σχεδόν τα πάντα. Εικόνα 11: Επίπεδα Οντολογίας 5.5 Σπουδαιότητα οντολογιών Υπάρχουν δύο κύριοι λόγοι για τους οποίους οι οντολογίες θεωρούνται σηµαντικές (B.Chandrasekaran, John R.Josephson, V. Richard Benjamin, 1999). Ο πρώτος λόγος είναι ότι οι οντολογικές αναλύσεις διευκρινίζουν τη δοµή της γνώσης. Για ένα πεδίο, η οντολογία του αποτελεί το σηµείο αναφοράς οποιουδήποτε συστήµατος αναπαράστασης της γνώσης του. Χωρίς τις οντολογίες, ή τις έννοιες που αποτελούν τη βάση της γνώσης, δεν µπορεί να υπάρξει ένα λεξιλόγιο για την αναπαράσταση της γνώσης. Έτσι το πρώτο βήµα για το σχεδιασµό ενός αποτελεσµατικού συστήµατος αναπαράστασης της γνώσης και του λεξιλογίου, είναι η πραγµατοποίηση µιας ουσιαστικής οντολογικής ανάλυσης του πεδίου. Ένα παράδειγµα που δείχνει τη σηµαντικότητα µιας καλής ανάλυσης µπορεί να παρθεί από τον τοµέα των βάσεων δεδοµένων (Swartout B, Ramesh P, Knight K, Russ, [73]

90 1997). Έστω ένα πεδίο που αποτελείται από διάφορες κλάσεις ατόµων (π.χ φοιτητές, καθηγητές, υπαλλήλους, αρσενικά και θηλυκά). Αρχικά θα πρέπει να οργανωθεί µε κάποιο τρόπο αυτή η βάση δεδοµένων. Συνήθως, γίνεται καθορισµός των φοιτητών, καθηγητών, υπαλλήλων, αρσενικών και θηλυκών ως κατηγορία της κλάσης άνθρωπος. Όµως, οι φοιτητές µπορούν να είναι παράλληλα και υπάλληλοι και επίσης µπορεί να πάψουν να είναι φοιτητές. Γίνεται φανερό ότι οι όροι φοιτητής, καθηγητής και υπάλληλος δεν αποτελούν κατηγορίες της κλάσης άνθρωπος, αλλά ρόλους τους οποίους µπορεί να παίξει ένας άνθρωπος, ενώ οι όροι αρσενικό και θηλυκό είναι πιο κατάλληλοι για την αναπαράστασης υποκατηγοριών των ανθρώπων. Συνεπώς, η διευκρίνιση της ορολογίας επιτρέπει στην οντολογία να παράσχει συναφείς και συνεκτικούς συλλογισµούς. Ο δεύτερος λόγος είναι ότι οι οντολογίες επιτρέπουν τη διανοµή της γνώσης. Έστω µια ανάλυση που καταλήγει σε ένα ικανοποιητικό σύνολο εννοιών και αντιπροσωπευτικών όρων, για έναν τοµέα γνώσης, για παράδειγµα το πεδίο των ηλεκτρονικών συσκευών. Η οντολογία που θα προέκυπτε, θα περιείχε πιθανώς συγκεκριµένου πεδίου όρους, όπως το τρανζίστορ και τις διόδους, γενικούς όρους, όπως τις λειτουργίες, αιτιώδεις διαδικασίες και καταστάσεις και όρους που θα περιγράφουν τη συµπεριφορά, όπως η διαφορά δυναµικού. Η οντολογία του παραδείγµατος συλλαµβάνει την ουσιαστική εννοιολογική δοµή του πεδίου. Προκειµένου να δηµιουργηθεί µια γλώσσα αναπαράστασης της γνώσης που θα βασίζεται σε αυτή τη γνώση, θα πρέπει να συνδεθούν οι όροι µε τις έννοιες και τις σχέσεις της οντολογίας και να προκύψει η σύνταξη για την κωδικοποίηση της γνώσης όσον αφορά τις έννοιες και τις σχέσεις. Αυτή η γλώσσα αναπαράστασης της γνώσης θα µπορούσε να χρησιµοποιηθεί και από άλλους που έχουν παρόµοιες ανάγκες αναπαράστασης της γνώσης σε αυτόν τον τοµέα. Με τον τρόπο αυτό εξαλείφεται η ανάγκη για επανάληψη της ίδιας διαδικασίας ανάλυσης της γνώσης. 5.6 Κύριες λειτουργίες των οντολογιών Οι οντολογίες µπορούν να χρησιµοποιηθούν για να υποστηρίξουν µια µεγάλη ποικιλία θεµάτων σε διαφορετικές περιοχές έρευνας όπως στην αναπαράσταση της γνώσης, στην επεξεργασία της φυσικής γλώσσας, στην ανάκτηση πληροφορίας, στις βάσεις δεδοµένων, στη διαχείριση της γνώσης, στις ψηφιακές βιβλιοθήκες, στα γεωγραφικά πληροφοριακά συστήµατα, στην εικονική ανάκτηση πληροφορίας, στα πολλαπλών πρακτόρων (multiagent) συστήµατα (B.Chandrasekaran, John R.Josephson, V. Richard Benjamin, 1999). Η οντολογία παρέχει µεταδεδοµένα που περιγράφουν τα σηµασιολογικά δεδοµένα. Οι οντολογίες επιτρέπουν τη διαµοίραση της γνώσης και την επαναχρησιµοποίησή της όπου είναι δυνατή η επικοινωνία µεταξύ ανθρώπων ή λογισµικών πρακτόρων (software agents) µέσω των πληροφοριακών πόρων. Οι σηµασιολογικές σχέσεις των οντολογιών είναι αναγνωρίσιµες από τις µηχανές µε [74]

91 τέτοιο τρόπο ώστε να επιτρέπουν την υποβολή ερωτηµάτων σε µια θεµατική περιοχή και τη λήψη απαντήσεων. Από την άλλη πλευρά οι οντολογίες και ένα σύνολο από ξεχωριστά στιγµιότυπα των κλάσεών τους, χρησιµοποιούνται για τη δηµιουργία γνωστικών βάσεων που περιγράφουν συγκεκριµένες καταστάσεις. Για παράδειγµα, οι κατασκευαστές ποικίλων ηλεκτρικών συσκευών µπορούν να χρησιµοποιούν ένα κοινό λεξιλόγιο και συντακτικό για τη δηµιουργία των καταλόγων περιγραφής των προϊόντων τους. Στη συνέχεια οι κατασκευαστές µπορούν να διαµοιράζουν τους καταλόγους και να τους χρησιµοποιούν σε αυτόµατα συστήµατα σχεδίασης. Αυτός ο τρόπος διαµοίρασης αυξάνει κατά πολύ την πιθανότητα επαναχρησιµοποίησης της γνώσης. Γενικότερα οι πράκτορες µπορούν να υποβάλλουν ερωτήµατα στις γνωστικές βάσεις µε σκοπό τον εµπλουτισµό, την επαναχρησιµοποίηση και τη διατήρηση των βάσεων. Οι οντολογίες αποθηκεύουν τοπικά την ανεξάρτητη πληροφορία σε αντίθεση µε τις γνωστικές βάσεις. Επιπροσθέτως, οι οντολογίες µπορούν να χρησιµοποιηθούν ως αποθήκες ώστε να βοηθήσουν στην οργάνωση της πληροφορίας σε συγκεκριµένες κοινότητες. Μπορούν να χρησιµοποιηθούν επίσης ως εργαλείο απόκτησης γνώσης ( πολλές συνεργατικές οµάδες χρησιµοποιούν τις οντολογίες ως εργαλείο υποστήριξης για την ταξινόµηση των γνώσεων ενός οργανισµού). Οι οντολογίες επιτρέπουν στους χρήστες να επαναχρησιµοποιήσουν προϋπάρχουσα γνώση και σε νέα συστήµατα. Μπορούν να διαµορφώσουν µια βάση για την κατασκευή νέων γλωσσών αναπαράστασης γνώσης. Μερικές ετερογενείς πληροφοριακές πηγές, όπως για παράδειγµα οι ψηφιακές βιβλιοθήκες, µπορούν να ωφεληθούν µε την ενσωµάτωση οντολογιών σε αυτές. Πολλές εφαρµογές χρησιµοποιούν µια οντολογία για την ενσωµάτωση πληροφοριακών πόρων και άλλες επιτρέπουν σε κάθε πόρο να χρησιµοποιεί τη δική του οντολογία. Επιπλέον κάθε χρήστης µπορεί να έχει τη δική του οντολογία ανάλογα µε τα ενδιαφέροντά του, τη γλώσσα του και το στόχο του. Εποµένως οι οντολογίες παρέχουν µια πηγή µε ρητά καθορισµένους όρους. 5.7 Γλώσσες ανάπτυξης οντολογιών Η επιλογή της γλώσσας περιγραφής είναι σηµαντική για την ανάπτυξη της οντολογίας. H εκφραστικότητα της παίζει καθοριστικό ρόλο για το είδος των σχέσεων και των εννοιών που θα αναπαρασταθούν. Στην παρούσα ενότητα θα παρουσιαστούν οι σηµαντικότερες επισηµειωτικές γλώσσες ανάπτυξης οντολογιών, δηλαδή αυτές που περιγράφονται από κάποιο είδος αρχείου xml. Η παρουσίαση θα σχετίζεται µε τις εκφραστικές δυνατότητες της γλώσσας. Στην ακόλουθη λίστα παρουσιάζονται οι σηµαντικότερες από τις επισηµειωτικές γλώσσες. SHOE (Luke S, Heflin JD, 2000) XOL (Karp PD, Chaudhri V, Thomere J, 1999) [75]

92 RDF(S) (Resource Description Framework Schema) (Resource Description Framework (RDF) Model and Syntax Specification. W3C Recommendation) OIL (Ontology Interchange Language, Ontology Inference Layer) (D. Fensel, F. van Harmelen, I. Horrocks, D. L. McGuinness and P. F. Patel-Schneider, 2001) DAML+OIL (DARPA Agent Markup Language) (Horrocks I, van Harmelen F (eds), 2001) OWL (Ontology Web Language) (Dean M, Schreiber G, 2003) Η SHOE είναι µία γλώσσα, η οποία έχει αναπτυχθεί για το χαρακτηρισµό σελίδων HTML. Ο σκοπός του χαρακτηρισµού αυτού είναι να µπορούν «έξυπνα» προγράµµατα- πράκτορες (intelligent agents) να προσπελάσουν την κωδικοποιηµένη σε SHOE σηµασιολογική πληροφορία. H SHOE είναι µια γλώσσα που πλέον δεν αναπτύσσεται, διότι έχει ξεπεραστεί από άλλες γλώσσες που έχουν κατασκευαστεί για τον ίδιο σκοπό. Για τον λόγο αυτό δε θα δοθούν περισσότερες πληροφορίες για τη συγκεκριµένη γλώσσα. Η ανάπτυξη της γλώσσας XOL δεν έχει γίνει µε στόχο την ανάπτυξη οντολογιών, αλλά τη δηµιουργία ενός µεταβατικού σταδίου για τη µεταφορά µίας οντολογίας από µία γλώσσα σε µία άλλη, χωρίς απαραίτητα οι γλώσσες αυτές να είναι και οι δύο επισηµειωτικές. Κατά συνέπεια, ούτε για τη γλώσσα XOL θα δοθούν περισσότερες πληροφορίες. Η πιο σηµαντική από της επισηµειωτικές γλώσσες είναι η RDF(S). Αποτελεί σύσταση του W3C (World Wide Web Consortium) (World Wide Web Consortium, W3C) και είναι η βάση των υπόλοιπων τριών γλωσσών, δηλαδή των OIL, DAML+OIL και OWL. Η αναλυτική παρουσίαση θα ξεκινήσει από αυτή τη γλώσσα. 5.8 Οντολογίες για τον Σημασιολογικό Ιστό Το Semantic Web (Berners-Lee, T. Hendler, J., Lassila, 2001) σηµασιολογικός ή σηµαντικός Ιστός είναι ένα όραµα και µια πρόταση για την µετεξέλιξη του διαδικτύου και ειδικότερα του Παγκόσµιου Ιστού. Ο στόχος του σηµασιολογικού Ιστού είναι να εξελίξει το σηµερινό διαδίκτυο έτσι ώστε οι πληροφορίες που υπάρχουν και διακινούνται σε αυτό να είναι επεξεργάσιµες από τους υπολογιστές. Ο Σηµασιολογικός Ιστός δεν είναι ένας νέος Παγκόσµιος Ιστός. Eίναι µια επέκταση και βελτίωση του σηµερινού Ιστού στην κατεύθυνση, κυρίως, της δόµησης της πληροφορίας έτσι ώστε να είναι προσπελάσιµη από προγράµµατα υπολογιστών µε τελικό στόχο την αυτοµατοποίηση πολλών λειτουργιών στο διαδίκτυο. Στην κατεύθυνση αυτή τα σηµερινά κείµενα στις σελίδες του Ιστού θα αντικατασταθούν µε δοµηµένα κείµενα και δεδοµένα σε µορφή XML (Extensible Markup Language (XML), W3C) και RDF. Η σηµερινή αναπαράσταση που προορίζεται για χρήση από [76]

93 ανθρώπους θα αντικατασταθεί από µια αναπαράσταση που θα είναι κατανοητή στους υπολογιστές. Από αυτήν την άποψη ο σηµασιολογικός Ιστός είναι ένα πρόβληµα αναπαράστασης της γνώσης (Knowledge Representation) από και για τους υπολογιστές. Αυτό είναι ένα παλαιό πρόβληµα της επιστήµης των υπολογιστών και ειδικότερα του κλάδου της Τεχνητής Νοηµοσύνης (Artificial Intelligence). Υπάρχουν πολλές αξιόλογες και επιτυχηµένες µέθοδοι και τεχνικές αναπαράστασης της γνώσης. Όλες όµως προϋποθέτουν κλειστά συστήµατα και σαφώς καθορισµένα πεδία εφαρµογής. Σε αντίθεση, το διαδίκτυο είναι ένα καθολικό και αποκεντρωµένο σύστηµα πληροφοριών. Τα χαρακτηριστικά αυτά προσδίδουν πλεονεκτήµατα και µειονεκτήµατα. Στα πλεονεκτήµατα αναφέρουµε την ταχεία εξάπλωση, τον τεράστιο όγκο πληροφοριών την ευελιξία, την ευκολία χρήσης και κυρίως τον ανοιχτό χαρακτήρα: Βασική αρχή του Web είναι ότι οποιοσδήποτε µπορεί να πει οτιδήποτε για οποιοδήποτε θέµα. Στην αρχή αυτή είναι εγγενής η αναξιοπιστία και η έλλειψη ορθότητας και ακεραιότητας των πληροφοριών όπως εκφράζεται µε τα παρακάτω ερωτήµατα: Είναι κάθε πληροφορία που υπάρχει στο διαδίκτυο ορθή; Πως εξασφαλίζεται αυτό; Μεταξύ δύο αντικρουόµενων δεδοµένων πως επιλέγουµε ποιο είναι το ορθό; Πρέπει λοιπόν να γίνει αποδεκτό το γεγονός ότι θα υπάρχουν αναπάντητες ερωτήσεις καθώς και διλήµµατα σαν τίµηµα για την καθολικότητα και την οικουµενικότητα του διαδικτύου (James Hendler, 2001). Τέλος, βασικό συστατικό του σηµασιολογικού Ιστού πέρα από τη µέθοδο αναπαράστασης της γνώσης είναι και ένας µηχανισµός που θα επιτρέπει την επεξεργασία της γνώσης αυτής. Αυτός ο µηχανισµός θα πρέπει να υποστηρίζει την δυνατότητα λογικής επεξεργασίας των πληροφοριών µε σκοπό την εξαγωγή συµπερασµάτων, την δηµιουργίας νέας γνώσης, την υποστήριξη στην λήψη αποφάσεων και την αυτόµατη εκτέλεση ενεργειών. [77]

94 [78]

95 6 Τεχνικές Προσωποποίησης [79]

96 [80]

97 6 ΤΕΧΝΙΚΕΣ ΠΡΟΣΩΠΟΠΟΙΗΣΗΣ Στο κεφάλαιο αυτό γίνεται εκτενής αναφορά στην έννοια της προσωποποίησης και σε βασικές τεχνικές καθώς και σε συστήµατα προσωποποίησης στον Παγκόσµιο Ιστό. 6.1 Εισαγωγή Η προσωποποίηση είναι η προσαρµογή ενός προϊόντος, σε ηλεκτρονικό ή γραπτό µέσο σύµφωνα µε τα χαρακτηριστικά ή τις λεπτοµέρειες που παρέχει ο χρήστης. Πιο πρόσφατα, έχει εφαρµοστεί στον Παγκόσµιο Ιστό και έχει αναπτυχθεί ένα ολόκληρο πεδίο έρευνας γύρω από την προσωποποίηση στον Παγκόσµιο Ιστό. Και η συγκεκριµένη εργασία αναφέρεται σε αυτό το πεδίο έρευνας και προτείνει µια µεθοδολογία προσωποποίησης που βασίζεται στη δηµιουργία σηµασιολογικών οµάδων χρηστών και στο σηµασιολογικό προσδιορισµό των αποτελεσµάτων της µηχανής αναζήτησης. Οι ιστοσελίδες του Παγκόσµιου Ιστού προσωποποιούνται σύµφωνα µε τα ενδιαφέροντα του χρήστη. Η προσωποποίηση υπονοεί ότι οι αλλαγές βασίζονται σε συνεπαγώµενα δεδοµένα όπως, προϊόντα που αγοράζονται ή σελίδες στις οποίες γίνεται πλοήγηση. Ο όρος προσαρµογή ή ο όρος παραµετροποίηση χρησιµοποιείται αντί του όρου προσωποποίηση όταν η ιστοσελίδα χρησιµοποιεί σαφή δεδοµένα όπως προτιµήσεις ή βαθµολογίες. Σε ένα εσωτερικό δίκτυο, για παράδειγµα στη δικτυακή πύλη µιας εταιρίας, η προσωποποίηση συχνά βασίζεται στα χαρακτηριστικά του χρήστη όπως το τµήµα που ανήκει ένας εργαζόµενος, ή τη λειτουργική του περιοχή ή το ρόλο. Ο όρος προσαρµογή σε αυτό το περιεχόµενο αναφέρεται στην ικανότητα των χρηστών να τροποποιούν την εµφάνιση της σελίδας ή να καθορίζουν το περιεχόµενο που παρουσιάζεται. Υπάρχουν δύο κατηγορίες προσωποποίησης: 1. βασισµένη σε κανόνες 2. βασισµένη στο περιεχόµενο Τα µοντέλα προσωποποίησης περιλαµβάνουν φιλτράρισµα βασισµένο σε κανόνες και συνεργατικό φιλτράρισµα που προσφέρει σχετικό υλικό στους χρήστες συνδυάζοντας τις προτιµήσεις τους µε τις προτιµήσεις των άλλων χρηστών µε παρόµοια συµπεριφορά. Το συνεργατικό ψάξιµο έχει καλά αποτελέσµατα στην αναζήτηση βιβλίων, µουσικής, βίντεο κοκ. Αντίθετα, δεν έχει το ίδιο καλά αποτελέσµατα σε άλλες κατηγορίες όπως κοσµήµατα, καλλυντικά κτλ. Πρόσφατα, µια άλλη µέθοδος, η µέθοδος πρόβλεψης προτείνεται σε προϊόντα µε σύνθετα χαρακτηριστικά όπως ενδυµασία. Οι µηχανές αναζήτησης τελευταία εφαρµόζουν προσωποποίηση στα αποτελέσµατά τους σε µια µαζική κλίµακα. Οι τεχνικές τους βασίζονται σε ένα [81]

98 πλήθος παραγόντων που περιλαµβάνουν το ιστορικό του χρήστη, τους αποθηκευµένους σελιδοδείκτες, τις κοινωνικές συµπεριφορές, την πορεία της πλοήγησης και τελικά αναπαρίστανται αποτελέσµατα που η µηχανή αναζήτησης πιστεύει ότι ο χρήστης αναζητά. Στη συνέχεια γίνεται παρουσίαση τεχνικών προσωποποίησης που χρησιµοποιούνται σε συστήµατα καθώς και στον Παγκόσµιο Ιστό. 6.2 Αρχεία Πρόσβασης Δικτυακού Τόπου Στην παράγραφο αυτή γίνεται αναφορά στα αρχεία πρόσβασης δικτυακών τόπων και πως αυτά χρησιµοποιούνται στην ανάλυση δικτυακών τόπων και στην προσωποποίηση δικτυακών τόπων Σύντοµη περιγραφή Οι εξυπηρετητές ιστού, οι οποίοι φιλοξενούν τους δικτυακούς τόπους, διαθέτουν έναν µηχανισµό αυτόµατης καταγραφής και αποθήκευσης των δεδοµένων της πρόσβασης σε κάθε δικτυακό τόπο, σε αρχεία κειµένου τα οποία καλούνται αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους (web access logs). Τα αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους παρουσιάζουν αναλυτικές πληροφορίες για κάθε αίτηµα το οποίο πραγµατοποιείται από έναν χρήστη προς τον εξυπηρετητή ιστού και αφορά έναν δεδοµένο δικτυακό τόπο. Οι πληροφορίες αυτές παρουσιάζονται σειριακά, µε κάθε ένα από τα αιτήµατα να αναπαριστάται σαν µία γραµµή κειµένου που αποτελείται από πολλές πληροφορίες, διαφορετικού είδους µεταξύ τους, οι οποίες αφορούν το αίτηµα, το χρόνο κατά τον οποίο αυτό πραγµατοποιήθηκε, το χρήστη ο οποίος το πραγµατοποίησε και τη σελίδα ή το αρχείο του δικτυακού τόπου, το οποίο αιτήθηκε ο χρήστης. Ένα αρχείο εξυπηρετητή (Log file) ή αρχείο πρόσβασης δικτυακού τόπου δηµιουργείται από τον εξυπηρετητή και διατηρείται εκεί καταγράφοντας τη δραστηριότητα των χρηστών. Ένα τυπικό παράδειγµα ενός τέτοιου αρχείου διατηρεί το ιστορικό από αιτήσεις στον εξυπηρετητή. Το πρότυπο της w3c για τα αρχεία πρόσβασης εξυπηρετητών είναι το συνηθέστερο αλλά υπάρχουν και άλλα κατάλληλα πρότυπα. Σε ένα αρχείο πρόσβασης δικτυακού τόπου οι πιο πρόσφατες εγγραφές προστίθενται στο τέλος του αρχείου. Συγκεκριµένα, οι πληροφορίες που καταχωρούνται στα αρχεία πρόσβασης δικτυακών τόπων είναι η αίτηση του χρήστη στον εξυπηρετητή, η IP διεύθυνση του χρήστη, η ηµεροµηνία και ώρα της αίτησης, η σελίδα που ζητείται, ο HTTP κώδικας, τα bytes που ζητούνται και ο agent του χρήστη. Αυτά τα δεδοµένα συνδυάζονται σε ένα µόνο αρχείο ή σε ξεχωριστά αρχεία όπως αρχεία πρόσβασης, αρχεία λαθών ή αρχεία αναφοράς. Τα αρχεία αυτά δεν είναι συνήθως προσβάσιµα από χρήστες του διαδικτύου, αλλά µόνο στους διαχειριστές του εξυπηρετητή. Μια στατιστική ανάλυση των αρχείων πρόσβασης δικτυακών τόπων µπορεί να χρησιµοποιηθεί για να µελετηθεί η κίνηση [82]

99 στο δικτυακό τόπο και να βρεθούν υποδείγµατα κίνησης σε σχέση µε διάφορες χρονικές διάρκειες όπως µια µέρα, ή µια µέρα της εβδοµάδας, ή από κάποια σελίδα αναφοράς ή από κάποια συγκεκριµένη IP κα. Επιπρόσθετα, η ανάλυση των αρχείων πρόσβασης δικτυακών τόπων µπορεί να προβεί χρήσιµη στην αποδοτική διαχείριση του δικτυακού τόπου και στην επαρκή κατανοµή πόρων. Παρά το γεγονός ότι περιέχουν πλήρεις πληροφορίες σχετικά µε όλες τις παραµέτρους της πρόσβασης, τα αρχεία καταγραφής πρόσβασης µειονεκτούν όσον αφορά τη µορφή τους και την ευκολία που προσφέρουν για ανάγνωση από τον άνθρωπο. Για αυτόν ακριβώς το λόγο έχουν αναπτυχθεί µία σειρά εργαλείων διαχείρισης της πληροφορίας που περιέχεται στα αρχεία καταγραφής πρόσβασης. Στα πλαίσια της παρούσας εργασίας, τα αρχεία πρόσβασης του δικτυακού τόπου που σχεδιάστηκε για την εφαρµογή της µεθοδολογίας προσωποποίησης αποτελεί µια βάση δεδοµένων, στην οποία τα δεδοµένα καταχωρούνται µε δοµηµένο τρόπο. Σε συστήµατα που περιγράφονται σε επόµενες παραγράφους γίνεται αναφορά και στο ρόλο των αρχείων πρόσβασης στην προσωποποίηση και στην παραµετροποίηση συστηµάτων. 6.3 Οντολογίες και δημιουργία προφίλ Η προσωποποιηµένη αναζήτηση πληροφορίας µε χρήση σηµασιολογίας απαιτεί τη δηµιουργία προφίλ χρηστών µε βάση οντολογίες. Στην παράγραφο αυτή θα γίνει ανάλυση της έννοιας των οντολογιών και θα γίνει περιγραφή των υπαρχόντων οντολογιών για την αναπαράσταση προφίλ Ορισµός Υπάρχουν αρκετοί ορισµοί για µια οντολογία. Στην επιστήµη της πληροφορικής η οντολογία είναι ένας συστηµατικός τρόπος µορφοποίησης των εννοιών, των ορισµών, των σχέσεων και των κανόνων που συλλαµβάνει το σηµασιολογικό περιεχόµενο ενός πεδίου σε µορφή αναγνώσιµη από µηχανή (Deborah Nichols and Allan Terry, 2003). Οι οντολογίες που δηµιουργούνται για εφαρµογές πληροφορικής γράφονται σε µια επίσηµη γλώσσα που είναι κατανοητή από µηχανή. Στην επιστήµη της πληροφορικής µια οντολογία είναι µια τυπική ρητή περιγραφή εννοιών ενός πεδίου, που ονοµάζονται κλάσεις ή έννοιες, µε τις ιδιότητες κάθε έννοιας που περιγράφουν διάφορα χαρακτηριστικά ή γνωρίσµατά τους και περιορισµούς στις ιδιότητες. Μια οντολογία µαζί µε σύνολα διαφορετικών στιγµιοτύπων, που αποτελούν εκφάνσεις της κλάσης, δηµιουργούν µια βάση γνώσης Συστήµατα βασισμένα σε οντολογίες Οι οντολογίες είναι µια έννοια που έχει εισαχθεί στην πληροφορική τα τελευταία δεκαπέντε χρόνια όµως πολλά συστήµατα έχουν βασιστεί σε αυτές. Στην παράγραφο [83]

100 αυτή θα γίνει µια σύντοµη αναφορά σε µερικά από τα συστήµατα που χρησιµοποιούν σηµασιολογική προσέγγιση µέσω οντολογιών. Τα συστήµατα αυτά χρησιµοποιούνται κυρίως για κατηγοριοποίηση αλλά και για άλλες εφαρµογές OntoSeek Το OntoSeek (Nicola Guarino, Claudio Masolo, Guido Vetere, 1999) είναι ένα πρωτότυπο αποτέλεσµα συνεργασίας του Corinto (τµήµα της IBM Semea, Apple στην Ιταλία) και του Ladseb-CNR (ινστιτούτο συστηµάτων επιστήµης και βιοϊατρικής τεχνολογίας) για τµήµα του έργου για ανάκτηση και επαναχρησιµοποίηση αντικειµενοστραφών τµηµάτων λογισµικού. Αποτελεί ένα σύστηµα που σχεδιάστηκε για ανάκτηση πληροφορίας από χρυσό οδηγό και καταλόγους προϊόντων βασισµένη στο περιεχόµενο. Συνδυάζει έναν µηχανισµό αντιστοίχησης περιεχοµένου οδηγούµενο από οντολογίες µε έναν εκφρασιακό φορµαλισµό αναπαράστασης. Τα παρακάτω αποτελούν τις βασικές σχεδιαστικές επιλογές για το OntoSeek: Η επιλογή να χρησιµοποιηθούν αφηρηµένοι όροι φυσικής γλώσσας για ακριβείς περιγραφές πόρων στη φάση της κωδικοποίησης. Πλήρης εννοιολογική ευελιξία για τα ερωτήµατα, µέσα από µια διαδικασία σηµασιολογικού ταιριάσµατος οδηγούµενο από οντολογίες µεταξύ ερωτηµάτων και περιγραφών πόρων. Αλληλεπιδραστική βοήθεια στο σχηµατισµό, τη δηµιουργία και την εξειδίκευση µορφοποίησης ερωτηµάτων. Μια αρχιτεκτονική τελευταίας γενιάς. Καλούς παράγοντες ανάκλησης και ακρίβειας, και δικαιολογηµένη αποδοτικότητα σε µαζικά δεδοµένα. Καλή κλιµάκωση και φορητότητα. Το σύστηµα σχεδιάστηκε για να διαχειρίζεται οµογενή και ετερογενή δεδοµένα καταλόγων προϊόντων. Οι ετερογενείς κατάλογοι προϊόντων είναι περισσότερο δύσκολοι στη διαχείριση επειδή έχουν µεγαλύτερη πολυπλοκότητα στην περιγραφή χρησιµοποιήθηκαν απλοί γράφοι σηµασιολογίας για να αναπαρασταθούν ερωτήµατα και περιγραφές πόρων. Το σύστηµα δε βασίστηκε σε οντολογίες που φτιάχτηκαν από την αρχή αλλά χρησιµοποίησε έτοιµες οντολογίες. Συγκεκριµένα, χρησιµοποιήθηκε οντολογία Sensus 0 που συµπληρώνει για απλή ταξινοµική προσέγγιση µε κόµβους που λήφθηκαν από το WordNet Telltale Το Telltale (Y. Labrou and Finin T.) αποτελεί ένα σύστηµα κατηγοριοποίησης εγγράφων βασισµένο στους καταλόγους τους Yahoo. Αυτοί οι κατάλογοι αποτελούν κατηγορίες που προσφέρουν ένα κανονικοποιηµένο και καθολικό τρόπο για αναφορά ή περιγραφή αντικειµένων του πραγµατικού κόσµου και κατ επέκταση [84]

101 σηµασιολογική κατηγοριοποίηση του περιεχοµένου εγγράφων. Οι κατάλογοι του Παγκόσµιου Ιστού όπως το Yahoo! προσφέρουν µια τεράστια ιεραρχία κατηγοριών που καλύπτουν κάθε πτυχή ανθρώπινης προσπάθειας. Αυτά τα θέµατα µπορούν να χρησιµοποιηθούν σαν περιγραφείς, οµοίως µε τον τρόπο εύρεσης οµοιότητας που χρησιµοποιούν οι βιβλιογράφοι για παράδειγµα. Το Telltale χρησιµοποιεί τη µέθοδο n-grams για να υπολογίσει την οµοιότητα µεταξύ εγγράφων. Κατά τη δηµιουργία του έγιναν πειραµατικές µετρήσεις µε διάφορες περιγραφές για τους καταλόγους του Yahoo! ώστε να κατηγοριοποιηθούν ιστοσελίδες. Τα αποτελέσµατα των πειραµάτων έδειξαν ότι η κατηγοριοποίηση ήταν καλύτερη στην περίπτωση που χρησιµοποιούνταν σύντοµες περιγραφές για τις διάφορες κατηγορίες. Για το σύστηµα αυτό µε βάση τις κατηγορίες των καταλόγων δηµιουργήθηκε µια ταξινοµία οντολογία πάνω στην οποία θα βασιστεί η κατηγοριοποίηση. Κατά την κατηγοριοποίηση γινόταν υπολογισµός των βαρών για κάθε όρο. Το βάρος κάθε όρου υπολογιζόταν ως η διαφορά µεταξύ του µετρήµατος ενός δοσµένου n-gram για ένα έγγραφο, κανονικοποιηµένο στο µέγεθός του, και το κανονικοποιηµένο µέσο όρο του µετρήµατος σε όλα τα έγγραφα για αυτό το n-gram. Αυτό παρέχει το βάρος για κάθε n-gram σε ένα έγγραφο σχετικό µε το µέσο όρο της συλλογής. Η οµοιότητα µεταξύ εγγράφων µετά υπολογίζεται από το συνηµίτονο των δύο διανυσµάτων αναπαράστασης Ontology-Based Semantic Online Classification of Documents Το σύστηµα (De Luca, E. W. and A. Nόrnberger, 2004) αυτό περιγράφει µια µέθοδο κατηγοριοποίησης κειµένων µε στόχο την αποσαφήνιση ερωτηµάτων χρηστών. Οι τεχνικές που εφαρµόζονται βασίζονται σε συνδυασµό τεχνικών δεικτοδότησης και σε τεχνικές βασισµένες σε οντολογίες ανάκτησης πληροφορίας σε ένα αλληλεπιδραστικό σύστηµα ανάκτησης πληροφορίας. Το σύστηµα προτείνει µια προσέγγιση για κατηγοριοποίηση αποτελεσµάτων αναζήτησης αντιστοιχίζοντάς τα σε σηµασιολογικές κλάσεις που ορίζονται από τη λογική ενός ερωτήµατος. Τα κριτήρια που ορίζουν κάθε κλάση ή «λογικό κατάλογο» αντλούνται από τις έννοιες µιας προσδιορισµένης οντολογίας, εδώ το MultiWordNet. Σχολιάζονται κάθε στοιχείο του συνόλου αποτελεσµάτων µε τον λογικό κατάλογο στον οποίο έχει κατηγοριοποιηθεί, ο χρήστης παίρνει πρόσθετη πληροφορία για κάθε αντικείµενο. Ο συγκεκριµένος όρος αποτελέσµατος αποσαφηνίζεται σε αντιστοιχία µε το υποκείµενο έγγραφο και µπορεί έτσι να αποφασιστεί πιο εύκολα αν το έγγραφο είναι σχετικό ή όχι για το συγκεκριµένο ερώτηµα Οντολογίες αναφοράς-προφίλ Τα συστήµατα προσωποποίησης του Παγκόσµιου Ιστού που χρησιµοποιούν σηµασιολογία βασίζονται πάντα σε µια οντολογία αναφοράς. Η οντολογία αναφοράς χρησιµοποιείται για κατηγοριοποίηση των επιλογών των χρηστών ώστε να [85]

102 καθοριστεί το προφίλ του και να εξατοµικευτούν οι µελλοντικές επιλογές του βάσει του προφίλ που έχει δηµιουργηθεί για αυτόν. Στην παράγραφο αυτή γίνεται µια αναφορά στις βασικότερες οντολογίες αναφοράς που έχουν χρησιµοποιηθεί σε συστήµατα προσωποποίησης καθώς και κατάλογοι του Παγκόσµιου Ιστού πάνω στους οποίους έχουν βασιστεί οντολογίες ταξινοµίες που περιγράφουν προφίλ SUMO the Suggested Upper Merged Ontology Η Sumo (Sevcenko M., 2003) είναι µια συλλογή από περίπου 1000 καλά ορισµένες έννοιες, διασυνδεδεµένες σε ένα σηµασιολογικό δίκτυο και συνοδευόµενων από ένα σύνολο αξιωµάτων. Οι έννοιες έχουν εύρος από πολύ γενικές, όπως «Ποσότητα», σε πολύ συγκεκριµένες, όπως «Πουλί». Τα αξιώµατα αντανακλούν κυρίως την αντίληψη της κοινής λογικής που αναγνωρίζονται µεταξύ των εννοιών. Η SUMO σχεδιάστηκε ως ένα υπόστρωµα ανεξάρτητο από πεδίο για σχεδίαση οντολογιών πεδίων. Τα αξιώµατα βοηθούν στο να περιοριστούν οι διερµηνείες για τις έννοιες, και να παρέχουν οδηγίες για συστήµατα αυτοµατοποιηµένης αιτιολόγησης που επεξεργάζονται βάσεις γνώσεις που συνάδουν µε την οντολογία SUMO. Ένα παράδειγµα ενός τέτοιου αξιώµατος είναι: «Αν το c είναι στιγµιότυπου της Καύσης», τότε υπάρχει η θέρµανση h και το ακτινοβόλο φως l έτσι ώστε και το h και το l είναι παράγωγο του c». Αυτό η περίπλοκη, αλλά λογική, πρόταση λέει ότι η διαδικασία της θέρµανσης και η διαδικασία εκποµπής φωτός συνοδεύουν κάθε διαδικασία καύσης. Επιπλέον, αυτό το αξίωµα κωδικοποιείται στο SUMO σε µια επίσηµη λογική γλώσσα. Οι έννοιες στο SUMO οργανώνονται σε µια απλή ιεραρχία που έχει σαν ρίζα την έννοια «Entity», που αναπαριστά την πιο γενική έννοια. Τα δύο πρώτα επίπεδα φαίνονται στην Εικόνα 12. Για παράδειγµα µπορείτε να δείτε ότι οι έννοιες χωρίζονται σε αντικείµενα φυσικής ύπαρξης (Physical), και σε αφηρηµένα, πνευµατικής αναπαράστασης αντικείµενα (Abstract). Τα φυσικά πράγµατα διακρίνονται περαιτέρω σε αντικείµενα και διαδικασίες κοκ. Οι υποκλάσεις της κλάσης είναι συνήθως αµοιβαία αποκλειόµενες δηλαδή δεν µοιράζονται κοινά στιγµιότυπα. Για παράδειγµα, τίποτα δεν µπορεί να είναι και αφηρηµένο και φυσικό, ούτε και αντικείµενο και διαδικασία. Αυτή η ιδιότητα ορίζεται αποκλειστικά στην SUMO. Παρόλα αυτά, κάποιες κλάσεις µπορούν να έχουν πολλαπλές υπερκλάσεις. Για παράδειγµα, η κλάση Human (άνθρωπος) µπορεί να είναι υποκλάση της κλάσης Hominid (ανθρωποειδές - είναι µέλος της κλάσης των ζώων) και της κλάσης CognitiveAgent (µια οντότητα µε την ικανότητα να σκέφτεται λογικά). Ένα από τα µειονεκτήµατα της SUMO είναι η σχετικά µικρή κάλυψή της που δεν της επιτρέπει να είναι αποδοτική για ανοιχτού πεδίου εφαρµογές. Επίσης, έχει έλλειψη µιας σύνδεσης µεταξύ των εννοιών της και των λέξεων της φυσικής γλώσσας. Αυτοί οι περιορισµοί έχουν παρακαµφθεί µερικώς συνδέοντας την οντολογία SUMO µε το λεξικό WordNet. [86]

103 Εικόνα 12: Πρώτα επίπεδα της SUMO οντολογίας WordNet Μια Online λεξικογραφική βάση δεδοµένων Το WordNet είναι µια ελεύθερα διαθέσιµη on-line λεξικογραφική βάση δεδοµένων. Το τµήµα γλωσσολογίας του Πανεπιστηµίου Princeton τη δηµιούργησε σαν αποτέλεσµα της ψυχογλωσσολογικής έρευνας. Παρόλα αυτά την τελευταία δεκαετία το WordNet αποδείχτηκε πολύ χρήσιµη πηγή για αυτοµατοποιηµένη επεξεργασία της φυσικής γλώσσας. Τεχνικά, το WordNet είναι ένας ηλεκτρονικός θησαυρός, ορίζοντας µεγάλα σύνολα εννοιών λέξεων, διασυνδεόµενα µε σηµασιολογικούς δείκτες. Η λογική δοµή του WordNet φαίνεται στην Εικόνα 13. Εικόνα 13: Η λογική δοµή του Wordnet [87]

104 Οι έννοιες λέξεων διασυνδέονται µε φόρµες λέξεων που µπορούν να τις εκφράσουν. Μπορούµε να δούµε στην εικόνα ότι η σχέση µεταξύ φορµών λέξεων και οι έννοιες λέξεων είναι m-n- οι φόρµες λέξεων µπορούν να έχουν πολλές έννοιες, και πολλές φόρµες λέξεων µπορούν να αναφέρονται σε πολλές έννοιες. Το πρώτο φαινόµενο ονοµάζεται πολυσηµία και το δεύτερο συνωνυµία. Η αντιµετώπιση µιας τέτοιας αµφισηµίας της φυσικής γλώσσας είναι η πρόκληση κλειδί στην αυτοµατοποιηµένη επεξεργασία της φυσικής γλώσσας. Κάθε είσοδος λέξεων εννοιών (που καλείται επίσης σύνολο συνωνυµίας, ή synset), συνοδεύεται µε σύντοµους άτυπους ορισµούς (Που καλούνται gloss), και λίστες φορµών λέξεων που µπορούν να αναπαραστήσουν το synset στην προφορική ή στην γραπτή γλώσσα. Τα synsets κρατούνται ξεχωριστά για διαφορετικά µέρη του λόγου: υπάρχουν βάσεις δεδοµένων για ουσιαστικά, ρήµατα, επίθετα και επιρρήµατα. Θα πρέπει να σηµειωθεί ότι οι σηµασιολογικές συσχετίσεις µεταξύ synsets είναι διαφορετικές για διαφορετικά µέρη του λόγου. Για παράδειγµα, µια βασική συσχέτιση µεταξύ synsets είναι µια is-a συσχέτιση, που είναι γνωστή από τη µοντελοποίηση δεδοµένων. Στο WordNet, αυτή συσχέτιση καλείται υπερωνυµία/ υπωνυµία. Μπορεί να φαίνεται µε την πρώτη µατιά ότι τα synsets στο WordNet χτίζουν ένα µεγάλο σηµασιολογικό δίκτυο, όπως ξέρουµε είναι ένα παράδειγµα αναπαράστασης γνώσης της τεχνητής νοηµοσύνης. Παρόλα αυτά, ένας πιο επιµελής έλεγχος αποκαλύπτει ότι οι σηµασιολογικές συσχετίσεις στο WordNet είναι µερικές φορές πολύ ασαφείς και µη λογικές, και δεν µπορούν να χρησιµοποιηθούν για εξαγωγή συµπεράσµατος. Οι συσχετίσεις κωδικοποιούνται από λεξικογράφους, και σηµατοδοτούνταν σαν οµοιότητα που κατανοούν οι άνθρωποι από συσχετίσεις µεταξύ λέξεων εννοιών. Επιπλέον, εξαιτίας του υπερβολικού µεγέθους του σηµασιολογικού δικτύου, η αιτιολογία σχεδιασµού των σηµασιολογικών συσχετίσεων είναι µάλλον λογική, χωρίς να δίνεται έµφαση στην γενικότερη δοµή του συνολικού δικτύου. Θεωρείστε ένα παράδειγµα ενός synset που αντιστοιχεί στη λέξη blues. Το WordNet ορίζει τη λέξη blues σαν «ένα είδος παραδοσιακού τραγουδιού που ξεκίνησε από τους Μαύρους Αµερικανούς στην αρχή του 20ού αιώνα, έχει έναν µελαγχολικό ήχο από επαναλαµβανόµενη χρήση από blues νότες». Η υπερωνυµία φαίνεται στην Εικόνα 14. Μπορεί να φανεί από την εικόνα ότι αυτό το µικρό σηµασιολογικό δίκτυο είναι αρκετά λάθος κατασκευασµένο, εξαιτίας της χαλαρής µετάφρασης των ορισµών των εννοιών. Για παράδειγµα, το Blues είναι και αφηρηµένη έννοια (πνευµατικό, µη υπαρκτό) και αντικείµενο (φυσική έννοια). Οµοίως, η έννοια «folk song» έχει δύο έννοιες: µια έννοια σηµαίνει µια κλάση από τραγούδια που είναι παραδοσιακά, και είναι και ένα είδος της έννοιας «song». Παρόλα αυτά, η έννοια µπορεί επίσης να κατανοηθεί σαν ένα χαρακτηριστικό τραγουδιών, που είναι είδος της κλάσης «music genre». Στην κοινή γλώσσα αυτές οι δύο έννοιες δεν διακρίνονται αποκλειστικά, και έτσι αυτός ο διαχωρισµός δεν διαχειρίζεται στο WordNet. [88]

105 Εικόνα 14: Η ιεραρχία των υπερωνυµιών των συνόλων λέξεων Παρόµοια κατάσταση συµβαίνει µε πολλαπλές υπερωνυµίες της έννοιας «music genre», όπου παραλείπεται η διάκριση µεταξύ µιας διαδικασίας (music), και του ρόλου του (social relation). Φυσικά, υπάρχουν πολλά παρόµοια προβλήµατα που περιπλέκουν την εξερεύνηση του WordNet σαν πηγή για αυτοµατοποιηµένη επεξεργασία της φυσικής γλώσσας. Είναι ενδιαφέρον να ερωτηθεί αν αυτές οι ασυµφωνίες είναι εσωτερικές σε πηγές όπως το WordNet, ή αν µπορούν να αποφευχθούν από περισσότερο προσεκτικό σχεδιασµό. Το πρόβληµα είναι ότι λογικές και γλωσσολογικές αιτιολογίες για οργάνωση εννοιών λέξεων είναι αρκετά διαφορετικές, ειδικά για πολύ γενικές έννοιες, που είναι κοντά στη ρίζα της ιεραρχίας Συστήµατα Προσωποποίησης Στην παράγραφο αυτή θα γίνει µια αναφορά σε σύγχρονες τεχνικές προσωποποίησης που έχουν προταθεί για τον Παγκόσµιο Ιστό αλλά και για µη δικτυακές εφαρµογές. [89]

106 ONTOCOPI Οι Communities of Practice (COP) αποτελούν ανεπίσηµα, αυτό-οργανώµενα σύνολα ατόµων που έχουν κάποιο κοινό ενδιαφέρον. Ένα παράδειγµα αποτελεί το σύνολο των ατόµων σε έναν οργανισµό που κάνουν την ίδια (ή επικαλυπτόµενες) εργασίες. Συνεπώς µία κοινωνία ατόµων δηµιουργείται σταδιακά από τις συζητήσεις τους και τα ενδιαφέροντά τους. Όµως οι COPs δεν µπορούν να αναγνωριστούν εύκολα µέσα στους οργανισµούς, ένα βασικό πρώτο βήµα για την κατανόηση των πηγών γνώσης µίας επιχείρησης. Το ONTOCOPI (ONTOlogy- based Community Of Practice Identifier) είναι ένα εργαλείο που βρίσκει σύνολα από παρόµοια στιγµιότυπα για ένα δεδοµένο στιγµιότυπο σε µία βάση γνώσης (Harith Alani, Kieron O Hara and Nigel Shadbolt, 2002). Ο στόχος του ONTOCOPI είναι να εξάγει πρότυπα σχέσεων που µπορεί να βοηθήσουν στην εύρεση µίας COP (Stuart E. Middleton, Harith Alani, Nigel R. Shadbolt, David C. De Roure, 2002). Το ONTOCOPI βοηθά στο έργο της αναγνώρισης των COP αναλύοντας τα πρότυπα ταιριάσµατος ανάµεσα στα στιγµιότυπα και την οντολογία. Η υπόθεση στην οποία στηρίζεται είναι ότι οι µη-σαφώς ορισµένες σχέσεις που χαρακτηρίζουν µία COP µπορούν να εννοηθούν από την παρουσία σαφώς ορισµένων σχέσεων. Για παράδειγµα, αν το Α και το Β δεν έχουν κάποια σαφώς ορισµένη σχέση, αλλά έχουν και τα δύο σαφώς ορισµένη σχέση µε το C τότε αυτό υποδηλώνει ότι µπορεί να µοιράζονται κάποια κοινά χαρακτηριστικά. Ο ONTOCOPI αλγόριθµος παράγει την COP ενός στιγµιότυπου αναγνωρίζοντας το σύνολο των κοντινών στιγµιοτύπων και ταξινοµώντας τα µε βάση τα βάρη που συγκεντρώνουν από διάφορα µονοπάτια (Bussler C., Davies J., Fensel D., Studer R., 2004). Εφαρµόζει µία κατά πλάτος αναζήτηση προσπελαύνοντας τις σηµασιολογικές σχέσεις ανάµεσα στα στιγµιότυπα µέχρι να προσεγγιστεί ένα συγκεκριµένο κατώφλι συνδέσεων. Με τον τρόπο αυτό τα διάφορα στιγµιότυπα συγκεντρώνουν βάρος που βασίζεται στον αριθµό των παρόµοιων σχέσεων που έχουν µε το αρχικό στιγµιότυπο. Ένας ψευδοκώδικας του αλγορίθµου εµφανίζεται στην ακόλουθη εικόνα. Το ONTOCOPI είναι βασισµένο στην ΑΚΤ οντολογία που είναι υλοποιηµένη στο Protégé και λειτουργεί ως plugin του τελευταίου. Ένα από τα πλεονεκτήµατά του είναι ότι επιτρέπει είτε την χειροκίνητη επιλογή των σχέσεων είτε την αυτόµατη επιλογή που βασίζεται στην συχνότητα της χρησιµοποίησης των σχέσεων µέσα στην βάση γνώσης MyPlanet Ένα άλλο σύστηµα προσωποποιηµένων υπηρεσιών είναι το MyPlanet (Kalfoglou Y., Domingue J., Motta E., Vargas-Vera M., Buckingham Shum S., 2001), το οποίο λειτουργεί ως ένα front-end σε ένα news server. Στηρίζεται στο υπάρχον σύστηµα PlanetOnto που αποτελεί µία Ontology driven Web-based news service. Σκοπός του MyPlanet ήταν οι χρήστες να προσπελαύνουν άρθρα που τους ενδιαφέρουν µε βάση [90]

107 Εικόνα 15: Ψευδοκώδικας ONTOCOPI τις προτιµήσεις τους, δηλαδή µε βάση τα κριτήρια ή τις αναζητήσεις που είχαν θέσει σε µία µηχανή αναζήτησης. Η χρήση υπαρχόντων οντολογιών και η χρήση ευριστικών µεθόδων αναζήτησης κατέστησε δυνατή την αύξηση του συνόλου των αποτελεσµάτων που θα δίνονταν ως έξοδος στον χρήστη. Επίσης το MyPlanet έδωσε την δυνατότητα στους διαχειριστές του να αποθηκεύουν τα χαρακτηριστικά των χρηστών που χρησιµοποιούσαν την εφαρµογή, µε σκοπό να παρέχουν στο µέλλον περισσότερο προσωποποιηµένες υπηρεσίες. Οι δηµιουργοί του συστήµατος κατόρθωσαν µε την ανάλυση των προφίλ των χρηστών και την χρήση ευριστικών µεθόδων που συνδέονται µε τις προτιµήσεις των χρηστών, να εντοπίζουν σχέσεις γεγονότων στις οντολογίες που πλαισίωναν την εφαρµογή και εποµένως παροχή προσωποποιηµένων υπηρεσιών στους χρήστες. Έτσι η εφαρµογή από ένα σύστηµα αποθήκευσης άρθρων εξελίχθηκε σε µία ολοκληρωµένη σουίτα εργαλείων για διαχείριση γνώσης (knowledge management). Η ακόλουθη εικόνα παρουσιάζει την αρχιτεκτονική του MyPlanet. Στην εικόνα φαίνονται οι διάφοροι χρήστες που αλληλεπιδρούν µε το σύστηµα και το πώς αποθηκεύεται η πληροφορία στην οντολογία του συστήµατος και στην βάση γνώσης. [91]

108 Εικόνα 16: Αρχιτεκτονική MyPlanet Quickstep Μια µεθοδολογία προσέγγισης στα συστήµατα προτάσεων αποτελεί ο συνδυασµός συστηµάτων προτάσεων που χρησιµοποιούν συνεργατικές και βασισµένες στο περιεχόµενο τεχνικές και αναπαριστούν τα προφίλ των χρηστών χρησιµοποιώντας όρους οντολογιών. Η προσέγγιση αυτή ακολουθείται από δύο πειραµατικά συστήµατα, το Quickstep και το Foxtrot (Middleton, S.E., Shadbolt and de Roure, D.C., 2004). Το Quickstep είναι ένα σύστηµα προτάσεων για ένα σύνολο ερευνητών σε ένα επιστηµονικό εργαστήριο, ενώ το Foxtrot είναι µια βάση αναζήτησης και ένα σύστηµα προτάσεων για ένα τµήµα της επιστήµης της πληροφορικής. Στην Εικόνα 17 φαίνεται η γενική δοµή των συστηµάτων προτάσεων βασισµένων σε οντολογίες. Εικόνα 17: Γενική µεθοδολογία Quickstep και Foxtrot [92]

109 Συγκεκριµένα, χρησιµοποιείται ένας web proxy ο οποίος χωρίς ενόχληση στο χρήστη παρακολουθεί και καταγράφει την πλοήγηση του χρήστη, προσθέτοντας νέες επιστηµονικές εργασίες στην κεντρική βάση δεδοµένων καθώς τις εντοπίζουν οι χρήστες. Η βάση δεδοµένων των εργασιών µε αυτό τον τρόπο συµπεριφέρεται σαν µια δεξαµενή γνώσης, διαθέσιµη στους χρήστες µέσω αναζήτησης και προτάσεων. Η βάση δεδοµένων είναι κατηγοριοποιηµένη χρησιµοποιώντας µια οντολογία αναφοράς για επιστηµονικές εργασίες και ένα σύνολο παραδειγµάτων εκπαίδευσης. Η καταγεγραµµένη πλοήγηση και η ανάδραση συσχέτισης που εκµαιεύεται από τους χρήστες χρησιµοποιείται για να υπολογιστούν καθηµερινά τα προφίλ των χρηστών και τα ερευνητικά τους ενδιαφέρονται. Τα προφίλ ενδιαφερόντων αναπαρίστανται σε όρους οντολογίας, επιτρέποντας σε άλλα ενδιαφέροντα να προκύπτουν µέσα από την οντολογία και να µην εξάγονται µόνο από την παρατήρηση της συµπεριφοράς του χρήστη. Τα προφίλ ενδιαφερόντων οπτικοποιούνται ώστε να επιτραπεί η συνεπαγωγή της άµεσης ανάδρασης προφίλ, παρέχοντας µια πρόσθετη πηγή πληροφορίας από την οποία µπορούν να υπολογιστούν τα προφίλ. Οι προτάσεις επεξεργάζονται καθηµερινά χρησιµοποιώντας συνεργατικές µεθόδους φιλτραρίσµατος για να βρεθούν σύνολα ενδιαφερόντων επιστηµονικών εργασιών. Αυτές οι εργασίες στη συνέχεια περιορίζονται να ταιριάζουν στα θέµατα µε το µεγαλύτερο ενδιαφέρον µέσα στα προφίλ που βασίζονται στο περιεχόµενο. Οι επιστηµονικές εργασίες που περισσεύουν χρησιµοποιούνται για να δηµιουργήσουν τις προτάσεις. Οι χρήστες µπορούν να δουν τις προτάσεις τους µέσα από