ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ.

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ."

Transcript

1 ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Επιστήμη του Διαδικτύου «Web Science» ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Σημασιολογική Αναπαράσταση του Ελληνικού WordNet και Δημοσιοποίηση του Σύμφωνα με τις Αρχές των Διασυνδεδεμένων Δεδομένων Καραμπατάκη Σοφία Επιβλέπων: Ιωάννης Αντωνίου, Καθηγητής ΑΠΘ Συνεπιβλέπων : Δρ. Χαράλαμπος Μπράτσας Θεσσαλονίκη, Δεκέμβριος

2 2

3 ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Επιστήμη του Διαδικτύου «Web Science» ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Σημασιολογική Αναπαράσταση του Ελληνικού WordNet και Δημοσιοποίηση του Σύμφωνα με τις Αρχές των Διασυνδεδεμένων Δεδομένων Καραμπατάκη Σοφία Επιβλέπων: Ιωάννης Αντωνίου, Καθηγητής ΑΠΘ Συνεπιβλέπων : Δρ. Χαράλαμπος Μπράτσας Εγκρίθηκε από την Τριμελή Εξεταστική Επιτροπή Ι.Αντωνίου Π.Μπαμίδης Π.Μωυσιάδης Καθηγητής Α.Π.Θ. Επίκουρος Καθηγητής Α.Π.Θ. Καθηγητής Α.Π.Θ. Θεσσαλονίκη, Δεκέμβριος

4 .. Καραμπατάκη Ι. Σοφία Πτυχιούχος Μαθηματικός Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Copyright Καραμπατάκη Ι. Σοφία, 2014 Με επιφύλαξη παντός δικαιώματος. All rights reserved. Η έγκριση της μεταπτυχιακής εργασίας από το Πρόγραμμα Μεταπτυχιακών Σπουδών «Επιστήμη Του Διαδικτύου» του Τμήματος Μαθηματικών του Α.Π.Θ. δεν υποδηλώνει απαραιτήτως και αποδοχή των απόψεων του συγγραφέα εκ μέρους των Τμημάτων (Ν.5343/32 αρ.202 παρ.2). 4

5 Ευχαριστίες Θα ήθελα να ευχαριστήσω τους καθηγητές μου και επιβλέποντες αυτής της διπλωματικής εργασίας, κ. Ιωάννη Αντωνίου και κ. Χαράλαμπο Μπράτσα για τη βοήθεια και την καθοδήγηση τους όσον αφορά τη διεκπεραίωση της παρούσας έρευνας. Επίσης, θέλω να ευχαριστήσω την οικογένειά μου για την ηθική συμπαράσταση που μου πρόσφεραν σε όλη τη διαδρομή των σπουδών μου μέχρι σήμερα. 5

6 Σύνοψη Στις μέρες μας, το Διαδίκτυο αποτελεί ένα από τα σημαντικότερα μέσα διάδοσης γνώσης. Πληροφορίες και δεδομένα από διάφορους επιστημονικούς τομείς, και όχι μόνο, είναι διαθέσιμα σε κάθε χρήστη. Ένας τέτοιος επιστημονικός τομέας που εκπροσωπείται από ένα μεγάλο πλήθος δεδομένων στο Διαδίκτυο είναι η Γλωσσολογία, που ασχολείται με την μελέτη της ανθρώπινης γλώσσας. Ωστόσο, πολλά από αυτά τα δεδομένα είναι δημοσιευμένα σε ιδιόκτητα, κλειστά πρότυπα και δεν είναι ακόμα προσβάσιμα στο Διαδίκτυο. Αλλά, η απλή ανάρτηση μεγάλου πλήθους γλωσσολογικών δεδομένων δεν είναι επαρκής. Αν τα γλωσσολογικά δεδομένα συνδεθούν μεταξύ τους θα δώσουν μεγαλύτερη χρησιμότητα και αξία στις πληροφορίες που θα παρέχουν, και έτσι θα εξάγονται καλύτερα αποτελέσματα. Στην παρούσα εργασία εξετάζουμε και αναπτύσσουμε μεθόδους και πρότυπα για την σημασιολογική περιγραφή των γλωσσολογικών δεδομένων και εφαρμόζουμε τις Αρχές των Διασυνδεδεμένων Δεδομένων (Linked Data) για την δημοσιοποίηση τους στο Διαδίκτυο. Συγκεκριμένα, περιγράφουμε την δημιουργία ενός λογισμικού για την μοντελοποίηση ενός από τους μεγαλύτερους εκπροσώπους γλωσσολογικών δεδομένων στο Διαδίκτυο, του WordΝet, για την Ελληνική γλώσσα. ΘΕΜΑΤΙΚΗ ΠΕΡΙΟΧΗ: Διασυνδεδεμένα Δεδομένα ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ:Διασυνδεδεμένα Δεδομένα, Γλωσσολογικά Δεδομένα, WordNet 6

7 Abstract Nowadays, Web is one of the most important means of sharing knowledge. Information and data from various scientific fields, and not only, are accessible by every user. One scientific field that is represented by a large number of data on the Web is Linguistics that deals with the study of human language. However, many of these data are published in proprietary, closed formats and so there are not accessible. But, simply posting massive amounts of linguistic data is not sufficient. If linguistic data linked together will provide greater utility and value to the information provided, and thus better results will be exported. In this paper we examine and we develop methods and standards for the semantic representation of linguistic data and we apply the principles of Linked Data for their publication on the Web. Specifically, we describe the creation of a software for modeling one of the greatest representatives of linguistic data on the Internet, WordNet, for the Greek language. SUBJECT AREA: Linked Data KEYWORDS: Linked Data, Linguistic Data, WordNet 7

8 Περιεχόμενα Σύνοψη... 6 Abstract Πρόλογος Αντικείμενο της εργασίας Δομής της εργασίας Ιστορία του Λεξικού Ιστορική Αναδρομή Κατηγορίες Λεξικών Λεξικό Lexicon Θησαυρός Εγκυκλοπαίδεια Ηλεκτρονικό Λεξικό WordΝet Τι είναι το WordNet; Γιατί είναι ξεχωριστό; Δομή και Περιεχόμενο του WordNet Σημασιολογικές σχέσεις στο WordNet Άλλα WordNets EuroWordNet Euroterm BalkaΝet Global WordNet Association Εφαρμογές του WordNet Παρόμοιοι λεξιλογικοί σημασιολογικοί πόροι Ιστός Δεδομένων και Διασυνδεδεμένα Δεδομένα Από τον Ιστό των Εγγράφων στον Ιστό των Δεδομένων Διασυνδεδεμένα Δεδομένα Χρήση URIs για την ονομασία αντικειμένων Δημιουργία dereferenceable URIs Παροχή χρήσιμης πληροφορίας μέσω RDF

9 4.2.4 Προσθήκη συνδέσμων προς άλλα σύνολα Δεδομένων Linking Open Data project Πλεονεκτήματα δημοσίευσης Γλωσσολογικών Δεδομένων ως Διασυνδεδεμένα Δεδομένα Οντολογίες Ορισμός της έννοιας οντολογία Γιατί χρειάζονται οι Οντολογίες; Τα βασικά συστατικά μιας οντολογίας Γλώσσες Οντολογιών Λεξιλογικές οντολογίες Διαδικασία Μετατροπής του Ελληνικού WordNet Δομή του Eλληνικού WordNet Οντολογίες που χρησιμοποιήθηκαν Αντιστοιχίσεις Δομή του Κώδικα Δημοσιοποίηση Δεδομένων Hosting Δημοσιοποίηση τριπλετών Αποσαφήνιση URI Σύνδεση με άλλα Δεδομένα Κατανάλωση Δεδομένων Ανάπτυξη εφαρμογής Απεικόνιση Σχέσεων Συμπεράσματα Μελλοντική Εργασία Βιβλιογραφία Παράρτημα

10 10

11 1.Πρόλογος 1.1 Αντικείμενο της εργασίας Η γλώσσα είναι αναμφίβολα το βασικότερο μέσο επικοινωνίας μεταξύ των ανθρώπων και η πιο σύνθετη μορφή της ανθρώπινης συμπεριφοράς. Υπολογίζεται ότι υπάρχουν περίπου με διαφορετικές γλώσσες στον κόσμο, κάθε μία από τις οποίες αποτελείται από ένα μεγάλο πλήθος λέξεων, γραμματικών κανόνων και συντακτικών δομών. Η διερεύνηση της προέλευσης των λέξεων μπορεί να οδηγήσει σε αξιοσημείωτη γνώση σχετικά με το πολιτιστικό υπόβαθρο που έχει διαμορφώσει η σημασιολογία του σύγχρονου λεξιλογίου μας. Μάλιστα, έρευνα στην συγκριτική και ιστορική Γλωσσολογία δεν παρήγαγε μόνο πολυάριθμα ευρήματα ανεκτίμητης αξίας για την ιστορία των λέξεων και τις γλώσσες, αλλά και για την ιστορία της ανθρωπότητας και τα μοτίβα μετανάστευσης που διαμόρφωσαν τον κόσμο μας. Επομένως, δεν είναι περίεργο το ότι η επιστήμη που ασχολείται με αυτήν, η Γλωσσολογία, έχει αναπτύξει ένα μεγάλο εύρος από πόρους και μεθόδους που χρησιμοποιούνται για να αναλύσουν, να επεξεργαστούν και να παράγουν τη φυσική γλώσσα. Ωστόσο, τα κλειστά πρότυπα που χρησιμοποιούνται για την δημοσιοποίηση των γλωσσολογικών πόρων στο Διαδίκτυο καθιστούν δύσκολη την διασύνδεσή τους και καταλήγουν να περιορίζονται σε ένα κομμάτι του Ιστού, τον Αόρατο Ιστό (Deep Web). Μια σημαντική πρόκληση λοιπόν είναι η αποθήκευση, η σύνδεση και η αξιοποίηση του πλούτου των γλωσσολογικών δεδομένων που έχουν συγκεντρωθεί έπειτα από μια υπολογιστική έρευνα στη Γλωσσολογία που έχει διαρκέσει πάνω από μισό αιώνα. Το βασικό θέμα όμως είναι η διαλειτουργικότητα των γλωσσολογικών πόρων. Στενά συνδεδεμένη με αυτήν την πρόκληση είναι η ενοποίηση (integration) των πληροφοριών, δηλαδή πως οι πληροφορίες από διαφορετικά σύνολα δεδομένων μπορούν να ανακτηθούν και να συνδυαστούν με αποδοτικό τρόπο. Οι Αρχές των Διασυνδεδεμένων Δεδομένων (Tim Berners-Lee,2009) δίνουν λύση σε αυτά τα προβλήματα ενισχύοντας την δημοσιοποίηση των δεδομένων με τη χρήση του μοντέλου RDF και κυρίως, με την σύνδεση των δεδομένων μεταξύ τους με σκοπό την πραγματοποίηση ενός παγκόσμιου Ιστού Δεδομένων (Web of Data). Στην παρούσα διπλωματική εργασία αναπτύσσουμε μεθόδους μετατροπής και δημοσιοποίησης των γλωσσολογικών δεδομένων σύμφωνα με τις Αρχές των Διασυνδεδεμένων Δεδομένων και εξετάζουμε τα πλεονεκτήματα που μπορούν να προσφέρουν στον τομέα της Γλωσσολογίας. Ως παράδειγμα χρησιμοποιήσαμε έναν από τους μεγαλύτερους γλωσσολογικούς πόρους στο Διαδίκτυο, το WordΝet. Συγκεκριμένα, τα δεδομένα του Ελληνικού WordNet μοντελοποιήθηκαν και δημοσιεύτηκαν ως Διασυνδεδεμένα Δεδομένα, έπειτα από τη δημιουργία ενός λογισ- 11

12 μικού που αναπτύχθηκε ειδικά για αυτόν τον σκοπό. Επίσης, περιγράφονται όλα τα στάδια από την επεξεργασία και την μετατροπή τους μέχρι την δημοσίευση και την αξιοποίησή τους στον Ιστό των Δεδομένων. Οι καινοτομίες αυτής της εργασίας είναι οι εξής: Η δημοσίευση των δεδομένων του Ελληνικού WordNet σύμφωνα με τις Αρχές των Διασυνδεμένων Δεδομένων. Η διασύνδεση αυτών των δεδομένων με άλλους εξωτερικούς πόρους. Η ανάπτυξη μιας εφαρμογής για τη χρήση των δεδομένων από οποιονδήποτε χρήστη. 1.2 Δομής της εργασίας Στο κεφάλαιο 2 γίνεται μια συνοπτική αναδρομή στην ιστορία των λεξιλογικών πόρων, από τα πρώτο λεξικό μέχρι τα ηλεκτρονικά λεξικά. Στο κεφάλαιο 3 περιγράφουμε το WordΝet και αναφέρουμε τα χαρακτηριστικά που το διαφοροποιούν σε σχέση με άλλους λεξικολογικούς πόρους. Αναλύουμε τη βασική δομή και το περιεχόμενό του και δίνουμε μερικά παραδείγματα από άλλα WordNets. Τέλος, παραθέτουμε κάποιες εφαρμογές στις οποίες έχει χρησιμοποιηθεί, καθώς κάποιους παρόμοιους λεξιλογικούς πόρους. Στο κεφάλαιο 4 περιγράφουμε πώς από τον Ιστό των Εγγράφων περάσαμε στον Ιστό των Δεδομένων. Παραθέτουμε τις Αρχές των Διασυνδεδεμένων Δεδομένων και περιγράφουμε τα βασικά στάδια αρχιτεκτονικής τους. Στη συνέχεια, παρουσιάζουμε το project Linking Open Data και τέλος, αναφέρουμε τα πλεονεκτήματα που προσφέρει η δημοσίευση των Γλωσσολογικών Δεδομένων ως Διασυνδεδεμένα Δεδομένα στον Ιστό. Στο κεφάλαιο 5 ορίζεται η έννοια της οντολογίας, παρουσιάζονται οι λόγοι που χρησιμοποιείται, καθώς και τα βασικά στοιχεία της δομής της. Στη συνέχεια, περιγράφουμε κάποιες άλλες λεξιλογικές οντολογίες. Στο κεφάλαιο 6 αναλύουμε τις διαδικασίες που ακολουθήθηκαν, καθώς και τον κώδικα που αναπτύχθηκε για την μετατροπή των δεδομένων του Ελληνικού WordNet σύμφωνα με τις Αρχές των Διασυνδεδεμένων Δεδομένων. Στο κεφάλαιο 7 περιγράφουμε τον τρόπου που υλοποιήθηκε η δημοσιοποίηση των δεδομένων στον Ιστό των Δεδομένων. 12

13 Στο κεφάλαιο 8 περιγράφεται η διαδικασία σύνδεσης του συνόλου των δεδομένων του Ελληνικού WordNet με άλλους γλωσσολογικούς πόρους, συγκεκριμένα με το Αγγλικό WordNet στις εκδόσεις 2.0 και 3.0, κάνοντας χρήση του εργαλείου Silk. Στο κεφάλαιο 9 παρουσιάζεται μια εφαρμογή που αναπτύξαμε για την αξιοποίηση των δεδομένων του Ελληνικού WordNet από τους χρήστες, δημιουργώντας ένα πρότυπο ευρετήριο των δεδομένων του Ελληνικού WordNet. Επίσης, βλέπουμε πως με την εφαρμογή RelFinder μπορούμε να αναπαραστήσουμε τις σχέσεις μεταξύ δύο ή περισσότερων αντικειμένων του συνόλου δεδομένων. Στο κεφάλαιο 10 παραθέτουμε τα συμπεράσματα που προέκυψαν μετά την εκπόνηση της διπλωματικής εργασίας. Στο κεφάλαιο 11 προτείνουμε κάποιες προτάσεις για μελλοντική περαιτέρω έρευνα. 13

14 2 Ιστορία του Λεξικού 2.1 Ιστορική Αναδρομή Ο αρχαιότερος τύπος λεξιλογικού σημασιολογικού πόρου είναι το λεξικό. Η ιστορία των λεξικών είναι πολύ παλιά με το αρχαιότερο να χρονολογείται το 2300 π.χ. 1 Ανακαλύφθηκε στη Συρία και ήταν πλάκες σε σφηνοειδή γραφή, που περιείχαν δίγλωσσες λίστες λέξεων στη γλώσσα των Σουμερίων και των Ακκάδιων. Σχήμα 1. Το αρχαιότερο δίγλωσσο λεξικό Οι πρώτες λεξικογραφικές προσπάθειες όμως για μονόγλωσσα λεξικά συναντώνται στην Κίνα και στην Ινδία. Το πρώτο διασωθέν μονόγλωσσο λεξικό είναι κινέζικο και χρονολογείται τον 3 ο αιώνα π.χ. Στην αρχαία Ελλάδα, τα πρώτα λεξικά ήταν γλωσσάρια για να εξηγήσουν λέξεις που χρησιμοποίησαν παλιοί ποιητές 2. Τα περισσότερα ήταν κυρίως ομηρικά και οι λέξεις κατατάσσονταν με τη σειρά που συναντιόντουσαν στον Όμηρο. Πρώτος συστηματικός λεξικογράφος θεωρείται ο

15 σοφιστής Γοργίας (5 ος αιώνας π.χ.). Ο Φιλητάς ο Κώος σύνταξε ένα λεξιλόγιο (Άτακτα-4 ος αιώνας π.χ), στο οποίο εξηγούσε τις έννοιες από σπάνιες λέξεις που υπήρχαν σε ομηρικά κείμενα και σε άλλα λογοτεχνικά έργα, από λέξεις σε άλλες διαλέκτους και από τεχνικούς όρους. Ο σοφιστής Απολλώνιος (1 ος αιώνας μ.χ.) έγραψε το παλαιότερο σωζόμενο ομηρικό λεξιλόγιο. Η λεξικογραφία τελειοποιήθηκε κατά τους Αλεξανδρινούς χρόνους, σημείωσε νέα ακμή κατά τους βυζαντινούς και προόδευσε περισσότερο κατά την Αναγέννηση. 2.2 Κατηγορίες Λεξικών Λεξικό Ο Αδαμάντιος Κοραής έλεγε ότι : «το πρώτο βιβλίο κάθε έθνους είναι το λεξικό της γλώσσας του, δηλαδή η συλλογή και η έρευνα των συμβόλων με τα οποία εκφράζει τις ιδέες του». Σύμφωνα με τον Ferdinand de Saussure 3 : «κάθε λαός συλλαμβάνει, οργανώνει και εκφράζει τον κόσμο του μέσα από τη γλώσσα του κάθε γλώσσα είναι και μια άλλη ταξινομία τού κόσμου μας». Δηλαδή, κάθε λεξικό, αποτελεί πολύ σημαντική υπόθεση, αφού η απεικόνιση της γλώσσας συνιστά συγχρόνως και την πνευματική εικόνα ενός έθνους. Δίνοντας έναν πιο σύγχρονο ορισμό, ως λεξικό ορίζεται 4 : Ένα βιβλίο που συγκεντρώνει συστηματικά και ταξινομεί λέξεις, συνήθως σε αλφαβητική σειρά, παρέχοντας και ποικίλες πληροφορίες για την γραμματική, την σύνταξη, την ερμηνεία, την ετυμολογία κ.λπ. Σύμφωνα με τον Sandro Nielsen 5, ένα λεξικό μπορεί να θεωρηθεί ως λεξικογραφικό προϊόν το οποίο χαρακτηρίζεται από τρία σημαντικά χαρακτηριστικά: 1. έχει δημιουργηθεί για μία ή περισσότερες λειτουργίες 2. περιέχει δεδομένα που έχουν επιλεγεί για την εκπλήρωση των εν λόγω λειτουργιών, και 3. οι λεξικογραφικές δομές του συνδέουν και δημιουργούν σχέσεις μεταξύ των δεδομένων, ώστε να μπορούν να ανταποκρίνονται στις ανάγκες των χρηστών και να εκπληρώνουν τις λειτουργίες του λεξικού. 3 Ferdinand de Saussure (26 Νοεμβρίου, Φεβρουαρίου, 1913): Ελβετός γλωσσολόγος, ιδρυτής της μοντέρνας γλωσσολογίας Sandro Nielsen (γεννήθηκε το 1961) : Δανός γλωσσολόγος, ειδικός στη συγγραφή δίγλωσσων εξειδικευμένων λεξικών. 15

16 Τα λεξικά μπορούν να χωριστούν σε δύο μεγάλες κατηγορίες : τα γενικά και τα εξειδικευμένα. Τα γενικά λεξικά περιέχουν πληροφορίες για λέξεις που χρησιμοποιούνται στην καθημερινή ζωή των ανθρώπων και είναι συνήθως σημασιολογικά, δηλαδή επικεντρώνονται στην σημασία κάθε λέξης. Τα εξειδικευμένα λεξικά είναι ονομασιολογικά, δηλαδή πρώτα αναγνωρίζουν τις έννοιες και στη συνέχεια, θεσπίζουν τους όρους που χρησιμοποιούνται για την περιγραφή τους. Μια άλλη κατηγοριοποίηση είναι τα κανονιστικά λεξικά και τα περιγραφικά λεξικά 6. Τα περιγραφικά λεξικά περιγράφουν τη γλώσσα. Περιλαμβάνουν λέξεις που χρησιμοποιούνται συνήθως ακόμη και αν δεν είναι «σωστές» αλλά έχουν ενσωματωθεί στην καθημερινή χρήση μιας γλώσσας με το πέρασμα των χρόνων. Τα κανονιστικά λεξικά τείνουν να ασχολούνται με την ορθή χρήση και την ορθογραφία των λέξεων. Υπάρχουν πολλά ακόμα είδη λεξικών που δεν ταιριάζουν απόλυτα σε κάποια από τις παραπάνω κατηγορίες, όπως είναι για παράδειγμα τα δίγλωσσα λεξικά, τα οποία περιέχουν την μετάφραση κάθε λέξης σε μια άλλη γλώσσα Lexicon Στη Γλωσσολογία, το lexicon 7 (προέρχεται από την Ελληνική λέξη λεξικόν) ορίζεται ως η απογραφή των λεξημάτων 8 μιας γλώσσας. Δηλαδή, καταγράφει το λεξιλόγιο μιας γλώσσας συμπεριλαμβανομένων των λέξεων και των εκφράσεών της. Είναι παρόμοιο με το λεξικό (dictionary), όμως σε ένα lexicon συμπεριλαμβάνονται όλοι οι δυνατοί τύποι μιας λέξης, στον ενικό, στον πληθυντικό κ.ά Θησαυρός Ως θησαυρός ορίζεται 9 ένα βιβλίο που ταξινομεί τις λέξεις σύμφωνα με την ομοιότητα των εννοιών τους, ομαδοποιώντας τες σε ένα σύνολο συνωνύμων και μερικές φορές και αντωνύμων. Ο κύριος σκοπός του θησαυρού, σύμφωνα με τον Λέξημα είναι το σύνολο των τύπων μιας λέξης που συνδέονται με μία κοινή λεξική σημασία και μπορούν να διαφοροποιούνται ανάλογα με το γραμματικό περιβάλλον στο οποίο εμφανίζεται η λέξη. Λεξήματα, δηλαδή, είναι οι λέξεις που λημματογραφούνται στα λεξικά, ανεξάρτητα από τον τύπο που κατά σύμβαση η κάθε γλώσσα δίνει ως κεφαλή του λήμματος

17 Peter Mark Roget 10 είναι να βοηθήσει το χρήστη «να βρει τη λέξη, ή τις λέξεις, με την οποία μπορεί να ταιριάξει περισσότερο ή να εκφραστεί κατάλληλα μια ιδέα». Αν και συμπεριλαμβάνει συνώνυμα, ένας θησαυρός δεν πρέπει να εκληφθεί ως μια πλήρη λίστα με όλα τα συνώνυμα για μια συγκεκριμένη λέξη. Οι εγγραφές είναι επίσης σχεδιασμένες για να γίνεται διάκριση μεταξύ των παρόμοιων λέξεων και βοηθούν στην ακριβή επιλογή της σωστής λέξης. Σε αντίθεση με ένα λεξικό, μια εγγραφή σε έναν θησαυρό δεν δίνει τον ορισμό των λέξεων Εγκυκλοπαίδεια Η εγκυκλοπαίδεια 11 είναι ένα πολύτομο συνήθως έργο με γενικές γνώσεις. Αποτελεί ουσιαστικά μια σύνοψη της γνώσης. Είναι παρόμοια με το λεξικό, αλλά οι έννοιες που περιέχει περιγράφονται με περισσότερες πληροφορίες και μεγαλύτερη λεπτομέρεια. Οι εγκυκλοπαίδειες μπορούν να περιέχουν έννοιες γενικής φύσεως, δηλαδή να περιέχουν περιγραφές από πολλά διαφορετικά γνωστικά πεδία, ή να εξειδικεύονται σε ειδικά θέματα, για παράδειγμα στην Ιατρική. Οργανώνονται συνήθως αλφαβητικά ή βάσει ιεραρχημένων κατηγοριών Ηλεκτρονικό Λεξικό Ένα ηλεκτρονικό λεξικό 12 είναι ένα λεξικό του οποίου τα δεδομένα υπάρχουν σε ψηφιακή μορφή και μπορεί να προσπελαστεί μέσα από μια σειρά διαφορετικών μέσων. Στη σύγχρονη ψηφιακή εποχή τα ηλεκτρονικά λεξικά αναδείχθηκαν σε σχέση με τα έντυπα. Αυτό οφείλεται στις συνεχείς εξελίξεις στην κοινωνία τα τελευταία χρόνια οι οποίες σηματοδοτούν αλλαγές και στη γλώσσα. Τα social media και η οικονομική κρίση, εμπλουτίζουν την γλώσσα διαρκώς είτε με νέες λέξεις που χρησιμοποιούνται ευρέως είτε με νέες έννοιες σε παλιές λέξεις, όπως για παράδειγμα η λέξη «like» ή το «follow». Έτσι, τα ηλεκτρονικά λεξικά κατακτούν συνεχώς νέο έδαφος, καθώς το περιεχόμενο τους μπορεί να αναθεωρηθεί πιο εύκολα ακολουθώντας τις οποιεσδήποτε αλλαγές ή προσθήκες στη γλώσσα και επιπλέον, σε ένα ηλεκτρονικό λεξικό υπάρχει απεριόριστος χώρος για να αναπτυχθεί επαρκώς ένα λήμμα. 10 Ο Peter Mark Roget είναι ο δημιουργός ενός από τους πιο γνωστούς θησαυρούς στην Αγγλική γλώσσα CE%BF%CF%80%CE%B1%CE%AF%CE%B4%CE%B5%CE%B9%CE%B

18 3 WordΝet Συχνά, οι έρευνες στον τομέα της Γλωσσολογίας ασχολούνται με πολύ συγκεκριμένες γλώσσες και χρονικές περιόδους, αντί να αποσκοπούν σε μεγάλης κλίμακας συνάθροιση δεδομένων από πολλές οικογένειες γλωσσών. Επιπλέον, οι ετυμολογικές σχέσεις περιγράφονται συνήθως στον πεζό λόγο. Παρόλο που οι βασικές πληροφορίες που μπορεί να προσφέρει αυτή η πεζή μορφή είναι αναμφισβήτητα σημαντικές, καθιστούν πιο δύσκολο για τις μηχανές να τηρούν τις βασικές συνδέσεις ανάμεσα στις λέξεις. Για αυτούς τους λόγους, δεν υπήρξε κάποιος πόρος αναγνώσιμος από μηχανή που να συγκεντρώνει ένα μεγάλο πλήθος από ετυμολογικές σχέσεις μεταξύ χιλιάδων λέξεων από εκατοντάδες γλώσσες. 3.1 Τι είναι το WordNet; Το WordΝet, είναι ένας από τους πιο δημοφιλείς λεξιλογικούς πόρους που επιχειρεί να κάνει ένα σημαντικό βήμα προς την καταγραφή ετυμολογικών πληροφοριών και λεξιλογικών σχηματισμών μεταξύ των λέξεων σε πολλές γλώσσες. Ξεκίνησε ως μια ηλεκτρονική βάση λεξιλογικών δεδομένων της Αγγλικής γλώσσας και αναπτύχθηκε για πολλές γλώσσες, συμπεριλαμβανομένης και της Ελληνικής. Σχεδιάστηκε το 1986 από τον ψυχογλωσσολόγο George A. Miller σto Princeton University, όπου και συνεχίζει να αναπτύσσεται. Ο Miller εμπνεύστηκε από τα πειράματα των ερευνητών στην Τεχνητή Νοημοσύνη (Collins και Quillian, 1968, μεταξύ άλλων) για την κατανόηση και τη μοντελοποίηση της ανθρώπινης σημασιολογικής μνήμης και θέλησε να δοκιμάσει τις βασικές θεωρίες σε μεγάλη κλίμακα. Έτσι, δημιουργήθηκε το πρώτο WordNet, το Princeton WordNet (PWN) 13 για την Αγγλική γλώσσα Σχήμα 2. Το πρώτο WordNet, Princeton WordNet. 18

19 Μέχρι σήμερα, εμπλουτίζεται σταθερά με την τελευταία έκδοσή του (3.0) να περιλαμβάνει πάνω από λέξεις που οργανώνονται σε περίπου σύνολα συνωνύμων, καλύπτοντας τα τέσσερα βασικά μέρη του λόγου : ουσιαστικά, ρήματα, επίθετα και επιρρήματα. Χρησιμοποιείται σε πολλές εφαρμογές εφαρμοσμένης Γλωσσολογίας και Επεξεργασίας της Φυσικής Γλώσσας (NLP) 15, όπως στην ανάκτηση πληροφοριών, στην ανάλυση κειμένων, στις ερωταποκρίσεις, στην αυτόματη μετάφραση και σε εφαρμογές Τεχνητής Νοημοσύνης 16. Μερικές από τις πολλές εφαρμογές του WordNet περιγράφονται σε επόμενη ενότητα. 3.2 Γιατί είναι ξεχωριστό; Όπως συμβαίνει με τα παραδοσιακά έντυπα λεξικά, το WordNet περιλαμβάνει όχι μόνο απλές λέξεις, αλλά και σύνθετες λέξεις και ιδιωματικές φράσεις. Όμως, τα απλά λεξικά οργανώνονται αλφαβητικά με αποτέλεσμα, οι λέξεις που βρίσκονται μαζί (στην ίδια σελίδα) να μην σχετίζονται εννοιολογικά. Το WordNet ομαδοποιεί τις λέξεις με βάση τη σημασία τους. Δηλαδή, το WordNet επιφανειακά μοιάζει με ένα θησαυρό ωστόσο, υπάρχουν ορισμένες σημαντικές διαφορές. Πρώτον, το WordNet διασυνδέει όχι μόνο τύπους λέξεων (σειρές γραμμάτων), αλλά συγκεκριμένες έννοιες των λέξεων. Ως αποτέλεσμα, οι λέξεις που βρίσκονται σε άμεση γειτνίαση μεταξύ τους στο δίκτυο είναι σημασιολογικά αποσαφηνισμένες. Δεύτερον, το WordNet σημειώνει τις σημασιολογικές σχέσεις μεταξύ των λέξεων, ενώ οι ομάδες των λέξεων μέσα σε ένα θησαυρό δεν ακολουθούν κανένα σαφές μοτίβο, εκτός από την ομοιότητα εννοιών. Έτσι, οι χρήστες του WordNet μπορούν να βρουν την έννοια μιας λέξης όχι μόνο σε σχέση με τις συνώνυμές της, αλλά επιπλέον και μέσω των σχέσεων με άλλες λέξεις. Μια ακόμα διαφορά είναι ότι τα λήμματα σε ένα απλό λεξικό ή θησαυρό έχουν δημιουργηθεί για ανάγνωση και χρήση από ανθρώπους. Το WordNet παρέχει έναν πιο αποτελεσματικό συνδυασμό λεξικογραφικών πληροφοριών και σύγχρονης πληροφορικής, που το καθιστά αναγνώσιμο και από μηχανές. Γενικά, το WordNet εμφανίζει τα παρακάτω χαρακτηριστικά: Οι λέξεις που έχουν στενή γειτνίαση είναι σημασιολογικά παρόμοιες NLP-Natural Language Processing: Τομέας που ασχολείται με την ικανότητα κατανόησης της ανθρώπινης γλώσσας από τους υπολογιστές. 16 Τεχνητή Νοημοσύνη: Τομέας της επιστήμης των υπολογιστών, που ασχολείται με τη σχεδίαση ευφυών υπολογιστικών μηχανών. 19

20 Η ψηφιακή μορφή επιτρέπει τη στοχευμένη αναζήτηση για λέξεις που σχετίζονται εννοιολογικά και για έννοιες από πολλαπλά σημεία πρόσβασης. Οι χρήστες και οι υπολογιστές μπορούν να περιηγηθούν στο WordNet και να βρουν τις λέξεις που σχετίζονται πραγματικά με τα ερωτήματά τους. Η ομοιότητα της έννοιας μπορεί να μετρηθεί και να ποσοτικοποιηθεί για την υποστήριξη της κατανόησης της Φυσικής Γλώσσας, και κυρίως για την Αποσαφήνιση των Εννοιών μιας Λέξης (Word Sense Disambiguation). 3.3 Δομή και Περιεχόμενο του WordNet Το WordNet είναι ένα μεγάλο σημασιολογικό δίκτυο που συνδέει λέξεις και ομάδες λέξεων με τη βοήθεια λεξιλογικών και σημασιολογικών σχέσεων. Τα τέσσερα βασικά μέρη του λόγου, ουσιαστικά, ρήματα, επίθετα και επιρρήματα, ομαδοποιούνται σε ομάδες συνωνύμων,που ονομάζονται synsets (synonym sets), και αποτελούν τα δομικά στοιχεία του WordNet. Δηλαδή, τα synsets είναι μη διατεταγμένα σύνολα από νοητικά συνώνυμες λέξεις και φράσεις (Cruse, 1986). Η ίδια λέξη μπορεί να είναι μέλος σε πολλά synset. Αυτό αντικατοπτρίζει την πολυσημία την εν λόγω λέξης ή την πολλαπλότητα του νοήματος. Για παράδειγμα, η λέξη ζυγός σημαίνει την παραδοσιακή ζυγαριά αλλά και την καταπίεση. Οι τύποι λέξεων (word forms) 17 με πολλές διαφορετικές σημασίες αναπαριστώνται ως πολλά διαφορετικά synsets. Έτσι, κάθε ζευγάρι τύπος-έννοια στο WordNet είναι μοναδικό. Μπορούμε να παρομοιάσουμε το WordNet σαν ένα γράφο, στον οποίο κόμβοι είναι οι έννοιες, οι οποίες μπορούν εκφραστούν από διάφορους τύπους λέξεων, και ακμές οι σχέσεις μεταξύ τους. Οι σχέσεις μπορούν να χωριστούν σε δύο κατηγορίες, στις σημασιολογικές και στις λεξιλογικές σχέσεις. Μια σημασιολογική σχέση υποδηλώνει μια σχέση μεταξύ δυο synset, ενώ μια λεξικολογική σχέση αναπαριστά μια σχέση μεταξύ δυο λέξεων ανάμεσα σε δυο σύνολα συνωνύμων. Με αυτό τον τρόπο οι σημασιολογικές σχέσεις συνδέουν όλες τις λέξεις μέσα στα σύνολα συνωνύμων, ενώ οι λεξικογραφικές σχετίζουν μόνο συγκεκριμένες λέξεις. Οι λεξιλογικές σχέσεις υπάγονται στις σημασιολογικές (Cruse 1986) Σημασιολογικές σχέσεις στο WordNet Οι σημασιολογικές σχέσεις που υπάρχουν στο WordNet εφαρμόζονται ευρέως, ιδιαίτερα στην Αγγλική γλώσσα, και είναι κατανοητές ακόμα και από κάποιον που δεν είναι ειδικός στη Γλωσσολογία. Αυτές είναι οι εξής: 17 Η ίδια λέξη μπορεί να υπάρχει σε διάφορους τύπους : ουσιαστικό, ρήμα, κ.λπ. (π.χ. ενθάρρυνση-ενθαρρύνω) 20

21 1. Συνωνυμία Η βασική σχέση μεταξύ των λέξεων στο WordNet είναι η συνωνυμία, αφού το WordNet χρησιμοποιεί σύνολα συνωνύμων για να αναπαραστήσει έννοιες των λέξεων (word senses). Τα συνώνυμα, δηλαδή λέξεις που υποδηλώνουν την ίδια έννοια και είναι εναλλάξιμες σε πολλές περιπτώσεις, ομαδοποιούνται όπως αναφέρθηκε και προηγουμένως, σε μη διατεταγμένα σύνολα, τα synsets. Καθένα από αυτά συνδέεται με άλλα synsets μέσω σημασιολογικών σχέσεων. Επιπλέον, κάθε synset περιέχει ένα σύντομο ορισμό (gloss) και, στις περισσότερες περιπτώσεις, μία ή περισσότερες σύντομες προτάσεις που περιγράφουν τη χρήση των μελών του synset. 2. Αντωνυμία Το WordNet διακρίνει τα περιγραφικά και τα σχεσιακά επίθετα. Η βασική σχέση ανάμεσα στα περιγραφικά επίθετα είναι η αντωνυμία. Τα περιγραφικά επίθετα οργανώνονται σε ζεύγη άμεσων αντωνύμων, όπως {υγρός}-{ξηρός} και {μακρύ}- {κοντό}, και αντικατοπτρίζουν μια ισχυρή σημασιολογική αντίθεση μεταξύ των μελών τους. Κάθε μέλος ενός ζεύγους άμεσων αντωνύμων συνδέεται με τη σειρά του με μια σειρά από «σημασιολογικά παρόμοια» επίθετα. Το {νωπός} και {μουσκεμένος} είναι σημασιολογικά παρόμοια με το {υγρός}, και το {άγονος} με το {ξηρός}. Οι έννοιες αυτές ονομάζονται έμμεσα αντώνυμα των κεντρικών μελών της αντίθετης έννοιας. Δηλαδή, το {νωπό} είναι ένα έμμεσο αντώνυμο του {ξηρό}, και το {άγονο} του {υγρό}. (Miller, 1998;Gross et al., 1989). Τα σχεσιακά επίθετα συνδέονται με τα ουσιαστικά από όπου προέρχονται {ατομική}-{άτομο}, {πυρηνικός}- {πυρήνας}. 3. Ηyponymy Η πιο συχνά κωδικοποιημένη σχέση μεταξύ των synsets που εκφράζονται από ουσιαστικά είναι η σχέση hyponymy /hyperonymy (ονομάζεται επίσης και supersubordinate σχέση ή is-a). Είναι μια σημασιολογική σχέση που συνδέει πιο γενικά synsets σε όλο και πιο ειδικά, π.χ. η {κερασιά} είναι hyponym του {δέντρου} και το {δέντρο} είναι hyponym του {φυτού}. Έτσι, το WordNet αναφέρει ότι η κατηγορία {φυτά} περιλαμβάνει το {δέντρο}, το οποίο με τη σειρά του περιλαμβάνει την {κερασιά}. Αντίστροφα, έννοιες όπως το {δέντρο} και η {κερασιά} συνθέτουν την κατηγορία {φυτά}. Επίσης, η σχέση hyponymy είναι μεταβατική, δηλαδή: εάν η {κερασιά} είναι ένα είδος {δέντρου}, και αν το {δέντρο} είναι ένα είδος {φυτού}, τότε, η {κερασιά} είναι ένα είδος {φυτού}. Επειδή, συνήθως υπάρχει μόνο ένα hypernym, αυτή η σημασιολογική σχέση οργανώνει τις έννοιες των ουσιαστικών σε μια ιεραρχική δομή σαν «δέντρα», με τα «φύλλα» να είναι ολοένα και πιο συγκεκριμένες έννοιες οι οποίες προέρχονται από μια αφηρημένη «ρίζα». Όλα τα synsets-ουσιαστικά τελικά κατάγονται από την ριζικό κόμβο {οντότητα}. Μεταξύ των εννοιών που αναπαριστώνται από ουσιαστικά, το WordNet διακρίνει τα είδη (types) και τα παραδείγματα (instances). Τα κοινά ουσιαστικά είναι τα είδη: το 21

22 {δέντρο} είναι ένα είδος {φυτού}, τα {πορσελάνινα} είναι ένα είδος {σερβίτσιου}. Τα κύρια ονόματα (συγκεκριμένα πρόσωπα, χώρες και γεωγραφικές οντότητες) είναι παραδείγματα: Η {Γαλλία} είναι ένα παράδειγμα, και όχι είδος μιας {χώρας} (Miller και Hristea, 2004). Τα παραδείγματα είναι πάντα τερματικοί κόμβοι στις ιεραρχίες τους. 4. Meronymy Μια άλλη σημαντική σημασιολογική σχέση μεταξύ των synsets- ουσιαστικών είναι η meronymy (part-whole relation), η οποία συνδέει synsets που δηλώνουν τα μέρη, τα στοιχεία, ή τα μέλη με synsets που δηλώνουν το σύνολο. Έτσι, το synset {δάκτυλο} είναι ένα meronym του synset {χέρι}, το οποίο με τη σειρά του είναι ένα meronym του synset {βραχίονα}, και ούτω καθεξής. Στην πραγματικότητα, το meronymy στο WordNet περιλαμβάνει τρεις διαφορετικές σχέσεις μέρους-ολόκληρου. Η μια συνδέει κατάλληλα μέρη ή συστατικά, όπως το {πόδι} και το {τραπέζι}. Η άλλη συνδέει ουσίες που είναι συστατικά άλλων ουσιών: το {οξυγόνο} είναι ένα μέρος του {νερού} και του {αέρα}. Μέλη όπως το {δέντρο} και ο {γονέας} είναι τμήματα ομάδων, όπως το {δάσος} και η {οικογένεια}. Η σχέση αυτή έχει και αντίστροφη, δηλαδή αν το Α είναι meronym του Β, τότε το Β είναι holonym του Α. Τα μέρη κληρονομούνται από τα superordinates 18 τους: εάν μια {καρέκλα} έχει {πόδια}, τότε και μια {πολυθρόνα} έχει {πόδια}. Τα μέρη δεν κληρονομούνται "προς τα πάνω", καθώς μπορεί να είναι χαρακτηριστικό μόνο των συγκεκριμένων ειδών και όχι της τάξης στο σύνολό της: οι καρέκλες και τα είδη καρέκλας έχουν πόδια, αλλά δεν έχουν όλα τα είδη των επίπλων πόδια. 5. Troponymy Η troponymy, είναι μια σημασιολογική σχέση που συνδέει ζεύγη ρημάτων τέτοια. Τα tropoynyms εκφράζουν ένα συγκεκριμένο τρόπο που χαρακτηρίζουν μια κατάσταση π.χ., το {ψιθυρίζω} και το {μιλάω} είναι troponyms του {επικοινωνώ}. Ο συγκεκριμένος τρόπος που χαρακτηρίζει μια κατάσταση εξαρτάται από το σημασιολογικό πεδίο. Έτσι, η ένταση, όπως στο παραπάνω παράδειγμα, είναι μόνο μία διάσταση κατά μήκος της οποίας μπορούν να αναπτυχθούν τα ρήματα. Άλλες διαστάσεις είναι η ταχύτητα {κινούμαι}-{περπατάω}-{τρέχω} ή η ένταση του συναισθήματος {συμπαθώ}-{αγαπάω}-{λατρεύω}. Όπως η σχέση hyponymy, η troponymy χτίζει ιεραρχίες επιπέδων εξειδίκευσης, αλλά λιγότερες σε σχέση με την hyponymy. 6. Συνεπαγωγή Τα ρήματα που περιγράφουν γεγονότα που αναγκαστικά και με μονή κατεύθυνση (απλή συνεπαγωγή) συνεπάγεται από το ένα το άλλο συνδέονται μεταξύ τους με τη 18 superordinate : αντιπροσωπεύει μια ανώτερη τάξη ή κατηγορία μέσα σε ένα σύστημα ταξινόμησης 22

23 σχέση της συνεπαγωγής: {αγοράζω}-{πληρώνω}, {πετυχαίνω}-{προσπαθώ} κ.λπ. Στον παρακάτω πίνακα παρουσιάζονται συνοπτικά οι σημασιολογικές σχέσεις που συναντώνται στο WordNet: Σημασιολογική Συντακτική Έννοια Σχέση Κατηγορία Συνωνυμία N,V,Aj,Av Το X είναι συνώνυμο του Υ, όταν το Υ μπορεί να αντικατασταθεί από το Χ χωρίς σημασιολογικό και εννοιολογικό λάθος, π.χ. o «αιώνιος» είναι συνώνυμο του «παντοτινός». Αντωνυμία Aj,Av, (N, V) To X είναι αντώνυμο του Υ, όταν το Χ έχει αντίθετη σημασία από το Υ, π.χ. το «αργά» είναι αντώνυμο του «γρήγορα». Hyponymy/Hypernymy Ν Το X είναι υπερώνυμο του Υ (ή με άλλα λόγια το Υ είναι υπώνυμο του Χ), όταν το Υ είναι ένα είδος του Χ, π.χ. ο "σκύλος" είναι υπώνυμο του «ζώου» ή το «ζώο» είναι υπερώνυμο του «σκύλου». Meronymy/Olonymy N Το X είναι μερώνυμο του Υ (ή με άλλα λόγια το Υ είναι ολώνυμο του Χ), όπως ο "προφυλακτήρας" είναι μερώνυμο του "αυτοκινήτου", δηλ. ο προφυλακτήρας είναι μέρος του αυτοκινήτου. Troponymy V To X είναι troponym του Υ, όταν το Χ εκφράζει έναν τρόπο του Υ, π.χ. το {κουτσαίνω} είναι troponym του {περπατάω} Συνεπαγωγή V Το Χ συνεπάγεται το Υ αν το Χ δεν μπορεί να υπάρξει χωρίς το Υ, π.χ. το {αγοράζω} συνεπάγεται του {πληρώνω} Σημείωση: Ν=Ουσιαστικό, V= Ρήμα, Aj= Επίθετο, Av= Επίρρημα Πίνακας 1. Σημασιολογικές Σχέσεις στο WordNet 23

24 Cross-POS relations Η πλειοψηφία των σχέσεων του WordNet συνδέουν λέξεις από το ίδιο μέρος του λόγου (Part Of Speech-POS). Έτσι, το WordNet στην πραγματικότητα αποτελείται από τέσσερα υπο-δίκτυα, ένα για το κάθε ένα μέρος του λόγου, μαζί με μερικούς cross-pos δείκτες. Οι σχέσεις cross-pos περιλαμβάνουν τις "morphosemantic" συνδέσεις που συνδέουν λέξεις και από τα τέσσερα τμήματα του λόγου που είναι τόσο μορφολογικά συναφή όσο και εννοιολογικά (Fellbaum και Miller, 2003). Για παράδειγμα, οι σημασιολογικά σχετικές έννοιες της ανάκρισης, του ανακριτή, ανακρίνω και ανακριτική είναι αλληλένδετες. Τέλος, στο Princeton WordNet υπάρχουν μόνο μερικά επιρρήματα, καθώς η πλειοψηφία των αγγλικών επιρρημάτων προέρχονται από επίθετα μέσω μορφολογικής πρόσφυσης. 3.4 Άλλα Wordnets EuroWordNet Το Wordnet κάλυπτε μόνο την Aγγλική γλώσσα, αλλά υπήρχε μια αυξανόμενη ανάγκη για ανάπτυξη παρόμοιων πόρων για περισσότερες γλώσσες. Συγκεκριμένα χρειαζόταν ένας πόρος που να σχετίζει και να συνδέει WordΝets από διαφορετικές γλώσσες σε ένα ενιαίο διαγλωσσικό λεξιλογικό πόρο. Η βασική συνιστώσα αυτής της βάσης δεδομένων είναι ο Διαγλωσσικός Δείκτης ILI- InterLingual Index 19. Το 1996, το EuroWordNet (EWN) 20 ξεκίνησε ως ένα Ευρωπαϊκό πρόγραμμα, με στόχο να αναπτύξει WordnNets για τα Ολλανδικά, τα Ισπανικά και τα Ιταλικά, και να τα συνδέσει με το Aγγλικό Wordnet σε μια διαγλωσσική βάση δεδομένων. Το 1997, το πρόγραμμα επεκτάθηκε για να συμπεριλάβει τα Γερμανικά, τα Γαλλικά, τα Τσέχικα και τα Εσθονικά. Το EuroWordNet εισήγαγε κάποιες θεμελιώδεις αλλαγές στο σχεδιασμό που είναι πρότυπα για τα μετέπειτα WordNets. Κάποια από αυτά τα WordNets συνδέθηκαν με το Princeton WordNet Euroterm Το πρόγραμμα Euroterm δημιουργήθηκε για να εμπλουτίσει το EuroWordNet με ορολογίες ειδικών τομέων για το σύνολο των Eυρωπαϊκών γλωσσών (Eλληνικά, 19 ILI: μια μη δομημένη λίστα εννοιών που επιτρέπει την αντιστοίχιση εννοιών από διαφορετικές γλώσσες:

25 Oλλανδικά και Iσπανικά). Ο βασικός του στόχος ήταν να συνδυάσει αποτελεσματικά τις διαγλωσσικές ορολογίες ειδικών τομέων σε μια κοινή λεξιλογική βάση δεδομένων μέσω του ILI, με έννοιες που περιορίζονται στο εννοιολογικό πεδίο του περιβάλλοντος. Σε εφαρμογές επεξεργασίας, το Euroterm ενσωματώθηκε σε μια μηχανή αναζήτησης, προκειμένου να βοηθήσει σε εργασίες επέκτασης ερωτημάτων (query expansion) και ανάκτησης πολύγλωσσων πληροφοριών BalkaΝet Το BalkaΝet (Σεπτέμβριος 2001-Αύγουστος 2004) αναπτύχθηκε στα πλαίσια ενός ερευνητικού προγράμματος που χορηγήθηκε από την Ευρωπαϊκή Επιτροπή και επέκτεινε τις Ευρωπαϊκές γλώσσες που είχαν αναπτυχθεί μέσω του EuroWordNet εισάγοντας έξι βαλκανικές γλώσσες, συγκεκριμένα τα Bουλγαρικά, τα Ελληνικά, τα Ρουμάνικα, τα Σέρβικα, τα Τούρκικα και τα Τσέχικα. Το Balkan WordNet στοχεύει στην ανάπτυξη μιας πολύγλωσσης λεξιλογικής βάσης δεδομένων που αποτελείται από επιμέρους WordNets για τις βαλκανικές γλώσσες. Το πιο φιλόδοξο χαρακτηριστικό του BalkaNet είναι η προσπάθειά του να αναπαραστήσει τις σημασιολογικές σχέσεις μεταξύ των λέξεων σε κάθε βαλκανική γλώσσα και να τις συνδέσει μαζί προκειμένου να δημιουργηθεί ένα online πολύγλωσσο σημασιολογικό δίκτυο. Ο κύριος στόχος είναι η ανάπτυξη WordNet της κάθε γλώσσας από τους διαθέσιμους πόρους που καλύπτουν το γενικό λεξιλόγιο της κάθε γλώσσας. Οι σημασιολογικές σχέσεις θα πρέπει να ταξινομούνται στα ανεξάρτητα WordNets σύμφωνα με μια κοινή οντολογία. Στη συνέχεια, όλα τα επιμέρους WordNets θα πρέπει να οργανώνονται σε μια κοινή βάση δεδομένων που θα παρέχει σύνδεση μεταξύ τους. Κάθε ένα από τα WordNets θα διαρθρώνεται γύρω από τις ίδιες κατευθύνσεις με το EuroWordNet μέσω ενός Συστήματος Διαχείρισης WordNet (WordNet Management System). Το έργο προσφέρει μια ευκαιρία να εξερευνηθούν οι λιγότερο μελετημένες βαλκανικές γλώσσες και να συνδυαστούν και να συγκριθούν διαγλωσσικά Global WordNet Association Το Global WordNet Association (GWA) είναι ένας μη κερδοσκοπικός οργανισμός που έχει ως στόχο την κατανομή των πληροφοριών και την προώθηση της επικοινωνίας μεταξύ των ερευνητών που χρησιμοποιούν τα WordNets, και να συντονίσει τις προσπάθειες για την δημιουργία και νέων WordNets. Συγκεκριμένα, το GWA επιχειρεί να αναπτύξει και να προωθήσει μεθοδολογίες, πρότυπα και κοινές 25

26 αναπαραστάσεις για νέα WordNets που θα επιτρέψουν τη σύνδεση και την επικοινωνία αυτών των πόρων. Σήμερα, το GWA έχει καταχωρήσει πάνω από 30 που είτε έχουν κατασκευαστεί και είναι διαθέσιμα είτε είναι υπό κατασκευή. 3.5 Εφαρμογές του WordNet Βελτίωση του WordNet Σε πολλές έρευνες που ασχολούνται με το WordNet υπάρχει μια τάση για βελτίωση του από διαφορετικές σκοπιές. Ο στόχος είναι να γίνει πιο αποτελεσματικό και σχετικό από οποιοδήποτε άλλο ηλεκτρονικό λεξικό, εισάγοντας περισσότερες σημασιολογικές σχέσεις και παρέχοντας μια πιο εμπεριστατωμένη προσέγγιση. Αυτό μπορεί να γίνει με τη βελτίωση λογισμικών που ασχολούνται με το WordNet, προκειμένου να επεκταθεί και να εμπλουτιστεί η δομή του. Για παράδειγμα, το Lingua είναι μια διεπαφή του WordNet που το εφοδίασε με μερωνυμικές σχέσεις που δεν υπήρχαν προηγουμένως. Επίσης, μια σημαντική συνεισφορά σε αυτήν την προσπάθεια αποτελούν τα πολύγλωσσα WordNets, όπως είναι το EuroWordNet. Κάθε μονόγλωσσο WordNet έχει μια αυτόνομη δομή και όλα συνδέονται μεταξύ τους μέσω ενός διαγλωσσικού δείκτη, στον οποίο έχουν προστεθεί καινούριες και τροποποιημένες σχέσεις με αποτέλεσμα να εισάγονται και νέα επίπεδα στο WordNet. Βελτίωση στα συστήματα Επεξεργασίας της Φυσικής Γλώσσας Ανάκτηση πληροφοριών και εξαγωγή: Το WordNet μπορεί να χρησιμοποιηθεί ως εργαλείο γλωσσολογικής γνώσης και να παρέχει στο χρήστη αποτελεσματική και ολοκληρωμένη πρόσβαση σε πληροφορίες. Το WordNet έχει προταθεί ακόμα ως εργαλείο για την αυτόματη κατασκευή θησαυρών, που βασίζεται είτε στην συνύπαρξη καθορισμένων σημασιολογικών σχέσεων έπειτα από αυτόματη στατιστική αναγνώρισή τους, είτε στη σχέση κατηγορήματος-επιχειρήματος, στην οποία οι πιο σημαντικές λέξεις ενός περιβάλλοντος (κατηγόρημα) και εκείνες με τις οποίες συνδέονται, προσδιορίζονται για να κατασκευάσουν ένα επιχείρημα. Επίσης, έχει χρησιμοποιηθεί στην ανάπτυξη μιας διεπαφής φυσικής γλώσσας για τη βελτιστοποίηση της ακρίβειας των μηχανών αναζήτησης στο Διαδίκτυο με την επέκταση των ερωτημάτων. Αναγνώριση Εννοιών σε Φυσική Γλώσσα: Αυτή η λειτουργία έχει σχεδιαστεί για να ανιχνεύει τους όρους που έχουν ζητηθεί, όχι μόνο για εξαγωγή, αλλά και για την προσαρμογή τους στην πλήρη σημασιολογία και πολυπλοκότητα μιας πληροφορίας. Οι εφαρμογές του WordNet έχουν ακολουθήσει διπλή πορεία σε τέτοιες εφαρμογές: 1. Αποσαφήνιση, δηλαδή, η ακρίβεια και η καταλληλότητα μιας λέξης ως απάντηση σε ένα ερώτημα μέσω της ανάλυσης των σημασιολογικών 26

27 αντιφάσεων. Θεωρείται ο τομέας με την μεγαλύτερη εφαρμογή του WordNet, όπου έχει χρησιμοποιηθεί για την ανάπτυξη εργαλείων που ενισχύουν τη αποτελεσματικότητα αναζήτησης πόρων στο Διαδίκτυο και στην αποσαφήνιση λέξεων σε συστήματα εξαγωγής πληροφοριών. 2. Σημασιολογική απόσταση, δηλαδή πόσο «κοντά» είναι οι έννοιες δύο λέξεων. Οι σημασιολογικές σχέσεις του WordNet αποδείχθηκαν ιδιαίτερα χρήσιμες στην κατασκευή ενός ηλεκτρονικού λεξικού, του FEDDICT 21, που ανέπτυξε την τεχνική ανάκτησης πληροφοριών για να μετρήσει την σημασιολογική απόσταση μεταξύ των λέξεων. Δόμηση των εγγράφων και κατηγοριοποίηση: Πολλές προσπάθειες και ενέργειες σε αυτόν τον τομέα προσανατολίζονται σε μια νέα οργάνωση και αναπαράσταση της γνώσης. Η γραμματική κατηγοριοποίηση που έχει το WordΝet το κατέστησε ως βοηθητικό εργαλείο στην εξαγωγή σημασιολογικών χαρακτηριστικών και στην κατηγοριοποίηση της σχετικότητας των δεδομένων. Οι λεξιλογικές-σημασιολογικές πληροφορίες που παρέχονται για κάθε λέξη, μπορούν να βοηθήσουν στην αναγνώριση ύπαρξης συνεκτικής δομής σε ένα κείμενο. Επίσης, έχει χρησιμοποιηθεί ως βοηθητικό εργαλείο στο σχεδιασμό σημασιολογικών οντολογιών που αποσκοπούν σε υψηλής ποιότητας εξαγωγή πληροφοριών από το Διαδίκτυο. Τέλος, στο WordNet βασίστηκε η υλοποίηση ενός αλγορίθμου που εντοπίζει τις κατηγορίες των ρημάτων που χρησιμοποιούνται σε ένα έγγραφο με βάση αυτές που υπάρχουν στο WordNet, ώστε να προσδιορίσει αυτόματα το είδος του. Ανάκτηση Γνώσης από Υπερμέσα: Η δυνατότητα αυτή αποτελεί πρόκληση στην εποχή των υπερμέσων και των μη-κειμενικών πληροφοριών. Για παράδειγμα, το MultiMediaMiner είναι μια πρωτότυπη εφαρμογή για την εξαγωγή πληροφοριών και γνώσης από πολυμέσα. Χρησιμοποιεί το WordNet για να δημιουργήσει εννοιολογικές ιεραρχίες για την διαδραστική ανάκτηση πληροφοριών. Επίσης, το WordNet έχει χρησιμοποιηθεί για την επέκταση ερωτημάτων στην ευρετηρίαση απομαγνητοφωνημένων ραδιοφωνικών ειδησεογραφικών προγραμμάτων. Γλωσσική διδασκαλία και εφαρμογές μετάφρασης : Έχουν αναπτυχθεί πολλές εφαρμογές μετάφρασης για τη βελτίωση της σύνθεσης κειμένων. Επειδή οι εφαρμογές μετάφρασης που βασίζονται στο WordNet χρησιμοποιούν αλγορίθμους σημασιολογικής απόστασης, μπορούν να αναπτύξουν ένα δυναμικό διορθωτή σφαλμάτων για την τοποθέτηση των λέξεων. Τέλος, το WordNet έχει προταθεί και για την εκμάθηση ξένων γλωσσών

28 3.6 Παρόμοιοι λεξιλογικοί σημασιολογικοί πόροι FrameNet Το FrameNet 22 είναι μια ηλεκτρονική λεξιλογική βάση δεδομένων που βασίζεται στην θεωρία της έννοιας, που ονομάζεται Frame Semantics. Για παράδειγμα, το FrameNet δείχνει για παράδειγμα 23, ότι η φράση «Ο Γιάννης πούλησε ένα αυτοκίνητο στη Μαρία" περιγράφει ουσιαστικά την ίδια βασική κατάσταση (σημασιολογικό πλαίσιο) με τη φράση η «Μαρία αγόρασε ένα αυτοκίνητο από τον Γιάννη», αλλά από μια διαφορετική σκοπιά. Ένα σημασιολογικό πλαίσιο μπορεί να θεωρηθεί ως μια εννοιολογική δομή που περιγράφει ένα γεγονός, μια σχέση, ή το αντικείμενο και τους συμμετέχοντες σε αυτό. Η λεξιλογική βάση δεδομένων του FrameNet περιέχει περίπου σημασιολογικά πλαίσια, πάνω από έννοιες λέξεων και πάνω από παράδειγματα φράσεων. Δημιουργός του FrameNet θεωρείται σε μεγάλο βαθμό ο Charles J. Fillmore, ο οποίος ανέπτυξε τη θεωρία της σημασιολογίας πλαισίου στην οποία βασίζεται το έργο, και ήταν αρχικά ο επικεφαλής του έργου όταν ξεκίνησε το Το έργο FrameNet εφαρμόζεται τόσο στη Γλωσσολογία όσο και στην Επεξεργασία της Φυσικής Γλώσσας. Lexvo Το Lexvo 24 είναι μια υπηρεσία που δημοσιεύει πληροφορίες που σχετίζονται με την ανθρώπινη γλώσσα (γλώσσες, λέξεις, χαρακτήρες κ.α.) στο νέφος των Διασυνδεδεμένων Δεδομένων και στο Σημασιολογικό Ιστό. Τα αντικείμενα προσδιορίζονται από dereferenceable URIs με υψηλή διασύνδεση μεταξύ τους, καθώς και με ένα πλήθος εξωτερικών συνόλων δεδομένων. Lexical Markup Framework-LMF Το LMF 25 είναι ένα πρότυπο ISO για lexicons Επεξεργασίας της Φυσικής Γλώσσας και για Λεξικά Αναγνώσιμα από Μηχανή (Machine Readable Dictionaries -MRD). Οι στόχοι του LMF είναι να παράσχει ένα κοινό μοντέλο για τη δημιουργία και τη χρήση των λεξιλογικών πόρων, να διαχειρίζεται την ανταλλαγή των δεδομένων μεταξύ αυτών των πόρων και να επιτρέψει τη συνένωση ενός μεγάλου αριθμού μεμονωμένων ηλεκτρονικών πόρων, ώστε να διαμορφώσει έναν εκτεταμένο παγκόσμιο ηλεκτρονικό πόρο

29 4 Ιστός Δεδομένων και Διασυνδεδεμένα Δεδομένα 4.1 Από τον Ιστό των Εγγράφων στον Ιστό των Δεδομένων O Παγκόσμιος Ιστός (World Wide Web - WWW) είναι η πιο δημοφιλής υπηρεσία του Διαδικτύου, που μας επιτρέπει να έχουμε εύκολα πρόσβαση σε μια τεράστια συλλογή ψηφιακών εγγράφων. Η ιδέα του Παγκόσμιου Ιστού ανήκει στον Tim Berners-Lee. Το 1989 και ενώ εργαζόταν ως ερευνητής στον Ευρωπαϊκό Οργανισμό Ερευνών CERN της Γενεύης, προσπάθησε να βρει ένα σύστημα για να διασυνδέσει τις εργασίες και την επικοινωνία ερευνητών του CERN από απομακρυσμένα μεταξύ τους μέρη του κόσμου. Η βασική ιδέα στην οποία βασίστηκε είναι η εισαγωγή συνδέσμων (links) μέσα στο κείμενο του κάθε εγγράφου προκειμένου να είναι δυνατή η πρόσβαση σε όλους τους χρήστες από οποιοδήποτε έγγραφο. Δηλαδή, αν κάποιος διαβάζει ένα έγγραφο μπορεί μέσω των συνδέσμων να διαβάσει και όλες τις σχετικές πληροφορίες που συνδέονται με αυτό. Έτσι, όρισε ένα σύνολο τεχνολογιών που θα καθιστούσαν το Διαδίκτυο πραγματικά προσβάσιμο και χρήσιμο στους ανθρώπους. Οι τρεις βασικές τεχνολογίες που όρισε και οι οποίες παραμένουν η βάση του σημερινού Παγκόσμιου Ιστού είναι: HTML:HyperText Markup Language- Γλώσσα Σήμανσης Υπερκειμένου. Μια γλώσσα μορφοποίησης που έχει σχεδιαστεί κυρίως για την υποστήριξη της παρουσίασης πληροφοριών κειμένου και γραφικών στο Διαδίκτυο, συμπεριλαμβάνοντας την ικανότητα να μορφοποιήσει έγγραφα και να τα συνδέσει με άλλα έγραφα και πόρους. URI:Uniform Resource Identifier- Ενιαίο Αναγνωριστικό Πόρων. Ένα είδος «διεύθυνσης» που είναι μοναδικό για κάθε πόρο στο Διαδίκτυο. Transfer Protocol- Πρωτόκολλο Μεταφοράς Υπερκειμένου. Είναι η κύρια μέθοδος που χρησιμοποιούν τα πρωτόκολλα του Παγκόσμιου Ιστού για να μεταφέρουν δεδομένα ανάμεσα σε έναν διακομιστή και ένα πελάτη. Ο Παγκόσμιος Ιστός δομείται όπως ένα παγκόσμιο σύστημα αρχείων, όπου πρωταρχικά αντικείμενα είναι τα έγγραφα και οι σύνδεσμοι μεταξύ αυτών. Ο βαθμός δόμησης των αντικειμένων είναι πολύ χαμηλός, ενώ η σημασιολογία (semantics) του περιεχομένου και των συνδέσμων δεν είναι φανερή. Αυτή η μορφή του Ιστού είναι κυρίως σχεδιασμένη για ανθρώπινη κατανάλωση. Για όλα τα παραπάνω ο Παγκόσμιος Ιστός λέγεται και Ιστός των Εγγράφων (Web of Documents). 29

30 Σχήμα 3. Ιστός Εγγράφων Σήμερα είναι αρκετά αποτελεσματικός όσον αφορά τη δημοσίευση και τον εντοπισμό εγγράφων, όμως τα μεμονωμένα στοιχεία πληροφοριών που περιέχονται μέσα σε αυτά τα έγγραφα (είτε είναι η ημερομηνία ενός γεγονότος, η τιμή ενός αντικειμένου σε ένα κατάλογο ή ένας μαθηματικός τύπος) δεν μπορούν να υποστούν επεξεργασία απ ευθείας ως δεδομένα, γιατί δεν είναι αναγνώσιμα από υπολογιστικές μηχανές. Δηλαδή, μπορούμε να δούμε τα δεδομένα αλλά δεν μπορούμε να χρησιμοποιήσουμε άλλα προγράμματα για το χειρισμό ή την ανάλυσή τους χωρίς πρώτα να τα έχουμε επεξεργαστεί εμείς οι ίδιοι χειρωνακτικά. Επίσης, επειδή η αναζήτηση βασίζεται στα περιεχόμενα των σελίδων και όχι στο εννοιολογικό νόημα των περιεχομένων της σελίδας ή των πληροφοριών για τη σελίδα, το αποτέλεσμα της αναζήτησης μπορεί να μην είναι ακριβώς αυτό που θέλουμε. Τη λύση στο πρόβλημα έρχεται να δώσει ο Ιστός Δεδομένων (Web of Data). Εδώ, τα πρωταρχικά αντικείμενα είναι τα «πράγματα» ( ή η περιγραφή τους) και οι σύνδεσμοι μεταξύ αυτών. Ο βαθμός δόμησης των αντικειμένων είναι υψηλός, ενώ η σημασιολογία (semantics) του περιεχομένου και των συνδέσμων είναι σαφής. Αυτή η μορφή του Ιστού είναι σχεδιασμένη τόσο για ανθρώπους όσο και για υπολογιστικές μηχανές. Σχήμα 4. Ιστός Δεδομένων 30

31 Από το 2000 έως το 2006 ένας αριθμός τεχνικών καινοτομιών σε συνδυασμό με τις πιο ανοιχτές πρακτικές διαμοιρασμού πληροφοριών, μετακινούν τον Παγκόσμιο Ιστό προς αυτό που ονομάζουμε Σημασιολογικό Ιστό (Semantic Web). Σύμφωνα με τον εφευρέτη του Σημασιολογικού Ιστού, Tim Berners Lee : The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation (Tim Berners-Lee, James Hedler, Ora Lassila, The Semantic Web, Scientific American, May 2001). Δηλαδή, ο Σημασιολογικός Ιστός είναι μια μετεξέλιξη του σημερινού Ιστού και όχι μια νέα τεχνολογία, ο οποίος επιχειρώντας να υιοθετήσει στοιχεία Αναπαράστασης Γνώσης και Τεχνητής Νοημοσύνης δίνει τη δυνατότητα να δοθεί σημασιολογικό νόημα στο αντικείμενο του περιεχομένου. Η δημοσιευμένη πληροφορία θα περιέχει μεταδεδομένα, τα οποία θα είναι κοινά για όλους και το κυριότερο, θα μπορούν να «κατανοούνται» και από μηχανές οι οποίες θα βοηθήσουν στην καλύτερη συλλογή και επεξεργασία τους. Έτσι, οι μηχανές αναζήτησης θα γίνουν πιο αποτελεσματικές και οι χρήστες θα μπορούν να βρουν τις ακριβείς πληροφορίες που ψάχνουν ακόμα και σε σύνθετα ερωτήματα. Με αυτό τον τρόπο, προσδίδεται ένα επίπεδο ευφυΐας πάνω από τον Παγκόσμιο Ιστό, και μία σειρά από εργασίες που βασίζονται στη διασύνδεση των δεδομένων από πολλαπλές πηγές γίνονται πιο εύκολα, γρήγορα, αποτελεσματικά και με πιο δυναμικό τρόπο. Η δομή του Σημασιολογικού Ιστού φαίνεται στο Σχήμα 5, όπως προτάθηκε από τον Tim Berners Lee στο συνέδριο XML Όπως φαίνεται ο Σημασιολογικός Ιστός είναι δομημένος σε επίπεδα, ένα επίπεδο χτισμένο πάνω στο άλλο. Τα επίπεδα μέχρι τις οντολογίες είναι όλα W3C πρότυπα, δηλαδή είναι όλες τεχνολογίες που έχουν προταθεί και εγκριθεί από το W3C. Πρακτικά αυτό σημαίνει ότι είναι τεχνολογίες οι οποίες υπάρχουν αρκετό καιρό στο διαδίκτυο, έχουν χρησιμοποιηθεί ευρέως και έχουν αποδειχθεί έμπιστες τεχνολογίες για τις διάφορες (κυρίως) διαδικτυακές εφαρμογές. Σχήμα 5. Αρχιτεκτονική του Σημασιολογικού Ιστού 31

32 Αναλυτικότερα τα περιεχόμενα κάθε επιπέδου έχουν ως εξής: URI (Universal Resource Identifier): Το Παγκόσμιο Αναγνωριστικό Πόρου είναι μια διαμορφωμένη συμβολοσειρά που χρησιμεύει ως μέσο για τον προσδιορισμό αφηρημένων ή φυσικών πόρων. Unicode: Παρέχει ένα μοναδικό αριθμό για κάθε χαρακτήρα, ανεξάρτητα από την υποκείμενη πλατφόρμα, πρόγραμμα ή γλώσσα. XML και XML Namespace: H XML (extensible markup language) μαζί με τα XML namespaces και τους ορισμούς της XML schema διασφαλίζουν ότι χρησιμοποιείται μια κοινή σύνταξη στον Σημασιολογικό Ιστό. Τα XML namespaces επιτρέπουν τον καθορισμό διαφορετικών λεξιλογίων σήμανσης (markup vocabularies) σε ένα έγγραφο XML. Το XML Schema καθορίζει τη συντακτική δομή των XML εγγράφων. RDF-RDFSchema: To RDF (Resource Description Framework) περιγράφει τις πληροφορίες που σχετίζονται με έναν πόρο με τη μορφή γράφου. Η RDFSchema, καθορίζει το λεξιλόγιο του μοντέλου RDF. Ontology: Μια οντολογία αποτελείται από ένα σύνολο όρων γνώσης, συμπεριλαμβάνοντας το λεξιλόγιο, τις σημασιολογικές διασυνδέσεις, απλούς κανόνες εξαγωγής συμπερασμάτων και τη λογική για κάποιο συγκεκριμένο θέμα. Logic: Ο λογικός συμπερασμός χρησιμοποιείται για την εξαγωγή συμπερασμάτων που δεν δηλώνονται ρητά και για την απόδοση λογικής και συνέπειας στο σύνολο των δεδομένων. Proof: Το επίπεδο αυτό περιλαμβάνει την αφαιρετική διαδικασία, καθώς και την επικύρωση του λογικού συμπερασμού. Trust and Digital Signature: Το επίπεδο εμπιστοσύνης θα προκύψει μέσα από τη χρήση των ψηφιακών υπογραφών και άλλους μηχανισμούς αυθεντικοποίησης, με βάση τις συστάσεις από έμπιστους πράκτορες ή από την αξιολόγηση και πιστοποίηση των υπηρεσιών και τις οργανώσεις καταναλωτών. Κάθε επίπεδο είναι προοδευτικά πιο εξειδικευμένο και συνεπώς τείνει να είναι πιο περίπλοκο από το επίπεδο που βρίσκεται ακριβώς από κάτω του. Επίσης τα κατώτερα επίπεδα δεν εξαρτώνται από τα ανώτερα, οπότε η ανάπτυξη τους γίνεται χωριστά και ανεξάρτητα. Τέλος, θα πρέπει να σημειωθεί ότι το παραπάνω σχήμα αποτελεί την οπτική γωνία του World Wide Web Consortium (W3C) 26. Συνεπώς, μπορούν να υπάρξουν εναλλακτικές λύσεις για κάποια από τα αναφερόμενα επίπεδα

33 4.2 Διασυνδεδεμένα Δεδομένα Η καλύτερη ολοκλήρωση των δεδομένων θα συντελεστεί μέσω της χρήσης της τεχνολογίας-κλειδί που έκανε τον Παγκόσμιο Ιστό τόσο επιτυχημένο: το σύνδεσμο. Η δύναμη του Ιστού σήμερα, συμπεριλαμβανομένης της δυνατότητας να βρούμε τη σελίδα για την οποία ψάχνουμε, έγκειται στο γεγονός ότι τα έγγραφα τοποθετούνται στον Ιστό σε πρότυπη μορφή και στη συνέχεια συνδέονται μεταξύ τους. Ο Σημασιολογικός Ιστός θα δώσει τη δυνατότητα καλύτερης ολοκλήρωσης των δεδομένων, επιτρέποντας στον καθένα ο οποίος τοποθετεί μεμονωμένα στοιχεία δεδομένων στον Ιστό, να τα συνδέσει με άλλα κομμάτια δεδομένων, χρησιμοποιώντας πρότυπες μορφοποιήσεις. Το αποτέλεσμα της χρήσης των τεχνολογιών του Σημασιολογικού Ιστού για την δημοσιοποίηση δομημένων δεδομένων στον Ιστό και τη δημιουργία συνδέσμων μεταξύ δεδομένων είναι τα Διασυνδεδεμένα Δεδομένα (Linked Data). Από τεχνική άποψη, τα Διασυνδεδεμένα Δεδομένα αναφέρονται σε δεδομένα που είναι δημοσιευμένα στον Ιστό με τρόπο κατανοητό από ανθρώπους και υπολογιστικές μηχανές, το νόημα τους είναι σαφώς ορισμένο και συνδέονται από ένα σύνολο δεδομένων προς δεδομένα μέσα σε άλλα σύνολα δεδομένων. Βασίζονται σε έγγραφα που περιέχουν δεδομένα σε μορφή RDF, ώστε να συνδέσουν με σημασιολογική δομή διαφορετικά δεδομένα. Με όσο περισσότερα δεδομένα διασυνδέεται ένα συγκεκριμένο αντικείμενο, τόση μεγαλύτερη αξία αποκτά. Το 2006, ο Tim Berners-Lee πρότεινε ένα σύνολο κανόνων για την δημοσιοποίηση των δεδομένων στον Ιστό, γνωστών και ως Αρχές των ιασυνδεδεµένων εδοµένων [1]: 1. Χρήση URIs ως αναγνωριστικά για τα αντικείμενα. 2. Χρήση HTTP URIs έτσι, ώστε αυτά τα αντικείμενα να μπορούν να αναφέρονται και να αναζητηθούν από ανθρώπους και μηχανές. 3. Παροχή χρήσιμης πληροφορίας χρησιμοποιώντας τα πρότυπα Διασυνδεδεμένων εδοµένων (RDF,SPARQL), όταν κάποιος αναζητά ένα URI. 4. Σύνδεσμοι προς άλλα URIs, ώστε να είναι δυνατή η μετάβαση και, συνακόλουθα, η ανακάλυψη περισσότερων δεδομένων. Η πρώτη αρχή των Διασυνδεδεμένων Δεδομένων υποστηρίζει τη χρήση URIs για τoν προσδιορισμό, όχι μόνο εγγράφων και ψηφιακών περιεχομένων του Ιστού, αλλά και πραγματικών αντικειμένων και αφηρημένων εννοιών. Η αρχή αυτή μπορεί να θεωρηθεί ως επέκταση του πεδίου εφαρμογής του Ιστού από online πηγές για να συμπεριλάβει οποιοδήποτε αντικείμενο ή έννοια στον κόσμο. 33

34 Το πρωτόκολλο HTTP αποτελεί τον ευρέως διαδεδομένο μηχανισμό πρόσβασης σε διαδικτυακό περιεχόμενο. Στην υπάρχουσα μορφή του Ιστού, τα HTTP URIs χρησιμοποιούνται για να συνδυάσουν παγκόσμια μοναδικά αναγνωριστικά με απλό και κατανοητό μηχανισμό ανάκτησης. Έτσι, η δεύτερη αρχή των Διασυνδεδεμένων Δεδομένων υποστηρίζει τη χρήση των HTTP URIs για να προσδιορίσει αντικείμενα και αφηρημένες έννοιες, καθιστώντας αυτά τα URIs να είναι dereferenced. Προκειμένου να γίνει δυνατή η επεξεργασία του περιεχομένου του Ιστού από ένα μεγάλο πλήθος διαφορετικών εφαρμογών, είναι σημαντικό να υπάρχουν τυποποιημένες μορφές περιεχομένου. Η επικράτηση της HTML ως μορφή των εγγράφων, ήταν ένας σημαντικός παράγοντας που αναβάθμισε τον Ιστό. Επομένως, η τρίτη αρχή υποστηρίζει τη χρήση μόνο ενός μοντέλου δεδομένων για τη δημοσιοποίηση δομημένων δεδομένων στον Ιστό, το Resource Description Framework (RDF). Πρόκειται για ένα απλό μοντέλο δεδομένων που βασίζεται σε γράφο και έχει σχεδιαστεί για χρήση στο περιεχόμενο του Ιστού. Μια πλήρης περιγραφή του μοντέλου δεδομένων RDF δίνεται στην ενότητα Η τέταρτη αρχή υποστηρίζει τη χρήση υπερσυνδέσμων για τη σύνδεση όχι μόνο μεταξύ εγγράφων, αλλά και μεταξύ διαφόρων ειδών αντικειμένων. Για παράδειγμα, ένας υπερσύνδεσμος μπορεί να τοποθετηθεί μεταξύ ενός προσώπου και μιας τοποθεσίας, ή μεταξύ μιας τοποθεσίας και μια εταιρίας. Αντίθετα με τον απλό Ιστό, όπου οι υπερσύνδεσμοι είναι κυρίως untyped 27, οι υπερσύνδεσμοι που συνδέουν τα αντικείμενα ως Διασυνδεδεμένα Δεδομένα έχουν τύπους που περιγράφουν τη σχέση μεταξύ των αντικειμένων. Για παράδειγμα ένας υπερσύνδεσμος του τύπου φίλος με μπορεί να τοποθετηθεί μεταξύ δύο ανθρώπων, ενώ ένας υπερσύνδεσμος του τύπου τοποθετημένος κοντά μπορεί να υπάρχει μεταξύ ενός ανθρώπου και μιας τοποθεσίας. Οι υπερσύνδεσμοι στο περιεχόμενο των Διασυνδεδεμένων Δεδομένων ονομάζονται RDF σύνδεσμοι προκειμένου να τους διαχωρίσουμε από τους υπερσυνδέσμους που υπάρχουν μεταξύ των εγγράφων στον απλό Ιστό. Συνοπτικά, οι αρχές των Διασυνδεδεμένων Δεδομένων θέτουν τα θεμέλια για την επέκταση του Web σε ένα παγκόσμιο χώρο δεδομένων που βασίζεται στις ίδιες αρχές αρχιτεκτονικής με τον απλό Ιστό των Εγγράφων. Το 2010, ο ο Tim Berners-Lee πρόσθεσε ένα σύστημα αξιολόγησης πέντε αστέρων για τα Διασυνδεδεμένα (Ανοικτά) Δεδομένα. Ο στόχος αυτής της αξιολόγησης δεν ήταν να μάθει στους κατασκευαστές πώς να δημιουργήσουν «καλά» Διασυνδεδεμένα Δεδομένα, αλλά να δώσει κίνητρο στους ιδιοκτήτες των δεδομένων να δημοσιοποιήσουν τα δεδομένα τους σύμφωνα με τις Αρχές των Διασυνδεδεμένων Δεδομένων. Σύμφωνα με αυτό το σύστημα τα δεδομένα θα πρέπει: 27 Untyped links: Σύνδεσμοι που δεν παρέχουν κάποια σημασιολογική πληροφορία. 34

35 * Να είναι διαθέσιμα στον Ιστό σε οποιαδήποτε μορφή, αλλά να παρέχονται με ανοιχτή άδεια. ** Να είναι διαθέσιμα σε μορφή αναγνώσιμη από υπολογιστές (π.χ. σε Excel αντί για έναν ψηφιοποιημένο πίνακα) *** Να είναι διαθέσιμα σε μορφή αναγνώσιμη από υπολογιστές σε μη ιδιόκτητες μορφές (π.χ. CSV αντί για Excel) **** Όλα τα παραπάνω και επιπλέον χρήση ανοιχτών προτύπων από το W3C για τον προσδιορισμό των αντικειμένων (π.χ. RDF) ***** Όλα τα παραπάνω και επιπλέον σύνδεση των δεδομένων με άλλα δεδομένα για να παρέχουν περιεχόμενο. Σχήμα 6. Τα πέντε αστέρια των Διασυνδεδεμένων Δεδομένων Τα περισσότερα συστήματα ανοιχτών δεδομένων παρέχουν τα τρία πρώτα αστέρια. Από αυτό μπορούμε να συμπεράνουμε ότι δεν είναι όλα τα ανοιχτά δεδομένα διασυνδεδεμένα. Οι επόμενες ενότητες εξηγούν με λεπτομέρεια την τεχνική υλοποίηση των αρχών των Διασυνδεδεμένων Δεδομένων Χρήση URIs για την ονομασία αντικειμένων Προτού δημοσιευθούν τα δεδομένα στον Ιστό, πρέπει να γίνει πρώτα η ταυτοποίηση των αντικειμένων του πεδίου ενδιαφέροντος. Στην ορολογία της Αρχιτεκτονικής του Ιστού, όλα τα αντικείμενα του ενδιαφέροντός μας καλούνται πόροι. Ο Παγκόσμιος Ιστός παρέχει έναν γενικό τύπο αναγνωριστικών, το URI (Uniform Resource Identifier), που προσδιορίζει με μοναδικό τρόπο έναν πόρο του Ιστού. Το URI δημιουργείται προκειμένου να χαρακτηρίσει: 35

36 Αντικείμενα προσβάσιμα μέσω του διαδικτύου, όπως για παράδειγμα ηλεκτρονικά έγγραφα, εικόνες, υπηρεσίες, είτε σύνολα από διάφορα άλλα σύνολα δεδομένων (πληροφοριακοί πόροι). Αντικείμενα του πραγματικού κόσμου, δηλαδή αντικείμενα που δεν είναι προσβάσιμα μέσα από το διαδίκτυο, όπως οι άνθρωποι ή οι οργανισμοί (μηπληροφοριακοί πόροι). Αφηρημένες έννοιες που δεν υπάρχουν σαν φυσικές οντότητες, όπως η έννοια του «δημιουργού» (μη-πληροφοριακοί πόροι). Οι Αρχές των Διασυνδεδεμένων Δεδομένων ορίζουν ότι για την ταυτοποίηση των αντικειμένων πρέπει να χρησιμοποιούνται HTTP URIs. Το σχήμα είναι το μοναδικό URI σχήμα το οποίο υποστηρίζεται ευρέως από τα σημερινά εργαλεία και τις υποδομές, γι αυτό, στο πλαίσιο των Συνδεδεμένων Δεδομένων περιοριζόμαστε στη χρήση μόνο HTTP URIs, αποφεύγοντας τη χρήση άλλων σχημάτων όπως τα URNs και τα DOIs. Οι δύο βασικοί λόγοι για τους οποίους θεωρείται ότι τα HTTP URIs δημιουργούν «καλά» ονόματα είναι οι εξής: 1. Παρέχουν έναν εύκολο τρόπο για τη δημιουργία παγκοσμίως μοναδικών ονομάτων με αποκεντρωτικό τρόπο, καθώς κάθε ιδιοκτήτης ενός ονοματοχώρου μπορεί να δημιουργήσει αναφορές URI. 2. Χρησιμοποιούνται όχι μόνο ως προσδιοριστές, αλλά και ως μέσα για την πρόσβαση σε πληροφορίες που περιγράφουν τις ταυτοποιημένες οντότητες Σχήμα 7. Τα URIs χρησιμοποιούνται για να ταυτοποιήσουν ανθρώπους και τις μεταξύ τους σχέσεις Το Σχήμα 7 δείχνει τη χρήση των HTTP URIs στην ταυτοποίηση τριών προσώπων και των μεταξύ τους σχέσεων. Τα τρία πρόσωπα προσδιορίζονται με μοναδικό τρόπο 36

37 μέσω της χρήσης των HTTP URIs του κοινού ονοματοχώρου (namespace) Η σχέση που έχουν μεταξύ τους, δηλαδή το γεγονός ότι γνωρίζονται, αναπαριστάται μέσω συνδέσμων του τύπου Δημιουργία dereferenceable URIs Λέγοντας ότι κάθε URI πρέπει να είναι dereferenceable, εννοούμε ότι οι πελάτες του HTTP (χρήστες και μηχανές) έχουν τη δυνατότητα να αναζητήσουν ένα URI χρησιμοποιώντας το πρωτόκολλο HTTP και να αποκτήσουν τις πληροφορίες που σχετίζονται με τον πόρο που προσδιορίζεται από το συγκεκριμένο URI. Αυτό εφαρμόζεται σε URIs που χρησιμοποιούνται για την ταυτοποίηση κλασικών εγγράφων HTML, καθώς και σε URIs που χρησιμοποιούνται στα Διασυνδεδεμένα Δεδομένα για να ταυτοποιήσουν αντικείμενα του πραγματικού κόσμου και αφηρημένες έννοιες. Οι πληροφορίες των πόρων ενσωματώνονται στη μορφή των εγγράφων του Ιστού. Όσες προορίζονται για ανθρώπινη ανάγνωση αναπαριστώνται ως HTML, ενώ αυτές που προορίζονται για κατανάλωση από υπολογιστικές μηχανές αναπαριστώνται σε μια κατάλληλη μορφή, συνήθως RDF. Στις περιπτώσεις όπου τα URIs ταυτοποιούν αντικείμενα του πραγματικού κόσμου, είναι σημαντικό να μην συγχέουμε τα ίδια τα αντικείμενα με τα έγγραφα του Ιστού που τα περιγράφουν. Επομένως, προκειμένου να είναι σαφώς προσδιορισμένα χρησιμοποιείται για το καθένα ένα διαφορετικό URI. Αυτός ο τρόπος επιτρέπει να γίνονται ξεχωριστές δηλώσεις για ένα αντικείμενο και για ένα έγγραφο που περιγράφει αυτό το αντικείμενο. Για παράδειγμα, η ημερομηνία δημιουργίας ενός προσώπου μπορεί να είναι διαφορετική από την ημερομηνία δημιουργίας ενός εγγράφου που το περιγράφει. Η ικανότητα διαχωρισμού αυτών των δύο χρησιμοποιώντας διαφορετικά URIs είναι κρίσιμη για την συνοχή του Ιστού των Δεδομένων. Όπως αναφέρθηκε, ο Ιστός των Δεδομένων είναι σχεδιασμένος να είναι προσπελάσιμος τόσο από ανθρώπους όσο και από μηχανές. Και οι δύο θα πρέπει να είναι σε θέση να ανακτούν τις πληροφορίες με τρόπο κατανοητό για τους ίδιους, σε HTML για τους ανθρώπους και σε RDF για τις μηχανές. Αυτό είναι εφικτό μέσω ενός μηχανισμού του προτύπου HTTP, τη διαπραγμάτευση περιεχομένου (content negotiation). 37

38 Σχήμα 8. Ένας πόρος και τα περιγραφικά του έγγραφα Η βασική ιδέα πίσω από αυτό είναι ότι οι πελάτες του HTTP στέλνουν κεφαλίδες (headers) HTTP με κάθε αίτηση αναζήτησης, που αναφέρουν ποιον τύπο αρχείου επιθυμούν. Ο εξυπηρετητής εξετάζει αυτές τις κεφαλίδες και επιλέγει την κατάλληλη αναπαράσταση. Όταν ένα URI προσδιορίζει έναν πληροφοριακό πόρο, ο εξυπηρετητής του ιδιοκτήτη του URI συνήθως παράγει μια νέα αναπαράσταση της τρέχουσας κατάστασης του συγκεκριμένου πόρου και τη στέλνει πίσω στον πελάτη χρησιμοποιώντας τον HTTP κωδικό απόκρισης 200 ΟΚ. Όμως, στην περίπτωση που το URI προσδιορίζει έναν μη-πληροφοριακό πόρο δεν μπορούμε να τον επισκεφτούμε απ ευθείας. Υπάρχουν δύο διαφορετικές στρατηγικές που χρησιμοποιούνται για τη δημιουργία dereferenceable URIs που προσδιορίζουν αντικείμενα του πραγματικού κόσμου, οι hash URIs και 303 URIs. Και οι δύο στρατηγικές διασφαλίζουν ότι τα αντικείμενα και τα έγγραφα που περιγράφουν είναι σαφώς ορισμένα, και ότι οι άνθρωποι καθώς και μηχανές μπορούν να ανακτήσουν τις κατάλληλες αναπαραστάσεις Hash URIs Τα hash URIs χρησιμοποιούνται για πόρους που δεν είναι έγγραφα. Τα URIs μπορούν να περιέχουν ένα ειδικό τμήμα (fragment), το οποίο χωρίζεται από το υπόλοιπο URI με το σύμβολο της δίεσης (#). Όταν κάποιος πελάτης θελήσει να ανακτήσει ένα hash URI, τότε απαιτείται να αποκόψει το fragment προτού απαιτήσει το URI από τον εξυπηρετητή. Δηλαδή, ένα URI που περιέχει δίεση δεν μπορεί να ανακτηθεί απ ευθείας και επομένως δεν μπορεί να ταυτοποιεί ένα έγγραφο Ιστού. Ωστόσο, μπορούν να χρησιμοποιηθούν για να αναγνωρίσουν άλλους, μηπεριγραφικούς πόρους, χωρίς να δημιουργείται αμφισημία. Συνήθως χρησιμοποιούνται όταν το μέγεθος των δεδομένων που θέλουμε να ταυτοποιήσουμε είναι μικρό, όπως για παράδειγμα τα μέλη μιας μικρής εταιρείας. 38

39 Έτσι, αν η εταιρεία Example Inc. θέλει να υιοθετήσει αυτήν την τακτική, θα πρέπει να χρησιμοποιήσει τα URIs για την αναπαράσταση της εταιρείας και δύο εργαζομένων της ως εξής: Example Inc., η εταιρεία Bob, το άτομο Alice, το άτομο Πριν από οποιαδήποτε αίτηση κάποιου πελάτη για κάποιο από αυτά τα URIs, θα πρέπει να αποκόπτεται το τμήμα μετά τη δίεση, με αποτέλεσμα να αποστέλεται ένα αίτημα προς αυτό το URI: : RDF έγγραφο που περιγράφει την εταιρεία, τον Bob και την Alice. Σε αυτό το URI, η εταιρεία θα μπορούσε να επιδώσει ένα RDF έγγραφο που να περιέχει περιγραφές και των τριών πόρων, χρησιμοποιώντας τα αρχικά hash URIs για να αναγνωρίσει τους πόρους. Σχήμα 9. Η λύση του hash URI χωρίς διαπραγμάτευση περιεχομένου Εναλλακτικά, η διαπραγμάτευση περιεχομένου θα μπορούσε να χρησιμοποιηθεί για την ανακατεύθυνση από τo about URI σε μια αναπαράσταση HTML ή RDF ανάλογα με την προτίμηση του πελάτη. 39

40 Σχήμα 10. Η λύση του hash URI με διαπραγμάτευση περιεχομένου URIs Η δεύτερη λύση είναι να χρησιμοποιήσουμε ένα ειδικό HTTP κωδικό κατάστασης 303 See Other, για να δηλώσουμε ότι ο πόρος που ζητήθηκε δεν είναι ένα συνηθισμένο έγγραφο Ιστού. Είναι σημαντικό να αναφέρουμε ξανά ότι ένα URI στον Σημασιολογικό Ιστό δεν ταυτοποιεί μόνο έγγραφα, αλλά και για αντικείμενα του πραγματικού κόσμου. Αφού το 303 είναι ένας κωδικός κατάστασης για ανακατεύθυνση, ο εξυπηρετητής μπορεί να δώσει την τοποθεσία ενός εγγράφου που περιγράφει τον πόρο. Αν, από την άλλη, ένα αίτημα απαντηθεί με έναν από τους συνηθισμένους κωδικούς κατάστασης της μορφής 2ΧΧ (π.χ. το 200 ΟΚ), τότε ο πλεάτης θα γνωρίζει ότι το URI ταυτοποιεί ένα έγγραφο Ιστού. Η τακτική αυτή ακολουθείται από το W3C Technical Architecture Group. Έστω, για παράδειγμα, ότι η εταιρεία Example Inc. υιοθετεί αυτήν την λύση για να αναπαραστήσει την εταιρεία και δύο εργαζόμενούς της. Τότε: Example Inc., η εταιρεία Bob, το άτομο Alice, το άτομο 40

41 Ο web server θα πρέπει να ρυθμιστεί ώστε να απαντά σε αιτήσεις προς όλα αυτά τα URIs με κωδικό κατάστασης 303 και μια κεφαλίδα Location HTTP που να παρέχει το URL του εγγράφου που θα περιγράφει τον πόρο. Εικόνα 4. Η λύση του 303 URI με διαπραγμάτευση περιεχομένου. Στο παραπάνω παράδειγμα συνδυάζεται η ανακατεύθυνση 303 με την διαπραγμάτευση περιεχομένου. Δηλαδή, ο πελάτης ζητά ένα προσδιοριστικό ενός αντικειμένου του πραγματικού κόσμου, το Ο εξυπηρετητής επεξεργάζεται την κεφαλίδα http, χρησιμοποιεί την κωδικό κατάστασης 303 See Other, και στη συνέχεια χρησιμοποιεί τη διαπραγμάτευση περιεχομένου για να στείλει το URL της περιγραφής είτε σε HTML είτε σε RDF. Σχήμα 11: Η λύση 303 URI Hash URIs εναντίον 303 URIs Και οι δύο στρατηγικές έχουν πλεονεκτήματα και μειονεκτήματα. Τα hash URIs έχουν το πλεονέκτημα ότι μειώνουν τον αριθμό των απαιτούμενων κύκλων HTTP, το οποίο με τη σειρά του μειώνει την καθυστέρηση. Το μειονέκτημα τους είναι ότι οι περιγραφές όλων των πόρων που έχουν ίδιο μέρος πριν τη δίεση επιστρέφονται στον πελάτη, ανεξάρτητα από το αν αυτός θέλει ένα URI από αυτά ή όλα. Έτσι, αν οι περιγραφές αποτελούνται από πολλές τριπλέτες, μεταφέρεται στον πελάτη ένας μεγάλος όγκος δεδομένων που δεν χρειάζεται. Από την άλλη μεριά, τα 303 URIs, είναι πολύ ευέλικτα γιατί ο στόχος της ανακατεύθυνσης μπορεί να ρυθμιστεί ξεχωριστά για κάθε πόρο. Θα μπορούσε να υπάρχει ένα περιγραφικό έγγραφο για κάθε πόρο ή ένα μεγάλο έγγραφο για όλους ή οποιοσδήποτε ενδιάμεσος συνδυασμός. Είναι επίσης πιθανό να αλλάξει η τακτική αργότερα. Αυτό έχει ως αποτέλεσμα, τα 303 URIs να χρησιμοποιούνται για ταυτοποιήσουν δεδομένα από μεγάλα σύνολα δεδομένων, όπως για παράδειγμα μια έννοια από την DBpedia. Το μειονέκτημα με αυτήν την μέθοδο είναι ότι ο μεγάλος αριθμός ανακατευθύνσεων μπορεί να προκαλέσει μεγαλύτερη καθυστέρηση. 41

42 Συνεπώς, τα hash URIs πρέπει να προτιμώνται για αρκετά μικρά και σταθερά σύνολα δεδομένων, ενώ τα 303 URIs χρησιμοποιούνται για μεγάλα σύνολα δεδομένων που είναι ή μπορεί να μεγαλώσουν πέραν του σημείου όπου είναι πρακτικό να επιδώσουμε όλους τους σχετιζόμενους όρους σε ένα και μόνο έγγραφο. Σε περίπτωση αμφιβολίας, η καλύτερη λύση είναι η χρήση της πιο ευέλικτης προσέγγισης του 303 URI Παροχή χρήσιμης πληροφορίας μέσω RDF Τα δεδομένα που υπάρχουν στον Ιστό πρέπει να είναι προσπελάσιμα και επεξεργάσιμα από ένα μεγάλο πλήθος εφαρμογών, για αυτό πρέπει να υπάρχουν προτυποποιημένες μορφές περιεχομένου. Η δημοσιοποίηση των Διασυνδεδμένων Δεδομένων στον Ιστό γίνεται με βάση το Πλαίσιο Περιγραφής Πόρων (RDF). Το πλαίσιο RDF παρέχει ένα πολύ απλό μοντέλο δεδομένων και ταυτόχρονα είναι αυστηρά προσαρμοσμένο στην αρχιτεκτονική του Web Το Πλαίσιο Περιγραφής Πόρων RDF Το Πλαίσιο Περιγραφής Πόρων RDF είναι ένα πρότυπο της Κοινοπραξίας του Παγκόσμιου Ιστού. Αποτελεί το θεμέλιο αρκετών τεχνολογιών για τη μοντελοποίηση κατανεμημένης γνώσης και προορίζεται να χρησιμοποιηθεί σαν βάση για τον Σημασιολογικό Ιστό. Ουσιαστικά, πρόκειται για μια γλώσσα αναπαράστασης πληροφορίας για τους πόρους του Παγκόσμιου Ιστού. Αναγνωρίζεται ως μια θεμελίωση για την επεξεργασία μεταδεδομένων και παρέχει διαλειτουργικότητα μεταξύ των εφαρμογών που ανταλλάσσουν πληροφορία κατανοητή για τις μηχανές. Η δημιουργία του ανέκυψε από την ανάγκη για περιορισμό και αξιολόγηση της πληθώρας των περιεχομένων του Παγκόσμιου Ιστού και προορίζεται κυρίως για τη γνώση και όχι για τα ίδια τα δεδομένα, ασχολείται δηλαδή περισσότερο με τη σημασιολογία. Με τη βοήθεια του RDF μπορούμε να αναλύσουμε τη γνώση σε επιμέρους κομμάτια, τα οποία διέπονται από αναγκαίους κανόνες που αφορούν στη σημασιολογία τους. Στόχος είναι να αποτελέσει μια μέθοδο που να μπορεί, όχι μόνο να εκφράζει με απλό τρόπο όλα τα γεγονότα, αλλά παράλληλα να παρέχει σε αυτά και την κατάλληλη δόμηση, ώστε να είναι δυνατή η μετέπειτα αξιοποίησή τους από τους ηλεκτρονικούς υπολογιστές. Τα επιμέρους κομμάτια γνώσης είναι δυνατόν να γραφτούν με διαφορετικές εναλλακτικές και παρόλα αυτά να συνεχίσουν να διατηρούν την αρχική τους δομή και πληροφορία, όπως ακριβώς μια έννοια μπορεί να εκφραστεί σε 42

43 διαφορετικές ομιλούμενες γλώσσες ή μια δομή δεδομένων μπορεί να υλοποιηθεί με ποικίλους τρόπους Το μοντέλο δεδομένων RDF Το μοντέλο δεδομένων RDF σχεδιάστηκε για την ολοκληρωμένη αναπαράσταση των πληροφοριών που προέρχονται από πολλαπλές πηγές και αναπαριστά τις πληροφορίες ως σημασμένους κατευθυνόμενους γράφους. Βασίζεται στην ιδέα ότι τα περιγραφόμενα αντικείμενα έχουν ιδιότητες (properties) με ορισμένες τιμές (property values), καθώς και στο ότι οι πόροι μπορούν να περιγραφούν φτιάχνοντας δηλώσεις (statements), οι οποίες προσδιορίζουν γι αυτούς τις ιδιότητες και τις αντίστοιχες τιμές τους. Δηλαδή, το μοντέλο RDF κωδικοποιεί τα δεδομένα σε μορφή τριάδων γνωστές και ως τριπλέτες (triples). Ειδικότερα: το πρώτο τμήμα ονομάζεται υποκείµενο (subject) και είναι το URI που προσδιορίζει τον περιγραφόμενο πόρο. το τρίτο τμήμα ονομάζεται αντικείµενο (object) και μπορεί να είναι είτε μια λεκτική τιμή όπως μια συμβολοσειρά, ένας αριθμός ή μια ημερομηνία, είτε το URI ενός άλλου πόρου που σχετίζεται με κάποιον τρόπο με το υποκείμενο. το μεσαίο τµήµα ονομάζεται κατηγόρηµα (predicate) και προσδιορίζει το είδος της σχέσης που υπάρχει ανάμεσα στο υποκείμενο και στο αντικείμενο, και αναπαριστάται επίσης από ένα URI. Αυτά τα URIs προέρχονται από λεξιλόγια (vocabularies), δηλαδή από συλλογές URIs τα οποία μπορούν να χρησιμοποιηθούν για να αναπαραστήσουν δεδομένα ενός συγκεκριμένου πεδίου. Δηλαδή, η τριπλέτα αντικατοπτρίζει τη βασική δομή μιας απλής πρότασης, όπως αυτής: «Η Ελλάδα έχει πρωτεύουσα την Αθήνα», όπου σε μορφή RDF αντιστοιχεί στο: Η Ελλάδα = υποκείμενο έχει πρωτεύουσα = κατηγορούμενο την Αθήνα = αντικείμενο Αυτός ο τρόπος αναπαράστασης προσφέρει τη δυνατότητα αναπαράστασης των δεδομένων σε μορφή γράφου, όπου κόμβοι είναι το υποκείμενο και το αντικείμενο και ακμή είναι το κατηγορούμενο. 43

44 Η Ελλάδα έχει πρωτεύουσα την Αθήνα Σχήμα 12: Ένα RDF statement ως γράφος Ωστόσο, ενώ η παραπάνω δήλωση είναι κατανοητή σε άτομα που μιλούν την Ελληνική γλώσσα, στόχος του RDF είναι η δημιουργία δηλώσεων που να είναι κατανοητές και επεξεργάσιμες από τις μηχανές. Αυτό εξασφαλίζεται με τις παρακάτω προϋποθέσεις: Με την χρήση URIs για τον προσδιορισμό του υποκείμενου, του κατηγορήματος και του αντικείμενου μιας δήλωσης με μοναδικό τρόπο, εξαλείφεται η πιθανότητα σύγχυσης μεταξύ παρόμοιων αναγνωριστικών στον Παγκόσμιο Ιστό. Με την ύπαρξη μιας κατανοητής και επεξεργάσιμης από τους υπολογιστές γλώσσας για την αναπαράσταση και την ανταλλαγή αυτών των δηλώσεων μεταξύ των μηχανών, της RDF/XML. Επομένως, η απλή δήλωση: Παράδειγμα : Greece has a capital called Athens θα μπορούσε να εκφραστεί σε RDF με τη χρήση URIs ως: υποκείμενο: κατηγόρημα: αντικείμενο: Υπάρχουν δύο βασικοί τύποι τριπλετών RDF, οι Λεκτικές Τριπλέτες και οι Σύνδεσμοι RDF: 1. Οι Λεκτικές Τριπλέτες (Literal Triples) έχουν ως αντικείμενο κάποια λεκτική τιμή RDF όπως μια συμβολοσειρά, έναν αριθμό ή μια ημερομηνία και χρησιμοποιούνται για να περιγράψουν τις ιδιότητες των πόρων. Για παράδειγμα, μπορούν να χρησιμοποιηθούν για να περιγράψουν το όνομα ή την ημερομηνία γέννησης ενός προσώπου. 2. Οι Σύνδεσμοι RDF (RDF Links) περιγράφουν την σχέση μεταξύ δύο πόρων. Χωρίζονται σε δύο κατηγορίες: στους εσωτερικούς και στους εξωτερικούς 44

45 συνδέσμους. Οι εσωτερικοί σύνδεσμοι RDF συνδέουν τους πόρους που βρίσκονται μέσα στην ίδια πηγή Διασυνδεδεμένων Δεδομένων, ενώ οι εξωτερικοί σύνδεσμοι RDF συνδέουν πόρους της τοπικής πηγής με πόρους που βρίσκονται σε άλλες πηγές Διασυνδεδεμένων Δεδομένων. Τα URIs του υποκειμένου και του αντικειμένου των εξωτερικών συνδέσμων RDF είναι σε διαφορετικά πεδία ονομάτων. Οι εξωτερικές συνδέσεις RDF είναι ζωτικής σημασίας για τον Ιστό των Δεδομένων, καθώς είναι η «κόλλα» που συνδέει τα συμπλέγματα των δεδομένων σε έναν παγκόσμιο, διασυνδεδεμένο χώρο δεδομένων. Ένα σύνολο από RDF τριπλέτες μπορεί να θεωρηθεί ως ένας RDF γράφος, όπου οι κόμβοι είναι τα URIs που προσδιορίζουν τα υποκείμενα και τα αντικείμενα, και το κατηγορούμενο είναι μια κατευθυνόμενη ακμή που συνδέει το υποκείμενο και το αντικείμενο. Όσο τα URIs των Διασυνδεδεμένων Δεδομένων είναι παγκοσμίως μοναδικά και μπορούν να αναχθούν σε σύνολα RDF τριπλετών, είναι δυνατόν να φανταστούμε το σύνολο των Διασυνδεδεμένων Δεδομένων σαν ένα γιγάντιο παγκόσμιο γράφο (Tim Berners-Lee ), στον οποίο οι εφαρμογές των Διασυνδεδεμένων Δεδομένων θα λειτουργούν με βάση αυτόν τον γράφο και θα ανακτούν τμήματά του (υπογράφους) κατά περίσταση. Τα κυριότερα οφέλη από τη χρήση του μοντέλου RDF είναι τα εξής: 1. Η χρήση των HTTP URIs ως παγκοσμίως μοναδικών αναγνωριστικών για τον προσδιορισμό των αντικειμένων επιτρέπει στον καθένα να αναφερθεί σε οτιδήποτε. 2. Οι πελάτες μπορούν να επισκεφθούν οποιοδήποτε URI ενός RDF γράφου στον Ιστό για να ανακτήσουν επιπλέον πληροφορίες και μέσω των συνδέσεων να περιηγηθούν στο σύνολο των δεδομένων. 3. Το μοντέλο δεδομένων δίνει τη δυνατότητα να δημιουργηθούν RDF σύνδεσμοι μεταξύ δεδομένων από διαφορετικές πηγές. 4. Πληροφορίες από διαφορετικές πηγές μπορούν να συνδυαστούν εύκολα, συγχωνεύοντας τα δύο σύνολα τριπλετών σε ένα γράφο. 5. Αναπαράσταση πληροφοριών που εκφράζονται με τη χρήση διαφορετικών σχημάτων σε ένα γράφο. Δηλαδή, για την αναπαράσταση των δεδομένων μπορεί να γίνει συνδυασμός όρων από διαφορετικά λεξιλόγια. 6. Όταν το μοντέλο δεδομένων συνδυάζεται με σχηματικές γλώσσες όπως η RDF-Schema και η OWL, επιτρέπει τη χρήση διαφορετικών επιπέδων δομημένης πληροφορίας. 45

46 Κωδικοποίηση Η αναπαράσταση ενός RDF statement σε μορφή γράφου είναι μια εικονική αναπαράσταση που βοηθάει τους ανθρώπους να καταλάβουν τα δεδομένα που θέλουμε να παρουσιάσουμε αλλά, αυτή η αναπαράσταση δεν μπορεί να μεταφερθεί στον Ιστό. Έτσι, είναι απαραίτητη η κωδικοποίηση του γράφου χρησιμοποιώντας μια σύνταξη RDF. Αυτό σημαίνει ότι θα πάρουμε τις τριπλέτες που συνθέτουν ένα γράφο RDF, και χρησιμοποιώντας μια συγκεκριμένη σύνταξη (RDF syntax) να τις γράψουμε σε ένα αρχείο. Το RDF δεν είναι μια γλώσσα, αλλά ένα μοντέλο δεδομένων για την περιγραφή πόρων με τη μορφή τριπλετών, ως εκ τούτου δεν υπάρχει μόνο μια μορφή κωδικοποίησης τους. Το W3C έχει αναγνωρίσει ως πρότυπα δύο μορφές κωδικοποιήσεων RDF, την RDF / XML και την RDFa. Υπάρχουν και άλλες μη προτυποποιημένες μορφές κωδικοποιήσεων που χρησιμοποιούνται για να καλύψουν συγκεκριμένες ανάγκες. 1. RDF/XML Η XML είναι ο πιο διαδεδομένος τρόπος αναπαράστασης ενός RDF αρχείου. Σχεδιάστηκε με τέτοιο τρόπο, ώστε να επιτρέπει στον οποιονδήποτε να δημιουργεί τη δική του μορφή εγγράφων. Το RDF ορίζει μια συγκεκριμένη XML γλώσσα επισήμανσης για την αναπαράσταση και την ανταλλαγή RDF πληροφορίας, γνωστή ως RDF/XML. Όπως η HTML, έτσι και η RDF/XML είναι επεξεργάσιμη από τις μηχανές, ενώ με τη βοήθεια των URIs μπορεί να συνδέσει κομμάτια πληροφορίας στον Ιστό. Ωστόσο, σε αντίθεση με το κλασικό υπερκείμενο, οι αναφορές URI μπορούν να αναφερθούν σε οποιοδήποτε αντικείμενο που έχει τη δυνατότητα αναγνώρισης, συμπεριλαμβανομένων και εκείνων που δεν μπορούν να ανακτηθούν άμεσα από τον Ιστό. 2. RDFa Το RDFa (Resource Description Framework in attributes) είναι ένας τρόπος κωδικοποίησης ο οποίος ενσωματώνει τριπλέτες RDF μέσα στο HTML αρχείο. Είναι μια επέκταση της HTML και χρησιμοποιείται για την περιγραφή συγκεκριμένου τύπου πληροφοριών, όπως ανθρώπους, τοποθεσίες, γεγονότα κ.ά. Οι μηχανές αναζήτησης και οι υπηρεσίες Ιστού χρησιμοποιούν αυτήν την περιγραφή για να παρέχουν εφαρμογές μεταδεδομένων, έχοντας ως αποτέλεσμα την αύξηση του περιεχομένου και την καλύτερη κατανόηση του από τις μηχανές. 3. Notation 3 Η μορφή Notation 3 ή N3 είναι μια κωδικοποίηση που δε βασίζεται στην XML 46

47 σύνταξη, σχεδιασμένη για να διευκολύνει την ανθρώπινη ανάγνωση. Η Ν3 επεκτείνει το μοντέλο δεδομένων RDF με την προσθήκη τύπων (λεκτικές οι οποίες είναι οι ίδιες γράφοι), μεταβλητές, λογική επαγωγή και λειτουργικά κατηγορήματα, καθώς και την παροχή σύνταξης υπό μορφή κείμενου ως εναλλακτική λύση στην RDF / XML. Είναι πιο συμπαγής και αναγνώσιμη από την RDF/XML. 4. Turtle Η Turtle (Terse RDF Triple Language) είναι μια μορφή απλού κειμένου που χρησιμοποιείται για την αναπαράσταση γράφων RDF. Είναι υποκατηγορία της Ν3 και η μόνη διαφορά των δύο γλωσσών είναι ότι η Turtle δεν υποστηρίζει τη σύνταξη κανόνων RDF καθώς και τη σύνταξη μονοπατιών (path syntax). Προσφέρει μεγάλη υποστήριξη όσον αφορά τη χρήση προθεμάτων (namespace prefixes) και άλλων συντομεύσεων, γι αυτό είναι η πιο συνηθισμένη μορφή που χρησιμοποιείται για να διαβάζουμε και να γράφουμε RDF τριπλέτες με το χέρι (όχι μέσω κάποιου λογισμικού). Αποτελεί την πιο απλή μορφή σειριακής διάταξης της RDF 5. Ν-Triples Η μορφή Ν-Triples, είναι μια υποκατηγορία της Turtle, χωρίς κάποια χαρακτηριστικά, όπως προθέματα και συντομεύσεις. Το αποτέλεσμα είναι μια μορφή κωδικοποίησης με μεγάλο πλεονασμό, καθώς όλα τα URIs πρέπει να καθορίζονται πλήρως σε κάθε τριπλέτα. Αυτό είναι ένα πλεονέκτημα σε σχέση με τις άλλες μορφές κωδικοποίησης, γιατί επιτρέπει την επεξεργασία των αρχείων N-Triples γραμμήγραμμή, καθιστώντας την ιδανική μορφή κωδικοποίησης για τη φόρτωση μεγάλων αρχείων δεδομένων που δεν χωράνε στην κύρια μνήμη. Επιπλέον, ο πλεονασμός την καθιστά πολύ δεκτική στη συμπίεση, μειώνοντας έτσι την κίνηση του δικτύου (network traffic) κατά την ανταλλαγή αρχείων. Αυτοί οι δύο παράγοντες κάνουν την μορφή N-Triples καθορισμένο πρότυπο για την ανταλλαγή μεγάλου όγκου Διασυνδεδεμένων Δεδομένων. 6. RDF/JSON Η RDF/JSON παρέχει κωδικοποίηση της μορφής JSON (JavaScript Object Notation) για RDF. Η διαθεσιμότητα μιας τέτοιας κωδικοποίησης είναι πολύ επιθυμητή, καθώς ένα αυξανόμενο πλήθος από γλώσσες προγραμματισμού παρέχουν υποστήριξη στη μορφή JSON, όπως JavaScript και PHP. Επομένως, η δημοσιοποίηση RDF δεδομένων χρησιμοποιώντας τη μορφή JSON την καθιστά προσιτή στους προγραμματιστές Ιστού, χωρίς να πρέπει να εγκαταστήσουν επιπλέον βιβλιοθήκες λογισμικού για να επεξεργαστούν τα RDF δεδομένα. 47

48 SPARQL Η SPARQL είναι μια ευρέως διαδεδομένη γλώσσα επερωτήσεων που υλοποιείται πλέον από όλα τα δημοφιλή συστήματα διαχείρισης δεδομένων RDF. Αποτελεί προτεινόμενη σύσταση του W3C από το 2008 και θεωρείται βασική τεχνολογία του Σημασιολογικού Ιστού. Ένα SPARQL Endpoint μπορεί να χρησιμοποιηθεί για να κάνουμε ερωτήσεις (queries) σε μια πληθώρα από πηγές δεδομένων που περιγράφονται σύμφωνα με το μοντέλο RDF και να επιστρέψει τα αποτελέσματα σε μορφή αναγνώσιμη από ανθρώπους ή μηχανές. Τα SPARQL ερωτήματα βασίζονται σε μοτίβα τριάδων (triple patterns). Ένα μοτίβο τριάδας είναι το ίδιο με μία RDF τριάδα, με τη μόνη διαφορά ότι ένας ή περισσότεροι από τους πόρους-συνιστώσες του είναι μεταβλητές. Μία μεταβλητή συμβολίζεται ως:?name, όπου name είναι το όνομά της. Η μηχανή SPARQL που εκτελεί ένα ερώτημα αναζητά από όλους τους πόρους, εκείνους που επαληθεύουν τα μοτίβα τριάδων του ερωτήματος, σύμφωνα με τις RDF προτάσεις που υπάρχουν στη βάση γνώσης με την οποία η SPARQL μηχανή είναι συνδεδεμένη. Ένα ερώτημα σε SPARQL μπορεί να περιέχει συζεύξεις, διαζεύξεις, προαιρετικούς περιορισμούς, περιορισμούς ως προς το πλήθος των αποτελεσμάτων Προσθήκη συνδέσμων προς άλλα σύνολα Δεδομένων Η τέταρτη αρχή των Διασυνδεδεμένων Δεδομένων και πιο σημαντική για τη σύσταση του Ιστού των Δεδομένων, είναι να δημιουργηθούν RDF σύνδεσμοι που θα συνδέουν ένα σύνολο δεδομένων με πόρους από εξωτερικά σύνολα δεδομένων. Αυτοί οι εξωτερικοί RDF σύνδεσμοι είναι η «κόλλα» που θα ενώσει τα απομονωμένα σύνολα σε ένα παγκόσμιο, διασυνδεδεμένο χώρο δεδομένων, και επιτρέπουν στις εφαρμογές να ανακαλύψουν πρόσθετες πηγές δεδομένων. Από τεχνικής πλευράς, ένας εξωτερικός σύνδεσμος είναι μια RDF τριπλέτα, όπου το υποκείμενο ενός συνόλου δεδομένων συνδέεται μέσω ενός κατηγορούμενου με ένα αντικείμενο που βρίσκεται σε ένα άλλο σύνολο δεδομένων.τα αντικείμενα αυτά, συνήθως περιέχουν επιπλέον RDF συνδέσμους προς άλλους πόρους από διαφορετικά σύνολα δεδομένων, οι οποίοι με τη σειρά τους μπορούν να συνδεθούν με ακόμα περισσότερους πόρους και ούτω καθεξής. Υπάρχουν τρεις βασικοί τύποι RDF συνδέσμων: 1. Σύνδεσμοι Συσχέτισης (Relationship Links): Δείχνουν σε συσχετιζόμενα πράγματα που βρίσκονται σε διαφορετικά σύνολα δεδομένων. Για παράδειγμα, ένας χρήστης μπορεί μέσω των συνδέσμων συσχέτισης να αναφέρεται σε πληροφορίες σχετικά με τον τόπο διαμονής του ή σε βιβλιογραφικά δεδομένα σχετικά με τις δημοσιεύσεις που έχει κάνει. 48

49 2. Σύνδεσμοι Ταυτότητας (Identity Links): Δείχνουν σε ταυτόσημα URI (aliases ) που χρησιμοποιούνται από άλλες πηγές δεδομένων για να περιγράψουν το ίδιο αντικείμενο του πραγματικού κόσμου ή μια αφηρημένη έννοια. Επιτρέπουν έτσι, στους πελάτες να ανακτήσουν περαιτέρω πληροφορίες για μια οντότητα από διαφορετικές πηγές δεδομένων. Οι Συνδέσεις Ταυτότητας έχουν σημαντική κοινωνική λειτουργία, καθώς επιτρέπουν την έκφραση διαφορετικών απόψεων στον Ιστό των Δεδομένων. 3. Σύνδεσμοι Λεξιλογίου (Vocabulary Links): Δείχνουν από τα δεδομένα στους ορισμούς των όρων του λεξιλογίου που χρησιμοποιούνται για να περιγράψουν αυτά τα δεδομένα, καθώς και από αυτούς τους ορισμούς σε άλλους σχετικούς ορισμούς από διαφορετικά λεξιλόγια. Οι Σύνδεσμοι Λεξιλογίου κάνουν τα δεδομένα αυτο-περιγραφικά και επιτρέπουν στις εφαρμογές των Διασυνδεδμένων Δεδομένων να κατανοήσουν και να ενσωματώσουν τα δεδομένα σε όλα τα λεξιλόγια Linking Open Data project Ένα από τα πρώτα project που υιοθέτησαν και εφάρμοσαν τις αρχές των Διασυνδεδεμένων Δεδομένων είναι το Linking Open Data (LOD), μια κοινοτική προσπάθεια που θεμελιώθηκε τον Ιανουάριο του 2007 από τους Chris Bizer και Richard Cyganiak και υποστηρίχθηκε από το W3C Semantic Web Education και το Outreach Group. Ο σκοπός αυτού του εγχειρήματος είναι να αναγνωρίζει τα υπάρχοντα σύνολα δεδομένων, τα οποία διατίθενται ανοιχτά, να τα μετατρέψει σε RDF σύμφωνα με τις Αρχές των Διασυνδεδεμένων Δεδομένων και να τα δημοσιεύσει στον Ιστό, με αποτέλεσμα να συνεισφέρει στην επέκταση του Ιστού των Δεδομένων. Αρχικά, οι συμμετέχοντες ήταν κυρίως ερευνητές και προγραμματιστές σε πανεπιστημιακά ερευνητικά εργαστήρια και μικρές εταιρίες. Τα μεγαλύτερα σύνολα Διασυνδεδεμένων Δεδομένων του Ιστού ήταν η DBpedia (91 εκατομμύρια τριάδες), το Geonames 28 (60 εκατομμύρια τριάδες), το Musicbrainz 29 (50 εκατομμύρια τριάδες), o DBtune music server 30 (4 εκατομμύρια τριάδες), η βιβλιογραφία DBLP 31 (15 εκατομμύρια τριάδες), οι αξιολογήσεις Revyu 32 (15 χιλιάδες τριάδες), το σύνολο

50 δεδομένων απογραφής των ΗΠΑ (700 εκατομμύρια τριάδες) και το RDF Book Mashup 33 (αρκετά δισεκατομμύρια τριάδες). Σχήμα 13: Σύννεφο Linking Open Data project, Μάιος 2007 Από το 2007 μέχρι σήμερα ο Ιστός των Δεδομένων έχει αναπτυχθεί σημαντικά με αποτέλεσμα σήμερα να περιλαμβάνει σημαντικές συμμετοχές από μεγάλους οργανισμούς και παρόχους δεδομένων, όπως από Μ.Μ.Ε. (π.χ BBC, Thomson Reuters) και κυβερνήσεις (π.χ. Η.Π.Α., Ηνωμένο Βασίλειο). Η ανάπτυξη αυτή οφείλεται στο γεγονός ότι καθένας μπορεί να δημοσιεύσει ένα σύνολο δεδομένων σύμφωνα με τις Αρχές των Διασυνδεδεμένων Δεδομένων και να διασυνδέσει με άλλα σύνολα. Τα βέλη στο Σχήμα 13 υποδεικνύουν ότι υπάρχουν σύνδεσμοι μεταξύ αντικειμένων στα δύο συνδεόμενα σύνολα δεδομένων. Τα πιο «έντονα» βέλη αντιστοιχούν σε μεγαλύτερο αριθμό συνδέσμων μεταξύ δύο συνόλων δεδομένων, ενώ τα αμφίδρομα βέλη υποδεικνύουν ότι σε κάθε σύνολο δεδομένων υπάρχουν εξερχόμενοι σύνδεσμοι προς το άλλο. Ενδεικτικό του μεγέθους του Ιστού των Δεδομένων που προήλθε από το το Linking Open Data project είναι το Σχήμα 14. Κάθε κόμβος στο διάγραμμα -σύννεφο αναπαριστά ένα ξεχωριστό σύνολο δεδομένων που δημοσιεύεται ως Διασυνδεδεμένα Δεδομένα

51 Σχήμα 14 : Διάγραμμα-σύννεφο των Linking Open Data που δίνει μια γενική εικόνα των δημοσιευμένων συνόλων δεδομένων και τις σχέσεις μεταξύ τους. Τελευταία ενημέρωση: 30/08/2014 ( ) 4.3 Πλεονεκτήματα δημοσίευσης Γλωσσολογικών Δεδομένων ως Διασυνδεδεμένα Δεδομένα Η μοντελοποίηση και η δημοσίευση των γλωσσολογικών πόρων ως Διασυνδεδεμένα Δεδομένα προσφέρει σημαντικά πλεονεκτήματα σε σύγκριση με τους υπάρχοντες φορμαλισμούς. Σύμφωνα με τον Christian Chiarcos [10], μερικά από αυτά είναι: Αναπαράσταση και μοντελοποίηση: Οι σημασιολογικοί λεξιλογικοί πόροι μπορούν να περιγραφούν ως σημασμένοι κατευθυνόμενοι γράφοι. Το RDF βασίζεται επίσης σε σημασμένους κατευθυνόμενους γράφους και γι αυτό είναι κατάλληλο για την μοντελοποίηση και των γλωσσολογικών πόρων. Αυτή η μοντελοποίηση επιτρέπει την αναπαράσταση διαφορετικών τύπων γλωσσικών πόρων με ένα ενιαίο τρόπο, ενισχύοντας έτσι την ομοιόμορφη υποβολή επερωτήσεων σε όλους τους πόρους. Και όσο το RDF και η SPARQL χρησιμοποιούν URIs για να ορίσουν τα στοιχεία, είναι ακόμη δυνατό να αναζητήσουμε δεδομένα που δεν είναι αποθηκευμένα σε ένα μόνο αποθετήριο, αλλά είναι προσβάσιμα μέσω διαφορετικών SPARQL endpoints. 51

52 Διαρθρωτική διαλειτουργικότητα : Χρησιμοποιώντας ένα κοινό μοντέλο δεδομένων διευκολύνεται η ενσωμάτωση διαφορετικών πόρων. Συγκεκριμένα, η συγχώνευση πολλών έγγραφων RDF αποδίδει άλλο έγκυρο έγγραφο RDF, ενώ αυτό δεν συμβαίνει απαραίτητα με άλλα πρότυπα. Υποβολή επερώτησεων φυσικά κατανεμημένων πόρων (federation): Σε αντίθεση με τις παραδοσιακές μεθόδους, όπου μπορεί να είναι δύσκολο να υποβληθούν επερωτήσεις ακόμη και σε πολλά μέρη του ίδιου πόρου, τα Διασυνδεδεμένα Δεδομένα επιτρέπουν την ομόσπονδη αναζήτηση σε πολλαπλές, κατανεμημένες βάσεις δεδομένων που διατηρούνται από διαφορετικούς παρόχους δεδομένων. Πλούσιο οικοσύστημα από φορμαλισμούς και τεχνολογίες: Τα Διασυνδεδεμένα Δεδομένα υποστηρίζονται από ένα μεγάλο πλήθος προγραμματιστών από άλλα πεδία εκτός της Γλωσσολογίας, και η ύπαρξη ενός μεγάλου εύρους εργαλείων και συστημάτων για την επεξεργασία τους είναι προφανώς ένα πλεονέκτημα. Εκφραστικότητα: Οι Σημασιολογικές Γλώσσες Ιστού (συγκεκριμένα η OWL) υποστηρίζουν τον ορισμό αξιωμάτων τα οποία επιτρέπουν τον περιορισμό της χρήσης του λεξιλογίου, εισάγοντας έτσι τυπικές μορφές δεδομένων και τη δυνατότητα ελέγχου ενός λεξικού ως προς τη συνοχή. Ενισχυμένη εννοιολογική διαλειτουργικότητα: δηλαδή, ίδιο λεξιλόγιο για διαφορετικές πηγές. Οι Αρχές των Διασυνδεδεμένων Δεδομένων έχουν τη δυνατότητα να διευκολύνουν το πρόβλημα της διαλειτουργικότητας, με την έννοια ότι τα παγκοσμίως μοναδικά αναγνωριστικά για έννοιες ή κατηγορίες μπορούν να χρησιμοποιηθούν για τον ορισμό του λεξιλογίου που χρησιμοποιούμε, και αυτά τα URIs μπορούν να χρησιμοποιηθούν από διαφορετικές πηγές που έχουν την ίδια οπτική μιας έννοιας. Επιπλέον, η σύνδεση με τα αξιώματα της OWL μας επιτρέπει να προσδιορίσουμε την ακριβή σχέση μεταξύ δύο διαφορετικών εννοιών πέρα από απλές ισοδύναμες προτάσεις. Δυναμική εισαγωγή: Τα URIs μπορούν να χρησιμοποιηθούν για να αναφερθούν σε εξωτερικούς πόρους έτσι, ώστε κάποιος να μπορεί να εισάγει άλλους γλωσσολογικούς πόρους «δυναμικά». Με τη χρήση των URIs για την κατάδειξη εξωτερικού περιεχομένου, μπορεί να ανακτηθεί η πιο πρόσφατη έκδοση των δυναμικά εισαγόμενων πόρων και όχι απλά μια στατική πληροφορία. Εκτός από τα οφέλη που παρατέθηκαν παραπάνω, η σύνδεση διευκολύνει την κατανεμημένη, αλλά ιδιαίτερα τη συγχρονισμένη ανάπτυξη των γλωσσολογικών πόρων. Η τεχνολογική υποδομή που αναπτύχτηκε γύρω από RDF το καθιστά ένα ελκυστικό υποψήφιο για τη δημιουργία, την ανταλλαγή και την επεξεργασία των γλωσσολογικών πόρων σε διάφορους υποκλάδους της Γλωσσολογίας, NLP και συγγενικών πεδίων. Η γενίκευσή του επιτρέπει στους ερευνητές από όλες αυτές τις διαφορετικές κοινότητες να μοιραστούν δεδομένα και εμπειρίες. Με αυτόν τον τρόπο 52

53 το πρότυπο RDF ενθαρρύνει την διεπιστημονική συνεργασία και ως εκ τούτου, τα Διασυνδεδεμένα Δεδομένα είναι στο επίκεντρο των πρόσφατων δραστηριοτήτων της κοινότητας. 53

54 5 Οντολογίες 5.1 Ορισμός της έννοιας οντολογία Στη διεθνή βιβλιογραφία είναι δυνατό να εντοπιστούν πάρα πολλοί ορισμοί για το τι είναι η οντολογία. Ένας ορισμός της, που προσεγγίζει τη φιλοσοφική πλευρά του όρου, ορίζει την οντολογία ως «την επιστήμη που μελετά την ύπαρξη, τη φύση και τις σχέσεις των όντων». Στην Επιστήμη των Υπολογιστών ως οντολογία ορίζεται «ένας τυπικός, σαφής ορισμός μιας κοινής και διαμοιρασμένης εννοιολογικής αναπαράστασης που αφορά ένα πεδίο ενδιαφέροντος» (Gruber 1993). Ουσιαστικά, πρόκειται για μια αυστηρή περιγραφή αντικειμένων και των σχέσεων που υπάρχουν ανάμεσά τους. Αυτή η τυπική αναπαράσταση γνώσης μπορεί να χρησιμοποιηθεί για συλλογιστική (εξαγωγή συμπερασμάτων/νέας γνώσης) και για την δομημένη περιγραφή γνώσης ενός πεδίου ενδιαφέροντος. Οι οντολογίες έχουν καθιερωθεί ως δομημένα πλαίσια για την οργάνωση πληροφορίας και χρησιμοποιούνται κυρίως στην Τεχνητή Νοημοσύνη, στον Σημασιολογικό Ιστό, στη Βιοπληροφορική, στην επιστήμη της Βιβλιοθηκονομίας, και σε άλλες επιστήμες/κλάδους, ως μια μορφή αναπαράστασης γνώσης για τον κόσμο. Συμπερασματικά, μπορούμε να σημειώσουμε τα εξής σημαντικά στοιχεία, αναφορικά με τις οντολογίες: Ορίζουν ένα κοινό λεξιλόγιο για μια κοινότητα ανθρώπων με κοινά ενδιαφέροντα. Χρησιμοποιούνται για να περιγράψουν ένα συγκεκριμένο τομέα. Περιλαμβάνουν ορισμούς βασικών εννοιών του πεδίου γνώσης και των σχέσεων μεταξύ τους. Το είδος των εννοιών που χρησιμοποιούνται και οι περιορισμοί που αφορούν τη χρήση αυτών των εννοιών είναι προσδιορισμένοι με σαφήνεια. Υπάρχει κάποιος μηχανισμός και κάποια μεθοδολογία για την οργάνωση των όρων τους. Επιτρέπουν τον διαμοιρασμό πληροφοριών πάνω σε ένα πεδίο γνώσης. Πρέπει να είναι αναγνώσιμη από υπολογιστή. Πάντα προηγείται μία συμφωνία μεταξύ εκείνων που θα χρησιμοποιήσουν μία οντολογία, ούτως ώστε να παραμένει σταθερή η έννοια των όρων. 54

55 5.2 Γιατί χρειάζονται οι Οντολογίες; Οι λόγοι, για τους οποίους είναι χρήσιμη η ανάπτυξη μιας οντολογίας, είναι αρκετοί και ιδιαίτερα σημαντικοί: Κοινή κατανόηση της δομής των πληροφοριών που ανταλλάσσονται μεταξύ ανθρώπων και υπολογιστικών μηχανών: Είναι ίσως ο πιο κοινός στόχος στην ανάπτυξη οποιασδήποτε οντολογίας. Για παράδειγμα, έστω ότι διάφοροι ιστοχώροι περιέχουν ιατρική πληροφορία. Αν αυτοί οι ιστοχώροι διαμοιράζονται και δημοσιεύουν υλικό που βασίζεται πάνω στην ίδια οντολογία, τότε κατάλληλα στοιχεία λογισμικού, όπως οι πράκτορες λογισμικού, θα μπορούν να ανακτήσουν και να συγκρίνουν τις πληροφορίες που παρέχονται από όλες αυτές τις διαφορετικές πηγές, και στη συνέχεια να απαντούν σε ερωτήσεις χρηστών ή να τις χρησιμοποιήσουν ως είσοδο σε άλλες εφαρμογές. Επαναχρησιμοποίηση της πληροφορίας σε ένα επιστημονική πεδίο: Ο λόγος αυτός ήταν μια από τις κινητήριες δυνάμεις πίσω από τις τρέχουσες εξελίξεις στην έρευνα για τις οντολογίες. Εάν μια ομάδα ερευνητών αναπτύξει μια οντολογία για τις ανάγκες ενός επιστημονικής πεδίου, κάποιες άλλες ομάδες μπορούν απλά να την επαναχρησιμοποιήσουν στο δικό τους πεδίο ενδιαφέροντος. Επιπλέον, εάν χρειαστεί να αναπτυχθεί μια ευρύτερη οντολογία, αυτό μπορεί να γίνει με τη συνένωση οντολογιών που υπάρχουν ήδη, όπου καθεμία περιγράφει ένα τμήμα από το ευρύτερο πεδίο. Επίσης, μπορεί να επαναχρησιμοποιηθεί μια γενική οντολογία και να επεκταθεί με πιο εξειδικευμένους όρους, ώστε να περιγράψει ένα συγκεκριμένο πεδίο ενδιαφέροντος. Δημιουργία σαφών παραδοχών και υποθέσεων για ένα πεδίο: Η ρητή μοντελοποίηση των αφηρημένων εννοιών ενός πεδίου επιτρέπει την σχετικά εύκολη μεταβολή των παραδοχών και των υποθέσεων, αν αλλάξει η γνώση που έχουμε για το πεδίο αυτό. Επιπλέον, η ξεκάθαρη αναπαράσταση των εννοιών ενός επιστημονικού πεδίου βοηθάει στην κατανόηση του τομέα και από νέους χρήστες με περιορισμένη γνώση. Διαχωρισμός της γνώσης ενός πεδίου από τη λειτουργική γνώση: Ο λόγος αυτός είναι μια άλλη κοινή χρήση των οντολογιών. Μπορεί, για παράδειγμα, να γίνει η περιγραφή μιας διαδικασίας για τη συναρμολόγηση ενός προϊόντος από τα συστατικά του σύμφωνα με κάποιες προδιαγραφές, και στη συνέχεια να υλοποιηθεί ένα πρόγραμμα που να υλοποιεί την διαδικασία συναρμολόγησης και ρύθμισης, ανεξάρτητα από τα εκάστοτε συστατικά. Ανάλυση της γνώσης ενός επιστημονικής πεδίου: Αυτό μπορεί να γίνει πολύ εύκολα σε περίπτωση που είναι διαθέσιμη μια ξεκάθαρη προδιαγραφή της ορολογίας που χρησιμοποιείται. Για παράδειγμα, αν κάποιος έχει πρόσβαση σε μια δηλωτική 55

56 αναπαράσταση των όρων ενός πεδίου γνώσης και των σχέσεών τους μπορεί να εφαρμόσει μαθηματικές τεχνικές για την ανάλυση της γνώσης. Η ανάλυση αυτή μπορεί να βοηθήσει τόσο στην επαναχρησιμοποίηση και στην επέκ-ταση μιας υπάρχουσας οντολογίας, όσο και στον επανασχεδιασμό της. 5.3 Τα βασικά συστατικά μιας οντολογίας Η γνώση στις οντολογίες μοντελοποιείται χρησιμοποιώντας πέντε βασικές κατηγορίες: Κλάσεις (classes): Το κυριότερο στοιχείο των οντολογιών και περιγράφουν τις έννοιες (concepts) ενός πεδίου. Σχέσεις (relations): Αναπαριστούν έναν τύπο συσχέτισης μεταξύ των εννοιών ενός πεδίου (π.χ. subclass-of, is-a). Συναρτήσεις (functions): Εκπροσωπούν μια ειδική περίπτωση σχέσης στην οποία το ν-οστό στοχείο της σχέσης προσδιορίζεται μοναδικά από τα προηγούμενα ν-1 στοιχεια. Ionio-km-ontology Αξιώματα (axioms) : Αναπαριστούν προτάσεις που είναι πάντοτε αληθείς. Συνήθως χρησιμοποιούνται για να αναπαραστήσουν γνώση που δεν μπορεί να ορισθεί από τα υπόλοιπα συστατικά. Στιγμιότυπα (instances): χρησιμοποιούνται για να αναπαραστήσουν οντότητες (elements) ή άτομα (individuals). Τυπικά, η ανάπτυξη μιας οντολογίας περιλαμβάνει: Καθορισμό των κλάσεων της Ιεραρχική ταξινόμηση των κλάσεων σε υποκλάσεις υπέρ-κλάσεις Καθορισμός των ιδιοτήτων και περιγραφή των επιτρεπόμενων τιμών σε αυτές Ενημέρωση των τιμών όλων των στιγμιότυπων. 5.4 Γλώσσες Οντολογιών Η υλοποίηση μοντέλων κατανοητών από υπολογιστή (computable models) γίνεται με μια γλώσσα οντολογιών. Οι γλώσσες οντολογιών επιτρέπουν την κωδικοποίηση της γνώσης, καθώς και κανόνες εξαγωγής συμπερασμάτων μέσω αυτών. Βασίζονται κυρίως στην Κατηγορηματική Λογική και την Περιγραφική Λογική. Οι γλώσσες που περιγράφουν οντολογίες του Σημασιολογικού Ιστού βασίζονται συνήθως στην Περιγραφική Λογική και η δομή τους είναι παρόμοια με τις κοινές Γλώσσες Σήμανσης (Markup Languages), όπως η XML. Για την κατασκευή οντολογιών που 56

57 προορίζονται για χρήση στο Σημασιολογικό Ιστό το W3C προτείνει δύο κύριες Γλώσσες Οντολογιών, την RDF Schema, που έχει απλή δομή, και την OWL, που προσφέρει αυξημένες δυνατότητες έκφρασης. Οι οντολογίες θα αποτελέσουν σημαντικό παράγοντα στην εξέλιξη του Διαδικτύου, καθώς επιτρέπουν τον διαμοιρασμό της γνώσης μεταξύ των προγραμμάτων, δηλώνοντας τις οντότητες που υπάρχουν και τις μεταξύ τους σχέσεις. Χρησιμοποιώντας οντολογίες σε εφαρμογές που σχετίζονται με μηχανές αναζήτησης, η αναζήτηση γίνεται με σημασιολογικούς κανόνες και όχι συντακτικούς. Αυτό πρακτικά σημαίνει ότι αν υπάρχουν πιθανές συντακτικές διαφορές δεν επηρεάζουν τα αποτελέσματα. 5.5 Λεξιλογικές οντολογίες Αν και όχι επίσημα, το WordNet θεωρείται από πολλούς ως λεξιλογική οντολογία. Η πλούσια δομή και η εκτενής ταξινομία που διαθέτει μπορεί να το κατατάξει ως ένα είδος «proto-ontology». Ωστόσο, προκειμένου να μπορέσει να χρησιμοποιηθεί ως οντολογία θα πρέπει πρώτα να μετασχηματιστεί. Έχουν αναπτυχθεί πολλές λεξιλογικές οντολογίες για την αναπαράσταση των γλωσσολογικών δεδομένων, μερικές από τις οποίες αναφέρονται παρακάτω. SUMO Η SUMO (Suggested Upper Merged Ontology) 34 αποτελεί τη μεγαλύτερη επίσημη δημόσια οντολογία που υπάρχει σήμερα. Χρησιμοποιείται σε έρευνες και εφαρμογές που σχετίζονται με την αναζήτηση, τη γλωσσολογία και τη συλλογιστική. Αποτελεί τη μοναδική επίσημη οντολογία που έχει αντιστοιχηθεί με όλα τα WordNets. LEMON Το LEMON (Lexicon Model for Ontologies) 35 είναι ένα προτεινόμενο μοντέλο για τη μοντελοποίηση λεξικών που είναι αναγνώσιμα από υπολογιστικές μηχανές. Υποστηρίζει την κοινή χρήση των λεξιλογικών πόρων και σχεδιάστηκε για να επιτρέψει την αναπαράσταση λεξιλογικών πόρων στον Σημασιολογικό Ιστό καθώς και την σύνδεσή τους με ήδη υπάρχουσες σημασιολογικές αναπαραστάσεις που παρέχονται από άλλες οντολογίες. Είναι ένα ευέλικτο μοντέλο, που μπορεί να επεκτείνει τον Σημασιολογικό Ιστό με νέους τρόπους και να οδηγήσει σε πόρους που απαιτούνται από πολλές εφαρμογές NLP οι οποίες βασίζονται σε οντολογίες

58 GOLD Η GOLD (General Ontology for Linguistic Description) 36 είναι μια οντολογία που χρησιμοποιείται στην περιγραφική γλωσσολογία. Δίνει μια τυποποιημένη μορφή στις πιο βασικές κατηγορίες και στις σχέσεις που χρησιμοποιούνται στην επιστημονική περιγραφή της ανθρώπινης γλώσσας. Εισήχθη για πρώτη φορά από τους Farrar και Langendoen το Αρχικά, είχε σχεδιαστεί ως λύση στο πρόβλημα των διαφορετικών συστημάτων σήμανσης μεταξύ των γλωσσολογικών δεδομένων, ιδίως για δεδομένα που προέρχονται από γλώσσες που είναι υπό εξαφάνιση. Η οντολογία GOLD είναι πολύ γενική και μπορεί να εφαρμοστεί σε όλες τις γλώσσες

59 6 Διαδικασία Μετατροπής του Ελληνικού WordNet Κάθε WordNet κατασκευάζεται σύμφωνα με το Σύστημα Διαχείρισης WordΝet και στη συνέχεια αποθηκεύεται σε ένα μεμονωμένο αρχείο XML. Προκειμένου να διαχειριστούν τις διάφορες γλώσσες, αυτά τα αρχεία XML χρησιμοποιούν το Unicode Charset (UTF8). Το Eλληνικό WordΝet, όπως αναφέρθηκε, δημιουργήθηκε από το Πανεπιστήμιο Πατρών με τη συνεργασία του Πανεπιστημίου Αθηνών στα πλαίσια του BalkaΝet. Για την παρούσα εργασία, το εργαστήριο συστημάτων βάσεων δεδομένων (DBLab) μας παραχώρησε τα δεδομένα του Eλληνικού WordNet σε ένα XML αρχείο που περιείχε synsets προκειμένου να γίνει η περιγραφή και η δημοσιοποίηση των Γλωσσολογικών Δεδομένων σύμφωνα με τις Αρχές των Διασυνδεδμένων Δεδομένων. Για τη διαδικασία μετατροπής του αρχείου XML σε RDF ακολουθήσαμε τις ακόλουθες αρχές σχετικά με τα δεδομένα που έχουν μετατραπεί σε RDF: να μπορούν πάντα να εμπλουτίζονται από προηγμένους επεξεργαστές δεδομένων στο μέλλον, να είναι προσβάσιμα στο Διαδίκτυο, για αυτό επιλέχθηκε η Ν3 για την δημοσιοποίηση των δεδομένων και όλα τα URIs να είναι dereferenceable μέσω του πρωτοκόλλου HTTP. 6.1 Δομή του Eλληνικού WordNet Παρακάτω δίνεται ένα παράδειγμα από το αρχείο XML του Eλληνικού WordNet για το synset άστρο : <SYNSET> <ID>ENG n</ID> <POS>n</POS> <SYNONYM><LITERAL>άστρο<SENSE>1</SENSE><LNOTE>a stro</lnote> </LITERAL><LITERAL>αστέρας<SENSE>1</SENSE><LNOTE>aste ras</lnot E></LITERAL><LITERAL>αστέρι<SENSE>1</SENSE><LNOTE>aste ri</lnot E></LITERAL></SYNONYM> <ILR>ENG n<TYPE>hypernym</TYPE></ILR> <ILR>ENG n<TYPE>holo_member</TYPE></ILR> <ILR>ENG n<TYPE>holo_member</TYPE></ILR> <ILR>ENG n<TYPE>category_domain</TYPE></ILR> <DEF>κάθε αυτόφωτο ουράνιο σώμα που ακτινοβολεί χάρη στις εσωτερικές 59

60 θερμοπυρηνικές πηγές ενέργειας τις οποίες έχει</def> <BCS>2</BCS> </SYNSET> Σχήμα 15 : Μορφή του synset «άστρο» στο αρχείο XML Κάθε synset περιγράφεται από τέτοιες ετικέτες των οποίων η έννοια είναι: -SYNSET: περιέχει όλα τα δεδομένα σε σχέση με το synset -ID: αναγνωριστικό προέλευσης του ILI. Αν υπάρχει το πρόθεμα ENG20 σημαίνει ότι το synset είχε δημιουργηθεί από το Princeton WordNet έκδοση 2.0, ενώ το πρόθεμα BILI σημαίνει ότι είχε δημιουργηθεί από το BalkaΝet. -POS: μέρος του λόγου. Οι πιθανές τιμές είναι: n : ουσιαστικό v : ρήμα b : επίρρημα a : επίθετο -SYMONYM: κατάλογος των συνωνύμων του συγκεκριμένου synset. Τουλάχιστον ένα είναι υποχρεωτικό. LITERAL: διατύπωση της λέξης SENSE: αριθμός που χρησιμοποιείται για την διαφοροποίηση της έννοιας LNOTE: προφορά της λέξης -DEF: περιγραφή του synset. Δεν είναι υποχρεωτική. -STAMP: δίνει κάποιες πρόσθετες πληροφορίες για το synset ( π.χ. συγγραφέας, ημερομηνία κ.τ.λ.) -USE: δίνει ένα παράδειγμα χρήσης του synset -BCS: πλήθος των βασικών εννοιών που σχετίζονται με το synset. Οι πιθανές τιμές είναι 1, 2 ή 3. -ILR: Interlingua relation. Δίνει μια σχέση μεταξύ του synset με το καθορισμένο ILI. -TYPE: τύπος αυτής της σχέσης. Οι πιθανές τιμές είναι : be_in_state, category_domain, causes, derived, eng_derivative, holo_member, holo_part, 60

61 holo_portion, hypernym, near_antonym, particle, region_domain, similar_to, subevent, usage_domain, verb_group. Στον Πίνακα 2 παρουσιάζεται η κατάσταση του Ελληνικού Wordnet, όπως προέκυψε από το Balkanet. Συγκεκριμένα, δίνονται το σύνολο των synsets, των literals και η μεταξύ τους αναλογία. Επιπλέον, δίνονται οι εσωτερικές λεξικό-σημασιολογικές σχέσεις μεταξύ των synsets στο Ελληνικό Wordnet, καθώς και ο μέσος όρος των συνδέσμων ανά synset. Στον Πίνακα 3 παρουσιάζεται το πλήθος των synsets για καθένα υποσύνολο BCS μαζί με την κατανομή POS όλων των synsets. Στον Πίνακα 4 δίνεται το πλήθος των σημασιολογικών σχέσεων στο Eλληνικό WordΝet, για κάθε τύπο σχέσης. Σύνολο των Synsets Literals Αναλογία Literals/Synsets Λεξικό-Σημασιολογικές Σχέσεις Αναλογία Σχέσεις/Synsets ~ 1, ~1,32 Περιγραφές (Glosses) Πίνακας 2. Στατιστικά στοιχεία του Ελληνικού WordΝet. BCS Πλήθος BCS I BCS II BCS III Μέρος του Λόγου (POS) Πλήθος Ουσιαστικά Ρήματα Επίθετα 617 Επιρρήματα 16 Πίνακας 3. Κατανομή BCS και POS για το Eλληνικό WordNet HYPERNYM HOLO_MEMBER

62 HOLO_PART HOLO_SUBSTANCE 57 HOLO_PORTION 162 VERB_GROUP 424 BE_IN_STATE 143 SUBEVENT 132 CAUSES 76 ALSO_SEE 210 SIMILAR_TO 46 DERIVED 103 NEAR_ANTONYM 689 ANTONYM 22 Σύνολο Πίνακας 4. Σημασιολογικές σχέσεις στο Eλληνικό WordΝet 6.2 Οντολογίες που χρησιμοποιήθηκαν Η μετατροπή των δεδομένων του Princeton WordNet 2.0 σε RDF έγινε χρησιμοποιώντας την οντολογία WordΝet Schema 2.0. Το Balkanet Project έχει παρόμοια δομή με αυτήν του Princeton WordNet, αφού οι περισσότερες σημασιολογικές σχέσεις που αναπαριστώνται μέσα στο Balkanet έχουν προκύψει από το EWN και το PWN. Για το λόγο αυτό, χρησιμοποιήθηκε η ίδια οντολογία 37. Το σχήμα της μετατροπής έχει τρεις βασικές κλάσεις: Synset, Word και WordSense. Οι κλάσεις Synset και WordSense έχουν υποκλάσεις ανάλογα με το τι μέρος του λόγου είναι ένα synset. Οι υπο-κλάσεις του Synset είναι οι: NounSynset, VerbSynset, AdjectiveSynset και AdverbSynset. Οι υποκλάσεις του WordSense είναι οι: NounWordSense, VerbWordSense, AdjectiveWordSense και AdverbWordSense. Η κλάση Word έχει μόνο την Collocation, η οποία χρησιμοποιείται για να αναπαραστήσει λέξεις που έχουν παύλες ή κάτω παύλες. 37 Η αναλυτική περιγραφή της οντολογίας παρέχεται στη διεύθυνση: 62

63 Σχήμα 16. Η ιεραρχία των κλάσεων στο σχήμα του WordNet. Επίσης, χρησιμοποιήσαμε το Protégé 38, ένα εργαλείο επεξεργασίας οντολογιών, για να δημιουργήσαμε μια προέκταση της WordΝet Full Ontology, την WordΝet Greek Ontology, προσθέτοντας κάποιες επιπλέον ιδιότητες. Αυτό έγινε για να συμπεριληφθούν κάποια πεδία που δεν υπήρχαν στο Princeton Wordnet και εισήχθησαν από το Balkanet Project, όπως είναι το LNOTE που περιέχει την προφορά μιας λέξης, επιτυγχάνοντας έτσι συμμετρική μετατροπή. Τέλος, χρησιμοποιήθηκαν οι ιδιότητες rdfs:label και rdf:type σε όλες τις εγγραφές. 6.3 Αντιστοιχίσεις Κάθε στοιχείο του αρχείου XML αντιστοιχήθηκε με μια ιδιότητα με βάση το όνομα του στοιχείου. Επίσης, χρησιμοποιήθηκαν κάποιες επιπλέον ιδιότητες όπως: η rdfs:label με την οποία αντιστοιχίσαμε το πρώτο (στη σειρά) συνωνύμο του κάθε synset, προκειμένου να δοθεί ένα όνομα στο synset, η ιδιότητα rdf:type αντιστοίχισε κάθε οντότητα με την κλάση στην οποία ανήκε, η ιδιότητα owl:sameas αντιστοίχισε κάθε synset του Ελληνικού WordNet με το αντίστοιχο στο Princeton Wordnet 2.0 κ.λπ. Επιπλέον, τα Wordsenses και Words αντιστοιχήθηκαν με την κατάλληλη κλάση και λέξεις χρησιμοποιώντας την ιδιότητα : wn20s:lexicalform. Οι αντιστοιχίσεις που χρησιμοποιήθηκαν παρουσιάζονται στον Πίνακα 5. XML ELEMENT MAPPED PROPERTY CLASS ID wn20s:synsetid Synset DEF wn20s:gloss Synset SENSE wn20s:sense WordSense LITERAL rdfs:label Synset,WordSense,Word LITERAL wn20s:lexicalform Word

64 LNOTE wngre-onto:lnote WordSense,Word SYNONYM wn20s:containswordsense Synset BCS wngre-onto:bcs Synset N wn20s:nounsynset Synset V wn20s:verbsynset Synset B wn20s:adverbsynset Synset A wn20s:adjectivesynset Synset N wn20s:nounwordsense WordSense V wn20s:verbwordsense WordSense B wn20s:adverbwordsense WordSense A wn20s:adjectivewordsense WordSense category_domain wn20s:classifiedbytopic Synset Causes wn20s:causes Synset Derived wn20s:derivationallyrelated Synset holo_member wn20s:memberholonymof Synset holo_part wn20s:partholonymof Synset Hypernym wn20s:hypernymof Synset near_antonym wngre-onto:nearantonymof Synset Antonym wn20s:antonymof Synset region_domain wn20s:classifiedbyregion Synset similar_to wn20s:similarto Synset usage_domain wn20s:classifiedbyusage Synset verb_group wn20s:sameverbgroupas Synset holo_substance wn20s:substanceholonymof Synset also_see wn20s:seealso Synset be_in_state wngre-onto:beinstate Synset eng_derivative wngre-onto:engderivativeof Synset holo_portion wngre-onto:holoportionof Synset Particle wngre-onto:particleof Synset Subevent wngre-onto:subevent Synset Πίνακας 5. Αντιστοιχίσεις της μετατροπής 6.4 Δομή του Κώδικα Tα δεδομένα του Αγγλικού WordNet ήταν ήδη δημοσιοποιημένα σε RDF, ωστόσο, ο κώδικας δεν διατίθεται προς ελεύθερη χρήση. Επομένως, για την δημοσιοποίηση των δεδομένων του Ελληνικού WordNet ως RDF αναπτύχθηκε από την αρχή ένας κώδικας, ο οποίος είναι ανοικτός και με κάποιες μικρές αλλαγές μπορεί να χρησιμοποιηθεί για αντίστοιχες εφαρμογές σε άλλα WordΝets. Για την δημιουργία του κώδικα χρησιμοποιήθηκε η γλώσσα προγραμματισμού C++. Ο κώδικας δέχεται ως είσοδο το αρχείο ΧΜL, αναθέτει σε κάθε εγγραφή ένα URI 64

65 υλοποιώντας την τεχνική 303 ανακατεύθυνσης, παράγει τις εγγραφές WordeSense και Word και δημιουργεί τις εσωτερικές σημασιολογικές συνδέσεις (intralinks) μεταξύ των synset, όπως ορίζονται στο πεδίο ILR. Το αρχείο που εξάγεται ως αποτέλεσμα αυτής της διαδικασίας είναι σε μορφή Ν3. Η κατασκευή των URIs έγινε σύμφωνα με το μοντέλο που χρησιμοποιήθηκε στο Princeton Wordnet 2.0. Για παράδειγμα, αν μια εγγραφή ήταν ένα Synset URI τότε θα έπαιρνε τη μορφή : Τα URIs για τα WordSenses, Words ορίσθηκαν αντίστοιχα: Συγκεκριμένα, η διαδικασία της μετατροπής μέσω του κώδικα ακολουθεί τα εξής βήματα: 1. Ο κώδικας διαβάζει κάθε synset ξεχωριστά. Στην αρχή, διαβάζει τα πρώτα στοιχεία του κάθε synset, όπως είναι τα ID,DEF,USAGE,BCS κ.λπ., και στη συνέχεια δημιουργεί τις αντίστοιχες τριπλέτες, λαμβάνοντας υπόψη τις αντιστοιχίσεις που έχουν οριστεί στις ρυθμίσεις του rdfizer. Στη συνέχεια, το rdfizer διαβάζει κάθε συνώνυμο που συμπεριλαμβάνεται σε κάθε synset και κατασκευάζει τις αντίστοιχες εγγραφές WordSense και Word. Τελικά, διαβάζει το στοιχείο ILR που περιέχει τον τύπο του στοιχείου-παιδί και κάνει δύο πίνακες: ο πρώτος πίνακας έχει τρεις στήλες, όπου η πρώτη περιέχει το synsetid του μητρικού synset, η δεύτερη περιέχει το synsetid που περιλαμβάνει το ILR και η τρίτη περιέχει τη σχέση μεταξύ αυτών των δύο synsets, όπως περιγράφεται από τον τύπο του στοιχείου του ILR.[Δ].Ο δεύτερος πίνακας ενεργεί στην πραγματικότητα ως ένας δείκτης, όπου στην πρώτη στήλη υπάρχει το ID του μητρικού synset και στη δεύτερη το αποδοθέν URI [Ε]. Το πρώτο βήμα τελειώνει αφού διαβαστεί κάθε στοιχείο του synset και μετά η διαδικασία επαναλαμβάνεται για όλα τα synsets του αρχείου XML. 2. Αφού τελειώσει το διάβασμα όλου αρχείου XML, ο κώδικας κατασκευάζει τις συνδέσεις ILR. Η διαδικασία αυτή γίνεται ως εξής: το rdfizer διαβάζει κάθε γραμμή του πίνακα ξεχωριστά, αντιστοιχεί κάθε synsetid με το αντίστοιχο URI και σύμφωνα με τον τύπο σύνδεσης του ILR, βρίσκει την αντίστοιχη ιδιότητα και κατασκευάζει την τριπλέτα. Αυτή η διαδικασία συνεχίζεται μέχρι το τέλος του πίνακα ILRM. 65

66 7 Δημοσιοποίηση Δεδομένων 7.1 Hosting Η διαδικασία μετατροπής των εγγραφών του Ελληνικού WordNet παρήγαγε τριπλέτες. Για την δημοσιοποίηση αυτών των δεδομένων σύμφωνα με τις Αρχές των Διασυνδεμένων Δεδομένων χρησιμοποιήθηκε ένα εικονικό μηχάνημα σε έναν εξυπηρετητή του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης. Στο εξυπηρετητή είναι εγκατεστημένη η διανομή Linux Ubuntu Precise, στον οποίο έχουμε εγκαταστήσει τον εξυπηρετητή Openlink Virtuoso Open-Source στην έκδοση , καθώς και τον εξυπηρετητή Ιστού Apache Ο Virtuosο 39 χρησιμοποιείται ως ολοκληρωμένο Triple Store, δηλαδή ως μια βάση δεδομένων που αποθηκεύει τριπλέτες. Ο Apache χρησιμοποιείται στη διαδικασία της διαπραγμάτευσης περιεχομένου, αποσαφήνιση των URIs και για την ευκολία ανάπτυξης εφαρμογών Ιστού. Η δομή αυτή ακολουθήθηκε με σκοπό τη βέλτιστη αξιοποίηση των δυνατοτήτων των δύο εξυπηρετητών. 7.2 Δημοσιοποίηση τριπλετών Μέσω της κονσόλας isql που παρέχει ο Virtuoso, μπορούμε να μεταφορτώσουμε τις τριπλέτες στον εξυπηρετητή. Η διαδικασία αυτή αποδείχθηκε πολύ χρήσιμη στην αποσφαλμάτωση (debugging) του κώδικα μετατροπής του WordΝet, καθώς με κατάλληλα μηνύματα ο Virtuoso ενημέρωνε για συντακτικά σφάλματα στις τριπλέτες. Μετά την ολοκλήρωση της διαδικασίας μπορούμε να χρησιμοποιήσουμε το SPARQL Endpoint που μας διαθέτει ο Virtuoso που βρίσκεται στη διεύθυνση έτσι ώστε να πραγματοποιήσουμε διάφορα ερωτήματα. Για παράδειγμα: 39 Ο OpenLink Virtuoso server φροντίζει για την επίδοση RDF δεδομένων μέσω μιας διεπιφάνειας Συνδεδεμένων Δεδομένων και ένα SPARQL endpoint. Τα RDF δεδομένα μπορούν είτε να αποθηκευτούν απ ευθείας στο Virtuoso είτε να δημιουργηθούν on the fly από μη-rdf σχεσιακές βάσεις δεδομένων με βάση μια αντιστοίχιση. 66

67 Ερώτηση Συνολικός αριθμός τριπλετών Εντολή SELECT (COUNT(*) AS?no) {?s?p?o } Απάντηση Πίνακας 6. Ερώτημα στη SPARQL που μας δίνει ως απάντηση το πλήθος των τριπλετών Ερώτηση Edge List Εντολή select?vertice1?vertice2?connectiontype where {?vertice1?connectiontype?vertice2 FILTER isiri(?vertice2)} Απάντηση wngre:synset-άνθρακας-noun-1,wngre:synset-πετρέλαιο-noun-0, wngre-onto: holoportionof wngre:synset-χιονονιφάδα-noun1,wngre:/synset-χιόνι-noun-0, wngreonto: holoportionof wngre:synset-θείο-noun-0,wngre:/synset-θειούχο_σουλφίδιο-noun- 0,wngre-onto: holoportionof wngre:synset-χρυσός-noun-1,wngre:synset-συλβανίτης-noun-0, wngreonto: holoportionof Πίνακας 7. Ερώτημα στη SPARQL που μας δίνει ως απάντηση την Edge List Ερώτηση Αναζήτηση βάση συγκεκριμένης λέξης Εντολή select distinct?s?name?type where {?s < < FILTER regex(?name, "θάλασσα", "i") }ORDER BY?name LIMIT 4 Απάντηση wngre:synset-κασπία_θάλασσα-noun-0,"κασπία Θάλασσα",wn20:NounSynset wngre:wordsense-κασπία_θάλασσα-noun-0,"κασπία Θάλασσα",wn20:NounWordSense wngre:word-κασπία_θάλασσα,"κασπία Θάλασσα",wn20:Word wngre:synset-νεκρά_θάλασσα-noun-0,"νεκρά Θάλασσα",wn20:NounSynset Πίνακας 8. Ερώτημα στη SPARQL που μας δίνει ως απάντηση τα στοιχεία μιας συγκεκριμένης λέξης. 67

68 7.3 Αποσαφήνιση URI Η προσβασιμότητα των δεδομένων είναι η βάση του Σημασιολογικού Ιστού. Όπως, αναφέρθηκε, προκειμένου να μπορέσει να συσχετιστεί ένας πόρος, χρειάζεται ένα URI, το οποίο θα πρέπει να είναι προσβάσιμο μέσω του Πρωτοκόλλου Μεταφοράς Υπερκειμένου (HTTP). Έτσι, δημιουργείται ένα dereferenceable URI για κάθε πληροφοριακό πόρο. Με τον τρόπο αυτό, αν ένας χρήστης ή μια μηχανή αναζητήσουν στον Ιστό έναν πόρο χρησιμοποιώντας το προσδιοριστικό του, είναι σε θέση να ανακτήσουν την περιγραφή του πόρου σε αναπαραστάσεις RDF ή HTML. Χρησιμοποιώντας HTTP διαπραγμάτευση περιεχομένου, μπορεί να ανακτηθεί η προτιμότερη μορφή από το διακομιστή ανάλογα με το είδος του πελάτη. Η αναπαράσταση HTML είναι κατάλληλη για ανθρώπινο χρήστη, ενώ η αναπαράσταση RDF είναι κατάλληλη για μηχανές. Κατά την υλοποίηση αυτής της διαδικασίας χρησιμοποιήθηκε η μέθοδος της 303 ανακατεύθυνσης εξαιτίας του μεγάλου όγκου των δεδομένων, έπειτα από κατάλληλες ρυθμίσεις στον Apache. Αυτό επιτυγχάνεται μέσω του module του Apache mod_rewrite και των σχετικών εντολών στο αρχείο.htaccess που βρίσκεται στον κεντρικό φάκελο του εξυπηρετητή. Για παράδειγμα, έστω ότι κάποιος πελάτης ζητάει τον πόρο Τότε, ο Apache αναλύει το GET Request που στέλνει ο χρήστης και διαβάζει το Accept Header. Αν ο πελάτης επιθυμεί να του σταλεί περιεχόμενο σε μορφή HTML ο Apache πραγματοποιεί 303 ανακατεύθυνση στη διεύθυνση: Στη συνέχεια, ο πελάτης στέλνει ένα νέο αίτημα στον εξυπηρετητή με τη νέα διεύθυνση και ο εξυπηρετητής με τη σειρά του στέλνει το ανάλογο περιεχόμενο σε κατάλληλα διαμορφωμένη HTML ιστοσελίδα. Αν ο πελάτης ζητήσει μέσω του Accept Header περιεχόμενο σε μορφή RDF/XML ή άλλη συμβατή, ο εξυπηρετητής κάνει 303 ανακατεύθυνση στη διεύθυνση: Οπότε, ο πελάτης ζητάει τη νέα διεύθυνση και ο εξυπηρετητής στέλνει απάντηση στην επιθυμητή μορφή. 68

69 Πόρος RDF 303 ανακατεύθυνση με διαπραγμάτευση περιεχομένου HTML synset-θάλασσα-noun-1 synset-θάλασσα-noun-1.rdf Σχήμα 17. Παράδειγμα 303 ανακατεύθυνσης Στο σχήμα 18 βλέπουμε ένα δείγμα της HTML αναπαράστασης για τον πόρο: Σχήμα 18. HTML αναπαράσταση για τον πόρο «θάλασσα» 69

70 Η HTML ιστοσελίδα παράγεται δυναμικά μέσω της εφαρμογής Babel. Πρόκειται για μια διεπαφή χρήστη που αναλαμβάνει τη δημοσιοποίηση των RDF δεδομένων σε μορφή HTML. Στην επόμενη εικόνα βλέπουμε τον ίδιο πόρο σε μορφή RDF/XML. Σχήμα 19. RDF αναπαράσταση για τον πόρο «θάλασσα» Στον παρακάτω πίνακα βλέπουμε ποια είναι η τυπική μορφή των URI που ακολουθείται στην υλοποίηση. Τυποποιημένο URI Τύπος πόρου Μοναδικό αναγνωριστικό πόρου HTML αναπαράσταση πόρου Δεδομένα πόρου σε μορφή RDF/XML Δεδομένα πόρου σε μορφή Notation-3 Δεδομένα πόρου σε μορφή Turtle Δεδομένα πόρου σε μορφή Atom Δεδομένα πόρου σε μορφή JSON Δεδομένα πόρου σε μορφή Comma Seperated Values Πίνακας 9. Τυπική μορφή URI ανά τύπο πόρου 70

71 8 Σύνδεση με άλλα Δεδομένα Οι διαδικασίες που περιγράφηκαν στην προηγούμενη ενότητα ικανοποιούν τις τρείς πρώτες αρχές των Διασυνδεμένων Δεδομένων. Όπως αναφέρθηκε όμως, η τέταρτη αρχή, δηλαδή η σύνδεση των δεδομένων με άλλα σύνολα δεδομένων, αποτελεί βασικό κομμάτι στη σύσταση του Ιστού των Δεδομένων. Ο λόγος είναι ότι τα αντικείμενα που περιγράφονται σε ένα σύνολο δεδομένων είναι πιθανόν να περιγράφονται και από άλλους πόρους στον Ιστό των Δεδομένων. Επομένως, αν συνδεθούν μεταξύ τους ο χρήστης θα μπορεί να συνδυάσει και να χρησιμοποιήσει όλες τις πληροφορίες που σχετίζονται με τον συγκεκριμένο πόρο, διευκολύνοντας τις εργασίες του. Η σύνδεση δύο συνόλων δεδομένων μπορεί να γίνει είτε χειρωνακτικά είτε αυτοματοποιημένα. Στην περίπτωση μας, εξαιτίας του μεγάλου όγκου των δεδομένων, επιλέχθηκε ένα εργαλείο αυτοματοποιημένης διασύνδεσης, το Silk 40. Το Silk Link Discovery Framework εντοπίζει τις σχέσεις που υπάρχουν μεταξύ δεδομένων που βρίσκονται σε διαφορετικές πηγές Διασυνδεδεμένων Δεδομένων και δημιουργεί RDF συνδέσμους. Μέσω της δηλωτικής γλώσσας Silk Link Specification Language (Silk-LSL), μπορούν να καθοριστούν ποιοι τύποι RDF συνδέσμων επιθυμούμε να εντοπιστούν μεταξύ των διαφορετικών πηγών δεδομένων, καθώς και ποιες προϋποθέσεις πρέπει να ικανοποιούν τα δεδομένα προκειμένου να διασυνδεθούν. Η πρόσβαση στα σύνολα δεδομένων γίνεται μέσω του πρωτοκόλλου SPARQL, επομένως έχει τη δυνατότητα να κάνει συνδέσμους τόσο σε τοπικούς πόρους δεδομένων όσο και σε απομακρυσμένους μέσω SPΑRQL Endpoint. Τα βασικά χαρακτηριστικά του πλαισίου Silk είναι τα εξής: παρέχει μια ευέλικτη, δηλωτική γλώσσα για τον καθορισμό των προϋποθέσεων σύνδεσης υποστηρίζει τη δημιουργία RDF συνδέσμων (owl:sameas καθώς και άλλους τύπους) μπορεί να χρησιμοποιηθεί σε κατανεμημένα περιβάλλοντα ( με την πρόσβαση σε τοπικά και απομακρυσμένα SPARQL Endpoints μπορεί να χρησιμοποιηθεί σε περιπτώσεις όπου αναμειγνύονται όροι από διαφορετικά λεξιλόγια και όπου δεν υπάρχουν συνεπή RDFS ή OWL σχήματα. δυνατότητα επέκτασης και μεγάλη απόδοση μέσω αποτελεσματικού χειρισμού των δεδομένων. Προκειμένου να εντοπιστούν τα πιθανά σύνολα δεδομένων που σχετίζονται με τα

72 αντικείμενα που προσδιορίζονται μέσα στο Ελληνικό WordNet, χρησιμοποιήθηκε το Datahub του CKAN 41. Πρόκειται για μια ολοκληρωμένη πλατφόρμα δημοσιοποίησης πληροφοριών σχετικά με πληροφοριακούς πόρους. Σε αυτήν την πλατφόρμα, οι πληροφοριακοί πόροι κατατάσσονται ανάλογα με το είδος τους, έτσι αναζητώντας στην κατηγορία των Γλωσσολογικών Δεδομένων εντοπίσαμε πόρους με τους οποίους θα μπορούσε να συνδεθεί το Ελληνικό WordNet. Στην εφαρμογή μας, επιλέχθηκε να γίνουν συνδέσεις με το Αγγλικό WordNet στις εκδόσεις 2.0 και 3.0(WN2.0 και WN3.0). Η σύνδεση έγινε με την RDF ιδιότητα owl:sameas, η οποία χρησιμοποιείται για να δηλώσει ότι δύο URIs αναφέρονται στο ίδιο αντικείμενο. Δηλαδή, κάθε Ελληνική λέξη συνδέθηκε με την αντίστοιχή της στα Αγγλικά. Η μετρική ομοιότητας που χρησιμοποιήθηκε προκειμένου να εντοπιστούν οι ίδιοι πόροι, ήταν το ID της κάθε λέξης. Τα ID των synsets στο Ελληνικό WordNet είναι της μορφής π.χ. ENG n, όπου το πρόθεμα ENG20 δηλώνει ότι είναι όρος που μεταφέρθηκε από το αντίστοιχο synset του Αγγλικού WordNet 2.0. Εάν το πρόθεμα είναι BILI, σημαίνει ότι δημιουργήθηκε από το BalkaNet και δεν υπάρχει ο αντίστοιχος όρος στο Αγγλικό. Ο αριθμός δηλώνει το ID του ίδιου synset στο Αγγλικό WordΝet 2.0. Σχήμα 20. Το synset «άστρο» στο Ελληνικό WordNet έχει ID: ENG n Σχήμα 21. Το synset «star» στο Αγγλικό Wordnet 2.0 έχει ID: ( Το πρώτο 1 δηλώνει ότι είναι ουσιαστικό)

73 Από τα synsets που περιείχε το Ελληνικό Wordnet συνδέθηκαν τα με το Αγγλικό WordNet 2.0. Τα υπόλοιπα 309 synsets δεν αντιστοιχήθηκαν καθώς, όπως αναφέρθηκε, προέρχονταν από το BalkaNet και δεν υπήρχε ο αντίστοιχος όρος. <SYNSET><ID>BILI </ID><POS>n</POS><SYNONYM><LITERAL> συρτάκι<sense>0</sense><lnote>syrta'ki</lnote></literal></synonym ><ILR>ENG n<TYPE>hypernym</TYPE></ILR><DEF>παραδοσιακός ελληνικός χορός, σύγχρονη παραλλαγή του χασάπικου, ο οποίος προέρχεται από χορογραφία της ταινίας "Ζορμπάς"</DEF></SYNSET> <SYNSET><ID>BILI </ID><POS>n</POS><SYNONYM><LITERAL>τας κεμπάπ <SENSE>0</SENSE><LNOTE>tas kempa'p</lnote></literal> </SYNONYM><ILR>ENG n<TYPE>hypernym</TYPE></ILR> <DEF>χοιρινό ή βραδινό κρέας, τηγανισμένο με κρεμμύδι και βρασμένο μετά σε ζωμό ντομάτας, κρασί και μπαχαρικά</def></synset> <SYNSET><ID>BILI </ID><POS>n</POS><SYNONYM><LITERAL> μπατζανάκης<sense>0</sense><lnote>mpatzana'ki_s</lnote></literal></ SYNONYM><DEF>ο σύζυγος μιας γυναίκας σε σχέση με το σύζυγο της αδελφής της</def></synset> Πίνακας 10. Παραδείγματα synset που προέρχονται από το Balkanet και δεν αντιστοιχήθηκαν με το Αγγλικό Wordnet. Η σύνδεση με το Αγγλικό WordNet 3.0 έγινε με διαφορετική μετρική ομοιότητας, γιατί τα synsets στην τελευταία έκδοση δεν είχαν το ίδιο ID με τα αντίστοιχα στην έκδοση 2.0. Όμως, οι δύο αυτές εκδόσεις του Αγγλικού WordNet είχαν ήδη συνδέσμους μεταξύ τους μέσω της ιδιότητας owl:sameas. Έτσι, θέσαμε νέα μετρική ομοιότητας στο Silk τέτοια, ώστε για κάθε ένα synset του Ελληνικού WordNet να ελέγχει αν υπάρχει owl:sameas σύνδεσμος σε κάποιο synset στο Αγγλικό WN2.0 και στη συνέχεια αν υπάρχει κάποιο synset στο WN3.0 που αντιστοιχίζεται μέσω της ίδιας ιδιότητας με κάποιο synset στο WN2.0, να δημιουργεί σύνδεσμο owl:sameas μεταξύ του synset στο Ελληνικό WordNet με το synset στο WN3.0. Τελικά, με το Αγγλικό Wordnet 3.0 έγιναν συνδέσεις. Η διαφορά οφείλεται στο γεγονός ότι μέχρι την στιγμή που είχε υλοποιηθεί η συγκεκριμένη διαδικασία αντιστοίχισης δεν είχαν γίνει όλες οι συνδέσεις μεταξύ των εκδόσεων 2.0 και 3.0. Τo Αγγλικό WordNet 3.0 έχει συνδεθεί με πολλά WordNets άλλων γλωσσών, καθώς και με άλλους γλωσσολογικούς πόρους. Έτσι εφαρμόζοντας την ίδια τεχνική αντιστοίχισης με αυτήν που ακολουθήθηκε για να συνδεθεί το Ελληνικό με την έκδοση 3.0 του Αγγλικού WordNet μπορούμε να συνδέσουμε το Ελληνικό WordNet και με περισσότερα σύνολα δεδομένων. 73

74 Στην εικόνα που ακολουθεί φαίνεται μια περιγραφή του πόρου «άστρο» από το σύνολο δεδομένων του Ελληνικού WordΝet, όπου φαίνεται ο σύνδεσμος owl:sameas να συνδέει τον πόρο αυτό με τα URI: και οι οποίοι ταυτοποιούν επίσης τον πόρο «άστρο» στο Αγγλικό Wordnet 2.0 και 3.0 αντίστοιχα. Σχήμα 22. Περιγραφή του πόρου «άστρο» μετά τη σύνδεση. Ο πρώτος σύνδεσμος owl:sameas συνδέει το synset με την έκδοση 2.0 και μας επιστρέφει την αναπαράσταση του synset σε μορφή HTML, ενώ ο δεύτερος σύνδεσμος owl:sameas συνδέει το synset με το αντίστοιχο στην έκδοση 3.0 και μας επιστρέφει την αναπαράσταση του synset σε μορφή HTML ή RDF/XML. Η εφαρμογή που έγινε για το Ελληνικό WordNet δίνει τη δυνατότητα αναπαράστασης ενός synset σε πολλές μορφές κωδικοποίησης : HTML, RDF/XML, CSV, N-Triples, N3, Turtle και JSON. Μετά την ολοκλήρωση των συνδέσεων των synsets του Ελληνικού WordΝet και με εξωτερικούς πόρους, μπορούμε να χαρακτηρίσουμε πλέον τα δεδομένα ως Ανοικτά 74

Ερευνητικό Πρόγραµµα BalkaNet

Ερευνητικό Πρόγραµµα BalkaNet Ερευνητικό Πρόγραµµα BalkaNet 1 Ερευνητικό Πρόγραµµα BalkaΝet Χρηµατοδοτούµενο από την ΕΕ πρόγραµµα (IST-2000-29388) µε σκοπό την ανάπτυξη ενός πολύγλωσσου σηµασιολογικού λεξικού σύµφωνα µε τις αρχές του

Διαβάστε περισσότερα

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων Έργο: Τίτλος Υποέργου: «ΘΑΛΗΣ: Ενίσχυση της Διεπιστημονικής ή και Διιδρυματικής έρευνας και καινοτομίας με δυνατότητα προσέλκυσης ερευνητών υψηλού επιπέδου από το εξωτερικό μέσω της διενέργειας βασικής

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Ημερίδα παρουσίασης CLARIN-EL 1/10/2010 Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" ΧΑΡΤΟΓΡΑΦΗΣΗ ΧΩΡΟΥ ΓΤ ΓΙΑ ΚΑΕ Στο

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ WordNet Σημασιολογικά Δίκτυα Ένα δίκτυο που αναπαριστά συσχετίσεις μεταξύ εννοιών. Οι κορυφές παριστάνουν έννοιες και οι ακμές σημασιολογικές

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Μεταπτυχιακή Διατριβή

Μεταπτυχιακή Διατριβή Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική» Μεταπτυχιακή Διατριβή Τίτλος Διατριβής Υπηρεσία Αυτόματης Ανάκτησης Συνδεδεμένης Δομής Θεματικών Επικεφαλίδων μέσω

Διαβάστε περισσότερα

Διαδίκτυο είναι ένα σύστημα διασυνδεδεμένων δικτύων και υπολογιστών που απλώνεται σε όλο τον κόσμο και έχουν πρόσβαση σε αυτό εκατομμύρια χρήστες.

Διαδίκτυο είναι ένα σύστημα διασυνδεδεμένων δικτύων και υπολογιστών που απλώνεται σε όλο τον κόσμο και έχουν πρόσβαση σε αυτό εκατομμύρια χρήστες. Διαδίκτυο είναι ένα σύστημα διασυνδεδεμένων δικτύων και υπολογιστών που απλώνεται σε όλο τον κόσμο και έχουν πρόσβαση σε αυτό εκατομμύρια χρήστες. Για να επιτευχθεί αυτό όλοι οι υπολογιστές και τα επιμέρους

Διαβάστε περισσότερα

ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ. Υποχρεωτικής επιλογής (Κατεύθυνσης)

ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ. Υποχρεωτικής επιλογής (Κατεύθυνσης) ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ Ακαδημαϊκή Μονάδα: Τομέας: Εργαστήριο/Σπουδαστήριο/Κλινική: Τίτλος Μαθήματος / Θέμα Εργασίας: Κωδικός Μαθήματος: Τύπος Μαθήματος: ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Πληροφοριακά Περιβάλλοντα

Διαβάστε περισσότερα

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 6 195 Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων Το RDF Το Warwick Framework 196 1 Resource Data Framework RDF Τα πολλαπλά και πολλαπλής προέλευσης σχήµατα παραγωγής δηµιουργούν την ανάγκη δηµιουργίας

Διαβάστε περισσότερα

Σχεδίαση και Ανάπτυξη Ιστότοπων

Σχεδίαση και Ανάπτυξη Ιστότοπων Σχεδίαση και Ανάπτυξη Ιστότοπων Ιστορική Εξέλιξη του Παγκόσμιου Ιστού Παρουσίαση 1 η 1 Βελώνης Γεώργιος Καθηγητής Περιεχόμενα Τι είναι το Διαδίκτυο Βασικές Υπηρεσίες Διαδικτύου Προηγμένες Υπηρεσίες Διαδικτύου

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 1: Σημασιολογία και Μεταδεδομένα Μ.Στεφανιδάκης 10-2-2017 Η αρχή: Το όραμα του Σημασιολογικού Ιστού Tim Berners-Lee, James Hendler and Ora Lassila, The Semantic

Διαβάστε περισσότερα

Ψηφίδες για τη Νεοελληνική Γλώσσα

Ψηφίδες για τη Νεοελληνική Γλώσσα [1] Ψηφίδες για τη Νεοελληνική Γλώσσα Παρουσίαση και ενδεικτικά παραδείγματα εκπαιδευτικής αξιοποίησης Συντάκτρια: Μαρία Αλεξίου (εκπαιδευτικός ΠΕ02, ΜΔΕ Θεωρητικής Γλωσσολογίας, συντονίστρια του ψηφιακού

Διαβάστε περισσότερα

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. ΚΕΦΑΛΑΙΟ 9 Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. Το 1966 αρχίζει ο σχεδιασμός του ARPANET, του πρώτου

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 1: Σημασιολογία και Μεταδεδομένα Μ.Στεφανιδάκης 5-2-2016. Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.

Διαβάστε περισσότερα

Διαχείριση, Δημοσίευση και Διάθεση Ανοικτών Εκπαιδευτικών Πόρων

Διαχείριση, Δημοσίευση και Διάθεση Ανοικτών Εκπαιδευτικών Πόρων Διαχείριση, Δημοσίευση και Διάθεση Ανοικτών Εκπαιδευτικών Πόρων Ο ΡΟΛΟΣ ΤΩΝ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΤΩΝ ΒΙΒΛΙΟΘΗΚΩΝ Δρ. Χαράλαμπος Μπράτσας - OKGR CEO, Σωτήριος Καραμπατάκης - OKGR Open G.L.A.M.

Διαβάστε περισσότερα

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία Σοφία Ζαπουνίδου, Αρχειονόμος Βιβλιοθηκονόμος, Πανεπιστήμιο Θεσσαλίας Κεντρική

Διαβάστε περισσότερα

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών κεφάλαιο 1 Βασικές Έννοιες Επιστήμη 9 1Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ Στόχοι Στόχος του κεφαλαίου είναι οι μαθητές: να γνωρίσουν βασικές έννοιες και τομείς της Επιστήμης. Λέξεις κλειδιά Επιστήμη

Διαβάστε περισσότερα

Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0. Εφαρμογές Πληροφορικής Κεφ. 9 Καραμαούνας Πολύκαρπος 1

Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0. Εφαρμογές Πληροφορικής Κεφ. 9 Καραμαούνας Πολύκαρπος 1 Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0 Καραμαούνας Πολύκαρπος 1 9.1 Ιστορικά Στοιχεία Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο και ήταν απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. Το 1966

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el Σαράντος Καπιδάκης 1, Στέλιος Πιπερίδης 2, Πένυ Λαμπροπούλου 2, Μαρία Γαβριηλίδου 2 ( 1 Ιόνιο Πανεπιστήμιο, 2 Ε.Κ. Αθηνά / ΙΕΛ)

Διαβάστε περισσότερα

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση Οι συµφράσεις είναι ακολουθίες όρων οι οποίοι συνεµφανίζονται σε κείµενο µε µεγαλύτερη συχνότητα από εκείνη της εµφάνισης

Διαβάστε περισσότερα

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής: Τρόπος εξέτασης των πανελλαδικά εξεταζόμενων μαθημάτων Τα θέματα των πανελλαδικά εξεταζόμενων μαθημάτων λαμβάνονται από την ύλη που ορίζεται ως εξεταστέα για κάθε μάθημα κατά το έτος που γίνονται οι εξετάσεις.

Διαβάστε περισσότερα

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Σοφιανόπουλος Σωκράτης Ινστιτούτο Επεξεργασίας του Λόγου Δομή παρουσίασης Τι είναι η Μηχανική Μετάφραση (Machine Translation) Ιστορική αναδρομή Είδη συστημάτων

Διαβάστε περισσότερα

Εννοιολογική Ομοιογένεια

Εννοιολογική Ομοιογένεια Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας Βιβλιοθηκονομίας Εργαστήριο Ψηφιακών Βιβλιοθηκών και Ηλεκτρονικής Δημοσίευσης Εννοιολογική Ομοιογένεια Αξιοποίηση Ταξινομικών Συστημάτων Γεωργία Προκοπιάδου, Διονύσης

Διαβάστε περισσότερα

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

Αθηνά - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης "Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Προκήρυξη Υποτροφιών To Ινστιτούτο Πληροφοριακών Συστημάτων

Διαβάστε περισσότερα

Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014

Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014 Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014 Ανοικτά και Συνδεδεμένα Δεδομένα Ανοικτά Δεδομένα Πληροφορίες, δημόσιες ή άλλες, στις

Διαβάστε περισσότερα

Σχεδιασµός Ανάπτυξη Οντολογίας

Σχεδιασµός Ανάπτυξη Οντολογίας Σχεδιασµός Ανάπτυξη Οντολογίας ΈλεναΜάντζαρη, Γλωσσολόγος, Ms.C. ΙΑΤΡΟΛΕΞΗ: Ανάπτυξη Υποδοµής Γλωσσικής Τεχνολογίας για το Βιοϊατρικό Τοµέα Τι είναι η οντολογία; Μιαοντολογίαείναιέναλεξικόόρωνπου διατυπώνονται

Διαβάστε περισσότερα

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Λίνα Μπουντούρη - Μανόλης Γεργατσούλης Ιόνιο Πανεπιστήμιο 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών Διαδίκτυο και Επίπεδα ετερογένειας δεδομένων

Διαβάστε περισσότερα

Κεφάλαιο 29. Τεχνητή Νοημοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου

Κεφάλαιο 29. Τεχνητή Νοημοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Κεφάλαιο 29 Σημασιολογικό Διαδίκτυο "The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation."

Διαβάστε περισσότερα

Βιβλιογραφία κοινωνικής έρευνας

Βιβλιογραφία κοινωνικής έρευνας Εισαγωγή στην κοινωνική έρευνα Earl Babbie Κεφάλαιο 14 Βιβλιογραφία κοινωνικής έρευνας 14-1 Σύνοψη κεφαλαίου Ανάγνωση κοινωνικών ερευνών Συνετή χρήση του διαδικτύου Συγγραφή κοινωνικών ερευνών Η δεοντολογία

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13. Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13. Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15 ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος... 13 Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15 1.1 Εισαγωγή... 16 1.2 Διαδίκτυο και Παγκόσμιος Ιστός Ιστορική αναδρομή... 17 1.3 Αρχές πληροφοριακών συστημάτων

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος

Διαβάστε περισσότερα

Βάσεις δεδομένων και Microsoft Access

Βάσεις δεδομένων και Microsoft Access Περιεχόμενα Κεφάλαιο 1 Βάσεις δεδομένων και Microsoft Access... 7 Κεφάλαιο 2 Microsoft Access 2010... 16 Κεφάλαιο 3 Σχεδιασμός βάσης δεδομένων και δημιουργία πίνακα... 27 Κεφάλαιο 4 Προβολές πινάκων και

Διαβάστε περισσότερα

Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη

Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη 19ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών, 3-5 Νοεμβρίου 2010, Αθήνα Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη Άννα Μάστορα (1) Μαρία Μονόπωλη (2) Σαράντος Καπιδάκης

Διαβάστε περισσότερα

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό Αλέξανδρος Βαλαράκος (alexv@iit.demokritos.gr) (alexv@aegean.gr) Υποψήφιος ιδάκτορας Τµήµα Μηχανικών Υπολογιστικών και Πληροφοριακών Συστηµάτων.

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού Προγράμματα για τη δημιουργία και διαχείριση θησαυρού Το λογισμικό θησαυρών μπορεί να προορίζεται για έναν υπολογιστή ή για μεγάλο σύστημα, μπορεί να αφορά στην κατασκευή και συντήρηση του θησαυρού ή στην

Διαβάστε περισσότερα

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 Ανάπτυξη Οντολογίας Βιοϊατρικών Όρων Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 www.iatrolexi.cti.gr 1 Ερευνητικό Ακαδημαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών (ΕΑΙΤΥ) Σελίδα 1 Ημερομηνία:

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 6 ΟΥ ΚΕΦΑΛΑΙΟΥ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ 6.1 Τι ονοµάζουµε πρόγραµµα υπολογιστή; Ένα πρόγραµµα

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ Περιεχόμενα ΠΡΟΛΟΓΟΣ 13 1. ΛΕΞΙΛΟΓΙΟ: ΕΙΣΑΓΩΓΙΚΕΣ ΠΑΡΑΤΗΡΗΣΕΙΣ ΚΑΙ ΔΙΔΑΚΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ 17 ΣΗΜΑΝΤΙΚΗ ΟΡΟΛΟΓΙΑ ΚΕΦΑΛΑΙΟΥ 17 1.1 Η αξία του λεξιλογίου και η θέση του στο γλωσσικό μάθημα 18 1.2 Εμπόδια στη

Διαβάστε περισσότερα

ΑΡΗΣ ΑΣΛΑΝΙΔΗΣ Φυσικός, M.Ed. Εκπαιδευτικός-Συγγραφέας

ΑΡΗΣ ΑΣΛΑΝΙΔΗΣ Φυσικός, M.Ed. Εκπαιδευτικός-Συγγραφέας ΑΡΗΣ ΑΣΛΑΝΙΔΗΣ Φυσικός, M.Ed. Εκπαιδευτικός-Συγγραφέας Ομιλία με θέμα: ΕΡΕΥΝΗΤΙΚΕΣ ΕΡΓΑΣΙΕΣ & ΦΥΣΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΕΝΩΣΗ ΕΛΛΗΝΩΝ ΦΥΣΙΚΩΝ Εκδήλωση αριστούχων μαθητών: Οι μαθητές συναντούν τη Φυσική και η Φυσική

Διαβάστε περισσότερα

Μεταδεδομένα στο Ψηφιακό περιβάλλον

Μεταδεδομένα στο Ψηφιακό περιβάλλον Μεταδεδομένα στο Ψηφιακό περιβάλλον Μονάδα Αριστείας Ανοικτού Λογισμικού - Χαροκόπειο Πανεπιστήμιο Ψηφιακό Τεκμήριο Οτιδήποτε υπάρχει σε ηλεκτρονική μορφή και μπορεί να προσπελαστεί μέσω υπολογιστή Μεταδεδομένα

Διαβάστε περισσότερα

Επέκταση του Ελληνικού WordNet µε Όρους Πληροφορικής και Σηµασιολογικές Σχέσεις Βασισµένες σε Μοντέλο Κατανόησης Κειµένου

Επέκταση του Ελληνικού WordNet µε Όρους Πληροφορικής και Σηµασιολογικές Σχέσεις Βασισµένες σε Μοντέλο Κατανόησης Κειµένου Επέκταση του Ελληνικού WordNet µε Όρους Πληροφορικής και Σηµασιολογικές Σχέσεις Βασισµένες σε Μοντέλο Κατανόησης Κειµένου Παναγιώτης Μπλίτσας 1 και Μαρία Γρηγοριάδου 2 1 ΠΜΣ «Βασική & Εφαρµοσµένη Γνωσιακή

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Μοντέλο Κατανόησης Κειµένου

Μοντέλο Κατανόησης Κειµένου Μοντέλο Κατανόησης Κειµένου Σύµφωνα µε το µοντέλο, το άτοµο που διαβάζει ένα κείµενο, κατασκευάζει τη Μικροδοµή και τη Μακροδοµή του. Γνωστικές κατηγορίες αντικειµένων: (1) Άτοµο: Ο όρος χρησιµοποιείται

Διαβάστε περισσότερα

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη Μοντέλα γλωσσικής επεξεργασίας: σύνταξη Μάθημα: Εισαγωγή στις επιστήμες λόγου και ακοής Ιωάννα Τάλλη, Ph.D. Σύνταξη Είναι ο τομέας της γλώσσας που μελετά τη δομή των προτάσεων, δηλαδή ποια είναι η σειρά

Διαβάστε περισσότερα

Επιστήμη της Πληροφορικής. Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4

Επιστήμη της Πληροφορικής. Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4 Επιστήμη της Πληροφορικής Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4 Η πληροφορική είναι η επιστήμη που ερευνά την κωδικοποίηση, διαχείριση και μετάδοση συμβολικών αναπαραστάσεων πληροφοριών. Επίσης

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 6 ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ. 03/01/09 Χαράλαμπος Τζόκας 1

ΚΕΦΑΛΑΙΟ 6 ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ. 03/01/09 Χαράλαμπος Τζόκας 1 ΚΕΦΑΛΑΙΟ 6 ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ 03/01/09 Χαράλαμπος Τζόκας 1 Πρόγραμμα - Προγραμματισμός Πρόγραμμα: Σύνολο εντολών που πρέπει να δοθούν στον Υπολογιστή, ώστε να υλοποιηθεί ο αλγόριθμος της επίλυσης

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Σημασιολογική Συσταδοποίηση Αντικειμένων Με Χρήση Οντολογικών Περιγραφών.

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

Περί της Ταξινόμησης των Ειδών

Περί της Ταξινόμησης των Ειδών Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Tel.: +30 2310998051, Ιστοσελίδα: http://users.auth.gr/theodoru Περί της Ταξινόμησης

Διαβάστε περισσότερα

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ: ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: Υπολογιστικά Συστήµατα & Τεχνολογίες Πληροφορικής ΣΥΓΓΡΑΦΕΑΣ: Γιώργος Γιαννόπουλος, διδακτορικός φοιτητής

Διαβάστε περισσότερα

Πίνακας Προτεινόμενων Πτυχιακών Εργασιών

Πίνακας Προτεινόμενων Πτυχιακών Εργασιών ΕΝ4.0-Α Έκδοση η / 7..06 ΣΧΟΛΗ: ΣΔΟ ΤΜΗΜΑ: Βιβλιοθηκονομίας και Συστημάτων Πληροφόρησης ΤΟΜΕΑΣ: Τομέας Μαθημάτων Γενικής Παιδείας και Τεχνολογιών Πληροφόρησης Α/Α Τίτλος Θέματος Μέλος Ε.Π. Σύντομη Περιγραφή

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 5: Resource Description Framework (RDF) Μ.Στεφανιδάκης 16-3-2015. Τα επίπεδα του Σημασιολογικού Ιστού RDF: Το κύριο πρότυπο του Σημασιολογικού Ιστού, χρησιμοποιεί

Διαβάστε περισσότερα

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Μεταπτυχιακό Δίπλωμα Ειδίκευσης Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Δρ. Κακαρόντζας Γεώργιος Επίκουρος Καθηγητής Τμ. Μηχανικών Πληροφορικής Τ.Ε. Μηχανική Λογισμικού για Διαδικτυακές

Διαβάστε περισσότερα

Γλώσσα και Γλωσσική Τεχνολογία στην Ελλάδα

Γλώσσα και Γλωσσική Τεχνολογία στην Ελλάδα Γλώσσα και Γλωσσική Τεχνολογία στην Ελλάδα Μαρία Γαβριηλίδου ΙΕΛ/ΕΚ «Αθηνά» Κοινοπραξία «Ευρωπαϊκός Συντονισμός Γλωσσικών Πόρων» Εθνικό Σημείο Επαφής για την Ελλάδα Πολυγλωσσική Ελλάδα (1) Η Γλωσσική Τεχνολογία

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας.

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας. ΚΕΦΑΛΑΙΟ 1 Εισαγωγή Η Μεθοδολογία της Έρευνας (research methodology) είναι η επιστήμη που αφορά τη μεθοδολογία πραγματοποίησης μελετών με συστηματικό, επιστημονικό και λογικό τρόπο, με σκοπό την παραγωγή

Διαβάστε περισσότερα

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000)

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000) Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000) Πρόκειται για την έρευνα που διεξάγουν οι επιστήμονες. Είναι μια πολύπλοκη δραστηριότητα που απαιτεί ειδικό ακριβό

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων

Τεχνολογία Πολυμέσων Τεχνολογία Πολυμέσων Γιώργος Τζιρίτας Τμήμα Επιστήμης Υπολογιστών http://www.csd.uoc.gr/~tziritas Άνοιξη 2017 1 Πολυμέσα Εικόνα Βίντεο Ήχος Υπερ/κείμενο Γραφικά Επεξεργασία φυσικής γλώσσας Διαδραστικές

Διαβάστε περισσότερα

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος. Γλωσσική Τεχνολογία Εισαγωγή 2015 16 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/ Τι θα ακούσετε Εισαγωγή στη γλωσσική τεχνολογία. Ύλη και οργάνωση του μαθήματος. Προαπαιτούμενες γνώσεις και άλλα προτεινόμενα

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

Σχεδιαστικά Προγράμματα Επίπλου

Σχεδιαστικά Προγράμματα Επίπλου Σχεδιαστικά Προγράμματα Επίπλου Καθηγήτρια ΦΕΡΦΥΡΗ ΣΩΤΗΡΙΑ Τμήμα ΣΧΕΔΙΑΣΜΟΥ & ΤΕΧΝΟΛΟΓΙΑΣ ΞΥΛΟΥ - ΕΠΙΠΛΟΥ Σχεδιαστικά Προγράμματα Επίπλου Η σχεδίαση με τον παραδοσιακό τρόπο απαιτεί αυξημένο χρόνο, ενώ

Διαβάστε περισσότερα

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΕΝΟΤΗΤΑ 1 : ΕΙΣΑΓΩΓΗ Διάλεξη 1: Γενικά για το ΓΣΠ, Ιστορική αναδρομή, Διαχρονική εξέλιξη Διάλεξη 2 : Ανάλυση χώρου (8/4/2013) Διάλεξη 3: Βασικές έννοιες των Γ.Σ.Π.. (8/4/2013)

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα 6: Υπερκείμενο - Υπερμέσα. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Τεχνολογία Πολυμέσων. Ενότητα 6: Υπερκείμενο - Υπερμέσα. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ Τεχνολογία Πολυμέσων Ενότητα 6: Υπερκείμενο - Υπερμέσα Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό

Διαβάστε περισσότερα

Γλώσσες υψηλού επιπέδου Περιέχουν περισσότερες εντολές για την εκτέλεση πολύπλοκων εργασιών Τα προγράµµατα µεταφράζονται σε γλώσσα µηχανής είτε από το

Γλώσσες υψηλού επιπέδου Περιέχουν περισσότερες εντολές για την εκτέλεση πολύπλοκων εργασιών Τα προγράµµατα µεταφράζονται σε γλώσσα µηχανής είτε από το Σηµαντικά σηµεία κεφαλαίου Τα τρία στάδια επίλυσης ενός προβλήµατος: Ακριβής προσδιορισµό του προβλήµατος Ανάπτυξη του αντίστοιχου αλγορίθµου. ιατύπωση του αλγορίθµου σε κατανοητή µορφή από τον υπολογιστή.

Διαβάστε περισσότερα

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους Επιμέλεια: Καρανικολάου Θεοδώρα Επιβλέπων καθηγητής: Δενδρινός Μάρκος Αθήνα, 2017 Σκοπός Στόχος της πτυχιακής

Διαβάστε περισσότερα

Διαχείριση Πολιτισμικών Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων Διαχείριση Πολιτισμικών Δεδομένων Ενότητα 6: Εισαγωγή στις Βάσεις Δεδομένων Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

Λίγα λόγια από το συγγραφέα... 7. 91 Βάσεις δεδομένων και Microsoft Access... 9. 92 Microsoft Access... 22

Λίγα λόγια από το συγγραφέα... 7. 91 Βάσεις δεδομένων και Microsoft Access... 9. 92 Microsoft Access... 22 ΕΝΟΤΗΤΑ 5 Περιεχόμενα Λίγα λόγια από το συγγραφέα... 7 91 Βάσεις δεδομένων και Microsoft Access... 9 92 Microsoft Access... 22 93 Το σύστημα Βοήθειας του Microsoft Office... 32 94 Σχεδιασμός βάσης δεδομένων

Διαβάστε περισσότερα

Τεχνολογία ανάπτυξης νέων ιστοσελίδων στο Semantic Web.

Τεχνολογία ανάπτυξης νέων ιστοσελίδων στο Semantic Web. Τεχνολογία ανάπτυξης νέων ιστοσελίδων στο Semantic Web. ΒΕΖΕΡΗΣ ΔΗΜΗΤΡΙΟΣ Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Η/Υ Δημοκρίτειο Πανεπιστήμιο Θράκης Λευκίππου 6, 67100 Ξάνθη ΕΛΛΑΔΑ leader@cosmos4u.com,

Διαβάστε περισσότερα

Ανάλυση ποιοτικών δεδομένων

Ανάλυση ποιοτικών δεδομένων Ανάλυση ποιοτικών δεδομένων Σύνοψη κεφαλαίου Σύνδεση θεωρίας και ανάλυσης Επεξεργασία ποιοτικών δεδομένων Δεοντολογία και ανάλυση ποιοτικών δεδομένων Αξιολογώντας την ποιότητα των ποιοτικών ερευνών Εισαγωγή

Διαβάστε περισσότερα

6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)»

6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)» 6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)» Ένα µεγάλο µέρος του Προγράµµατος Σπουδών της Σχολής ΑΤΜ αφορά την εκπαίδευση σε ποικίλα αντικείµενα που άπτονται

Διαβάστε περισσότερα

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων YouTube Ιδρύθηκε το 2005 Στόχος του ήταν να δημιουργήσει μία παγκόσμια κοινότητα Βάση δεδομένων βίντεο Μέσα σε ένα χρόνο από τη δημιουργία

Διαβάστε περισσότερα

Σε παγκόσμιο επίπεδο, οιμηχανέςαναζήτησηςτουinternet αναπτύχθηκαν για να κάνουν αναζήτηση πληροφοριών σε πολλαπλές τοποθεσίες ιστού.

Σε παγκόσμιο επίπεδο, οιμηχανέςαναζήτησηςτουinternet αναπτύχθηκαν για να κάνουν αναζήτηση πληροφοριών σε πολλαπλές τοποθεσίες ιστού. Τζίτζικας Αγαπητός Τζίτζικας Αγαπητός Σε παγκόσμιο επίπεδο, οιμηχανέςαναζήτησηςτουinternet αναπτύχθηκαν για να κάνουν αναζήτηση πληροφοριών σε πολλαπλές τοποθεσίες ιστού. Δυστυχώς, αυτές οι μηχανές αναζήτησης

Διαβάστε περισσότερα

Σεμινάριο Βιβλιογραφίας στους προπτυχιακούς φοιτητές

Σεμινάριο Βιβλιογραφίας στους προπτυχιακούς φοιτητές Σεμινάριο Βιβλιογραφίας στους προπτυχιακούς φοιτητές των Τμημάτων Χημείας και Επιστήμης &Τεχνολογίας Υλικών Ηράκλειο Ακαδημαϊκό Έτος 2016-7 Πρόσβαση στην επιστημονική πληροφορία Σημείο εκκίνησης http://www.lib.uoc.gr

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 4: Χρησιμοποιώντας Ενιαία Αναγνωριστικά URIs και IRIs Μ.Στεφανιδάκης 28-2-2016. Η έννοια της οντότητας Στον Σημασιολογικό Ιστό οι τριάδες μπορούν να εκληφθούν ως

Διαβάστε περισσότερα

Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους. του Σταύρου Κοκκαλίδη. Μαθηματικού

Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους. του Σταύρου Κοκκαλίδη. Μαθηματικού Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους του Σταύρου Κοκκαλίδη Μαθηματικού Διευθυντή του Γυμνασίου Αρχαγγέλου Ρόδου-Εκπαιδευτή Στα προγράμματα Β Επιπέδου στις ΤΠΕ Ορισμός της έννοιας του σεναρίου.

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

Ενιαία Αναζήτηση σε ψηφιακό πολιτιστικό περιεχόμενο

Ενιαία Αναζήτηση σε ψηφιακό πολιτιστικό περιεχόμενο Εθνικό Κέντρο Τεκμηρίωσης Ενιαία Αναζήτηση σε ψηφιακό πολιτιστικό περιεχόμενο Χάρη Γεωργιάδης, Ph.D. Senior Software Engineer EKT hgeorgiadis@ekt.gr Πιστοποίηση, διασφάλιση & ευρεία διάθεση έγκριτου ελληνικού

Διαβάστε περισσότερα

ΤΕΙ ΗΠΕΙΡΟΥ ΣΧΟΛΗ. ΤΜΗΜΑ ΠΜΣ.. ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Ο ΤΙΤΛΟΣ ΤΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΜΕ ΚΕΦΑΛΑΙΑ ΓΡΑΜΜΑΤΑ ΚΑΙ ΣΤΟΙΧΙΣΗ ΣΤΟ ΚΕΝΤΡΟ

ΤΕΙ ΗΠΕΙΡΟΥ ΣΧΟΛΗ. ΤΜΗΜΑ ΠΜΣ.. ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Ο ΤΙΤΛΟΣ ΤΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΜΕ ΚΕΦΑΛΑΙΑ ΓΡΑΜΜΑΤΑ ΚΑΙ ΣΤΟΙΧΙΣΗ ΣΤΟ ΚΕΝΤΡΟ Εξώφυλλο ΤΕΙ ΗΠΕΙΡΟΥ ΣΧΟΛΗ. ΤΜΗΜΑ ΠΜΣ.. ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Ο ΤΙΤΛΟΣ ΤΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΜΕ ΚΕΦΑΛΑΙΑ ΓΡΑΜΜΑΤΑ ΚΑΙ ΣΤΟΙΧΙΣΗ ΣΤΟ ΚΕΝΤΡΟ Όνομα Επίθετο φοιτητή/τριας [Με πεζά στοιχεία και στοίχιση

Διαβάστε περισσότερα

8.2 Εννοιολογική χαρτογράφηση

8.2 Εννοιολογική χαρτογράφηση 8.2 Εννοιολογική χαρτογράφηση Η εννοιολογική χαρτογράφηση (concept mapping) αποτελεί ένα μέσο για την αναπαράσταση των γνώσεων, των ιδεών, των εννοιών προς οικοδόμηση (Jonassen et al. 1998), των νοητικών

Διαβάστε περισσότερα

5. Λόγος, γλώσσα και ομιλία

5. Λόγος, γλώσσα και ομιλία 5. Λόγος, γλώσσα και ομιλία Στόχοι της γλωσσολογίας Σύμφωνα με τον Saussure, βασικός στόχος της γλωσσολογίας είναι να περιγράψει τις γλωσσικές δομές κάθε γλώσσας με στόχο να διατυπώσει θεωρητικές αρχές

Διαβάστε περισσότερα

Διαχείριση οντολογιών: μελέτη και εμβάθυνση στα βασικά προβλήματα που την αφορούν και παρουσίαση υπαρχουσών βιβλιοθηκών οντολογιών

Διαχείριση οντολογιών: μελέτη και εμβάθυνση στα βασικά προβλήματα που την αφορούν και παρουσίαση υπαρχουσών βιβλιοθηκών οντολογιών 15ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΑΚΑΔΗΜΑΪΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ Διαχείριση οντολογιών: μελέτη και εμβάθυνση στα βασικά προβλήματα που την αφορούν και παρουσίαση υπαρχουσών βιβλιοθηκών οντολογιών ΓΑΪΤΑΝΟΥ ΠΑΝΩΡΑΙΑ gaitanou@benaki.gr

Διαβάστε περισσότερα

Όμως πώς θα ορίζαμε την έννοια πληροφορία; Πώς την αντιλαμβανόμαστε;

Όμως πώς θα ορίζαμε την έννοια πληροφορία; Πώς την αντιλαμβανόμαστε; 1.1 ΕΙΣΑΓΩΓΗ Η πληροφορία αποτελεί το βασικό εργαλείο άσκησης της ιατρικής επιστήμης. Η διάγνωση, η θεραπεία, η πρόληψη και η διοίκηση της υγείας βασίζονται στην απόκτηση, διαχείριση και επεξεργασία της

Διαβάστε περισσότερα

Ιόνιο Πανεπιστήμιο - Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας

Ιόνιο Πανεπιστήμιο - Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Μεταδεδομένα για Ψηφιακές Βιβλιοθήκες Γ. Δ. Μπώκος Μεταδεδομένα: Ο όρος Μεταδεδομένα: «Δεδομένα σχετικά με Δεδομένα» Αναλυτικότερα: «Το σύνολο όσων θα μπορούσε να πει κανείς για ένα πληροφοριακό αντικείμενο

Διαβάστε περισσότερα

Περιεχόμενα. 2 Αριθμητικά συστήματα

Περιεχόμενα. 2 Αριθμητικά συστήματα Περιεχόμενα Πρόλογος 1 Εισαγωγή 1.1 Το μοντέλο Turing 1.2 Το μοντέλο von Neumann 1.3 Συστατικά στοιχεία υπολογιστών 1.4 Ιστορικό 1.5 Κοινωνικά και ηθικά ζητήματα 1.6 Η επιστήμη των υπολογιστών ως επαγγελματικός

Διαβάστε περισσότερα

Τι είναι το αρχείο Γεωργακά;

Τι είναι το αρχείο Γεωργακά; Τι είναι το αρχείο Γεωργακά; 0 Είναι ένα λεξικογραφικό αρχείο δυόμιση εκατομμυρίων δελτίων, προϊόν συστηματικής και ακαταπόνητης αποδελτίωσης της νέας ελληνικής γλώσσας που πραγματοποιήθηκε υπό την εποπτεία

Διαβάστε περισσότερα

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή Το λογισμικό της εννοιολογικής χαρτογράυησης Inspiration Η τεχνική της εννοιολογικής χαρτογράφησης αναπτύχθηκε από τον καθηγητή Joseph D. Novak, στο πανεπιστήμιο του Cornell. Βασίστηκε στις θεωρίες του

Διαβάστε περισσότερα

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Στόχος Θεματικής Ενότητας Οι μαθητές να περιγράφουν τους βασικούς τομείς της Επιστήμης των Υπολογιστών και να μπορούν

Διαβάστε περισσότερα

Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου

Διαβάστε περισσότερα

Από Θεωρίες Μάθησης σε Περιβάλλοντα Μάθησης

Από Θεωρίες Μάθησης σε Περιβάλλοντα Μάθησης Από Θεωρίες Μάθησης σε Περιβάλλοντα Μάθησης Εργαστήριο Εκπαιδευτικής & Γλωσσικής Τεχνολογίας http://hermes.di.uoa.gr/ S.C.A.L.E. Μαρία Γρηγοριάδου A.L.M.A. Οµότιµη Καθηγήτρια SemanDix Τµήµα Πληροφορικής

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ (ΨΧ 00)

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ (ΨΧ 00) ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ (ΨΧ 00) Πέτρος Ρούσσος ΔΙΑΛΕΞΗ 5 Έννοιες και Κλασική Θεωρία Εννοιών Έννοιες : Θεμελιώδη στοιχεία από τα οποία αποτελείται το γνωστικό σύστημα Κλασική θεωρία [ή θεωρία καθοριστικών

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ ΜΟΝΤΕΛΑ ΣΥΣΤΗΜΑΤΟΣ Διδάσκων: Γ. Χαραλαμπίδης, Επ. Καθηγητής

Διαβάστε περισσότερα

Ο 19ος αιώνας Είδαμε ότι πρώτοι ιστορικο-συγκριτικοί επιστήμονες είχαν στόχο να εξηγήσουν τις ομοιότητες που παρατηρούσαν ανάμεσα στις γλώσσες. Είδαμε

Ο 19ος αιώνας Είδαμε ότι πρώτοι ιστορικο-συγκριτικοί επιστήμονες είχαν στόχο να εξηγήσουν τις ομοιότητες που παρατηρούσαν ανάμεσα στις γλώσσες. Είδαμε Ο 19ος αιώνας Είδαμε ότι πρώτοι ιστορικο-συγκριτικοί επιστήμονες είχαν στόχο να εξηγήσουν τις ομοιότητες που παρατηρούσαν ανάμεσα στις γλώσσες. Είδαμε επίσης ότι η ομοιότητα βασικών λέξεων οδήγησε στην

Διαβάστε περισσότερα

Π ε ρ ι ε χ ό μ ε ν α

Π ε ρ ι ε χ ό μ ε ν α Π ε ρ ι ε χ ό μ ε ν α Πρόλογος...7 Πρόλογος Επιμελητή...9 Εισαγωγή Τεχνολογίες για την ανάπτυξη ικανοτήτων...23 Σκοπός του βιβλίου...24 Eνα μοντέλο για την παιδαγωγική χρήση των εργαλείων με γνωστικό δυναμικό...26

Διαβάστε περισσότερα

Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών

Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών ΕΠΛ362: Τεχνολογία Λογισμικού ΙΙ (μετάφραση στα ελληνικά των διαφανειών του βιβλίου Software Engineering, 9/E, Ian Sommerville, 2011) Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών Οι διαφάνειες αυτές

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ 1. ΓΕΝΙΚΑ ΣΧΟΛΗ ΤΜΗΜΑ ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΑΧΕΙΡΙΣΗΣ ΠΟΛΙΤΙΣΜΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΚΑΙ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ Τ808 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ

Διαβάστε περισσότερα