ΟΝΤΟΛΟΓΙΕΣ & ΘΗΣΑΥΡΟΙ Στέλλα Μαρκαντωνάτου, Μαρίνα Βασιλείου, Όλγα Γιαννούτσου Περίληψη Οι οντολογίες και οι θησαυροί είναι τρόποι κωδικοποίησης της γνώσης συγκεκριµένου γνωστικού πεδίου. Οι καταβολές τους βρίσκονται στις ταξινοµίες που χρησιµοποιεί η λογική και οι φυσικές επιστήµες. Χρησιµοποιήθηκαν σε µεγάλο βαθµό από τους ερευνητές επιστήµονες στο χώρο της Τεχνητής Νοηµοσύνης. Τα τελευταία χρόνια έχουν χρησιµοποιηθεί σε εφαρµογές όπου απαιτείται συνδυασµός πληροφοριών από διάσπαρτες βάσεις δεδοµένων: ο συγκεκριµένος τοµέας έρευνας και εφαρµογών είναι από τους πιο κινητικούς στις µέρες µας και ευρύτερα γνωστός µε τον όρο "Σηµασιολογικός Ιστός" (Semantic Web). Στο ΙΕΛ, εκτός από την ανάπτυξη εφαρµογών στο πλαίσιο του Σηµασιολογικού Ιστού, έχουµε προχωρήσει και σε µια καινοτόµο αξιοποίηση των οντολογιών χρησιµοποιώντας τις για τη διασύνδεση εφαρµογών που κυκλοφορούν ως ανεξάρτητα προϊόντα στο εµπόριο. I. ΠΕΡΙ ΟΝΤΟΛΟΓΙΩΝ Οι οντολογίες δίνουν τη δυνατότητα να επιβληθεί µία σαφής εννοιολογική σύλληψη οποιουδήποτε υλικού, το οποίο ενδεχοµένως να είναι ψηφιοποιηµένο ή/και πολυµεσικό [5]. Στις βασικές σχέσεις που χαρακτηρίζουν αυτού του τύπου τις προσεγγίσεις συγκαταλέγεται η σχέση υπωνυµίας (σχέση isa στη σχετική βιβλιογραφία της Τεχνητής Νοηµοσύνης). Μία επικρατούσα ερµηνεία είναι η του συνόλου υποσυνόλου, π.χ. το ανθρώπινο είδος isa (είναι υποσύνολο του) ζωικού βασιλείου. Άλλες σχέσεις που επίσης χρησιµοποιούνται είναι αυτή της µερωνυµίας (σχέση όλου µέρους) ή της αντωνυµίας (π.χ. σε δεδοµένο σηµασιολογικό πεδίο η ηλιοφάνεια είναι αντώνυµο της βροχής). Η οργάνωση του υλικού βάσει οντολογιών 1. διακρίνεται από ευελιξία και επεκτασιµότητα 2. δεν εξαρτάται από συγκεκριµένη φυσική γλώσσα 3. µπορεί να υλοποιηθεί σε κάποια πρότυπη γλώσσα κωδικοποίησης (π.χ. XML, RDF κλπ) 4. επιτρέπει την εξαγωγή συµπερασµάτων (inferencing) µε σχετική ασφάλεια, έτσι ώστε να αναδεικνύονται οι όποιες σχέσεις µεταξύ διαφορετικών αντικειµένων του πολυµεσικού υλικού 5. προσφέρει δυνατότητες πρόσβασης στο υλικό, οι οποίες είναι εξατοµικευµένες, λεπτοµερείς, ασφαλείς, µη πεπερασµένες και µη εξαρτηµένες από γεωγραφικούς περιορισµούς εξασφαλίζει τη βιωσιµότητα του υλικού στο πέρασµα του χρόνου, στοιχείο εξόχως αναγκαίο στην περίπτωση που το ψηφιοποιηµένο υλικό είναι µοναδικό, όπως στην περίπτωση του πολιτισµικού υλικού (έργα τέχνης, χειρόγραφα κλπ). II. ΤΕΧΝΟΓΝΩΣΙΑ ΠΟΥ ΚΑΤΕΧΕΙ ΤΟ ΙΕΛ ΣΤΟ ΧΩΡΟ ΤΩΝ ΟΝΤΟΛΟΓΙΩΝ / ΘΗΣΑΥΡΩΝ Το ΙΕΛ διαθέτει την απαραίτητη τεχνογνωσία για την πληροφοριακή σχεδίαση τεκµηρίωση και διαλειτουργικότητα ανάπτυξη θησαυρών και οντολογιών χρήση εννοιολογικών µοντέλων Ινστιτούτο Επεξεργασίας του Λόγου, Αρτέµιδος 6 & Επιδαύρου, 15125 Παράδεισος Αµαρουσίου, {marks, mvas,olga}@ilsp.gr
Το ΙΕΛ έχει στηριχθεί στη χρήση οντολογιών (α) για την ανάπτυξη εµπορικών συστηµάτων στο πλαίσιο του Σηµασιολογικού Ιστού και (β) για τη διασύνδεση εφαρµογών για το χειρισµό επιχειρησιακών διαδικασιών. A. Εµπορικά συστήµατα στο πλαίσιο του Σηµασιολογικού Ιστού Το ιαδίκτυο και οι νέες τεχνολογίες έχουν κεντρικό ρόλο στην παγκοσµιοποίηση της γνώσης και της αγοράς. Η βασική όψη του προβλήµατος είναι ότι τα περισσότερα δεδοµένα είναι αποθησαυρισµένα σε γεωγραφικά διάσπαρτες βάσεις δεδοµένων και στερούνται συντακτικής και σηµασιολογικής διαλειτουργικότητας, καθώς είναι κωδικοποιηµένα σε διάφορες γλώσσες η δόµησή τους δεν είναι ενιαία τις περισσότερες φορές δεν είναι συµβατά προς κάποιο συγκεκριµένο εννοιολογικό µοντέλο τα περισσότερα από αυτά είναι εξαρτηµένα από την εκάστοτε τοπική γλώσσα και σύµφωνα µε τις επιταγές του αντίστοιχου πολιτισµικού περιβάλλοντος όπου δηµιουργήθηκαν. Συνεπώς, ο στόχος είναι να αντιµετωπιστούν οι όποιες ιδιαιτερότητες (κωδικοποίησης, δόµησης, γλώσσας κ.ά.) µε τέτοιο τρόπο, ώστε να καταστεί δυνατή η ενιαία πρόσβαση σε κάθε είδους πληροφορία. Το ΙΕΛ έχει ασχοληθεί µε εφαρµογές ηλεκτρονικού εµπορίου και πιο συγκεκριµένα µε εφαρµογές για πώληση ψηφιακών εικόνων µέσω δικτύου, έναν τοµέα στον οποίο δραστηριοποιούνται αρκετές εταιρείες (κυρίως στο εξωτερικό), στα πλαίσια του ευρωπαϊκού προγράµµατος e-content ML-Images! [10]. Στόχος του έργου ήταν η αναζήτηση και η ανάκτηση ψηφιακών εικόνων, αποθηκευµένων σε γεωγραφικά διάσπαρτες βάσεις. Κατά κανόνα, αυ τές οι εικόνες συνοδεύονται από κάποιου είδους σχολιασµό (annotation), µονόγλωσσο ή δίγλωσσο, ο οποίος περιλαµβάνει συνήθως διάφορα πληροφοριακά στοιχεία όπως προέλευση, χρονολογία, δηµιουργός κλπ τεχνικά χαρακτηριστικά (π.χ. ανάλυση εικόνας, µέγεθος, χρώµα κλπ) και στοιχεία περιγραφής του περιεχοµένου των εικόνων(τίτλος, λεζάντα, λέξεις-κλειδιά, σύντοµο κείµενο) Στα πλαίσια του συγκεκριµένου προγράµµατος τα ζητήµατα που έπρεπε να αντιµετωπιστούν ήταν τα ακόλουθα: ανάπτυξη εννοιολογικού µοντέλου, το οποίο να καλύπτει τις ανάγκες των εταιρειών και των τελικών χρηστών στο συγκεκριµένο τοµέα (καταχώρηση, σχολιασµός, αναζήτηση, ανάκτηση κλπ) ανάπτυξη πολυγλωσσικού θησαυρού όρων αντιστοίχιση πολυγλωσσικών όρων υποστήριξη µηχανισµού 'έξυπνης' αναζήτησης και ανάκτησης δεδοµένων εξασφάλιση µηχανισµού για την ορθή αποθήκευση του υπάρχοντος υλικού και ενσωµάτωση του νέου υλικού στη βάση δεδοµένων Το ΙΕΛ, βασιζόµενο στο εµπορικό πρότυπο IPTC [6], ανέπτυξε ένα πολυγλωσσικό θησαυρό όρων, που καλύπτει την ετερογένεια και αντανακλά τις επιµέρους µονόγλωσσες ορολογικές βάσεις. Ο θησαυρός αυτός, που φέρει τον τίτλο "Multilingual ML-Images! Matrix" (ΜΜΜ), καλύπτει έξι γλώσσες (Αγγλικά, Ελληνικά, Γερµανικά, Ιταλικά, Γαλλικά, Ισπανικά). Εκτείνεται σε βάθος οκτώ επιπέδων και έχει σχετικά απλή δοµή, η οποία αντανακλά τις ιεραρχικές σχέσεις υπωνυµίας και µερωνυµίας µεταξύ των όρων. Οι όροι δίνονται σε ληµµατική µορφή, ενώ έχουν προβλεφθεί περιπτώσεις συνωνυµίας, αλλοµορφίας, ακρωνυµίων, ξενόγλωσσων όρων κλπ. Κατά τη δηµιουργία του θησαυρού κατεβλήθη συγκεκριµένη προσπάθεια να επιτευχθεί η µέγιστη δυνατή συµβατότητα µε διεθνή πρότυπα προδιαγραφών για τη δηµιουργία θησαυρών [1], µονόγλωσσων [7, 11] ή πολύγλωσσων [8].
B. Εφαρµογές διασύνδεσης εµπορικών εφαρµογών/προγραµµάτων για το χειρισµό επιχειρησιακών διαδικασιών Η παγκοσµιοποιηµένη αγορά θέτει µε επιτακτικό τρόπο ζητήµατα διευρυµένων επικοινωνιακών δυνατοτήτων των επιχειρήσεων σε όλους τους τοµείς. Το πρόγραµµα ΚΛΕΙΩ [3], όπου το ΙΕΛ συµµετείχε ως ο φορέας που ανέπτυξε τις σχετικές οντολογίες και αντιµετώπισε θέµατα πολυγλωσσικότητας και διαπολιτισµικότητας, επικύρωσε τη δυνατότητα εφαρµογής ενός ολοκληρωµένου πολυγλωσσικού/πολυπολιτισµικού πλαισίου διαχείρισης πληροφοριών και εργασιακής ροής που λειτουργεί σε απευθείας σύνδεση µε λειτουργούντα συστήµατα πληροφορικής (το ERP σύστηµα ATLANTIS [2] και το σύστηµα διαχείρισης επιχειρησιακών διαδικασιών Papyrus Millennium III [14]). Στην εποχή µας, τα συστήµατα ERP συνεχώς καθίστανται απαραίτητα για την πρόσβαση όχι µόνο σε επιχειρησιακές πληροφορίες και στατικά έγγραφα, αλλά και σε ενδοεπιχειρησιακές και διεπιχειρησιακές υπηρεσίες. Ο συνδυασµός τους µε συστήµατα διαχείρισης επιχειρησιακών διαδικασιών έχει ήδη γίνει για πολύ µεγάλες οικονοµικές µονάδες (πολυεθνικές εταιρείες), για παράδειγµα αναφέρουµε το σύστηµα SAP. Τέτοια συστήµατα δεν είναι ακόµη κατάλληλα για οικονοµίες όπως η Ελληνική, όπου επικρατούν οι µικροµεσαίες επιχειρήσεις, οι οποίες όµως νοιώθουν την ανάγκη να ανοιχτούν στην ευρύτερη αγορά. Σε αυτές τις οικονοµικές συνθήκες, συνήθως η επιχείρηση διαθέτει ένα ERP προσαρµοσµένο στις δυνατότητές της και θέλει να το συνδυάσει µε κάποιο σύστηµα διαχείρισης επιχειρησιακών διαδικασιών που ήδη κυκλοφορεί στην αγορά. Προφανώς, όλοι οι ενδιαφερόµενοι φορείς προσπαθούν να ενσωµατώσουν τα εργαλεία µε το ελάχιστο δυνατό κόστος και τις όσο το δυνατόν µικρότερες απώλειες σε πληροφορίες. 1) Γενική περιγραφή του ΚΛΕΙΩ Με το σύστηµα ΚΛΕΙΩ, έχει καταστεί δυνατό να συνδεθούν υπάρχοντα συστήµατα διαχείρισης επιχειρησιακών διαδικασιών, όπως τα προαναφερθέντα προϊόντα, µέσω οντολογιών διαδικασιών, προκειµένου να παραγάγουν µία διεπαφή υψηλότερου επιπέδου. Αναγκαίες για αυτόν το σκοπό είναι οι πολυγλωσσικές συλλογές όρων για επιχειρησιακές διαδικασίες [9], οι οποίες έπρεπε να αναβαθµισθούν σε οντολογίες. Έτσι επιτυγχάνονται δύο στόχοι: η ορθή περιγραφή των συγκεκριµένων διαδικασιών, στις οποίες συµµετέχει ο χρήστης, της κατάστασης της διαδικασίας, των διαθέσιµων υπηρεσιών, των αναφορών κ.ά. Η ορθή περιγραφή εξασφαλίζει την άνετη και ακριβή πρόσβαση στο προς διαχείριση περιεχόµενο, την επαναχρησιµοποίηση και επεκτασιµότητα της εφαρµογής και τη σχετικά ανέξοδη ανάπτυξη του λογισµικού, συνθήκες που είναι αναγκαίο να πληρούνται για τη σωστή ενσωµάτωση τέτοιων εφαρµογών, όπως έχει δείξει η διεθνής σχετική πείρα. η εύκολη σύνδεση των υπαρχόντων ERP µε την ΚΛΕΙΩ µε τη χρήση υπηρεσιών ιστού (web services), τα οποία απεικονίζουν τις δοµές του ERP στη διεπαφή. Η χρήση των web services, σε συνδυασµό µε τις πολυγλωσσικές οντολογίες, διασφαλίζει τη δυνατότητα για καλή επικοινωνία των (πολύγλωσσων) χρηστών µε το σύστηµα καθώς και τη δυνατότητα για παραγωγή (πολύγλωσσων) εγγράφων από το σύστηµα. Η ευρύτερη επιχειρηµατική κοινότητα µόνο πολύ πρόσφατα έχει καθιερώσει διεθνή πρότυπα ορολογίας για τις επιχειρησιακές διαδικασίες (π.χ. OASIS UBL [12]) και το σύστηµα ΚΛΕΙΩ τα έχει λάβει υπόψη του. Οι οντολογίες έχουν κωδικοποιηθεί µε τη γλώσσα OWL [13], η οποία είναι συµβατή µε την XML, διότι θεωρείται η πλέον κατάλληλη για το συνδυασµό οντολογιών µε web services. Για το σχεδιασµό των οντολογιών και την ανάπτυξή τους χρησιµοποιήθηκε το περιβάλλον Protégé-200καταξιωµένο εργαλείο για την ανάπτυξη οντολογιών και υποστηρίζει τη µεθοδολογία που επιλέξαµε για την [15]. Το τελευταίο είναι ένα ώριµο και διεθνώς ανά πτυξή τους, συγκεκριµένα τη METHONTOLOGY [4]. 2) Η ανάπτυξη των οντολογιών για το ΚΛΕΙΩ Στο πλαίσιο του προγράµµατος ΚΛΕΙΩ αναπτύχθηκαν δύο σενάρια και συγκεκριµένα η διαχείριση ταξιδίων και η πρόσληψη προσωπικού. Στόχος ήταν να βρεθούν και να κωδικοποιηθούν στις οντολογίες οι συχνότερα χρησιµοποιούµενες διαδικασίες και τα συστατικά τους µέρη. Προς τούτο µελετήθηκε υλικό από την εµπειρία των βιοµηχανικών εταίρων του προγράµµατος ΚΛΕΙΩ και από διάφορα συστήµατα ERP. Για τη διαχείριση ταξιδίων ισχύει ότι δεν είναι σταθερή η διαδικασία που ακολουθούν οι διάφορες εταιρείες, παρ όλα αυτά δύο τουλάχιστον
φάσεις είναι απαραίτητες: η έγκριση ταξιδίου και η απόδοση ταξιδίου. Όσον αφορά την πρόσληψη προσωπικού ευρέως χρησιµοποιούµενες βρέθηκαν ότι είναι οι εξής φάσεις: υποβολή αίτησης πρόσληψης, καθορισµός ηµεροµηνίας συνέντευξης, κενή θέση εργασίας, ετοιµασία για ενσωµάτωση του καινούργιου εργαζόµενου, διαχείριση εκκρεµών αιτήσεων. Το κειµενικό υλικό που χρησιµοποιήθηκε υπεβλήθη στην κατάλληλη ηµι-αυτόµατη επεξεργασία για να εξαχθούν οι όροι στα Ελληνικά και στα Αγγλικά (κατά περίπτωση) και να δοθεί µια σύντοµη τεκµηρίωσή τους. Οι όροι συνδέθηκαν προς τους αντίστοιχους κόµβους στην οντολογία µέσω ενός αρχείου XML. Οι δίγλωσσες (Ελληνικά και Αγγλικά) οντολογίες που αναπτύχθηκαν περιέχουν τις οντότητες που συµµετέχουν σε κάθε διαδικασία (π.χ. εργαζόµενους, αυτούς που υπέβαλαν αίτηση για πρόσληψη, διάφορους τύπους εγγράφων). Στις οντότητες αποδίδονται σύνολα κατάλληλων ιδιοτήτων (π.χ. ρόλος εργαζοµένου στην εταιρεία, στοιχεία ταυτότητας / µητρώου κλπ). Οι οντότητες συσχετίζονται µεταξύ τους µε ένα φάσµα σχέσεων όπως η υπωνυµία (isa relation) ή η σχέση ιδιότητας τιµής (δηλ. µία οντότητα εµφανίζεται ως τιµή µιας ιδιότητας που αποδίδεται σε άλλη οντότητα). Οι οντολογίες που αναπτύχθηκαν για το ΚΛΕΙΩ είναι ελαφρές οντολογίες, δηλαδή δεν είναι εµπλουτισµένες µε τυπικά αξιώµατα, κανόνες κλπ. Ιδιαίτερη προσοχή δόθηκε στο να είναι οι οντολογίες αυτές κατά το δυνατόν γενικού χαρακτήρα, έτσι ώστε να µην περιορίζεται η εφαρµογή του συστήµατος ΚΛΕΙΩ µόνον στα συστήµατα που συµµετείχαν στο έργο. Για το λόγο αυτό, ήταν σηµαντικό να κωδικοποιηθούν οι πιο συχνά χρησιµοποιούµενες οντότητες και σχέσεις. Επίσης, έπρεπε να εντοπισθούν οι οντότητες που συµµετείχαν και στις δύο διαδικασίες, ώστε να αποφευχθεί η άσκοπη επανάληψη ορισµών και να επιτευχθεί συνεκτικότητα των οντολογιών και οικονοµία στην προσπάθεια. Σε αυτόν το σκοπό βο ηθά η διάκριση τεσσάρων τύπων οντοτήτων: πρωταρχικά επιχειρησιακά δεδοµένα (ηµεροµηνία, ταχυδροµικός κώδικας κα) µετρήσιµα επιχειρησιακά δεδοµένα (όνοµα χώρας, κατάσταση ταξιδίου (εγκριθέν, απορριφθέν, ακυρωθέν) κ.ά.) γενικού τύπου οντότητες (εργαζόµενος), στις οποίες αποδίδονται ιδιότητες (αριθµός µητρώου, ρόλος στην επιχείρηση κ.ά.) και οι οποίες τείνουν να εµφανίζονται σε περισσότερες της µίας οντολογίες εξειδικευµένες οντότητες (για τα ταξίδια το σχέδιο ταξιδίου και το µέρος σχεδίου ταξιδίου, κ.ά.) Η ΚΛΕΙΩ, όπως έχει ήδη ειπωθεί, απευθύνεται σε πολύγλωσσους χρήστες και για αυτό διαθέτει τη δυνατότητα να προσαρµόζεται η διεπαφή στη γλώσσα του εκάστοτε χρήστη. Έτσι δίνεται η δυνατότητα στο χρήστη και να εισάγει δεδοµένα και να βλέπει αποθηκευµένα δεδοµένα στη γλώσσα της επιλογής του. Για να γίνεται αυτό µε τρόπο συνεκτικό, το σύστηµα περιέχει κατάλληλο µηχανισµό, ο οποίος µετατρέπει τα δεδοµένα που ανταλλάσσει το σύστηµα µε τους χρήστες. Πρόκειται για σύνολο υπο-συστηµάτων που επικοινωνούν µέσω ιαδικτύου µε web services. Η συγκεκριµένη εφαρµογή έχει αναπτυχθεί µε την πλατφόρµα Microsoft Visual Studio.NET στη γλώσσα προγραµµατισµού Microsoft Visual Studio C++.NET και τρέχει σε έναν εξυπηρετητή Microsoft IIS µε λειτουργικό Microsoft.NET Framework Operating System. III. REFERENCES [1] Aitchison J, A. Gilchrist & D. Bawden: Thesaurus Construction and use: a practical manual: Aslib 2000 [2] Atlantis [www.altec.gr] [3] CLIO Project [http://research.unisoft.gr/clio/] [4] Fernández-López, Μ., A. Gómez-Pérez, and N. Juristo: METHONTOLOGY: From Ontological Art towards Ontological Engineering. Spring Symposium on Ontological Engineering of AAAI, Stanford University, California, 1997, pp.33-40. [5] Gomez-Perez A, Fernandez-Lopez M, Corcho O 2003: Ontology Engineering with examples from the areas of Knowledge Management, e-commerce and the Semantic Web. Springer. [6] IPTC [www.iptc.org] [7] ISO Standard 2788: Documentation - Guidelines for the establishment and development of monolingual thesauri, 1986
[8] ISO Standard 5964: Documentation - Guidelines for the establishment and development of multilingual thesauri, 1985 [9] Maier, Α., J. Aguado, A. Bernaras, I. Laresgoiti, C. Pedinaci, N. Peña, and T. Smithers: Integration with Ontologies. Paper presented in the 2 nd Conference on Professional Knowledge Management Experiences and Visions, Luzern, 2-4 April 2003. [10] ML-Images! Project [http://www.ml-imag es.gr/ ] [11] National Information Standards Organisation: Guidelines for the Construction, Format, and Management of Monolingual Thesauri. Bethesda: NISO Press [12] OASIS UBL [docs.oasis-op en.org/ubl/ ] [13] OWL [http://www.w3.org/2004/owl] [14] Papyrus [ www.modus.gr] [15] Protégé-2000 [protege.stanford.edu/index.htm]