Διαδικασίες βελτιστοποίησης διαλειτουργικότητας. ολοκλήρωση βιβλιογραφικών μεταδεδομένων

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Διαδικασίες βελτιστοποίησης διαλειτουργικότητας. ολοκλήρωση βιβλιογραφικών μεταδεδομένων"

Transcript

1 Διαδικασίες βελτιστοποίησης διαλειτουργικότητας κατανεμημένων πληροφοριακών συστημάτων συμβατών το Z39.50 με πρωτόκολλο ολοκλήρωση βιβλιογραφικών μεταδεδομένων Διατριβή που υποβλήθηκε στο Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας του Ιονίου Πανεπιστημίου για την υποψηφιότητα του τίτλου του Διδάκτορα Μιχάλης Ε. Σφακάκης Κέρκυρα, Απρίλιος 2010 και

2 Μιχάλης Ε. Σφακάκης 2010 Some rights reserved. Το έργο αυτό διέπεται από άδεια Creative Commons Αναφορά προέλευσης-μη Εμπορική Χρήση 3.0 Ελλάδα. Προκειμένου να δείτε ένα αντίγραφο της άδειας αυτής, επισκεφτείτε ή στείλτε γράμμα στο Creative Commons, 171 Second Street, Suite 300, San Francisco, California, 94105, USA. ii

3 Η παρούσα Διδακτορική Διατριβή του Μιχάλη Ε. Σφακάκη με τίτλο "Διαδικασίες βελτιστοποίησης διαλειτουργικότητας κατανεμημένων πληροφοριακών συστημάτων συμβατών με το πρωτόκολλο Z39.50 και ολοκλήρωση βιβλιογραφικών μεταδεδομένων" εξετάσθηκε και εγκρίθηκε από τις επιτροπές: Συμβουλευτική επιτροπή: 1. Επόπτης: Σαράντος Καπιδάκης, καθηγητής Τμήματος Αρχειονομίας και Βιβλιοθηκονομίας Ιονίου Πανεπιστημίου, 2. Μέλος: Χρήστος Παπαθεοδώρου, αναπληρωτής καθηγητής Τμήματος Αρχειονομίας και Βιβλιοθηκονομίας Ιονίου Πανεπιστημίου, 3. Μέλος: Τιμολέων Σελλής, καθηγητής Σχολής Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Εθνικού Μετσόβιου Πολυτεχνείου. Εξεταστική επιτροπή: Τα τρία μέλη της συμβουλευτικής επιτροπής (σύμφωνα με την παράγραφο 5 του άρθρου 12 του νόμου 2083/92) και οι: 4. Εμμανουήλ Γιαννακουδάκης, καθηγητής Τμήματος Πληροφορικής Οικονομικού Πανεπιστημίου Αθηνών, 5. Θεόδωρος Καλαμπούκης, καθηγητής Τμήματος Πληροφορικής Οικονομικού Πανεπιστημίου Αθηνών, 6. Χρήστος Σκουρλάς, καθηγητής Τμήματος Πληροφορικής Τεχνολογικού Εκπαιδευτικού Ιδρύματος Αθηνών, 7. Εμμανουήλ Γεργατσούλης, αναπληρωτής καθηγητής Τμήματος Αρχειονομίας και Βιβλιοθηκονομίας Ιονίου Πανεπιστημίου. iii

4 iv

5 Περίληψη Ο τεράστιος όγκος και η ποικιλομορφία των διαθέσιμων πληροφοριών σε συνδυασμό με τις μεθόδους πρόσβασης και το περιβάλλον χρήσης των πηγών πληροφόρησης οδήγησαν στην ανάπτυξη των συστημάτων ενιαίας πρόσβασης. Μία από τις αρχιτεκτονικές των συστημάτων ενιαίας πρόσβασης είναι η μετα-αναζήτηση ή, εναλλακτικά αποκαλούμενη, federated search ή παράλληλη αναζήτηση ή εικονικός συλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης, ο χρήστης θέτει τις επερωτήσεις του σε ένα κεντρικό σύστημα το οποίο τις προωθεί στις πηγές και στη συνέχεια ενοποιεί και παρουσιάζει στο χρήστη τις απαντήσεις που θα λάβει από αυτές. Είναι άξιο αναφοράς ότι ένας μεγάλος αριθμός πηγών, ραγδαία αυξανόμενος, είναι κρυμμένος πίσω από πληροφοριακά συστήματα που διαθέτουν τους πόρους τους μέσα από προκαθορισμένες διαδικασίες και γλώσσες επερωτήσεων, χωρίς να παρέχουν καμία δυνατότητα άμεσης πρόσβασης στους πόρους και τη δομή των πηγών. Η αποτελεσματικότητα (effectiveness) ενός περιβάλλοντος μετα-αναζήτησης καθορίζεται από τη δυνατότητα που έχει να μετατρέπει τις επερωτήσεις που του θέτουν στην αντίστοιχη επερώτηση που απαιτεί η κάθε πηγή, καθώς επίσης και η ικανότητά του να κατανοεί και να επεξεργάζεται τις απαντήσεις από τις πηγές. Οι δυνατότητες αυτές προσδιορίζονται άμεσα από το επίπεδο της συντακτικής (syntactic), λειτουργικής (functional) και v σημασιολογικής (semantic)

6 διαλειτουργικότητας των κατανεμημένων πληροφοριακών συστημάτων διάθεσης των πόρων. Επίσης, οι απαιτήσεις για αυξημένη αποδοτικότητα του συστήματος μετααναζήτησης, όπου η online φύση του απαιτεί να δοθεί η απάντηση στον ελάχιστο δυνατό χρόνο, περιορίζουν τις λύσεις στα προβλήματα αποτελεσματικότητας του συστήματος. Σε αρκετές περιπτώσεις οι διαδικασίες πρόσβασης και οι γλώσσες επερωτήσεων των πηγών έχουν κοινά χαρακτηριστικά ή είναι συμβατές με διεθνή πρότυπα αναζήτησης και ανάκτησης πληροφοριών. Επιπλέον, οι απαντήσεις των πηγών είναι συμβατές με πρότυπα περιγραφής δεδομένων και μεταδεδομένων. Η χρήση κοινών προτύπων είναι αρκετά συνηθισμένη σε περιπτώσεις όπου οι πηγές ανήκουν σε όμοιες πληροφοριακές κοινότητες διευκολύνοντας, παράλληλα, την εξισορρόπηση των παραμέτρων λειτουργικότητας και ευκολίας υλοποίησης στην ανάπτυξη των συστημάτων. Ειδικότερα, η κοινότητα των βιβλιοθηκών θεωρείται μια αντιπροσωπευτική περίπτωση ευρείας εφαρμογής προτύπων κωδικοποίησης και πρωτοκόλλων διάθεσης των πηγών. Στόχος της παρούσας διατριβής είναι η ανάπτυξη μεθόδων και διαδικασιών βελτίωσης της αποτελεσματικότητας των συστημάτων μετα-αναζήτησης στο περιβάλλον των ψηφιακών βιβλιοθηκών. Οι προτεινόμενες διαδικασίες και μέθοδοι, βασιζόμενες στα κύρια χαρακτηριστικά των πρωτοκόλλων επικοινωνίας και των μεταδεδομένων που χρησιμοποιούν τα συστήματα διάθεσης των πηγών, στοχεύουν στην έμμεση επίτευξη καλύτερης λειτουργικής και σημασιολογικής διαλειτουργικότητας. Ιδιαίτερη έμφαση δίνεται στο πρωτόκολλο Ζ39.50 μιας και η δεδομένη καθολική χρήση του στο χώρο των βιβλιοθηκών το καθιστά ένα βασικό ρυθμιστή αποτελεσματικότητας και απόδοσης στα περιβάλλοντα μετα-αναζήτησης που υλοποιούνται. Οι κύριες κατευθύνσεις μελέτης και συνεισφοράς της διατριβής αφορούν: (α) Τις διαδικασίες προώθησης της επερώτησης στις πηγές καθώς επίσης και την ασύγχρονη τμηματική συλλογή και επεξεργασία των αποτελεσμάτων. (β) Την περιγραφή των χαρακτηριστικών αναζήτησης της κάθε πηγής και τον έλεγχο για το εάν η πηγή υποστηρίζει την εκάστοτε επερώτηση. Στην περίπτωση που η πηγή δεν υποστηρίζει την επερώτηση, η επερώτηση μετεγγράφεται σε μία άλλη ή σε ένα σύνολο επερωτήσεων που υποστηρίζει η πηγή και είναι σημασιολογικά ισοδύναμες, vi

7 αν αυτό είναι εφικτό, ή η ανάκληση και η ακρίβειά τους βρίσκονται σε ένα προκαθορισμένο εύρος ανοχής από αυτό της αρχικής επερώτησης. Η μετεγγραφή βασίζεται στο Σημασιολογικό Δίκτυο Σημείων Πρόσβασης, που είναι ένας σημασιολογικός γράφος εκφρασμένος σε γλώσσα RDFS και ο οποίος προκύπτει έμμεσα από τη σημασιολογία των μεταδεδομένων με αυτόματες διαδικασίες. (γ) Την ταύτιση και κατηγοριοποίηση των αποτελεσμάτων σε συστάδες σύμφωνα με την Έργο-κεντρική (work-entity) προσέγγιση του FRBR εννοιολογικού μοντέλου. vii

8 Abstract The significant number of available information sources in conjunction with the different access methods led to the development of one-stop search interfaces. An implementation of such search interfaces is meta-search engines, also known as federated search, broadcast search, virtual union catalogues, etc. Meta-search engines help users access uniformly a great number of distributed and autonomous information sources. Most of these information sources are hidden behind query interfaces without any access to the underlying data structures and query methods. In some cases query methods for the underlying sources share common characteristics or conform to a standard information retrieval protocol. This is mostly the case when metadata describe materials from a common information community. Meta-search challenges refer to performance, source availability and interoperability. Interoperability decides the fate of the meta-search engine regarding effective querying of the sources and integration of the results. One significant task affecting the effectiveness of the meta-search engine is its ability to transform the user s query into every underlying source s query system. Moreover, within the library community, many information sources publicize their metadata with query interfaces based on the concept of the abstract Access Point and mainly conforming to the Z39.50 information retrieval protocol. The varying or poor implementations of the protocol restrict the query interfaces to a relatively small number of available Access viii

9 Points. Unsupported Access Points are very common, especially when searches are addressed to more than one source. When a query contains an unsupported Access Point the query either fails or generates an inconsistent answer if the source substitutes the unsupported Access Point with a supported one. The aim of this thesis is to develop methods to improve the effectiveness of the meta-search engines in the context of digital libraries. The proposed methods, based on key characteristics of the communication protocols and the metadata used by the information sources, were designed to indirectly achieve better functional and semantic interoperability. Due to the universal use of Z39.50 protocol in the library community particular emphasis is placed on it as a key regulator of effectiveness and efficiency in the development of the meta-search engines. The main directions of research and the contribution of the thesis concern (a) the methods for the query broadcast to the sources, as well as the asynchronous and gradual retrieval and process of the retrieved results, (b) the description of the supported search characteristics of the source and the appropriate rewriting of the user query to supported queries by the source. In case where a source does not support a query, the query is rewritten either to another supported query, or a set of supported queries, with equivalent semantics, if it is possible, or the recall and the precision of the rewritten queries to fulfill predefined user preferences. Query rewritings are based on the Semantic Access Point Network (SAPN), which is an auto-generated semantic graph from metadata semantics in RDFS language, and (c) the process of the query results and the composition of work entity clusters according to the FRBR conceptual model. ix

10 x

11 Στη Βάσω, Ασπασία και Αγλαΐα. xi

12 xii

13 Ευχαριστίες Η προτροπή για την εκπόνηση της παρούσας διατριβής έγινε από τον καθηγητή του Ιονίου Πανεπιστημίου κ. Σαράντο Καπιδάκη, ο οποίος στη συνέχεια ήταν ο επιβλέπων καθηγητής στην τριμελή συμβουλευτική επιτροπή. Ως εκ τούτου θα ήθελα να τον ευχαριστήσω τόσο για την πολύτιμη βοήθεια και συνεργασία του κατά τη διάρκεια της εκπόνησης της διατριβής όσο και για την προτροπή του, που χωρίς αυτή δεν θα είχε εκπονηθεί η παρούσα διατριβή. Ευχαριστώ θερμά το μέλος της συμβουλευτικής επιτροπής αναπληρωτή καθηγητή του Ιονίου Πανεπιστημίου κ. Χρήστο Παπαθεοδώρου για τη μεγάλη υποστήριξη και την άψογη συνεργασία που είχαμε, καθώς επίσης και το τρίτο μέλος της συμβουλευτικής επιτροπής καθηγητή του ΕΜΠ κ. Τιμολέοντα Σελλή για τις εύστοχες παρατηρήσεις και τις ουσιαστικές προτάσεις του, οι οποίες ήταν καθοριστικές στην ανάπτυξη των θεμάτων που μελετήθηκαν. Για τις εποικοδομητικές συζητήσεις και το σχολιασμό που έκαναν στις δημοσιεύσεις των επιμέρους αποτελεσμάτων της διατριβής θα ήθελα να ευχαριστήσω τα μέλη της πρώην ομάδας ανάπτυξης και υποστήριξης του ΑΒΕΚΤ Άννα Μάστορα, Λίνα Μπουντούρη και Μανόλη Πεπονάκη. Από τις ευχαριστίες δεν είναι δυνατόν να απουσιάζει και η οικογένεια μου τόσο για την υπομονή όσο και για την ανοχή της στο χρόνο που απαιτήθηκε για την ολοκλήρωση της διατριβής. xiii

14 Πίνακας Περιεχομένων Περίληψη...v Abstract...viii Ευχαριστίες...xiii Κεφάλαιο 1 Εισαγωγή Μετα-αναζήτηση Στόχοι, διάρθρωση διατριβής...9 Κεφάλαιο 2 Συστήματα ενιαίας πρόσβασης στο περιβάλλον των βιβλιοθηκών Μετα-αναζήτηση Μετεγγραφή κατά προσέγγιση Ταξινόμηση συστημάτων μετα-αναζήτησης Σύμφωνα με το λογικό διαχωρισμό των διαδικασιών Σύμφωνα με τις παρεχόμενες υπηρεσίες Αποδοτικότητα σε σχέση με την επίδοση χρόνου Το Πρωτόκολλο Z Μηχανισμός Αναζήτησης Σημεία Πρόσβασης Διάχυση χαρακτηριστικών αναζήτησης Δυνατότητα επεξήγησης χαρακτηριστικών διακομιστή Προφίλ υλοποίησης SRU/SRW: Search & Retrieve via URL/Web Service Αποδοτικότητα μετα-αναζήτησης στο περιβάλλον Z Μεταδεδομένα Σύνθεση αποτελεσμάτων αναζήτησης Functional Requirements for Bibliographic Records (FRBR) Σύνοψη...56 Κεφάλαιο 3 Αρχιτεκτονική επαναληπτικής ανάκτησης και σύνθεσης αποτελεσμάτων με παράλληλες διαδικασίες σε εικονικό συλλογικό κατάλογο...58 xiv

15 3.1 Εικονικοί συλλογικοί κατάλογοι Επαναληπτική ανάκτηση και σύνθεση αποτελεσμάτων με παράλληλη υλοποίηση διαδικασιών Μονάδες λογισμικού, υποσυστήματα και οι αλληλεπιδράσεις τους Βήματα εκτέλεσης μιας επερώτησης Επεξεργαστής αποτελεσμάτων Απόδοση Σύνοψη...83 Κεφάλαιο 4 Περιγραφή χαρακτηριστικών αναζήτησης με τη γλώσσα RQDL Στοιχειώδης παρουσίαση χαρακτηριστικών της γλώσσας RQDL Σχεδιότυπα Σημείου Πρόσβασης Σχεδιότυπα Επερώτησης Σύνοψη Κεφάλαιο 5 Κατά προσέγγιση σημασιολογική μετεγγραφή επερώτησης Σημασιολογικό Δίκτυο Σημείων Πρόσβασης σε περιβάλλον Z Μεθοδολογία δημιουργίας σημασιολογικού γράφου Σημασιολογική αντικατάσταση μη υποστηριζόμενων Σημείων Πρόσβασης Τακτικές αντικατάστασης μη υποστηριζόμενου Σημείου Πρόσβασης Αντικατάσταση με διεύρυνση σημασιολογίας Αντικατάσταση με σύμπτυξη σημασιολογίας Αποτίμηση ανάκλησης και ακρίβειας Μέτρηση αντικατάστασης Υπηρεσία παγκόσμιου ιστού για ανοικτή πρόσβαση στο Σημασιολογικό Δίκτυο Σημείων Πρόσβασης Σύνοψη Κεφάλαιο 6 μετα-συνθέτης Αρχιτεκτονική συστήματος μετα-συνθέτης xv

16 6.1.1 pazpar Μετεγγραφέας επερωτήσεων Σημασιολογικού Δικτύου Σημείων Πρόσβασης (ΣηΔιΣηΠ) Ολοκλήρωση υποσυστημάτων Χρησιμοποιώντας το μετα-συνθέτη FRBR συστάδες Σύνοψη Κεφάλαιο 7 Γενική συζήτηση Αναζήτηση χωρίς αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις Σχετικές εργασίες Συμπεράσματα Μελλοντική έρευνα Παράρτημα Α Ενδεικτικά παραδείγματα Z39.50 πηγών με τα Σημεία Πρόσβασης που υποστηρίζουν Παράρτημα Β Γλωσσάρι Βιβλιογραφία xvi

17 Κατάλογος Εικόνων 1.1. Ένα απλοποιημένο αντιπροσωπευτικό δείγμα από το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης Μία ιεραρχική FRBR Έργο-κεντρική συστάδα που περιλαμβάνει Εκφράσεις και Εκδηλώσεις από το συλλογικό κατάλογο MELVYL Αναπαράσταση αποτελεσμάτων αρχικής επερώτησης Q και μετεγγραμμένης κατά προσέγγιση επερώτησης S Αρχιτεκτονική συστήματος μετα-αναζήτησης Αρχιτεκτονική ενδιάμεσου Παραδείγματα ορισμού σημασιολογίας Bib-1 Σημείων Πρόσβασης Τα τρία Bib-1 Σημεία Πρόσβασης που υποστηρίζονται από τις περισσότερες Z39.50 πηγές Αριθμός Z39.50 πηγών που υποστηρίζουν υπηρεσία αναζήτησης Οι οντότητες της πρώτης ομάδας και οι συσχετίσεις τους Συσχετίσεις με έννοιες και αντικείμενα από το βιβλιογραφικό σύμπαν με τις αντίστοιχες FRBR οντότητες Αποτελέσματα αναζήτησης σε ιεραρχική Έργο-κεντρική συστάδα από το σύστημα μετα-συνθέτης Μονάδες λογισμικού, υποσυστήματα και οι αλληλεπιδράσεις τους Αναπαράσταση ροής διαδικασιών εικονικού συλλογικού καταλόγου Αλληλουχία σταδιακής ανάκτησης και παράλληλης επεξεργασίας αποτελεσμάτων Συσχέτιση Σημείου Πρόσβασης με τη σχέση υποσυνόλου Αντιπροσωπευτικό δείγμα του γράφου συσχέτισης των Bib-1 Σημείων Πρόσβασης Βήμα 1: Δημιουργία του γράφου G. Ο αριθμός δίπλα σε κάθε κόμβο εκφράζει τον έσω-βαθμό του Βήμα 2: Ο γράφος G μετά την τοπολογική ταξινόμηση Βήμα 3: Ο γράφος G0, το ελάχιστο υποσύνολο του G Αντιπροσωπευτικό δείγμα του RDF Schema που αναπαριστά τη σημασιολογική συσχέτιση των Bib-1 Σημείων Πρόσβασης xvii

18 5.7. Μονοπάτια ιεραρχίας προγόνων από τα οποία επιλέγεται μη επιθυμητό Σημείο Πρόσβασης Υπηρεσία ανοικτής πρόσβασης στο Σημασιολογικό Δίκτυο Σημείων Πρόσβασης Απόκριση σε μορφή XML της υπηρεσίας Σημασιολογικού Δικτύου Σημείων Πρόσβασης Αρχιτεκτονική μονάδας ελέγχου και αντικατάστασης Σημείων Πρόσβασης Αρχιτεκτονική μετα-συνθέτη Διεπαφή αναζήτησης Διεπαφή χρήσης Σημασιολογικού Δικτύου Σημείων Πρόσβασης (ΣηΔιΣηΠ), προεπιλογές στάθμισης ανάκλησης και ακρίβειας, εφικτές τακτικές αντικατάστασης και προτεινόμενη αντικατάσταση Διεπαφή ανάκτησης Μία FRBR Έργο-κεντρική συστάδα διευθετημένη περαιτέρω σε Εκφράσεις και Εκδηλώσεις Α.1. Αναπαράσταση του γράφου συσχετίσεων Σημείων Πρόσβασης. Οι κόμβοι με πράσινο χρώμα συμβολίζουν τα Σημεία Πρόσβασης που υποστηρίζει η Library of Congress Α.2. Αναπαράσταση του γράφου συσχετίσεων Σημείων Πρόσβασης. Οι κόμβοι με πράσινο χρώμα συμβολίζουν τα Σημεία Πρόσβασης που υποστηρίζει η βιβλιοθήκη του Πανεπιστημίου Κρήτης xviii

19 Κατάλογος Πινάκων 5.1. Παραδείγματα τιμών ταξινομικής ακρίβειας και ανάκλησης για μερικές ενδιαφέρουσες αντικαταστάσεις διεύρυνσης και σύμπτυξης αντίστοιχα Αντιπροσωπευτικές συνόψεις απαντήσεων από τρεις πηγές για την επερώτηση: Author-name-conference (1006) = IEEE. Η ακρίβεια και η ανάκληση σταθμίζονται ισοδύναμα Οι αριθμοί των αποτελεσμάτων εκτελώντας την επερώτηση του παραδείγματος 6.1 χωρίς αντικατάσταση και με αντικατάσταση τού μη υποστηριζόμενου Σημείου Πρόσβασης Σύνοψη χαρακτηριστικών αντικαταστάσεων διεύρυνσης και σύμπτυξης για την επερώτηση: Author-Title-Subject (1036) = Malinowski Αποτελέσματα μετρικής F-measure με διαφορετικές σταθερές στάθμισης Α.1. Τα Σημεία Πρόσβασης που υποστηρίζουν τα συστήματα διάθεσης των καταλόγων της Library of Congress, των συλλογικών καταλόγων MELVYL και COPAC, καθώς επίσης και ο κατάλογος της βιβλιοθήκης του Πανεπιστήμιου Κρήτης Α.2. Τα κοινά Σημεία Πρόσβασης που υποστηρίζουν τα συστήματα διάθεσης των καταλόγων της βιβλιοθήκης της Library of Congress, των συλλογικών καταλόγων MELVYL και COPAC, καθώς επίσης και ο κατάλογος της βιβλιοθήκης του Πανεπιστήμιου Κρήτης xix

20 Κεφάλαιο 1 Εισαγωγή Η κυρίαρχη αντίληψη για τον ορισμό και το ρόλο των Ψηφιακών Βιβλιοθηκών τις θεωρεί ως συστήματα τα οποία παρέχουν στους χρήστες συνεκτική πρόσβαση σε μεγάλες οργανωμένες πηγές πληροφορίας και γνώσης (Larson, 2001; Leiner, 1998). Η αποτελεσματική χρήση των όλο και αυξανόμενων κατανεμημένων πηγών πληροφορίας και γνώσης (Ψηφιακών Βιβλιοθηκών) προϋποθέτει την ανάπτυξη πληροφοριακών συστημάτων που παρέχουν ενιαία και ομοιόμορφη πρόσβαση στις πηγές, θεωρώντας τις ως μία οντότητα. Η ποικιλομορφία των διαθέσιμων πόρων σε συνδυασμό με τις μεθόδους πρόσβασης και το περιβάλλον χρήσης των πηγών οδήγησε στην ανάπτυξη συστημάτων ενιαίας πρόσβασης ( One stop systems) με ποικίλες αρχιτεκτονικές. Καθοριστικός παράγοντας στην ανάπτυξη των συστημάτων ενιαίας πρόσβασης είναι τα χαρακτηριστικά, οι περιορισμοί και το κόστος των διαθέσιμων τεχνολογιών και υποδομών. Ένας πολύ μεγάλος αριθμός πηγών, ο οποίος αυξάνεται με ταχύτατους ρυθμούς (Bergman, 2001), είναι κρυμμένος πίσω από πληροφοριακά συστήματα τα οποία διαθέτουν τους πόρους τους μέσα από προκαθορισμένες διαδικασίες και γλώσσες επερωτήσεων χωρίς να παρέχουν καμία δυνατότητα άμεσης πρόσβασης στους πόρους και τη δομή των πηγών. Σε αρκετές περιπτώσεις, οι διαδικασίες πρόσβασης και οι γλώσσες 1

21 Κεφάλαιο 1 2 επερωτήσεων των πηγών έχουν κοινά χαρακτηριστικά ή είναι συμβατές με διεθνή πρότυπα αναζήτησης και ανάκτησης πληροφοριών. Επιπλέον, οι απαντήσεις των πηγών είναι συμβατές με πρότυπα περιγραφής δεδομένων και μεταδεδομένων. Η χρήση κοινών προτύπων είναι αρκετά συνηθισμένη σε περιπτώσεις όπου οι πηγές ανήκουν σε όμοιες πληροφοριακές κοινότητες διευκολύνοντας, παράλληλα, την εξισορρόπηση των παραμέτρων λειτουργικότητας και ευκολίας υλοποίησης στην ανάπτυξη των συστημάτων (LeVan, 2006). Ειδικότερα, η κοινότητα των βιβλιοθηκών θεωρείται μια αντιπροσωπευτική περίπτωση ευρείας εφαρμογής προτύπων κωδικοποίησης και πρωτοκόλλων διάθεσης των πηγών. Ενδεικτικά παραδείγματα ευρέως χρησιμοποιουμένων προτύπων μεταδεδομένων είναι οι παραδοσιακές MARC κωδικοποιήσεις, καθώς επίσης και οι σύγχρονες εκδοχές τους MARCXML και MODS εκφρασμένες σε γλώσσα XML. Σχετικά με τα πρωτόκολλα διάθεσης, το πρωτόκολλο αναζήτησης-ανάκτησης πληροφοριών Z39.50 χρησιμοποιείται ευρύτατα και αποτελεσματικά από τις βιβλιοθήκες τουλάχιστον τα τελευταία δεκαπέντε έτη. 1.1 Μετα-αναζήτηση Μία από τις αρχιτεκτονικές των συστημάτων ενιαίας πρόσβασης είναι η μετααναζήτηση ή, εναλλακτικά αποκαλούμενη, federated search ή παράλληλη αναζήτηση ή εικονικός συλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης ο χρήστης θέτει τις επερωτήσεις του σε ένα κεντρικό σύστημα το οποίο τις προωθεί στις πηγές (συστήματα προορισμού) και στη συνέχεια ενοποιεί και παρουσιάζει στο χρήστη τις απαντήσεις που θα λάβει από αυτές. Η αποτελεσματικότητα (effectiveness) ενός περιβάλλοντος μετα-αναζήτησης καθορίζεται από: Τη δυνατότητα που έχει να μετεγγράφει τις επερωτήσεις που του θέτουν στην αντίστοιχη επερώτηση που απαιτεί η κάθε πηγή. Την ικανότητα του να συλλέγει, να κατανοεί, να επεξεργάζεται και να συνθέτει τις απαντήσεις από τις πηγές. Οι δυνατότητες αυτές προσδιορίζονται άμεσα από το επίπεδο της συντακτικής (syntactic), λειτουργικής (functional) και σημασιολογικής (semantic)

22 Κεφάλαιο 1 3 διαλειτουργικότητας των κατανεμημένων πληροφοριακών συστημάτων διάθεσης των πόρων (Moen, 2001). Επιπροσθέτως, οι απαιτήσεις για αυξημένη αποδοτικότητα (efficiency) του συστήματος μετα-αναζήτησης, όπου η online φύση του απαιτεί να δοθεί η απάντηση στον ελάχιστο δυνατό χρόνο, περιορίζουν τις λύσεις στα προβλήματα αποτελεσματικότητας του συστήματος. Αδυναμία αποτελεσματικής μετεγγραφής της επερώτησης από το σύστημα μετα-αναζήτησης στη μορφή που υποστηρίζει η κάθε υποκείμενη πηγή συνεπάγεται εναλλακτικά: Είτε αποτυχημένη επερώτηση (query failure), δηλαδή την απόρριψή της από το σύστημα που προορίζεται. Είτε ασυνεπή απάντηση (inconsistent answer), δηλαδή την αυθαίρετη μετεγγραφή της από το σύστημα προορισμού σε μορφή που να είναι δυνατή η εκτέλεσή της από αυτό. Στην περίπτωση της αποτυχημένης επερώτησης, ο χρήστης, παρότι δε λαμβάνει απάντηση, ενημερώνεται ότι το σύστημα δεν υποστηρίζει το χαρακτηριστικό της επερώτησής του. Βέβαια, σε ένα περιβάλλον όπου η επερώτηση υποβάλλεται ταυτόχρονα σε πολλές πηγές είναι αρκετά πιθανό ο χρήστης να λάβει μόνο διαγνωστικά μηνύματα λάθους ή να μη δει ή ξεχωρίσει τα μηνύματα αυτά ανάμεσα σε αποτελέσματα άλλων πηγών. Στην εναλλακτική περίπτωση της ασυνεπούς απάντησης, ο χρήστης θα λάβει απάντηση χωρίς όμως να γνωρίζει πώς προήλθε, και το σπουδαιότερο, δε θα ενημερωθεί ότι έγινε η αυθαίρετη μετεγγραφή. Το πλεονέκτημα στην περίπτωση αυτή, και ιδιαίτερα σε περιπτώσεις μη έμπειρων χρηστών που αναζητούν ταυτόχρονα πολλές πηγές, είναι ότι ο χρήστης θα λάβει τουλάχιστον κάποια σχετική απάντηση και δε θα αποτραπεί από την έρευνά του. Αξίζει να σημειωθεί ότι οι τρέχουσες υλοποιήσεις συστημάτων μετααναζήτησης δίνουν ιδιαίτερη έμφαση σε προσεγγίσεις που παρέχουν σχετικά αποτελέσματα στο χρήστη αποφεύγοντας τις περιπτώσεις αποτυχημένων επερωτήσεων. Για το λόγο αυτό, οι κυριότερες εναλλακτικές υλοποιήσεις που εφαρμόζουν τα συστήματα αυτά περιλαμβάνουν: 1. Τον περιορισμό των χαρακτηριστικών επερώτησης στο ελάχιστο υποσύνολο με τα χαρακτηριστικά που υποστηρίζονται από όλες τις πηγές. 2. Αγνοούν τις πηγές που δεν υποστηρίζουν την επερώτηση.

23 Κεφάλαιο Επιτρέπουν στην πηγή να εκτελέσει την επερώτηση κάνοντας αυθαίρετες μετεγγραφές. Η πρώτη προσέγγιση περιορίζει τα χαρακτηριστικά αναζήτησης των πηγών, η δεύτερη περιορίζει τις διαθέσιμες πηγές, ενώ η τρίτη παράγει ασυνεπείς απαντήσεις. Η δεδομένη καθολική χρήση του πρωτοκόλλου Z39.50 στο χώρο των βιβλιοθηκών το καθιστά βασικό συντελεστή στην αποτελεσματικότητα και αποδοτικότητα των συστημάτων μετα-αναζήτησης. Ο μηχανισμός αναζήτησης του πρωτοκόλλου βασίζεται στη χρήση Συνόλων Γνωρισμάτων (Attribute Sets), τα οποία είναι συνδυασμός από προκαθορισμένα Σημεία Πρόσβασης (Abstract Access Points) με ειδικά γνωρίσματα που προσδιορίζουν τη δομή του. Σύμφωνα με τις απαιτήσεις συμβατότητας του Z39.50, το Σύνολο Γνωρισμάτων Bib-1 πρέπει να αναγνωρίζεται, χωρίς όμως να είναι απαραίτητη η πλήρης υλοποίησή του. Παρά την ύπαρξη και ευρεία χρήση του Z39.50 από την κοινότητα των βιβλιοθηκών, οι ποικίλες ή οι ελλιπείς υλοποιήσεις του από τις πηγές περιορίζουν σημαντικά τα χαρακτηριστικά αναζήτησης και ιδιαίτερα τα διαθέσιμα Σημεία Πρόσβασης. Στην πλειοψηφία τους, οι Z39.50 πηγές, όταν θα πρέπει να απαντήσουν μία επερώτηση που περιέχει ένα Σημείο Πρόσβασης το οποίο δεν υποστηρίζουν, υλοποιούν την πρακτική της αποτυχημένης επερώτησης. Ενδεικτικά αναφέρονται τα συστήματα διάθεσης των συλλογικών καταλόγων MELVYL1 και COPAC2, καθώς επίσης και το σύστημα καταλόγου Library and Archives Canada (LAC)3. Εναλλακτικά, το σύστημα διάθεσης της Library of Congress (LC)4 είναι ένα από τα συστήματα που έχουν υλοποιήσει την προσέγγιση της ασυνεπούς απάντησης. Κατά την ανάπτυξη ενός συστήματος μετα-αναζήτησης, το οποίο εφαρμόζει τις προαναφερθείσες τρέχουσες προσεγγίσεις υλοποίησης, θα τεθούν προβλήματα σχετικά με τη διαδικασία αναζήτησης. Το παράδειγμα που ακολουθεί είναι ενδεικτικό αυτών των προβλημάτων. Παράδειγμα 1.1: Ας θεωρήσουμε ότι αναπτύσσεται ένα σύστημα μετα-αναζήτησης για τις Z39.50 πηγές της Library of Congress, του συλλογικού καταλόγου COPAC και του καταλόγου της βιβλιοθήκης του Πανεπιστημίου Κρήτης. Τα Σημεία Πρόσβασης που υποστηρίζουν όλες οι πηγές είναι μόνο εννέα, όπως φαίνεται στον πίνακα Α.2 του

24 Κεφάλαιο 1 5 παραρτήματος Α, ο οποίος παρουσιάζει τα κοινά Σημεία Πρόσβασης. Αυτό συνεπάγεται ότι, για να υποστηρίζονται όλες οι επερωτήσεις του χρήστη από τις πηγές, το σύστημα μετα-αναζήτησης θα πρέπει να διαθέτει στο χρήστη -από το σύνολο των ενενήντα εννέα Σημείων πρόσβασης που ορίζει το Bib-1 Σύνολο Γνωρισμάτων του Z μόνο τα εννέα κοινά Σημεία Πρόσβασης που υποστηρίζουν όλες οι πηγές. Επιπροσθέτως, για την περίπτωση που είναι αναγκαίο οι χρήστες να θέσουν εξειδικευμένες επερωτήσεις και το σύστημα μετα-αναζήτησης έχει περιορίσει τα διαθέσιμα Σημεία Πρόσβασης το παράδειγμα που ακολουθεί είναι αντιπροσωπευτικό για τα προβλήματα που ανακύπτουν. Παράδειγμα 1.2: Με τις υποθέσεις του παραδείγματος 1.1 ας θεωρήσουμε επιπλέον ότι ένας χρήστης θέλει να αναζητήσει τα πρακτικά των συνεδρίων της IEEE και μόνον αυτά. Διευκρινίζεται ότι ο χρήστης δεν ενδιαφέρεται για άλλες εκδόσεις της IEEE, όπως είναι τεχνικές εκθέσεις, πρότυπα, κλπ. Το Z39.50 Bib-1 Σύνολο Γνωρισμάτων προβλέπει τη χρήση εξειδικευμένων επερωτήσεων και ειδικότερα το Σημείο Πρόσβασης Author-name-conference για τη συγκεκριμένη επερώτηση του χρήστη. Όπως δείχνει ο πίνακας Α.1 του παραρτήματος Α, μόνο ο συλλογικός κατάλογος COPAC υποστηρίζει το Σημείο Πρόσβασης. Σε περίπτωση που το σύστημα μετα-αναζήτησης διαθέτει για αναζήτηση στο χρήστη μόνο τα κοινά Σημεία Πρόσβασης από όλες τις πηγές, τότε το Author-name-conference δεν θα είναι διαθέσιμο, επομένως ο χρήστης δεν θα έχει τη δυνατότητα να εκφράσει πλήρως την εξειδικευμένη του επερώτηση. Αντίθετα, αν το σύστημα μετα-αναζήτησης διαθέτει για αναζήτηση ένα ευρύτερο σύνολο από τα κοινά Σημεία Πρόσβασης όλων των πηγών, περιλαμβάνοντας και το Author-name-conference, τότε η μοναδική συνεπής απάντηση που θα ικανοποιούσε το αίτημα του χρήστη θα προέλθει από το COPAC, που υποστηρίζει το Σημείο Πρόσβασης. Το σύστημα του Πανεπιστημίου Κρήτης δεν θα εκτελέσει την επερώτηση και θα επιστρέψει το αντίστοιχο μήνυμα σφάλματος (αποτυχημένη επερώτηση). Η πηγή Library of Congress, παρά το ότι δεν υποστηρίζει το Σημείο Πρόσβασης, θα εκτελέσει την επερώτηση, αντικαθιστώντας αυθαίρετα το Author-name-conference με ένα Σημείο Πρόσβασης που υποστηρίζει και χωρίς να ενημερώσει το χρήστη για την αντικατάσταση που έκανε (ασυνεπής απάντηση). Το πρόβλημα που προκαλούν οι ασυνεπείς απαντήσεις είναι ιδιαίτερα σοβαρό όσο

25 Κεφάλαιο 1 6 αυξάνεται ο αριθμός των πηγών που ακολουθούν αυτήν την πολιτική, αφού είναι δυνατό η τελική απάντηση να είναι σημασιολογικά εντελώς διαφορετική από εκείνη που έθεσε αρχικά ο χρήστης. Σύμφωνα με τα στατιστικά στοιχεία που παρουσιάζονται στο κεφάλαιο 2, υπάρχουν πολλές διαφορετικές υλοποιήσεις του πρωτοκόλλου Z Επίσης, όσο μεγαλύτερος είναι ο αριθμός των Z39.50 πηγών που συμμετέχουν σε ένα σύστημα μετα-αναζήτησης τόσο μειώνεται ο αριθμός των κοινών χαρακτηριστικών αναζήτησης. Επιπλέον, είναι πιθανόν να μην υπάρχει ένα Σημείο Πρόσβασης που να υποστηρίζεται από όλες τις πηγές που αναζητούνται από το σύστημα μετααναζήτησης. Εικόνα 1.1. Ένα απλοποιημένο αντιπροσωπευτικό δείγμα από το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης. Μια κύρια συνεισφορά της παρούσας διατριβής είναι η ανάπτυξη του Σημασιολογικού Δικτύου Σημείων Πρόσβασης (εικόνα 1.1), που είναι ένας γράφος σημασιολογικής συσχέτισης των Bib-1 Σημείων πρόσβασης, καθώς επίσης και η

26 Κεφάλαιο 1 σημασιολογική 7 μετεγγραφή των επερωτήσεων που περιλαμβάνουν μη υποστηριζόμενα Σημεία Πρόσβασης. Η μετεγγραφή βασίζεται στο Σημασιολογικό Δίκτυο Σημείων Πρόσβασης και η επερώτηση μετεγγράφεται είτε σε μία άλλη ισοδύναμη, αν αυτό είναι εφικτό, είτε σε ένα σύνολο επερωτήσεων που η ανάκληση και η ακρίβειά τους θα βρίσκονται σε ένα προκαθορισμένο εύρος ανοχής από αυτό της αρχικής. Η προσέγγιση του προβλήματος αυτού γίνεται χρησιμοποιώντας τη θέση κάθε Σημείου Πρόσβασης στο σημασιολογικό γράφο συσχετίσεων των Σημείων Πρόσβασης. Το παράδειγμα που ακολουθεί παρουσιάζει συνοπτικά τη λογική ανάπτυξης του Σημασιολογικού Δικτύου Σημείων Πρόσβασης, καθώς επίσης και των διαδικασιών μετεγγραφής μίας επερώτησης σε περίπτωση που περιλαμβάνει ένα Σημείο Πρόσβασης το οποίο δεν υποστηρίζει μία πηγή. Παράδειγμα 1.3: Ένα Σημείο Πρόσβασης που μπορεί να χρησιμοποιηθεί είναι το Author-Title-Subject υποδηλώνοντας ότι ο όρος αναζήτησης θα πρέπει να ταυτιστεί μόνο με πληροφορίες από τα πεδία Author ή Title ή Subject. Από την εικόνα 1.1, το Σημείο Πρόσβασης Author-Title-Subject μπορεί να θεωρηθεί υπερσύνολο των Σημείων Πρόσβασης Name, Title, Subject, Music-key και Identifier-thematic. Επίσης, το Author-Title-Subject μπορεί να θεωρηθεί υποσύνολο από το Σημείο Πρόσβασης Any. Σε περίπτωση επερώτησης με το Author-Title-Subject σε μια πηγή που δεν το υποστηρίζει, αυτό το Σημείο Πρόσβασης θα μπορούσε να αντικατασταθεί από την λογική ένωση των υποστηριζόμενων Σημείων Πρόσβασης Subject και Title (υποθέτουμε ότι η πηγή υποστηρίζει αυτά τα δύο Σημεία Πρόσβασης). Βέβαια, με τον τρόπο αυτό περιορίζονται τα αποτελέσματα της επερώτησης (συμπτύσσεται η σημασιολογία της). Εναλλακτικά, σε περίπτωση που είναι επιθυμητό να διευρυνθεί το σύνολο των αποτελεσμάτων, θα μπορούσε να αντικατασταθεί με το Any (διευρύνεται η σημασιολογία της επερώτησης). Ζητήματα που αφορούν την ενιαία και ομοιόμορφη πρόσβαση αυτόνομων πληροφοριακών πηγών έχουν μελετηθεί ευρύτατα και από την κοινότητα των βάσεων δεδομένων. Ειδικότερα, αρκετά συστήματα ολοκλήρωσης πληροφοριών που είναι συμβατά με το μοντέλο mediator-wrapper (Wiederhold, 1992; Ullman, 1997) έχουν αντιμετωπίσει ζητήματα που αφορούν την περιγραφή των παρεχομένων δυνατοτήτων επερώτησης από κάθε πηγή, καθώς επίσης και τη μετεγγραφή τους έτσι ώστε να είναι

27 Κεφάλαιο 1 8 δυνατή η εκτέλεσή τους από την πηγή. Ενδεικτικά αντιπροσωπευτικά συστήματα των διαφορετικών προσεγγίσεων στην αντιμετώπιση των ζητημάτων περιγραφής και μετεγγραφής επερωτήσεων θεωρούνται τα Information Manifold (Kirk et al., 1995), TSIMMIS (Chawathe et al., 1994), Garlic (Carey et al., 1995), DISCO (Tomasic et al., 1996). Παρά το ότι η παρουσίαση των εργασιών και των συστημάτων που έχουν αντιμετωπίσει συναφή προβλήματα με την παρούσα διατριβή γίνεται στο κεφάλαιο 7, στο σημείο αυτό αναφέρουμε ότι η παρούσα διατριβή διαφοροποιείται από τις εργασίες που αντιμετωπίζουν αντίστοιχα θέματα καθώς εστιάζει στην αυτόματη ανάκτηση και χρήση σημασιολογίας η οποία προκύπτει έμμεσα από τα μεταδεδομένα που υποστηρίζουν τα συστήματα διάθεσης. Σχετικά με τον επόμενο παράγοντα αποτελεσματικότητας ενός συστήματος μετα-αναζήτησης, κυρίαρχα ζητήματα είναι η συλλογή, η σύνθεση και η παρουσίαση των αποτελεσμάτων στο χρήστη στον ελάχιστο δυνατό χρόνο. Η συλλογή και σύνθεση όλων των αποτελεσμάτων αρχικά και στη συνέχεια η παρουσίασή τους στο χρήστη θεωρείται μη ρεαλιστική προσέγγιση, ιδιαιτέρως σε συστήματα που είτε συμμετέχουν πολλές πηγές είτε ο αριθμός των αποτελεσμάτων είναι μεγάλος. Η προσέγγιση αυτή, εκτός του ότι απαιτεί συνήθως αρκετά μεγάλο χρόνο για να υλοποιηθεί, το κυριότερο, περιορίζει την απόδοση του συστήματος μετα-αναζήτησης στο χρόνο της πιο αργής πηγής. Για το λόγο αυτό, η αρχιτεκτονική που προτείνεται βασίζεται στην ασύγχρονη τμηματική συλλογή και επεξεργασία μικρού αριθμού αποτελεσμάτων και στην όσο το δυνατό συντομότερη παρουσίαση μέρους τους στο χρήστη. Με τον τρόπο αυτό το σύστημα εκμεταλλεύεται την πιο αποδοτική πηγή και επεξεργάζεται τα επόμενα πακέτα απαντήσεων το διάστημα που ο χρήστης εξετάζει τα αποτελέσματα που έλαβε. Η σύνθεση των αποτελεσμάτων αναζήτησης βασίζεται στην οντότητα έργο (work) του εννοιολογικού μοντέλου Functional Requirements for Bibliographic Records (FRBR) (IFLA, 1998), το οποίο αναπτύχθηκε από την IFLA. Με την προσέγγιση αυτή δημιουργούνται συστάδες με ιεραρχική δομή από εγγραφές μεταδεδομένων που αναφέρονται στο ίδιο έργο, ανεξάρτητα από τη γλώσσα έκφρασης και την υλική υπόσταση του αντικειμένου που περιγράφεται από κάθε εγγραφή. Στην εικόνα 1.2 παρατίθεται ένα παράδειγμα σύνθεσης αποτελεσμάτων

28 Κεφάλαιο 1 9 βασισμένο στην FRBR Έργο-κεντρική προσέγγιση. Η σύνθεση της συστάδας του έργου έχει προκύψει από την ανάκτηση τεσσάρων εγγραφών. Οι εγγραφές αυτές εκφράζουν τεκμήρια σε δύο γλώσσες, Αγγλικά και Ισπανικά, ενώ υπάρχουν δύο διαφορετικές εκδόσεις για την έκφραση της αγγλικής γλώσσας. Ακολουθώντας την παραδοσιακή προσέγγιση ανίχνευσης και ταύτισης ομοίων εγγραφών, οι τέσσερις εγγραφές που ανακτήθηκαν θα είχαν ενοποιηθεί σε τρεις εγγραφές. Μία για την αγγλική έκδοση του 2002, μία άλλη για την επίσης αγγλική έκδοση του 1901 και τέλος μία για την ισπανική έκδοση του έργου. Στην περίπτωση αυτή, για το ίδιο έργο ο χρήστης θα έβλεπε τρεις διαφορετικές απαντήσεις, που πιθανότατα θα ήταν σε εντελώς διαφορετικές σελίδες εμφάνισης των αποτελεσμάτων. Εικόνα 1.2. Μία ιεραρχική FRBR Έργο-κεντρική συστάδα που περιλαμβάνει Εκφράσεις και Εκδηλώσεις από το συλλογικό κατάλογο MELVYL. 1.2 Στόχοι, διάρθρωση διατριβής Στόχος της παρούσας διατριβής είναι η ανάπτυξη ενός ενδιάμεσου συστήματος (mediator) από συλλογές συστημάτων διάθεσης συμβατών με το πρωτόκολλο Z39.50, το οποίο θα παρέχει τη δυνατότητα στο χρήστη να τις θεωρεί σαν έναν ενιαίο εικονικό κατάλογο Έργο-κεντρικών οντοτήτων, απαλλάσσοντάς τον από τη γνώση των επιμέρους λειτουργικών και σημασιολογικών διαφορών των υποκείμενων πηγών. Οι προτεινόμενες διαδικασίες και μέθοδοι στις οποίες βασίζεται η ανάπτυξη του ενδιάμεσου συστήματος μετα-αναζήτησης στοχεύουν στην έμμεση επίτευξη καλύτερης λειτουργικής και σημασιολογικής διαλειτουργικότητας χρησιμοποιώντας

29 Κεφάλαιο 1 10 τα κύρια χαρακτηριστικά επικοινωνίας και μεταδεδομένων των συστημάτων διάθεσης. Η ιδιαίτερη έμφαση που δίνεται στο πρωτόκολλο Z39.50, χωρίς να θυσιάζεται η γενικότητα και η δυνατότητα ευρύτερης χρήσης των μεθόδων, οφείλεται στην δεδομένη καθολική του χρήση στο χώρο των βιβλιοθηκών. Οι κύριες κατευθύνσεις μελέτης και συνεισφοράς της διατριβής αφορούν σε: Διαδικασίες προώθησης της επερώτησης στις πηγές καθώς επίσης και την ασύγχρονη τμηματική συλλογή και επεξεργασία των αποτελεσμάτων. Περιγραφή των χαρακτηριστικών αναζήτησης κάθε πηγής και τον έλεγχο για το αν η πηγή υποστηρίζει την εκάστοτε επερώτηση. Στην περίπτωση που η πηγή δεν υποστηρίζει την επερώτηση, η επερώτηση μετεγγράφεται είτε σε μία άλλη ισοδύναμη, αν αυτό είναι εφικτό, είτε σε ένα σύνολο επερωτήσεων που η ανάκληση και η ακρίβειά τους θα βρίσκονται σε ένα προκαθορισμένο εύρος ανοχής από αυτό της αρχικής. Η μετεγγραφή βασίζεται στο Σημασιολογικό Δίκτυο Σημείων Πρόσβασης, που προκύπτει έμμεσα από τη σημασιολογία των μεταδεδομένων με αυτόματες διαδικασίες. Ταύτιση και κατηγοριοποίηση των αποτελεσμάτων σε συστάδες σύμφωνα με την Έργο-κεντρική (work-entity) προσέγγιση του FRBR εννοιολογικού μοντέλου. Τα επόμενα κεφάλαια της διατριβής οργανώνονται ως ακολούθως: στο δεύτερο κεφάλαιο αναλύεται η δομή και τα εναλλακτικά μοντέλα μετα-αναζήτησης, με κύρια έμφαση στο μοντέλο του ενδιάμεσου (Middleware-Mediator model). Παρουσιάζονται τα υφιστάμενα πρωτόκολλα ανάκτησης πληροφοριών καθώς επίσης και τα κοινώς αποδεκτά και ευρέως χρησιμοποιούμενα βιβλιογραφικά πρότυπα κωδικοποίησης μεταδεδομένων στις βιβλιοθήκες. Αναλύεται το εννοιολογικό μοντέλο Functional Requirements for Bibliographic Records (FRBR) και παρουσιάζονται οι νέες κατευθύνσεις που θέτει η εφαρμογή του στην οργάνωση των βιβλιογραφικών δεδομένων. Οριοθετούνται οι λειτουργικές απαιτήσεις που πρέπει να πληρούν τα συστήματα μετα-αναζήτησης εστιάζοντας στα προβλήματα που επηρεάζουν την αποτελεσματικότητα και αποδοτικότητά τους στο περιβάλλον του ενδιάμεσου. Επιπροσθέτως, παρουσιάζονται τα χαρακτηριστικά αναζήτησης που υποστηρίζουν οι πηγές που είναι συμβατές με τα προαναφερθέντα μεταδεδομένα και πρωτόκολλα ανάκτησης και προσδιορίζονται οι αιτίες που ευθύνονται για τις αποτυχημένες

30 Κεφάλαιο 1 11 επερωτήσεις. Δίδεται έμφαση στα μοντέλα αναζήτησης που οι επερωτήσεις τους χρησιμοποιούν Αφηρημένα Σημεία Πρόσβασης (abstract access points) και παρουσιάζονται αφενός μεν οι επιπτώσεις από τα μη υποστηριζόμενα Σημεία Πρόσβασης αφετέρου δε στοιχεία για τη συχνότητα που τίθενται επερωτήσεις με μη υποστηριζόμενα Σημεία Πρόσβασης. Το Z39.50 Bib-1 Σύνολο Γνωρισμάτων (attribute set) είναι το βασικό σύνολο Σημείων Πρόσβασης που αναλύεται και μελετάται. Στο τρίτο κεφάλαιο προτείνεται μία αρχιτεκτονική για την υλοποίηση ενός συστήματος μετα-αναζήτησης σε επίπεδο ενδιάμεσου και ειδικότερα ενός εικονικού συλλογικού καταλόγου συστημάτων συμβατών με το πρωτόκολλο Z Η αρχιτεκτονική αυτή που αναπτύχθηκε στο πλαίσιο της παρούσας διατριβής βασίζεται στην ασύγχρονη μετεγγραφή και προώθηση της επερώτησης καθώς επίσης και στην τμηματική ανάκτηση και επεξεργασία των αποτελεσμάτων στο παρασκήνιο (background) κατά τη διάρκεια ανάγνωσης των αποτελεσμάτων από το χρήστη. Για κάθε πηγή πρώτα γίνεται έλεγχος αν η επερώτηση υποστηρίζεται από αυτήν. Στην περίπτωση που η πηγή δεν υποστηρίζει την επερώτηση, το σύστημα τη μετεγγράφει με μεθόδους που αναπτύχθηκαν και παρουσιάζονται σε επόμενες ενότητες της διατριβής. Στη συνέχεια, μόλις δημιουργηθούν οι πρώτες FRBR Έργο-κεντρικές συστάδες (clusters) από ένα μικρό αριθμό αποτελεσμάτων που θα ανακτηθεί αποστέλλονται (παρουσιάζονται) στον χρήστη. Ο αριθμός των αποτελεσμάτων που θα ανακτηθεί εξαρτάται από την αποδοτικότητα των πηγών. Το σύστημα συνεχίζει να ανακτά αποτελέσματα τα οποία είτε τα εντάσσει στις ήδη υπάρχουσες συστάδες είτε δημιουργεί νέες. Οι FRBR Έργο-κεντρικές συστάδες δεν είναι μόνο ομάδες όμοιων εγγραφών του ιδίου αντικειμένου αλλά ομάδες εγγραφών που αναφέρονται στο ίδιο έργο ενός δημιουργού, όπως ορίζει το αντικείμενο έργο (work-entity) του εννοιολογικού μοντέλου FRBR (conceptual model). Η περαιτέρω επεξεργασία της συστάδας που αφορά τη δημιουργία των λοιπών οντοτήτων που προβλέπει το μοντέλο γίνονται είτε από το διακομιστή, πριν σταλούν τα αποτελέσματα στο χρήστη, είτε από το σταθμό εργασίας που θα λάβει τα αποτελέσματα. Εφαρμόζοντας αυτήν τη διαδικασία το ενδιάμεσο σύστημα έχει στη διάθεσή του περισσότερο χρόνο για να εφαρμόσει πιο αποτελεσματικές διαδικασίες για τη διαχείριση των συστάδων και επιπλέον οι τυχόν καθυστερήσεις ή αδυναμίες απόκρισης των κατανεμημένων

31 Κεφάλαιο 1 12 συστημάτων θα επηρεάσουν κατά το λιγότερο δυνατόν την απόδοσή του. Συγκεκριμένα, η αρχική απόδοση του συστήματος θα καθορίζεται από την απόδοση της ταχύτερης πηγής και όχι από την απόδοση της βραδύτερης, ενώ ο συνολικός χρόνος απάντησης θα είναι συνάρτηση του χρόνου της βραδύτερης πηγής και όχι του αθροίσματος των χρόνων απόκρισης των πηγών. Μια προσέγγιση βασισμένη στη συντακτική περιγραφή των χαρακτηριστικών και τη μετεγγραφή των επερωτήσεων (grammar based mappings) αναπτύσσονται στο τέταρτο κεφάλαιο. Η μετεγγραφή των επερωτήσεων εξαρτάται από τις δυνατότητες αναζήτησης που έχει η εκάστοτε πηγή και προσδιορίζεται από ένα σύνολο κανόνων που περιγράφει ο διαχειριστής του συστήματος σε μια προκαθορισμένη γλώσσα περιγραφής κανόνων (rule-based language). Τα υποστηριζόμενα χαρακτηριστικά αναζήτησης απεικονίζονται από ένα σύνολο αποδεκτών επερωτήσεων από την πηγή (query templates) εκφρασμένες στην ενιαία γλώσσα επερωτήσεων του ενδιάμεσου (mediator), καθώς επίσης και τις αντίστοιχες μετεγγραφές τους στη γλώσσα επερωτήσεων της πηγής. Η περιγραφή γίνεται με την Relational Query Description Language που βασίζεται στην datalog. Στο πέμπτο κεφάλαιο, παρουσιάζονται οι εναλλακτικές διαδικασίες που αναπτύχθηκαν για τη μετεγγραφή κατά προσέγγιση των επερωτήσεων. Οι διαδικασίες μετεγγραφής βασίζονται στη σημασιολογική συσχέτιση των χαρακτηριστικών αναζήτησης που υποστηρίζει κάθε πηγή. Στο ίδιο κεφάλαιο ορίζεται και γίνεται η αναλυτική περιγραφή του τρόπου δημιουργίας και αναπαράστασης του Σημασιολογικού Δικτύου Σημείων Πρόσβασης. Το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης είναι ένας σημασιολογικός γράφος συσχέτισης των σημείων πρόσβασης εκφρασμένος σε γλώσσα RDFS. Η δημιουργία του προκύπτει από τις συσχετίσεις της σημασιολογίας των Σημείων Πρόσβασης και των μεταδεδομένων που τα ορίζουν και περιλαμβάνει τα Σημεία Πρόσβασης που ορίζονται στο Z39.50 Bib-1 Σύνολο Γνωρισμάτων. Ακολουθεί η αναλυτική περιγραφή της μεθόδου που αναπτύχθηκε για την κατά προσέγγιση σημασιολογική αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης περιλαμβάνει: (α) Τους αλγορίθμους αντικατάστασης μη υποστηριζόμενων Σημείων Πρόσβασης με διεύρυνση ή σύμπτυξη της σημασιολογίας του μη υποστηριζόμενου Σημείου Πρόσβασης. Στη συνέχεια, περιγράφεται και η αντίστοιχη βελτιστοποίηση της κάθε περίπτωσης, έτσι ώστε να προκύπτει το

32 Κεφάλαιο 1 13 πλησιέστερο σημασιολογικά σύνολο Σημείων Πρόσβασης με το αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης. (β) Ορίζονται τα κριτήρια μέτρησης της σημασιολογικής ομοιότητας μεταξύ Σημείων Πρόσβασης και (γ) Ορίζεται ο τύπος για τη βέλτιστη αντικατάσταση του Σημείου Πρόσβασης σύμφωνα με προεπιλογές που αφορούν την ανάκληση και ακρίβειά (recall, precision) του. Το κεφάλαιο ολοκληρώνεται με την παρουσίαση της υπηρεσίας ανοικτής πρόσβασης, που αναπτύχθηκε στο πλαίσιο της παρούσας διατριβής, για τη σημασιολογική αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης. Στο έκτο κεφάλαιο, παρουσιάζεται το σύστημα μετα-συνθέτης που αναπτύχθηκε προκειμένου να υλοποιηθούν οι μέθοδοι που παρουσιάστηκαν στα προηγούμενα κεφάλαια. Τόσο ο μετα-συνθέτης όσο και η υπηρεσία ανοικτής πρόσβασης για την αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης χρησιμοποιούν ένα προεπιλεγμένο σύνολο πηγών ελεύθερης πρόσβασης από όλο τον κόσμο. Το σύστημα μετα-συνθέτης δημιουργεί τις συστάδες από τα αποτελέσματα αναζήτησης σύμφωνα με την FRBR Έργο-κεντρική προσέγγιση. Η μέθοδος δημιουργίας των συστάδων καθώς επίσης και των απαιτούμενων εργαλείων (wrappers) για τη δημιουργία των κλειδιών ταύτισης των μεταδεδομένων αναπτύσσονται σε αυτή την ενότητα. Στο τελευταίο κεφάλαιο, παρουσιάζονται και σχολιάζονται τα αποτελέσματα από τη χρήση του μετα-συνθέτη σε πηγές παγκοσμίου ενδιαφέροντος όπως η Library of Congress, οι συλλογικοί κατάλογοι COPAC και MELVYL, κλπ, και γίνεται η παρουσίαση των εργασιών και των συστημάτων που έχουν αντιμετωπίσει συναφή προβλήματα με την παρούσα διατριβή. Η διατριβή ολοκληρώνεται με τη σύνοψη των αποτελεσμάτων της, καθώς επίσης και με μια σύντομη αναφορά σε ενδιαφέροντα ζητήματα για μελλοντική έρευνα.

33 Κεφάλαιο 2 Συστήματα ενιαίας πρόσβασης στο περιβάλλον των βιβλιοθηκών Η ανάπτυξη των βιβλιοθηκών, ψηφιακών ή παραδοσιακών, σε συνδυασμό με άλλα πληροφοριακά συστήματα άμεσης πρόσβασης, προσφέρει στο χρήστη έναν τεράστιο πλούτο πληροφορίας και γνώσης. Αξίζει να σημειωθεί ότι στο τέλος του 20 ου αιώνα είχαν ήδη αναπτυχθεί οι μέθοδοι και οι τεχνολογίες που επέτρεπαν στις βιβλιοθήκες να διαθέτουν τους καταλόγους του υλικού τους στο κοινό μέσω του διαδικτύου. Οι κατάλογοι αυτοί, γνωστοί ως OPACs (Online Public Access Catalogues), μέσα σε λίγα χρόνια αποτέλεσαν αυτονόητη υπηρεσία για το σύνολο των βιβλιοθηκών. Επιπροσθέτως, η εξέλιξη της τεχνολογίας και η πληθώρα του υλικού που υπήρχε σε ψηφιακή μορφή έφερε στο προσκήνιο την ανάγκη της διάθεσης στους χρήστες όχι μόνο του καταλόγου αλλά και του ίδιου του υλικού. Αυτή η ποικιλομορφία της πληροφορίας, σε συνδυασμό με την ετερογένεια και την πολυπλοκότητα των συστημάτων που τη διαθέτουν, δημιουργεί στους χρήστες δυσκολίες να εντοπίσουν την κατάλληλη πηγή καθώς και να αναζητήσουν και να ανακτήσουν την πληροφορία που τους ενδιαφέρει. Με δεδομένη την ύπαρξη και άλλων πηγών πληροφόρησης στο διαδίκτυο, το πρόβλημα αυτό γίνεται ολοένα και εντονότερο τόσο λόγω της συνεχώς αυξανόμενης διαθέσιμης πληροφορίας όσο και των συστημάτων διάθεσής της (Bergman, 2001). 14

34 Κεφάλαιο 2 15 Τα συστήματα ενιαίας πρόσβασης είναι οι προσεγγίσεις που στοχεύουν να απαλλάξουν το χρήστη από την πολυπλοκότητα που δημιουργείται στην πρόσβαση των πληροφοριακών πηγών ένεκα του μεγάλου αριθμού και της ετερογένειάς τους. Η αποτελεσματικότητα ενός συστήματος ενιαίας πρόσβασης καθορίζεται από τη δυνατότητα του να: γνωρίζει που βρίσκονται οι πηγές πληροφόρησης και ποια είναι τα χαρακτηριστικά των συστημάτων που τις διαθέτουν, παρέχει ενιαίο τρόπο επερώτησης και πρόσβασης, συνθέτει τις πληροφορίες από τις πηγές πληροφόρησης σε μία ενιαία οντότητα. Ο βαθμός δυσκολίας που απαιτεί η υλοποίηση ενός συστήματος ενιαίας πρόσβασης καθορίζεται από το επίπεδο διαλειτουργικότητας των πληροφοριακών πηγών που συμμετέχουν σε αυτό, ενώ η χρήση κοινών προτύπων από τις πηγές εξισορροπεί τις παραμέτρους λειτουργικότητας και ευκολίας υλοποίησης του συστήματος. Τα συστήματα ενιαίας πρόσβασης, ανάλογα με το μοντέλο πρόσβασης που υλοποιούν, ταξινομούνται σε δύο κύριες κατηγορίες, χωρίς να είναι αδύνατος ο συνδυασμός τους σε υβριδικές προσεγγίσεις. Η πρώτη προσέγγιση, η οποία αναφέρεται ως συγκομιδή, συγκεντρώνει τους πόρους ή τις περιγραφές τους (μεταδεδομένα) σε ένα κεντρικό σύστημα από όπου και τους διαθέτει. Στο μοντέλο αυτό οι επερωτήσεις που τίθενται στο σύστημα απαντώνται από τη μηχανή αναζήτησης του ενιαίου συστήματος πρόσβασης. Τυπικά παραδείγματα της απλούστερης εφαρμογής αυτού του μοντέλου είναι η συγκέντρωση, η ευρετηρίαση και η διάθεση HTML σελίδων από τις γνωστές μηχανές αναζήτησης Google και Yahoo!. Ενώ η συγκομιδή των HTML σελίδων θεωρείται ως η ευκολότερη και με λιγότερο κόστος προσέγγιση, ένας ολοένα και αυξανόμενος αριθμός πηγών είναι κρυμμένος πίσω από πληροφοριακά συστήματα που διαθέτουν τους πόρους τους μέσα από προκαθορισμένες διαδικασίες και γλώσσες επερωτήσεων, χωρίς να παρέχουν καμία δυνατότητα άμεσης πρόσβασης στους πόρους και τη δομή τους (Bergman, 2001). Παρά το γεγονός ότι τα περισσότερα από αυτά τα συστήματα διαθέτουν τους πόρους τους δια μέσω HTML σελίδων, η ευρετηρίαση αυτών των HTML σελίδων από τις μηχανές αναζήτησης είναι αδύνατη λόγω της προσωρινής

35 Κεφάλαιο 2 16 ύπαρξής τους. Αυτές οι σελίδες υπάρχουν μόνο κατά τη διάρκεια του εκάστοτε κύκλου πρόσβασης, σαν αποκρίσεις του συστήματος σε επερωτήσεις. Ένα πιο εξελιγμένο και πολύπλοκο σύστημα που ξεπερνά το πρόβλημα των κρυμμένων πόρων και ακολουθεί το μοντέλο της συγκομιδής είναι το σύστημα MARIAN. Το σύστημα MARIAN παρέχει ενιαία πρόσβαση σε μία μεγάλη συλλογή μεταδεδομένων διατριβών, την οποία συλλέγει από ένα μεγάλο αριθμό κατανεμημένων πηγών σε όλο τον κόσμο (Gonçalves et al., 2001). Για να γίνει η συγκομιδή των πληροφοριών, το σύστημα κάνει επερωτήσεις στα επιμέρους συστήματα διάθεσης πληροφοριών. Στη συνέχεια, μετατρέπει τα δεδομένα σε ένα ενιαίο σχήμα, τα ευρετηριάζει και τα διαθέτει από το δικό του σύστημα διάθεσης. Σε αντίθεση με τη συλλογή των HTML σελίδων, όπου τα δεδομένα είναι άμεσα διαθέσιμα και προσβάσιμα, στην περίπτωση του MARIAN δεν υπάρχει άμεση πρόσβαση στα δεδομένα ώστε να καταστεί δυνατή η συγκομιδή από τις πηγές. Στην περίπτωση αυτή, η συλλογή των δεδομένων γίνεται από τα αποτελέσματα ανάκτησης των επερωτήσεων που κάνει το σύστημα στις πηγές. Λόγω της ετερογένειας των συστημάτων διάθεσης, το MARIAN αρχικά μετεγγράφει και προσαρμόζει την εκάστοτε επερώτηση στα χαρακτηριστικά κάθε τοπικού συστήματος ώστε να είναι δυνατή η εκτέλεση της επερώτησης από το τοπικό σύστημα. Επιπροσθέτως, για κάθε διαφορετική διάταξη κωδικοποίησης μεταδεδομένων που εφαρμόζουν οι πηγές, το MARIAN έχει υλοποιήσει και τον κατάλληλο μεταφραστή που θα μετατρέπει τα μεταδεδομένα από τη διάταξη της πηγής στο ενιαίο σχήμα. Δεδομένου ότι οι διαδικασίες της συγκομιδής δε γίνονται σε πραγματικό χρόνο, υπάρχει η δυνατότητα να εφαρμοστούν αρκετά σύνθετες και αποτελεσματικές διαδικασίες συγκέντρωσης και σύνθεσης, έτσι ώστε η τελική πρόσβαση στα δεδομένα αφενός μεν να είναι αρκετά αποδοτική, αφετέρου δε να μην επηρεάζεται από την προσωρινή έλλειψη διαθεσιμότητας κάποιας πηγής. Παρά το γεγονός ότι το μοντέλο της συγκομιδής θεωρείται αρκετά αποτελεσματικό και αποδοτικό, δεν μπορεί να εφαρμοστεί πάντοτε για την ενιαία πρόσβαση σε όλες τις πληροφοριακές πηγές. Οι κυριότεροι λόγοι που καθιστούν πολύ δύσκολη έως και απαγορευτική την εφαρμογή του αφορούν είτε τον τεράστιο όγκο δεδομένων που θα συγκεντρωθεί από τη συγκομιδή είτε τον τύπο των δεδομένων είτε τις πολιτικές διάθεσης που εφαρμόζει η εκάστοτε πηγή. Αξίζει να σημειωθεί ότι κατά

36 Κεφάλαιο 2 17 τη μετατροπή των δεδομένων στο ενιαίο σχήμα του συστήματος, πολύ συχνά καταργούνται αρκετά από τα ιδιαίτερα χαρακτηριστικά που περιλαμβάνουν τα δεδομένα κάθε πηγής. Σε αντίθεση με το μοντέλο της συγκομιδής, η δεύτερη προσέγγιση γνωστή με διάφορες ονομασίες όπως μετα-αναζήτηση, Federated Search, παράλληλη αναζήτηση, κλπ, δε συγκεντρώνει τους πόρους από τις πηγές, αλλά, σε περιβάλλον άμεσης επικοινωνίας, προωθεί τις επερωτήσεις στα συστήματα αναζήτησης των πηγών και στη συνέχεια ενοποιεί και παρουσιάζει τα αποτελέσματα αναζήτησης που θα λάβει από αυτές. Η παρούσα διατριβή πραγματεύεται προβλήματα της εφαρμογής του μοντέλου μετα-αναζήτησης, με ιδιαίτερη έμφαση στο περιβάλλον των βιβλιοθηκών που εφαρμόζουν συστήματα διάθεσης συμβατά με το πρωτόκολλο Z Στην αμέσως επόμενη ενότητα 2.1 γίνεται η παρουσίαση του μοντέλου μετα-αναζήτησης. Ακολουθεί η περιγραφή των χαρακτηριστικών αναζήτησης και ανάκτησης του πρωτοκόλλου Z39.50 και στη συνέχεια εξειδικεύονται τα προβλήματα που προκύπτουν από την εφαρμογή του μοντέλου μετα-αναζήτησης στο περιβάλλον του πρωτοκόλλου. 2.1 Μετα-αναζήτηση Μετα-αναζήτηση είναι η διαδικασία αναζήτησης πολλαπλών πληροφοριακών πηγών από ένα κεντρικό σημείο πρόσβασης και η επιστροφή ενός ενιαίου και ομοιόμορφου συνόλου αποτελεσμάτων. Ειδικότερα, ένα σύστημα μετα-αναζήτησης παρέχει: μια κεντρική διεπαφή επερωτήσεων διαμέσου της οποίας είναι δυνατή η αναζήτηση συναφών συστημάτων που καλύπτουν τις πληροφοριακές ανάγκες των χρηστών, ένα εσωτερικό μοντέλο αναπαράστασης, στο οποίο μετατρέπει και ενοποιεί τα αποτελέσματα των επερωτήσεων, έτσι ώστε να είναι δυνατή η ενιαία και ομοιόμορφη διάθεσή τους. Ο εικονικός συλλογικός κατάλογος που διατίθεται από το συνδυασμό του InforM25 Z39.50 διακομιστή και του Copac-M25 interface (Cousins and Sanders, 2006) είναι ένα τυπικό παράδειγμα εφαρμογής του μοντέλου στο περιβάλλον των βιβλιοθηκών,

37 Κεφάλαιο 2 18 ενώ οι μηχανές μετα-αναζήτησης Vivisimo5 και A96 είναι παραδείγματα από το ευρύτερο περιβάλλον πηγών του διαδικτύου. Μια επισκόπηση και παρουσίαση των κυριοτέρων χαρακτηριστικών των πιο δημοφιλών συστημάτων μετα-αναζήτησης γίνεται από τους Manoj και Jacob (2008) και τους Zhang και Cheung (2003), ενώ μια συγκριτική μελέτη των συστημάτων βασισμένη στα χαρακτηριστικά αναζήτησης που υποστηρίζουν γίνεται από το Moghaddam (2007). Ένα σύστημα μετα-αναζήτησης για να εκτελέσει μια επερώτηση και να συνθέσει ένα ενιαίο σύνολο αποτελεσμάτων διενεργεί τις ακόλουθες λειτουργίες: αποδοχή της επερώτησης στη γλώσσα του συστήματος μετα-αναζήτησης, δημιουργία της αντίστοιχης επερώτησης στη γλώσσα κάθε πηγής μετεγγράφοντας την επερώτηση από τη γλώσσα του συστήματος μετααναζήτησης στην αντίστοιχη γλώσσα επερωτήσεων της πηγής, προώθηση σε κάθε πηγή της επερώτησης με την κατάλληλη μετεγγραφή και ενεργοποίηση της τοπικής διαδικασίας αναζήτησης, ανάκτηση αποτελεσμάτων, δηλαδή ενεργοποίηση της διαδικασίας ανάκτησης της κάθε πηγής για την ανάκτηση καθορισμένου συνόλου εγγραφών, επεξεργασία και σύνθεση των ανακτηθέντων αποτελεσμάτων σε ένα ενιαίο σύνολο, και τέλος παρουσίαση των αποτελεσμάτων. Είναι φανερό ότι το σύστημα μετα-αναζήτησης για να μετεγγράψει την επερώτηση από τη γλώσσα που διαθέτει στην αντίστοιχη γλώσσα κάθε πηγής, θα πρέπει να γνωρίζει τα χαρακτηριστικά αναζήτησης που υποστηρίζει η πηγή. Σε ένα σύστημα μετα-αναζήτησης είναι αρκετά συνηθισμένο να μην είναι δυνατή η μετεγγραφή της αρχικής επερώτησης σε μια ισοδύναμη, ιδιαίτερα σε περιπτώσεις που ο αριθμός των πηγών που συμμετέχουν στο σύστημα είναι μεγάλος. Στην περίπτωση που δεν είναι δυνατή η μετεγγραφή σε μία ισοδύναμη επερώτηση, η πιο συνήθης πρακτική που υλοποιείται από τα συστήματα μετα-αναζήτησης είναι ο περιορισμός των χαρακτηριστικών αναζήτησης των πηγών στο σύνολο με τα ελάχιστα κοινά χαρακτηριστικά αναζήτησης που υποστηρίζουν όλες οι πηγές. Σε άλλες περιπτώσεις, τα συστήματα μετα-αναζήτησης είτε αγνοούν τις πηγές που δεν

38 Κεφάλαιο 2 19 υποστηρίζουν την επερώτηση και δεν την αποστέλλουν είτε επιτρέπουν στην πηγή να μετεγγράψει αυθαίρετα την επερώτηση και στη συνέχεια να την εκτελέσει. Όπως έχει ήδη αναφερθεί, η πρώτη προσέγγιση, παρότι είναι η απλούστερη σε υλοποίηση, περιορίζει τα χαρακτηριστικά αναζήτησης των πηγών, η δεύτερη περιορίζει τις διαθέσιμες πηγές, ενώ η τρίτη παράγει ασυνεπείς απαντήσεις. Ειδικότερα στην περίπτωση της αυθαίρετης μετεγγραφής της επερώτησης, το σύστημα μετα-αναζήτησης δε γνωρίζει ποια είναι η ακριβής σημασιολογία της ασυνεπούς απάντησης ενώ στην περίπτωση που υπάρχουν περισσότερες από μία διαφορετικές αυθαίρετες μετεγγραφές, η σημασιολογία του τελικού συνόλου αποτελεσμάτων είναι πιθανό να είναι αρκετά διαφορετική από τη σημασιολογία της αρχικής επερώτησης. Το κυριότερο, το σύστημα δεν έχει καμία δυνατότητα να προσδιορίσει τη σημασιολογική διαφορά μεταξύ των αποτελεσμάτων που έλαβε από την πηγή και των αντίστοιχων αποτελεσμάτων της αρχικής επερώτησης. Αυτό έχει ως συνέπεια την αδυναμία του συστήματος να αποφασίσει εάν θα επεξεργαστεί τα αποτελέσματα που έλαβε από την πηγή ή θα ενημερώσει το χρήστη για την αλλαγή της σημασιολογίας της επερώτησης Μετεγγραφή κατά προσέγγιση Σε περίπτωση που δεν είναι δυνατή η μετεγγραφή της αρχικής επερώτησης σε μία ισοδύναμη, το πρόβλημα που προκαλεί η αυθαίρετη μετεγγραφή από την πηγή μπορεί να βελτιωθεί σημαντικά αν το σύστημα μετα-αναζήτησης έχει τη δυνατότητα να μετεγγράψει την επερώτηση σε μία άλλη που να υποστηρίζεται από την πηγή και να έχει τη μεγαλύτερη δυνατή σημασιολογική συνάφεια με την αρχική. Μετεγγράφοντας την επερώτηση το σύστημα μετα-αναζήτησης γνωρίζει πόσο διαφέρει σημασιολογικά η προκύπτουσα επερώτηση από την αρχική, οπότε έχει τα δεδομένα για να επιλέξει τη βέλτιστη διαδικασία που θα ακολουθήσει. Τα αποτελέσματα μιας μετεγγραφής κατά προσέγγιση, όπως φαίνεται στην εικόνα 2.1, είναι δυνατόν να περιλαμβάνουν αφενός μεν περιπτώσεις που δεν περιλαμβάνονται στα αποτελέσματα της αρχικής επερώτησης (λάθος θετικά7), αφετέρου δε να παραλείπουν περιπτώσεις που περιλαμβάνονται στα αποτελέσματα 7 false positives.

39 Κεφάλαιο 2 20 της αρχικής επερώτησης (λάθος αρνητικά8). Για να μετρηθεί η απόκλιση του συνόλου των αποτελεσμάτων της αρχικής επερώτησης από το σύνολο της επερώτησης που προέκυψε από την μετεγγραφή, χρησιμοποιούνται οι μετρικές ακρίβεια (P) και ανάκληση (R) που ορίζονται ως εξής. Έστω: a) Q είναι το σύνολο των αποτελεσμάτων από την αρχική επερώτηση U, b) S είναι το σύνολο των αποτελεσμάτων από την επερώτηση Ui που είναι η μετεγγραφή κατά προσέγγιση της επερώτησης U για την πηγή i, τότε: η ακρίβεια είναι Q S, S (1) Q S. Q (2) P= ενώ η ανάκληση είναι R= Όπως φαίνεται και από την εικόνα 2.1, η ακρίβεια εκφράζει την αναλογία των σωστών περιπτώσεων σε σχέση με τα αποτελέσματα της μετεγγραφής κατά προσέγγιση ενώ η ανάκληση την αναλογία των σωστών περιπτώσεων σε σχέση με τα αποτελέσματα της αρχικής επερώτησης. Εικόνα 2.1. Αναπαράσταση αποτελεσμάτων αρχικής επερώτησης Q και μετεγγραμμένης κατά προσέγγιση επερώτησης S. 8 false negatives.

40 Κεφάλαιο 2 21 Οι τιμές της ακρίβειας και ανάκλησης είναι μεταξύ του κλειστού διαστήματος [0 : 1], ενώ όσο προσεγγίζουν την τιμή 1, δηλαδή το S προσεγγίζει το Q άρα Q S Q, τόσο πλησιέστερη είναι η σημασιολογία της μετεγγραμμένης κατά προσέγγιση επερώτησης με την αρχική. Στην περίπτωση που και οι δύο τιμές ισούνται με 1, ουσιαστικά πρόκειται για σημασιολογικά ισοδύναμες επερωτήσεις. Επιπροσθέτως, μεγαλύτερη ανάκληση συνεπάγεται λιγότερα λάθος αρνητικά, ενώ μεγαλύτερη ακρίβεια συνεπάγεται λιγότερα λάθος θετικά. Όπως έχει ήδη αναφερθεί, ζητήματα που αφορούν την ομοιόμορφη πρόσβαση αυτόνομων πληροφοριακών συστημάτων, τα οποία θα περιγραφούν αναλυτικότερα στο κεφάλαιο 7, έχουν μελετηθεί συστηματικά και από την κοινότητα των βάσεων δεδομένων. Μεταξύ των κοινών θεμάτων είναι και η μετεγγραφή επερωτήσεων, συμπεριλαμβανομένων και διαδικασιών προσεγγιστικών μετεγγραφών ή, όπως ειδικότερα αναφέρονται, διαδικασιών χαλάρωσης επερωτήσεων. Μία από τις συνεισφορές της παρούσας διατριβής είναι και η κατά προσέγγιση σημασιολογική μετεγγραφή των επερωτήσεων. Χρησιμοποιώντας το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης ανιχνεύονται μετεγγραφές που είτε επεκτείνουν είτε συμπτύσσουν τη σημασιολογία της αρχικής επερώτησης. Στην ενότητα γίνεται εξειδίκευση των θεμάτων της μετεγγραφής κατά προσέγγιση με τη χρήση σημασιολογίας στο περιβάλλον του Z39.50 ενώ η προτεινόμενη περιγραφή των μεθόδων για τη σημασιολογική μετεγγραφή παρατίθεται στο κεφάλαιο Ταξινόμηση συστημάτων μετα-αναζήτησης Σύμφωνα με το λογικό διαχωρισμό των διαδικασιών Τα συστήματα μετα-αναζήτησης ανάλογα με το λογικό διαχωρισμό των διαδικασιών που υλοποιούν διακρίνονται σε αυτά της αρχιτεκτονικής 2-επιπέδων και σε εκείνα της αρχιτεκτονικής περισσοτέρων επιπέδων. Ένα σύστημα αρχιτεκτονικής 2-επιπέδων, εικόνα 2.2, δέχεται άμεσα τις επερωτήσεις του χρήστη, στη συνέχεια τις μετεγγράφει και τις προωθεί στις πηγές, ενώ μόλις λάβει τις απαντήσεις συνθέτει τα αποτελέσματα

41 Κεφάλαιο 2 22 σε ένα ενιαίο σύνολο, το οποίο και παρουσιάζει στο χρήστη. Η αρχιτεκτονική αυτή χρησιμοποιείται συνήθως σε συστήματα που λειτουργούν σε σταθμούς εργασίας και εξυπηρετούν ανάγκες μεμονωμένων χρηστών. Χαρακτηριστικός αντιπρόσωπος της αρχιτεκτονικής 2-επιπέδων που λειτουργεί σε σταθμό εργασίας είναι το σύστημα μετα-αναζήτησης Copernic9. Εικόνα 2.2. Αρχιτεκτονική συστήματος μετα-αναζήτησης. Παρά το γεγονός ότι τα συστήματα που λειτουργούν σε σταθμούς εργασίας καταναλώνουν τους πόρους του σταθμού εργασίας και έχουν τη δυνατότητα εφαρμογής αποτελεσματικότερων διαδικασιών αναζήτησης και σύνθεσης αποτελεσμάτων, οι απαιτήσεις τους για ειδικές προϋποθέσεις λογισμικού και διαδικασιών ενημέρωσης θεωρούνται σοβαρά μειονεκτήματα. Επιπροσθέτως, αν και η αρχιτεκτονική των 2-επιπέδων θεωρείται η ευκολότερη στην υλοποίησή της, το κυριότερο μειονέκτημά της είναι η αδυναμία του συστήματος να συμμετέχει σε ευρύτερα περιβάλλοντα που συνθέτουν περαιτέρω υπηρεσίες. Η αρχιτεκτονική του ενδιάμεσου, εικόνα 2.3, είναι η γενίκευση της αρχιτεκτονικής των 2-επιπέδων με περισσότερα από δύο επίπεδα. Εφαρμόζεται σε συστήματα που λειτουργούν σε διακομιστή και είναι η αρχιτεκτονική που εφαρμόζει η πλειοψηφία των συστημάτων μετα-αναζήτησης. Ενώ η υλοποίηση της αρχιτεκτονικής του ενδιάμεσου είναι πολυπλοκότερη από την αρχιτεκτονική των 29

42 Κεφάλαιο 2 23 επιπέδων, θεωρείται αρκετά πιο ευέλικτη, επεκτάσιμη και καταλληλότερη για την ανάπτυξη συστημάτων ευρύτερης κλίμακας. Εικόνα 2.3. Αρχιτεκτονική ενδιάμεσου. Ειδικότερα, σύμφωνα με την αρχιτεκτονική του mediator-wrapper (Wiederhold, 1992; Ullman, 1997), ο ενδιάμεσος (mediator) δέχεται επερωτήσεις από το χρήστη ή από μία άλλη εφαρμογή στη γλώσσα επερωτήσεων που υποστηρίζει. Στη συνέχεια, γνωρίζοντας τα χαρακτηριστικά των επερωτήσεων που μπορεί να απαντήσει ο wrapper, μετεγγράφει την επερώτηση σε ένα σύνολο επερωτήσεων που υποστηρίζονται από το wrapper και τις προωθεί σε αυτόν. Τέλος, ο wrapper μετεγγράφει την επερώτηση στη γλώσσα κάθε πηγής και την προωθεί σε αυτή. Σύμφωνα με την προσέγγιση αυτή, ένας ενδιάμεσος είναι δυνατόν να θεωρηθεί σαν ένας wrapper στα υποσυστήματα του υψηλότερου επιπέδου Σύμφωνα με τις παρεχόμενες υπηρεσίες Μια περαιτέρω κατηγοριοποίηση των συστημάτων μετα-αναζήτησης ορίζεται λαμβάνοντας υπόψη τις υπηρεσίες που παρέχουν. Τα συστήματα που δε συνθέτουν τα αποτελέσματα από τις πηγές σε ένα ενιαίο σύνολο αποτελεσμάτων αλλά απλά τα παραθέτουν ή τα ομαδοποιούν κατά πηγή απαρτίζουν την κατηγορία των ψευδο-

43 Κεφάλαιο 2 24 συστημάτων μετα-αναζήτησης. Αντίθετα, τα συστήματα που συνθέτουν τα αποτελέσματα από τις πηγές σε ένα ενιαίο σύνολο αποτελεσμάτων απαρτίζουν την κατηγορία των πραγματικών συστημάτων μετα-αναζήτησης. Είναι προφανές ότι τα πραγματικά συστήματα μετα-αναζήτησης υπερτερούν σε αποτελεσματικότητα έναντι των ψευδο-συστημάτων αλλά σε αρκετές περιπτώσεις λόγοι αποδοτικότητας επιβάλουν την υιοθέτηση των ψευδο-συστημάτων μετααναζήτησης. Εκτενής επισκόπηση και κατηγοριοποίηση με βάση τα χαρακτηριστικά των κυριοτέρων συστημάτων μετα-αναζήτησης γίνεται στις εργασίες που περιγράφουν οι Manoj και Jacob (2008) και Moghaddam (2007) και Zhang και Cheung (2003) Αποδοτικότητα σε σχέση με την επίδοση χρόνου Σύμφωνα με τις διαδικασίες που υλοποιεί ένα σύστημα μετα-αναζήτησης για να απαντήσει μια επερώτηση, οι παράγοντες που προσδιορίζουν την αποδοτικότητά του σε σχέση με την παράμετρο του χρόνου είναι: ο χρόνος απόκρισης κάθε πηγής στις επερωτήσεις, ο χρόνος ανάκτησης των αποτελεσμάτων από τις πηγές, η πολυπλοκότητα της επεξεργασίας και σύνθεσης των αποτελεσμάτων. Ο πρώτος παράγοντας καθορίζεται αποκλειστικά από την αποδοτικότητα της υπηρεσίας αναζήτησης κάθε πηγής ενώ ο δεύτερος τόσο από την αποδοτικότητα της υπηρεσίας ανάκτησης κάθε πηγής όσο και από την αποδοτικότητα του δικτύου επικοινωνίας. Τέλος, ο τρίτος παράγοντας καθορίζεται αποκλειστικά και μόνο από την πολυπλοκότητα που εφαρμόζει το σύστημα μετα-αναζήτησης στη σύνθεση και επεξεργασία των αποτελεσμάτων. Αξίζει να σημειωθεί ότι οι δύο πρώτοι παράγοντες εκτός από την άμεση επίδραση πού έχουν στην απόδοση του συστήματος σχετικά με την αναζήτηση και ανάκτηση των αποτελεσμάτων επηρεάζουν έμμεσα και την ποιότητα της σύνθεσης και επεξεργασίας τους, δεδομένου ότι όσο περισσότερο χρόνο διαθέτει το σύστημα μετα-αναζήτησης για την επεξεργασία των αποτελεσμάτων τόσο αποτελεσματικότερη μπορεί να είναι η σύνθεσή τους σε ένα ενιαίο σύνολο. Η συσχέτιση των τριών προαναφερομένων παραμέτρων με την αποδοτικότητα του συστήματος μετα-αναζήτησης καθορίζεται από το μοντέλο επεξεργασίας που

44 Κεφάλαιο 2 25 υλοποιούνται οι διαδικασίες της αναζήτησης, της ανάκτησης και της επεξεργασίας των αποτελεσμάτων. Τα βασικά μοντέλα υλοποίησης των διαδικασιών είναι το: Το σειριακό, δηλαδή η επερώτηση αποστέλλεται στην επόμενη πηγή εφόσον έχει απαντήσει η προηγούμενη. Ομοίως, η ανάκτηση των αποτελεσμάτων από μία πηγή αρχίζει μόλις ολοκληρωθεί η ανάκτηση των αποτελεσμάτων από την προηγούμενη, ενώ στη βασική μορφή του μοντέλου η κάθε διαδικασία αρχίζει με τη λήξη της προηγούμενης. Σε μία τυπική υλοποίηση του μοντέλου, ένα σύστημα μετα-αναζήτησης αρχικά προωθεί την επερώτηση σε κάθε πηγή για να την εκτελέσει, στη συνέχεια ανακτά τα αποτελέσματα κάθε απάντησης και, τέλος, επεξεργάζεται και συνθέτει τα αποτελέσματα σε ένα ενιαίο σύνολο αποτελεσμάτων. Το παράλληλο, δηλαδή η επερώτηση αποστέλλεται ταυτόχρονα σε όλες τις πηγές και αναμένονται τα αποτελέσματα. Ομοίως, η ανάκτηση των αποτελεσμάτων γίνεται ταυτόχρονα από όλες τις πηγές, καθώς επίσης η κάθε διαδικασία μπορεί να αρχίσει είτε μετά την ολοκλήρωση της προηγούμενης και ακολουθώντας τη διάταξη αναζήτηση, ανάκτηση και επεξεργασία αποτελεσμάτων είτε υπό προϋποθέσεις, ανεξάρτητα από την ολοκλήρωση της άλλης. Ανάλογα με το περιβάλλον λειτουργίας ενός συστήματος μετα-αναζήτησης, η απόδοσή του είναι δυνατόν να αποτιμηθεί από τα μεγέθη που υπολογίζουν: το συνολικό χρόνο P που απαιτείται για να ολοκληρωθούν οι διαδικασίες αναζήτησης, ανάκτησης και επεξεργασίας όλων των δεδομένων και (συνολική απόδοση) τον ελάχιστο χρόνο P0 που απαιτείται για να είναι δυνατή η εμφάνιση μερικών αποτελεσμάτων στον χρήστη (απόδοση μερικών αποτελεσμάτων). Έστω ότι si ο χρόνος αναζήτησης και ri ο χρόνος ανάκτησης των αποτελεσμάτων από την πηγή i. Ο χρόνος επεξεργασίας της εγγραφής r είναι cr και t το σύνολο των εγγραφών. Ο συνολικός χρόνος επεξεργασίας όλων των εγγραφών προσδιορίζεται από τη σχέση: ' t C = c j j=1 (3)

45 Κεφάλαιο 2 26 Για τη σειριακή επεξεργασία, ο συνολικός χρόνος αναζήτησης Ss και ο συνολικός χρόνος ανάκτησης Rs όλων των αποτελεσμάτων από τις n πηγές, προσδιορίζεται από τις ακόλουθες σχέσεις αντίστοιχα: n S s = s i i=1 n R s = r i (4) i=1 Η συνολική απόδοση (P) του συστήματος ισούται με την απόδοση μερικών αποτελεσμάτων (P0) και προσδιορίζεται από τη σχέση: P= P 0=S s R s C ' (5) Παρότι η διαδικασία της σειριακής επεξεργασίας είναι απλή στην υλοποίησή της και δεν απαιτεί ιδιαίτερη πολυπλοκότητα, είναι προφανές ότι το μοντέλο δεν απευθύνεται σε συστήματα άμεσης επικοινωνίας (online), ιδιαιτέρως μάλιστα όταν συμμετέχουν αρκετές πηγές με μεγάλο αριθμό δεδομένων. Η διαδικασία αυτή εφαρμόζεται συνήθως σε συστήματα συγκομιδής, καθώς και σε συστήματα που λειτουργούν αυτόνομα σε σταθμούς εργασίας και όπου καλύπτονται ειδικές ανάγκες χρηστών χωρίς την ύπαρξη περιορισμών στο χρόνο ολοκλήρωσης της διαδικασίας. Επιπροσθέτως, για να είναι δυνατή η εφαρμογή της σειριακής επεξεργασίας σε συστήματα άμεσης επικοινωνίας με μικρό αριθμό πηγών, αλλά με σχετικά αποτελεσματική υπηρεσία αναζήτησης, εναλλακτικές παραλλαγές του μοντέλου για να βελτιώσουν την απόδοσή του, είτε απλοποιούν τη διαδικασία σύνθεσης των αποτελεσμάτων δημιουργώντας μια απλή συνάθροισή τους (ψεύδο-συστήματα μετααναζήτησης) είτε εκτελούν τις διαδικασίες αναζήτησης και ανάκτησης σε δύο διακριτά βήματα. Στην περίπτωση της διακριτής εκτέλεσης των διαδικασιών αναζήτησης και ανάκτησης, η διαδικασία της αναζήτησης παρουσιάζει μια προσέγγιση του συνολικού αριθμού των αποτελεσμάτων, μιας και δεν είναι γνωστός

46 Κεφάλαιο 2 27 ο αριθμός των ομοίων εγγραφών, ενώ, συνήθως, η ανάκτηση των αποτελεσμάτων γίνεται κατόπιν εντολής του χρήστη. Σε περίπτωση ψεύδο-συστήματος, όπου γίνεται μια απλή συνάθροιση των αποτελεσμάτων αναζήτησης, τότε ο ελάχιστος χρόνος για να είναι δυνατή η εμφάνιση αποτελεσμάτων στο χρήστη (απόδοση μερικών αποτελεσμάτων) είναι: (i) αν γίνει ανάκτηση όλων των αποτελεσμάτων και μετά παρουσίαση, P 0=S s R s (6) (ii) αν παρουσιαστούν μέρος των αποτελεσμάτων από την ταχύτερη πηγή και αν r'1 είναι ο χρόνος που απαιτείται για την ανάκτησή τους, τότε P 0=S s r '1. r '1 R s (7) Και στις δύο προαναφερθείσες βελτιστοποιήσεις της σειριακής επεξεργασίας η συνολική απόδοση παραμένει ίδια με την προαναφερθείσα P της ισότητας (5). Στο μοντέλο της παράλληλης επεξεργασίας οι εκφράσεις που προσδιορίζουν τη συνολική απόδοση είναι: (i) αν αρχίσει η ανάκτηση μόλις ολοκληρωθεί η αναζήτηση και η επεξεργασία αρχίσει μετά την ανάκτηση όλων των αποτελεσμάτων, δηλαδή γίνονται παράλληλα μόνο οι επιμέρους λειτουργίες κάθε διαδικασίας, τότε: P=S p R p C ', όπου S p =max s1,..., s n, R p=max r 1,..., r n, (8) (ii) αν η διαδικασία ανάκτησης για κάθε πηγή ενεργοποιηθεί άμεσα με τη λήξη της αντίστοιχης αναζήτησης και όχι μετά την ολοκλήρωση των αναζητήσεων από όλες τις πηγές, τότε:

47 Κεφάλαιο 2 28 P= P sr C ', όπου P sr =max s 1 r 1,..., s n r n. (9) Όπως δείχνουν οι παραπάνω σχέσεις (8) και (9), η πιο αργή πηγή και το πιο αργό δίκτυο είναι καθοριστικοί παράγοντες στους οποίους, αφενός μεν το σύστημα μετααναζήτησης δεν έχει δυνατότητα παρέμβασης, αφετέρου δε καθορίζουν το περιθώριο για την επεξεργασία και σύνθεση των αποτελεσμάτων. Όπως έχει ήδη αναφερθεί, όσο περισσότερο χρόνο έχει στη διάθεσή του το σύστημα μετα-αναζήτησης για επεξεργασία των αποτελεσμάτων τόσο πολυπλοκότερη διαδικασία μπορεί να εφαρμόσει για να τα επεξεργαστεί. Σχετικά με την απόδοση των πηγών, ιδιαίτερη μνεία πρέπει να γίνει σε περιπτώσεις που εμφανίζεται ένα σφάλμα είτε στη διαδικασία αναζήτησης είτε στη διαδικασία ανάκτησης μίας πηγής, όπου η λειτουργικότητα του συστήματος μετααναζήτησης είναι δυνατόν να καταρριφθεί. Αυτό οφείλεται στο γεγονός ότι στην περίπτωση σφάλματος μια πηγή αδυνατεί κατά κανόνα να απαντήσει, οπότε το σύστημα μετα-αναζήτησης μη γνωρίζοντας αν πρόκειται για καθυστέρηση ή σφάλμα της πηγής θα διακόψει τη διαδικασία μετά την πάροδο ενός προκαθορισμένου χρονικού διαστήματος με συνέπεια τη συνολική επιβράδυνση της διαδικασίας. Βελτιστοποιήσεις του παράλληλου μοντέλου περιλαμβάνουν επιπροσθέτως την παράλληλη ανάκτηση και επεξεργασία των αποτελεσμάτων. Σε ακόμα πιο πολύπλοκες υλοποιήσεις είναι δυνατή η άμεση εκκίνηση των διαδικασιών ανάκτησης και επεξεργασίας με τη λήψη της πρώτης απάντησης από την ταχύτερη πηγή, χωρίς να αναμένεται η ολοκλήρωση των διαδικασιών αναζήτησης από όλες τις πηγές. Οι βελτιστοποιήσεις αυτές προσεγγίζουν τη συνολική απόδοση P στο: P=max P sr C ', (10) ενώ την απόδοση μερικών αποτελεσμάτων P0, με c'k το χρόνο επεξεργασίας ενός υποσυνόλου k εγγραφών, στο:

48 Κεφάλαιο 2 29 P 0=max P 'sr c 'k, P 'sr =min s 1 r 1,..., s n r n. (11) Στο μοντέλο της παράλληλης λειτουργίας, αν γίνει η παραδοχή ότι όλες οι πηγές έχουν αποδοτικές υπηρεσίες αναζήτησης και ανάκτησης, καθώς επίσης ότι αλληλεπιδρούν σε ένα σύγχρονο περιβάλλον δικτύου, τότε η δυνατότητα που έχει το σύστημα μετα-αναζήτησης για αποτελεσματική επεξεργασία των αποτελεσμάτων είναι η βέλτιστη. Στην περίπτωση αυτή, ένα ιδιαίτερο σημείο που θα πρέπει να ληφθεί υπόψη αφορά τις γενικές επερωτήσεις με πάρα πολύ μεγάλα σύνολα αποτελεσμάτων, σε συνδυασμό με μεγάλο αριθμό πηγών. Είναι δεδομένο ότι η ανάκτηση όλων των αποτελεσμάτων από πολύ μεγάλα σύνολα απαντήσεων δεν είναι ρεαλιστική προσέγγιση ενώ η σύνταξη εστιασμένων επερωτήσεων από το χρήστη προσφέρεται ως μία ουσιαστική βοήθεια στο πρόβλημα αυτό. Σε μια παραλλαγή του σειριακού μοντέλου, που το κάνει να προσεγγίζει αρκετά το παράλληλο, η διαδικασία σύνθεσης και επεξεργασίας των αποτελεσμάτων γίνεται σε συνδυασμό με τη διαδικασία της ανάκτησης. Θεωρώντας ότι ο χρόνος ανάκτησης είναι αρκετά μεγαλύτερος από το χρόνο αναζήτησης ο στόχος της υλοποίησης είναι να προσεγγίσει τη σχέση: P=S s max R s C '. (12) Τέλος, αξίζει να υπογραμμισθεί ότι, ανεξάρτητα από το μοντέλο σύμφωνα με το οποίο υλοποιούνται οι διαδικασίες στα συστήματα μετα-αναζήτησης, η αποδοτικότητα των υποκείμενων πηγών και του περιβάλλοντος επικοινωνίας καθορίζει σημαντικά την αποδοτικότητά τους. Ολοκληρώνοντας την παρουσίαση των μοντέλων ενιαίας πρόσβασης αξίζει να σημειωθεί ότι αρκετά από τα υφιστάμενα προβλήματα στα συστήματα μετααναζήτησης και στα συστήματα συγκομιδής κρυμμένων πόρων πίσω από συστήματα διάθεσης είναι κοινά. Εκείνο όμως που καθιστά δυσκολότερη τη λύση των υπαρχόντων προβλημάτων στα συστήματα μετα-αναζήτησης είναι ο περιορισμένος χρόνος που επιβάλλει το περιβάλλον της άμεσης επικοινωνίας (online) του

49 Κεφάλαιο 2 30 συστήματος στο οποίο απαιτείται να δοθεί η απάντηση στον ελάχιστο δυνατό χρόνο. 2.2 Το Πρωτόκολλο Z39.50 Το πρωτόκολλο επικοινωνίας Z39.50 (ANSI/NISO, 1995) ορίζει τον τρόπο με τον οποίο επικοινωνούν δύο διαφορετικά υπολογιστικά συστήματα, με βάση την αρχιτεκτονική Πελάτη/Διακομιστή (Client/Server), με απώτερο σκοπό την ανάκτηση πληροφοριών. Στο πλαίσιο μιας τέτοιας επικοινωνίας, διαφορετικές πληροφοριακές πηγές (targets), που διατίθενται από αντίστοιχους Z-διακομιστές, μπορούν να αναζητηθούν ταυτόχρονα από έναν Z-πελάτη (origin). Ουσιαστικά, το πρωτόκολλο θέτει τις βάσεις για τη λύση στο πρόβλημα διαλειτουργικότητας που υπάρχει ανάμεσα στις διαφορετικές πηγές λόγω ασυμβατότητας ή/και ανομοιογένειας των συστημάτων διάθεσης και των δεδομένων τους, δίνοντας όμως περισσότερη έμφαση στο συντακτικό και λειτουργικό επίπεδο και λιγότερη στο σημασιολογικό. Με βάση το πρωτόκολλο Z39.50, ο πελάτης (client) στέλνει την επερώτηση και οι διακομιστές (servers) αναλαμβάνουν την αποκωδικοποίηση και την εκτέλεσή της. Η πρόσβαση που παρέχεται στον πελάτη είναι μέσω ενός προκαθορισμένου σχήματος και διαδικασιών επερώτησης χωρίς να παρέχεται καμία περαιτέρω δυνατότητα άμεσης πρόσβασης στη δομή και στα δεδομένα διάθεσης. Όπως περιγράφεται στη συνέχεια, κάθε επερώτηση μπορεί να συνοδεύεται από σειρά γνωρισμάτων, τα οποία την προσδιορίζουν και την επεξηγούν Μηχανισμός Αναζήτησης Ο μηχανισμός αναζήτησης του πρωτοκόλλου βασίζεται στη χρήση Συνόλων Γνωρισμάτων (Attribute Sets), τα οποία είναι συνδυασμός από προκαθορισμένα Σημεία Πρόσβασης (Abstract Access Points) με ειδικά γνωρίσματα που προσδιορίζουν τη δομή και τους κανόνες ταύτισής του. Για το σχηματισμό μιας επερώτησης, τα σημεία πρόσβασης συνδυάζονται και συντάσσονται σύμφωνα με έναν από τους εναλλακτικούς τύπους σύνταξης επερωτήσεων που διαθέτει το πρωτόκολλο. Σύμφωνα με τις απαιτήσεις συμβατότητας του Z39.50, το Σύνολο Γνωρισμάτων Bib-1 και ο τύπος επερωτήσεων Type-1 πρέπει να αναγνωρίζονται χωρίς όμως να είναι απαραίτητη η πλήρης υλοποίησή τους. Οι εναλλακτικές

50 Κεφάλαιο 2 31 προτάσεις του πρωτοκόλλου σε περίπτωση που ένας διακομιστής δεν υποστηρίζει κάποιο από τα χαρακτηριστικά μιας επερώτησης είναι δύο. Είτε να απορρίψει την επερώτηση και να στείλει το κατάλληλο διαγνωστικό μήνυμα λάθους (αποτυχημένη επερώτηση) είτε να αντικαταστήσει αυθαίρετα το μη υποστηριζόμενο χαρακτηριστικό με κάποιο άλλο που υποστηρίζει (ασυνεπής απάντηση). Εκτός από το Σημείο Πρόσβασης, που είναι ουσιαστικά και το σημαντικότερο γνώρισμα του όρου αναζήτησης, τα υπόλοιπα γνωρίσματα που ορίζει το Bib-1 είναι τα εξής: Σχέση (relation), Αποκοπή (truncation), Δομή (structure), Θέση (position) και Πληρότητα (completeness). Για κάθε ένα γνώρισμα υπάρχει ένα προκαθορισμένο σύνολο τιμών. Η πληθώρα των τιμών που μπορούν να συνδυαστούν στα γνωρίσματα αυξάνει τη δυνατότητα αλλά και την πολυπλοκότητα της επικοινωνίας και οξύνει τα προβλήματα διαλειτουργικότητας μεταξύ των συστημάτων (Πεπονάκης κ.ά., 2004). Τα γνωρίσματα (ή ιδιότητες) ενός Συνόλου Γνωρισμάτων εκφράζονται με τη μορφή ζευγαριών όπου το πρώτο μέλος δηλώνει το γνώρισμα και το δεύτερο την τιμή του. Έτσι, το ζευγάρι10 [Σημείο Πρόσβασης, Title] στο Σύνολο Γνωρισμάτων Bib-1 δηλώνει ότι η ταύτιση του όρου αναζήτησης θα γίνει στην ενότητα των τίτλων. Αντίστοιχα, το ζευγάρι [Αποκοπή, δεξιά] δηλώνει την πρόθεση για δεξιά αποκοπή, ενώ αντίθετα το ζευγάρι [Αποκοπή, όχι αποκοπή] δηλώνει την πρόθεση για ταίριασμα του όρου αναζήτησης έτσι όπως είναι. Αξίζει να σημειωθεί ότι κανένα από τα γνωρίσματα δεν είναι υποχρεωτικό σε μία επερώτηση. Σε περίπτωση απουσίας ενός γνωρίσματος ο διακομιστής θα αποφασίσει αν θα εκτελέσει την επερώτηση ή αν θα κάνει ερήμην αντικατάσταση. Επιπροσθέτως, ο διακομιστής έχει τη δικαιοδοσία να απορρίπτει τόσο συγκεκριμένους συνδυασμούς γνωρισμάτων όσο και σύνθετες λογικές εκφράσεις επερωτήσεων. Τα παρακάτω είναι ενδεικτικά παραδείγματα επερωτήσεων σύμφωνα με το Bib-1 Σύνολο Γνωρισμάτων. Παράδειγμα 2.1: Εναλλακτικές εκφράσεις αναζήτησης εγγραφών με συγγραφέα τον Ullman, J. 1. [Σημείο Πρόσβασης, Author-name_1003] Ullman, J 10 Για λόγους αναγνωσιμότητας χρησιμοποιούνται συμβολικά ονόματα ενδεικτικά του γνωρίσματος και δε χρησιμοποιούνται οι κωδικοί που ορίζει το πρωτόκολλο. Έτσι, το ζευγάρι [Σημείο Πρόσβασης, Title] εκφράζει το κωδικοποιημένο γνώρισμα [1, 4]. Ομοίως και για τα παραδείγματα που ακολουθούν. Επίσης, ένας άλλος συμβολικός τρόπος έκφρασης των γνωρισμάτων που χρησιμοποιείται από το λογισμικό ανοικτού κώδικα YAZ της Index Data ( είναι ο 1=4.

51 Κεφάλαιο 2 2. [Σημείο 32 Πρόσβασης, Author-name_1003] [Αποκοπή, δεξιά] Ullman, J Τα κοινά χαρακτηριστικά αυτών των δύο εκφράσεων είναι ο όρος αναζήτησης, το Σημείο Πρόσβασης, καθώς επίσης και η ελλιπής συμπλήρωση λόγω της απουσίας γνωρισμάτων. Οι δύο εκφράσεις διαφέρουν μεταξύ τους στο ότι η δεύτερη περιλαμβάνει ένα επιπλέον γνώρισμα, αυτό της Αποκοπής, με συνέπεια ο όρος αναζήτησης να ταιριάζει με τα ονόματα των συγγραφέων Ullman, J, Ullman, Jeffrey, κλπ. Όπως έχει ήδη αναφερθεί, η μη συμπλήρωση γνωρισμάτων θα έχει ως συνέπεια ο εκάστοτε διακομιστής να αποφασίσει αν θα εκτελέσει την επερώτηση και αν ναι, τις τιμές που θα θέσει στα αόριστα γνωρίσματα. Ειδικότερα, στην περίπτωση που ο διακομιστής δεν κάνει εξ' ορισμού δεξιά αποκοπή στον όρο αναζήτησης, για την πρώτη έκφραση θα ταιριάξει τον όρο αναζήτησης αποκλειστικά και μόνο με το όνομα Ullman, J. Εμφανώς, στην περίπτωση αυτή η απάντηση θα περιλαμβάνει λιγότερα αποτελέσματα από αυτά της δεύτερης έκφρασης και με κίνδυνο μηδενικών αποτελεσμάτων σε περίπτωση που οι καταχωρημένες μορφές του ονόματος δεν περιλαμβάνουν τον όρο αναζήτησης όπως ακριβώς τίθεται. Αντίθετα, στην περίπτωση που ο διακομιστής κάνει εξ' ορισμού δεξιά αποκοπή στον όρο αναζήτησης, οι δύο εκφράσεις θα είναι απόλυτα ισοδύναμες. Αξίζει να σημειωθεί ότι σε μία ταυτόχρονη αναζήτηση πολλών πηγών η συμπεριφορά κάθε διακομιστή μπορεί να είναι εντελώς διαφορετική με συνέπεια να μεταβάλλεται η σημασιολογία και επομένως τα αποτελέσματα της επερώτησης. Επιπλέον, δεν πρέπει να θεωρείται δεδομένο ότι ένας διακομιστής υποστηρίζει όλα τα χαρακτηριστικά από ένα Σύνολο Γνωρισμάτων. Αυτό συνεπάγεται ότι για να αποφευχθεί μία αποτυχημένη επερώτηση, σε κάποιες περιπτώσεις ενδείκνυται η έκφραση 1, η οποία δεν καθορίζει το γνώρισμα της αποκοπής. Η προσέγγιση αυτή δίνει μεν τη δυνατότητα στο διακομιστή να αποφασίσει ερήμην του χρήστη ή του συστήματος μετα-αναζήτησης πώς θα απαντήσει την ερώτηση, αν θα κάνει αποκοπή ή όχι, παρέχοντας όμως μια ασυνεπή απάντηση. Σε μια ασυνεπή απάντηση, όπου δεν είναι γνωστές οι αλλαγές που έγιναν στην αρχική επερώτηση, είναι αδύνατη τόσο η περαιτέρω επεξεργασία των αποτελεσμάτων και η προσέγγισή τους στην αρχική σημασιολογία της επερώτησης όσο και ο προσδιορισμός της μεταβολής της ανάκλησης και ακρίβειας της αρχικής επερώτησης. Επαυξάνοντας, σε ένα περιβάλλον

52 Κεφάλαιο 2 33 όπου θα συμμετείχαν συστήματα με διαφορετικά γνωρίσματα αναζήτησης, το ενδιάμεσο σύστημα θα είχε ελάχιστες δυνατότητες επεξεργασίας κατά τη σύνθεση της τελικής απάντησης από τις επιμέρους απαντήσεις των πηγών. Η γνώση από το ενδιάμεσο σύστημα των χαρακτηριστικών αναζήτησης που υποστηρίζει κάθε πηγή θα του έδινε τη δυνατότητα αφενός να ελέγξει τι υποστηρίζει κάθε πηγή αφετέρου να γνωρίζει τις επιπτώσεις που θα έχει η επιλεγόμενη μετεγγραφή στα αποτελέσματα της επερώτησης. Μία από τις συνεισφορές της παρούσας διατριβής, που παρουσιάζεται στο κεφάλαιο 4, είναι η συντακτική περιγραφή των χαρακτηριστικών επερώτησης που υποστηρίζει κάθε πηγή. Τα υποστηριζόμενα χαρακτηριστικά αναζήτησης απεικονίζονται από τα Σχεδιότυπα Επερωτήσεων (query templates) που αναπαριστούν το σύνολο των αποδεκτών επερωτήσεων από την πηγή. Τα Σχεδιότυπα Επερωτήσεων είναι εκφρασμένα στην ενιαία γλώσσα επερωτήσεων του ενδιάμεσου με τη γλώσσα Relational Query Description Language (RQDL) (Papakonstantinou et al., 1996), που βασίζεται στην Datalog (Ullman, 1988; Ullman, 1989). Παράδειγμα 2.2: Εναλλακτικές εκφράσεις αναζήτησης εγγραφών για τα πρακτικά των συνεδρίων που εκδίδει η IEEE. 1. [Σημείο Πρόσβασης, Author-name-conference_1006] IEEE 2. [Σημείο Πρόσβασης, Name-conference _3] IEEE 3. [Σημείο Πρόσβασης, Author-name_1003] IEEE Όπως και στο παράδειγμα 2.1, σε καμία έκφραση δεν έχουν συμπληρωθεί όλα τα γνωρίσματα. Επιπροσθέτως, σε κάθε έκφραση χρησιμοποιείται διαφορετικό Σημείο Πρόσβασης διαφοροποιώντας σημασιολογικά τον όρο αναζήτησης και κατά συνέπεια τα αποτελέσματα αναζήτησης. Η περιγραφή για τη σημασιολογία και τις συσχετίσεις των Σημείων Πρόσβασης καθώς επίσης και τις επιδράσεις τους στα αποτελέσματα αναζήτησης γίνεται στην ενότητα 5 που ακολουθεί. Σύμφωνα με το πρωτόκολλο, το καταλληλότερο Σημείο Πρόσβασης για την ανάκτηση των πρακτικών και μόνον αυτών της IEEE είναι αυτό που χρησιμοποιείται στην έκφραση 1. Τα αποτελέσματα αναζήτησης των εκφράσεων 2 και 3 θα είναι ευρύτερα και θα περιλαμβάνουν και άλλες εκδόσεις της ΙΕΕΕ, όπως τεχνικές αναφορές, τεχνικά πρότυπα, κλπ. Αξίζει να σημειωθεί ότι το Σημείο Πρόσβασης της έκφρασης 1 Author-name-conference_1006 σπανίως υποστηρίζεται από τις Z39.50 πηγές. Αυτός άλλωστε είναι και ο λόγος που ένας χρήστης (ή ένα σύστημα μετα-αναζήτησης) για να αποφύγει μια αποτυχημένη

53 Κεφάλαιο 2 34 επερώτηση θα αναγκαστεί να επιλέξει εναλλακτικά τα σημασιολογικά πλησιέστερα Σημεία Πρόσβασης που χρησιμοποιούνται στις εκφράσεις 2 και 3. Η υποστήριξη διαφορετικών Σημείων Πρόσβασης από τις Z39.50 πηγές σε ένα σύστημα μετααναζήτησης είναι ένα σημαντικό πρόβλημα το οποίο επηρεάζει τη σημασιολογική τους διαλειτουργικότητα Σημεία Πρόσβασης Σε έναν κατάλογο ή σε μία βάση δεδομένων σημείο πρόσβασης μπορεί να θεωρηθεί οποιοδήποτε μέρος της εγγραφής με το οποίο μπορούμε να αναζητήσουμε, είτε ακόμα και να ταυτίσουμε, τις οντότητες που περιγράφονται (Joint Steering Committee for Revision of AACR, 2004). Ένα όνομα, μία θεματική επικεφαλίδα, ένας ταξινομικός αριθμός είναι μερικά παραδείγματα σημείων πρόσβασης. Σε ένα πληροφοριακό σύστημα, όμως, αυτά τα σημεία πρόσβασης ομαδοποιούνται με βάση κάποια κριτήρια δημιουργώντας έτσι τα πεδία (ή ευρετήρια) τα οποία μπορούμε να χρησιμοποιήσουμε στις επερωτήσεις μας κατά τις διαδικασίες αναζήτησης. Είναι αρκετά συνηθισμένο στα περιβάλλοντα των πληροφοριακών συστημάτων τα πεδία αναζήτησης να αναφέρονται σαν Αφηρημένα Σημεία Πρόσβασης ή απλά Σημεία Πρόσβασης. Στο πλαίσιο της παρούσας διατριβής, εκτός και αν δηλώνεται διαφορετικά, θα χρησιμοποιείται ο όρος Σημείο Πρόσβασης, ή σε ελάχιστες περιπτώσεις η συντόμευση ΣΠ, όπως ορίζεται στο περιβάλλον των πληροφοριακών συστημάτων. Η σημασιολογία ενός Αφηρημένου Σημείου Πρόσβασης ορίζεται από το σύνολο των σημείων πρόσβασης που το απαρτίζουν. Κάθε πληροφοριακό σύστημα μπορεί να χρησιμοποιεί διαφορετικά κριτήρια επιλογής και ομαδοποίησης των σημείων πρόσβασης ορίζοντας έτσι διαφορετικά τη σημασιολογία του πεδίου αναζήτησης (Αφηρημένου Σημείου Πρόσβασης). Κατά συνέπεια, ένα πληροφοριακό σύστημα μπορεί να χρησιμοποιεί τα σημεία πρόσβασης που δημιουργήθηκαν από τον κύριο τίτλο και το μεταφρασμένο ή παράλληλο τίτλο κάθε εγγραφής και να δημιουργεί το Αφηρημένο Σημείο Πρόσβασης (πεδίο αναζήτησης) του τίτλου. Κάποιο άλλο, για το πεδίο αναζήτησης του τίτλου, μπορεί να χρησιμοποιεί μόνο το σημείο πρόσβασης του κύριου τίτλου από κάθε εγγραφή. Επιπροσθέτως, σε αρκετές περιπτώσεις, Σημεία Πρόσβασης με την ίδια σημασιολογία από διαφορετικά

54 Κεφάλαιο 2 35 πληροφοριακά συστήματα ονομάζονται διαφορετικά. Συνοπτικά, η ομοιογένεια ή η ετερογένεια των Σημείων Πρόσβασης καθορίζεται τόσο από την σημασιολογία τους όσο και από την ονομασία τους. Για να λυθούν τα ζητήματα που σχετίζονται με την ομοιογένεια των Σημείων Πρόσβασης στο περιβάλλον του Z39.50 και για το σύνολο γνωρισμάτων Bib-1, τα μέλη της ομάδας Z39.50 Implementors Group (ZIG) όρισαν τα επιτρεπτά Σημεία Πρόσβασης καθώς επίσης και τη σημασιολογία τους στο τεκμήριο (ZIG, 1995) και το οποίο ουσιαστικά εκφράζει την αμοιβαία συναίνεση μεταξύ των μελών της ομάδας. Ειδικότερα, για τον προσδιορισμό της σημασιολογίας των Σημείων Πρόσβασης, δηλαδή του συνόλου της πληροφορίας από κάθε τεκμήριο που θα γίνει το ταίριασμα του όρου αναζήτησης, έχουν χρησιμοποιηθεί οι ετικέτες των πεδίων του MARC Bibliographic προτύπου (Library of Congress, 1999). Εικόνα 2.4. Παραδείγματα ορισμού σημασιολογίας Bib-1 Σημείων Πρόσβασης. Για παράδειγμα, ο ορισμός της σημασιολογίας του Σημείου Πρόσβασης Author-name-Personal11 (εικόνα 2.4) καθορίζει ότι το Σημείο Πρόσβασης θα δημιουργηθεί από το σύνολο των δεδομένων με τις MARC ετικέτες πεδίων {100, 11 Όπως και στα παραδείγματα 2.1 και 2.2 για λόγους αναγνωσιμότητας χρησιμοποιούνται τα συμβολικά ονόματα που αναφέρονται στο τεκμήριο (ZIG, 1995) για τα Σημεία Πρόσβασης και όχι η αριθμητική κωδικοποίηση που ορίζει το Z Για τα παραδείγματα της εικόνας 2.2, η Z39.50 κωδικοποίηση είναι αντίστοιχα τα ζευγάρια γνωρισμάτων [1, 1004] και [1, 1003].

55 Κεφάλαιο , 700, 800}. Ομοίως, το Author-name από τα πεδία {100, 110, 111, 400, 410, 411, 700, 710, 711, 800, 810, 811}. Όπως φαίνεται από το παράδειγμα, το Σημείο Πρόσβασης Author-name έχει ευρύτερη σημασιολογία από το Σημείο Πρόσβασης Author-name-Personal. Δηλαδή, σε κάθε αναζήτηση που θα χρησιμοποιείται το Author-name αντί του Author-name-Personal το ταίριασμα του όρου αναζήτησης θα γίνεται με ένα ευρύτερο σύνολο πληροφορίας άρα θα συνεπάγεται, κατά πάσα πιθανότητα, και ένα ευρύτερο σύνολο αποτελεσμάτων από το αντίστοιχο του Authorname-Personal. Αντίθετα, το Author-name-Personal έχει στενότερη σημασιολογία από το Author-name και συνεπώς ένα μικρότερο σύνολο αποτελεσμάτων. Στην παρούσα διατριβή, η σημασιολογική συσχέτιση των Σημείων Πρόσβασης είναι η βάση για τη δημιουργία του Σημασιολογικού Δικτύου Σημείων Πρόσβασης και κατά επέκταση των μεθόδων για τη σημασιολογική αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης από τις Z39.50 πηγές. Η αναλυτική περιγραφή της ανάπτυξης του Σημασιολογικού Δικτύου Σημείων Πρόσβασης και των μεθόδων σημασιολογικής αντικατάστασης γίνεται στο κεφάλαιο 5. Κάνοντας μια γενική αναφορά των διαδικασιών αντικατάστασης σε περίπτωση που ο ενδιάμεσος θα πρέπει να στείλει μια επερώτηση με το Σημείο Πρόσβασης Author-name-Personal σε μία πηγή που δεν το υποστηρίζει αλλά υποστηρίζει το Author-name, ο ενδιάμεσος ανιχνεύοντας το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης θα αντικαταστήσει το Author-name-Personal με το Authorname διευρύνοντας με αυτό τον τρόπο τη σημασιολογία της επερώτησης. Με την αντικατάσταση θα βρεθούν τα τεκμήρια που ταιριάζουν με το αρχικό Σημείο Πρόσβασης, όμως μέσα σε ένα ευρύτερο σύνολο αποτελεσμάτων. Αυτό οφείλεται στο γεγονός ότι το ταίριασμα του όρου αναζήτησης θα γίνει με όλα τα πεδία του αρχικού Σημείου Πρόσβασης Author-name-Personal καθώς επίσης και με τα επιπλέον πεδία που ανήκουν στο Author-name (βλέπε εικόνα 2.4). Επομένως, η ανάκληση της επερώτησης θα παραμείνει η ίδια, μιας και θα ανακληθούν όλα τα αποτελέσματα που ταιριάζουν με το Σημείο Πρόσβασης Author-name-Personal, ενώ η αύξηση του συνόλου των αποτελεσμάτων, που θα προκαλέσει η χρήση του Σημείου Πρόσβασης Author-name, θα μειώσει την ακρίβεια της επερώτησης και όπως θα αναλυθεί στο κεφάλαιο 5, η ακρίβεια θα μειωθεί στο 0,33. Αντίθετα, στην περίπτωση που κατά την μετεγγραφή το Author-name-

56 Κεφάλαιο 2 37 Personal θα αντικαταστήσει το Author-name η ακρίβεια θα παραμείνει η ίδια ενώ η ανάκληση της προκύπτουσας επερώτησης θα μειωθεί στο 0,33. Βέβαια, σε αρκετές περιπτώσεις είναι δυνατόν να υπάρξουν αντικαταστάσεις τόσο με διεύρυνση όσο και με περιορισμό της σημασιολογίας, καθώς επίσης η αντικατάσταση να βελτιώνεται με τη λογική σύζευξη ή διάζευξη περισσότερων του ενός Σημείων Πρόσβασης. Σε αυτές τις περιπτώσεις που υπάρχουν περισσότερες από μία αντικαταστάσεις χωρίς καμία να μετεγγράφει την αρχική επερώτηση σε μία ισοδύναμη, δηλαδή η ανάκληση και η ακρίβεια να παραμένει η ίδια, η μέθοδος επιλέγει την αντικατάσταση λαμβάνοντας υπόψη παραμέτρους που ορίζει ο χρήστης για τη στάθμιση της ανάκλησης και της ακρίβειας. Σε ένα περιβάλλον μετα-αναζήτησης όπου οι μηχανισμοί αναζήτησης των συστημάτων που συμμετέχουν χρησιμοποιούν Σημεία Πρόσβασης, ένα σημαντικό ερώτημα που τίθεται αφορά στο βαθμό ύπαρξης μη υποστηριζόμενων Σημείων Πρόσβασης. Από στοιχεία που δημοσιεύονται στο δικτυακό τόπο The Z39.50 Target Directory 12 της Index Data13, τα οποία περιγράφουν τα χαρακτηριστικά αναζήτησης περίπου χιλίων οκτακοσίων Z39.50 διακομιστών, φαίνεται ότι υπάρχουν πολλές διαφορετικές υλοποιήσεις του πρωτοκόλλου Z39.50, καθώς και ότι όσο αυξάνεται ο αριθμός των Z39.50 πηγών τόσο μειώνεται ο αριθμός των κοινών χαρακτηριστικών αναζήτησης. Το κυριότερο σημείο είναι ότι δεν υπάρχει Σημείο Πρόσβασης που να υποστηρίζεται από όλους τους Z39.50 διακομιστές. Ειδικότερα, σε διάφορα στιγμιότυπα των δεδομένων του καταλόγου Z39.50 πηγών της Index Data σε διάστημα διετίας, το Σημείο Πρόσβασης που υποστηρίζεται από τις περισσότερες πηγές είναι το Title_4, με μέσο ποσοστό υποστήριξης 91,1%, το αμέσως επόμενο είναι το Subject_21, με μέσο ποσοστό υποστήριξης 89,2% και ακολουθεί το Author-name_1003, με μέσο ποσοστό υποστήριξης 88,8%. Όπως δείχνει η εικόνα 2.5, παρά την πάροδο του χρόνου και την εξέλιξη των συστημάτων δεν υπάρχει τάση για την ύπαρξη ενός καθολικού Σημείου Πρόσβασης αλλά το ποσοστό υποστήριξης των κοινών Σημείο Πρόσβασης είναι αντιστρόφως ανάλογο του αριθμού των διακομιστών όπως προκύπτει από τις εικόνες 2.5 και

57 Κεφάλαιο 2 38 Εικόνα 2.5. Τα τρία Bib-1 Σημεία Πρόσβασης που υποστηρίζονται από τις περισσότερες Z39.50 πηγές. Εικόνα 2.6. Αριθμός Z39.50 πηγών που υποστηρίζουν υπηρεσία αναζήτησης. Όπως δείχνουν τα προηγούμενα δεδομένα, σε μία ταυτόχρονη αναζήτηση πηγών όσο αυξάνεται ο αριθμός των πηγών τόσο αυξάνεται και η πιθανότητα για αποτυχημένη επερώτηση ή ασυνεπή απάντηση. Το πρόβλημα γίνεται εντονότερο σε περιπτώσεις όπου είναι αναγκαίο να γίνουν πιο συγκεκριμένες επερωτήσεις με χρήση πιο ειδικών Σημείων Πρόσβασης, όπως αυτό που χρησιμοποιεί το παράδειγμα 2.2. Διεθνώς, και αναλόγως με τον προμηθευτή του συστήματος, οι περισσότεροι

58 Κεφάλαιο 2 39 Z39.50 διακομιστές υλοποιούν την πολιτική της αποτυχημένης επερώτησης. Όπως έχει ήδη αναφερθεί στην εισαγωγή, αντιπροσωπευτικά συστήματα που εφαρμόζουν την αποτυχημένη απάντηση είναι τα συστήματα διάθεσης των συλλογικών καταλόγων MELVYL και COPAC, καθώς και το σύστημα καταλόγου Library and Archives Canada (LAC). Το σύστημα διάθεσης της Library of Congress (LC) είναι ένα από τα συστήματα που έχουν υλοποιήσει την προσέγγιση της ασυνεπούς απάντησης. Συνεπώς, σε περίπτωση που κάνουμε στον κατάλογο της LC την επερώτηση με το Σημείο Πρόσβασης π.χ. Author-Title-Subject = Shakespeare, δε θα μας ενημερώσει ότι δεν το υποστηρίζει14 αλλά θα μας απαντήσει ότι βρήκε περισσότερες από περιπτώσεις. Τα στοιχεία δείχνουν ότι πιθανότατα το σύστημα αντικαθιστά το Σημείο Πρόσβασης που ορίστηκε κατά την επερώτηση με το Σημείο Πρόσβασης Any. Αυτό προκύπτει από την παρατήρηση ότι η αναζήτηση με το Σημείο Πρόσβασης Any, το οποίο υποστηρίζει, δίνει περισσότερες από περιπτώσεις, καθώς και από τα αποτελέσματα που παρουσιάζονται στο κεφάλαιο 7 και αφορούν μετεγγραφές επερωτήσεων προς τον κατάλογο της LC Διάχυση χαρακτηριστικών αναζήτησης Δυνατότητα επεξήγησης χαρακτηριστικών διακομιστή Σύμφωνα με τις απαιτήσεις συμβατότητας που ορίζει το Z39.50 πρωτόκολλο, για να είναι ένα σύστημα συμβατό με το Z39.50 θα πρέπει να αναγνωρίζει, όχι απαραίτητα να υλοποιεί, τουλάχιστον τα Σημεία Πρόσβασης που ορίζει το Σύνολο Γνωρισμάτων Bib-1 σε σύνταξη που ορίζει ο τύπος σύνταξης Type-1. Η συνέπεια αυτής της γενικής απαίτησης, όπως φάνηκε και από τα στοιχεία των δεδομένων του καταλόγου Z39.50 πηγών της Index Data, αφορά την υποστήριξη διαφορετικών Σημείων Πρόσβασης από τους διακομιστές καθώς και την υποστήριξη διαφορετικών χαρακτηριστικών της Type-1 σύνταξης επερωτήσεων. Για να είναι δυνατή η ανάκτηση των υπηρεσιών και των χαρακτηριστικών που έχει υλοποιήσει ένας Z39.50 διακομιστής, το πρωτόκολλο προβλέπει τη δυνατότητα επεξήγησης (explain facility) που είναι ουσιαστικά μια σειρά διαδικασιών ανάκτησης 14 Όπως αναφέρεται στο τεκμήριο: όπου περιγράφονται τα χαρακτηριστικά αναζήτησης που υποστηρίζει ο Z39.50 διακομιστής της LC.

59 Κεφάλαιο 2 40 μιας επεξηγηματικής εγγραφής. Ειδικότερα, ένας Z39.50 διακομιστής αποθηκεύει την σχετική πληροφορία με τα χαρακτηριστικά που υλοποιεί σε μία χωριστή επεξηγηματική βάση δεδομένων (explain database) με την ονομασία IR-Explain-1. Στη συνέχεια, από την υπηρεσία αναζήτησης και χρησιμοποιώντας τα ειδικά ορισμένα Σύνολα Γνωρισμάτων, γνωστοποιεί τα χαρακτηριστικά που υλοποιεί, επιστρέφοντας μία επεξηγηματική εγγραφή σαν το αποτέλεσμα της υπηρεσίας αναζήτησης. Η πολυπλοκότητα που ορίζει η διαδικασία επεξήγησης και η έλλειψη της κατάλληλης τεκμηρίωσης και επεξήγησής της από το πρωτόκολλο είχαν σαν αποτέλεσμα την πολύ δύσκολη υλοποίηση και χρήση της διαδικασίας τόσο από τον διακομιστή όσο και από τον πελάτη. Τελικά, αντί να επιτευχθεί ο στόχος για τη δυνατότητα παροχής χαρακτηριστικών υλοποίησης από το διακομιστή, η προαναφερθείσα δυσκολία είχε σαν αποτέλεσμα να υλοποιηθούν ελάχιστα χαρακτηριστικά της δυνατότητας επεξήγησης από ένα πολύ μικρό αριθμό διακομιστών, που ουσιαστικά υποδήλωνε την απόρριψη υλοποίησης της υπηρεσίας. Μετά την αποτυχία της ενσωματωμένης δυνατότητας επεξήγησης από το πρωτόκολλο ακολούθησαν δύο άλλες προσεγγίσεις. Η πρώτη στόχευε στον ορισμό μιας απλούστερης επεξηγηματικής εγγραφής και διαδικασίας εστιάζοντας κυρίως στις ανάγκες του έργου ONE-2 (ONE-2, 1999) χωρίς όμως να πετύχει τα αναμενόμενα αποτελέσματα. Η δεύτερη προσπάθεια, η οποία έχει και την μεγαλύτερη αποδοχή, χρησιμοποιώντας τις προηγούμενες εμπειρίες συνέθεσε μια απλή εγγραφή σε γλώσσα XML και την ονόμασε ZeeRex (ZIG, 2004) Προφίλ υλοποίησης Ανεξάρτητα από το βαθμό χρήσης των διαδικασιών επεξήγησης των χαρακτηριστικών αναζήτησης του πρωτοκόλλου, όπως έχει ήδη αναφερθεί, η πληθώρα των χαρακτηριστικών αναζήτησης και ιδιαίτερα των Σημείων Πρόσβασης αναπόφευκτα οδήγησαν σε ετερογενείς υλοποιήσεις των Z39.50 διακομιστών. Μια προσέγγιση για την υλοποίηση κοινών χαρακτηριστικών αναζήτησης από τις επιμέρους κοινότητες χρηστών του πρωτοκόλλου είναι ο ορισμός και η χρήση των προφίλ υλοποίησης (implementation profile) από τους Z39.50 διακομιστές. Μεταξύ των κυριοτέρων στοιχείων που ορίζει ένα προφίλ υλοποίησης είναι τα ιδιαίτερα γνωρίσματα από τα Σύνολα Γνωρισμάτων, οι τύποι επερώτησης καθώς επίσης και οι

60 Κεφάλαιο 2 41 κωδικοποιήσεις των μεταδεδομένων. Ανάλογα με την πολυπλοκότητα και την κοινότητα χρηστών που απευθύνεται το προφίλ υλοποίησης είναι δυνατόν να ορίζει διάφορα επίπεδα συμβατότητας απαιτώντας την υλοποίηση περισσότερων ή λιγότερων χαρακτηριστικών του πρωτοκόλλου. Ένα προφίλ υλοποίησης, ορίζοντας ουσιαστικά σύνολα από τα ελάχιστα κοινά χαρακτηριστικά αναζήτησης, στοχεύει στην επίτευξη πληρέστερης διαλειτουργικότητας, είτε μεταξύ των χρηστών της ίδιας κοινότητας είτε μεταξύ των χρηστών διαφορετικών κοινοτήτων. Ένα αρκετά γνωστό προφίλ υλοποίησης στην κοινότητα των βιβλιοθηκών είναι το Bath (ISO TC 46 SC 4, 2004), το οποίο είναι ένα διεθνώς καταχωρημένο προφίλ για εφαρμογές βιβλιοθηκών και ανίχνευση πόρων. Το προφίλ Bath αποτελείται από διάφορα επίπεδα συμβατότητας και καλύπτει ένα αρκετά ευρύ φάσμα εφαρμογών αναζήτησης ανάκτησης, όπως των βιβλιογραφικών δεδομένων και του διαθέσιμου υλικού (holdings) μιας συλλογής, με κύρια έμφαση σε καταλόγους βιβλιοθηκών, των εγγραφών καθιερωμένων τύπων από online καταλόγους βιβλιοθηκών, καθώς και των πόρων μεταξύ διαφορετικών κοινοτήτων συμπεριλαμβανομένων των βιβλιοθηκών, μουσείων, αρχείων κλπ. Άλλα ενδεικτικά παραδείγματα προφίλ υλοποίησης είναι το CIMI (The CIMI Profile Development Working Group, 1996), για την αναζήτηση πληροφοριών πολιτιστικής κληρονομιάς από μουσεία, καθώς και το Zthes (Taylor, 2000), για την αναζήτηση και πλοήγηση όρων θησαυρού και γενικότερα σημασιολογικών ιεραρχιών όρων. Ολοκληρώνοντας την παρουσίαση των διαδικασιών διάχυσης των χαρακτηριστικών αναζήτησης πρέπει να τονισθεί ότι τόσο οι διάφορες εκδοχές της επεξηγηματικής εγγραφής όσο και τα προφίλ υλοποίησης αποτελούν μία απλή παράθεση των χαρακτηριστικών ενός Z39.50 διακομιστή και καμία από αυτές τις προσεγγίσεις δεν προτείνει ένα μοντέλο οργάνωσης και διαχείρισης της πληροφορίας που παραθέτουν. Επιπροσθέτως, τα προφίλ υλοποίησης παρότι συμβάλλουν σε σχετικά μικρό βαθμό, όπως δείχνουν τα στοιχεία της εικόνας 2.5, στην υλοποίηση κοινών χαρακτηριστικών αναζήτησης, δεν λύνουν το πρόβλημα των αποτυχημένων ή ασυνεπών επερωτήσεων. Οι εναλλακτικές προσεγγίσεις για την περιγραφή των χαρακτηριστικών αναζήτησης καθώς και η σημασιολογική συσχέτιση και αντικατάσταση των Σημείων Πρόσβασης που προτείνεται στη διατριβή συνεισφέρουν ουσιαστικά στη λύση αυτών των προβλημάτων.

61 Κεφάλαιο SRU/SRW: Search & Retrieve via URL/Web Service Η εξέλιξη και η καθολική χρήση των τεχνολογιών του παγκόσμιου ιστού οδήγησαν στην ανάπτυξη του νέου πρωτοκόλλου SRU για την αναζήτηση και ανάκτηση πληροφοριών στο διαδίκτυο. Το SRU θεωρείται ο διάδοχος του Z39.50, στηρίζεται στη γλώσσα XML και χρησιμοποιεί το πρωτόκολλο HTTP για την ανταλλαγή μηνυμάτων μεταξύ των συστημάτων (Morgan, 2004). Η ανάπτυξη του πρωτοκόλλου SRU βασίστηκε στη σημασιολογία του Z39.50 διατηρώντας το Σημείο Πρόσβασης σαν ένα κύριο χαρακτηριστικό του μηχανισμού αναζήτησης και, παρά τις φαινομενικές διαφορές που υπάρχουν στην ορολογία των δύο πρωτοκόλλων, οι ομοιότητες στα κύρια χαρακτηριστικά τους είναι αρκετές (McCallum, 2006). Ενδεικτικά, η αντίστοιχη ορολογία που χρησιμοποιεί το SRU για τα Σύνολα Γνωρισμάτων και τους Τύπους Γνωρισμάτων είναι τα Σύνολα Συμφραζομένων (Context Sets) και τα Ευρετήρια (Indexes). Επίσης, η Contextual Query Language (CQL15) που χρησιμοποιεί το SRU αποτελεί μια προσπάθεια για μια εύληπτη και εκφραστική απλοποίηση των πολλαπλών χαρακτηριστικών της γλώσσας επερωτήσεων Z39.50 Type-1. Η συμβατότητα των πρωτοκόλλων SRU και Z39.50 δίνει τη δυνατότητα για την εύκολη ανάπτυξη εφαρμογών που θα διαθέτουν τις λειτουργίες του Z39.50 στο περιβάλλον του παγκόσμιου ιστού. Παράλληλα όμως, μεταφέρει στο διάδοχο πρωτόκολλο SRU τα προβλήματα που περιγράφονται στις προηγούμενες ενότητες σχετικά με τη μετα-αναζήτηση των Z39.50 πηγών. Με δεδομένη τη σημασιολογική συμβατότητα των δύο πρωτοκόλλων, οι προτάσεις της διατριβής είναι άμεσα προσαρμόσιμες και μπορούν να χρησιμοποιηθούν ως βάση για την πλήρη κάλυψη των ευρετηρίων του πρωτοκόλλου SRU. Επιπροσθέτως, επεκτείνοντας το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης θα καταστεί δυνατή η δημιουργία ενός μετα-σχήματος που θα εκφράζει τις υποκείμενες σημασιολογικές συσχετίσεις μεταξύ των ευρετηρίων όλων Συμφραζομένων Αποδοτικότητα μετα-αναζήτησης στο περιβάλλον Z Μέχρι την εκδοχή 1.1 η ονομασία της γλώσσας ήταν Common Query Language. των Συνόλων

62 Κεφάλαιο 2 43 Όπως έχει αναφερθεί στην παράγραφο 2.1.3, η αποδοτικότητα των συστημάτων μετααναζήτησης καθορίζεται σε μεγάλο βαθμό από την αποδοτικότητα των υποκείμενων πηγών και του περιβάλλοντος επικοινωνίας. Πρόσφατες μελέτες καταδεικνύουν τη βιωσιμότητα των συστημάτων μετα-αναζήτησης και, ειδικότερα, όταν υλοποιούν το μοντέλο του ενδιάμεσου (Cousins and Sanders, 2006). Ειδικότερα, στο περιβάλλον του Z39.50, όπως δείχνει ο Macgregor (2005), η πλειοψηφία των Z39.50 διακομιστών έχουν γρήγορους χρόνους απόκρισης στις υπηρεσίες που επηρεάζουν ένα σύστημα μετα-αναζήτησης ενώ, ταυτόχρονα, δε βρέθηκε να επιδρούν σημαντικά στον ενδιάμεσο τα τυχόν προβλήματα που προκύπτουν από το δικτυακό περιβάλλον και την τοπική χρήση των συστημάτων. Σύμφωνα με τον Dorman (2008), η καλύτερη υποδομή για την ανάπτυξη των συστημάτων μετα-αναζήτησης είναι η εκτεταμένη χρήση τόσο των πρωτοκόλλων Z39.50/SRU όσο και η συνεπής κωδικοποίηση των μεταδεδομένων με πλούσιες και εκφραστικές διατάξεις. Αξίζει να αναφερθεί ότι οι μελέτες των Macgregor και Dorman προσδιορίζουν σαφώς τη σημασιολογική διαλειτουργικότητα ως κλειδί στην ανάπτυξη των συστημάτων μετα-αναζήτησης. Η συνεισφορά της εν λόγω διατριβής σε θέματα αποδοτικότητας ενός συστήματος μετα-αναζήτησης, είναι η αρχιτεκτονική που προτείνει για την δημιουργία ενός εικονικού συλλογικού καταλόγου συστημάτων βιβλιοθηκών, καθώς και η σημασιολογική μετεγγραφή των μη υποστηριζόμενων Σημείων Πρόσβασης. Η προτεινόμενη αρχιτεκτονική, η οποία βασίζεται στο παράλληλο μοντέλο επεξεργασίας και αναπτύσσεται στο κεφάλαιο 3, επιδιώκει την άμεση επεξεργασία και εμφάνιση μέρους των αποτελεσμάτων μόλις ληφθεί το πρώτο αποτέλεσμα αναζήτησης από την ταχύτερη πηγή. Επιπλέον, σε συνδυασμό με την εκμετάλλευση των πόρων του συστήματος και την εκτέλεση των διαδικασιών στο παρασκήνιο κατά τη διάρκεια που ο χρήστης παρατηρεί τα αποτελέσματα που έχει λάβει, ελαχιστοποιεί στο μέγιστο την αίσθηση του χρήστη σχετικά με την απόκριση του συστήματος προσεγγίζοντας παράλληλα τη βέλτιστη απόδοσή του. Όπως έχει ήδη αναφερθεί στην παράγραφο 2.1.3, για λόγους αποδοτικότητας σε ένα σύστημα μετα-αναζήτησης, η ανάκτηση όλων των αποτελεσμάτων από πολύ μεγάλα σύνολα απαντήσεων δεν είναι ρεαλιστική προσέγγιση. Μία ουσιαστική βοήθεια στο πρόβλημα αυτό είναι η σύνταξη εστιασμένων επερωτήσεων από το

63 Κεφάλαιο 2 44 χρήστη. Η ενέργεια αυτή προϋποθέτει από το σύστημα μετα-αναζήτησης να παρέχει ένα πλούσιο σύνολο Σημείων Πρόσβασης το οποίο, όμως, κατά κανόνα δημιουργεί αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις όταν υπάρχει μη υποστηριζόμενο Σημείο Πρόσβασης από μια πηγή. Με τη δυνατότητα της σημασιολογικής μετεγγραφής των μη υποστηριζόμενων Σημείων Πρόσβασης, η οποία αναπτύσσεται στο κεφάλαιο 5, ένα σύστημα μετα-αναζήτησης δεν περιορίζεται σε ένα μικρό σύνολο γενικών Σημείων Πρόσβασης. Αντίθετα, έχοντας τη δυνατότητα να δώσει στο χρήστη ένα πλήρες σύνολο τόσο με γενικά όσο και με ειδικά Σημεία Πρόσβασης, είναι δυνατό να αποτρέπει τη σύνταξη γενικών επερωτήσεων που ανακτούν μεγάλα σύνολα αποτελεσμάτων. 2.3 Μεταδεδομένα Τα μεταδεδομένα είναι δομημένα δεδομένα τα οποία περιγράφουν τα χαρακτηριστικά μιας οντότητας. Εδώ και αρκετές δεκαετίες αποτελούν ένα από τα κύρια αντικείμενα μελέτης διαφόρων επιστημονικών κοινοτήτων ενώ στο περιβάλλον των βιβλιοθηκών, ψηφιακών ή παραδοσιακών, υποστηρίζουν σημαντικά ένα ευρύ φάσμα διαδικασιών, υπηρεσιών και περιγραφής περιεχομένου (content). Στο περιβάλλον των βιβλιοθηκών, ενδεικτικά παραδείγματα εφαρμογής των μεταδεδομένων αποτελούν η περιγραφή διαδικασιών και αυτοματοποιημένων δεδομένων και μη διατήρησης ψηφιακού υπηρεσιών, με υλικού, ενδεικτικό η περιγραφή παράδειγμα την προαναφερθείσα επεξηγηματική εγγραφή του πρωτοκόλλου Z39.50, καθώς και η κωδικοποίηση εγγραφών ενός καταλόγου βιβλιοθήκης ή ενός ιδρυματικού αποθετηρίου. Η αποτελεσματική χρήση των μεταδεδομένων καθορίζεται από τη δυνατότητά τους να επαναχρησιμοποιηθούν, να διαμοιρασθούν και να συσχετιστούν μεταξύ τους, τόσο από το δημιουργό τους όσο και από οποιοδήποτε αποδέκτη τους. Αυτή η δυνατότητα των μεταδεδομένων αναφέρεται και ως διαλειτουργικότητα. Για να επιτευχθεί, σύμφωνα με τη Shreeves κ.ά. (2006), επιβάλλεται οι δημιουργοί που κωδικοποιούν τις εγγραφές των μεταδεδομένων να δίνουν ιδιαίτερη έμφαση στις παρακάτω, συνοπτικά αναφερόμενες, παραμέτρους: Περιεχόμενο (Content), η εγγραφή μεταδεδομένων, ως αυτόνομη οντότητα, θα

64 Κεφάλαιο 2 45 πρέπει να περιγράφει το αντικείμενο με την απαραίτητη λεπτομέρεια που απαιτεί τόσο η υλική του υπόσταση όσο και η χρήση του. Συνέπεια (Consistency), όλες οι εγγραφές από την ίδια συλλογή θα πρέπει να είναι συνεπείς συντακτικά και σημασιολογικά. Συνεκτικότητα (Coherence), η εγγραφή πρέπει να είναι αυτεξήγητη και τα γνωρίσματα του αντικειμένου, ιδιαιτέρως τα ομοειδή, θα πρέπει να είναι πλήρως αναγνωρίσιμα και διαχωρίσιμα. Περιβάλλον (Context), η εγγραφή θα πρέπει να διασφαλίζει όλη την αναγκαία πληροφορία για το περιβάλλον που υφίσταται το αντικείμενο που περιγράφει. Επικοινωνία, μεταξύ του δημιουργού και του χρήστη για τον τρόπο δημιουργίας και διάθεσης της εγγραφής. Συμβατότητα με πρότυπα, ο δημιουργός θα πρέπει να διασφαλίζει την συμβατότητα της εγγραφής με αναγνωρισμένα πρότυπα. Η κοινότητα των βιβλιοθηκών θεωρείται αντιπροσωπευτική περίπτωση ευρείας εφαρμογής προτύπων κωδικοποίησης μεταδεδομένων. Ενδεικτικά παραδείγματα αποτελούν οι παραδοσιακές MARC κωδικοποιήσεις (Library of Congress, 1999; IFLA UNIMARC Core Activity, 2008), για αρκετά σύνθετες και λεπτομερείς περιγραφές, καθώς επίσης και οι σύγχρονες εκδοχές τους MARCXML και MODS εκφρασμένες σε γλώσσα XML (Library of Congress, 2004c; Library of Congress, 2009). Για αρκετά απλουστευμένες περιγραφές ή ως η ενδιάμεση ελάχιστη κοινή περιγραφή για ανταλλαγή μεταδεδομένων μεταξύ αλληλεπιδρώντων συστημάτων χρησιμοποιείται το Dublin Core (DC) (DCMI, 2008). Για να απαντηθεί μια επερώτηση σε ένα σύστημα μετα-αναζήτησης, οι λειτουργίες που αλληλεπιδρούν με τα μεταδεδομένα είναι η αναζήτηση, η ανάκτηση και η σύνθεση των αποτελεσμάτων σε ενιαίο σύνολο. Η αναζήτηση γίνεται στα μεταδεδομένα, άρα θα πρέπει να είναι εφικτή η όσο το δυνατό πληρέστερη κατανόηση της σημασιολογίας τους έξω από το άμεσο περιβάλλον παραγωγής τους. Στο περιβάλλον του Z39.50 ο προσδιορισμός της σημασιολογίας των μεταδεδομένων αναζήτησης γίνεται από τον ορισμό των Σημείων Πρόσβασης του Συνόλου Γνωρισμάτων Bib-1 σε συνδυασμό με το τεκμήριο ορισμού της σημασιολογίας τους (ZIG, 1995). Η ανάκτηση και σύνθεση των αποτελεσμάτων προϋποθέτει την κατανόηση των μεταδεδομένων που ανακτώνται ενώ το επίπεδο διαλειτουργικότητας

65 Κεφάλαιο 2 46 των μεταδεδομένων καθορίζει το βαθμό δυσκολίας που απαιτεί η υλοποίηση της διαδικασίας σύνθεσης των αποτελεσμάτων. Επιπροσθέτως, η χρήση κοινών προτύπων είναι αρκετά συνηθισμένη σε περιπτώσεις όπου οι πηγές ανήκουν σε όμοιες πληροφοριακές κοινότητες διευκολύνοντας παράλληλα την εξισορρόπηση των παραμέτρων λειτουργικότητας και ευκολίας υλοποίησης στην ανάπτυξη των συστημάτων (LeVan, 2006) Σύνθεση αποτελεσμάτων αναζήτησης Κατά τη διαδικασία σύνθεσης των αποτελεσμάτων, ένα σημαντικό ζήτημα που ανακύπτει είναι η ανίχνευση των ομοίων εγγραφών μεταδεδομένων που περιγράφουν το ίδιο αντικείμενο. Σημειωτέον ότι οι μέχρι τώρα προσεγγίσεις στόχευαν στη δημιουργία συστάδων από εγγραφές που περιγράφουν την ίδια έκφραση και υλική υπόσταση του αντικειμένου. Μια ενδεικτική παρουσίαση αυτής της προσέγγισης αποτελεί το παράδειγμα που ακολουθεί. Παράδειγμα 2.3: Ας υποθέσουμε ότι στα αποτελέσματα που ανακτήθηκαν περιλαμβάνονται οι παρακάτω εγγραφές16: 1. (Ε1), (Σ1) Τίτλος: Βίος και πολιτεία του Αλέξη Ζορμπά / Νίκου Ζορμπά / Νίκου Ζορμπά / Νίκου Καζαντζάκη Έκδοση: 7η εκδ. Εκδότης: Αθήναι, Eλ. Καζαντζάκη : 1973 Φυσική Περιγραφή: 365 σ. ; 21 εκ 2. (Ε2), (Σ1) Τίτλος: Βίος και πολιτεία του Αλέξη Καζαντζάκη Έκδοση: 7η εκδ. Εκδότης: Αθήναι, Eλ. Καζαντζάκη : 1973 Φυσική Περιγραφή: 365 σ. ; 21 εκ 3. (Ε3), (Σ2) Τίτλος: Βίος και πολιτεία του Αλέξη Αρχαίος Εκδοτικός Καζαντζάκη Εκδότης: 16 Αθήναι, Οίκος Δημητρίου Για λόγους αναγνωσιμότητας οι εγγραφές έχουν παρατεθεί σε συστάδες ομοίων εγγραφών έτσι ώστε να είναι εμφανείς οι μεταξύ τους διαφορές και ομοιότητες.

66 Κεφάλαιο 2 47 Δημητράκου : 1954 Φυσική Περιγραφή: 395 σ. ; 21 εκ. 4. (Ε4), (Σ2) Τίτλος: Βίος και πολιτεία του Αλέξη Αρχαίος Εκδοτικός Ζορμπά / Νίκου Καζαντζάκη Εκδότης: Αθήναι, Οίκος Δημητρίου Δημητράκου : 1954 Φυσική Περιγραφή: 395 σ. ; 21 εκ. 5. (Ε5), (Σ3) Τίτλος: Βίος και πολιτεία του Αλέξη Ζορμπά / Νίκου Καζαντζάκη Εκδότης: Αθήναι, Δημητράκος : 1946 Φυσική Περιγραφή 353 σ. ; 21 εκ. Όλες οι εγγραφές περιγράφουν την έντυπη υλική υπόσταση του έργου Βίος και πολιτεία του Αλέξη Ζορμπά του Νίκου Καζαντζάκη εκφρασμένου στην Ελληνική γλώσσα. Επιπροσθέτως, οι εγγραφές Ε1 και Ε2 περιγράφουν την εκδοχή του έργου που εκδόθηκε το 1973 από τον εκδότη Ελ. Καζαντζάκη στην Αθήνα, οι εγγραφές Ε3 και Ε4 περιγράφουν την εκδοχή που εκδόθηκε το 1954 από τον εκδότη Αρχαίος εκδοτικός οίκος Δημητρίου Δημητράκου στην Αθήνα και τέλος η εγγραφή Ε5 περιγράφει την εκδοχή που εκδόθηκε το 1946 από τον εκδότη Δημητράκο στην Αθήνα. Σύμφωνα με την προσέγγιση της ανίχνευσης των ομοίων εγγραφών που περιγράφουν το ίδιο αντικείμενο στην ίδια έκφραση και υλική υπόσταση, οι συστάδες που θα δημιουργηθούν είναι η Σ1 από τις εγγραφές Ε1 και Ε2, η Σ2 από τις εγγραφές Ε3 και Ε4 και η Σ3 από την εγγραφή Ε5. Το τελικό σύνολο αποτελεσμάτων θα περιλαμβάνει τις συστάδες Σ1, Σ2 και Σ3 αντί των πέντε εγγραφών του παραδείγματος. Για λόγους αποδοτικότητας οι αλγόριθμοι ανίχνευσης των ομοίων εγγραφών είναι κατά κανόνα αλγόριθμοι δύο βημάτων. Συνοπτικά, οι αλγόριθμοι στο πρώτο βήμα δημιουργούν συστάδες από πιθανά όμοιες εγγραφές εφαρμόζοντας σχετικά απλές διαδικασίες σε χαρακτηριστικά πεδία των εγγραφών (π.χ. σε τίτλο και σε συγγραφέα). Στη συνέχεια, στο δεύτερο βήμα, συγκρίνουν μεταξύ τους όλες τις εγγραφές της συστάδας εφαρμόζοντας πολύπλοκους αλγορίθμους ταύτισης σε όλα

67 Κεφάλαιο 2 48 σχεδόν τα πεδία της εγγραφής με στόχο να παραμείνουν στη συστάδα μόνο οι πραγματικά όμοιες εγγραφές. Λόγω της πολυπλοκότητας των διαδικασιών του δευτέρου βήματος, η συνολική επιβάρυνση στην απόδοση της διαδικασίας προέρχεται κυρίως από το δεύτερο βήμα. Παρότι έχουν αναπτυχθεί αρκετά αποτελεσματικές διαδικασίες ανίχνευσης ομοίων εγγραφών, μια συγκεντρωτική αναφορά γίνεται από τους Sitas και Kapidakis (2008), η εφαρμογή τους δεν είναι δεδομένη στα συστήματα μετα-αναζήτησης λόγω της αποδοτικότητας που απαιτεί η αλληλεπιδρούσα φύση (online) του περιβάλλοντος. Η ανίχνευση των ομοίων εγγραφών έχει αναγνωρισθεί ως μία σημαντική παράμετρος στην ανάπτυξη των συστημάτων μετα-αναζήτησης, αλλά οι λεπτομερείς και σύνθετοι έλεγχοι που απαιτεί η σωστή ανίχνευσή τους καθιστούν προβληματική την εφαρμογή της διαδικασίας (Payette and Rieger, 1997). Σε συστήματα μετα-αναζήτησης που υλοποιούν την αρχιτεκτονική του ενδιάμεσου, μία πρώτη προσέγγιση για τη βελτίωση της αποδοτικότητας της διαδικασίας ανίχνευσης των ομοίων εγγραφών είναι η δυνατότητα μετάθεσης του δεύτερου βήματος του αλγορίθμου εκτός του ενδιάμεσου. Δηλαδή, οι λεπτομερείς συγκρίσεις μεταξύ των περισσοτέρων πεδίων των εγγραφών μεταδεδομένων να γίνουν από το σύστημα που θα παραλάβει τις συστάδες του πρώτου βήματος (π.χ. ο σταθμός εργασίας του χρήστη). Βέβαια, η βελτίωση αυτή προϋποθέτει ότι οι αρχικές συστάδες που θα δημιουργηθούν από το πρώτο βήμα θα περιλαμβάνουν όσο το δυνατό όμοιες εγγραφές. Ένα επιπλέον πρόβλημα που αντιμετωπίζει η προσέγγιση των ομοίων εγγραφών που περιγράφουν την ίδια έκφραση και υλική υπόσταση του αντικειμένου προέρχεται από την ταξινόμηση των αποτελεσμάτων αναζήτησης. Το πρόβλημα που δημιουργεί η σειρά εμφάνισης των αποτελεσμάτων αναζήτησης είναι ιδιαίτερα σοβαρό στην περίπτωση που ο παραλήπτης των αποτελεσμάτων είναι ο τελικός χρήστης. Αν υποθέσουμε ότι τα αποτελέσματα του παραδείγματος 2.3 θα εμφανιστούν στο χρήστη ταξινομημένα ως προς το χρόνο έκδοσης, τότε η συστάδα Σ1 θα εμφανιστεί μαζί με τις εγγραφές που έχουν χρόνο έκδοσης το 1973, η συστάδα Σ2 μαζί με αυτές που εκδόθηκαν το 1954 και τέλος η συστάδα Σ3 με αυτές που εκδόθηκαν το Είναι προφανές, ότι ο χρήστης για να εντοπίσει περιγραφές που αφορούν το ίδιο έργο, θα πρέπει να περιδιαβεί ένα μεγάλο αριθμό αποτελεσμάτων,

68 Κεφάλαιο 2 49 κάτι που δεν είναι βέβαιο. Η αδυναμία των συστημάτων να εντοπίζουν και να συνθέτουν όλες τις εκδοχές και υλικές υποστάσεις από το σύνολο των εκφράσεων ενός διακεκριμένου πνευματικού έργου αποτελεί το αντικείμενο ευρείας κριτικής των συστημάτων μετααναζήτησης. Όπως επισημαίνει η Yee (2005), η κριτική είναι εντονότερη μετά την ανάπτυξη του εννοιολογικού μοντέλου για το βιβλιογραφικό σύμπαν που ανέπτυξε η ομάδα εργασίας της IFLA17 για τις Λειτουργικές Απαιτήσεις για Βιβλιογραφικές Εγγραφές (FRBR18), του οποίου τα κύρια χαρακτηριστικά παρουσιάζονται συνοπτικά στην επόμενη ενότητα. Η συνεισφορά της παρούσας διατριβής σε σχέση με την αποτελεσματικότερη και αποδοτικότερη διαδικασία σύνθεσης των αποτελεσμάτων αναζήτησης εντοπίζεται στην προτεινόμενη αρχιτεκτονική για τη δημιουργία του εικονικού συλλογικού καταλόγου, που αναλύεται στο κεφάλαιο 3. Η εν λόγω αρχιτεκτονική παρέχει τη δυνατότητα διαχωρισμού των βημάτων για τη δημιουργία των συστάδων, καθώς επίσης τη δόμηση των συστάδων σε ιεραρχικές Έργο-κεντρικές οντότητες σύμφωνα με το εννοιολογικό μοντέλο FRBR και η οποία αναλύεται στο κεφάλαιο Functional Requirements for Bibliographic Records (FRBR) Από το 1992 ως το 1995 η Ομάδα Μελέτης για τις Λειτουργικές Απαιτήσεις για Βιβλιογραφικές Εγγραφές (Study Group Functional Requirements for Bibliographic Records) της IFLA εργάστηκε για την ανάπτυξη ενός μοντέλου που θα αναπαριστά το βιβλιογραφικό σύμπαν. Αποτέλεσμα αυτής της εργασίας ήταν η δημιουργία ενός μοντέλου Οντοτήτων-Συσχετίσεων που αναπαριστά αφαιρετικά το βιβλιογραφικό σύμπαν, ανεξάρτητα από επιμέρους υλοποιήσεις ή κανόνες κωδικοποίησης μεταδεδομένων (Tillet, 2005). Η τελική αναφορά κατατέθηκε το 1997 και εγκρίθηκε από τη Standing Committee of the IFLA Section on Cataloguing, ενώ το κείμενο εκδόθηκε το 1998 (IFLA, 1998). Όπως αναφέρει η ομάδα εργασίας, το μοντέλο σχεδιάστηκε λαμβάνοντας υπόψη τις ανάγκες των χρηστών έτσι ώστε η εφαρμογή του να εξυπηρετεί τους τέσσερις παρακάτω σκοπούς: International Federation of Library Associations and Institutions. Functional Requirements for Bibliographic Records.

69 Κεφάλαιο 2 50 τον εντοπισμό του υλικού που αντιστοιχεί στα κριτήρια που θέτει ο χρήστης, την ταυτοποίηση μιας οντότητας από τα μεταδεδομένα περιγραφής, την επιλογή της κατάλληλης οντότητας για τον χρήστη, την απόκτηση του ίδιου του αντικειμένου ή της πρόσβασης σε αυτό. Το μοντέλο αντιμετωπίζει μια βιβλιογραφική εγγραφή ως ένα σύνολο από διακριτές οντότητες με γνωρίσματα, οι οποίες συσχετίζονται μεταξύ τους. Οι οντότητες που ορίζει το μοντέλο είναι μοιρασμένες σε τρεις ομάδες. Η πρώτη ομάδα περιλαμβάνει οντότητες που αναπαριστούν το αποτέλεσμα πνευματικών ή καλλιτεχνικών προσπαθειών και αποτελείται από τις οντότητες 19: Έργο (Work), Έκφραση (Expression), Εκδήλωση (Manifestation) και Αντίτυπο (Item). Η δεύτερη ομάδα περιλαμβάνει εκείνες τις οντότητες στις οποίες καταλογίζεται το πνευματικό ή καλλιτεχνικό περιεχόμενο, η φυσική παραγωγή και η διάθεσή του, καθώς και η επιμέλεια των σχετικών διαδικασιών. Η δεύτερη ομάδα αποτελείται από τις οντότητες: Φυσικό Πρόσωπο (Person) και Συλλογικό Όργανο (Corporate Body). Τέλος, η τρίτη ομάδα περιλαμβάνει ένα πρόσθετο σύνολο οντοτήτων που απεικονίζουν τα αντικείμενα ενδιαφέροντος της πνευματικής ή καλλιτεχνικής προσπάθειας και αποτελείται από τις οντότητες: Έννοια (Concept), Αντικείμενο (Object), Συμβάν (Event) και Τόπο (Place). Επιπροσθέτως, το μοντέλο ορίζει συσχετίσεις τόσο μεταξύ των οντοτήτων της ίδιας ομάδας, όσο και μεταξύ των οντοτήτων διαφορετικών ομάδων. Στη συνέχεια της ενότητας θα γίνει συνοπτική παρουσίαση μόνο των οντοτήτων που περιλαμβάνει η πρώτη ομάδα, καθώς επίσης και των μεταξύ τους συσχετίσεων, καθώς μόνο οι συγκεκριμένες οντότητες της πρώτης ομάδας σχετίζονται με το αντικείμενο της παρούσας διατριβής και αποτελούν το αντικείμενο μελέτης της πλειοψηφίας των τρεχουσών υλοποιήσεων του μοντέλου. Στη συνέχεια, η αναφορά στο μοντέλο θα γίνεται με τη διεθνώς επικρατούσα ονομασία FRBR. Επίσης, το τεκμήριο της IFLA που ορίζει και περιγράφει τη χρήση του μοντέλου FRBR (IFLA, 1998) θα αναφέρεται ως τεκμήριο FRBR. Σύμφωνα με το μοντέλο FRBR, οι οντότητες της πρώτης ομάδας αναπαριστούν τις διαστάσεις μιας πνευματικής ή καλλιτεχνικής δημιουργίας που ενδιαφέρουν άμεσα τον χρήστη. Ειδικότερα, όπως απεικονίζεται στην εικόνα 2.7, η 19 Λόγω του ότι δεν υπάρχει καθιερωμένη μετάφραση της ορολογίας του μοντέλου στην Ελληνική γλώσσα, σε κάθε μετάφραση του όρου παρατίθεται και ο αντίστοιχος όρος από το τεκμήριο της Αγγλικής γλώσσας.

70 Κεφάλαιο 2 51 αφετηρία μιας πνευματικής ή καλλιτεχνικής δημιουργίας αναπαρίσταται από την οντότητα Έργο (Work). Το Έργο (Work) πραγματώνεται μέσω της οντότητας Έκφρασης (Expression), η οποία μορφοποιείται στην Εκδήλωση (Manifestation). Τέλος η Εκδήλωση (Manifestation) αποτελεί το πρωτότυπο για την αναπαραγωγή του Αντιτύπου (Item). Εικόνα 2.7. Οι οντότητες της πρώτης ομάδας και οι συσχετίσεις τους. Για τις εγγραφές που αναφέρονται στο παράδειγμα 2.3, το Έργο είναι Βίος και πολιτεία του Αλέξη Ζορμπά του Νίκου Καζαντζάκη, που πραγματώνεται μέσω της Έκφρασης στην Ελληνική γλώσσα και η οποία μορφοποιείται στις Εκδηλώσεις των εκδόσεων του 1973, 1954 και Η πλήρης περιγραφή των οντοτήτων και των συσχετίσεών τους γίνεται στο τεκμήριο που δημοσιεύθηκε από τη Standing Committee of the IFLA Section on Cataloguing (IFLA, 1998) ενώ μία αρκετά συνοπτική και κατατοπιστική παρουσίαση του μοντέλου αποτελεί η εργασία της Tillett (2004). Για την επαρκή κατανόηση της χρήσης του μοντέλου από τις διαδικασίες της παρούσας διατριβής ακολουθεί συνοπτική περιγραφή των οντοτήτων της πρώτης ομάδας του μοντέλου FRBR. Ειδικότερα, η οντότητα:

71 Κεφάλαιο 2 52 Το Έργο προορίζεται για την αναπαράσταση της αφηρημένης μορφής μιας διακριτής πνευματικής ή καλλιτεχνικής προσπάθειας. Στην παρούσα φάση, όπου στην ουσία πρόκειται για την αφηρημένη ιδέα του έργου η οποία δε σχετίζεται με κανενός είδους φυσικό αντικείμενο, σύμφωνα με το μοντέλο, η οντότητα δεν μπορεί να παρατηρηθεί αυτόνομα αλλά μόνο μέσω των επιμέρους Εκφράσεών της. Ένα βασικό πρόβλημα που τίθεται αφορά το πότε δημιουργείται ένα νέο Έργο. Σύμφωνα με τους κανόνες του μοντέλου και χωρίς να είναι απόλυτα διακριτά τα όρια, για να δημιουργηθεί ένα νέο έργο απαιτείται ένας σημαντικός βαθμός καλλιτεχνικής ή πνευματικής προσπάθειας ο οποίος να μετασχηματίζει το αρχικό έργο. Ενδεικτικά παραδείγματα έργων από το τεκμήριο των FRBR αποτελούν το The Art of the Fugue του J. S. Bach, το Romeo and Juliet του William Shakespeare καθώς επίσης και η ταινία Romeo and Juliet του Franco Zeffirelli. Παρά το ότι το τελευταίο Έργο είναι μία ταινία βασισμένη στο αντίστοιχο θεατρικό έργο, θεωρούνται δύο διαφορετικά Συσχετιζόμενα Έργα. Η Έκφραση προορίζεται για την αναπαράσταση της πραγμάτωσης (realization) του Έργου, δηλαδή την έκφραση της αφηρημένης έννοιας, σε μια μορφή κειμένου, ήχου, εικόνας κλπ., ή οποιουδήποτε συνδυασμού των παραπάνω. Η Έκφραση δεν περιλαμβάνει γνωρίσματα που έχουν σχέση με φυσικά χαρακτηριστικά. Ενώ για παράδειγμα ένα κείμενο (σειρά από αλφαριθμητικούς χαρακτήρες που ομαδοποιούνται σε παραγράφους κλπ.) μπορεί να αποτελεί την Έκφραση ενός Έργου, γνωρίσματα όπως αυτά που προσδιορίζουν τη γραμματοσειρά εκτύπωσης, τη δομή και διάταξη των σελίδων, κλπ. και δεν αποτελούν ζωτικά στοιχεία μιας πνευματικής ή καλλιτεχνικής προσπάθειας, εντάσσονται στα γνωρίσματα της επόμενης οντότητας που αναπαριστά το μέσο που προσδίδει την υλική υπόσταση της Έκφρασης και ονομάζεται Εκδήλωση. Ενδεικτικό παράδειγμα διαφορετικών Εκφράσεων του ίδιου Έργου αποτελεί το κείμενο του έργου στην πρωτότυπη γλώσσα και η μετάφρασή του σε μία άλλη γλώσσα. Η Εκδήλωση αναπαριστά την οντότητα που μορφοποιεί μία Έκφραση ενός Έργου προσδίδοντάς του υλική υπόσταση. Ειδικότερα, αναπαριστά όλα εκείνα τα φυσικά αντικείμενα που έχουν τα ίδια γνωρίσματα τόσο από άποψη

72 Κεφάλαιο 2 53 περιεχομένου όσο και φυσικών χαρακτηριστικών και περιλαμβάνει ένα μεγάλο φάσμα υλικών (βιβλία, χάρτες, χειρόγραφα, ταινίες κλπ.). Ταυτόχρονα, αποτελεί το πρωτότυπο για την αναπαραγωγή των αντιτύπων. Είναι η οντότητα που μέχρι σήμερα ήταν στο επίκεντρο, εφόσον την περιέγραφαν οι βιβλιοθήκες στους παραδοσιακούς τους καταλόγους. Οι διαφορετικές εκδόσεις του παραδείγματος 2.3 αποτελούν παραδείγματα διαφορετικών Εκδηλώσεων της ίδιας Έκφρασης του ίδιου Έργου. Το Αντίτυπο αναπαριστά το κάθε αντίγραφο που δημιουργήθηκε έχοντας σαν πρωτότυπο μία Εκδήλωση. Στην ουσία αναπαριστά την κάθε μονάδα της τελικής πραγμάτωσης μιας μορφής του έργου. Στην εικόνα 2.8 παρουσιάζεται ένα παράδειγμα με έννοιες και αντικείμενα από το βιβλιογραφικό σύμπαν και οι συσχετίσεις τους με τις αντίστοιχες οντότητες που ορίζει η πρώτη ομάδα του μοντέλου FRBR (Πεπονάκης, 2010: σ. 28). Εικόνα 2.8. Συσχετίσεις με έννοιες και αντικείμενα από το βιβλιογραφικό σύμπαν με τις αντίστοιχες FRBR οντότητες. Οι τρέχουσες εφαρμογές του μοντέλου FRBR εστιάζουν σε διαδικασίες που

73 Κεφάλαιο 2 54 συνθέτουν τις οντότητες του μοντέλου από τις εγγραφές που περιλαμβάνουν οι ήδη υπάρχοντες κατάλογοι και οι οποίες περιγράφουν διακριτά φυσικά αντικείμενα, όπως βιβλία, άρθρα κλπ. Από τα λίγα εργαλεία λογισμικού που συνθέτουν FRBR οντότητες, ένα αρκετά αντιπροσωπευτικό είναι το λογισμικό ανοικτού κώδικα που διατίθεται από την υπηρεσία Network Development and MARC Standard Office της Library of Congress (Library of Congress, 2004a). Η ανάπτυξη του λογισμικού βασίστηκε στη μελέτη που είχε σαν αντικείμενο τη βελτίωση της εμφάνισης των αποτελεσμάτων αναζήτησης με τη χρήση συστάδων FRBR και υλοποιήθηκε σε γλώσσα XSLT. Άλλα εργαλεία, τα οποία προσανατολίζονται κυρίως στη μετατροπή βιβλιογραφικών καταλόγων, είναι ο αλγόριθμος work-set που αναπτύχθηκε από το OCLC20 (OCLC, 2005), καθώς και το εργαλείο που προέκυψε από τις διαδικασίες μετατροπής του καταλόγου BIBSYS στη Νορβηγία (Aalberg et al., 2006). Η βασική ιδέα αυτών των εργαλείων είναι η δημιουργία κλειδιών ταύτισης των οντοτήτων ενώ η πολυπλοκότητα κάθε αλγορίθμου εξαρτάται από το στόχο που έχει να υλοποιήσει το αντίστοιχο εργαλείο. Όπως προκύπτει από την περιγραφή του μοντέλου, η οντότητα Έργο αποτελεί ένα πολύ γενικότερο αντικείμενο από αυτό που ανιχνεύουν οι διαδικασίες ομοίων εγγραφών που περιγράφουν την ίδια έκφραση και υλική υπόσταση του ίδιου αντικειμένου, όπως αναφέρεται στην ενότητα Αυτό συνεπάγεται ότι στο πρώτο βήμα των αλγορίθμων ταύτισης για τη δημιουργία των ιεραρχικών Έργο-κεντρικών συστάδων, δηλαδή συστάδων που θα αντιπροσωπεύουν ένα Έργο και θα περιλαμβάνουν όλες τις Εκφράσεις και Εκδηλώσεις του ίδιου έργου, απαιτούνται λιγότεροι και χαλαρότεροι κανόνες ταύτισης από αυτούς που απαιτεί η δημιουργία των συστάδων της ίδιας έκφρασης και υλικής υπόστασης του αντικειμένου. Επιπροσθέτως, οι πολύπλοκοι έλεγχοι του δεύτερου βήματος των αλγορίθμων ταύτισης αφενός θα είναι δυνατό να πραγματοποιηθούν στο περιβάλλον του τελικού χρήστη, οπότε δεν επιβαρύνεται το περιβάλλον μετα-αναζήτησης, αφετέρου θα περιορίζονται διαδοχικά σε ακόμα μικρότερο αριθμό εγγραφών, καθότι αρχικά θα δημιουργούν ομάδες από Εκφράσεις και στη συνέχεια σε κάθε Έκφραση ομάδες Εκδηλώσεων. Έχοντας ως δεδομένο ότι ένα σύστημα μετα-αναζήτησης δεν έχει καμία 20 Online Computer Library Center, Inc.

74 Κεφάλαιο 2 55 δυνατότητα παρέμβασης στη δομή και την οργάνωση των δεδομένων μιας πηγής η εστίαση της χρήσης του FRBR μοντέλου γίνεται σε διαδικασίες σύνθεσης των αποτελεσμάτων αναζήτησης σε Έργο-κεντρικές συστάδες. Στο πλαίσιο της παρούσας διατριβής, επεκτείνοντας το λογισμικό της Library of Congress, αναπτύχθηκαν υποσυστήματα που συνθέτουν Έργο-κεντρικές συστάδες από τις σημασιολογικά συναφείς διατάξεις κωδικοποίησης μεταδεδομένων UNIMARC (IFLA UNIMARC Core Activity, 2008) και MODS (Library of Congress, 2009). Τα υποσυστήματα αυτά επιτρέπουν στο σύστημα μετα-συνθέτης να παρουσιάζει τα αποτελέσματα αναζήτησης σε Έργο-κεντρικές συστάδες και να μπορεί να εφαρμόζει τις διαδικασίες σύνθεσης σε πηγές που χρησιμοποιούν διαφορετικές κωδικοποιήσεις μεταδεδομένων. Η εικόνα 2.9 δείχνει την αντίστοιχη συνοπτική μορφή του παραδείγματος 2.3 σε ιεραρχική Έργο-κεντρική συστάδα, όπως εμφανίζεται από το σύστημα μετασυνθέτης. Η αναλυτική περιγραφή των διαδικασιών σύνθεσης των Έργο-κεντρικών συστάδων γίνεται στο κεφάλαιο 6, όπου περιγράφεται συνολικά και το σύστημα. Εικόνα 2.9. Αποτελέσματα αναζήτησης σε ιεραρχική Έργο-κεντρική συστάδα από το σύστημα μετα-συνθέτης. Με τη σύνθεση των Έργο-κεντρικών συστάδων, το σύστημα δίνει στο χρήστη μία πολύ πιο συμπαγή εικόνα για τον αριθμό και τα αποτελέσματα αναζήτησης, εφόσον κάθε αποτέλεσμα θα αντιστοιχεί σε ένα Έργο. Με αυτή την προσέγγιση, ο χρήστης θα έχει τη δυνατότητα να περιδιαβεί τις διαφορετικές εκφράσεις και υλικές υποστάσεις του ίδιου έργου χωρίς να επηρεάζεται από την ταξινόμηση των αποτελεσμάτων.

75 Κεφάλαιο Σύνοψη Η πολυπλοκότητα στην πρόσβαση που δημιουργεί στο χρήστη η ύπαρξη των πολλών και ετερογενών πηγών πληροφόρησης, τόσο στο περιβάλλον των βιβλιοθηκών όσο και στο ευρύτερο περιβάλλον του διαδικτύου, επέβαλε την αναγκαιότητα των συστημάτων ενιαίας πρόσβασης. Παρά την αποδοτικότητα των συστημάτων ενιαίας πρόσβασης που υλοποιούν το μοντέλο της συγκομιδής, ο τεράστιος όγκος των δεδομένων που θα συγκεντρωθεί από τη συγκομιδή των δεδομένων των πηγών, ο τύπος των δεδομένων, καθώς και οι πολιτικές διάθεσης που εφαρμόζει η κάθε πηγή αποτελούν τους κυριότερους λόγους που συχνά απαγορεύουν την εφαρμογή του μοντέλου της συγκομιδής και επιβάλλουν τα συστήματα μετα-αναζήτησης. Καθοριστικό ζήτημα στην αποτελεσματικότητα ενός συστήματος μετααναζήτησης είναι η δυνατότητά του να γνωρίζει τα χαρακτηριστικά αναζήτησης που υποστηρίζει κάθε πηγή και να μετεγγράφει τις επερωτήσεις από τη γλώσσα αναζήτησης που παρέχει στη γλώσσα που υποστηρίζει κάθε πηγή. Σε περιπτώσεις όπου δεν είναι δυνατή η μετεγγραφή σημασιολογικά ισοδύναμων επερωτήσεων με τα χαρακτηριστικά που υποστηρίζει η πηγή, η μετεγγραφή σε επερωτήσεις με συναφή σημασιολογία αποτρέπουν τις αποτυχημένες επερωτήσεις ή τις ασυνεπείς απαντήσεις. Σε ένα πραγματικό σύστημα μετα-αναζήτησης η σύνθεση των επιμέρους αποτελεσμάτων των πηγών σε ένα ενιαίο σύνολο καθορίζει σε σημαντικό βαθμό την αποδοχή του συστήματος από τους χρήστες. Η βελτίωση της αποδοτικότητας των συστημάτων μετα-αναζήτησης, σε σχέση με τις υπηρεσίες αναζήτησης και σύνθεσης των αποτελεσμάτων σε ένα ενιαίο σύνολο, αντιμετωπίζει ιδιαιτερότητες λόγω του περιορισμένου χρόνου που επιβάλει το περιβάλλον της άμεσης επικοινωνίας (online) του συστήματος όπου απαιτείται επιπλέον να δοθεί η απάντηση στον ελάχιστο δυνατό χρόνο. Η χρήση κοινών προτύπων διευκολύνει στην εξισορρόπηση των παραμέτρων λειτουργικότητας και ευκολίας υλοποίησης κατά την ανάπτυξη ενός συστήματος μετα-αναζήτησης ενώ η παρουσίαση των αποτελεσμάτων αναζήτησης στο χρήστη σύμφωνα με το μοντέλο FRBR καλύπτει επαρκώς τις τρέχουσες απαιτήσεις του. Η παρούσα διατριβή πραγματεύεται προβλήματα της εφαρμογής του μοντέλου μετα-αναζήτησης, με ιδιαίτερη έμφαση στο περιβάλλον των βιβλιοθηκών

76 Κεφάλαιο 2 57 που εφαρμόζουν συστήματα διάθεσης συμβατά με το πρωτόκολλο Z Παρά την εξειδίκευση του περιβάλλοντος εργασίας, οι προτεινόμενες λύσεις είναι γενικές και ευρύτερα εφαρμόσιμες. Πιο συγκεκριμένα, η προτεινόμενη αρχιτεκτονική για τη δημιουργία του εικονικού συλλογικού καταλόγου που αναπτύσσεται στο αμέσως επόμενο κεφάλαιο, βελτιώνοντας την αποδοτικότητα των διαδικασιών προώθησης της επερώτησης στις πηγές και σε συνδυασμό με την ασύγχρονη τμηματική συλλογή και επεξεργασία των αποτελεσμάτων, επιτρέπει στο σύστημα να παρέχει καλύτερες υπηρεσίες σύνθεσης των αποτελεσμάτων με Εργο-κεντρικές συστάδες σύμφωνα με το μοντέλο FRBR. Επιπλέον, η προσέγγιση της συντακτικής περιγραφής των χαρακτηριστικών που βασίζεται σε γραμματικούς κανόνες αντιστοίχισης (grammar based mappings), κεφάλαιο 4, όσο και η σημασιολογική αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης με τη χρήση του Σημασιολογικού Δικτύου Σημείων Πρόσβασης (κεφάλαιο 5), αποτελούν συνεισφορές της παρούσας διατριβής στη λύση του προβλήματος των αποτυχημένων επερωτήσεων ή των ασυνεπών απαντήσεων. Τέλος, η υλοποίηση των προτεινόμενων μεθόδων στο σύστημα μετασυνθέτης και η χρήση του σε πηγές παγκοσμίου ενδιαφέροντος δείχνουν τα οφέλη από τη σημασιολογική βελτίωση της διαλειτουργικότητας στο περιβάλλον των βιβλιοθηκών.

77 Κεφάλαιο 3 Αρχιτεκτονική επαναληπτικής ανάκτησης και σύνθεσης παράλληλες αποτελεσμάτων διαδικασίες σε με εικονικό συλλογικό κατάλογο Μια από τις εναλλακτικές ονομασίες των συστημάτων μετα-αναζήτησης είναι ο εικονικός συλλογικός κατάλογος ή εικονικός κατάλογος. Ουσιαστικά, η ονομασία αυτή υποδηλώνει τις αντίστοιχες προσπάθειες της κοινότητας των βιβλιοθηκών για την ανάπτυξη συστημάτων ενιαίας πρόσβασης σε περιβάλλον πραγματικού χρόνου. Όπως έχει ήδη αναφερθεί, προς τα τέλη της δεκαετίας του τα συστήματα άμεσης πρόσβασης στους καταλόγους των βιβλιοθηκών (OPACs) αποτελούσαν αυτονόητη υπηρεσία για το σύνολο των βιβλιοθηκών. Τα συστήματα αυτά δημιούργησαν τις προϋποθέσεις για την ανάπτυξη των επόμενων συστημάτων άμεσης πρόσβασης σε πραγματικό χρόνο τα οποία θα παρέχουν ταυτόχρονη συνεκτική πρόσβαση στο περιεχόμενο ομάδων βιβλιοθηκών από ένα κεντρικό σημείο. 21 Τα πρώτα πειραματικά συστήματα άμεσης πρόσβασης στους καταλόγους των βιβλιοθηκών εμφανίστηκαν στις αρχές της δεκαετίας του Στη συνέχεια, το πρώτο σύστημα ευρείας κλίμακας αναπτύχθηκε στο Ohio State University το 1975, ενώ το αμέσως επόμενο από την Dallas Public Library το Τα συστήματα αυτά αντανακλούσαν πολύ έντονα τη λογική των δελτιοκαταλόγων, μιας και ο πρωταρχικός τους στόχος ήταν η αντικατάσταση των υπαρχόντων δελτιοκαταλόγων. 58

78 Κεφάλαιο 3 59 Αξίζει να σημειωθεί ότι η ιδέα για την ανάπτυξη των συλλογικών καταλόγων στις βιβλιοθήκες δεν είναι νέα και δεν εμφανίστηκε με την ανάπτυξη των υπολογιστικών συστημάτων. Ειδικότερα, ο μεγαλύτερος έντυπος συλλογικός κατάλογος μέχρι σήμερα είναι ο National Union Catalog Pre-1956 Imprints των Ηνωμένων Πολιτειών της Αμερικής (American Library Association, ), αποκαλούμενος και Mansell από το όνομα του εκδότη του. Η πρώτη εκδοχή του σε δελτία άρχισε να αναπτύσσεται το 1901, ενώ από το 1960 μέχρι το 1981 που έκλεισε η έντυπη εκδοχή του αποτελείτο από 754 τόμους των 600 σελίδων ο κάθε ένας, ενώ χρειαζόταν περίπου 40 μέτρα ράφια για να τοποθετηθεί (Beall and kafadar, 2005). Οι κύριες λειτουργικές απαιτήσεις που θέτει η κοινότητα των βιβλιοθηκών τις οποίες πρέπει να πληρούν τα συστήματα διαχείρισης των συλλογικών καταλόγων είναι (Lynch, 1997): η συνεπής (consistent) ευρετηρίαση και αναζήτηση του περιεχομένου κάθε βιβλιοθήκης μέσω των μεταδεδομένων που το περιγράφουν, η ανίχνευση των ομοίων εγγραφών που περιγράφουν το ίδιο φυσικό αντικείμενο και η σύνθεσή τους σε μία εγγραφή, η δυνατότητα για αξιόπιστη και αποδοτική διαθεσιμότητα του συστήματος, σε συνδυασμό με την ελεγχόμενη και όσο το δυνατόν ευκολότερη διαχείρισή του. Η συνεπής ευρετηρίαση προσδιορίζεται από τον ορισμό (ποια θα είναι), τη σημασιολογία (ποια πληροφορία θα περιλαμβάνουν) και τους κανόνες κανονικοποίησης των Σημείων Πρόσβασης. Η άμεση απόκριση του συστήματος στις επερωτήσεις των χρηστών, ανεξάρτητα από τον αριθμό και το μέγεθος των εγγραφών που διαχειρίζεται, είναι ο πρωταρχικός παράγοντας στην αποδοτική λειτουργία ενός συστήματος διαχείρισης συλλογικού καταλόγου. Παράλληλα, η εύκολη διαχείριση των πόρων του συστήματος σε συνδυασμό με την επεκτασιμότητα και την περαιτέρω εξέλιξή του συμβάλουν καθοριστικά στην αξιοπιστία και τη διαθεσιμότητά του. Αρχικά, οι διαθέσιμες τεχνολογίες των υπολογιστικών συστημάτων και των δικτύων, σε συνδυασμό με την ετερογένεια και την εναλλακτική εφαρμογή των προτύπων που υλοποιούσαν οι βιβλιοθήκες, επέτρεπαν την επίτευξη των προαναφερομένων λειτουργικών απαιτήσεων μόνο από υλοποιήσεις του μοντέλου της συγκομιδής δημιουργώντας τους κεντρικοποιημένους (centralized) συλλογικούς

79 Κεφάλαιο 3 60 καταλόγους. Τα συστήματα MELVYL22, WorldCat23, COPAC24 είναι ενδεικτικά αλλά και αρκετά αξιόπιστα παραδείγματα κεντρικοποιημένων συλλογικών καταλόγων που λειτουργούν σήμερα και διαθέτουν αρκετά εκατομμύρια εγγραφών σε αρκετές χιλιάδες χρήστες καθημερινά. Στη συνέχεια, η ολοένα αναπτυσσόμενη τεχνολογία των δικτύων, η αποδοχή και εφαρμογή διεθνών προτύπων κωδικοποίησης μεταδεδομένων, καθώς επίσης η ανάπτυξη του πρωτοκόλλου αναζήτησης πληροφοριών Z39.50 και η ευρεία εφαρμογή του, ιδιαιτέρως μετά το 1995, δημιούργησαν τις προϋποθέσεις για την ανάπτυξη των πρώτων εικονικών συλλογικών καταλόγων στις βιβλιοθήκες. 3.1 Εικονικοί συλλογικοί κατάλογοι Τα πλεονεκτήματα των συλλογικών καταλόγων που υλοποιούν το κατανεμημένο μοντέλο συνοψίζονται στα παρακάτω (Lynch, 1997; Payette and Rieger, 1997): στην αυτονομία και τον έλεγχο κάθε τοπικού συστήματος από την αντίστοιχη βιβλιοθήκη, στη διατήρηση των τοπικών χαρακτηριστικών κάθε συλλογής, στη δυνατότητα κάθε χρήστη να επιλέξει και να ορίσει ο ίδιος τη συλλογή των πηγών που συνθέτουν τον εξατομικευμένο του εικονικό κατάλογο, στην αποφυγή προβλημάτων αποδοτικότητας από τους πολύ μεγάλους όγκους δεδομένων, στην αποφυγή των μεγάλων και σύνθετων υπολογιστικών συστημάτων που απαιτούν μεγάλο κόστος ανάπτυξης, καθώς επίσης και πολύπλοκες διαδικασίες συντήρησης, στις λιγότερο αυστηρές διαδικασίες ταύτισης των ομοίων εγγραφών, εφόσον οι συστάδες είναι προσωρινές και δεν προορίζονται για τη δημιουργία φυσικού καταλόγου, στην άμεση ενημερότητα του καταλόγου, στη δυνατότητα άμεσης υποστήριξης υπηρεσιών διαδανεισμού. Θεωρώντας δεδομένη τη μεγάλη αύξηση του μεγέθους και του αριθμού των

80 Κεφάλαιο 3 61 διαθέσιμων καταλόγων η αποδοτικότητα του συστήματος στις διαδικασίες αναζήτησης και ενημέρωσης του συλλογικού καταλόγου είναι καθοριστικός παράγοντας στην αποδοχή και χρήση του. Επιπροσθέτως, η διαδικασία του διαδανεισμού απαιτεί ο συλλογικός κατάλογος να είναι ενημερωμένος για το περιεχόμενο κάθε βιβλιοθήκης σε επίπεδο εγγραφής και αντιτύπων. Ειδικότερα, σε περιπτώσεις μη ψηφιακού υλικού, το οποίο στην παρούσα χρονική περίοδο αποτελεί την πλειοψηφία του διαθέσιμου υλικού των βιβλιοθηκών, ο συλλογικός κατάλογος πρέπει να είναι ενήμερος για κάθε διαθέσιμο αντίτυπο του καταλόγου, για το εάν αυτό δανείζεται και σε ποιους χρήστες, καθώς επίσης για την τρέχουσα κατάστασή του, δηλαδή αν είναι διαθέσιμο ή όχι, δανεισμένο, κλπ. Αντίστοιχα, σε περιπτώσεις ψηφιακού υλικού, παρά το ότι το πρόβλημα θεωρείται απλούστερο, ο συλλογικός κατάλογος πρέπει να είναι ενημερωμένος για τον τρόπο και τα δικαιώματα πρόσβασης σε κάθε ψηφιακό αντικείμενο. Για αυτούς τους λόγους, η διαδικασία του διαδανεισμού δεν μπορεί να υποστηριχθεί άμεσα από τους κεντρικοποιημένους συλλογικούς καταλόγους και απαιτεί την ανάπτυξη επιπρόσθετων διαδικασιών. Οι πρώτες υλοποιήσεις εικονικών συλλογικών καταλόγων έδειξαν ότι η εφαρμογή του πρωτοκόλλου Z39.50 και η εστίαση στην εφαρμογή και χρήση συγκεκριμένων προτύπων κωδικοποίησης μεταδεδομένων από τις βιβλιοθήκες δεν επαρκούσαν για να καλυφθούν οι λειτουργικές απαιτήσεις που είχε θέσει η κοινότητα των βιβλιοθηκών. Παρότι για κάποιες από τις υπηρεσίες (π.χ. διαδανεισμός) υπήρχε η δυνατότητα να υλοποιηθούν άμεσα και αποδοτικά, ουσιαστικά τα περισσότερα από τα προβλήματα της αποτελεσματικότητας και της αποδοτικότητας των συστημάτων μετα-αναζήτησης, όπως παρουσιάστηκαν στο κεφάλαιο 2, παρέμεναν άλυτα εμποδίζοντας την παραπέρα ανάπτυξη και εφαρμογή των εικονικών συλλογικών καταλόγων. Τα προβλήματα στους χρόνους απόκρισης και στη διαθεσιμότητα αρκετών τοπικών συστημάτων επέτρεπαν μόνο την υλοποίηση ψευδο-συστημάτων μετααναζήτησης με μικρό αριθμό βιβλιοθηκών. Οι υλοποιήσεις συστημάτων ευρύτερης κλίμακας, με στοιχειώδεις διαδικασίες σύνθεσης και ενοποίησης των αποτελεσμάτων, δεν ικανοποιούσαν τις απαιτήσεις των χρηστών, ιδιαίτερα σε σχέση με την απόκριση των συστημάτων (Lunau and Turner, 1997; Payette and Rieger, 1997; Stubley et al., 2001; Coyle, 2003; Macgregor, 2005). Είναι αξιοσημείωτο ότι αρκετές από τις

81 Κεφάλαιο 3 62 προσδοκίες των σύγχρονων χρηστών, σε σχέση με την απόκριση των εικονικών συλλογικών καταλόγων, έχουν επηρεαστεί από την απόδοση των κεντρικοποιημένων συλλογικών καταλόγων, που λειτουργούν ήδη επιτυχώς, καθώς και από τις υπάρχουσες μηχανές αναζήτησης του παγκόσμιου ιστού. Οι προσδοκίες αυτές είναι τόσο αυξημένες, ώστε η μη άμεση ανταπόκριση ενός συστήματος μετα-αναζήτησης να συνεπάγεται την απόρριψή του (Booth and Hartley, 2004). Σε έναν εικονικό συλλογικό κατάλογο σύμφωνα με τον Lynch (1997) και τους Payette και Rieger (1997), είναι πάρα πολύ δύσκολη, αν όχι αδύνατη, η αξιόπιστη ανίχνευση των ομοίων εγγραφών που περιγράφουν την ίδια έκφραση και υπόσταση ενός αντικειμένου, υπηρεσία που είναι καθοριστική για την αποδοχή του συστήματος από τους χρήστες. Σκέψεις για εξειδικευμένες λύσεις στο πρόβλημα της ανίχνευσης των ομοίων εγγραφών, όπως η χρήση των κωδικών ταυτότητας των εγγραφών της Library of Congress25, ή του ISBN26 απέδωσαν ελάχιστα, χωρίς να λύσουν το πρόβλημα. Ειδικότερα με το πρωτόκολλο Z39.50, η περιορισμένη υιοθέτηση διεθνών προφίλ υλοποίησης, όπως του Bath Profile (ISO TC 46 SC 4, 2004), είχε σαν αποτέλεσμα να υπάρχουν μεγάλες διαφοροποιήσεις στην υλοποίηση των διαδικασιών αναζήτησης των Z39.50 διακομιστών (Cousins and Sanders, 2006). Οι πρώτοι εικονικοί συλλογικοί κατάλογοι, προκειμένου να αποφύγουν τις αποτυχημένες επερωτήσεις ή τις ασυνεπείς απαντήσεις που προκαλούσαν οι διαφορετικές υλοποιήσεις των Z39.50 διακομιστών, περιόριζαν τα διαθέσιμα Σημεία Πρόσβασης στο ελάχιστο κοινό υποσύνολο από τα Σημεία Πρόσβασης που υποστήριζαν όλα τα τοπικά συστήματα. Σε πιο πρόσφατες υλοποιήσεις, όπως είναι το σύστημα InforM25 server (Cousins and Sanders, 2006), για να εξομαλύνουν τις ασυμφωνίες μεταξύ των τοπικών συστημάτων και να βελτιώσουν τη συνεκτικότητα της αναζήτησης, όρισαν για κάθε Σημείο Πρόσβασης που θα διέθετε ο εικονικός κατάλογος την κατάλληλη μετεγγραφή του για κάθε τοπικό διακομιστή. Επειδή η διαδικασία ορισμού και ενημέρωσης των μετεγγραφών είναι μη αυτοματοποιημένη και γίνεται από το διαχειριστή του συστήματος, η συντήρησή του σε περίπτωση μεταβολής των χαρακτηριστικών αναζήτησης ενός διακομιστή ή της ένταξης ενός νέου είναι αρκετά σύνθετη και χρονοβόρα ενώ η συνεκτικότητα των μετεγγραφών απαιτεί μεγάλη Library of Congress Control Number International Standard Book Number

82 Κεφάλαιο 3 63 προσοχή. Η προτεινόμενη αρχιτεκτονική εικονικού συλλογικού καταλόγου που παρουσιάζεται σε αυτό το κεφάλαιο έχει ως στόχο να προτείνει λύσεις που να ικανοποιούν τις προσδοκίες των χρηστών, που όπως προαναφέρθηκαν συνοψίζονται: στην άμεση απόκριση του συστήματος, στη σύνθεση των αποτελεσμάτων σε ένα ενιαίο σύνολο, στην αποφυγή αποτυχημένων επερωτήσεων ή ασυνεπών απαντήσεων. Οι κύριες ιδέες για την εξισορρόπηση της βέλτιστης αποτελεσματικότητας και αποδοτικότητας του συστήματος είναι: η παράλληλη υλοποίηση των διαδικασιών αναζήτησης, ανάκτησης και σύνθεσης των αποτελεσμάτων, η άμεση δημιουργία ενός μικρού αριθμού FRBR Εργο-κεντρικών συστάδων αρχικά, και στη συνέχεια η σταδιακή σύνθεση των υπολοίπων συστάδων στο παρασκήνιο, με παράλληλες διαδικασίες, στο χρόνο που ο χρήστης επεξεργάζεται τα προηγούμενα αποτελέσματα, η περιγραφή των χαρακτηριστικών αναζήτησης των πηγών με τη γλώσσα RQDL, η οποία βασίζεται στη Datalog, η σημασιολογική μετεγγραφή των μη υποστηριζόμενων Σημείων Πρόσβασης. Ειδικότερα, για να έχει ο χρήστης την αίσθηση της άμεσης απόκρισης από το σύστημα, γίνεται η παρουσίαση των πρώτων FRBR Εργο-κεντρικών συστάδων που θα δημιουργηθούν από ένα μικρό υποσύνολο αποτελεσμάτων από τη γρηγορότερη πηγή. Όπως έχει αναφερθεί στις ενότητες και 2.3.2, επειδή η διαδικασία σύνθεσης των Έργο-κεντρικών συστάδων απαιτεί γενικότερους ελέγχους για την ανίχνευση των οντοτήτων των Έργων είναι αποδοτικότερη από την ανίχνευση των ομοίων εγγραφών του ίδιου φυσικού αντικειμένου. Επιπροσθέτως, επειδή μπορεί να υλοποιηθεί σε δύο βήματα, οι πολυπλοκότερες διαδικασίες για τη δημιουργία της ιεραρχίας των υπολοίπων οντοτήτων του έργου, εκφράσεων κλπ., υλοποιούνται κατά τη διάρκεια της εμφάνισης των αποτελεσμάτων στο σταθμό εργασίας του χρήστη απαλλάσσοντας τον ενδιάμεσο. Αξίζει να αναφερθεί ότι έχει γίνει αρκετή κριτική για τον τρόπο εμφάνισης των αποτελεσμάτων από τα υπάρχοντα συστήματα άμεσης πρόσβασης των βιβλιοθηκών, ενώ προτείνεται ως νέα απαίτηση των χρηστών η δημιουργία των ιεραρχικών συστάδων που συνθέτουν όλες τις εναλλακτικές

83 Κεφάλαιο 3 64 εκφράσεις και υποστάσεις του ίδιου έργου σε μία οντότητα (Yee, 2005; Mimo et al., 2005). Για την αποφυγή αποτυχημένων επερωτήσεων ή ασυνεπών απαντήσεων, σε αντίθεση με το σύστημα InforM25 server όπου γίνεται μη αυτοματοποιημένη αντιστοίχιση ενός μικρού συνόλου Σημείων πρόσβασης, η σημασιολογική μετεγγραφή των μη υποστηριζόμενων Σημείων Πρόσβασης, η οποία θα αναπτυχθεί στο κεφάλαιο 5, είναι πλήρως αυτοματοποιημένη, καλύπτει όλο το Σύνολο Γνωρισμάτων Z39.50 BIB-1 και βασίζεται στη σημασιολογία που προκύπτει έμμεσα από τον ορισμό των μεταδεδομένων που συνθέτουν το Σημείο Πρόσβασης. Τα σχετικά θέματα με την περιγραφή των χαρακτηριστικών αναζήτησης με τη χρήση της γλώσσας RQDL παρουσιάζονται στο κεφάλαιο 4. Στην ενότητα που ακολουθεί γίνεται η παρουσίαση των υποσυστημάτων της προτεινόμενης αρχιτεκτονικής, καθώς επίσης και η αλληλεπίδρασή τους κατά την εκτέλεση μιας επερώτησης. Ακολουθεί η λεπτομερής ανάλυση των βημάτων που διενεργούνται για να γίνει η προώθηση της επερώτησης στους τοπικούς Z39.50 διακομιστές, καθώς επίσης η ανάκτηση των αποτελεσμάτων και η σύνθεση των συστάδων. Επιπροσθέτως, γίνεται η σχετική αναφορά σε όλα τα ειδικά χαρακτηριστικά του πρωτοκόλλου Z39.50 η χρήση των οποίων μπορεί να συνεισφέρει στη συνολική απόδοση του συστήματος. Στη συνέχεια, ολοκληρώνεται η παρουσίαση της αρχιτεκτονικής με τον προσδιορισμό της αποδοτικότητάς της, η οποία συγκρίνεται με την αποδοτικότητα των υπόλοιπων ομάδων συστημάτων μετααναζήτησης που παρουσιάστηκαν στο κεφάλαιο 2. Αξίζει να σημειωθεί ότι η προτεινόμενη αρχιτεκτονική είναι γενική και εύκολα προσαρμόσιμη σε ευρύτερα περιβάλλοντα μετα-αναζήτησης, όπου μπορούν να συμμετέχουν και πηγές που δεν είναι συμβατές με το πρωτόκολλο Z Επαναληπτική ανάκτηση και σύνθεση αποτελεσμάτων με παράλληλη υλοποίηση διαδικασιών Η ιδεατή διαδικασία που ακολουθεί ένα σύστημα εικονικού καταλόγου για να εκτελέσει μια επερώτηση, ακολουθεί τα επόμενα βήματα: 1. Αποδοχή της επερώτησης.

84 Κεφάλαιο Μετεγγραφή και προώθηση της επερώτησης στους τοπικούς διακομιστές Μετεγγραφή της επερώτησης σύμφωνα με τα χαρακτηριστικά που υποστηρίζει κάθε τοπικός διακομιστής Προώθηση των μετεγγραμμένων επερωτήσεων στους αντίστοιχους τοπικούς διακομιστές. Στο σημείο αυτό, ο εικονικός κατάλογος δίνει τον έλεγχο σε κάθε τοπικό διακομιστή ζητώντας του να εκτελέσει την επερώτηση ενώ αναμένει την απάντηση. Ειδικότερα, στο περιβάλλον του Z39.50 ενεργοποιείται η υπηρεσία αναζήτησης (search service) του τοπικού διακομιστή. 3. Ανάκτηση των αποτελεσμάτων για κάθε θετική απάντηση από τον αντίστοιχο διακομιστή. Στο περιβάλλον του Z39.50 ενεργοποιείται η υπηρεσία ανάκτησης (present service) του τοπικού διακομιστή. 4. Επεξεργασία των αποτελεσμάτων και σύνθεση συστάδων. 5. Επιστροφή αποτελεσμάτων. Όπως έχει προαναφερθεί στο κεφάλαιο 2, το μοντέλο υλοποίησης που ακολουθεί ένα σύστημα μετα-αναζήτησης (σειριακό ή παράλληλο) προσδιορίζει τη σειρά που θα υλοποιηθούν οι παραπάνω διαδικασίες καθορίζοντας παράλληλα την απόδοση και την πολυπλοκότητα υλοποίησής του. Επίσης, η υπηρεσία ανάκτησης είναι διακριτή από την υπηρεσία αναζήτησης, ανεξάρτητα από το αν σε κάποιες περιπτώσεις υπάρχει η δυνατότητα να ανακτηθούν εγγραφές ταυτόχρονα και από την υπηρεσία αναζήτησης. Σε μία τυπική υπηρεσία ανάκτησης, όπως είναι αυτή του Z39.50, ο εικονικός κατάλογος ζητά πακέτα με μέγιστο αριθμό μεταδεδομένων. Ο μέγιστος αριθμός εγγραφών που θα περιέχει το πακέτο είναι είτε προκαθορισμένος από τον τοπικό διακομιστή είτε καθορίζεται μετά από διαπραγματεύσεις του εικονικού καταλόγου με το διακομιστή. Ο εικονικός κατάλογος ανακτά τον επιθυμητό αριθμό εγγραφών επικαλούμενος επαναληπτικά την τοπική υπηρεσία ανάκτησης. Αντίστοιχη είναι και η υπηρεσία ανάκτησης που υλοποιεί ο εικονικός κατάλογος προς το χρήστη ή την εφαρμογή στο παραπάνω επίπεδο επιστρέφοντας τμηματικά μικρά Σύνολα Αποτελεσμάτων. Κάθε εγγραφή που ανακτάται από τους τοπικούς διακομιστές μετατρέπεται στην εσωτερική διάταξη μεταδεδομένων που υποστηρίζει ο εικονικός κατάλογος και δημιουργούνται τα κλειδιά που θα χρησιμοποιηθούν για την ταύτιση των οντοτήτων στη διαδικασία σύνθεσης των συστάδων. Είναι προφανές ότι για κάθε τοπική διάταξη (όπως MARC21, MODS, κλπ.) πρέπει να υπάρχει και ο αντίστοιχος

85 Κεφάλαιο 3 66 μετατροπέας προς την εσωτερική διάταξη του εικονικού καταλόγου. Σκιαγραφώντας τη ροή των διαδικασιών της προτεινόμενης αρχιτεκτονικής, αρχικά η μετεγγραφή και προώθηση της επερώτησης στους Z39.50 διακομιστές γίνεται παράλληλα. Με τη λήψη της πρώτης θετικής απάντησης ενεργοποιείται ταυτόχρονα η επαναληπτική ανάκτηση και επεξεργασία των αποτελεσμάτων. Μόλις δημιουργηθεί ένα Σύνολο Αποτελεσμάτων με ένα σχετικά μικρό αριθμό FRBR οντοτήτων Έργων, τα αποτελέσματα αποστέλλονται στο χρήστη. Στη συνέχεια, κατά την διάρκεια που ο χρήστης επεξεργάζεται τα αποτελέσματα, το σύστημα συνεχίζει επαναληπτικά την παράλληλη ανάκτηση μικρών πακέτων αποτελεσμάτων από τους τοπικούς διακομιστές και συνθέτει τα επόμενα Σύνολα Αποτελεσμάτων στο παρασκήνιο (background). Με τη συντομότερη δυνατή παρουσίαση μερικών αποτελεσμάτων ο χρήστης έχει την αίσθηση της άμεσης απόκρισης του συστήματος ενώ παράλληλα ο εικονικός κατάλογος χρησιμοποιεί το χρόνο που ο χρήστης επεξεργάζεται τα αποτελέσματα που έλαβε προκειμένου να προετοιμάσει τα επόμενα Σύνολα Αποτελεσμάτων. Ακόμη, οι πιθανές καθυστερήσεις από τα αργά δίκτυα και τα τοπικά συστήματα, καθώς και τα πιθανά σφάλματα που θα προκύψουν από τους τοπικούς διακομιστές, θα επηρεάσουν στο ελάχιστο τη συνολική απόδοση του συστήματος, μιας και δε θα διακόπτουν τις διαδικασίες αναζήτησης, ανάκτησης και σύνθεσης των αποτελεσμάτων. Παράλληλα με την επαναληπτική ανάκτηση και επεξεργασία των αποτελεσμάτων, το σύστημα έχει τη δυνατότητα να εκμεταλλευθεί ειδικά χαρακτηριστικά, τόσο του Z39.50 όσο και της δομής των μεταδεδομένων που υποστηρίζει κάθε πηγή. Ειδικότερα, για να ανακτηθούν περισσότερο επεξεργασμένα δεδομένα από τους τοπικούς διακομιστές και να είναι αποδοτικότερη η διαδικασία σύνθεσης των συστάδων ενεργοποιούνται οι υπηρεσίες ανίχνευσης ομοίων εγγραφών και ταξινόμησης του Z39.50, σε περίπτωση βεβαίως που αυτές υποστηρίζονται. Επιπροσθέτως, μεταξύ των παραμέτρων που επεξεργάζεται η διαδικασία που επιλέγει την πηγή από όπου θα ανακτηθεί το επόμενο πακέτο αποτελεσμάτων είναι η διάταξη, η πληρότητα και γενικότερα η ποιότητα των μεταδεδομένων που ακολουθεί κάθε πηγή. Οι πληροφορίες αυτές δίνουν μία σημαντική ένδειξη για την αποτελεσματικότητα και αποδοτικότητα τόσο της γενικής επεξεργασίας των μεταδεδομένων όσο και της εξειδικευμένης διαδικασίας σύνθεσης των FRBR

86 Κεφάλαιο 3 67 συστάδων. Οι πληροφορίες που απαιτούνται για να ενεργοποιηθούν τα παραπάνω ιδιαίτερα χαρακτηριστικά αντλούνται από τις καταγεγραμμένες πληροφορίες στο προφίλ των Z39.50 διακομιστών που διατηρεί ο εικονικός κατάλογος. Εικόνα 3.1. Μονάδες λογισμικού, υποσυστήματα και οι αλληλεπιδράσεις τους. Όπως φαίνεται στην εικόνα 3.1, ο εικονικός συλλογικός κατάλογος αποτελείται από τις μονάδες λογισμικού: α) της αίτησης, β) της επεξεργασίας των αποτελεσμάτων και γ) της επικοινωνίας με τις πηγές. Περαιτέρω, η μονάδα επεξεργασίας αναλύεται σε επιμέρους υποσυστήματα για να επεξεργασθεί και να συνθέσει τις συστάδες από τα μεταδεδομένα που θα παραλάβει από τη μονάδα επικοινωνίας. Στην εικόνα 3.1, όπου αναπαρίστανται συνοπτικά οι μονάδες, τα υποσυστήματα και οι μεταξύ τους αλληλεπιδράσεις, τα τετράγωνα αναπαριστούν τις μονάδες λογισμικού, οι ελλείψεις αναπαριστούν τα υποσυστήματα των μονάδων, οι συνεχόμενες γραμμές αναπαριστούν μεταφορά δεδομένων ενώ οι διακεκομμένες γραμμές αναπαριστούν ανταλλαγές μηνυμάτων ελέγχου μεταξύ των μονάδων και των υποσυστημάτων του εικονικού καταλόγου. Τα σχήματα με τις διπλές γραμμές

87 Κεφάλαιο 3 68 υποδηλώνουν ότι για την αντίστοιχη μονάδα ή υποσύστημα είναι δυνατή η δημιουργία αυτόνομων στιγμιότυπων που θα εκτελούνται σε διαφορετικούς επεξεργαστές και θα επικοινωνούν μέσω κοινόχρηστης μνήμης. Παρότι η παράλληλη χρήση διαφορετικών επεξεργαστών δυσκολεύει την ανάπτυξη του συστήματος, παρέχει μια επιπρόσθετη δυνατότητα σε περίπτωση που απαιτείται μεγαλύτερη απόδοση από το σύστημα Μονάδες λογισμικού, υποσυστήματα και οι αλληλεπιδράσεις τους Ειδικότερα, σε ό,τι αφορά τις τρεις μονάδες λογισμικού (εικόνα 3.1): Η μονάδα της αίτησης λαμβάνει τα αιτήματα από το χρήστη ή από μία άλλη εφαρμογή, τα προωθεί στην κατάλληλη μονάδα και αναμένει την απάντησή της. Εάν πρόκειται για επερώτηση, την προωθεί άμεσα στη μονάδα επικοινωνίας ενώ, εάν πρόκειται για αίτημα ανάκτησης, δηλαδή αίτημα παρουσίασης επόμενου Συνόλου Αποτελεσμάτων από επερώτηση που έχει ήδη εκτελεσθεί, την προωθεί στη μονάδα επεξεργασίας. Και στις δυο περιπτώσεις η μονάδα περιμένει ένα Σύνολο Αποτελεσμάτων αποτελούμενο το πολύ από p Έργο-κεντρικές συστάδες. Μόλις λάβει το Σύνολο Αποτελεσμάτων με τις μοναδικές p συστάδες από τη μονάδα επεξεργασίας αποτελεσμάτων, τις επιστρέφει στο χρήστη και περιμένει το επόμενο αίτημα. Η μονάδα της επικοινωνίας υλοποιεί την πρόσβαση μέσω του κατάλληλου πρωτοκόλλου επικοινωνίας που υποστηρίζει κάθε πηγή. Προωθεί, παράλληλα, στις πηγές τα αιτήματα που θα λάβει είτε απευθείας από τη μονάδα αίτησης, τα οποία είναι επερωτήσεις είτε από τη μονάδα επεξεργασίας αποτελεσμάτων, τα οποία είναι αιτήματα περαιτέρω ανάκτησης αποτελεσμάτων. Επιπροσθέτως, η μονάδα λαμβάνει υπόψη και τα ειδικά χαρακτηριστικά που υποστηρίζει κάθε διακομιστής και την απόδοσή του από το προφίλ υλοποίησης που διατηρεί για τους διακομιστές. Σε περίπτωση που ένας διακομιστής υποστηρίζει τις υπηρεσίες ανίχνευσης ομοίων εγγραφών ή ταξινόμησης, η μονάδα συμπληρώνει την επερώτηση με τις κατάλληλες παραμέτρους. Όπως έχει ήδη αναφερθεί, η μονάδα δεν ανακτά όλα τα αποτελέσματα με μία μόνο αίτηση ανάκτησης από κάθε διακομιστή, αλλά επαναλαμβάνει το αίτημα ανάκτησης ζητώντας κάθε φορά το πολύ p εγγραφές. Στην πράξη, ανάλογα με

88 Κεφάλαιο 3 69 την απόδοση του δικτύου και της πηγής, είναι δυνατό ο αριθμός των εγγραφών p να είναι διαφορετικός για κάθε πηγή, αλλά για λόγους ευκολότερης κατανόησης της αρχιτεκτονικής θεωρούμε ότι είναι ίδιο για όλες τις αιτήσεις ανάκτησης σε όλους τους διακομιστές. Με την αποφυγή μεταφοράς μεγάλου όγκου δεδομένων από ένα αίτημα ανάκτησης ελαχιστοποιείται η συνολική επιβάρυνση του συστήματος από τις αργές δικτυακές συνδέσεις ή τους αργούς διακομιστές. Μόλις η μονάδα παραλάβει ένα Σύνολο Αποτελεσμάτων το προωθεί για επεξεργασία στη μονάδα επεξεργασίας αποτελεσμάτων. Η μονάδα Επικοινωνίας αρχίζει τη λειτουργία της με τη λήψη ενός αιτήματος αναζήτησης από τη μονάδα Αίτησης, ενώ επικοινωνεί με αυτή μόνο με επιστροφή μηνυμάτων ελέγχου σε περίπτωση που υπάρχει έλεγχος πρόσβασης από το διακομιστή ή δεν είναι διαθέσιμη μία υπηρεσία. Από τις σημαντικότερες λειτουργίες που διενεργεί η μονάδα Επικοινωνίας είναι ο έλεγχος συμβατότητας των επερωτήσεων με τα χαρακτηριστικά αναζήτησης που υποστηρίζει κάθε πηγή και στη συνέχεια η κατάλληλη μετεγγραφή της επερώτησης για κάθε μία πηγή. Η μεθοδολογία περιγραφής και ελέγχου των χαρακτηριστικών, η οποία γίνεται με τη γλώσσα RQDL, αναλύεται στο κεφάλαιο 4, ενώ η περιγραφή της υλοποίησης των υποσυστημάτων στο κεφάλαιο 6. Επιπροσθέτως η μέθοδος για τη σημασιολογική μετεγγραφή των μη υποστηριζόμενων Σημείων Πρόσβασης αναλύεται στο κεφάλαιο 5, ενώ η περιγραφή της υλοποίησης των υποσυστημάτων που την υλοποιούν στο κεφάλαιο 6. Η μονάδα της επεξεργασίας αποτελεσμάτων, λαμβάνει τα αποτελέσματα από τη μονάδα Επικοινωνίας, επεξεργάζεται και συνθέτει τα Σύνολα Αποτελεσμάτων με τις Έργο-κεντρικές συστάδες, τις οποίες στη συνέχεια διαθέτει στη μονάδα Αίτησης. Μόλις συνθέσει το πρώτο Σύνολο Αποτελεσμάτων από ένα μικρό αριθμό συστάδων τα προωθεί στη μονάδα Αίτησης. Στη συνέχεια, προετοιμάζει τα επόμενα Σύνολα Αποτελεσμάτων, ενώ αναμένει τα επόμενα αιτήματα ανάκτησης από τη μονάδα Αίτησης. Όλες οι μονάδες και τα υποσυστήματα διενεργούν τις διαδικασίες παράλληλα, εκτός και αν περιμένουν είσοδο δεδομένων ή μήνυμα ελέγχου από μία άλλη μονάδα ή ένα άλλο υποσύστημα.

89 Κεφάλαιο 3 70 Η μονάδα επεξεργασίας για να ετοιμάζει τα Σύνολα Αποτελεσμάτων συντονίζει τα υποσυστήματα της Προμήθειας Δεδομένων, της Διαχείρισης Τοπικού Συνόλου Αποτελεσμάτων, της Έργο-σύνθεσης και της Διάθεσης Δεδομένων. Ειδικότερα: Το υποσύστημα της Προμήθειας Δεδομένων παραλαμβάνει τα δεδομένα από τη μονάδα Επικοινωνίας τα οποία στη συνέχεια προωθεί ένα προς ένα στο Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων. Το υποσύστημα Προμήθειας Δεδομένων χρησιμοποιεί εσωτερικά δύο δομές ουρών με τις οποίες διασφαλίζει ανά πάσα στιγμή τη δυνατότητα να παραλάβει δεδομένα από τη μονάδα Επικοινωνίας ακόμη και αν δεν έχει υποβάλει αίτημα ανάκτησης, καθώς επίσης τη διαθεσιμότητα επαρκών μεταδεδομένων για επεξεργασία. Σε αρκετές περιπτώσεις state-full πρωτοκόλλων, όπως είναι το Z39.50, υπάρχει όριο χρόνου μεταξύ δύο διαδοχικών αιτημάτων, με αποτέλεσμα η επικοινωνία να διακόπτεται σε περίπτωση υπέρβασης του ορίου. Στην περίπτωση αυτή, θα πρέπει να επαναληφθεί η διαδικασία σύνδεσης και επερώτησης με αποτέλεσμα αφενός την καθυστέρηση του συστήματος αφετέρου την πιθανότητα ασυνέπειας μεταξύ των δύο απαντήσεων της επερώτησης. Για να αποφευχθεί αυτό, η μονάδα Επικοινωνίας, η οποία γνωρίζει τα χαρακτηριστικά κάθε διακομιστή, ανανεώνει το όριο χρόνου ζητώντας δεδομένα από το διακομιστή. Η δυνατότητα του υποσυστήματος Προμήθειας Δεδομένων να παραλάβει δεδομένα ανά πάση στιγμή δίνει τη δυνατότητα στη μονάδα Επικοινωνίας για απρόσκοπτη λειτουργία. Επιπροσθέτως, για να διασφαλίζεται η διαθεσιμότητα επαρκών μεταδεδομένων για επεξεργασία, μόλις ο αριθμός των διαθέσιμων μεταδεδομένων του υποσυστήματος Προμήθειας Δεδομένων γίνει μικρότερος από ένα συγκεκριμένο όριο, το υποσύστημα στέλνει ένα μήνυμα ανάκτησης στο υποσύστημα Επικοινωνίας. Το υποσύστημα της Διαχείρισης Τοπικού Συνόλου Αποτελεσμάτων αποθηκεύει και διευθετεί (π.χ. ταξινομεί) τις Έργο-κεντρικές συστάδες στη δομή δεδομένων του Τοπικού Συνόλου Αποτελεσμάτων. Η πρώτη αποστολή του Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων είναι η ενεργοποίηση του Έργοσυνθέτη για όλες τις εισερχόμενες εγγραφές, καθώς και η ετοιμασία του Συνόλου Αποτελεσμάτων. Η ετοιμασία του Συνόλου Αποτελεσμάτων γίνεται με την αντιγραφή p συστάδων (p είναι ο αριθμός των συστάδων που αιτήθηκαν

90 Κεφάλαιο 3 71 για παρουσίαση) από το Τοπικό Σύνολο Αποτελεσμάτων στη δομή του Συνόλου Αποτελεσμάτων. Όταν ολοκληρωθεί η ανάκτηση όλων των εγγραφών από όλους τους διακομιστές, μία ένδειξη τέλος δεδομένων προστίθεται στη δομή του Συνόλου Αποτελεσμάτων. Το υποσύστημα της Έργο-σύνθεσης παραλαμβάνει μία προς μία τις εγγραφές από το υποσύστημα του Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων και συνθέτει τις FRBR Έργο-κεντρικές συστάδες. Το υποσύστημα συγκρίνει κάθε εισερχόμενη εγγραφή με τις υπάρχουσες συστάδες στη δομή του Τοπικού Συνόλου Αποτελεσμάτων, οπότε είτε τη συσχετίζει με μία υπάρχουσα είτε δίνει εντολή στο Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων να δημιουργήσει μια νέα συστάδα και να την εντάξει στη δομή του Τοπικού Συνόλου Αποτελεσμάτων. Το υποσύστημα της Διάθεσης Δεδομένων διεκπεραιώνει την αλληλεπίδραση με τη μονάδα Αίτησης. Πιο συγκεκριμένα, προωθεί τα αιτήματα ανάκτησης που λαμβάνει από τη μονάδα Αίτησης στο Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων και επιστρέφει το Σύνολο Αποτελεσμάτων με τις Έργοκεντρικές συστάδες στη μονάδα Αίτησης. Μόλις το υποσύστημα Διάθεσης Δεδομένων προωθήσει το αίτημα για ανάκτηση p συστάδων στο Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων περιμένει μέχρι να γεμίσει η δομή του Συνόλου Αποτελεσμάτων με τις συστάδες για να τις διαβάσει και να τις προωθήσει στη μονάδα Αίτησης. Ακόμη, το υποσύστημα παρακολουθεί το χρόνο που είναι ανενεργό το σύστημα, δηλαδή δεν έχει λάβει αίτημα για ανάκτηση από τη μονάδα Αίτησης, οπότε μόλις υπερβεί ένα προκαθορισμένο χρονικό όριο τερματίζει τη δραστηριότητα του συστήματος. Ολοκληρώνοντας την παρουσίαση της αρχιτεκτονικής του εικονικού συλλογικού καταλόγου, τα σημαντικότερα πλεονεκτήματά της συνοψίζονται ως ακολούθως: Ικανοποιούνται οι προσδοκίες του χρήστη για άμεση απόκριση του συστήματος. Δίνεται η δυνατότητα στον εικονικό συλλογικό κατάλογο να προετοιμάσει τις επόμενες ομάδες αποτελεσμάτων στο παρασκήνιο. Επηρεάζεται στο ελάχιστο δυνατόν η συνολική απόδοση του συστήματος από

91 Κεφάλαιο 3 72 τις πιθανές καθυστερήσεις των δικτύων, των τοπικών συστημάτων και των σφαλμάτων λειτουργίας και διαθεσιμότητας των τοπικών διακομιστών. Αποφεύγονται οι αποτυχημένες επερωτήσεις ή οι ασυνεπείς απαντήσεις. Απελευθερώνονται σημαντικοί πόροι από το σύστημα εικονικού καταλόγου. Η επίτευξη των προαναφερθέντων προσεγγίζεται με: Την -κατά το συντομότερο δυνατό- έναρξη της διαδικασίας παρουσίασης αποτελεσμάτων στο χρήστη. Την παράλληλη εκτέλεση των λειτουργιών, στις περισσότερες διαδικασίες, καθώς επίσης με την επαναληπτική ανάκτηση και επεξεργασία μικρών πακέτων αποτελεσμάτων από τους τοπικούς διακομιστές. Τη σημασιολογική μετεγγραφή των επερωτήσεων κατά προσέγγιση, με βάση τα χαρακτηριστικά αναζήτησης που υποστηρίζει κάθε πηγή (κεφάλαιο 5). Τη σύνθεση των Έργο-κεντρικών συστάδων και τη μερική μετατόπιση της επεξεργασίας στο σταθμό εργασίας του χρήστη Βήματα εκτέλεσης μιας επερώτησης Ο εικονικός συλλογικός κατάλογος ενεργοποιείται μόλις η μονάδα Αίτησης λάβει ένα αίτημα αναζήτησης από ένα χρήστη ή από μια εφαρμογή. Στα βήματα που ακολουθούν παρουσιάζονται λεπτομερώς οι λειτουργίες, η ροή των δεδομένων και οι ανταλλαγές μηνυμάτων ελέγχου που εκτελούνται από το σύστημα για να εκτελεσθεί το αίτημα αναζήτησης. Ειδικότερα, με τη λήψη του αιτήματος αναζήτησης από τη μονάδα Αίτησης: 1. Η μονάδα Αίτησης προωθεί μήνυμα για έναρξη νέας συνδιάλεξης (session) στη μονάδα Επεξεργασίας. Με την πληροφορία αυτή η μονάδα Επεξεργασίας αποθηκεύει τις πληροφορίες που απαιτούνται ώστε να είναι δυνατή η επαναφορά και η συνέχιση της τρέχουσας διαδικασίας, εάν αυτό είναι επιθυμητό, και στη συνέχεια εκτελεί τις απαιτούμενες αρχικοποιήσεις στα υποσυστήματά της. 2. Η μονάδα Αίτησης προωθεί στη συνέχεια την επερώτηση στη μονάδα Επικοινωνίας. Το αίτημα περιλαμβάνει και το μέγιστο αριθμό p των συστάδων του Συνόλου Αποτελεσμάτων έτσι ώστε η μονάδα Επικοινωνίας να παραμετροποιήσει κατάλληλα τα αιτήματα προς τους τοπικούς διακομιστές. Μόλις ολοκληρωθεί η

92 Κεφάλαιο 3 73 προώθηση του μηνύματος, η μονάδα είναι σε αναμονή για νέα αιτήματα. 3. Η μονάδα Αίτησης προωθεί επίσης μία αίτηση για παρουσίαση p συστάδων στη μονάδα Επεξεργασίας και περιμένει να παραλάβει το Σύνολο Αποτελεσμάτων. 4. Η μονάδα Επικοινωνίας με την άφιξη της επερώτησης εκτελεί παράλληλα για κάθε πηγή τα παρακάτω βήματα: 4.1. Μετεγγράφει την επερώτηση στη γλώσσα επερώτησης του διακομιστή που αναζητά την πηγή. Η διαδικασία της μετεγγραφής περιλαμβάνει τη μετεγγραφή των μη υποστηριζόμενων χαρακτηριστικών αναζήτησης (π.χ. Σημεία Πρόσβασης) από την πηγή, καθώς και τη μετάφραση στη γλώσσα επερώτησης που απαιτεί το πρωτόκολλο επικοινωνίας (π.χ. στη γλώσσα type-1 του Συνόλου Γνωρισμάτων Bib-1 του Z39.50 ή στη γλώσσα CQL του SRU/SRW, κλπ.). Η επερώτηση ή το σύνολο επερωτήσεων που θα προκύψουν από τη μετεγγραφή, είναι σε μορφή κατανοητή από την πηγή και περιλαμβάνουν μόνο χαρακτηριστικά αναζήτησης που αυτή υποστηρίζει. Η εν λόγω διαδικασία εξασφαλίζει ότι είναι δυνατή η εκτέλεση των επερωτήσεων από την πηγή και ότι θα αποφευχθούν αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις. Το πιο σημαντικό όμως είναι ότι ο εικονικός κατάλογος γνωρίζει αν και κατά πόσο οι ερωτήσεις που θα εκτελεσθούν έχουν διαφορετική σημασιολογία από την αρχική Προωθεί την επερώτηση στον τοπικό διακομιστή και αναμένει την απάντηση Με την άφιξη της απάντησης του αιτήματος της αναζήτησης ολοκληρώνεται η διαδικασία αναζήτησης από το διακομιστή. Η απάντηση περιλαμβάνει τον αριθμό των εγγραφών που ικανοποιούν την επερώτηση ή το σχετικό μήνυμα λάθους σε περίπτωση που προκύψει σφάλμα (όπως ανάγνωση βάσης δεδομένων, κλπ.) κατά την εκτέλεση της επερώτησης στο διακομιστή. Με τη λήψη της απάντησης προστίθεται ο αριθμός των εγγραφών που ικανοποιούν την επερώτηση στους αριθμούς που έχουν προκύψει από τους υπόλοιπους διακομιστές. Μόλις απαντήσουν όλοι οι διακομιστές προωθείται στη μονάδα Αίτησης ένα μήνυμα με το συνολικό αριθμό των εγγραφών Προώθηση των αντίστοιχων αιτημάτων στο διακομιστή αν υποστηρίζονται χαρακτηριστικά όπως αναγνώριση ομοίων εγγραφών, ταξινόμησης, κλπ Αίτηση για ανάκτηση εγγραφών, π.χ. p εγγραφές, σε περίπτωση που η

93 Κεφάλαιο 3 74 απάντηση είναι θετική αρχίζοντας με το βήμα αυτό τη διαδικασία ανάκτησης Προώθηση των εγγραφών στη μονάδα Επεξεργασίας Η μονάδα Επικοινωνίας αναμένει περαιτέρω εντολές, ενώ παράλληλα ελέγχει το όριο απραξίας (time out) με το διακομιστή και προτού το υπερβεί μεταπίπτει στο βήμα Η μονάδα Επεξεργασίας επεξεργάζεται ένα μικρό μέρος από τις εγγραφές που θα παραλάβει από τη μονάδα Επικοινωνίας και ετοιμάζει το Σύνολο Αποτελεσμάτων με τις πρώτες Έργο-κεντρικές συστάδες τις οποίες προωθεί στη μονάδα Αίτησης. Είναι αξιοσημείωτο ότι η μονάδα δε συμπληρώνει απαραίτητα το Σύνολο Αποτελεσμάτων με p συστάδες που έχει ζητήσει ο χρήστης. Υπάρχει ένα όριο χρόνου για τη σύνθεση του Συνόλου Αποτελεσμάτων και σε περίπτωση που υπάρχει υπέρβαση, λόγω πιθανών καθυστερήσεων από τους διακομιστές, η μονάδα προωθεί το Σύνολο Αποτελεσμάτων στη μονάδα Αίτησης. Επιπλέον, σε οποιαδήποτε στιγμή ο αριθμός των εγγραφών που βρίσκονται προς επεξεργασία στη μονάδα είναι μικρότερος από ένα όριο (π.χ. 10), η μονάδα στέλνει ένα αίτημα ανάκτησης στη μονάδα Επικοινωνίας η οποία στη συνέχεια επαναλαμβάνει τα βήματα 4.5 και 4.6. Σύμφωνα με την παραπάνω διαδικασία, η μονάδα Αίτησης προωθώντας την επερώτηση στη μονάδα Επικοινωνίας την ενημερώνει ταυτόχρονα και για τον προτεινόμενο αριθμό p των συστάδων που θα περιλαμβάνει το Σύνολο Αποτελεσμάτων. Ο αριθμός αυτός είναι καθαρά πληροφοριακός για τη μονάδα Επικοινωνίας, καθώς δίνει μια ένδειξη για το πόσο μεγάλα αναμένει ο χρήστης να είναι τα ανακτηθέντα Σύνολα Αποτελεσμάτων. Η μονάδα Επικοινωνίας χρησιμοποιεί αυτή την ένδειξη σε συνδυασμό με τον αριθμό των εγγραφών που ικανοποιούν την επερώτηση και με άλλες πληροφορίες από το Προφίλ των διακομιστών προκειμένου να υπολογίσει τον αριθμό των εγγραφών που θα ζητά σε κάθε βήμα ανάκτησης από τους τοπικούς διακομιστές (βήμα 4.5). Σε περίπτωση που ένας διακομιστής έχει μικρή απόδοση και καθυστερεί να απαντήσει, ο αριθμός p μπορεί να προσαρμοστεί κατάλληλα για να αποφευχθούν μεγάλα διαστήματα αναμονής. Αν ο διακομιστής έχει μικρό όριο απραξίας (time out), η μονάδα Επικοινωνίας χρησιμοποιώντας ένα μικρό αριθμό p και εκτελώντας περισσότερα αιτήματα ανάκτησης, θα αποφύγει τη διακοπή της επικοινωνίας με το διακομιστή και την ανάγκη για να την ενεργοποίησει ξανά, καθώς και την επανάληψη της επερώτησης. Αντίθετα, ένας μεγαλύτερος αριθμός p θα

94 Κεφάλαιο 3 75 ήταν προτιμότερος σε περίπτωση που ο αριθμός των αποτελεσμάτων είναι μεγάλος και ο διακομιστής έχει γρήγορες αποκρίσεις. Στο βήμα 4.3, η μονάδα Επικοινωνίας αθροίζει τους αριθμούς των αποτελεσμάτων από κάθε πηγή και προωθεί το αποτέλεσμα στη μονάδα Αίτησης. Αυτός ο αριθμός αποτελεσμάτων δεν είναι στην πραγματικότητα σωστός, αφενός γιατί περιγράφει εγγραφές και όχι οντότητες FRBR Έργων, αφετέρου διότι δεν έχει γίνει η επεξεργασία των εγγραφών. Ακόμα και στην υποθετική περίπτωση όπου τα δεδομένα από τις πηγές αντιστοιχούν σε οντότητες Έργων υπάρχει το ενδεχόμενο ταύτισης αρκετών από αυτά. Για να υπολογισθεί ο ακριβής αριθμός των συστάδων θα πρέπει να γίνει η ανάκτηση και η επεξεργασία όλων των εγγραφών από όλους τους διακομιστές, διαδικασία που δεν είναι πάντοτε εφικτή ή έχει μεγάλο κόστος. Δεδομένου ότι η πληροφορία αυτή είναι αρκετά σημαντική για να αποφασίσει ο χρήστης μια εναλλακτική εξειδίκευση της επερώτησης, ένα πρόβλημα που επιδέχεται περαιτέρω μελέτης είναι η ανεύρεση μιας προσεγγιστικής μεθόδου για τον προσδιορισμό ενός όσο το δυνατόν πλησιέστερου αριθμού προς τον ακριβή αριθμό των μοναδικών συστάδων. Στο βήμα 5, όπου η μονάδα Επεξεργασίας ετοιμάζει τα Σύνολα Αποτελεσμάτων, ζητά εγγραφές από τη μονάδα Επικοινωνίας όταν οι διαθέσιμες συστάδες που δεν έχουν παρουσιαστεί στο χρήστη είναι λιγότερες από ένα όριο. Με αυτή τη διαδικασία, το σύστημα εκμεταλλεύεται το χρόνο που ο χρήστης επεξεργάζεται τα δεδομένα προετοιμάζοντας τα επόμενα Σύνολα Αποτελεσμάτων Επεξεργαστής αποτελεσμάτων Όπως προαναφέρθηκε κατά την περιγραφή της διαδικασίας εκτέλεσης μιας επερώτησης από τον εικονικό κατάλογο, η μονάδα Επεξεργασίας ενεργοποιείται μόλις παραλάβει το μήνυμα για έναρξη νέας συνδιάλεξης (session) από τη μονάδα Αίτησης (ενότητα 3.2.2, βήμα 1). Με το μήνυμα αυτό, η μονάδα κάνει τις απαραίτητες αρχικοποιήσεις και στη συνέχεια περιμένει αποτελέσματα από τη μονάδα Επικοινωνίας για να αρχίσει την επεξεργασία και σύνθεση των συστάδων. Επιπροσθέτως, η μονάδα Αίτησης, μετά το αίτημα για p συστάδες (ενότητα 3.2.2, βήμα 3), είναι σε κατάσταση αναμονής μέχρι η μονάδα Επεξεργασίας να συνθέσει τις συστάδες. Ουσιαστικά, η μονάδα Επεξεργασίας ξεκινά τις κύριες λειτουργίες της

95 Κεφάλαιο 3 76 μόλις παραλάβει την πρώτη εγγραφή από τη μονάδα Επικοινωνίας (ενότητα 3.2.2, βήμα 4.6), ενώ έχει τη δυνατότητα να εκτελεί τις διεργασίες της παράλληλα με τις λειτουργίες των άλλων μονάδων. Μόλις η μονάδα Επικοινωνίας διαθέσει την πρώτη εγγραφή στο υποσύστημα του Προμηθευτή Δεδομένων, οι διεργασίες και οι αλληλεπιδράσεις που πραγματοποιούνται μεταξύ των υποσυστημάτων της μονάδας Επεξεργασίας είναι οι ακόλουθες: 1. Ο Προμηθευτής Δεδομένων αρχίζει να μεταφέρει τις εγγραφές από την ουρά εισόδου στην ουρά εξόδου. Σε περίπτωση που ο διαθέσιμος αριθμός εγγραφών προς επεξεργασία είναι μικρότερος από ένα όριο και η μονάδα Επεξεργασίας είναι σε κατάσταση αναμονής, το υποσύστημα στέλνει ένα αίτημα ανάκτησης στη μονάδα Επεξεργασίας. Με τη διαδικασία αυτή η πιθανότητα να μην υπάρχουν διαθέσιμα δεδομένα προς επεξεργασία στη μονάδα είναι ελάχιστη. Αυτό είναι δυνατό να συμβεί μόνο σε περιπτώσεις όπου οι διακομιστές ή οι συνδέσεις δικτύου είναι πάρα πολύ αργές. 2. Όσο ο αριθμός των νέων συστάδων στο υποσύστημα Διαχείρισης Τοπικού Συνόλου Αποτελεσμάτων είναι μικρότερος από ένα όριο, το υποσύστημα διαβάζει εγγραφές από το υποσύστημα του Διαθέτη Δεδομένων και τις προωθεί στο υποσύστημα του Έργο-συνθέτη Ο Έργο-συνθέτης συγκρίνει την εγγραφή με τις υπάρχουσες συστάδες στη δομή του Τοπικού Συνόλου Αποτελεσμάτων και στη συνέχεια επιστρέφει τα αποτελέσματα πίσω στο Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων Ο Διαχειριστής Τοπικού Συνόλου Αποτελεσμάτων διευθετεί την εγγραφή στο Τοπικό Σύνολο Αποτελεσμάτων. Σε περίπτωση που η εγγραφή ανήκει σε μια ήδη υπάρχουσα συστάδα την εντάσσει σε αυτή. Διαφορετικά δημιουργεί μια νέα συστάδα και την εισάγει κατάλληλα στο Τοπικό Σύνολο Αποτελεσμάτων Αν ο αριθμός των νέων συστάδων στη δομή του Τοπικού Συνόλου Αποτελεσμάτων είναι p, o Διαχειριστής Τοπικού Συνόλου Αποτελεσμάτων αντιγράφει τις νέες p συστάδες στη δομή του Συνόλου Αποτελεσμάτων οπότε ενεργοποιείται το υποσύστημα του Διαθέτη Δεδομένων. 3. Μόλις η δομή του Συνόλου Αποτελεσμάτων συμπληρωθεί με συστάδες, ο Διαθέτης Δεδομένων προωθεί τις συστάδες στη μονάδα Αίτησης και αναμένει το επόμενο

96 Κεφάλαιο 3 77 αίτημα. Σε περίπτωση που ο Διαθέτης Δεδομένων δε λάβει νέο αίτημα από τη μονάδα Αίτησης εντός ενός προκαθορισμένου χρονικού ορίου, τερματίζει τη λειτουργία του συστήματος. Όπως έχει ήδη αναφερθεί, κάθε υποσύστημα λειτουργεί παράλληλα με τα υπόλοιπα, εκτός και αν περιμένει δεδομένα προς επεξεργασία ή έχει διαθέσιμα δεδομένα πάνω από ένα προκαθορισμένο όριο. Όταν οι συστάδες που διαθέτει ο Επεξεργαστής Αποτελεσμάτων δεν επαρκούν για να συμπληρώσουν το Συνόλων Αποτελεσμάτων, είναι δυνατόν να ζητήσει αυτόματα εγγραφές από τη μονάδα Επικοινωνίας. Αντίθετα, σε περίπτωση όπου υπάρχουν αρκετές συστάδες που δεν έχουν παρουσιαστεί στο χρήστη, είναι δυνατόν κάποια από τα υποσυστήματα της μονάδας Επεξεργασίας να τίθενται σε κατάσταση αναμονής, ελευθερώνοντας πόρους από το σύστημα, αποφεύγοντας ταυτόχρονα να ανακτήσουν εγγραφές που πιθανά να μην χρησιμοποιηθούν. Η λειτουργικότητα αυτή καθορίζεται από δύο παραμέτρους. Η πρώτη καθορίζεται από τον αριθμό των εγγραφών στον Προμηθευτή Δεδομένων, ενώ η δεύτερη καθορίζεται από τον αριθμό των συστάδων στο Τοπικό Σύνολο Αποτελεσμάτων. Μόλις ο αριθμός των συστάδων στο Τοπικό Σύνολο Αποτελεσμάτων υπερβεί ένα προκαθορισμένο όριο, ο Διαχειριστής Τοπικού Συνόλου Αποτελεσμάτων διακόπτει την ανάγνωση εγγραφών από τον Προμηθευτή Δεδομένων, οπότε ο Έργο-συνθέτης τίθεται σε κατάσταση αναμονής. Ο Διαχειριστής Τοπικού Συνόλου Αποτελεσμάτων διατηρεί δυο διατάξεις για τις συστάδες που αποθηκεύει η δομή του Τοπικού Συνόλου Αποτελεσμάτων (βήμα 2.2). Η πρώτη διάταξη ταξινομεί τις συστάδες έτσι ώστε ο Έργο-συνθέτης να μπορεί να εφαρμόσει αποτελεσματικότερους αλγορίθμους κατά τις διαδικασίες ταύτισης. Η δεύτερη διάταξη διευκολύνει την τοποθέτηση και διαχείριση των συστάδων που δεν έχουν παρουσιασθεί στο χρήστη (νέων συστάδων). Η κατάλληλη διευθέτηση των νέων συστάδων είναι ιδιαίτερα χρήσιμη ειδικά σε περίπτωση όπου νέες συστάδες ταξινομούνται μεταξύ συστάδων που έχουν ήδη παρουσιασθεί στο χρήστη. Η διαδικασία ανάκτησης των αποτελεσμάτων έπεται της διαδικασίας επερώτησης και, σύμφωνα με την προτεινόμενη αρχιτεκτονική, η έναρξή της δεν απαιτεί την ανάκτηση όλων των αποτελεσμάτων από όλες τις πηγές. Το σύστημα αρχίζει να εκτελεί τις διεργασίες του μόλις ο χρήστης υποβάλει μια επερώτηση. Στη συνέχεια, αρχίζει η διαδικασία παρουσίασης των αποτελεσμάτων με διαδοχικές

97 Κεφάλαιο 3 78 αιτήσεις ανάκτησης που υποβάλλει η μονάδα Αίτησης στο υποσύστημα Διάθεσης Δεδομένων. Ειδικότερα, το υποσύστημα Διάθεσης Δεδομένων ζητά συστάδες από το Διαχειριστή Τοπικού Συνόλου Αποτελεσμάτων. Σε περίπτωση που δεν υπάρχουν διαθέσιμες συστάδες, περιμένει μέχρι να συντεθούν οι συστάδες σύμφωνα με τα βήματα 1 και 2. Μόλις οι συστάδες είναι διαθέσιμες στο Τοπικό Σύνολο Αποτελεσμάτων, ο Διαχειριστής Τοπικού Συνόλου Αποτελεσμάτων τις μεταφέρει στο Σύνολο Αποτελεσμάτων όπου ολοκληρώνεται η διαδικασία σύμφωνα με το βήμα Απόδοση Σύμφωνα με την προτεινόμενη αρχιτεκτονική, ο εικονικός κατάλογος προωθεί παράλληλα το αίτημα αναζήτησης sι στους διακομιστές ενώ, μόλις λάβει την πρώτη απάντηση με αποτελέσματα (θετική απάντηση), ενεργοποιεί τη διαδικασία ανάκτησης των αποτελεσμάτων rι και σύνθεσης των συστάδων (εικόνα 3.2). Η διαδικασία ανάκτησης των εγγραφών από κάθε πηγή περιλαμβάνει την προώθηση του αιτήματος ανάκτησης στην πηγή και την επιστροφή των εγγραφών ενώ η απόδοσή της καθορίζεται αφενός από την απόδοση ανάκτησης του τοπικού συστήματος, αφετέρου από την απόδοση του δικτύου. Όπως έχει αναφερθεί στο κεφάλαιο 2, ο εικονικός κατάλογος δεν έχει δυνατότητα παρέμβασης σε κανέναν από τους δύο αυτούς παράγοντες. Είναι αξιοσημείωτο ότι η έναρξη της διαδικασίας ανάκτησης δεν προϋποθέτει την ολοκλήρωση των διαδικασιών αναζήτησης από όλες τις πηγές. Ειδικότερα, όπως φαίνεται από την αναπαράσταση της ροής των διαδικασιών στην εικόνα 3.2, η διαδικασία ανάκτησης των αποτελεσμάτων από κάθε πηγή αρχίζει μόλις ολοκληρωθεί η διαδικασία αναζήτησης από την αντίστοιχη πηγή ενώ για να ανακτηθεί το σύνολο των αποτελεσμάτων από την πηγή επαναλαμβάνονται μία σειρά από αιτήματα ανάκτησης k εγγραφών προς τον τοπικό διακομιστή. Κάθε επιμέρους ομάδα των k εγγραφών που ανακτάται σε κάθε βήμα προωθείται προς επεξεργασία στη μονάδα Επεξεργασίας. Επειδή οι διαδικασίες ανάκτησης από τους επιμέρους διακομιστές γίνονται παράλληλα, κατά κανόνα, οι εγγραφές που επεξεργάζεται η μονάδα Επεξεργασίας προέρχονται από διαφορετικές πηγές.

98 Κεφάλαιο 3 79 Εικόνα 3.2. Αναπαράσταση ροής διαδικασιών εικονικού συλλογικού καταλόγου. Στην εικόνα 3.3, απεικονίζονται τα q βήματα της διαδικασίας για τη σταδιακή ανάκτηση των εγγραφών από μία πηγή και την αποστολή τους στη μονάδα Επεξεργασίας. Τα παραλληλόγραμμα με τις διακεκομμένες γραμμές δηλώνουν ότι οι λειτουργίες που περιβάλλουν εκτελούνται παράλληλα. Σε κάθε βήμα ανακτώνται k εγγραφές οι οποίες αποστέλλονται για επεξεργασία. Η επεξεργασία των k εγγραφών από κάθε βήμα γίνεται παράλληλα με την ανάκτηση των εγγραφών από το επόμενο βήμα. Η διαδικασία επεξεργασίας των εγγραφών είναι πιθανόν να ολοκληρωθεί και να περιμένει τις επόμενες εγγραφές προς επεξεργασία αν είναι γρηγορότερη από τη διαδικασία ανάκτησης των εγγραφών από την πηγή. Η περίπτωση αναμονής της μονάδας επεξεργασίας έχει μεγαλύτερη πιθανότητα να συμβεί αν υπάρχει μία μόνο θετική απάντηση και η ανάκτηση των εγγραφών από την πηγή γίνεται σε μεγαλύτερο χρόνο από αυτόν που απαιτεί η επεξεργασία τους.

99 Κεφάλαιο 3 80 Εικόνα 3.3. Αλληλουχία σταδιακής ανάκτησης και παράλληλης επεξεργασίας αποτελεσμάτων. Αν cr ο χρόνος επεξεργασίας της εγγραφής r, ο συνολικός χρόνος επεξεργασίας c'k των k εγγραφών, προσδιορίζεται από τη σχέση: ' k k c = c r (13) r=1 Με c'k,j συμβολίζεται ο χρόνος επεξεργασίας των k εγγραφών που ανακτήθηκαν από το βήμα j της διαδικασίας ανάκτησης μιας πηγής. Αν σε κάθε βήμα j της διαδικασίας ανάκτησης rκ,j είναι ο χρόνος ανάκτησης των k εγγραφών από την πηγή i, c'k,j ο χρόνος επεξεργασίας τους, καθώς επίσης q ο αριθμός των βημάτων για τη σταδιακή ανάκτηση των εγγραφών l από την πηγή i, τότε η σχέση: m k, j =max c 'k, j, r k, j 1 1 j q (14)

100 Κεφάλαιο 3 81 εκφράζει το μέγιστο χρόνο μεταξύ του χρόνου επεξεργασίας των k εγγραφών του βήματος j και του χρόνου ανάκτησης των k εγγραφών του επόμενου βήματος j+1 (εικόνα 3.3). Όπως φαίνεται από την εικόνα 3.3, ο συνολικός χρόνος για την ανάκτηση και την επεξεργασία των εγγραφών μια πηγής είναι το άθροισμα του χρόνου ανάκτησης των πρώτων k εγγραφών, του αθροίσματος των mk,j καθώς επίσης και του χρόνου επεξεργασίας των εγγραφών που ανακτήθηκαν από το τελευταίο βήμα. Η σχέση που προσδιορίζει το συνολικό χρόνο ανάκτησης και επεξεργασίας των l εγγραφών της πηγής i, από τα επιμέρους q βήματα ανάκτησης, είναι η ακόλουθη: i lq q 1 p =r k, 1 m k, j c 'k, q j=1 1 j q l k q (15) Το σύστημα επωφελείται από την παράλληλη εκτέλεση των διαδικασιών των ανακτήσεων με την επεξεργασία των εγγραφών. Όπως δείχνει η παραπάνω σχέση, η απόδοση του συστήματος καθορίζεται μόνο από το χρόνο της πιο αργής διαδικασίας και όχι από το άθροισμα των χρόνων των δύο διαδικασιών. Επιπροσθέτως, σε περίπτωση φόρτου του συστήματος λόγω ύπαρξης πολλών θετικών απαντήσεων, με την παράλληλη εκτέλεση των διαδικασιών ανάκτησης από τις πηγές, αν καθυστερεί η ανάκτηση των εγγραφών από τη μία πηγή, θα έρχονται εγγραφές προς επεξεργασία από μία άλλη, με συνέπεια η διακοπή της επεξεργασίας λόγω έλλειψης εγγραφών να έχει ελάχιστες πιθανότητες να συμβεί. Όπως έχει αναφερθεί, για να πάρει ο χρήστης αποτελέσματα το συντομότερο δυνατόν και να έχει την αίσθηση της άμεσης απόκρισης από το σύστημα, υπάρχει ένα προκαθορισμένο όριο χρόνου για τη δημιουργία του Συνόλου Αποτελεσμάτων. Σε περίπτωση υπέρβασης του χρονικού ορίου, θα σταλεί στο χρήστη ένα Σύνολο Αποτελεσμάτων με τις υπάρχουσες συστάδες, ανεξάρτητα από το ότι η απάντηση θα περιέχει λιγότερες από τις p συστάδες που έχει ζητήσει ο χρήστης.

101 Κεφάλαιο 3 82 Εάν sι είναι ο χρόνος αναζήτησης από την πηγή i, pilq είναι ο χρόνος των q βημάτων που γίνονται για την ανάκτηση και την επεξεργασία των l εγγραφών που απαιτούνται για τη σύνθεση των w συστάδων που θα παρουσιασθούν στο χρήστη, όπως ορίζεται από τη σχέση (15), η απόδοση του συστήματος για να προωθήσει την επερώτηση στους τοπικούς διακομιστές και να παρουσιάσει στο χρήστη τις πρώτες l συστάδες (απόδοση μερικών αποτελεσμάτων) προσδιορίζεται από τη σχέση: P 0=s i P ilq, s i =min s 1,..., s n, w l (16) Το σύστημα εκμεταλλεύεται την ταχύτερη αναζήτηση και, σε συνδυασμό με την παράλληλη εκτέλεση των διαδικασιών ανάκτησης και σύνθεσης των συστάδων, παρουσιάζει τμηματικά τα αποτελέσματα στο χρήστη στον ελάχιστο δυνατό χρόνο. Η βελτίωση της αίσθησης του χρήστη για την απόκριση του συστήματος είναι αρκετά σημαντικός παράγοντας για την περαιτέρω αποδοχή του εικονικού καταλόγου από αυτόν. Αντίστοιχα, η συνολική απόδοση του συστήματος για να προωθήσει την επερώτηση στους τοπικούς διακομιστές, να ανακτήσει και να επεξεργαστεί από αυτούς το σύνολο των l εγγραφών προσδιορίζεται από τη σχέση: P=P sr c 't, P sr =max s 1 r 1,..., s n r n (17) όπου t είναι οι εγγραφές που απομένουν για επεξεργασία μετά την ολοκλήρωση της διαδικασίας αναζήτησης και ανάκτησης της οποίας η απόδοσή είναι Psr. Λόγω της παράλληλης εκτέλεσης των διαδικασιών ανάκτησης και επεξεργασίας, στην παραπάνω σχέση δεν προστίθεται ο χρόνος επεξεργασίας για το συνολικό αριθμό των αποτελεσμάτων από όλες τις πηγές (ενότητα 3.2.2, βήμα 4.3) αλλά ο χρόνος που απαιτείται για την επεξεργασία των εγγραφών t που απομένουν στη μονάδα Επεξεργασίας μετά την ολοκλήρωση της διαδικασίας ανάκτησης από την πιο αργή πηγή. Η μονάδα Επεξεργασίας δε διακόπτει τη λειτουργία της αναμένοντας τις

102 Κεφάλαιο 3 83 εγγραφές από την πιο αργή πηγή αλλά στο διάστημα αυτό επεξεργάζεται τις εγγραφές που παραλαμβάνει από άλλες γρηγορότερες πηγές. Με τον τρόπο αυτό η απόδοση του εικονικού καταλόγου επιβαρύνεται στο ελάχιστο από την καθυστέρηση που προκαλεί η πιο αργή πηγή. Όπως φαίνεται από την παραπάνω σχέση, σημαντικός παράγοντας στη συνολική απόδοση του συστήματος είναι ο χρόνος για την επεξεργασία των εγγραφών. Τα κύρια σημεία της διαδικασίας στα οποία παρεμβαίνει η προτεινόμενη αρχιτεκτονική για να βελτιωθεί η απόδοση του συστήματος είναι η παράλληλη ανάκτηση και επεξεργασία των εγγραφών και η μεταφορά μέρους από το χρόνο που απαιτεί η επεξεργασία των FRBR συστάδων στο σταθμό εργασίας του χρήστη. Παρότι στη χειρότερη περίπτωση ο αριθμός των t εγγραφών που απομένουν προς επεξεργασία μετά την ολοκλήρωση της αναζήτησης και ανάκτησης θα είναι ίσος με l, στην πράξη αναμένεται να είναι πολύ μικρότερος από το συνολικό αριθμό των l εγγραφών. Αξίζει να αναφερθεί ότι η συνολική απόδοση του συστήματος ναι μεν προσδιορίζεται από το μεγαλύτερο χρόνο που απαιτεί η αναζήτηση και η ανάκτηση των εγγραφών από την πιο αργή πηγή, όχι όμως από το άθροισμα των διαδικασιών αναζήτησης και ανάκτησης από όλες τις πηγές. Αυτό συνεπάγεται ότι οι τυχόν καθυστερήσεις ή τα πιθανά σφάλματα από τους τοπικούς διακομιστές δεν επιδρούν αθροιστικά στο σύστημα απαξιώνοντας έτσι την απόδοσή του. Επίσης, ο χρόνος που απαιτείται για το σύνολο των διαδικασιών αναζήτησης, ανάκτησης και επεξεργασίας είναι μικρότερος από το άθροισμα των χρόνων που απαιτεί κάθε διαδικασία μεμονωμένα. Σε σχέση με τις αντίστοιχες αποδόσεις των μοντέλων που περιγράφησαν στις ενότητες και του δεύτερου κεφαλαίου, η προτεινόμενη αρχιτεκτονική υπερκαλύπτει τις βέλτιστες αποδόσεις τόσο σε σχέση με την εμφάνιση των πρώτων αποτελεσμάτων στο χρήστη όσο και σε σχέση με τη συνολική απόδοση του συστήματος. Ταυτόχρονα περιορίζει στο ελάχιστο τις επιπτώσεις που θα προκληθούν από τις πιθανές καθυστερήσεις και τα σφάλματα των τοπικών διακομιστών. 3.3 Σύνοψη

103 Κεφάλαιο 3 84 Ένας συλλογικός κατάλογος θα πρέπει να παρέχει συνεπή ευρετηρίαση και αναζήτηση του περιεχομένου κάθε βιβλιοθήκης, να ανιχνεύει τις όμοιες εγγραφές που περιγράφουν το ίδιο φυσικό αντικείμενο και να τις συνθέτει σε μία εγγραφή. Εξίσου σημαντική είναι η διάθεσή του μέσω ενός αξιόπιστου και αποδοτικού συστήματος με ελεγχόμενη και εύκολη διαχείριση. Οι πρώτες υλοποιήσεις των εικονικών συλλογικών καταλόγων δεν κάλυπταν τις προαναφερόμενες λειτουργικές απαιτήσεις λόγω της χαμηλής απόδοσης των δικτύων και του χαμηλού επιπέδου διαλειτουργικότητας μεταξύ των συστημάτων πρόσβασης των βιβλιοθηκών. Οι αυξημένες απαιτήσεις σε χρόνο για την εκτέλεση των διαδικασιών επεξεργασίας και σύνθεσης των αποτελεσμάτων, καθώς επίσης οι μεγάλοι χρόνοι απόκρισης και τα προβλήματα διαθεσιμότητας αρκετών τοπικών συστημάτων, επέτρεπαν μόνο την υλοποίηση ψευδο-συστημάτων εικονικών συλλογικών καταλόγων με τη συμμετοχή μικρού αριθμού βιβλιοθηκών. Η αρχιτεκτονική του εικονικού συλλογικού καταλόγου που παρουσιάστηκε στο κεφάλαιο αυτό έχει στόχο να ικανοποιήσει τις προσδοκίες των χρηστών σε σχέση με την άμεση απόκριση του συστήματος, τη σύνθεση των αποτελεσμάτων σε ένα σύνολο και να αποτρέψει τις αποτυχημένες επερωτήσεις ή τις ασυνεπείς απαντήσεις. Ειδικότερα, με την παράλληλη λειτουργία των διαδικασιών αναζήτησης, ανάκτησης και επεξεργασίας των αποτελεσμάτων η μερική απόδοση του συστήματος για την εμφάνιση των πρώτων αποτελεσμάτων καθορίζεται από την ταχύτερη πηγή. Επίσης, η συνολική απόδοση του συστήματος είναι αφενός συνάρτηση της βραδύτερης πηγής και όχι του αθροίσματος των χρόνων απόκρισης των πηγών, αφετέρου είναι μικρότερη από το άθροισμα του χρόνου των διαδικασιών αναζήτησης, ανάκτησης και επεξεργασίας των εγγραφών. Επιπροσθέτως, η απόδοση του εικονικού συλλογικού καταλόγου επηρεάζεται στο ελάχιστο από τις αργές πηγές και τα πιθανά λάθη των διαδικασιών αναζήτησης και ανάκτησης των τοπικών συστημάτων, ενώ με τη σταδιακή ανάκτηση μικρών πακέτων αποτελεσμάτων αποφεύγεται η αναμονή του συστήματος για να παραλάβει τα δεδομένα που θα επεξεργαστεί.

104 Κεφάλαιο 4 Περιγραφή χαρακτηριστικών αναζήτησης με τη γλώσσα RQDL Σημαντικοί παράγοντες για την αποτελεσματικότητα ενός συστήματος μετααναζήτησης είναι τόσο η γνώση του σχετικά με τα χαρακτηριστικά αναζήτησης των πηγών που συμμετέχουν σε αυτό όσο και η ικανότητά του να μετεγγράφει κατάλληλα τις επερωτήσεις, σύμφωνα με τα χαρακτηριστικά κάθε πηγής, ώστε να αποφεύγονται από τις πηγές οι αποτυχημένες επερωτήσεις ή οι ασυνεπείς απαντήσεις. Όπως έχει αναφερθεί στο κεφάλαιο 2, το πρωτόκολλο Z39.50 ομογενοποιεί τον τρόπο πρόσβασης στις πηγές μέσα από τον ορισμό μιας αφηρημένης εγγραφής, ενώ χρησιμοποιεί αφηρημένα Σημεία Πρόσβασης στο μηχανισμό αναζήτησης. Παρά την ύπαρξη του ενιαίου τρόπου πρόσβασης, αναζητώντας παράλληλα πολλές Z39.50 πηγές, είναι αδύνατον να αποφευχθούν οι αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις, λόγω των διαφορετικών ή των ελλιπών υλοποιήσεων του πρωτοκόλλου. Σε μια Z39.50 επερώτηση ο όρος αναζήτησης συνδυάζεται με ένα σύνολο γνωρισμάτων τα οποία καθορίζουν την ποιότητά του (δηλαδή αν είναι τίτλος, συγγραφέας, κλπ.) και τον τρόπο με τον οποίο θα γίνει ο έλεγχος ταύτισης του όρου αναζήτησης με τα δεδομένα της πηγής (π.χ. ακριβής ταύτιση, αποκοπή, κλπ.). Το σύνολο γνωρισμάτων καθορίζει τα επιτρεπτά Σημεία Πρόσβασης και τους εναλλακτικούς τρόπους ταύτισης, ενώ ο τύπος επερώτησης καθορίζει τη σύνταξη για 85

105 Κεφάλαιο 4 86 πολυπλοκότερες επερωτήσεις με λογικούς συνδυασμούς Σημείων Πρόσβασης. Σύμφωνα με τις απαιτήσεις συμβατότητας του Z39.50, το Σύνολο Γνωρισμάτων Bib-1 και ο τύπος επερωτήσεων Type-1 πρέπει να αναγνωρίζονται, χωρίς όμως να είναι απαραίτητη η πλήρης υλοποίησή τους. Τα γνωρίσματα που ορίζει το Σύνολο Γνωρισμάτων Bib-1 είναι τα εξής: Σημείο Πρόσβασης (use), Σχέση (relation), Αποκοπή (truncation), Δομή (structure), Θέση (position) και Πληρότητα (completeness). Για κάθε γνώρισμα υπάρχει ένα προκαθορισμένο σύνολο τιμών. Η πληθώρα αυτή των τιμών με τις οποίες μπορούν να συνδυαστούν τα γνωρίσματα αυξάνει τη δυνατότητα αλλά και την πολυπλοκότητα της επικοινωνίας και οξύνει τα προβλήματα διαλειτουργικότητας μεταξύ των συστημάτων. Τα παραδείγματα που ακολουθούν δίνουν μία αντιπροσωπευτική εικόνα των περιπτώσεων που είναι δυνατόν να προκύψουν αναζητώντας παράλληλα Z39.50 πηγές καθώς παρουσιάζουν και πιθανές προτάσεις, σε περίπτωση που το σύστημα μετα-αναζήτησης γνωρίζει ποια χαρακτηριστικά αναζήτησης υποστηρίζει κάθε πηγή. Παράδειγμα 4.1: Διαφορετικά γνωρίσματα για το ίδιο Σημείο Πρόσβασης. Ας θεωρήσουμε δύο πηγές, οι οποίες υποστηρίζουν επερωτήσεις με το Σημείο Πρόσβασης Title_4 και συνδυάζουν το Σημείο Πρόσβασης με τις τιμές φράση ή λέξη για το γνώρισμα Δομή, ενώ η δεύτερη πηγή υποστηρίζει επιπροσθέτως και την τιμή λίστα από λέξεις. Για το γνώρισμα Αποκοπή οι τιμές που υποστηρίζουν είναι δεξιά ή όχι αποκοπή. Συνοπτικά, οι επιτρεπτοί συνδυασμοί γνωρισμάτων για το Σημείο Πρόσβασης είναι οι: [Σημείο Πρόσβασης, Title_4] Πηγή 1 (S1) [Δομή, {φράση, λέξη}] [Αποκοπή, {δεξιά, όχι αποκοπή}] Πηγή 2 (S2) [Δομή, {φράση, λέξη, λίστα από λέξεις}]

106 Κεφάλαιο 4 87 [Αποκοπή, {δεξιά, όχι αποκοπή}]. Η ακόλουθη επερώτηση Q1, που αναζητά τις εγγραφές με τίτλο Data Structures, είναι μία επερώτηση που υποστηρίζουν και οι δύο πηγές. Q1: [Σημείο Πρόσβασης, Title_4] [Δομή, φράση] [Αποκοπή, όχι αποκοπή] Data Structures. Η επερώτηση Q2 δεν υποστηρίζεται από τη πηγή S1, διότι δεν υποστηρίζει την τιμή λίστα από λέξεις στο γνώρισμα Δομή. Q2: [Σημείο Πρόσβασης, Title_4] [Δομή, λίστα από λέξεις] [Αποκοπή, όχι αποκοπή] Data Structures. Ένα αποτελεσματικό σύστημα μετα-αναζήτησης, γνωρίζοντας τα χαρακτηριστικά αναζήτησης που υποστηρίζει η πηγή S1, θα μπορούσε να μετεγγράψει την επερώτηση για την πηγή S1 σε μία ισοδύναμη, όπως είναι η παρακάτω επερώτηση Q3: Q3: [Σημείο Πρόσβασης, Title_4] [Δομή, λέξη] [Αποκοπή, όχι αποκοπή] Data. AND [Σημείο Πρόσβασης, Title_4] [Δομή, λέξη] [Αποκοπή, όχι αποκοπή]

107 Κεφάλαιο 4 88 Structures. Για την ευκολότερη ανάγνωση του παραδείγματος, υποθέτουμε ότι οι πηγές υποστηρίζουν τις ίδιες τιμές για τα υπόλοιπα γνωρίσματα, οι οποίες και δεν αναφέρονται. Παράδειγμα 4.2: Μη υποστηριζόμενα Σημεία Πρόσβασης. Και οι δύο πηγές υποστηρίζουν το Σημείο Πρόσβασης Author-name_1003, επιπροσθέτως η δεύτερη υποστηρίζει το Author-name-personal_1004: Πηγή 1 (S1) [Σημείο Πρόσβασης, Author-name_1003] Πηγή 2 (S2) [Σημείο Πρόσβασης, Author-name_1003] [Σημείο Πρόσβασης, Author-name-personal_1004] Η επερώτηση Q4 δεν υποστηρίζεται από την S1, λόγω του ότι η πηγή δεν υποστηρίζει το Σημείο Πρόσβασης Author-name-personal_1004. Q4: [Σημείο Πρόσβασης, Author-name-personal_1004] Ullman. Ένα αποτελεσματικό σύστημα μετα-αναζήτησης, γνωρίζοντας τα χαρακτηριστικά αναζήτησης που υποστηρίζει η πηγή S1 και λαμβάνοντας υπόψη τη σημασιολογία των Σημείων Πρόσβασης, δηλαδή ότι τα αποτελέσματα αναζήτησης με το Σημείο Πρόσβασης Author-name_1003 θα είναι περισσότερα από ότι με το Σημείο Πρόσβασης Author-name-personal_1004, θα μπορούσε να μετεγγράψει την επερώτηση με μικρότερη ακρίβεια για την πηγή S2, όπως είναι η παρακάτω επερώτηση Q5: Q5: [Σημείο Πρόσβασης, Author-name_1003] Ullman. Ομοίως, όπως και στο προηγούμενο παράδειγμα, υποθέτουμε ότι οι πηγές

108 Κεφάλαιο 4 89 υποστηρίζουν τις ίδιες τιμές για τα υπόλοιπα γνωρίσματα, οι οποίες και δεν αναφέρονται. Η περιγραφή των χαρακτηριστικών αναζήτησης μιας πηγής, καθώς και ο έλεγχος για τη δυνατότητά της να εκτελέσει μια επερώτηση έχει μελετηθεί εκτενώς από την κοινότητα των βάσεων δεδομένων σε διαδικασίες ολοκλήρωσης πληροφοριών (Ullman, 1997). Αρχικά, η πλειοψηφία των μεθόδων βασιζόταν στην παραδοχή ότι υπάρχει απεριόριστη πρόσβαση στη δομή και στα δεδομένα των πηγών που συμμετέχουν στο σύστημα. Η εν λόγω παραδοχή δεν θεωρείται πολλές φορές ρεαλιστική περιλαμβανομένης της κοινότητας των βιβλιοθηκών και του πρωτοκόλλου Z Μετέπειτα προτάσεις, αρχικά των Papakonstantinou κ.ά. (1995) και των Levy κ.ά. (1996) στη συνέχεια, περιέγραψαν τα χαρακτηριστικά πρόσβασης των πηγών με μη πεπερασμένα σύνολα επερωτήσεων χρησιμοποιώντας παραμετρικές επερωτήσεις. Αυτές οι προσεγγίσεις θεωρούν τις πηγές ως πηγές με διαφορετικές και περιορισμένες δυνατότητες, ή ως εξωτερικούς επεξεργαστές επερωτήσεων οι οποίοι έχουν τη δυνατότητα να απαντήσουν μερικές, αλλά όχι όλες, από τις πιθανές επερωτήσεις που αφορούν τα δεδομένα τους. Λόγω του μοντέλου πρόσβασης του πρωτοκόλλου Z39.50, η περιγραφή και ο έλεγχος των χαρακτηριστικών αναζήτησης κάθε πηγής γίνεται με παραμετρικές επερωτήσεις, σύμφωνα με τη γλώσσα RQDL (Relational Query Description Language) (Papakonstantinou et al., 1996). Ένας Z39.50 διακομιστής θεωρείται ως μία εφαρμογή περιβλήματος (wrapper) στις πηγές που παρέχει πρόσβαση, ο οποίος έχει τη δυνατότητα να απαντήσει σε ένα υποσύνολο από τις πιθανές επερωτήσεις που επιτρέπουν τα χαρακτηριστικά αναζήτησης του πρωτοκόλλου. Στην παρούσα ενότητα γίνεται η παρουσίαση της μεθόδου για την περιγραφή των χαρακτηριστικών αναζήτησης και για τον έλεγχο του κατά πόσο μία πηγή μπορεί να απαντήσει επακριβώς μία επερώτηση, δηλαδή μια επερώτηση με τα αρχικά της χαρακτηριστικά. Σε περίπτωση που η πηγή δεν υποστηρίζει επακριβώς την επερώτηση, λόγω ύπαρξης μη υποστηριζόμενων Σημείων Πρόσβασης, πραγματοποιούνται οι διαδικασίες προσεγγιστικής μετεγγραφής με βάση τις σημασιολογικές συσχετίσεις των Σημείων Πρόσβασης, συνδυάζοντας παραμέτρους ανάκλησης και ακρίβειας, οι οποίες παρουσιάζονται στο κεφάλαιο 5.

109 Κεφάλαιο Στοιχειώδης παρουσίαση χαρακτηριστικών της γλώσσας RQDL Για την περιγραφή των χαρακτηριστικών αναζήτησης μίας πηγής χρησιμοποιείται η Relational Query Description Language (RQDL). Η γλώσσα RQDL βασίζεται στη Datalog (Ullman, 1988; 1989). Προτάθηκε αρχικά από τους Papakonstantinou κ.ά. (1996) ως μια γλώσσα περιγραφής των επερωτήσεων η οποία υποστηρίζει μία εφαρμογή περιβλήματος (wrapper). Τα κύρια πλεονεκτήματα της εν λόγω γλώσσας είναι η δυνατότητά της να περιγράψει μεγάλα σύνολα με άπειρες επερωτήσεις ενώ περιγράφει και επερωτήσεις οι οποίες είναι ανεξάρτητες από το σχήμα των δεδομένων που υποστηρίζει μία πηγή. Εστιάζει σε συζευκτικές επερωτήσεις (conjunctive queries) και είναι αρκετά εκφραστική για να περιγράψει τα χαρακτηριστικά επερώτησης αρκετών πηγών. Επιπροσθέτως, για την επεκτεταμένη της εκδοχή, η οποία περιγράφεται στο τεκμήριο (Vassalos and Papakonstantinou, 2000), αποδεικνύεται ότι είναι δυνατό να περιγράψει το σύνολο όλων των συζευκτικών επερωτήσεων. Σε αυτή την ενότητα γίνεται στοιχειώδης παρουσίαση των γνωρισμάτων της γλώσσας RQDL απαραίτητη για την κατανόηση της διατριβής. Η πλήρης περιγραφή της γλώσσας και της επεκτεταμένης εκδοχής της γίνεται από τους Papakonstantinou κ.ά. (1996) και Vassalos και Papakonstantinou (2000) αντίστοιχα. Μία περιγραφή RQDL είναι ένα πεπερασμένο σύνολο από κανόνες RQDL, όπου κάθε κανόνας είναι μία παραμετροποιημένη επερώτηση (Σχεδιότυπο επερώτησης). Ένα Σχεδιότυπο Επερώτησης χρησιμοποιεί έναν προσδιοριστή σταθεράς (constant placeholder) αντί για την πραγματική σταθερή τιμή της επερώτησης. Η χρήση ενός προσδιοριστή σταθεράς αντί της πραγματικής σταθερής τιμής, την οποία δυνητικά θα μπορούσε να έχει οπουδήποτε μια πραγματική επερώτηση, επιτρέπει την αναπαράσταση πολλαπλών επερωτήσεων που έχουν την ίδια μορφή. Για τον περιορισμό των επιτρεπτών τιμών των προσδιοριστών σταθεράς η γλώσσα παρέχει τα μετα-κατηγορήματα (meta-predicates). Μία επερώτηση περιγράφεται από ένα Σχεδιότυπο (template) εάν κάθε κατηγόρημα στην επερώτηση ταιριάζει με ένα κατηγόρημα στο Σχεδιότυπο και αντίστροφα. Κάθε μετα-κατηγόρημα στο Σχεδιότυπο αποτιμάται σε αληθές όταν ο

110 Κεφάλαιο 4 91 προσδιοριστής σταθεράς αντικατασταθεί από μία σταθερή τιμή. Η διάταξη των κατηγορημάτων δεν επηρεάζει τη διαδικασία ταιριάσματος. Για τη σύνταξη των ονομάτων που θα χρησιμοποιηθούν και αναπαριστούν τις κύριες έννοιες της γλώσσας γίνονται οι παρακάτω συμβάσεις: τα ονόματα των κατηγορημάτων και των σταθερών αρχίζουν με πεζό γράμμα, τα ονόματα μεταβλητών αρχίζουν με κεφαλαίο γράμμα, οι σταθερές που αναπαριστούν τις τιμές σε πραγματικές επερωτήσεις είναι μέσα σε εισαγωγικά, οι προσδιοριστές σταθεράς που αναπαριστούν παραμέτρους στις περιγραφές αρχίζουν με το σύμβολο $ και τα μη-τερματικά σύμβολα αρχίζουν με μία κάτω παύλα και με πεζό γράμμα. 4.2 Σχεδιότυπα Σημείου Πρόσβασης Όπως έχει προαναφερθεί, κάθε Z39.50 διακομιστής θεωρείται ως μια εφαρμογή περιβλήματος (wrapper) κάθε πηγής που διαθέτει. Για κάθε πηγή, η οποία διατίθεται μέσω ενός Z39.50 διακομιστή, γίνεται η υπόθεση ότι εξάγει το κατηγόρημα metarec(id), το οποίο αναπαριστά το σύνολο των μοναδικών κωδικών ταυτοποίησης των εγγραφών μεταδεδομένων της πηγής. Πλέον, η πηγή εξάγει το κατηγόρημα με τη γενική μορφή: property(id, Pname, Pattribute1,, Pattributen, Pval). Η σχέση που εκφράζει το νόημα του κατηγορήματος property περιλαμβάνει όλους τους μοναδικούς κωδικούς ταυτοποίησης των εγγραφών της πηγής, οι οποίες έχουν την ιδιότητα Pname με τιμή που ταιριάζει με το όρισμα Pval, σύμφωνα με τα κριτήρια που ορίζονται από τα πρόσθετα ορίσματα Pattributej, j=1,,n. Συνεπώς, ένα έγκυρο στοιχείο το οποίο επαληθεύει το κατηγόρημα property είναι το: property(x, use_title, str_phrase, rel_equal, pos_firstinfield, tru_donottruncate, com_completefield, Data Structures ), το οποίο υποδηλώνει ότι η εγγραφή X έχει την ιδιότητα use_title (δηλαδή ένα Τίτλο) με τιμή η οποία ταιριάζει με το τελευταίο όρισμα Data Structures, σύμφωνα με τα κριτήρια ταύτισης που ορίζονται από το τρίτο (rel_equal) μέχρι και το έβδομο (com_completefield) όρισμα.

111 Κεφάλαιο 4 92 Στο κατηγόρημα property χρησιμοποιείται το όρισμα Pname για να περιγράψει το Σημείο Πρόσβασης που υποστηρίζει η πηγή. Για την περιγραφή των υπόλοιπων γνωρισμάτων του Z39.50 Bib-1 Συνόλου Γνωρισμάτων Relation, Position, Structure, Truncation και Completeness χρησιμοποιούνται τα υπόλοιπα πέντε ορίσματα Pattributej. Οι τιμές για τα ορίσματα Pname και Pattributej του κατηγορήματος property είναι οι τιμές που ορίζονται για κάθε αντίστοιχο γνώρισμα στο Z39.50 Bib-1 Συνόλο Γνωρισμάτων. Για λόγους αναγνωσιμότητας, στα ορίσματα των κατηγορημάτων χρησιμοποιούνται συμβολικά ονόματα αντί των πραγματικών αριθμητικών τιμών που ορίζει το πρωτόκολλο. Για παράδειγμα, το συμβολικό όνομα use_title αντικαθιστά το ζευγάρι [1, 4] το οποίο αναπαριστά το γνώρισμα Use (δηλαδή το Σημείο Πρόσβασης) με τιμή 4 (τον Τίτλο). Όπως προβλέπει η γλώσσα RQDL, η αναπαράσταση του συνόλου των επερωτήσεων με την ίδια μορφή γίνεται με τον ορισμό ενός σχεδιότυπου επερώτησης χρησιμοποιώντας προσδιοριστές σταθεράς. Ένα σύνολο με επερωτήσεις της ίδιας μορφής είναι ουσιαστικά όλες οι επερωτήσεις που χρησιμοποιούν ένα Σημείο Πρόσβασης με τα ίδια γνωρίσματα. Είναι δυνατόν να εκφραστούν με ένα σχεδιότυπο επερώτησης του οποίου ο προσδιοριστής σταθεράς θα αντικαθίσταται από την τιμή του όρου αναζήτησης, που θα έχει το Σημείο Πρόσβασης, στην πραγματική επερώτηση. Ειδικότερα, για την περιγραφή του συνόλου των επερωτήσεων που χρησιμοποιούν ένα Σημείο Πρόσβασης με τα ίδια γνωρίσματα ορίζεται το Σχεδιότυπο Σημείου Πρόσβασης ως εξής: property(id, Pname, Pattribute1,, Pattributen, $Pval). Όπως έχει προαναφερθεί, για τη σύνταξη ενός προσδιοριστή σταθεράς η γλώσσα RQDL χρησιμοποιεί το σύμβολο $ (π.χ. $Pval). Ένα παράδειγμα Σχεδιότυπου Σημείου Πρόσβασης, το οποίο ορίζει ότι η πηγή υποστηρίζει το Σημείο Πρόσβασης Title συνδυασμένο με τις τιμές Equal, First in Field, Phrase, Do not Truncate και Complete Field, των γνωρισμάτων Relation, Position, Structure, Truncation και Completeness αντίστοιχα (δηλαδή η πηγή υποστηρίζει αναζήτηση με ακριβή ταύτιση του τίτλου) είναι το παρακάτω: property(id, use_title, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate,

112 Κεφάλαιο 4 93 com_completefield, $Pval). Η διαδικασία ταιριάσματος ενός Σημείου Πρόσβασης που χρησιμοποιείται σε μία επερώτηση και ενός Σχεδιότυπου Σημείου Πρόσβασης γίνεται με την αντικατάσταση του προσδιοριστή σταθεράς (π.χ. $Pval) από την αντίστοιχη σταθερή τιμή και εφαρμόζοντας στη συνέχεια τις τυπικές διαδικασίες συσχέτισης (unification procedure), όπως ορίζει η Datalog και περιγράφονται στα τεκμήρια (Ullman, 1988; 1989). Ο αριθμός των Σχεδιοτύπων Σημείου Πρόσβασης που πρέπει να ορισθούν για να γίνει η περιγραφή όλων των πιθανών συνδυασμών του Σημείου Πρόσβασης και των γνωρισμάτων ισούται με το γινόμενο ( Paj +1) για j= 1,, 5, όπου Paj είναι το σύνολο των επιτρεπτών τιμών που ορίζονται για το jth γνώρισμα, περιλαμβανομένης και της μηδενικής τιμής (null value). Ειδικότερα, σύμφωνα με τις τιμές που ορίζει το Z39.50 Bib-1 Σύνολο Γνωρισμάτων (ANSI/NISO, 1995), υπάρχουν θεωρητικά εναλλακτικά Σχεδιότυπα για κάθε Σημείο Πρόσβασης του Bib-1 Συνόλου Γνωρισμάτων. Σύμφωνα όμως με το τεκμήριο που ορίζει τη σημασιολογία του Bib-1 Συνόλου Γνωρισμάτων (ZIG, 1995), υπάρχει ένας αριθμός από αντιφατικούς ή χωρίς νόημα συνδυασμούς τιμών, οι οποίοι μειώνουν τον προαναφερθέντα αριθμό Σχεδιοτύπων. Ένα παράδειγμα συνδυασμού τιμών χωρίς νόημα, που αναφέρει το τεκμήριο σημασιολογίας του Bib-1, είναι ο συνδυασμός του γνωρίσματος Position με τιμή First in subfield σε περιπτώσεις όπου δεν υφίστανται υποπεδία. Αντίθετα, όπως επίσης αναφέρει το τεκμήριο σημασιολογίας του Bib-1, η τιμή any position in field του γνωρίσματος Position είναι συμβατή μόνο με την τιμή incomplete subfield του γνωρίσματος Completeness. Στην πράξη, ο αριθμός των απαιτούμενων Σχεδιοτύπων Σημείου Πρόσβασης αναμένεται να είναι σχετικά μικρός δεδομένης και της ύπαρξης διεθνών προφίλ υλοποίησης, όπως αυτό του Bath (ISO TC 46 SC 4, 2004). Το Bath προφίλ, στο απλούστερο επίπεδο συμβατότητας, ορίζει μόνο πέντε συνδυασμούς τιμών γνωρισμάτων για κάθε ένα από τα Σημεία Πρόσβασης Author, Title και Subject27. Επομένως, όταν η πηγή είναι συμβατή με αυτό το επίπεδο του προφίλ, απαιτούνται μόνο πέντε Σχεδιότυπα Σημείου Πρόσβασης για κάθε ένα από τα προαναφερθέντα Σημεία Πρόσβασης. 27 Bath profile, Functional Area A. Level 1.

113 Κεφάλαιο 4 94 Σε ένα περιβάλλον μετα-αναζήτησης, ένα πρόβλημα που τίθεται είναι η διαδικασία δημιουργίας και ενημέρωσης των χαρακτηριστικών αναζήτησης που υποστηρίζει κάθε πηγή. Κατά κανόνα, η δημιουργία και ενημέρωση των Σχεδιότυπων γίνεται από το διαχειριστή του συστήματος και είναι μια αρκετά χρονοβόρα και σύνθετη διαδικασία. Όπως έχει προαναφερθεί στο κεφάλαιο 2, στο περιβάλλον του Z39.50 υπάρχει ενσωματωμένη η υπηρεσία διάχυσης των χαρακτηριστικών αναζήτησης που υποστηρίζει ένας διακομιστής. Σε περίπτωση που ένας διακομιστής περιγράφει τα χαρακτηριστικά υλοποίησής του με τη μορφή ZeeRex, που όπως αναφέρθηκε στην ενότητα είναι η πιο διαδεδομένη και αποδεκτή μορφή περιγραφής των χαρακτηριστικών από την υπηρεσία διάχυσης των χαρακτηριστικών υλοποίησης ενός Z39.50 διακομιστή, το παρακάτω παράδειγμα είναι ενδεικτικό για τη δυνατότητα αξιοποίησης μιας περιγραφής ZeeRex κατά τη δημιουργία των Σχεδιοτύπων Σημείου Πρόσβασης. Ειδικότερα, το παράδειγμα δημιουργεί ένα Σχεδιότυπο Σημείου Πρόσβασης από το στοιχείο <indexinfo> μίας εγγραφής. Παράδειγμα 4.3: Η πηγή υποστηρίζει αναζήτηση με ακριβή ταύτιση του συγγραφέα. Το αντίστοιχο τμήμα της ZeeRex εγγραφής που περιγράφει το χαρακτηριστικό αναζήτησης που υποστηρίζει η πηγή είναι το παρακάτω: <indexinfo> <index search= true scan= true sort= true > <title primary= true lang= en > Author name personal (Exact) </title> <map primary= true > <attr type= 1 >1004</attr> <attr type= 2 >3</attr> <attr type= 3 >1</attr> <attr type= 4 >1</attr> <attr type= 5 >100</attr> <attr type= 6 >3</attr> </map> </index> </indexinfo> Το ισοδύναμο Σχεδιότυπο Σημείου Πρόσβασης του στοιχείου index της εγγραφής

114 Κεφάλαιο 4 95 ZeeRex είναι: property(id, 1004, 3, 1, 1, 100, 3, $Pval), ή σε αναγνώσιμη μορφή: property(id, use_authorpersonalname, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate, com_completefield, $Pval). Η XML κωδικοποίηση της περιγραφής ZeeRex δίνει τη δυνατότητα για την αυτόματη δημιουργία και ενημέρωση των Σχεδιότυπων Σημείου Πρόσβασης με ένα μετατροπέα σε γλώσσα XSLT. Σε μια Z39.50 επερώτηση κανένα από τα γνωρίσματα που συνδυάζονται με τον όρο αναζήτησης δεν είναι υποχρεωτικό. Η απουσία γνωρισμάτων σε μία επερώτηση έχει ως αποτέλεσμα να δημιουργούνται απροσδιόριστα ορίσματα στο αντίστοιχο κατηγόρημα property που εκφράζει την επερώτηση. Σε αυτή την περίπτωση, στη θέση του απροσδιόριστου ορίσματος χρησιμοποιείται το σύμβολο της κάτω παύλας _. Κατά τη διαδικασία συσχέτισης του κατηγορήματος της πραγματικής επερώτησης με το κατηγόρημα του Σχεδιότυπου, η κάτω παύλα θα ταιριάζει με οποιαδήποτε τιμή έχει το όρισμα της αντίστοιχης θέσης στο Σχεδιότυπο. Η χρήση των απροσδιόριστων ορισμάτων αυξάνει την πιθανότητα ταιριάσματος του κατηγορήματος της επερώτησης με περισσότερα από ένα Σχεδιότυπα, οπότε τίθεται θέμα επιλογής ενός Σχεδιότυπου. Εάν πρόκειται για διαδικασία ταύτισης του κατηγορήματος της επερώτησης με τα Σχεδιότυπα από περιγραφές πολλών πηγών, επιλέγεται το κοινό Σχεδιότυπο για να υπάρχει συμβατότητα στη μετεγγραφή των επερωτήσεων. Εναλλακτικά, σε περίπτωση μη ύπαρξης κοινού Σχεδιότυπου ή αν υπάρχουν περιγραφές για μία μόνο πηγή, η επιλογή γίνεται αυθαίρετα, ενέργεια που αντανακλά την πρόθεση του χρήστη και δεν αντιβαίνει στη λογική του Z Μια περισσότερο ενδιαφέρουσα προσέγγιση, η οποία απαιτεί περαιτέρω μελέτη, είναι η επιλογή του Σχεδιότυπου λαμβάνοντας υπόψη προεπιλογές του χρήστη για το βαθμό μεταβολής της ανάκλησης και της ακρίβειας της αρχικής επερώτησης. Με τη χρήση των Σχεδιότυπων Σημείου Πρόσβασης είναι εφικτή η καταγραφή

115 Κεφάλαιο 4 96 των Σημείων Πρόσβασης και των γνωρισμάτων που υποστηρίζει μία πηγή που διατίθεται από ένα Z39.50 διακομιστή. Όπως φαίνεται στο παράδειγμα 4.3, η ύπαρξη της εγγραφής ZeeRex, με τα χαρακτηριστικά υλοποίησης ενός Z39.50 διακομιστή, αυτοματοποιεί τη διαδικασία δημιουργίας των αντίστοιχων κατηγορημάτων για τα Σημεία Πρόσβασης που υποστηρίζει η πηγή. Εκτός από τις επερωτήσεις με έναν όρο αναζήτησης, μια Z39.50 επερώτηση είναι δυνατό να είναι σύνθετη και να περιλαμβάνει συνδυασμούς με λογικούς τελεστές μεταξύ των όρων αναζήτησης. Στην επόμενη ενότητα θα γίνει παρουσίαση της περιγραφής κλάσεων από υποστηριζόμενες σύνθετες επερωτήσεις ορίζοντας αντίστοιχα τα Σχεδιότυπα Επερώτησης. 4.3 Σχεδιότυπα Επερώτησης Η τρέχουσα ενότητα επεκτείνει την περιγραφή των χαρακτηριστικών αναζήτησης μιας Z39.50 πηγής ορίζοντας τα Σχεδιότυπα Επερώτησης τα οποία περιγράφουν κλάσεις από επερωτήσεις που μπορεί να απαντήσει η πηγή. Συνδυάζοντας τα κατηγορήματα metarec και property μια επερώτηση, η οποία αναζητά εγγραφές από μία πηγή που υποστηρίζει αναζήτηση με ακριβή ταύτιση του συγγραφέα, είναι δυνατόν να εκφραστεί με την παρακάτω σύνταξη: (Q1): answer(x):- metarec(x), property(x, use_author, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate,com_completefield, Ullman ). Χρησιμοποιώντας τη γλώσσα RQDL, το D1 είναι ένα Σχεδιότυπο Επερώτησης το οποίο περιγράφει ότι η πηγή υποστηρίζει αναζήτηση με ακριβή ταύτιση του συγγραφέα: (D1): answer(id):- metarec(id), property(id, use_author, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate, com_completefield, $Pval).

116 Κεφάλαιο 4 97 Μια επερώτηση περιγράφεται από ένα Σχεδιότυπο Επερώτησης εάν κάθε κατηγόρημα στην επερώτηση ταιριάζει με ένα κατηγόρημα στο Σχεδιότυπο και αντιστρόφως, ενώ η διάταξη των κατηγορημάτων δεν επηρεάζει τη διαδικασία ταιριάσματος. Η επερώτηση Q1 ταιριάζει με το Σχεδιότυπο Επερώτησης D1 διότι τα κατηγορήματα που χρησιμοποιούνται στην επερώτηση ταιριάζουν με τα κατηγορήματα που χρησιμοποιούνται στο Σχεδιότυπο και αντίστροφα, εφαρμόζοντας τις ακόλουθες ισότητες συσχέτισης: X=Id, $Pval = Ullman. Επομένως, το Σχεδιότυπο D1 περιγράφει την επερώτηση Q1. Εάν η πηγή υποστήριζε και άλλα Σημεία Πρόσβασης, η περιγραφή D1 πρέπει να συμπληρωθεί με τα αντίστοιχα Σχεδιότυπα για κάθε υποστηριζόμενο Σημείο Πρόσβασης. Ειδικότερα, αν η πηγή υποστήριζε και αναζήτηση με λέξεις από τον τίτλο, η περιγραφή D1 θα μετατρεπόταν στην παρακάτω: (D1.1): answer(id):- metarec(id), property(id, use_author, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate, com_completefield, $Pval) answer(id):- metarec(id), property(id, use_title, rel_equal, pos_anypositioninfield, str_worldlist, tru_right, com_completefield, $Pval). Για να περιγραφούν μεγάλα ή μη πεπερασμένα σύνολα από υποστηριζόμενα χαρακτηριστικά αναζήτησης υπάρχει η δυνατότητα χρήσης αναδρομικών κανόνων. Η γλώσσα RQDL χρησιμοποιεί την έννοια του μη-τερματικού κανόνα, όπως είναι στο περιβάλλον των γραμματικών χωρίς συμφραζόμενα (context-free grammars), ενώ η σύνταξη ενός μη-τερματικού συμβόλου αρχίζει με την κάτω παύλα _ και ακολουθείται από κεφαλαίο γράμμα. Ένα Σχεδιότυπο που περιέχει μη-τερματικά σύμβολα διαμορφώνει ένα μητερματικό Σχεδιότυπο. Μια ανάπτυξη ενός μη-τερματικού Σχεδιότυπου qt παράγεται από την αντικατάσταση κάθε μη-τερματικού συμβόλου του qt από ένα Σχεδιότυπο που το ορίζει, έως ότου να μην υπάρχει κανένα μη-τερματικού σύμβολο στο qt.

117 Κεφάλαιο 4 98 Επιπροσθέτως, ένα μη-τερματικό Σχεδιότυπο Επερώτησης qt περιγράφει μία επερώτηση q εάν υπάρχει ανάπτυξη του qt η οποία περιγράφει το q. Ως ένα παράδειγμα περιγραφής με χρήση αναδρομικών κανόνων ας θεωρήσουμε ότι μία πηγή υποστηρίζει αναζητήσεις με ακριβή ταύτιση των όρων αναζήτησης στα Σημεία Πρόσβασης του Author, Title και Subject, καθώς επίσης και σε οποιοδήποτε λογικό συνδυασμό μεταξύ τους. Μια αντιπροσωπευτική επερώτηση που υποστηρίζει η πηγή είναι η αναζήτηση έργων με τίτλο Database Systems, με συγγραφείς τους Ullman και Garcia-Molina και με θέμα Datalog. Η αντίστοιχη datalog μορφή που εκφράζει αυτή την επερώτηση είναι η εξής: (Q2): answer(x):- metarec(x), property(x, use_title, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate, com_completefield, Database Systems ), property(x, use_author, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate, com_completefield, Ullman ), property(x, use_author, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate, com_completefield, Garcia-Molina ), property(x, use_subject, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate, com_completefield, Datalog ) Χρησιμοποιώντας τα μη-τερματικά Σχεδιότυπα _Cond και _Cond1, μία πιθανή περιγραφή για το σύνολο των επερωτήσεων που υποστηρίζει η πηγή είναι η ακόλουθη: (D2): answer(id):- metarec(id), _Cond(Id) (NT2.1) _Cond(Id):- _Cond(Id), _Cond1(Id) (NT2.2) _Cond(Id):- _Cond1(Id)

118 Κεφάλαιο 4 99 (NT2.3) _Cond1(Id):- property(id, use_title, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate, com_completefield, $Pvalue) (NT2.4) _Cond1(Id):- property(id, use_subject, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate, com_completefield, $Pvalue) (NT2.5) _Cond1(Id):- property(id, use_author, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate, com_completefield, $Pvalue). Επιπροσθέτως, η ανάπτυξη E1 του μη-τερματικού Σχεδιότυπου Επερώτησης D2 προκύπτει από την αντικατάσταση των μη-τερματικών Σχεδιότυπων _Cond και _Cond1 σύμφωνα με τα παρακάτω βήματα: (1) στο Σχεδιότυπο Επερώτησης το _Cond(Id) με το μη-τερματικό Σχεδιότυπο NT2.1, (2) το _Cond1(Id) με το NT2.3, (3) ξανά το _Cond(Id) με το NT2.1, (4) το _Cond1(Id) με το NT2.4, (5) ξανά το _Cond(Id) με το NT2.1, (6) το _Cond1(Id) με το NT2.5, (7) και τώρα το _Cond(Id) με το NT2.2, (8) τελικά το _Cond1(Id) με το NT2.5. (E1): answer(id):- metarec(id), property(id, use_title, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate,com_completefield, $Pv1), property(id, use_subject, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate, com_completefield, $Pv2), property(id, use_author, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate, com_completefield, $Pv3), property(id, use_author, rel_equal, pos_firstinfield, str_phrase, tru_donottruncate, com_completefield, $Pv4). Αξίζει να αναφερθεί ότι η διάταξη των κατηγορημάτων δεν επηρεάζει τη διαδικασία ταιριάσματος μεταξύ της επερώτησης και του Σχεδιότυπου Επερώτησης. Ακόμη, πριν αρχίσει η διαδικασία ανάπτυξης όλες οι μεταβλητές και οι προσδιοριστές

119 Κεφάλαιο σταθεράς του Σχεδιότυπου μετονομάζονται, ώστε να είναι μοναδικές. Η ανάπτυξη E1 περιγράφει την επερώτηση Q2 διότι τα κατηγορήματα που χρησιμοποιούνται στην επερώτηση ταιριάζουν με τα κατηγορήματα που χρησιμοποιούνται στο Σχεδιότυπο (και αντιστρόφως) με τις ακόλουθες ισότητες συσχέτισης: X=Id, $Pv1 = Database Systems, $Pv2 = Datalog, $Pv3 = Garcia-Molina, $Pv4 = Ullman. 4.4 Σύνοψη Σε ένα σύστημα μετα-αναζήτησης η υποστήριξη διαφορετικών χαρακτηριστικών αναζήτησης από τα τοπικά συστήματα έχει ως αποτέλεσμα να προκύπτουν αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις. Το πρόβλημα αυτό είναι υπαρκτό και στην κοινότητα των βιβλιοθηκών, ένεκα των διαφορετικών και ελλιπών υλοποιήσεων των χαρακτηριστικών αναζήτησης του πρωτοκόλλου Z Οποιαδήποτε προσέγγιση στην αποφυγή των αποτυχημένων επερωτήσεων ή ασυνεπών απαντήσεων προϋποθέτει την καταγραφή των χαρακτηριστικών αναζήτησης, καθώς επίσης και τον έλεγχο των επερωτήσεων τις οποίες έχει τη δυνατότητα να απαντήσει κάθε πηγή. Ένας Z39.50 διακομιστής θεωρείται ως μία εφαρμογή περιβλήματος (wrapper) σε κάθε πηγή που παρέχει πρόσβαση έχοντας δυνατότητα να απαντήσει μερικές, αλλά όχι όλες, από τις πιθανές επερωτήσεις που επιτρέπουν τα χαρακτηριστικά αναζήτησης του πρωτοκόλλου. Η περιγραφή και ο έλεγχος, τόσο για τα υποστηριζόμενα Σημεία Πρόσβασης όσο και για τις κλάσεις επερωτήσεων από λογικές εκφράσεις μεταξύ των Σημείων Πρόσβασης που έχει δυνατότητα να απαντήσει μία πηγή, γίνεται με τη γλώσσα RQDL (Relational Query Description Language) που βασίζεται στη Datalog. Ειδικότερα, τα Σημεία Πρόσβασης, με τους επιτρεπτούς συνδυασμούς γνωρισμάτων που υποστηρίζει κάθε πηγή, περιγράφηκαν με τα Σχεδιότυπα Σημείων Πρόσβασης. Τα Σχεδιότυπα Σημείων Πρόσβασης είναι παραμετροποιημένα κατηγορήματα με προσδιοριστές σταθεράς, αντί των όρων αναζήτησης που περιέχουν οι πραγματικές επερωτήσεις. Αντίστοιχα, η αναπαράσταση των συνόλων των ομοίων επερωτήσεων γίνεται με τον ορισμό των Σχεδιοτύπων Επερώτησης. Η δυνατότητα χρήσης αναδρομικών κανόνων επιτρέπει την αναπαράσταση μη πεπερασμένων συνόλων από κλάσεις επερωτήσεων που μπορεί να απαντήσει η πηγή.

120 Κεφάλαιο Σε περίπτωση που ο διακομιστής διαθέτει την υπηρεσία διάχυσης των χαρακτηριστικών υλοποίησης, ειδικότερα δε όταν αυτά είναι διαθέσιμα με την εγγραφή ZeeRex, η περιγραφή και η συντήρηση των χαρακτηριστικών αναζήτησης διευκολύνεται από τη δυνατότητα αυτόματης δημιουργίας των Σχεδιότυπων Σημείου Πρόσβασης.

121 Κεφάλαιο 5 Κατά προσέγγιση σημασιολογική μετεγγραφή επερώτησης Σε ένα σύστημα μετα-αναζήτησης είναι αρκετά συνηθισμένο η αρχική επερώτηση, η οποία τίθεται στη γλώσσα και στα χαρακτηριστικά του συστήματος, να μην είναι άμεσα εκτελέσιμη από κάθε πηγή. Σε αυτή την περίπτωση, για να μην απορριφθεί η επερώτηση (αποτυχημένη επερώτηση) ή να μετεγγραφεί αυθαίρετα (ασυνεπής απάντηση) από τα τοπικά συστήματα, το σύστημα μετα-αναζήτησης ανιχνεύει σε κάθε πηγή αν υπάρχουν ισοδύναμες μετεγγραφές της επερώτησης με την αρχική ή, αν δεν υπάρχουν, να βρει μια μετεγγραφή που να προσεγγίζει τα αποτελέσματα της αρχικής επερώτησης όσο το δυνατόν περισσότερο. Η κατά προσέγγιση μετεγγραφή της επερώτησης είναι η πιο πιθανή περίπτωση, ιδιαίτερα όταν υπάρχει μεγάλη ετερογένεια μεταξύ των χαρακτηριστικών των πηγών ή όταν ο αριθμός των πηγών που συμμετέχουν στο σύστημα είναι μεγάλος. Όπως αναλύθηκε στην ενότητα 2.2.1, στα συστήματα Z39.50, τα οποία αποτελούν την πλειοψηφία των συστημάτων πρόσβασης στο περιβάλλον των βιβλιοθηκών, οι αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις προέρχονται κυρίως από Σημεία Πρόσβασης που δεν υποστηρίζουν οι πηγές. Επιπροσθέτως, από τα στοιχεία για τα χαρακτηριστικά αναζήτησης των κυριοτέρων παγκοσμίως Z39.50 πηγών της ενότητας , αξίζει να αναφερθεί ότι η πιθανότητα είναι πολύ μεγάλη 102

122 Κεφάλαιο να μην υπάρχει ένα Σημείο Πρόσβασης που να υποστηρίζεται από όλες τις πηγές, ενώ ο αριθμός των κοινών Σημείων Πρόσβασης μειώνεται όσο αυξάνεται ο αριθμός των πηγών που συμμετέχουν στο σύστημα μετα-αναζήτησης. Για τη μετεγγραφή των επερωτήσεων που περιλαμβάνουν μη υποστηριζόμενα Σημεία Πρόσβασης, η εναλλακτική πρόταση της παρούσας διατριβής είναι η μετεγγραφή, συχνά κατά προσέγγιση, η οποία βασίζεται στη σημασιολογική συσχέτιση των Σημείων Πρόσβασης. Ειδικότερα, η μετεγγραφή χρησιμοποιεί τη θέση κάθε Σημείου Πρόσβασης στο σημασιολογικό γράφο συσχετίσεων των Σημείων Πρόσβασης, ο οποίος προκύπτει από τα μεταδεδομένα που ορίζουν τη σημασιολογία του Σημείου Πρόσβασης, έμμεσα με αυτόματη διαδικασία. Στη συνέχεια του κεφαλαίου γίνεται η αναλυτική περιγραφή του σημασιολογικού γράφου, καθώς επίσης και των διαδικασιών της μετεγγραφής κατά προσέγγιση που αναπτύχθηκαν και υλοποιήθηκαν στο πλαίσιο της παρούσας διατριβής. Πιο συγκεκριμένα, παρουσιάζονται: Ο ορισμός και η διαδικασία ανάπτυξης του Σημασιολογικού Δικτύου Σημείων Πρόσβασης εκφρασμένου σε γλώσσα RDFS. Το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης είναι η αναπαράσταση του γράφου συσχέτισης των Σημείων Πρόσβασης σύμφωνα με τον ορισμό του Z39.50 Bib-1 Συνόλου Γνωρισμάτων. Οι αλγόριθμοι αντικατάστασης μη υποστηριζόμενων σημείων πρόσβασης με επέκταση ή σύμπτυξη της σημασιολογίας του μη υποστηριζόμενου Σημείου Πρόσβασης. Επιπλέον, περιγράφεται και η αντίστοιχη βελτιστοποίηση κάθε περίπτωσης, ώστε να προκύπτει το μικρότερο σύνολο Σημείων Πρόσβασης που να έχει την πλησιέστερη σημασιολογία με το αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης. Τα κριτήρια μέτρησης της σημασιολογικής ομοιότητας μεταξύ Σημείων Πρόσβασης. Η μετρική για την επιλογή της βέλτιστης αντικατάστασης του Σημείου Πρόσβασης σύμφωνα με προεπιλογές που αφορούν την ανάκληση (recall) και ακρίβεια (precision) του Σημείου Πρόσβασης.

123 Κεφάλαιο Σημασιολογικό Δίκτυο Σημείων Πρόσβασης σε περιβάλλον Z39.50 Η σημασιολογική συσχέτιση των Σημείων Πρόσβασης είναι η βάση για τη δημιουργία του Σημασιολογικού Δικτύου Σημείων Πρόσβασης και κατ' επέκταση των μεθόδων για τη σημασιολογική αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης από τις Z39.50 πηγές. Όπως έχει περιγραφεί στην ενότητα , η σημασιολογία ενός Σημείου Πρόσβασης καθορίζεται από την πληροφορία που το απαρτίζει. Κάθε πληροφοριακό σύστημα μπορεί να χρησιμοποιεί διαφορετικά κριτήρια επιλογής και ομαδοποίησης των δεδομένων που ορίζουν το Σημείο Πρόσβασης ορίζοντας έτσι διαφορετικά τη σημασιολογία του. Για το σύνολο γνωρισμάτων Bib-1, τα επιτρεπτά Σημεία Πρόσβασης με την αντίστοιχη σημασιολογία τους είναι ορισμένα από τα μέλη της ομάδας Z39.50 Implementors Group (ZIG) στο τεκμήριο (ZIG, 1995), το οποίο εκφράζει την αμοιβαία συναίνεση μεταξύ των μελών της ομάδας. Ειδικότερα, για τον προσδιορισμό της σημασιολογίας των Σημείων Πρόσβασης, δηλαδή του συνόλου της πληροφορίας από κάθε τεκμήριο με το οποίο θα γίνει το ταίριασμα του όρου αναζήτησης, έχουν χρησιμοποιηθεί οι ετικέτες των πεδίων του MARC Bibliographic προτύπου (Library of Congress, 1999). Για παράδειγμα, ο ορισμός της σημασιολογίας του Σημείου Πρόσβασης Author-name-conference καθορίζει ότι το Σημείο Πρόσβασης θα δημιουργηθεί από το σύνολο των δεδομένων με τις MARC ετικέτες πεδίων {111, 411, 711, 811}. Στο γράφο συσχετίσεων, τα Σημεία Πρόσβασης συσχετίζονται μεταξύ τους σημασιολογικά με τη σχέση του υποσυνόλου. Ορισμός 5.1: Ένα Σημείο Πρόσβασης θεωρείται ως υποσύνολο ενός άλλου, εάν το σύνολο των πεδίων που ορίζουν τη σημασιολογία του πρώτου είναι υποσύνολο του συνόλου των πεδίων που ορίζουν τη σημασιολογία του δευτέρου. Το ακόλουθο παράδειγμα, το οποίο αναπαρίσταται στην εικόνα 5.1, είναι ενδεικτικό για τη σημασιολογική συσχέτιση των Σημείων Πρόσβασης με τη σχέση του υποσυνόλου. Παράδειγμα 5.1: Έστω το Σημείο Πρόσβασης Author-name το οποίο, σύμφωνα με το τεκμήριο της σημασιολογίας (ZIG, 1995), θα δημιουργηθεί από τα δεδομένα των

124 Κεφάλαιο πεδίων με ετικέτες {100, 110, 111, 400, 410, 411, 700, 710, 711, 800, 810, 811}, καθώς επίσης και το Σημείο Πρόσβασης Author-name-conference από το σύνολο των πεδίων {111, 411, 711, 811}. Το Σημείο Πρόσβασης Author-name-conference θεωρείται ως υποσύνολο του Σημείου Πρόσβασης Author-name γιατί ισχύει η σχέση του υποσυνόλου στα αντίστοιχα σύνολα που ορίζουν τη σημασιολογία τους. Εικόνα 5.1. Συσχέτιση Σημείου Πρόσβασης με τη σχέση υποσυνόλου. Συγκρίνοντας τη σημασιολογία των Σημείων Πρόσβασης με τα αντίστοιχα αποτελέσματα των επερωτήσεων που τα χρησιμοποιούν, για τα Σημεία Πρόσβασης του παραδείγματος 5.1, οι αναζητήσεις με το Author-name θα ταιριάζουν τον όρο αναζήτησης με ένα ευρύτερο σύνολο πληροφορίας από ότι το Author-nameconference. Άρα, κατά πάσα πιθανότητα θα παράγουν ένα ευρύτερο σύνολο αποτελεσμάτων από ότι το αντίστοιχο του Author-name-conference. Αντίθετα, το υποσύνολο Author-name-conference έχει στενότερη σημασιολογία από το Authorname και κατά συνέπεια θα παράγει ένα μικρότερο σύνολο αποτελεσμάτων. Είναι άξιο αναφοράς ότι τα μέρη από τις εγγραφές των μεταδεδομένων (πεδία, υποπεδία, κλπ.) που ανήκουν στο σύνολο που συνθέτει το Σημείο Πρόσβασης είναι δυνατό και αυτά να θεωρηθούν ως Σημεία Πρόσβασης. Επομένως, κάθε συστατικό

125 Κεφάλαιο Σημείο Πρόσβασης ενός Σημείου Πρόσβασης είναι υποσύνολό του. Κατά συνέπεια, το πεδίο με MARC ετικέτα 100 είναι δυνατόν να θεωρηθεί και αυτό ως ένα υποσύνολο του Author-name. Ορισμός 5.2: Οι συσχετίσεις μεταξύ των Σημείων Πρόσβασης αναπαρίστανται από ένα προσανατολισμένο γράφο G του οποίου οι κόμβοι αναπαριστούν Σημεία Πρόσβασης και τα τόξα αναπαριστούν συσχετίσεις υποσυνόλου. Στο γράφο G ανήκει το τόξο <i, j> αν και μόνο αν το Σημείο Πρόσβασης i είναι υποσύνολο του Σημείου Πρόσβασης j. Στο σημασιολογικό γράφο συσχέτισης των Σημείων Πρόσβασης, το Σημείο Πρόσβασης Author-name και το Author-name-conference, από το παράδειγμα 5.1, θα αναπαρίστανται από δύο κόμβους του γράφου, ενώ η μεταξύ τους σχέση υποσυνόλου από το τόξο <Author-name- conference, Author-name>. Εικόνα 5.2. Αντιπροσωπευτικό δείγμα του γράφου συσχέτισης των Bib-1 Σημείων Πρόσβασης. Η εικόνα 5.2 παρουσιάζει ένα αντιπροσωπευτικό δείγμα του σημασιολογικού γράφου

126 Κεφάλαιο συσχετίσεων, ενώ η διαδικασία δημιουργίας του αναπτύσσεται στην ενότητα που ακολουθεί Μεθοδολογία δημιουργίας σημασιολογικού γράφου Η διαδικασία δημιουργίας του σημασιολογικού γράφου συσχετίσεων Σημείων Πρόσβασης αποτελείται από τρία βήματα. Οι ενέργειες που εκτελούνται και τα αποτελέσματα που παράγονται σε κάθε βήμα είναι τα παρακάτω: Στο πρώτο βήμα ελέγχεται αν ισχύει η σχέση του υποσυνόλου σε όλα τα δυνατά ζευγάρια των Σημείων Πρόσβασης και παράγεται ο αρχικός γράφος συσχετίσεων. Σε κάθε κόμβο του γράφου εκχωρείται η τιμή του έσω-βαθμού του, η οποία εκφράζει τον αριθμό των υποσυνόλων του Σημείου Πρόσβασης (εικόνα 5.3). Στο δεύτερο βήμα ο γράφος ταξινομείται σύμφωνα με την τιμή του έσωβαθμού κάθε κόμβου (εικόνα 5.4). Στο τρίτο βήμα απαλείφονται από το γράφο όλα τα παραγόμενα με μεταβατικότητα τόξα (όλες οι πλεονάζουσες συσχετίσεις) μεταξύ κάθε ζεύγους συνδεδεμένων κόμβων (εικόνα 5.5). Μια ρητή εκφρασμένη σχέση του γράφου θεωρείται πλεονάζουσα εάν είναι δυνατόν η ύπαρξή της να συναχθεί από άλλες σχέσεις του γράφου. Εικόνα 5.3. Βήμα 1: Δημιουργία του γράφου G. Ο αριθμός δίπλα σε κάθε κόμβο εκφράζει τον έσω-βαθμό του.

127 Κεφάλαιο Η διαδικασία δημιουργίας του σημασιολογικού γράφου συσχετίσεων αποσαφηνίζεται με το παράδειγμα 5.2 που ακολουθεί. Παράδειγμα 5.2: Έστω ότι το σύνολο γνωρισμάτων Bib-1 αποτελείται μόνο από τα επόμενα τέσσερα Σημεία Πρόσβασης: το Any, το Abstract, το Data-acquisition και το Note. Σύμφωνα με το τεκμήριο που ορίζει τη σημασιολογία του Bib-1, το Σημείο Πρόσβασης Any είναι δυνατό να θεωρηθεί ως η ένωση όλων των Σημείων Πρόσβασης (το υπερσύνολο όλων των άλλων). Το Σημείο Πρόσβασης Abstract περιλαμβάνει τα δεδομένα από το πεδίο του συνόλου {520}, το Data-acquisition περιλαμβάνει τα δεδομένα από το πεδίο του συνόλου {541-subfield-d}, ενώ το Σημείο Πρόσβασης Note περιλαμβάνει τα δεδομένα από τα πεδία του συνόλου {500, 501,, 520,, 535, 536,, 541,, 586}. Όπως προκύπτει από τους ορισμούς των Σημείων Πρόσβασης, όλα τα Σημεία Πρόσβασης είναι υποσύνολα του Any, καθώς επίσης τα Σημεία Πρόσβασης Abstract και Data-acquisition είναι υποσύνολα του Σημείου Πρόσβασης Note. Από αυτές τις συσχετίσεις παράγεται ο γράφος G, που παρουσιάζεται στην εικόνα 5.3, ολοκληρώνοντας με αυτό τον τρόπο το πρώτο βήμα της διαδικασίας. Μετά την τοπολογική ταξινόμηση του γράφου G, βήμα 2, ο γράφος αναδιατάσσεται όπως εμφανίζεται στην εικόνα 5.4. Προφανώς, η αναδιάταξη είναι εφικτή επειδή η σχέση του γνήσιου υποσυνόλου είναι μη αυτοπαθής (irreflexive) και μεταβατική. Εικόνα 5.4. Βήμα 2: Ο γράφος G μετά την τοπολογική ταξινόμηση.

128 Κεφάλαιο Στο τελευταίο τρίτο βήμα, απαλείφονται οι πλεονάζουσες συσχετίσεις υποσυνόλων. Ο γράφος αριθμείται από αριστερά προς τα δεξιά, και σε κάθε κόμβο από τα εξερχόμενα τόξα παραμένει μόνο το τόξο που συνδέει τον κόμβο με τη μεγαλύτερη αρίθμηση. Ο παραγόμενος γράφος G0 είναι το ελάχιστο υποσύνολο του αρχικού γράφου G, έτσι ώστε το transitive closure του G0 παράγει το γράφο G. Η τελική διευθέτηση του γράφου παρουσιάζεται στην εικόνα 5.5. Εικόνα 5.5. Βήμα 3: Ο γράφος G0, το ελάχιστο υποσύνολο του G. Για την έκφραση της σημασιολογικής συσχέτισης των Bib-1 Σημείων Πρόσβασης σε RDF Schema, οι κόμβοι του γράφου αντιστοιχίστηκαν σε rdfs:class κλάσεις και τα τόξα σε rdfs:subclassof ιδιότητες. Η εικόνα 5.6 παρουσιάζει ένα αντιπροσωπευτικό δείγμα του παραγόμενου RDFS γράφου. Η πλήρης εκδοχή του γράφου είναι διαθέσιμη από την ηλεκτρονική διεύθυνση Η σημασιολογική ομοιότητα ενός Σημείου Πρόσβασης με άλλα εκφράζεται από τη θέση του στο γράφο. Τα Σημεία Πρόσβασης που αντιστοιχούν στις άμεσες υποκλάσεις ή υπέρ-κλάσεις μιας κλάσης έχουν την πλησιέστερη σημασιολογία με το Σημείο Πρόσβασης που τους αντιστοιχεί. Επιπροσθέτως, η σημασιολογία ενός Σημείου Πρόσβασης που προκύπτει από την ένωση ή την τομή ενός συνόλου από Σημεία Πρόσβασης εκχωρείται από την ένωση ή την τομή των αντίστοιχων συνόλων που συνθέτουν τα Σημεία Πρόσβασης (δηλαδή των συστατικών Σημείων Πρόσβασης, όπως προαναφέρθηκε).

129 Κεφάλαιο Εικόνα 5.6. Αντιπροσωπευτικό δείγμα του RDF Schema που αναπαριστά τη σημασιολογική συσχέτιση των Bib-1 Σημείων Πρόσβασης. Ως παράδειγμα, ας θεωρήσουμε το Σημείο Πρόσβασης Author-nameconference και το σύνολο από τα Σημεία Πρόσβασης {Author-name, Nameconference}. Από την εικόνα 5.6 φαίνεται ότι η τομή των συνόλων από τα συστατικά Σημεία Πρόσβασης που αντιστοιχούν στα Author-name και Name-conference είναι το σύνολο {f-111, f-411, f-711, f-811}, το οποίο ορίζει τη σημασιολογία του Σημείου Πρόσβασης Author-name-conference. Επιπροσθέτως, ένα Σημείο Πρόσβασης έχει ισοδύναμη σημασιολογία με ένα άλλο εάν τα αντίστοιχα σύνολα των συστατικών Σημείων Πρόσβασης είναι ίσα. Η ομοιότητα μεταξύ των αποτελεσμάτων διαφόρων επερωτήσεων συσχετίζεται με τη σημασιολογική ομοιότητα των Σημείων Πρόσβασης που συνθέτουν τις αντίστοιχες επερωτήσεις. Κατά συνέπεια, όταν μία επερώτηση χρησιμοποιεί ένα Σημείο Πρόσβασης κοντά στην κορυφή της ιεραρχίας, η απάντησή της θα περιλαμβάνει περισσότερα αποτελέσματα από την απάντηση μιας επερώτησης που χρησιμοποιεί ένα Σημείο Πρόσβασης κοντά στα φύλλα της ιεραρχίας. Επομένως,

130 Κεφάλαιο ένα Σημείο Πρόσβασης πρόγονος ενός άλλου διευρύνει τη σημασιολογία του δευτέρου και παράγει περισσότερα αποτελέσματα μικραίνοντας την ακρίβεια. Αντίθετα, ένας απόγονος ενός Σημείου Πρόσβασης συμπτύσσει τη σημασιολογία του Σημείου Πρόσβασης και, μικραίνοντας την ανάκληση, παράγει λιγότερα αποτελέσματα για την επερώτηση. Εκτός από τη χρήση του Σημασιολογικού Δικτύου Σημείων Πρόσβασης στις διαδικασίες μετεγγραφής των επερωτήσεων της παρούσας διατριβής, μια επιπλέον συνεισφορά είναι η βοήθεια για την ορθότερη και πληρέστερη κατανόηση της σημασιολογίας των Bib-1 Σημείων Πρόσβασης. 5.2 Σημασιολογική αντικατάσταση μη υποστηριζόμενων Σημείων Πρόσβασης Ανιχνεύοντας την ομοιότητα των Σημείων Πρόσβασης από το Bib-1 RDF Schema, η αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης είναι δυνατό να γίνει με δύο εναλλακτικές τακτικές. Η πρώτη τακτική διευρύνει τη σημασιολογία του μη υποστηριζόμενου Σημείου Πρόσβασης και το αντικαθιστά με τη λογική σύζευξη (AND συνδυασμός) όλων των κοντινότερων προγόνων του Σημείου Πρόσβασης που υποστηρίζει η πηγή από κάθε μονοπάτι ιεραρχίας προγόνων, το οποίο αρχίζει από το μη υποστηριζόμενο Σημείο Πρόσβασης. Μετά από μια διαδικασία βελτιστοποίησης παράγεται το μικρότερο σύνολο από υποστηριζόμενα Σημεία Πρόσβασης, των οποίων η λογική σύζευξη έχει την πλησιέστερη (μικρότερη) διευρυμένη σημασιολογία από το αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης. Σε αντίθεση, η δεύτερη τακτική αντικατάστασης συμπτύσσει τη σημασιολογία του μη υποστηριζόμενου Σημείου Πρόσβασης και το αντικαθιστά με τη λογική διάζευξη (OR συνδυασμός) όλων των κοντινότερων απογόνων του Σημείου Πρόσβασης που υποστηρίζει η πηγή από κάθε μονοπάτι ιεραρχίας απογόνων, το οποίο αρχίζει από το μη υποστηριζόμενο Σημείο Πρόσβασης. Αντίστοιχα, μετά από μια διαδικασία βελτιστοποίησης, παράγεται το μικρότερο σύνολο από υποστηριζόμενα Σημεία Πρόσβασης, των οποίων η λογική διάζευξη παρέχει την πλησιέστερη (μεγαλύτερη) συμπτυγμένη σημασιολογία από το μη υποστηριζόμενο Σημείο Πρόσβασης.

131 Κεφάλαιο Όπως θα παρουσιαστεί στην ενότητα 5.2.2, η αντικατάσταση με διεύρυνση μειώνει την ακρίβεια της απάντησης χωρίς να επηρεάζει την ανάκληση. Αντίθετα, η αντικατάσταση με σύμπτυξη μειώνει την ανάκληση της απάντησης χωρίς να επηρεάζει την ακρίβεια. Κατά συνέπεια, όπως θα αναλυθεί στην ενότητα 5.2.3, σε περίπτωση όπου και οι δύο αντικαταστάσεις είναι δυνατές, επιλέγεται η αντικατάσταση που ταιριάζει περισσότερο με προκαθορισμένες προτιμήσεις του χρήστη, σχετικά με την ακρίβεια και την ανάκληση Τακτικές αντικατάστασης μη υποστηριζόμενου Σημείου Πρόσβασης Οι ορισμοί που ακολουθούν είναι συμπληρωματικοί της περιγραφής των αλγορίθμων αντικατάστασης. Οι ορισμοί 5.3 και 5.4 έχουν δοθεί στο Kaoudi κ.ά. (2005). Ορισμός 5.3: Ένα RDF Schema (RDFS) είναι μία πεντάδα (C, L, P, SC, SP) η οποία αναπαριστά ένα γράφο, όπου: 1. Το C είναι ένα σύνολο από χαρακτηρισμένους (labeled) κόμβους. Κάθε κόμβος στο C αναπαριστά μία κλάση (RDF class). 2. Το L είναι ένα σύνολο από κόμβους χαρακτηρισμένους με τύπους δεδομένων που ορίζονται στο XML schema (W3C, 2004). Κάθε κόμβος στο L αναπαριστά μία λεκτική σταθερά (literal). 3. Το P είναι ένα σύνολο από χαρακτηρισμένα τόξα (c1, c2, p) από τον κόμβο c1 στον κόμβο c2 με ετικέτα p, όπου c1 C και c2 C L. Κάθε τόξο στο P αναπαριστά μία RDF ιδιότητα (property) p με πεδίο ορισμού (domain) c1 και πεδίο τιμών (range) c2. 4. Το SC είναι ένα σύνολο από τόξα (c1, c2) από τον κόμβο c1 στον κόμβο c2, όπου c1, c2 C. Κάθε τόξο στο SC αναπαριστά μία isa ιδιότητα μεταξύ των κλάσεων c1 και c2 (το c1 είναι υποκλάση του c2). 5. Το SP είναι ένα σύνολο από τόξα ((c1, c2, p1), (c3, c4, p2)) από το τόξο (c1, c2, p1) στο τόξο (c3, c4, p2), όπου το τόξο (c1, c2, p1), (c3, c4, p2) P. Κάθε τόξο στο SP αναπαριστά μία isa ιδιότητα μεταξύ των ιδιοτήτων (c1, c2, p1) και (c3, c4, p2). Έστω C είναι μία σχέση στο C: c1 C c2 ισχύει αν c1 είναι υποκλάση του c2. Το σύμβολο C+ υποδηλώνει το transitive closure της σχέσης C. Μία κλάση c1

132 Κεφάλαιο θεωρείται ως πρόγονος της c2 (ή η c2 είναι απόγονος της c1) αν ισχύει c2 C+ c1. Ειδικότερα, για την περιγραφή των διαδικασιών περιήγησης στον RDFS γράφο απαιτούνται οι ακόλουθοι ορισμοί. Ορισμός 5.4: Ο άμεσος πρόγονος (ή άμεση υπερκλάση) μίας κλάσης x, όπου x C, είναι η κλάση z C έτσι ώστε x C z και δεν υπάρχει κλάση y C τέτοια ώστε να ικανοποιεί τη σχέση x C y C z. Η κλάση x αναφέρεται επίσης και σαν ο άμεσος απόγονος (ή η άμεση υποκλάση) της z. Ορισμός 5.5: Ένα μονοπάτι ιεραρχίας προγόνων S στο C από την κλάση s, με S C, s C και το οποίο συμβολίζεται με aph(s), είναι το σύνολο {s1, s2,, sn} για το οποίο s s1, si C και si C si+1 με 1 < i < n-1. Σε ένα μονοπάτι ιεραρχίας προγόνων S από οποιεσδήποτε δύο κλάσεις sk και sl o πλησιέστερος πρόγονος της κλάσης sh με h < k < l είναι η κλάση sk. Ορισμός 5.6: Ένα μονοπάτι ιεραρχίας απογόνων S στο C από την κλάση s, με S C, s C και το οποίο συμβολίζεται με dph(s), είναι το σύνολο {s1, s2,, sn} για το οποίο s1 s, sι C και si+1 C si με 1 < i < n-1. Σε ένα μονοπάτι ιεραρχίας απογόνων S, από οποιεσδήποτε δύο κλάσεις sk και sl o πλησιέστερος απόγονος της κλάσης sh με h < k < l είναι η κλάση sk. Τόσο το μονοπάτι ιεραρχίας προγόνων όσο και το μονοπάτι ιεραρχίας απογόνων εκλαμβάνονται σαν ένα isa μονοπάτι ιεραρχίας Αντικατάσταση με διεύρυνση σημασιολογίας Στην ενότητα αυτή παρουσιάζεται ο αλγόριθμος αντικατάστασης, ο οποίος διευρύνει τη σημασιολογία του Σημείου Πρόσβασης. Όπως έχει ήδη προαναφερθεί, η διεύρυνση της σημασιολογίας ενός Σημείου Πρόσβασης έχει ως συνέπεια ο όρος αναζήτησης να ταυτίζεται με τα μεταδεδομένα από περισσότερα πεδία. Κατά συνέπεια, το σύνολο αποτελεσμάτων της επερώτησης διευρύνεται. Η βασική ιδέα της αντικατάστασης με διεύρυνση είναι η επιλογή και η τομή όλων των Σημείων Πρόσβασης, τα οποία έχουν

133 Κεφάλαιο την πιο κοντινή διευρυμένη σημασιολογία με το αρχικό Σημείο Πρόσβασης, εκμεταλλευόμενοι το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης που αναπαριστά το Bib-1 RDFS. Ενορατικά, ο αλγόριθμος αντικατάστασης με διεύρυνση παράγει αρχικά το σύνολο των υποστηριζόμενων πλησιέστερων πρόγονων της αντίστοιχης κλάσης του μη υποστηριζόμενου Σημείου Πρόσβασης, η οποία προκύπτει από κάθε μονοπάτι ιεραρχίας προγόνων που αρχίζει από την κλάση του μη υποστηριζόμενου Σημείου Πρόσβασης. Στη συνέχεια υπολογίζει την τομή των υποστηριζόμενων πλησιέστερων πρόγονων. Λόγω του ότι οι πρόγονοι είναι υπερσύνολα της κλάσης του αρχικού Σημείου Πρόσβασης, η τομή τους υπολογίζει ένα όσο το δυνατόν μικρότερο σημασιολογικά υπερσύνολο του αρχικού Σημείου Πρόσβασης. Αλγόριθμος αντικατάστασης Σημείου Πρόσβασης με διεύρυνση Δεδομένα: Το BIB-1 RDFS: B = {BC, BL, BP, BS, } Το σύνολο D των Σημείων Πρόσβασης που υποστηρίζει η πηγή, με D BC Είσοδος: Το Σημείο Πρόσβασης ap, με ap BC, για έλεγχο και πιθανή αντικατάσταση Αποτελέσματα: Το S σύνολο των Σημείων Πρόσβασης, όπου S είναι: (i) {ap}. Περιέχει το ap, αν ap D (δηλαδή η πηγή το υποστηρίζει), (ii) {api D ap S+ api, api Si = aph(ap) και z Si D: ap S+ z S+ api}. Από κάθε μονοπάτι ιεραρχίας προγόνων που αρχίζει από το ap, επιλέγει τον πλησιέστερο υποστηριζόμενο πρόγονο (υπερκλάση) του ap, (iii), αν το ap δεν υποστηρίζεται και δεν υπάρχει κανένα άλλο ap1 D έτσι ώστε να ισχύει ap BC+ ap1 (ανέφικτη αντικατάσταση με επέκταση). 1. S = 2. If ap D 3. for each aph(ap) find the nearest ancestor sk of ap such that sk D //μονοπάτι ιεραρχίας //προγόνων από το ap 4. if sk exist 5. S = S { sk } 6. end if 7. end for 8. else 9. S = {ap} 10. end if 11. return S Τα παραδείγματα που ακολουθούν αποσαφηνίζουν τις διαδικασίες του

134 Κεφάλαιο αλγορίθμου. Παράδειγμα 5.3: Ας θεωρήσουμε την πηγή S1 η οποία υποστηρίζει το σύνολο με τα Σημεία Πρόσβασης {Any, Subject, Name}. Υποθέτουμε επίσης ότι το ζητούμενο είναι η ανάκτηση εγγραφών μεταδεδομένων για οποιοδήποτε αντικείμενο αναφέρεται στα έργα του Shakespeare από την πηγή αυτή. Για την αναζήτηση αυτή, το καταλληλότερο Σημείο Πρόσβασης που διαθέτει το Bib-1 είναι το Subject-namepersonal, το οποίο όμως δεν υποστηρίζει η πηγή S1. Εφαρμόζοντας τον αλγόριθμο στο γράφο (βλέπε εικόνα 5.2), το πρώτο μονοπάτι ιεραρχίας προγόνων που αρχίζει από το Subject-name-personal είναι το P1 = {Subject, Author-Title-Subject, Any}. Από το P1 ο πλησιέστερος πρόγονος του Subject-name-personal που υποστηρίζει η πηγή S1 είναι το Subject (γραμμή 3 του αλγορίθμου). Κατά συνέπεια, ο αλγόριθμος προσθέτει το Subject στο σύνολο S (γραμμή 5 του αλγορίθμου). Ομοίως, από το επόμενο μονοπάτι ιεραρχίας προγόνων P2 = {Name-personal, Name, Author-TitleSubject, Any} ο πλησιέστερος πρόγονος του Subject-name-personal που υποστηρίζει η πηγή S1 είναι το Name, το οποίο ο αλγόριθμος προσθέτει στο σύνολο S. Με την ολοκλήρωση του αλγορίθμου, για την πηγή S1 τα Σημεία Πρόσβασης που έχουν επιλεγεί να αντικαταστήσουν το μη υποστηριζόμενο Σημείο Πρόσβασης Subject-name-personal είναι το Subject και το Name. Όπως φαίνεται στην εικόνα 5.2, το Subject-name-personal έχει μια isa σχέση και με τα δύο Σημεία Πρόσβασης που έχουν επιλεγεί για να το αντικαταστήσουν. Ως εκ τούτου, και τα τρία Σημεία Πρόσβασης χρησιμοποιούν μερικά κοινά πεδία για να ταιριάξουν τον όρο αναζήτησης. Αν τα Σημεία Πρόσβασης συνδυαστούν με το λογικό τελεστή AND, τα κοινά πεδία που χρησιμοποιούνται για ταίριασμα με τον όρο αναζήτησης θα είναι τα πεδία που χρησιμοποιεί το Σημείο Πρόσβασης Subject-name-personal, συν μερικά άλλα που δεν περιλαμβάνονται στη σημασιολογία του Subject-name-personal. Ο αριθμός των επιπρόσθετων πεδίων που θα χρησιμοποιηθούν θα είναι μικρότερος από το συνολικό αριθμό των πεδίων που χρησιμοποιούνται είτε από το Subject είτε από το Name. Το παράδειγμα που ακολουθεί αποσαφηνίζει περαιτέρω τη λειτουργία του αλγορίθμου. Παράδειγμα 5.4: Εφαρμόζουμε την ίδια επερώτηση στην πηγή S2, η οποία υποστηρίζει το σύνολο με τα Σημεία Πρόσβασης {Any, Subject, Author-name}. Η

135 Κεφάλαιο πηγή S2 υποστηρίζει το Σημείο Πρόσβασης Author-name αντί του Name. Σε αυτή την περίπτωση, ο αλγόριθμος θα επιλέξει ξανά το Σημείο Πρόσβασης Subject από το P1, αλλά από το P2 θα επιλέξει το Any αντί του Name. Και τα δύο Σημεία Πρόσβασης είναι αποδεκτά σαν αποτελέσματα από τον αλγόριθμο, αλλά όπως φαίνεται από το γράφο, το Any είναι πρόγονος (υπερκλάση) του Subject. Το Σημείο Πρόσβασης Any είναι ένα πλεονάζον, το οποίο διευρύνει ανεπιθύμητα τη σημασιολογία του μη υποστηριζόμενου Σημείου Πρόσβασης. Εικόνα 5.7. Μονοπάτια ιεραρχίας προγόνων από τα οποία επιλέγεται μη επιθυμητό Σημείο Πρόσβασης. Όπως φαίνεται και στην εικόνα 5.7, η επιλογή ανεπιθύμητων Σημείων Πρόσβασης συμβαίνει όταν υπάρχουν περισσότερα από ένα μονοπάτια ιεραρχίας προγόνων τα οποία περιλαμβάνουν υποστηριζόμενα Σημεία Πρόσβασης και το Σημείο Πρόσβασης που επιλέγεται από τη μία ιεραρχία ανήκει και σε μία δεύτερη, στην οποία είναι σε υψηλότερη ιεραρχική θέση από το Σημείο Πρόσβασης που έχει επιλεγεί από τη δεύτερη ιεραρχία. Σε μια τέτοια περίπτωση, το σύνολο που επιστρέφει ο αλγόριθμος αντικατάστασης περιλαμβάνει Σημεία Πρόσβασης από την ίδια isa ιεραρχία. Η απαλοιφή των ανεπιθύμητων Σημείων Πρόσβασης, δηλαδή αυτών που είναι υπερκλάσεις άλλων στοιχείων του συνόλου των Σημείων Πρόσβασης που έχουν επιλεγεί για αντικατάσταση, γίνεται με τον επόμενο αλγόριθμο ο οποίος βελτιστοποιεί

136 Κεφάλαιο τα αποτελέσματα που παράγει ο αρχικός αλγόριθμος αντικατάστασης. Ο αλγόριθμος βελτιστοποίησης παράγει το μικρότερο σύνολο από υποστηριζόμενα Σημεία Πρόσβασης, των οποίων η λογική σύζευξη έχει τη μικρότερη διευρυμένη σημασιολογία από το μη υποστηριζόμενο Σημείο Πρόσβασης. Αλγόριθμος δημιουργίας του μικρότερου συνόλου με τη μικρότερη διευρυμένη σημασιολογία Δεδομένα: Το BIB-1 RDFS: B = {BC, BL, BP BS } Είσοδος: Ένα σύνολο από Σημεία Πρόσβασης C BC Αποτελέσματα: Το σύνολο Σημείων Πρόσβασης C': C' = {x y C : x BC+ y και z C: z BC+ x}. 1. If C <= 1 2. return C' = C 3. end if 4. C' = 5. for each api in C do 6. if api is not an ancestor of any element in C-{ api } 7. C' = C' { api } 8. end if 9. end for 10. return C' Η αποσαφήνιση του αλγορίθμου βελτιστοποίησης γίνεται με το παράδειγμα που ακολουθεί. Παράδειγμα 5.5: Σε συνέχεια του παραδείγματος 5.4, το σύνολο που έχει επιστραφεί από τον αλγόριθμο αντικατάστασης με διεύρυνση της σημασιολογίας είναι το {Any, Subject}. Ανιχνεύοντας το γράφο, το Any είναι πρόγονος του Subject (γραμμή 6 του αλγορίθμου), κατά συνέπεια ο αλγόριθμος δεν το περιλαμβάνει στο τελικό σύνολο (γραμμή 7 του αλγορίθμου), εφόσον η τομή των δύο κλάσεων είναι ακριβώς η χαμηλότερη ιεραρχικά κλάση Αντικατάσταση με σύμπτυξη σημασιολογίας Σε αντίθεση με τον αλγόριθμο διεύρυνσης, ο αλγόριθμος σύμπτυξης συμπτύσσει τη σημασιολογία ενός Σημείου Πρόσβασης, με αποτέλεσμα ο όρος αναζήτησης να

137 Κεφάλαιο ταυτίζεται με τα μεταδεδομένα από λιγότερα πεδία της εγγραφής. Κατά συνέπεια, το σύνολο αποτελεσμάτων της επερώτησης συμπτύσσεται. Η βασική ιδέα της αντικατάστασης με σύμπτυξη είναι η επιλογή και η ένωση όλων των Σημείων Πρόσβασης τα οποία έχουν την πιο κοντινή συμπτυγμένη σημασιολογία με το Σημείο Πρόσβασης. Ενορατικά, ο αλγόριθμος αντικατάστασης με σύμπτυξη παράγει το σύνολο από τους υποστηριζόμενους πλησιέστερους απογόνους της αντίστοιχης κλάσης του μη υποστηριζόμενου Σημείου Πρόσβασης από κάθε μονοπάτι ιεραρχίας απογόνων που αρχίζει από την κλάση του μη υποστηριζόμενου Σημείου Πρόσβασης. Αλγόριθμος αντικατάστασης Σημείου Πρόσβασης με σύμπτυξη Δεδομένα: Το BIB-1 RDFS: B = {BC, BL, BP, BS, } Το σύνολο D των Σημείων Πρόσβασης που υποστηρίζει η πηγή, με D BC Είσοδος: Το Σημείο Πρόσβασης ap, με ap BC, για έλεγχο και πιθανή αντικατάσταση Αποτελέσματα: Το S σύνολο των Σημείων Πρόσβασης, όπου S είναι: (i) {ap}. Περιέχει το ap, αν ap D (δηλαδή η πηγή το υποστηρίζει), (ii) {api D api S+ ap, api Si = dph(ap) και z Si D: api S+ z S+ ap}. Από κάθε μονοπάτι ιεραρχίας απογόνων που αρχίζει από το ap, επιλέγει τον πλησιέστερο υποστηριζόμενο απόγονο (υποκλάση) του ap, (iii), αν το ap δεν υποστηρίζεται και δεν υπάρχει κανένα άλλο ap1 D έτσι ώστε να ισχύει ap1 BC+ ap (ανέφικτη αντικατάσταση με σύμπτυξη). 1. S = 2. If ap D 3. for each dph(ap) find the nearest descendant sk of ap such that sk D //μονοπάτι ιεραρχίας απογόνων από το ap 4. if sk exist 5. S = S { sk } 6. end if 7. end for 8. else 9. S = {ap} 10. end if 11. return S Το παράδειγμα που ακολουθεί διευκρινίζει τη λειτουργία του αλγορίθμου αντικατάστασης με σύμπτυξη της σημασιολογίας του μη υποστηριζόμενου Σημείου Πρόσβασης. Παράδειγμα 5.6: Ας θεωρήσουμε την πηγή S3 η οποία υποστηρίζει το σύνολο με τα

138 Κεφάλαιο Σημεία Πρόσβασης {Subject, Author-name, Author-name-personal}. Υποθέτουμε επίσης, ότι το ζητούμενο είναι να αναζητηθούν οι εγγραφές μεταδεδομένων για οποιοδήποτε αντικείμενο σχετικό με Shakespeare. Για αυτή την αναζήτηση, το καταλληλότερο Σημείο Πρόσβασης που διαθέτει το Bib-1 είναι το Author-TitleSubject, το οποίο όμως δεν υποστηρίζει η πηγή S3. Εφαρμόζοντας τον αλγόριθμο στο γράφο (βλέπε εικόνα 5.2), το πρώτο μονοπάτι ιεραρχίας απογόνων που αρχίζει από το Author-Title-Subject είναι το P1 = {Subject, Subject-name-personal}. Από το P1 ο πλησιέστερος απόγονος του Author-Title-Subject που υποστηρίζει η πηγή S3 είναι το Subject (γραμμή 3 του αλγορίθμου). Κατά συνέπεια, ο αλγόριθμος προσθέτει το Subject στο σύνολο S (γραμμή 5 του αλγορίθμου). Ομοίως, από το P2 = {Name, Author-name, Author-name-personal, Name-Editor} ο αλγόριθμος προσθέτει το Author-name. Συνεχίζοντας, από το P3 = {Name, Name-personal, Author-namepersonal, Name-Editor} προστίθεται το Author-name-personal. Από όλες τις άλλες ιεραρχίες απογόνων που αρχίζουν από το Author-Title-Subject δεν υπάρχουν Σημεία Πρόσβασης που να υποστηρίζει η πηγή S3. Ο λογικός OR συνδυασμός των επιλεγμένων Σημείων Πρόσβασης {Subject, Author-name, Author-name-personal} θα δημιουργήσει την αντικατάσταση με σύμπτυξη για το μη υποστηριζόμενο Σημείο Πρόσβασης Author-Title-Subject. Ο αλγόριθμος θα δημιουργήσει ένα σύνολο με Σημεία Πρόσβασης τα οποία είναι πιθανόν να ανήκουν στην ίδια isa ιεραρχία, όπως έκανε και ο αλγόριθμος διεύρυνσης. Ο αλγόριθμος που ακολουθεί απαλείφει τα ανεπιθύμητα Σημεία Πρόσβασης, παράγοντας το σύνολο με τα λιγότερα υποστηριζόμενα Σημεία Πρόσβασης, των οποίων η λογική διάζευξη έχει την όσο το δυνατό μεγαλύτερη συμπτυγμένη σημασιολογία από το μη υποστηριζόμενο Σημείο. Αλγόριθμος δημιουργίας του μικρότερου συνόλου με τη μεγαλύτερη συμπτυγμένη σημασιολογία Δεδομένα: Το BIB-1 RDFS: B = {BC, BL, BP, BS, } Είσοδος: Ένα σύνολο από Σημεία Πρόσβασης C BC Αποτελέσματα: Το σύνολο Σημείων Πρόσβασης C': C' = {x y C : y BC+ x και z C: x BC+ z}.

139 Κεφάλαιο If C <= 1 2. return C' = C 3. end if 4. C' = 5. for each api in C do 6. if api is not a descendant of any element in C-{ api } 7. C' = C' { api } 8. end if 9. end for 10. return C' Αποτίμηση ανάκλησης και ακρίβειας Η αντικατάσταση με διεύρυνση μειώνει την ακρίβεια της απάντησης χωρίς να επηρεάζει την ανάκληση. Αυτό προκύπτει από το ότι τα Σημεία Πρόσβασης υπερκλάσεις που αντικαθιστούν το μη υποστηριζόμενο Σημείο Πρόσβασης ταιριάζουν τον όρο αναζήτησης τόσο με τα πεδία του μη υποστηριζόμενου Σημείου Πρόσβασης όσο και με τα επιπλέον πεδία των Σημείων Πρόσβασης υπερκλάσεις. Συγκεκριμένα, οι εγγραφές που αντιστοιχούσαν στο αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης θα ανακτηθούν, άρα η ανάκληση παραμένει η ίδια, ενώ θα μεγαλώσει το συνολικό σύνολο εγγραφών που τις περιλαμβάνει, οπότε θα μειωθεί η ακρίβεια. Κατά συνέπεια, για να αποτιμηθεί η μεταβολή της ακρίβειας προσαρμόστηκε κατάλληλα το μέγεθος της ταξινομικής ακρίβειας (tp) από την κοινότητα ontology learning (Dellschaft and Staab, 2006; Maedche and Staab 2002), χρησιμοποιώντας το αντιπροσωπευτικό γνώρισμα leaf subclasses. Η ταξινομική ακρίβεια στη γενική της εφαρμογή συγκρίνει δύο έννοιες από δύο διαφορετικές οντολογίες, την κοινά συμφωνημένη ή αποδεκτή οντολογία (gold, reference ontology) και την αναπτυσσόμενη οντολογία (retrieved, learned ontology). Εν τούτοις, στην παρούσα εφαρμογή συγκρίνει δύο έννοιες από την ίδια οντολογία, η οποία αναπαρίσταται από το Bib-1 Σημασιολογικό Δίκτυο Σημείων Πρόσβασης το οποίο είναι εκφρασμένο σε RDFS. Έστω ότι η οντολογία O αναπαριστά τον RDFS γράφο του Bib-1 Σημασιολογικού Δικτύου Σημείων Πρόσβασης και C το σύνολο των εννοιών της O οι οποίες αναπαριστούν Σημεία Πρόσβασης.

140 Κεφάλαιο Ορισμός 5.7: Το σύνολο των leaf subclasses ενός Σημείου Πρόσβασης ap στην οντολογία O, το οποίο συμβολίζεται lsc(ap, O), προσδιορίζεται από τη σχέση: lsc ap, O ={api ap i C api + ap x C : x api }. (18) Είναι άξιο αναφοράς ότι τα leaf subclasses ενός Σημείου Πρόσβασης, τα οποία και αυτά θεωρούνται Σημεία Πρόσβασης, αντιστοιχούν στο τμήμα της εγγραφής με το οποίο εφαρμόζεται η διαδικασία ταιριάσματος του όρου αναζήτησης. Ως εκ τούτου το σύνολο αυτό προσδιορίζει τη σημασιολογία του Σημείου Πρόσβασης. Ορισμός 5.8: Η ταξινομική ακρίβεια (tp) δύο Σημείων Πρόσβασης apr, aps όπου, apr και aps αναπαριστούν το αιτούμενο και το επιλεγμένο για να αντικαταστήσει το μη υποστηριζόμενο Σημείο Πρόσβασης αντίστοιχα, προσδιορίζεται από τη σχέση: tp aps, apr,o = lsc ap s lsc apr lsc aps. (19) Η ταξινομική ακρίβεια αναπαριστά την αναλογία των πεδίων που χρησιμοποιούνται στο αιτούμενο (σχετικά πεδία), μη υποστηριζόμενο, Σημείο Πρόσβασης σε σχέση με τα πεδία που χρησιμοποιούνται στο επιλεγμένο για την αντικατάσταση (πεδία αναζήτησης). Όπως φαίνεται από τον ορισμό, η ταξινομική ακρίβεια δεν είναι συμμετρική. Επιπροσθέτως, λόγω του ότι κάθε Σημείο Πρόσβασης που επιλέγεται από τη διαδικασία αντικατάστασης με διεύρυνση ανήκει σε ένα μονοπάτι ιεραρχίας προγόνων που αρχίζει από το αιτούμενο Σημείο Πρόσβασης, ισχύει η σχέση lsc(apr) lsc(aps). Κατά συνέπεια, προκύπτει το παρακάτω λήμμα που εκφράζει τη σχέση (19) της ταξινομικής ακρίβειας (ορισμός 5.8) σε απλούστερη μορφή: Λήμμα 5.1: Στην αντικατάσταση με διεύρυνση η ταξινομική ακρίβεια (tp) δύο Σημείων Πρόσβασης apr, aps όπου, apr και aps αναπαριστούν το αιτούμενο και το επιλεγμένο για να αντικαταστήσει το μη υποστηριζόμενο Σημείο Πρόσβασης αντίστοιχα, προσδιορίζεται από τη σχέση:

141 Κεφάλαιο tp aps, apr,o = lsc ap r lsc ap s. (20) Το τελευταίο βήμα της αντικατάστασης με διεύρυνση είναι η λογική σύζευξη των επιλεγέντων Σημείων Πρόσβασης. Κατά συνέπεια, το προκύπτον σύνολο Σημείων Πρόσβασης είναι δυνατό να θεωρηθεί σαν ένα νέο Σημείο Πρόσβασης που δημιουργείται από τα κοινά πεδία των Σημείων Πρόσβασης που χρησιμοποιούνται στο λογικό συνδυασμό AND. Λήμμα 5.2: Η ταξινομική ακρίβεια της τομής ενός συνόλου Σημείων Πρόσβασης {aps1, aps2,, apsn} που προκύπτουν από την αντικατάσταση με διεύρυνση ορίζεται από τον παρακάτω τύπο που είναι σε απλουστευμένη μορφή: n ap tp i=1 si, apr, O = lsc apr n ap i=1. (21) si Σε αντίθεση με την αντικατάσταση με διεύρυνση, η αντικατάσταση με σύμπτυξη μειώνει την ανάκληση της επερώτησης που προκύπτει χωρίς να επηρεάζει την ακρίβεια. Αυτό οφείλεται στο ότι τα Σημεία Πρόσβασης υποκλάσεις που αντικαθιστούν το μη υποστηριζόμενο Σημείο Πρόσβασης ταιριάζουν τον όρο αναζήτησης μόνο με ένα μέρος από τα πεδία του μη υποστηριζόμενου Σημείου Πρόσβασης. Δηλαδή, δε θα ανακτηθούν όλες οι εγγραφές που αντιστοιχούσαν στο αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης, συνεπώς η ανάκληση μειώνεται. Επιπροσθέτως, τα επιλεγέντα Σημεία Πρόσβασης από την αντικατάσταση με σύμπτυξη είναι υποκλάσεις του μη υποστηριζόμενου Σημείου Πρόσβασης, κατά συνέπεια ισχύουν οι σχέσεις lsc(aps) lsc(apr) και lsc(aps) lsc(apr) = lsc(aps). Οι αντίστοιχοι ορισμοί για την ταξινομική ανάκληση (tr) είναι οι παρακάτω: Ορισμός 5.9: Η ταξινομική ανάκληση (tr) δύο Σημείων Πρόσβασης apr, aps, όπου apr και aps αναπαριστούν το αιτούμενο και το επιλεγμένο για να αντικαταστήσει το μη υποστηριζόμενο Σημείο Πρόσβασης αντίστοιχα, προσδιορίζεται από τη σχέση:

142 Κεφάλαιο tr ap s, apr, O = lsc ap s lsc apr lsc ap r. (22) Λήμμα 5.3: Στην αντικατάσταση με σύμπτυξη η ταξινομική ανάκληση (tr) προσδιορίζεται από τη σχέση (απλουστευμένη μορφή): tr ap s, apr, O = lsc ap s lsc apr. (23) Λήμμα 5.4: Η ταξινομική ανάκληση της ένωσης ενός συνόλου Σημείων Πρόσβασης {aps1, aps2,, apsn} που προκύπτουν από την αντικατάσταση με σύμπτυξη ορίζεται από τον παρακάτω τύπο, που είναι σε απλουστευμένη μορφή: n ap tp ap, ap, O = n i=1 i=1 si r si. (24) lsc apr Στον πίνακα 5.1 παρουσιάζονται αντιπροσωπευτικές τιμές της ταξινομικής ακρίβειας και ανάκλησης για μια ομάδα από αρκετά ενδιαφέρουσες αντικαταστάσεις διεύρυνσης και σύμπτυξης αντίστοιχα (βλέπε και εικόνα 5.6). Και για τις δύο τακτικές αντικατάστασης, η πρώτη γραμμή αναπαριστά το αιτούμενο προς αντικατάσταση, μη υποστηριζόμενο Σημείο Πρόσβασης, ενώ η πρώτη στήλη αναπαριστά το Σημείο Πρόσβασης που θα αντικαταστήσει το αιτούμενο. Κατά συνέπεια, το μέρος του πίνακα πάνω από τη διαγώνιο δίνει την ταξινομική ακρίβεια (tp) για τις δυνατές αντικαταστάσεις με διεύρυνση. Παρατηρώντας τη δεύτερη γραμμή, όταν το Name_1002 αντικαθιστά τον άμεσο απόγονο του Author-name_1003 η ταξινομική ακρίβεια παραμένει υψηλή (0.8), ενώ η ταξινομική ακρίβεια (tp) μειώνεται όσο κατευθυνόμαστε προς το τέλος της γραμμής, όταν το Name_1002 αντικαθιστά τον απόγονο του Author-name-personal_1004 (tp=0.26). Κατά τον ίδιο τρόπο με την αντικατάσταση της διεύρυνσης, το μέρος του πίνακα κάτω από τη διαγώνιο δίνει την ταξινομική ανάκληση (tr) για μερικές υπαρκτές αντικαταστάσεις με σύμπτυξη. Παρατηρώντας τη δεύτερη στήλη, όταν το Author-name_1003 αντικαθιστά τον άμεσο

143 Κεφάλαιο πρόγονο του Name_1002 η ταξινομική ανάκληση (tr) παραμένει υψηλή (0.8), ενώ η ταξινομική ανάκληση (tr) μειώνεται όσο κατευθυνόμαστε προς το τέλος της στήλης, όταν το Author-name-personal_1004 αντικαθιστά τον πρόγονο του Name_1002 (tr=0.26). Πίνακας 5.1. Παραδείγματα τιμών ταξινομικής ακρίβειας και ανάκλησης για μερικές ενδιαφέρουσες αντικαταστάσεις διεύρυνσης και σύμπτυξης αντίστοιχα. tp 1002 tr Name_1002 Author-name_1003 Name-conference_3 Name-corporate_2 Name_personal_1 Author-nameconference_1006 Author-namecorporate_1005 Author-namepersonal_ /15= 0.8 5/15= /15= /15= /15= /15= /15= /15= /15= /15= /15= /15= /12= /5= 0.8 4/15= /12= /15= /12= /5= /12= /12= /12= /5= 0.8 4/5= /5= /5= Μέτρηση αντικατάστασης Με δεδομένη την ταξινομική ακρίβεια και ανάκληση μιας αντικατάστασης, ο τύπος της μετρικής F-measure θεωρείται ότι αντανακλά μια καλή ισορροπία μεταξύ τους. Το F-measure είναι η αρμονική ενδιάμεση τιμή μεταξύ της ταξινομικής ακρίβειας και ανάκλησης, το οποίο χρησιμοποιείται αρκετά συχνά ως μια αποδεκτή ακριβής μέτρηση από αρκετές επιστημονικές κοινότητες, όπως είναι της αναζήτησης πληροφοριών, της ανάπτυξης οντολογιών, της επεξεργασίας φυσικής γλώσσας, κλπ. Η γενική εκδοχή της μετρικής με χρήση συντελεστή αντιστάθμισης, για ένα συντελεστή αντιστάθμισης b > 0, είναι η παρακάτω: 1 b 2 tp tr F - measure= 2 b tp tr (25)

144 Κεφάλαιο Μία αντικατάσταση θεωρείται η καλύτερη αν το αντίστοιχο μέγεθος Fmeasure έχει τη μεγαλύτερη τιμή. Με συντελεστή αντιστάθμισης b=1 και τα δύο μεγέθη ακρίβειας και ανάκλησης θεωρούνται το ίδιο σημαντικά, ενώ η μετρική είναι γνωστή σαν F1-measure. Μερικά παραδείγματα με συνήθεις τιμές του συντελεστή αντιστάθμισης είναι b=2, ο οποίος σταθμίζει την ανάκληση διπλάσια από την ακρίβεια, ενώ αντίθετα η τιμή b=0,5 σταθμίζει την ακρίβεια διπλάσια από την ανάκληση. 5.3 Υπηρεσία παγκόσμιου ιστού για ανοικτή πρόσβαση στο Σημασιολογικό Δίκτυο Σημείων Πρόσβασης Η λειτουργικότητα του Σημασιολογικού Δικτύου Σημείων Πρόσβασης είναι διαθέσιμη σαν υπηρεσία ανοικτής πρόσβασης με τεχνολογίες του παγκόσμιου ιστού. Για την επίδειξη των τακτικών αντικατάστασης με την αξιοποίηση του Bib-1 RDFS γράφου, αναπτύχθηκε από την παρούσα διατριβή μία εφαρμογή παγκόσμιου ιστού, η πρόσβαση της οποίας γίνεται στη διεύθυνση (εικόνα 5.8) και η οποία χρησιμοποιεί τη διαμόρφωση των παρακάτω Z39.50 πηγών: Library of Congress (ΗΠΑ), Library and Archives Canada, MELVYL, COPAC Academic & National Library Catalogue (Ηνωμένο Βασίλειο), Συλλογικός Κατάλογος Ελληνικών Ακαδημαϊκών βιβλιοθηκών και Κατάλογος Βιβλιοθήκης Πανεπιστημίου Κρήτης. Στην τρέχουσα ενότητα γίνεται μόνο η παρουσίαση της υπηρεσίας, ενώ η ευρύτερη περιγραφή της υλοποίησης του συστήματος γίνεται στο κεφάλαιο 6 μαζί με την παρουσίαση του συστήματος μετα-συνθέτης. Η εφαρμογή επίδειξης παρέχει στο χρήστη τη δυνατότητα να ελέγξει στις προαναφερθείσες πηγές αν ένα Σημείο Πρόσβασης υποστηρίζεται (δεν απαιτείται αντικατάσταση). Σε διαφορετική περίπτωση ο χρήστης μπορεί να δει τις δυνατές τακτικές αντικατάστασης καθώς επίσης ποια είναι η καλύτερη αντικατάσταση με βάση προεπιλογές ανάκλησης και ακρίβειας.

145 Κεφάλαιο Εικόνα 5.8. Υπηρεσία ανοικτής πρόσβασης στο Σημασιολογικό Δίκτυο Σημείων Πρόσβασης. Εναλλακτικά η πρόσβαση στο Σημασιολογικό Δίκτυο Σημείων Πρόσβασης είναι δυνατό να πραγματοποιηθεί με τη χρήση μια δεύτερης υπηρεσίας που χρησιμοποιεί το αίτημα GET του http πρωτοκόλλου. Η απόκριση της υπηρεσίας είναι μια εγγραφή σε γλώσσα XML (εικόνα 5.9), η οποία περιέχει όλη τη σχετική πληροφορία από τη διαδικασία αντικατάστασης. Στην εικόνα 5.9 παρουσιάζεται η απάντηση της υπηρεσίας για την κατάσταση του Σημείου Πρόσβασης Author-TitleSubject στην πηγή της Library of Congress, η οποία αιτήθηκε με το GET: z3950.loc.gov:7090/voyager&substitution_method=all. _1036&host[]=

146 Κεφάλαιο Εικόνα 5.9. Απόκριση σε μορφή XML της υπηρεσίας Σημασιολογικού Δικτύου Σημείων Πρόσβασης. Είναι εύλογο ότι η χρήση της πρόσβασης με αιτήματα GET του http πρωτοκόλλου στοχεύει στη δυνατότητα πρόσβασης και στην αξιοποίηση της υπηρεσίας και από άλλα συστήματα μετα-αναζήτησης. Επιπροσθέτως, μελλοντικές επεκτάσεις της υπηρεσίας είναι δυνατό να περιλαμβάνουν τον εμπλουτισμό της με χαρακτηριστικά αναζήτησης Z39.50 πηγών και την αυτόματη διασύνδεσή της με άλλα αποθετήρια χαρακτηριστικών αναζήτησης. Ένα ενδεικτικό αποθετήριο χαρακτηριστικών αναζήτησης, είναι ο κατάλογος The Z39.50 Target Directory 28 της Index Data29 που περιλαμβάνει περιγραφές με χαρακτηριστικά υλοποίησης για ένα μεγάλο αριθμό Z39.50 πηγών από όλο τον κόσμο και ο οποίος διατίθεται από την υπηρεσία ανοικτής πρόσβασης IRSpy με τη χρήση του πρωτοκόλλου SRU/W. 5.4 Σύνοψη Η χρήση σημασιολογίας στις διαδικασίες μετεγγραφής επερωτήσεων είναι δυνατό να

147 Κεφάλαιο βελτιώσει σημαντικά την αποδοτικότητα ενός συστήματος μετα-αναζήτησης, ελαχιστοποιώντας τις επιπτώσεις από τις αποτυχημένες επερωτήσεις ή τις ασυνεπείς απαντήσεις που προκύπτουν από τα μη υποστηριζόμενα Σημεία Πρόσβασης. Η αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης γίνεται με δύο τακτικές, αξιοποιώντας τις σημασιολογικές συσχετίσεις τους που εκφράζει το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης. Το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης εκφράζει σε ένα RDFS γράφο τις συσχετίσεις των Σημείων Πρόσβασης που ορίζει το Z39.50 Bib-1 Σύνολο Γνωρισμάτων. Η συσχέτιση των Σημείων Πρόσβασης περιγράφεται με τη σχέση υποσυνόλου που έχουν μεταξύ τους τα αντίστοιχα σύνολα μεταδεδομένων, τα οποία ορίζουν τη σημασιολογία τους. Ανιχνεύοντας την ομοιότητα των Σημείων Πρόσβασης από το Bib-1 RDF Schema, η αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης είναι δυνατό να γίνει με διεύρυνση ή εναλλακτικά με σύμπτυξη της σημασιολογίας των μη υποστηριζόμενων Σημείων Πρόσβασης. Ειδικότερα, η αντικατάσταση με διεύρυνση δημιουργεί το μικρότερο σύνολο από υποστηριζόμενα Σημεία Πρόσβασης, των οποίων η λογική σύζευξη έχει τη μικρότερη διευρυμένη σημασιολογία από το αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης. Τα Σημεία Πρόσβασης που επιλέγονται είναι οι κοντινότεροι πρόγονοι του Σημείου Πρόσβασης που υποστηρίζει η πηγή από κάθε μονοπάτι ιεραρχίας προγόνων το οποίο αρχίζει από το μη υποστηριζόμενο Σημείο Πρόσβασης. Αντίστοιχα, η αντικατάσταση με σύμπτυξη δημιουργεί το μικρότερο σύνολο από υποστηριζόμενα Σημεία Πρόσβασης, των οποίων η λογική διάζευξη έχει τη μεγαλύτερη συμπτυγμένη σημασιολογία από το μη υποστηριζόμενο Σημείο Πρόσβασης. Τα Σημεία Πρόσβασης που επιλέγονται είναι οι κοντινότεροι απόγονοι του Σημείου Πρόσβασης που υποστηρίζει η πηγή από κάθε μονοπάτι ιεραρχίας απογόνων, το οποίο αρχίζει από το μη υποστηριζόμενο Σημείο Πρόσβασης. Η αντικατάσταση με διεύρυνση μειώνει την ακρίβεια της απάντησης χωρίς να επηρεάζει την ανάκληση, ενώ αντίθετα η αντικατάσταση με σύμπτυξη μειώνει την ανάκληση χωρίς να επηρεάζει την ακρίβεια. Για κάθε τακτική αντικατάστασης προσδιορίζονται τα κριτήρια μέτρησης και αποτίμησης της μεταβολής της ακρίβειας και της ανάκλησης, ενώ χρησιμοποιείται η μετρική F-measure με χρήση σταθεράς στάθμισης για να προσδιορίσει τη βέλτιστη αντικατάσταση, σύμφωνα με προεπιλογές

148 Κεφάλαιο ακρίβειας και ανάκλησης. Επιπροσθέτως, η λειτουργικότητα του Σημασιολογικού Δικτύου Σημείων Πρόσβασης και των τακτικών αντικατάστασης είναι διαθέσιμη σαν υπηρεσία ανοικτής πρόσβασης με τεχνολογίες του παγκόσμιου ιστού με δύο εναλλακτικούς τρόπους. Ο πρώτος τρόπος αφορά την επίδειξη των τακτικών αντικατάστασης με την αξιοποίηση του Bib-1 RDFS γράφου και είναι μία εφαρμογή του παγκόσμιου ιστού, ενώ εναλλακτικά ο δεύτερος τρόπος στοχεύει στο να είναι δυνατή η πρόσβαση και η αξιοποίηση της υπηρεσίας και από άλλα συστήματα χρησιμοποιώντας άμεσα το αίτημα GET του http πρωτοκόλλου. μετα-αναζήτησης,

149 Κεφάλαιο 6 μετα-συνθέτης Ο μετα-συνθέτης είναι το σύστημα μετα-αναζήτησης, το οποίο υλοποιεί τα κυριότερα από τα χαρακτηριστικά που προτάθηκαν και αναλύθηκαν στα προηγούμενα κεφάλαια της παρούσας διατριβής. Ειδικότερα, η υλοποίηση περιλαμβάνει προτάσεις που έγιναν από όλα τα επίπεδα διαδικασιών της μετα-αναζήτησης και σχετίζονται με: την αρχιτεκτονική του εικονικού συλλογικού καταλόγου που αναλύθηκε στο κεφάλαιο 3, τις διαδικασίες αντικατάστασης μη υποστηριζόμενων Σημείων Πρόσβασης του κεφαλαίου 5, καθώς επίσης και τη σύνθεση των αποτελεσμάτων σε Έργο-κεντρικές συστάδες σύμφωνα με το μοντέλο FRBR που αναλύθηκε στο κεφάλαιο 2. Η υλοποίηση του μετα-συνθέτη αποσκοπεί αφενός στον έλεγχο και την επιβεβαίωση των προτάσεων της παρούσας διατριβής, αφετέρου στο να αποτελέσει ένα περιβάλλον ευρύτερου πειραματισμού σε ιδέες και προτάσεις που αφορούν την ανάπτυξη των συστημάτων μετα-αναζήτησης. Η παρούσα εκδοχή του μετα-συνθέτη30, η οποία είναι διαθέσιμη στη διεύθυνση είναι διαμορφωμένη στο περιβάλλον του Z Μια προγενέστερη υλοποίηση μέρους των λειτουργιών του μετα-συνθέτη γίνεται και από την εφαρμογή zsapn ( η οποία επίσης αναπτύχθηκε κατά την εκπόνηση της παρούσας διατριβής. 130

150 Κεφάλαιο και αναζητά αντιπροσωπευτικές κατηγορίες πηγών με μεγάλο αριθμό εγγραφών που παρουσιάζουν παγκόσμιο ενδιαφέρον. Ειδικότερα, οι πηγές που αναζητούνται είναι: ο κατάλογος της Library of Congress (ΗΠΑ), ο κατάλογος Library and Archives Canada (Καναδάς), ο συλλογικός κατάλογος MELVYL (ΗΠΑ), ο συλλογικός κατάλογος COPAC Academic & National Library Catalogue (Ηνωμένο Βασίλειο), ο Συλλογικός Κατάλογος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών και ο κατάλογος του Πανεπιστημίου Κρήτης. Η εισαγωγή νέων πηγών στο σύστημα, καθώς επίσης η ενημέρωση των ήδη υπαρχόντων, γίνεται από το διαχειριστή του συστήματος. Στη συνέχεια του κεφαλαίου παρουσιάζεται η αρχιτεκτονική του μετασυνθέτη, με έμφαση στην αλληλεπίδραση και ολοκλήρωση των επιμέρους υποσυστημάτων που συνθέτουν το σύστημα. Επιπροσθέτως, παρουσιάζεται η υλοποίηση του μετεγγραφέα Σημασιολογικού Δικτύου Σημείων Πρόσβασης, ο οποίος διαχειρίζεται το σημασιολογικό γράφο συσχέτισης και υλοποιεί τους αλγορίθμους αντικατάστασης. Το κεφάλαιο ολοκληρώνεται με την περιγραφή της σύνθεσης των FRBR Έργο-κεντρικών συστάδων για την παρουσίαση των αποτελεσμάτων στο χρήστη. 6.1 Αρχιτεκτονική συστήματος μετα-συνθέτης Το σύστημα μετα-συνθέτης είναι η ολοκλήρωση τριών διαφορετικών ανοικτών συστημάτων. Το πρώτο συστατικό σύστημα είναι το pazpar231, το οποίο είναι λογισμικό ανοικτού κώδικα και αποτελεί τη βασική πλατφόρμα ανάπτυξης, τόσο για το λογισμικό που λειτουργεί στο διακομιστή, όσο και για αυτό που λειτουργεί στους σταθμούς εργασίας. Το δεύτερο σύστημα είναι ο μετεγγραφέας επερωτήσεων του Σημασιολογικού Δικτύου Σημείων Πρόσβασης, το οποίο αντικαθιστά τα μη υποστηριζόμενα Σημεία Πρόσβασης μιας πηγής με άλλα που υποστηρίζει. Το τελευταίο σύστημα αποτελείται από ένα σύνολο εφαρμογών περιβλήματος (wrappers) σε γλώσσα XSLT, οι οποίες επεκτείνουν και ενσωματώνουν στο σύστημα τις 31

151 Κεφάλαιο λειτουργίες του εργαλείου FRBR display tool που ανέπτυξε η Library of Congress pazpar2 Το pazpar2 είναι ένα σύγχρονο σύστημα μετα-αναζήτησης το οποίο αναπτύχθηκε και διατίθεται από την Index Data32 ως λογισμικό ανοικτού κώδικα. Το συγκεκριμένο λογισμικό επιλέχθηκε ως το βασικό σύστημα που επεκτάθηκε για να ενσωματώσει τις προτάσεις και τα συστήματα που αναπτύχθηκαν από την παρούσα διατριβή, διότι τα χαρακτηριστικά του προσιδιάζουν κατά ένα μέρος στον τρόπο λειτουργίας και τις διαδικασίες του εικονικού συλλογικού καταλόγου που αναπτύχθηκαν στο κεφάλαιο 3. Αναλυτικότερα, το pazpar2 μέσα από μία απλή και ευέλικτη διεπαφή ανάπτυξης εφαρμογών (API) με τεχνολογίες υπηρεσιών του παγκόσμιου ιστού προσομοιώνει ασύγχρονη λειτουργικότητα μετα-αναζήτησης, καθώς επίσης παρουσιάζει αποτελέσματα άμεσα στο χρήστη. Αποτελείται από μία εφαρμογή ενδιάμεσου (mediator), ο οποίος λειτουργεί ως πελάτης στις πηγές, καθώς επίσης από ένα πρωτότυπο εφαρμογής πελάτη σε γλώσσα javascript. Στην παρούσα ενότητα γίνεται αναφορά των χαρακτηριστικών του pazpar2, τα οποία απαιτούνται για την κατανόηση της ανάπτυξης του μετα-συνθέτη. Για την πλήρη περιγραφή του pazpar2 αναφέρονται τα τεκμήρια (Index Data, 2008; Dorman, 2008). Η εφαρμογή ενδιάμεσου του pazpar2 είναι ένα ευέλικτο και εύκολα παραμετροποιήσιμο, μικρό, αυτόνομο πακέτο λογισμικού, πλήρως συμβατό με τα πρωτόκολλα Z39.50 και SRU/SRW, ανεπτυγμένο με τη γλώσσα προγραμματισμού C. Τα αρχεία διαμόρφωσής του, τα οποία είναι γραμμένα σε γλώσσα XML, δίνουν τη δυνατότητα ορισμού του εσωτερικού μοντέλου αναπαράστασης των δεδομένων, των κανόνων διαχείρισης και μετατροπής των εισερχόμενων εγγραφών, καθώς επίσης και των λοιπών στοιχείων που απαιτεί η επικοινωνία με τις πηγές. Η πλειοψηφία των μετασχηματισμών των δεδομένων που εκτελεί εσωτερικά το σύστημα διαμορφώνεται και γίνεται με XSLT προγράμματα (stylesheets). Κύριο χαρακτηριστικό της υπηρεσίας ανάκτησης του pazpar2 είναι η δυνατότητα που έχει να παρουσιάζει στο χρήστη άμεσα αποτελέσματα, μόλις έχουν παραληφτεί και επεξεργαστεί, χωρίς να περιμένει να απαντήσουν όλες οι πηγές. Κατά 32

152 Κεφάλαιο συνέπεια, ο χρόνος για την παρουσίαση των πρώτων αποτελεσμάτων είναι συνάρτηση της γρηγορότερης πηγής. Όπως έχει αναφερθεί στο κεφάλαιο 2, η άμεση και προοδευτική παρουσίαση των αποτελεσμάτων βελτιώνει την αίσθηση του χρήστη για την απόκριση του συστήματος, μειώνει τις επιπτώσεις στην απόδοση του συστήματος από τις αργές πηγές και από τα πιθανά σφάλματα των τοπικών συστημάτων, καθώς επίσης αυξάνει το διαθέσιμο χρόνο για την επεξεργασία των δεδομένων. Για την υλοποίηση των προτάσεων που αναπτύχθηκαν από την παρούσα διατριβή, οι κυριότερες επεκτάσεις που έγιναν στο pazpar2, οι οποίες αναλύονται στις παρακάτω ενότητες, συνίστανται στην ενσωμάτωση: Του μετεγγραφέα Σημασιολογικού Δικτύου Σημείων Πρόσβασης ο οποίος διαχειρίζεται το σημασιολογικό γράφο συσχέτισης και υλοποιεί τους αλγορίθμους αντικατάστασης. Της σύνθεσης των FRBR Έργο-κεντρικών συστάδων. Η υπηρεσία ανάκτησης, όπως δείχνει η εικόνα 6.2, ζητά σταδιακά για επεξεργασία μικρά πακέτα εγγραφών από κάθε πηγή. Ο επεξεργαστής αποτελεσμάτων εφαρμόζει μία σειρά από XSLT προγράμματα σε κάθε εγγραφή που παραλαμβάνει ανάλογα με τη δομή των δεδομένων κάθε πηγής, έτσι ώστε: (i) να δημιουργήσει τους κωδικούς ταυτοποίησης των οντοτήτων που περιέχει κάθε εγγραφή, (ii) να μετατρέψει την εγγραφή από τη διάταξη της πηγής στην εσωτερική διάταξη του συστήματος και (iii) να ταιριάζει την εγγραφή με τις υπάρχουσες συστάδες, οπότε είτε το προσθέτει σε μία υπάρχουσα αν ταιριάζει, διαφορετικά δημιουργεί μια νέα συστάδα για αυτήν Μετεγγραφέας επερωτήσεων Σημασιολογικού Δικτύου Σημείων Πρόσβασης (ΣηΔιΣηΠ) Η μονάδα λογισμικού που αναπτύχθηκε για να υλοποιήσει το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης, η δομή του οποίου απεικονίζεται στην εικόνα 6.1, χρησιμοποιεί το λογισμικό ανοικτού κώδικα RDFSuite33, το οποίο αναπτύχθηκε από το Ινστιτούτο Πληροφορικής του Ιδρύματος Τεχνολογίας και Έρευνας. Η εισαγωγή του RDFS σημασιολογικού γράφου συσχετίσεων των Σημείων Πρόσβασης γίνεται από το 33

153 Κεφάλαιο υποσύστημα RSSDB της RDFSSuite, ενώ η αξιοποίηση του γράφου γίνεται με την γλώσσα επερωτήσεων για RDF βάσεις δεδομένων RQL (Karvounarakis et al., 2002). Η μονάδα αντικατάστασης Σημείων Πρόσβασης υλοποιεί τους αλγορίθμους αντικατάστασης που περιγράφηκαν στην ενότητα Η υλοποίηση της μονάδας έχει γίνει σε γλώσσα C++ με ενσωματωμένες κλήσεις της γλώσσας επερωτήσεων RQL. Επιπροσθέτως, για την υπηρεσία της ανοικτής πρόσβασης στο Σημασιολογικό Δίκτυο Σημείων Πρόσβασης με τεχνολογίες του παγκόσμιου ιστού, που περιγράφτηκε στην ενότητα 5.3, αναπτύχθηκε μία εφαρμογή κέλυφος (wrapper) της μονάδας αντικατάστασης σε γλώσσα PHP. Εικόνα 6.1. Αρχιτεκτονική μονάδας ελέγχου και αντικατάστασης Σημείων Πρόσβασης Ολοκλήρωση υποσυστημάτων Το λογισμικό του μετα-συνθέτη που λειτουργεί στους σταθμούς εργασίας είναι μία ελαφριά εφαρμογή πελάτη γραμμένη σε γλώσσα javascript, η οποία ουσιαστικά είναι μια επέκταση της javascript εφαρμογής πελάτη που χρησιμοποιεί το σύστημα pazpar2 για την ανάπτυξη εφαρμογών διεπαφής. Η εφαρμογή για να λειτουργήσει

154 Κεφάλαιο απαιτεί στο σταθμό εργασίας να υπάρχει μόνο ένα σύγχρονο λογισμικό πλοήγησης του παγκόσμιου ιστού. Κατά συνέπεια, το υποσύστημα του σταθμού εργασίας είναι αρκετά ευέλικτο, καθώς επίσης είναι εύκολα προσαρμόσιμο και επεκτάσιμο σε τυχόν μελλοντικές απαιτήσεις. Η εικόνα 6.2 αναπαριστά μία συνοπτική περιγραφή του συστήματος η οποία περιλαμβάνει μόνο τα απαραίτητα συστατικά που απαιτούνται για να αποσαφηνιστεί η λειτουργία του μετα-συνθέτη, εστιάζοντας στον τρόπο ολοκλήρωσης των επιμέρους συστατικών για την ανάπτυξη του συστήματος. Εικόνα 6.2. Αρχιτεκτονική μετα-συνθέτη. Όταν ο χρήστης υποβάλει μία επερώτηση από το λογισμικό που λειτουργεί στο σταθμό εργασίας του (εφαρμογή πελάτη), η εφαρμογή πελάτη προωθεί το αίτημα στον ενδιάμεσο και αναμένει την απάντηση. Στις παραμέτρους που συνοδεύουν την επερώτηση περιλαμβάνεται και η προτίμηση του χρήστη για την πιθανή μεταβολή της ανάκλησης και της ακρίβειας. Η τιμή αυτή κατευθύνει το υποσύστημα μετεγγραφής επερωτήσεων του Σημασιολογικού Δικτύου Σημείων Πρόσβασης (ΣηΔιΣηΠ) πώς να

155 Κεφάλαιο σταθμίσει την ταξινομική ανάκληση και ακρίβεια ώστε να επιλέξει την κατάλληλη τακτική αντικατάστασης. Η εξορισμού τιμή της παραμέτρου σταθμίζει ισοδύναμα την ανάκληση και την ακρίβεια, ενώ είναι δυνατό να μεταβληθεί είτε από τις λειτουργίες ΣηΔιΣηΠ προεπιλογές ή Έλεγχος Επερώτησης. Η υπηρεσία αναζήτησης του ενδιάμεσου αρχικά ελέγχει την ορθότητα της επερώτησης και στη συνέχεια, πριν την προωθήσει στις πηγές, ζητά από το μετεγγραφέα επερωτήσεων ΣηΔιΣηΠ να ελέγξει και να μετεγγράψει κατάλληλα την επερώτηση. Ο μετεγγραφέας επερωτήσεων ΣηΔιΣηΠ αναλύει την επερώτηση και προωθεί κάθε Σημείο Πρόσβασης που περιέχει, μαζί με τον κωδικό ταυτοποίησης της πηγής, στην υπηρεσία ΣηΔιΣηΠ. Μόλις λάβει τα αποτελέσματα για τα Σημεία Πρόσβασης, αντικαθιστά κάθε μη υποστηριζόμενο Σημείο Πρόσβασης συνδυάζοντας τις εφικτές αντικαταστάσεις με την παράμετρο στάθμισης για την ανάκληση και την ακρίβεια. Όπως έχει αναλυθεί, ανάλογα με την τακτική αντικατάστασης ένα Σημείο Πρόσβασης είναι δυνατόν να αντικατασταθεί με το λογικό συνδυασμό AND ή OR άλλων υποστηριζόμενων Σημείων Πρόσβασης. Για κάθε πηγή είναι δυνατόν να προκύψει διαφορετική μετεγγραφή, ανάλογα με τα Σημεία Πρόσβασης που υποστηρίζει. Εάν η αναζήτηση είναι επιτυχής, ο ενδιάμεσος ενεργοποιεί τη διαδικασία ανάκτησης, διαφορετικά ο ενδιάμεσος ενημερώνει το χρήστη στέλνοντας ταυτόχρονα το σχετικό μήνυμα. Είναι άξιο αναφοράς ότι το pazpar2 προωθεί την επερώτηση στις πηγές και επιστρέφει μερικά αποτελέσματα στο χρήστη μόλις συντεθούν οι πρώτες συστάδες από την επεξεργασία των αποτελεσμάτων, χωρίς να περιμένει να ολοκληρωθούν οι αναζητήσεις από όλες τις πηγές. Επιπροσθέτως, λόγω του ότι τα XSLT προγράμματα του μετα-συνθέτη συνθέτουν κωδικούς (κλειδιά) ταυτοποίησης FRBR οντοτήτων Έργων, οι συστάδες που δημιουργεί το pazpar2, χρησιμοποιώντας αυτούς τους κωδικούς στις ενσωματωμένες διαδικασίες σύνθεσης συστάδων, ουσιαστικά αντιστοιχούν σε Έργο-κεντρικές συστάδες. Η περαιτέρω διαδικασία ιεραρχικής ομαδοποίησης κάθε συστάδας σε Εκφράσεις και Εκδηλώσεις γίνεται στο σταθμό εργασίας του χρήστη κατά τη διαδικασία παρουσίασης των αποτελεσμάτων και εφόσον ζητηθεί αναλυτική παρουσίαση της συστάδας. Η υπηρεσία Σημασιολογικού Δικτύου Σημείων Πρόσβασης (ΣηΔιΣηΠ)

156 Κεφάλαιο παραθέτει στο μετεγγραφέα ΣηΔιΣηΠ όλες τις εφικτές αντικαταστάσεις για κάθε Σημείο Πρόσβασης. Επιπλέον, η ίδια υπηρεσία είναι άμεσα προσβάσιμη από την εφαρμογή του πελάτη χρησιμοποιώντας τη λειτουργία Έλεγχος Επερώτησης. Η λειτουργία του Ελέγχου Επερώτησης δίνει τη δυνατότητα στο χρήστη, πριν στείλει το αίτημα αναζήτησης, να ελέγξει ποια από τα Σημεία Πρόσβασης της επερώτησης υποστηρίζει κάθε πηγή, αποφεύγοντας ανεπιθύμητες αντικαταστάσεις ή, διαφορετικά, να ενημερωθεί για τις εναλλακτικές αντικαταστάσεις που προκύπτουν σταθμίζοντας διαφορετικά την ανάκληση και την ακρίβεια. Για έναν έμπειρο χρήστη, η λειτουργία Ελέγχου Επερώτησης είναι δυνατό να είναι αρκετά χρήσιμη στην έκφραση εξειδικευμένων επερωτήσεων, χωρίς να επιβαρύνει τη λειτουργία του ενδιάμεσου με άσκοπες επερωτήσεις Χρησιμοποιώντας το μετα-συνθέτη Εικόνα 6.3. Διεπαφή αναζήτησης. Στην εικόνα 6.3 παρουσιάζεται η αρχική σελίδα του μετα-συνθέτη, η οποία είναι ταυτόχρονα και η σελίδα αναζήτησης παρέχοντας δύο εναλλακτικές διεπαφές (απλή και σύνθετη). Και στις δύο διεπαφές, ο χρήστης έχει τη δυνατότητα να συσχετίσει τους όρους αναζήτησης με ένα από τα διαθέσιμα Σημεία Πρόσβασης του Bib-1 Συνόλου Γνωρισμάτων. Η διεπαφή σύνθετης αναζήτησης παρέχει τη δυνατότητα για σύνταξη επερωτήσεων με λογικούς συνδυασμούς AND και OR ζευγαριών όρων αναζήτησης και Σημείων Πρόσβασης. Κατά συνέπεια εξειδικευμένες επερωτήσεις

157 Κεφάλαιο είναι δυνατό να συνταχθούν είτε με εξειδικευμένα Σημεία Πρόσβασης, είτε με λογικούς συνδυασμούς ζευγαριών [όρος αναζήτησης, Σημείο Πρόσβασης]. Από το μενού παράμετροι αντικατάστασης (substitution options), εικόνα 6.3, ορίζεται η προεπιλογή για τη στάθμιση των μεγεθών ανάκτησης και ακρίβειας από την υπηρεσία μετεγγραφής ΣηΔιΣηΠ. Ουσιαστικά, καθορίζεται η τιμή της σταθεράς στάθμισης της μετρικής F-measure, η οποία χρησιμοποιείται κατά τη διαδικασία αναζήτησης ή κατά τη διαδικασία ελέγχου μια επερώτησης από το χρήστη, πριν από το αίτημα αναζήτησης. Εικόνα 6.4. Διεπαφή χρήσης Σημασιολογικού Δικτύου Σημείων Πρόσβασης (ΣηΔιΣηΠ), προεπιλογές στάθμισης ανάκλησης και ακρίβειας, εφικτές τακτικές αντικατάστασης και προτεινόμενη αντικατάσταση. Ο σύνδεσμος Test Query ενεργοποιεί τη διαδικασία που ελέγχει ποια είναι τα υποστηριζόμενα και ποια είναι τα μη υποστηριζόμενα Σημεία Πρόσβασης σε μια επερώτηση. Επιπροσθέτως, για κάθε Σημείο Πρόσβασης παρουσιάζει τις εφικτές αντικαταστάσεις του σε κάθε πηγή, καθώς επίσης προτείνει τη βέλτιστη αντικατάσταση με βάση την προεπιλογή στάθμισης για την ανάκληση και την ακρίβεια. Μια ένδειξη για τα αποτελέσματα της λειτουργίας παρουσιάζεται στην

158 Κεφάλαιο εικόνα 6.4. Από το μενού Sources Search Activity παρέχονται πληροφορίες σχετικές με την τρέχουσα κατάσταση (σε αναζήτηση, σε αναμονή, σε λάθος, κλπ.) των πηγών που συμμετέχουν στο σύστημα, τα αποτελέσματα αναζήτησης κάθε πηγής, καθώς επίσης και πόσα από αυτά έχουν ανακτηθεί. Τα αποτελέσματα αυτά είναι ορατά τόσο κατά τη διαδικασία αναζήτησης και ανάκτησης, όσο και οποιαδήποτε άλλη στιγμή μετά την ολοκλήρωσή τους. Επιπλέον, όπως συμβαίνει σε κάθε σύστημα μετα-αναζήτησης υπάρχει ένας περιορισμός σχετικά με το μέγιστο αριθμό των εγγραφών που θα ανακτηθούν από κάθε πηγή. Στο μετα-συνθέτη ο μέγιστος αριθμός των αριθμών που θα ανακτηθούν από κάθε πηγή είναι 200, ο οποίος συνδυάζεται με τον αντίστοιχο περιορισμό κάθε πηγής. Εικόνα 6.5. Διεπαφή ανάκτησης. Μετά την προώθηση της επερώτησης, όπως έχει προαναφερθεί, ενεργοποιείται η διαδικασία ανάκτησης και αρχίζουν να έρχονται αποτελέσματα μόλις ολοκληρωθεί η διαδικασία αναζήτησης από τη γρηγορότερη πηγή. Από τα αποτελέσματα αυτά αρχίζουν να δημιουργούνται οι πρώτες συστάδες, οι οποίες

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών Εργαστήριο Ψηφιακών Βιβλιοθηκών και Ηλεκτρονικής Δημοσίευσης Τμήμα Αρχειονομίας Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών Σαράντος Καπιδάκης sarantos@ionio.gr Ομοιότητες

Διαβάστε περισσότερα

Συλλογικοί Κατάλογοι & Διαδίκτυο

Συλλογικοί Κατάλογοι & Διαδίκτυο Συλλογικοί Κατάλογοι & Διαδίκτυο Μιχάλης Σφακάκης 1 Συλλογικοί Κατάλογοι & Διαδίκτυο * Συλλογικοί Κατάλογοι > Δίνουν συνεκτική πρόσβαση στο περιεχόμενο των βιβλιοθηκών από ένα κεντρικό σημείο Διαδίκτυο

Διαβάστε περισσότερα

Μιχάλης Σφακάκης και Σαράντος Καπιδάκης

Μιχάλης Σφακάκης και Σαράντος Καπιδάκης Ενισχύοντας σηµασιολογικά τις διαδικασίες αναζήτησης σε ένα περιβάλλον µετα-αναζήτησης Enabling search semantics in the library meta-search environments Μιχάλης Σφακάκης και Σαράντος Καπιδάκης Τµήµα Αρχειονοµίας

Διαβάστε περισσότερα

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας-Βιβλιοθηκονοµίας Μεταπτυχιακό Πρόγραµµα Σπουδών2007-2008 ιδάσκουσα: Κατερίνα Τοράκη (Οι διαλέξεις περιλαµβάνουν

Διαβάστε περισσότερα

Εννοιολογική Ομοιογένεια

Εννοιολογική Ομοιογένεια Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας Βιβλιοθηκονομίας Εργαστήριο Ψηφιακών Βιβλιοθηκών και Ηλεκτρονικής Δημοσίευσης Εννοιολογική Ομοιογένεια Αξιοποίηση Ταξινομικών Συστημάτων Γεωργία Προκοπιάδου, Διονύσης

Διαβάστε περισσότερα

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 6 195 Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων Το RDF Το Warwick Framework 196 1 Resource Data Framework RDF Τα πολλαπλά και πολλαπλής προέλευσης σχήµατα παραγωγής δηµιουργούν την ανάγκη δηµιουργίας

Διαβάστε περισσότερα

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Λίνα Μπουντούρη - Μανόλης Γεργατσούλης Ιόνιο Πανεπιστήμιο 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών Διαδίκτυο και Επίπεδα ετερογένειας δεδομένων

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Ψηφιακά Αποθετήρια: Η Ελληνική Πραγματικότητα

Ψηφιακά Αποθετήρια: Η Ελληνική Πραγματικότητα ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Ψηφιακά Αποθετήρια: Η Ελληνική Πραγματικότητα Μάρα Νικολαΐδου Αναπληρώτρια Καθηγήτρια Τμήμα Πληροφορικής και Τηλεματικής Διεθνές Συνέδριο Υποδομές Ανοικτής Πρόσβασης Εθνικό Ίδρυμα

Διαβάστε περισσότερα

Υπηρεσίες Υποστήριξης, Δικτύωσης, Προδιαγραφών & Πιστοποίησης Ιδρυματικών Αποθετηρίων

Υπηρεσίες Υποστήριξης, Δικτύωσης, Προδιαγραφών & Πιστοποίησης Ιδρυματικών Αποθετηρίων Υπηρεσίες Υποστήριξης, Δικτύωσης, Προδιαγραφών & Πιστοποίησης Ιδρυματικών Αποθετηρίων Δημήτρης Σπανός Εθνικό Μετσόβιο Πολυτεχνείο Σύνδεσμος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών Στόχοι 1. Λειτουργικές και

Διαβάστε περισσότερα

Εκλογή Καθηγητή στο Τμήμα Αρχειονομίας, Βιβλιοθηκονομίας και Μουσειολογίας, στο γνωστικό αντικείμενο «Πληροφοριακά Συστήματα Βιβλιοθηκών και Αρχείων».

Εκλογή Καθηγητή στο Τμήμα Αρχειονομίας, Βιβλιοθηκονομίας και Μουσειολογίας, στο γνωστικό αντικείμενο «Πληροφοριακά Συστήματα Βιβλιοθηκών και Αρχείων». Εκλογή Καθηγητή στο Τμήμα Αρχειονομίας, Βιβλιοθηκονομίας και Μουσειολογίας, στο γνωστικό αντικείμενο «Πληροφοριακά Συστήματα Βιβλιοθηκών και Αρχείων». Με την υπ αριθμ. υπ αριθμ. ΣΕΠΠ/1671/9-5-2014 Πράξη

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη

Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη 19ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών, 3-5 Νοεμβρίου 2010, Αθήνα Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη Άννα Μάστορα (1) Μαρία Μονόπωλη (2) Σαράντος Καπιδάκης

Διαβάστε περισσότερα

Ιόνιο Πανεπιστήμιο - Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας

Ιόνιο Πανεπιστήμιο - Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Μεταδεδομένα για Ψηφιακές Βιβλιοθήκες Γ. Δ. Μπώκος Μεταδεδομένα: Ο όρος Μεταδεδομένα: «Δεδομένα σχετικά με Δεδομένα» Αναλυτικότερα: «Το σύνολο όσων θα μπορούσε να πει κανείς για ένα πληροφοριακό αντικείμενο

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή Εργασία Η ΕΠΑΓΓΕΛΜΑΤΙΚΗ ΕΞΟΥΘΕΝΩΣΗ ΠΟΥ ΒΙΩΝΕΙ ΤΟ ΝΟΣΗΛΕΥΤΙΚΟ ΠΡΟΣΩΠΙΚΟ ΣΤΙΣ ΜΟΝΑΔΕΣ ΕΝΑΤΙΚΗΣ ΘΕΡΑΠΕΙΑΣ Άντρη Αγαθαγγέλου Λεμεσός 2012 i ΤΕΧΝΟΛΟΓΙΚΟ

Διαβάστε περισσότερα

Αν σας ενδιαφέρει κάποιο θέμα, δείτε τη σχετική βιβλιογραφία και στείλτε μου για να συναντηθούμε και να το συζητήσουμε.

Αν σας ενδιαφέρει κάποιο θέμα, δείτε τη σχετική βιβλιογραφία και στείλτε μου  για να συναντηθούμε και να το συζητήσουμε. Πτυχιακές και Διπλωματικές Εργασίες για τους προπτυχιακούς και μεταπτυχιακούς φοιτητές του Τμήματος Πληροφορικής και Τηλεπικοινωνιών Ακαδημαϊκό Έτος 2008-2009 Αναπληρωτής Καθηγητής Μανόλης Κουμπαράκης

Διαβάστε περισσότερα

Περιοδικών και του Συλλογικού Καταλόγου Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών. Αθήνα, Μάιος 2007

Περιοδικών και του Συλλογικού Καταλόγου Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών. Αθήνα, Μάιος 2007 Κεντρική Μηχανή Μετααναζήτησης των Ηλεκτρονικών Περιοδικών και του Συλλογικού Καταλόγου Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών Κλωντίνη Ξενίδου- έρβου Καλλιόπη Φλώρου Λεωνίδας Πισπιρίγγας HEAL-Link Search 1

Διαβάστε περισσότερα

ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ

ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ Σχολή Μηχανικής και Τεχνολογίας Πτυχιακή εργασία ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ Ηλίας Κωνσταντίνου Λεμεσός,

Διαβάστε περισσότερα

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων Έργο: Τίτλος Υποέργου: «ΘΑΛΗΣ: Ενίσχυση της Διεπιστημονικής ή και Διιδρυματικής έρευνας και καινοτομίας με δυνατότητα προσέλκυσης ερευνητών υψηλού επιπέδου από το εξωτερικό μέσω της διενέργειας βασικής

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. Σαράντος Καπιδάκης

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. Σαράντος Καπιδάκης ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Σαράντος Καπιδάκης 0_CONT_Ω.indd iii τίτλος: ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ συγγραφέας: Καπιδάκης Σαράντος 2014 Εκδόσεις Δίσιγμα Για την ελληνική γλώσσα σε όλον τον

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΑΠΟΔΟΣΗΣ ΠΡΟΣΩΠΙΚΟΥ: ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ ΙΔΙΩΤΙΚΟΥ ΝΟΣΟΚΟΜΕΙΟΥ ΠΑΡΑΓΙΟΥΔΑΚΗ ΜΑΓΔΑΛΗΝΗ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΑΠΟΔΟΣΗΣ ΠΡΟΣΩΠΙΚΟΥ: ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ ΙΔΙΩΤΙΚΟΥ ΝΟΣΟΚΟΜΕΙΟΥ ΠΑΡΑΓΙΟΥΔΑΚΗ ΜΑΓΔΑΛΗΝΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΑΠΟΔΟΣΗΣ ΠΡΟΣΩΠΙΚΟΥ: ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ ΙΔΙΩΤΙΚΟΥ ΝΟΣΟΚΟΜΕΙΟΥ ΠΑΡΑΓΙΟΥΔΑΚΗ ΜΑΓΔΑΛΗΝΗ Διπλωματική

Διαβάστε περισσότερα

Θέμα: Παχυσαρκία και κύηση:

Θέμα: Παχυσαρκία και κύηση: ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜ Α ΝΟΣΗΛΕΥΤΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Θέμα: Παχυσαρκία και κύηση: επιπτώσεις στην έκβαση της κύησης και στο έμβρυο Ονοματεπώνυμο: Στέλλα Ριαλά Αριθμός

Διαβάστε περισσότερα

Μάθηµα 6. Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Μάθηµα 6. Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας Μάθηµα 6 122 Μεταδεδοµένα: : Η τυπολογία των σχηµάτων 123 Dublin Core: Τα στοιχεία δεδοµένων (1) Θέµα (Subject) Περιγραφή (Description) ηµιουργός (Creator( Creator) Τίτλος (Title) Εκδότης (Publisher( Publisher)

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Πτυχιακή Εργασία ηµιουργία Εκπαιδευτικού Παιχνιδιού σε Tablets Καλλιγάς ηµήτρης Παναγιώτης Α.Μ.: 1195 Επιβλέπων καθηγητής: ρ. Συρµακέσης Σπύρος ΑΝΤΙΡΡΙΟ 2015 Ευχαριστίες Σ αυτό το σηµείο θα ήθελα να

Διαβάστε περισσότερα

Μεταδεδομένα στο Ψηφιακό περιβάλλον

Μεταδεδομένα στο Ψηφιακό περιβάλλον Μεταδεδομένα στο Ψηφιακό περιβάλλον Μονάδα Αριστείας Ανοικτού Λογισμικού - Χαροκόπειο Πανεπιστήμιο Ψηφιακό Τεκμήριο Οτιδήποτε υπάρχει σε ηλεκτρονική μορφή και μπορεί να προσπελαστεί μέσω υπολογιστή Μεταδεδομένα

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή. Ονοματεπώνυμο: Αργυρώ Ιωάννου. Επιβλέπων καθηγητής: Δρ. Αντρέας Χαραλάμπους

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή. Ονοματεπώνυμο: Αργυρώ Ιωάννου. Επιβλέπων καθηγητής: Δρ. Αντρέας Χαραλάμπους ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή διατριβή Διερεύνηση της αποτελεσματικότητας εναλλακτικών και συμπληρωματικών τεχνικών στη βελτίωση της ποιότητας της ζωής σε άτομα με καρκίνο

Διαβάστε περισσότερα

Πρότυπο Αναφοράς Open Systems Interconnection (OSI) Επικοινωνίες Δεδομένων Μάθημα 5 ο

Πρότυπο Αναφοράς Open Systems Interconnection (OSI) Επικοινωνίες Δεδομένων Μάθημα 5 ο Πρότυπο Αναφοράς Open Systems Interconnection (OSI) Επικοινωνίες Δεδομένων Μάθημα 5 ο Πρωτόκολλα και Αρχιτεκτονική Δικτύου Για να ανταλλάξουν δεδομένα δύο σταθμοί, εκτός από την ύπαρξη διαδρομής μεταξύ

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ. «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΝΟΣΟΚΟΜΕΙΑΚΟΥ ΠΡΟΣΩΠΙΚΟΥ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ. «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΝΟΣΟΚΟΜΕΙΑΚΟΥ ΠΡΟΣΩΠΙΚΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΝΟΣΟΚΟΜΕΙΑΚΟΥ ΠΡΟΣΩΠΙΚΟΥ Μαστρογιάννη Μαρία Διπλωματική Εργασία υποβληθείσα

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Επιβλέπων Καθηγητής: Δρ. Νίκος Μίτλεττον Η ΣΧΕΣΗ ΤΟΥ ΜΗΤΡΙΚΟΥ ΘΗΛΑΣΜΟΥ ΜΕ ΤΗΝ ΕΜΦΑΝΙΣΗ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 2 ΣΤΗΝ ΠΑΙΔΙΚΗ ΗΛΙΚΙΑ Ονοματεπώνυμο: Ιωσηφίνα

Διαβάστε περισσότερα

«Μεσολαβητές διασύνδεσης ηλεκτρονικών πηγών πληροφόρησης»

«Μεσολαβητές διασύνδεσης ηλεκτρονικών πηγών πληροφόρησης» 13 ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών «Μεσολαβητές διασύνδεσης ηλεκτρονικών πηγών πληροφόρησης» Ε. Ι. Γιαννακουδάκης, Χ. Α. Καπέτης, Π. Κ. Ανδρικόπουλος, E. Κόλλιας Κέρκυρα, Οκτώβριος 2004 Εισαγωγή

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

Μοντέλα Κυβερνητικής Πληροφορίας

Μοντέλα Κυβερνητικής Πληροφορίας Μοντέλα Κυβερνητικής Πληροφορίας Χρήστος Παπαθεοδώρου (papatheodor@ionio.gr) Τμήμα Αρχειονομίας, Βιβλιοθηκονομίας και Μουσειολογίας, Ιόνιο Πανεπιστήμιο και Μονάδα Ψηφιακής Επιμέλειας, Ινστιτούτο Πληροφοριακών

Διαβάστε περισσότερα

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής» Σχολή Επιστημών Υγείας Τμήμα Αποκατάστασης ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ «Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής» Χρυσάνθη Μοδέστου Λεμεσός, Μάιος,

Διαβάστε περισσότερα

Επιτυχημένα παραδείγματα. σε ελληνικά αποθετήρια και σχετικά τεχνολογικά εργαλεία

Επιτυχημένα παραδείγματα. σε ελληνικά αποθετήρια και σχετικά τεχνολογικά εργαλεία Επιτυχημένα παραδείγματα διαλειτουργικότητας σε ελληνικά αποθετήρια και σχετικά τεχνολογικά εργαλεία Νίκος Χούσος, Κωνσταντίνος Σταμάτης Εθνικό Κέντρο Τεκμηρίωσης / Εθνικό Ίδρυμα Ερευνών Αλέξανδρος Κουλούρης

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ Χριστοδούλου Αντρέας Λεμεσός 2014 2 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ

Διαβάστε περισσότερα

της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004

της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004 example Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004 Πρότυπα και XML Πρότυπα ενιαίο

Διαβάστε περισσότερα

Μαθησιακές δραστηριότητες με υπολογιστή

Μαθησιακές δραστηριότητες με υπολογιστή ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Μαθησιακές δραστηριότητες με υπολογιστή Κατευθυντήριες γραμμές σχεδίασης μαθησιακών δραστηριοτήτων Διδάσκων: Καθηγητής Αναστάσιος Α. Μικρόπουλος Άδειες

Διαβάστε περισσότερα

Ανοικτά Δεδομένα. Η εμπειρία του OpenDataCloud

Ανοικτά Δεδομένα. Η εμπειρία του OpenDataCloud Ανοικτά Δεδομένα Προκλήσεις και Ευκαιρίες: Η εμπειρία του OpenDataCloud Κώστας Σαΐδης, PhD Πάροχοι Ανοικτών Δεδομένων datagov.gr diavgeia.gr geodata.gov.gr Πυροσβεστικό σώμα Ελληνική Αστυνομία Υπουργείο

Διαβάστε περισσότερα

FRBRization: αναζητώντας το κλειδί για τον εντοπισμό των Έργων

FRBRization: αναζητώντας το κλειδί για τον εντοπισμό των Έργων Μανόλης Πεπονάκης, Παναγιώτης Στάικος, Μιχάλης Σφακάκης, Σαράντος Καπιδάκης Εργαστήριο Ψηφιακών Βιβλιοθηκών και Ηλεκτρονικής Δημοσίευσης Τμήμα Αρχειονομίας Βιβλιοθηκονομίας, Ιόνιο Πανεπιστήμιο {peponakis,

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ www.cslab.ece.ntua.gr Διπλωματικές

Διαβάστε περισσότερα

Γεωχωρικές συλλογές τοπικών παραγόμενων δεδομένων σε ιδρυματικά αποθετήρια: απόψεις των Βιβλιοθηκονόμων Χαρτών/ΓΠΣ

Γεωχωρικές συλλογές τοπικών παραγόμενων δεδομένων σε ιδρυματικά αποθετήρια: απόψεις των Βιβλιοθηκονόμων Χαρτών/ΓΠΣ Γεωχωρικές συλλογές τοπικών παραγόμενων δεδομένων σε ιδρυματικά αποθετήρια: απόψεις των Βιβλιοθηκονόμων Χαρτών/ΓΠΣ Ιφιγένεια Βαρδακώστα Υπεύθυνη Βιβλιοθηκονόμος Χαροκόπειο Πανεπιστήμιο Βιβλιοθήκη και Κέντρο

Διαβάστε περισσότερα

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ Σχολή Μηχανικής & Τεχνολογίας Τμήμα Πολιτικών & Μηχανικών Γεωπληροφορικής Μεταπτυχιακή διατριβή ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ

Διαβάστε περισσότερα

Μαθησιακές δραστηριότητες με υπολογιστή

Μαθησιακές δραστηριότητες με υπολογιστή ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Μαθησιακές δραστηριότητες με υπολογιστή Εργαλεία αναζήτησης πληροφορίας Διδάσκων: Καθηγητής Αναστάσιος Α. Μικρόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο

Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο Ιόνιο Πανεπιστήμιο, Τμήμα Πληροφορικής, 2015 Κωνσταντίνος Οικονόμου, Επίκουρος Καθηγητής

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 8: Εισαγωγή στη SPARQL Βασική Χρήση Μ.Στεφανιδάκης 3-5-2015. Η γλώσσα ερωτημάτων SPARQL Ερωτήσεις (και ενημερώσεις) σε σετ δεδομένων RDF Και σε δεδομένα άλλης μορφής

Διαβάστε περισσότερα

Σχεδιασμός του Ολοκληρωμένου Συστήματος Ψηφιακής Βιβλιοθήκης του Πανεπιστημίου Αθηνών

Σχεδιασμός του Ολοκληρωμένου Συστήματος Ψηφιακής Βιβλιοθήκης του Πανεπιστημίου Αθηνών Σχεδιασμός του Ολοκληρωμένου Συστήματος Ψηφιακής Βιβλιοθήκης του Πανεπιστημίου Αθηνών Κώστας Βίγλας, Ειρήνη Λουρδή, Μάρα Νικολαΐδη, Γιώργος Πυρουνάκης, Κώστας Σαΐδης Περιεχόμενα Πώς οδηγούμαστε στο σχεδιασμό

Διαβάστε περισσότερα

Προβλήματα διαλειτουργικότητας κατά την ταυτόχρονη πρόσβαση σε πηγές μέσω του πρωτοκόλλου Z39.50 & Το περιβάλλον πρόσβασης "Η ΑΡΓΩ"

Προβλήματα διαλειτουργικότητας κατά την ταυτόχρονη πρόσβαση σε πηγές μέσω του πρωτοκόλλου Z39.50 & Το περιβάλλον πρόσβασης Η ΑΡΓΩ Εθνικό Κέντρο Τεκμηρίωσης Προβλήματα διαλειτουργικότητας κατά την ταυτόχρονη πρόσβαση σε πηγές μέσω του πρωτοκόλλου Z39.50 & Το περιβάλλον πρόσβασης "Η ΑΡΓΩ" Μανόλης Πεπονάκης Ντίνα Τρούτπεγλη Μιχάλης

Διαβάστε περισσότερα

Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις

Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις Άγγελος Μητρέλης 1, Λεωνίδας Παπαχριστόπουλος 1, Γιάννης Τσάκωνας 1,2, Χρήστος Παπαθεοδώρου

Διαβάστε περισσότερα

Χρήση εναλλακτικών μετρικών για την αποτίμηση της διάδοσης της έρευνας σε επιστημονικά συνέδρια

Χρήση εναλλακτικών μετρικών για την αποτίμηση της διάδοσης της έρευνας σε επιστημονικά συνέδρια Χρήση εναλλακτικών μετρικών για την αποτίμηση της διάδοσης της έρευνας σε επιστημονικά συνέδρια Ακριβή Αθανασοπουλου, 1 Αγγελική Γιαννοπουλου, 2 Γιάννης Τσακωνας 2 1 Τμήμα Αρχειονομιας, Βιβλιοθηκονομίας

Διαβάστε περισσότερα

Η επεξεργασία του υλικού στην υβριδική υπηρεσία πληροφόρησης: παράλληλη χρήση των εργαλείων

Η επεξεργασία του υλικού στην υβριδική υπηρεσία πληροφόρησης: παράλληλη χρήση των εργαλείων Η επεξεργασία του υλικού στην υβριδική υπηρεσία πληροφόρησης: παράλληλη χρήση των εργαλείων Κόκκινος Διονύσης, Ε.Μ.Π. - Κεντρική Βιβλιοθήκη Τσώλη Θεοδώρα, Πάντειο Πανεπιστήμιο, Βιβλιοθήκη Γιάνναρη Κυριακή,

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία ΔΙΕΡΕΥΝΗΣΗ ΤΟΥ ΚΛΙΜΑΤΟΣ ΑΣΦΑΛΕΙΑΣ ΤΩΝ ΑΣΘΕΝΩΝ ΣΤΟ ΝΟΣΟΚΟΜΕΙΟ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία ΔΙΕΡΕΥΝΗΣΗ ΤΟΥ ΚΛΙΜΑΤΟΣ ΑΣΦΑΛΕΙΑΣ ΤΩΝ ΑΣΘΕΝΩΝ ΣΤΟ ΝΟΣΟΚΟΜΕΙΟ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή εργασία ΔΙΕΡΕΥΝΗΣΗ ΤΟΥ ΚΛΙΜΑΤΟΣ ΑΣΦΑΛΕΙΑΣ ΤΩΝ ΑΣΘΕΝΩΝ ΣΤΟ ΝΟΣΟΚΟΜΕΙΟ ΑΝΔΡΕΑΣ ΛΕΩΝΙΔΟΥ Λεμεσός, 2012 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα 6: Υπερκείμενο - Υπερμέσα. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Τεχνολογία Πολυμέσων. Ενότητα 6: Υπερκείμενο - Υπερμέσα. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ Τεχνολογία Πολυμέσων Ενότητα 6: Υπερκείμενο - Υπερμέσα Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό

Διαβάστε περισσότερα

Orchid: Integrating Schema Mapping and ETL ICDE 2008

Orchid: Integrating Schema Mapping and ETL ICDE 2008 Orchid: Integrating Schema Mapping and ETL ICDE 2008 Δομουχτσίδης Παναγιώτης Γενικά Data warehouse (DW): Είναι μία αποθήκη πληροφοριών οργανωμένη από ένα ενοποιημένο μοντέλο. Τα δεδομένα συλλέγονται από

Διαβάστε περισσότερα

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ: ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: Υπολογιστικά Συστήµατα & Τεχνολογίες Πληροφορικής ΣΥΓΓΡΑΦΕΑΣ: Γιώργος Γιαννόπουλος, διδακτορικός φοιτητής

Διαβάστε περισσότερα

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΕΝΙΣΧΥΣΗ ΤΩΝ ΚΟΜΒΩΝ ΟΠΛΙΣΜΕΝΟΥ ΣΚΥΡΟΔΕΜΑΤΟΣ ΜΕ ΒΑΣΗ ΤΟΥΣ ΕΥΡΩΚΩΔΙΚΕΣ

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΕΝΙΣΧΥΣΗ ΤΩΝ ΚΟΜΒΩΝ ΟΠΛΙΣΜΕΝΟΥ ΣΚΥΡΟΔΕΜΑΤΟΣ ΜΕ ΒΑΣΗ ΤΟΥΣ ΕΥΡΩΚΩΔΙΚΕΣ Σχολή Μηχανικής και Τεχνολογίας Πτυχιακή εργασία ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΕΝΙΣΧΥΣΗ ΤΩΝ ΚΟΜΒΩΝ ΟΠΛΙΣΜΕΝΟΥ ΣΚΥΡΟΔΕΜΑΤΟΣ ΜΕ ΒΑΣΗ ΤΟΥΣ ΕΥΡΩΚΩΔΙΚΕΣ Σωτήρης Παύλου Λεμεσός, Μάιος 2018 i ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

ΔΙΑΣΥΝΔΕΣΗ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΙΣΤΟΣΕΛΙΔΩΝ ΣΕ ΕΝΙΑΙΟ ΠΕΡΙΒΑΛΛΟΝ: ΕΦΑΡΜΟΓΗ ΣΤΟΝ ΙΣΤΟΤΟΠΟ ΤΗΣ ΣΧΟΛΗΣ ΧΗΜΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΕΜΠ

ΔΙΑΣΥΝΔΕΣΗ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΙΣΤΟΣΕΛΙΔΩΝ ΣΕ ΕΝΙΑΙΟ ΠΕΡΙΒΑΛΛΟΝ: ΕΦΑΡΜΟΓΗ ΣΤΟΝ ΙΣΤΟΤΟΠΟ ΤΗΣ ΣΧΟΛΗΣ ΧΗΜΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΕΜΠ ΔΙΑΣΥΝΔΕΣΗ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΙΣΤΟΣΕΛΙΔΩΝ ΣΕ ΕΝΙΑΙΟ ΠΕΡΙΒΑΛΛΟΝ: ΕΦΑΡΜΟΓΗ ΣΤΟΝ ΙΣΤΟΤΟΠΟ ΤΗΣ ΣΧΟΛΗΣ ΧΗΜΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΕΜΠ Ι.Π. Τζιγκουνάκης, Ν.Γ. Καλογερόπουλος, Ε.Α. Παυλάτου, Α.Γ. Μπουντουβής, Ι.Α. Παλυβός

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία. Κόπωση και ποιότητα ζωής ασθενών με καρκίνο.

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία. Κόπωση και ποιότητα ζωής ασθενών με καρκίνο. ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή Εργασία Κόπωση και ποιότητα ζωής ασθενών με καρκίνο Μαργαρίτα Μάου Λευκωσία 2012 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ

Διαβάστε περισσότερα

«Εμπειρία ανάπτυξης συστημάτων βιβλιοθηκών Συνεργασίες με βιβλιοθήκες ββ Εξέλιξη ξη ΑΒΕΚΤ»

«Εμπειρία ανάπτυξης συστημάτων βιβλιοθηκών Συνεργασίες με βιβλιοθήκες ββ Εξέλιξη ξη ΑΒΕΚΤ» «Εμπειρία ανάπτυξης συστημάτων βιβλιοθηκών Συνεργασίες με βιβλιοθήκες ββ Εξέλιξη ξη ΑΒΕΚΤ» o Πρόγραμμα Αυτοματισμού Βιβλιοθηκών ΕΚΤ (ΑΒΕΚΤ) Ανάπτυξη του Λογισμικού Πορεία εξέλιξης Στόχοι Συστήματος Χαρακτηριστικά

Διαβάστε περισσότερα

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική Θεσσαλονίκη, Σεπτέμβριος 2013 Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΚΡΗΤΗΣ 2000-2006

ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΚΡΗΤΗΣ 2000-2006 ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΚΡΗΤΗΣ 2000-2006 ΜΕΤΡΟ 1.2 Κοινοπραξίες Έρευνας και Τεχνολογικής Ανάπτυξης σε τομείς Εθνικής Προτεραιότητας Παροχή υπηρεσιών τουριστικού και αρχαιολογικού ενδιαφέροντος μέσω πλατφόρμας

Διαβάστε περισσότερα

Συστήματα πανταχού παρόντος υπολογιστή σε περιβάλλοντα υβριδικών βιβλιοθηκών

Συστήματα πανταχού παρόντος υπολογιστή σε περιβάλλοντα υβριδικών βιβλιοθηκών Συστήματα πανταχού παρόντος υπολογιστή σε περιβάλλοντα υβριδικών βιβλιοθηκών Βερονίκης Σπύρος Τμήμα Αρχειονομίας- Βιβλιοθηκονομίας, Ιόνιο Πανεπιστήμιο spver@ionio.gr Stoica Adrian Τμήμα Ηλεκτρολόγων Μηχανικών

Διαβάστε περισσότερα

ΜΑΘΗΜΑ 5. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας. Tεχνολογίες των Πληροφοριών σε ψηφιακό περιβάλλον: Τα εργαλεία

ΜΑΘΗΜΑ 5. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας. Tεχνολογίες των Πληροφοριών σε ψηφιακό περιβάλλον: Τα εργαλεία ΜΑΘΗΜΑ 5 161 Tεχνολογίες των Πληροφοριών σε ψηφιακό περιβάλλον: Τα εργαλεία 162 1 Η ανάγκη Η Ιστορία Μεταδεδοµένα στο Συµβατικό Περιβάλλον Ψηφιακό Περιβάλλον: Το πρόβληµα και οι πρώτες απόπειρες Προγράµµατα

Διαβάστε περισσότερα

Μεταπτυχιακή Διατριβή

Μεταπτυχιακή Διατριβή Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική» Μεταπτυχιακή Διατριβή Τίτλος Διατριβής Υπηρεσία Αυτόματης Ανάκτησης Συνδεδεμένης Δομής Θεματικών Επικεφαλίδων μέσω

Διαβάστε περισσότερα

ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ

ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Ονοματεπώνυμο Κεντούλλα Πέτρου Αριθμός Φοιτητικής Ταυτότητας 2008761539 Κύπρος

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΨΗΦΙΑΚΩΝ ΣΥΛΛΟΓΩΝ ΕΦΗΜΕΡΙΔΩΝ

ΑΝΑΠΤΥΞΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΨΗΦΙΑΚΩΝ ΣΥΛΛΟΓΩΝ ΕΦΗΜΕΡΙΔΩΝ 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών Πανεπιστήμιο Πατρών Βιβλιοθήκη & Υπηρεσία Πληροφόρησης 1 3 Νοεμβρίου 2006 ΑΝΑΠΤΥΞΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΨΗΦΙΑΚΩΝ ΣΥΛΛΟΓΩΝ ΕΦΗΜΕΡΙΔΩΝ Ελένη Μαμμά Υπουργείο Εξωτερικών

Διαβάστε περισσότερα

Έρευνα για την Εξοικείωση των Βιβλιοθηκονόμων των Ελληνικών Ακαδημαϊκών Βιβλιοθηκών με τα Metadata

Έρευνα για την Εξοικείωση των Βιβλιοθηκονόμων των Ελληνικών Ακαδημαϊκών Βιβλιοθηκών με τα Metadata Έρευνα για την Εξοικείωση των Βιβλιοθηκονόμων των Ελληνικών Ακαδημαϊκών Βιβλιοθηκών με τα Metadata Δρ. Εμμανουήλ Γαρουφάλλου και Παναγιώτης Μπαλατσούκας E-mail: garoufallou@yahoo.co.uk Τμήμα Βιβλιοθηκονομίας

Διαβάστε περισσότερα

Θεματική Ενότητα: Εκπαιδευτικό Λογισμικό. Αποθετήρια & Ανοικτοί Εκπαιδευτικοί Πόροι Ανάλυση εφαρμογής

Θεματική Ενότητα: Εκπαιδευτικό Λογισμικό. Αποθετήρια & Ανοικτοί Εκπαιδευτικοί Πόροι Ανάλυση εφαρμογής Θεματική Ενότητα: Εκπαιδευτικό Λογισμικό Αποθετήρια & Ανοικτοί Εκπαιδευτικοί Πόροι Ανάλυση εφαρμογής Ηράκλειο, 11/6/2014 Ανοικτοί Εκπαιδευτικοί Πόροι (ΑΕΠ) Οι ανοικτοί εκπαιδευτικοί πόροι είναι ψηφιοποιημένο

Διαβάστε περισσότερα

Αρχιτεκτονική Λογισμικού

Αρχιτεκτονική Λογισμικού Αρχιτεκτονική Λογισμικού περιεχόμενα παρουσίασης Τι είναι η αρχιτεκτονική λογισμικού Αρχιτεκτονική και απαιτήσεις Σενάρια ποιότητας Βήματα αρχιτεκτονικής σχεδίασης Αρχιτεκτονικά πρότυπα Διαστρωματωμένη

Διαβάστε περισσότερα

E-LIS: E-prints για τη Βιβλιοθηκονομία και την Επιστήμη της Πληροφόρησης (ΒΕΠ)

E-LIS: E-prints για τη Βιβλιοθηκονομία και την Επιστήμη της Πληροφόρησης (ΒΕΠ) E-LIS: E-prints για τη Βιβλιοθηκονομία και την Επιστήμη της Πληροφόρησης (ΒΕΠ) Τι είναι το E-LIS E-LIS = E-prints in Library and Information Services (Ηλεκτρονικά κείμενα με θέμα τη Βιβλιοθηκονομία και

Διαβάστε περισσότερα

Πτυχιακή Εργασία Η ΑΝΤΙΛΑΜΒΑΝΟΜΕΝΗ ΚΟΙΝΩΝΙΚΗ ΣΤΗΡΙΞΗ ΣΤΙΣ ΘΗΛΑΖΟΥΣΕΣ ΜΗΤΕΡΕΣ

Πτυχιακή Εργασία Η ΑΝΤΙΛΑΜΒΑΝΟΜΕΝΗ ΚΟΙΝΩΝΙΚΗ ΣΤΗΡΙΞΗ ΣΤΙΣ ΘΗΛΑΖΟΥΣΕΣ ΜΗΤΕΡΕΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή Εργασία Η ΑΝΤΙΛΑΜΒΑΝΟΜΕΝΗ ΚΟΙΝΩΝΙΚΗ ΣΤΗΡΙΞΗ ΣΤΙΣ ΘΗΛΑΖΟΥΣΕΣ ΜΗΤΕΡΕΣ Ονοματεπώνυμο: Στέλλα Κόντζιαλη Αριθμός Φοιτητικής Ταυτότητας: 2010414838

Διαβάστε περισσότερα

Το Μέλλον για τα Συστήματα Διαχείρισης Ακτινολογικής Εικόνας (PACS)

Το Μέλλον για τα Συστήματα Διαχείρισης Ακτινολογικής Εικόνας (PACS) Το Μέλλον για τα Συστήματα Διαχείρισης Ακτινολογικής Εικόνας (PACS) Ελένη Καλδούδη Τμήμα Ιατρικής Δημοκρίτειο Πανεπιστήμιο Θράκης 2003 θέματα το χθές, το σήμερα και το αύριο για τα PACS απαιτήσεις από

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή Η ΚΑΤΑΘΛΙΨΗ ΩΣ ΠΑΡΑΓΟΝΤΑΣ ΚΙΝΔΥΝΟΥ ΓΙΑ ΑΠΟΠΕΙΡΑ ΑΥΤΟΚΤΟΝΙΑΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή Η ΚΑΤΑΘΛΙΨΗ ΩΣ ΠΑΡΑΓΟΝΤΑΣ ΚΙΝΔΥΝΟΥ ΓΙΑ ΑΠΟΠΕΙΡΑ ΑΥΤΟΚΤΟΝΙΑΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή διατριβή Η ΚΑΤΑΘΛΙΨΗ ΩΣ ΠΑΡΑΓΟΝΤΑΣ ΚΙΝΔΥΝΟΥ ΓΙΑ ΑΠΟΠΕΙΡΑ ΑΥΤΟΚΤΟΝΙΑΣ Παναγιώτου Νεοφύτα 2008969752 Επιβλέπων καθηγητής Δρ. Νίκος Μίτλεττον,

Διαβάστε περισσότερα

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

Αθηνά - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης "Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Προκήρυξη Υποτροφιών To Ινστιτούτο Πληροφοριακών Συστημάτων

Διαβάστε περισσότερα

Πλοήγηση και Αναζήτηση

Πλοήγηση και Αναζήτηση Πλοήγηση και Αναζήτηση Περιήγηση Το Eprints παρέχει πολλούς διαφορετικούς τρόπους να επιμεριστεί το καταθετήριο σε διαφορετικές συλλογές και να προσεγγίζεται το περιεχόμενό του από διαφορετικές οπτικές

Διαβάστε περισσότερα

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές Λαμπαδαρίδης Αντώνιος el04148@mail.ntua.gr Διπλωματική εργασία στο Εργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων Επιβλέπων: Καθηγητής Τ. Σελλής Περίληψη

Διαβάστε περισσότερα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος

Διαβάστε περισσότερα

εθνικοί χαρτογραφικοί οργανισμοί και γεωπύλες: λειτουργικότητα και χρήστης

εθνικοί χαρτογραφικοί οργανισμοί και γεωπύλες: λειτουργικότητα και χρήστης εθνικοί χαρτογραφικοί οργανισμοί και γεωπύλες: λειτουργικότητα και χρήστης λειτουργικότητα και χρήστης Δρ. Ανδριανή ΣΚΟΠΕΛΙΤΗ Εργαστήριο Χαρτογραφίας, Ε.Μ.Π. askop@survey.ntua.gr περιεχόμενα εισαγωγή γεωπύλη

Διαβάστε περισσότερα

Πτυχιακή εργασία Ο ΡΟΛΟΣ ΤΩΝ ΚΟΙΝΟΤΙΚΩΝ ΝΟΣΗΛΕΥΤΩΝ ΣΤΗ ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΠΑΙΔΙΟΥ ΜΕ ΧΡΟΝΙΟ ΑΣΘΜΑ

Πτυχιακή εργασία Ο ΡΟΛΟΣ ΤΩΝ ΚΟΙΝΟΤΙΚΩΝ ΝΟΣΗΛΕΥΤΩΝ ΣΤΗ ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΠΑΙΔΙΟΥ ΜΕ ΧΡΟΝΙΟ ΑΣΘΜΑ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Πτυχιακή εργασία Ο ΡΟΛΟΣ ΤΩΝ ΚΟΙΝΟΤΙΚΩΝ ΝΟΣΗΛΕΥΤΩΝ ΣΤΗ ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΠΑΙΔΙΟΥ ΜΕ ΧΡΟΝΙΟ ΑΣΘΜΑ ΟΝΟΜΑΤΕΠΩΝΥΜΟ: ΚΥΡΙΑΚΟΣ ΛΟΙΖΟΥ ΑΡΙΘΜΟΣ

Διαβάστε περισσότερα

Έρευνα για την προσβασιμότητα των τυφλών και των ατόμων με περιορισμένη όραση στους Δικτυακούς Τόπους των Ελληνικών Ακαδημαϊκών Βιβλιοθηκών

Έρευνα για την προσβασιμότητα των τυφλών και των ατόμων με περιορισμένη όραση στους Δικτυακούς Τόπους των Ελληνικών Ακαδημαϊκών Βιβλιοθηκών Έρευνα για την προσβασιμότητα των τυφλών και των ατόμων με περιορισμένη όραση στους Δικτυακούς Τόπους των Ελληνικών Ακαδημαϊκών Βιβλιοθηκών Γαρουφάλλου Εμμανουήλ Κολοβού Ευαγγελία Τμήμα Βιβλιοθηκονομίας

Διαβάστε περισσότερα

Σχολή Διοίκησης και Οικονομίας. Μεταπτυχιακή διατριβή

Σχολή Διοίκησης και Οικονομίας. Μεταπτυχιακή διατριβή Σχολή Διοίκησης και Οικονομίας Μεταπτυχιακή διατριβή Samsung και Apple: Αναλύοντας τη χρηματοοικονομική πληροφόρηση των ηγετών της τεχνολογίας και η επίδραση των εξωτερικών και ενδοεπιχειρησιακών παραγόντων

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Πτυχιακή εργασία ΠΡΟΣΔΙΟΡΙΣΜΟΣ ΔΕΙΚΤΩΝ ΚΑΤΑΝΑΛΩΣΗΣ ΕΝΕΡΓΕΙΑΣ ΣΤΑ ΑΝΤΛΙΟΣΤΑΣΙΑ ΤΟΥ ΤΜΗΜΑΤΟΣ ΑΝΑΠΤΥΞΕΩΣ ΥΔΑΤΩΝ Γεωργίου

Διαβάστε περισσότερα

Σεμινάριο Βιβλιογραφίας στους προπτυχιακούς φοιτητές

Σεμινάριο Βιβλιογραφίας στους προπτυχιακούς φοιτητές Σεμινάριο Βιβλιογραφίας στους προπτυχιακούς φοιτητές των Τμημάτων Χημείας και Επιστήμης &Τεχνολογίας Υλικών Ηράκλειο Ακαδημαϊκό Έτος 2016-7 Πρόσβαση στην επιστημονική πληροφορία Σημείο εκκίνησης http://www.lib.uoc.gr

Διαβάστε περισσότερα

Ήλιος: Το ψηφιακό Αποθετήριο Ανοικτής Πρόσβασης του Εθνικού Ιδρύματος Ερευνών

Ήλιος: Το ψηφιακό Αποθετήριο Ανοικτής Πρόσβασης του Εθνικού Ιδρύματος Ερευνών Ιούλιος, 2013 Δέσποινα Χαρδούβελη, Msc Ψηφιακή Βιβλιοθήκη ΕΚΤ Η Πράξη Εθνικό Πληροφοριακό Σύστημα Έρευνας και Τεχνολογίας/Κοινωνικά Δίκτυα Περιεχόμενο Παραγόμενο από Χρήστες (Κωδικός ΟΠΣ 296115) υλοποιείται

Διαβάστε περισσότερα

Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ

Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ Το Εθνικό Αρχείο Διδακτορικών Διατριβών (EAΔΔ) συγκεντρώνει τις διδακτορικές διατριβές που έχουν εκπονηθεί σε ελληνικά πανεπιστήμια ή σε πανεπιστήμια

Διαβάστε περισσότερα

Συνεργασία Ελληνικών Ακαδημαϊκών Μουσικών Βιβλιοθηκών (ΣΕΑΜΒ)

Συνεργασία Ελληνικών Ακαδημαϊκών Μουσικών Βιβλιοθηκών (ΣΕΑΜΒ) 23 ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών 15-16 Νοεμβρίου 2017 Κεντρική Βιβλιοθήκη Α.Π.Θ. Συνεργασία Ελληνικών Ακαδημαϊκών Μουσικών Βιβλιοθηκών (ΣΕΑΜΒ) Συγγραφική ομάδα (θεσμικοί εκπρόσωποι ανά

Διαβάστε περισσότερα

Περιεχόμενο του μαθήματος

Περιεχόμενο του μαθήματος ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Απαιτήσεις Λογισμικού Περιπτώσεις χρήσης Δρ Βαγγελιώ Καβακλή Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου Εαρινό Εξάμηνο 2012-2013 1 Περιεχόμενο του μαθήματος

Διαβάστε περισσότερα

Εισαγωγή στα Πληροφοριακά Συστήματα. Ενότητα 9: Πληροφοριακά Συστήματα Ορισμοί

Εισαγωγή στα Πληροφοριακά Συστήματα. Ενότητα 9: Πληροφοριακά Συστήματα Ορισμοί Εισαγωγή στα Πληροφοριακά Συστήματα Ενότητα 9: Πληροφοριακά Συστήματα Ορισμοί Κωνσταντίνος Ταραμπάνης Τμήμα Οργάνωσης & Διοίκησης Επιχειρήσεων ΕΙΣΑΓΩΓΗ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Κωνσταντίνος Ταραμπάνης

Διαβάστε περισσότερα

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Γιώργος Δημητρίου Μάθημα 1 ο Γλώσσα - Μετάφραση Γλώσσα προγραμματισμού = Αναπαράσταση αλγορίθμων Ευκολία χρήσης Ακρίβεια και πληρότητα περιγραφής, όχι διφορούμενη! Μία περιγραφή για όλες τις μηχανές Μετάφραση

Διαβάστε περισσότερα

SNMP ΔΙΑΧΕΙΡΙΣΗ ΔΙΚΤΥΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

SNMP ΔΙΑΧΕΙΡΙΣΗ ΔΙΚΤΥΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Κεφάλαιο 4 SNMP ΔΙΑΧΕΙΡΙΣΗ ΔΙΚΤΥΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ 1 4.1 ΕΙΣΑΓΩΓΗ...3 4.2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ...3 4.2.1 Η ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΔΙΚΤΥΟΥ...3 4.2.1.1 ΣΤΑΘΜΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΔΙΚΤΥΟΥ...4 4.2.1.2 ΔΙΑΧΕΙΡΙΖΟΜΕΝΟΙ

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 1: Σημασιολογία και Μεταδεδομένα Μ.Στεφανιδάκης 5-2-2016. Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Μάθημα 10: Ανάπτυξη ΠΣ Μαρίνος Θεμιστοκλέους Email: mthemist@unipi.gr Ανδρούτσου 150 Γραφείο 206 Τηλ. 210 414 2723 Ώρες Γραφείου: Δευτέρα 11-12 πμ Ενδεικτικά Περιεχόμενα Εργασίας

Διαβάστε περισσότερα

Στρατηγικό Σχεδιασµό Πληροφοριακών Συστηµάτων

Στρατηγικό Σχεδιασµό Πληροφοριακών Συστηµάτων Μέθοδοι και Τεχνικές για τον Στρατηγικό Σχεδιασµό Πληροφοριακών Συστηµάτων (SISP) Στρατηγική και Διοίκηση Πληροφοριακών Συστηµάτων Μάθηµα 2 No 1 Δοµή της Παρουσίασης l 1. Εισαγωγή l 2. Μεθοδολογία SISP

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών

Διαβάστε περισσότερα

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής Περιεχόµενα Κατηγορίες Π.Σ. ιαχείρισης Πράξεων ιοίκησης Υποστήριξης Αποφάσεων Έµπειρα Συστήµατα Ατόµων και Οµάδων Ο κύκλος ζωής Π.Σ. Ορισµός Φάσεις Χρήστες

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ ΤΙΤΛΟΣ Συμπληρώστε τον πρωτότυπο τίτλο της Διδακτορικής διατριβής ΑΡ. ΣΕΛΙΔΩΝ ΕΙΚΟΝΟΓΡΑΦΗΜΕΝΗ

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ ΤΙΤΛΟΣ Συμπληρώστε τον πρωτότυπο τίτλο της Διδακτορικής διατριβής ΑΡ. ΣΕΛΙΔΩΝ ΕΙΚΟΝΟΓΡΑΦΗΜΕΝΗ ΕΘΝΙΚΟ & ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΑΝΑΓΝΩΣΤΗΡΙΟ Πανεπιστημιούπολη, Κτήρια Πληροφορικής & Τηλεπικοινωνιών 15784 ΑΘΗΝΑ Τηλ.: 210 727 5190, email: library@di.uoa.gr,

Διαβάστε περισσότερα