Προγράμματα για τη δημιουργία και διαχείριση θησαυρού

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Προγράμματα για τη δημιουργία και διαχείριση θησαυρού"

Transcript

1 Προγράμματα για τη δημιουργία και διαχείριση θησαυρού Το λογισμικό θησαυρών μπορεί να προορίζεται για έναν υπολογιστή ή για μεγάλο σύστημα, μπορεί να αφορά στην κατασκευή και συντήρηση του θησαυρού ή στην ενσωμάτωσή του σε συστήματα ανάκτησης πληροφοριών. Λειτουργεί σε περιβάλλον ιστού και υποστηρίζει ταυτόχρονη χρήση από πολλούς χρήστες από διαφορετικές διευθύνσεις. Βασικές λειτουργίες ενός προγράμματος θησαυρού Α. Κατασκευή και διατήρηση του θησαυρού Εισαγωγή-καταχώριση του λεκτικού υλικού κάθε μορφής - καθιερωμένων όρων, άλλων λεκτικών μορφών (ομωνύμων, συνωνύμων κ.λπ.), σχέσεων, παραπεμπτικών μορφών, σημειώσεων κ.λπ.) Συνεχής ανανέωση, ενημέρωση του θησαυρού με εισαγωγή νέων λεκτικών μορφών ή/και αλλαγή αυτών που ήδη έχουν καταχωριστεί. Β. Προϊόν του θησαυρού Σε όλη τη διάρκεια των εργασιών κατασκευής και διατήρησης του θησαυρού, πρέπει να υπάρχει η δυνατότητα εμφάνισης, εκτύπωσης και τοπικής αποθήκευσης μέρους ή όλου του θησαυρού. Επιπρόσθετα, η δυνατότητα παρουσίασης όλων των σχέσεων ανάμεσα στους όρους ιεραρχίας (hierarchical), ισοδυναμίας (equivalence), συσχέτισης (associative), όπως προβλέπεται από τα σχετικά πρότυπα ISO και ΕΛΟΤ. Η παρουσίαση είναι οπωσδήποτε αλφαβητική και συστηματική, ενώ επιθυμητή είναι η δυνατότητα ιεραρχικής και γραφικής παρουσίασης. Γ. Ευρετηρίαση και ανάκτηση Η πρόβλεψη ενσωμάτωσης του θησαυρού στο σύστημα ανάκτησης πληροφοριών, ώστε να διευκολύνεται τόσο ο ορολογικός έλεγχος και η συνέπεια στη θεματική αναζήτηση, όσο και η δυνατότητα εισαγωγής νέων λεκτικών μορφών και καθιέρωσης νέων όρων, με αποτέλεσμα την ενημέρωση και ανανέωση του θησαυρού. Δ. Ανταλλαγή, ολοκλήρωση και συμβατότητα Πρέπει να παρέχονται οι παρακάτω δυνατότητες: Μαζική εισαγωγή και εξαγωγή δεδομένων (όλου του θησαυρού ή μέρους αυτού, με βάση επιλεγμένα κριτήρια) και σε μορφή επεξεργάσιμη. Υποστήριξη χαρακτηριστικών πολύγλωσσου θησαυρού, σύμφωνα με το σχετικό πρότυπο ISO (δηλαδή είτε με κυρίαρχη την ελληνική γλώσσα ή με ισοδύναμες τουλάχιστον την ελληνική και αγγλική). 1

2 Κριτήρια για την επιλογή προγράμματος θησαυρού Ε. Όροι και πεδία Σε κάθε όρο, πρέπει να καθοριστούν τα πεδία και το μήκος τους. Πέρα από τα πεδία με τους όρους (καθιερωμένους και λεκτικές μορφές διαφόρων τύπων, ανάλογα με τις σχέσεις που θα δημιουργούνται), απαιτείται ένα πεδίο διευκρινιστικών σημειώσεων (ΔΣ) για εισαγωγή ελεύθερου κειμένου και ένα πεδίο με ταξινομική κωδικοποίηση (ΤΚ) για τη δόμηση σε θεματικές ομάδες/φασέτες και συστηματική παρουσίαση του θησαυρού. Επίσης, πρέπει να προβλέπεται ένα πεδίο προέλευσης του όρου το οποίο είναι οπωσδήποτε αναζητήσιμο, όπου θα καταχωρίζεται η πηγή κάθε όρου (βιβλιοθήκη ή έτοιμο θεματικό ευρετήριο) και ένα πεδίο δήλωσης της γλώσσας (εφ όσον θα είναι πολύγλωσσος). Επιθυμητή είναι επίσης η ύπαρξη πεδίου για ιστορική σημείωση (ημερομηνία εισαγωγής, καθιέρωσης ή τροποποίησης του όρου) και για την κατάσταση του όρου (καθιερωμένος, πρόχειρος, σε επεξεργασία, υπό έγκριση κ.λπ.). Το μήκος του πεδίου του κάθε όρου πρέπει να είναι τέτοιο, ώστε να εξασφαλίζεται η δυνατότητα καταχώρισης σύμπλοκων λεκτικών μορφών, αλλά και η εισαγωγή από και ανταλλαγή με άλλα συστήματα θεματικών ευρετηρίων. Ενδείκνυνται τα πεδία μεταβλητού μήκους. Το πεδίο γλώσσας μπορεί να είναι σταθερού μήκους και να δέχεται δύο (2) χαρακτήρες, αφού θα χρησιμοποιηθεί η τυποποιημένη κωδικοποίηση των γλωσσών. Σε όλα τα πεδία να μπορεί να χρησιμοποιείται συνδυασμός Ελληνικού και Λατινικού αλφαβήτου. ΣΤ. Σχέσεις Ο θησαυρός πρέπει να υποστηρίζει τις σχέσεις ανάμεσα στους όρους σύμφωνα με το αντίστοιχο πρότυπο. Έτσι, πρέπει να υποστηρίζονται οι σχέσεις : ιεραρχίας (καθορισμός σχέσεων γένους-είδους και όλου-μέρους), ισοδυναμίας (περιπτώσεις συνωνυμίας και σημασιολογικής σχέσης, μετάβαση από μη καθιερωμένες λεκτικές μορφές σε καθιερωμένο όρο). Απαραίτητο είναι να μην υπάρχουν περιορισμοί στον αριθμό των όρων που θα συμμετέχουν στις παραπάνω σχέσεις, καθώς επίσης να υπάρχει ευελιξία στις δυνατότητες συσχέτισης διαφόρων λεκτικών μορφών, λαμβάνοντας υπόψη το σημασιολογικό επίπεδο, π.χ. σύμπλοκων όρων που δε θα αναπαριστούν συγκεκριμένες έννοιες στο θησαυρό, ομώνυμων που θα αναπαριστώνται με διαφορετικούς όρους ανάλογα με τη σημασία τους ή πλατύτερων όρων που θα αναπαριστώνται με έναν ή περισσότερους ειδικότερους όρους. Επίσης, πρέπει να υπάρχει δυνατότητα πολυιεραρχικών σχέσεων (δηλαδή ένας όρος να έχει παραπάνω από έναν πλατύτερους όρους) χωρίς περιορισμό και να ορίζεται η ισοδυναμία στην περίπτωση των συμβατών και πολύγλωσσων θεματικών ευρετηρίων και θησαυρών. Στην περίπτωση πολύγλωσσου, θα ορίζεται εάν θα ισχύει η ισοδυναμία των δύο γλωσσών ή η κυριαρχία της μίας εκ των δύο, ενώ, όσον αφορά στη σύνδεση μεταξύ τους, κάθε όρος θα αποδίδεται σε κάθε γλώσσα. 2

3 Ζ. Καταχώριση, τροποποίηση και διαγραφή δεδομένων και σχέσεων Το πρόγραμμα πρέπει να παρέχει τη δυνατότητα καταχώρισης, τροποποίησης και διαγραφής των δεδομένων καθώς και των σχέσεων ανάμεσα στους όρους του θησαυρού. Η εισαγωγή δεδομένων μπορεί να γίνει είτε με άμεση πληκτρολόγηση των δεδομένων και των σχέσεων ανάμεσά τους ή με μαζική εισαγωγή από άλλα συστήματα. Πρέπει να υπάρχει δυνατότητα τροποποιήσεων και διαγραφών, τόσο σε μαζικό επίπεδο, όσο και με την πληκτρολόγηση επί μέρους όρων, χαρακτηριστικών τους και σχέσεων ανάμεσά τους. Κατά τη διαγραφή όρων, πρέπει να διαγράφονται και όλες οι σχέσεις που συνδέονται με αυτούς. Η. Έλεγχοι συνέπειας Σημαντικό ρόλο παίζουν οι έλεγχοι συνέπειας στο θησαυρό, ώστε να αποφεύγονται σφάλματα στην ορολογία και στη δομή του. Συγκεκριμένα, πρέπει να ελέγχονται ορισμένα κριτήρια, τόσο κατά την αρχική εισαγωγή, όσο και σε περίπτωση τροποποίησης ή διαγραφής δεδομένων ή σχέσεων. Έτσι, για τους όρους και τα χαρακτηριστικά τους, το πρόγραμμα πρέπει να ελέγχει την απόρριψη πολλαπλών αναγραφών για τον ίδιο όρο, εκτός εάν πρόκειται να δημιουργηθούν συμβατά ή πολύγλωσσα ευρετήρια και να προβλέπει τη δυνατότητα αποδοχής συγκεκριμένων χαρακτήρων για ορισμένα πεδία (π.χ. για τα πεδία κωδικών ταξινόμησης ή γλωσσών). Όσον αφορά στις σχέσεις ανάμεσα στους όρους, θα πρέπει να ελέγχεται η αντιστροφή των σχέσεων, ώστε να μην είναι δυνατή η εισαγωγή ελλιπών σχέσεων, π.χ. σχέσεων από έναν όρο σε άλλο χωρίς το αντίστροφο. Επίσης, θα πρέπει να εμποδίζεται η εισαγωγή πολλαπλών σχέσεων ανάμεσα σε δύο όρους, η εισαγωγή ιεραρχικών ή συσχετικών σχέσεων ανάμεσα σε καθιερωμένους και μη καθιερωμένους όρους (αυτό μπορεί να συμβεί μόνο σε περιπτώσεις συνωνυμίας σχέσεις ισοδυναμίας), καθώς και η εισαγωγή αντιφατικών σχέσεων ανάμεσα σε όρους στα διάφορα επίπεδα ιεραρχίας. Θ. Εμφάνιση στην οθόνη, εκτύπωση και αποθήκευση σε αρχείο Είναι απαραίτητο να προβλέπεται η εμφάνιση στην οθόνη, η εκτύπωση και η αποθήκευση σε αρχείο, τόσο στη φάση κατασκευής και ενημέρωσης του θησαυρού (προκειμένου να ελέγχεται η ύπαρξη όρων και αντίστοιχων σχέσεων στο σύστημα του θησαυρού, καθώς και διαγραφών αυτών όταν χρειάζεται), όσο και στη φάση αναζήτησης όρων (προκειμένου να αναζητούνται και να ανακτώνται καθιερωμένοι όροι, άλλες λεκτικές μορφές και αντίστοιχες σχέσεις μεταξύ τους). Η επιλογή για εμφάνιση και εκτύπωση θα μπορεί να γίνεται σύμφωνα με κριτήρια, όπως όρο, φασέτα, γλώσσα, κατηγορία σχέσης, χωριστά ή σε συνδυασμό. Οι μορφές εμφάνισης θα είναι υποχρεωτικά, όπως προβλέπεται και από τα πρότυπα, αλφαβητική 3

4 και συστηματική. Η αλφαβητική μορφή περιλαμβάνει όλες τις μορφές όρων (καθιερωμένες και μη) και τις σχέσεις μεταξύ τους (ΟΚ, ΠΟ, ΕΟ, ΣΟ, ΔΣ, ΙΣ), καθώς και τον κωδικό ταξινόμησης στο συστηματικό ευρετήριο. Η ιεραρχική και KWIC (keyword-in-context) ή KWOC (keyword-out of-context) εμφάνιση των σύνθετων όρων, είναι επιθυμητή. Επιθυμητό είναι, πέρα από τις σταθερές μορφές εμφάνισης και εκτύπωσης που προβλέπονται από το σύστημα, να υπάρχει η δυνατότητα παραμετροποίησης σύμφωνα με εξειδικευμένα κριτήρια. Το ίδιο ισχύει και για τη μορφή του προϊόντος εμφάνισης ή εκτύπωσης, όσον αφορά στην τυπογραφική παρουσίαση (π.χ. γραμματοσειρές, μέγεθος, σελιδοποίηση, μορφή καθιερωμένων και μη καθιερωμένων όρων κ.λπ.). Επίσης, πέρα από την πλήρη εμφάνιση του θησαυρού σε κάθε γλώσσα, είναι απαραίτητη η εμφάνιση των όρων στις δύο γλώσσες, τουλάχιστον σε απλή αλφαβητική μορφή, ώστε να εμφανίζονται οι ισοδύναμοι όροι. Ι. Ευρετηρίαση και ανάκτηση Είναι απαραίτητο κατά την ευρετηρίαση και αναζήτηση, πέρα από την εμφάνιση και εκτύπωση του θησαυρού όπως αναφέρθηκε παραπάνω, να εξασφαλίζεται η συνολική αναπαράσταση μίας ξεχωριστής έννοιας στο σύστημα, με την εμφάνιση των σημαντικών σχέσεων ανάμεσα στους διάφορους όρους που την περιβάλλουν. Αυτό επιτυγχάνεται με τη δυνατότητα προσανατολισμού της εμφάνισης, ώστε από έναν αρχικό όρο να εμφανίζονται όλοι οι όροι που σχετίζονται με αυτόν, με αλφαβητικό και συστηματικό τρόπο. Κατά την ευρετηρίαση, πρέπει να εξασφαλίζεται ο έλεγχος καταχώρισης, ώστε να μην εισάγονται διπλοεγγραφές όρων, ενώ, στην αναζήτηση, θα μπορεί είτε να πληκτρολογείται ο προς αναζήτηση όρος ή τμήμα του όρου ή να επιλέγεται όρος από τη λίστα που θα εμφανίζεται στην οθόνη. Και στις δύο περιπτώσεις, εάν εισαχθεί ή επιλεγεί μη καθιερωμένος όρος (π.χ. συνώνυμος ή παραπεμπτικός μορφής ΧΡ), τότε το σύστημα θα μεταφέρεται στον καθιερωμένο όρο. Το ίδιο θα γίνεται και στην περίπτωση της δίγλωσσης μορφής, εάν καθιερωθεί η ελληνική ως βασική γλώσσα του θησαυρού. Σχετικά με την ενημέρωση του θησαυρού, θα πρέπει να προβλέπονται μαζικές αλλαγές, οι οποίες χρειάζονται, όταν π.χ. αποφασίζεται μεταβολή στη διατύπωση της καθιερωμένης μορφής μίας έννοιας, όταν πρέπει να γίνουν μαζικές διορθώσεις σε λάθη γραμματικής κ.λπ. Η δυνατότητα εξαγωγής στατιστικών στοιχείων χρήσης των όρων του θησαυρού είναι επιθυμητή, γιατί συμβάλει στην αξιολόγηση και ενημέρωση του θησαυρού στο μέλλον. Στην αναζήτηση, θα πρέπει να υπάρχει η δυνατότητα διατύπωσης στρατηγικής αναζήτησης όρων του θησαυρού, όπου πέρα από την απλή αναζήτηση, θα μπορούν να αναζητούνται τμήματα όρων, για σύνθετους όρους, όροι με σύνθετα κριτήρια, όπως π.χ. όροι που ανήκουν στην ίδια θεματική κατηγορία, πλατύτεροι ή ειδικότεροι όροι του αρχικού, συνώνυμοι, ισοδύναμοι όροι στην άλλη γλώσσα κ.λπ. και είναι επιθυμητή η αναζήτηση και σε συγκεκριμένα πεδία ης εγγραφής. 4

5 Να είναι δυνατή η αναζήτηση με τη μία ή την άλλη γλώσσα. Σημεία για προσοχή Στην αξιολόγηση των προγραμμάτων θησαυρού, χρειάζεται να διερευνηθούν τα παρακάτω αρνητικά στοιχεία, όπως περιγράφονται από τον Ganzmann : Περιορισμοί στον αριθμό χαρακτήρων που μπορούν να εισαχθούν. Δυνατότητα εισαγωγής όλων των κατηγοριών των σχέσεων. Δυνατότητα εισαγωγής όλων των κατηγοριών σημειώσεων (ΔΣ, ΤΚ). Εμφάνιση και εκτύπωση αλφαβητικού και συστηματικού θησαυρού συνολικά ή τμηματικά. Δυνατότητα ελέγχου ύπαρξης όρων και προσανατολισμού σε καθιερωμένες μορφές. Έλεγχοι συνέπειας. Διατύπωση στρατηγικής αναζήτησης. Γενικά, το πρόγραμμα θα πρέπει να παρέχει ευελιξία και ευκολία στη χρήση και να παρέχει τη δυνατότητα συνεργασίας με άλλα συστήματα και μελλοντικής προσθήκης στοιχείων (π.χ. μαζική ανάκτηση όρων από άλλο σύστημα θησαυρού, μαζική εξαγωγή όρων σε άλλο σύστημα, συνδυασμό με θεματικούς χάρτες topic maps εφ όσον αναπτυχθούν, υποστήριξη οντολογιών). Επίσης, θα πρέπει να δοθεί προσοχή στη σωστή υποστήριξη της ελληνικής γλώσσας και γραμματικής, με τη δυνατότητα εισαγωγής, εμφάνισης και εκτύπωσης των όρων σε κάθε μορφή (κεφαλαία και πεζά) και με σωστή αλφαβητική σειρά, καθώς και στη συνύπαρξη Ελληνικών και Λατινικών χαρακτήρων σε κάθε πεδίο. Η δυνατότητα δημιουργίας μικροθησαυρών είναι πλεονέκτημα, δεδομένου του πολυθεματικού χαρακτήρα του προς κατασκευή θησαυρού. Προγράμματα που καλύπτουν προδιαγραφές όπως περιγράφηκαν παραπάνω και μπορούν να διερευνηθούν παραπέρα (και οπωσδήποτε λειτουργούν σε περιβάλλον πολυχρηστικό), τουλάχιστον σε γλώσσες που χρησιμοποιούν το Λατινικό αλφάβητο, είναι τα παρακάτω: LinkFactory MetaTagger Studio WebChoir Wordmap The SIS Thesaurus Management System SIS-TMS 5

6 Πηγές Aitchinson, J., Gilchrist, A. & Bawden D. Thesaurus construction and use: a practical manual. London: Aslib, BS 8723 (2005). Structured vocabularies for information retrieval. Ganzmann, Jochen. Criteria for the evaluation of thesaurus software. Willpower Information, Information Management Consultants [Διαθέσιμο στο Διαδίκτυο: Ημερομηνία πρόσβασης 2/8/2006] ISO 2788 (1986) Guidelines for the establishment and development of monolingual thesauri. ISO 5964 (1985). Guidelines for the establishment and development of multilingual thesauri. Willpower Information, Information Management Consultants Τhesaurus principles and practice. [Διαθέσιμο στο Διαδίκτυο: Ημερομηνία πρόσβασης 2/8/2006] Willpower Information, Information Management Consultants Software for building and editing thesauri [Διαθέσιμο στο Διαδίκτυο: Ημερομηνία πρόσβασης 2/8/2006] ΕΛΟΤ 1321 (1993) Τεκμηρίωση - Κατευθυντήριες οδηγίες για τη συγκρότηση και ανάπτυξη μονόγλωσσων θησαυρών. ΕΛΟΤ 402 (1993) Αρχές και μέθοδοι ορολογίας ΕΛΟΤ (2006) Ορολογική εργασία - Λεξιλόγιο - Μέρος 1: Θεωρία και εφαρμογή. 6