ΣΟΦΙΑ ΑΝΑΝΙΑΔΟΥ & ΚΑΛΛΙΟΠΗ ΖΕΡΒΑΝΟΥ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΣΟΦΙΑ ΑΝΑΝΙΑΔΟΥ & ΚΑΛΛΙΟΠΗ ΖΕΡΒΑΝΟΥ"

Transcript

1 Προβλήµατα και µέθοδοι αυτόµατης αναγνώρισης όρων σε υπολογιστικά συστήµατα ΣΟΦΙΑ ΑΝΑΝΙΑΔΟΥ & ΚΑΛΛΙΟΠΗ ΖΕΡΒΑΝΟΥ Εισαγωγή Οι ταχείς ρυθµοί τεχνολογικής και επιστηµονικής εξέλιξης έχουν ως συνέπεια τη συνεχή δηµιουργία νέων όρων. Οι όροι είναι σηµαντικοί για την εξόρυξη γνώσης καθώς πραγµατώνουν γλωσσικά τις έννοιες ενός επιστηµονικού τοµέα, εκφράζουν το σηµαντικό περιεχόµενο ενός επιστηµονικού κειµένου και το χαρακτηρίζουν σηµασιολογικά. Υπάρχοντα λεξικά, αναγνωρισµένη ορολογία, ονοµατολογίες, θησαυροί, κατηγοριοποιήσεις και βάσεις δεδοµένων προσφέρουν µία µερική λύση στο πρόβληµα της συστηµατικής καταγραφής, πρόσβασης και ανάκτησης αυτής της γνώσης. Η αυτόµατη αναγνώριση επιστηµονικής και τεχνικής ορολογίας είναι πρωταρχικής σηµασίας για την ηλεκτρονική επεξεργασία γλώσσας γιατί µπορεί να βελτιώσει αισθητά την απόδοση συστηµάτων µηχανικής µετάφρασης, εξαγωγής πληροφοριών, αυτόµατης κατηγοριοποίησης και δεικτοδότησης (indexing) κειµένων και άλλων γλωσσικών εφαρµογών. Σε αυτό το κεφάλαιο θα αναφερθούµε αρχικά στο πεδίο έρευνας της αυτόµατης αναγνώρισης όρων, καθώς και στα προβλήµατα που καλείται να δώσει λύσεις. Θα µιλήσουµε για τους τρόπους σχηµατισµού όρων και για τις ιδιαιτερότητες που παρουσιάζει η ορολογία σε σχέση µε τη γενική γλώσσα. Στο δεύτερο µέρος αυτού του κεφαλαίου, θα αναφερθούµε στις διάφορες µεθόδους και υπολογιστικά συστήµατα για αυτόµατη αναγνώριση όρων. 1 Ερευνητικό πεδίο και προβλήµατα της αυτόµατης αναγνώρισης όρων Πέρα από τη συµβολή της σε γλωσσικές εφαρµογές και στην ανανέωση και εµπλουτισµό πόρων λεξικολογικών και πόρων γνώσης (knowledge resources), η αυτόµατη αναγνώριση όρων µπορεί να συµβάλει καθοριστικά και στη διατήρηση ορολογικής συνέπειας. Δηλαδή µπορεί να συνεισφέρει στον περιορισµό φαινοµένων, όπου ένας όρος αναφέρεται σε διαφορετικές έννοιες, ή αντιστρόφως, φαινοµένων, όπου πολλοί όροι αντιστοιχούν σε µία έννοια, εντοπίζοντας και καταγράφοντας τέτοια φαινόµενα ασάφειας. Η αυτόµατη αναγνώριση όρων δεν αποτελεί εύκολο έργο καθώς η διαδικασία εντοπισµού όρων είναι συχνά δύσκολη ακόµη και για τους ειδικούς. Ο Διεθνής Οργανισµός Τυποποίησης (ISO) ορίζει ως όρο «την απόδοση µιας συγκεκριµένης έννοιας µιας εξειδικευµένης γλώσσας σε µια γλωσσική έκφραση» και ως έννοια «...το νοητικό κατασκεύασµα που στοχεύει στην κατηγοριοποίηση µεµονωµένων αντικειµένων του εσωτερικού και του εξωτερικού κόσµου...» (ISO704, 1986). Θεωρητικά οι όροι πρέπει να είναι µονοσήµαντοι, δηλαδή ένας και µόνο όρος πρέπει να αντιστοιχεί σε µία και µόνο έννοια. Στην πράξη όµως, πολλές φορές εµφανίζονται φαινόµενα αµφισηµίας και πολυσηµίας, όταν ένας όρος αντιστοιχεί σε πολλές έννοιες, και συνωνυµίας, όπου πολλοί όροι εκφράζουν την ίδια έννοια. Ένα άλλο πρόβληµα για τον εντοπισµό όρων είναι ότι, πέρα από το ειδικό σηµασιολογικό περιεχόµενό τους, δεν υπάρχουν γενικά και καθορισµένα κριτήρια για τη διάκρισή τους. Μια λεξικολογική µονάδα µπορεί να είναι όρος σε κάποιο ειδικό γνωστικό πεδίο, αλλά όχι σε κάποιο άλλο. Επίσης όροι, µπορεί να είναι και λέξεις προερχόµενες από τη γενική γλώσσα, οι οποίες όµως στο συγκεκριµένο τοµέα χρησιµοποιούνται µε ειδική έννοια. Η απλή στατιστική µέτρηση της συχνότητας εµφάνισης χρησιµοποιείται στην λεξικογραφία για τον εντοπισµό µιας λέξης, γιατί µπορούµε να θεωρήσουµε ότι µια λέξη υπάρχει επειδή

2 2 την συναντούµε συχνά σε κείµενα. Ωστόσο, για τον εντοπισµό όρων δεν αποτελεί πάντα επαρκή και καθοριστική ένδειξη, καθώς πολλές λέξεις µπορεί να εµφανίζονται συχνά σε εξειδικευµένα κείµενα χωρίς να είναι όροι. 1.1 Τυπολογία σχηµατισµού ορολογίας Παρόλο που δεν υπάρχουν καθορισµένα κριτήρια διάκρισης µεταξύ όρων και άλλων λέξεων, γεγονός που αποτελεί και µια από τις βασικές δυσκολίες στην αυτόµατη αναγνώριση όρων, υπάρχουν κάποιες διαφορές στους τρόπους σχηµατισµού όρων σε σχέση µε τις άλλες λέξεις. Σε αντίθεση µε τις λέξεις της γενικής γλώσσας, οι όροι σχηµατίζονται µε στόχο, όχι µόνο την ονοµασία, αλλά και την συνειδητή κατηγοριοποίηση και ταξινόµηση εννοιών. Ο σχηµατισµός όρων υπόκειται σε µια µελετηµένη, συνειδητή προσπάθεια, που δρα καθοριστικά στις διεργασίες δηµιουργίας τους. Όταν οι επιστήµονες ανακαλύπτουν νέες έννοιες και προσπαθούν τις ονοµάσουν, συχνά χρησιµοποιούν συγκεκριµένα πρότυπα για την ονοµασία τους. Αυτό βέβαια δεν αποκλείει και ad hoc ονοµασίες. Για το σχηµατισµό όρων διακρίνουµε τρεις τάσεις: την χρήση υπαρκτών πόρων, την τροποποίηση υπαρκτών πόρων και την χρήση νέων πόρων (νεολογισµοί). Στην πρώτη περίπτωση, µπορεί να χρησιµοποιηθούν λέξεις που προέρχονται για παράδειγµα από την γενική γλώσσα, των οποίων το σηµασιολογικό περιεχόµενο συρρικνώνεται σε µια συγκεκριµένη έννοια, ή επεκτείνεται σε µια νέα, όπως π.χ. για τις λέξεις «ποντίκι» «παράθυρο» και «ιστός» στην Πληροφορική. Στην δεύτερη περίπτωση, µπορεί να σχηµατιστούν νέοι όροι βασισµένοι σε υπάρχοντες όρους, είτε µε χρήση µορφολογικών προσφυµάτων, π.χ. methyltransfer-ase, act-in, είτε µε σύνθεση σε µορφή πολυλεκτικών όρων, π.χ. protein kinase C, είτε µε σύντµηση σε µορφή ακρωνύµων, π.χ. EGFR (epidermal growth factor receptor). Τέλος, µπορεί να δηµιουργούνται νεολογισµοί, εντελώς καινούριοι όροι, που είτε αποτελούν ad hoc ονοµασίες, είτε σύνθετες λέξεις ή πολυλεκτικούς όρους, νεοκλασικού τύπου, δηλαδή όρους, που σχηµατίζονται από λατινικά ή ελληνικά, θέµατα ή µεµονωµένα γράµµατα, π.χ. protein kinase alpha, annexin II mrna. Επίσης µπορεί να χρησιµοποιούνται γράµµατα και αριθµοί µαζί, π.χ. NIH 3T3 fibroblasts, CYP1A1 promoter, Ca2+-calmodulin-dependent protein kinase IV, ή κύρια ονόµατα, επώνυµα ενδεχοµένως των επιστηµόνων που ανακάλυψαν τη νέα έννοια, π.χ. Jurkat T cells. Ανάλογα µε τον επιστηµονικό χώρο κάποιες από τις παραπάνω τάσεις υπερισχύουν. Στην Ιατρική ή στη Βιολογία, για παράδειγµα, δηµιουργούνται όροι βασισµένοι κυρίως σε προθήµατα ή επιθήµατα, ακρώνυµα, ή σύνθετες λέξεις νεοκλασικού τύπου, πιο συχνά από ότι σε άλλες επιστήµες. Κάποιες φορές η σηµασία και η λειτουργία των προσφυµάτων είναι εξαιρετικά περιορισµένη, κάτι που δεν συµβαίνει στην γενική γλώσσα, κι εδώ ως χαρακτηριστικό παράδειγµα θα µπορούσε κανείς να αναφέρει όρους όπως «γλυκ-όζη» και «µεθ-άν-ιο» από το χώρο της Οργανικής Χηµείας, όπου ο σχηµατισµός νέων όρων είναι ιδιαίτερα ελεγχόµενος. 1.2 Προβλήµατα στον εντοπισµό όρων: ένθετοι όροι, ασάφεια και ποικιλότητα Όπως είδαµε, η δηµιουργία πολυλεκτικών και σύνθετων όρων είναι ένας αρκετά συνηθισµένος τρόπος δηµιουργίας όρων. Θα µπορούσε κανείς να πει ότι η πλειονότητα των όρων είναι σύνθετες πολυλεκτικές µονάδες. Οι περισσότεροι πολυλεκτικοί όροι είναι ουσιαστικά, που αποτελούνται, είτε από παράταξη δύο ή περισσοτέρων ουσιαστικών, π.χ. bel-2 protein level, είτε από κάποιο ουσιαστικό συνοδευόµενο από επίθετο, π.χ. RA mediated tumor cell invasion. Επίσης η ύπαρξη ένθετων όρων είναι αρκετά συνηθισµένη σε πολυλεκτικούς όρους, π.χ. [ Leukaemic [ T cell ] ] line Kit225 ] όπου οι αγκύλες δηλώνουν ένθετους όρους µέσα στον πολυλεκτικό όρο. Τα συστατικά πολυλεκτικών όρων µπορεί να συνδέονται µε διάφορους τρόπους και ο εντοπισµός ένθετων όρων, ενώ µπορεί να είναι προφανής στον ειδικό επιστήµονα, δεν είναι εξίσου απλός για ένα αυτόµατο σύστηµα αναγνώρισης όρων. Η ύπαρξη πολυλεκτικών και ένθετων όρων αποτελεί µια από τις κύριες ερευνητικές προκλήσεις στο χώρο της αυτόµατης

3 3 αναγνώρισης όρων, γιατί είναι στενά συνυφασµένη µε τα προβλήµατα ασάφειας και ποικιλότητας των όρων. Η ασάφεια (ambiguity) είναι ένα γενικό φαινόµενο των φυσικών γλωσσών κι έχει εκτεταµένα απασχολήσει τον ερευνητικό χώρο της επεξεργασίας γλώσσας. Ειδικότερα στον τοµέα της αυτόµατης αναγνώρισης όρων η ασάφεια µπορεί να είναι µορφοσυντακτική, συντακτική σηµασιολογική, και ταξινόµησης. Μορφοσυντακτική ασάφεια έχουµε όταν µια λέξη µπορεί να ερµηνευθεί, για παράδειγµα, είτε ως ουσιαστικό, είτε ως ρήµα. Με την σηµερινή εξέλιξη στον τοµέα των ηλεκτρονικών µορφοσυντακτικών αναλυτών, αυτό το πρόβληµα µπορεί να περιοριστεί σηµαντικά, καθώς οι αναλυτές µπορούν να εκπαιδευτούν σε κείµενα συγκεκριµένου τύπου και αντικειµένου. Επίσης, η πλειονότητα των όρων είναι συνήθως ουσιαστικά κι όχι ρήµατα. Καθαρά συντακτική ασάφεια έχουµε σε περιπτώσεις όπου είναι δύσκολο να διαχωριστεί ο προσδιορισµός από το προσδιοριζόµενο, ή είναι δύσκολος ο εντοπισµός του προσδιοριζοµένου (attachment ambiguity) σε έναν πολυλεκτικό όρο που αποτελείται, για παράδειγµα, από πολλά ουσιαστικά. Η επίλυση ενός τέτοιου προβλήµατος είναι συχνά συνδεδεµένη µε την αναγνώριση ένθετων όρων. Η σηµασιολογική ασάφεια είναι ένα πιο δύσκολο πρόβληµα και οφείλεται σε φαινόµενα πολυσηµίας και οµωνυµίας. Πολυσήµαντοι όροι µπορεί να έχουν την ίδια µορφή επιφανείας αλλά να αναφέρονται σε διαφορετικές συγγενείς έννοιες, είτε σε διαφορετικούς χώρους, είτε και στο ίδιο γνωστικό αντικείµενο. Στην πρώτη περίπτωση, για παράδειγµα, ο όρος «φακός / lens», µπορεί να πάρει τρεις διαφορετικές έννοιες στη Φωτογραφία, τη Φυσική και την Ανατοµία αντίστοιχα. Στο χώρο της Φωτογραφίας αναφέρεται ως εξάρτηµα φωτογραφικής µηχανής (π.χ. «ευρυγώνιος φακός, φακός µεταβλητής εστιακής απόστασης») στο χώρο της Φυσικής αναφέρεται ως όργανο εστίασης ή τροποποίησης της κατεύθυνσης των ακτίνων φωτός, ήχου, ηλεκτρονίων, κτλ., ενώ στην Ανατοµία, αναφέρεται στο φακό του µατιού («crystalline lens»). Στην δεύτερη περίπτωση, ο όρος είναι πολυσήµαντος µέσα στο ίδιο γνωστικό αντικείµενο, όταν, για παράδειγµα, ο όρος «γονίδιο» έχει την έννοια α) «του καταγεγραµµένου τµήµατος του DNA που µεταφράζεται σε πρωτεΐνη» β) «της βιολογικού ενδιαφέροντος περιοχής του DNA που κατονοµάζεται και φέρει ένα γενετικό φαινότυπο» (Schulze-Kremer, 1998). Οι οµώνυµοι όροι από την άλλη πλευρά, έχουν την ίδια µορφή επιφανείας αλλά αναφέρονται σε εντελώς διαφορετικές έννοιες, όπως για παράδειγµα οι όροι «plant» (φυτό αλλά και βιοµηχανική µονάδα) και «cell» (κύτταρο, κελί). Τέλος, ασάφεια ταξινόµησης δηµιουργείται όταν µία έννοια, και αντίστοιχα ο όρος που την εκφράζει, µπορεί να κατηγοριοποιηθεί µε πολλούς τρόπους. Αυτού του είδους η ασάφεια ονοµάζεται και πολυ-διαστατικότητα (multi-dimensionality) του όρου και εµφανίζεται ως πολλαπλή κληρονοµικότητα σε µια ιεραρχία όρων, δηλαδή ένας κόµβος σε µια δενδρική ιεραρχία εµφανίζεται να έχει περισσότερους από έναν γονικούς κόµβους. Για παράδειγµα, ο όρος «pulmonary tuberculosis» µπορεί να ταξινοµηθεί και ως ασθένεια του αναπνευστικού συστήµατος και ως µεταδοτική ασθένεια. Η άρση της ασάφειας ενός όρου είναι σηµαντική για την αυτόµατη αναγνώριση όρων γιατί επιτρέπει την κατηγοριοποίηση των όρων ανάλογα µε τη σηµασία τους. Ο βαθµός λεπτοµέρειας, που επιθυµούµε να έχουµε, στην ταξινόµηση και διάκριση µεταξύ των ορολογικών εννοιών εξαρτάται από την εφαρµογή (π.χ. εξαγωγής πληροφοριών ή ανάπτυξης οντολογίας). Η σηµασιολογική αποσαφήνιση των όρων µπορεί να επιτευχθεί µε στατιστικές µετρήσεις οµοιότητας µεταξύ των εξαχθέντων όρων και του γλωσσικού τους περιβάλλοντος. Ποικιλότητα (term variation) παρουσιάζεται όταν µία έννοια εκφράζεται µε πολλούς όρους, συνώνυµους ή παραλλαγές του ίδιου όρου (term variants). Η ποικιλότητα είναι ένα αρκετά διαδεδοµένο φαινόµενο στην ορολογία. Υπολογίζεται ότι το 37% των όρων που εµφανίζονται σε ένα κείµενο αποτελούν παραλλαγές όρων (Jaquemin, 1999). Η ποικιλότητα των όρων µπορεί να κυµαίνεται από απλή ορθογραφική διαφοροποίηση µέχρι και σηµασιολογική. Ο εντοπισµός και η αναγνώριση παραλλαγών όρων είναι κεφαλαιώδους σηµασίας για εφαρµογές όπως η εξαγωγή πληροφοριών, η ανάκτηση πληροφοριών και η

4 4 δηµιουργία θησαυρών. Είναι σηµαντικό να γνωρίζει κανείς κατά πόσον διαφορετικές επιφανειακές µορφές όρων αναφέρονται στην ίδια έννοια ή δεν σχετίζονται µεταξύ τους. Κατά τον Jaquemin (Jaquemin, 1999) η ποικιλότητα µπορεί να είναι είτε καθαρά µορφολογική, συντακτική, ή σηµασιολογική, είτε συνδυασµός αυτών των διαφοροποιήσεων. Στην περίπτωση της µορφολογικής ποικιλότητας η διαφοροποίηση οφείλεται σε χρήση µορφολογικών καταλήξεων, είτε γραµµατικών, π.χ. Ενικός/Πληθυντικός, biochemical study / biochemical studies, είτε παραγωγικών, π.χ. enzyme activity / enzymatic activity. Στην περίπτωση της συντακτικής ποικιλότητας µπορεί, για παράδειγµα, να έχουµε παρεµβολή (insertion) ενός προσδιορισµού, π.χ. human clones / human DNA clones ή ανάπτυξη (expansion) και αντιµετάθεση προσδιορισµού (permutation), π.χ. genetic disease / disease is genetic, enzyme activity / activity of enzyme. Η συντακτική ποικιλότητα µπορεί επίσης να οφείλεται σε διάφορους τύπους παρατακτικής σύνδεσης όρων, µε χρήση συµπλεκτικού ή διαζευκτικού συνδέσµου, π.χ. enzyme and bactericical activity, ή µε χρήση κόµµατος, παύλας ή καθέτου, π.χ. immuno-affinity chromography / immuno-, steroid-, and site specific DNA-affinity chromography. Η σηµασιολογική ποικιλότητα παρατηρείται µε τη χρήση συνωνύµων, π.χ. genetic disease / hereditary disease. Πέρα από αυτές τις κατηγορίες και τους συνδυασµούς τους, µπορεί να εµφανίζονται παραλλαγές όρων λόγω ορθογραφικών διαφοροποιήσεων, π.χ. signalling pathway (Αγγλικά Η.Β.) / signaling pathway (Αγγλικά Η.Π.Α.) ή amino acid / amino-acid (χρήση παύλας). Επίσης ακρώνυµα και συντοµευµένες εκδοχές είναι χαρακτηριστικά είδη παραλλαγών της ανεπτυγµένης µορφής ενός όρου. Η ποικιλότητα, ιδιαίτερα στις περιπτώσεις σύντµησης και περικοπής όρων δηµιουργεί σοβαρά προβλήµατα ασάφειας. Οι συντετµηµένοι όροι και τα ακρώνυµα πολλές φορές αναφέρονται σε διαφορετικούς ανεπτυγµένους όρους. Για παράδειγµα, το ακρώνυµο ATR µπορεί στην ανεπτυγµένη µορφή του να αναφέρεται σε Above Threshold Reporting, Air Turbo Rocket, Acceptance Test Report, Automatic Target Recognition, Aerial Target Review, Advanced Tactical Radar, κ.ά. µέσα στο ίδιο γνωστικό αντικείµενο (Mountain Data Systems). Ερευνητικές προσπάθειες για τον εντοπισµό παραλλαγών όρων περιλαµβάνουν τη χρήση stemmer, δηλαδή συστηµάτων που διαχωρίζουν το θέµα από την κατάληξη µιας λέξης, τη χρήση µορφολογικών αναλυτών, ηλεκτρονικών λεξικών και ορολογικών βάσεων, µορφοσυντακτικών αναλυτών, στατιστικών µετρήσεων και γλωσσολογικών κανόνων. Ένα από τα πιο γνωστά συστήµατα αναγνώρισης παραλλαγών όρων είναι το σύστηµα FASTR (Jaquemin, 1999). 2 Μέθοδοι ερευνητικής προσέγγισης Οι ερευνητικές προσεγγίσεις για την αντιµετώπιση των ιδιαιτεροτήτων και των προβληµάτων που παρουσιάζει η αναγνώριση όρων έχουν κατά καιρούς ως αφετηρία τεχνικές και θεωρίες από άλλους ερευνητικούς τοµείς. Έτσι, θα µπορούσε κανείς να τις διακρίνει ανάλογα µε τον ερευνητικό χώρο από τον οποίο εµπνέονται: Μεθόδους που προέρχονται από το χώρο της Επιστήµης της Πληροφόρησης (Information Science), όπως στατιστικές µεθόδους και άλλες τεχνικές δεικτοδότησης (indexing), κατηγοριοποίησης και οµαδοποίησης κειµένων προερχόµενες από το ερευνητικό αντικείµενο της Ανάκτησης Πληροφοριών. Μεθόδους που βασίζονται σε Γλωσσολογικές θεωρίες, κυρίως των τοµέων λεξικολογικής, µορφολογικής και µορφοσυντακτικής έρευνας. Υβριδικές µέθοδοι, που συνήθως συνδυάζουν τεχνικές στατιστικής µε γλωσσολογικές θεωρίες και µεθόδους. Και τέλος, µέθοδοι, που προέρχονται από τον ερευνητικό χώρο της Τεχνητής Νοηµοσύνης και που εφαρµόζουν διαφόρους αλγορίθµους µηχανικής µάθησης (Machine Learning algorithms). Στη συνέχεια λοιπόν, θα αναφερθούµε σε γενικές γραµµές στις θεωρητικές βάσεις κάθε µιας από αυτές τις ερευνητικές προσεγγίσεις και σε συστήµατα αναγνώρισης όρων που τις

5 5 εφαρµόζουν, προσπαθώντας να καταδείξουµε τα πλεονεκτήµατα και τα µειονεκτήµατα κάθε µεθόδου. 2.1 Στατιστικές µέθοδοι Τα τελευταία χρόνια παρατηρείται γενικότερα µια αύξηση στη χρήση στατιστικών µεθόδων σε εφαρµογές και συστήµατα επεξεργασίας γλώσσας. Στον τοµέα της αναγνώρισης όρων, οι στατιστικές µέθοδοι που χρησιµοποιήθηκαν αρκετά σε αρχικό στάδιο προέρχονταν κυρίως από την ερευνητική παράδοση του τοµέα της ανάκτησης πληροφοριών, όπως θα δούµε και στη συνέχεια. Έτσι χρησιµοποιήθηκαν αρχικά µετρήσεις συχνότητας εµφάνισης και µετρήσεις κατανοµής (distribution measures) και οµοιότητας (similarity measures) για τον εντοπισµό και την κατηγοριοποίηση όρων αντίστοιχα. Η συχνότητα εµφάνισης (frequency of occurrence) είναι από τις πιο απλές και τις πιο δηµοφιλείς µεθόδους στην αυτόµατη εξαγωγή όρων. Μπορεί να εφαρµοστεί ανεξάρτητα από το αντικείµενο και τη φύση του κειµένου και δεν χρειάζεται άλλες εξωτερικές πηγές. Βασίζεται στη λογική Termhood(a) = f(a), όπου η πιθανότητα µια στοιχειοσειρά (string) a να αποτελεί όρο ισούται µε την συχνότητα εµφάνισης του α στο κειµενικό σώµα. Πολλές µέθοδοι µέχρι σήµερα, χρησιµοποιούν τη συχνότητα εµφάνισης για την κατηγοριοποίηση εξαγόµενων πιθανών όρων (Dagan & Church, 1994, Enguehard & Pantera, 1994, Lauriston, 1996, κ.ά.). Στις µετρήσεις συχνότητας εµφάνισης ο πιθανός πολυλεκτικός ή σύνθετος όρος αντιµετωπίζεται ως µια µονάδα, χωρίς να χρησιµοποιούνται άλλες πληροφορίες για τα συστατικά του. Όπως θα δούµε και στη συνέχεια, τέτοιου είδους µετρήσεις δεν αρκούν, αν δεν συνοδεύονται και από κάποιες γλωσσικές πληροφορίες. Κι αυτό γιατί στην εξαγωγή όρων, µας ενδιαφέρουν τόσο όροι που εµφανίζουν υψηλή συχνότητα, όσο και όροι σπάνιοι ή όροι µε µέτριες τιµές εµφάνισης. Ωστόσο, η µέτρηση αυτή παρουσιάζει αρκετά καλά αποτελέσµατα στον εντοπισµό αµετάβλητων φράσεων (fixed phrases). Σήµερα χρησιµοποιείται σε υβριδικά συστήµατα αναγνώρισης όρων σε συνδυασµό µε κάποιο γλωσσικό φίλτρο αποδεκτών συντακτικών µοτίβων, όπως στο TERMINO (Lauriston, 1994), TERMIGHT, (Dagan & Church, 1995) και Enguehard & Pantera (1994). Μια άλλη µέτρηση στατιστική προερχόµενη από το χώρο της λεξικογραφίας και της γλωσσολογικής έρευνας κειµενικών σωµάτων (Corpus Linguistics) είναι αυτή της αµοιβαίας πληροφορίας (Mutual Information). Μετρήσεις αµοιβαίας πληροφορίας χρησιµοποιήθηκαν αρχικά για τον εντοπισµό λέξεων που εµφανίζονται συνήθως µαζί σε ιδιωµατικές εκφράσεις (collocations), όπως για παράδειγµα «µέρα µεσηµέρι», «είναι στα µαχαίρια», «παίρνω δρόµο», «κόβω βόλτες», «έκανα µαύρα µάτια να την δω», «κάνω υποµονή», κ.ά. Σε τέτοιες περιπτώσεις µία λέξη έχει πολύ στενή σχέση µε αυτή που τη συνοδεύει στη φράση. Υπάρχουν λοιπόν σαφείς οµοιότητες µεταξύ αυτών των εκφράσεων της γενικής γλώσσας και των όρων, γιατί και στις δύο περιπτώσεις η σχέση των λέξεων που τις απαρτίζουν παρουσιάζει µια σταθερότητα. Δηλαδή δεν θα έλεγε κανείς, για παράδειγµα, «κόβω περίπατο» αντί για «κόβω βόλτες» ή «παίρνω τον δρόµο» αντί για «παίρνω δρόµο». Όπως και οι ιδιωµατικές εκφράσεις έτσι και οι όροι αναφέρονται σε µια συγκεκριµένη έννοια και επιδέχονται συγκεκριµένους προσδιορισµούς. Η αµοιβαία πληροφορία στατιστικά ορίζεται ως το ποσό της πληροφορίας που παρέχεται από την εµφάνιση του γεγονότος y i για την εµφάνιση του γεγονότος x k ως: Ι(x k, y i ) log P(x k, y i ) / P(x k ) P(, y i ) Fano (1961:27-28) Η µέτρηση αµοιβαίας πληροφορίας µας δείχνει τι πληροφορία µας δίνει µια λέξη για άλλες που δύνανται να εµφανιστούν µαζί της. Προβλήµατα σε τέτοιου είδους µετρήσεις αποτελεί η έλλειψη επαρκών δεδοµένων (data sparseness) γιατί υπερεκτιµώνται προτεινόµενα ζεύγη λέξεων (bigrams), που αποτελούνται από λέξεις µε χαµηλή συχνότητα στο κειµενικό σώµα (Kita et al., 1994). Επίσης οι µετρήσεις γίνονται εξαιρετικά περίπλοκες όταν χρησιµοποιούνται για φράσεις άνω των δύο λέξεων (Frantzi & Ananiadou, 1995). Μετρήσεις

6 6 αµοιβαίας πληροφορίας έχουν χρησιµοποιηθεί σε µεθόδους εντοπισµού πιθανών όρων που αποτελούνται από δύο λέξεις από τους Damerau (1993) και Daille et al. (1994). Σε έρευνες που έγιναν από τους Daille et al. (1994) µελετήθηκαν για την εξαγωγή διλεκτικών όρων και άλλες στατιστικές µετρήσεις, όπως µετρήσεις του συντελεστή Φ 2 (Gale & Church, 1991) και του συντελεστή λογαριθµικού τύπου (loglike coefficient) (Dunning, 1993). Όµως τα αποτελέσµατα που αναφέρονται κατά Daille et al. (1994), δεν παρουσιάζουν σηµαντική βελτίωση. Υποστηρίζεται ότι ο συντελεστής λογαριθµικού τύπου αποτελεί καλή µέτρηση για υποψήφιους όρους µεγάλης συχνότητας. Ο συντελεστής λογαριθµικού τύπου δεν χρησιµοποιείται για όρους άνω των δύο λέξεων. Για τον εντοπισµό συσχετισµών λέξεων σε πολυλεκτικούς όρους προτείνονται µετρήσεις της C/ NC τιµής (Frantzi & Ananiadou, 1999). Ως τιµή C ορίζεται ο συσχετισµός της συνολικής τιµής συχνότητας εµφάνισης µιας σειράς λέξεων σε ένα σώµα κειµένων, µε τη συχνότητα εµφάνισης της σειράς λέξεων ως τµήµα µεγαλύτερων πιθανών όρων, τον αριθµό αυτών των µεγαλύτερων όρων και την έκταση σε αριθµό λέξεων αυτής της σειράς: C-value (a) =log 2 a f(a), για τους µη ένθετους όρους και: C-value (a) = log 2 a, για ένθετους όρους όπου α ο υποψήφιος πολυλεκτικός όρος, α, η έκταση του πολυλεκτικού όρου σε λέξεις και f(a), η συχνότητα εµφάνισής του είτε µεµονωµένα, είτε ως ένθετου όρου, µέσα σε άλλους πολυλεκτικούς όρους. Κατά αυτό τον τρόπο εντοπίζονται κι εξάγονται πολυλεκτικοί και ένθετοι όροι της µορφής: adenoid cystic basal cell carcinoma, cystic basal cell carcinoma, ulcerated basal cell carcinoma, recurrent basal cell carcinoma, basal cell carcinoma. Η τιµή NC αποδίδει κάποιους συντελεστές βαρύτητας (weights) σε συγκείµενες λέξεις (context words) και συγκεκριµένα σε ρήµατα, ουσιαστικά κι επίθετα, που εµφανίζονται στο γλωσσικό περιβάλλον του όρου. Υπολογίζει τον αριθµό των όρων στους οποίους εµφανίζεται µια συγκείµενη λέξη, τη συχνότητά της ως συγκείµενη λέξη και τη συνολική συχνότητά της στο κειµενικό σώµα. Ο συντελεστής βαρύτητας αποδίδει υψηλότερες τιµές σε λέξεις που τείνουν να εµφανίζονται µε όρους: H τιµή NC στη συνέχεια ορίζεται ως εξής: NC-value(a) =0.8* C-value(a)+0.2*CF(a) όπου α είναι ο πιθανός προτεινόµενος όρος, C-value(α) είναι η τιµή C για αυτό τον όρο α, και CF(a) είναι ο συντελεστής γλωσσικού περιβάλλοντος, που υπολογίζεται πολλαπλασιάζοντας το σύνολο των συντελεστών βαρύτητας των συγκειµένων λέξεων µε την συχνότητα συνεµφάνισής τους µε αυτό τον όρο. Η αναγνώριση όρων µε βάση την τιµή NC κατά την αξιολόγηση εµφανίζει απόδοση που κυµαίνεται µεταξύ 91% και 99% (Nuclear Receptors Corpus) (Ananiadou et al. 2000). 2.2 Αυτόµατη Δεικτοδότηση Η βασική υπόθεση στην διαδικασία δεικτοδότησης είναι ότι µια λέξη, ή περισσότερες λέξεις ενός κειµένου, που εµφανίζονται συχνότερα σε αυτό το κείµενο σε σχέση µε άλλα, µπορούν να είναι ενδεικτικές του περιεχοµένου του, ως λέξεις κλειδιά (key words). Αυτές οι λέξεις ονοµάζονται ενδεικτικοί όροι (index terms) και αφού εντοπιστούν µπορεί να αποτελέσουν τη βάση για την ταξινόµηση ενός κειµένου και µια γενική «ετικέτα», κατά κάποιο τρόπο, του κειµένου, που το διαφοροποιεί σε σχέση µε άλλα και µπορεί να χρησιµοποιηθεί για την αναζήτηση και την ανάκτησή του µέσα από µια µεγάλη συλλογή κειµένων. Χαρακτηριστική

7 7 εφαρµογή µιας τέτοιας διαδικασίας βρίσκουµε στις µηχανές αναζήτησης (search engines), όπου αφού υποβάλουµε ένα ερώτηµα µε τη µορφή λέξης κλειδί, η µηχανή αναζήτησης ανακτά από το σύνολο των ιστοσελίδων που έχει κατηγοριοποιήσει, τις ιστοσελίδες που αντιστοιχούν στο ερώτηµά µας. Βασισµένα σε αυτή τη λογική, τα συστήµατα αυτόµατης δεικτοδότησης κειµένων προσπαθούν να εντοπίσουν χρήσιµους ενδεικτικούς όρους. Για το σκοπό αυτό χρησιµοποιούνται διάφορες στατιστικές µετρήσεις και κυρίως µετρήσεις, της απλής συχνότητας εµφάνισης µιας λέξης, ή φράσης σε ένα κείµενο, και µετρήσεις κατανοµής των λέξεων σε µια συλλογή κειµένων, που µπορεί να µας δώσουν µια πιο ακριβή εικόνα για τις διαφορές µεταξύ τους. Το σύστηµα FASIT ήταν ένα από τα πρώτα συστήµατα αναζήτησης ενδεικτικών όρων µε χρήση κάποιων πολύ απλών εργαλείων επεξεργασίας γλώσσας. Επιχειρεί να «εντοπίσει κειµενικές µονάδες που φέρουν πληροφορίες για το περιεχόµενο του κειµένου χωρίς πλήρη ανάλυση και, χωρίς χρήση σηµασιολογικών κριτηρίων, οµαδοποιεί αυτές τις µονάδες σε σύνολα ηµι-συνώνυµων µονάδων» (Dillon & Gray, 1983:99). Το FASIT επεξεργάζεται κείµενα σε δύο στάδια: εντοπισµού όρων και οµαδοποίησης. Αρχικά γίνεται µορφοσυντακτική ανάλυση του κειµένου µε βάση λεξικό που περιέχει πληροφορίες για την δυνατή µορφοσυντακτική κατηγορία των ληµµάτων και κυρίως των καταλήξεων. Θα πρέπει να σηµειωθεί εδώ ότι ως κατάληξη, ορίζονται πολύ µηχανικά, οι τελευταίοι χαρακτήρες µιας λέξης και όχι η µορφολογική κατάληξη, όπως αυτή ορίζεται στην γλωσσολογία. Με βάση αυτές τις πληροφορίες προτείνονται κάποιες κατηγορίες, ρήµα, ουσιαστικό, επίθετο, κτλ. Για την αντιµετώπιση προβληµάτων µορφοσυντακτικής ασάφειας, χρησιµοποιείται συνδυαστικά µια λίστα εξαιρέσεων, µε τα πιθανά ασαφή λήµµατα, και κανόνες βασισµένοι στις καταλήξεις. Στις µονάδες που παραµένουν ασαφείς αποδίδεται η προκαθορισµένη επισηµείωση: [ADJ N V]. Στη συνέχεια εντοπίζονται ενδεικτικοί του περιεχοµένου όροι µε βάση την αντιστοιχία που παρουσιάζουν (pattern matching) µε κάποια προκαθορισµένα µορφοσυντακτικά µοτίβα και ένα λεξικό βασικών εννοιών. Κατά την οµαδοποίηση των όρων χρησιµοποιούνται παραδοσιακές τεχνικές ανάκτησης πληροφοριών. Γίνεται απλοποίηση των κειµενικών µονάδων καταρχήν µε την εξάλειψη λέξεων που θεωρείται ότι δεν έχουν σηµασιολογικό περιεχόµενο (function words), όπως π.χ, «of», «by», κ.ά., µε βάση λίστα καταγεγραµµένων τέτοιων λέξεων (stoplist). Επίσης γίνεται αποκοπή της κατάληξης (stemming). Στη συνέχεια εφαρµόζονται τεχνικές ανακατάταξης των όρων µε βάση τον πιθανό όρο κεφαλή και αλφαβητικής ταξινόµησης, τεχνικές εξίσου συνηθισµένες στην αυτόµατη δεικτοδότηση και κατηγοριοποίηση για ανάκτηση κειµένων. Η οµαδοποίηση γίνεται µε βάση µετρήσεις συχνότητας εµφάνισης και στατιστικές µετρήσεις κατανοµής. Μετράται η συχνότητα εµφάνισης του θέµατος των όρων στο κείµενο και στο λεξικό εννοιών σε σχέση µε τον αριθµό των διαφορετικών εννοιών στις οποίες εµφανίζεται ο όρος. Αν ο όρος εµφανίζεται σε µεγάλο αριθµό διαφορετικών εννοιών τότε δεν γίνεται οµαδοποίηση, εάν πάλι εµφανίζεται σε µικρό αριθµό εννοιών, τότε αυτές οµαδοποιούνται. Το FASIT ήταν ένα από τα πρώτα ολοκληρωµένα συστήµατα εντοπισµού ενδεικτικών όρων που επιχείρησε να ενσωµατώσει επιφανειακές τεχνικές επεξεργασίας γλώσσας για ανάκτηση πληροφοριών και να εκµεταλλευτεί απλά γλωσσικά εργαλεία, όπως stemmers και απλά λεξικά. Ήταν επίσης ένα από τα πρώτα που εισηγήθηκαν αυτόµατη και µεγάλης κλίµακας δεικτοδότηση κειµένων. Σήµερα ένα τέτοιο σύστηµα θεωρείται µάλλον «πρωτόγονο», καθώς έχει πλέον αναγνωριστεί η ανάγκη χρήσης γλωσσολογικών πληροφοριών στην επεξεργασία κειµένου. Με την ανάπτυξη αποτελεσµατικών µορφοσυντακτικών και µορφολογικών αναλυτών µπορεί να έχουµε πολύ καλύτερα και πιο ακριβή αποτελέσµατα από αυτά που µπορεί να προσφέρει ένα απλό λεξικό µε επιφανειακές πληροφορίες µορφοσυντακτικών µοτίβων κι ένας stemmer. Ένα άλλο σύστηµα που χρησιµοποιεί τεχνικές αυτόµατης δεικτοδότησης για των εντοπισµό όρων είναι το σύστηµα CLARIT (Evans et al., 1995). Τo CLARIT χρησιµοποιεί επεξεργασία κειµένου για τον εντοπισµό πολυλεκτικών όρων. Μετά από µορφολογική ανάλυση εντοπίζονται οι ονοµατικές φράσεις και η επιλογή των πιθανών πολυλεκτικών όρων γίνεται

8 8 µέσω δύο στατιστικών µετρήσεων που βασίζονται σε παρατήρηση (heuristics). Μετράται στατιστικά σε ποιο βαθµό τα συνθετικά µιας πολυλεκτικής µονάδας εµφανίζονται συχνά µαζί και συµπεριφέρονται σαν µια λέξη (lexicalisation), και κατά πόσον άλλες λέξεις µπορεί να παρεµβάλλονται µεταξύ τους. Τέτοιου είδους τεχνικές ανάκτησης πληροφοριών όπως η δεικτοδότηση, φαίνεται φυσικό µε µια πρώτη µατιά να έχουν κάποια συνάφεια µε την αυτόµατη αναγνώριση όρων, καθώς και η αυτόµατη δεικτοδότηση και η αυτόµατη αναγνώριση όρων εστιάζουν στον εντοπισµό λέξεων. Όµως ενώ υπάρχουν σαφείς οµοιότητες µεταξύ της εξαγωγής όρων και της δεικτοδότησης κειµένων, τα προβλήµατα και οι στόχοι είναι διαφορετικοί. Ο στόχος στην αυτόµατη δεικτοδότηση κειµένων όπως είδαµε είναι ο εντοπισµός ενδεικτικών όρων που διακρίνουν ένα κείµενο και συνεπώς διευκολύνουν την ταξινόµηση και ανάκτησή του µέσω ενός συστήµατος ανάκτησης πληροφοριών. Από την άλλη πλευρά ο στόχος ενός συστήµατος αυτόµατης αναγνώρισης όρων είναι ο εντοπισµός των όρων που εκφράζουν έννοιες εξειδικευµένων γλωσσών. Οι ενδεικτικοί όροι δεν είναι απαραίτητα τεχνικοί / επιστηµονικοί όροι. Συνήθως αποτελούν ένα µείγµα ορολογίας και λέξεων της γενικής γλώσσας. Επίσης οι περισσότερες µέθοδοι αυτόµατης δεικτοδότησης εστιάζονται στον εντοπισµό µεµονωµένων λέξεων κλειδιά, ενώ όπως είδαµε οι όροι στην πλειονότητά τους είναι πολυλεκτικές µονάδες. Εξάλλου οι όροι µπορεί να µην είναι ενδεικτικοί όροι για κάποια κείµενα. 2.3 Γλωσσολογικές Μέθοδοι Αυτές οι µέθοδοι βασίζονται σε κανόνες και χρησιµοποιούν γλωσσική προ-επεξεργασία και επισηµείωση κειµένου που γίνεται από µορφοσυντακτικούς αναλυτές ή από επιφανειακούς συντακτικούς αναλυτές. Χρησιµοποιούν ηλεκτρονικά λεξικά, υπάρχουσες βάσεις γνώσης του τοµέα και εντοπίζουν επαναλαµβανόµενα µορφολογικά και συντακτικά µοτίβα σχηµατισµού όρων στο συγκεκριµένο γνωστικό αντικείµενο. Για παράδειγµα, µορφολογικά, διακρίνουν συνήθη επιθέµατα π.χ. Ουσιαστικό + επίθεµα (-ase, -in) και συνήθη συντακτικά µοτίβα όπως, για παράδειγµα, Ουσιαστικό + Ουσιαστικό, (Επίθετο Ουσιαστικό) + Ουσιαστικό, κτλ. Πρώτο στάδιο της γλωσσικής προ-επεξεργασίας αποτελεί ο εντοπισµός στο κείµενο των ελαχίστων κειµενικών µονάδων ή tokens. Η διαδικασία αυτή ονοµάζεται tokenisation. Οι tokenisers, εκµεταλλεύονται επιφανειακά κειµενικά χαρακτηριστικά όπως σηµεία στίξης, διαστήµατα µεταξύ των λέξεων και την ύπαρξη κεφαλαίων ή µικρών γραµµάτων, για το χωρισµό του κειµένου σε λέξεις και προτάσεις. Σε αυτό το στάδιο άλλες γλωσσικές πληροφορίες είναι ελάχιστες. Ο διαχωρισµός λέξεων και προτάσεων κατά αυτό τον τρόπο είναι ένα δύσκολο έργο που µπορεί και να δηµιουργήσει προβλήµατα αν σκεφτεί κανείς το ρόλο κάποιων σηµείων στίξης και των κεφαλαίων και µικρών γραµµάτων στην δηµιουργία όρων. Για παράδειγµα, η φράση «text-based medium» µπορεί κατά τον tokeniser να αποτελείται από δύο ελάχιστες µονάδες / λέξεις. Όµως γλωσσολογικά πρέπει να θεωρηθεί ως δύο λέξεις, τρεις ή µία; Στις περιπτώσεις σύνθετων, πολυλεκτικών όρων και των παραλλαγών τους, ουσιαστικά όπως «data bases» µπορεί να εµφανίζονται στο κείµενο ως «data bases», «databases», «data-bases», «DBs» ή «D.B.». Κατά την tokenisation αναγνωρίζονται και κάποιες χρήσιµες επιφανειακές πληροφορίες γραφής, τις οποίες µπορούµε να κρατήσουµε µε τη µορφή επισηµειώσεων (tags), για χρήση σε επόµενο στάδιο επεξεργασίας, π.χ. NF [orth=upper], Cys [orth=mixed] όπου οι αγκύλες δηλώνουν την επισηµείωση, γραφή µε κεφαλαία ή µεικτά αντίστοιχα. Η µορφολογική επεξεργασία είναι ένα άλλο στάδιο γλωσσικής προ-επεξεργασίας. Σε αυτό το στάδιο µπορούµε είτε να εφαρµόσουµε απλό διαχωρισµό θέµατος και κατάληξης (stemming), είτε πιο σύνθετη µορφολογική ανάλυση. Οι stemmers διαχωρίζουν το θέµα από την κατάληξη µε απλό, µηχανικό τρόπο, µε την περικοπή, για παράδειγµα, των τελευταίων 2-3 χαρακτήρων µιας λέξης: studies stud. Η επεξεργασία τέτοιου τύπου συνήθως δεν περιλαµβάνει ιδιαίτερες γλωσσικές πληροφορίες, πέρα από κάποιους πολύ γενικούς κανόνες για τη µορφή της κατάληξης και την αναµενόµενη έκταση της σειράς στοιχείων / χαρακτήρων που πρέπει να περικοπούν. Μπορεί λοιπόν κατά το stemming να υπάρξουν σφάλµατα και απώλεια πληροφορίας είτε λόγω περικοπής χαρακτήρων που δεν ανήκουν

9 9 στην κατάληξη αλλά στο θέµα (overstemming), είτε λόγω περικοπής λιγότερων χαρακτήρων από αυτούς που ανήκουν στην κατάληξη (understemming). Όµως, από την άλλη πλευρά, το stemming είναι µια επεξεργασία αρκετά απλή και γρήγορη, µε σχετικά ικανοποιητικά αποτελέσµατα και για το λόγο αυτό χρησιµοποιείται ευρέως σε εφαρµογές ανάκτησης πληροφοριών και αυτόµατης αναγνώρισης όρων. Ένας από τους πιο γνωστούς αλγορίθµους για stemming είναι ο αλγόριθµος Porter (Porter, 1980). Πιο σύνθετοι µορφολογικοί αναλυτές (morphological analysers), βασίζονται σε γλωσσικούς κανόνες και λεξικά. Σε αυτή την περίπτωση, εντοπίζονται τα προσφύµατα και τα γλωσσικά χαρακτηριστικά κάθε προσφύµατος και παράγονται δενδρικές δοµές λέξεων που αναλύουν τον τρόπο µε τον οποίο τα µορφήµατα συνδυάζονται για τη δηµιουργία λέξεων. Η µορφολογική επεξεργασία είναι ιδιαίτερα σηµαντική στην αναγνώριση όρων γιατί αποδίδει την κανονική, απλοποιηµένη µορφή (normalised form) ενός όρου, περιορίζοντας προβλήµατα µορφολογικής ποικιλότητας. Για αυτό το λόγο, όταν χρησιµοποιείται µορφολογική επεξεργασία σε συνδυασµό µε στατιστικές µεθόδους, τα αποτελέσµατα των µετρήσεων µπορούν να βελτιωθούν σηµαντικά µε τη χρήση του θέµατος ενός όρου στις µετρήσεις αντί των επιφανειακών µορφολογικών παραλλαγών του. Η κυρίως γλωσσική επεξεργασία συνίσταται στη χρήση µορφοσυντακτικών αναλυτών (part of speech/pos taggers) και κάποιες φορές και επιφανειακών συντακτικών αναλυτών (shallow parsers). Οι µορφοσυντακτικοί αναλυτές µπορεί να είναι διαφόρων τύπων. Μπορεί να βασίζονται σε γλωσσικούς κανόνες, ή σε στατιστικές µεθόδους για την ανάλυση. Τα δεδοµένα εξόδου (output data) ενός µορφοσυντακτικού αναλυτή είναι κείµενα, όπου οι λέξεις συνοδεύονται από τη µορφοσυντακτική τους επισηµείωση (POS tag). Για παράδειγµα, η πρόταση «Polymorphs and nuclear debris are present in the keratinous cap.» µετά από µορφοσυντακτική ανάλυση παίρνει τη µορφή: polymorphs/nnp and/cc nuclear/jj debris/nn are/vbp present/jj in/in the/dt keratinous/nnp cap/nn./. όπου η κάθετος δηλώνει µορφοσυντακτική επισηµείωση ( Ουσ.-NNP, Επίθ.-JJ, κτλ.). Στο παράδειγµα παρατηρούµε ότι το επίθετο keratinous δεν έχει αναγνωριστεί σωστά. Πρέπει να λάβουµε υπόψη µας ότι, παρά την εξέλιξη των συστηµάτων µορφοσυντακτικής ανάλυσης, υπάρχει πάντα ένα ενδεχόµενο ποσοστό λάθους, που µπορεί να δηµιουργήσει προβλήµατα στα επόµενα στάδια επεξεργασίας. Μια από τις πρώτες καθαρά γλωσσολογικές µεθόδους αναγνώρισης όρων είναι αυτή της Ανανιάδου (Ananiadou, 1988, 1994) που αναγνωρίζει µονολεκτικούς όρους από το χώρο της Ανοσολογίας. Η µέθοδος βασίζεται θεωρητικά σε έρευνες λεξικολογικής µορφολογίας για την Αγγλική γλώσσα, που επεκτείνονται και εµπλουτίζονται µε στοιχεία για τον εντοπισµό και την κατηγοριοποίηση συνθέτων νεοκλασικού τύπου, δηλαδή συνθέτων µε θέµατα ή καταλήξεις προερχόµενες από την Ελληνική και την Λατινική γλώσσα, ή υβριδικού τύπου, όπως για παράδειγµα, «alphafetoprotein», «immunoosmoelectrophoresis», «radioimmunoassay». Διακρίνει συνήθη µοτίβα σχηµατισµού σύνθετων όρων, όπως για παράδειγµα όρους που αποτελούνται από λέξη της γενικής γλώσσας µε ορολογικό επίθηµα, ή από όρο µε επίθηµα της γενικής γλώσσας. Πέρα από εντοπισµό προθηµάτων, όπως «auto-», «hypo-», και επιθηµάτων, όπως «-osis»,«-itis», κ.ά., που χρησιµοποιούνται στο σχηµατισµό όρων, εντοπίζεται και διακρίνεται και µια άλλη κατηγορία µορφολογικών µονάδων, αυτών που εµφανίζονται µέσα σε σύνθετους όρους ως συνθετικό και µπορεί να συνδυαστούν µε άλλα συνθετικά, όρους ή προσφύµατα, π.χ. «electro», «immuno», κ.ά. Τα µοτίβα αυτά σχηµατισµού όρων χρησιµοποιούνται για τη µορφολογική ανάλυση και στη συνέχεια την αναγνώριση όρων. Έτσι για την αναγνώριση του όρου «periimunoglobulinaemia» µπορεί να χρησιµοποιηθούν πληροφορίες όπως: peri [cat=prefix, type=term, prefixes=n/v/adj, makes=n/v/adj ], immuno [cat=comb, type= term], globulin [cat=comb, type=term], aemia [cat=suffix, type=term, suffixes=comb, makes=n]

10 10 όπου οι αγκύλες δηλώνουν µορφολογική επισηµείωση. Ως κατηγορία comb, κατατάσσονται µορφολογικές µονάδες που εµφανίζονται ως συνθετικά όρων, τα πεδία prefixes/suffixes, για προθήµατα και επιθήµατα αντίστοιχα, περιέχουν πληροφορίες σχετικά µε τη µορφοσυντακτική κατηγορία του θέµατος και το πεδίο makes περιέχει πληροφορίες σχετικά µε τη µορφοσυντακτική κατηγορία του σύνθετου όρου, (Ουσ., Ρ., ή Επίθ.), που το πρόσφυµα δύναται να δηµιουργήσει. Έχει παρατηρηθεί ότι οι περισσότεροι πολυλεκτικοί όροι εµφανίζουν κάποια συγκεκριµένα χαρακτηριστικά σε σχέση µε άλλες ονοµατικές φράσεις. Για παράδειγµα, δεν επιτρέπουν την παρεµβολή άρθρων ή επιρρηµάτων µέσα στην ονοµατική φράση. Έτσι, για την αναγνώριση πολυλεκτικών όρων ανεξαρτήτως γνωστικού αντικειµένου οι περισσότερες γλωσσολογικές µέθοδοι χρησιµοποιούν γλωσσικά φίλτρα (linguistic filters), δηλαδή κανόνες που επιτρέπουν µόνο σε συγκεκριµένα µορφοσυντακτικά µοτίβα να αναγνωρίζονται ως πιθανοί όροι. Τα πιο συνηθισµένα γλωσσικά φίλτρα τέτοιου τύπου είναι αυτά που επιτρέπουν την αναγνώριση διαφόρων τύπων ονοµατικών φράσεων που θα µπορούσαν να προταθούν ως πιθανοί όροι. Ένα γλωσσικό φίλτρο, για παράδειγµα, θα µπορούσε να έχει τη µορφή: ( Adj Noun ) + Noun, δηλαδή να επιτρέπει την αναγνώριση ονοµατικών φράσεων που αποτελούνται από ένα τουλάχιστον ή περισσότερα, επίθετα ή ουσιαστικά ακολουθούµενα από ένα ουσιαστικό. Ένα σύστηµα που βασίζεται σε τέτοιου είδους µορφοσυντακτικές πληροφορίες για την αναγνώριση πολυλεκτικών όρων στη Γαλλική γλώσσα είναι το σύστηµα LEXTER (Bourigault et al., 1996). Χρησιµοποιώντας επιφανειακή µορφοσυντακτική ανάλυση και γλωσσικούς κανόνες βασισµένους σε παρατήρηση (heuristics) των κειµένων, το LEXTER επιχειρεί να εντοπίσει και να εξάγει τις µέγιστες δυνατόν ονοµατικές φράσεις. Στη συνέχεια, αυτές οι φράσεις διαχωρίζονται σε µικρότερες φράσεις και προτείνονται ως πιθανοί όροι αν εµφανίζονται ως ονοµατικές φράσεις και σε άλλα σηµεία του κειµένου. Σε διαφορετική περίπτωση υποβάλλονται σε νέα διχοτόµηση. Οι γραµµατικοί κανόνες του LEXTER χρησιµοποιούν µορφοσυντακτικές και µορφολογικές πληροφορίες για τον εντοπισµό αυτών των µέγιστων δυνατόν ονοµατικών φράσεων. Για τη διχοτόµησή τους χρησιµοποιείται τοπικά συντακτικός αναλυτής. Το LEXTER είναι ένα καθαρά γλωσσολογικό σύστηµα, δεν χρησιµοποιεί στατιστικές µετρήσεις όπως συχνότητα εµφάνισης ή περιορισµούς οριακής τιµής (threshold). Κατά αυτό τον τρόπο, ακόµη και ονοµατικές φράσεις που εµφανίζονται µία φορά στο κειµενικό σώµα (άπαξ λεγόµενα) µπορούν να εντοπιστούν ως πιθανοί όροι. Μειονέκτηµα όµως µιας τέτοιας στρατηγικής είναι η αύξηση του θορύβου στα αποτελέσµατα, δηλαδή η εξαγωγή, στην προκειµένη περίπτωση, ονοµατικών φράσεων που δεν είναι όροι. Επίσης, µέθοδοι, όπως το LEXTER, που βασίζονται σε µεγάλο βαθµό σε γλωσσικούς κανόνες είναι εξαιρετικά ειδικευµένες σε µια γλώσσα και συχνά είναι δύσκολη ή και αδύνατη η προσαρµογή και εφαρµογή τους σε άλλες γλώσσες. Πρόσφατες εξελίξεις των εφαρµογών εξαγωγής πληροφοριών έδωσαν το έναυσµα σε νέες γλωσσολογικές προσεγγίσεις της αυτόµατης αναγνώρισης όρων, βασισµένες σε µεθοδολογίες και υπάρχοντα συστήµατα εξαγωγής πληροφοριών. Δύο τέτοια συστήµατα είναι και τα συστήµατα EMPathIE και PASTA για την αναγνώριση όρων Μοριακής Βιολογίας (Gaizauskas et al., 2000). Τα συστήµατα αυτά βασίζονται στο σύστηµα εξαγωγής πληροφοριών LaSIE (Gaizauskas et al. 1995). Μπορούν να επεξεργαστούν κείµενα δοµικά αναλυµένα (structured texts) µε επισηµειώσεις SGML, αλλά και απλό, καθαρό κείµενο. Στην δεύτερη περίπτωση, πριν από την tokenisation εφαρµόζεται sectioniser, δηλαδή ένα σύστηµα διαχωρισµού του κειµένου σε ζώνες. Ο tokeniser είναι προσαρµοσµένος στις ιδιαίτερες ανάγκες ενός συστήµατος αναγνώρισης όρων, ούτως ώστε να λαµβάνει υπόψη του ιδιαιτερότητες, όπως ο ρόλος των σηµείων στίξης και των µονάδων που αποτελούνται από γράµµατα και αριθµούς, ή περιέχουν παύλες κτλ. Για τη µορφολογική ανάλυση χρησιµοποιείται µορφολογικός αναλυτής εµπλουτισµένος µε πληροφορίες για ορολογικά προσφύµατα. Στη συνέχεια, η αναγνώριση και κατηγοριοποίηση των όρων βασίζεται σε ένα συνδυασµό πληροφοριών ορολογικών λεξικών και γλωσσικών κανόνων. Σε τελικό στάδιο εφαρµόζονται οι κανόνες για αναγνώριση παραλλαγών όρων.

11 11 Για τη δηµιουργία των ορολογικών λεξικών χρησιµοποιούνται ορολογικές βάσεις του τοµέα Βιοχηµείας όπως οι SWISS-PROT, CATH και SCOP, καθώς επίσης και επισηµειωµένα κείµενα. Ένα µέρος των γλωσσικών κανόνων για την αναγνώριση δηµιουργήθηκε µε ηµιαυτόµατο τρόπο, βασισµένο στις πληροφορίες των λεξικών. Οι κανόνες για τον εντοπισµό ορολογικής ποικιλίας εστιάζουν στην αναγνώριση κυρίως ακρωνύµων και συντετµηµένων όρων. Αυτοί οι κανόνες βασίζονται σε παρατήρηση κειµένου (heuristics) και επιχειρούν να ταυτίσουν τις σχηµατοµορφές (pattern matching) αναγνωρισµένων όρων και µη αναγνωρισµένων, συντετµηµένων όρων ή ακρωνύµων. Μέθοδοι τέτοιου είδους, που βασίζονται σε υπάρχοντα συστήµατα εξαγωγής πληροφοριών έχουν ως άµεσο πλεονέκτηµα την χρήση µιας πλήρους αναπτυγµένης πλατφόρµας γλωσσικών εργαλείων, όπως µορφολογικούς και µορφοσυντακτικούς αναλυτές, βάσεις δεδοµένων και υπάρχοντα λεξικά. Μπορούν λοιπόν να αναπτυχθούν και να προσαρµοστούν σχετικά γρήγορα και εύκολα, ούτως ώστε όχι µόνο να αναγνωρίζουν όρους αλλά και να εξάγουν πληροφορίες από επιστηµονικά ή τεχνικά κείµενα. Επιπλέον, µπορούν να χρησιµοποιήσουν για τον εντοπισµό όρων, δοκιµασµένες τεχνικές και έρευνα πάνω στην αναγνώριση ονοµατικών οντοτήτων (named entities), ένα από τα σχετικά εύκολα κι αποτελεσµατικά επιµέρους έργα (tasks) της εξαγωγής πληροφοριών. Όµως τα προβλήµατα και οι στόχοι στην εξαγωγή πληροφοριών διαφέρουν από αυτά της αναγνώρισης όρων. Τα µορφοσυντακτικά µοτίβα πολυλεκτικών και ποικίλων όρων είναι πολύ πιο σύνθετα από αυτά που υποδηλώνουν ονοµατικές οντότητες. Επίσης η µορφολογική ανάλυση, όπως είδαµε, παίζει ένα καθοριστικό ρόλο στην αναγνώριση όρων, ενώ κάτι τέτοιο δεν είναι εξίσου απαραίτητο στην αναγνώριση ονοµατικών οντοτήτων. Κατά συνέπεια ο βαθµός δυσκολίας για αναγνώριση πολυλεκτικών και παραλλαγών όρων µε γλωσσικούς κανόνες είναι κατά πολύ µεγαλύτερος. Για αυτό το λόγο, ένα τέτοιο σύστηµα βασίζεται κυρίως στη χρήση ποικίλων, ήδη διαθέσιµων ορολογικών πηγών και λιγότερο σε γλωσσικούς µορφοσυντακτικούς κανόνες. 2.4 Υβριδικές Μέθοδοι Οι υβριδικές µέθοδοι προσέγγισης του προβλήµατος της αυτόµατης αναγνώρισης όρων αποτελούν συνδυασµούς των µεθόδων που προαναφέρθηκαν. Συνδυάζουν κυρίως γλωσσικές πληροφορίες, όπως γλωσσικά φίλτρα και επιφανειακούς συντακτικούς αναλυτές µε στατιστικές µετρήσεις. Το σύστηµα TERMS (Justeson & Katz, 1995) έχει ως στόχο την αναγνώριση πολυλεκτικών όρων σε κείµενα οποιουδήποτε αντικειµένου και τύπου. Έρευνες δείχνουν ότι το 92-99% των όρων είναι πολυλεκτικές ονοµατικές φράσεις. Έτσι βασικές θεωρητικές υποθέσεις στην προσέγγιση του TERMS είναι ότι καταρχήν οι ονοµατικές φράσεις - όροι επαναλαµβάνονται σε κείµενα τεχνικής φύσεως συχνότερα από άλλες ονοµατικές φράσεις, και ότι οι όροι έχουν ιδιαιτερότητες ως προς τη δοµή που τους διαφοροποιούν από άλλες ονοµατικές φράσεις. Δηλαδή για παράδειγµα δεν επιδέχονται παρεµβολή επιρρηµάτων ή άρθρων ενώ οι απλές ονοµατικές εκφράσεις διαθέτουν πιο ευέλικτες δοµές κι επιδέχονται ένα ευρύ φάσµα συντακτικών τροποποιήσεων. Σύµφωνα µε αυτές τις αρχές, οι ονοµατικές φράσεις χαµηλής συχνότητας εµφάνισης απορρίπτονται µέσω στατιστικού φίλτρου που ορίζει κατώτατες οριακές τιµές (threshold) συχνότητας, προκειµένου να ληφθεί υπόψη κάποια πολυλεκτική δοµή. Στη συνέχεια εφαρµόζεται ένα γλωσσικό µορφοσυντακτικό φίλτρο για την επιλογή των πολυλεκτικών όρων: ( (Adj Noun)+ ( (Adj Noun)*(Noun- Prep)? ) (Adj Noun)* ) Noun Για την µορφοσυντακτική ανάλυση το TERMS βασίζεται σε πληροφορίες µορφολογικής λεξικολογικής βάσης δεδοµένων και σε επισηµειωµένο κειµενικό σώµα κι όχι σε µορφοσυντακτικό αναλυτή, γιατί υποστηρίζεται ότι έτσι περιορίζεται το ποσοστό σφάλµατος. Για την αντιµετώπιση της ασάφειας χρησιµοποιείται προτιµησιακός αλγόριθµος (preference algorithm). Το σύστηµα TERMS κατά την αξιολόγηση αναφέρεται ότι επιτυγχάνει ποσοστά ανάκλησης (recall ) της τάξης του 71% και ακρίβειας (precision) 67-

12 12 96% συγκριτικά µε δεδοµένα αναγνώρισης όρων στο ίδιο κειµενικό σώµα από ειδικούς επιστήµονες. Παρά το γεγονός ότι το TERMS επιτυγχάνει ικανοποιητική απόδοση, το σύστηµα δεν φέρεται να επιλύει ικανοποιητικά το πρόβληµα των παραλλαγών όρων (Jaquemin, 2001). Επίσης δεν γίνεται σαφής ο τρόπος µε τον οποίο αναλύονται µορφοσυντακτικά λέξεις που δεν υπάρχουν στο λεξικό και θεωρείται ότι η χρήση µορφοσυντακτικού αναλυτή θα µπορούσε να βελτιώσει την ανάλυση, παρά το ενδεχόµενο ποσοστό σφάλµατος ( ibid.). Ένα άλλο υβριδικό σύστηµα που συνδυάζει στατιστικές και γλωσσολογικές µεθόδους είναι το ACABIT (Daille et al. 1994). Το ACABIT είναι ένας υβριδικός αναλυτής που αποτελείται από επιφανειακό µορφοσυντακτικό αναλυτή και στατιστικά φίλτρα για την αναγνώριση όρων. Μετά από εκτενείς µελέτες της µορφοσυντακτικής δοµής των όρων στη Γαλλική γλώσσα οι (Daille et al. 1994) καταλήγουν σε σχετικά απλά και «ανοικτά» γλωσσικά φίλτρα που εστιάζουν κυρίως στον εντοπισµό δι-λεκτικών όρων, θεωρώντας ότι οι πολυλεκτικοί όροι αποτελούν συνθέσεις αυτών των δι-λεκτικών ένθετων όρων. Τα απλά γλωσσικά φίλτρα που χρησιµοποιεί αντισταθµίζονται µε χρήση στατιστικών φίλτρων για τα επιτρεπόµενα µορφοσυντακτικά µοτίβα, αποφεύγοντας έτσι την υπερβολική ανάκληση προτεινόµενων όρων και παραλλαγών τους. Χρησιµοποιεί στατιστικές µετρήσεις, όπως συντελεστή Φ 2, συντελεστή λογαριθµικού τύπου και συχνότητας εµφάνισης. Θεωρείται ότι, όροι, αποτελούµενοι από δύο λέξεις, τείνουν να συνεµφανίζονται συχνότερα από ότι άλλοι που τυγχάνουν να εµφανίζονται µαζί. Επίσης µετρήσεις ποικιλότητας επιχειρούν να προσδιορίσουν πόσο συχνά ένας προσδιορισµός και µια κεφαλή όρου συνδυάζονται µε άλλες λέξεις κατά τον ίδιο τρόπο. Κεφαλές όρων µε µεγάλη ποικιλότητα συνδυασµών θεωρείται ότι δηλώνουν σηµαντικές, βασικές έννοιες στο συγκεκριµένο επιστηµονικό / τεχνικό αντικείµενο, ενώ το αντίστοιχο φαινόµενο στους προσδιορισµούς όρων υποδηλώνει κοινές έννοιες, που δεν έχουν ορολογικό ενδιαφέρον. Τα δεδοµένα εισόδου στο ACABIT είναι κείµενα, µορφοσυντακτικά αναλυµένα και το αποτέλεσµα της επεξεργασίας εµφανίζεται µε µορφή λίστας δι-λεκτικών προτεινόµενων όρων. Το ACABIT λαµβάνει υπόψη κάποια είδη ορολογικής ποικιλότητας, κυρίως αυτά που προέρχονται από παρατακτική σύνδεση, παρεµβολή προσδιορισµών και υπερ-σύνθεση (overcomposition) καθώς επίσης και κάποια είδη µορφολογικής ποικιλότητας που απλοποιεί στη βασική τους µορφή. Σηµαντικό πλεονέκτηµα της µεθόδου αυτής είναι ότι η γλωσσικές πηγές και εργαλεία που χρησιµοποιεί δεν είναι τέτοια που να περιορίζουν τη χρήση της σε µια συγκεκριµένη γλώσσα. Από την άλλη πλευρά, όπως σε όλες τις στατιστικές µετρήσεις, η ακριβής ρύθµιση των παραµέτρων των στατιστικών φίλτρων είναι δύσκολο να επιτευχθεί. Κι αυτό γιατί, αντίθετα µε τα γλωσσικά φίλτρα που αποµακρύνουν µοτίβα που δεν ανταποκρίνονται στους κανόνες, τα στατιστικά φίλτρα απλώς πριµοδοτούν ή όχι τις τιµές που ορίζουν τη σειρά µε την οποία οι προτεινόµενοι όροι εµφανίζονται στην τελική λίστα. Η C/NC value µέθοδος (Frantzi & Ananiadou, 1999) είναι µια µέθοδος που µπορεί να εφαρµοστεί σε οποιοδήποτε γνωστικό αντικείµενο και είδος κειµένου, για αναγνώριση πολυλεκτικών και ένθετων όρων. Συνδυάζει στατιστικές µετρήσεις µε γλωσσικές πληροφορίες. Μετά από µορφοσυντακτική προ-επεξεργασία εφαρµόζονται γλωσσικά φίλτρα µε στόχο τον εντοπισµό κυρίως ονοµατικών φράσεων. Η µέθοδος χρησιµοποιεί τις στατιστικές µετρήσεις των τιµών C και NC, µε στόχο το συνδυασµό τόσο εγγενών γλωσσικών πληροφοριών για τον όρο, όπως τα µορφοσυντακτικά µοτίβα σχηµατισµού του, όσο και εξωγενών πληροφοριών, δηλαδή αυτών που προέρχονται από το γλωσσικό του περιβάλλον. Τα δεδοµένα εξόδου του συστήµατος έχουν τη µορφή λίστας προτεινόµενων όρων, ταξινοµηµένων µε βάση την C/NC τιµή τους, χωρίς καµία ανθρώπινη παρέµβαση. Η µέθοδος φαίνεται να αποδίδει αρκετά καλά στην αναγνώριση πολυλεκτικών και ένθετων όρων και η ενσωµάτωση πληροφοριών από το γλωσσικό περιβάλλον (NC) δείχνει να βελτιώνει σηµαντικά την ακρίβεια των αποτελεσµάτων.

13 13 Επέκταση αυτής της µεθόδου αποτελεί η µέθοδος TRUCKS (Term Recognition Using Combined Knowledge Sources) (Maynard & Ananiadou, 2000b), που εστιάζει στον εντοπισµό πληροφοριών για το γλωσσικό περιβάλλον ενός όρου µέσω διαφόρων πηγών, µε στόχο την περαιτέρω βελτιστοποίηση των στατιστικών µετρήσεων για αναγνώριση όρων. Βασισµένη στην έννοια της ορολογικής οικειότητας (terminological acquaintance) προσπαθεί να µελετήσει τους όρους σε σχέση µε συγκειµενικές πληροφορίες (contextual information) και όχι ως µεµονωµένες φράσεις. Διακρίνει τρία είδη συγκειµενικής πληροφορίας: µορφοσυντακτική, σηµασιολογική και ορολογική. Παρατηρείται ότι κάποιες µορφοσυντακτικές κατηγορίες λέξεων µπορούν να οδηγήσουν σε προβλέψεις πιθανής εµφάνισης όρου µέσα στο άµεσο γλωσσικό τους περιβάλλον. Επίσης χρησιµοποιεί σηµασιολογικές πληροφορίες µέσω µετρήσεων οµοιότητας (similarity measures) και χρήση ορολογικών θησαυρών, όπως ο θησαυρός ιατρικής ορολογίας UMLS. Τέλος, χρησιµοποιεί ορολογικές πληροφορίες, θεωρώντας ότι συγκείµενες λέξεις που είναι επίσης όροι είναι σηµαντικοί στον εντοπισµό άλλων όρων. Ο συσχετισµός και η σηµασία όλων αυτών των παραµέτρων κωδικοποιείται µέσω συντελεστών βαρύτητας για τη µέτρηση του συνολικού συντελεστή σπουδαιότητας (Importance Weight). Ο συντελεστής σπουδαιότητας υπολογίζεται µε πολλαπλασιασµό του ορολογικού συντελεστή βαρύτητας επί της τιµής του σηµασιολογικού συντελεστή και στη συνέχεια πρόσθεση του γινόµενου στο συνολικό µορφοσυντακτικό συντελεστή όλων των συγκειµένων λέξεων ή όρων, του όρου προς αναγνώριση (Maynard & Ananiadou, 2000a). Στο σύνολό της, η µέθοδος βασίζεται σε τρία επίπεδα, ένα βασικό στατιστικό επίπεδο που καθορίζεται από τον υπολογισµό της τιµής C, ένα µεσαίο που καθορίζει το συντελεστή βαρύτητας συγκειµένου µέσω της τιµής NC και τέλος, ένα ανώτερο επίπεδο που ορίζει το συντελεστή σπουδαιότητας. Τα τρία αυτά επίπεδα συνδυάζονται για τον υπολογισµό της τελικής τιµής SNC, δηλαδή το συνδυασµό της τιµής NC και του συντελεστή σπουδαιότητας. Σηµαντική καινοτοµία της µεθόδου TRUCKS αποτελεί ο τρόπος µε τον οποίο αποκτάται σηµασιολογική πληροφορία για το γλωσσικό περιβάλλον, δηλαδή η χρήση µετρήσεων οµοιότητας των συγκειµένων όρων µε τους πιθανούς όρους, µέσω ορολογικού θησαυρού. Θεωρείται ότι ένας συγκείµενος όρος που προσεγγίζει σηµασιολογικά έναν υποψήφιο όρο, είναι πιο πιθανό να παίζει ρόλο στον εντοπισµό του από ότι ένας συγκείµενος όρος που εµφανίζει χαµηλότερες τιµές σηµασιολογικής οµοιότητας. Επίσης έρευνα πάνω στο ορολογικό γλωσσικό περιβάλλον χρησιµοποιήθηκε για την αποσαφήνιση όρων και τη βελτίωση της αναγνώρισης, βασισµένη σε οµαδοποίηση (clustering) του γλωσσικού τους περιβάλλοντος. Το γραφικό περιβάλλον εργασίας ATRACT βασίζεται στη µέθοδο C/NC για εξόρυξη κειµένου και γνώσης από το Διαδίκτυο, συνδυάζοντας εφαρµογές όπως η αναγνώριση όρων, η αυτόµατη οµαδοποίηση όρων µε βάση το γλωσσικό τους περιβάλλον, η ανάκτηση κειµένων, η εξαγωγή πληροφοριών και η ευφυής πρόσβαση σε διάφορες ετερογενείς βάσεις δεδοµένων από το χώρο της βιολογίας και της γενετικής (Mima et al. 2001a, 2001b, Ananiadou et al. 2001). 2.5 Μέθοδοι Μηχανικής Μάθησης Τα συστήµατα που θα παρουσιάσουµε χρησιµοποιούν εποπτευόµενες µεθόδους µάθησης για αναγνώριση όρων στον τοµέα βιοτεχνολογίας. Χρησιµοποιούν αρκετά δηµοφιλείς στον χώρο της επεξεργασίας γλώσσας τεχνικές µηχανικής µάθησης, αυτές που βασίζονται σε δένδρα αποφάσεων και σε Μαρκοβιανά µοντέλα.. Ανήκουν στην κατηγορία των εποπτευόµενων (supervised) µεθόδων γιατί απαιτούν δεδοµένα εκµάθησης (training data). Η εκµάθηση συνίσταται στον εντοπισµό κανόνων µε βάση τα δεδοµένα εκµάθησης και ένα σύνολο διακριτικών χαρακτηριστικών τους, προκειµένου να προβλέπεται στη συνέχεια επιτυχώς η κατηγορία νέων, αγνώστων δεδοµένων. Η απόδοση αυτών των συστηµάτων εξαρτάται, τόσο από τις ιδιαιτερότητες του αλγόριθµου που εφαρµόζεται κάθε φορά, όσο και από τον όγκο των δεδοµένων εκµάθησης και την σωστή επιλογή διακριτικών χαρακτηριστικών για την κατηγοριοποίηση. Λανθασµένα αποτελέσµατα µπορεί να οφείλονται σε έλλειψη επαρκών δεδοµένων εκπαίδευσης (sparse data) αλλά και σε χρήση χαρακτηριστικών που δεν

14 14 επηρεάζουν το φαινόµενο που προσπαθούµε να προβλέψουµε, και που η εµφάνισή τους είναι µάλλον συµπτωµατική. Οι µέθοδοι µηχανικής µάθησης για αναγνώριση όρων χρησιµοποιούν µορφοσυντακτικές και γραφηµατικές πληροφορίες µεταξύ άλλων χαρακτηριστικών. Μια µέθοδος εποπτευόµενης εκµάθησης βασισµένη σε Κρυφά Μαρκοβιανά Μοντέλα (Hidden Markov Models) έχει χρησιµοποιηθεί από τους Collier et al. (2000) για τον εντοπισµό όρων µοριακής βιολογίας σε κείµενα από το MEDLINE. Το σύστηµα εκπαιδεύτηκε στον εντοπισµό των ορολογικών ζευγών (bigrams) που εµφανίζονται σε µικρό κειµενικό σώµα, µε χαρακτηριστικά εκµάθησης (features) που περιελάµβαναν λεξικολογική και γραφηµατική πληροφορία. Θεωρήθηκε ότι τα γραφηµατικά χαρακτηριστικά των λέξεων µπορούν να βοηθήσουν στην κατηγοριοποίηση των όρων. Αυτά τα χαρακτηριστικά µπορούν στη συνέχεια, να συµβάλουν στη δηµιουργία υποδειγµάτων (models) για την αναζήτηση οµοιοτήτων µεταξύ γνωστών όρων, δηλαδή λέξεων που έχουν αναγνωριστεί στο σύνολο εκπαίδευσης (training set), και αγνώστων όρων, δηλαδή λέξεων µε µηδενική συχνότητα εµφάνισης στο σύνολο εκπαίδευσης. Παραδείγµατα γραφηµατικών χαρακτηριστικών που επιλέχθηκαν στην εκµάθηση είναι: Δυο Κεφαλαία: RalGDS Συνδυασµός µικρών κεφαλαίων: kappab Αρχικό κεφαλαίο: Interleukin Ελληνικό γράµµα: alpha Τα ζεύγη όρων που εντοπίζονται, επισηµειώνονται από ειδικούς του γνωστικού αντικειµένου µε πληροφορίες σχετικά µε την ορολογική κατηγορία στην οποία ανήκουν, για παράδειγµα, protein, DNA, κτλ. Ο στόχος της διαδικασίας εκµάθησης είναι ο εντοπισµός της πιο πιθανής αλληλουχίας ορολογικών κατηγοριών σε µια δεδοµένη αλληλουχία λέξεων. Δηλαδή αν θεωρήσει κανείς ως P την πιθανότητα εµφάνισης µιας αλληλουχίας κατηγοριών, και C αυτή την αλληλουχία δεδοµένης µιας W αλληλουχίας λέξεων, ο στόχος του συστήµατος εκφράζεται ως η µεγιστοποίηση της συνάρτησης P(C W). Class No of XML tagged terms Example Description PROTEIN 2125 JAK kinase DNA 358 IL-2 promoter Proteins, protein groups, complexes & substructures DNAs, DNA groups, regions and genes Πίνακας 1: Παράδειγµα κατηγοριών ζευγών όρων και των χαρακτηριστικών τους. Ο αλγόριθµος εκµάθησης που χρησιµοποιείται σχεδιάστηκε ούτως ώστε να περιορίζει προβλήµατα που οφείλονται σε µη επαρκή δεδοµένα εκµάθησης (sparse data). Το σύστηµα υποδεικνύει µια κατάσταση (state) ανά κατηγορία όρου και δύο ειδικές κατηγορίες για την αρχή και το τέλος µιας πρότασης αντίστοιχα. Για τον εντοπισµό πιθανών κατηγοριοποιήσεων οι Colier, et al. (2000) χρησιµοποιούν τον αλγόριθµο Viterbi (Viterbi, 1967). Στο τελικό στάδιο επεξεργασίας και αφού ο εντοπισµός και η επισηµείωση των κατηγοριών έχει ολοκληρωθεί, δηµιουργείται µια λίστα συχνότητας εµφάνισης όρων και κατηγοριών για ένα κείµενο, βασισµένη στις πιο συχνές κατηγορίες που εντόπισε ο αλγόριθµος. No of Texts F score Πίνακας 2: Ενδεικτικά αποτελέσµατα αξιολόγησης όπου F score ο συνδυασµός ακρίβειας (Precision) και ανάκλησης (Recall) Σε γενικές γραµµές, το σύστηµα φέρεται να αποδίδει ικανοποιητικά και χωρίς την ανάγκη δηµιουργίας µεγάλου συνόλου εκµάθησης. Ένα άλλο πλεονέκτηµα έγκειται στην επιλογή

15 15 των χαρακτηριστικών εκµάθησης. Τα γραφηµατικά χαρακτηριστικά που επιλέγονται είναι όχι µόνο αποτελεσµατικά αλλά και αρκετά γενικά. Για αυτό το λόγο η µέθοδος απαιτεί ελάχιστη παρέµβαση για την προσαρµογή της σε κάποιο νέο γνωστικό πεδίο. Ένα σηµαντικό πρόβληµα του συστήµατος από την άλλη πλευρά, είναι ο εντοπισµός της ακριβούς έκτασης του όρου και η αντιµετώπιση πιθανόν ασαφών δοµών, όπως για παράδειγµα, στην περίπτωση παρατακτικής σύνδεσης. Για την αντιµετώπιση αυτών των περιορισµών είναι αναγκαίος ο εντοπισµός και άλλων διακριτικών χαρακτηριστικών εκµάθησης. Μια άλλη µέθοδος (Nobata et al. 1999) εποπτευόµενης εκµάθησης που έχει χρησιµοποιηθεί για αναγνώριση όρων βασίζεται σε δένδρα αποφάσεων (decision trees) και χρησιµοποιεί τον αλγόριθµο C4.5 (Quinlan, 1993). Τα δεδοµένα εκµάθησης που χρησιµοποιούν είναι σώµα κειµένων επισηµειωµένο µε µη αυτόµατο τρόπο. Τα διακριτικά χαρακτηριστικά για την κατηγοριοποίηση περιλαµβάνουν µορφοσυντακτικές και γραφηµατικές πληροφορίες που είναι καταχωρηµένες σε λίστες όρων. Για την µορφοσυντακτική ανάλυση χρησιµοποιείται ο αναλυτής MXPOST (Ratnaparkhi, 1996). Επίσης διακρίνονται 28 γραφηµατικές κατηγορίες λέξεων, που βασίζονται στους χαρακτήρες (κεφαλαία-µικρά), την ύπαρξη αριθµών και συµβόλων. Βιβλιογραφικές αναφορές Ananiadou, S. (1988): Towards a Methodology for Automatic Term Recognition, PhD thesis, University of Manchester Institute of Science and Technology, Ananiadou, S. (1994): «A Methodology for Automatic Term Recognition», στο Proceedings of Coling94, σ Ananiadou, S., Albert, S., Schuhmann, D. (2000): «Evaluation of Automatic Term Recognition of Nuclear Receptors from Medline», Genome Informatics Series, vol.11. Ananiadou, S., Nenadic, G. (2001): «A Terminology Management Workbench for Molecular Biology», στο Proceedings of the 19th Twente Workshop on Language Theory, Workshop on Information Extraction in Molecular Biology, σ Bourigault, D., Gonzalez-Mullier, I. & Gros, C.(1996): «LEXTER, a Natural Language Processing tool for Terminology Extraction» στο Proceedings of the 7 th Euralex International Congress, Goteborg. Collier, N., Nobata, C. & Tsujii, J. (2000): «Extracting the Names of Genes and Gene Products with a Hidden Markov Model», στο Proceedings of Coling2000, σ Dagan, I. & Church, K. (1995): «Termight: Identifying and translating technical terminology», στο Proceedings of the 7 th Conference of the European Chapter of the Association for Computational Linguistics, EACL 95, σ Daille, B., Gaussier, E. & Lange, J. (1994): «Towards automatic extraction of monolingual and bilingual terminology», στο Proceedings of Coling94, σ Damerau, F.J. (1993): «Evaluating domain-oriented multi-word terms from texts», Information Processing and Management, 29(4), σ Dillon, M. & Gray, A. (1983): «FASIT: Fully automatic syntax-based indexing», Journal of the American Society for Information Science, 34(2), σ

16 16 Dunning, T. (1993): «Accurate methods for the statistics of surprise and coincidence», Computational Linguistics, 19(1) σ Enguehard, C., & Pantera, L. (1994): «Automatic natural acquisition of a terminology», Journal of Quantitative Linguistics, 2(1), σ Evans, D.A. & Lefferts, R.G. (1995): «CLARIT-TREC Experiments», Information Processing and Management, 31(3), σ Fano, R.M. (1961): Transmission of Information. A statistical theory of communications. MIT Press, Ma. Frantzi, K.T. & Ananiadou, S. (1995): «Statistical measures for terminological extraction», στο Proceedings of the 3 rd International Conference on Statistical Analysis of Textual Data, (JADT 95), σ Frantzi, K.T. & Ananiadou, S. (1999): «The C/NC value domain independent method for multi-word term extraction», Journal of Natural Language Processing, 6(3), σ Gaizauskas, R., Demetriou, G. & Humphreys, K. (2000): «Term Recognition in Biological Science Journal articles», στο Ananiadou, S. & Maynard, D. (eds.) Workshop on Computational Terminology for Medical and Biological Applications (NLP2000, Patras, Greece), σ Gaizauskas, R., Wakao, T., Humphreys, K., Cunningham, H. & Wilks, Y. (1995): «Description of the LaSIE system as used for MUC-6.» στο Proceedings of the Sixth Message Understanding Conference (MUC-6), Morgan Kaufmann, σ Gale, W.A. & Church, K.W. (1991): «Concordances for parallel texts», στο Proceedings of the 7 th Annual Conference of the UW Centre for the New OED and Text Research Using Corpora, σ ISO704 (1986): Principles and Methods of Terminology, International Organization for Standardization. Jaquemin, C. & Tzoukermann, E. (1999): «NLP for Term Variant Extraction: A Synergy of Morphology, Lexicon and Syntax», στο Strzalkowski, T. (ed.) Natural Language Information Retrieval, Kluwer, Boston, MA, σ Jaquemin, C. (2001): Spotting and Discovering Terms through Natural Language Processing, The MIT Press, Cambridge, MA. Justeson, J.S., Katz, S.M. (1995): «Technical terminology: some linguistic properties and an algorithm for identification in text», Natural Language Engineering, 1(1), σ Kita, K., Kato, Y., Omoto, T. & Yano, Y. (1994): «A comparative study of automatic extraction of collocations from corpora: Mutual Information vs. cost criteria.», στο Journal of Natural Language Processing, 1(1), σ Lauriston, A. (1994): «Automatic recognition of complex terms: Problems and the Termino solution», Terminology,1(1), σ Maynard, D. & Ananiadou, S. (2000a): «Identifying Terms by their Family and Friends», στο Proceedings of the 18 th International Conference on Computational Linguistics, COLING 2000, σ Maynard, D. & Ananiadou, S. (2000b): «TRUCKS: A Model for Automatic Multi-Word Term Recognition», Journal of Natural Language Processing, 8(1), σ

17 17 Mima, H., Ananiadou, S., Nenadic, G. (2001a): «Improving Knowledge Acquisition Through Automatic Term Recognition», στο Proceedings of PC Human-Computer Interaction Conference, (PC-HCI 2001), Patras, Greece. Mima, H., Ananiadou, S., Nenadic, G. (2001b): «The ATRACT Workbench: Automatic Term Recognition and Clustering for Terms», στο Text, Speech and Dialogue, TSD 2001, Lecture Notes in Artificial Intelligence, Springer Verlag. Nobata, C., Collier, N. & Tsujii, J. (1999): «Automatic term identification and classification in biology texts», στο Proceedings of the Natural Language Pacific Rim Symposium (NLPRS 2000), σ Porter, M.F. (1980): «An algorithm for suffix stripping», Program, 14(3) σ Quinlan, R.J.(1993): C4.5 Programs for Machine Learning. San Mateo, CA: Morgan Kaufmann. Ratnaparkhi, A. (1996): «A Maximum Entropy Part-Of-Speech Tagger», στο Proceedings of the Empirical Methods in Natural Language Processing Conference, May 17-18, University of Pennsylvania. Schulze-Kremer, S. (1998): «Ontologies for Molecular Biology», στο Proceedings of the Third Pacific Symposium on Biocomputing, AAAI Press, σ Vivaldi, J. & Rodriquez, H. (2000): «Improving term extraction by combining different techniques» στο Ananiadou, S. & Maynard, D. (eds.) Workshop on Computational Terminology for Medical and Biological Applications (NLP2000, Patras, Greece), σ

Προβλήματα και μέθοδοι αυτόματης αναγνώρισης όρων σε υπολογιστικά συστήματα ΣΟΦΙΑ ΑΝΑΝΙΑΔΟΥ & ΚΑΛΛΙΟΠΗ ΖΕΡΒΑΝΟΥ

Προβλήματα και μέθοδοι αυτόματης αναγνώρισης όρων σε υπολογιστικά συστήματα ΣΟΦΙΑ ΑΝΑΝΙΑΔΟΥ & ΚΑΛΛΙΟΠΗ ΖΕΡΒΑΝΟΥ Προβλήματα και μέθοδοι αυτόματης αναγνώρισης όρων σε υπολογιστικά συστήματα ΣΟΦΙΑ ΑΝΑΝΙΑΔΟΥ & ΚΑΛΛΙΟΠΗ ΖΕΡΒΑΝΟΥ Εισαγωγή Οι ταχείς ρυθμοί τεχνολογικής και επιστημονικής εξέλιξης έχουν ως συνέπεια τη συνεχή

Διαβάστε περισσότερα

συνεργασία επιστηµονικών πεδίων Πληροφορική Γλωσσολογία Ορολογία Ιατρική / Βιολογία 2

συνεργασία επιστηµονικών πεδίων Πληροφορική Γλωσσολογία Ορολογία Ιατρική / Βιολογία 2 Σώµατα Κειµένων και Εξόρυξη Ιατρικών Όρων: C-value Κατερίνα Φραντζή Τµήµα Μεσογειακών Σπουδών Πανεπιστήµιο Αιγαίου frantzi@rhodes.aegean.gr 1 συνεργασία επιστηµονικών πεδίων Πληροφορική Γλωσσολογία Ορολογία

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Ημερίδα παρουσίασης CLARIN-EL 1/10/2010 Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" ΧΑΡΤΟΓΡΑΦΗΣΗ ΧΩΡΟΥ ΓΤ ΓΙΑ ΚΑΕ Στο

Διαβάστε περισσότερα

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ» Ανάπτυξη Υποδοµής Γλωσσικής Τεχνολογίας για το Βιοϊατρικό Τοµέα Neurosoft A.E. --- ΕΑΙΤΥ ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ» Προϋπολογισµός: 561.240 ιάρκεια: 18 µήνες Επιστηµονικός

Διαβάστε περισσότερα

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 Ανάπτυξη Οντολογίας Βιοϊατρικών Όρων Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 www.iatrolexi.cti.gr 1 Ερευνητικό Ακαδημαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών (ΕΑΙΤΥ) Σελίδα 1 Ημερομηνία:

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος

Διαβάστε περισσότερα

Σχεδιασµός Ανάπτυξη Οντολογίας

Σχεδιασµός Ανάπτυξη Οντολογίας Σχεδιασµός Ανάπτυξη Οντολογίας ΈλεναΜάντζαρη, Γλωσσολόγος, Ms.C. ΙΑΤΡΟΛΕΞΗ: Ανάπτυξη Υποδοµής Γλωσσικής Τεχνολογίας για το Βιοϊατρικό Τοµέα Τι είναι η οντολογία; Μιαοντολογίαείναιέναλεξικόόρωνπου διατυπώνονται

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β )

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β ) ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β ) ΣΚΟΠΟΣ Σκοπός της άσκησης είναι ο σχεδιασμός και η υλοποίηση συστήματος διόρθωσης

Διαβάστε περισσότερα

Software Production Company

Software Production Company Ανάπτυξη Υποδοµής Γλωσσικής Τεχνολογίας για το Βιοϊατρικό Τοµέα Neurosoft A.E. --- ΕΑΙΤΥ ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ» Προϋπολογισµός: 561.240 ιάρκεια: 18 µήνες ΕπιστηµονικόςΥπεύθυνος:

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

ΠΟΙΟΤΙΚΟΣ ΕΛΕΓΧΟΣ ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΑΠΟΔΟΣΕΩΝ ΣΤΗΝ ΟΡΟΛΟΓΙΚΗ ΒΑΣΗ ΙΑΤΕ ΑΠΘ. 5η ΣΥΝΑΝΤΗΣΗ ΕΛΛΗΝΟΦΩΝΩΝ ΜΕΤΑΦΡΑΣΕΟΛΟΓΩΝ

ΠΟΙΟΤΙΚΟΣ ΕΛΕΓΧΟΣ ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΑΠΟΔΟΣΕΩΝ ΣΤΗΝ ΟΡΟΛΟΓΙΚΗ ΒΑΣΗ ΙΑΤΕ ΑΠΘ. 5η ΣΥΝΑΝΤΗΣΗ ΕΛΛΗΝΟΦΩΝΩΝ ΜΕΤΑΦΡΑΣΕΟΛΟΓΩΝ ΠΟΙΟΤΙΚΟΣ ΕΛΕΓΧΟΣ ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΑΠΟΔΟΣΕΩΝ ΣΤΗΝ ΟΡΟΛΟΓΙΚΗ ΒΑΣΗ ΙΑΤΕ 5η ΣΥΝΑΝΤΗΣΗ ΕΛΛΗΝΟΦΩΝΩΝ ΜΕΤΑΦΡΑΣΕΟΛΟΓΩΝ Σπύρος Δόικας translatum@translatum.gr ΑΠΘ Τομέας Μετάφρασης του Τμήματος Γαλλικής Γλώσσας και

Διαβάστε περισσότερα

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el Σαράντος Καπιδάκης 1, Στέλιος Πιπερίδης 2, Πένυ Λαμπροπούλου 2, Μαρία Γαβριηλίδου 2 ( 1 Ιόνιο Πανεπιστήμιο, 2 Ε.Κ. Αθηνά / ΙΕΛ)

Διαβάστε περισσότερα

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση Οι συµφράσεις είναι ακολουθίες όρων οι οποίοι συνεµφανίζονται σε κείµενο µε µεγαλύτερη συχνότητα από εκείνη της εµφάνισης

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Ασάφεια (Fuzziness) Ποσοτικοποίηση της ποιοτικής πληροφορίας Οφείλεται κυρίως

Διαβάστε περισσότερα

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου Επαναληπτικές Ασκήσεις Κάτια Κερμανίδου kerman@ionio.gr Διαδίκτυο Tι από τα παρακάτω αποτελεί χαρακτηριστικό της web 2.0 φάσης της εξέλιξης του ιστού, και δεν υπήρχε στην φάση web 1.0 ιστοσελίδες με δυνατότητες

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.

Διαβάστε περισσότερα

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής: Τρόπος εξέτασης των πανελλαδικά εξεταζόμενων μαθημάτων Τα θέματα των πανελλαδικά εξεταζόμενων μαθημάτων λαμβάνονται από την ύλη που ορίζεται ως εξεταστέα για κάθε μάθημα κατά το έτος που γίνονται οι εξετάσεις.

Διαβάστε περισσότερα

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

Εξαγωγή κανόνων από αριθµητικά δεδοµένα Εξαγωγή κανόνων από αριθµητικά δεδοµένα Συχνά το σύστηµα που θέλουµε να µοντελοποιήσουµε η να ελέγξουµε αντιµετωπίζεται ως µαύρο κουτί και η πληροφορία για τη λειτουργία του διατίθεται υπό µορφή ζευγών

Διαβάστε περισσότερα

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Σοφιανόπουλος Σωκράτης Ινστιτούτο Επεξεργασίας του Λόγου Δομή παρουσίασης Τι είναι η Μηχανική Μετάφραση (Machine Translation) Ιστορική αναδρομή Είδη συστημάτων

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών Άννα Μάστορα 1, Μανόλης Πεπονάκης 2, Σαράντος Καπιδάκης 1 1 Εργαστήριο Ψηφιακών Βιβλιοθηκών και

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

2.5.1 Χρήση δεξιοτήτων αρχειοθέτησης για τη διατήρηση ενός καθιερωμένου συστήματος

2.5.1 Χρήση δεξιοτήτων αρχειοθέτησης για τη διατήρηση ενός καθιερωμένου συστήματος 2.5 Σύστημα αρχειοθέτησης, έγγραφα και βάσεις δεδομένων 2.5.1 Χρήση δεξιοτήτων αρχειοθέτησης για τη διατήρηση ενός καθιερωμένου συστήματος Να είναι σε θέση να διατηρήσει ένα καθιερωμένο, ηλεκτρονικό και

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ το πρόβλημα 14.11.2015 10o Συνέδριο Ελληνική Γλώσσα και Ορολογία 2 σενάριο 14.11.2015

Διαβάστε περισσότερα

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005 ΕΚΕΦΕ «ηµόκριτος» Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών Εργαστήριο Τεχνολογίας Γνώσεων και Λογισµικού Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005 Το Εργαστήριο Τεχνολογίας Γνώσεων και Λογισµικού

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Οπτική αντίληψη. Μετά?..

Οπτική αντίληψη. Μετά?.. Οπτική αντίληψη Πρωτογενής ερεθισµός (φυσικό φαινόµενο) Μεταφορά µηνύµατος στον εγκέφαλο (ψυχολογική αντίδραση) Μετατροπή ερεθίσµατος σε έννοια Μετά?.. ΓΙΑ ΝΑ ΚΑΤΑΝΟΗΣΟΥΜΕ ΤΗΝ ΟΡΑΣΗ ΠΡΕΠΕΙ ΝΑ ΑΝΑΛΟΓΙΣΤΟΥΜΕ

Διαβάστε περισσότερα

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου Ελένη Γαλιώτου Τμήμα Πληροφορικής, ρ ΤΕΙ Αθήνας 1-10-2010 1 Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου Σκιάθου Ψηφιοποίηση Το ερευνητικό έργο «ΠΟΛΥΤΙΜΟ» Πρόσβαση στο περιεχόμενο των ιστορικών βιβλίων

Διαβάστε περισσότερα

Προηγµένη ιασύνδεση µε τοπεριβάλλον

Προηγµένη ιασύνδεση µε τοπεριβάλλον Προηγµένη ιασύνδεση µε τοπεριβάλλον! Επεξεργασία φυσικής γλώσσας # Κατανόηση φυσικής γλώσσας # Παραγωγή φυσικής γλώσσας! Τεχνητή όραση! Ροµποτική Κατανόηση Φυσικής Γλώσσας! Αναγνώριση οµιλίας (Speech recognition)!

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

MULTI-WORD TERMS AND TERM VARIATION IN AUTOMATIC TERM EXTRACTION Katerina Kehagia Sofia Ananiadou SUMMARY

MULTI-WORD TERMS AND TERM VARIATION IN AUTOMATIC TERM EXTRACTION Katerina Kehagia Sofia Ananiadou SUMMARY ΠΟΛΥΛΕΚΤΙΚΟΙ ΟΡΟΙ ΚΑΙ ΑΠΟΚΛΙΣΕΙΣ ΣΤΗΝ ΑΥΤΟΜΑΤΗ ΕΞΑΓΩΓΗ ΤΩΝ ΟΡΩΝ Κατερίνα Κεχαγιά Σοφία Ανανιάδου ΠΕΡΙΛΗΨΗ Η αναγνώριση των επιστημονικών και τεχνικών όρων είναι πρωταρχικής σημασίας στην ηλεκτρονική επεξεργασία

Διαβάστε περισσότερα

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 2. Η έννοια του προβλήματος 2 2. Η έννοια του προβλήματος 2.1 Το πρόβλημα στην επιστήμη των Η/Υ 2.2 Κατηγορίες προβλημάτων

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Θέµατα Μορφολογίας της Νέας Ελληνικής Ι. Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας

Θέµατα Μορφολογίας της Νέας Ελληνικής Ι. Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας Θέµατα Μορφολογίας της Νέας Ελληνικής Ι Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας Η παρουσίαση επιλεγµένα θέµατα µορφολογίας της νέας ελληνικής µορφολογικά χαρακτηριστικά της ΝΕ, η λέξη στη νέα

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος. Γλωσσική Τεχνολογία Εισαγωγή 2015 16 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/ Τι θα ακούσετε Εισαγωγή στη γλωσσική τεχνολογία. Ύλη και οργάνωση του μαθήματος. Προαπαιτούμενες γνώσεις και άλλα προτεινόμενα

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

Κεφάλαιο 10 ο Υποπρογράµµατα

Κεφάλαιο 10 ο Υποπρογράµµατα Κεφάλαιο 10 ο Υποπρογράµµατα Ανάπτυξη Εφαρµογών σε Προγραµµατιστικό Περιβάλλον Η αντιµετώπιση των σύνθετων προβληµάτων και η ανάπτυξη των αντίστοιχων προγραµµάτων µπορεί να γίνει µε την ιεραρχική σχεδίαση,

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 6. Δειγματοληψία 6-1

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 6. Δειγματοληψία 6-1 Εισαγωγή στην κοινωνική έρευνα Earl Babbie Κεφάλαιο 6 Δειγματοληψία 6-1 Σύνοψη κεφαλαίου Σύντομη ιστορία της δειγματοληψίας Μη πιθανοτική δειγματοληψία Θεωρία και λογική της πιθανοτικής Δειγματοληψίας

Διαβάστε περισσότερα

ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΟΥ

ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΟΥ 1. ΔΗΜΙΟΥΡΓΙΑ ΕΓΓΡΑΦΩΝ ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΟΥ 1.1. Ορισµός εγγράφου, προτύπου, πρωτεύοντος και δευτερεύοντος εγγράφου 1.2. Πρότυπα 1.2.1. Δηµιουργία, µεταβολή, χρήση και διαγραφή προτύπων εγγράφων 1.2.2.

Διαβάστε περισσότερα

Ερευνητικό Πρόγραµµα BalkaNet

Ερευνητικό Πρόγραµµα BalkaNet Ερευνητικό Πρόγραµµα BalkaNet 1 Ερευνητικό Πρόγραµµα BalkaΝet Χρηµατοδοτούµενο από την ΕΕ πρόγραµµα (IST-2000-29388) µε σκοπό την ανάπτυξη ενός πολύγλωσσου σηµασιολογικού λεξικού σύµφωνα µε τις αρχές του

Διαβάστε περισσότερα

ΛΕΞΙΛΟΓΙΚΟ ΒΟΗΘΗΜΑ ΓΙΑ ΤΗΝ ΥΠΟΣΤΗΡΙΞΗ ΤΩΝ ΔΙΔΑΣΚΟΝΤΩΝ ΤΗΝ ΕΛΛΗΝΙΚΗ ΩΣ ΔΕΥΤΕΡΗ/ΞΕΝΗ ΓΛΩΣΣΑ ΕΙΣΑΓΩΓΙΚΟ ΣΗΜΕΙΩΜΑ

ΛΕΞΙΛΟΓΙΚΟ ΒΟΗΘΗΜΑ ΓΙΑ ΤΗΝ ΥΠΟΣΤΗΡΙΞΗ ΤΩΝ ΔΙΔΑΣΚΟΝΤΩΝ ΤΗΝ ΕΛΛΗΝΙΚΗ ΩΣ ΔΕΥΤΕΡΗ/ΞΕΝΗ ΓΛΩΣΣΑ ΕΙΣΑΓΩΓΙΚΟ ΣΗΜΕΙΩΜΑ ΕΙΣΑΓΩΓΙΚΟ ΣΗΜΕΙΩΜΑ 1 Εκμάθηση του λεξιλογίου μιας γλώσσας σημαίνει να γνωρίζει ο σπουδαστής τη μορφή, τη σημασία, την κλίση, την παραγωγή, την πραγματολογική λειτουργία, την κοινωνική χρήση μιας λέξης.

Διαβάστε περισσότερα

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 6 195 Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων Το RDF Το Warwick Framework 196 1 Resource Data Framework RDF Τα πολλαπλά και πολλαπλής προέλευσης σχήµατα παραγωγής δηµιουργούν την ανάγκη δηµιουργίας

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές Eλένη Ευθυµίου eleni_e@ilsp.gr Οµάδα Υποστηρικτικών Τεχνολογιών Ινστιτούτο Επεξεργασίας Λόγου

Διαβάστε περισσότερα

Στάδια Ανάπτυξης Λόγου και Οµιλίας

Στάδια Ανάπτυξης Λόγου και Οµιλίας Στάδια Ανάπτυξης Λόγου και Οµιλίας Το παιδί ξεδιπλώνει τις γλωσσικές ικανότητες του µε το χρόνο. Όλα τα παιδιά είναι διαφορετικά µεταξύ τους και το κάθε ένα έχει το δικό του ρυθµό. Τα στάδια ανάπτυξης

Διαβάστε περισσότερα

Περίληψη ιπλωµατικής Εργασίας

Περίληψη ιπλωµατικής Εργασίας Περίληψη ιπλωµατικής Εργασίας Θέµα: Εναλλακτικές Τεχνικές Εντοπισµού Θέσης Όνοµα: Κατερίνα Σπόντου Επιβλέπων: Ιωάννης Βασιλείου Συν-επιβλέπων: Σπύρος Αθανασίου 1. Αντικείµενο της διπλωµατικής Ο εντοπισµός

Διαβάστε περισσότερα

ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1

ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1 ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1 ΣΥΝΑΡΤΗΣΕΙΣ Η έννοια της συνάρτησης είναι θεμελιώδης στο λογισμό και διαπερνά όλους τους μαθηματικούς κλάδους. Για το φοιτητή είναι σημαντικό να κατανοήσει πλήρως αυτή

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction Information Extraction Μορφή της πληροφορίας Δομημένα δεδομένα Relational Databases (SQL) XML markup Μη-δομημένα δεδομένα

Διαβάστε περισσότερα

Μετάφραση και δικαιώματα διανοητικής ιδιοκτησίας (DGT/2013/TIPRs)

Μετάφραση και δικαιώματα διανοητικής ιδιοκτησίας (DGT/2013/TIPRs) Μετάφραση και δικαιώματα διανοητικής ιδιοκτησίας (DGT/2013/TIPRs) Τελική έκθεση Ιούλιος 2014 ΣΥΝΟΨΗ Σκοπός της μελέτης αυτής είναι να παρουσιάσει ορισμένα από τα κυριότερα ζητήματα που αφορούν τα δικαιώματα

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

4.2 Μελέτη Επίδρασης Επεξηγηματικών Μεταβλητών

4.2 Μελέτη Επίδρασης Επεξηγηματικών Μεταβλητών 4.2 Μελέτη Επίδρασης Επεξηγηματικών Μεταβλητών Στο προηγούμενο κεφάλαιο (4.1) παρουσιάστηκαν τα βασικά αποτελέσματα της έρευνάς μας σχετικά με την άποψη, στάση και αντίληψη των μαθητών γύρω από θέματα

Διαβάστε περισσότερα

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Η ταξινόμηση εικόνας αναφέρεται στην ερμηνεία με χρήση υπολογιστή των τηλεπισκοπικών εικόνων. Παρόλο που ορισμένες διαδικασίες έχουν τη δυνατότητα να συμπεριλάβουν πληροφορίες

Διαβάστε περισσότερα

ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ ΠΕΡΙΛΗΨΗ. Εισαγωγή

ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ ΠΕΡΙΛΗΨΗ. Εισαγωγή ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ Αθανάσιος Γαγάτσης Τµήµα Επιστηµών της Αγωγής Πανεπιστήµιο Κύπρου Χρήστος Παντσίδης Παναγιώτης Σπύρου Πανεπιστήµιο

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 10 ΟΥ ΚΕΦΑΛΑΙΟΥ ΥΠΟΠΡΟΓΡΑΜΜΑΤΑ 1. Πως ορίζεται ο τμηματικός προγραμματισμός; Τμηματικός προγραμματισμός

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 1 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 Β. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΕΥΝΑ 1. Γενικά Έννοιες.. 2 2. Πρακτικός Οδηγός Ανάλυσης εδοµένων.. 4 α. Οδηγός Λύσεων στο πλαίσιο

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Opinion Mining Opinion Mining Συνώνυμο: Sentiment Analysis Ορισμός: Ανάλυση κειμένων που αναφέρονται σε μια οντότητα/αντικείμενο Εντοπισμός

Διαβάστε περισσότερα

Α. Ερωτήσεις Ανάπτυξης

Α. Ερωτήσεις Ανάπτυξης οµηµένος Προγραµµατισµός-Κεφάλαιο 7 Σελίδα 1 α ό 10 ΕΝΟΤΗΤΑ ΙΙΙ (ΠΡΟΓΡΑΜΜΑΤΑ) ΚΕΦΑΛΑΙΟ 7: Είδη, Τεχνικές και Περιβάλλοντα Προγραµµατισµού Α. Ερωτήσεις Ανάπτυξης 1. Τι ονοµάζουµε γλώσσα προγραµµατισµού;

Διαβάστε περισσότερα

2.2 Οργάνωση και ιοίκηση (Μάνατζµεντ -Management) 2.2.1. Βασικές έννοιες 2.2.2 Ιστορική εξέλιξη τον µάνατζµεντ.

2.2 Οργάνωση και ιοίκηση (Μάνατζµεντ -Management) 2.2.1. Βασικές έννοιες 2.2.2 Ιστορική εξέλιξη τον µάνατζµεντ. 2.2 Οργάνωση και ιοίκηση (Μάνατζµεντ -Management) 2.2.1. Βασικές έννοιες Έχει παρατηρηθεί ότι δεν υπάρχει σαφής αντίληψη της σηµασίας του όρου "διοίκηση ή management επιχειρήσεων", ακόµη κι από άτοµα που

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων ΕΙΣΑΓΩΓΗ Η αναζήτηση και µελέτη της επιστηµονικής βιβλιογραφίας αποτελεί βασική προϋπόθεση για την επίλυση ερευνητικών προβληµάτων. Η βιβλιογραφική

Διαβάστε περισσότερα

Όμως πώς θα ορίζαμε την έννοια πληροφορία; Πώς την αντιλαμβανόμαστε;

Όμως πώς θα ορίζαμε την έννοια πληροφορία; Πώς την αντιλαμβανόμαστε; 1.1 ΕΙΣΑΓΩΓΗ Η πληροφορία αποτελεί το βασικό εργαλείο άσκησης της ιατρικής επιστήμης. Η διάγνωση, η θεραπεία, η πρόληψη και η διοίκηση της υγείας βασίζονται στην απόκτηση, διαχείριση και επεξεργασία της

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος Η έννοια πρόβληµα Ανάλυση προβλήµατος Με τον όρο πρόβληµα εννοούµε µια κατάσταση η οποία χρήζει αντιµετώπισης, απαιτεί λύση, η δε λύση της δεν είναι γνωστή ούτε προφανής. Μερικά προβλήµατα είναι τα εξής:

Διαβάστε περισσότερα

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ 2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ Προκειμένου να επιτευχθεί η «ακριβής περιγραφή» ενός αλγορίθμου, χρησιμοποιείται κάποια γλώσσα που μπορεί να περιγράφει σειρές ενεργειών με τρόπο αυστηρό,

Διαβάστε περισσότερα

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ) Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ) Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr Βασίλης Κατσάρης, telia.co.gr Σύνοψη Το σύστημα ΕΥΡΗΚΑ

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Ειρήνη Φλώρου ΕΚΠΑ, 01/03/2019

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Ειρήνη Φλώρου ΕΚΠΑ, 01/03/2019 «ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία Ειρήνη Φλώρου ΕΚΠΑ, 01/03/2019 Στόχοι Μετατροπή ανεπεξέργαστων δεδομένων σε χρήσιμη πληροφορία χωρίς εξαντλητική επισημείωση Συνόψιση πληροφορίας

Διαβάστε περισσότερα

Στόχος της ψυχολογικής έρευνας:

Στόχος της ψυχολογικής έρευνας: Στόχος της ψυχολογικής έρευνας: Συστηματική περιγραφή και κατανόηση των ψυχολογικών φαινομένων. Η ψυχολογική έρευνα χρησιμοποιεί μεθόδους συστηματικής διερεύνησης για τη συλλογή, την ανάλυση και την ερμηνεία

Διαβάστε περισσότερα

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ

Διαβάστε περισσότερα

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΥΠΟΛΟΓΙΣΤΩΝ Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού ( Απαντήσεις & Λύσεις Βιβλίου) 1. Σκοποί κεφαλαίου Κύκλος ανάπτυξης προγράµµατος Κατηγορίες γλωσσών προγραµµατισµού

Διαβάστε περισσότερα

710 -Μάθηση - Απόδοση. Κινητικής Συμπεριφοράς: Προετοιμασία

710 -Μάθηση - Απόδοση. Κινητικής Συμπεριφοράς: Προετοιμασία 710 -Μάθηση - Απόδοση Διάλεξη 5η Ποιοτική αξιολόγηση της Κινητικής Συμπεριφοράς: Προετοιμασία Περιεχόμενο ενοτήτων Ποιοτική αξιολόγηση Ορισμός και στάδια που περιλαμβάνονται Περιεχόμενο: στοιχεία που τη

Διαβάστε περισσότερα

Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας)

Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας) Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας) Εισαγωγή 1. Τι είναι αυτό που κρατάς στα χέρια σου. Αυτό το κείµενο είναι µια προσπάθεια να αποτυπωθεί όλη η θεωρία του σχολικού µε

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ 3 ΟΡΓΑΝΑ ΚΑΙ ΥΛΙΚΑ ΑΕΡΟΦΩΤΟΓΡΑΦΗΣΗΣ. 1. Εξέδρες για αεροφωτογράφηση

ΕΡΓΑΣΤΗΡΙΟ 3 ΟΡΓΑΝΑ ΚΑΙ ΥΛΙΚΑ ΑΕΡΟΦΩΤΟΓΡΑΦΗΣΗΣ. 1. Εξέδρες για αεροφωτογράφηση ΕΡΓΑΣΤΗΡΙΟ 3 ΟΡΓΑΝΑ ΚΑΙ ΥΛΙΚΑ ΑΕΡΟΦΩΤΟΓΡΑΦΗΣΗΣ 1. Εξέδρες για αεροφωτογράφηση Από τη στιγμή που άνθρωπος ανακάλυψε τη σπουδαιότητα της αεροφωτογραφίας, άρχισε να αναζητά τρόπους και μέσα που θα του επέτρεπαν

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 4 ΤΑΞΙΝΟΜΗΣΕΙΣ ΤΩΝ ΟΡΓΑΝΙΣΜΩΝ

ΚΕΦΑΛΑΙΟ 4 ΤΑΞΙΝΟΜΗΣΕΙΣ ΤΩΝ ΟΡΓΑΝΙΣΜΩΝ ΚΕΦΑΛΑΙΟ 4 ΤΑΞΙΝΟΜΗΣΕΙΣ ΤΩΝ ΟΡΓΑΝΙΣΜΩΝ 1. Η ΠΡΟΣΕΓΓΙΣΗ 203. Η προσέγγιση εστιάζει στις χαρακτηριστικές ιδιότητες της καινοτοµικής επιχείρησης και όλα τα χαρακτηριστικά των δραστηριοτήτων καινοτοµίας και

Διαβάστε περισσότερα

Εργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη

Εργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη Εργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη 01 Εισαγωγή Μια απλή και γρήγορη εισαγωγή Το Splunk > είναι ένα πρόγραμμα το οποίο πρωτοεμφανίστηκε στην αγορά το 2003 και αποτελεί ένα πρόγραμμα εξόρυξης

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.) ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.) «Διερμηνεία και Μετάφραση» Tων Τμημάτων: Φιλολογίας, Αγγλικής Γλώσσας και Φιλολογίας, Γαλλικής Γλώσσας και

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ Δειγµατοληψια. Καθηγητής Α. Καρασαββόγλου Επίκουρος Καθηγητής Π. Δελιάς

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ Δειγµατοληψια. Καθηγητής Α. Καρασαββόγλου Επίκουρος Καθηγητής Π. Δελιάς ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ Δειγµατοληψια Καθηγητής Α. Καρασαββόγλου Επίκουρος Καθηγητής Π. Δελιάς ΔΕΙΓΜΑΤΟΛΗΨΙΑ Η διαδικασία επιλογής παρατηρήσεων Ποια δηµοσκόπηση πιστεύετε πως θα είναι πιο ακριβής: Αυτή που

Διαβάστε περισσότερα

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) ρ. ΧΑΛΚΙΑΣ ΧΡΙΣΤΟΣ xalkias@hua.gr Χ. Χαλκιάς - Εισαγωγή στα GIS 1 Ορισµοί ΓΠΣ Ένα γεωγραφικό πληροφοριακό σύστηµα Geographic Information

Διαβάστε περισσότερα

ΑΝΑΣΚΟΠΗΣΗ ΤΩΝ ΠΟΛΙΤΙΚΩΝ ΚΑΙ ΤΩΝ ΠΡΑΚΤΙΚΩΝ ΤΗΣ ΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΠΟΥ ΥΠΟΣΤΗΡΙΖΕΤΑΙ ΑΠΟ ΤΠΕ

ΑΝΑΣΚΟΠΗΣΗ ΤΩΝ ΠΟΛΙΤΙΚΩΝ ΚΑΙ ΤΩΝ ΠΡΑΚΤΙΚΩΝ ΤΗΣ ΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΠΟΥ ΥΠΟΣΤΗΡΙΖΕΤΑΙ ΑΠΟ ΤΠΕ Leonardo da Vinci Leonardo Project: A EUROPEAN OBSERVATORY ON THE USE OF ICT-SUPPORTED LIFE LONG LEARNING BY SMES, MICRO-ENTERPRISES AND THE SELF-EMPLOYED IN RURAL AREAS ΑΝΑΣΚΟΠΗΣΗ ΤΩΝ ΠΟΛΙΤΙΚΩΝ ΚΑΙ ΤΩΝ

Διαβάστε περισσότερα

ορολογίας στο έργο του ελληνόφωνου νομικού Παναγιώτης Γ. Κριμπάς Επίκουρος Καθηγητής Ορολογίας και Μετάφρασης (Δ.Π.Θ.) Δικηγόρος (Δ.Σ.Α.

ορολογίας στο έργο του ελληνόφωνου νομικού Παναγιώτης Γ. Κριμπάς Επίκουρος Καθηγητής Ορολογίας και Μετάφρασης (Δ.Π.Θ.) Δικηγόρος (Δ.Σ.Α. Η συμβολή του θεωρητικού της ορολογίας στο έργο του ελληνόφωνου νομικού Παναγιώτης Γ. Κριμπάς Επίκουρος Καθηγητής Ορολογίας και Μετάφρασης (Δ.Π.Θ.) Δικηγόρος (Δ.Σ.Α.) Νομικά κείμενα: Κείμενα που περιέχουν

Διαβάστε περισσότερα

LALING/PLALING :

LALING/PLALING : 1. Άρθρα- δημοσιεύσεις Scopus DBLP Pubmed Google Scholar 2. Αναζήτηση νουκλεοτιδίου- πρωτεΐνης Entrez : http://www.ncbi.nlm.nih.gov/nuccore/ Uniprot (πρωτεΐνης): http://www.uniprot.org/ Blast : http://blast.ncbi.nlm.nih.gov/blast.cgi

Διαβάστε περισσότερα

ιοίκηση Παραγωγής και Υπηρεσιών

ιοίκηση Παραγωγής και Υπηρεσιών ιοίκηση Παραγωγής και Υπηρεσιών Προγραµµατισµός Παραγωγής Προβλήµατα µε πολλές µηχανές Γιώργος Ιωάννου, Ph.D. Αναπληρωτής Καθηγητής Σύνοψη διάλεξης Προβλήµατα Παράλληλων Μηχανών Ελαχιστοποίηση χρόνου ροής

Διαβάστε περισσότερα

1.4 Λύσεις αντιστρόφων προβλημάτων.

1.4 Λύσεις αντιστρόφων προβλημάτων. .4 Λύσεις αντιστρόφων προβλημάτων. Ο τρόπος παρουσίασης της λύσης ενός αντίστροφου προβλήµατος µπορεί να διαφέρει ανάλογα µε τη «φιλοσοφία» επίλυσης που ακολουθείται και τη δυνατότητα παροχής πρόσθετης

Διαβάστε περισσότερα

Νέες τεχνολογίες εισάγονται ή χρησιµοποιούνται

Νέες τεχνολογίες εισάγονται ή χρησιµοποιούνται special report τoυ Γιώργου Φετοκάκη / gfetokakis@boussias.com Jobs scheduling Η χρυσή τοµή της αυτοµατοποίησης Μια λύση job scheduling πρέπει να είναι αρκετά περιεκτική. Πρέπει να υποστηρίζει την ενσωµάτωση

Διαβάστε περισσότερα

Τεχνολογίες Υλοποίησης Αλγορίθµων

Τεχνολογίες Υλοποίησης Αλγορίθµων Τεχνολογίες Υλοποίησης Αλγορίθµων Χρήστος Ζαρολιάγκης Καθηγητής Τµήµα Μηχ/κων Η/Υ & Πληροφορικής Πανεπιστήµιο Πατρών email: zaro@ceid.upatras.gr Γρηγόρης Πράσινος Υποψήφιος ιδάκτωρ Τµήµα Μηχ/κων Η/Υ &

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ Βασικές µορφές Ερωτήσεων - απαντήσεων Ανοιχτές Κλειστές Κλίµακας ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 2 Ανοιχτές ερωτήσεις Ανοιχτές

Διαβάστε περισσότερα

1. Σκοπός της έρευνας

1. Σκοπός της έρευνας Στατιστική ανάλυση και ερμηνεία των αποτελεσμάτων των εξετάσεων πιστοποίησης ελληνομάθειας 1. Σκοπός της έρευνας Ο σκοπός αυτής της έρευνας είναι κυριότατα πρακτικός. Η εξέταση των δεκτικών/αντιληπτικών

Διαβάστε περισσότερα