Ευφυείς Τεχνικές για Εφαρμογές Αποθετηρίων



Σχετικά έγγραφα
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Υπηρεσίες Υποστήριξης, Δικτύωσης, Προδιαγραφών & Πιστοποίησης Ιδρυματικών Αποθετηρίων

Ανάκτηση Πληροφορίας

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Αξιοποίηση και διάθεση ελληνικού ψηφιακού έγκριτου περιεχομένου

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Αναβάθμιση και εμπλουτισμός ΙδρυματικούΑποθετηρίουΕΜΠ

Υλοποίηση συστημάτων ανοικτής πρόσβασης στο Εθνικό Κέντρο Τεκμηρίωσης

FirstSearch (OCLC) Βασικά χαρακτηριστικά:

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

Εγχειρίδιο Χρήσης Λογισμικού ΙΑ

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ήλιος: Το ψηφιακό Αποθετήριο Ανοικτής Πρόσβασης του Εθνικού Ιδρύματος Ερευνών

HMY 795: Αναγνώριση Προτύπων

e-publishing Υπηρεσίες Ηλεκτρονικών εκδόσεων- Τίτλος παρουσίασης epublishing Open Book Press

Αναφορά εργασιών για το δίμηνο Μάϊος Ιούνιος Ανάδοχος. Καμάτσος Παρασκευάς

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Ερευνητικό Αποθετήριο Πανεπιστημίου Πειραία

Τίτλος Εργασίας Καινοτόμου Προγράμματος και Δράσης

Αποθετήρια. Κλειώ Σγουροπούλου. Αριστεία ΕΛ/ΛΑΚ ΤΕΙ Αθήνας

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

Springer Book Series, Springer Science + Business Media

Τίτλος Εργασίας. Επώνυμο και Όνομα Πρώτου Εισηγητή (ΠΡΟΣΟΧΗ: πρώτα το Επώνυμο) Ιδιότητα, Εργασιακός Φορέας, Διεύθυνση

Τίτλος Εργασίας Εκπαιδευτικού Σεναρίου

Αναφορά εργασιών για το τρίμηνο Δεκέμβριος 2012 Φεβρουάριος 2013 Όνομα : Μπελούλη Αγάθη

Σχεδίαση Λογισμικού. Σημείωση

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

Υπηρεσίες Ανοικτής Πρόσβασης. Ηράκλειτος Σουγιουλτζόγλου ΕΚΤ

Ιδρυματικό Αποθετήριο ΑΕΙ ΠΕΙΡΑΙΑ Τ.Τ.

Ημερομηνία Παράδοσης: 4/4/2013

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Τίτλος Πακέτου Certified Computer Expert-ACTA

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Αναφορά εργασιών για το τρίμηνο Σεπτέμβριος Νοέμβριος 2012

Εισαγωγή στην υδροπληροφορική και βελτιστοποίηση συστημάτων υδατικών πόρων

Περιεχόμενα. 2 Αριθμητικά συστήματα

Ερευνητικό Αποθετήριο ΤΕΙ Ηπείρου. Οδηγίες κατάθεσης δημοσίευσης στο σύστημα Ερευνητικού Αποθετηρίου CRIS

Βασίλης Πλαχούρας. Χρυσόστομος Καπέτης Μιχάλης Βαζιργιάννης. Οικονομικό Πανεπιστήμιο Αθηνών 3/11/2003

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC)

Ιόνιο Πανεπιστήμιο - Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας

Τεχνολογία Λογισμικού

Εισαγωγή στην υδροπληροφορική και βελτιστοποίηση συστημάτων υδατικών πόρων

Γεωχωρική πληροφορία και υποστήριξη αποφάσεων σε επίπεδο ΟΤΑ

Μαθησιακά Αντικείμενα

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Διαχείριση Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Εισαγωγή στην FORTRAN. Δρ. Ιωάννης Λυχναρόπουλος

To Πανελλήνιο Ψηφιακό Αποθετήριο Μαθησιακών Αντικειμένων

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάπτυξη ψηφιακής βιβλιοθήκης και ιδρυματικού αποθετηρίου στην Κεντρική Βιβλιοθήκη ΕΜΠ

EBSCOhost Research Databases

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

"Ελληνικά Ακαδημαϊκά Ηλεκτρονικά Συγγράμματα και Βοηθήματα"

Τίτλος Εργασίας Εργαστηριακής Παρουσίασης

Μάθημα: Συστήματα Διαχείρισης Βάσεων Δεδομένων Αναλυτικό Διάγραμμα Μελέτης

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

MathSciNet ΟΔΗΓΟΣ ΧΡΗΣΗΣ

Διπλωματικές Εργασίες > 200 εργασίες έχουν εκπονηθεί (από το 1990)

IEEE Xplore, Institute of Electrical and Electronics Engineers Inc.

Εισαγωγή Κεφάλαιο 1: Εγκατάσταση της Access Κεφάλαιο 2: Βάσεις δεδομένων και δομικά στοιχεία της Access

ΤΕΛΙΚΕΣ ΔΙΠΛΩΜΑΤΙΚΕΣ ΕΡΓΑΣΙΕΣ (6 Μονάδες ECTS)- Ακαδημαϊκό Έτος

Ανάκτηση πολυμεσικού περιεχομένου

Πέργαµος: Το Σύστηµα Ψηφιακής Βιβλιοθήκης του Πανεπιστηµίου Αθηνών

Χρήστος Στασινός. ουλεύοντας με τη. Microsoft Access ΑΘΗΝΑ

ΙΔΡΥΜΑΤΙΚΑ ΑΠΟΘΕΤΗΡΙΑ (ΙΑ): ΡΟΕΣ ΚΑΤΑΘΕΣΗΣ ΤΕΚΜΗΡΙΩΝ, ΔΙΕΠΑΦΕΣ ΧΡΗΣΤΗ, ΥΠΟΔΟΜΗ

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

COSMOS CLOUD CMS. Η σύγχρονη επικοινωνία με τον COSMOS σας

COSMOS CLOUD CMS ΤΟ COSMOS CLOUD CMS ΔΕΝ ΕΙΝΑΙ ΜΙΑ ΑΠΛΗ ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΠΟΛΙΤΙΚΟΥ ΓΡΑΦΕΙΟΥ.

Ψηφιακές πηγές για την έρευνα στις Ανθρωπιστικές Επιστήμες

Πληροφορική 2. Τεχνητή νοημοσύνη

Οδηγίες για τη Ανάπτυξη Ανοικτών Ψηφιακών Μαθημάτων

Κεντρική Βιβλιοθήκη Ε.Μ.Π. Υλικό Σεμιναρίων (για προπτυχιακούς φοιτητές)

ΠΑΝΔΗΜΟΣ Ψηφιακή Βιβλιοθήκη. Οδηγός χρήσης

Οδηγία INSPIRE, μεταδεδομένα και GIS

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

Αυτόματη εξαγωγή αρμοδιοτήτων και δομής οργανισμών από την Εφημερίδα της Κυβέρνησης

Προηγμένα Θέματα Δικτύων Υπολογιστών

E-LIS: E-prints για τη Βιβλιοθηκονομία και την Επιστήμη της Πληροφόρησης (ΒΕΠ)

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΛΛΗΝΙΚΆ ΑΚΑΔΗΜΑΪΚΆ ΗΛΕΚΤΡΟΝΙΚΆ ΣΥΓΓΡΆΜΜΑΤΑ ΚΑΙ ΒΟΗΘΉΜΑΤΑ

Ιδρυματικό Αποθετήριο ΤΕΙ ΠΕΙΡΑΙΑ

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Στοιχεία εισηγητή Ημερομηνία: 10/10/2017

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

ΕΡΕΥΝΗΤΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΙΝΣΤΙΤΟΥΤΟ ΣΥΣΤΗΜΑΤΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ & ΥΠΟΛΟΓΙΣΤΩΝ (ΕΠΙΣΕΥ) I-SENSE GROUP

Περιβαλλοντική πληροφορική - Ευφυείς εφαρµογές

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Βιβλιοθήκη ΑΤΕΙΘ. Τίτλος Πράξης: «Υπηρεσίες Ψηφιακής Βιβλιοθήκης Ανοικτής Πρόσβασης του Αλεξάνδρειου ΤΕΙ Θεσσαλονίκης» Κωδικός πράξης ΟΠΣ

Transcript:

Ευφυείς Τεχνικές για Εφαρμογές Αποθετηρίων Α.-Γ. Σταφυλοπάτης Ερευνητικό Πανεπιστημιακό Ινστιτούτο Συστημάτων Επικοινωνιών και Υπολογιστών Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

ΕΥΦΥΕΙΣ ΥΠΗΡΕΣΙΕΣ ΑΝΑΖΗΤΗΣΗΣ ΚΑΙ ΑΝΑΛΥΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ Ανάκτηση - Επιλογή πληροφορίας Searching, mining, querying Εύκολη, ευέλικτη, διαισθητική πρόσβαση Ανοχή σε ανακρίβεια, αβεβαιότητα, ασάφεια Επέκταση ερωτήσεων, ευέλικτες ερωτήσεις Δυναμικό ταίριασμα αναζήτησης/αντικειμένου Οργάνωση - Ανάλυση δεδομένων Ανάλυση κειμένου Συνόψιση (summarization) Προσθήκη δομής σε μη δομημένα δεδομένα Αυτόματη εξαγωγή μεταδεδομένων Σύνδεση με άλλες πηγές Μετα-αναζήτηση (metasearch) Αξιοποίηση σχεσιακών δεδομένων 2

ΕΥΦΥΕΙΣ ΥΠΗΡΕΣΙΕΣ ΑΝΑΖΗΤΗΣΗΣ ΚΑΙ ΑΝΑΛΥΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ Eξατομίκευση Μοντελοποίηση χρήστη Προφίλ προτιμήσεων (user profiling) Ανάδραση σχετικότητας (relevance feedback) Συστάσεις - εισηγήσεις (recommender systems) Οπτικοποίηση πολυδιάστατης πληροφορίας Κείμενο, εικόνες, πολυμεταβλητά δεδομένα 2Δ απεικονίσεις Μείωση διαστάσεων Σημασιολογικοί χάρτες, θεματικοί χάρτες Πλοήγηση 3

ΒΑΣΙΚΕΣ ΤΕΧΝΙΚΕΣ Μοντελοποίηση Υπολογιστική νοημοσύνη (Computational Intelligence) Μηχανική μάθηση (Machine Learning) Νευρωνικά δίκτυα (Neural Networks) Ασαφή συστήματα (Fuzzy Systems) Ταξινομητές πυρήνα / Support Vector Machines Aυτο-οργανούμενοι χάρτες (Self Organizing Maps) Πιθανοτικά μοντέλα και ταξινομητές Ταξινόμηση (Classification) Ομαδοποίηση (Clustering) Πραγματικές εφαρμογές με ερευνητικό ενδιαφέρον 4

Καθαρισμός δεδομένων και εύρεση διπλοεγγραφών Ταυτόχρονη παρουσία εγγραφών σε διαφορετικές γλώσσες (ελληνικά/αγγλικά) ή και σε greeklish Παρουσία εγγραφών χωρίς νόημα (π.χ. εισαγωγή μόνο ειδικών χαρακτήρων σε πεδίο που θα έπρεπε να περιέχει όνομα) Ελλιπείς εγγραφές (με πολλά κενά πεδία) Ορθογραφικά ή τυπογραφικά λάθη Διαφορετικές γραπτές μορφές της ίδιας οντότητας (π.χ. συντμήσεις και αρκτικόλεξα σε αντιπαραβολή με τα αναπτύγματά τους) Ενιαίες εγγραφές που πρέπει να διαχωριστούν διότι περιλαμβάνουν πληροφορία που αντιστοιχεί σε διαφορετικά πεδία Διόρθωση του περιεχομένου της βάσης και διευκόλυνση της αναζήτησης διπλοεγγραφών Συνδυασμός ετερογενών βάσεων (λειτουργία κυρίως backoffice) 5

Καθαρισμός δεδομένων και εύρεση διπλοεγγραφών Αρχιτεκτονική του συστήματος 6

Σύστημα προεπεξεργασίας Αντικαταστάσεις και ομαδοποιήσεις (ανάθεση ετικετών) Δημιουργία αριθμητικών χαρακτηριστικών και αναπαράστασης του κειμένου Εμπλουτισμός των χαρακτηριστικών με εξωτερικές πηγές γνώσεων 7

Το βασικό αντικείμενο Token 8

Παραγωγή διανυσμάτων για ευφυείς τεχνικές από λίστα Tokens 9

Καθαρισμός δεδομένων και εύρεση διπλοεγγραφών Αναγνώριση γλώσσας κειμένου/εγγραφών (ελληνικά/αγγλικά/greeklish) με χρήση αλφαβήτου Καθαρισμός από κείμενο/εγγραφές χωρίς νόημα Εύρεση ποιότητας εγγραφών Διαχείριση κειμένου greeklish Διαδικασία μετατροπής λέξεων greeklish στα ελληνικά Βιβλιοθήκη Ινστιτούτου Επεξεργασίας του Λόγου (ΙΕΛ) Ανάπτυξη ελληνικού συστήματος Soundex 10

Διαχείριση κειμένου Greeklish Μετασχηματισμός κάθε token σε διάνυσμα τιμών Αναγνώριση και εντοπισμός των ύποπτων διανυσμάτων Μετατροπή του token στα ελληνικά Μεταβλητές Διανύσματος Float Float Binary Integer Τριγραμματικό Σκορ Διγραμματικό Σκορ Ύπαρξη ή μη της λέξης στα αγγλοσαξονικά λεξικά Πλήθος Ομόηχων λέξεων στα ελληνικά με βάση τον αλγόριθμο Soundex 11

Καθαρισμός δεδομένων και εύρεση διπλοεγγραφών Tokenization Feature construction Πρόταση αντικαταστάσεων tokens Αρχική Βάση Δεδομένων WordList Fuzzy System API ΙΕΛ Τελική βάση δεδομένων Αφαίρεση tokens χωρίς νόημα 12

Ασαφής ταξινομητής λέξεων σε Greeklish ή Latin Γνωσιακή Βάση Κανόνων 13

Γνωσιακή βάση κανόνων ασαφούς ταξινομητή Ασαφείς Κανόνες 1 ΕΑΝ υπάρχει στο αγγλικό λεξικό, ΤΟΤΕ η λέξη είναι μάλλον αγγλική 2 ΕΑΝ το Τριγραμματικό Σκορ είναι χαμηλό ΚΑΙ το Διγραμματικό Σκορ είναι χαμηλό ΚΑΙ δεν υπάρχει στο αγγλικό λεξικό ΚΑΙ το πλήθος ομόηχων λέξεων με Soundex-απλό είναι χαμηλό ΚΑΙ το πλήθος ομόηχων λέξεων με Soundex-επέκταση είναι χαμηλό, ΤΟΤΕ η λέξη είναι μάλλον άγνωστη. 3 ΕΑΝ το Τριγραμματικό Σκορ είναι χαμηλό ΚΑΙ δεν υπάρχει στο αγγλικό λεξικό ΚΑΙ το πλήθος ομόηχων λέξεων με Soundex-απλό ΔΕΝ είναι υψηλό, ΤΟΤΕ η λέξη είναι μάλλον άγνωστη 4 ΕΑΝ δεν υπάρχει στο αγγλικό λεξικό ΚΑΙ το πλήθος ομόηχων λέξεων με Soundex-απλό ΔΕΝ είναι χαμηλό ΚΑΙ το πλήθος ομόηχων λέξεων με Soundex-επέκταση ΔΕΝ είναι χαμηλό, ΤΟΤΕ η λέξη είναι μάλλον greeklish 5 ΕΑΝ το Τριγραμματικό Σκορ είναι χαμηλό ΚΑΙ δεν υπάρχει στο αγγλικό λεξικό ΚΑΙ το πλήθος ομόηχων λέξεων με Soundex-απλό ΔΕΝ είναι χαμηλό ΚΑΙ το πλήθος ομόηχων λέξεων με Soundex-επέκταση είναι χαμηλό, ΤΟΤΕ η λέξη είναι μάλλον greeklish. 14

Καθαρισμός δεδομένων και εύρεση διπλοεγγραφών Αντιστοίχιση αρκτικόλεξων με αναπτύγματά τους Διαχείριση συντομογραφιών και συντμήσεων Ευφυής ενοποίηση γραπτών εκφράσεων Εντοπισμός διπλοεγγραφών και διασύνδεση εγγραφών Εύρεση προτύπων σε δεδομένα Τεμαχισμός ενιαίων εκφράσεων Ταίριασμα σχήματος και ενοποίηση βάσεων δεδομένων 15

Καθαρισμός δεδομένων, ταίριασμα σχήματος μεταξύ βάσεων δεδομένων και εύρεση διπλοεγγραφών Αρχικες Βάσεις Δεδομένων Καθαρισμός Δεδομένων Φάσεις Α, Β και Γ του EPSETG0515 COMA++ Αυτόματο Tαίριασμα Σχήματος Αποθήκευση Αντιστοιχίσεων Ενοποιημένη Βάση Altova MapForce Ταίριασμα Σχήματος Προσθήκη Αντιστοιχίσεων από DB Administrators FuzzyDupes/Febrl Εύρεση Διπλοεγγραφών Γενική αρχιτεκτονική του συστήματος 16

Καθαρισμός δεδομένων και εύρεση διπλοεγγραφών Ταίριασμα σχήματος Εξόρυξη και επανάχρηση πληροφοριών Επίλυση προβλήματος πολλών διαφορετικων γραπτών εκφράσεων (αρκτικόλεξα, διαφορετικές γλώσσες, συντομογραφίες κλπ) που αναφέρονται σε σημασιολογικά ίδιο περιεχόμενο Προοπτική δημιουργίας οντολογιών από πολλές "επίπεδες" περιγραφές Επισήμανση λαθών/προβλημάτων στα δεδομένα - βελτίωση μελλοντικών διαδικασιών ανάκτησης και εισαγωγής δεδομένων, π.χ. χρήση δομημένων φορμών περιγραφής, πολλαπλών επιλογών, έλεγχος γλώσσας κλπ Συγκρότηση σημαντικών και επαναχρησιμοποιήσιμων γλωσσικών εργαλείων και βάσεων γνώσεων, όπου -ειδικά για τα ελληνικά- δενυπάρχουνπροηγούμεναδιαθέσιμασε μεγάλη κλίμακα 17

Εξαγωγή μεταδεδομένων, βιβλιογραφικών αναφορών και φράσεων-κλειδιών από διαφορετικούς τύπους κειμένων Στην προοπτική ενός ηλεκτρονικού αποθετηρίου, μεγάλος όγκος πληροφορίας και χειροκίνητες διαδικασίες: ανάγκη για διευκόλυνση/επιτάχυνση της διαδικασίας αυτής με την αυτόματη εξαγωγή πληροφοριών από τα έγγραφα Χρήση ευφυών μεθόδων που επιτρέπουν την αυτόματη εξαγωγή προτεινόμενων τιμών για τα πεδία που θα πρέπει να συμπληρώσει ο χρήστης κατά την κατάθεση του εγγράφου του, όπως τίτλος, συγγραφέας κλπ., αλλά και την εξαγωγή φράσεων κλειδιών και βιβλιογραφικών αναφορών που θα συνοδεύουν το έγγραφο Διαχείριση διαφορετικών τύπων εγγράφων: επιστημονικά άρθρα, διατριβές 18

Σύστημα προεπεξεργασίας (ελληνικό/αγγλικό κείμενο) Ανάγνωση δεδομένων κειμένου από διάφορους τύπους αρχείων (PDF, PS, DOC/RTF), αυτόματη ανάθεση ετικετών (tagging) Μετατροπή σε απλό κείμενο Αυτόματη κατάτμηση (segmentation) κειμένου σε ζώνες (zoning) Εξαγωγή διανυσμάτων χαρακτηριστικών (feature extraction) από κείμενο Προσδιορισμός σωμάτων δεδομένων για την εκπαίδευση και δοκιμή ευφυούς συστήματος και παραγωγή δεδομένων εκπαίδευσης (training set) 19

Μετατροπή Εγγράφων σε Απλό Κείμενο Αρχικό PS PDFWRITE Φάκελος υπό παρακολούθηση Φάκελος αποθήκευση Αρχικό PDF PDF Recognition Server 2.0 professional edition TEXT Αρχικό DOC/RTF JODConverter 20

Αρχιτεκτονική συστήματος εξαγωγής μεταδεδομένων 21

Έγγραφα τύπου επιστημονικής δημοσίευσης Ετικέτα μεταδεδομένου HEADER _TAGS Εξήγηση Τίτλος Title Ο τίτλος του εγγράφου Συγγραφέας Author Τα ονόματα των συγγραφέων του εγγράφου Ίδρυμα Affiliation Το ίδρυμα που ανήκει ο κάθε συγγραφέας Διεύθυνση Address Η διεύθυνση του κάθε συγγραφέα Σημείωση Note Σημειώσεις σχετικά με copyright, αναφορές κλπ Email Email Διευθύνσεις e-mail των συγγραφέων Ημερομηνία Date Ημερομηνία δημοσίευσης HEADER PART Περίληψη Abstract Περιγραφή του περιεχομένου και εισαγωγικό τμήμα του εγγράφου Τηλέφωνο Phone Τηλέφωνα συγγραφέων Λέξη κλειδί Keyword Λέξη κλειδί Web Web URL συγγραφέα ή εγγράφου Θέση Degree Λέξεις σχετικές με θέση Αριθμός έκδοσης Pubnum Αριθμός έκδοσης του εγγράφου 22

Έγγραφα τύπου επιστημονικής δημοσίευσης Ετικέτα μεταδεδομένου REF_TAGS Εξήγηση Συγγραφέας Author Τα ονόματα των συγγραφέων Tίτλος Proceedings Booktitle Τίτλος Proceedings Ημερομηνία Date Ημερομηνία Αρχισυντάκτης Editor Τα ονόματα των αρχισυντακτών Ίδρυμα Institution Όνομα ιδρύματος Περιοδικό Journal Τίτλος περιοδικού Περιοχή Location Ονομασία περιοχής Σημείωση Note Σημειώσεις σχετικά με copyright, submit, to appear κ.λ.π. Σελίδες Pages Αναφορά σε σελίδες REFERENCE PART Εκδότης Publisher Ονομασία εκδότη Tech Report, Διδακτορικό, Master, Draft Paper Tech Τίτλος Title Τίτλος Χαρακτηρισμός όπως:tech Report, Διδακτορικό, Master, Draft Paper Volume Volume Αριθμός Volume 23

Ευφυές Σύστημα Ταξινόμησης Μηχανές Διανυσμάτων Στήριξης (Support Vector Machines-SVM) Var 1 Support Vectors Margin Width Var 2 24

Μηχανές Διανυσμάτων Στήριξης (Support Vector Machines-SVM) Kernel layer b x 1 K( xx, 1) x 2 Input (data) space K( xx, 2) y Output neuron Linear output K( xx, m ) 1 x mo 25

HEADER PART - Σύστημα ταξινόμησης με συνδυασμό μοντέλων SVM Κάθε γραμμή του HEADER PART (ή μέρος αυτής) κατατάσσεται σε μία ή περισσότερες από 14 κατηγορίες: title author address affiliation abstract phone pubnum web date degree email note keyword intro 14 διαφορετικά υποπροβλήματα ταξινόμησης, έτσι ώστε κάθε υποπρόβλημα να αφορά την διάκριση μίας κατηγορίας από όλες τις άλλες (one-against-all) 26

REFERENCE PART - Σύστημα ταξινόμησης με συνδυασμό μοντέλων SVM Κάθε τμήμα του REFERENCE PART κατατάσσεται σε μία ή περισσότερες από 12 κατηγορίες: Author Booktitle Date Editor Institution Journal Location Note Pages Tech Title Volume 27

Αυτόματη Εξαγωγή Λέξεων και Φράσεων Κλειδιών από Κείμενα Δημοσιεύσεων 28

Αυτόματη εξαγωγή λέξεων και φράσεων κλειδιών με το λογισμικό ΚΕΑ 29

Εξαγωγή μεταδεδομένων, βιβλιογραφικών αναφορών και φράσεων-κλειδιών Ανάπτυξη ευφυών τεχνικών που κάνουν χρήση λεξικών, μορφολογίας και γενικότερα πολλών ιδιοτήτων του κειμένου και των εγγράφων (σημασιολογική ανάλυση/ανάγνωση) Δυνατότητα πολλαπλής αξιοποίησης: διευκόλυνση της online κατάθεσης εγγράφων από τους χρήστες offline βιβλιοθηκονομική αρχειοθέτηση του έγγραφου υλικού Μεταδεδομένα: συμπαγής περιγραφή, κατάλληλη για browsing και clustering Ενίσχυση της δυνατότητας πλοήγησης σε μεγάλους αριθμούς εγγράφων 30

Ερευνητική ομάδα ΕΠΙΣΕΥ-ΕΜΠ Α.-Γ. Σταφυλοπάτης, Καθ. ΕΜΠ, Επιστ. Υπεύθυνος Γ. Σιόλας, Δρ ΗΜΜΥ, Συντονιστής έργου Δ. Φροσυνιώτης, Δρ Πληροφορικής Μ. Περτσελάκης, Δρ ΗΜΜΥ Χ. Πατερίτσας, Δρ ΗΜΜΥ Α. Λαναρίδης, ΗΜΜΥ Γ. Σπανάκης, ΗΜΜΥ 31