ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Σχετικά έγγραφα
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ INFORMATION EXTRACTION

Γλωσσική Τεχνολογία. Natural Language Toolkit

Information Technology for Business

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Εξαγωγή Ονοματικών Οντοτήτων και Εμπλουτισμός Κειμένου με χρήση Σημασιολογικού Ιστού ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Περίληψη ιπλωµατικής Εργασίας

Ellogon: Μία Πλατφόρμα Επεξεργασίας Φυσικής Γλώσσας. Γεώργιος Πετάσης

Language Resources for Information Extraction:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΥΝΤΑΞΗ: ΣΤΟΧΑΣΤΙΚΕΣ ΜΕΘΟΔΟΙ STOCHASTIC PARSING

Εθνικό Μετσόβιο Πολυτεχνείο. Εξαγωγή σχέσεων μεταξύ οντοτήτων από το αρχείο της εφημερίδας «ΤΑ ΝΕΑ» με χρήση τεχνικών μη-επιβλεπόμενης μάθησης

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Π3.4.1: Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 8 ο : Εξαγωγή πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΑΣΚΗΣΗ 11: ΕΠΕΞΕΡΓΑΣΙΑ ΦΥΣΙΚΗΣ ΓΛΩΣΣΑΣ - ΣΥΝΤΑΚΤΙΚΗ ΑΝΑΛΥΣΗ (PARSING)

«ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ»

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

Βάσεις Δεδομένων και Ευφυή Πληροφοριακά Συστήματα Επιχειρηματικότητας. 2 ο Μάθημα: Βασικά Θέματα Βάσεων Δεδομένων. Δρ. Κωνσταντίνος Χ.

Department of Computer Science University of Cyprus. EPL342 Databases. Lecture 8: RM II. Relational Model. (Chapter )

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Georgios Lucarelli and Ion Androutsopoulos Dept. of Informatics, Athens University of Economics and Business Patision 76, GR , Athens, Greece

G. Kokkinankis, E. Dermatas, E. Coutsogeorgopoulos

Linked Data for the Masses: Η προσέγγιση και το λογισμικό

Εξόρυξη Γνώμης: Δημιουργία Ελληνικού Λεξικού Πόρου

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Εισαγωγικό Φροντιστήριο

Εργαστήριο Σημασιολογικού Ιστού

Γλωσσική Τεχνολογία. Εισαγωγικό Φροντιστήριο

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη

Τεχνολογίες RDF για τον Ιστό Δεδοµένων

ΝΤUA. Τεχνολογία Πολυμέσων

Ανοικτό Πανεπιστήμιο Κύπρου

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Re-Pair n. Re-Pair. Re-Pair. Re-Pair. Re-Pair. (Re-Merge) Re-Merge. Sekine [4, 5, 8] (highly repetitive text) [2] Re-Pair. Blocked-Repair-VF [7]

Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα)

SocialDict. A reading support tool with prediction capability and its extension to readability measurement

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος

ΜΔΛΔΣΖ ΚΑΗ ΔΛΔΓΥΟ ΣΟΤ PYTHON NATURAL LANGUAGE TOOLKIT ΣΖΝ ΔΛΛΖΝΗΚΖ ΓΛΧΑ

7-22 Οκτωβρίου Μία γιορτή δημιουργίας με κώδικα. Europe Code Week

Σηµασιολογικό Ιστό. Αλέξανδρος Βαλαράκος Αιγαίου.

Διάλεξη 07: Σχεσιακό Μοντέλο II (Relational Data Model) Διδάσκων: Παναγιώτης Ανδρέου

ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ. Υποχρεωτικής επιλογής (Κατεύθυνσης)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ

Βάσεις Δεδομένων (Databases)

ΕΠΛ 012 Εισαγωγή στο Παγκόσμιο Πλέγμα Πληροφοριών

Εργαστήριο Σημασιολογικού Ιστού

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

Βάσεις Δεδομένων ΙΙ. Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο

Ανάκτηση Πληροφορίας

ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΦΡΟΝΤΙΣΤΗΡΙΟ ΣΤΗ ΓΛΩΣΣΑ SQL

Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος

Επικοινωνία Ανθρώπου Υπολογιστή. Β3. Κατανόηση φυσικής γλώσσας

2. Για να δημιουργήσουμε το πρώτο ή κάθε νέο Backup set πατάμε στο εικονίδιο και εμφανίζεται ο Wizard του Backup set

Αναγνώριση παραπομπών σε ελληνικά νομικά κείμενα με χρήση κανόνων

Opinion Mining and Sentiment Analysis

Πρότυπα και Τεχνολογίες Semantic Web και Web 2.0 και η εφαρμογή τους στην Ηλεκτρονική Διακυβέρνηση

Opinion Mining and Sentiment analysis

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΗΜΑΣΙΟΛΟΓΙΑ - SEMANTICS

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Ανάπτυξη RESTful APIs με τη χρήση της γλώσσας Gherkin και του OpenAPI Specification

Τα στοιχεία των ΠΣ στο πλαίσιο της ΔΔ Μοντέλο Δεδομένων Data Model

Επεξεργασία και Εξαγωγή Σύνθετων Πληροφοριών σε Σύγχρονα Δημοσιογραφικά και Αρχαία Ιστορικά Κείμενα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 4 ο : Συντακτική ανάλυση. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Βάσεις Δεδομένων Εισαγωγή

Πληροφοριακά Συστήματα

Lecture 21: Functional Dependencies and Normalization

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ. Π.Μ.Σ. στην ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ. κατεύθυνση: Συστήματα Υπολογιστών. Διπλωματική Εργασία. Μυρωνίδης Θεόδωρος

Σχεδίαση και Ανάπτυξη Ιστότοπων

Εργαστήριο Σημασιολογικού Ιστού

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Διονύσης Γούτσος ΕΚΠΑ, 01/03/2019

Τεχνολογία Πολυμέσων

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

Διπλωματική Εργασία. Αναζήτηση μηνυμάτων κοινωνικών μέσων σχετικών με γεγονότα με χρήση τεχνικών ανάκτησης πληροφορίας

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Μηχανική Μάθηση στην Επεξεργασία Φυσικής Γλώσσας

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Ασκήσεις μελέτης της ενότητας «Συντακτική Ανάλυση»

ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Μεταδεδομένα στο Ψηφιακό περιβάλλον

ΝΤUA. Τεχνολογία Πολυμέσων

Εισαγωγή στις ΤΠΕ ΙΙ Γιάννης Βρέλλης ΠΤΔΕ-Πανεπιστήμιο Ιωαννίνων. World Wide Web. Παγκόσμιος Ιστός

Εργαστήριο Σημασιολογικού Ιστού

Εισαγωγή στον Παγκόσμιο ιστό και στη γλώσσα Html. Χρ. Ηλιούδης

Εργαστήριο Σημασιολογικού Ιστού

ΠΑΡΟΥΣΙΑΣΕΙΣ ΤΑ ΣΩΣΤΑ ΤΟΥΣ ΤΑ ΛΑΘΗ ΤΟΥΣ

Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Εργαλεία ΕΙΣΑΓΩΓΙΚΟ ΦΡΟΝΤΙΣΤΗΡΙΟ

Transcript:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction

Information Extraction Μορφή της πληροφορίας Δομημένα δεδομένα Relational Databases (SQL) XML markup Μη-δομημένα δεδομένα Ελεύθερο κείμενο Multimedia (images/audio/video) Ημι-δομημένα δεδομένα Πίνακες μέσα στο κείμενο Σχόλια Information Extraction: Το πρόβλημα της μετατροπής της πληροφορίας σε δομημένα δεδομένα

Information Extraction Παράδειγμα Μη δομημένη μορφή «Η Μαρία σπούδασε στην Ιατρική του Πανεπιστημίου Πατρών. Ο Γιώργος σπούδασε στη Νομική του ΑΠΘ. Εκεί σπούδασε και η Χριστίνα.» Μετατροπή σε δομημένη Αναγνώριση οντοτήτων Με επίλυση αναφορών Αναγνώριση σχέσεων Αναπαράσταση σε δομημένη πληροφορία XML Relational

Information Extraction Παράδειγμα XML Relational <info> <university name='πανεπιστήμιο Πατρών'> <department name='ιατρική'> <student='μαρία'/> </department> </university> <university name='απθ'> <department name='νομική'> <student='γιώργος'/> <student='χριστίνα'/> </department> </university> </info> σπούδασε(μαρία, Ιατρική) ανήκει(ιατρική, Πανεπιστήμιο Πατρών) σπούδασε(γιώργος, Νομική) ανήκει(νομική, ΑΠΘ) σπούδασε(χριστίνα, Νομική)

Εφαρμογή στο Διαδίκτυο Διαδίκτυο: εκρηκτική αύξηση της μη- δομημένης πληροφορίας Για να εκμεταλλευτούμε την πληροφορία πλήρως πρέπει να μετατραπεί σε δομημένη. Tim Berners-Lee: Transformation of Web of Documents to Web of Data. Απαιτήσεις για το web: Χαμηλό κόστος Προσαρμοστικότητα σε πολλά πεδία Ευκολία ανάπτυξης Χρήση του HTML/XML markup

Προσεγγίσεις Wrappers: Σύνολα κανόνων μεγάλης ακρίβειας Εξάγουν συγκεκριμένη πληροφορία από σελίδες Εφαρμόζονται σε σελίδες με πολύ συγκεκριμένη δομή Αποτυγχάνουν σε πιο ελεύθερα δομημένη πληροφορία Adaptive Information Extraction: Συστήματα που εφαρμόζονται σε διαφορετικά δομημένη πληροφορία Εφαρμόζονται τεχνικές NLP

Information Extraction Architecture Είσοδος: ελεύθερο κείμενο Έξοδος: σχέσεις μεταξύ οντοτήτων

Προεπεξεργασία Βήμα 1: Sentence Segmentations Βήμα 2: Tokenization Βήμα 3: Tagging

Entity Recognition Βήμα 4: Αναγνώριση οντοτήτων Οντότητες που εκφράζονται από: Κύρια ονόματα Ο Γιάννης πήγε στην παραλία. Ονοματικές φράσεις Ο Γιάννης πήγε στην παραλία. Αναφορές ή συνώνυμα με προηγούμενη αναφορά στις οντότητες Εκεί ήπιε καφέ.

Entity Recognition - Chunking Η κύρια τεχνική αναγνώρισης οντοτήτων Ανάθεση ακολουθιών από tokens σε συντακτικές κατηγορίες πχ Noun Phrases (Ονοματικές Φράσεις) Verbal Phrases (Ρηματικές Φράσεις) Χρησιμοποιούμε κυρίως ονοματικές φράσεις

Chunking - Αναπαράσταση Διαφορετικές μορφές αναπαράστασης chunks Ανάλογα με την αναπαράσταση των εμφωλευμένων στοιχείων: IOB tags: Input/Output/Begin tag σε κάθε chunk Δέντρο

Chunking - Διαδικασία Δημιουργία ενός NP-chunker: Ορισμός της γραμματικής για το chunking: Κανόνες για το πως οι προτάσεις μπορούν να γίνουν chunked Οι κανόνες ορίζουν tag patterns Με σύνταξη παρόμοια με regular expressions, ορίζουν ακολουθίες από Part-Of-Speech tags. πχ NP: {<DT PP\$>?<JJ>*<NN>} {<NNP>+}

Chunking Παράδειγμα

Chunking Classifier based chunkers Αρκεί μόνο το POS για την αναγνώριση των chunks? Joey sold the farmer rice. Nick broke my computer monitor. Ανάγκη για εκμετάλλευση και της λέξης εκτός από το POS Εκπαίδευση ενός classifier (ανάλογα με τη δημιουργία του POS tagger) Training set: Ένα corpus με σημειωμένα τα IOB-tags πχ στο NLTK το Wall Street Journal Features: POS της τρέχουσας λέξης Η ίδια η τρέχουσα λέξη POS από τις προηγούμενες Οι προηγούμενες/επόμενες λέξεις

Chunking with NLTK To NLTK έχει classifier-based chunker εκπαιδευμένο ήδη για να αναγνωρίζει Named Entities.

Relation Extraction Βήμα 5: Αναγνώριση σχέσεων Με δεδομένες τις οντότητες Αναγνώριση τριάδων (X,a,Y) όπου X, Y οντότητες και a ακολουθία που εκφράζει τη σχέση. Βασική προσέγγιση: Επιλογή με regular expressions των λέξεων που εκφράζουν τη σχέση από τα tokens μεταξύ των οντοτήτων.

Relation Extraction Παράδειγμα

Recommended Reading Natural Language Processing with Python Chapter 7: Extracting Information from Text