ιαχείριση Πληροφορίας στο ιαδίκτυο



Σχετικά έγγραφα
Ασφάλεια περιεχοµένου στο ιαδίκτυο Internet Content Security (ICS)

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 8 ο : Εξαγωγή πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

Ανάκτηση Πληροφορίας

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

(SEO) - Ανοίγοντας τους ορίζοντες τις ΜΜΕ Ελληνικής τουριστικής επιχείρησης στο ιαδίκτυο

Language Resources for Information Extraction:

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Αριστοµένης Μακρής Εργαστήρια Η/Υ

Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

Πρότυπα και Τεχνολογίες Semantic Web και Web 2.0 και η εφαρμογή τους στην Ηλεκτρονική Διακυβέρνηση

Ανάπτυξη διαδικτυακής διαδραστικής εκπαιδευτικής εφαρμογής σε λειτουργικό σύστημα Android

Περιοδικών και του Συλλογικού Καταλόγου Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών. Αθήνα, Μάιος 2007

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

Ηµερίδα: Γεωπληροφορική και Εκπαίδευση Η Ελληνική Πραγµατικότητα Χαροκόπειο Πανεπιστήµιο ευτέρα και Τρίτη, Maΐου Γεώργιος Ν.

Θετικό ψηφιακό περιεχόμενο και υπηρεσίες για ανήλικους χρήστες

derivation of the Laplacian from rectangular to spherical coordinates

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Ηλεκτρονική Υγεία

interactivecommunication Search Marketing White Paper Φεβρουάριος , Cybertechnics Ltd. All rights reserved.

ΠΑΝΔΠΙΣΗΜΙΟ ΜΑΚΔΓΟΝΙΑ ΠΡΟΓΡΑΜΜΑ ΜΔΣΑΠΣΤΥΙΑΚΧΝ ΠΟΤΓΧΝ ΣΜΗΜΑΣΟ ΔΦΑΡΜΟΜΔΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική»

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Τι είναι ένα σύστημα διαχείρισης περιεχομένου; δυναμικό περιεχόμενο

Εξόρυξη Γνώσης από εδοµένα (data mining)

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Η χρήση του MOODLE από την οπτική γωνία του ιαχειριστή

Υπηρεσίες Ανάπτυξης ικτυακών Τόπων Οργάνωση και Ανάπτυξη Μεθόδων Ανάκτησης Πληροφοριών και Ψηφιακού Υλικού

Σηµασιολογικό Ιστό. Αλέξανδρος Βαλαράκος Αιγαίου.

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

Bizagi Modeler: Συνοπτικός Οδηγός

ΚΒΑΝΤΙΚΟΙ ΥΠΟΛΟΓΙΣΤΕΣ

Ανοικτά Δεδομένα. Η εμπειρία του OpenDataCloud

Παλεπηζηήκην Πεηξαηώο Τκήκα Πιεξνθνξηθήο Πξόγξακκα Μεηαπηπρηαθώλ Σπνπδώλ «Πξνεγκέλα Σπζηήκαηα Πιεξνθνξηθήο»

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

PServer. Θεωρία & Εφαρμογές. Δημήτριος Βογιατζής, dimitrv@iit.demokritos.gr Γεώργιος Παλιούρας, paliourg@iit.demokritos.gr

Business Opening. Very formal, recipient has a special title that must be used in place of their name

Βασικές Έννοιες Web Εφαρμογών

Connected Threat Defense

Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Connected Threat Defense

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Προσομοίωση BP με το Bizagi Modeler

Χρειάζεται να φέρω μαζί μου τα πρωτότυπα έγγραφα ή τα αντίγραφα; Asking if you need to provide the original documents or copies Ποια είναι τα κριτήρια

CYTA Cloud Server Set Up Instructions

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

σ σ σ :

The Simply Typed Lambda Calculus

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)

ράσεις του ΟΡΘ για την περιβαλλοντική πληροφόρηση και τις εφαρµογές τηλεµατικής Κώστας Νικολάου ρ. Χηµικός Περιβαλλοντολόγος

Τεχνολογικά υποβοηθούμενη μάθηση: Εργαλεία και τεχνολογίες

Case 1: Original version of a bill available in only one language.

Δημιουργία Λογαριασμού Διαχείρισης Business Telephony Create a Management Account for Business Telephony

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΕΝΙΣΧΥΣΗ ΤΩΝ ΚΟΜΒΩΝ ΟΠΛΙΣΜΕΝΟΥ ΣΚΥΡΟΔΕΜΑΤΟΣ ΜΕ ΒΑΣΗ ΤΟΥΣ ΕΥΡΩΚΩΔΙΚΕΣ

Approximation of distance between locations on earth given by latitude and longitude

Δημιουργία μιας επιτυχημένης παρουσίας στο διαδίκτυο

Η ΠΡΟΣΩΠΙΚΗ ΟΡΙΟΘΕΤΗΣΗ ΤΟΥ ΧΩΡΟΥ Η ΠΕΡΙΠΤΩΣΗ ΤΩΝ CHAT ROOMS

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

«Χρήσεις γης, αξίες γης και κυκλοφοριακές ρυθμίσεις στο Δήμο Χαλκιδέων. Η μεταξύ τους σχέση και εξέλιξη.»

Θέµατα εργασιών για το µεταπτυχιακό µάθηµα Τεχνολογία της Επικοινωνίας

α Erasmus . : erasmus.teiep.gr σ σ (imotion project).

Εισαγωγή στις ΤΠΕ ΙΙ Γιάννης Βρέλλης ΠΤΔΕ-Πανεπιστήμιο Ιωαννίνων. World Wide Web. Παγκόσμιος Ιστός

FirstSearch (OCLC) Βασικά χαρακτηριστικά:

Web 論 文. Performance Evaluation and Renewal of Department s Official Web Site. Akira TAKAHASHI and Kenji KAMIMURA

Συντακτικές λειτουργίες

The Nottingham eprints service makes this work by researchers of the University of Nottingham available open access under the following conditions.

Démographie spatiale/spatial Demography

Εκτίμηση κινδύνου και μέτρα ασφαλείας για την προστασία προσωπικών δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Πλήρης και λεπτομερής τεχνική γνωστοποίηση των cookies

2. Wiki II. 1. Wiki I [ ηµιουργία Wiki Η σελίδα

ΠΕΡΙΕΧΟΜΕΝΑ. Κεφάλαιο 1: Κεφάλαιο 2: Κεφάλαιο 3:

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Εισαγωγή στα Πληροφοριακά Συστήματα. Ενότητα 11: Αρχιτεκτονική Cloud

ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΓΙΑ ΤΟ ΔΙΑΔΙΚΤΥΟ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ II ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΣΔΥΝΟΛΟΓΗΚΟ ΔΚΠΑΗΓΔΤΣΗΚΟ ΗΓΡΤΜΑ ΗΟΝΗΧΝ ΝΖΧΝ «ΗΣΟΔΛΗΓΔ ΠΟΛΗΣΗΚΖ ΔΠΗΚΟΗΝΧΝΗΑ:ΜΔΛΔΣΖ ΚΑΣΑΚΔΤΖ ΔΡΓΑΛΔΗΟΤ ΑΞΗΟΛΟΓΖΖ» ΠΣΤΥΗΑΚΖ ΔΡΓΑΗΑ ΔΤΑΓΓΔΛΗΑ ΣΔΓΟΤ

The challenges of non-stable predicates

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ

Μηχανισμοί πρόβλεψης προσήμων σε προσημασμένα μοντέλα κοινωνικών δικτύων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Στρατηγικές Ασφάλειας

Διαδίκτυο των Αντικειμένων - IoT.

Maxima SCORM. Algebraic Manipulations and Visualizing Graphs in SCORM contents by Maxima and Mashup Approach. Jia Yunpeng, 1 Takayuki Nagai, 2, 1

µεθόδων αυτών, είναι απαραίτητη η δηµιουργία αντιπροσωπευτικού δείγµατος του Ιστού. Στόχος της εργασίας είναι η υλοποίηση και αξιολόγηση µεθόδων δειγµ

ΠΕΡΙΛΗΨΗ. Είναι γνωστό άτι καθημερινά διακινούνται δεκάδες μηνύματα (E~mail) μέσω του διαδικτύου

Πρόγραμμα Σεμιναρίων Σεπτεμβρίου - Δεκεμβρίου

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας


Transcript:

Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ «ηµόκριτος» ιαχείριση Πληροφορίας στο ιαδίκτυο Βαγγέλης Καρκαλέτσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού http://www.iit.demokritos.gr/skel ΕΚΕΦΕ, Θερινό Σχολείο 2005, 14 Ιουλίου 2005

Περιεχόµενα Το πρόβληµα της υπερπληροφόρησης (Information Overload) Φιλτράρισµα Πληροφορίας Εξαγωγή Πληροφορίας Τεχνολογίες διαχείρισης πληροφορίας στο Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού (SKEL) Θέµατα για συζήτηση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 2

Το πρόβληµα της υπερπληροφόρησης ιάθεση στους χρήστες, µέσω του διαδικτύου και των ψηφιακών βιβλιοθηκών, τεράστιου όγκου πληροφορίας σε ηλεκτρονική µορφή. Απαιτείται η ανάπτυξη τεχνικών που να επιτρέπουν στους χρήστες τη λήψη και αξιοποίηση εκείνης της πληροφορίας που σχετίζεται πραγµατικά µε τα ενδιαφέροντα και τις ανάγκες τους. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 3

Τρέχουσα κατάσταση Περισσότεροι από 600.000.000 χρήστες online Περισσότερες από 800.000 εγγραφές καθηµερινά Περισσότερες από 300.000.000.000 ιστοσελίδες online Λιγότερο από το 50% των ιστο-χώρων (Web sites) θα υπάρχει στη σηµερινή τους µορφή τον επόµενο χρόνο δηµιουργώντας µία κατάσταση όπου: 99% της online πληροφορίας δεν ενδιαφέρει το 99% των χρηστών ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 4

Τρέχουσα κατάσταση Πολλές υπηρεσίες πρόσβασης στην πληροφορία... είναι όµως αποτελεσµατικές ; ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 5

Προβλήµατα - Απαιτήσεις Περιορισµένη κάλυψη του Παγκόσµιου Ιστού από τις µηχανές αναζήτησης Πολύ συχνά, αυτό που πραγµατικά ζητούµε δεν κατατάσσεται σε υψηλή θέση από τις µηχανές αναζήτησης ιάχυση επιβλαβούς πληροφορίας Παροχή ανεπαρκούς πληροφορίας Περισσότερο από το 70% του Web είναι στα Αγγλικά. χρειαζόµαστε πιο έξυπνες προσεγγίσεις! ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 6

Ανάγκη για νέες τεχνολογίες Φιλτράρισµα/Κατηγοριοποίηση Πληροφορίας Εξαγωγή πληροφορίας Σύντηξη πληροφορίας από πολλαπλά µέσα Μοντελοποίηση Χρηστών ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 7

Τεχνολογίες: Φιλτράρισµα/Κατηγοριοποίηση πληροφορίας αρχικά έγγραφα (π.χ. µηνύµατα e-mail, ειδήσεις πρακτορείων, ιστοσελίδες) κατηγορία 1 (π.χ. παράπονα, οικονοµικές ειδήσεις) κατηγορία 2 (π.χ. τεχνικές ερωτήσεις, αθλητικές ειδήσεις) κατηγορία n ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 8

Τεχνολογίες: Εξαγωγή πληροφορίας ΝΕΑ ΕΞΑΓΟΡΑ ΑΠΟ ΤΗ ΣΕΛΟΝΤΑ Ο Όµιλος Σελόντα Riopesca προχώρησε στην εξαγορά έναντι 280 εκ. δρχ. του 80% των µετοχών της Τρίτων ΑΕ Ιχθυοκαλλιέργειας που εδρεύει στο νοµόθεσπρωτίας. Η ετήσια παραγωγή της "Τρίτων" λειτουργεί από το '89 και η ετήσια παραγωγή της ανέρχεται σε 150 τόνους λαυράκι-τσιπούρα. Αναγνώριση κατηγορίας κειµένου Εξαγωγή πληροφορίας Εταιρεία Αγοραστής Αγοραζόµενη Εταιρεία Ποσό Εξαγοράς Ποσοστό Εξαγοράς Χρόνος Εξαγοράς Όµιλος Σελόντα Riopesca Τρίτων ΑΕ Ιχθυοκαλλιέργειας 280.000.000 0,80 Παρελθόν ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 9

Τεχνολογίες: Σύντηξη πληροφορίας από πολλαπλά µέσα ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 10

Τεχνολογίες: Μοντελοποίηση Χρηστών πηγές εξυπηρετητής αποδέκτες ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 11

Περιεχόµενα Το πρόβληµα της υπερπληροφόρησης (Information Overload) Φιλτράρισµα/Κατηγοριοποίηση Πληροφορίας Εξαγωγή Πληροφορίας Τεχνολογίες διαχείρισης πληροφορίας στο Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού (SKEL) Θέµατα για συζήτηση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 12

Κατηγοριοποίηση I Ανάλυση εγγράφων και ταξινόµησή τους σε µία ή περισσότερες προκαθορισµένες κατηγορίες. Έστω: Σύνολο εγγράφων D Σύνολο προκαθορισµένων κατηγοριών C Μία συνάρτηση A Φ : D x C {T, F} (περιγράφει πώς πρέπει να κατηγοριοποιηθούν τα έγγραφα) Αυτό που θέλουµε ναβρούµε είναι: Ένα ταξινοµητή Ψ: D x C {T, F} που προσεγγίζει καλύτερα την συνάρτηση Φ. (F. Sebastiani) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 13

Κατηγοριοποίηση II: Τύποι κατηγοριοποίησης Ανάλογα µε τηνεφαρµογή, µπορούµε ναέχουµε ταξινοµητές διαφόρων τύπων, π.χ. Μοναδικής κατηγοριοποίησης (Single-class): κάθε έγγραφο ταξινοµείται σε µία και µόνο κατηγορία Πολλαπλής κατηγοριοποίησης (Multi-class): κάθε έγγραφο µπορεί να ταξινοµηθεί σε περισσότερες από µία κατηγορίες Hard: ένα έγγραφο ανήκει ή δεν ανήκει σε µία κατηγορία Soft: ένα έγγραφο ανήκει σε κάθε κατηγορία µε έναβαθµό βεβαιότητας (π.χ. ένα αριθµό µεταξύ [0..1]) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 14

Κατηγοριοποίηση III: Τύποι συστηµάτων Χειρωνακτική κατηγοριοποίηση: Συγγραφή κανόνων του τύπου: IF ((money & fast) OR (nigeria & funds) OR (xxx & pics) OR (buy & viagra)) THEN spam ELSE ~spam Αυτόµατη κατηγοριοποίηση: Χρήση µεθόδων µηχανικής µάθησης για την εκµάθηση κανόνων από προ-ταξινοµηµένα έγγραφα (παραδείγµατα εκπαίδευσης) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 15

Κατηγοριοποίηση IV: Αυτόµατη Κατηγοριοποίηση Εγγράφων Παραδείγµατα εκπαίδευσης Προ-επεξεργασία Μείωση διαστάσεων Μηχανική Μάθηση Αφαίρεση stop-words (προθέσεις, σύνδεσµοι, κλπ.) Θεµατοποίηση/ληµµατοποίηση ( παίζετε παίζω ) Συνδυασµός γειτονικών λέξεων (n-grams) Στατιστική ανάλυση, επιλογή όρων Μηχανική µάθηση υπό-επίβλεψη (supervised) Ταξινοµητές ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 16

Περιεχόµενα Το πρόβληµα της υπερπληροφόρησης (Information Overload) Φιλτράρισµα/Κατηγοριοποίηση Πληροφορίας Εξαγωγή Πληροφορίας Τεχνολογίες διαχείρισης πληροφορίας στο Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού (SKEL) Θέµατα για συζήτηση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 17

Εξαγωγή Πληροφορίας Στόχοι: Εύρεση ενδιαφερόντων «γεγονότων» σε έγγραφα Εξαγωγή πληροφορίας για τα «γεγονότα» αυτά και αποθήκευσή της υσκολίες: Επεξεργασία αδόµητου ή ηµι-δοµηµένου περιεχοµένου Αναγνώριση ονοµάτων οντοτήτων, ιδιοτήτων/σχέσεων οντοτήτων, γεγονότων Απαιτείται κατανόηση περιεχοµένου του εγγράφου ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 18

Εξαγωγή Πληροφορίας Μια από τις δυσκολότερες εφαρµογές στην Γλωσσική Τεχνολογία Τα συνέδρια ARPA Message Understanding Conferences (MUC) συντέλεσαν στην βελτίωση και προώθηση της τεχνολογίας ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 19

Εξαγωγή Πληροφορίας ιεθνή Συνέδρια Αξιολόγησης Τεχνολογίας ΕΠ MUC MUCK Μηνύµατα Ναυτικού (1987) MUCK-II Μηνύµατα Ναυτικού (1989) MUC-3 Ειδήσεις για τροµοκρατικές επιθέσεις (1991) MUC-4 Ειδήσεις για τροµοκρατικές επιθέσεις (1992) MUC-5 Επιχειρηµατικές ειδήσεις (joint ventures, micro-electronics products) (1993) MUC-6 Επιχειρηµατικές ειδήσεις (management succession) ) (1995) MUC-7 Ειδήσεις για εκτοξεύσεις πυραύλων (1998) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 20

Εξαγωγή Πληροφορίας: στάδια επεξεργασίας Αναγνώριση Ονοµάτων Οντοτήτων (Named Entity Recognition) Προσδιορισµός Κοινών Αναφορών Οντοτήτων (Coreference Identification) Εξαγωγή Πληροφορίας για τις Οντότητες (Template Elements Filling) Εξαγωγή πληροφορίας για τις σχέσεις µεταξύ των Οντοτήτων (Template Relations Filling) Εξαγωγή Πληροφορίας για τα Γεγονότα στα οποία εµπλέκονται οι Οντότητες (Scenario-Based Template Elements Filling) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 21

Εξαγωγή Πληροφορίας κείµενα Λεξική Ανάλυση Ένα τυπικό σύστηµα ΕΠ είναι ουσιαστικά ένα σύστηµα επεξεργασίας φυσικής γλώσσας Συντακτική Ανάλυση Σηµασιολογική Ανάλυση Ανάλυση κατά τα Συµφραζόµενα Πληροφορία ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 22

Εξαγωγή Πληροφορίας: προσαρµογή σε νέες θεµατικές περιοχές µε χρήση κανόνων γραµµένων από «ειδικούς» (rule-based approach) µε αυτόµατη εκπαίδευση (machine learning based approach) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 23

Εξαγωγή Πληροφορίας: κατάλληλη προσέγγιση Χρήση κανόνων όταν: υπάρχουν οι απαραίτητοι γλωσσικοί πόροι (π.χ. λεξικά, λίστες) και εργαλεία που υποστηρίζουν τη συγγραφή κανόνων (π.χ. pattern editors) οι προδιαγραφές είναι πιθανό να αλλάξουν υπάρχουν οι «ειδικοί» για τη συγγραφή κανόνων οόγκοςορισµένων από τα δεδοµένα εκπαίδευσης είναι σχετικά µικρός είναι ιδιαίτερα σηµαντικό το τελικό σύστηµα ναέχει όσο γίνεται καλύτερη απόδοση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 24

Εξαγωγή Πληροφορίας: κατάλληλη προσέγγιση Χρήση µηχανικής µάθησης όταν: υπάρχει το κατάλληλο σώµα εκπαίδευσης ή είναι σχετικά εύκολη η δηµιουργία του (κυρίως όσον αφορά την επισηµείωση και τον όγκο των δεδοµένων εκπαίδευσης) οι προδιαγραφές δεν είναι πιθανό να αλλάξουν δενυπάρχουνοι«ειδικοί» για τη συγγραφή κανόνων είναιαρκετότοτελικόσύστηµα ναέχειαπλά ικανοποιητική απόδοση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 25

Εξαγωγή Πληροφορίας: Wrappers Απλοποιηµένη εξαγωγή πληροφορίας: Εφαρµογή σε δοµηµένα ή ηµι-δοµηµένα έγγραφα του Παγκόσµιου Ιστού Περιορισµένες απαιτήσεις για χρήση γλωσσικής τεχνολογίας υσκολίες: ιαφορετική δόµηση της πληροφορίας ακόµα καισε ιστοσελίδες του ίδιου ιστοχώρου (web site) Ανάγκη εκπαίδευσης ξεχωριστών wrappers για κάθε διαφορετική ιστοσελίδα ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 26

Περιεχόµενα Το πρόβληµα της υπερπληροφόρησης (Information Overload) Φιλτράρισµα/Κατηγοριοποίηση Πληροφορίας Εξαγωγή Πληροφορίας Τεχνολογίες διαχείρισης πληροφορίας στο Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού (SKEL) Θέµατα για συζήτηση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 27

Αντικείµενο Ολοκλήρωση Πληροφορίας Πρόσβαση στην πληροφορία µε φιλικό τρόπο ηµιουργία και Συντήρηση Οντολογιών Το Εργαστήριο αποσκοπεί στην αντιµετώπιση του προβλήµατος της υπερπληροφόρησης, που ζούµε µε την εξάπλωση του Παγκόσµιου Ιστού (World Wide Web WWW) και των µετεξελίξεών του (Σηµασιολογικός Ιστός - Semantic Web), καθώς επίσης και στην φιλικότερη πρόσβαση στη διαθέσιµη πληροφορία. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 28

Έρευνα @ SKEL Κατηγοριοποίηση και Φιλτράρισµα πολυµεσικών εγγράφων Εξαγωγή Πληροφορίας από έγγραφα Μοντελοποίηση Χρηστών Εξόρυξη γνώσης από δεδοµένα χρήσης του Παγκόσµιου Ιστού Παραγωγή φυσικής γλώσσας Αναπαράσταση Γνώσης ηµιουργία και συντήρηση Οντολογιών ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 29

Τεχνολογία @ SKEL The Ellogon language engineering platform (http://www.ellogon.org ) A platform for developing web content collection and extraction systems The Filtron personalized spam filter The Filterix Web proxy filter for obscene content The PServer generic personalization server The KOINOTITES Web usage mining environment The M-PIRO authoring tool for natural language generation Tools for creating and maintaining ontologies ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 30

CROSSMARC Platform: Αρχιτεκτονική Ontology ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 31

CROSSMARC: Focused Crawler Identifies web sites that are of relevance to a particular domain Combines 3 distinct crawler types: a crawler that exploits the topic-based Web site hierarchies used by various search engines a crawler that submits to a search engine queries from the domain ontologies and lexicons of CROSSMARC a crawler that takes a set of seed pages and conducts a similar pages search from advanced search engines Filters the list of Web sites produced ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 32

CROSSMARC: Sites spider Site navigation: traverses a Web site, collecting information from each page visited and forwarding it to the Page-Filtering and Link-Scoring modules Page-filtering is responsible for deciding whether a page is an interesting one and should be stored or not before storing a page, its language is identified the page is also converted to XHTML Link-scoring validates the links to be followed. Only links with a score above a certain threshold are followed. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 33

CROSSMARC: Information Extraction from Web pages Interesting Web Pages Information Extraction Remote Invocation (IERI) CROSSMARC Multilingual IE ENERC FNERC HNERC INERC English IE NERC based Demarcator EFE French IE NERC based Demarcator FFE Greek IE NERC based Demarcator HFE Italian IE NERC based Demarcator IFE XML Conversion XML Conversion XML Conversion XML Conversion Data Inserter Products Database ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 34

Application Building I Development of three applications to extract information from: laptops offers in e-retailers web sites (in four languages), job offers in IT companies web sites (in four languages), holidays packages in the sites of travel agencies (in two languages) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 35

Application Building II Involves two main stages: Creation of application specific resources using the customization infrastructure Training of the system components using the application specific resources, configuration of the system components ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 36

E-mail filtering Spam: unsolicited and undesired e-mail messages, commercial or not, irrelevant to account holder Nuisance, traffic, potential security dangers Very hard to eliminate! ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 37

Spam filtering based on Sender: public black lists Subject: parsing for known spam subjects Body: Scan body for typical spam keywords ( $$$, free, funds, etc.) Signature: Message hash-code (e.g. MD5) checked against signatures of known spam messages. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 38

Spammers react with Sender: e-mail spoofing, roaming legit free addresses Subject: phrase generator, recipient s name plus terms used on recipient s Web pages Body: Insertion of hidden rubbish, word masquerading with punctuation, non-existent tags etc. ( v.ia.gr.a, Mo ney, fr<%$^^/>ee, etc.) Signature: Insertion of noise (random text) before dispatching each message ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 39

Filtron: : A case for spam filtering Hard, single-class document classification Instead of learning what is spam, learn what is legit User profile/model based on user s Inbox + spam Models per language + language identifier ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 40

Filtering Web content Illegal Pedophiles, Nazism (DE) Offensive Pornography, Racism, Violence Unsafe Medical, e-business Undesired Online gambling Day trading sites ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 41

Where and how to filter Self-regulation Self-labeling by content authors producers Browsers block according to user settings Filtering at the source - during distribution Literally impossible due to network structure, lack of provenance and routing method Filtering at the last mile ( consumer ) List-based solutions underblocking Shallow keyword matching solutions overblocking ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 42

FilterX: Web page filtering FilterX is a Web proxy server that filters pornographic content on the Web. It has been trained on self-proclaimed porn sites. Combining natural language processing image analysis and Web structure, FilterX analyses all the information available on the HTTP stream, not just the URL or title. Usingmachine learning, FilterX considers the actual contribution of textual, structural and pictorial features. Creating a multimedia representation model, and checking each document against it, FilterX achieves practically zero overblocking. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 43

Applications of FilterX Self-regulation and filters SIFT project: Use of filters when self- or 3 rd party labeling absent / not trusted resulted in ICRAplus, a free platform bridging self-regulation with filtering software QUATRO project: Use of FilterX to monitor changes in labelled web sites Protection of young students SCOFI project : Different content access according to student age denoted via smart-card ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 44

Περιεχόµενα Το πρόβληµα της υπερπληροφόρησης (Information Overload) Φιλτράρισµα/Κατηγοριοποίηση Πληροφορίας Εξαγωγή Πληροφορίας Τεχνολογίες διαχείρισης πληροφορίας στο Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού (SKEL) Θέµατα για συζήτηση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 45

Φιλτράρισµα Πληροφορίας Overblocking vs. underblocking Το µεγαλύτερο µέρος του επιβλαβούς περιεχοµένου στον Παγκόσµιο Ιστό δηµιουργείται για να βρεθεί από χρήστες που ενδιαφέρονται γι αυτό Τι µπορούµε να κάνουµε για εκείνο το περιεχόµενο που οι δηµιουργοί του θέλουν να µείνει κρυφό, τι µπορούµε νακάνουµε για την παραπληροφόρηση;.. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 46

Πολυµεσικό περιεχόµενο Η εξαγωγή σηµασιολογικής πληροφορίας από άλλα µέσα εκτός του κειµένου (εικόνα, video, ήχος, φωνή) είναι ιδιαίτερα δύσκολη Απαιτείται αποτελεσµατική ολοκλήρωση της πληροφορίας που εξάγεται από διάφορα µέσα.. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 47

Τεχνικές για µεγάλους όγκους δεδοµένων Μέχρι πρόσφατα η έρευνα στη µηχανική µάθηση θεωρούσε µεγάλο ένα σύνολο από 10.000 παραδείγµατα εκπαίδευσης Σε εφαρµογές του Παγκόσµιου Ιστού σύνολα δεδοµένων µεγέθους µερικών εκατοµµυρίων εγγραφών δεν είναι καθόλου σπάνια Οι τεχνικές διαχείρισης πληροφορίας πρέπει να λαµβάνουν υπόψη τους περιορισµούς σε αποθηκευτικό χώρο και χρόνο εκτέλεσης. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 48

ιαχείριση Πληροφορίας στο ιαδίκτυο Βαγγέλης Καρκαλέτσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού http://www.iit.demokritos.gr/skel ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 49