Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ «ηµόκριτος» ιαχείριση Πληροφορίας στο ιαδίκτυο Βαγγέλης Καρκαλέτσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού http://www.iit.demokritos.gr/skel ΕΚΕΦΕ, Θερινό Σχολείο 2005, 14 Ιουλίου 2005
Περιεχόµενα Το πρόβληµα της υπερπληροφόρησης (Information Overload) Φιλτράρισµα Πληροφορίας Εξαγωγή Πληροφορίας Τεχνολογίες διαχείρισης πληροφορίας στο Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού (SKEL) Θέµατα για συζήτηση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 2
Το πρόβληµα της υπερπληροφόρησης ιάθεση στους χρήστες, µέσω του διαδικτύου και των ψηφιακών βιβλιοθηκών, τεράστιου όγκου πληροφορίας σε ηλεκτρονική µορφή. Απαιτείται η ανάπτυξη τεχνικών που να επιτρέπουν στους χρήστες τη λήψη και αξιοποίηση εκείνης της πληροφορίας που σχετίζεται πραγµατικά µε τα ενδιαφέροντα και τις ανάγκες τους. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 3
Τρέχουσα κατάσταση Περισσότεροι από 600.000.000 χρήστες online Περισσότερες από 800.000 εγγραφές καθηµερινά Περισσότερες από 300.000.000.000 ιστοσελίδες online Λιγότερο από το 50% των ιστο-χώρων (Web sites) θα υπάρχει στη σηµερινή τους µορφή τον επόµενο χρόνο δηµιουργώντας µία κατάσταση όπου: 99% της online πληροφορίας δεν ενδιαφέρει το 99% των χρηστών ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 4
Τρέχουσα κατάσταση Πολλές υπηρεσίες πρόσβασης στην πληροφορία... είναι όµως αποτελεσµατικές ; ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 5
Προβλήµατα - Απαιτήσεις Περιορισµένη κάλυψη του Παγκόσµιου Ιστού από τις µηχανές αναζήτησης Πολύ συχνά, αυτό που πραγµατικά ζητούµε δεν κατατάσσεται σε υψηλή θέση από τις µηχανές αναζήτησης ιάχυση επιβλαβούς πληροφορίας Παροχή ανεπαρκούς πληροφορίας Περισσότερο από το 70% του Web είναι στα Αγγλικά. χρειαζόµαστε πιο έξυπνες προσεγγίσεις! ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 6
Ανάγκη για νέες τεχνολογίες Φιλτράρισµα/Κατηγοριοποίηση Πληροφορίας Εξαγωγή πληροφορίας Σύντηξη πληροφορίας από πολλαπλά µέσα Μοντελοποίηση Χρηστών ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 7
Τεχνολογίες: Φιλτράρισµα/Κατηγοριοποίηση πληροφορίας αρχικά έγγραφα (π.χ. µηνύµατα e-mail, ειδήσεις πρακτορείων, ιστοσελίδες) κατηγορία 1 (π.χ. παράπονα, οικονοµικές ειδήσεις) κατηγορία 2 (π.χ. τεχνικές ερωτήσεις, αθλητικές ειδήσεις) κατηγορία n ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 8
Τεχνολογίες: Εξαγωγή πληροφορίας ΝΕΑ ΕΞΑΓΟΡΑ ΑΠΟ ΤΗ ΣΕΛΟΝΤΑ Ο Όµιλος Σελόντα Riopesca προχώρησε στην εξαγορά έναντι 280 εκ. δρχ. του 80% των µετοχών της Τρίτων ΑΕ Ιχθυοκαλλιέργειας που εδρεύει στο νοµόθεσπρωτίας. Η ετήσια παραγωγή της "Τρίτων" λειτουργεί από το '89 και η ετήσια παραγωγή της ανέρχεται σε 150 τόνους λαυράκι-τσιπούρα. Αναγνώριση κατηγορίας κειµένου Εξαγωγή πληροφορίας Εταιρεία Αγοραστής Αγοραζόµενη Εταιρεία Ποσό Εξαγοράς Ποσοστό Εξαγοράς Χρόνος Εξαγοράς Όµιλος Σελόντα Riopesca Τρίτων ΑΕ Ιχθυοκαλλιέργειας 280.000.000 0,80 Παρελθόν ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 9
Τεχνολογίες: Σύντηξη πληροφορίας από πολλαπλά µέσα ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 10
Τεχνολογίες: Μοντελοποίηση Χρηστών πηγές εξυπηρετητής αποδέκτες ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 11
Περιεχόµενα Το πρόβληµα της υπερπληροφόρησης (Information Overload) Φιλτράρισµα/Κατηγοριοποίηση Πληροφορίας Εξαγωγή Πληροφορίας Τεχνολογίες διαχείρισης πληροφορίας στο Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού (SKEL) Θέµατα για συζήτηση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 12
Κατηγοριοποίηση I Ανάλυση εγγράφων και ταξινόµησή τους σε µία ή περισσότερες προκαθορισµένες κατηγορίες. Έστω: Σύνολο εγγράφων D Σύνολο προκαθορισµένων κατηγοριών C Μία συνάρτηση A Φ : D x C {T, F} (περιγράφει πώς πρέπει να κατηγοριοποιηθούν τα έγγραφα) Αυτό που θέλουµε ναβρούµε είναι: Ένα ταξινοµητή Ψ: D x C {T, F} που προσεγγίζει καλύτερα την συνάρτηση Φ. (F. Sebastiani) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 13
Κατηγοριοποίηση II: Τύποι κατηγοριοποίησης Ανάλογα µε τηνεφαρµογή, µπορούµε ναέχουµε ταξινοµητές διαφόρων τύπων, π.χ. Μοναδικής κατηγοριοποίησης (Single-class): κάθε έγγραφο ταξινοµείται σε µία και µόνο κατηγορία Πολλαπλής κατηγοριοποίησης (Multi-class): κάθε έγγραφο µπορεί να ταξινοµηθεί σε περισσότερες από µία κατηγορίες Hard: ένα έγγραφο ανήκει ή δεν ανήκει σε µία κατηγορία Soft: ένα έγγραφο ανήκει σε κάθε κατηγορία µε έναβαθµό βεβαιότητας (π.χ. ένα αριθµό µεταξύ [0..1]) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 14
Κατηγοριοποίηση III: Τύποι συστηµάτων Χειρωνακτική κατηγοριοποίηση: Συγγραφή κανόνων του τύπου: IF ((money & fast) OR (nigeria & funds) OR (xxx & pics) OR (buy & viagra)) THEN spam ELSE ~spam Αυτόµατη κατηγοριοποίηση: Χρήση µεθόδων µηχανικής µάθησης για την εκµάθηση κανόνων από προ-ταξινοµηµένα έγγραφα (παραδείγµατα εκπαίδευσης) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 15
Κατηγοριοποίηση IV: Αυτόµατη Κατηγοριοποίηση Εγγράφων Παραδείγµατα εκπαίδευσης Προ-επεξεργασία Μείωση διαστάσεων Μηχανική Μάθηση Αφαίρεση stop-words (προθέσεις, σύνδεσµοι, κλπ.) Θεµατοποίηση/ληµµατοποίηση ( παίζετε παίζω ) Συνδυασµός γειτονικών λέξεων (n-grams) Στατιστική ανάλυση, επιλογή όρων Μηχανική µάθηση υπό-επίβλεψη (supervised) Ταξινοµητές ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 16
Περιεχόµενα Το πρόβληµα της υπερπληροφόρησης (Information Overload) Φιλτράρισµα/Κατηγοριοποίηση Πληροφορίας Εξαγωγή Πληροφορίας Τεχνολογίες διαχείρισης πληροφορίας στο Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού (SKEL) Θέµατα για συζήτηση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 17
Εξαγωγή Πληροφορίας Στόχοι: Εύρεση ενδιαφερόντων «γεγονότων» σε έγγραφα Εξαγωγή πληροφορίας για τα «γεγονότα» αυτά και αποθήκευσή της υσκολίες: Επεξεργασία αδόµητου ή ηµι-δοµηµένου περιεχοµένου Αναγνώριση ονοµάτων οντοτήτων, ιδιοτήτων/σχέσεων οντοτήτων, γεγονότων Απαιτείται κατανόηση περιεχοµένου του εγγράφου ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 18
Εξαγωγή Πληροφορίας Μια από τις δυσκολότερες εφαρµογές στην Γλωσσική Τεχνολογία Τα συνέδρια ARPA Message Understanding Conferences (MUC) συντέλεσαν στην βελτίωση και προώθηση της τεχνολογίας ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 19
Εξαγωγή Πληροφορίας ιεθνή Συνέδρια Αξιολόγησης Τεχνολογίας ΕΠ MUC MUCK Μηνύµατα Ναυτικού (1987) MUCK-II Μηνύµατα Ναυτικού (1989) MUC-3 Ειδήσεις για τροµοκρατικές επιθέσεις (1991) MUC-4 Ειδήσεις για τροµοκρατικές επιθέσεις (1992) MUC-5 Επιχειρηµατικές ειδήσεις (joint ventures, micro-electronics products) (1993) MUC-6 Επιχειρηµατικές ειδήσεις (management succession) ) (1995) MUC-7 Ειδήσεις για εκτοξεύσεις πυραύλων (1998) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 20
Εξαγωγή Πληροφορίας: στάδια επεξεργασίας Αναγνώριση Ονοµάτων Οντοτήτων (Named Entity Recognition) Προσδιορισµός Κοινών Αναφορών Οντοτήτων (Coreference Identification) Εξαγωγή Πληροφορίας για τις Οντότητες (Template Elements Filling) Εξαγωγή πληροφορίας για τις σχέσεις µεταξύ των Οντοτήτων (Template Relations Filling) Εξαγωγή Πληροφορίας για τα Γεγονότα στα οποία εµπλέκονται οι Οντότητες (Scenario-Based Template Elements Filling) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 21
Εξαγωγή Πληροφορίας κείµενα Λεξική Ανάλυση Ένα τυπικό σύστηµα ΕΠ είναι ουσιαστικά ένα σύστηµα επεξεργασίας φυσικής γλώσσας Συντακτική Ανάλυση Σηµασιολογική Ανάλυση Ανάλυση κατά τα Συµφραζόµενα Πληροφορία ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 22
Εξαγωγή Πληροφορίας: προσαρµογή σε νέες θεµατικές περιοχές µε χρήση κανόνων γραµµένων από «ειδικούς» (rule-based approach) µε αυτόµατη εκπαίδευση (machine learning based approach) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 23
Εξαγωγή Πληροφορίας: κατάλληλη προσέγγιση Χρήση κανόνων όταν: υπάρχουν οι απαραίτητοι γλωσσικοί πόροι (π.χ. λεξικά, λίστες) και εργαλεία που υποστηρίζουν τη συγγραφή κανόνων (π.χ. pattern editors) οι προδιαγραφές είναι πιθανό να αλλάξουν υπάρχουν οι «ειδικοί» για τη συγγραφή κανόνων οόγκοςορισµένων από τα δεδοµένα εκπαίδευσης είναι σχετικά µικρός είναι ιδιαίτερα σηµαντικό το τελικό σύστηµα ναέχει όσο γίνεται καλύτερη απόδοση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 24
Εξαγωγή Πληροφορίας: κατάλληλη προσέγγιση Χρήση µηχανικής µάθησης όταν: υπάρχει το κατάλληλο σώµα εκπαίδευσης ή είναι σχετικά εύκολη η δηµιουργία του (κυρίως όσον αφορά την επισηµείωση και τον όγκο των δεδοµένων εκπαίδευσης) οι προδιαγραφές δεν είναι πιθανό να αλλάξουν δενυπάρχουνοι«ειδικοί» για τη συγγραφή κανόνων είναιαρκετότοτελικόσύστηµα ναέχειαπλά ικανοποιητική απόδοση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 25
Εξαγωγή Πληροφορίας: Wrappers Απλοποιηµένη εξαγωγή πληροφορίας: Εφαρµογή σε δοµηµένα ή ηµι-δοµηµένα έγγραφα του Παγκόσµιου Ιστού Περιορισµένες απαιτήσεις για χρήση γλωσσικής τεχνολογίας υσκολίες: ιαφορετική δόµηση της πληροφορίας ακόµα καισε ιστοσελίδες του ίδιου ιστοχώρου (web site) Ανάγκη εκπαίδευσης ξεχωριστών wrappers για κάθε διαφορετική ιστοσελίδα ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 26
Περιεχόµενα Το πρόβληµα της υπερπληροφόρησης (Information Overload) Φιλτράρισµα/Κατηγοριοποίηση Πληροφορίας Εξαγωγή Πληροφορίας Τεχνολογίες διαχείρισης πληροφορίας στο Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού (SKEL) Θέµατα για συζήτηση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 27
Αντικείµενο Ολοκλήρωση Πληροφορίας Πρόσβαση στην πληροφορία µε φιλικό τρόπο ηµιουργία και Συντήρηση Οντολογιών Το Εργαστήριο αποσκοπεί στην αντιµετώπιση του προβλήµατος της υπερπληροφόρησης, που ζούµε µε την εξάπλωση του Παγκόσµιου Ιστού (World Wide Web WWW) και των µετεξελίξεών του (Σηµασιολογικός Ιστός - Semantic Web), καθώς επίσης και στην φιλικότερη πρόσβαση στη διαθέσιµη πληροφορία. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 28
Έρευνα @ SKEL Κατηγοριοποίηση και Φιλτράρισµα πολυµεσικών εγγράφων Εξαγωγή Πληροφορίας από έγγραφα Μοντελοποίηση Χρηστών Εξόρυξη γνώσης από δεδοµένα χρήσης του Παγκόσµιου Ιστού Παραγωγή φυσικής γλώσσας Αναπαράσταση Γνώσης ηµιουργία και συντήρηση Οντολογιών ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 29
Τεχνολογία @ SKEL The Ellogon language engineering platform (http://www.ellogon.org ) A platform for developing web content collection and extraction systems The Filtron personalized spam filter The Filterix Web proxy filter for obscene content The PServer generic personalization server The KOINOTITES Web usage mining environment The M-PIRO authoring tool for natural language generation Tools for creating and maintaining ontologies ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 30
CROSSMARC Platform: Αρχιτεκτονική Ontology ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 31
CROSSMARC: Focused Crawler Identifies web sites that are of relevance to a particular domain Combines 3 distinct crawler types: a crawler that exploits the topic-based Web site hierarchies used by various search engines a crawler that submits to a search engine queries from the domain ontologies and lexicons of CROSSMARC a crawler that takes a set of seed pages and conducts a similar pages search from advanced search engines Filters the list of Web sites produced ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 32
CROSSMARC: Sites spider Site navigation: traverses a Web site, collecting information from each page visited and forwarding it to the Page-Filtering and Link-Scoring modules Page-filtering is responsible for deciding whether a page is an interesting one and should be stored or not before storing a page, its language is identified the page is also converted to XHTML Link-scoring validates the links to be followed. Only links with a score above a certain threshold are followed. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 33
CROSSMARC: Information Extraction from Web pages Interesting Web Pages Information Extraction Remote Invocation (IERI) CROSSMARC Multilingual IE ENERC FNERC HNERC INERC English IE NERC based Demarcator EFE French IE NERC based Demarcator FFE Greek IE NERC based Demarcator HFE Italian IE NERC based Demarcator IFE XML Conversion XML Conversion XML Conversion XML Conversion Data Inserter Products Database ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 34
Application Building I Development of three applications to extract information from: laptops offers in e-retailers web sites (in four languages), job offers in IT companies web sites (in four languages), holidays packages in the sites of travel agencies (in two languages) ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 35
Application Building II Involves two main stages: Creation of application specific resources using the customization infrastructure Training of the system components using the application specific resources, configuration of the system components ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 36
E-mail filtering Spam: unsolicited and undesired e-mail messages, commercial or not, irrelevant to account holder Nuisance, traffic, potential security dangers Very hard to eliminate! ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 37
Spam filtering based on Sender: public black lists Subject: parsing for known spam subjects Body: Scan body for typical spam keywords ( $$$, free, funds, etc.) Signature: Message hash-code (e.g. MD5) checked against signatures of known spam messages. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 38
Spammers react with Sender: e-mail spoofing, roaming legit free addresses Subject: phrase generator, recipient s name plus terms used on recipient s Web pages Body: Insertion of hidden rubbish, word masquerading with punctuation, non-existent tags etc. ( v.ia.gr.a, Mo ney, fr<%$^^/>ee, etc.) Signature: Insertion of noise (random text) before dispatching each message ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 39
Filtron: : A case for spam filtering Hard, single-class document classification Instead of learning what is spam, learn what is legit User profile/model based on user s Inbox + spam Models per language + language identifier ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 40
Filtering Web content Illegal Pedophiles, Nazism (DE) Offensive Pornography, Racism, Violence Unsafe Medical, e-business Undesired Online gambling Day trading sites ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 41
Where and how to filter Self-regulation Self-labeling by content authors producers Browsers block according to user settings Filtering at the source - during distribution Literally impossible due to network structure, lack of provenance and routing method Filtering at the last mile ( consumer ) List-based solutions underblocking Shallow keyword matching solutions overblocking ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 42
FilterX: Web page filtering FilterX is a Web proxy server that filters pornographic content on the Web. It has been trained on self-proclaimed porn sites. Combining natural language processing image analysis and Web structure, FilterX analyses all the information available on the HTTP stream, not just the URL or title. Usingmachine learning, FilterX considers the actual contribution of textual, structural and pictorial features. Creating a multimedia representation model, and checking each document against it, FilterX achieves practically zero overblocking. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 43
Applications of FilterX Self-regulation and filters SIFT project: Use of filters when self- or 3 rd party labeling absent / not trusted resulted in ICRAplus, a free platform bridging self-regulation with filtering software QUATRO project: Use of FilterX to monitor changes in labelled web sites Protection of young students SCOFI project : Different content access according to student age denoted via smart-card ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 44
Περιεχόµενα Το πρόβληµα της υπερπληροφόρησης (Information Overload) Φιλτράρισµα/Κατηγοριοποίηση Πληροφορίας Εξαγωγή Πληροφορίας Τεχνολογίες διαχείρισης πληροφορίας στο Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού (SKEL) Θέµατα για συζήτηση ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 45
Φιλτράρισµα Πληροφορίας Overblocking vs. underblocking Το µεγαλύτερο µέρος του επιβλαβούς περιεχοµένου στον Παγκόσµιο Ιστό δηµιουργείται για να βρεθεί από χρήστες που ενδιαφέρονται γι αυτό Τι µπορούµε να κάνουµε για εκείνο το περιεχόµενο που οι δηµιουργοί του θέλουν να µείνει κρυφό, τι µπορούµε νακάνουµε για την παραπληροφόρηση;.. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 46
Πολυµεσικό περιεχόµενο Η εξαγωγή σηµασιολογικής πληροφορίας από άλλα µέσα εκτός του κειµένου (εικόνα, video, ήχος, φωνή) είναι ιδιαίτερα δύσκολη Απαιτείται αποτελεσµατική ολοκλήρωση της πληροφορίας που εξάγεται από διάφορα µέσα.. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 47
Τεχνικές για µεγάλους όγκους δεδοµένων Μέχρι πρόσφατα η έρευνα στη µηχανική µάθηση θεωρούσε µεγάλο ένα σύνολο από 10.000 παραδείγµατα εκπαίδευσης Σε εφαρµογές του Παγκόσµιου Ιστού σύνολα δεδοµένων µεγέθους µερικών εκατοµµυρίων εγγραφών δεν είναι καθόλου σπάνια Οι τεχνικές διαχείρισης πληροφορίας πρέπει να λαµβάνουν υπόψη τους περιορισµούς σε αποθηκευτικό χώρο και χρόνο εκτέλεσης. ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 48
ιαχείριση Πληροφορίας στο ιαδίκτυο Βαγγέλης Καρκαλέτσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισµικού http://www.iit.demokritos.gr/skel ιαχείριση Πληροφορίας στο ιαδίκτυο ΕΚΕΦΕ, Θερινό Σχολείο, 13 Ιουλίου 2005 49