ΗΧρήσηΣηµασιολογικών ικτύων για τη ιαχείριση του Περιεχοµένου του Παγκόσµιου Ιστού



Σχετικά έγγραφα
Η ΧΡΗΣΗ ΣΗΜΑΣΙΟΛΟΓΙΚΩΝ ΙΚΤΥΩΝ ΓΙΑ ΤΗ ΙΑΧΕΙΡΙΣΗ ΤΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΤΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ. Σοφία Κ. Στάµου Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Σοφία Στάμου. Τελευταία ενημέρωση: Ιούνιος 2011

Σοφία Στάμου. Τελευταία ενημέρωση: Μάρτιος 2012

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

Π20: Ανακοινώσεις επιστηµονικών εργασιών σε συνέδρια/περιοδικά

Χρήση Θεματικών Ταξινομιών για την Αυτόματη Δημιουργία και Οργάνωση Εξατομικευμένων Καταλόγων Διαδικτύου : Ένας Πρότυπος Αλγόριθμος Ταξινόμησης

DECO DECoration Ontology

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΑΤΗΣΙΩΝ ΑΘΗΝΑ Ε - ΜΑΙL : mkap@aueb.gr ΤΗΛ: , ΚΑΠΕΤΗΣ ΧΡΥΣΟΣΤΟΜΟΣ. Βιογραφικό Σημείωμα

Ερευνητική+Ομάδα+Τεχνολογιών+ Διαδικτύου+

Χρήση οντολογιών στη χαρτογράφηση γνώσης: Μελέτη περίπτωσης σε μία ακαδημαϊκή βιβλιοθήκη

Οντολογία Ψηφιακής Βιβλιοθήκης

Ανάκτηση Πληροφορίας


ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ ΛΕΩΝΙΔΑΣ Α. ΣΠΥΡΟΥ Διδακτορικό σε Υπολογιστική Εμβιομηχανική, Τμήμα Μηχανολόγων Μηχανικών, Πανεπιστήμιο Θεσσαλίας.

G. Kokkinankis, E. Dermatas, E. Coutsogeorgopoulos

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Online Social Networks: Posts that can save lives. Sotiria Giannitsari April 2016

Secure Cyberspace: New Defense Capabilities

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

(clusters) clusters : clusters : clusters : 4. :

2, µε τίτλο: «Υλοποίηση Εργαλείων Ανάπτυξης ιαχείρισης Σώµατος Κειµένων και Αυτόµατης Εξαγωγής Ορολογίας».

Μεθοδολογία Εκπαιδευτικής Έρευνας

Legal use of personal data to fight telecom fraud

From Secure e-computing to Trusted u-computing. Dimitris Gritzalis

Ανάκτηση Πληροφορίας

Buried Markov Model Pairwise

ΔΙΠΛΩΜΑΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

Study of urban housing development projects: The general planning of Alexandria City

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.)

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Ανάκτηση Πληροφορίας

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Online Social Networks: Posts that can save lives. Dimitris Gritzalis, Sotiria Giannitsari, Dimitris Tsagkarakis, Despina Mentzelioti April 2016

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Η χρήση του MOODLE από την οπτική γωνία του ιαχειριστή

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Μοντέλα Κυβερνητικής Πληροφορίας

Ερευνητικό Πρόγραµµα BalkaNet

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

3: A convolution-pooling layer in PS-CNN 1: Partially Shared Deep Neural Network 2.2 Partially Shared Convolutional Neural Network 2: A hidden layer o

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

Μ. Κορφιατη - Π. Γεωργίου ΒΙΒΛΙΟΘΗΚΗ & ΥΠΗΡΕΣΙΑ ΠΛΗΡΟΦΟΡΗΣΗΣ ΠΑΝ. ΠΑΤΡΩΝ

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks

Security in the Cloud Era

ER-Tree (Extended R*-Tree)

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ ΣΤΥΛΙΑΝΗΣ Κ. ΣΟΦΙΑΝΟΠΟΥΛΟΥ Αναπληρώτρια Καθηγήτρια. Τµήµα Τεχνολογίας & Συστηµάτων Παραγωγής.

GREECE BULGARIA 6 th JOINT MONITORING

Toward a SPARQL Query Execution Mechanism using Dynamic Mapping Adaptation -A Preliminary Report- Takuya Adachi 1 Naoki Fukuta 2.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Ανάκτηση πολυμεσικού περιεχομένου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

Ημερίδα διάχυσης αποτελεσμάτων έργου Ιωάννινα, 14/10/2015

The Greek Data Protection Act: The IT Professional s Perspective

Εκτεταμένη περίληψη Περίληψη

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ 6-2

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Α/Α Υποέργου: Ε1 07 Τίτλος: ConServ: Δίκτυα Υπηρεσιών με Βάση τα Συμφραζόμενα: Διαχείριση, Δυναμική Προσαρμοστικότητα και Επεξεργασία Ερωτήσεων

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΑΣΟΛΟΓΙΑΣ ΚΑΙ ΦΥΣΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΤΟΜΕΑΣ ΣΧΕ ΙΑΣΜΟΥ ΚΑΙ ΑΝΑΠΤΥΞΗΣ ΦΥΣΙΚΩΝ ΠΟΡΩΝ

Organizing the Protection of Critical ICT Infrastructures. Dimitris Gritzalis

Πληροφοριακά Συστήματα

Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Αξιολόγηση πληροφοριακών συστηµάτων και υπηρεσιών πληροφόρησης

Automatic extraction of bibliography with machine learning

ΓΙΑΝΝΟΥΛΑ Σ. ΦΛΩΡΟΥ Ι ΑΚΤΟΡΑΣ ΤΟΥ ΤΜΗΜΑΤΟΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΜΑΚΕ ΟΝΙΑΣ ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού

ΠΡΟΓΡΑΜΜΑ ΚΑΡΑΘΕΟΔΩΡΗΣ 2008

Software Production Company

DECO-DECoration Ontology.

Development of the Nursing Program for Rehabilitation of Woman Diagnosed with Breast Cancer

Security and Privacy: From Empiricism to Interdisciplinarity. Dimitris Gritzalis

Σεπτέμβριος 1998 Σεπτέμβριος 2004 Δίπλωμα Μηχανικού Η/Υ & Πληροφορικής. του Παγκόσμιου ιστού προσαρμοσμένες στις ιδιαιτερότητες της Νέας Ελληνικής.

Τεχνολογίες Υποστήριξης Συνεργασίας - Εισαγωγή

Σχολή Διοίκησης και Οικονομίας

Critical Infrastructures: The Nervous System of every Welfare State. G. Stergiopoulos, D. Gritzalis

IEEE Xplore, Institute of Electrical and Electronics Engineers Inc.

Ηµερίδα: Γεωπληροφορική και Εκπαίδευση Η Ελληνική Πραγµατικότητα Χαροκόπειο Πανεπιστήµιο ευτέρα και Τρίτη, Maΐου Γεώργιος Ν.

PUBLICATION. Participation of POLYTECH in the 10th Pan-Hellenic Conference on Informatics. April 15, Nafplio

Επερωτήσεις σύζευξης με κατάταξη

ΜΟΝΤΕΛΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ

Αξιολόγηση πληροφοριακών συστηµάτων και υπηρεσιών πληροφόρησης

Study of In-vehicle Sound Field Creation by Simultaneous Equation Method

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

Ταξινόμηση και διαχρονική παρακολούθηση των βοσκόμενων δασικών εκτάσεων στη λεκάνη απορροής του χειμάρρου Μπογδάνα Ν. Θεσσαλονίκης

Ανάκτηση Πληροφορίας

Εφαρμογή Υπολογιστικών Τεχνικών στη Γεωργία

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Τμήμα Ευρωπαϊκών Εκπαιδευτικών Προγραμμάτων Εκδήλωση Γραφείου Διασύνδεσης

ΗΜΟΣΙΕΥΣΕΣ ΣΕ ΙΕΘΝΗ ΠΕΡΙΟ ΙΚΑ [1] C. Bouras, A. Gkamas, G. Kioumourtzis, Adaptive smooth multicast protocol for multimedia transmission:

ΠΑΝΔΠΙΣΗΜΙΟ ΜΑΚΔΓΟΝΙΑ ΠΡΟΓΡΑΜΜΑ ΜΔΣΑΠΣΤΥΙΑΚΧΝ ΠΟΤΓΧΝ ΣΜΗΜΑΣΟ ΔΦΑΡΜΟΜΔΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Πρότυπα και Τεχνολογίες Semantic Web και Web 2.0 και η εφαρμογή τους στην Ηλεκτρονική Διακυβέρνηση

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Πτυχιακή Εργασι α «Εκτι μήσή τής ποιο τήτας εικο νων με τήν χρή σή τεχνήτων νευρωνικων δικτυ ων»

Transcript:

ΗΧρήσηΣηµασιολογικών ικτύων για τη ιαχείριση του Περιεχοµένου του Παγκόσµιου Ιστού ιδακτορική ιατριβή Σοφία Στάµου ΤµήµαΜηχανικώνΗ/Υ και Πληροφορικής, Πανεπιστήµιο Πατρών

ΕΙΣΑΓΩΓΗ Παγκόσµιος Ιστός Κύρια πηγή πληροφόρησης για εκατοµµύρια χρήστες Εφαρµογές πρόσβασης στην πληροφορία: ικτυακές µηχανές αναζήτησης Κατάλογοι ιαδικτύου ύσκολος ο εντοπισµός χρήσιµης πληροφορίας o Πλήθος δεδοµένων (~8.000.000.000 ιστοσελίδες) o Ρυθµός µεταβολής δεδοµένων (~8% νέες ιστοσελίδες/εβδοµάδα) o Έλλειψη εύρωστων τεχνικών σηµασιολογικής επεξεργασίας περιεχόµενου

ΕΙΣΑΓΩΓΗ Στόχος διατριβής Κατασκευή µοντέλου αυτοµατοποιηµένης οργάνωσης και διαχείρισης ιστοσελίδων στους καταλόγους ιαδικτύου Κίνητρο Χειρωνακτική κατασκευή και συντήρηση καταλόγων ιαδικτύου Ζητούµενο Αρωγή των επιµελητών δικτυακών καταλόγων Παροχή ποιοτικού και ενηµερωµένου περιεχοµένου στους χρήστες

ΕΙΣΑΓΩΓΗ Κατάλογοι ιαδικτύου Σχήµα ιεραρχικής οργάνωσης

ΚΑΤΑΛΟΓΟΙ ΙΑ ΙΚΤΥΟΥ Προκλήσεις Ορισµός θεµατικής οντολογίας (π.χ. Dmoz: 590.000 θεµατικές κατηγορίες) Ανάθεση ιστοσελίδων στις κατηγορίες της οντολογίας (π.χ. Dmoz: 5.222.912 ιστοσελίδες) Ταξινόµηση ιστοσελίδων ιαχείριση / Ανανέωση ιστοσελίδων Που οφείλονται οι δυσκολίες; Έλλειψη συντονισµού µεταξύ των επιµελητών καταλόγων ιαδικτύου (π.χ. Dmoz: 71.269 επιµελητές)

ΑΝΤΙΚΕΙΜΕΝΟ ΙΑΤΡΙΒΗΣ Κατασκευή εύρωστου και αποτελεσµατικού µοντέλου αυτόµατης κατασκευής και εµπλουτισµού καταλόγων ιαδικτύου TODE (Topical Ontology Directory Enrichment)

ΣΥΝΕΙΣΦΟΡΑ Αυτοµατοποιηµένη κατασκευή θεµατικής οντολογίας Εύρωστη σηµασιολογική επεξεργασία του περιεχοµένου ιστοσελίδων Αυτόµατη και αποτελεσµατική κατηγοριοποίηση, ταξινόµηση και διαχείριση των ιστοσελίδων στις κατηγορίες της οντολογίας ΑΠΟΤΕΛΕΣΜΑΤΑ ΙΑΤΡΙΒΗΣ o 10 σχετικές δηµοσιεύσεις o 6 αναφορές στη βιβλιογραφία

ΠΡΟΣΕΓΓΙΣΗ ΣΤΟΧΟΥ Χρήση σηµασιολογικών δικτύων για: Κατασκευή θεµατικής οντολογίας Σηµασιολογική επεξεργασία του περιεχοµένου ιστοσελίδων Οργάνωση ιστοσελίδων στη θεµατική οντολογία Πλεονεκτήµατα σηµασιολογικών δικτύων Σηµασιολογική πληροφορία Ιεραρχική οργάνωση ληµµάτων Γνωστικό λεξικό

ΣΗΜΑΣΙΟΛΟΓΙΚΑ ΙΚΤΥΑ Επισκόπηση vehicle has-a Is-a squad car traffic CAR has-a squad car Is-a Is-a squad car taxi stockcar Κόµβοι: αναπαριστούν έννοιες Ακµές: αναπαριστούν σηµασιολογικές σχέσεις µεταξύ εννοιών

ΤΟ ΜΟΝΤΕΛΟ TODE οµή Παρουσίασης Κατασκευή θεµατικής οντολογίας Σηµασιολογική επεξεργασία περιεχοµένου ιστοσελίδων Θεµατική κατηγοριοποίηση ιστοσελίδων ιαχείριση ιστοσελίδων Ταξινόµηση κατηγοριοποιηµένων ιστοσελίδων

ΚΑΤΑΣΚΕΥΗ ΟΝΤΟΛΟΓΙΑΣ TODE Προσέγγιση Γενικές θεµατικές κατηγορίες Ειδικές θεµατικές κατηγορίες (υποκατηγορίες) Εµπλουτισµός των θεµατικών κατηγοριών µε λεξικές ιεραρχίες

ΚΑΤΑΣΚΕΥΗ ΟΝΤΟΛΟΓΙΑΣ TODE ιαθέσιµοι Πόροι Γενικές κατηγορίες κατάλογος Dmoz Ειδικές κατηγορίες 1.030 κατηγορίες της οντολογίας Suggested Upper Merged Ontology (SUMO) 200 θεµατικές κατηγορίες της οντολογίας MultiWordNet Domains (MWND) Λεξικές ιεραρχίες 8.630 ιεραρχίες του BalkaNet Inter-Lingual-Index (BILI)

ΚΑΤΑΣΚΕΥΗ ΟΝΤΟΛΟΓΙΑΣ TODE Γενικές κατηγορίες Αντιπροσωπευτικές της θεµατολογίας ιστοσελίδων (Dmoz) Αντιπροσωπευτικές των λεξικών ιεραρχιών του δικτύου BILI Dmoz Topics Arts Sports Games Ho me Shopping Business Health News Society Computers Reference Recreation Science Kids and Teens Regional World TODE Topics Arts Sports Games Ho me Shopping Business Health News Society Computers Reference Recreation Science

ΚΑΤΑΣΚΕΥΗ ΟΝΤΟΛΟΓΙΑΣ TODE Ειδικές κατηγορίες Ανάκτηση SUMO και MWND κατηγοριών που είναι εξειδικεύσεις των γενικών κατηγοριών στο BILI (π.χ. SUMO category: Swimming, Dmoz category: Sports) Ενσωµάτωση εξειδικευµένων κατηγοριών στην οντολογία Επιλογή των SUMO και MWND κατηγοριών που δεν είναι εξειδικεύσεις των γενικών κατηγοριών Ανάκτηση λεξικών ιεραρχιών BILI για τις κατηγορίες Συγχώνευση ιεραρχιών µετηµέγιστη σηµασιολογική οµοιότητα [Resnik, 1999] Sim ( w, w ) = max c subsumers ( w, w ) log Pr ( c) 1 2 1 2 (π.χ. SUMO: Computer Program, MWND: Computer Science)

ΚΑΤΑΣΚΕΥΗ ΟΝΤΟΛΟΓΙΑΣ TODE Ειδικές κατηγορίες Επισηµείωση συγχωνευµένων ιεραρχιών µε την κατηγορία της ευρύτερης έννοιας (parent concept) Αναζήτηση της ευρύτερης έννοιας στα υπώνυµατωνγενικών κατηγοριών (π.χ. Merged hierarchies category: Computer Science, Dmoz category: Science) Προσάρτηση εξειδικευµένων κατηγοριών στην οντολογία Εµπλουτισµός των ειδικών κατηγοριών µε τις λεξικές ιεραρχίες του BILI που έχουν σχέσεις υπωνυµίας, µερωνυµίας ή παραδείγµατος µεαυτές

ΟΝΤΟΛΟΓΙΑ TODE Επισκόπηση Κατευθυνόµενος ακυκλικός γράφος κόµβοι έννοιες, ακµές σηµασιολογικές σχέσεις κόµβων Dmoz TODE Γενικές κατηγορίες 16 13 Ειδικές κατηγορίες 532 489 Βαθµός διακλάδωσης 90 26 Επανάληψη κατηγοριών ΝΑΙ ΟΧΙ Εξειδικευµένες κατηγορίες ΝΑΙ ΟΧΙ

ΟΝΤΟΛΟΓΙΑ TODE Παράδειγµα Society Economy Law Politics Religion Financial Transaction Exchange Legal Action Diplomacy Political Process Religious Organization Buying Banking Selling Borrowing Industry Corporation Currency Measure Contracts Service Contracts Purchase Contracts International Process Roman Catholic Believes

ΟΝΤΟΛΟΓΙΑ TODE Πλεονεκτήµατα υνατότητα ανακατασκευής (προσθήκη-διαγραφή-αναδιάταξη κατηγοριών) [Stamou and Christodoulakis, 2006] Απουσία κυκλικών διαδροµών (εύκολη πλοήγηση) Ευέλικτη και διαχειρίσιµη

ΤΟ ΜΟΝΤΕΛΟ TODE Κατασκευή θεµατικής οντολογίας Σηµασιολογική επεξεργασία περιεχοµένου ιστοσελίδων Θεµατική κατηγοριοποίηση ιστοσελίδων Ταξινόµηση κατηγοριοποιηµένων ιστοσελίδων ιαχείριση ιστοσελίδων

ΕΠΕΞΕΡΓΑΣΙΑ ΙΣΤΟΣΕΛΙ ΩΝ Λεξικές Αλυσίδες Εξόρυξη θεµατικών λέξεων Μορφοσυντακτική ανάλυση κειµένου Επιλογή υποψήφιων όρων (ουσιαστικά / κύρια ονόµατα) [Kazman et al., 1996] Αναζήτηση των υποψήφιων όρων στο δίκτυο BILI Σύνδεση των σηµασιολογικά σχετιζόµενων όρων σε µια λεξική αλυσίδα

ΛΕΞΙΚΕΣ ΑΛΥΣΙ ΕΣ Παράδειγµα Lexical chains of S 1 system s6 network s4 system s6 sensor s1 system s6 weapon s2 missile s1 system s6 surface s1 net s2 System Network Sensor Weapon Missile Lexical chains of S 2 product s1 surface s1 net s2 product s1 software s1 net s2 surface s1 Surface Net Product Software

ΑΠΟΣΑΦΗΝΙΣΗ ΘΕΜΑΤΙΚΩΝ ΛΕΞΕΩΝ Λεξικές Αλυσίδες F-µετρική [Song et al., 2004] f w w r Assoc w w DepthScore w w lationweight r (,, ) = (, ) (, ) Re ( ) s 1 2 1 2 1 2 Υπολογίζεται από: Βαθµός Συσχέτισης Assoc( w, w ) Βάθος κόµβων 1 2 = log ( p ( w, w ) + 1) 1 2 N ( w ) N ( w ) s 1 s 2 DepthScore( w, w ) = Depth( w ) Depth( w ) 1 2 1 2 Βάρος σχέσης Relation Weight: reiteration: 1, synonymy, hyper/hyponymy: 0,2, antonymy: 0,3, mero/holonymy: 0,4, siblings: 0,005

ΑΠΟΣΑΦΗΝΙΣΗ ΘΕΜΑΤΙΚΩΝ ΛΕΞΕΩΝ Βαθµολόγηση Αλυσίδας Οβαθµός µιας λεξικής αλυσίδας: άθροισµατωντιµών που παίρνει η µετρική F για όλες τις θεµατικές λέξεις Score( C ) = f ( w, w, r ) i s j1 j2 j rj incj Επιλογή της αλυσίδας µε τοµεγαλύτερο βαθµό για την αναπαράσταση του περιεχοµένου µιας ιστοσελίδας

ΚΑΤΑΣΚΕΥΗ ΛΕΞΙΚΩΝ ΑΛΥΣΙ ΩΝ Ανακεφαλαίωση Ανάκτηση όρων ιαδοχική αναζήτηση όρων στο BILI Σύνδεση όρων σε λεξικές αλυσίδες Βαθµολόγηση αλυσίδων Αποσαφήνιση όρων αλυσίδων Επιλογή αλυσίδας µε το µέγιστο βαθµό

ΤΟ ΜΟΝΤΕΛΟ TODE Κατασκευή θεµατικής οντολογίας Σηµασιολογική επεξεργασία περιεχοµένου ιστοσελίδων Θεµατική κατηγοριοποίηση ιστοσελίδων Ταξινόµηση κατηγοριοποιηµένων ιστοσελίδων ιαχείριση ιστοσελίδων

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΙΣΤΟΣΕΛΙ ΩΝ Το µοντέλο TODE Αλγόριθµος µη εποπτευόµενης κατηγοριοποίησης [Stamou et al., 2005, Stamou et al., 2006] Είσοδος: θεµατική οντολογία Είσοδος: συλλογή ιστοσελίδων Έξοδος: ανάθεση ιστοσελίδων στις κατάλληλες κατηγορίες της οντολογίας

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ TODE Αρχιτεκτονική

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ TODE Classify (Category D, Page P, T, RScore) Αλγόριθµος Take all elements in PC i //Map PC i elements to the ontology s nodes For a PC i with matching elements, traverse the ontology s matching nodes upwards until reaching a category node D Return category node(s) D //End of loop for finding thematic category (-ies) of P Calculate RScore for P in each D Sort RScores in descending order //For RScore of P in D i = maxrscore AND maxrscore T Classify P in D i else Classify P in all matching D s //End of loop for classifying P

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ TODE Μετρήσεις Βαθµός θεµατικής συσχέτισης RScore (, i k) = Score (C i) # of Ci elements of Dk matched #of Ci elements Βαθµός δεικτοδότησης IScore (i, k) = max RScore (i, k) where, 1 i T

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ εδοµένα Category # of documents Arts 28.342 Sports 20.662 Games 11.062 Home 6.262 Shopping 52.342 Business 60.982 Health 23.222 News 9.462 Society 28.662 Computers 35.382 Reference 13.712 Recreation 8.182 Science 20.022 Total 318.296

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ Επεξεργασία εδοµένων Category # of documents Average # of shingles Arts 28.342 30 Sports 20.662 13 Games 11.062 17 Home 6.262 11 Shopping 52.342 12 Business 60.982 16 Health 23.222 25 News 9.462 37 Society 28.662 45 Computers 35.382 25 Reference 13.712 33 Recreation 8.182 19 Science 20.022 32 Total 318.296

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ Τεχνικές Αξιολόγησης Χειρωνακτική κατηγοριοποίηση (DMOZ) <URL>, <Dmoz category>, <TODE category(-ies)> Bayesian κατηγοριοποίηση Σώµα εκπαίδευσης (70% ιστοσελίδες/κατηγορία) Σώµαελέγχου(30% ιστοσελίδες/κατηγορία) 5 διαδοχικές εκτελέσεις <URL>, <Bayes category>, <TODE category(-ies)>

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ (Α) Αποτελέσµατα Χειρωνακτική vs. TODE κατηγοριοποίηση Category # of pages in Dmoz # of pages in TODE # of common pages between Dmoz and TODE Arts 28.342 28.411 25.706 Sports 20.662 25.541 15.527 Games 11.062 18.033 7.136 Home 6.262 5.132 2.514 Shopping 52.342 41.124 37.330 Business 60.982 67.872 43.138 Health 23.222 22.290 16.917 News 9.462 16.525 5.275 Society 28.662 30.533 25.377 Computers 35.382 34.205 26.196 Reference 13.712 13.662 9.492 Recreation 8.182 10.377 5.103 Science 20.022 20.151 14.395 Total 318.296 333.856 234.106

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ (Α) Αποτελέσµατα Απόδοση κατηγοριοποίησης TODE Category TODE classification accuracy Arts 90,70% Sports 75,15% Games 64,51% Ho me 40,16% Shopping 71,32% Business 70,74% Health 72,85% News 55,75% Society 88,54% Co mputers 74,04% Reference 69,23% Recreation 62,38% Science 71,90%

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ (Α) Αποτελέσµατα Συνολική απόδοση κατηγοριοποίησης TODE Overall TODE classification accuracy 69,79% Page Multiple Categorizations in TODE 15.560 pages 4,88%

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ (Α) Αξιολόγηση Υψηλή απόδοση κατηγοριοποίησης για κατηγορίες µε πλούσιες λεξικές ιεραρχίες στο δίκτυο BILI (Arts, Society, Sports) Αποτελεσµατικότητα µεθόδου κατασκευής και αποσαφήνισης λεξικών αλυσίδων για την αναπαράσταση του περιεχοµένου Ελάχιστες περιπτώσεις πολλαπλών κατηγοριοποιήσεων (4,88%) Συµβολή θεµατικής οντολογίας

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ (Β) Αποτελέσµατα Απόδοση Bayesian κατηγοριοποίησης Category Accuracy of 1 st run Accuracy of 2 nd run Accuracy of 3 rd run Accuracy of 4 th run Accuracy of 5 t run Arts 66,86% 65,46% 64,83% 67,18% 66,73% Sports 69,26% 69,71% 69,14% 67,40% 68,86% Games 60,95% 40,94% 39,26% 39,26% 40,44% Home 32,47% 33,29% 32,20% 33,70% 36,56% Shopping 76,82% 78,09% 78,00% 77,67% 77,19% Business 82,29% 81,06% 80,15% 81,34% 82,30% Health 62,28% 64,18% 64,17% 63,19% 61,37% News 7,12% 8,09% 6,41% 6,76% 8,90% Society 56,88% 61,14% 57,97% 59,47% 57,80% Computers 62,45% 60,95% 63,91% 63,87% 61,95% Reference 16,19% 17,01% 15,37% 18,24% 20,70% Recreation 53,70% 54,73% 53,59% 54,83% 52,82% Science 48,09% 45,99% 49,31% 46,79% 47,51% Total 53,489% 52,356% 51,87% 52,284% 52,548%

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ (Β) Αποτελέσµατα Bayesian vs. TODE κατηγοριοποίηση Category Bayesian classifier TODE classifier Arts 67,18% 90,70% Sports 69,71% 75,15% Games 60,95% 64,51% Ho me 36,56% 40,16% Shopping 78,09% 71,32% Business 82,30% 70,74% Health 64,18% 72,85% News 8,90% 55,75% Society 61,14% 88,54% Computers 63,91% 74,04% Reference 20,70% 69,23% Recreation 54,83% 62,38% Science 49,31% 71,90%

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ (Β) Αποτελέσµατα Συνολική απόδοση Bayesian και TODE κατηγοριοποίησης Classifier Accuracy Standard Error Rate Bayesian 65,95% 0,06% TODE 69,79% 0,05%

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ (Β) Αποτελέσµατα Bayesian vs. TODE κατηγοριοποίηση Arts Sub-topics Bayesian classifier TODE classifier Dance 69,46% 97,05% Music 74,38% 94,37% Artists 83,59% 86,45% Photography 55,28% 81,68% Architecture 69,89% 79,77% Art History 78,47% 93,33% Co mics 29,46% 95,45% Costumes 72,43% 89,06% Design 69,29% 90,79% Literature 59,26% 89,70% Movies 71,04% 94,59% Performing Arts 68,08% 87,34% Collecting 67,17% 92,87% Writing 69,56% 91,84% Graphics 79,80% 92,68% Drawing 59,55% 91,34% Plastic Arts 64,36% 90,86% Mythology 68,22% 93,58% 67,18% 90,70%

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ (Β) Αποτελέσµατα Bayesian vs. TODE κατηγοριοποίηση Home Sub-topics Bayesian classifier TODE classifier Cooking 32,46% 40,49% Gardens 39,52% 36,25% Furniture 11,08% 42,24% Pets 58,74% 41,18% Real Estate 40,19% 41,55% Ho me Loans 37,39% 39,27% 36,56% 40,16%

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ (Β) Αξιολόγηση Απόδοση TODE υψηλότερη από Bayesian για 11 από τις 13 κατηγορίες Πλήρως αυτοµατοποιηµένη κατηγοριοποίηση Υψηλή απόδοση κατηγοριοποίησης για κατηγορίες µε πλούσιες λεξικές ιεραρχίες στο δίκτυο BILI (Arts, Society) Η Bayesian κατηγοριοποίηση έχει καλύτερη απόδοση για: Μεγάλο σώµα εκπαίδευσης Ιστοσελίδες εξειδικευµένης ορολογίας (Business, Shopping)

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ TODE Συνεισφορά Μη-εποπτευόµενη: αποτελεσµατική για µεγάλο όγκο δυναµικών δεδοµένων Εύρωστη: έχει εφαρµογή σε οποιαδήποτε φυσική γλώσσα διαθέτει σηµασιολογικό δίκτυο ληµµάτων Αποτελεσµατική: συγκρίσιµη απόδοσηµε άλλες τεχνικές µηχανικής µάθησης Ευέλικτη: συµπληρωµατική σε άλλες τεχνικές και αξιοποιήσιµη από τους επιµελητές καταλόγων ιαδικτύου

ΤΟ ΜΟΝΤΕΛΟ TODE Κατασκευή θεµατικής οντολογίας Σηµασιολογική επεξεργασία περιεχοµένου ιστοσελίδων Θεµατική κατηγοριοποίηση ιστοσελίδων Ταξινόµηση κατηγοριοποιηµένων ιστοσελίδων ιαχείριση ιστοσελίδων

ΤΑΞΙΝΟΜΗΣΗ ΙΣΤΟΣΕΛΙ ΩΝ Το µοντέλο TODE Αλγόριθµος θεµατικής ταξινόµησης [Κrikos et al., 2005] Είσοδος: βαθµός θεµατικής συσχέτισης Είσοδος: βαθµός σηµασιολογικής συσχέτισης Έξοδος: κατάταξη ιστοσελίδων στις κατηγορίες της οντολογίας ανάλογα µε τη σπουδαιότητα του περιεχοµένου τους

ΤΑΞΙΝΟΜΗΣΗ TODE Αλγόριθµος Rank (Category D k, Pages P 1,, P n, DR) Take all elements in PC 1,, PC n //Map PC 1,, PC n elements to the ontology s nodes For every PC 1,, PC n with matching elements, find the elements synonyms in the ontology Append corresponding synonyms to PC 1,, PC n and expand //End of loop for expanding lexical chains of P 1,, P n Take RScores for every PC 1,, PC n Calculate paired σ s scores for P 1,, P n Calculate DR scores for every P 1,, P n //For DR score of P 1 in D k =maxdr score Rank P 1 first in D k Repeat for all other pages and rank accordingly //End of loop for ranking P 1,, Pn

ΤΑΞΙΝΟΜΗΣΗ TODE Μετρήσεις Βαθµός σηµασιολογικής συσχέτισης ιστοσελίδων σ s( PCi, PC j) = 2 ComElements ( PC, PC ) AugElements ( PC + AugElements ( PC i i ) j ) j Βαθµός σπουδαιότητας (DirectoryRank), DR ( p T ) = RScore ( p, T ) + [ σ ( PC, PC ) + σ ( PC, PC ) +... + σ ( PC, PC i )] / n i k i k s 1 i s 2 i s n

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ εδοµένα Category # of documents # of sub-topics Arts 28.342 18 Sports 20.662 26 Games 11.062 6 Home 6.262 6 Shopping 52.342 16 Business 60.982 7 Health 23.222 7 News 9.462 4 Society 28.662 14 Computers 35.382 13 Reference 13.712 10 Recreation 8.182 20 Science 20.022 9 Total 318.296 156

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ Τεχνικές Αξιολόγησης Σύγκριση µετηνταξινόµηση δηµοτικότητας (PageRank) ( ) OSim DR, PR = A I B / n για n= 10 και για 156 θεµατικές κατηγορίες Μελέτη χρηστών - 15 χρήστες -7 τυχαία επιλεγµένες θεµατικές υποκατηγορίες -2 λίστες /κατηγορία ταξινοµηµένων ιστοσελίδων (PageRank, DirectoryRank) - 10 ιστοσελίδες σε κάθε λίστα

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ Μελέτη χρηστών T 1 T 2 T 3 T 4 T 5 T 6 T 7 Experimental Topics Crime Photography Water Sports Radiology Mechanics Econometrics Collecting Κριτήρια Αξιολόγησης Κριτήριο 1: οι περισσότερες ιστοσελίδες της λίστας περιέχουν χρήσιµηπληροφορίαγιατοθέµα Κριτήριο 2: οι περισσότερες ιστοσελίδες της λίστας είναι γνωστές

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ (Α) Αποτελέσµατα Επικάλυψη PageRank / DirectoryRank ταξινόµησης Category OSim Arts 0,038 Sports 0,019 Games 0,030 Home 0,057 Shopping 0,013 Business 0,028 Health 0,057 News 0,100 Society 0,043 Computers 0,046 Reference 0,020 Recreation 0,025 Science 0,044 ιαφορετικός τρόπος ταξινόµησης Μικρός βαθµός επικάλυψης

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ (Β) Αποτελέσµατα Προτιµήσεις χρηστών/κατηγορία User T 1 R T 2 R T 3 R T 4 R T 5 R T 6 R T 7 R #1 DR 1 DR 1 DR 1 DR 1 PR 2 DR 1 PR 2 #2 PR 2 DR 2 PR 2 DR 1 DR 1 DR 1 PR 2 #3 DR 1 DR 1 DR 1 DR 1 DR 2 DR 1 PR 2 #4 PR 1 PR 1 PR 2 DR 2 PR 2 PR 2 PR 1 #5 DR 1 PR 1 PR 2 PR 2 PR 2 DR 2 DR 1 #6 PR 2 DR 1 PR 2 DR 1 DR 1 DR 2 DR 1 #7 DR 2 PR 2 PR 1 DR 1 PR 2 DR 1 DR 1 #8 DR 1 DR 2 DR 1 DR 1 PR 1 DR 1 PR 2 #9 PR 2 DR 1 PR 2 PR 2 PR 2 DR 1 DR 2 #10 DR 1 DR 1 DR 1 DR 1 DR 1 DR 2 DR 2 #11 DR 1 DR 1 DR 1 DR 2 PR 2 PR 2 PR 2 #12 DR 1 DR 1 DR 1 PR 1 PR 2 DR 1 DR 1 #13 DR 2 PR 2 PR 1 DR 1 PR 2 DR 1 DR 1 #14 PR 2 DR 1 PR 2 DR 1 DR 1 DR 1 PR 2 #15 DR 1 DR 2 DR 1 DR 1 PR 1 DR 1 DR 1

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ (Β) Αποτελέσµατα Προτιµήσεις χρηστών - συνολικά Topic Preferred by majority Reason T 1 Crime DirectoryRank R1:8 R2:2 T 2 Photography DirectoryRank R1:8 R2:3 T 3 Water Sports PageRank R1:2 R2:6 T 4 Radiology DirectoryRank R1:10 R2:2 T 5 Mechanics PageRank R1:2 R2:8 T 6 Economet rics DirectoryRank R1:10 R2:3 T 7 Collecting DirectoryRank R1:6 R2:2 Θεµατική ταξινόµηση πιο χρήσιµη από την ταξινόµηση δηµοτικότητας για 5 από 7 κατηγορίες Εκφράζει τη σπουδαιότητα των ιστοσελίδων για τις αντίστοιχες κατηγορίες επιλογή µε βάσητοκριτήριο 1 (R1)

ΤΑΞΙΝΟΜΗΣΗ TODE Συνεισφορά Σύµφωνα µε τοσηµασιολογικό περιεχόµενο των ιστοσελίδων Ησπουδαιότηταµιας ιστοσελίδας καθορίζεται από: Το µέγεθος της πληροφορίας που περιλαµβάνει για ένα θέµα Το µέγεθος της πληροφορίας που µοιράζεται µεάλλες σηµαντικές για το θέµα ιστοσελίδες Ευέλικτη: συµπληρωµατική σε άλλες τεχνικές και αξιοποιήσιµη από τους επιµελητές καταλόγων ιαδικτύου

ΤΟ ΜΟΝΤΕΛΟ TODE Κατασκευή θεµατικής οντολογίας Σηµασιολογική επεξεργασία περιεχοµένου ιστοσελίδων Θεµατική κατηγοριοποίηση ιστοσελίδων Ταξινόµηση κατηγοριοποιηµένων ιστοσελίδων ιαχείριση ιστοσελίδων

ΙΑΧΕΙΡΙΣΗ ΙΣΤΟΣΕΛΙ ΩΝ Το µοντέλο TODE Αλγόριθµος διαχείρισης ιστοσελίδων [Stamou et al. 2006] Είσοδος: βαθµός σπουδαιότητας για την κατηγορία Είσοδος: βαθµός καταλληλότητας για την κατηγορία Έξοδος: ιστοσελίδες που δεν περιέχουν χρήσιµη πληροφορία για την αντίστοιχη κατηγορία

ΙΑΧΕΙΡΙΣΗ ΙΣΤΟΣΕΛΙ ΩΝ Αλγόριθµος Take all pages P in each directory, sorted by DR scores in descending order //Find P pages that are indexed in multiple directories and prune those, which have low DR For a page P i indexed into several directories D a, D e, where DR (i, e) > DR (i, a) >. Keep P i only in D e and expunge P i from all other directories //End of loop for pages indexed in multiple directories Keep only informative pages in directories and discard lowcontent pages Sort pages within directories by their Appropriateness-values in descending order //For each page P i in D e, with A (i, e) > T Keep P i in D e else expunge //End of loop for low-content pages

ΙΑΧΕΙΡΙΣΗ ΙΣΤΟΣΕΛΙ ΩΝ Μετρήσεις Μετρική καταλληλότητας Appropriateness Score: A(i, e)=max DR(Pi,De) για ιαχείριση ιστοσελίδων χαµηλής ποιότητας Expunge P with A(i,e)<T για T =0,3 0 DR ( i, e) 1 ιαχείριση πανοµοιότυπων ιστοσελίδων Expunge P with σ s 0,9 ή σ s =1

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ εδοµένα Category # of documents # of sub-topics Arts 28.342 18 Sports 20.662 26 Games 11.062 6 Home 6.262 6 Shopping 52.342 16 Business 60.982 7 Health 23.222 7 News 9.462 4 Society 28.662 14 Computers 35.382 13 Reference 13.712 10 Recreation 8.182 20 Science 20.022 9 Total 318.296 156

ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ Αποτελέσµατα Ιστοσελίδες που πλεονάζουν στις 13 κατηγορίες Category % of pruned pages Arts 1,04% Sports 0,33% Games 3,23% Ho me 0,22% Shopping 3,90% Business 5,57% Health 0,90% News 0,01% Society 0,32% Co mputers 0,68% Reference 0,16% Recreation 3,40% Science 0,25%

ΙΑΧΕΙΡΙΣΗ ΙΣΤΟΣΕΛΙ ΩΝ Συνεισφορά Μείωση κόστους διαχείρισης ιστοσελίδων Έγκυρο και ποιοτικό περιεχόµενο στους καταλόγους ιαδικτύου Συντονισµός των επιµελητών Αποτελεσµατικότητα κατασκευής καταλόγων ιαδικτύου

ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ Συµπεράσµατα Σηµασιολογικά δίκτυα: πολύτιµος πόρος για τη σηµασιολογική επεξεργασία του περιεχοµένου ιστοσελίδων Αλγόριθµος θεµατικής κατηγοριοποίησης: αποτελεσµατική τεχνική αυτόµατης ανάθεσης ιστοσελίδων σε θεµατικές κατηγορίες Αλγόριθµος θεµατικής ταξινόµησης: ταξινόµηση ιστοσελίδων σε θεµατικές κατηγορίες ανάλογα µε τη σπουδαιότητα του περιεχοµένου τους Αλγόριθµος διαχείρισης ιστοσελίδων: παροχή ποιοτικού και χρήσιµου περιεχοµένου στους χρήστες των καταλόγων ιαδικτύου

ΜΕΛΛΟΝΤΙΚΕΣ ΚΑΤΕΥΘΥΝΣΕΙΣ Πεδία εφαρµογής Θεµατικά προσανατολισµένη προσκοµιδή ιστοσελίδων Υπολογισµός ρυθµού µεταβολής στο περιεχόµενο του Παγκόσµιου Ιστού Ανίχνευση ιστοσελίδων µε παραποιηµένο περιεχόµενο Εξαγωγή περιλήψεων Υπηρεσίες εξατοµίκευσης

ΗΜΟΣΙΕΥΣΕΙΣ Book Chapters [b1] Stamou S., Krikos V., Kokosis P., Christodoulakis D. 2006. Classifying Web Data in Directory Structures. In Proceedings of the 8th Asia Pacific Web Conference (APWeb 06), January 16-18, Harbin, China, LNCS 3841, Springer-Verlag, pp. 238-249 (14% accepted) [b2] Stamou S., Krikos V., Kokosis P., Ntoulas A., Christodoulakis D. 2005. Web Directory Construction using Lexical Chains. In Proceedings of the 10th International Conference on Applications of Natural Language to Information Systems (NLDB 05), June 15-17, Alicante, Spain, LNCS 3513, Springer-Verlag, pp.138-149 (33% accepted) [b3] Stamou S., Christodoulakis D. 2005. Retrieval Efficiency of Normalized Query Expansion. In Proceedings of the 6th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 05), February 13-19, Mexico City, Mexico, LNCS 3406, Springer-Verlag, pp.604-607 [b4] Avramidis D., Kyriakopoulou M., Tzagarakis M, Stamou S., Christodoulakis D. 2002. Approaching Wordnets through a Structural Point of View. In Proceedings of the 1st Metainformatics Symposium (MIS), August 7-10, Esbjerg, Denmark, LNCS 2641, Springer- Verlag, pp. 49-57 [b5] Fourla A., Yannoutsou O., Tsakou I., Stamou S., Petrits A. 2000. The Contribution of a User Group to the Evaluation and Improvement of an MT System. In Translating and the Computer, vol.22, London: ASLIB

ΗΜΟΣΙΕΥΣΕΙΣ [b6] Ntoulas A., Stamou S., Tsakou I., Tsalidis C., Tzagarakis M., Vagelatos A. 2000. Use of a Morphosyntactic Lexicon for the Implementation of the Greek Wordnet. In Proceedings of the 2nd International Conference on Natural Language Processing (NLP), June 2-4, Greece, LNCS 1835, Springer-Verlag, pp. 49-56 Papers in Journals [j1] Grigoriadou M., Kornilakis H., Galiotou E., Stamou S., Papakitsos E. 2004. The Software Infrastructure for the Development and Validation of the Greek Wordnet. In Romanian Journal of Information Science and Technology (RJIST), vol.7, no. 1-2, pp. 89-105 [j2] ] Tufis D., Cristea D., Stamou S. 2004. Balkanet: Aims, Methods, Results and Perspectives: a General Overview. In Romanian Journal of Information Science and Technology (RJIST), vol.7, no. 1-2, pp. 1-35 Papers in Refereed Conferences [c1] Stamou S., Christodoulakis D. 2006. Turning BalkaNet s Inter-Lingual Index to a Powerful Ontology. To appear in Proceedings of the 1st IST-Africa 2006 Conference and Exhibition (supported by the European Commission), May 2-3, Pretoria, South Africa [c2] Kokosis P., Krikos V., Stamou S., Christodoulakis D. 2005. HiBO: A System for Automatically Organizing Bookmarks. In Proceedings of the Joint Conference on Digital Libraries (JCDL 05), June 7-11, Denver, USA (27% accepted)

ΗΜΟΣΙΕΥΣΕΙΣ [c3] Stamou S., Christodoulakis D. 2004. Handling Subtle Sense Distinctions through Wordnet Semantic Types. In Proceedings of the 4th Language Resources and Evaluation Conference (LREC), May 26-28, Lisbon, Portugal [c4] Stamou S., Nenadic G., Christodoulakis D. 2004. Exploring Balkanet Shared Ontology for Multilingual Conceptual Indexing. In Proceedings of the 4th Language Resources and Evaluation Conference (LREC), May 26-28, Lisbon, Portugal [c5] Stamou S., Ntoulas A., Kyriakopoulou M., Christodoulakis D. 2002. Expanding EuroWordNet with Domain-Specific Terminology Using Common Lexical Resources: Vocabulary Completeness and Coverage Issues. In Proceedings of the 1st Global Wordnet Conference (GWC), January 21-25, Mysore, India [c6] Stamou S., Oflazer K., Pala K., Christodoulakis D., Cristea D., Tufis D., Koeva S., Totkov G., Dutoit D., Grigoriadou M. 2002. Balkanet: A Multilingual Semantic Network for Balkan Languages. In Proceedings of the 1st Global Wordnet Conference (GWC), January 21-25, Mysore, India [c7] Stamou S., Ntoulas A., Hoppenbrouwers J., Saiz-Noeda M., Christodoulakis D. 2002. EUROTERM: Extending the EuroWordNet with Domain-Specific Terminology Using an Expand Model Approach. In Proceedings of the 1st Global Wordnet Conference (GWC), January 21-25, Mysore, India

ΗΜΟΣΙΕΥΣΕΙΣ [c8] Ntoulas A., Stamou S., Tzagarakis M., Christodoulakis D. 2001. Understanding Search Engines: Requirements for Explaining Search Results. In Proceedings of the 1st Panhellenic Conference with International Participation in Human Computer Interaction (PCHCI), December 7-9, Patras, Greece [c9] Ntoulas A., Stamou S., Tzagarakis M., Tsakou I., Christodoulakis D. 2001. Viewing Web Search Engines as Corpus Query Systems. In Proceedings of the 6th Conference on Computational Lexicography and Corpus Research (COMPLEX), Mason Hall, University of Birmingham, June 28-30, Birmingham, UK Papers in Refereed Workshops [w1] Krikos V., Stamou S., Ntoulas A., Kokosis P., Christodoulakis D. 2005. DirectoryRank: Ordering Pages in Web Directories. In Proceedings of the 7th ACM International Workshop on Web Information and Data Management (WIDM 05), November 5, Bremen, Germany (27% accepted) [w2] Stamou S., Christodoulakis D. 2005. Integrating Domain Knowledge into a Generic Ontology. In Proceedings of the 2nd MEANING Workshop, February 3-4, Trento, Italy [w3] Stamou S., Andrikopoulos V., Christodoulakis D. 2003. Towards Developing a Semantically Annotated Treebank Corpus for Greek. In Proceedings of the 2nd Workshop on Treebanks and Linguistic Theories (TLT), November 14-15, Vaxjo, Sweden

ΗΜΟΣΙΕΥΣΕΙΣ [w4] Avramidis D., Kyriakopoulou M., Kourousias G., Stamou S., Tzagarakis M. 2002. Viewing Semantic Networks as Hypermedia. In Proceedings of the Workshop on Wordnet Structures and Standardization, in conjunction with the 3rd Language Resources and Evaluation Conference (LREC), May 28, Las Palmas, Spain [w5] Ntoulas A., Stamou S., Tzagarakis M. 2001. Using a WWW Search Engine to Evaluate Normalization Performance for a Highly Inflectional Language. In Proceedings of the ACL/EACL Student Research Workshop, July 6-11, Toulouse, France [w6] Tsakou I., Assimakopoulos D., Koutsoubos I., Miatidis M., Kourousias G., Tzagarakis M., Stamou S., Christodoulakis D. 2001. DIALEXIKO: A Database for the Storage and Manipulation of Linguistic Resources (in Greek). In Proceedings of the Workshop on Lexicographic Databases and other Electronic Linguistic Resources,in conjunction with the 22nd Annual Meeting of Greek Linguistics, April 29, Thessaloniki, Greece [w7] Assimakopoulos D., Koutsoubos I., Miatidis M., Tsakou I., Ntoulas A., Stamou S., Christodoulakis D. 2000. A Modular Architecture for the Storage and Management of Heterogeneous Lexical Information. In Proceedings of the Computational Lexicography Workshop (COMLEX), September 22-23, Kato Achaia, Greece

Ερωτήσεις...