Βάσεις ιαδικτύου. Θέματα. Εισαγωγή στην XML. Ευρετήρια για την Ανάκτηση Κειμένων. Ο αλγόριθμος HITS. είναι η XML. Παράδειγμα XML

Σχετικά έγγραφα
ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ

Προγραμματισμός και Συστήματα στον Παγκόσμιο Ιστό Ενότητα 5: XML. Καθ. Ιωάννης Γαροφαλάκης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Σημασιολογικός Ιστός (Semantic Web) - XML

ΚΕΡΑΜΟΠΟΥΛΟΣ ΕΥΚΛΕΙΔΗΣ

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων

Εισαγωγή(στη(γλώσσα(XML(

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΝΤUA. Τεχνολογία Πολυμέσων

SGML (Standard Generalized Markup Language) HTML (HyperText Markup Language) XML (extensible Markup Language)

Βάσεις Δεδομένων ΙΙ. Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Σημασιολογικός Ιστός (Semantic Web) - XML

3. Επερώτηση XML Εγγράφων: Η Γλώσσα XPath

ΝΤUA. Τεχνολογία Πολυμέσων

Επεξεργασία Ερωτήσεων

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Μοντέλο. για ημι-δομημένα μημ δεδομένα. Ημι-δομημένα δεδομένα XML DTD XML Schema

Εισαγωγή XML: Extensible Markup Language Ορίστηκε από το WWW Consortium (W3C) ως συµπλήρωµα της HTML. εν σχεδιάστηκε για βάσεις δεδοµένων αλλά για δια

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

ΕΠΛ 012 Εισαγωγή στο Παγκόσμιο Πλέγμα Πληροφοριών

Σημασιολογικός Ιστός (Semantic Web) - XML

ΑΝΑΠΑΡΑΣΤΑΣΗ ΚΕΙΜΕΝΟΥ

Περιεχόμενα. Περιεχόμενα

ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ - XML

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Το εσωτερικό ενός Σ Β

ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ - XML

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Αλγόριθµοι και Πολυπλοκότητα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Γλώσσες Σήµανσης (Markup Languages) Τεχνολογία ιαδικτύου και Ηλεκτρονικό Εµπόριο

της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ - XML

ΜΕΡΟΣ II: XML DTD XML Namespaces XML Schema

ΚΕΦΑΛΑΙΟ 2: Τύποι δεδομένων και εμφάνιση στοιχείων...33

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Μεταδεδομένα στο Ψηφιακό περιβάλλον

Υλοποίηση των Σχεσιακών Τελεστών. 6/16/2009 Μ.Χατζόπουλος 1

7-22 Οκτωβρίου Μία γιορτή δημιουργίας με κώδικα. Europe Code Week

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Ελαφρύτατες διαδρομές

εντρικά Ευρετήρια έντρα Αναζήτησης

Η γλώσσα XHTML: διαφορές με HTML, μετατροπή

Δομές Δεδομένων και Αλγόριθμοι. Λουκάς Γεωργιάδης

Εισαγωγή στην επιστήμη των υπολογιστών. Πράξεις με μπιτ

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο 2

5. Επερώτηση XML Εγγράφων: Εισαγωγή στη Γλώσσα XQuery

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Η Γλώσσα Σήµανσης XML

Πληροφορική 2. Δομές δεδομένων και αρχείων

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ

Επεξεργασία Ερωτήσεων

Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL

Δεντρικά Ευρετήρια. Δέντρα Αναζήτησης

Βασικές Δοµές Δεδοµένων. Σύντοµη επανάληψη (ΕΠΛ 035).

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Κείμενο ASCII Unicode - HTML. Κωδικοποίηση ASCII / Unicode HTML

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Βάσεις Δεδομένων ΙΙ Ενότητα 5

Ο ΗΓΟΣ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΚΜΗΡΙΩΣΗΣ ΚΑΙ ΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ

κεφάλαιο 3 Η ΓΛΩΣΣΑ XML Εισαγωγή

Κεφ.11: Ευρετήρια και Κατακερματισμός

Σημασιολογικός Ιστός (Semantic Web) - XML

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκτηση Πληροφορίας

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Το Σχεσιακό Μοντέλο. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL

Ανάκτηση πολυμεσικού περιεχομένου

καλών σχεσιακών σχημάτων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Μηχανές Αναζήτησης. Εξόρυξη εδοµένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝ ΕΣΕΩΝ 1

Ενδεικτικές Ερωτήσεις Θεωρίας

Cuckoo Hashing. Αλγόριθμοι και Πολυπλοκότητα. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ

ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

ΛΥΣΗ ΤΗΣ ΔΕΥΤΕΡΗΣ ΑΣΚΗΣΗΣ Όλγα Γκουντούνα

Αυτοματοποιημένη χαρτογραφία

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Εισαγωγή στην Επιστήμη και Τεχνολογία των Υπηρεσιών

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

2. Αλγόριθμοι, δομές δεδομένων και πολυπλοκότητα

Υπερκείμενο / Υπερμέσα

Transcript:

Θέματα Βάσεις ιαδικτύου Ο αλγόριθμος HITS Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 2 Τι είναι η XML XML Mark-up Γλώσσες (Γλώσσες Σημειοθέτησης) HTML ετικέτες (tags) για την αναπαράσταση της δομής των εγγράφων XML (Extensible Markup Language) δε διαθέτει μια συγκεκριμένη συλλογή ετικετών με σταθερή και καθορισμένη σημασία Αντίθετα, ο χρήστης μπορεί να ορίσει δικές του ετικέτες που συνήθως αφορούν τη σημασία του περιεχομένου <BOOK> Απλά και εμφωλευμένα στοιχεία (elements/sub-elements) Ετικέτα αρχής (<elm>) και ετικέτα τέλους (</elm>) Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 3 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 4 XML <BOOK genre= Science format= Hardcover > Γνωρίσματα (Attributes) περιγραφικές πληροφορίες για τα στοιχεία att = value <?XML version= 1.0 encoding= UTF-8 standalone= yes?> <!DOCTYPE BOOKLIST SYSTEM emp.dtd > <BOOKLIST> <BOOK genre= Science format= Hardcover > <TITLE>The Character of Physical Law</TITLE> <PUBLISHED>1980</PUBLISHED> <BOOK genre= Fiction > <FIRSTNAME>R. K</FIRSNAME> <LASTNAME>Narayan</LASTNAME> <TITLE>The Character of Physical Law</TITLE> <PUBLISHED>1981</PUBLISHED> Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 5 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 6 1

XML XML DTD <BOOK genre= Fiction > <FIRSTNAME>R. K</FIRSNAME> <LASTNAME>Narayan</LASTNAME> <TITLE>The English Teacher</TITLE> <PUBLISHED>1980</PUBLISHED> </BOOKLIST> Μια δήλωση DTD είναι ένα σύνολο από κανόνες που επιτρέπουν στο χρήστη να ορίζει το δικό του σύνολο στοιχείων και γνωρισμάτων Έγκυρο έγγραφο όταν συνοδεύεται από μια αντίστοιχη DTD και το έγγραφο είναι δομημένο σύμφωνα με τους κανόνες που ορίζει η DTD Ορθά ιαμορφωμένο ( well-formed) Ξεκινά με δηλωτικό Υπάρχει στοιχείο ρίζα Κατάλληλα εμφωλευμένα στοιχεία Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 7 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 8 <!ATTLIST BOOK format (Paperback Hardcover) Paperback > <!ELEMENT BOOK (AUTHOR,TITLE, PUBLIHSED?)> <!ATTLIST BOOK format (Paperback Hardcover) Paperback > Γενικό σχήμα <!DOCTYPE name [ DTDDeclaration ] > Στοιχείο ρίζα Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 9 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 10 subelements subelements * 0 ή περισσότερα + 1 ή περισσότερα? Προαιρετική εμφάνιση, * 0 ή περισσότερα + 1 ή περισσότερα? Προαιρετική εμφάνιση, Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 11 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 12 2

#PCDATA δηλώνει στοιχεία με μορφή χαρακτήρων Γενικά <!ELEMENT (contenttype) > Όπου contenttype Άλλα στοιχεία #PCDATA EMPTY Κανονική έκφραση exp1, exp2, exp3, exp* exp? exp+ exp1 exp2 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 13 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 14 XML <!ATTLIST elementname (attname atttype default)+> atttype: τύποι απαρίθμησης ή τύποι συμβολοσειράς <!ATTLIST BOOK edition CDATA 1 > XQuery: Γλώσσα ερωτήσεων για XML δεδομένα Τεχνικές Για την αποθήκευση δεδομένων σε σχεσιακές βάσεις δεδομένων Ειδικές (native) βάσεις δεδομένων για αποθήκευση εγγράφων XML http://www.w3.org/xml/ http://www.w3.org/xml/query Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 15 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 16 Θέματα Ευρετηριοποίηση για την Ανάκτηση Κειμένων Βάση κειμένων: συλλογή από έγγραφα Αναζήτηση με μια λέξη κλειδί (keyword queries) Ο αλγόριθμος HITS Αίτημα Boole (t 11 t 12 t i11 ) (t 21 t 22 t 2i2 ). (t j1 t j2 t jij ) Αίτημα ιαβάθμισης (Ranking) Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 17 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 18 3

Ευρετηριοποίηση για την Ανάκτηση Κειμένων Ανεστραμμένο Αρχείο Μια ταξινομημένη λίστα (ανεστραμμένη λίστα) για κάθε όρο Rid Λέξεις-Κλειδιά 1 agent James Bond 2 agent mobile computer 3 James Madison movie 4 James Bond movie ερωτήσεων Ευρετήριο Λεξιλογίου: Για τον ταχύτερο εντοπισμό της λίστας για κάθε όρο: Το σύνολο των όρων μπορεί να οργανωθεί με τη χρήση μιας δομής ευρετηρίου (π.χ. Β+-δέντρο) Ένας όρος, σύζευξη, διάζευξη Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 19 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 20 Αρχείο Υπογραφών Αρχείο Υπογραφών Υπογραφή εγγράφου (File Signature) Μια εγγραφή ευρετηρίου για κάθε έγγραφο στη βάση δεδομένων Σταθερό μήκος bits εύρος υπογραφής Υ1 ταιριάζει με Υ2, Υ1 τουλάχιστον τα 1 που έχει και η Υ2 Εσφαλμένη διάγνωση (false positive) Ένας όρος, σύζευξη, διάζευξη Αρχείο υπογραφών με κατακόρυφο διαμερισμό σε μονοψήφιες στήλες: ιαμερίζουμε ένα αρχείο υπογραφών σε ένα σύνολο κατακόρυφων δυαδικών στηλών Για κ άσσους ανάκτηση κ-στηλών Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 21 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 22 Θέματα Αναζητήσεις λέξεων κλειδιών στο διαδίκτυο: Ο αλγόριθμος HITS ύο τύποι σελίδων Αυθεντική Μια σελίδα που είναι αυθεντία σε ένα θέμα και αναγνωρίζεται ως τέτοια από άλλες σελίδες (δηλαδή, υπάρχουν πολλοί σύνδεσμοι σε αυτήν) Κομβικοί Μια σελίδα που αναφέρεται σε μια αυθεντική σελίδα Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 23 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 24 4

Το web ως ένας κατευθυνόμενος γράφος Κόμβοι: ιστοσελίδες Ακμή από Α στον Β: η ιστοσελίδα Α έχει έναν υπερ-σύνδεσμο στην ιστοσελίδα Β Ο αλγόριθμος σε 2 φάσεις: Φάση Ι: (δειγματοληπτικό στάδιο) ένα σύνολο σελίδων που αποτελεί το βασικό σύνολο Φάση ΙΙ: (επαναληπτικό στάδιο) επεξεργασία του βασικού συνόλου για τον εντοπισμό καλών αυθεντικών και κομβικών ιστοσελίδων Φάση Ι: Υπολογισμός βασικού συνόλου 1. Υπολογισμός αρχικού συνόλου: σύνολο-ρίζα Κλασικοί μέθοδοι: πχ ανάκτηση όλων των σελίδων που περιέχουν τις λέξεις κλειδιά (περιμένουμε ότι θα περιέχει (τουλάχιστον) αναφορές προς σχετικές σελίδες) 2. Σελίδες-σύνδεσμοι: σελίδα που είτε συμπεριλαμβάνει σύνδεσμο που να αναφέρεται στο σύνολο ρίζα είτε το σύνολο ρίζα περιέχει σύνδεσμο που αναφέρεται σε αυτήν Βασικό Σύνολο: διεύρυνση του συνόλου-ρίζα ώστε να περιλαμβάνει και τις σελίδες συνδέσμους Βασικές ιστοσελίδες Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 25 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 26 Φάση ΙΙ: Ποιες βασικές ιστοσελίδες είναι κόμβοι και αυθεντίες Κάθε βασική σελίδα p δύο τιμές: h p - Συντελεστής Κομβικού Ρόλου (πολλούς δείκτες σε αυθεντικές) a p - Συντελεστής Αυθεντικότητας (πολλοί δείκτες από κομβικές σε αυτήν) Αρχικοποίηση, p, h p = 1 και α p = 1 Επαναληπτικά, αυξάνεται Έστω το βασικό σύνολο σελίδων {1, 2,..., n} Πίνακας Γειτνίασης (adjacency matrix) B: n x n B[i, j] = 1 αν η σελίδα i περιέχει σύνδεσμο που δείχνει στη σελίδα j Έστω h = <h 1, h 2,, h n > το διάνυσμα συντελεστών κομβικών ρόλων και α = <α 1, α 2,..., α n > το διάνυσμα συντελεστών αυθεντικότητας a p = Σ h q Βασικές σελίδες q που δείχνουν στην p h p = Σ α q Βασικές σελίδες q στις οποίες δείχνει η p Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 27 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 28 Οι κανόνες ενημέρωσης h = B a 1η επανάληψη h = B B Τ h = (B B Τ )h 2η επανάληψη h = (B B Τ ) 2 h a = B Τ h a = B T B a = (B T B) a a = (B T B) 2 a Σύγκλιση στα ιδιοδιανύσματα του ΒΒ Τ και Β Τ Β αν κανονικοποιηθούν αρχικά οι συντελεστές Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 29 5