ιαχείριση Ιεραρχικών Σχηµάτων στο Σηµασιολογικό Ιστό



Σχετικά έγγραφα
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Semantic-based Querying of Tree-Structured Data. Οργάνωση εδοµένων µε ενδρικές οµές

Ουρά Προτεραιότητας: Heap

Οργάνωση Γεωγραφικών. πληροφοριών

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

Ουρά Προτεραιότητας: Heap

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ιµελής Σχέση ιατεταγµένο ζεύγος (α, β): ύο αντικείµενα (όχι κατ ανάγκη διαφορετικά) σε καθορισµένη σειρά. Γενίκευση: διατεταγµένη τριάδα (α, β, γ), δι

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Εισαγωγή στην επιστήμη των υπολογιστών. Οργάνωση εδομένων Κεφάλαιο 11ο ομές εδομένων

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων

Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα)

ΜΕΡΟΣ Ι: ΓΕΩΓΡΑΦΙΚΑ Ε ΟΜΕΝΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ Η ΦΥΣΗ ΤΩΝ ΓΕΩΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ...

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Σχέσεις. ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

έντρα ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

ΣΧΕΣΙΑΚΟ ΜΟΝΤΕΛΟ (Relational Model) Μαθ. #10

Βάσεις εδοµένων. Βασίλειος Βεσκούκης, Εµµ. Στεφανάκης ΜΟΝΤΕΛΟΠΟΙΗΣΗ Ε ΟΜΕΝΩΝ, ΚΛΑΣΙΚΑ ΜΟΝΤΕΛΑ Ε ΟΜΕΝΩΝ

υαδικό έντρο Αναζήτησης (BSTree)

ιδάσκοντες: Φ. Αφράτη,. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Ουρά Προτεραιότητας: Heap

Επεξεργασία Ερωτήσεων

Το εσωτερικό ενός Σ Β

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Σχέσεις. Διμελής Σχέση. ΣτοΊδιοΣύνολο. Αναπαράσταση

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Πίνακας περιεχοµένων


Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

Βάσεις Δεδομένων ΙΙ. Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο

Διδάσκοντες: Δ. Φωτάκης, Δ. Σούλιου Επιμέλεια διαφανειών: Δ. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

5. Επερώτηση XML Εγγράφων: Εισαγωγή στη Γλώσσα XQuery

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

Εισαγωγή στην πληροφορική

Υποστήριξη στη ιαχείριση Γνώσης

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Κεφάλαιο 8. Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής. Τεχνητή Νοηµοσύνη - Β' Έκδοση

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

inding B Binding -Library Cell

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΚΑΤΑΝΕΜΗΜΕΝΕΣ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ

Ουρά Προτεραιότητας: Heap

Ημερίδα διάχυσης αποτελεσμάτων έργου Ιωάννινα, 14/10/2015

Δομές δεδομένων και ψηφιακή αναπαράσταση χωρικών φαινομένων

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Επεξεργασία Ερωτήσεων

Department of Computer Science University of Cyprus. EPL342 Databases. Lecture 8: RM II. Relational Model. (Chapter )

Γλώσσες Σήµανσης (Markup Languages) Τεχνολογία ιαδικτύου και Ηλεκτρονικό Εµπόριο

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

ΤΕΤΡΑ ΙΑ ΑΝΑΛΥΣΗΣ Ε ΟΜΕΝΩΝ, ΤΕΥΧΟΣ 15 (σσ ) DATA ANALYSIS BULLETIN, ISSUE 15 (pp ) Ιεραρχική Ανάλυση

Δοµές Δεδοµένων. Αλγόριθµοι & Πολυπλοκότητα (Χειµώνας 2011) Ουρές Προτεραιότητας 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ 035: οµές εδοµένων και Αλγόριθµοι για Ηλεκτρολόγους Μηχανικούς και Μηχανικούς Υπολογιστών

Query-by-Example (QBE)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

ΘΕΜΑΤΑ ΔΙΠΛΩΜΑΤΙΚΩΝ ΕΡΓΑΣΙΩΝ Εργ. Συστημάτων Βάσεων Γνώσεων & Δεδομένων CONTEXT AWARE ΣΥΣΤΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ ΕΙΣΑΓΩΓΙΚΟ ΣΗΜΕΙΩΜΑ

Βάσεις εδοµένων. Βασίλειος Βεσκούκης, Εµµ. Στεφανάκης ΣΥΣΤΗΜΑΤΑ ΙΑΧΕΙΡΙΣΗΣ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ

Σχεδιασµός Ανάπτυξη Οντολογίας

Αναλυτικές λειτουργίες ΣΓΠ

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 9 ο

Εργαστήριο Σημασιολογικού Ιστού

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Ανάλυση και Σχεδιασµός Πληροφοριακών Συστηµάτων

Orchid: Integrating Schema Mapping and ETL ICDE 2008

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Μοντέλα και Τεχνικές Αξιολόγησης. Ενεργειακών και Περιβαλλοντικών Πολιτικών

Δηµοσθένης Σταµάτης Τµήµα Πληροφορικής ΑΤΕΙ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΕΝΤΡΑ (TREES) B C D E F G H I J K L M

Σχεσιακή Άλγεβρα. Κεφάλαιο 4. Database Management Systems, R. Ramakrishnan and J. Gehrke

Δέντρα Απόφασης (Decision(

Συνόψεις για Δεδομένα XML με Ετερογενές Περιεχόμενο

Εισαγωγή στο RDF. Το Resource Description Framework (RDF) Σταύρος Πολυβίου

Ορισµοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ 6-2

Red-black δέντρα (Κεφ. 5)

Βάσεις Δεδομένων (Databases)

Βασικές δοµές δεδοµένων. Ορολογία λιστών. 8.1 Βασικές έννοιες δοµών δεδοµένων 8.2 Υλοποίηση δοµών δεδοµένων 8.3 Μια σύντοµη υπόθεση εργασίας

Ενότητα 7 Ουρές Προτεραιότητας

ιαµέριση - Partitioning

Διάλεξη 17: O Αλγόριθμος Ταξινόμησης HeapSort

Έλεγχος Ταυτοχρονισμού

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεδομένα και Πληροφορίες

Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL

Εισαγωγή στις Βάσεις Δεδομζνων II

Θεωρία Υπολογισμού και Πολυπλοκότητα Μαθηματικό Υπόβαθρο

Εργαστήριο Σημασιολογικού Ιστού

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (1)

Transcript:

Εθνικό Μετσόβιο Πολυτεχνείο ιαχείριση Ιεραρχικών Σχηµάτων στο Σηµασιολογικό Ιστό Υποστήριξη ιδακτορικής ιατριβής Θοδωρής αλαµάγκας

Σηµασιολογικός Ιστός Από το Ιστό στον Σηµασιολογικό Ιστό: Έλλειψη ενιαίου και αυστηρού τρόπου οργάνωσης των δεδοµένων στον Ιστό. υσκολίες στην ανταλλαγή και επεξεργασία των δεδοµένων σε πολλές πηγές. Επέκταση του Ιστού στον Σηµασιολογικό Ιστό: οµή, οργάνωση και σηµασιολογία στο περιεχόµενο. Η πληροφορία αποκτά σηµασία. Η πληροφορία γίνεται κατανοητή σε επίπεδο µηχανής. Εργαλεία: τεχνολογίες XML* (W3) 2

Τεχνολογίες XML* (W3) Η πληροφορία αποκτά σηµασία: Τα δεδοµένα/µεταδεδοµένα του Ιστού σηµαδεύονται µε ετικέττες. Βασική µορφή κωδικοποίησης είναι η γλώσσα XML. Πλαίσιο XML/F, Γλώσσα Οντολογιών XML/OWL. Σηµασιολογικός Εµπλουτισµός Χαµηλός Μέτριος Υψηλός XML F OWL 3

Τεχνολογίες XML* (W3) Η πληροφορία αποκτά σηµασία: Τα δεδοµένα/µεταδεδοµένα του Ιστού σηµαδεύονται µε ετικέττες. Βασική µορφή κωδικοποίησης είναι η γλώσσα XML. Πλαίσιο XML/F, Γλώσσα Οντολογιών XML/OWL. Σηµασιολογικός Εµπλουτισµός Χαµηλός Μέτριος Υψηλός XML F OWL 4

Τεχνολογίες XML* (W3) Τα δεδοµένα του Ιστού σηµαδεύονται µε ετικέττες: <photo> <camera code= 1435998 > <model> anon 30 </model> <color> silver </color> <price> 1000 </price> <focus> auto </focus> code </camera> <lens>. "1435998" </lens> </photo Ιεραρχική αναπαράσταση "anon 30" model color "silver" camera price photo 1000 focus "auto" lens... 5

Τεχνολογίες XML* (W3) Τα µεταδεδοµένα για τους πόρους του Ιστού σηµαδεύονται µε ετικέττες: <photo><review><camera> <rdf:description rdf:about="www.cameras.com/canon30.html > <model> anon 30 </model> <color> silver </color> <price> 1000 </price> <focus> auto </focus> <seller> <rdf:description rdf:about= www.canon.com > <name> ANON Ltd. </name> </rdf:description> <seller> </rdf:description> </camera><lens> </lens></review></photo> 6

Τεχνολογίες XML* (W3) photo Ιεραρχική αναπαράσταση: review camera rdf:description lens... rdf:about model price focus seller "anon 30" www.cameras.com/canon30.html color "silver" "auto" rdf:description 1000 rdf:about name "www.canon.com" 'ANON Ltd." 7

Ο ρόλος των ιεραρχιών Στις τεχνολογίες XML* (W3) σηµαντικός είναι ο ρόλος των ιεραρχικών σχηµάτων (ιεραρχίες). XML: δέντρο (γράφος αν υπάρχουν αναφορές) F(s): γράφος Μελετούµε ιεραρχίες δεντρική µορφής Κωδικοποιήσεις XML (XML, F, ) 8

Το πρόβληµα Οι ιεραρχίες αντιµετωπίζονται ως σύνολα από µεµονωµένα στοιχεία (κόµβους). Ιεραρχίες = απλοί σηµασιολογικοί οδηγοί ιάσχισης (browsing) ιατύπωσης ερωτήσεων έκφρασης µονοπατιού (path expressions): /cameras/manual/item[price<1000] 9

Το πρόβληµα Ιστός: πολλές ιεραρχίες που οργανώνουν δεδοµένα για το ίδιο πεδίο γνώσης (knowledge domain). Χρήσιµες ερωτήσεις: βρείτε τις ιεραρχίες που οργανώνουν υλικό φωτογραφικού εξοπλισµού µε τρόπο παρόµοιο µε αυτόν µιας ιεραρχίας-πρότυπο (δοµική/σηµασιολογική οµοιότητα). 10

Το πρόβληµα οµική/σηµασιολογική οµοιότητα (H1) Adorama (H2) &H cameras & lenses digital cameras & lenses digital lenses 35mm SL cameras printers lenses 35mm SL cameras memory cards point & shoot 11

Το πρόβληµα οµική/σηµασιολογική οµοιότητα (H1) Adorama (H2) &H cameras & lenses digital cameras & lenses digital lenses 35mm SL cameras printers lenses 35mm SL cameras memory cards point & shoot 12

Το πρόβληµα Ιστός: πολλές ιεραρχίες που οργανώνουν δεδοµένα για το ίδιο πεδίο γνώσης (knowledge domain). Χρήσιµες ερωτήσεις: βρείτε το κοµµάτι µιας ιεραρχίας που δεν υπάρχει σε µια άλλη (διαχείριση δοµικής πληροφορίας). 13

Το πρόβληµα ιαχείριση δοµικής πληροφορίας (H1) Adorama (H2) &H cameras & lenses digital cameras & lenses digital lenses 35mm SL cameras printers lenses 35mm SL cameras memory cards point & shoot Το κοµµάτι του Η1 που δεν υπάρχει στο Η2 point & shoot printers 14

Σκοπός της ιατριβής Ανάδειξη των ιεραρχιών σε οντότητες πρώτης τάξης. ιατύπωση πλαισίου διαχείρισης ιεραρχιών τριών κατευθύνσεων: Προσδιορισµός οµόλογων ιεραρχιών. οµικός χειρισµός ιεραρχιών. ιαχείριση ιεραρχιών και δεδοµένων. 15

Συνεισφορά της ιατριβής Μεθοδολογία προσδιορισµού οµόλογων ιεραρχιών. Ορισµός µετρικής δοµικής οµοιότητας µεταξύ ιεραρχιών και σχεδιασµός αλγορίθµων υπολογισµού της. Εφαρµογή τεχνικών συσταδοποίησης (clustering) για τον προσδιορισµό οµάδων από ιεραρχίες µε παρόµοια οργάνωση. Υλοποίηση πρότυπου συστήµατος για την αξιολόγηση της µεθοδολογίας. 16

Συνεισφορά της ιατριβής οµικός χειρισµός ιεραρχιών. Μελέτη αλγεβρικών ιδιοτήτων των ιεραρχιών ως δεντρικές δοµές. Ορισµός 3 τελεστών διαχείρισης δοµικής πληροφορίας (ένωση, τοµή, διαφορά) µε ιδιότητες παρόµοιες µε αυτές των αντίστοιχων τελεστών της συνολοθεωρίας. ιαχείριση ιεραρχιών και δεδοµένων. Ορισµός τελεστών που συνδυάζουν διαχείριση µονοπατιών στις ιεραρχίες, και κλασσικές σχεσιακές ερωτήσεις στα δεδοµένα. 17

...στη συνέχεια > ΠΡΟΣ ΙΟΡΙΣΜΟΣ ΟΜΟΛΟΓΩΝ ΙΕΡΑΡΧΙΩΝ ΟΜΙΚΗ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΚΑΙ Ε ΟΜΕΝΩΝ ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΗ ΟΥΛΕΙΑ 18

Συντακτικά προβλήµατα δέντρων Σειρά συντακτικών πράξεων δέντρων (tree edit script): µια σειρά πράξεων που µετασχηµατίζουν ένα δέντρο Τ1 σε ένα δέντρο Τ2. Συντακτική απόσταση δέντρων (T1,T2) (tree edit distance): το ελάχιστο από τα κόστη σειρών συντακτικών πράξεων που µετασχηµατίζουν ένα δέντρο Τ1 σε ένα δέντρο Τ2. 19

Συντακτικά προβλήµατα δέντρων Μετασχηµατισµός του Τ1 σε Τ2: T1 A insert K A K T2 A replace,k insert P A K O A delete delete insert A K insert O P A A P 20

Συντακτικά προβλήµατα δέντρων Μετασχηµατισµός του Τ1 σε Τ2: (T1,T2)=5 T1 Ins(,,2) ep(,o) T2 A A K A K A K O P P ep(,k) ep(,) Ins(P,,1) P A K A K 21

Συντακτικά προβλήµατα δέντρων οµική απόσταση δέντρων (structural distance): S(T1,T2)=(T1,T2)/max(T1,T2) (T1,T2): συντακτική απόσταση Τ1, Τ2, max(t1,t2): το µέγιστο από τα κόστη σειρών συντακτικών πράξεων που µετασχηµατίζουν το Τ1 στο Τ2 (διαγραφή όλων των κόµβων του Τ1 και εισαγωγή όλων των κόµβων του Τ2). 22

Συντακτικά προβλήµατα δέντρων οµική απόσταση δέντρων (structural distance): S(T1,T2)=(T1,T2)/max(T1,T2)=5/12=41% T1 Ins(,,2) ep(,o) T2 A A K A K A K O P P ep(,k) ep(,) Ins(P,,1) P A K A K 23

Αλγόριθµοι συντακτικών αποστάσεων δέντρων Αλγόριθµοι Πράξεις Πράξεις στα φύλλα Selkow77 Zhang89 hawathe96 (I) hawathe99 (II) εισαγωγή κόµβου, διαγραφή κόµβου, αντικατάσταση κόµβου εισαγωγή κόµβου, διαγραφή κόµβου, αντικατάσταση κόµβου εισαγωγή κόµβου, διαγραφή κόµβου, αντικατάσταση κόµβου, µετακίνηση υποδέντρου εισαγωγή κόµβου, διαγραφή κόµβου, αντικατάσταση κόµβου εισαγωγή κόµβου, διαγραφή κόµβου εισαγωγή κόµβου, διαγραφή κόµβου εισαγωγή κόµβου, διαγραφή κόµβου 24

Βελτίωση υπολογισµού δοµικής απόστασης οµικές περιλήψεις δέντρων (structural summaries). Μείωση επαναλαµβανόµενων και φωλιασµένων κόµβων. Νέος αλγόριθµος υπολογισµού δοµικής απόστασης Βελτιωµένη απόδοση σε σχέση µε τον αλγόριθµο hawathe99 (II). 25

οµικές περιλήψεις Επαναλαµβανόµενα φωλιασµένοι κόµβοι (Τ1) Επαναλαµβανόµενοι κόµβοι (Τ2) T1 T2 26

Μείωση επαν. φωλιασµένων (ΕΦ) (ΕΦ) Βασικός έλεγχος για τον τρέχοντα κόµβο Ν: Αν υπάρχει απόγονος µε την ίδια ετικέττα, τότε όλα τα υποδέντρα του Ν µετακινούνται στον απόγονο αυτό. T1 T2 T3 A A A A A A P A A P P A A P P 27

Μείωση επαναλαµβανόµενων κόµβων (Ε) T1 (Ε) Βασικός έλεγχος για τον τρέχοντα κόµβο Ν: Αν έχει ξανασυναντηθεί σε ίδιο µονοπάτι (έστω path/n), τότε τα υποδέντρα του Ν µετακινούνται στο path/n, και ο κόµβος διαγράφεται. T2 οµική περίληψη του Τ1 A A A A A A P A A P P A A P P 28

Νέος αλγόριθµος υπολογισµού δοµικής απόστασης Πράξεις: εισαγωγή (ci=1), διαγραφή (cd=1), αντικατάσταση (cr=1,0) κόµβου. Αναδροµή alculateistance(): καλείται µια φορά για κάθε ζευγάρι κόµβων s και t στο ίδιο βάθος σε δύο δέντρα. Η µεταβλητή [i][j] διατηρεί την συντακτική απόσταση µεταξύ του δέντρου µε ρίζα s, µε τα πρώτα i υποδέντρα του, και του δέντρου µε ρίζα t, µε τα πρώτα j υποδέντρα του. 29

Νέος αλγόριθµος υπολογισµού δοµικής απόστασης T1 T2 A A K P [2][3] = 30

Νέος αλγόριθµος υπολογισµού δοµικής απόστασης T1 A T2 A K T1 T2 K A A P P [2][3] = min ( [2][3-1] + 3, 31

Νέος αλγόριθµος υπολογισµού δοµικής απόστασης T1 A T2 A K T1 T2 K A A P P [2][3] = min ( [2][3-1] + 3, [2-1][3] + 2, T1 T2 A A K P 32

Νέος αλγόριθµος υπολογισµού δοµικής απόστασης T1 A T2 A K T1 T2 K t1 t2 K A A P P P [2][3]=min([2][3-1]+3, [2-1][3]+3, [2-1][3-1]+alc(t1,t2) ) A T1 T2 A K T1 A T2 A P 33

Νέος αλγόριθµος υπολογισµού δοµικής απόστασης Βελτιωµένη απόδοση σε σχέση µε τον αλγόριθµο hawathe99 (II). Αποφυγή υπολογισµού συντακτικών γράφων (edit graphs). Συντακτικοί γράφοι: πλέγµα από κόµβους. ιαγραφή = οριζόντια γραµµή Εισαγωγή = κάθετη γραµµή Αντικατάσταση = διαγώνια γραµµή Σειρές συντακτ. πράξεων = µονοπάτια στον γράφο. 34

Αξιολόγηση Εισαγωγή της δοµική απόστασης σε τεχνικές συσταδοποίησης (clustering). Ανακάλυψη συστάδων δέντρων που αναπαριστούν ιεραρχίες µε παρόµοια δοµή Χρήση αλγορίθµων hawathe και νέου. Αξιολόγηση απόδοσης. Αξιολόγηση ποιότητας. 35

Αξιολόγηση απόδοσης Νέος αλγόριθµος: µε/χωρίς δοµ. περιλήψεις 36

Αξιολόγηση απόδοσης Νέος αλγόριθµος vs hawathe 37

Αξιολόγηση απόδοσης Νέος αλγόριθµος: συνολική απόδοση 38

Αξιολόγηση ποιότητας Προβλήµατα αξιολόγησης ποιότητας συσταδοποίησης: Άγνωστα τα σωστά µέλη των συστάδων. Παραγωγή δειγµάτων δέντρων ως XML αρχεία, µε δοθέντα T ως οδηγούς (10 T, σύνολα 1000 δέντρων). Αλγόριθµοι συσταδοποίησης: single link (+LUTO) Μετρικές αξιολόγησης: Ακρίβεια (precicion) P: το ποσοστό των σωστών µελών που έχουν οι συστάδες σε σχέση µε αυτά που θα έπρεπε να έχουν. Ευστοχία (recall) : το ποσοστό των σωστών µελών που έχουν οι συστάδες. 39

Αξιολόγηση ποιότητας hawathe (maxrepeat=3) hawathe (maxrepeat=6) Χωρίς οµ. Περιλήψεις Με οµ. Περιλήψεις Χωρίς οµ. Περιλήψεις Με οµ. Περιλήψεις P=0.71, =0.9 P=0.71, =0.9 P=0.58, =0.89 P=0.83, =0.96 Νέος Αλγόρ. (maxrepeat=3) Νέος Αλγορ. (maxrepeat=6) Χωρίς οµ. Περιλήψεις Με οµ. Περιλήψεις Χωρίς οµ. Περιλήψεις Με οµ. Περιλήψεις P=1, =0.98 P=1, =0.98 P=1, =0.97 P=1, =0.98 40

Συµπεράσµατα αξιολόγησης Ηχρήση δοµικών περιλήψεων διατηρεί την ποιότητα της συσταδοποίησης. ηχρήση τους βελτιώνει την απόδοση της συσταδοποίησης. Ο νέος αλγόριθµος υπολογισµού δοµικής απόστασης βελτιώνει περαιτέρω την απόδοση. Επιβεβαίωση αποτελεσµάτων και µε άλλους αλγόριθµους συσταδοποίησης/ταξινόµησης. 41

Συγκρίσεις Υπάρχουσες εργασίες: Συσταδοποίηση XML κειµένων (Nierman). Συσταδοποίηση T σχηµάτων (Xlust) οµικές αποστάσεις για εκτιµήσεις elta (Xdiff, Laiff, Xyiff). ιαφορές: Χρήση δοµικών περιλήψεων (γενική η χρήση τους). ιατήρηση των καλών ιδιοτήτων στις αποστάσεις (minimality). 42

Σύνοψη συνεισφοράς Μεθοδολογία προσδιορισµού οµόλογων ιεραρχιών. Ορισµός µετρικής δοµικής οµοιότητας µεταξύ ιεραρχιών και σχεδιασµός αλγορίθµων υπολογισµού της. Εφαρµογή τεχνικών συσταδοποίησης (clustering) για τον προσδιορισµό οµάδων από ιεραρχίες µε παρόµοια οργάνωση. Υλοποίηση πρότυπου συστήµατος για την αξιολόγηση της µεθοδολογίας. 43

...στη συνέχεια ΠΡΟΣ ΙΟΡΙΣΜΟΣ ΟΜΟΛΟΓΩΝ ΙΕΡΑΡΧΙΩΝ > ΟΜΙΚΗ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΚΑΙ Ε ΟΜΕΝΩΝ ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΗ ΟΥΛΕΙΑ 44

Αλγεβρικές ιδιότητες ιεραρχιών έντρο ιεραρχίας µε κόµβους Ν και ρίζα r: < {r} N, P >: xpy ισχύει αν πατέρας(x,y) (ή p(x,y)) Σχέση υποσύνολο: T1 T2 Για κάθε xpy στο Τ1, τότε xp tr y στο Τ2 Για κάθε xp tr y στο Τ2 (µε x,y στο Τ1), τότε xp tr y στο Τ1 ιαισθητικά: Το Τ1 κατασκευάζεται από το Τ2, διαγράφοντας κόµβους και µετακινώντας τα παιδιά σε υψηλότερα επίπεδα. 45

Αλγεβρικές ιδιότητες ιεραρχιών Έστω δέντρο ιεραρχίας Tg (καθολικό δέντρο) και Sg={Ti, Ti Tg} (Θ) Η σχέση < Sg, > είναι σχέση µερικής διάταξης: Ανακλαστική: Ti Ti Αντισυµµετρική: Ti Tj και Tj Ti δίνει Ti=Tj Μεταβατική: Ti Tj και Tj Tk δίνει Ti Tk Ορίζουµε 2 τελεστές για δέντρα Ti: ένωση, τοµή 46

Ένωση Έστω δέντρα ιεραρχίας T1 και Τ2 από το σύνολο Sg={Ti, Ti Tg}. Η ένωση Τ3 των T1 και Τ2, T1 Τ2, είναι ένα δέντρο µε: όλους τους κόµβους Ν των T1 και Τ2 όλη την δοµική πληροφορία των T1 και Τ2 ιαισθητικά, το Τ3 κατασκευάζεται από το Τg, διαγράφοντας όλους τους κόµβους εκτός από αυτούς του Ν, και µετακινώντας τα παιδιά σε υψηλότερα επίπεδα. 47

Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 48

Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 49

Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 50

Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 51

Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 52

Ένωση T1 T G N P I E F G J T2 N P I E J K H F M G M J K H 53

Τοµή Έστω δέντρα ιεραρχίας T1 και Τ2 από το σύνολο Sg={Ti, Ti Tg}. Η τοµή Τ3 των T1 και Τ2, T1 Τ2, είναι ένα δέντρο µε: τους κοινούς κόµβους Ν των T1 και Τ2 την κοινή δοµική πληροφορία των T1 και Τ2 ιαισθητικά, το Τ3 κατασκευάζεται από το Τg, διαγράφοντας όλους τους κόµβους εκτός από αυτούς του Ν, και µετακινώντας τα παιδιά σε υψηλότερα επίπεδα. 54

Τοµή T1 T2 T3 S N P = I E F J M F J H G J F H K H 55

οµή Πλέγµατος Έστω δέντρο ιεραρχίας Tg και Sg={Ti, Ti Tg} και η σχέση µερικής διάταξης < Sg, >. (Θ) Η πράξη ένωση, Tj Τk, δίνει το ελάχιστο άνω όριο των Tj και Τk: Tj Tj Τk και Tk Tj Τk (Θ) Η πράξη τοµή, Tj Τk, δίνει το µέγιστο κάτω όριο των Tj και Τk: Tj Τk Tj και Tj Τk Tk (Θ) H σχέση µερικής διάταξης < Sg, > είναι πλέγµα (lattice) (και µάλιστα distributive). 56

Νόµοι T1 T1 = T1 T1 T2 = T2 T1 T1 (T2 T3) = (T1 T2) T3 T1 (T1 T2) = Τ1 Τ1 (Τ2 Τ3) = (Τ1 Τ2) (Τ1 Τ3) (και αντίστοιχα για την ) 57

Συµπλήρωµα Έστω δέντρο ιεραρχίας T1 από το σύνολο Sg={Ti, Ti Tg}. Το συµπλήρωµα Τ 1 του T1 είναι ένα δέντρο µε: όλους τους κόµβους του Tg που δεν υπάρχουν στο Τ1 (η ρίζα συµπεριλαµβάνεται) την δοµική πληροφορία του Tg που δεν υπάρχει στο Τ1 ιαισθητικά, το Τ 1 κατασκευάζεται από το Τg, διαγράφοντας όλους τους κόµβους που ανήκουν στο Τ1, και µετακινώντας τα παιδιά σε υψηλότερα επίπεδα. 58

ιαφορά Έστω δέντρα ιεραρχίας T1 και Τ2 από το σύνολο Sg={Ti, Ti Tg}. Η διαφορά του Τ2 από το Τ1, Τ2 - Τ1, ορίζεται ως εξής: Τ2 - Τ1 = Τ2 Τ 1 ιαισθητικά: η δοµική πληροφορία του Τ2 που δεν περιέχεται στο Τ1. 59

ιαφορά T2 T1 T3 N P S = N P M I E F J K M J F H G K H 60

Νόµοι T1 T1 = T1 T1 T2 = T2 T1 T1 (T2 T3) = (T1 T2) T3 T1 (T1 T2) = Τ1 Τ1 (Τ2 Τ3) = (Τ1 Τ2) (Τ1 Τ3) Τ1 - (Τ2 Τ3) = (Τ1 - Τ2) (Τ1 - Τ3) (και αντίστοιχα για την ) (Θ) H σχέση µερικής διάταξης < Sg, > είναι boolean πλέγµα (boolean lattice). 61

H παραδοχή του καθολικού δέντρου Κατασκευή καθολικού δέντρου: Συνεπή (consistent) δέντρα: δεν έχουν δοµικές αναντιστοιχίες Συµβατά (compatible) δέντρα µπορούν καθοριστούν µοναδικά οι δοµικές σχέσεις του καθολικού δέντρου έντρα ιεραρχιών, συνεπή και συµβατά, δίνουν ένα καθολικό δέντρο. 62

Συνεπή δέντρα (ανά δύο) Ti, Tj συνεπή δέντρα: Για κάθε xp tr y στο Τi, τότε xp tr y στο Τj Για κάθε xp tr y στο Τj, τότε xp tr y στο Τi Όπου x,y οι κοινοί κόµβοι των Τi και Τj T1 T2 T3 T4 E E F 63

Συνεπή δέντρα (ανά δύο) Ti, Tj συνεπή δέντρα: Για κάθε xp tr y στο Τi, τότε xp tr y στο Τj Για κάθε xp tr y στο Τj, τότε xp tr y στο Τi Όπου x,y οι κοινοί κόµβοι των Τi και Τj T1 T2 T3 T4 E E F συνεπή 64

Συνεπή δέντρα (ανά δύο) Ti, Tj συνεπή δέντρα: Για κάθε xp tr y στο Τi, τότε xp tr y στο Τj Για κάθε xp tr y στο Τj, τότε xp tr y στο Τi Όπου x,y οι κοινοί κόµβοι των Τi και Τj T1 T2 T3 T4 E E F ασυνεπή 65

Συνεπή δέντρα (ανά δύο) Η συνέπεια δέντρων ανά δύο δεν είναι αρκετή για την κατασκευή ενός καθολικού δέντρου: T1 T2 T3 A A A 66

Συνεπή δέντρα (ανά δύο) Η συνέπεια δέντρων ανά δύο δεν είναι αρκετή για την κατασκευή ενός καθολικού δέντρου: T1 T2 T3 A A A Β 67

Συνεπή δέντρα Συνέπεια δέντρων: συνέπεια ανά δύο σταθερότητα (stability) ζευγαριών κόµβων (x,y) µε xp tr y: Έστω Gx τα δέντρα µε x και όχι y, Gy τα δέντρα µε y και όχι x Αν για κάθε ζευγάρι δέντρων (Τx, Τy), Τx στο Gx και Τy στο Gy, υπάρχει κόµβος z µε xp tr z στο Tx και zp tr y στο Ty, τότε (x,y) σταθερό. Η σταθερότητα εγγυάται ότι ποτέ δεν θα δηµιουργηθούν αναντιστοιχίες κατά την κατασκευή του καθολικού δέντρου. 68

Συµβατά δέντρα T1 T2 T3 T4 E E F 69

Συµβατά δέντρα T1 T2 T3 T4 E E F 70

Συµβατά δέντρα T1 T2 T3 T4 E E F Ε?? F 71

Συµβατά δέντρα Ti, Tj συµβατά δέντρα: Για κάθε κοινό κόµβο x των Τi, Τj, ο πατέραςτουy, p(y,x), είναι επίσης κοινός κόµβος T1 T2 T3 T4 E E F F Ε F 72

Θεωρήµατα (Θ1) Έστω ένα σύνολο δέντρων συµβατά ανά δύο. Το καθολικό δέντρο Tg που παράγεται από οποιοδήποτε ζευγάρι δέντρων είναι συµβατό µε τα υπόλοιπα. (Θ2) Έστω ένα σύνολο δέντρων συνεπών. Το καθολικό δέντρο Tg που παράγεται από οποιοδήποτε ζευγάρι δέντρων οδηγεί σε συνεπές σύνολο. 73

Θεωρήµατα (Θ3) Ο ορισµός για τα συνεπή δέντρα καλύπτει όλα τα σύνολα δέντρων για τα οποία η κατασκευή καθολικού δέντρου οδηγεί σε συνεπή δέντρα. (Θ4) Έστω ένα σύνολο δέντρων συνεπών. Το καθολικό δέντρο Tg που παράγεται είναι µοναδικό. 74

Θεωρήµατα (Θ3) Ο ορισµός για τα συνεπή δέντρα καλύπτει όλα τα σύνολα δέντρων για τα οποία η κατασκευή καθολικού δέντρου οδηγεί σε συνεπή δέντρα. (Θ4) Έστω ένα σύνολο δέντρων συνεπών. Το καθολικό δέντρο Tg που παράγεται είναι µοναδικό. Συµπέρασµα: έντρα ιεραρχιών, συνεπή και συµβατά, δίνουν ένα καθολικό δέντρο. 75

Πώς φτιάχνεται το καθολικό δέντρο; Έστω δέντρα ιεραρχίας T1 και Τ2, από σύνολο δέντρων συνεπών και συµβατών. Το καθολικό δέντρο Tg των T1 και Τ2, είναι ένα δέντρο µε: όλους τους κόµβους Ν των T1 και Τ2 όλη την δοµική πληροφορία των T1 και Τ2 ιαισθητικά, το Τ3 κατασκευάζεται από τα Τ1, Τ2: κρατώντας όλες τις κοινές σχέσεις p(x,y), κρατώντας από το Τ1 όλες τις σχέσεις πατέρα p(x,y) που δεν υπάρχουν στο Τ2, ούτε καν µε την µορφή απογόνου a(x,y) (αντίστοιχα και για το Τ2). 76

Πώς φτιάχνεται το καθολικό δέντρο; T1 T G N P I E F G J T2 N P I E J K H F M G M J K H 77

Πώς φτιάχνεται το καθολικό δέντρο; T1 T G N P I E F G J T2 N P I E J K H F M G M J K H 78

(H1) Adorama caps hoods lenses point & shoot cameras & lenses 35mm SL APS cameras digital printers lose Up filters UV PL film Παραδείγµατα slide negative b&w (H2) &H SL cameras 35mm systems lenses photo APS other formats medium general filters bags tripods digital photography cameras printers memory cards scanners film scanners flatbed scanners (H3) itzameras digital cameras 35mm SL point & shoot APS camcorders filters Matching categories (nodes) Adorama : &H : itzcameras cameras & lenses : photo : --- 35mm SL : SL cameras : 35mm SL digital : digital photography : --- cameras : cameras : digital cameras 79

(H2 U s H3) SL cameras 35mm systems lenses photo APS other formats medium general filters bags tripods digital photography cameras Παραδείγµατα printers point & shoot memory cards scanners film scanners camcorders flatbed scanners Exist in &H's catalog but not in itzameras catalog Exist in itzameras but not in &H's catalog Exist in &H's catalog and in itzameras catalog Matching categories (nodes) &H : itzameras cameras : digital cameras SL cameras : 35mm SL H1-(H2 U s H3) caps hoods lose Up UV PL film b&w slide negative 80

H1- H2 H1 - H3 Παραδείγµατα caps hoods point & shoot lose Up UV PL film b&w slide negative caps lenses hoods cameras & lenses digital printers UV lose Up PL film negative b&w slide s (H1- H2) (H1- H3) caps hoods UV PL film b&w slide lose Up negative 81

Συγκρίσεις Ενοποίηση σχηµάτων (schema integration) Ανίχνευση αναντιστοιχιών Κατασκευή ενοποιηµένου σχήµατος (merge) ιαχείριση σύνθετων αντικειµένων (complex obejcts) Τελεστές επιλογής, ανακατασκευής (ancilhon) Γενική διαχείριση µοντέλων (generic model management) (ONO: ernstein): Υψηλού επιπέδου τελεστές διαχείρισης µοντέλων Έλλειψη αλγεβρικών ιδιοτήτων 82

Σύνοψη συνεισφοράς οµικός χειρισµός ιεραρχιών. Μελέτη αλγεβρικών ιδιοτήτων των ιεραρχιών ως δεντρικές δοµές. Ορισµός 3 τελεστών διαχείρισης δοµικής πληροφορίας (ένωση, τοµή, διαφορά) µε ιδιότητες παρόµοιες µε αυτές των αντίστοιχων τελεστών της συνολοθεωρίας. Έλεγχος πλαισίου ορθότητας: η περίπτωση ύπαρξης καθολικού δέντρου η περίπτωση έλλειψης καθολικού δέντρου 83

...στη συνέχεια ΠΡΟΣ ΙΟΡΙΣΜΟΣ ΟΜΟΛΟΓΩΝ ΙΕΡΑΡΧΙΩΝ ΟΜΙΚΗ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ > ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΚΑΙ Ε ΟΜΕΝΩΝ ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΗ ΟΥΛΕΙΑ 84

εδοµένα Τα δεδοµένα οργανώνονται σε πόρους (resource items). Πόρος Σχέση (relation): (a1, a2,, an), όπου a1, a2, ιδιότητες (attributes) Οι πόροι αντιστοιχίζονται στα φύλλα των ιεραρχιών. Ιεραρχία + πόροι = σχήµα καταλόγου (catalog schema). 85

Σχήµα καταλόγου X Hierarchy cameras & lenses digital filters film atalog schema caps hoods lenses point & shoot 35mm SL APS cameras printers UV PL slide negative 1 2 3 SL cameras 5 6 igital printers 8 9 10 11 brand model price brand model ppm esource items anon EOS-3 990 hp 3820 12 Nikon N65 205 hp 7350 17 Pentax ZX-M 148.50 hp 6122 20 ata 86

εντρικές Σχέσεις (TSs) Σχήµατα καταλόγου µε κοινούς πόρους εναλλακτικά µονοπάτια για τους ίδιους πόρους εντρικές Σχέσεις (Tree-stuctured elations) Αφορούν έναν πόρο. Έχουν µορφή AN/O γράφου. Τα µονοπάτια οργανώνονται σε σύνολα από Oσυνιστώσες. O-συνιστώσα: AN-οµάδα από µονοπάτια ή 1 µονοπάτι. Μονοπάτια = πρότυπα (patterns) 87

εντρικές Σχέσεις (TSs) X X camera & lenses cameras photo 35mm systems 35mm SL photo photo photo 35mm SL bodies lenses 35mm systems (a) SL cameras brand model price (b) SL systems brand model price lens_id 88

εντρικές Σχέσεις (TSs) O-1 camera & lenses cameras X photo O-2 35mm systems 35mm SL photo X photo photo 35mm SL bodies lenses 35mm systems (a) SL cameras brand model price (b) SL systems brand model price lens_id 89

εντρικές Σχέσεις (TSs) O-1 camera & lenses cameras X photo O-2 35mm systems O-3 35mm SL photo X photo O-4 photo 35mm SL bodies lenses 35mm systems (a) SL cameras brand model price (b) SL systems brand model price lens_id 90

εντρικές Σχέσεις (TSs) O-1 camera & lenses cameras X photo O-2 35mm systems O-3 35mm SL photo X photo O-4 photo 35mm SL bodies lenses 35mm systems (a) SL cameras brand model price (b) SL systems brand model price lens_id 91

Επιλογή, Προβολή, Γινόµενο Επιλογή: σ <attribute condition> <path condition> (TS) path condition: {=,, } Σχεσιακή επιλογή + επιλογή σε µονοπάτια/o συνιστώσες 92

ΕΠΙΛΟΓΗ: Φωτογρ. µηχανές, όχι Pentax, ακριβότερες των 200ε, έχοντας το /photo/35mm systems στο µονοπάτι τους σ <brand!= Pentax, price>200> < /photo/35mm systems $_> (SL systems) X X photo 35mm SL bodies photo lenses photo 35mm systems photo 35mm systems (a) SL systems (b) SL systems brand model price lens_id brand model price lens_id anon EOS-3 990 1 anon EOS-3 990 1 Nikon N65 205 2 Nikon N65 205 2 Pentax ZX-M 148.5 3........................ 93

Επιλογή, Προβολή, Γινόµενο Επιλογή: σ <attribute condition> <path condition> (TS) path condition: {=,, } Σχεσιακή επιλογή + επιλογή σε µονοπάτια/o συνιστώσες Προβολή: π <attribute list> <variable list> (TS) variable list: {$i (µεταβλητή µονοπατιού), #i (O µεταβλητή)} Σχεσιακή προβολή + προβολή σε µονοπάτια/o συνιστώσες 94

ΠΡΟΒΟΛΗ: Φωτογρ. µηχανές, µε µόνο το µοντέλο και τον αντίστοιχο φακό τους, κρατώντας το δεξιότερο µονοπάτι π <model, lens_id> <#2> (SL systems) X X photo 35mm SL photo photo photo bodies lenses 35mm systems 35mm systems (a) SL systems (b) SL systems brand model price lens_id model lens_id anon EOS-3 990 1 EOS-3 1 Nikon N65 205 2 N65 2 Pentax ZX-M 148.5 2 ZX-M 2..................... 95

Επιλογή, Προβολή, Γινόµενο Επιλογή: σ <attribute condition> <path condition> (TS) path condition: {=,, } Σχεσιακή επιλογή + επιλογή σε µονοπάτια/o συνιστώσες Προβολή: π <attribute list> <variable list> (TS) variable list: {$i (µεταβλητή µονοπατιού), #i (O µεταβλητή)} Σχεσιακή προβολή + προβολή σε µονοπάτια/o συνιστώσες Γινόµενο: (ΤS1) Χ (TS2) Σχεσιακό γινόµενο + συνδυασµός µονοπατιών 96

ΓΙΝΟΜΕΝΟ: (SL systems) X (Lenses) 35mm SL bodies photo X photo lenses photo 35mm systems X X = camera & lenses lenses 35mm SL bodies photo photo lenses camera & lenses lenses X photo 35mm systems camera & lenses lenses (a) SL systems (b) Lenses cbrand cmodel cprice anon EOS-3 990 Nikon N65 205 Pentax ZX-M 148.5......... clensid 1 1 2... lbrand Sigma Tamron... lensid 1 2... lprice 200 100... (c) SL systems cbrand cmodel cprice clensid anon EOS-3 990 1 anon EOS-3 990 1 Nikon N65 205 1 Nikon N65 205 1 Pentax ZX-M 148.5 2 lbrand Sigma Tamron Sigma Tamron Sigma lensid lprice 1 200 2 100 1 200 2 100 1 200 Pentax ZX-M 148.5 2 Tamron 2 100..................... 97

Ένωση, Τοµή, ιαφορά Ένωση: (TS) (TS) Σχεσιακή ένωση + ένωση O συνιστωσών Τοµή: (TS) (TS) Σχεσιακή τοµή + ένωση O συνιστωσών ιαφορά: (ΤS) - (TS) Σχεσιακή διαφορά + O συνιστώσες της πρώτης TS 98

ΕΝΩΣΗ: (SL systems) (SL systems) X X X 35mm SL photo photo U = photo 35mm SL photo photo photo bodies lenses 35mm systems bodies lenses 35mm systems (a) SL systems (b) SL systems (c) SL systems cbrand cmodel cprice anon EOS-3 990 Nikon N65 205 Pentax ZX-M 148.5 clensid 1 1 2 cbrand cmodel cprice clensid cbrand cmodel cprice clensid anon EOS-3 990 1 anon EOS-3 990 1 Nikon FM2 800 1 Nikon N65 205 1 Pentax ZX-M 148.5 2 Pentax ZX-M 148.5 2........................ Nikon FM2 800 1............ 99

ind, Path Τελεστές ανακατασκευής. ind: (TS) Επιστρέφει ρίζα, πόρους και δεδοµένα. Path: P<path>((TS)) Επιστρέφει πόρους και δεδοµένα κάτω από νέο µονοπάτι. 100

ind photo X (SL systems) photo photo 35mm SL lenses 35mm systems X bodies (a) SL systems (b) SL systems brand model price lens_id brand model price lens_id anon EOS-3 990 1 anon EOS-3 990 1 Nikon N65 205 2 Nikon N65 205 2 Pentax ZX-M 148.5 3........................ 101

Path X P < /photo/package/35mm > (SL systems) photo package X 35mm (a) (b) SL systems SL systems brand model price lens_id brand model price lens_id anon EOS-3 990 1 anon EOS-3 990 1 Nikon N65 205 2 Nikon N65 205 2........................ 102

Συγκρίσεις Γλώσσες ερωτήσεων Ιστού (WebSQL, WebOQL). Άλγεβρες ηµιδοµηµένων δεδοµένων. ΥΑΤ ιαφορές: Τα µονοπάτια ως πρότυπα (PANA project). Inductive database framework Εναλλακτικά µονοπάτια. Σύνθετα µονοπάτια. 103

Σύνοψη συνεισφοράς ιαχείριση ιεραρχιών και δεδοµένων. Ορισµός τελεστών που συνδυάζουν διαχείριση µονοπατιών στις ιεραρχίες ως πρότυπα, και κλασσικές σχεσιακές ερωτήσεις στα δεδοµένα. Τελεστές επιλογές: Επιλογή, Προβολή, Γινόµενο Ένωση, Τοµή, ιαφορά Τελεστές ανακατασκευής: ind, Path Υλοποίηση πρότυπου συστήµατος. 104

...στη συνέχεια ΠΡΟΣ ΙΟΡΙΣΜΟΣ ΟΜΟΛΟΓΩΝ ΙΕΡΑΡΧΙΩΝ ΟΜΙΚΗ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΚΑΙ Ε ΟΜΕΝΩΝ > ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΗ ΟΥΛΕΙΑ 105

Συµπεράσµατα ιατύπωση πλαισίου διαχείρισης ιεραρχιών τριών κατευθύνσεων ως οντότητες πρώτης τάξης: Προσδιορισµός οµόλογων ιεραρχιών. οµικός χειρισµός ιεραρχιών. ιαχείριση ιεραρχιών και δεδοµένων. 106

Συµπεράσµατα Προσδιορισµός οµόλογων ιεραρχιών. Μετρική δοµικής απόστασης. Αποδοτικές τεχνικές συσταδοποίησης ιεραρχιών µέσω δοµικών περιλήψεων ιεραρχιών. οµικός χειρισµός ιεραρχιών. Τελεστές χειρισµού δοµής ιεραρχιών µε σηµασιολογία συνολοθεωρίας. ιαχείριση ιεραρχιών και δεδοµένων. Τελεστές διαχείρισης µονοπατιών και δεδοµένων 107

Μελλοντική ουλειά Προσδιορισµός οµόλογων ιεραρχιών: Μελέτη ιδιοτήτων αποστάσεων. ιανυσµατική αναπαράσταση ιεραρχιών. οµικός χειρισµός ιεραρχιών. Χαλάρωση συνθηκών κατασκευής καθολικού δέντρου. Παραλλαγές συµβατότητας δέντρων 108

Μελλοντική ουλειά Μοντέλο γράφου: Μεταφορά του πλαισίου διαχείρισης ιεραρχιών σε γράφους. Μελέτη αλγεβρικών ιδιοτήτων. Ορισµός τελεστών. Σύνθετα ταιριάσµατα: Χρήση ταιριασµάτων 1:Ν αντί για 1:1. Εφαρµογές πλαισίου διαχείρισης ιεραρχιών. 109

ηµοσιεύσεις/αναφορές T. alamagas, T. heng, K. J. Winkel, T. Sellis, lustering XML documents using structural summaries, ET Workshop on lustering Information over the Web (lustwebά04), Heraklion, Greece, 2004 (to appear). P. ouros, T. alamagas, T. Sellis, M. Terrovitis, PatManQL: A language to manipulate patterns and data in hierarchical catalogs, ET Workshop on Pattern epresentation and Management (PaMa 04), Heraklion, Greece, 2004 (to appear). T. alamagas, T. heng, K. J. Winkel, T. Sellis, lustering XML documents by structure, in Proceedings of the 3rd Hellenic onference on Artificial Intelligence, May 5-8, Samos, Greece, 2004 (to appear).. Theodoratos, T. alamagas, Querying and Integrating Ontologies Viewed as onceptual Schemas, in Proceedings of 22nd International onference on onceptual Modeling (E'03), Oct 13-16, hicago, Illinois, USA, 2003. 110

ηµοσιεύσεις/αναφορές (Υπό κρίση) T. alamagas, A. Meliou, T. Sellis, Modeling and Manipulating the structure of hierarchical schemas for the Web, submitted to the Journal of Information etrieval, Feb 2004, T. alamagas, T. heng, K. J. Winkel, T. Sellis, lustering XML documents by structure, submitted to the Information Systems Journal, Oct 2003. 111

112

Νέος αλγόριθµος υπολογισµού δοµικής απόστασης int alculateistance(treenode s, TreeNode t) { int[][] = new int[numofhildren(s)+1][numofhildren(t)+1]; [0][0] = Updateost(LabelOf(s), LabelOf(t)); for (int i = 1; i <= numofhildren(s); i++) [i][0] = [i-1][0] + numofnodes(s_i); αρχικοποιήσεις for (int j = 1; j <= numofhildren(t); j++) [0][j] = [0][j-1] + numofnodes(t_j); for (int i = 1; i <= numofhildren(s); i++) for (int j = 1; j <= numofhildren(t); j++) [i][j] = Min([i][j-1] + numofnodes(t_j), [i-1][j] + numofnodes(s_i), [i-1][j-1] + alculateistance(s_i,t_j)); eturn [numofhildren(s)][numofhildren(t)]; } 113

Αξιολόγηση απόδοσης hawathe: µε/χωρίς δοµ. περιλήψεις 114

Αξιολόγηση απόδοσης hawathe: υπολογισµός συντακτικού γράφου 115

Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 116

Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 117

Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 118

Τοµή Έστω δέντρα ιεραρχίας T1 και Τ2 από το σύνολο Sg={Ti, Ti Tg}. Η τοµή Τ3 των T1 και Τ2, T1 Τ2, είναι ένα δέντρο µε: τους κοινούς κόµβους Ν των T1 και Τ2 την κοινή δοµική πληροφορία των T1 και Τ2 ιαισθητικά, το Τ3 κατασκευάζεται από το Τg, διαγράφοντας όλους τους κόµβους εκτός από αυτούς του Ν, και µετακινώντας τα παιδιά σε υψηλότερα επίπεδα. 119