Εθνικό Μετσόβιο Πολυτεχνείο ιαχείριση Ιεραρχικών Σχηµάτων στο Σηµασιολογικό Ιστό Υποστήριξη ιδακτορικής ιατριβής Θοδωρής αλαµάγκας
Σηµασιολογικός Ιστός Από το Ιστό στον Σηµασιολογικό Ιστό: Έλλειψη ενιαίου και αυστηρού τρόπου οργάνωσης των δεδοµένων στον Ιστό. υσκολίες στην ανταλλαγή και επεξεργασία των δεδοµένων σε πολλές πηγές. Επέκταση του Ιστού στον Σηµασιολογικό Ιστό: οµή, οργάνωση και σηµασιολογία στο περιεχόµενο. Η πληροφορία αποκτά σηµασία. Η πληροφορία γίνεται κατανοητή σε επίπεδο µηχανής. Εργαλεία: τεχνολογίες XML* (W3) 2
Τεχνολογίες XML* (W3) Η πληροφορία αποκτά σηµασία: Τα δεδοµένα/µεταδεδοµένα του Ιστού σηµαδεύονται µε ετικέττες. Βασική µορφή κωδικοποίησης είναι η γλώσσα XML. Πλαίσιο XML/F, Γλώσσα Οντολογιών XML/OWL. Σηµασιολογικός Εµπλουτισµός Χαµηλός Μέτριος Υψηλός XML F OWL 3
Τεχνολογίες XML* (W3) Η πληροφορία αποκτά σηµασία: Τα δεδοµένα/µεταδεδοµένα του Ιστού σηµαδεύονται µε ετικέττες. Βασική µορφή κωδικοποίησης είναι η γλώσσα XML. Πλαίσιο XML/F, Γλώσσα Οντολογιών XML/OWL. Σηµασιολογικός Εµπλουτισµός Χαµηλός Μέτριος Υψηλός XML F OWL 4
Τεχνολογίες XML* (W3) Τα δεδοµένα του Ιστού σηµαδεύονται µε ετικέττες: <photo> <camera code= 1435998 > <model> anon 30 </model> <color> silver </color> <price> 1000 </price> <focus> auto </focus> code </camera> <lens>. "1435998" </lens> </photo Ιεραρχική αναπαράσταση "anon 30" model color "silver" camera price photo 1000 focus "auto" lens... 5
Τεχνολογίες XML* (W3) Τα µεταδεδοµένα για τους πόρους του Ιστού σηµαδεύονται µε ετικέττες: <photo><review><camera> <rdf:description rdf:about="www.cameras.com/canon30.html > <model> anon 30 </model> <color> silver </color> <price> 1000 </price> <focus> auto </focus> <seller> <rdf:description rdf:about= www.canon.com > <name> ANON Ltd. </name> </rdf:description> <seller> </rdf:description> </camera><lens> </lens></review></photo> 6
Τεχνολογίες XML* (W3) photo Ιεραρχική αναπαράσταση: review camera rdf:description lens... rdf:about model price focus seller "anon 30" www.cameras.com/canon30.html color "silver" "auto" rdf:description 1000 rdf:about name "www.canon.com" 'ANON Ltd." 7
Ο ρόλος των ιεραρχιών Στις τεχνολογίες XML* (W3) σηµαντικός είναι ο ρόλος των ιεραρχικών σχηµάτων (ιεραρχίες). XML: δέντρο (γράφος αν υπάρχουν αναφορές) F(s): γράφος Μελετούµε ιεραρχίες δεντρική µορφής Κωδικοποιήσεις XML (XML, F, ) 8
Το πρόβληµα Οι ιεραρχίες αντιµετωπίζονται ως σύνολα από µεµονωµένα στοιχεία (κόµβους). Ιεραρχίες = απλοί σηµασιολογικοί οδηγοί ιάσχισης (browsing) ιατύπωσης ερωτήσεων έκφρασης µονοπατιού (path expressions): /cameras/manual/item[price<1000] 9
Το πρόβληµα Ιστός: πολλές ιεραρχίες που οργανώνουν δεδοµένα για το ίδιο πεδίο γνώσης (knowledge domain). Χρήσιµες ερωτήσεις: βρείτε τις ιεραρχίες που οργανώνουν υλικό φωτογραφικού εξοπλισµού µε τρόπο παρόµοιο µε αυτόν µιας ιεραρχίας-πρότυπο (δοµική/σηµασιολογική οµοιότητα). 10
Το πρόβληµα οµική/σηµασιολογική οµοιότητα (H1) Adorama (H2) &H cameras & lenses digital cameras & lenses digital lenses 35mm SL cameras printers lenses 35mm SL cameras memory cards point & shoot 11
Το πρόβληµα οµική/σηµασιολογική οµοιότητα (H1) Adorama (H2) &H cameras & lenses digital cameras & lenses digital lenses 35mm SL cameras printers lenses 35mm SL cameras memory cards point & shoot 12
Το πρόβληµα Ιστός: πολλές ιεραρχίες που οργανώνουν δεδοµένα για το ίδιο πεδίο γνώσης (knowledge domain). Χρήσιµες ερωτήσεις: βρείτε το κοµµάτι µιας ιεραρχίας που δεν υπάρχει σε µια άλλη (διαχείριση δοµικής πληροφορίας). 13
Το πρόβληµα ιαχείριση δοµικής πληροφορίας (H1) Adorama (H2) &H cameras & lenses digital cameras & lenses digital lenses 35mm SL cameras printers lenses 35mm SL cameras memory cards point & shoot Το κοµµάτι του Η1 που δεν υπάρχει στο Η2 point & shoot printers 14
Σκοπός της ιατριβής Ανάδειξη των ιεραρχιών σε οντότητες πρώτης τάξης. ιατύπωση πλαισίου διαχείρισης ιεραρχιών τριών κατευθύνσεων: Προσδιορισµός οµόλογων ιεραρχιών. οµικός χειρισµός ιεραρχιών. ιαχείριση ιεραρχιών και δεδοµένων. 15
Συνεισφορά της ιατριβής Μεθοδολογία προσδιορισµού οµόλογων ιεραρχιών. Ορισµός µετρικής δοµικής οµοιότητας µεταξύ ιεραρχιών και σχεδιασµός αλγορίθµων υπολογισµού της. Εφαρµογή τεχνικών συσταδοποίησης (clustering) για τον προσδιορισµό οµάδων από ιεραρχίες µε παρόµοια οργάνωση. Υλοποίηση πρότυπου συστήµατος για την αξιολόγηση της µεθοδολογίας. 16
Συνεισφορά της ιατριβής οµικός χειρισµός ιεραρχιών. Μελέτη αλγεβρικών ιδιοτήτων των ιεραρχιών ως δεντρικές δοµές. Ορισµός 3 τελεστών διαχείρισης δοµικής πληροφορίας (ένωση, τοµή, διαφορά) µε ιδιότητες παρόµοιες µε αυτές των αντίστοιχων τελεστών της συνολοθεωρίας. ιαχείριση ιεραρχιών και δεδοµένων. Ορισµός τελεστών που συνδυάζουν διαχείριση µονοπατιών στις ιεραρχίες, και κλασσικές σχεσιακές ερωτήσεις στα δεδοµένα. 17
...στη συνέχεια > ΠΡΟΣ ΙΟΡΙΣΜΟΣ ΟΜΟΛΟΓΩΝ ΙΕΡΑΡΧΙΩΝ ΟΜΙΚΗ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΚΑΙ Ε ΟΜΕΝΩΝ ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΗ ΟΥΛΕΙΑ 18
Συντακτικά προβλήµατα δέντρων Σειρά συντακτικών πράξεων δέντρων (tree edit script): µια σειρά πράξεων που µετασχηµατίζουν ένα δέντρο Τ1 σε ένα δέντρο Τ2. Συντακτική απόσταση δέντρων (T1,T2) (tree edit distance): το ελάχιστο από τα κόστη σειρών συντακτικών πράξεων που µετασχηµατίζουν ένα δέντρο Τ1 σε ένα δέντρο Τ2. 19
Συντακτικά προβλήµατα δέντρων Μετασχηµατισµός του Τ1 σε Τ2: T1 A insert K A K T2 A replace,k insert P A K O A delete delete insert A K insert O P A A P 20
Συντακτικά προβλήµατα δέντρων Μετασχηµατισµός του Τ1 σε Τ2: (T1,T2)=5 T1 Ins(,,2) ep(,o) T2 A A K A K A K O P P ep(,k) ep(,) Ins(P,,1) P A K A K 21
Συντακτικά προβλήµατα δέντρων οµική απόσταση δέντρων (structural distance): S(T1,T2)=(T1,T2)/max(T1,T2) (T1,T2): συντακτική απόσταση Τ1, Τ2, max(t1,t2): το µέγιστο από τα κόστη σειρών συντακτικών πράξεων που µετασχηµατίζουν το Τ1 στο Τ2 (διαγραφή όλων των κόµβων του Τ1 και εισαγωγή όλων των κόµβων του Τ2). 22
Συντακτικά προβλήµατα δέντρων οµική απόσταση δέντρων (structural distance): S(T1,T2)=(T1,T2)/max(T1,T2)=5/12=41% T1 Ins(,,2) ep(,o) T2 A A K A K A K O P P ep(,k) ep(,) Ins(P,,1) P A K A K 23
Αλγόριθµοι συντακτικών αποστάσεων δέντρων Αλγόριθµοι Πράξεις Πράξεις στα φύλλα Selkow77 Zhang89 hawathe96 (I) hawathe99 (II) εισαγωγή κόµβου, διαγραφή κόµβου, αντικατάσταση κόµβου εισαγωγή κόµβου, διαγραφή κόµβου, αντικατάσταση κόµβου εισαγωγή κόµβου, διαγραφή κόµβου, αντικατάσταση κόµβου, µετακίνηση υποδέντρου εισαγωγή κόµβου, διαγραφή κόµβου, αντικατάσταση κόµβου εισαγωγή κόµβου, διαγραφή κόµβου εισαγωγή κόµβου, διαγραφή κόµβου εισαγωγή κόµβου, διαγραφή κόµβου 24
Βελτίωση υπολογισµού δοµικής απόστασης οµικές περιλήψεις δέντρων (structural summaries). Μείωση επαναλαµβανόµενων και φωλιασµένων κόµβων. Νέος αλγόριθµος υπολογισµού δοµικής απόστασης Βελτιωµένη απόδοση σε σχέση µε τον αλγόριθµο hawathe99 (II). 25
οµικές περιλήψεις Επαναλαµβανόµενα φωλιασµένοι κόµβοι (Τ1) Επαναλαµβανόµενοι κόµβοι (Τ2) T1 T2 26
Μείωση επαν. φωλιασµένων (ΕΦ) (ΕΦ) Βασικός έλεγχος για τον τρέχοντα κόµβο Ν: Αν υπάρχει απόγονος µε την ίδια ετικέττα, τότε όλα τα υποδέντρα του Ν µετακινούνται στον απόγονο αυτό. T1 T2 T3 A A A A A A P A A P P A A P P 27
Μείωση επαναλαµβανόµενων κόµβων (Ε) T1 (Ε) Βασικός έλεγχος για τον τρέχοντα κόµβο Ν: Αν έχει ξανασυναντηθεί σε ίδιο µονοπάτι (έστω path/n), τότε τα υποδέντρα του Ν µετακινούνται στο path/n, και ο κόµβος διαγράφεται. T2 οµική περίληψη του Τ1 A A A A A A P A A P P A A P P 28
Νέος αλγόριθµος υπολογισµού δοµικής απόστασης Πράξεις: εισαγωγή (ci=1), διαγραφή (cd=1), αντικατάσταση (cr=1,0) κόµβου. Αναδροµή alculateistance(): καλείται µια φορά για κάθε ζευγάρι κόµβων s και t στο ίδιο βάθος σε δύο δέντρα. Η µεταβλητή [i][j] διατηρεί την συντακτική απόσταση µεταξύ του δέντρου µε ρίζα s, µε τα πρώτα i υποδέντρα του, και του δέντρου µε ρίζα t, µε τα πρώτα j υποδέντρα του. 29
Νέος αλγόριθµος υπολογισµού δοµικής απόστασης T1 T2 A A K P [2][3] = 30
Νέος αλγόριθµος υπολογισµού δοµικής απόστασης T1 A T2 A K T1 T2 K A A P P [2][3] = min ( [2][3-1] + 3, 31
Νέος αλγόριθµος υπολογισµού δοµικής απόστασης T1 A T2 A K T1 T2 K A A P P [2][3] = min ( [2][3-1] + 3, [2-1][3] + 2, T1 T2 A A K P 32
Νέος αλγόριθµος υπολογισµού δοµικής απόστασης T1 A T2 A K T1 T2 K t1 t2 K A A P P P [2][3]=min([2][3-1]+3, [2-1][3]+3, [2-1][3-1]+alc(t1,t2) ) A T1 T2 A K T1 A T2 A P 33
Νέος αλγόριθµος υπολογισµού δοµικής απόστασης Βελτιωµένη απόδοση σε σχέση µε τον αλγόριθµο hawathe99 (II). Αποφυγή υπολογισµού συντακτικών γράφων (edit graphs). Συντακτικοί γράφοι: πλέγµα από κόµβους. ιαγραφή = οριζόντια γραµµή Εισαγωγή = κάθετη γραµµή Αντικατάσταση = διαγώνια γραµµή Σειρές συντακτ. πράξεων = µονοπάτια στον γράφο. 34
Αξιολόγηση Εισαγωγή της δοµική απόστασης σε τεχνικές συσταδοποίησης (clustering). Ανακάλυψη συστάδων δέντρων που αναπαριστούν ιεραρχίες µε παρόµοια δοµή Χρήση αλγορίθµων hawathe και νέου. Αξιολόγηση απόδοσης. Αξιολόγηση ποιότητας. 35
Αξιολόγηση απόδοσης Νέος αλγόριθµος: µε/χωρίς δοµ. περιλήψεις 36
Αξιολόγηση απόδοσης Νέος αλγόριθµος vs hawathe 37
Αξιολόγηση απόδοσης Νέος αλγόριθµος: συνολική απόδοση 38
Αξιολόγηση ποιότητας Προβλήµατα αξιολόγησης ποιότητας συσταδοποίησης: Άγνωστα τα σωστά µέλη των συστάδων. Παραγωγή δειγµάτων δέντρων ως XML αρχεία, µε δοθέντα T ως οδηγούς (10 T, σύνολα 1000 δέντρων). Αλγόριθµοι συσταδοποίησης: single link (+LUTO) Μετρικές αξιολόγησης: Ακρίβεια (precicion) P: το ποσοστό των σωστών µελών που έχουν οι συστάδες σε σχέση µε αυτά που θα έπρεπε να έχουν. Ευστοχία (recall) : το ποσοστό των σωστών µελών που έχουν οι συστάδες. 39
Αξιολόγηση ποιότητας hawathe (maxrepeat=3) hawathe (maxrepeat=6) Χωρίς οµ. Περιλήψεις Με οµ. Περιλήψεις Χωρίς οµ. Περιλήψεις Με οµ. Περιλήψεις P=0.71, =0.9 P=0.71, =0.9 P=0.58, =0.89 P=0.83, =0.96 Νέος Αλγόρ. (maxrepeat=3) Νέος Αλγορ. (maxrepeat=6) Χωρίς οµ. Περιλήψεις Με οµ. Περιλήψεις Χωρίς οµ. Περιλήψεις Με οµ. Περιλήψεις P=1, =0.98 P=1, =0.98 P=1, =0.97 P=1, =0.98 40
Συµπεράσµατα αξιολόγησης Ηχρήση δοµικών περιλήψεων διατηρεί την ποιότητα της συσταδοποίησης. ηχρήση τους βελτιώνει την απόδοση της συσταδοποίησης. Ο νέος αλγόριθµος υπολογισµού δοµικής απόστασης βελτιώνει περαιτέρω την απόδοση. Επιβεβαίωση αποτελεσµάτων και µε άλλους αλγόριθµους συσταδοποίησης/ταξινόµησης. 41
Συγκρίσεις Υπάρχουσες εργασίες: Συσταδοποίηση XML κειµένων (Nierman). Συσταδοποίηση T σχηµάτων (Xlust) οµικές αποστάσεις για εκτιµήσεις elta (Xdiff, Laiff, Xyiff). ιαφορές: Χρήση δοµικών περιλήψεων (γενική η χρήση τους). ιατήρηση των καλών ιδιοτήτων στις αποστάσεις (minimality). 42
Σύνοψη συνεισφοράς Μεθοδολογία προσδιορισµού οµόλογων ιεραρχιών. Ορισµός µετρικής δοµικής οµοιότητας µεταξύ ιεραρχιών και σχεδιασµός αλγορίθµων υπολογισµού της. Εφαρµογή τεχνικών συσταδοποίησης (clustering) για τον προσδιορισµό οµάδων από ιεραρχίες µε παρόµοια οργάνωση. Υλοποίηση πρότυπου συστήµατος για την αξιολόγηση της µεθοδολογίας. 43
...στη συνέχεια ΠΡΟΣ ΙΟΡΙΣΜΟΣ ΟΜΟΛΟΓΩΝ ΙΕΡΑΡΧΙΩΝ > ΟΜΙΚΗ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΚΑΙ Ε ΟΜΕΝΩΝ ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΗ ΟΥΛΕΙΑ 44
Αλγεβρικές ιδιότητες ιεραρχιών έντρο ιεραρχίας µε κόµβους Ν και ρίζα r: < {r} N, P >: xpy ισχύει αν πατέρας(x,y) (ή p(x,y)) Σχέση υποσύνολο: T1 T2 Για κάθε xpy στο Τ1, τότε xp tr y στο Τ2 Για κάθε xp tr y στο Τ2 (µε x,y στο Τ1), τότε xp tr y στο Τ1 ιαισθητικά: Το Τ1 κατασκευάζεται από το Τ2, διαγράφοντας κόµβους και µετακινώντας τα παιδιά σε υψηλότερα επίπεδα. 45
Αλγεβρικές ιδιότητες ιεραρχιών Έστω δέντρο ιεραρχίας Tg (καθολικό δέντρο) και Sg={Ti, Ti Tg} (Θ) Η σχέση < Sg, > είναι σχέση µερικής διάταξης: Ανακλαστική: Ti Ti Αντισυµµετρική: Ti Tj και Tj Ti δίνει Ti=Tj Μεταβατική: Ti Tj και Tj Tk δίνει Ti Tk Ορίζουµε 2 τελεστές για δέντρα Ti: ένωση, τοµή 46
Ένωση Έστω δέντρα ιεραρχίας T1 και Τ2 από το σύνολο Sg={Ti, Ti Tg}. Η ένωση Τ3 των T1 και Τ2, T1 Τ2, είναι ένα δέντρο µε: όλους τους κόµβους Ν των T1 και Τ2 όλη την δοµική πληροφορία των T1 και Τ2 ιαισθητικά, το Τ3 κατασκευάζεται από το Τg, διαγράφοντας όλους τους κόµβους εκτός από αυτούς του Ν, και µετακινώντας τα παιδιά σε υψηλότερα επίπεδα. 47
Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 48
Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 49
Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 50
Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 51
Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 52
Ένωση T1 T G N P I E F G J T2 N P I E J K H F M G M J K H 53
Τοµή Έστω δέντρα ιεραρχίας T1 και Τ2 από το σύνολο Sg={Ti, Ti Tg}. Η τοµή Τ3 των T1 και Τ2, T1 Τ2, είναι ένα δέντρο µε: τους κοινούς κόµβους Ν των T1 και Τ2 την κοινή δοµική πληροφορία των T1 και Τ2 ιαισθητικά, το Τ3 κατασκευάζεται από το Τg, διαγράφοντας όλους τους κόµβους εκτός από αυτούς του Ν, και µετακινώντας τα παιδιά σε υψηλότερα επίπεδα. 54
Τοµή T1 T2 T3 S N P = I E F J M F J H G J F H K H 55
οµή Πλέγµατος Έστω δέντρο ιεραρχίας Tg και Sg={Ti, Ti Tg} και η σχέση µερικής διάταξης < Sg, >. (Θ) Η πράξη ένωση, Tj Τk, δίνει το ελάχιστο άνω όριο των Tj και Τk: Tj Tj Τk και Tk Tj Τk (Θ) Η πράξη τοµή, Tj Τk, δίνει το µέγιστο κάτω όριο των Tj και Τk: Tj Τk Tj και Tj Τk Tk (Θ) H σχέση µερικής διάταξης < Sg, > είναι πλέγµα (lattice) (και µάλιστα distributive). 56
Νόµοι T1 T1 = T1 T1 T2 = T2 T1 T1 (T2 T3) = (T1 T2) T3 T1 (T1 T2) = Τ1 Τ1 (Τ2 Τ3) = (Τ1 Τ2) (Τ1 Τ3) (και αντίστοιχα για την ) 57
Συµπλήρωµα Έστω δέντρο ιεραρχίας T1 από το σύνολο Sg={Ti, Ti Tg}. Το συµπλήρωµα Τ 1 του T1 είναι ένα δέντρο µε: όλους τους κόµβους του Tg που δεν υπάρχουν στο Τ1 (η ρίζα συµπεριλαµβάνεται) την δοµική πληροφορία του Tg που δεν υπάρχει στο Τ1 ιαισθητικά, το Τ 1 κατασκευάζεται από το Τg, διαγράφοντας όλους τους κόµβους που ανήκουν στο Τ1, και µετακινώντας τα παιδιά σε υψηλότερα επίπεδα. 58
ιαφορά Έστω δέντρα ιεραρχίας T1 και Τ2 από το σύνολο Sg={Ti, Ti Tg}. Η διαφορά του Τ2 από το Τ1, Τ2 - Τ1, ορίζεται ως εξής: Τ2 - Τ1 = Τ2 Τ 1 ιαισθητικά: η δοµική πληροφορία του Τ2 που δεν περιέχεται στο Τ1. 59
ιαφορά T2 T1 T3 N P S = N P M I E F J K M J F H G K H 60
Νόµοι T1 T1 = T1 T1 T2 = T2 T1 T1 (T2 T3) = (T1 T2) T3 T1 (T1 T2) = Τ1 Τ1 (Τ2 Τ3) = (Τ1 Τ2) (Τ1 Τ3) Τ1 - (Τ2 Τ3) = (Τ1 - Τ2) (Τ1 - Τ3) (και αντίστοιχα για την ) (Θ) H σχέση µερικής διάταξης < Sg, > είναι boolean πλέγµα (boolean lattice). 61
H παραδοχή του καθολικού δέντρου Κατασκευή καθολικού δέντρου: Συνεπή (consistent) δέντρα: δεν έχουν δοµικές αναντιστοιχίες Συµβατά (compatible) δέντρα µπορούν καθοριστούν µοναδικά οι δοµικές σχέσεις του καθολικού δέντρου έντρα ιεραρχιών, συνεπή και συµβατά, δίνουν ένα καθολικό δέντρο. 62
Συνεπή δέντρα (ανά δύο) Ti, Tj συνεπή δέντρα: Για κάθε xp tr y στο Τi, τότε xp tr y στο Τj Για κάθε xp tr y στο Τj, τότε xp tr y στο Τi Όπου x,y οι κοινοί κόµβοι των Τi και Τj T1 T2 T3 T4 E E F 63
Συνεπή δέντρα (ανά δύο) Ti, Tj συνεπή δέντρα: Για κάθε xp tr y στο Τi, τότε xp tr y στο Τj Για κάθε xp tr y στο Τj, τότε xp tr y στο Τi Όπου x,y οι κοινοί κόµβοι των Τi και Τj T1 T2 T3 T4 E E F συνεπή 64
Συνεπή δέντρα (ανά δύο) Ti, Tj συνεπή δέντρα: Για κάθε xp tr y στο Τi, τότε xp tr y στο Τj Για κάθε xp tr y στο Τj, τότε xp tr y στο Τi Όπου x,y οι κοινοί κόµβοι των Τi και Τj T1 T2 T3 T4 E E F ασυνεπή 65
Συνεπή δέντρα (ανά δύο) Η συνέπεια δέντρων ανά δύο δεν είναι αρκετή για την κατασκευή ενός καθολικού δέντρου: T1 T2 T3 A A A 66
Συνεπή δέντρα (ανά δύο) Η συνέπεια δέντρων ανά δύο δεν είναι αρκετή για την κατασκευή ενός καθολικού δέντρου: T1 T2 T3 A A A Β 67
Συνεπή δέντρα Συνέπεια δέντρων: συνέπεια ανά δύο σταθερότητα (stability) ζευγαριών κόµβων (x,y) µε xp tr y: Έστω Gx τα δέντρα µε x και όχι y, Gy τα δέντρα µε y και όχι x Αν για κάθε ζευγάρι δέντρων (Τx, Τy), Τx στο Gx και Τy στο Gy, υπάρχει κόµβος z µε xp tr z στο Tx και zp tr y στο Ty, τότε (x,y) σταθερό. Η σταθερότητα εγγυάται ότι ποτέ δεν θα δηµιουργηθούν αναντιστοιχίες κατά την κατασκευή του καθολικού δέντρου. 68
Συµβατά δέντρα T1 T2 T3 T4 E E F 69
Συµβατά δέντρα T1 T2 T3 T4 E E F 70
Συµβατά δέντρα T1 T2 T3 T4 E E F Ε?? F 71
Συµβατά δέντρα Ti, Tj συµβατά δέντρα: Για κάθε κοινό κόµβο x των Τi, Τj, ο πατέραςτουy, p(y,x), είναι επίσης κοινός κόµβος T1 T2 T3 T4 E E F F Ε F 72
Θεωρήµατα (Θ1) Έστω ένα σύνολο δέντρων συµβατά ανά δύο. Το καθολικό δέντρο Tg που παράγεται από οποιοδήποτε ζευγάρι δέντρων είναι συµβατό µε τα υπόλοιπα. (Θ2) Έστω ένα σύνολο δέντρων συνεπών. Το καθολικό δέντρο Tg που παράγεται από οποιοδήποτε ζευγάρι δέντρων οδηγεί σε συνεπές σύνολο. 73
Θεωρήµατα (Θ3) Ο ορισµός για τα συνεπή δέντρα καλύπτει όλα τα σύνολα δέντρων για τα οποία η κατασκευή καθολικού δέντρου οδηγεί σε συνεπή δέντρα. (Θ4) Έστω ένα σύνολο δέντρων συνεπών. Το καθολικό δέντρο Tg που παράγεται είναι µοναδικό. 74
Θεωρήµατα (Θ3) Ο ορισµός για τα συνεπή δέντρα καλύπτει όλα τα σύνολα δέντρων για τα οποία η κατασκευή καθολικού δέντρου οδηγεί σε συνεπή δέντρα. (Θ4) Έστω ένα σύνολο δέντρων συνεπών. Το καθολικό δέντρο Tg που παράγεται είναι µοναδικό. Συµπέρασµα: έντρα ιεραρχιών, συνεπή και συµβατά, δίνουν ένα καθολικό δέντρο. 75
Πώς φτιάχνεται το καθολικό δέντρο; Έστω δέντρα ιεραρχίας T1 και Τ2, από σύνολο δέντρων συνεπών και συµβατών. Το καθολικό δέντρο Tg των T1 και Τ2, είναι ένα δέντρο µε: όλους τους κόµβους Ν των T1 και Τ2 όλη την δοµική πληροφορία των T1 και Τ2 ιαισθητικά, το Τ3 κατασκευάζεται από τα Τ1, Τ2: κρατώντας όλες τις κοινές σχέσεις p(x,y), κρατώντας από το Τ1 όλες τις σχέσεις πατέρα p(x,y) που δεν υπάρχουν στο Τ2, ούτε καν µε την µορφή απογόνου a(x,y) (αντίστοιχα και για το Τ2). 76
Πώς φτιάχνεται το καθολικό δέντρο; T1 T G N P I E F G J T2 N P I E J K H F M G M J K H 77
Πώς φτιάχνεται το καθολικό δέντρο; T1 T G N P I E F G J T2 N P I E J K H F M G M J K H 78
(H1) Adorama caps hoods lenses point & shoot cameras & lenses 35mm SL APS cameras digital printers lose Up filters UV PL film Παραδείγµατα slide negative b&w (H2) &H SL cameras 35mm systems lenses photo APS other formats medium general filters bags tripods digital photography cameras printers memory cards scanners film scanners flatbed scanners (H3) itzameras digital cameras 35mm SL point & shoot APS camcorders filters Matching categories (nodes) Adorama : &H : itzcameras cameras & lenses : photo : --- 35mm SL : SL cameras : 35mm SL digital : digital photography : --- cameras : cameras : digital cameras 79
(H2 U s H3) SL cameras 35mm systems lenses photo APS other formats medium general filters bags tripods digital photography cameras Παραδείγµατα printers point & shoot memory cards scanners film scanners camcorders flatbed scanners Exist in &H's catalog but not in itzameras catalog Exist in itzameras but not in &H's catalog Exist in &H's catalog and in itzameras catalog Matching categories (nodes) &H : itzameras cameras : digital cameras SL cameras : 35mm SL H1-(H2 U s H3) caps hoods lose Up UV PL film b&w slide negative 80
H1- H2 H1 - H3 Παραδείγµατα caps hoods point & shoot lose Up UV PL film b&w slide negative caps lenses hoods cameras & lenses digital printers UV lose Up PL film negative b&w slide s (H1- H2) (H1- H3) caps hoods UV PL film b&w slide lose Up negative 81
Συγκρίσεις Ενοποίηση σχηµάτων (schema integration) Ανίχνευση αναντιστοιχιών Κατασκευή ενοποιηµένου σχήµατος (merge) ιαχείριση σύνθετων αντικειµένων (complex obejcts) Τελεστές επιλογής, ανακατασκευής (ancilhon) Γενική διαχείριση µοντέλων (generic model management) (ONO: ernstein): Υψηλού επιπέδου τελεστές διαχείρισης µοντέλων Έλλειψη αλγεβρικών ιδιοτήτων 82
Σύνοψη συνεισφοράς οµικός χειρισµός ιεραρχιών. Μελέτη αλγεβρικών ιδιοτήτων των ιεραρχιών ως δεντρικές δοµές. Ορισµός 3 τελεστών διαχείρισης δοµικής πληροφορίας (ένωση, τοµή, διαφορά) µε ιδιότητες παρόµοιες µε αυτές των αντίστοιχων τελεστών της συνολοθεωρίας. Έλεγχος πλαισίου ορθότητας: η περίπτωση ύπαρξης καθολικού δέντρου η περίπτωση έλλειψης καθολικού δέντρου 83
...στη συνέχεια ΠΡΟΣ ΙΟΡΙΣΜΟΣ ΟΜΟΛΟΓΩΝ ΙΕΡΑΡΧΙΩΝ ΟΜΙΚΗ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ > ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΚΑΙ Ε ΟΜΕΝΩΝ ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΗ ΟΥΛΕΙΑ 84
εδοµένα Τα δεδοµένα οργανώνονται σε πόρους (resource items). Πόρος Σχέση (relation): (a1, a2,, an), όπου a1, a2, ιδιότητες (attributes) Οι πόροι αντιστοιχίζονται στα φύλλα των ιεραρχιών. Ιεραρχία + πόροι = σχήµα καταλόγου (catalog schema). 85
Σχήµα καταλόγου X Hierarchy cameras & lenses digital filters film atalog schema caps hoods lenses point & shoot 35mm SL APS cameras printers UV PL slide negative 1 2 3 SL cameras 5 6 igital printers 8 9 10 11 brand model price brand model ppm esource items anon EOS-3 990 hp 3820 12 Nikon N65 205 hp 7350 17 Pentax ZX-M 148.50 hp 6122 20 ata 86
εντρικές Σχέσεις (TSs) Σχήµατα καταλόγου µε κοινούς πόρους εναλλακτικά µονοπάτια για τους ίδιους πόρους εντρικές Σχέσεις (Tree-stuctured elations) Αφορούν έναν πόρο. Έχουν µορφή AN/O γράφου. Τα µονοπάτια οργανώνονται σε σύνολα από Oσυνιστώσες. O-συνιστώσα: AN-οµάδα από µονοπάτια ή 1 µονοπάτι. Μονοπάτια = πρότυπα (patterns) 87
εντρικές Σχέσεις (TSs) X X camera & lenses cameras photo 35mm systems 35mm SL photo photo photo 35mm SL bodies lenses 35mm systems (a) SL cameras brand model price (b) SL systems brand model price lens_id 88
εντρικές Σχέσεις (TSs) O-1 camera & lenses cameras X photo O-2 35mm systems 35mm SL photo X photo photo 35mm SL bodies lenses 35mm systems (a) SL cameras brand model price (b) SL systems brand model price lens_id 89
εντρικές Σχέσεις (TSs) O-1 camera & lenses cameras X photo O-2 35mm systems O-3 35mm SL photo X photo O-4 photo 35mm SL bodies lenses 35mm systems (a) SL cameras brand model price (b) SL systems brand model price lens_id 90
εντρικές Σχέσεις (TSs) O-1 camera & lenses cameras X photo O-2 35mm systems O-3 35mm SL photo X photo O-4 photo 35mm SL bodies lenses 35mm systems (a) SL cameras brand model price (b) SL systems brand model price lens_id 91
Επιλογή, Προβολή, Γινόµενο Επιλογή: σ <attribute condition> <path condition> (TS) path condition: {=,, } Σχεσιακή επιλογή + επιλογή σε µονοπάτια/o συνιστώσες 92
ΕΠΙΛΟΓΗ: Φωτογρ. µηχανές, όχι Pentax, ακριβότερες των 200ε, έχοντας το /photo/35mm systems στο µονοπάτι τους σ <brand!= Pentax, price>200> < /photo/35mm systems $_> (SL systems) X X photo 35mm SL bodies photo lenses photo 35mm systems photo 35mm systems (a) SL systems (b) SL systems brand model price lens_id brand model price lens_id anon EOS-3 990 1 anon EOS-3 990 1 Nikon N65 205 2 Nikon N65 205 2 Pentax ZX-M 148.5 3........................ 93
Επιλογή, Προβολή, Γινόµενο Επιλογή: σ <attribute condition> <path condition> (TS) path condition: {=,, } Σχεσιακή επιλογή + επιλογή σε µονοπάτια/o συνιστώσες Προβολή: π <attribute list> <variable list> (TS) variable list: {$i (µεταβλητή µονοπατιού), #i (O µεταβλητή)} Σχεσιακή προβολή + προβολή σε µονοπάτια/o συνιστώσες 94
ΠΡΟΒΟΛΗ: Φωτογρ. µηχανές, µε µόνο το µοντέλο και τον αντίστοιχο φακό τους, κρατώντας το δεξιότερο µονοπάτι π <model, lens_id> <#2> (SL systems) X X photo 35mm SL photo photo photo bodies lenses 35mm systems 35mm systems (a) SL systems (b) SL systems brand model price lens_id model lens_id anon EOS-3 990 1 EOS-3 1 Nikon N65 205 2 N65 2 Pentax ZX-M 148.5 2 ZX-M 2..................... 95
Επιλογή, Προβολή, Γινόµενο Επιλογή: σ <attribute condition> <path condition> (TS) path condition: {=,, } Σχεσιακή επιλογή + επιλογή σε µονοπάτια/o συνιστώσες Προβολή: π <attribute list> <variable list> (TS) variable list: {$i (µεταβλητή µονοπατιού), #i (O µεταβλητή)} Σχεσιακή προβολή + προβολή σε µονοπάτια/o συνιστώσες Γινόµενο: (ΤS1) Χ (TS2) Σχεσιακό γινόµενο + συνδυασµός µονοπατιών 96
ΓΙΝΟΜΕΝΟ: (SL systems) X (Lenses) 35mm SL bodies photo X photo lenses photo 35mm systems X X = camera & lenses lenses 35mm SL bodies photo photo lenses camera & lenses lenses X photo 35mm systems camera & lenses lenses (a) SL systems (b) Lenses cbrand cmodel cprice anon EOS-3 990 Nikon N65 205 Pentax ZX-M 148.5......... clensid 1 1 2... lbrand Sigma Tamron... lensid 1 2... lprice 200 100... (c) SL systems cbrand cmodel cprice clensid anon EOS-3 990 1 anon EOS-3 990 1 Nikon N65 205 1 Nikon N65 205 1 Pentax ZX-M 148.5 2 lbrand Sigma Tamron Sigma Tamron Sigma lensid lprice 1 200 2 100 1 200 2 100 1 200 Pentax ZX-M 148.5 2 Tamron 2 100..................... 97
Ένωση, Τοµή, ιαφορά Ένωση: (TS) (TS) Σχεσιακή ένωση + ένωση O συνιστωσών Τοµή: (TS) (TS) Σχεσιακή τοµή + ένωση O συνιστωσών ιαφορά: (ΤS) - (TS) Σχεσιακή διαφορά + O συνιστώσες της πρώτης TS 98
ΕΝΩΣΗ: (SL systems) (SL systems) X X X 35mm SL photo photo U = photo 35mm SL photo photo photo bodies lenses 35mm systems bodies lenses 35mm systems (a) SL systems (b) SL systems (c) SL systems cbrand cmodel cprice anon EOS-3 990 Nikon N65 205 Pentax ZX-M 148.5 clensid 1 1 2 cbrand cmodel cprice clensid cbrand cmodel cprice clensid anon EOS-3 990 1 anon EOS-3 990 1 Nikon FM2 800 1 Nikon N65 205 1 Pentax ZX-M 148.5 2 Pentax ZX-M 148.5 2........................ Nikon FM2 800 1............ 99
ind, Path Τελεστές ανακατασκευής. ind: (TS) Επιστρέφει ρίζα, πόρους και δεδοµένα. Path: P<path>((TS)) Επιστρέφει πόρους και δεδοµένα κάτω από νέο µονοπάτι. 100
ind photo X (SL systems) photo photo 35mm SL lenses 35mm systems X bodies (a) SL systems (b) SL systems brand model price lens_id brand model price lens_id anon EOS-3 990 1 anon EOS-3 990 1 Nikon N65 205 2 Nikon N65 205 2 Pentax ZX-M 148.5 3........................ 101
Path X P < /photo/package/35mm > (SL systems) photo package X 35mm (a) (b) SL systems SL systems brand model price lens_id brand model price lens_id anon EOS-3 990 1 anon EOS-3 990 1 Nikon N65 205 2 Nikon N65 205 2........................ 102
Συγκρίσεις Γλώσσες ερωτήσεων Ιστού (WebSQL, WebOQL). Άλγεβρες ηµιδοµηµένων δεδοµένων. ΥΑΤ ιαφορές: Τα µονοπάτια ως πρότυπα (PANA project). Inductive database framework Εναλλακτικά µονοπάτια. Σύνθετα µονοπάτια. 103
Σύνοψη συνεισφοράς ιαχείριση ιεραρχιών και δεδοµένων. Ορισµός τελεστών που συνδυάζουν διαχείριση µονοπατιών στις ιεραρχίες ως πρότυπα, και κλασσικές σχεσιακές ερωτήσεις στα δεδοµένα. Τελεστές επιλογές: Επιλογή, Προβολή, Γινόµενο Ένωση, Τοµή, ιαφορά Τελεστές ανακατασκευής: ind, Path Υλοποίηση πρότυπου συστήµατος. 104
...στη συνέχεια ΠΡΟΣ ΙΟΡΙΣΜΟΣ ΟΜΟΛΟΓΩΝ ΙΕΡΑΡΧΙΩΝ ΟΜΙΚΗ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΙΑΧΕΙΡΙΣΗ ΙΕΡΑΡΧΙΩΝ ΚΑΙ Ε ΟΜΕΝΩΝ > ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΗ ΟΥΛΕΙΑ 105
Συµπεράσµατα ιατύπωση πλαισίου διαχείρισης ιεραρχιών τριών κατευθύνσεων ως οντότητες πρώτης τάξης: Προσδιορισµός οµόλογων ιεραρχιών. οµικός χειρισµός ιεραρχιών. ιαχείριση ιεραρχιών και δεδοµένων. 106
Συµπεράσµατα Προσδιορισµός οµόλογων ιεραρχιών. Μετρική δοµικής απόστασης. Αποδοτικές τεχνικές συσταδοποίησης ιεραρχιών µέσω δοµικών περιλήψεων ιεραρχιών. οµικός χειρισµός ιεραρχιών. Τελεστές χειρισµού δοµής ιεραρχιών µε σηµασιολογία συνολοθεωρίας. ιαχείριση ιεραρχιών και δεδοµένων. Τελεστές διαχείρισης µονοπατιών και δεδοµένων 107
Μελλοντική ουλειά Προσδιορισµός οµόλογων ιεραρχιών: Μελέτη ιδιοτήτων αποστάσεων. ιανυσµατική αναπαράσταση ιεραρχιών. οµικός χειρισµός ιεραρχιών. Χαλάρωση συνθηκών κατασκευής καθολικού δέντρου. Παραλλαγές συµβατότητας δέντρων 108
Μελλοντική ουλειά Μοντέλο γράφου: Μεταφορά του πλαισίου διαχείρισης ιεραρχιών σε γράφους. Μελέτη αλγεβρικών ιδιοτήτων. Ορισµός τελεστών. Σύνθετα ταιριάσµατα: Χρήση ταιριασµάτων 1:Ν αντί για 1:1. Εφαρµογές πλαισίου διαχείρισης ιεραρχιών. 109
ηµοσιεύσεις/αναφορές T. alamagas, T. heng, K. J. Winkel, T. Sellis, lustering XML documents using structural summaries, ET Workshop on lustering Information over the Web (lustwebά04), Heraklion, Greece, 2004 (to appear). P. ouros, T. alamagas, T. Sellis, M. Terrovitis, PatManQL: A language to manipulate patterns and data in hierarchical catalogs, ET Workshop on Pattern epresentation and Management (PaMa 04), Heraklion, Greece, 2004 (to appear). T. alamagas, T. heng, K. J. Winkel, T. Sellis, lustering XML documents by structure, in Proceedings of the 3rd Hellenic onference on Artificial Intelligence, May 5-8, Samos, Greece, 2004 (to appear).. Theodoratos, T. alamagas, Querying and Integrating Ontologies Viewed as onceptual Schemas, in Proceedings of 22nd International onference on onceptual Modeling (E'03), Oct 13-16, hicago, Illinois, USA, 2003. 110
ηµοσιεύσεις/αναφορές (Υπό κρίση) T. alamagas, A. Meliou, T. Sellis, Modeling and Manipulating the structure of hierarchical schemas for the Web, submitted to the Journal of Information etrieval, Feb 2004, T. alamagas, T. heng, K. J. Winkel, T. Sellis, lustering XML documents by structure, submitted to the Information Systems Journal, Oct 2003. 111
112
Νέος αλγόριθµος υπολογισµού δοµικής απόστασης int alculateistance(treenode s, TreeNode t) { int[][] = new int[numofhildren(s)+1][numofhildren(t)+1]; [0][0] = Updateost(LabelOf(s), LabelOf(t)); for (int i = 1; i <= numofhildren(s); i++) [i][0] = [i-1][0] + numofnodes(s_i); αρχικοποιήσεις for (int j = 1; j <= numofhildren(t); j++) [0][j] = [0][j-1] + numofnodes(t_j); for (int i = 1; i <= numofhildren(s); i++) for (int j = 1; j <= numofhildren(t); j++) [i][j] = Min([i][j-1] + numofnodes(t_j), [i-1][j] + numofnodes(s_i), [i-1][j-1] + alculateistance(s_i,t_j)); eturn [numofhildren(s)][numofhildren(t)]; } 113
Αξιολόγηση απόδοσης hawathe: µε/χωρίς δοµ. περιλήψεις 114
Αξιολόγηση απόδοσης hawathe: υπολογισµός συντακτικού γράφου 115
Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 116
Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 117
Ένωση T1 T2 T3 S N P = N P I E F J M M H G J K F H I E J K F H G 118
Τοµή Έστω δέντρα ιεραρχίας T1 και Τ2 από το σύνολο Sg={Ti, Ti Tg}. Η τοµή Τ3 των T1 και Τ2, T1 Τ2, είναι ένα δέντρο µε: τους κοινούς κόµβους Ν των T1 και Τ2 την κοινή δοµική πληροφορία των T1 και Τ2 ιαισθητικά, το Τ3 κατασκευάζεται από το Τg, διαγράφοντας όλους τους κόµβους εκτός από αυτούς του Ν, και µετακινώντας τα παιδιά σε υψηλότερα επίπεδα. 119