substructure similarity search using features in graph databases

Σχετικά έγγραφα
ER-Tree (Extended R*-Tree)

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ Λ03Β ΑΛΓΟΡΙΘΜΟΙ ΔΙΚΤΥΩΝ & ΠΟΛΥΠΛΟΚΟΤΗΤΑ ΦΛΕΒΑΡΗΣ 2004

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βασιλική

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

u v 4 w G 2 G 1 u v w x y z 4

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

Multicut and Integer Multicomodity Flow in Trees (chap. 18) Αγγελής Γιώργος

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βάλια

Θεωρία Γραφημάτων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

Κατανεμημένα Συστήματα Ι

Approximating Map Labeling. Michael A. Bekos School of Applied Mathematics and Physical Sciences National Technical University of Athens Greece

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Ανάκτηση πολυμεσικού περιεχομένου

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Κλάσεις Πολυπλοκότητας

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πεδί α


Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Τμηματοποίηση με χρήση τυχαίων πεδίων Markov. Κοινή ιδιότητα σημείων τμήματος Εισαγωγή χωρικής πληροφορίας Εξομάλυνση πεδίου κατατάξεων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών H/Y Department of Electrical and Computer Engineering. Εργαστήριο 8. Χειμερινό Εξάμηνο

Quick algorithm f or computing core attribute

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Partition of weighted sets (problems with numbers)

ΟΜΑΔΕΣ. Δημιουργία Ομάδων


Βάσεις Δεδομένων ΙΙ Ενότητα 12

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

Abstract Storage Devices

Κεφάλαιο 8. NP και Υπολογιστική Δυσεπιλυσιμότητα. Χρησιμοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

GPU. CUDA GPU GeForce GTX 580 GPU 2.67GHz Intel Core 2 Duo CPU E7300 CUDA. Parallelizing the Number Partitioning Problem for GPUs

HY118-Διακριτά Μαθηματικά. Θεωρία γράφων / γραφήματα. Τι έχουμε δει μέχρι τώρα. Υπογράφημα. 24 -Γράφοι

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Θεωρία και Αλγόριθμοι Γράφων

Indexing Methods for Encrypted Vector Databases

Τοποθέτηση τοπωνυµίων και άλλων στοιχείων ονοµατολογίας στους χάρτες

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Nov Journal of Zhengzhou University Engineering Science Vol. 36 No FCM. A doi /j. issn

Εισαγωγή στους Αλγόριθμους. Παύλος Εφραιμίδης, Λέκτορας

Ομαδοποίηση ΙΙ (Clustering)

[1] DNA ATM [2] c 2013 Information Processing Society of Japan. Gait motion descriptors. Osaka University 2. Drexel University a)

Στοιχεία Θεωρίας Γράφων (Graph Theory)

NP-complete problems. IS, 4-Degree IS,CLIQUE, NODE COVER, MAX CUT, MAX BISECTION, BISECTION WIDTH. NP-complete problems 1 / 30

HY118-Διακριτά Μαθηματικά

Κατανεμημένα Συστήματα Ι

(elementary graph algorithms)

ΕΥΡΕΣΗ ΤΟΥ ΔΙΑΝΥΣΜΑΤΟΣ ΘΕΣΗΣ ΚΙΝΟΥΜΕΝΟΥ ΡΟΜΠΟΤ ΜΕ ΜΟΝΟΦΘΑΛΜΟ ΣΥΣΤΗΜΑ ΟΡΑΣΗΣ

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Anomaly Detection with Neighborhood Preservation Principle

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

ΑΛΓΟΡΙΘΜΟΙ Άνοιξη I. ΜΗΛΗΣ

HY118-Διακριτά Μαθηματικά. Θεωρία γράφων/ γραφήματα. Τι έχουμε δει μέχρι τώρα. Ισομορφισμός γράφων: Μία σχέση ισοδυναμίας μεταξύ γράφων.

Network Algorithms and Complexity Παραλληλοποίηση του αλγορίθμου του Prim. Αικατερίνη Κούκιου

Ασκήσεις στους Γράφους. 1 ο Σετ Ασκήσεων Βαθμός Μονοπάτια Κύκλος Euler Κύκλος Hamilton Συνεκτικότητα

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

Πανεπιστήμιο Στερεάς Ελλάδας Τμήμα Πληροφορικής ΘΕΩΡΙΑ ΓΡΑΦΩΝ

Text Mining using Linguistic Information

(Υπογραϕή) (Υπογραϕή) (Υπογραϕή)

ΕΚΘΕΣΗ ΠΡΟΟ ΟΥ Υποψήφιος ιδάκτορας: Ιωάννης Κυριαζής

Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Ομαδοποίηση Ι (Clustering)

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

ΣΙΣΛΟ ΓΙΑΣΡΙΒΗ ΔΞΑΓΧΓΗ ΥΑΡΑΚΣΗΡΙΣΙΚΧΝ ΔΙΚΟΝΟΠΛΑΙΙΧΝ ΑΠΟ ΑΚΟΛΟΤΘΙΔ ΒΙΝΣΔΟ ΜΔ ΥΡΗΗ ΟΜΑΓΟΠΟΙΗΗ ΠΟΛΛΑΠΛΧΝ ΟΦΔΧΝ ΜΔΣΑΠΣΤΥΙΑΚΗ ΔΡΓΑΙΑ ΔΞΔΙΓΙΚΔΤΗ

ΑΛΓΟΡΙΘΜΟΙ Άνοιξη I. ΜΗΛΗΣ

Γράφοι: κατευθυνόμενοι και μη

HY118- ιακριτά Μαθηµατικά. Θεωρία γράφων / γραφήµατα. Τι έχουµε δει µέχρι τώρα. Υπογράφηµα Γράφοι

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)

[4] 1.2 [5] Bayesian Approach min-max min-max [6] UCB(Upper Confidence Bound ) UCT [7] [1] ( ) Amazons[8] Lines of Action(LOA)[4] Winands [4] 1

Minimum Spanning Tree: Prim's Algorithm

Ημερίδα διάχυσης αποτελεσμάτων έργου Ιωάννινα, 14/10/2015

Αλγόριθμοι και Πολυπλοκότητα

ΘΕΩΡΙΑ ΓΡΑΦΩΝ. 7 η Διάλεξη Συνεκτικότητα (Συνδεσμικότητα) Βασικές έννοιες και ιδιότητες Το θεώρημα του Merger Ισομορφισμός

Οργάνωση Βάσεων Βιοϊατρικών Δεδομένων Εξόρυξη Γνώσης Βιοϊατρικών Δεδομένων. Σεμινάριο 6, μέρος 2 ο : Δομές ευρετηρίων για αρχεία

Ενότητα 5: Αλγόριθμοι γράφων και δικτύων

Ειδικές Επιστηµονικές Εργασίες

ΒΕΛΤΙΣΤΕΣ ΙΑ ΡΟΜΕΣ ΣΕ ΙΚΤΥΑ ΜΕΤΑΒΛΗΤΟΥ ΚΟΣΤΟΥΣ

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Θεωρία Αλγόριθμοι Γραμμικής Βελτιστοποίησης 3/4/2012. Lecture08 1

Κεφάλαιο 8. NP και Υπολογιστική Δυσεπιλυσιμότητα. Παύλος Εφραιμίδης V1.1,

No. 7 Modular Machine Tool & Automatic Manufacturing Technique. Jul TH166 TG659 A

Research on model of early2warning of enterprise crisis based on entropy

Πανεπιστήμιο Πειραιά Τμήμα Ψηφιακών Συστημάτων. Κρυπτογραφία. Κρυπτοαλγόριθμοι. Χρήστος Ξενάκης

Τεχνολογία Ομαδοποίησης Group Technology

A Survey of Recent Clustering Methods for Data Mining (part 2)

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

Transcript:

substructure similarity search using features in graph databases Aleksandros Gkogkas Distributed Management of Data Laboratory

intro Θα ενασχοληθούμε με το πρόβλημα των ερωτήσεων σε βάσεις γραφημάτων. Ειδικότερα, μας ενδιαφέρει η δημιουργία ενός σύστημός που θα μας επιτρέπει να κάνουμε ερωτήσεις ομοιότητας σε μία βάση γραφημάτων. Αυτό μπορεί να επιτευχθεί με την χρήση μιας τεχνικής που βασίζεται σε features για την δημιουργία του ευρετηρίου και την διαλογή των γραφημάτων.

Δομή της παρουσίασης Ορισμός του Προβλήματος gindex & GraFil

Δομή της παρουσίασης Ορισμός του Προβλήματος gindex & GraFil

Ορισμός του Προβλήματος Ένα βασικό είδος ερωτήσεων σε βάσεις γράφων είναι η αναζήτηση τοπολογικών δομών. κατηγορίες: 1. Ακριβής εύρεση. Βρες τους γράφους που είναι ακριβώς ίδιοι με αυτόν της ερώτησης. 2. Υποσυνόλου Βρες τους γράφους που περιέχουν αυτόν της ερώτησης ή αντιστρόφως. 3. Ομοιότητας (πλήρης) Βρες τους γράφους που μοιάζουν με αυτόν της ερώτησης. 4. Ομοιότητας υποσυνόλου Βρες τους γράφους που έχουν υπογράφο όμοιο με αυτόν της ερώτησης.

Ορισμός του Προβλήματος

Ορισμός του Προβλήματος Βασικές έννοιες ισομορφισμός Δύο γράφοι G1(V1,E1) Є G και G2(V2,E2) Є G είναι ισομορφικοί αν υπάρχει μία ένα προς ένα σχέση φ μεταξύ V1 και V2 τέτοια ώστε u i u j Є E1 αν και μόνο αν φ(u i )φ(u j ) Є E2. relaxation ratio Δοθέντος δύο γράφων G και Q,αν P είναι ο μέγιστος κοινός υπογράφος των G και Q, τότε η ομοιότητα υπογράφου μεταξύ G και Q ορίζεται από την σχέση: E(P) / E(Q), και ησχέση1- E(P) / E(Q) ονομάζεται relaxation ratio.

Ορισμός του Προβλήματος αναζήτηση ομοιότητας υποσυνόλου Δοθείσας μία βάσης γράφων D={G1,G2, Gn} και ενός γράφου ερώτηση Q, αναζήτηση ομοιότητας είναι η εύρεση όλων των γράφων που προσεγγιστικά περιέχουν τον Q. *αντίστροφη αναζήτηση ομοιότητας είναι η εύρεση όλων των γράφων που προσεγγιστικά περιέχονται στον Q.

Ορισμός του Προβλήματος Μέτρα ομοιότητας Υπάρχουν διάφορα μέτρα ομοιότητας, μπορούμε να τα κατατάξουμε στις εξής τρεις κατηγορίες: 1. Βασιζόμενα σε φυσικές ιδιότητες (π.χ. βάρη, τοξικότητα κτλ) 2. Βασιζόμενα σε features, στοιχειώδεις δομές εξάγονται από τη βάση ως features. Το αν δύο γράφοι είναι όμοιοι διαπιστώνεται από τον αριθμό των στοιχειωδών δομών που έχουν και οι δύο. 3. Βασιζόμενα στην δομική πληροφορία, συγκρίνουν την τοπολογική πληροφορία. Κοστίζουν πολύ άλλα είναι πιο ακριβή. (max common subgraph, graph distance)

Δομή της παρουσίασης Ορισμός του Προβλήματος gindex & GraFil

gindex & GraFil Graph Indexing: A Frequent Structure-based Approach Xifeng Yan, Philip S. Yu, Jiawei Han, SIGMOD 04 Δημιουργία ευρετηρίου σε μία βάση γράφων βασιζόμενοι σε μικρούς συχνά εμφανιζόμενους στη βάση γράφους. Feature-based Similarity Search in Graph Structures Xifeng Yan, Feida Zhu, Philip S. Yu, Jiawei Han, TODS 2006 Αναζήτηση ομοιότητας σε βάσεις γράφων με την χρήση πιο περίπλοκων δομών (features) για την βελτίωση του φιλτραρίσματος.

General Framework Βήματα 1. Δημιουργία του index 2. Υπολογισμός μέγιστου αριθμού απωλειών feature 3. Επεξεργασία γράφου ερώτηση 4. Περαιτέρω relaxation του γράφου ερώτηση

General Framework Βήματα 1. Δημιουργία του index 2. Υπολογισμός μέγιστου αριθμού απωλειών feature 3. Επεξεργασία γράφου ερώτηση 4. Περαιτέρω relaxation του γράφου ερώτηση

General Framework 1. Δημιουργία του index (gindex) a. Επιλογή στοιχειωδών δομών ως feature Εύρεση συχνά εμφανιζόμενών υπογράφων στην βάση. Ένας υπογράφος είναι συχνός όταν οι εμφανίσεις του είναι περισσότερες από ένα minimum size increasing support (exponential, piecewise-linear) Επιλέγουμε από τα συχνά features αυτά τα οποία έχουν ικανοποιητική επιλεκτικότητα. discriminative ratio (γ):

frequent feature examples παραδείγματα συχνών υπογράφων

General Framework 1. Δημιουργία του index (gindex, Grafil) b. Δημιουργία ευρετηρίου gindex: translates fragments to sequences and holds them in a prefix tree Grafil: feature-graph πίνακας του οποίου κάθε στήλη είναι ένας γράφος της βάσης και κάθε γραμμή ένα feature του index

General Framework Βήματα 1. Δημιουργία του index 2. Υπολογισμός μέγιστου αριθμού απωλειών feature 3. Επεξεργασία γράφου ερώτηση 4. Περαιτέρω relaxation τουγράφουερώτηση

General Framework 2. Υπολογισμός μέγιστου αριθμού απωλειών feature a. Εύρεση των feature του index που περιέχονται στον γράφο ερώτηση. b. Επιλογή ενός feature set/φίλτρου (υποσύνολο των feature του index). Αν όλα τα feature του index στο σετ/φίλτρο τότε χαμηλή απόδοση. Δημιουργούμε feature sets με βάση την επιλεκτικότητα. επιλεκτικότητα ενός feature του γράφου ερώτηση Q ως προς μία βάση γράφων D, είναι η μέση διαφορά συχνότητας του feature μεταξύ D και Q, δ f (D,Q). γενικοί κανόνες για feature set 1. Επιλογή αρκετά μεγάλου αριθμού feature 2. Τα features να καλύπτουν ομοιόμορφα τον γράφο ερώτηση 3. Τα feature με διαφορετική επιλεκτικότητα να είναι χωριστά

General Framework 2. Υπολογισμός μέγιστου αριθμού απωλειών feature b. Επιλογή ενός feature set/φίλτρου (συνέχεια) αρχικά φιλτράρουμε έχοντας σετ τα feature ίδιου μεγέθους ενώνουμε τα σετ με διαφορά μεγέθους feature 1 Σε κάθε νέο σετ hierarchical clustering με βάση την επιλεκτικότητα των feature του Έτσι χωρίζουμε τα feature του κάθε σετ σε τρία σύνολα (high, medium, low selectivity) το καθένα από τα οποία είναι ένα φίλτρο

General Framework 2. Υπολογισμός μέγιστου αριθμού απωλειών feature c. Υπολογισμός του αριθμού εμφανίσεων των feature (του σετ) στον γράφο ερώτηση. d. Υπολογισμός του μέγιστου αριθμού απωλειών feature αν κάνουμε relax μία ακμή του query. edge-feature πίνακας για τον γράφο ερώτηση. Κάθε στήλη αντιστοιχεί σε ένα feature του σετ και κάθε σειρά σε μία ακμή του γράφου ερώτηση. Ο μέγιστος αριθμός στηλών που μπορούν να χτυπήσουν k γραμμές είναι και ο max feat miss. Όπου k= θ* G, θ relaxation ratio. (πρόβλημα μέγιστου επικαλύμματος, NP-complete)

max feat miss example Για μία αφαίρεση ακμής από τον γράφο ερώτηση έχουμε d max =4

General Framework Βήματα 1. Δημιουργία του index 2. Υπολογισμός μέγιστου αριθμού απωλειών feature 3. Επεξεργασία γράφου ερώτηση 4. Περαιτέρω relaxation του γράφου ερώτηση

General Framework 3. Επεξεργασία γράφου ερώτηση a. Χρησιμοποιούμε των feature-graph πίνακα για να υπολογίσουμε την διαφορά σε feature (σετ) μεταξύ γράφου ερώτηση και κάθε γράφου της βάσης. Δεν χρειάζεται πρόσβαση στη βάση παρά μόνο στον πίνακα. b. Αν d>d max (max feat miss) τότε ο γράφος δεν περιέχει ως υπογράφο τον γράφο ερώτηση. Αν d<dmax τότε ογράφοςείναιυποψήφιος.

General Framework 3. Επεξεργασία γράφου ερώτηση c. Υπολογίζουμε την structure-based similarity μεταξύ του query graph και κάθε candidate που βρήκαμε με το φιλτράρισμα. Έτσι ξεχωρίζουμε τις απαντήσεις από τους υποψήφιους. 4. Περαιτέρω relaxation του γράφου ερώτηση Αν θέλουμε περισσότερους γράφους απαντήσεις, κάνουμε ξανά relax στον γράφο ερώτηση και επαναλαμβάνουμε την διαδικασία από το 2 ο βήμα.

related work Substructure search Algorithms and applications of tree and graph searching, Shasa et al., PODS 02 A platform based on the multi-dimensional data modelfor analysis of bio-molecular structures, Srinivasa et al., VLDB 03 Similarity search Rascal:Calculation of graph similarity using maximum common edge subgraphs, Raymond et al. 2002, The computer Journal 45 Substructure similarity A new algorithm for error-tolerant subgraph isomorphism detection, Messmer and Bunke IEEE Trans on Pattern Analysis and Machine Intelligence 20