Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα Κεφαλαίου Σκοπός: Η εισαγωγή σε τεχνικές εξόρυξης χωρικής γνώσης Εισαγωγή Επισκόπηση των χωρικών δεδοµένων Αρχές εξόρυξης χωρικής γνώσης Γενίκευση/ Εξειδίκευση Χωρικοί κανόνες Χωρική κατηγοριοποίηση Χωρική συσταδοποίηση 2 6.1
Χωρικό Αντικείµενο Περιγράφεται από χωρικά και µη χωρικά γνωρίσµατα. Σε αυτά µπορεί να περιλαµβάνεται κάποιος τύπος σχετικός µε θέση: Γεωγραφικό Μήκος και Πλάτος Ταχυδροµικός Κωδικός ιεύθυνση Η ανάκτηση του αντικειµένου θα πρέπει να είναι δυνατή µε χρήση χωρικών ή/και µη χωρικών γνωρισµάτων 3 Εφαρµογές Εξόρυξης Χωρικής Γνώσης Γεωλογία Συστήµατα Γεωγραφικών Πληροφοριών (GIS) Περιβαλλοντολογική Επιστήµη Γεωργία Ιατρική Ροµποτική Οπουδήποτε συνδυάζεται η χρονική µε τη χωρική διάσταση 4 6.2
Χωρικές Ερωτήσεις Η χωρική επιλογή µπορεί να χρησιµοποιεί ειδικές λειτουργίες σύγκρισης: Κοντά Βόρεια, Νότια, Ανατολικά, υτικά Περικλείεται από Επικαλύπτει/ Τέµνει Ερώτησηπεριοχής(εύρους) - βρες τα αντικείµενα που τέµνουν µια δοθείσα περιοχή στην ερώτηση. Ερώτησηπλησιέστερουγείτονα βρες αντικείµενα που είναι κοντά σε ένα συγκεκριµένο αντικείµενο. Σάρωσηαπόστασης βρες αντικείµενα εντός µιας προκαθορισµένης απόστασης από ένα συγκεκριµένο αντικείµενο, µε την απόσταση να αυξάνεται σταδιακά. 5 οµές Χωρικών εδοµένων οµές δεδοµένων που έχουν σχεδιαστεί ειδικά για την αποθήκευση ή τη δεικτοδότηση χωρικών δεδοµένων. Συχνά βασίζονται σε Β-δένδρα ή δυαδικά δένδρα αναζήτησης. Τα γειτονικά (χωρικά) αντικείµενα οµαδοποιούνται σε συστάδες στο δίσκο. Μπορούν να αναπαραστήσουν µια πολύπλοκη χωρική δοµή τοποθετώντας το χωρικό αντικείµενο στη δοµή ενός συγκεκριµένου γεωγραφικού σχήµατος. Τεχνικές: Τετραδικό δένδρο R-δένδρο k-d δένδρο 6 6.3
MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.4
Τετραδικό ένδρο Ιεραρχική αποσύνθεση του χώρου σε τεταρτηµόρια (MBRs) Κάθε επίπεδο στο τετραδικό δένδρο αντιστοιχεί σε ένα από τα ιεραρχικά επίπεδα. Κάθε επίπεδο είναι µια πιο ακριβής αναπαράσταση του αντικειµένου. Ο αριθµός των απαιτούµενων επιπέδων εξαρτάται από την επιθυµητή ακρίβεια. 9 Παράδειγµα Τετραδικού ένδρου 10 6.5
R- ένδρο Όπως και στο τετραδικό δένδρο, κάθε επόµενο επίπεδο στο δένδρο δηλώνει µικρότερα ορθογώνια (MBRs). Κάθε επίπεδο µπορεί να περιλαµβάνει διαφορετικό πλήθος ορθογωνίων που είναι επίσης πιθανόν να διαφέρουν και στο µέγεθος. Τα κελιά µπορεί να επικαλύπτονται. Το κελί του χαµηλότερου επιπέδου περιέχει ένα µόνο αντικείµενο. Το δένδρο συντηρείται από αλγορίθµους παρόµοιους µε αυτούς που υπάρχουν για τα Β-δένδρα. 11 Παράδειγµα R- ένδρου 12 6.6
K-D ένδρο Σχεδιάστηκε για να δεικτοδοτήσει δεδοµένα µε πολλά γνωρίσµατα και όχι απαραίτητα χωρικά δεδοµένα. Παραλλαγή του δυαδικού δένδρου αναζήτησης. Κάθε επίπεδο χρησιµοποιείται για να δεικτοδοτήσει µια από τις διαστάσεις του χωρικού αντικειµένου. Κάθε κελί του κατώτατου επιπέδου έχει ένα µόνο αντικείµενο εντός του. Οι διαιρέσεις δεν γίνονται µε χρήση MBR αλλά µε διαδοχικές διαιρέσεις του χώρου της διάστασης. 13 Παράδειγµα K-D ένδρου 14 6.7
Τοπολογικές Σχέσεις Ξένο Έχει επικάλυψη ή τέµνει Είναι ίσο Καλύπτεται από ή βρίσκεται εντός ή περιέχεται σε Καλύπτει ή περιέχει 15 Απόσταση µεταξύ Αντικειµένων Ευκλείδεια Manhattan Επεκτάσεις: 16 6.8
Προοδευτική Βελτίωση ίνει προσεγγιστικές απαντήσεις, προτού αναζητηθούν πιο ακριβείς. Φιλτράρει τα δεδοµένα που δεν είναι εφαρµόσιµα σε ένα πρόβληµα. Τα ιεραρχικά επίπεδα βασίζονται σε χωρικές συσχετίσεις. Τα κατηγορήµατα που εξάγονται βελτιώνονται αναδροµικά έως ότου βρεθούν οι ακριβείς απαντήσεις. 17 Προοδευτική Βελτίωση 18 6.9
Spatial Data Dominant Algorithm 19 STING STatistical Information Grid-based Χρησιµοποιεί µια ιεραρχική τεχνική για τη διαίρεση των χωρικών περιοχών σε ορθογώνια κελιά Κάθε κόµβος στη δοµή πλέγµατος συνοψίζει την πληροφορία για τα στοιχεία εντός της. Μπορεί να θεωρηθεί ως τεχνική ιεραρχικής συσταδοποίησης Παρόµοιο µε το τετραδικό δένδρο 20 6.10
STING 21 Ο Αλγόριθµος STING Build 22 6.11
Ο Αλγόριθµος STING 23 Χωρικοί Κανόνες Κανόνας χωρικού χαρακτηριστικού Στο Dallas το µέσο οικογενειακό εισόδηµα είναι $50,000. Κανόνας χωρικού διαχωρισµού Στο Dallas το µέσο οικογενειακό εισόδηµα είναι $50,000, ενώ στο Plano είναι $75,000. Κανόνας χωρικής συσχέτισης Στο Dallas το µέσο οικογενειακό εισόδηµα για οικογένειες που ζουν κοντά στη White Rock Lake είναι $100,000. 24 6.12
Κανόνες Χωρικών Συσχετίσεων Είτε το πρότερο είτε το απότοκο του κανόνα πρέπει να περιέχει κάποια χωρικά κατηγορήµατα (π.χ. κοντά) Η βάση που εξετάζεται θεωρείται ως ένα σύνολο από χωρικά αντικείµενα. Οι κανόνες µπορούν να δηµιουργηθούν χρησιµοποιώντας τεχνικές προοδευτικής βελτίωσης. 25 Αλγόριθµος Κανόνων Χωρικών Συσχετίσεων 26 6.13
Χωρική Κατηγοριοποίηση Στοχεύει στη διαµέριση συνόλων χωρικών αντικειµένων Μπορεί να γίνει κατηγοριοποίηση µε χρήση µη χωρικών ή/ και χωρικών γνωρισµάτων. Τεχνικές γενίκευσης και προοδευτικής βελτίωσης µπορούν να χρησιµοποιηθούν. 27 Επέκταση του ID3 Γράφος Γειτνίασης Κόµβοι αντικείµενα Ακµές συνδέουν γείτονες Ο ορισµός του «γείτονα» ποικίλει. Μπορεί να οριστεί βάσει οποιασδήποτε συσχέτισης µεταξύ των χωρικών αντικειµένων. Ο ID3 θεωρεί για σκοπούς κατηγοριοποίησης τα µη χωρικά γνωρίσµατα όχι µόνο του αντικείµενου-στόχου αλλά και των γειτονικών αντικειµένων. 28 6.14
ένδρο Χωρικής Απόφασης Παρόµοια προσέγγιση µε αυτή που χρησιµοποιείται στους κανόνες χωρικών συσχετίσεων. Βασίζεται στο ότι τα χωρικά αντικείµενα µπορούν να περιγραφούν βάση των αντικειµένων που είναι κοντά σε αυτά ΕνδιάµεσηΖώνη. Περιγραφή των κλάσεων βασισµένη σε µια συνάθροιση των πιο σχετικών κατηγορηµάτων για κοντινά αντικείµενα. 29 Ο Αλγόριθµος του ένδρου Χωρικής Απόφασης 30 6.15
Χωρική Συσταδοποίηση Εντοπίζουν συστάδες από διαφορετικά σχήµατα. Ένας αλγόριθµος που δουλεύει χρησιµοποιώντας κέντρα βάρους και απλές µετρήσεις απόστασης πιθανόν δεν θα είναι σε θέση να αναγνωρίζει ασυνήθιστα σχήµατα. Οι συστάδες που ανακαλύπτονται πρέπει να είναι ανεξάρτητες της σειράς µε την οποία εξετάστηκαν τα σηµεία στο χώρο. 31 Χωρική Συσταδοποίηση 32 6.16
Επεκτάσεις του CLARANS Προσέγγιση χωρίς την παραδοχή για την κύρια µνήµη του CLARANS. Χρήση τεχνικών χωρικής δεικτοδότησης. Χρήση δειγµατοληψίας και R*-δένδρου ώστε να βρεθούν κεντρικά αντικείµενα. Βελτίωση του τρόπου υπολογισµού του κόστους αλλαγής ενός medoid, εξετάζοντας µόνο τα αντικείµενα στις δυο συστάδες που επηρεάζονται. ιάγραµµα Voronoi 33 Voronoi 34 6.17
SD(CLARANS) Spatial Dominant (Χωρικής Τάξης). Αρχικά συσταδοποιεί τις χωρικές συνιστώσες χρησιµοποιώντας τον CLARANS. Στη συνέχεια, εξετάζει τα µη χωρικά γνωρίσµατα εντός κάθε συστάδας. Χρησιµοποιεί γενίκευση. Χρησιµοποιεί κάποιο εργαλείο µάθησης (όπως το DBLEARN) για να εξάγει την περιγραφή της συστάδας. 35 Ο Αλγόριθµος SD(CLARANS) 36 6.18
DBCLASD Επέκταση του αλγορίθµου DBSCAN Distribution Based Clustering of LArge Spatial Databases (συσταδοποίηση µεγάλων βάσεων χωρικών δεδοµένων βασισµένη σε κατανοµές) Υποθέτει ότι τα στοιχεία εντός µιας συστάδας είναι οµοιόµορφα κατανεµηµένα. Επιχειρεί να προσδιορίσει την κατανοµή που ικανοποιείται από τις αποστάσεις µεταξύ πλησιέστερων γειτόνων. Στοιχεία προστίθενται στη συστάδα, όσο το σύνολο των πλησιέστερων βάσει της απόστασης γειτόνων ικανοποιεί την υπόθεση της οµοιόµορφης κατανοµής. 37 Ο Αλγόριθµος DBCLASD 38 6.19
Συναθροιστική Εγγύτητα ΣυναθροιστικήΕγγύτητα το µέτρο του πόσο κοντά είναι µια συστάδα (ή οµάδα από στοιχεία) σε ένα χαρακτηριστικό (ή σε ένα αντικείµενο στο χώρο) Η σχέση συναθροιστικής εγγύτητας βρίσκει τα κ κοντινότερα χαρακτηριστικά σε µια συστάδα. Ο αλγόριθµός CRH χρησιµοποιεί διαφορετικά σχήµατα: Περικλείοντα κύκλο Ισοθετικό ορθογώνιο Κυρτό περίβληµα 39 CRH 40 6.20