«Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών»

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "«Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών»"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Τμήμα Πληροφορικής «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ ΧΡΗΣΤΟΣ Ν. ΜΠΕΡΜΠΕΡΙΔΗΣ Πτυχιούχος Τμήματος Πληροφορικής Α.Π.Θ. Θεσσαλονίκη 2007

2

3 ΧΡΗΣΤΟΥ Ν. ΜΠΕΡΜΠΕΡΙΔΗ «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Υποβλήθηκε στο Τμήμα Πληροφορικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης Ημερομηνία προφορικής εξέτασης: Συμβουλευτική Επιτροπή Ιωάννης Βλαχάβας, Καθηγητής (επιβλέπων) Κωνσταντίνος Λάζος, Ομ. Καθηγητής Αθηνά Βακάλη, Επ. Καθηγήτρια Εξεταστική Επιτροπή Ιωάννης Βλαχάβας, Καθηγητής Ιωάννης Μανωλόπουλος, Καθηγητής Κωνσταντίνος Καρανίκας, Καθηγητής Αθηνά Βακάλη, Επ. Καθηγήτρια Βασίλειος Βερύκιος, Επ. Καθηγητής Νικόλαος Βασιλειάδης, Επ. Καθηγητής Ελευθέριος Αγγελής, Επ. Καθηγητής

4 Χρήστος Μπερμπερίδης Α.Π.Θ. «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» Η έγκριση της παρούσης διδακτορικής διατριβής από το Τμήμα Πληροφορικής δεν υποδηλώνει αποδοχή των γνωμών του συγγραφέως (Ν. 5343/1932, άρθρο 202, παρ. 2)

5 Ευχαριστίες Η διατριβή αυτή εκπονήθηκε στο Εργαστήριο Γλωσσών Προγραμματισμού και Τεχνολογίας Λογισμικού του Τμήματος Πληροφορικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, εντός της ομάδας Μηχανικής Μάθησης και Ανακάλυψης Γνώσης. Θέλω να εκφράσω τις θερμές, ειλικρινείς ευχαριστίες μου στον επιβλέποντα της διατριβής μου, Καθηγητή κ. Ιωάννη Βλαχάβα, για την εμπιστοσύνη που μου έ- δειξε από τα χρόνια των προπτυχιακών μου σπουδών και τον απεριόριστο χρόνο που αφιέρωσε στην καθοδήγησή μου κατά τη διάρκεια της εκπόνησης της διατριβής, τόσο σε επιστημονικά θέματα όσο και σε θέματα χαρακτήρα και ήθους. Θα ήθελα επίσης να τον ευχαριστήσω γιατί μου έδωσε τη δυνατότητα να συμμετάσχω σε διάφορα ε- ρευνητικά και αναπτυξιακά έργα, τα οποία αποτέλεσαν πηγή σημαντικής επαγγελματικής εμπειρίας αλλά και οικονομικής βοήθειας. Θα ήθελα ακόμη να ευχαριστήσω τον Ομότιμο Καθηγητή κ. Κωνσταντίνο Λάζο, τον εκλιπόντα Καθηγητή Γεώργιο Μπλέρη και την Επίκουρη Καθηγήτρια κα. Αθηνά Βακάλη, που διετέλεσαν μέλη της συμβουλευτικής μου επιτροπής, για την πολύτιμη καθοδήγηση και συμπαράσταση. Ιδιαίτερη συμβολή στην ολοκλήρωση της διατριβής είχαν επίσης ο Επίκουρος Καθηγητής Ελευθέριος Αγγελής και ο υποψήφιος διδάκτορας Γιώργος Τζανής, τους οποίους και ευχαριστώ θερμά για την άριστη συνεργασία. Πολύτιμη ήταν επίσης και η συμπαράσταση και η καθοδήγηση που μου παρείχε ο Επίκουρος Καθηγητής κ. Νικόλαος Βασιλειάδης. Στα πρώτα μου βήματά ως υποψήφιος διδάκτορας, είχα την τύχη να συνεργαστώ με τους καθηγητές Ahmed Elmagarmid, Aref Walid και Mikhail Attalah του πανεπιστημίου Purdue, οι οποίοι με τίμησαν με τη συνεργασία τους και με στήριξαν κατά τη διάρκεια της διαμονής μου στην Αμερική. Κατά τη διάρκεια της εκπόνησης της διατριβής καθοριστικής σημασίας ήταν για μένα η αρμονική συνύπαρξη, η άριστη συνεργασία και η αλληλοβοήθεια των μελών της ομάδας Λογικού Προγραμματισμού και Ευφυών Συστημάτων. Ιδιαίτερα λοιπόν θα ήθελα να ευχαριστήσω τους Φώτη Κόκκορα, Γρηγόρη Τσουμάκα, Δημήτρη Βράκα, Ηλία Σακελλαρίου, Γιάννη Κατάκη, Γιάννη Παρτάλα, Στράτο Κοντόπουλο και Γιώργο Μεδίτσκο. Οι συζητήσεις μας υπήρξαν εποικοδομητικές αλλά και απολαυστικές. Τη βαθιά μου ευγνωμοσύνη θέλω να εκφράσω στα μέλη της οικογένειάς μου, τους γονείς μου Άννα και Νίκο και την αδελφή μου Χρυσάνθη για τη υποστήριξη και την παρότρυνση που με αγάπη μου παρείχαν όλα αυτά τα χρόνια. Τέλος, βαθύτατα υποχρεωμένος νοιώθω απέναντι στη Μαρία για την κατανόηση, τη συμπαράσταση και την υπομονή της.

6

7 Περίληψη Σήμερα, οι τεχνικές ανακάλυψης γνώσης από βάσεις δεδομένων έχουν πλέον ωριμάσει και ενσωματωθεί σε εμπορικά πακέτα λογισμικού για επιχειρήσεις και οργανισμούς όλων των ειδών. Οι εφαρμογές της εκτείνονται από τον τομέα της υγείας, μέχρι τις τράπεζες, τις επιχειρήσεις, τον παγκόσμιο ιστό και τη μοριακή βιολογία, ακολουθώντας κατά πόδας τη διείσδυση της πληροφορικής σε όλους τους τομείς της ανθρώπινης δραστηριότητας. Η ολοένα και αυξανόμενη ποικιλία των εφαρμογών της σε συνδυασμό με την άφθονη επεξεργαστική ισχύ και τα διαθέσιμα μέσα αποθήκευσης, δημιουργούν την ανάγκη για ακόμα περισσότερες τεχνικές, ακόμα πιο εξειδικευμένους αλγορίθμους με ακόμα μεγαλύτερη αποτελεσματικότητα και ταχύτητα. Η εξέλιξη σε πολλούς τομείς, όπως η Μοριακή Βιολογία, εξαρτάται άμεσα από τη διαθεσιμότητα και την απόδοση των αντίστοιχων εργαλείων ανακάλυψης γνώσης. Λαμβάνοντας μάλιστα υπόψη ότι οι αλγόριθμοι γενικής χρήσης δε μπορούν να αποδώσουν εξίσου καλά με τους εξειδικευμένους και πως η ανακάλυψη γνώσης είναι μια διαδικασία ημιαυτόματη, που εξαρτάται άμεσα από την καθοδήγηση του χρήστη, α- ντιλαμβάνεται κανείς την αναγκαιότητα ανάπτυξης νέων τεχνικών και βελτίωσης των υπαρχουσών. Η παρούσα διατριβή πραγματεύεται ένα σύνολο τεχνικών ανακάλυψης γνώσης από ακολουθίες και από δεδομένα συναλλαγών. Και οι δύο κατηγορίες δεδομένων χαρακτηρίζονται από την ιδιότητα της διάταξης κατά μήκος μιας (τουλάχιστο) διάστασης. Συγκεκριμένα για την πρώτη κατηγορία, στην παρούσα διατριβή αναφέρονται δύο κεφάλαια. Στο πρώτο από αυτά προτείνεται ένας νέος αλγόριθμος για την ανακάλυψη ασθενών περιοδικοτήτων σε βάσεις δεδομένων διακριτών χρονοσειρών. Ο προτεινόμενος αλγόριθμος βασίζεται στη συνάρτηση κυκλικής αυτοσυσχέτισης για την εξαγωγή ενός περιορισμένου συνόλου υποψήφιων περιόδων, που χρησιμοποιούνται για την εξόρυξη περιοδικών προτύπων. Το δεύτερο κεφάλαιο αυτής της κατηγορίας, εντάσσεται στο πλαίσιο της Βιοπληροφορικής. Προτείνεται μια νέα μεθοδολογία για την ακριβή πρόβλεψη του σημείου έναρξης της βιολογικής διαδικασίας της μετάφρασης σε μια γονιδιακή ακολουθία. Η μεθοδολογία αυτή προσεγγίζει το πρόβλημα με δομημένο τρόπο, ενσωματώνοντας βιολογική γνώση στη διαδικασία εξόρυξης, επιτυγχάνοντας ιδιαίτερα υψηλά ποσοστά ακρίβειας. Στη δεύτερη κατηγορία δεδομένων (στις συναλλαγές) αφιερώνονται επίσης δύο κεφάλαια της διατριβής. Το πρώτο από αυτά περιλαμβάνει έναν νέο αλγόριθμο για την πρόβλεψη σπανίων γεγονότων σε μια βάση δεδομένων συναλλαγών. Ο αλγόριθμος αυτός ενσωματώνει τη χρονική (ή ακολουθιακή) πληροφορία της συναλλαγής στα αντικείμενα που περιέχει, ώστε να προβλέψει με ακριβή τρόπο την εμφάνιση ε- νός σπανίου αντικειμένου. Στο δεύτερο κεφάλαιο αυτής της κατηγορίας, ορίζεται ένα νέο πρόβλημα, εκείνο της ανακάλυψης αμοιβαίως αποκλειόμενων αντικειμένων από βάσεις δεδομένων συναλλαγών και προτείνονται κατάλληλες μετρικές, μαζί με έναν αλγόριθμο για την εξόρυξή τους.

8

9 Abstract Knowledge Discovery from Sequential and Transactional Data Although Knowledge Discovery in Databases is a young field of research and application, having its roots in the late 1980s, it is already mature enough to offer useful analytical tools, embedded in popular software packages, for all kinds of businesses and organizations. Its applications cover the entire spectrum of human activity, from healthcare and molecular biology to banking, commerce, industry and education. This growing variety of applications along with the vast amounts of storage and computing power available increases the need for more algorithms that are application-specific, faster and more effective. The importance of Knowledge Discovery in Databases (KDD) is further established by the fact that the progress and development of several fields (such as Molecular Biology) largely depends on its ability to deliver reliable and powerful techniques. Considering also that general purpose algorithms often fail to reach the performance standards set by real-world applications and the fact that KDD is a semi-automatic procedure that requires human guidance and intervention, one can understand the urgent need for new, specialized techniques as well as the improvement of existing ones. This thesis concerns a set of techniques for knowledge discovery from sequential and transactional data. Both data categories share a common property, namely order, along (at least) one dimension. Specifically, two chapters of this thesis refer to the first data category. In the first one, a novel algorithm is proposed for the discovery of weak periodicities in discrete time series data. The algorithm is based on the circular autocorrelation function for the extraction of a refined set of candidate periodicities, used for mining periodic patterns. The second chapter that concerns sequential data belongs to the research field of Bioinformatics. A new data mining methodology is developed for the prediction of the initiation site of the biological process of translation, in genome sequences. The proposed methodology identifies the main components of this problem and assigns a computational component to each separately, in a modular fashion, achieving a high level of accuracy. The contribution of the thesis to knowledge discovery from transactional data is also twofold, covering two chapters. In the first one, a new algorithm is proposed for the prediction of rare events. The algorithm adopts an intuitive framework, embeds the temporal information of the transaction in its items, delivering predictive patterns timely and effectively. In the second chapter of this category, the novel problem of mining for mutually exclusive items is introduced and formulated and a set of metrics, along with a mining algorithm are provided.

10

11 Περιεχόμενα Κεφάλαιο 1 «Εισαγωγή» Ανακάλυψη Γνώσης από Βάσεις Δεδομένων Σύντομη Ανασκόπηση της Ερευνητικής Περιοχής Η Κατάσταση Σήμερα Συμβολή και Δομή της Διατριβής... 9 Κεφάλαιο 2 «Ανακάλυψη Γνώσης από Βάσεις Δεδομένων» Η πληθώρα των δεδομένων Ανακάλυψη Γνώσης από Βάσεις Δεδομένων Είδη δεδομένων προς εξόρυξη Τα στάδια της διαδικασίας Ανακάλυψης Γνώσης από ΒΔ Στόχοι της Ανακάλυψης Γνώσης από Βάσεις Δεδομένων Μηχανική Μάθηση Είδη μοντέλων και προτύπων Προβλήματα στην Ανακάλυψη Γνώσης από ΒΔ Προβλήματα μεθοδολογίας Προβλήματα απόδοσης Προβλήματα λόγω της ποικιλίας των τύπων δεδομένων Συμπεράσματα Κεφάλαιο 3 «Ανακάλυψη Ασθενών Περιοδικοτήτων σε Χρονοσειρές» Εισαγωγή Σχετικές Εργασίες Ανακάλυψη Μερικών Περιοδικοτήτων Ορισμοί Ανακάλυψη Μερικών Περιοδικοτήτων Ο Αλγόριθμος PPD Η Φάση Φιλτραρίσματος Πειραματικά Αποτελέσματα Θέματα απόδοσης του PPD Η Φάση «Ραφιναρίσματος» Ανακάλυψη Κατά Προσέγγιση Περιοδικοτήτων Ο Αλγόριθμος APPD Πειραματικά Αποτελέσματα Συμπεράσματα και Μελλοντική Έρευνα... 49

12 Κεφάλαιο 4 «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» Εισαγωγή Σχετικές Εργασίες Πρόβλεψη με Κανόνες Συσχέτισης και Ακολουθιακά Πρότυπα Άλλες προσεγγίσεις στην πρόβλεψη σπάνιων γεγονότων Ανοικτά προβλήματα στην πρόβλεψη σπανίων γεγονότων Ο Αλγόριθμος PREVENT Ορισμός του προβλήματος Περιγραφή του αλγορίθμου Ανάλυση του αλγορίθμου Η χρήση προτύπων πρόβλεψης αντί για κανόνες Υλοποίηση και πειραματικά αποτελέσματα Πειράματα με συνθετικά δεδομένα Πειράματα με πραγματικά δεδομένα Συμπεράσματα και μελλοντική έρευνα Κεφάλαιο 5 «Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων» Εισαγωγή Βασικές έννοιες Σχετικές εργασίες Εξόρυξη αμοιβαίως αποκλειόμενων αντικειμένων Ορισμός του προβλήματος Εξόρυξη γειτονικών συχνών συνόλων αντικειμένων Μετρικές και αλγόριθμος εξόρυξης αμοιβαίως αποκλειόμενων αντικειμένων Παράδειγμα Πειράματα Συζήτηση - Ταξονομίες Συμπεράσματα Κεφάλαιο 6 «Ανακάλυψη Γνώσης από Γονιδιακές Αλληλουχίες» Εισαγωγή Ιστορικά στοιχεία Βασικές έννοιες της Βιολογίας Το κύτταρο Γονίδια και Γονιδίωμα Ανάλυση Βιολογικών Δεδομένων Ανάλυση της Γονιδιακής Έκφρασης Εξόρυξη από Δεδομένα στη Δομική Βιοπληροφορική

13 6.6.3 Εξόρυξη από βιολογικά κείμενα Ερευνητικές τάσεις Πρόβλεψη του Σημείου Έναρξης Μετάφρασης Περιγραφή του προβλήματος της πρόβλεψης του ΣΕΜ Σχετική βιβλιογραφία Η μεθοδολογία MANTIS Τα σύνολα δεδομένων Πειραματικά αποτελέσματα Συμπεράσματα Κεφάλαιο 7 «Επίλογος» Συμπεράσματα Μελλοντική Έρευνα Αναφορές Ενδιαφέροντες Σύνδεσμοι

14

15 Πίνακας Εικόνων Εικόνα Αριθμός εργασιών που υποβλήθηκαν σε 2 από τα σημαντικότερα παγκόσμια συνέδρια, από το Εικόνα Τα στάδια της διαδικασίας Ανακάλυψης Γνώσης από Βάσεις Δεδομένων Εικόνα 3.1- Κυκλική αυτοσυσχέτιση, όταν το μήκος της ακολουθίας είναι πολλαπλάσιο του μήκους της περιόδου Εικόνα Χρόνοι εκτέλεσης του PPD σε συνάρτηση με το μήκος της ακολουθίας Εικόνα Χρόνοι εκτέλεσης του PPD σε συνάρτηση με το μέγεθος του αλφαβήτου Εικόνα Κυκλική αυτοσυσχέτιση όταν το μήκος της ακολουθίας δεν είναι ακέραιο πολλαπλάσιο της περιόδου Εικόνα Η κυκλική αυτοσυσχέτιση ακολουθίας με συνεχόμενες εμφανίσεις του ίδιου συμβόλου Εικόνα Η κυκλική αυτοσυσχέτιση του διανύσματος u του παραδείγματος Εικόνα Η κυκλική αυτοσυσχέτιση του διανύσματος v του παραδείγματος Εικόνα Η κυκλική αυτοσυσχέτιση του διανύσματος w του παραδείγματος Εικόνα Η περίοδος πρόβλεψης Εικόνα 4.2- Παράδειγμα μετασχηματισμού Εικόνα Ο αλγόριθμος FP-Growth Εικόνα Ο αλγόριθμος PREVENT Εικόνα 4.5- Χρόνος εκτέλεσης σε συνάρτηση με τον αριθμό των υπερσυναλλαγών 72 Εικόνα Τα τρία βήματα του αλγορίθμου εξόρυξης Εικόνα Η τοπική μετρική (LM) ως προς την τοπική υποστήριξη των υποψήφιων

16 αμοιβαίως αποκλειόμενων αντικειμένων Εικόνα Διαγράμματα Venn ενός ζεύγους υποψήφιων αμοιβαίως αποκλειόμενων αντικειμένων Εικόνα 5.4- Χρόνοι εκτέλεσης του αλγορίθμου εξόρυξης Εικόνα Μια ταξονομία προϊόντων καφέ Εικόνα Αύξηση της GenBank ( ) Εικόνα Οι James Watson και Francis Crick παρουσιάζουν το μοντέλο τους με τη διπλή έλικα του DNA Εικόνα 6.3- Η ροή της πληροφορίας στις βιολογικές αλληλουχίες Εικόνα Οι βασικές δομικές μονάδες του κυττάρου Εικόνα Ζωικό κύτταρο - 1. Πυρηνίσκος 2. Πυρήνας 3. Ριβόσωμα 4. Κυστίδιο 5. Αδρό ενδοπλασματικό δίκτυο 6. Σωμάτιο Golgi 7. Κυτταρικός σκελετός 8. Λείο ενδοπλασματικό δίκτυο 9. Μιτοχόνδριο 10. Κενοτόπιο 11. Κυτταρόπλασμα 12. Λυσόσωμα 13. Κεντρύλλιο Εικόνα Σχέση γονιδίου - χρωμοσώματος Εικόνα Η διαδικασία ματίσματος (splicing) του RNA Εικόνα Η διαδικασία έναρξης της μετάφρασης Εικόνα Η αρχιτεκτονική της μεθοδολογίας MANTIS Εικόνα Ποσοστό απώλειας ΣΕΜ προς τον αριθμό των επιλεγμένων ATG, χρησιμοποιώντας MLR Εικόνα Ποσοστό απώλειας ΣΕΜ προς τον αριθμό των επιλεγμένων ATG, χρησιμοποιώντας M

17 Κεφάλαιο 1 «Εισαγωγή» 1.1 Ανακάλυψη Γνώσης από Βάσεις Δεδομένων Από τα μέσα της δεκαετίας του 90 και με την επανάσταση του παγκόσμιου ιστού, έγινε φανερό ότι ο όγκος των αποθηκευμένων δεδομένων σε ηλεκτρονική μορφή θα ξεπερνούσε κάθε προηγούμενη πρόβλεψη. Σύμφωνα με μελέτη της εταιρείας IDC (Ganz, et al., 2007), η ανθρωπότητα παρήγαγε κατά το 2006 περισσότερα από 161 δισεκατομμύρια Gigabyte (161 Exabyte) ενώ εκτιμά ότι το 2010 θα φτάσει το 1 Zetabyte. Τα δεδομένα αυτά αφορούν πολυμέσα, ιστοσελίδες, ηλεκτρονικά μηνύματα, δεδομένα αισθητήρων, δεδομένα συναλλαγών, τηλεπικοινωνιών κλπ. και αποθηκεύονται σε διάφορες μορφές, δομημένα, ημιδομημένα, αδόμητα, συμπιεσμένα, ασυμπίεστα, μετασχηματισμένα, κρυπτογραφημένα, με διάφορα είδη και επίπεδα θορύβου κ.α. Η ποικιλία των τύπων δεδομένων πηγάζει από την ποικιλία και τα ιδιαίτερα χαρακτηριστικά των εφαρμογών που τα παράγουν. Έτσι, τα δεδομένα αυτά αποτυπώνουν ιστορικά στοιχεία, πειραματικά αποτελέσματα, την ανθρώπινη έκφραση και δημιουργία και διάφορα άλλα είδη κωδικοποιημένης πληροφορίας. Η ερευνητική περιοχή της Ανακάλυψης Γνώσης από Βάσεις Δεδομένων προέκυψε από την ανάγκη αξιοποίησης των δεδομένων αυτών. Μάλιστα, ο όρος «Ανακάλυψη Γνώσης από Βάσεις Δεδομένων» συνήθως αναφέρεται σε μια σύνθετη διαδικασία, στην οποία κεντρικό ρόλο κατέχει το στάδιο της Εξόρυξης από Δεδομένα (data mining). Κατά το στάδιο αυτό εκτελούνται οι αλγόριθμοι εξαγωγής της επιθυμητής

18 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» γνώσης. Σήμερα, οι όροι «Ανακάλυψη Γνώσης από Βάσεις Δεδομένων» και «Εξόρυξη από Δεδομένα» συχνά χρησιμοποιούνται ως ταυτόσημοι και κατ εναλλαγήν, όπως επίσης συχνή είναι και η χρήση των όρων Ανακάλυψη Γνώσης και Εξόρυξη Γνώσης. 1.2 Σύντομη Ανασκόπηση της Ερευνητικής Περιοχής Το 1981, ο καθηγητής Gio Wiederhold με τον τότε φοιτητή του Robert Blum ανέπτυξαν το πρόγραμμα Rx (Blum, 1981), το οποίο ανέλυε ιστορικά δεδομένα περίπου ασθενών, αναζητώντας απρόβλεπτες παρενέργειες φαρμάκων. Το Rx θεωρείται ίσως το πρώτο πρόγραμμα Ανακάλυψης Γνώσης από Βάσεις Δεδομένων (Piatetsky-Shapiro G., 2000). Μέχρι τότε υπήρχε ο όρος «Data Mining» (Εξόρυξη από Δεδομένα), που είχε μια ιδιαίτερα περιορισμένη έννοια και έμοιαζε ήδη ξεπερασμένος στα στενά όρια των δένδρων απόφασης και των βασικών στατιστικών πρακτικών σε σχεσιακές βάσεις δεδομένων. Είναι μάλιστα χαρακτηριστικό ότι τον όρο data mining τον χρησιμοποιούσαν οι στατιστικοί εκφράζοντας το σκεπτικισμό τους για τις υπολογιστικές μεθόδους ανακάλυψης γνώσης, που δεν τις έβρισκαν τόσο «επιστημονικές» συγκριτικά με τις δικές τους. Το 1989, ο Gregory Piatetsky-Shapiro, εργαζόμενος τότε για την εταιρεία General Telephone and Electronics (GTE), σε πείσμα όσων θεωρούσαν το πεδίο αυτό ως παρωχημένο, διοργάνωσε μια συνεδρία (workshop) στο πλαίσιο του International Joint Conference on Artificial Intelligence (IJCAI 89) με τίτλο «Knowledge Discovery in Databases» (KDD-89) (Piatetsky-Shapiro G., 1991). Πιστεύοντας ότι «η αύξηση του όγκου των διαθέσιμων βάσεων δεδομένων ξεπερνά κατά πολύ την αύξηση της αντίστοιχης γνώσης» και με τη ενθάρρυνση των Jaime Carbonell (CMU), Bud Frawley (GTE), Kamran Parsaye (IntelligenceWare), Ross Quinlan (U. of Sydney), Michael Siegel (BU) και Sam Uthurusamy (GM Research), ο Piatetsky-Shapiro διοργάνωσε τη συνεδρία αυτή, που αποτελεί το ορόσημο της απαρχής μιας νέας περιοχής έρευνας και εφαρμογής, με αναρίθμητες πτυχές και εφαρμογές, που ονομάζεται «Ανακάλυψη Γνώσης από Βάσεις Δεδομένων» ή KDD από τα αρχικά του Knowledge Discovery in Databases. Η Ανακάλυψη Γνώσης από Βάσεις Δεδομένων, έχοντας τις ρίζες της σε άλλες μεγάλες ερευνητικές περιοχές (βάσεις δεδομένων, τεχνητή νοημοσύνη, μηχανική μά- 2

19 Κεφάλαιο 1 - «Εισαγωγή» θηση κλπ.), αποτέλεσε την εφαρμογή τους σε μεγάλο όγκο πραγματικών δεδομένων, για την επίλυση πραγματικών προβλημάτων. Αυτό είχε αρχικά ως αποτέλεσμα ένα σημαντικό μέρος των συνεδρίων και των περιοδικών των περιοχών αυτών να αφιερώνεται σε εργασίες της νέας αυτής ερευνητικής περιοχής. Το επόμενο στάδιο ήταν να αποκτήσει τα δικά της επιστημονικά φόρουμ, με κεντρικό άξονα την καινοτομία και την εξέλιξη των ίδιων των τεχνικών της. Τα τελευταία χρόνια όμως διοργανώνονται συνεδρίες και εκδίδονται ειδικά τεύχη περιοδικών (special issues) με αντικείμενο συγκεκριμένες εφαρμογές της Εξόρυξης από Δεδομένα. Μπορούμε λοιπόν να ταξινομήσουμε τα συνέδρια και τα περιοδικά της περιοχής σε τρεις κατηγορίες: εκείνα που αντιμετωπίζουν την εξόρυξη από δεδομένα ως εφαρμογή μιας άλλης περιοχής, τα «καθαρά» συνέδρια και περιοδικά εξόρυξης από δεδομένα και εκείνα που αφορούν σε εφαρμογές της. Με αυτήν τη σειρά αναφέρονται παρακάτω τα σημαντικότερα από αυτά. Στην πρώτη κατηγορία ενδεικτικά αναφέρονται τα σημαντικότερα συνέδρια περιοχών που προϋπήρχαν της ανακάλυψης γνώσης από βάσεις δεδομένων και από το 1989 και μετά άρχισαν να αφιερώνουν συνεδρίες σε εργασίες της: Very Large Databases (VLDB), International Conference on Machine Learning (ICML), IEEE International Conference on Data Engineering (ICDM), International Joint Conference on Artificial Intelligence (IJCAI). Στην Ευρώπη αντίστοιχο συνέδριο είναι το European Conference on Machine Leaning (ECML). Παράλληλα, διάφορα περιοδικά επέκτειναν τα πεδία ενδιαφέροντός τους, συμπεριλαμβάνοντας και την ανακάλυψη γνώσης από βάσεις δεδομένων. Τέτοια περιοδικά είναι τa IEEE Transactions on Knowledge and Data Engineering (TKDE), Journal of Machine Learning Research (JMLR), IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Machine Learning, IEEE Intelligent Systems, Very Large Databases Journal (VLDB), Artificial Intelligence (AI), Data and Knowledge Engineering, Journal of Artificial Intelligence Research (JAIR), International Journal of Artificial Intelligence Tools (IJAIT) και πολλά άλλα. Τα πρώτα συνέδρια με βασικό αντικείμενο την Εξόρυξη από Δεδομένα ήταν εκείνα που ξεκίνησαν με τη συνεδρία KDD στο IJCAI-89 και που συνεχίστηκαν με μια σειρά όμοιων συνεδριών μέχρι το Tο 1995 συστήθηκε από την ACM το «Special Interest Group on Knowledge Discovery and Data Mining» (SIGKDD) και 3

20 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» μαζί ξεκίνησε και η διοργάνωση του πρώτου μεγάλου διεθνούς συνεδρίου «International Conferences on Knowledge Discovery in Databases and Data Mining» (KDD- 95) που διεξάγεται ανελλιπώς κάθε χρόνο, μέχρι σήμερα. Ακολούθησε και η ΙΕΕΕ το 2001 με το δικό της αντίστοιχο ετήσιο συνέδριο, το ΙΕΕΕ International Conference on Data Mining (ICDM). Την ίδια χρονιά, και η Society for Industrial and Applied Mathematics (SIAM) διοργάνωσε το πρώτο SIAM International Conference on Data Mining. Σε Ευρωπαϊκό επίπεδο, τα σημαντικότερα συνέδρια είναι το Principles and Practice of Knowledge Discovery in Databases (PKDD), το Intelligent Data Analysis (IDA), το Machine Learning and Data Mining (MLDM) και το Data Warehousing and Knowledge Discovery (DaWaK), ενώ αξίζει να αναφερθεί και το Ασιατικό (Pacific- Asian Conference on Knowledge Discovery and Data Mining PAKDD). To 1997 ιδρύθηκε το πρώτο περιοδικό με αμιγώς KDD περιεχόμενο, το «Data Mining and Knowledge Discovery» (DMKD) από την Kluwer Academic Publishers (σήμερα εκδίδεται από τη Springer Verlag). Ακολούθησαν και άλλα σημαντικά περιοδικά, όπως το Intelligent Data Analysis (IDA) της IOS Press, το International Journal of Data Warehousing and Mining (IJDWM) της IDEA Group Publishing, ενώ το 2007 εκδόθηκε για πρώτη φορά το περιοδικό Transactions on Knowledge Discovery from Data (TKDD) της ACM. Μετά από την πρόοδο της τελευταίας δεκαετίας και την ωρίμανση των μεθόδων εξόρυξης, οι επιτυχημένες εφαρμογές της άρχισαν να παρουσιάζονται σε συνεδρίες μεγάλων συνεδρίων και περιοδικών, της πληροφορικής αλλά και άλλων επιστημονικών περιοχών, όπως η Βιολογία, η Μηχανική και τα Οικονομικά. Ενδεικτικά αναφέρονται μερικά σημαντικά συνέδρια και συνεδρίες: ACM SIGKDD «Data Mining in Bioinformatics» (BioKDD), «Web Mining and Web Usage Analysis» (WebKDD), IEEE/WIC/ACM International Conference on Web Intelligence (WI), International Conference on Intelligent Systems for Molecular Biology (ISMB), European Conference on Computational Biology (ECCB). Τον Φεβρουάριο του 2002 ξεκίνησε το Ευρωπαϊκό δίκτυο αριστείας KDNet (Knowledge Discovery Network of Excellence), υπό τη χρηματοδότηση της Ευρωπαϊκής Επιτροπής, στο πλαίσιο του 5ου Προγράμματος Πλαισίου. Ξεκίνησε με 29 φορείς από όλη την Ευρώπη, ενώ στη συνέχεια προστέθηκαν και άλλοι κόμβοι από όλον τον κόσμο, φτάνοντας τελικά τους 130 και δημιουργώντας το μεγαλύτερο δίκτυο α- 4

21 Κεφάλαιο 1 - «Εισαγωγή» ριστείας Εξόρυξης από Δεδομένα μέχρι σήμερα. Κόμβοι του KDNet ήταν και η ερευνητική ομάδα Λογικού Προγραμματισμού και Ευφυών Συστημάτων, όπως και το εργαστήριο Βάσεων Δεδομένων. του Τμήματος Πληροφορικής Α.Π.Θ. Αποτέλεσε τη φυσική συνέχεια του MLNet (European Machine Learning Network of Excellence) και ολοκληρώθηκε τον Ιούνιο του Από τότε, έχουν δημιουργηθεί διάφορα άλλα μικρότερα δίκτυα αριστείας, με πιο εξειδικευμένο αντικείμενο, όπως το NEMIS (European Network of Excellence (NoE) in Text Mining and its Applications in Statistics). Σε επίπεδο ενημέρωσης, ο ερευνητής και ο επαγγελματίας της Ανακάλυψης Γνώσης προτιμά τις ηλεκτρονικές περιοδικές ενημερωτικές εκδόσεις (newsletters) KDNuggets και DBWorld. Το πρώτο ξεκίνησε το 1997 και ανήκει στον Gregory Piatetsky-Shapiro, είναι εξειδικευμένο σε θέματα που αφορούν την Εξόρυξη από Δεδομένα, τόσο σε επίπεδο εφαρμογής όσο και σε επίπεδο έρευνας και έχει περισσότερους από αποδέκτες. Το δεύτερο, αν και ξεκίνησε εστιάζοντας στις Βάσεις Δεδομένων, έχει πλέον περιεχόμενο που αφορά σχεδόν όλα τα «όμορα» πεδία, όπως η Ανακάλυψη Γνώσης, το Σημασιολογικό Διαδίκτυο, η Τεχνητή Νοημοσύνη κλπ Η Κατάσταση Σήμερα Κάθε χρόνο διεξάγονται δεκάδες διεθνή καταξιωμένα συνέδρια με στόχο την προαγωγή της έρευνας στην Ανακάλυψη Γνώσης. Η Εικόνα 1.1 δείχνει τη ραγδαία αύξηση που εμφανίζει ο αριθμός των εργασιών που υποβάλλονται στα 2 σημαντικότερα από αυτά. Είναι χαρακτηριστικό ότι από το 2001 οι εργασίες έχουν υπερδιπλασιαστεί, κάτι που δείχνει ότι το ενδιαφέρον στην περιοχή αυτή όχι μόνο είναι αμείωτο αλλά αυξάνεται με γοργούς ρυθμούς. Τον Οκτώβριο του 2005 οι Qiang Yang και Xindong Wu ανέλαβαν μια πρωτοβουλία ζητώντας από μέλη των οργανωτικών επιτροπών των συνεδρίων ICDM και KDD να προσδιορίσουν τα δέκα σημαντικότερα ανοιχτά προβλήματα στην Εξόρυξη από Δεδομένα (Yang & Wu, 2006). Στην έρευνα αυτή, στην οποία ανταποκρίθηκαν 14 ερευνητές 1, τα συμπεράσματα ήταν τα ακόλουθα: 1 Pedro Domingos, Charles Elkan, Johannes Gehrke, Jiawei Han, David Heckerman, Daniel Keim, Jiming Liu, David Madigan, Gregory Piatetsky-Shapiro, Vijay V. Raghavan, Rajeev Rastogi, 5

22 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» 1. Ανάπτυξη μιας ενιαίας θεωρίας Εξόρυξης από Δεδομένα Πολλοί επιστήμονες επισημαίνουν ότι ο τρόπος με τον οποίο εφαρμόζεται η Α- νακάλυψη Γνώσης από Βάσεις δεδομένων είναι ad-hoc και ότι θα ήταν χρήσιμη μια ενιαία θεωρία που θα έθετε τις βάσεις για την πορεία της έρευνας. Εικόνα Αριθμός εργασιών που υποβλήθηκαν σε 2 από τα σημαντικότερα παγκόσμια συνέδρια, από το Κλιμάκωση για πολυδιάστατα δεδομένα και ροές δεδομένων υψηλής ταχύτητας Η ανάπτυξη αλγορίθμων για δεδομένα που περιγράφονται από πολύ μεγάλο α- ριθμό χαρακτηριστικών αλλά και για ροές δεδομένων (data streams) που το μέγεθός τους μπορεί να φτάσει εύκολα σε εκατοντάδες Terabyte και που αποτυπώνουν έννοιες που μεταβάλλονται στο χρόνο είναι ιδιαίτερα σημαντικές προκλήσεις που παρουσιάζουν μεγάλες δυσκολίες. Τα δίκτυα αισθητήρων και οι εφαρμογές των RFID αποτελούν πηγές ροών δεδομένων, που χρήζουν ανάλυσης και επεξεργασίας από κατάλληλους αλγορίθμους. 3. Εξόρυξη από δεδομένα ακολουθιών και χρονοσειρών Παρ όλη την πρόοδο στο συγκεκριμένο αντικείμενο, υπάρχουν ακόμη προβλήματα που δεν έχουν αντιμετωπιστεί ικανοποιητικά όπως ο θόρυβος και η μη αξι- Salvatore J. Stolfo, Alexander Tuzhilin και Benjamin W. Wah 6

23 Κεφάλαιο 1 - «Εισαγωγή» οποίηση πληροφορίας σε σημασιολογικό επίπεδο. Η παρούσα διατριβή επιχειρεί να αντιμετωπίσει ορισμένα από τα ανοιχτά ζητήματα που προκύπτουν από τα ι- διαίτερα χαρακτηριστικά των δεδομένων αυτών. 4. Εξόρυξη πολύπλοκης γνώσης από πολύπλοκα δεδομένα Σε αυτήν την κατηγορία εντάσσονται τα δεδομένα από πολλαπλούς πίνακες (multi-relational), τα δεδομένα γράφων και τα μη σχεσιακά δεδομένα (κείμενο, ιστοσελίδες, εικόνες, κλπ.). 5. Εξόρυξη από δεδομένα σε δικτυακό περιβάλλον Το πρόβλημα αυτό αφορά τόσο δίκτυα δεδομένων (για βελτίωση απόδοσης και ανίχνευση παραβιάσεων) όσο και κοινωνικά δίκτυα (ιστοσελίδες, ιστολόγια, η- λεκτρονική αλληλογραφία κλπ.) για την εξαγωγή γνώσης σχετικά με κοινότητες χρηστών. 6. Εξόρυξη από κατανεμημένα δεδομένα και δεδομένα πολλαπλών πρακτόρων Το πρόβλημα της εξόρυξης γνώσης από κατανεμημένα συστήματα είναι ιδιαίτερα σημαντικό σε δικτυακά περιβάλλοντα, όπου απαιτείται η ανακάλυψη προτύπων και η δημιουργία μοντέλων με τη μικρότερη δυνατή διακίνηση δεδομένων στο δίκτυο, τόσο για λόγους απαιτήσεων εύρους ζώνης όσο και για την ασφάλεια των δεδομένων. Επίσης, ένα από τα προβλήματα που προκύπτουν είναι και η ε- τερογένεια των διαφόρων πηγών δεδομένων, όπως στο διαδίκτυο. 7. Εξόρυξη από δεδομένα για βιολογικά και περιβαλλοντολογικά προβλήματα Η έκρηξη της έρευνας στην πληροφορική τις τελευταίες δύο δεκαετίες έχει συνοδευτεί και από μια αντίστοιχη έκρηξη στην έρευνα στις ανθρωπιστικές επιστήμες, οι οποίες εκμεταλλεύονται τα καινούρια εργαλεία επεξεργασίας δεδομένων που τους παρέχονται για την επίλυση των προβλημάτων που τους απασχολούν. Έτσι, ιδιαίτερη διείσδυση έχει παρουσιάσει η ανακάλυψη γνώσης από βάσεις δεδομένων σε προβλήματα μοριακής βιολογίας (όπως η τρισδιάστατη μοντελοποίηση των πρωτεϊνών και ο προσδιορισμός των λειτουργικών τμημάτων των γονιδιακών αλληλουχιών), και περιβαλλοντολογικά προβλήματα, όπως η βέλτιστη αξιοποίηση των φυσικών πόρων και η πρόβλεψη ακραίων καιρικών φαινομένων. Το έκτο κεφάλαιο της παρούσας διατριβής είναι αφιερωμένο σε ένα βιολογικό πρόβλημα, αυτό της πρόβλεψης του σημείου έναρξης της μετάφρασης σε μια γονιδιακή ακολουθία. 7

24 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» 8. Προβλήματα σχετικά με τις διαδικασίες Εξόρυξης Γνώσης Για τη βελτίωση των παρεχόμενων υπηρεσιών εξόρυξης από δεδομένα, πολλοί ερευνητές προτείνουν την τυποποίηση και αυτοματοποίηση ορισμένων διαδικασιών (όπως π.χ. ο καθαρισμός των δεδομένων) προκειμένου να αποφεύγεται ένα μεγάλο ποσοστό συνηθισμένων λαθών αλλά και για την ελαχιστοποίηση της ανθρώπινης εργασίας. Έτσι, για παράδειγμα, υπολογίζεται ότι το 90% του κόστους της διαδικασίας ανακάλυψης γνώσης από βάσεις δεδομένων εντοπίζεται στο στάδιο της προεπεξεργασίας και όχι στον πυρήνα της, τη δημιουργία δηλαδή του μοντέλου ή την ανακάλυψη των προτύπων. 9. Ασφάλεια, προστασία απορρήτου και ακεραιότητα δεδομένων Η προστασία του απορρήτου των δεδομένων είναι ένα από τα ζητήματα της εξόρυξης από δεδομένα με το μεγαλύτερο κοινωνικό αντίκτυπο. Έτσι, η διαδικασία ανακάλυψης γνώσης από βάσεις δεδομένων, που έχει πρόσβαση στα δεδομένα του πελάτη, οφείλει να λαμβάνει όλα εκείνα τα μέτρα που απαιτούνται για την προστασία του από κακή χρήση ή από διαρροή τους. Μάλιστα, ορισμένες φορές τα προς επεξεργασία δεδομένα είναι σκόπιμα αλλοιωμένα, ώστε να αποφευχθεί κάτι τέτοιο. Για τον ειδικό της εξόρυξης γνώσης προκύπτει λοιπόν το πρόβλημα της αξιολόγησης της ακεραιότητας όχι μόνο των δεδομένων αλλά και της παραγόμενης γνώσης. Οι σημαντικότερες ερευνητικές προκλήσεις για το πρόβλημα αυτό είναι α) η ανάπτυξη αλγορίθμων που θα συγκρίνουν τη γνώση από δυο διαδοχικές εκδόσεις των δεδομένων και β) η ανάπτυξη αλγορίθμων για τον υπολογισμό της επίδρασης που έχουν διάφορες τροποποιήσεις στα δεδομένα στη στατιστική σημαντικότητα ορισμένων προτύπων. 10. Χειρισμός δεδομένων που δεν είναι στατικά (non-static), που έχουν ανισοκατανομή των κλάσεων (unbalanced) ή που έχουν μεταβαλλόμενο κόστος (cost-sensitive) Τα δεδομένα που χρησιμοποιούνται σε μια διαδικασία ανακάλυψης γνώσης συχνά «πάσχουν» και από διάφορα άλλα ελαττώματα, φέρουν δηλαδή χαρακτηριστικά που δυσχεραίνουν τη διαδικασία εξαγωγής της σωστής γνώσης. Ένα τέτοιο χαρακτηριστικό είναι η μη στατικότητα, όταν δηλαδή αποτυπώνουν μια έννοια που μεταβάλλεται στο χρόνο, όπως οι αγοραστικές συνήθειες των πελατών ενός καταστήματος, σε βάθος χρόνου μιας πενταετίας. Μια άλλη κατηγορία δεδομένων είναι εκείνα στα οποία οι διάφορες τάξεις δεν αντιπροσωπεύονται στο ίδιο ή 8

25 Κεφάλαιο 1 - «Εισαγωγή» σε παρόμοιο ποσοστό, με αποτέλεσμα το παραγόμενο μοντέλο να μη μπορεί να τις διαχωρίσει σωστά. Συχνά, το πλήθος των δεδομένων ξεπερνά τα 10 5 ενώ ορισμένες ενδιαφέρουσες περιπτώσεις μπορεί να έχουν συχνότητα μικρότερη του 1%. Τέλος, είναι σύνηθες να κοστίζει διαφορετικά μια σωστή ή μια λάθος πρόβλεψη, ανάλογα με τα δεδομένα και την τάξη που προβλέπεται, όπως είναι συχνό η απόκτηση κάποιων δεδομένων να έχει διαφορετικό κόστος από κάποια άλλα. 1.3 Συμβολή και Δομή της Διατριβής Η έρευνα που διεξήχθη στο πλαίσιο της παρούσας διατριβής αφορά αλγορίθμους α- νακάλυψης γνώσης από ακολουθιακά δεδομένα και δεδομένα συναλλαγών, ενώ στο τέλος παρουσιάζεται μια εφαρμογή της ανακάλυψης γνώσης σε δεδομένα γονιδιακών ακολουθιών. Το δεύτερο κεφάλαιο της διατριβής περιέχει μια συνοπτική επισκόπηση της ερευνητικής περιοχής της εξόρυξης από δεδομένα, εστιάζοντας κυρίως στα σημεία εκείνα που αφορούν στο αντικείμενό της. Το τρίτο κεφάλαιο πραγματεύεται την ανακάλυψη περιοδικών σημάτων σε δεδομένα διακριτών ή διακριτοποιημένων ακολουθιών. Στα περισσότερα περιοδικά φαινόμενα η περιοδικότητα είναι ατελής. Υπάρχει συνεπώς η ανάγκη για αλγορίθμους εύρεσης ασθενών περιοδικοτήτων και ασθενών περιοδικών προτύπων σε δεδομένα ακολουθιών, όπως για παράδειγμα σε χρονοσειρές, γονιδιακές αλληλουχίες κλπ. Έτσι, προτείνεται ένας νέος αλγόριθμος που βασίζεται στη συνάρτηση αυτοσυσχέτισης και στο γρήγορο μετασχηματισμό Φουριέ για τη γρήγορη εξαγωγή ενός συνόλου υποψήφιων «μερικών» περιοδικοτήτων, για κάθε στοιχείο του αλφαβήτου (της ακολουθίας). Στη συνέχεια, ο αλγόριθμος επεκτείνεται και για την εύρεση «κατά προσέγγιση» περιοδικοτήτων. Οι αλγόριθμοι εφαρμόζονται σε συνθετικά και πραγματικά σύνολα δεδομένων, για την απόδειξη της ορθότητας και τη μέτρηση της απόδοσής τους. Στο τέταρτο κεφάλαιο της εργασίας, περιγράφεται ένας νέος αλγόριθμος (PREVENT) για την εύρεση σπανίων γεγονότων σε δεδομένα συναλλαγών (transaction data). Ο αλγόριθμος βασίζεται σε μια επέκταση του παραδοσιακού μοντέλου κανόνων συσχέτισης που ονομάζονται διασυναλλακτικοί κανόνες συσχέτισης και που μας δίνουν τη δυνατότητα να συσχετίσουμε αντικείμενα που ανήκουν σε διαφορετι- 9

26 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» κές συναλλαγές, βάσει ενός χαρακτηριστικού «διάστασης» (dimensional attribute), όπως ο χρόνος ή ο χώρος. Ο PREVENT είναι ένας γρήγορος αλγόριθμος, που χρησιμοποιεί μια διαδεδομένη δομή για την εύρεση κανόνων συσχέτισης, το FP-δένδρο, ώστε να ανακαλύπτει τους κανόνες εκείνους που προβλέπουν ένα σπάνιο γεγονός με 1 μόνο πέρασμα στην αρχική βάση δεδομένων. Στο πέμπτο κεφάλαιο προσεγγίζεται ένα νέο πρόβλημα ανακάλυψης γνώσης από δεδομένα συναλλαγών και πιο συγκεκριμένα η ανακάλυψη αμοιβαίως αποκλειόμενων αντικειμένων, δηλαδή αντικειμένων που η ύπαρξη του ενός πιθανά συνεπάγεται την απουσία του άλλου στην ίδια συναλλαγή. Το πρόβλημα αυτό μπορεί να έχει διάφορες προεκτάσεις, ειδικά σε δεδομένα που εμπεριέχουν κάποια εννοιολογική ιεραρχία (ταξονομία). Για παράδειγμα, όταν κάποιος αγοράζει ένα συγκεκριμένο τύπο καφέ από το σούπερ μάρκετ, τότε είναι αρκετά απίθανο να αγοράσει μαζί με αυτόν και κάποια άλλη μάρκα του ίδιου τύπου καφέ, αφού τα δυο αντικείμενα ανήκουν στην ίδια εννοιολογική υποομάδα. Προτείνεται ένας αλγόριθμος για την εύρεση τέτοιων αντικειμένων καθώς οι σχετικές μετρικές αμοιβαίου αποκλεισμού. Το έκτο κεφάλαιο της διατριβής ερευνά την εφαρμογή της εξόρυξης από δεδομένα στη μοριακή Βιολογία. Αρχικά παρατίθεται μια συνοπτική επισκόπηση της ευρείας εξάπλωσης των μεθόδων ανακάλυψης γνώσης σε βάσεις δεδομένων σε προβλήματα μοριακής Βιολογίας ενώ στη συνέχεια προτείνεται μια νέα μεθοδολογία για τον εντοπισμό του σημείου έναρξης της βιολογικής διαδικασίας της μετάφρασης στις ακολουθίες mrna (ή cdna), με ιδιαίτερα υψηλή ακρίβεια. Το πρόβλημα προσεγγίστηκε τόσο βιολογικά όσο και αλγοριθμικά, με εκτενή πειράματα για την απόδειξη της αξιοπιστίας και της υπεροχής της μεθοδολογίας συγκριτικά με προηγούμενες μελέτες αναφοράς. Τέλος, η διατριβή ολοκληρώνεται με τα συμπεράσματα και τις προοπτικές της έρευνας που έγινε κατά τη διάρκειά της. 10

27 Κεφάλαιο 2 «Ανακάλυψη Γνώσης από Βάσεις Δεδομένων» «αυτό το είδος του πετάγματος υπήρχε πάντοτε, για να το μάθει, όποιος ήθελε να το αναζητήσει. Κι αυτό δεν έχει σχέση με την εποχή. Είμαστε μπροστά από τη συνήθεια, ίσως. Μπροστά από τον τρόπο που πετούν οι περισσότεροι γλάροι.» - Ο γλάρος Ιωνάθαν Λίβινγκστον, Ρ.Μπαχ 2.1 Η πληθώρα των δεδομένων Στις σύγχρονες κοινωνίες, η εξειδικευμένη και τεκμηριωμένη γνώση αποτελεί το σημαντικότερο μέσον καθώς και συγκριτικό πλεονέκτημα για την επίτευξη των ανθρώπινων στόχων, σε ατομικό αλλά και συλλογικό επίπεδο. Μέχρι πρόσφατα, η γνώση του ειδικού πήγαζε κυρίως από τις προσωπικές του δεξιότητες, την εμπειρία και την κατάρτισή του. Με την πρόοδο της στατιστικής κατά το δεύτερο μισό του 20 ου αιώνα, ο ειδικός απέκτησε ένα πολύτιμο εργαλείο ανάλυσης, προκειμένου να μπορέσει να προσεγγίσει καλύτερα τους στόχους του, που δεν ήταν άλλοι από την κατανόηση και την πρόβλεψη διαφόρων φαινομένων. Κατά τη δεκαετία του 80 και μέχρι τα μέσα της δεκαετίας του 90, η στατιστική βρήκε έναν πολύτιμο σύμμαχο: την ταχεία πρόοδο και διάδοση των τεχνολογιών της πληροφορικής και των τηλεπικοινωνιών. Έτσι, οι στατιστικολόγοι εγκατέλειψαν το μολύβι και το χαρτί και χρησιμοποίησαν

28 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» προγράμματα που επεξεργάζονταν τα δεδομένα, που πλέον ήταν αποθηκευμένα στον ηλεκτρονικό υπολογιστή. Στη σημερινή εποχή, ο όγκος των δεδομένων, η ποικιλία και η πολυπλοκότητά τους είναι τέτοιου μεγέθους που η προσέγγισή τους με παραδοσιακές στατιστικές και μαθηματικές μεθόδους είναι πρακτικά αδύνατη. Σε αυτό συμβάλλει και η διάδοση των τηλεπικοινωνιών και του Διαδικτύου και των εφαρμογών που βασίζονται σε αυτά, αλλάζοντας καθοριστικά τη φύση και τις απαιτήσεις των προβλημάτων σε τέτοιο βαθμό μάλιστα που ξεπερνά τα στενά όρια της τεχνολογίας και αποκτά προεκτάσεις οικονομικές, πολιτικές και κοινωνικές. Τα δεδομένα αυτά δεν είναι πάντοτε κατανοητά από τον άνθρωπο στην πρωτογενή τους μορφή, αφού συχνά η συλλογή, αποθήκευση και επεξεργασία τους γίνεται από μηχανές για μηχανές. Έτσι, χρειάζεται ένα ενδιάμεσο επίπεδο επεξεργασίας και παρουσίασης (οπτικοποίησης) προκειμένου να μπορέσει κάποιος να κατανοήσει το περιεχόμενό τους. Όσο αυξάνεται ο όγκος των δεδομένων, η ποικιλία και η πολυπλοκότητά τους, τόσο και πιο δύσκολο γίνεται, α- κόμα και για τον ειδικό του κάθε τομέα εφαρμογής, να τα κατανοήσει και να τα μετατρέψει σε πολύτιμη γνώση. 2.2 Ανακάλυψη Γνώσης από Βάσεις Δεδομένων Στα μέσα της δεκαετίας του 90, ξεκίνησε μια τάση που ονομάστηκε Εξόρυξη από Δεδομένα (Data Mining), η οποία επιστράτευε τεχνικές διαφόρων πεδίων προκειμένου να μοντελοποιήσει τα μεγάλα σε όγκο και σύνθετα δεδομένα που είχαν αρχίσει να συσσωρεύονται στα αποθηκευτικά μέσα διαφόρων οργανισμών. Έτσι, χρησιμοποιούσε τεχνικές από το πεδίο των βάσεων δεδομένων, όπως για παράδειγμα η δεικτοδότηση (indexing) και η δημιουργία Αποθηκών Δεδομένων (Data Warehouses) για την ευκολότερη και γρηγορότερη πρόσβαση στα δεδομένα. Χρησιμοποιούσε τεχνικές από το πεδίο της Τεχνητής Νοημοσύνης (ΤΝ), όπως τα Τεχνητά Νευρωνικά Δίκτυα (ΤΝΝ) και μεθόδους αναπαράστασης (representation) και συλλογιστικής (reasoning). Από τη Μηχανική Μάθηση (Machine Learning), η Εξόρυξη από Δεδομένα αξιοποίησε το χαρακτηριστικό που έχουν οι αλγόριθμοί της να «μαθαίνουν» από προηγούμενα περιστατικά, χωρίς την καθοδήγηση του ειδικού. Η Εξόρυξη από Δεδομένα σύντομα έγινε ένα πεδίο με αναρίθμητες εφαρμογές, 12

29 Κεφάλαιο 2 - «Ανακάλυψη Γνώσης από Βάσεις Δεδομένων» από τη διοίκηση επιχειρήσεων, τον έλεγχο παραγωγής, την επιχειρησιακή έρευνα, τη μηχανική και το σχεδιασμό συστημάτων και την επιστημονική έρευνα, μέχρι τις τέχνες, τον αθλητισμό και την ψυχαγωγία. Στις εφαρμογές αυτές δεν υπάρχει περιορισμός, παρά μόνο στοιχειώδεις προϋποθέσεις: η διαθεσιμότητα δεδομένων και η επιθυμία για νέα γνώση Είδη δεδομένων προς εξόρυξη Η ανακάλυψη γνώσης από βάσεις δεδομένων είναι μια σύνθετη διαδικασία η οποία εξαρτάται άμεσα από το είδος των δεδομένων που διατίθενται προς εξόρυξη. Οι Han & Kamber (2001) διακρίνουν τα παρακάτω είδη: Σχεσιακές βάσεις δεδομένων (relational databases) Αποθήκες δεδομένων (data warehouses) Βάσεις δεδομένων συναλλαγών (transactional databases) Αντικειμενοστρεφείς βάσεις δεδομένων (object-oriented databases) Αντικειμενοσχεσιακές βάσεις δεδομένων (object-relational databases) Χωρικές βάσεις δεδομένων (spatial databases) Χρονικές βάσεις δεδομένων (temporal and time series databases) Βάσεις δεδομένων πολυμέσων και κειμένων (multimedia and text databases) Ετερογενείς και ιστορικές βάσεις δεδομένων (heterogeneous and legacy databases) Δεδομένα του παγκόσμιου ιστού (World Wide Web) Τα στάδια της διαδικασίας Ανακάλυψης Γνώσης από ΒΔ Η έρευνα, που διεξάγεται εντατικότερα τα τελευταία 15 περίπου χρόνια, καθοδηγείται από τις ολοένα αυξανόμενες απαιτήσεις για ανακάλυψη γνώσης με ακρίβεια, ταχύτητα και αξιοπιστία. Η έρευνα αυτή σύντομα οδήγησε στην ανάλυση της διαδικασίας της Εξόρυξης σε επιμέρους στάδια, που μπορούν να μελετηθούν και να εξελιχθούν ξεχωριστά (Han & Kamber, 2001). Τα στάδια αυτά φαίνονται στην Εικόνα 2.2 και είναι τα εξής: 1. Καθαρισμός των δεδομένων από θόρυβο 2. Ολοκλήρωση (integration) και ενοποίηση των δεδομένων, στην περίπτωση που προέρχονται από διαφορετικές πηγές. Το βήμα αυτό συχνά οδηγεί στη δημιουργία 13

30 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» μιας αποθήκης δεδομένων (data warehouse). 3. Επιλογή των κατάλληλων δεδομένων 4. Μετασχηματισμός των δεδομένων σε κάποια άλλη μορφή, ώστε να είναι κατάλληλα για τους αλγορίθμους εξόρυξης. 5. Εξόρυξη από δεδομένα 6. Αξιολόγηση μοντέλου ή προτύπων 7. Αναπαράσταση και οπτικοποίηση των αποτελεσμάτων. Ένα ιδιαίτερο χαρακτηριστικό της Εξόρυξης από Δεδομένα είναι ότι τα δεδομένα που διατίθενται για εξόρυξη, στην μεγάλη πλειοψηφία των περιπτώσεων, δεν έ- χουν συλλεχθεί για το σκοπό αυτό, αλλά για άλλες εφαρμογές, όπως για εταιρικά πληροφοριακά συστήματα, για παρακολούθηση εφαρμογών αισθητήρων και τηλεμετρίας κλπ. Αυτό έχει ως αποτέλεσμα τα δεδομένα αυτά να απαιτούν μια αρχική φάση σημαντικής προεπεξεργασίας (preprocessing) προκειμένου να γίνουν κατάλληλα για τους αλγορίθμους εξόρυξης. Η φάση της προεπεξεργασίας αφορά τα 4 πρώτα στάδια της διαδικασίας. Κατά την κύρια φάση της εξόρυξης (στάδιο 5) εκτελείται ο αλγόριθμος που έχει επιλεγεί, ώστε να εξαχθεί η ζητούμενη γνώση. Συχνά εκτελούνται περισσότεροι από ένας αλγόριθμοι και στο τέλος αξιολογούνται τα αποτελέσματά τους συγκριτικά ή συμπληρωματικά. Η διαδικασία της αξιολόγησης (evaluation) αποτελεί και αυτή μια διακριτή φάση με δικές της τεχνικές και αλγορίθμους, και αποτελεί ξεχωριστό πεδίο έρευνας. Κατά τη φάση αυτή μετράται η απόδοση (performance) και η αποτελεσματικότητα (effectiveness) των αλγορίθμων στο συγκεκριμένο πρόβλημα. Ανάλογα με τα αποτελέσματα της αξιολόγησης, η διαδικασία μπορεί να ολοκληρωθεί, παρουσιάζοντας την εξαγχθείσα γνώση στο χρήστη ή μπορεί να χρειαστεί να επαναληφθεί ένα μέρος της με διαφορετικές παραμέτρους, προκειμένου να βελτιστοποιηθεί. Στο τέλος, η διαδικασία ολοκληρώνεται με την παρουσίαση των αποτελεσμάτων με διάφορες μορφές αναπαράστασης, που είναι κατανοητές στον ανθρώπινο νου, ό- πως οι κανόνες και τα δένδρα απόφασης αλλά και πιο σύνθετες τεχνικές οπτικοποίησης (π.χ. 2D και 3D visualization). Σύντομα, το πεδίο της Εξόρυξης από Δεδομένα άρχισε να έχει ιδιαίτερα μεγάλη διάδοση, εφαρμοζόμενο σε μια πληθώρα προβλημάτων, με αποτέλεσμα να αυξάνο- 14

31 Κεφάλαιο 2 - «Ανακάλυψη Γνώσης από Βάσεις Δεδομένων» νται οι απαιτήσεις για νέες τεχνικές και αλγορίθμους. Αξιολόγηση Γ Αλγόριθμοι Εξόρυξης Μοντέλα & Πρότυπα Παρουσίαση Αποτελεσμάτων Εξόρυξη από Δεδομένα Επιλογή & Μετασχηματισμός Καθαρισμός & Ενοποίηση Data Warehouse Προεπεξεργασία Βάσεις Δεδομένων Εικόνα Τα στάδια της διαδικασίας Ανακάλυψης Γνώσης από Βάσεις Δεδομένων 2.3 Στόχοι της Ανακάλυψης Γνώσης από Βάσεις Δεδομένων Ανάλογα με το πεδίο εφαρμογής και το πρόβλημα που καλούμαστε να αντιμετωπίσουμε, μπορούμε να διαχωρίσουμε τα τους στόχους της ανακάλυψης γνώσης από βάσεις δεδομένων σε 5 κατηγορίες (Mannila & Smyth, 2001). Οι κατηγορίες που αναφέρονται στη συνέχεια μοιράζονται κάποια κοινά χαρακτηριστικά, όπως η έννοια της ομοιότητας (similarity) ή της απόστασης (distance), αλλά και διάφορες μετρικές απόδοσης, όπως η βαθμολογία (score). Εξερευνητική ανάλυση δεδομένων (Exploratory Data Analysis EDA) Στην περίπτωση αυτή, στόχος είναι η εξερεύνηση των δεδομένων, χωρίς να έχουμε 15

32 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» κάποια συγκεκριμένη ιδέα του στόχου της αναζήτησής μας. Παραδοσιακά η διαδικασία αυτή γινόταν με οπτική επισκόπηση των δεδομένων από τον άνθρωπο-ειδικό. Στη σημερινή εποχή όμως, που τα σύνολα δεδομένων με πάρα πολλά πεδία πολλαπλασιάζονται, είναι ιδιαίτερα δύσκολο να τα οπτικοποιήσεις και να τα αναπαραστήσεις. Η Ανάλυση (principal component analysis - PCA) είναι ένα χρήσιμο εργαλείο για το σκοπό αυτό, που μας επιτρέπει να ελαττώσουμε τον αριθμό των διαστάσεων των δεδομένων μας σε έναν μικρότερο αριθμό κύριων συνιστωσών, προκειμένου να τα αναπαραστήσουμε ευκολότερα. Μοντελοποίηση με στόχο την περιγραφή (Descriptive Modeling) Ο στόχος της περιγραφικής μοντελοποίησης είναι να περιγράψει όλα τα δεδομένα ή τη διεργασία που τα παράγει. Παραδείγματα αποτελούν η συσταδοποίηση (clustering) και μοντέλα που περιγράφουν τις αλληλοεξαρτήσεις ανάμεσα στις μεταβλητές (dependency modeling). Μοντελοποίηση με στόχο την πρόβλεψη (Predictive Modeling) Στόχος της μοντελοποίησης με στόχο την πρόβλεψη είναι η δημιουργία ενός μοντέλου που θα επιτρέπει την πρόβλεψη της τιμής μιας μεταβλητής όταν είναι γνωστές οι τιμές των υπόλοιπων μεταβλητών. Εδώ ανήκουν η ταξινόμηση (classification), όπου η μεταβλητή που προβλέπεται είναι κατηγορική και η παλινδρόμηση (regression), όπου η μεταβλητή που προβλέπεται είναι ποσοτική. Πρέπει να σημειωθεί ότι η έννοια «πρόβλεψη» δεν υπονοεί ούτε προϋποθέτει χρονική διάσταση στα δεδομένα. Έτσι, θα μπορούσαμε να προβλέψουμε την τιμή μιας μετοχής στο μέλλον αλλά και την ασθένεια από την οποία (ήδη) πάσχει ένας ασθενής, την λειτουργικότητα ενός τμήματος μιας γονιδιακής ακολουθίας, κ.ο.κ. Τα μοντέλα με στόχο την πρόβλεψη Η κύρια διαφορά ανάμεσα στη μοντελοποίηση για πρόβλεψη και στη μοντελοποίηση για περιγραφή είναι ότι στην πρώτη περίπτωση στόχος είναι μια συγκεκριμένη μεταβλητή, ενώ στη δεύτερη καμιά μεταβλητή δεν έχει κεντρικό ρόλο στο μοντέλο. Στη Ανακάλυψη προτύπων και κανόνων (Pattern and Rule Discovery) Ενώ οι τρεις προηγούμενοι στόχοι της ΑΓΒΔ αφορούν στη δημιουργία μοντέλων, υπάρχει ένα ευρύ φάσμα εφαρμογών που έχουν ως στόχο την ανακάλυψη προτύπων. 16

33 Κεφάλαιο 2 - «Ανακάλυψη Γνώσης από Βάσεις Δεδομένων» Χαρακτηριστικό παράδειγμα αποτελεί η ανακάλυψη παράνομης δραστηριότητας από δεδομένα συναλλαγών, παρατηρώντας κάποια ασυνήθιστα πρότυπα συμπεριφοράς, η ανίχνευση βλαβών από δεδομένα αισθητήρων κ.ο.κ. Στην κατηγορία αυτή ανήκει και η ανακάλυψη συνδυασμών αντικειμένων που συνυπάρχουν ή γεγονότων που συμβαίνουν μαζί, σε βάσεις δεδομένων συναλλαγών (transaction databases), όπως για παράδειγμα προϊόντα που συχνά αγοράζονται μαζί. Το πρόβλημα αυτό αντιμετωπίζεται από μια κατηγορία τεχνικών που ονομάζεται ανάλυση συσχετίσεων (association analysis). Ανάκτηση με βάση το περιεχόμενο (Retrieval by Content) Στην ανάκτηση με βάση το περιεχόμενο, ο χρήστης ενδιαφέρεται να ανακαλύψει πρότυπα παρόμοια με ένα συγκεκριμένο πρότυπο που τον ενδιαφέρει. Η διαδικασία αυτή βρίσκει συνήθως εφαρμογή σε δεδομένα κειμένου και εικόνας. Στην περίπτωση του κειμένου, το πρότυπο βάσει του οποίου γίνεται η αναζήτηση μπορεί να είναι λέξεις κλειδιά και στόχος του χρήστη είναι να ανακτήσει σχετικά έγγραφα σε ένα μεγάλο σύνολο πιθανώς σχετικών εγγράφων (π.χ. ιστοσελίδες). 2.4 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστημα επεξεργασίας πληροφορίας συμπεριλαμβανομένων και εκείνων με δυνατότητες αντίληψης, μάθησης, συλλογισμού, λήψης απόφασης, επικοινωνίας και δράσης ονομάζεται γνωστικό σύστημα (cognitive system). Η έννοια της μάθησης σε ένα γνωστικό σύστημα, όπως γίνεται αντιληπτή στην καθημερινή ζωή, μπορεί να συνδεθεί με δύο βασικές ιδιότητες: την ικανότητά του στην πρόκτηση γνώσης κατά την αλληλεπίδρασή του με το περιβάλλον, μέσα στο οποίο δραστηριοποιείται την ικανότητά του να βελτιώνει με την επανάληψη τον τρόπο με τον οποίο ε- κτελεί μια ενέργεια (και συνεπώς και την απόδοσή του) (Βλαχάβας, Κεφαλάς, Βασιλειάδης, Κόκκορας, & Σακελλαρίου, 2006). Ο άνθρωπος προσπαθεί να κατανοήσει το περιβάλλον του παρατηρώντας το και δημιουργώντας μια απλοποιημένη (αφαιρετική) εκδοχή του, που ονομάζεται μοντέλο (model). Η δημιουργία ενός τέτοιου μοντέλου ονομάζεται επαγωγική μάθηση 17

34 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» (inductive learning), ενώ η διαδικασία γενικότερα ονομάζεται επαγωγή (induction). Επιπλέον, ο άνθρωπος έχει την ικανότητα να οργανώνει και να συσχετίζει τις εμπειρίες και τις παραστάσεις του δημιουργώντας νέες δομές, που ονομάζονται πρότυπα (patterns). Η δημιουργία μοντέλων ή προτύπων από ένα σύνολο δεδομένων, από ένα υπολογιστικό σύστημα, ονομάζεται μηχανική μάθηση (machine learning). Έχουν αναπτυχθεί πολλές τεχνικές μηχανικής μάθησης, οι οποίες χρησιμοποιούνται ανάλογα με τη φύση του προβλήματος και εμπίπτουν σε ένα από τα παρακάτω δύο είδη: μάθηση με επίβλεψη (supervised learning) ή μάθηση από παραδείγματα (learning from examples) μάθηση χωρίς επίβλεψη (unsupervised learning) ή μάθηση από παρατήρηση (learning from observation) Στη μάθηση με επίβλεψη το σύστημα καλείται να «μάθει» επαγωγικά μια έννοια ή συνάρτηση από ένα σύνολο δεδομένων. Το αποτέλεσμα αυτού του είδους μάθησης είναι ένα μοντέλο, το οποίο αποτελεί μια γενική περιγραφή των δεδομένων (highlevel, global description). Αντίθετα, στη μάθηση χωρίς επίβλεψη το σύστημα πρέπει από μόνο του να ανακαλύψει συσχετίσεις ή ομάδες σε ένα σύνολο δεδομένων, δημιουργώντας πρότυπα, χωρίς να είναι εκ των προτέρων αν υπάρχουν, πόσα και ποια είναι. Ένα πρότυπο είναι μια τοπική περιγραφή των δεδομένων (local description), α- φού συνήθως ισχύει για λίγες μόνο εγγραφές ή για λίγες μεταβλητές (ή και για τα δύο) (Mannila & Smyth, 2001). Η εγκυρότητα της επαγωγικής συλλογιστικής ήταν ανέκαθεν ένα πρόβλημα που απασχολούσε τους φιλοσόφους. Η επαγωγή δεν οδηγεί απαραίτητα σε βέβαια συμπεράσματα. Ο πρώτος σύγχρονος φιλόσοφος που έδωσε μία σημαντική ερμηνεία της επαγωγής ήταν ο Sir Francis Bacon τον 16ο αιώνα, ο οποίος, μεταξύ άλλων, πρότεινε να προσδιορίζονται οι αλήθειες με μια σταδιακή άνοδο, από τον μικρότερο στο μεγαλύτερο βαθμό καθολικότητας. Το 18 ο αιώνα, ο David Hume στο έργο του An Inquiry Concerning Human Understanding, αναφερόμενος στις επιπλοκές της εξαγωγής γενικών κανόνων από παρατηρήσεις, περιέγραψε το «πρόβλημα της επαγωγής» (Hume s problem of induction) ως εξής: «Ότι δεν υπάρχει τίποτα σε οποιοδήποτε α- ντικείμενο, το οποίο να μας διαθέτει έναν λόγο τέτοιο, ώστε να συμπεράνουμε κάτι πέραν αυτού. Και ότι ακόμα και μετά την παρατήρηση της συχνής ή της διαρκούς 18

35 Κεφάλαιο 2 - «Ανακάλυψη Γνώσης από Βάσεις Δεδομένων» σύμπτωσης των αντικειμένων, δεν έχουμε κανένα λόγο να εξαγάγουμε κάποιο συμπέρασμα που να αφορά οποιοδήποτε αντικείμενο πλην εκείνων των οποίων είχαμε εμπειρία». Το πρόβλημα της επαγωγής του Hume συχνά αναφέρεται και ως το «πρόβλημα του μαύρου κύκνου», παρ όλο που ο ίδιος δεν αναφέρθηκε ποτέ στο συγκεκριμένο πτηνό. Το όνομα αυτό οφείλεται στο γεγονός ότι μέχρι την ανακάλυψη των μαύρων κύκνων (cygnus atratus) στην Αυστραλία, τον 17 ο αιώνα, υπήρχε για αιώνες στο δυτικό κόσμο η αντίληψη ότι όλοι οι κύκνοι είναι άσπροι. Με το πρόβλημα αυτό ασχολείται εκτενώς και ο Nicholas Taleb (Taleb, 2004), ο οποίος με τη σειρά του θέτει το ερώτημα «πόσους κύκνους πρέπει να παρατηρήσει κανείς, ώστε να οδηγηθεί στο συμπέρασμα ότι όλοι οι κύκνοι είναι άσπροί; Εκατοντάδες; Χιλιάδες; Το πρόβλημα είναι ότι δε γνωρίζουμε από που να αρχίσουμε μας λείπει ένα πλαίσιο ανάλυσης, ώστε να γνωρίζουμε αν η εκ των προτέρων εκτίμησή μας είναι κατάλληλη, κάτι που αποτελεί κλειδί για κάθε μορφή συμπερασμού». Ωστόσο, εδώ αξίζει να σημειωθεί ότι ο Taleb με τον όρο «μαύρος κύκνος» αναφέρεται σε αναπάντεχες και έ- κτοπες παρατηρήσεις (outliers), οι οποίες έχουν ιδιαίτερα μεγάλο αντίκτυπο στο περιβάλλον τους Είδη μοντέλων και προτύπων Ανάλογα με το είδος της εξαγόμενης γνώσης, οι διαδικασίες της Εξόρυξης από Δεδομένα διακρίνονται σε πέντε κύρια είδη, τα οποία αναλύονται στη συνέχεια: Περιγραφή και διαχωρισμός εννοιών Το απλούστερο είδος περιγραφικής μοντελοποίησης είναι η περιγραφή εννοιών (concept description). Μια έννοια συνήθως αναφέρεται σε μια συλλογή δεδομένων, όπως για παράδειγμα «μεταπτυχιακοί φοιτητές», «συχνοί πελάτες» κλπ. Στην εξόρυξη από δεδομένα, η ανάλυση που γίνεται δεν είναι μια απλή απαρίθμηση των δεδομένων (π.χ. 10% των πελατών αγοράζει το Χ προϊόν») αλλά αφορά στη δημιουργία περιγραφών για το χαρακτηρισμό και τη σύγκριση των εννοιών αυτών. Ορισμένες φορές αναφέρεται ως περιγραφή τάξης (class description), όπου η έννοια που πρόκειται να περιγραφεί αναφέρεται σε μια τάξη αντικειμένων. Ταξινόμηση και παλινδρόμηση Η ταξινόμηση (classification) είναι η διαδικασία εύρεσης ενός συνόλου μοντέλων (ή 19

36 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» συναρτήσεων) που περιγράφουν και διακρίνουν τάξεις δεδομένων ή έννοιες, με στόχο τη χρήση του μοντέλου για την πρόβλεψη της τάξης αντικειμένων, των οποίων η τάξη είναι άγνωστη. Το εξαγόμενο μοντέλο στηρίζεται στην ανάλυση ενός συνόλου δεδομένων εκπαίδευσης (training data), δεδομένων δηλαδή των οποίων η τάξη είναι γνωστή (Han & Kamber, 2001). Η ταξινόμηση εντάσσεται στη μοντελοποίηση με σκοπό την πρόβλεψη (predictive modeling) και μπορεί να οριστεί ως η μάθηση της απεικόνισης ενός συνόλου διανυσμάτων εισόδου x σε ένα μονόμετρο y (είναι δυνατόν να εκπαιδευτεί ένα μοντέλο για απεικόνιση σε διανυσματικο y, αλλά δεν είναι τόσο συνηθισμένο στην πράξη). Τα δεδομένα εκπαιδευσης D train αποτελούνται από ζεύγη μετρήσεων, το καθένα από τα οποία με τη σειρά του αποτελείται από ένα διάνυσμα x(i) με μια αντίστοιχη τιμή «στόχο» y(i), 1 i n. Όπως αναφέρθηκε και νωρίτερα, η διαδικασία μοντελοποίησης με στόχο την πρόβλεψη μιας κατηγορικής (categorical) μεταβλητής ονομάζεται ταξινόμηση, ενώ όταν στόχος είναι η πρόβλεψη μιας συνεχούς μεταβλητής, η διαδικασία ονομάζεται παλινδρόμηση (regression) (Mannila & Smyth, 2001). Οι τεχνικές ταξινόμησης και παλινδρόμησης ανήκουν στις τεχνικές μάθησης με επίβλεψη. Το σύνολο των διαφορετικών δυνατών τιμών εισόδου της συνάρτησης, δηλαδή το πεδίο ορισμού της, ονομάζεται σύνολο των περιπτώσεων ή στιγμιότυπων (instances) και συμβολίζεται με Χ. Η συνάρτηση στόχος (συμβολίζεται συνήθως με c) χρησιμοποιείται για την πρόβλεψη της τιμής μιας μεταβλητής, που ονομάζεται εξαρτημένη μεταβλητή ή μεταβλητή εξόδου, βάσει των τιμών ενός συνόλου μεταβλητών, που ονομάζονται ανεξάρτητες μεταβλητές, ή μεταβλητές εισόδου ή χαρακτηριστικά. Για να προσεγγίσει το σύστημα όσο το δυνατόν καλύτερα τη συνάρτηση στόχο εξετάζει διάφορες εναλλακτικές συναρτήσεις, οι οποίες ονομάζονται υποθέσεις και συμβολίζονται με h. Η ταξινόμηση και η παλινδρόμηση στηρίζονται στην υπόθεση της επαγωγικής μάθησης (inductive learning hypothesis), σύμφωνα με την οποία, κάθε υπόθεση που έχει βρεθεί να προσεγγίζει καλά τη συνάρτηση στόχο για ένα αρκετά μεγάλο σύνολο παραδειγμάτων, θα προσεγγίζει το ίδιο καλά τη συνάρτηση στόχο και για περιπτώσεις που δεν έχει εξετάσει. Οι κυριότερες τεχνικές ταξινόμησης και παλινδρόμησης είναι οι εξής: Δένδρα ταξινόμησης ή απόφασης (Classification/Decision Trees) Μάθηση κανόνων (Rule Learning) 20

37 Κεφάλαιο 2 - «Ανακάλυψη Γνώσης από Βάσεις Δεδομένων» Μάθηση κατά περίπτωση (Instance-based Learning) Μάθηση κατά Bayes Γραμμική παρεμβολή (Linear Regression) Νευρωνικά Δίκτυα (Neural Networks) Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines) Ανάλυση συσχετίσεων Η ανάλυση συσχετίσεων στοχεύει στον εντοπισμό προτύπων και κανόνων που περιγράφουν μια επαναλαμβανόμενη και συχνή συνύπαρξη ή συσχέτιση δύο αντικειμένων ή γεγονότων. Η εφαρμογή εκείνη που έδωσε πραγματική ώθηση στην έρευνα της ανάλυσης συσχετίσεων είναι η ανάλυση καλαθιού αγορών (market basket analysis), κατά την οποία στόχος είναι η εύρεση ενδιαφέρουσων σχέσεων ανάμεσα στα προϊόντα που αγοράζει ο πελάτης ενός σούπερ μάρκετ. Η βασική ιδέα ήταν ότι αν ανακαλυφθεί ότι δύο ή περισσότερα προϊόντα αγοράζονται συνήθως μαζί, τότε ο καταστηματάρχης θα μπορούσε να τα τοποθετήσει κατάλληλα στα ράφια, ώστε να μεγιστοποιήσει τις πωλήσεις. Αυτή η ιδέα αμέσως εμπλουτίστηκε με διάφορες άλλες παραμέτρους και χαρακτηριστικά και έγινε τελικά ένα πολυ-εργαλείο στα χέρια του διαχειριστή ενός καταστήματος. Στη συνέχεια, η ανάλυση συσχετίσεων εφαρμόστηκε σε διάφορες άλλες εφαρμογές, όπως η ανίχνευση βλαβών, η διάγνωση ασθενειών, η βιοπληροφορική κλπ. Οι κανόνες συσχέτισης προτάθηκαν από τους (Agrawal, Imielinski, & Swami, 1993). Ορισμός 2.1. Έστω I = I 1 ; I 2 ;..., I m ένα σύνολο δυαδικών χαρακτηριστικών, που ονομάζονται αντικείμενα (items). Έστω T μια βάση δεδομένων συναλλαγών. Κάθε συναλλαγή t αναπαριστάται από ένα δυαδικό διάνυσμα στο οποίο ισχύει t[k] = 1 αν στη συναλλαγή t αγοράστηκε το αντικείμενο I k, και t[k] = 0 αν όχι. Για κάθε συναλλαγή, υπάρχει μια γραμμή στη βάση δεδομένων. Έστω X ένα σύνολο που περιέχει αντικείμενα από το Ι. Λέμε ότι μια συναλλαγή t ικανοποιεί το Χ αν για όλα τα αντικείμενα Ik στο X ισχύει t[k] =1. Με τον όρο κανόνας συσχέτισης (association rule) εννοούμε μια συνεπαγωγή της μορφής Χ Ι j, όπου Χ ένα σύνολο αντικειμένων του Ι και Ι j ένα αντικείμενο του Ι, που δεν περιέχεται στο Χ. Ο κανόνας Χ Ι j, ικανοποιείται στο σύνολο των συναλλαγών Τ με εμπιστοσύνη (confidence) 0 c 1, αν και μόνο αν τουλάχιστο c% των συναλλαγών στο Τ που ικανοποιεί το Χ ικανοποιεί και το Ι j. 21

38 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» Θα χρησιμοποιούμε το συμβολισμό Χ Ι j c για να δηλώσουμε ότι ο κανόνας Χ Ι j έχει εμπιστοσύνη c. Δεδομένου του συνόλου Τ των συναλλαγών, μας ενδιαφέρει να παράγουμε όλους τους κανόνες που ικανοποιούν δύο επιπλέον είδη περιορισμών: 1. Περιορισμούς σύνταξης: Οι περιορισμοί αυτοί αφορούν στα αντικείμενα που μπορούν να εμφανίζονται σε έναν κανόνα. Για παράδειγμα, ενδέχεται να ενδιαφερόμαστε για κανόνες που έχουν ένα συγκεκριμένο αντικείμενο Ι j στη συνθήκη ή στο συμπέρασμα του κανόνα. Ενδέχεται επίσης να ορίσουμε συνδυασμούς περιορισμών, όπως για παράδειγμα τα αντικείμενα της συνθήκης να ανήκουν σε ένα προκαθορισμένο σύνολο Χ ενώ τα αντικείμενα του συμπεράσματος σε ένα σύνολο Υ. 2. Περιορισμούς υποστήριξης: Οι περιορισμοί αυτοί αφορούν στον αριθμό των συναλλαγών του Τ, που υποστηρίζουν έναν κανόνα. Η υποστήριξη (support) ενός κανόνα είναι το κλάσμα των συναλλαγών του Τ, που ικανοποιούν την ένωση των αντικειμένων στη συνθήκη και στο συμπέρασμα του κανόνα. Η υποστήριξη δεν πρέπει να συγχέεται με την εμπιστοσύνη. Η πρώτη εκφράζει τη στατιστική σημαντικότητα του κανόνα ενώ η δεύτερη το πόσο ισχυρός είναι. Συσταδοποίηση Η διαδικασία ομαδοποίησης ενός συνόλου φυσικών ή αφηρημένων αντικειμένων σε συστάδες παρόμοιων αντικειμένων ονομάζεται συσταδοποίηση (clustering) (Han & Kamber, 2001). Μια συστάδα είναι μια συλλογή αντικειμένων που είναι όμοια με τα αντικείμενα της ίδιας συστάδας και ανόμοια με τα αντικείμενα άλλων συστάδων. Μια συστάδα αντικειμένων μπορεί να αντιμετωπιστεί συνολικά ως ομάδα σε διάφορες εφαρμογές. Στη συσταδοποίηση κεντρικό ρόλο παίζει η έννοια της απόστασης (distance), ως κριτηρίου ομοιότητας. Η συσταδοποίηση είναι παρόμοια με την ταξινόμηση, καθώς και στις δύο περιπτώσεις τα δεδομένα οργανώνονται σε σύνολα με κοινά χαρακτηριστικά. Στη συσταδοποίηση, ωστόσο, σε αντίθεση με την ταξινόμηση, οι ομάδες δεν είναι προκαθορισμένες. Μια έννοια παρεμφερής με τη συσταδοποίηση είναι η κατάτμηση μιας βάσης δεδομένων (database segmentation), όπου παρόμοιες εγγραφές της βάσης δεδομένων ομαδοποιούνται στο ίδιο τμήμα (Dunham, 2004). Η διαδικασία της συσταδοποίησης (ή «ανάλυσης συστάδων» cluster analysis) εφαρμόζεται γενικώς για δύο λόγους. Ο 22

39 Κεφάλαιο 2 - «Ανακάλυψη Γνώσης από Βάσεις Δεδομένων» πρώτος λόγος είναι η τμηματοποίηση των δεδομένων με κατάλληλο τρόπο. Ο όρος «κατάλληλος» εδώ μπορεί να έχει πραγματικά οποιαδήποτε έννοια καταλληλότητας, πρακτικής, διαχειριστικής κλπ. Η συσταδοποίηση αποτέλεσε για πολλά χρόνια αντικείμενο της στατιστικής, εστιάζοντας κυρίως στην ανάλυση συστάδων βάσει απόστασης (distance-based cluster analysis). Γενικά, οι μέθοδοι συσταδοποίησης μπορούν να διακριθούν στα παρακάτω είδη (Han & Kamber, 2001): Μέθοδοι διαμερισμού (partitioning methods): Έχοντας μια βάση δεδομένων n αντικειμένων, μια μέθοδος διαχωρισμού δημιουργεί k n διαμερίσματα των δεδομένων, κάθε ένα από τα οποία αντιπροσωπεύει μια συστάδα. Ο πλέον αντιπροσωπευτικός αλγόριθμος είναι ο αλγόριθμος των k μέσων (k-means algorithm). Ιεραρχικές μέθοδοι (hierarchical methods): Μια ιεραρχική μέθοδος δημιουργεί μια ιεραρχική αποσύνθεση του συνόλου δεδομένων. Οι ιεραρχικές μέθοδοι διακρίνονται σε συνενωτικές (agglomerative) και διαιρετικές (divisive). Οι πρώτες είναι «από-κάτω-προς-τα-πάνω» (bottom-up) και στην αρχική τους κατάσταση κάθε αντικείμενο αποτελεί μια ξεχωριστή ομάδα και σταδιακά συνενώνονται μέχρις ότου σχηματίσουν μια μεγάλη ομάδα, στο κορυφαίο επίπεδο της ιεραρχίας. Οι διαιρετικές μέθοδοι (από πάνω προς τα κάτω top-down) ξεκινούν με όλα τα αντικείμενα στην ίδια συστάδα και σε κάθε επανάληψη η κάθε συστάδα διαιρείται σε μικρότερες, μέχρις ότου οι συστάδες αποτελούνται από ένα αντικείμενο. Μέθοδοι βασισμένες στην πυκνότητα (density-based methods): Οι μέθοδοι διαμερισμού έχουν το μειονέκτημα ότι ανακαλύπτουν σφαιρικές συστάδες, επειδή βασίζονται στην απόσταση των αντικειμένων από το κέντρο των συστάδων. Ως εκ τούτου δυσκολεύονται να ανακαλύψουν συστάδες τυχαίων σχημάτων. Οι μέθοδοι που βασίζονται στην πυκνότητα των συστάδων είναι πιο κατάλληλες για το σκοπό αυτό, επειδή συνεχίζουν να επεκτείνουν μια συστάδα, όσο η πυκνότητα των αντικειμένων ξεπερνά ένα καθορισμένο όριο. Ο αλγόριθμος DBSCAN είναι ο πιο γνωστός της κατηγορίας αυτής. Μέθοδοι που βασίζονται στο πλέγμα (grid-based methods): Οι μέθοδοι αυτές «κβαντίζουν» το χώρο των αντικειμένων σε ένα πεπερασμένο αριθμό κελιών, που σχηματίζουν μια δομή πλέγματος. Το βασικό πλεονέκτημα των μεθόδων αυτών είναι η μεγάλη ταχύτητά τους. Μέθοδοι που βασίζονται σε μοντέλα (model-based methods): Οι μέθοδοι αυτές 23

40 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» υποθέτουν ένα μοντέλο για κάθε συστάδα και στη συνέχεια βρίσκουν το βέλτιστο τρόπο ταιριάσματος των δεδομένων στο μοντέλο αυτό. Ανάλυση έκτοπων παρατηρήσεων (outlier analysis) Μια βάση δεδομένων μπορεί να περιέχει δεδομένα που δεν ακολουθούν τη γενικότερη συμπεριφορά της πλειοψηφίας των δεδομένων. Τα δεδομένα αυτά ονομάζονται έκτοπες παρατηρήσεις ή έκτοπα (outliers). Η ανακάλυψη και πρόβλεψη εκτόπων συχνά αναφέρεται και ως πρόβλεψη σπάνιων γεγονότων (rare event prediction) και ως εξόρυξη από δεδομένα με ανισοκατανομή τάξεων (imbalanced data sets). Ενδεικτικές εφαρμογές της ανάλυσης εκτόπων είναι η ανίχνευση τραπεζικής απάτης και η πρόβλεψη βλαβών και ακραίων καιρικών φαινομένων. 2.5 Προβλήματα στην Ανακάλυψη Γνώσης από ΒΔ Τα σημαντικότερα προβλήματα κατά τη διαδικασία ΑΓΒΔ μπορούν να διαχωριστούν σε 3 κατηγορίες: εκείνα που αφορούν στη μεθοδολογία της εξόρυξης, στην απόδοση της διαδικασίας και σε εκείνα που προκύπτουν από την ποικιλία των τύπων δεδομένων (Han & Kamber, 2001): Προβλήματα μεθοδολογίας Τα προβλήματα της διαδικασίας ανακάλυψης γνώσης, που αφορούν στη μεθοδολογία και στην αλληλεπίδραση με το χρήστη είναι τα ακόλουθα: Εξόρυξη διαφορετικών ειδών γνώσης Επειδή ο κάθε χρήστης μπορεί να ενδιαφέρεται και για διαφορετικό είδος γνώσης, η εξόρυξη από δεδομένα οφείλει να καλύπτει ένα ευρύ φάσμα τεχνικών ανάλυσης δεδομένων και ανακάλυψης γνώσης, όπως η ταξινόμηση, η ανάλυση συσχετίσεων, η συσταδοποίηση κλπ. Οι τεχνικές αυτές πρέπει συχνά να προσαρμόζονται στο κάθε πρόβλημα ξεχωριστά και απαιτούν την ανάπτυξη εξειδικευμένων αλγορίθμων και μεθόδων. Αλληλεπιδραστική εξόρυξη γνώσης σε διάφορα ιεραρχικά επίπεδα Από τη στιγμή που δεν είναι εκ των προτέρων γνωστό τι ακριβώς θα ανακαλύψει, η 24

41 Κεφάλαιο 2 - «Ανακάλυψη Γνώσης από Βάσεις Δεδομένων» διαδικασία εξόρυξης από δεδομένα οφείλει να είναι αλληλεπιδραστική. Ο χρήστης θα πρέπει να έχει τη δυνατότητα να παρέμβει στη διαδικασία, εστιάζοντας στα πρότυπα που θεωρεί πιο χρήσιμα και ενδιαφέροντα. Ενσωμάτωση υπάρχουσας γνώσης Για την καθοδήγηση της διαδικασίας ανακάλυψης γνώσης είναι δυνατόν να χρησιμοποιηθεί η υπάρχουσα γνώση με διάφορους τρόπους, όπως για να αξιολογηθούν τα αποτελέσματα, να κατευθυνθεί η διαδικασία στην εξαγωγή προτύπων διαφορετικών επιπέδων και για την επιτάχυνση της διαδικασίας, αποφεύγοντας την άσκοπη αναζήτηση. Γλώσσες ερωτημάτων και ad hoc εξόρυξη γνώσης Οι γλώσσες σχεσιακών βάσεων δεδομένων όπως η SQL επιτρέπουν στους χρήστες να εκτελούν ad hoc ερωτήματα για την ανάκτηση δεδομένων. Ομοίως, η ανάπτυξη γλωσσών ερωτημάτων εξόρυξης από δεδομένα, υψηλού επιπέδου, είναι ιδιαίτερα χρήσιμη. Οι γλώσσες αυτές πρέπει να υλοποιούν τεχνικές εξόρυξης έτσι, ώστε να ενσωματώνουν την προηγούμενη γνώση, να μπορούν να παραμετροποιηθούν κατάλληλα και να θέτουν περιορισμούς και κανόνες αναφορικά με την εξαγόμενη γνώση. Παρουσίαση και οπτικοποίηση των αποτελεσμάτων Η γνώση που ανακαλύπτεται πρέπει να μπορεί να εκφραστεί με γλώσσες υψηλού επιπέδου, οπτικές αναπαραστάσεις (δένδρα, γραφήματα, καμπύλες, πίνακες κλπ) ή άλλες μορφές έκφρασης έτσι, ώστε να είναι όσο πιο κατανοητή γίνεται από τον άνθρωπο. Αυτό γίνεται ακόμη πιο αναγκαίο όταν το σύστημα εξόρυξης γνώσης είναι αλληλεπιδραστικό. Διαχείριση δεδομένων με θόρυβο ή ελλείψεις Είναι συνηθισμένο φαινόμενο τα δεδομένα μιας βάσης δεδομένων να περιέχουν θόρυβο, τυχαίες περιπτώσεις και ελλιπή δεδομένα, στοιχεία που μπορεί να αποτελέσουν εμπόδια στη διαδικασία ανακάλυψης γνώσης, οδηγώντας την συχνά σε υπερμοντελοποίηση (overfitting). Για το σκοπό αυτό απαιτείται η ανάπτυξη και η χρήση τεχνικών όχι μόνο καθαρισμού των δεδομένων αλλά και ανίχνευσης έκτοπων παρατηρήσεων (outliers). 25

42 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» Αξιολόγηση μοντέλων και προτύπων Ένα πρόγραμμα εξόρυξης από δεδομένα μπορεί να ανακαλύψει χιλιάδες πρότυπα. Ωστόσο, λίγα από αυτά είναι πραγματικά ενδιαφέροντα και χρήσιμα, ενώ τα περισσότερα είναι ακατανόητα, εκφράζουν κοινή λογική ή δεν έχουν τίποτα το πρωτότυπο. Ένα ιδιαίτερα σημαντικό αντικείμενο έρευνας είναι η ανάπτυξη τεχνικών αξιολόγησης της παραγόμενης γνώσης, οι οποίες πρέπει να λαμβάνουν υπόψη όχι μόνο στατιστικούς αλλά και υποκειμενικούς παράγοντες που έχουν να κάνουν με τις αντιλήψεις, τα ενδιαφέροντα και τις προσδοκίες του χρήστη Προβλήματα απόδοσης Επιδόσεις και κλιμάκωση των αλγορίθμων Η κλιμάκωση (scalability) είναι ένα χαρακτηριστικό που πρέπει να έχουν οι αλγόριθμοι εξόρυξης γνώσης προκειμένου να μπορούν να διαχειριστούν δεδομένα των ο- ποίων το μέγεθος μπορεί να κλιμακώνεται σε διαφορετικές τάξεις μεγέθους. Γενικότερα, οι αλγόριθμοι πρέπει να είναι γρήγοροι και αποδοτικοί, ώστε να έχουν προβλέψιμο χρόνο εκτέλεσης. Παράλληλοι, κατανεμημένοι και επαυξητικοί αλγόριθμοι Το τεράστιο μέγεθος πολλών βάσεων δεδομένων, η μεγάλη κατανομή των δεδομένων τους και η υπολογιστική πολυπλοκότητα ορισμένων αλγορίθμων είναι τα βασικότερα κίνητρα για την ανάπτυξη παράλληλων και κατανεμημένων αλγορίθμων. Οι αλγόριθμοι αυτοί διαιρούν τα δεδομένα σε τμήματα (partitions), και στη συνέχεια τα επεξεργάζονται παράλληλα. Τα επιμέρους αποτελέσματα τελικά συνενώνονται κατάλληλα σε ένα. Επίσης, το υψηλό κόστος που μπορεί να έχει μια διαδικασία ανακάλυψης γνώσης, οδηγεί στην ανάγκη ανάπτυξης επαυξητικών (incremental) αλγορίθμων, ώ- στε να μην απαιτείται η εκ νέου εκτέλεσή της κάθε φορά που προστίθενται νέα δεδομένα. Οι αλγόριθμοι αυτού του είδους τροποποιούν κατάλληλα την γνώση που ανακαλύφθηκε στην προηγούμενη εκτέλεση, ώστε να αντιπροσωπεύει και τα νέα δεδομένα. 26

43 Κεφάλαιο 2 - «Ανακάλυψη Γνώσης από Βάσεις Δεδομένων» Προβλήματα λόγω της ποικιλίας των τύπων δεδομένων Διαχείριση σχεσιακών και πολύπλοκων τύπων δεδομένων Η δημιουργία ενός προγράμματος που θα μπορεί να διαχειριστεί όλων των ειδών τα δεδομένα και να εφαρμόσει σε αυτά όλων των ειδών τις τεχνικές ανακάλυψης γνώσης είναι σίγουρα αδύνατη. Σήμερα, υπάρχουν βάσεις δεδομένων διαφόρων ειδών, που περιέχουν δεδομένα διαφόρων τύπων, από τα πιο απλά μέχρι τα πιο σύνθετα, όπως αντικείμενα, πολυμέσα, υπερκείμενο, χωρικά και χρονικά. Για κάθε κατηγορία δεδομένων υπάρχει η ανάγκη ανάπτυξης εξειδικευμένων συστημάτων. Εξόρυξη γνώσης από ετερογενείς βάσεις δεδομένων Μια σύγχρονη πρόκληση είναι η ανακάλυψη γνώσης από την πληθώρα των δεδομένων των τοπικών και ευρείας ζώνης δικτύων, που σχηματίζουν τεράστιες και ετερογενείς βάσεις δεδομένων. Η εξόρυξη από διαφορετικές πηγές δομημένων, ημιδομημένων και αδόμητων δεδομένων που μπορεί να ποικίλουν και σε σημασιολογικό επίπεδο, αποτελεί μια σπουδαία πρόκληση. Η εξόρυξη από δεδομένα μπορεί να συντελέσει στην ανακάλυψη κανονικοτήτων και συσχετίσεων υψηλού επιπέδου, που θα ήταν αδύνατον να βρεθούν με τα κλασικά εργαλεία ερωτημάτων, βελτιώνοντας την ανταλλαγή πληροφοριών και τη διαλειτουργικότητα ανάμεσα στις διάφορες αυτές πηγές. Η εξόρυξη από το διαδίκτυο (web mining) είναι ένας νέος και πολλά υποσχόμενος τομέας έρευνας που στοχεύει στην εξαγωγή γνώσης σχετικά με τη χρήση, τη δυναμική και τα περιεχόμενα του διαδικτύου. 2.6 Συμπεράσματα Στο κεφάλαιο αυτό παρουσιάστηκε μια συνοπτική εισαγωγή στο πεδίο της ανακάλυψης γνώσης από βάσεις δεδομένων, ως απαραίτητο υπόβαθρο για τη συνέχεια της διατριβής. Αρχικά, παρατέθηκε μια ιστορική αναδρομή του συγκεκριμένου ερευνητικού πεδίου και εξηγήθηκε το πρόβλημα που καλείται να επιλύσει. Στη συνέχεια, η ανακάλυψη γνώσης περιγράφεται ως μια διαδικασία που αποτελείται από διάφορα στάδια, ενώ εξηγούνται οι στόχοι της και οι βασικές της λειτουργίες. Τέλος, το κεφάλαιο ολοκληρώνεται με τα σημαντικότερα προβλήματα που καλείται να αντιμετωπίσει τόσο ο επαγγελματίας-ειδικός όσο και ο ερευνητής της εξόρυξης από δεδομένα. 27

44 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» 28

45 Κεφάλαιο 3 «Ανακάλυψη Ασθενών Περιοδικοτήτων σε Χρονοσειρές» «Τολμώ να υπαινιχθώ την εξής λύση στο πανάρχαιο πρόβλημα: Η Βιβλιοθήκη είναι απεριόριστη και περιοδική. Αν ένας αιώνιος ταξιδιώτης τη διέσχιζε προς μια οποιαδήποτε κατεύθυνση, οι αιώνες θα του δίδασκαν κάποτε πως οι ίδιοι τόμοι επαναλαμβάνονται με την ίδια αταξία (η οποία, δια της επαναλήψεως, θα γίνει μια τάξη: η Τάξη). Αυτή η κομψή ελπίδα είναι η παρηγοριά στη μοναξιά μου.» - Η Βιβλιοθήκη της Βαβέλ, Χόρχε Λουίς Μπόρχες 3.1 Εισαγωγή Ένα από τα σημαντικότερα χαρακτηριστικά της εξόρυξης από δεδομένα είναι ότι κάθε εφαρμογή της εξαρτάται από το είδος των δεδομένων που περιλαμβάνει. Πολύ συχνά τα δεδομένα αυτά έχουν χρονική ή ακολουθιακή διάσταση, όπως για παράδειγμα δεδομένα χρονοσειρών, συναλλαγών και γονιδιακών ακολουθιών, που αποτελούν το πεδίο της παρούσας διατριβής. Στο κεφάλαιο αυτό θα εξετάσουμε την περιοδικότητα, μια ιδιαίτερα ενδιαφέρουσα ιδιότητα των χρονικών και ακολουθιακών δεδομένων, που χαρακτηρίζει διάφορα φαινόμενα στον κόσμο γύρω μας. Η κατά τακτά χρονικά διαστήματα επανάληψη ενός φαινομένου μπορεί να

46 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» οφείλεται σε εξωγενείς λόγους, να συμβαδίζει για παράδειγμα με τις εναλλαγές του φυσικού περιβάλλοντος, όπως οι εποχές του χρόνου και η εναλλαγή μέρας νύχτας. Μπορεί όμως και να οφείλεται σε καθαρά εγγενείς ιδιότητες, όπως συμβαίνει για παράδειγμα στην ταλάντωση ενός ελατηρίου, η οποία οφείλεται στα κατασκευαστικά χαρακτηριστικά του (υλικό κατασκευής, διαστάσεις, κλπ.). Επίσης, ως ιδιότητα μπορεί να είναι φυσική, όπως οι κύκλοι των ηλιακών κηλίδων αλλά και τεχνητή, όπως η περίοδος λειτουργίας ενός κινητήρα ή η επανάληψη μοτίβων στη μουσική. Τέλος, πολλά περιοδικά φαινόμενα έχουν μεταβαλλόμενη ή ατελή περιοδικότητα. Για παράδειγμα, η εποχή των βροχών στις τροπικές περιοχές του πλανήτη συμβαίνει περίπου κάθε καλοκαίρι με ακρίβεια λίγων εβδομάδων. Οι χαλαζοκαταιγίδες συμβαίνουν σε ορισμένες περιοχές της χώρας μας συνήθως κάθε χρόνο κατά τους μήνες Μάιο-Ιούνιο, αλλά όχι πάντοτε. Η γνώση της περιοδικής φύσης ενός φαινομένου είναι ιδιαίτερα χρήσιμη επειδή μας βοηθάει να κατανοήσουμε τη φύση των δεδομένων μας, να παρατηρήσουμε τάσεις και να προβλέψουμε μελλοντικές καταστάσεις. Μαθηματικά, η περιοδικότητα με περίοδο Τ ενός φαινομένου που περιγράφεται από μια συνάρτηση f(x) ελέγχεται από το κριτήριο f(x)=f(x+t). Η ισότητα αυτή ικανοποιείται από τέλεια περιοδικές μαθηματικές συναρτήσεις, που όμως στο φυσικό κόσμο είναι εξαιρετικά σπάνιες, αφού τα περισσότερα περιοδικά φαινόμενα είναι κατά προσέγγιση περιοδικά. Έτσι για παράδειγμα, τα φυλλοβόλα δένδρα ρίχνουν τα φύλλα τους κάθε χρόνο, γύρω στο φθινόπωρο ή οι πωλήσεις ενός σούπερ μάρκετ αυξάνονται κατά την περίοδο των εορτών. Συνεπώς, μπορούμε να πούμε ότι αυτά τα επαναλαμβανόμενα πρότυπα (patterns) που είναι «περίπου» περιοδικά, μπορούν να θεωρηθούν ως περιοδικά με κάποιο μέτρο εμπιστοσύνης (confidence measure). Τα πρότυπα που δεν είναι περιοδικά σε όλο το χρονικό διάστημα που καταγράφονται αλλά μόνο σε ένα ποσοστό του ονομάζονται μερικώς περιοδικά πρότυπα (partial periodic patterns). Η έννοια της μερικής περιοδικότητας εξετάζεται για πρώτη φορά στην εξόρυξη από δεδομένα στην εργασία των Han, Dong & Yin (1999). Μια ενδιαφέρουσα προέκταση του προβλήματος αυτού είναι η ανακάλυψη κατά προσέγγιση περιοδικοτήτων (approximate periodicities), εκείνων δηλαδή των περιοδικοτήτων, στις οποίες ορισμένες περιοδικές εμφανίσεις του επαναλαμβανόμενου προτύπου δεν είναι απόλυτα ακριβείς. Τέλος, μια ακόμη περίπτωση που εξετάζεται είναι εκείνη κατά την 30

47 Κεφάλαιο 3-«Ανακάλυψη Ασθενών Περιοδικοτήτων σε Χρονοσειρές» οποία ένα πρότυπο έχει περισσότερες από μια περιόδους, όταν δηλαδή χαρακτηρίζεται από πολλαπλή περιοδικότητα (multiple periodic pattern). Αντικείμενο του 3 ου κεφαλαίου της διατριβής είναι, η μελέτη της ασθενούς περιοδικής συμπεριφοράς ενός προτύπου. Με τον όρο «ασθενής περιοδικότητα» ονομάζουμε στην παρούσα διατριβή τη μερική και την κατά προσέγγιση περιοδικότητα. Μέχρι πρόσφατα, η μεγάλη πλειοψηφία των εργασιών στο αντικείμενο αυτό αφορούσαν την ανακάλυψη περιοδικών προτύπων, δεδομένης της περιόδου. Στο κεφάλαιο αυτό προτείνουμε 2 αλγορίθμους, τον PPD (Partial Periodicity Detection) και την επέκτασή του, τον APPD (Approximate and Partial Periodicity Detection), για την ανακάλυψη της ίδιας της περιόδου, ώστε να μπορεί να χρησιμοποιηθεί στη συνέχεια στην ανεύρεση των προτύπων. Η διαδικασία είναι εξερευνητική (exploratory) και βασίζεται σε ένα μοντέλο 2 φάσεων φιλτραρίσματος/ραφιναρίσματος (filter/refine), που έχει χρησιμοποιηθεί στο παρελθόν και σε άλλα πεδία, όπως η επεξεργασία χωρικών ερωτημάτων (spatial query processing) (Orenstein, 1989). Η φάση του φιλτραρίσματος περιορίζει το χώρο αναζήτησης, απαλείφοντας ένα μεγάλο μέρος αντικειμένων που αποκλείεται να συνεισφέρουν στην τελική λύση. Η φάση ραφιναρίσματος, που συνήθως καταναλώνει αρκετή επεξεργαστική ισχύ, αφορά στη δοκιμή των υποψήφιων λύσεων, που παράχθηκαν από την προηγούμενη φάση, ώστε να επαληθευθούν εκείνες που πληρούν τις απαραίτητες προϋποθέσεις. 3.2 Σχετικές Εργασίες Στις αρχές της δεκαετίας του 90, αναπτύχθηκαν οι πρώτοι αλγόριθμοί εξόρυξης από δεδομένα για την ανακάλυψη και ταυτοποίηση προτύπων και την αναζήτηση ομοιότητας σε χρονοσειρές (Agrawal, Faloutsos, & Swami, 1993), (Agrawal, Lin, Sawhney, & Shim, 1995), (Agrawal & Srikant, 1995). Η δουλειά τους επεκτάθηκε αργότερα (Garofalakis, Rastogi, & Shim, 2002) με την προσθήκη κανονικών εκφράσεων (regular expressions) σαν ένα εργαλείο ικανοποίησης περιορισμών. Οι Agrawal et al. (1995) συνέχισαν την έρευνα στο πεδίο αυτό, ορίζοντας μια γλώσσα ορισμού σχημάτων (shape definition language) προκειμένου να εξαγάγουν χρονικά «σχήματα» από ιστορικά δεδομένα (histories). Οι Mannila et al. (1995) εισήγαγαν το πρόβλημα της εξόρυξης επεισοδίων από μια βάση δεδομένων ακολουθιών, χρη- 31

48 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» σιμοποιώντας ένα κινούμενο χρονικό παράθυρο. Οι Chan & Ada (1999) μελέτησαν τη χρήση του μετασχηματισμού κυματιδίων (wavelet transform) στην εύρεση ομοιότητας σε χρονοσειρές. Οι (Faloutsos, Ranganathan, & Manolopoulos, 1994) πρότειναν τη δεικτοδότηση με χρήση του R* δένδρου για τη γρήγορη εύρεση ακολουθιών, ενώ αργότερα για το σκοπό αυτό προτάθηκε και η χρήση του Διακριτού Μετασχηματισμού Φουριέ (Discrete Fourier Transform) και του Διακριτού Μετασχηματισμού Κυματιδίου (Discrete Wavelet Transform) (Keogh, Chakrabarti, Pazzani, & Mehrot, 2001). Τέλος, οι (Bettini, Wang, Jajodia, & Lin, 1998) προτείνουν μια μέθοδο για την εύρεση συχνών προτύπων σε χρονοσειρές, με τη χρήση δομών γεγονότων (event structures), που αποτελούνται από χρονικούς περιορισμούς ανάμεσα σε γεγονότα. Στο ευρύτερο πλαίσιο της ανακάλυψης γνώσης από χρονικά και ακολουθιακά δεδομένα, αρκετές εργασίες έχουν δημοσιευθεί με αντικείμενο την περιοδικότητα. Η εργασία που αποτέλεσε την πηγή έμπνευσης για την παρούσα διατριβή είναι ωστόσο εκείνη των (Han, Dong, & Yin, 1999), στην οποία ορίζεται για πρώτη φορά το πρόβλημα της εξόρυξης μερικών περιοδικοτήτων. Αργότερα οι Toroslu & Kantarcioglu (2001) αντιμετωπίζουν το πρόβλημα των κυκλικά επαναλαμβανόμενων προτύπων. Οι Yang, Wang, & Yu (2000) προτείνουν μια μέθοδο για την εύρεση μερικών, ασύγχρονων (μετατοπισμένων) περιοδικοτήτων. Αργότερα, οι ίδιοι επέκτειναν την εργασία τους αυτή, προτείνοντας τη χρήση μετα-προτύπων για την ανακάλυψη περιοδικοτήτων υψηλού επιπέδου (Wang, Yang, & Yu, 2001). Προτείνουν μια μέθοδο για την εξαγωγή όλων των πιθανών μερικών και ασύγχρονων περιοδικοτήτων και την εξαγωγή της μέγιστης έγκυρης περιοδικής υπο-ακολουθίας. Ο αλγόριθμός τους χρησιμοποιεί ένα συρόμενο παράθυρο προκειμένου να εφαρμόσουν μια τεχνική κλαδέματος των υποψήφιων περιόδων. 3.3 Ανακάλυψη Μερικών Περιοδικοτήτων Οι περισσότεροι αλγόριθμοι στα άρθρα που αναφέρθηκαν στην προηγούμενη ενότητα, αφορούν στην ανακάλυψη περιοδικών προτύπων, όταν η περίοδος είναι εκ των προτέρων γνωστή και δίνεται από το χρήστη. Στις περιπτώσεις όμως όπου η περίοδος είναι άγνωστη, οι αλγόριθμοι αυτοί δε μπορούν να εφαρμοστούν ως έχουν. Θα 32

49 Κεφάλαιο 3-«Ανακάλυψη Ασθενών Περιοδικοτήτων σε Χρονοσειρές» έπρεπε κάποιος να τους εκτελέσει εξαντλητικά για όλα τα πιθανά μήκη περιόδου, μια λύση καθόλου πρακτική και μάλλον ανέφικτη. Στην περίπτωση που εμπειρικά επιλεγόταν ένα μικρό σύνολο από πιθανές περιόδους για να δοκιμαστούν, τότε θα ήταν πάλι πιθανό να αγνοηθούν κάποιες υπάρχουσες περίοδοι. Η συνεισφορά της διατριβής στο αντικείμενο αυτό είναι μια ομάδα αλγορίθμων για την εξαγωγή όλων των πιθανών περιοδικοτήτων μιας χρονοσειράς, χωρίς να απαιτείται προηγούμενη γνώση των δεδομένων ή του πεδίου από το οποίο πηγάζουν. Οι χρονοσειρές μετατρέπονται σε ακολουθίες χαρακτήρων μέσω μιας διαδικασίας διακριτοποίησης. Στην πρώτη φάση του γενικού αλγορίθμου (φιλτράρισμα), ο αλγόριθμος αξιοποιεί τον Γρήγορο Μετασχηματισμό Φουριέ (Fast Fourier Transform FFT) για τον υπολογισμό της συνάρτησης Αυτοσυσχέτισης (Autocorrelation Function ACF), προκειμένου να παραγάγει ένα συντηρητικό σύνολο από υποψήφιες περιόδους, για κάθε χαρακτήρα του αλφαβήτου της ακολουθίας. Στη δεύτερη φάση (ραφινάρισμα), εκτελείται ο αλγόριθμος 4.1 που περιγράφεται στην εργασία (Han, Dong, & Yin, 1999), για τις περιόδους που ανακάλυψε ο αλγόριθμος που προτείνεται εδώ. Εδώ πρέπει να σημειώσουμε ότι μπορεί να χρησιμοποιηθεί οποιοσδήποτε άλλος αλγόριθμος ανακάλυψης περιοδικών προτύπων, χρησιμοποιώντας ως είσοδο το ίδιο σύνολο περιόδων. Η πολυπλοκότητα του αλγορίθμου είναι Ο(ΑΝlogN), όπου Α είναι το μέγεθος του αλφαβήτου της διακριτοποιημένης χρονοσειράς και Ν το μήκος της. Ο αλγόριθμος κλιμακώνεται γραμμικά σε συνάρτηση με το μήκος της ακολουθίας και το μέγεθος του αλφαβήτου. (Berberidis, Walid, Atallah, Vlahavas, & Elmagarmid, 2002). 3.4 Ορισμοί Ως πρότυπο (pattern) ορίζεται μια συμβολοσειρά s = s 1 s p πάνω από ένα αλφάβητο L {* }, όπου ο χαρακτήρας * συμβολίζει οποιοδήποτε σύμβολο του L. Ένα πρότυπο s = s 1 s p είναι ένα υποπρότυπο (subpattern) ενός προτύπου s αν για κάθε θέση i ισχύει s i = si ή s i = *. Για παράδειγμα, το ab*d είναι ένα υποπρότυπο του abcd. Ας υποθέσουμε ότι ένα πρότυπο είναι περιοδικό σε μια χρονοσειρά S μήκους N, με περίοδο p. Τότε, η ακολουθία S μπορεί να διαιρεθεί σε N / p τμήματα μεγέθους p. Αυτά τα τμήματα ονομάζονται περιοδικά τμήματα. Η συχνότητα (frequency count) 33

50 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» ενός προτύπου s ορίζεται ως το πλήθος των περιοδικών τμημάτων της ακολουθίας S που περιέχουν το πρότυπο s. Η εμπιστοσύνη (confidence) ενός περιοδικού προτύπου ορίζεται ως το πηλίκο της συχνότητάς του προς τον συνολικό αριθμό των περιοδικών τμημάτων της ακολουθίας N / p. Για παράδειγμα, στην ακολουθία abcdabddabfcccba, το πρότυπο ab** είναι περιοδικό με περίοδο 4, συχνότητα 3 και εμπιστοσύνη 3/4. Αν ένα πρότυπο s έχει συχνότητα μεγαλύτερη από το ελάχιστο ό- ριο που ορίζει ο χρήστης (frequency threshold), τότε θα αναφέρεται για συντομία ως συχνό, ενώ όταν έχει εμπιστοσύνη μεγαλύτερη από το αντίστοιχο ελάχιστο όριο που θέτει ο χρήστης (confidence threshold), θα αναφέρεται απλά ως περιοδικό. Σύμφωνα με την Apriori ιδιότητα της περιοδικότητας (Han, Dong, & Yin, 1999) «κάθε υποπρότυπο s ενός συχνού προτύπου s, περιόδου p είναι και εκείνο περιοδικό με την ίδια περίοδο». Για παράδειγμα, αν υποθέσουμε ότι το ab** είναι περιοδικό με περίοδο 4, τότε και τα a*** και *b** θα είναι επίσης περιοδικά με την ίδια περίοδο. Το αντίστροφο δεν ισχύει, δηλαδή γνωρίζοντας ότι τα a*** και *b** είναι περιοδικά με περίοδο 4, δε σημαίνει κατ ανάγκην ότι το ab** θα είναι και ε- κείνο περιοδικό με περίοδο Ανακάλυψη Μερικών Περιοδικοτήτων Ο αλγόριθμος PPD εκτελείται σε δύο φάσεις. Στη φάση φιλτραρίσματος, ο PPD χρησιμοποιεί τον FFT για τον υπολογισμό της συνάρτησης αυτοσυσχέτισης, παράγοντας έτσι ένα συντηρητικό σύνολο υποψήφιων περιόδων, για κάθε χαρακτήρα του αλφαβήτου της ακολουθίας. Στο στάδιο της προεπεξεργασίας, η αρχική χρονοσειρά υφίσταται μια διαδικασία διακριτοποίησης, εάν αυτό είναι απαραίτητο, προκειμένου να ελαττωθεί το πλήθος των πιθανών περιόδων. Έτσι, μετατρέπεται σε μια ακολουθία χαρακτήρων. Στη φάση του ραφιναρίσματος, εφαρμόζουμε μια τεχνική (ψευδο)τυχαίας επαλήθευσης, η οποία, κατά την πειραματική διαδικασία, αποδεικνύεται ιδιαίτερα αποτελεσματική στη μείωση του μεγέθους του συνόλου υποψήφιων περιόδων, απορρίπτοντας έναν μεγάλο αριθμό μη έγκυρων περιπτώσεων (Berberidis, Vlahavas, Aref, Atallah, & Elmagarmid, 2002). 34

51 Κεφάλαιο 3-«Ανακάλυψη Ασθενών Περιοδικοτήτων σε Χρονοσειρές» Ο Αλγόριθμος PPD Μια χρονική ακολουθία ορίζεται ως μια σειρά παρατηρήσεων ταξινομημένη στο χρόνο. Εξετάζουμε την περίπτωση των διακριτών ακολουθιών που αποτελούνται από παρατηρήσεις x t σε χρόνο t=1,2,,n, όπου N είναι το μήκος της ακολουθίας, η οποία μπορεί να αποτελείται από συνεχείς ή κατηγορικές τιμές (π.χ. ωριαίες μετρήσεις θερμοκρασίας, ημερήσιες τιμές μετοχών κ.ο.κ.). Προκειμένου να ελαττώσουμε το πλήθος των (άπειρων) δυνατών τιμών που θα μπορούσε να πάρει μια συνεχής χρονοσειρά, εφαρμόζουμε μια συνήθη διαδικασία διακριτοποίησης, η οποία μπορεί να γίνει με αυτόματο τρόπο ή και με τη βοήθεια του ειδικού της εκάστοτε εφαρμογής. Το πεδίο ορισμού της ακολουθίας διαιρείται σε έναν αριθμό διαστημάτων και σε κάθε διάστημα αντιστοιχίζεται ένα σύμβολο. Με τον τρόπο αυτό, η χρονοσειρά μετατρέπεται σε μια ακολουθία χαρακτήρων. Το σύνολο των διαφορετικών συμβόλων που χρησιμοποιούνται στη διαδικασία αυτή θα αναφέρεται στο εξής ως το αλφάβητο της (μετασχηματισμένης) ακολουθίας. Έστω M το πλήθος των συμβόλων αυτών (το μέγεθος του αλφάβητου). Τα κύρια βήματα του αλγορίθμου PPD έ- χουν ως εξής (Berberidis & Vlahavas, 2005): 1. Δημιούργησε M διανύσματα bit μεγέθους N, ένα για κάθε σύμβολο του αλφάβητου. Το βήμα αυτό απαιτεί 1 «πέρασμα» της αρχικής ακολουθίας. 2. Υπολόγισε τη συνάρτηση κυκλικής αυτοσυσχέτισης για κάθε διάνυσμα bit του προηγούμενου βήματος, δημιουργώντας M διανύσματα μεγέθους N. Αυτό το βήμα απαιτεί NlogN υπολογισμούς για κάθε διάνυσμα. 3. Βάσει της ορισμένης από το χρήστη τιμής ελάχιστης εμπιστοσύνης, αφαίρεσε τις μη έγκυρες και τις αδύναμες περιόδους αφήνοντας μόνο τις έγκυρες. Αυτό το βήμα απαιτεί ένα πέρασμα στα διανύσματα αυτοσυσχέτισης. 4. Βελτίωσε περαιτέρω το αποτέλεσμα με μια διαδικασία «ραφιναρίσματος» έτσι, ώστε να προκύψει ένα συντηρητικό σύνολο υποψήφιων περιόδων. 5. Βάσει της Apriori ιδιότητας της περιοδικότητας, χρησιμοποίησε το αποτέλεσμα του προηγούμενου βήματος ως είσοδο σε έναν αλγόριθμο ανακάλυψης περιοδικών προτύπων. Τα βήματα 1-3 αντιστοιχούν στη φάση φιλτραρίσματος ενώ τα 4 και 5 στη φάση ραφιναρίσματος. Για το βήμα 5, υπάρχουν διάφοροι αλγόριθμοι που έχουν προταθεί, 35

52 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» όπως ο Max-subpattern Hit Set Algorithm, που χρησιμοποιεί μια δενδροειδή δομή (Max Subpattern tree) για την ανακάλυψη μερικώς περιοδικών προτύπων, για μια δεδομένη περίοδο. Στη δομή αυτή, κάθε κόμβος φέρει μια μεταβλητή που μετράει τον αριθμό των εμφανίσεων ενός προτύπου στην ακολουθία. Αναλυτική περιγραφή του αλγορίθμου υπάρχει στη σχετική εργασία (Han, Dong, & Yin, 1999) Η Φάση Φιλτραρίσματος Στο πρώτο βήμα της φάσης φιλτραρίσματος είναι η δημιουργία M διανυσμάτων bit μεγέθους N, όπου Μ είναι το μέγεθος του αλφαβήτου και Ν το μέγεθος της ακολουθίας, ένα διάνυσμα δηλαδή για κάθε σύμβολο του αλφαβήτου. Τα διανύσματα δημιουργούνται ως εξής: για κάθε σύμβολο της ακολουθίας δημιουργούμε ένα διάνυσμα στο οποίο περιέχεται η τιμή 1 στη θέση όπου εμφανίζεται το συγκεκριμένο σύμβολο και η τιμή 0 σε όλες τις άλλες θέσεις. Στο επόμενο βήμα υπολογίζεται η συνάρτηση κυκλικής αυτοσυσχέτισης για κάθε διάνυσμα bit. Ο όρος «αυτοσυσχέτιση» έχει να κάνει με την ανακάλυψη συσχετίσεων μεταξύ των στοιχείων του ίδιου διανύσματος. Ένας από τους σκοπούς της συνάρτησης αυτοσυσχέτισης είναι η ανακάλυψη μη-τυχαιότητας (non-randomness) σε μια ακολουθία (Box, Jenkins, & Reinsel, 1994). Ο υπολογισμός της αυτοσυσχέτισης περιλαμβάνει το άθροισμα των Ν εσωτερικών γινομένων μεταξύ της ακολουθίας και του εαυτού της μετατοπισμένου κάθε φορά κατά μετατόπιση (lag) k. Στην κυκλική αυτοσυσχέτιση, σε κάθε βήμα, το σημείο στο τέλος της ακολουθίας που βγαίνει από το γινόμενο, εισέρχεται στην αρχή της μετατοπιζόμενης ακολουθίας, «κυκλικά», έτσι, ώστε κάθε φορά το γινόμενο να γίνεται για Ν σημεία (εξίσωση 3.1): N k 1 Rxx( k) = x( n) x(( n+ k)mod N) (3.1) N k n= 1 Η τιμή της αυτοσυσχέτισης στο lag 0 ισούται με το μέτρο του x(n), όπως φαίνεται στην εξίσωση 3.2: R xx 1 (0) ( ) N 2 = x n (3.2) N i = 1 Αυτή η εξίσωση που μοιάζει με συνέλιξη, υπολογίζει τη διακριτή 1D κυκλική 36

53 Κεφάλαιο 3-«Ανακάλυψη Ασθενών Περιοδικοτήτων σε Χρονοσειρές» αυτοσυσχέτιση για μετατόπιση k. Προκειμένου να εξετάσουμε όλες τις πιθανές περιόδους, υπολογίζουμε τη συνάρτηση αυτοσυσχέτισης για όλες τις δυνατές μετατοπίσεις, δηλαδή για k-1..n. Η πολυπλοκότητα της διαδικασίας αυτής είναι Ο(Ν 2 ), είναι δηλαδή ιδιαίτερα «ακριβή». Εκμεταλλευόμενοι τον γρήγορο μετασχηματισμό Φουριέ (FFT), ελαττώνουμε αποτελεσματικά την πολυπλοκότητα σε O(NlogN), ως εξής (εξίσωση 3.3): FFT 1 IFFT f( x) F ( x) R ( F( x)) = F( x)* F( x) r ( f( x)) (3.3) N Στην παραπάνω εξίσωση (3.3), το γινόμενο F ( x) * F ( x) είναι το εσωτερικό γινόμενο του F(x) με το συζυγές μιγαδικό του. Η μαθηματική απόδειξη, μπορεί να βρεθεί στη βιβλιογραφία. Ο Πίνακας 3.1 δείχνει πως λειτουργεί η κυκλική αυτοσυσχέτιση. Όταν ευθυγραμμίζονται οι περιοδικοί άσσοι, προστίθενται με αποτέλεσμα να δίνουν υψηλή τιμή αυτοσυσχέτισης. Πίνακας Παράδειγμα κυκλικής αυτοσυσχέτισης διανύσματος bit Lag = 0 Autocorrelation = 2 Lag = 1 Autocorrelation = 0 Lag = 2 Autocorrelation = 0 Lag = 3 Autocorrelation = 2 Παράδειγμα 3.1. Έστω η ακολουθία abcdabebadfcacdcfcaa μήκους 20, όπου το α είναι περιοδικό με περίοδο 4 και εμπιστοσύνη ¾. Δημιουργούμε για το α το διάνυσμα bit Η κυκλική αυτοσυσχέτιση του διανύσματος αυτού απεικονίζεται στην Εικόνα 3.1. Η πρώτη τιμή του διανύσματος της αυτοσυσχέτισης υπολογίζεται για μηδενική μετατόπιση και έτσι, το αποτέλεσμα είναι το εσωτερικό γινόμενο του αρχικού διανύσματος με τον εαυτό του. Τα δύο διανύσματα είναι τέλεια ευθυγραμμισμένα κατά τον πολλαπλασιασμό, και το τελικό αποτέλεσμα είναι ο συνολικός αριθμός των εμφανίσεων του α. Η κορυφή στο σημείο 4 σημαίνει ότι πι- 37

54 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» θανότατα υπάρχει μια περίοδος μήκους 4, ενώ η αντίστοιχη τιμή (3) αποτελεί εκτίμηση της συχνότητάς της. Σύμφωνα με την παρατήρηση αυτή, μπορούμε να εξαγάγουμε τις κορυφές αυτές, δημιουργώντας ένα σύνολο υποψήφιων περιόδων. Εδώ πρέπει να σημειωθεί ότι η ύπαρξη περιόδου ίσης με 4 συνεπάγεται την εμφάνιση κορυφών στα σημεία που είναι ακέραια πολλαπλάσια του 4 (στο παράδειγμά μας στα σημεία 4, 8, 12 και 16). Ο χρήστης ορίζει ένα ελάχιστο όριο εμπιστοσύνης c και ο αλγόριθμος θα εξαγάγει εκείνες τις τιμές της κυκλικής αυτοσυσχέτισης, που είναι μεγαλύτερες από cn/p, όπου p το σημείο εκείνο της ακολουθίας, στο οποίο μπορεί να υπάρχει μια περίοδος (η πιθανή περίοδος). Εικόνα 3.1- Κυκλική αυτοσυσχέτιση, όταν το μήκος της ακολουθίας είναι πολλαπλάσιο του μήκους της περιόδου Πειραματικά Αποτελέσματα Δοκιμάσαμε τον αλγόριθμο PPD με διάφορα σύνολα δεδομένων. Τα πιο ενδιαφέροντα ήταν τα δεδομένα κατανάλωσης ηλεκτρικού ρεύματος και τα δεδομένα συναλλαγών σούπερ μάρκετ. Τα πρώτα περιλαμβάνουν μετρήσεις κατανάλωσης η- λεκτρικού ρεύματος κατά τη διάρκεια ενός έτους στην περιοχή του Σικάγο. Τα δεύτερα περιέχουν καθαρισμένα δεδομένα συναλλαγών από καταστήματα της αλυσίδας Wal-Mart, για διάστημα 15 μηνών. Επιπλέον, χρησιμοποιήθηκαν δεδομένα συνθετικού ελέγχου (synthetic control data) από το Machine Learning Repository (Blake & Merz, 1998). Εκτελέσεις του αλγορίθμου στα δεδομένα αυτά έδειξαν ότι ο χρόνος εκτέλεσης κλιμακώνεται σχεδόν γραμμικά σε συνάρτηση με το μήκος της ακολου- 38

55 Κεφάλαιο 3-«Ανακάλυψη Ασθενών Περιοδικοτήτων σε Χρονοσειρές» θίας (Εικόνα 3.2) και το μέγεθος του αλφαβήτου (Εικόνα 3.3). Το μέγεθος του αλφαβήτου ισούται με τον αριθμό των υπολογισμών του FFT μεγέθους N που απαιτούνται. Οι χρόνοι που φαίνονται στο γράφημα 3.3 αντιστοιχούν σε ένα σύνολο δεδομένων συνθετικού ελέγχου σημείων. Εικόνα Χρόνοι εκτέλεσης του PPD σε συνάρτηση με το μήκος της ακολουθίας Εικόνα Χρόνοι εκτέλεσης του PPD σε συνάρτηση με το μέγεθος του αλφαβήτου 39

56 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» Πίνακας (α) Αποτελέσματα στα δεδομένα Wal-Mart. (β) Επαλήθευση με τον αλγόριθμο Max Subpattern Hit. (α) Data Symbol Period ACF Freq. Pattern Conf. A AAAAAABBBB***********B*A 62.4 (β) Store 1 B AAAAAA**BB************AA 72.6 C AAAAAA***BC***********AA 60.9 D AAAAAA***B************AA 75.7 E AAAAAA*BB************BAA 63.3 F AAAAAA*BBB************AA 60.9 A AAAAAABBB************BAA 61.3 B AAAAAABBB************B*A 69.6 Store 2 C AAAAAABBB*************AA 65.7 D E A B Store 3 C D E F Θέματα απόδοσης του PPD Ένα από τα σημαντικότερα προβλήματα που πρέπει κάποιος να αντιμετωπίσει όταν χειρίζεται πραγματικά δεδομένα, είναι η σχεδόν αναπόφευκτη παρουσία θορύβου. Ο υπολογισμός της συνάρτησης αυτοσυσχέτισης σε διανύσματα bit, εξαφανίζει έναν μεγάλο αριθμό μη-περιοδικών «1», μέσω του πολλαπλασιασμού τους με μηδενικά, αφήνοντας έτσι τους περιοδικούς «άσσους» να συνεισφέρουν στο τελικό άθροισμα. Εναλλακτικά, αν είχαμε εφαρμόσει τη συνάρτηση αυτοσυσχέτισης στο αρχικό σήμα, αυτό θα είχε ως αποτέλεσμα να συνεισφέρουν στο τελικό αποτέλεσμα όλα τα στοιχεία του διανύσματος, ακόμα και τα μη περιοδικά, με συνέπεια η τελική εκτίμηση να μην είναι καθόλου αξιόπιστη. Συνεπώς, η τιμή αυτοσυσχέτισης που παράγεται από τον PPD μπορεί να θεωρηθεί ως μια αποδεκτή εκτίμηση της πραγματικής συ- 40

57 Κεφάλαιο 3-«Ανακάλυψη Ασθενών Περιοδικοτήτων σε Χρονοσειρές» χνότητας εμφάνισης ενός περιοδικού συμβόλου. Αξίζει να σημειωθεί ότι η τιμή της εκτίμησης αυτής δε μπορεί ποτέ να είναι μικρότερη από την πραγματική, γεγονός που καθιστά τον PPD πλήρη (complete). Έτσι, όλες οι έγκυρες περιοδικότητες θα συμπεριληφθούν στο σύνολο υποψήφιων περιοδικοτήτων, μαζί με ορισμένες μη έ- γκυρες, που οφείλονται στη «συσσώρευση» τυχαίων, μη-περιοδικών εμφανίσεων μαζί με τις περιοδικές. Μια από τις βασικότερες αδυναμίες της κυκλικής αυτοσυσχέτισης εμφανίζεται όταν το μήκος της ακολουθίας δεν είναι ακέραιο πολλαπλάσιο της υπάρχουσας περιόδου. Στην περίπτωση αυτή, ο μηχανισμός μετατόπισης και πολλαπλασιασμού συντελεί σε διανύσματα με υψηλό ποσοστό μη αναμενόμενων τιμών, που μπορεί οδηγήσουν σε παρερμηνείες σχετικά με την ύπαρξη κάποιας περιόδου. Αυτό συνήθως ενισχύεται από την ύπαρξη θορύβου και τυχαιότητας στα δεδομένα πραγματικού κόσμου. Στο παράδειγμα 3.1, το μήκος της ακολουθίας είναι 20, που αποτελεί ακέραιο πολλαπλάσιο της περιόδου (p=4). Αν το μήκος της ακολουθίας ήταν 21 (π.χ. προσθέτοντας ένα 0 στο τέλος του διανύσματος), αυτό θα οδηγούσε στην αυτοσυσχέτιση που φαίνεται στην Εικόνα 3.4. Εικόνα Κυκλική αυτοσυσχέτιση όταν το μήκος της ακολουθίας δεν είναι ακέραιο πολλαπλάσιο της περιόδου Ένα ακόμα γεγονός που μπορεί να επηρεάσει την ακρίβεια της τιμής της αυτοσυσχέτισης, είναι η περιοδική επανάληψη συνεχόμενων εμφανίσεων ενός συμβόλου. Για παράδειγμα, η περιοδική επανάληψη του αα* θα συντελούσε σε μια ασυνήθιστα υψηλή τιμή αυτοσυσχέτισης. 41

58 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» Παράδειγμα 3.2. Έστω για παράδειγμα η ακολουθία aabaacaadacdbdbdabcdb, ό- που το αα* επαναλαμβάνεται στα 3 από τα 6 περιοδικά τμήματα. Το γράφημα της σχετικής συνάρτησης κυκλικής αυτοσυσχέτισης φαίνεται στην Εικόνα 3.4. Στο γράφημα αυτό διακρίνεται καθαρά μια κορυφή στο σημείο 4, δηλώνοντας την ύπαρξη περιόδου ίσης με 3. Η εκτίμηση όμως της συχνότητας φαίνεται να είναι 6, διπλάσια δηλαδή από την πραγματική. Το φαινόμενο αυτό εξετάζεται και στην εργασία (Höppner & Klawonn, 2001). Εικόνα Η κυκλική αυτοσυσχέτιση ακολουθίας με συνεχόμενες εμφανίσεις του ίδιου συμβόλου Επαναλαμβάνοντας τον αλγόριθμο που περιγράψαμε ως εδώ, για κάθε σύμβολο του αλφαβήτου της ακολουθίας, ο PPD θα δημιουργήσει ένα σύνολο πιθανών περιόδων για κάθε ένα από αυτά. Κάθε σύμβολο μπορεί να έχει περισσότερες από μια περιόδους. Για κάθε μια από αυτές, παράγεται μια εκτίμηση της εμπιστοσύνης της, σύμφωνα με την τιμή αυτοσυσχέτισής της. Στη συνέχεια, βάσει της a priori ιδιότητας της περιοδικότητας που προαναφέρθηκε, δημιουργούμε ομάδες συμβόλων που μοιράζονται την ίδια περίοδο. Στο τέλος, για κάθε ομάδα περιοδικών συμβόλων, ε- κτελούμε τον αλγόριθμο (Han, Dong, & Yin, 1999), προκειμένου να εξαγάγουμε τα αντίστοιχα περιοδικά πρότυπα. Λήμμα: Έστω μια ακολουθία S με N σημεία. Έστω επίσης ένα σύμβολο x της ακολουθίας με περίοδο p 1 και εμπιστοσύνη c 1. Μπορεί να αποδειχθεί ότι το x είναι επίσης περιοδικό με περίοδο p 1 και εμπιστοσύνη c 2 c 1, όταν η p 2 είναι ακέραιο πολλαπλάσιο της p 1. 42

59 Κεφάλαιο 3-«Ανακάλυψη Ασθενών Περιοδικοτήτων σε Χρονοσειρές» Για παράδειγμα, αν το a είναι περιοδικό με περίοδο 4 και εμπιστοσύνη 0.75, τότε είναι και περιοδικό με περίοδο 8, 12, 16 κ.ο.κ. με αντίστοιχες τιμές εμπιστοσύνης μεγαλύτερες ή ίσες του Έστω ότι το b είναι περιοδικό με περίοδο 8. Βάσει του προηγούμενου λήμματος, γνωρίζουμε ότι και το α είναι περιοδικό με περίοδο 8 και έτσι μπορούμε να δημιουργήσουμε μια ομάδα συμβόλων με την ίδια περίοδο και να εκτελέσουμε τον αλγόριθμο (Han, Dong, & Yin, 1999), προκειμένου να εξαγάγουμε τα πιθανά περιοδικά πρότυπα με περίοδο 8 ή κάποιο πολλαπλάσιό του. Ο PPD απαιτεί ένα πέρασμα στην αρχική βάση δεδομένων προκειμένου να δημιουργήσει τα διανύσματα bit. Στη συνέχεια, εκτελείται σε χρόνο O(NlogN) για κάθε σύμβολο του αλφαβήτου της ακολουθίας. Συνεπώς, ο συνολικός χρόνος εκτέλεσης είναι της τάξης του M*O(NlogN) και εξαρτάται από το μέγεθος του αλφαβήτου Μ. Γενικά, μπορούμε να πούμε ότι το M συνήθως είναι αρκετά μικρό, αφού ι- σούται με τον αριθμό των διαστημάτων που διαιρείται το πεδίο ορισμού μιας συνεχούς μεταβλητής, κάτι που πολλές φορές γίνεται από το χρήστη-ειδικό. Βεβαίως, υπάρχουν εφαρμογές που το αλφάβητο μπορεί να είναι αρκετά μεγάλο, αυξάνοντας έτσι σημαντικά το χρόνο εκτέλεσης του αλγορίθμου. Συμπερασματικά, αξίζει επίσης να σημειώσουμε ότι παρ όλο που μπορεί να εμφανιστούν ορισμένες «παραπλανητικές» κορυφές στο γράφημα της αυτοσυσχέτισης, ο PPD είναι ένας πλήρης αλγόριθμος, αφού όλες οι έγκυρες περίοδοι θα συμπεριληφθούν τελικά στο σύνολο υποψήφιων περιόδων Η Φάση «Ραφιναρίσματος» Το βασικότερο μειονέκτημα της φάσης φιλτραρίσματος είναι ο μεγάλος αριθμός των παραγόμενων υποψήφιων περιόδων. Εξαιτίας των λόγων που αναφέρθηκαν στην προηγούμενη παράγραφο, ένας αριθμός «ανύπαρκτων» περιόδων μπορεί να εμφανίσει υψηλές τιμές κυκλικής αυτοσυσχέτισης, δυσκολεύοντας την αναγνώριση των έγκυρων περιόδων. Προτείνουμε μια απλή και αποτελεσματική λύση στο πρόβλημα αυτό, μέσω μιας τυχαίας επαναληπτικής διαδικασίας. Επιλέγουμε τυχαία ένα τμήμα της ακολουθίας, μεγέθους π.χ. Ν/10. Στη συνέχεια, εφαρμόζουμε τον αλγόριθμο της φάσης φιλτραρίσματος, εξάγοντας τις περιόδους από το τμήμα αυτό μόνο. Επαναλαμβάνουμε τον αλγόριθμο για μερικά ακόμα τμήματα του ίδιου μεγέθους. Οι περίοδοι που προκύπτουν από το βήμα αυτό είναι εκείνες που περνούν με επιτυχία τη φάση ραφιναρίσματος. 43

60 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» Η βασική ιδέα πίσω από τον αλγόριθμο αυτό είναι ότι οι «ανύπαρκτες» περίοδοι είναι απίθανο να εμφανίζονται τακτικά και συχνά κατά μήκος ολόκληρης της ακολουθίας, όπως οι έγκυρες. Επίσης, με τον τρόπο αυτό εξαιρείται ένας μεγάλος αριθμός ψευδο-περιοδικών εμφανίσεων ενός συμβόλου, κάτι που ενισχύει περαιτέρω την αξιοπιστία του αλγορίθμου που εφαρμόζεται σε ένα τμήμα της ακολουθίας. Ο αριθμός των επαναλήψεων εξαρτάται από την ισχύ (εμπιστοσύνη) των περιοδικοτήτων που επιθυμούμε να εξαγάγουμε. Αν το όριο ελάχιστης εμπιστοσύνης είναι χαμηλό, τότε είναι πιθανό κάποια «αδύναμη» αλλά έγκυρη περίοδος (με τιμή εμπιστοσύνης κοντά στην τιμή του ορίου), ενδέχεται να μην εμφανιστεί ως τέτοια σε ο- ρισμένα τμήματα. Στην περίπτωση αυτή πρέπει να αυξήσουμε τον αριθμό των επαναλήψεων, ώστε να μη χάσουμε μια πιθανώς έγκυρη περίοδο. Προφανώς, η διαδικασία αυτή είναι ημι-αυτόματη, που σημαίνει ότι απαιτεί την καθοδήγηση και παρέμβαση του χρήστη. 3.7 Ανακάλυψη Κατά Προσέγγιση Περιοδικοτήτων Ως «κατά προσέγγιση περιοδικότητα» (approximate periodicity) ορίζουμε την περιοδικότητα εκείνη της οποίας ορισμένα περιοδικά στιγμιότυπα ενδέχεται να έχουν μετακινηθεί κατά έναν αριθμό χρονικών σημείων πριν ή μετά την αναμενόμενη περιοδική τους εμφάνιση. Κανονικά, τα στιγμιότυπα αυτά θα θεωρούνταν ότι έλειπαν, μειώνοντας έτσι την τιμή εμπιστοσύνης της συγκεκριμένης περιόδου. Ωστόσο, σε αρκετές περιπτώσεις αυτό είναι φυσικό αποτέλεσμα της εγγενούς τυχαιότητας που εμπεριέχεται σε διάφορα φαινόμενα, και που θα έπρεπε με κάποιον τρόπο να συνεισφέρει στον υπολογισμό της εμπιστοσύνης μιας περιόδου. Στόχος μας είναι να συμπεριλάβουμε τις μετατοπισμένες αυτές εμφανίσεις στην εκτίμηση της συχνότητας. Για το σκοπό αυτό χρησιμοποιούμε τον αλγόριθμο αυτοσυσχέτισης, που περιγράψαμε στις προηγούμενες παραγράφους, στα διανύσματα των εμφανίσεων ενός συμβόλου μιας ακολουθίας, προκειμένου να εξαγάγουμε μια προσεγγιστική εκτίμηση της ισχύος μιας περιόδου. Ο προτεινόμενος αλγόριθμος ονομάζεται APPD (Approximate & Partial Periodicity Detection) Ο Αλγόριθμος APPD Ο αλγόριθμος APPD αποτελεί επέκταση του αλγορίθμου PPD. Στη φάση προεπε- 44

61 Κεφάλαιο 3-«Ανακάλυψη Ασθενών Περιοδικοτήτων σε Χρονοσειρές» ξεργασίας, κατά τη δημιουργία των διανυσμάτων bit, κάνουμε την υπόθεση ότι όλες οι εμφανίσεις ενός συμβόλου θα μπορούσαν να ήταν περιοδικές και να είχαν μετατοπιστεί κατά τι. Κάθε εμφάνιση υποδηλώνεται με έναν άσσο (1) στην αντίστοιχη θέση στο διάνυσμα. Επιχειρούμε να αποτυπώσουμε πιθανές μετατοπίσεις, αντικαθιστώντας τα bit εκατέρωθεν του κάθε άσσου με τιμές στο διάστημα (0,1). Παράδειγμα 3.3. Έστω το διάνυσμα u = [1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1, 0,0], που αντιστοιχεί στις εμφανίσεις του συμβόλου α σε μια ακολουθία. Το διάνυσμα αυτό αποτελείται από 24 σημεία και εμφανίζει τέλεια περιοδικότητα με περίοδο 3. Αυθαίρετα μετακινούμε τους 3 τελευταίους άσσους κατά 1 θέση πριν ή μετά, με αποτέλεσμα το νέο διάνυσμα να είναι το v = [1,0,0,1,0,0,1,0,0,1,0,0,1,0,1,0,0,0,1,0, 0,0,1,0]. Οι γραφικές παραστάσεις των αυτοσυσχετίσεων των δύο διανυσμάτων παρουσιάζονται στις παρακάτω εικόνες. Εικόνα Η κυκλική αυτοσυσχέτιση του διανύσματος u του παραδείγματος 3.3 Στα γραφήματα των εικόνων 3.6 και 3.7, μπορούμε να παρατηρήσουμε την αλλαγή στις τιμές της αυτοσυσχέτισης. Στο διάνυσμα v, η περίοδος 3 «χάνει» με ε- κτίμηση συχνότητας ίση με 4, ενώ η περίοδος που επικρατεί είναι ίση με 6, έχοντας εκτίμηση συχνότητας ίση με 5. Ωστόσο, η ύπαρξη και των δύο περιόδων υπονοεί ότι ενδεχομένως η κύρια περίοδος να είναι ίση με 3, κάποια στιγμιότυπα της οποίας να μην είναι απόλυτα ακριβή. Σε πραγματικά δεδομένα, όπου η τυχαιότητα και ο θόρυβος είναι εγγενή χαρακτηριστικά, τέτοια φαινόμενα είναι συνήθως αναμενόμενα, ενώ μια τέλεια κατανομή των περιοδικών εμφανίσεων είναι αρκετά απίθανο να συμβεί. 45

62 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» Εικόνα Η κυκλική αυτοσυσχέτιση του διανύσματος v του παραδείγματος 3.3 Παράδειγμα 3.4. Αλλάζοντας τα μηδενικά εκατέρωθεν ενός άσσου, που υποδηλώνει την εμφάνιση ενός συμβόλου, σε 0.5, τα κάνουμε να συνεισφέρουν στο τελικό σκορ (εκτίμηση συχνότητας), υπονοώντας ότι υπάρχει 50% πιθανότητα η εμφάνιση ενός συμβόλου να έχει μετατοπιστεί κατά 1 σημείο πριν ή μετά. Το διάνυσμα που προκύπτει είναι το w = [1,0.5,0.5,1,0.5,0.5,1,0.5,0.5,1,0.5,0.5,1,0.5,1,0.5,0,0.5,1,0.5, 0,0.5,1,0.5]. Στη γραφική παράσταση της Εικόνας 3.8 απεικονίζεται η συνάρτηση κυκλικής αυτοσυσχέτισης του διανύσματος w. Παρατηρούμε ότι η τιμή της περιόδου 3 τώρα είναι ίση με 10, κάτι που υπονοεί ότι η περίοδος αυτή μπορεί να είναι ισχυρότερη απ ότι υποδεικνύει η αυτοσυσχέτιση του v. Επίσης, μπορούμε να εισαγάγουμε τιμές διαφορετικές από 0.5 εκατέρωθεν των άσσων, ανάλογα με το πόσο θέλουμε να αυξήσουμε ή να μειώσουμε την πιθανότητα μετατόπισης. Αυτό είναι κάτι που εξαρτάται αποκλειστικά από τον ειδικό του αντικειμένου εφαρμογής. Εδώ πρέπει να σημειωθεί ότι σε καμία περίπτωση δεν υποθέτουμε ότι είναι γνωστή η κατανομή πιθανότητας των δεδομένων. Ο APPD μπορεί να χρησιμοποιηθεί σε συνδυασμό με τον PPD, ώστε να επιβεβαιώσει ή να απορρίψει τις υποψίες του χρήστη για περιοδικότητες που μπορεί να χαθούν λόγω μετατόπισης ενός αριθμού των στιγμιότυπων τους. Μάλιστα, αντικαθιστώντας περισσότερα σημεία εκατέρωθεν ενός άσσου με τιμές όπως [0.2, 0.6, 1, 0.6, 0.2], αυτό θα ήταν παρόμοιο με μια τριγωνική συνάρτηση μέλους μιας διαδικασίας ασαφοποίησης (fuzzification). Το πλεονέκτημα του APPD είναι ότι το υπολογιστικό κόστος του είναι σίγουρα μικρότερο ενός ασαφούς 46

63 Κεφάλαιο 3-«Ανακάλυψη Ασθενών Περιοδικοτήτων σε Χρονοσειρές» αλγορίθμου. Ο αλγόριθμος APPD δεν παράγει μια εκτίμηση συχνότητας, όπως ο PPD, αλλά μια ένδειξη της ισχύος μιας περιοδικότητας. Δεν αποτελεί ακλόνητη απόδειξη αλλά μια ισχυρή ένδειξη, που μπορεί να αξιοποιηθεί από το χρήστη, ο οποίος πρέπει να χρησιμοποιήσει τη γνώση που του παρέχουν και οι δύο αλγόριθμοι. Αν με τον APPD παράγεται μια σημαντική αύξηση της τιμής της συνάρτησης αυτοσυσχέτισης, τότε είναι ιδιαίτερα πιθανό η πραγματική τιμή της εμπιστοσύνης της αντίστοιχης περιόδου να είναι μεγαλύτερη από εκείνη που παρήγαγε ο PPD. Η αλγοριθμική πολυπλοκότητα του APPD είναι ακριβώς η ίδια με του PPD, αφού οι αλλαγές γίνονται κατά τη δημιουργία των διανυσμάτων bit στο στάδιο της προεπεξεργασίας. Έτσι, μπορούμε να δημιουργήσουμε και τα 2 σύνολα διανυσμάτων (και του PPD και του APPD) εξ αρχής, στο πρώτο πέρασμα, και στη συνέχεια να εκτελέσουμε δύο φορές το βήμα της συνάρτησης αυτοσυσχέτισης, ώστε να αποφύγουμε κάποιο επιπλέον πέρασμα στα αρχικά δεδομένα. Εικόνα Η κυκλική αυτοσυσχέτιση του διανύσματος w του παραδείγματος Πειραματικά Αποτελέσματα Εφαρμόσαμε τον αλγόριθμο σε 3 σύνολα δεδομένων κατανάλωσης ηλεκτρικής ε- νέργειας. Τα πρώτα δύο (Customer 1 και Customer 2) μας δόθηκαν από το πρόγραμμα CIMEG και περιέχουν ωριαίες μετρήσεις σε αμερικάνικα νοικοκυριά της ευρύτερης περιοχής του Σικάγο (Berberidis & Vlahavas, 2003). Το τρίτο σύνολο δε- 47

64 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» δομένων (Power Data) είναι από το UCR Time Series Data Mining Archive (Keogh & Folias, 2002). Το σχετικό αρχείο περιέχει μέσους όρους μετρήσεων κατανάλωσης ηλεκτρικής ενέργειας ανά 15 λεπτά, που έγιναν για ένα ερευνητικό κέντρο στο Eindhoven της Ολλανδίας, για ολόκληρο το Τα δεδομένα μετατράπηκαν σε ακολουθίες χαρακτήρων, μέσω μιας τυπικής διαδικασίας διακριτοποίησης. Κάθε χαρακτήρας αντιστοιχεί σε ένα διάστημα κατανάλωση (π.χ. a=high, b=medium, c=low). Για λόγους ομοιομορφίας, σε όλα τα πειράματα, το ελάχιστο όριο εμπιστοσύνης τέθηκε ίσο με 0.7 (70%). Τα αποτελέσματα που φαίνονται στον Πίνακας 3.3 είναι χαρακτηριστικά μιας σειράς εκτενών πειραμάτων που εκτελέστηκαν. Σημειώνουμε ότι για κάθε σύμβολο, δείχνουμε μόνο την ισχυρότερη περίοδο. Πίνακας Πειραματικά αποτελέσματα των αλγορίθμων PPD και APPD Customer 1 Customer 2 Power Data Symbol Freq. Period ACF Freq. Period ACF Freq. Period ACF A (1w) (18h) B (1h) APPD PPD C (2w) D (1w) (6w) E (1w) (2w) F A (1w) (20h) B (5d) (1h) C (1w) (2w) D (19d) (2m) E (1w) (2w) F Τα πειράματα επιβεβαίωσαν τις προσδοκίες μας σχετικά με την πληρότητα του αλγορίθμου. Στον Πίνακας 3.3, η στήλη ACF περιέχει τις τιμές της συνάρτησης κυκλικής αυτοσυσχέτισης, ενώ η στήλη Freq περιέχει τον αριθμό εμφανίσεων ενός χαρακτήρα. Και οι δύο αλγόριθμοι ανακάλυψαν επιτυχώς την αναμενόμενη ημερήσια (24h) περιοδικότητα, καθώς και την εβδομαδιαία περιοδικότητα, και στα 3 σύνολα δεδομένων. Στις περισσότερες περιπτώσεις, ο APPD επιβεβαίωσε τα αποτελέσματα του PPD, ωστόσο, σε μερικές περιπτώσεις υπήρξαν ορισμένες «διορθώσεις», που τελικά όμως δεν αναίρεσαν τον ημερήσιο ή εβδομαδιαίο κύκλο του αντίστοιχου συμβόλου. 48

65 Κεφάλαιο 3-«Ανακάλυψη Ασθενών Περιοδικοτήτων σε Χρονοσειρές» 3.8 Συμπεράσματα και Μελλοντική Έρευνα Στο κεφάλαιο αυτό παρουσιάστηκε μια νέα προσέγγιση για την αποτελεσματική α- νακάλυψη ασθενών (μερικών και κατά προσέγγιση) περιοδικοτήτων σε μεγάλες α- κολουθίες. Αρχικά, προτείναμε έναν αλγόριθμο ανακάλυψης μερικών περιοδικοτήτων (PPD), που χρησιμοποιεί τη συνάρτηση κυκλικής αυτοσυσχέτισης σε διανύσματα bit. Ο αλγόριθμος αποτελείται από μια φάση φιλτραρίσματος και μία φάση ραφιναρίσματος. Στη φάση φιλτραρίσματος ανακαλύπτεται ένα σύνολο υποψήφιων περιόδων, για κάθε σύμβολο της ακολουθίας (σύμφωνα με το ορισμένο από το χρήστη κατώτατο όριο εμπιστοσύνης και χωρίς καμία προηγούμενη γνώση για τα δεδομένα), καθώς επίσης και μια εκτίμηση της ισχύος (συχνότητα) για την κάθε υποψήφια περίοδο. Ο αλγόριθμος είναι χρήσιμος όταν η περίοδος των δεδομένων δεν είναι γνωστή ή όταν επιχειρούμε να ανακαλύψουμε μη αναμενόμενες περιόδους. Στη συνέχεια μπορεί να χρησιμοποιηθεί ένας αλγόριθμος ανακάλυψης περιοδικών προτύπων, όπως ο Max Subpattern Hit (Han, Dong, & Yin, 1999), για την ανακάλυψη των προτύπων. Δοκιμάσαμε τον αλγόριθμό μας με διάφορα σύνολα δεδομένων, δείχνοντας ότι κλιμακώνεται γραμμικά σε συνάρτηση με τον μέγεθος του αλφαβήτου και το μέγεθος της ακολουθίας. Επίσης, επιβεβαιώσαμε την πληρότητά του με τον αλγόριθμο Max Subpattern Hit. Προτείναμε επίσης έναν αλγόριθμο για την ανακάλυψη κατά προσέγγιση περιοδικοτήτων. Ο αλγόριθμος αυτός (APPD) αποτελεί προέκταση του PPD, στο στάδιο της προεπεξεργασίας. Ο APPD παρέχει στο χρήστη μια ισχυρή ένδειξη για την ύ- παρξη κατά προσέγγιση περιοδικοτήτων. Η χρησιμότητά του έγκειται στο γεγονός ότι είναι πιθανό σε δεδομένα του πραγματικού κόσμου ορισμένα στιγμιότυπα μιας περιόδου να έχουν μετατοπιστεί πριν ή μετά την αναμενόμενη εμφάνισή τους. Ο APPD ενσωματώνεται στο πρώτο πέρασμα στα αρχικά δεδομένα, χωρίς έτσι να αυξάνει την πολυπλοκότητα του αρχικού αλγορίθμου (PPD). Τέλος, στη φάση ραφιναρίσματος, το σύνολο υποψήφιων περιόδων που παράγεται από τη φάση φιλτραρίσματος, ελαττώνεται δραστικά. Κατά τη φάση αυτή ε- κτελούμε τον ίδιο αλγόριθμο ανακάλυψης περιοδικοτήτων σε τυχαία τμήματα της ακολουθίας. Ως αποτέλεσμα, η μεγάλη πλειονότητα των εσφαλμένων περιόδων εξαλείφεται. 49

66 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» Οι αλγόριθμοι υλοποιήθηκαν και δοκιμάστηκαν χρησιμοποιώντας έναν αλγόριθμο FFT που εκτελείται στην κύρια μνήμη, κάτι που είναι επαρκές για ακολουθίες μεγέθους της τάξης του ενός δισεκατομμυρίου σημείων, ωστόσο, θα ήταν ιδιαίτερα χρήσιμο να υλοποιηθεί χρησιμοποιώντας μια υλοποίηση του FFT βελτιστοποιημένη για να εκτελείται από το σκληρό δίσκο (Vitter, 2001) (Press, Teukolsky, Vetterling, & Flannery, 1992). Επίσης, μια ακόμη ενδιαφέρουσα επέκταση της προσέγγισης που παρουσιάστηκε στο κεφάλαιο αυτό θα ήταν η μετατροπή των αλγορίθμων, ώστε να εκτελούνται σε κατανεμημένα δεδομένα. 50

67 Κεφάλαιο 4 «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» «Για να είναι επιτυχής μια πρόβλεψη, πρέπει να δημοσιεύεις είτε τον χρόνο είτε την τιμή. Ποτέ και τα δύο μαζί». - Economist, διορθώνοντας ένα δημοσίευμα με λανθασμένη εκτίμηση για την τιμή του πετρελαίου 4.1 Εισαγωγή Η ανάλυση σπανίων γεγονότων είναι μια περιοχή που περιλαμβάνει μεθόδους για την ανίχνευση και πρόβλεψη γεγονότων, όπως μια βλάβη ενός κινητήρα ή η παραβίαση ενός δικτύου, που δε συμβαίνουν συχνά και συνήθως έχουν μια ιδιαίτερη επίδραση στο σύστημα. Υπάρχουν διάφορες μέθοδοι για το σκοπό αυτό, από τις περιοχές της στατιστικής και της εξόρυξης από δεδομένα. Στο κεφάλαιο αυτό προτείνουμε έναν νέο αλγόριθμο, που ονομάζεται PREVENT, ο οποίος χρησιμοποιεί διασυναλλακτικά πρότυπα για την πρόβλεψη σπανίων γεγονότων σε βάσεις δεδομένων συναλλαγών. Ο PREVENT είναι ένας αλγόριθμος ανακάλυψης διασυναλλακτικών κανόνων συσχέτισης γενικής χρήσης, που όμως δείχνει να ανταποκρίνεται στις

68 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» απαιτήσεις του προβλήματος της πρόβλεψης σπάνιων γεγονότων. Έχει χαμηλό υπολογιστικό κόστος και είναι πλήρης. Στη συνέχεια του κεφαλαίου, παραθέτουμε το μαθηματικό ορισμό του προβλήματος, μια εκτενή περιγραφή της σχετικής βιβλιογραφίας, την περιγραφή του αλγορίθμου καθώς και πειραματικά αποτελέσματα που δείχνουν την αποτελεσματικότητα του PREVENT. Μέχρι πρόσφατα στις περισσότερες μελέτες, οι δυνατότητες πρόβλεψης των κανόνων συσχέτισης θεωρούνταν ιδιαίτερα περιορισμένες, αφού από τη φύση τους συσχετίζουν αντικείμενα ή γεγονότα που ανήκουν στην ίδια συναλλαγή (transaction), είναι δηλαδή «ενδο-συναλλακτικοί» (intra-transactional). Οι «διασυναλλακτικοί» (inter-transactional) κανόνες συσχέτισης αποτελούν ένα σχετικά νέο είδος κανόνων, που έχουν τη δυνατότητα να ενσωματώνουν τη χρονική ή ακολουθιακή πληροφορία, κάτι που τους καθιστά κατάλληλους για πρόβλεψη. Η πρόβλεψη σπανίων γεγονότων είναι ένα ιδιαίτερα ενδιαφέρον πρόβλημα, αφού το αποτέλεσμα της διαδικασίας δεν αρκεί μόνο να είναι ακριβές αλλά πρέπει να παρέχεται και έ- γκαιρα. Με τον όρο «σπάνια γεγονότα» εννοούμε τα γεγονότα ενός πεδίου εφαρμογής που δε συμβαίνουν συχνά ή τακτικά (συνήθως σε ποσοστό μικρότερο του 10% και συχνά μικρότερο και από 1%), έχουν κάποια ιδιαίτερη σημασία ή αντίκτυπο στο σύστημα που εντάσσονται και είναι δύσκολο να προβλεφθούν. Παραδείγματα τέτοιων γεγονότων είναι οι βλάβες, ακραία μετεωρολογικά φαινόμενα, σεισμοί, απάτες συναλλαγών κ.α. Η πρόβλεψη γεγονότων έχει κοινά στοιχεία με την πρόβλεψη σε χρονοσειρές. Η κλασική πρόβλεψη χρονοσειρών, που έχει μελετηθεί εκτενώς στα πεδία της στατιστικής, έχει να κάνει με την πρόβλεψη των επόμενων n συνεχόμενων παρατηρήσεων, βάσει ενός αριθμό παρελθόντων παρατηρήσεων (Brockwell & Davis, 1996). Οι «παραδοσιακές» αυτές τεχνικές αφορούν κυρίως στη δημιουργία μαθηματικών πιθανοκρατικών μοντέλων, που βασίζονται σε συγκεκριμένα δεδομένα και που ε- ξαρτώνται από διάφορες θεωρητικές υποθέσεις σχετικά με τη φύση των δεδομένων αυτών, όπως η κατανομή πιθανότητας. Στα πλαίσια της παρούσας διατριβής δεν α- κολουθήθηκε αυτή η προσέγγιση, αλλά μια σχετικά νέα, σύμφωνα με την οποία ενδιαφερόμαστε να εξαγάγουμε γνώση που μπορεί να βρίσκεται αποθηκευμένη σε ένα ευρύ φάσμα μεγάλων βάσεων δεδομένων συναλλαγών (transaction databases), χωρίς προηγούμενη γνώση για τη μεταβλητότητα και την κατανομή των δεδομένων και 52

69 Κεφάλαιο 4- «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» άρα χωρίς να απαιτούνται θεωρητικές υποθέσεις. Επίσης, στόχος μας δεν είναι η δημιουργία μαθηματικών μοντέλων αλλά η ανακάλυψη προτύπων, που συνδέονται με συγκεκριμένα κρίσιμα γεγονότα, ώστε να είναι δυνατή η έκδοση έγκαιρης προειδοποίησης. Ο PREVENT είναι ένας νέος αλγόριθμος ανακάλυψης συχνών διασυναλλακτικών προτύπων, που βασίζεται σε μια δημοφιλή δομή δένδρου προθέματος (prefix tree), που ονομάζεται FP-tree (Han, Pei, & Yin, 2000). Η προσέγγισή μας διαφέρει από τις υπόλοιπες προσεγγίσεις χρονικών κανόνων συσχέτισης κυρίως στο ότι χρησιμοποιούμε πρότυπα αντί για κανόνες και στο ότι υιοθετούμε ένα γενικό πλαίσιο, στο οποίο η εξαγόμενη γνώση παρέχεται μέσα σε ένα συγκεκριμένο χρονικό παράθυρο. Ακόμη, ο PREVENT απαιτεί μόνο ένα πέρασμα στα αρχικά δεδομένα, υπερέχοντας έτσι σε απόδοση των Apriori προσεγγίσεων. Προκειμένου να μετρήσουμε τόσο την απόδοση όσο και την αποτελεσματικότητά του, εκτελέσαμε έναν μεγάλο αριθμό πειραμάτων, χρησιμοποιώντας διάφορα σύνολα δεδομένων, ανάμεσα στα οποία και δύο πραγματικά, ένα μετεωρολογικό για την πρόβλεψη καυσώνων και ένα κατανάλωσης ηλεκτρικής ενέργειας. 4.2 Σχετικές Εργασίες Στην ενότητα αυτή παραθέτουμε μια επισκόπηση της σχετικής βιβλιογραφίας. Πρώτα θα αναφερθούμε σε εκείνες τις εργασίες ανακάλυψης κανόνων συσχέτισης και προτύπων, που αποτέλεσαν την πηγή έμπνευσης την δικής μας προσέγγισης. Στη συνέχεια, στην ενότητα παραθέτουμε τις σημαντικότερες μελέτες πρόβλεψης σπάνιων γεγονότων, με έμφαση σε εκείνες που είναι με επίβλεψη (supervised). Τέλος, στην ενότητα αναφέρουμε μερικά από τα ανοικτά ζητήματα της πρόβλεψης σπάνιων γεγονότων Πρόβλεψη με Κανόνες Συσχέτισης και Ακολουθιακά Πρότυπα Σε μια χρονική βάση δεδομένων μπορεί κανείς να αναζητήσει διάφορα είδη κανόνων συσχέτισης. Μια προσέγγιση είναι να εφαρμόσουμε πρώτα χρονική ομαδοποίηση (clustering) και στη συνέχεια να ανακαλύψουμε κανόνες συσχέτισης από κάθε ομάδα, προκειμένου να αποτυπώσουμε τη μεταβολή του μοντέλου με το χρόνο (Das, Lin, Mannila, Renganathan, & Smyth, 1998). Η παραδοσιακή ανάλυση κανόνων 53

70 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» συσχέτισης, επεκτάθηκε σε εξόρυξη ακολουθιών, όπου τα μέλη της ακολουθίας είναι σύνολα αντικειμένων, που ονομάζονται αντικειμενοσύνολα (itemsets), από κάποιο πεδίο ορισμού (αλφάβητο). Έστω ένα σύνολο γεγονότων E, τότε μια ακολουθία γεγονότων s είναι μια ακολουθία ζευγών (e, t), όπου e E και t ακέραιος, ο χρόνος εμφάνισης του γεγονότος e. Αντίθετα με τις χρονοσειρές, στις ακολουθίες δεν απαιτείται σαφής συσχέτιση με το χρόνο, αρκεί τα γεγονότα να είναι απολύτως διατεταγμένα. Σύμφωνα με τους Agrawal και Srikant (Agrawal & Srikant, 1995), ο στόχος της εξόρυξης ακολουθιών (sequence mining) είναι η ανακάλυψη όλων των μέγιστων ακολουθιών, με τιμή υποστήριξης μεγαλύτερη από ένα όριο. Η πρώτη τους ερευνητική πρόταση ήταν ένας αλγόριθμος τύπου Apriori (Agrawal & Srikant, 1994), τροποποιήσεις του οποίου προτάθηκαν αργότερα. Ο σημαντικότερος αλγόριθμός τους ήταν πιθανότατα ο GSP (Srikant & Agrawal, 1996), στον οποίο χρησιμοποιούν ένα συρόμενο παράθυρο (sliding window) για να εξαγάγουν τις συχνές α- κολουθίες. Στην εξόρυξη δεδομένων, η βασική διαφορά ανάμεσα σε μια χρονοσειρά και μια ακολουθία είναι ότι μια χρονοσειρά είναι μια λίστα χρονικά διατεταγμένων τιμών ενώ μια ακολουθία είναι μια λίστα διατεταγμένων συνόλων αντικειμένων (itemsets) ή τιμών. Στην εξόρυξη ακολουθιών ο στόχος είναι η ανακάλυψη προτύπων όπως το {{A}, {B}, {C, D}}, όπου τα {A}, {B} και {C, D} είναι σύνολα αντικειμένων από διαφορετικές συναλλαγές, που περιέχονται σε ένα χρονικό παράθυρο ορισμένο από το χρήστη. Η εύρεση των συχνότερων μέγιστων προτύπων είναι μια ιδιαίτερα χρήσιμη διαδικασία που παρέχει στο χρήστη πολύτιμη γνώση για τη χρονική φύση των δεδομένων του. Ωστόσο, η δυνατότητα πρόβλεψης των κανόνων συσχέτισης είναι περιορισμένη. Η ανάλυση ακολουθιών ή εξόρυξη ακολουθιακών προτύπων μελετήθηκε σε βάθος, αρχικά από τους Agrawal et al. (Agrawal & Srikant, 1995) (Agrawal, Mehta, Shafer, Srikant, Arning, & Bollinger, 1996), οι οποίοι και όρισαν τις έννοιες της ακολουθίας και υποακολουθίας στην ΑΓΒΔ. Ένα άλλο είδος χρονικής γνώσης είναι οι κανόνες επεισοδίων (episode rules) (Mannila, Toivonen, & Verkamo, 1995), που αποτελούν γενίκευση των κανόνων συσχέτισης. Μια ακολουθία γεγονότων S ορίζεται ως μια διατεταγμένη λίστα γεγονότων, στην οποία το κάθε γεγονός συμβαίνει σε μια συγκεκριμένη χρονική στιγμή. Μπορεί δηλαδή κανείς να θεωρήσει ότι είναι ένα είδος χρονοσειράς. Ένα επεισόδιο 54

71 Κεφάλαιο 4- «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» α ορίζεται ως μια μερικώς διατεταγμένη σειρά γεγονότων. Τα επεισόδια μπορούν να θεωρηθούν ότι είναι ακυκλικοί γράφοι. Υπάρχουν σειριακά, παράλληλα και μη σειριακά (non-serial) επεισόδια. Οι αλγόριθμοι εξόρυξης επεισοδίων αναζητούν κανόνες επεισοδίων μέσα σε ένα συρόμενο παράθυρο, που το μέγεθός του ορίζεται από το χρήστη. Αυτό που τελικά αποτυπώνεται είναι η χρονική σχέση ανάμεσα σε γεγονότα που λαμβάνουν χώρα κατά τη διάρκεια ενός στιγμιότυπου του παραθύρου αυτού, π.χ. «Το Γ συμβαίνει μετά τα Α και Β σε ένα παράθυρο μεγέθους w». Οι χρονικοί κανόνες συσχέτισης συσχετίζουν αντικείμενα σε δεδομένα συναλλαγών, με προτάσεις του τύπου «το Α συμβαίνει συνήθως κάποιο χρονικό διάστημα μετά το Β» ενσωματώνοντας έτσι ένα είδος χρονικής πληροφορίας στην παραγόμενη γνώση. Συνήθως υποστηρίζονται οι 13 χρονικές σχέσεις του Allen (Allen, 1983), όπως «πριν», «μετά», «κατά τη διάρκεια» κ.ο.κ. Παρ όλο που οι συναλλαγές καταγράφουν αντικείμενα και γεγονότα ενός συστήματος με περιεχόμενο χρονικό, χωρικό κλπ., η πληροφορία σχετικά με το περιεχόμενο αυτό δεν αξιοποιείται ως όφειλε από τα παραδοσιακά συστήματα κανόνων συσχέτισης. Τούτο οφείλεται στο γεγονός ότι το περιεχόμενο υφίσταται μεταβαλλόμενο από τη μια συναλλαγή στην άλλη, είναι δηλαδή «διασυναλλακτικό». Οι κλασικοί κανόνες συσχέτισης, όντας «ενδοσυναλλακτικοί», αθροίζουν πληροφορία πολλών συναλλαγών σε έναν κανόνα που αφορά μια συναλλαγή: «στα εκατομμύρια των συναλλαγών ενός σούπερ μάρκετ, υπάρχει 60% πιθανότητα να αγοραστούν μαζί (στην ίδια συναλλαγή) μπύρες και πάνες». Ωστόσο, δεν είναι δυνατό να κανόνες όπως «αν η τιμή της μετοχής της ΙΒΜ και της SUN ανέβουν, τότε η μετοχή της Microsoft θα πέσει 2 μέρες αργότερα, με πιθανότητα 80%» (Tung, Lu, Han, & Feng, 2003). Οι διασυναλλακτικοί (intertransactional) κανόνες συσχέτισης συσχετίζουν σύνολα αντικειμένων διαφορετικών συναλλαγών, κατά μήκος του άξονα ενός χαρακτηριστικού που ονομάζεται χαρακτηριστικό διάστασης (dimensional attribute). Στο παράδειγμα με τις μετοχές, το χαρακτηριστικό διάστασης είναι ο χρόνος. Οι διασυναλλακτικοί κανόνες συσχέτισης μπορεί να είναι μονοδιάστατοι (με ένα μόνο χαρακτηριστικό διάστασης) ή πολυδιάστατοι (με περισσότερα χαρακτηριστικά διάστασης ταυτόχρονα). Προτάθηκαν από τους Tung, Lu, Han και Feng στις εργασίες (Tung, Lu, Han, & Feng, 1999) και (Lu, Feng, & Han, 2000). Στην τελευταία, οι συγγρα- 55

72 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» φείς επεκτείνουν την έννοια των διασυναλλακτικών κανόνων στον πολυδιάστατο χώρο και προτείνουν τον αλγόριθμο EH-Apriori, για την εξόρυξη των κανόνων αυτών. Προτείνουν επίσης τη χρήση «οδηγών» (templates) και των εννοιολογικών ιεραρχιών, ώστε να ελαττώσουν τον μεγάλο αριθμό των παραγόμενων κανόνων. Στην ( (Tung, Lu, Han, & Feng, 2003) προτείνουν μια οικογένεια αλγορίθμων που ονομάζονται FITI ("First Intra then Inter"), που έχουν καλύτερη απόδοση από τον EH- Apriori. Στις εργασίες (Feng, Dillon, & Liu, 2001) και (Lu, Han, & Feng, 1998), οι συγγραφείς χρησιμοποιούν διασυναλλακτικούς κανόνες συσχέτισης για πρόβλεψη σε μετεωρολογικά και χρηματιστηριακά δεδομένα αντίστοιχα. Οι εργασίες που μοιράζονται τα περισσότερα κοινά στοιχεία με την εξόρυξη διασυναλλακτικών κανόνων συσχέτισης είναι οι (Agrawal & Srikant, 1995) και (Mannila, Toivonen, & Verkamo, 1995). Οι διαφορές των διασυναλλακτικών κανόνων συσχέτισης με τις προηγούμενες εργασίες εξηγούνται εκτενέστερα στην εργασία (Tung, Lu, Han, & Feng, 2003). Τέλος, μια αρκετά περιεκτική βιβλιογραφική έρευνα σχετικά με την ανακάλυψη χρονικής γνώσης γενικότερα, γίνεται στην (Roddick & Spiliopoulou, 2002) Άλλες προσεγγίσεις στην πρόβλεψη σπάνιων γεγονότων Εκτός από τις προαναφερθείσες εργασίες, η πρόβλεψη γεγονότων έχει εξεταστεί ε- κτενώς και ως πρόβλημα ταξινόμησης στη μηχανική μάθηση. Στη βιβλιογραφία της μηχανικής μάθησης και στης στατιστικής υπάρχει μια πληθώρα μεθόδων, άλλες με επίβλεψη και άλλες χωρίς. Στις μεθόδους μάθησης με επίβλεψη, τα δεδομένα πρέπει να φέρουν τις «ετικέτες» των τάξεων (labels), προκειμένου να δημιουργηθεί ένα μοντέλο, ενώ στις χωρίς επίβλεψη το κάθε γεγονός αναλύεται προκειμένου να καθοριστεί κατά πόσο προσεγγίζει στην πλειοψηφία. Υπάρχουν πολλές μέθοδοι ανίχνευσης εκτόπων (outlier detection), στατιστικές (Eskin E., 2000) (Lee & Xiang, 2001), βασιζόμενες σε κάποιο μέτρο απόστασης (distance-based) (Knorr & Ng, 1998) (Ramaswamy, Rastogi, & Shim, 2000), βασιζόμενες στην πυκνότητα (densitybased) (Breunig, Kriegel, & Ng, 2000), με συσταδοποίηση (Eskin, Arnold, Prerau, Portnoy, & Stolfo, 2002) και με νευρωνικά δίκτυα και μηχανές διανυσμάτων υποστήριξης (SVMs) (Hawkins, He, & Williams, 2002) (Lazarevic, Eroz, Kumar, Ozgur, & Srivastava, 2003). 56

73 Κεφάλαιο 4- «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» Στο πλαίσιο της μηχανικής μάθησης, η πρόβλεψη σπανίων γεγονότων αντιμετωπίζεται ως πρόβλημα δεδομένων με ανισοκατανομή τάξεων (class imbalance) ή ως ταξινόμηση με βάση το κόστος (cost-sensitive classification). Μια από τις λύσεις που έχουν προταθεί για να αντιμετωπιστεί το πρόβλημα της ανισοκατανομής των τάξεων είναι η χρήση τεχνικών ειδικού χειρισμού των δεδομένων data (record manipulation techniques). Τέτοιες τεχνικές θεωρούνται η κατάλληλη δειγματοληψία για την αποδυνάμωση της πλειοψηφούσας τάξης (undersampling) (Kubat & Matwin, 1997) ή την ενίσχυση της μειοψηφούσας τάξης (oversampling) (Ling & Li, 1998). Μια από τις πλέον δημοφιλείς τεχνικές είναι η SMOTE (Synthetic Minority Oversampling TEchnique) (Chawla, Bowyer, Hall, & Kegelmeyer, 2002), κατά την οποία δημιουργούνται συνθετικά παραδείγματα της μειοψηφούσας τάξης, μέσω μιας διαδικασίας ψηφοφορίας των πλησιέστερων γειτόνων. Στην ταξινόμηση με βάση το κόστος, στα στιγμιότυπα που ταξινομούνται λάθος αποδίδεται ένα κόστος, σύμφωνα με έναν πίνακα κόστους (cost matrix). Οι μέθοδοι AdaCost (Fan, Stolfo, Zhang, & Chan, 1999) και Metacost (Domingos, 1999) είναι χαρακτηριστικά παραδείγματα της κατηγορίας αυτής, που μπορούν να χρησιμοποιηθούν για την πρόβλεψη σπάνιων τάξεων με υψηλό κόστος εσφαλμένης ταξινόμησης. Η AdaBoost (Freund & Schapire, 1997) είναι μια ακόμη δημοφιλής μέθοδος που επιτρέπει το συνδυασμό ενός αριθμού αδύναμων κανόνων σε έναν ισχυρότερο (ακριβέστερο) ταξινομητή. Για την εξόρυξη σπάνιων τάξεων προτάθηκε και η μέθοδος των αναδυόμενων προτύπων (emerging patterns). Αποτελούν επέκταση των κανόνων συσχέτισης και είναι πρότυπα των οποίων η υποστήριξη αυξάνεται σημαντικά με το χρόνο (Alhammady & Rao, 2004). Άλλες μέθοδοι που αξίζει να αναφερθούν είναι επίσης οι συσχετίσεις χρονικών ακολουθιών (Chen, He, Williams, & Jin, 2004) καθώς και η εργασία των (Vilalta & Ma, 2002), όπου προτείνεται ένας τρόπος συνδυασμού διαφορετικών γεγονότων με στόχο τη δημιουργία ενός συστήματος κανόνων πρόβλεψης. Οι (Fawcett & Provost, 1999) προτείνουν μια νέα κατηγορία προβλημάτων, που την ονομάζουν παρακολούθηση δραστηριότητας (activity monitoring) και που αφορά στην παρακολούθηση μιας σειράς ενός πλήθους οντοτήτων, για την ανακάλυψη ενδιαφέροντων γεγονότων που απαιτούν τη λήψη δράσης. Για το σκοπό αυτό, εισάγουν τη χρήση μιας τροποποιημένης καμπύλης ROC, που την ονομάζουν Χαρακτηριστική Παρακολούθησης Λειτουργίας Δραστηριότητας (Activity Operating Monitor Characteristic - AMOC). Οι (Torgo & Ribeiro, 2003) πρότειναν ένα νέο κριτήριο 57

74 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» διαχωρισμού στα δένδρα παλινδρόμησης, για την πρόβλεψη ακραίων και σπάνιων τιμών μιας συνεχούς μεταβλητής-στόχου. Για να αποφύγουν την απώλεια πληροφορίας που θα συνέβαινε ως αποτέλεσμα μιας διακριτοποίησης, οι συγγραφείς χρησιμοποιούν το μέτρο F (Provost, Fawcett, & Kohavi, 1998) για την επιλογή του βέλτιστου κριτηρίου διαχωρισμού σε κάθε κόμβο. Τα αποτελέσματα είναι αξιοπρόσεκτα σε ορισμένα σύνολα δεδομένων, ενώ σε άλλα δεν είναι τόσο ικανοποιητικά. Μια ιδιαίτερα κατατοπιστική μελέτη είναι εκείνη των (Japkowicz & Shaju, 2002), στην οποία παρουσιάζεται συγκριτικά η συμπεριφορά διαφόρων ταξινομητών στο πρόβλημα της ανισοκατανομής των τάξεων και πως διάφορες λύσεις μπορούν να επηρεάσουν την ακρίβειά τους. Συγκεκριμένα, οι ταξινομητές που χρησιμοποιήθηκαν είναι ο C5.0, ένα MLP (Multi-layer Perceptron) και μια μηχανή διανύσματος υποστήριξης (SVM). Στην εργασία φαίνεται ότι οι SVM είναι οι λιγότερο ευαίσθητες, χωρίς όμως να είναι πάντοτε πιο ακριβείς. Η ακρίβειά τους είναι διαφορετική για διαφορετικά είδη προβλημάτων και διαφορετικές πολυπλοκότητες εννοιών. Οι συγγραφείς καταλήγουν ότι οι SVM είναι ανθεκτικές και ακριβείς σε ένα ευρύ φάσμα προβλημάτων αλλά εξαρτώνται άμεσα από τη σωστή επιλογή της συνάρτησης πυρήνα και της μεταβλητότητας, ενώ απαιτούν ιδιαίτερα πολύ χρόνο εκπαίδευσης, κάτι που τις καθιστά ακατάλληλες για πολλές εφαρμογές. Αυτό το τελευταίο βέβαια ισχύει και για τα Νευρωνικά Δίκτυα και τα MLP. Στο πλαίσιο της παρούσας διατριβής, προτείνουμε μια νέα μέθοδο πρόβλεψης σπάνιων γεγονότων, που βασίζεται στους διασυναλλακτικούς κανόνες συσχέτισης και εκμεταλλεύεται την απόδοση του FP-Growth, ενός αλγορίθμου εξόρυξης κλασικών, ενδοσυναλλακτικών κανόνων συσχέτισης. Ορίζουμε ένα συγκεκριμένο πλαίσιο για την εξόρυξη προτύπων πρόβλεψης αντί για κανόνες ή γενικά μοντέλα, όπως στις περισσότερες μεθόδους αυτού του είδους. Το αποτέλεσμα είναι ο αλγόριθμος PREVENT (Prediction of Rare EVENTs), που ανταποκρίνεται στις απαιτήσεις του προβλήματος πρόβλεψης σπάνιων, διακριτών γεγονότων και που μπορεί όμως να χρησιμοποιηθεί και την απλή εξόρυξη διασυναλλακτικών κανόνων. Ο αλγόριθμος PREVENT έχει χαμηλό υπολογιστικό κόστος και είναι πλήρης, καθώς δεν υπάρχει απώλεια προτύπων. Τέλος, η αρθρωτή αρχιτεκτονική του επιτρέπει την εκμετάλλευση άλλων αλγορίθμων (εκτός του FP-Growth) και την επέκτασή του με επιπλέον χαρακτηριστικά. 58

75 Κεφάλαιο 4- «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» Ανοικτά προβλήματα στην πρόβλεψη σπανίων γεγονότων Παρ όλη την ιδιαίτερα εκτεταμένη έρευνα που διεξάγεται στο πεδίο αυτό, εξακολουθούν να υπάρχουν αρκετά ανοικτά ζητήματα που χρήζουν μελέτης από την ερευνητική κοινότητα. Την τελευταία δεκαετία αναγνωρίστηκε αυτό το πρόβλημα και διοργανώθηκαν αρκετές ημερίδες και διαλέξεις (Japkowitz Ν., 2000) (Chawla, Japkowitz, & Kolcz, 2003) (Lazarevic, 2004) προκειμένου να προσδιοριστούν τα κύρια χαρακτηριστικά του. Ένα από τα προβλήματα που αναγνωρίστηκαν είναι η επιλογή της κατάλληλης δειγματοληψίας. Η ενίσχυση της μειοψηφούσας τάξης μεγαλώνει το σύνολο εκπαίδευσης, αυξάνοντας το χρόνο εκπαίδευσης και μπορεί να οδηγήσει σε υπερμοντελοποίηση (overfitting), ενώ η αποδυνάμωση της πλειοψηφούσας τάξης ενέχει τον κίνδυνο απώλειας σημαντικής πληροφορίας. Σε τι βαθμό πρέπει κανείς να ενισχύσει η να αποδυναμώσει μια τάξη συνήθως αποφασίζεται ε- μπειρικά. Ευφυείς τεχνικές δειγματοληψίας, όπως η SMOTE, έχουν αποδειχθεί αρκετά αποτελεσματικές στο να εξαλείφουν την περιττή πληροφορία. Ακόμη ένα ζήτημα που πρέπει να διερευνηθεί είναι ο τρόπος με τον οποίο η κατανομή των τάξεων επηρεάζει την απόδοση των ταξινομητών. Οι (Weiss & Provost, 2003) εκτελώντας εκτενή πειράματα με ένα δένδρο κατηγοριοποίησης (C4.5) επιχείρησαν να φωτίσουν το συγκεκριμένο πρόβλημα. Χρησιμοποίησαν 26 σύνολα δεδομένων και πρότειναν έναν αλγόριθμο που λαμβάνει υπόψη το κόστος απόκτησης των παραδειγμάτων εκπαίδευσης. Στο συνέδριο ICML του 2003, αρκετές εργασίες προσπάθησαν να μελετήσουν συγκριτικά διάφορες μεθόδους. Το συμπέρασμα ήταν ότι κάθε μέθοδος αποδίδει διαφορετικά σε κάθε εφαρμογή, ανάλογα με τα ιδιαίτερα χαρακτηριστικά της. Η αξιολόγηση των ταξινομητών δεδομένων με ανισοκατανομή τάξεων είναι ακόμα ένα ζήτημα, στο οποίο οι καμπύλες ROC φαίνεται ότι είναι η επικρατέστερη λύση (Elkan, 2003). Ωστόσο, πρέπει να σημειωθεί ότι η ROC είναι βέλτιστη υπό την προϋπόθεση ότι όλα τα παραδείγματα έχουν το ίδιο κόστος. 4.3 Ο Αλγόριθμος PREVENT Ο αλγόριθμος PREVENT (Prediction of Rare EVENTs) είναι ένας αλγόριθμος εξόρυξης διασυναλλακτικών κανόνων συσχέτισης γενικής χρήσης, που συνδυάζει ορι- 59

76 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» σμένα χαρακτηριστικά, όπως η ενσωμάτωση ακριβούς χρονικής (ακολουθιακής) πληροφορίας και το χαμηλό υπολογιστικό κόστος, αφού απαιτεί μόνο 1 πέρασμα στα αρχικά δεδομένα και 2 σε μια μετασχηματισμένη βάση που έχει μέγεθος πολύ μικρότερο της αρχικής (Berberidis & Vlahavas, 2007). Συχνά είναι χρήσιμο να γνωρίζουμε με ακρίβεια και σαφήνεια πότε θα συμβεί κάτι (π.χ. σε πέντε ημέρες) και όχι γενικά και αόριστα (π.χ. κάποια ημέρα μέσα στην επόμενη εβδομάδα). Ο PREVENT, αντίθετα με τη μεγάλη πλειοψηφία των σχετικών μεθόδων, οι οποίες εστιάζουν στην ανακάλυψη κανόνων και μοντέλων, αφορά στην ανακάλυψη προτύπων πρόβλεψης (predictive patterns), που εμπεριέχουν την απαραίτητη για την πρόβλεψη χρονική πληροφορία. Καθορίζεται ένα συγκεκριμένο πλαίσιο πρόβλεψης, που περιλαμβάνει τον ορισμό ενός χρονικού παραθύρου πρόβλεψης ή παρακολούθησης, εντός του οποίου η πρόβλεψη είναι χρήσιμη για το χρήστη. Στη συνέχεια παρατίθενται ο ορισμός του προβλήματος και η περιγραφή του Ορισμός του προβλήματος Ορίζουμε τις παρακάτω έννοιες (Berberidis, Angelis, & Vlahavas, 2004): Το σύνολο των αντικειμένων ή γεγονότων I={i 1, i 2,...,i ν } αντιστοιχούν στις πιθανές δραστηριότητες ή γεγονότα που θέλουμε να καταγράφονται (π.χ. α- ντικείμενα που πωλούνται σε ένα κατάστημα ή απαντήσεις ενός εξυπηρετητή δικτύου σε αιτήσεις χρηστών ή εφαρμογών). Η μεταβλητή διάστασης (dimensional variable) T, περιγράφει τις ακολουθιακές ιδιότητες που σχετίζονται με τα γεγονότα. Η μεταβλητή αυτή παίρνει διατεταγμένες τιμές (ordinal) που αντιστοιχούν σε διαστήματα ίσου μήκους (π.χ. ημέρα, εβδομάδα, μήνας κ.ο.κ.). Μπορεί ωστόσο να παίρνει τιμές και από άλλα είδη διατεταγμένων μετρήσεων, όπως π.χ. μήκος, απόσταση κλπ. Είναι επίσης δυνατόν να συνυπάρχουν περισσότερες από μια μεταβλητές διάστασης ταυτόχρονα, όπως ο χρόνος και η απόσταση, αλλά στο πλαίσιο της διατριβής αντιμετωπίζεται η περίπτωση της ύπαρξης μιας μόνο. Χωρίς απώλεια της γενικότητας, ορίζουμε τις τιμές της Τ με ακεραίους 0, 1, 2,... Οι συναλλαγές (transactions) είναι εγγραφές της μορφής J(t), όπου t μια τιμή της μεταβλητής T και J(t) I. Έτσι, κάθε συναλλαγή περιέχει ένα σύνολο γεγονότων by ή αντικειμένων από το I καταγεγραμμένα στο σημείο t. 60

77 Κεφάλαιο 4- «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» Η βάση δεδομένων συναλλαγών, (transaction database) περιέχει όλες τις συναλλαγές που συνέβησαν κατά τη διάρκεια μιας χρονικής περιόδου. Η ακολουθία των συναλλαγών (transaction sequence) είναι μια (χρονικά) διατεταγμένη ακολουθία συναλλαγών, που ορίζεται ως S=J(t 1 ), J(t 2 ),..., J(t n ), η οποία περιλαμβάνει n συναλλαγές καταγεγραμμένες στο χρονικό διάστημα [t 1, t n ]. Το αντικείμενο-στόχος (target item), i* I, αναπαριστά μια δραστηριότητα ή ένα γεγονός, του οποίου η πρόβλεψη έχει ιδιαίτερο ενδιαφέρον, όπως μια βλάβη ενός συστήματος, η ασυνήθιστα υψηλή κίνηση σε ένα δίκτυο κλπ. Αυτά τα αντικείμενα συμβαίνουν πολύ λιγότερο συχνά από το μέσο όρο των υπολοίπων, ενώ η σημασία τους είναι πιο μεγάλη από αυτά. Επίσης, με t* δηλώνουμε το χρονικό σημείο που συμβαίνει το i*. Οι συναλλαγές-στόχος (target transactions), είναι οι συναλλαγές που περιέχουν το i*. Αξίζει να σημειωθεί ότι στην περίπτωση που εξετάζουμε εδώ, δεν χρειάζεται απαραίτητα να στοχεύσουμε στο αντικείμενο-στόχος αλλά αντ αυτού μπορούμε να στοχεύσουμε στις συναλλαγές-στόχο υπό την έννοια ότι αυτή μπορεί να θεωρηθεί ως ένας σπάνιος συνδυασμός αντικειμένων που θέλουμε να προβλέψουμε. Συνεπώς, το πρόβλημα είναι η εξαγωγή διασυναλλακτικών προτύπων, τα οποία μπορούν να χρησιμοποιηθούν για την πρόβλεψη των συναλλαγών-στόχος, που περιέχουν το γεγονός που μας ενδιαφέρει, ένα λογικό χρονικό διάστημα πριν την εμφάνιση του. Για το σκοπό αυτό, με κάθε συναλλαγή στόχο J(t*) συσχετίζουμε: Μια περίοδο πρόβλεψης, ένα χρονικό διάστημα σταθερού μήκους δηλαδή, που προηγείται της συναλλαγής στόχος και που ορίζεται ως [t*-m, t*- w,]όπου m είναι ο χρόνος παρακολούθησης (monitoring time) και w είναι ο χρόνος προειδοποίησης (warning time). Υποθέτουμε ότι m>w. Ένα προηγούμενο του στόχου παράθυρο (target - preceding window) W*, δηλαδή ένα διάστημα m-w+1 συνεχόμενων χρονικών διαστημάτων που περιέχονται στην περίοδο πρόβλεψης της συναλλαγής στόχος. Συνεπώς, το παράθυρο αυτό αποτελείται από όλα τα χρονικά διαστήματα από t*-m μέχρι t*-w. Για κάθε διάστημα είναι απαραίτητο να περιλαμβάνει τουλάχιστο μια συναλλαγή. Αυτά τα διαστήματα ονομάζονται προηγούμενα του στόχου υποπαράθυ- 61

78 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» ρα του W* και για να τα προσδιορίσουμε χρησιμοποιούμε ως δείκτες μη αρνητικούς ακεραίους. Έτσι, με W*(1) δηλώνουμε το υποπαράθυρο στην αρχή της περιόδου πρόβλεψης και στη συνέχεια με W*(1),...,W*(m-w+1). Επίσης, χρησιμοποιούμε τους ίδιους δείκτες για να δηλώσουμε τα αντικείμενα σε κάθε υποπαράθυρο. Έτσι, αν το αντικείμενο i k (1 k ν) εμφανίζεται στο υποπαράθυρο W*(x) (1 x m-w+1), τότε θα δηλώνεται με i k (x). Αυτά τα αντικείμενα ονομάζονται εκτεταμένα αντικείμενα (extended items). Ορίζουμε το σύνολο όλων των πιθανών εκτεταμένων αντικειμένων ως εξής: I*={i k (x): 1 k ν, 1 x m-w+1} Μια υπερσυναλλαγή (megatransaction) M* I*,που ορίζεται ως το σύνολο όλων των εκτεταμένων αντικειμένων εντός του W*, δηλαδή: M* = {ik(x): ik W*(x)} Ένα μέτρο υποστήριξης για τα διασυναλλακτικά πρότυπα F: υποστήριξη του F: (4.1) όπου N* είναι το πλήθος όλων των υπερσυναλλαγών-στόχος στη βάση δεδομένων, και το πλήθος όλων των υπερσυναλλαγών που περιέχουν το F. Χαρακτηρίζουμε ένα σύνολο αντικειμένων ως συχνό όταν η υποστήριξή του υπερβαίνει ένα ελάχιστο όριο που ορίζει ο χρήστης. Στόχος της αναζήτησης είναι η ανακάλυψη όλων εκείνων των συχνών συνόλων ε- κτεταμένων αντικειμένων, που περιέχουν τη χρονική πληροφορία που απαιτείται για την πρόβλεψη. Αυτά τα σύνολα αποτελούν χρονικά πρότυπα που περιέχουν το αντικείμενο-στόχος και μπορούν να χρησιμοποιηθούν για την πρόβλεψη Περιγραφή του αλγορίθμου Στο πλαίσιο της γενικότερης στρατηγικής που ακολουθούμε, λαμβάνουμε υπόψη το γεγονός ότι είναι ιδιαίτερα σημαντικό η πρόβλεψη να δίνεται έγκαιρα, ώστε να είναι και χρήσιμη. Έτσι, θεωρούμε ότι υπάρχει μια περίοδος πριν το αντικείμενο-στόχος X t, μέσα στην οποία η πρόβλεψη μπορεί να φανεί χρήσιμη. Η περίοδος αυτή ονομάζεται περίοδος πρόβλεψης (prediction period) ή παράθυρο παρακολούθησης (monitoring window) και ορίζεται από δύο χρονικά σημεία t-m και t-w (warning time), που προηγούνται του σημείου t, στο οποίο εμφανίζεται το αντικείμενο-στόχος. Η 62

79 Κεφάλαιο 4- «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» έννοια αυτή προτάθηκε από τους (Weiss & Hirsh, 1998) και απεικονίζεται στην Εικόνα 4.1. Περίοδος πρόβλεψης X t-m t-w t Εικόνα Η περίοδος πρόβλεψης O αλγόριθμος PREVENT απαιτεί ένα πέρασμα στη βάση δεδομένων προκειμένου να καταγράψει και να αποθηκεύσει τις συναλλαγές εκείνες μόνο που περιλαμβάνονται στις περιόδους πρόβλεψης, χρησιμοποιώντας ένα συρόμενο παράθυρο. Ο αριθμός αυτών των περιόδων είναι ίσος με τον αριθμό των εμφανίσεων του αντικειμένου-στόχος, που, στην περίπτωση των σπανίων γεγονότων, είναι σχετικά μικρός. Καταγράφουμε δηλαδή τα παράθυρα παρακολούθησης που αντιστοιχούν στο αντικείμενο-στόχος, προκειμένου να εξαγάγουμε την επιθυμητή γνώση. Ταυτόχρονα με την καταγραφή αυτή λαμβάνει χώρα και ένας μετασχηματισμός της βάσης δεδομένων, με σκοπό την αποτύπωση της σχετικής χρονικής πληροφορίας των αντικειμένων του κάθε παραθύρου. Ο μετασχηματισμός γίνεται σύμφωνα με τους ορισμούς που δόθηκαν στην ενότητα και βάσει του πλαισίου που ορίζουν οι διασυναλλακτικοί κανόνες συσχέτισης. Στο παράδειγμα που ακολουθεί παρουσιάζεται ένας τέτοιος μετασχηματισμός. Πίνακας Παράδειγμα ακέραιης απεικόνισης Σύνολο Εκτεταμένων Αντικειμένων a 0 a 1 a 2 b 0 b 1 b 2 c 0 c 1 c 2 d 0 d 1 d 2 e 0 e 1 e 2 f 0 f 1 f 2 g 0 g 1 g 2 Ακέραια Απεικόνιση Παράδειγμα 4.1. Έστω ότι το μέγεθος του παραθύρου παρακολούθησης είναι ίσο με 3 συναλλαγές και ότι το σύνολο των χαρακτήρων (διαφορετικών αντικειμένων) στη βάση δεδομένων είναι {a, b, c, d, e, f, g}, ενώ το αντικείμενο-στόχος είναι το f. Τα αντίστοιχα σύνολα υποψήφιων εκτεταμένων αντικειμένων και η ακέραια απεικόνισή τους φαίνονται στον Πίνακας

80 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» Η αρχική βάση δεδομένων συναλλαγών μετασχηματίζεται σε ένα σύνολο εκτεταμένων συναλλαγών. Η μετασχηματισμένη βάση περιέχει έναν αριθμό εκτεταμένων συναλλαγών ίσο με τις εμφανίσεις του αντικειμένου-στόχος f. Κάθε συναλλαγή αποτελείται από τα εκτεταμένα αντικείμενα, που περιλαμβάνει κάθε στιγμιότυπο του συρόμενου παραθύρου. Για λόγους οικονομίας μνήμης, αντιστοιχίζουμε έναν ακέραιο αριθμό σε κάθε στιγμιότυπο των αντικειμένων i t και διατηρούμε ένα ευρετήριο με τις αντιστοιχίσεις αυτές, ώστε στο τέλος να μπορέσουμε να επιστρέψουμε στην αρχική μορφή των δεδομένων. Στην Εικόνα 4.2 φαίνεται ένα παράδειγμα τέτοιου μετασχηματισμού. Εικόνα 4.2- Παράδειγμα μετασχηματισμού Tid Συναλλαγές 1 a, b, d, c, g XTid Εκτεταμένες Συναλλαγές Πρότυπα Εξόρυξη 1 a 1 b 1 c 1 d 1 g 1 c 2 d 2 g 2 a 3 e 3 f 3 Προτύπων a 1 c 2 a 3 f 2 g, c, d μετασχηματισμός 2 a 1 e 1 f 1 a 2 b 2 c 2 d 2 a 3 c 3 k 3 f 3 FP_Growth 3 a,e,f 3 a 1 b 1 c 1 d 1 a 2 c 2 k 2 f 2 a 3 e 3 f 3 4 a, b, c, d αντικ. στόχος: f min_sup=0.9 5 a, c, k, f 6 a,e,f Το επόμενο βήμα είναι η εξόρυξη των συχνών συνόλων αντικειμένων από τα μετασχηματισμένα δεδομένα. Χρησιμοποιούμε τον αλγόριθμο FP-Growth (Han, Pei, & Yin, 2000), έναν αλγόριθμο εξόρυξης συχνών συνόλων αντικειμένων. Ο FP- Growth κατασκευάζει μια δομή δένδρου εκτεταμένου προθέματος (extended prefix tree), που ονομάζεται FP-tree και στο οποίο αποθηκεύεται όλη η σημαντική πληροφορία που χρειάζεται για την εξαγωγή των προτύπων. Η δομή αυτή είναι στην πραγματικότητα ένας αποτελεσματικός τρόπος να συμπιέσει κανείς την αρχική βάση δεδομένων σε μια πολύ μικρότερη δομή, από την οποία είναι εύκολο να εξορυχθούν τα πρότυπα. Κάθε κόμβος περιέχει ένα συχνό αντικείμενο (σύνολο αντικειμένων μεγέθους 1). Κάθε συναλλαγή συνεισφέρει στο FP-tree ένα μονοπάτι το πολύ, με μήκος ίσο με τον αριθμό των συχνών αντικειμένων που περιέχει η συναλλαγή αυτή. Οι κόμβοι του δένδρου είναι οργανωμένοι με τέτοιο τρόπο, ώστε οι πλέον συχνοί κόμβοι να έχουν μεγαλύτερη πιθανότητα διασύνδεσης με άλλους κόμβους παρά οι λιγότερο συχνοί κόμβοι. Έχει καταδειχθεί πειραματικά ότι η δομή αυτή είναι ιδιαίτερα συμπαγής, συμπιέζοντας την αρχική βάση δεδομένων κατά ορισμένες τάξεις μεγέ- 3 64

81 Κεφάλαιο 4- «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» θους. Αλγόριθμος FP-Growth. Εξόρυξη συχνών προτύπων χρησιμοποιώντας ένα FP-tree. Είσοδος: Μια βάση δεδομένων συναλλαγών D, ελάχιστη υποστήριξη minsup. Έξοδος: Το πλήρες σύνολο συχνών προτύπων 1. Το FP-Tree δημιουργείται ως εξής: a. Σάρωσε τη D μια φορά, συλλέγοντας το σύνολο συχνών αντικειμένων F και την υποστήριξη του καθενός. Ταξινόμησε το F βάσει φθίνουσας υποστήριξης, σε μια λίστα L, τη λίστα των συχνών αντικειμένων. b. Δημιούργησε τη ρίζα του FP-tree και δώσε της την τιμή «null». Για κάθε συναλλαγή Trans στη D επανέλαβε το εξής: Επέλεξε και ταξινόμησε τα συχνά αντικείμενα στην Trans σύμφωνα με τη σειρά τους στην L. Έστω ότι η ταξινομημένη λίστα στην Trans είναι η [p P], όπου p είναι το πρώτο στοιχείο της και P είναι η ουρά της. Κάλεσε τη συνάρτηση insert_tree([p P], T), η οποία εκτελείται ως εξής: Αν η Τ έχει ένα μέλος τέτοιο, ώστε N.item-name = p.item-name, τότε αύξησε το μετρητή του Ν κατά 1, αλλιώς δημιούργησε ένα νέο κόμβο Ν, δώσε στο μετρητή του την τιμή 1, οι ακμές του θα συνδέονται με τέτοιον τρόπο, ώστε να έχει την Τ για γονέα ενώ θα συνδέεται και με τους κόμβους που έχουν το ίδιο item-name. Αν το P δεν είναι κενό, κάλεσε την insert_tree(p, N) αναδρομικά. 2. Η εξόρυξη ενός FP-Tree γίνεται καλώντας τη διαδικασία FP-Growth(FP-Tree, null), η οποία έχει ως εξής: διαδικασία FP-Growth(Tree, a) (1) αν το Tree περιέχει ένα μόνο μονοπάτι P τότε (2) για κάθε συνδυασμό β των κόμβων του P (3) δημιούργησε ένα πρότυπο β α με υποστήριξη ίση με την ελάχιστη υποστήριξη των κόμβων του β (4) αλλιώς για κάθε α i στην κεφαλή του Tree{ (5) δημιούργησε ένα πρότυπο β = α i α με υποστήριξη ίση με την υποστήριξη του α i (6) δημιούργησε την υπό συνθήκη βάση δεδομένων του β και το υπό συνθήκη FP- Tree του β, Tree β (7) αν Tree β τότε (8) κάλεσε την FP-Growth(Tree, a) Εικόνα Ο αλγόριθμος FP-Growth Το βασικό πλεονέκτημα του FP-Growth είναι ότι δεν περιλαμβάνει την επαναλαμβανόμενη διαδικασία δημιουργίας υποψήφιων συχνών συνόλων αντικειμένων των αλγορίθμων τύπου Apriori, με αποτέλεσμα να απαιτεί μόνο 2 περάσματα στα 65

82 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» αρχικά δεδομένα, για να κατασκευάσει το FP-tree. Ακολουθεί μια μέθοδο που ονομάζεται «αύξηση των συχνών προτύπων» (frequent pattern growth), ή πιο απλά FP- Growth, κατά την οποία εφαρμόζεται μια στρατηγική «διαίρει και βασίλευε», ως εξής: η βάση δεδομένων συμπιέζεται σε ένα δένδρο που ονομάζεται δένδρο συχνών προτύπων (frequent pattern tree) ή FP-tree, στο οποίο αντιπροσωπεύονται τα συχνά σύνολα αντικειμένων, διατηρώντας ταυτόχρονα την πληροφορία συσχέτισής τους. Στη συνέχεια, το FP-tree διαιρείται σε ένα σύνολο υπό συνθήκη βάσεων δεδομένων (conditional databases), κάθε μια από τις οποίες αντιστοιχεί σε ένα συχνό αντικείμενο. Τέλος, από τις βάσεις αυτές εξορύσσονται ανεξάρτητα για τα συχνά σύνολα α- ντικειμένων. O FP-Growth εξάγει από το FP-tree τα συχνότερα πρότυπα, ακολουθώντας στρατηγική «διαίρει και βασίλευε». Σαρώνει το δένδρο μια φορά προκειμένου να δημιουργήσει μια μικρή βάση προτύπων για κάθε συχνό αντικείμενο a i, καθένα από τα οποία αποτελείται από το σύνολο των μετασχηματισμένων μονοπατιών προθέματος του a i. Στη συνέχεια, η εξόρυξη εκτελείται αναδρομικά σε κάθε μια από τις βάσεις με τα πρότυπα, οι οποίες συνήθως είναι πολύ μικρότερες του αρχικού FP-tree. Αντίθετα με τις κλασικές, τύπου Apriori μεθόδους εξόρυξης, που απαιτούν πολλά περάσματα στα δεδομένα καθώς και τη δημιουργία ενός πολύ μεγάλου αριθμού υ- ποψήφιων συνόλων αντικειμένων, που συχνά αγγίζει τα όρια συνδυαστικής έκρηξης, ο FP-Growth χρειάζεται μόνο 2 περάσματα στην αρχική βάση δεδομένων προκειμένου να δημιουργήσει το FP-tree (Εικόνα 4.3). Στη συνέχεια ανάγει το πρόβλημα της εξόρυξης των συχνών συνόλων αντικειμένων μεγέθους k σε μια σειρά προβλημάτων εξόρυξης k συχνών συνόλων αντικειμένων μεγέθους 1. Ο FP-Growth α- ποφεύγει την ιδιαίτερα πολύπλοκη δημιουργία υποψήφιων συνόλων αντικειμένων, που εφαρμόζουν οι μέθοδοι τύπου Apriori. Ειδικότερα, στην περίπτωση που μελετούμε, όπου ο αριθμός των (εκτεταμένων) αντικειμένων είναι συνήθως αρκετά μεγάλος, η εφαρμογή ενός αλγορίθμου τύπου Apriori θα ήταν υπερβολικά χρονοβόρα. Τα βήματα του PREVENT περιγράφονται στην Εικόνα Ανάλυση του αλγορίθμου Στο πλαίσιο της Ανακάλυψης Γνώσης από Βάσεις Δεδομένων, το ζήτημα της πολυπλοκότητας ενός αλγορίθμου συνδέεται κυρίως με τον αριθμό των περασμάτων στη βάση δεδομένων, που είναι αποθηκευμένη στο δίσκο. Στην περίπτωση που η 66

83 Κεφάλαιο 4- «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» κύρια μνήμη δεν είναι αρκετή, ώστε να χωρέσει όλα τα δεδομένα, οι ενέργειες που εκτελούνται σ αυτήν έχουν ελάχιστο κόστος συγκριτικά με εκείνες που απαιτούν πρόσβαση στα δεδομένα στο δίσκο. Το κυριότερο πλεονέκτημα του PREVENT είναι ότι απαιτεί μόνο ένα πέρασμα στην αρχική βάση δεδομένων, ανεξάρτητα από το μέγεθός της ή το μέγεθος του αλφαβήτου. Κατά τη διάρκεια του περάσματος αυτού (συρόμενο παράθυρο), η αρχική βάση δεδομένων μετασχηματίζεται σε ένα σύνολο εκτεταμένων συναλλαγών, το οποίο είναι σημαντικά μικρότερο. Στη συνέχεια, ο FP- Growth εκτελεί ένα πέρασμα στη μετασχηματισμένη βάση, προκειμένου να δημιουργήσει το FP-δένδρο και ένα πέρασμα για να εξορύξει τα πρότυπα. 1. Μετακίνησε το συρόμενο παράθυρο κατά μήκος των συναλλαγών της βάσης δεδομένων μέχρι την επόμενη εμφάνιση του αντικειμένου-στόχος Χ t (1 πέρασμα). a. για κάθε εμφάνιση του Χ t, μετασχημάτισέ το αντίστοιχο παράθυρο πρόβλεψης και αποθήκευσέ το ως ξεχωριστό αντικείμενο b. Αποθήκευσε τον πίνακα ακεραίας απεικόνισης. 2. Δημιούργησε το FP-tree (1 ο πέρασμα στη μετασχηματισμένη βάση δεδομένων) 3. Ανακάλυψε τα εκτεταμένα συχνά σύνολα αντικειμένων (πρότυπα πρόβλεψης 2 ο πέρασμα στη μετασχηματισμένη βάση δεδομένων. 4. Χρησιμοποιώντας τον πίνακα ακεραίας απεικόνισης μετέτρεψε τα εκτεταμένα αντικείμενα των προτύπων πρόβλεψης στην αρχική τους μορφή. Εικόνα Ο αλγόριθμος PREVENT Επιπλέον, οι δομές που αποθηκεύονται στην κύρια μνήμη είναι μικρές και δεν προσθέτουν ιδιαίτερο κόστος. Ο βαθμός συμπίεσης που επιτυγχάνεται με το μετασχηματισμό της αρχικής βάσης δεδομένων σε FP-δένδρο είναι ιδιαίτερα σημαντικός. Οι (Han, Pei, & Yin, 2000) μάλιστα ισχυρίζονται ότι ενώ ο συντελεστής συμπίεσης της αρχικής βάσης στο FP-δένδρο συνήθως κυμαίνεται από 20 μέχρι 100, η ελάττωση του μεγέθους του FP-δένδρου στις βάσεις των προτύπων εκτιμάται σε κάποιες εκατοντάδες. Το μέγεθος του συρόμενου παραθύρου είναι ίσο με m*maxtransactionsize, ενώ το μέγεθος του ευρετηρίου ακεραίας απεικόνισης είναι ίσο με το γινόμενο του μεγέθους του συρόμενου παραθύρου επί το μέγεθος του αλφαβήτου. Και οι δύο αυτές δομές μπορούν εύκολα να χωρέσουν στην κύρια μνήμη. H αρχιτεκτονική του PREVENT επιτρέπει την επέκταση και την τροποποίησή του, αφού είναι σε θέση να αντικαταστήσει τον FP-Growth με οποιονδήποτε άλλο 67

84 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» αλγόριθμο εξόρυξης συχνών συνόλων αντικειμένων και να εκμεταλλευθεί τα πλεονεκτήματα και τα ιδιαίτερα χαρακτηριστικά που αυτός δύναται να προσφέρει. Παράδειγμα ενός τέτοιου αλγορίθμου είναι ο CATS (Cheung & Zaiane, 2003), που α- ποτελεί μια επαυξητική (incremental) τροποποίηση του FP-Growth. Τέλος, πρέπει να σημειωθεί ότι ο PREVENT είναι ένας πλήρης αλγόριθμος, κάτι που οφείλεται στην πληρότητα του FP-Growth Η χρήση προτύπων πρόβλεψης αντί για κανόνες Σύμφωνα με το πλαίσιο πρόβλεψης που περιγράφηκε στις προηγούμενες παραγράφους, δεδομένου ότι ο χρόνος προειδοποίησης είναι w χρονικά σημεία πριν το αντικείμενο-στόχος X t, στην παρούσα διατριβή προτείνεται μια αποτελεσματική μέθοδος εξόρυξης προτύπων πρόβλεψης, μέσα στο παράθυρο πρόβλεψης που ορίζει ο χρήστης. Έτσι, εναλλακτικά με το πρότυπο των διασυναλλακτικών κανόνων συσχέτισης, προτείνεται η χρήση προτύπων αντί για τους συνήθεις κανόνες if-then. Ένα χρονικό διασυναλλακτικό πρότυπο περιέχει όλη την απαραίτητη πληροφορία για το σκοπό αυτό, εκτός από την έννοια της αιτιότητας, η οποία ακόμα και με τη χρήση κανόνων είναι ούτως ή άλλως δύσκολο να αποδειχθεί. Γενικά, οι κανόνες if-then είναι είδος αναπαράστασης με συγκεκριμένα πλεονεκτήματα, όπως ότι είναι εύκολα κατανοητοί από τους ανθρώπους, είναι αρθρωτοί (modular) αφού κάθε κανόνας περιγράφει ένα κομμάτι των δεδομένων και συσχετίζουν γεγονότα με όρους χρονικούς, χωρικούς, αιτιώδεις, πιθανοκρατικούς κ.ο.κ. Οι κανόνες μπορούν να χρησιμοποιηθούν για περιγραφή (π.χ. «αν κάποιος είναι γιατρός, τότε διαθέτει πτυχίο πανεπιστημίου») αλλά και για πρόβλεψη (π.χ. «αν κάποιος πελάτης είναι παντρεμένος τότε θα αγοράσει οικογενειακό αυτοκίνητο»). Ω- στόσο, είναι ιδιαίτερα σύνηθες στο πλαίσιο μιας πρόβλεψης να αποδίδεται, συνειδητά ή ασυνείδητα, αιτιώδη συνάφεια ανάμεσα στη συνθήκη και στο αποτέλεσμα. Το ότι ένα γεγονός προηγείται ενός άλλου αποτελεί στοιχειώδη συνθήκη για την τεκμηρίωση μιας αιτιώδους σχέσης και αποτελεί ένα από τα σημαντικότερα κριτήρια διάκρισης των κανόνων αιτιότητας από άλλα είδη συσχετίσεων. Ωστόσο, η χρονική διάταξη δύο γεγονότων δεν αποτελεί απόδειξη αιτιώδους σχέσης ανάμεσά τους. Πριν από σχεδόν τρεις αιώνες (1748) ο David Hume στο σημαντικότερο φιλοσοφικό του έργο An Enquiry Concerning Human Understanding, ισχυρίζεται ότι η αιτιότητα είναι μια έννοια που στην πραγματικότητα δεν υπάρχει: «Μπορεί να ορίζουμε 68

85 Κεφάλαιο 4- «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» μια αιτία ως ένα αντικείμενο που προηγείται ενός άλλου και όπου όλα τα αντικείμενα που είναι παρόμοια με το πρώτο προηγούνται αντικειμένων που είναι όμοια με το δεύτερο». Με άλλα λόγια, ο Hume υποστηρίζει ότι η αιτιότητα δεν είναι πραγματική αλλά αποτελεί δημιούργημα του μυαλού μας, προκειμένου να εξηγήσουμε την παρατήρηση ότι το Α γεγονός συχνά συμβαίνει μαζί με ή λίγο πριν το Β. Το μόνο που παρατηρούμε στην πραγματικότητα είναι μια συσχέτιση ή μια συνύπαρξη, όχι αιτιότητα. Ο (Mazlack, 2003) αναφέρει: «Αυτό που πραγματικά ανακαλύπτεται με τους κανόνες συσχέτισης είναι μια στατιστική σχέση. Η φύση της σχέσης αυτής δεν διευκρινίζεται [ ] Οι κανόνες συσχέτισης περιγράφουν τη δύναμη των κοινών συνυπάρξεων. Ορισμένες φορές, η σχέση αυτή μπορεί να είναι αιτιώδης. Για παράδειγμα, αν κάποιος καταναλώσει αλμυρά φιστίκια και μετά μπύρα, αυτή μπορεί να είναι μια αιτιώδης σχέση. Από την άλλη πλευρά όμως, είναι μάλλον απίθανο το κρώξιμο ενός κόκορα να προκαλεί την ανατολή του ηλίου.» Πιστεύουμε ότι η χρήση κανόνων συσχέτισης για πρόβλεψη, όταν μπορούμε να ενσωματώσουμε χρονική πληροφορία στα συχνά σύνολα αντικειμένων, δεν έχει ιδιαίτερη πρακτική αξία, ειδικότερα μάλιστα όταν δεν εξετάζεται η έννοια της αιτιότητας. Τα συχνά διασυναλλακτικά σύνολα αντικειμένων περιέχουν όλη την απαιτούμενη πληροφορία, χωρίς μάλιστα τον κίνδυνο να μιας εσφαλμένα υπονοούμενης αιτιώδους συνάφειας. Η εξόρυξη συχνών συνόλων αντικειμένων είναι μια διαδικασία μάθησης χωρίς επίβλεψη, που έχει ως στόχο την ανακάλυψη γνώσης με τρόπο εξερευνητικό (exploratory). Η ενσωμάτωση της διασυναλλακτικής χρονικής πληροφορίας στα πρότυπα που ανακαλύπτονται, αποτελεί ένα χρήσιμο εργαλείο στην προσπάθεια εξαγωγής της γνώσης εκείνης που απαιτείται για πρόβλεψη από δεδομένα, κυρίως μάλιστα ό- ταν αυτά δεν ακολουθούν κάποια κατανομή. Έστω ένας τυπικός διασυναλλακτικός κανόνας συσχέτισης A(t 1 ) X(t n ), όπου X(t n ) είναι το αντικείμενο-στόχος, A(t 1...t k ) το σύνολο των εκτεταμένων αντικειμένων (γεγονότα που συμβαίνουν τις χρονικές στιγμές t 1..t k ) και t n >t k. Σύμφωνα με την παρούσα προσέγγιση, παράγουμε την πρόβλεψη από τα εκτεταμένα αντικείμενα που περιέχονται στις περιόδους πρόβλεψης του Χ. Εφόσον το ζητούμενο είναι να βρούμε κανόνες που να έχουν το Χ ως συμπέρασμα, μας αρκεί να ανακαλύψουμε τα συχνά εκτεταμένα αντικείμενα των περιόδων πρόβλεψης. Αυτό καθιστά την όλη διαδικασία απλούστερη και γρηγορότερη 69

86 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» (Berberidis, Angelis, & Vlahavas, 2004). 4.4 Υλοποίηση και πειραματικά αποτελέσματα Ο αλγόριθμος PREVENT υλοποιήθηκε σε C++ και δοκιμάστηκε με διάφορα σύνολα δεδομένων. Χρησιμοποιήσαμε δύο είδη συνόλων δεδομένων, πραγματικά και συνθετικά. Τα πραγματικά δεδομένα ήταν μετεωρολογικά και δεδομένα παραγωγής ηλεκτρικής ενέργειας. Τα μετεωρολογικά δεδομένα περιέχουν ωριαίες μετρήσεις θερμοκρασίας, υγρασίας και δείκτη δυσφορίας THI (temperature-humidity index), από το 1954 μέχρι το Το δεύτερο σύνολο πραγματικών δεδομένων περιέχει ημερήσιες μετρήσεις παραγωγής ηλεκτρικής ενέργειας από έξι διαφορετικές πηγές. Τα συνθετικά δεδομένα χρησιμοποιήθηκαν προκειμένου να μελετήσουμε την ταχύτητα του αλγορίθμου σε συνάρτηση με το μέγεθος του συνόλου δεδομένων, με ε- νιαίο τρόπο. Σε ορισμένα εφαρμογές, η ακριβής αναζήτηση προτύπων θεωρείται μειονέκτημα, αφού μικρές μεταβολές λόγω θορύβου ή τυχαιότητας θα συντελούσαν στην απώλεια σημαντικής πληροφορίας. Αυτό είναι ένα φαινόμενο που απαντάται συχνά σε πραγματικές ακολουθίες, όπως για παράδειγμα στις μετεωρολογικές και έχει ως συνέπεια την απώλεια προτύπων, που εμφανίζουν συχνότητα κοντά στο ελάχιστο όριο που θέτει ο χρήστης. Αν είχαν συνυπολογιστεί στη συχνότητά τους και τα πρότυπα εκείνα που διαφέρουν κατά τι μόνο από αυτά, τότε θα είχαν ταξινομηθεί με επιτυχία στα συχνά πρότυπα. Για την αντιμετώπιση αυτού του προβλήματος προτείνουμε δύο λύσεις, οι οποίες θα αποτελέσουν και αντικείμενο έρευνας στο εγγύς μέλλον. Η πρώτη λύση αφορά στην υιοθέτηση ενός διαφορετικού χώρου προτύπων, χρησιμοποιώντας χρονικά διαστήματα αντί για χρονικά σημεία. Με τον τρόπο αυτό, θα μπορούσε κανείς να εκμεταλλευθεί ευκολότερα τις 13 χρονικές σχέσεις που όρισε ο (Allen, 1983). Παραδείγματος χάριν, ας υποθέσουμε ότι έχουμε ένα πιθανώς συχνό πρότυπο, το r = <A**B*C>, (το «*» είναι χαρακτήρας που σημαίνει «ένα ο- ποιοδήποτε σύμβολο του αλφαβήτου») και ότι ο αλγόριθμος αναζήτησης συναντά ένα πρότυπο s =<AIJKBLMC>. Στην περίπτωσή μας, το s δε θα είχε προσμετρηθεί ως εμφάνιση του r, παρ όλο που περιέχει το <A***B**C>, ένα παραμορφωμένο 70

87 Κεφάλαιο 4- «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» δηλαδή στιγμιότυπό του. Με τη χρήση των χρονικών σχέσεων (τελεστών) του Allen, θα ίσχυε «r starts s» και έτσι θα μπορούσε να αποτυπωθεί η ομοιότητά του με το r. Σχετικές εργασίες που αφορούν στη χρήση διαστημάτων στην εξόρυξη προτύπων είναι οι (Kam & Fu, 2000) και (Hoeppner, 2001). Η δεύτερη λύση στο πρόβλημα αυτό έχει να κάνει με την εισαγωγή μιας μετρικής απόστασης μεταξύ δύο προτύπων (distance measure), βάσει της οποίας καθορίζεται και ο βαθμός ομοιότητάς τους. Ο χρήστης μπορεί να θέσει μια ελάχιστη τιμή ομοιότητας που πρέπει να πληροί κάποιο πρότυπο για να θεωρηθεί όμοιο με κάποιο άλλο και έτσι να συνεισφέρει στη μέτρηση της συχνότητάς του. Η ομοιότητα ακολουθιών έχει μελετηθεί εκτενώς στην ερευνητική περιοχή της εξόρυξης από χρονοσειρές (διακριτές και συνεχείς), καθώς επίσης και στο πεδίο της μοριακής βιολογίας (π.χ. ομοιότητα πρωτεϊνικών ακολουθιών). Στο παράδειγμα της προηγούμενης παραγράφου, τα πρότυπα r και s είναι παρόμοια, βάσει κάποιας μετρικής απόστασης, όπως η απόσταση Manhattan και η Ευκλείδεια απόσταση Πειράματα με συνθετικά δεδομένα Το σύνολο συνθετικών δεδομένων που χρησιμοποιήθηκε στα πειράματά μας δημιουργήθηκε με το πρόγραμμα MATLAB, σύμφωνα με ένα σύνολο ψευδο-τυχαίων παραμέτρων, όπως η συχνότητα των γεγονότων και τα όρια της περιόδου πρόβλεψης. Η απόδοση του αλγορίθμου εξαρτάται από το μέγεθος της περιόδου πρόβλεψης, τον αριθμό των διαφορετικών αντικειμένων (αλφάβητο) και τη συχνότητα του αντικειμένου-στόχος. Στο σύνολο δεδομένων που χρησιμοποιήθηκε υπάρχουν έντεκα διαφορετικά αντικείμενα, συμπεριλαμβανομένου και του αντικειμένου-στόχος. Ο χρόνος παρακολούθησης (Monitoring Time) τέθηκε 6 χρονικά σημεία πριν το αντικείμενο στόχος και ο χρόνος προειδοποίησης 2 χρονικά σημεία πριν το αντικείμενο στόχος. Αυτό σημαίνει ότι το μέγεθος του παραθύρου παρακολούθησης είναι ίσο με 5 και ότι η μετασχηματισμένη βάση δεδομένων περιέχει 55 διαφορετικά εκτεταμένα αντικείμενα. Η συχνότητα του αντικειμένου-στόχος κυμαίνεται με ψευδο-τυχαίο τρόπο από 9% έως 10% με αποτέλεσμα το μέγεθος της μετασχηματισμένης βάσης να είναι ίσο με 0.1*DatabaseSize υπερσυναλλαγές. Τα πειράματα εκτελέστηκαν σε έναν ηλεκτρονικό υπολογιστή με επεξεργαστή Pentium GHz με 512GB μνήμης RAM και σκληρό δίσκο SCSI. Μετρήσαμε τους χρόνους εκτέλεσης του PREVENT με τον FP-Growth και τον Apriori ως αλγορίθμους ανακάλυψης συχνών 71

88 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» συνόλων αντικειμένων. Η υλοποίηση του Apriori που χρησιμοποιήθηκε ήταν του (Bodon, 2003). Ο Πίνακας 4.2 περιέχει τα αποτελέσματα των πειραμάτων ενώ στην Εικόνα 4.5 απεικονίζεται το γράφημα των χρόνων εκτέλεσης σε συνάρτηση με τον αριθμό των υπερσυναλλαγών. Όπως φαίνεται, ο PREVENT (με τον FP-Growth) υ- περτερεί σημαντικά της υλοποίησης με τον Apriori, γεγονός που εντείνεται όσο αυξάνεται το μέγεθος της βάσης δεδομένων. Πίνακας Πειραματικά αποτελέσματα με συνθετικά δεδομένα Μέγεθος ΒΔ (συναλλαγές) Υπερσυναλλαγές Χρόνος Εκτέλεσης (δευτ/τα) PREVENT Apriori-based Στα πειράματα που εκτελέσαμε, ένα συχνό διασυναλλακτικό πρότυπο που αρχίζει στο χρονικό σημείο 0 και τελειώνει 4 χρονικά σημεία μετά, προβλέπει ένα α- ντικείμενο-στόχος που συμβαίνει στο χρονικό σημείο 6. Για παράδειγμα, το πρότυπο {a 0, b 1, b 2, d 4 } μπορεί να προβλέψει την εμφάνιση του αντικειμένου-στόχος x στο σημείο 6 (x 6 ). Εικόνα 4.5- Χρόνος εκτέλεσης σε συνάρτηση με τον αριθμό των υπερσυναλλαγών 72

89 Κεφάλαιο 4- «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» Πειράματα με πραγματικά δεδομένα Στη συνέχεια δοκιμάσαμε τον PREVENT χρησιμοποιώντας δύο σύνολα πραγματικών δεδομένων. Το πρώτο από αυτά περιέχει ωριαίες μετρήσεις θερμοκρασίας, υ- γρασίας και δείκτη δυσφορίας (THI index) από το 1954 μέχρι το 1998 στην περιοχή της Θεσσαλονίκης. Τα δεδομένα δόθηκαν από τον Καθηγητή Θ. Καρακώστα του Τμήματος Μετεωρολογίας και Κλιματολογίας του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης. Ο δείκτης THI εκφράζει τη δυσφορία που αισθάνονται οι άνθρωποι σε συνθήκες καύσωνα και διαιρείται σε 5 επίπεδα, όπως φαίνεται στον Πίνακας 4.3 (Raffner & Blair, 1972): Πίνακας Επίπεδα δείκτη δυσφορίας THI Επίπεδο Περιγραφή 69 THI < 75 Ήπιο Ελάχιστοι άνθρωποι αισθάνονται δυσφορία 75 THI < 80 Μέτριο Περίπου οι μισοί άνθρωποι αισθάνονται δυσφορία 80 THI < 84 Σοβαρό Σχεδόν όλοι αισθάνονται δυσφορία 84 THI < 92 Κρίσιμο Ραγδαία μείωση της παραγωγικότητας στο χώρο εργασίας THI 92 Ακραίο Ακραίος κίνδυνος Σε συνεργασία με τον Καθηγητή Θ. Καρακώστα, έγιναν πολλές δοκιμές, που είχαν στόχο την πρόβλεψη ενός σοβαρού, κρίσιμου ή ακραίου κύμα καύσωνα. Οι ωριαίες μετρήσεις μετατράπηκαν σε μέσους όρους εξαώρου και διακριτοποιήθηκαν σε τρία έως πέντε διαστήματα. Η θερμοκρασία (T) μετράται σε βαθμούς Κελσίου, ενώ το παράθυρο παρακολούθησης αρχίζει 14 εξάωρα και τελειώνει 2 εξάωρα πριν τον καύσωνα. Στο σύνολο δεδομένων μας υπήρχαν 172 σοβαροί ή χειρότεροι καύσωνες, σε μια περίοδο 44 ετών (συχνότητα περίπου 1%). Ο PREVENT παρήγαγε ένα σύνολο από πρότυπα πρόβλεψης που όμως δεν ήταν ιδιαίτερα χρήσιμα, αφού αποδείχθηκε ότι οι μεταβλητές που διαθέταμε δεν ή- ταν αρκετές ώστε να μοντελοποιήσουν σωστά το φαινόμενο του καύσωνα. Στη συνέχεια παρατίθενται ορισμένα από πρότυπα που παρήχθησαν, με σημείο αναφοράς το αντικείμενο στόχος, δηλαδή τον καύσωνα: 1. (T > 27, 5 περιόδους πριν), (T > 27, 3 περιόδους πριν), υποστήριξη= (50 H 75, 5 περιόδους πριν), (T > 27, 5 περιόδους πριν), (T > 27, 3 περιό- 73

90 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» δους πριν), υποστήριξη= (40 H 65, 5 περιόδους πριν), (T>27, 5 περιόδους πριν), (T>27, 3 περιόδους πριν), υποστήριξη=0.75 Όπως όλες οι μέθοδοι εξόρυξης προτύπων, έτσι και ο PREVENT στοχεύει στην αναζήτηση τοπικών προτύπων αντί για γενικά μοντέλα. Στους κανόνες συσχέτισης και στην εξόρυξη προτύπων η έννοια της ακρίβειας συνήθως αντικαθίσταται από άλλα στατιστικά κριτήρια που εκφράζουν το πόσο ισχυρό ή το πόσο ενδιαφέρον είναι ένα πρότυπο. Παράδειγμα τέτοιου κριτηρίου αποτελεί η εμπιστοσύνη (confidence). Ωστόσο, στην πρόβλεψη γεγονότων είναι οπωσδήποτε σημαντικό να αξιολογηθεί η αποτελεσματικότητα μιας μεθόδου, με όρους ακρίβειας πρόβλεψης. Σε σύνολα δεδομένων με έντονη ανισοκατανομή τάξεων, όπως στην περίπτωση που εξετάζεται εδώ, δύο στατιστικά κριτήρια που θεωρούνται από τα πλέον κατάλληλα είναι η ευαισθησία (sensitivity) και η ιδιαιτερότητα (specificity). Τα κριτήρια αυτά είναι ιδιαίτερα δημοφιλή στην ιατρική έρευνα και πρόσφατα έχουν αρχίσει να χρησιμοποιούνται ευρέως και στη μηχανική μάθηση (Veropoulos, Campbell, & Cristianini, 1999) (Wu & Chang, 2003). Η ευαισθησία, γνωστή και ως ανάκληση (recall), και η ιδιαιτερότητα ορίζονται όπως στις εξισώσεις 4.1 και 4.2: Αληθή Θετικά Ευαισθησία= Αληθή Θετικά + Εσφαλμένα Αρνητικά (4.1) Αληθή Αρνητικά Ιδιαιτερότητα = Αληθή Αρνητικά + Εσφαλμένα Θετικά (4.2) Το δεύτερο πραγματικό σύνολο δεδομένων περιέχει ημερήσιες μετρήσεις παραγωγής ηλεκτρικής ενέργειας (KWhs) από έξι διαφορετικές πηγές: υδροηλεκτρική, πυρηνική, άνθρακα, πετρέλαιο ή υγραέριο, φυσικό αέριο και εναλλακτικές (αιολική, ηλιακή κλπ) (KEEL, 2004). Οι μετρήσεις αφορούν την Ισπανία και το έτος Η δεσμευμένη μεταβλητή είναι το μέσο κόστος της κιλοβατώρας σε Ευρώ. Και οι 7 μεταβλητές διακριτοποιήθηκαν χρησιμοποιώντας τη συνάρτηση unsupervised.attribute.discretize της βιβλιοθήκης αλγορίθμων μηχανικής μάθησης WEKA (Witten & Frank, 2005). Οι έξι ανεξάρτητες μεταβλητές χωρίστηκαν σε τρία δια- 74

91 Κεφάλαιο 4- «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» στήματα (υψηλό, μεσαίο, χαμηλό) ενώ η δεσμευμένη μεταβλητή σε δύο (υψηλό, χαμηλό). Ο Πίνακαςς 4.4 περιέχει τα διαστήματα στα οποία διακριτοποιήθηκαν οι ε- πτά μεταβλητές, καθώς και τα γράμματα που αντιστοιχήθηκαν σ αυτά. Ο στόχος της διαδικασίας εξόρυξης είναι η πρόβλεψη υψηλού κόστους παραγωγής ηλεκτρικής ενέργειας. Κατά τη διάρκεια του 2003, οι ημέρες που το κόστος ήταν υψηλό ήταν 32. Πίνακας Διακριτοποίηση μεταβλητών των δεδομένων παραγωγής ηλεκτρικής ενέργειας Υδροηλεκτρική a=( ] b=( ] c=( ) Πυρηνική d=( ] e=( ] f=( ) Άνθρακας g=( ] h=( ] i=( ) Πετρέλαιο & Υγραέριο j=( ] k=( ] l=( ) Φυσικό Αέριο o=( ] p=( ] q=( ) Εναλλακτικές r=( ] s=( ] t=( ) Προκειμένου να αξιολογήσουμε την αποτελεσματικότητα του PREVENT, υ- πολογίσαμε την ευαισθησία και την ιδιαιτερότητα των προτύπων μέσω μιας διαδικασίας 10-πλης διασταύρωσης (10-fold cross validation). Τα ελάχιστα όρια ευαισθησίας και ιδιαιτερότητας ήταν 65% και 95% αντίστοιχα. Τα σημαντικότερα πρότυπα παρουσιάζονται στον Πίνακας 4.5. Οι χαρακτήρες h, m και l αντιστοιχούν στις τιμές high, medium και low, ενώ οι δείκτες 1, 2 κα 3 (π.χ. carbon 1, petroleum 3 κ.ο.κ.) δηλώνουν την ημέρα της περιόδου πρόβλεψης. Παρατηρούμε τα πολύ υψηλά επίπεδα ιδιαιτερότητας (96%-99%) που μεταφράζονται σε πολύ χαμηλό ποσοστό εσφαλμένως θετικών (false positives). Οι μέτριες τιμές ευαισθησίας (66,7%) σημαίνουν ότι υπάρχει σημαντική πιθανότητα απώλειας κάποιων αληθών θετικών (true positives). Με άλλα λόγια, στην συγκεκριμένη εφαρμογή ο PREVENT είναι αρκετά απίθανο να προβλέψει εσφαλμένα μια ημέρα χαμηλού κόστους ενώ είναι πιθανό να 75

92 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» του διαφύγει κάποια μέρα υψηλού κόστους (Berberidis & Vlahavas, 2007). Πίνακας Διασυναλλακτικά πρότυπα πρόβλεψης υψηλού κόστους παραγωγής ηλεκτρικής ενέργειας Πρότυπο Ευαισθησία Ιδιαιτερότητα 1 carbon 1 = h and petroleum 3 = h and alternative 3 = h, cost 3 = h 0, , petroleum 3 = h and alternative 3 = h, cost 3 = h 0, , carbon 1 = h and petroleum 3 = h, cost 3 = h 0, , nuclear 2 = h and gas 2 = l and hydro 3 = l, cost 3 = h 0, , petroleum 3 = h, cost 3 = h 0, , Συμπεράσματα και μελλοντική έρευνα Στο κεφάλαιο αυτό παρουσιάστηκε ο PREVENT, ένας νέος αλγόριθμος εξόρυξης από δεδομένα για την γρήγορη και με σαφήνεια πρόβλεψη σπανίων γεγονότων σε βάσεις δεδομένων συναλλαγών. Η προσέγγισή μας στηρίζεται στο πρότυπο των διασυναλλακτικών κανόνων συσχέτισης και εκμεταλλεύεται τα υπολογιστικά πλεονεκτήματα ενός καθιερωμένου αλγορίθμου εξόρυξης κανόνων συσχέτισης, του FP- Growth, προκειμένου να εξαγάγει πρότυπα πρόβλεψης. Περιλαμβάνει ένα στάδιο μετασχηματισμού της αρχικής βάσης δεδομένων, ώστε να συγκεντρωθεί η πληροφορία που απαιτείται για την πρόβλεψη του αντικειμένου-στόχος. Αρχικά παραθέσαμε μια περιεκτική βιβλιογραφική έρευνα της περιοχής. Ακολούθως, περιγράψαμε και ορίσαμε το πρόβλημα της πρόβλεψης με τους όρους του προτεινόμενου αλγορίθμου. Στη συνέχεια ακολούθησε η περιγραφή του PREVENT και αναλύθηκαν η λειτουργία και τα χαρακτηριστικά του. Παρουσιάστηκαν εκτενή πειράματα, με διάφορα σύνολα δεδομένων, συνθετικά και πραγματικά, μετρήθηκε η ταχύτητά του ενώ η αποτελεσματικότητά του αξιολογήθηκε με τις κατάλληλες στατιστικές μετρικές. Η χρήση ενός συνόλου δεδομένων (μετεωρολογικό) αποδείχθηκε ατελέσφορη και οδήγησε στο συμπέρασμα ότι η πρόβλεψη των καυσώνων απαιτείται να μελετηθεί εκ νέου, σε συνεργασία με τους ειδικούς του τομέα (μετεωρολόγοι) και τη χρήση περισσότερων μεταβλητών. Ο PREVENT έχει χαμηλό υπολογιστικό κόστος, αφού απαιτεί μόνο ένα πέρασμα στην αρχική βάση δεδομένων και δύο περάσματα στη μετασχηματισμένη βά- 76

93 Κεφάλαιο 4- «Πρόβλεψη Σπανίων Γεγονότων σε Βάσεις Δεδομένων Συναλλαγών» ση, η οποία είναι σημαντικά μικρότερη από την πρώτη. Η διαχείριση της κύριας μνήμης είναι ιδιαίτερα αποδοτική, λόγω της χρήσης μικρών δομών δεδομένων. Σε εξαιρετικές περιπτώσεις ίσως εξαιρείται από αυτόν τον κανόνα το FP-δένδρο, που μπορεί να γίνει αρκετά μεγάλο. Ωστόσο, η χρήση του αποτελεί ουσιώδες χαρακτηριστικό του αλγορίθμου FP-Growth, ενός από τους πλέον δημοφιλείς και αποδοτικούς που απαντώνται στη βιβλιογραφία και αυτός ήταν και ο λόγος που επιλέχτηκε. Βασικός στόχος της μελλοντικής μας έρευνας είναι η βελτίωση της ευαισθησίας του αλγορίθμου, ενός χαρακτηριστικού που σε ορισμένες εφαρμογές μπορεί να αποτελέσει την σημαντικό μειονέκτημα. Στη συνέχεια σκοπεύουμε να ερευνήσουμε την ανίχνευση διαφόρων ειδών παραλλάξεων και παραμορφώσεων των προτύπων, όπως η διαστολή (dilation) και η μετάφραση (translation), που συχνά οδηγούν σε απώλεια πληροφορίας. Τα φαινόμενα αυτά μπορούν να αποτυπωθούν με την υιοθέτηση προσεγγίσεων βασισμένων σε διαστήματα (interval-based) (Kam & Fu, 2000) (Hoeppner, 2001). Άλλες επεκτάσεις του PREVENT θα μπορούσαν να είναι εκδόσεις του για κατανεμημένα δεδομένα, όπως διαδικτυακές βάσεις δεδομένων, αλλά και σε βιολογικά δεδομένα, όπως για την πρόβλεψη λειτουργικών σημείων (functional sites) σε ακολουθίες. 77

94 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» 78

95 Κεφάλαιο 5 «Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων» 5.1 Εισαγωγή Οι κανόνες συσχέτισης αποτελούν εκφράσεις που περιγράφουν ένα υποσύνολο μιας βάσης δεδομένων συναλλαγών. Συχνά, κατά την εξόρυξή τους το αποτέλεσμα είναι ένα μεγάλο πλήθος κανόνων, πολλοί από τους οποίους είναι υπερβολικά εξειδικευμένοι και όχι ιδιαίτερα ενδιαφέροντες. Ένας κανόνας που συσχετίζει δύο συγκεκριμένα προϊόντα στη βάση δεδομένων ενός καταστήματος είναι δύσκολο να είναι αρκετά ισχυρός συγκριτικά με έναν κανόνα που συσχετίζει δυο οικογένειες προϊόντων. Σε αρκετές εφαρμογές, τα διάφορα αντικείμενα διέπονται από ιεραρχικές σχέσεις, οι οποίες είναι δυνατόν να χρησιμοποιηθούν, ώστε να ομαδοποιηθεί ένα μέρος των ε- ξειδικευμένων και αδύναμων κανόνων σε γενικότερους και ισχυρότερους. Το αποτέλεσμα αυτής της διαδικασίας είναι ιεραρχικοί (hierarchical) ή πολυεπίπεδοι (multiple level) ή γενικευμένοι (generalized) κανόνες συσχέτισης. Ωστόσο, η πληροφορία αυτή δεν είναι πάντοτε διαθέσιμη για να τη χρησιμοποιήσουμε, παρ όλο που μπορεί να υφίσταται.

96 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» Οι εννοιολογικές ιεραρχίες ονομάζονται ταξονομίες (taxonomies) και υλοποιούνται με σχέσεις «είναι ένα» (is-a relationships). Η ανακάλυψή τους είναι ένα δύσκολο πρόβλημα, με αμφίβολα αποτελέσματα, το οποίο δεν έχει προσεγγισθεί μέχρι τώρα με κάποιον τρόπο. Η ανακάλυψη τέτοιων σχέσεων θα προϋπέθετε την πλήρη περιγραφή και προσδιορισμό των εννοιών που είναι γενικότερες από κάποιες άλλες σε μια βάση δεδομένων. Η μάθηση ταξονομιών αφορά στην αυτόματη ανακάλυψη γενικευμένων εννοιών από τα δεδομένα, με τη χρήση ενός αλγορίθμου, κάτι που, εξ όσων γνωρίζουμε, είναι αδύνατον. Ωστόσο, αποτελεί εκτίμησή μας ότι κατά την ε- ξόρυξη διαφόρων τύπων συσχετίσεων, μπορεί κανείς να εξαγάγει μερικές σοβαρές ενδείξεις για την ύπαρξη πιθανών ιεραρχικών σχέσεων. Ένα ενδιαφέρον είδος συσχετίσεων που θα μπορούσε να μας οδηγήσει στην ανακάλυψη ταξονομικών σχέσεων είναι τα αμοιβαίως αποκλειόμενα αντικείμενα (mutually exclusive items). Έστω για παράδειγμα ένας πελάτης ενός σούπερ μάρκετ είναι χορτοφάγος. Στην περίπτωση αυτή θα ήταν μάλλον απίθανο να αγοράσει μπιφτέκι λαχανικών και κόκκινο κρέας. Τα δύο προϊόντα μοιάζουν να αποκλείουν το ένα το άλλο, ενώ ανήκουν στην ίδια εννοιολογική υποκατηγορία «τρόφιμα». Αυτό που στην πραγματικότητα όμως ισχύει στο παράδειγμά μας είναι ότι το ένα προϊόν παίρνει τη θέση του άλλου, καλύπτοντας την ίδια ανάγκη. Παρατηρήσεις όπως αυτή μας οδήγησαν στο να προτείνουμε μια μέθοδο για την εξόρυξη αμοιβαίως αποκλειόμενων αντικειμένων. Η πληροφορία αυτή θα μπορούσε να είναι ενδιαφέρουσα, ανεξάρτητα από το αν θα χρησιμοποιηθεί τελικά για την ανακάλυψη ταξονομιών. Στο πλαίσιο της διατριβής, ορίζουμε το πρόβλημα την ανακάλυψης αμοιβαίως αποκλειόμενων αντικειμένων. Για το σκοπό αυτό προτείνουμε μια μετρική αμοιβαίου αποκλεισμού καθώς και έναν απλό αλγόριθμο εξόρυξης αμοιβαίως αποκλειόμενων αντικειμένων από μια βάση δεδομένων συναλλαγών. 5.2 Βασικές έννοιες Οι εξόρυξη κανόνων συσχέτισης έχει να κάνει με την αναζήτηση κοινών εμφανίσεων κάποιων αντικειμένων σε βάσεις δεδομένων συναλλαγών. Αυτές οι κοινές εμφανίσεις ενδέχεται να υπονοούν ή να οφείλονται σε κάποια ιδιαίτερη σχέση ανάμεσα στα αντικείμενα που περιλαμβάνουν και αν αναλυθούν περαιτέρω, μπορεί να απο- 80

97 Κεφάλαιο 5- «Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων» καλύψουν σχέσεις διαφόρων ειδών, όπως χρονική, αιτιακή κ.ο.κ. Ο ορισμός του προβλήματος της εξόρυξης κανόνων συσχέτισης δόθηκε από τους (Agrawal, Imielinski, & Swami, 1993). Έχοντας μια βάση δεδομένων συναλλαγών D, το ζητούμενο είναι η εξόρυξη όλων των κανόνων συσχέτισης, που έχουν υποστήριξη και εμπιστοσύνη ίση ή μεγαλύτερη από τα αντίστοιχα κατώτατα όρια min_sup και min_conf που έχει θέσει ο χρήστης. Το πρόβλημα αυτό μπορεί να διαιρεθεί σε δύο υπο-προβλήματα: 1. Στην ανακάλυψη όλων των συνόλων αντικειμένων που έχουν υποστήριξη ίση ή μεγαλύτερη από min_sup. Αυτά τα σύνολα ονομάζονται συχνά. 2. Στη δημιουργία όλων των κανόνων από τα συχνά σύνολα αντικειμένων. Για κάθε συχνό σύνολο αντικειμένων F, δημιουργούνται όλα τα μη κενά υποσύνολα του F. Για κάθε υποσύνολο S δημιουργείται ένας κανόνας S F-S, εφόσον η εμπιστοσύνη του είναι ίση ή μεγαλύτερη από min_conf. Ένας άλλος τρόπος για την εξαγωγή ισχυρών κανόνων είναι η χρήση των ταξονομιών που εμπεριέχονται σε ορισμένα σύνολα δεδομένων, όπως στα δεδομένα από σούπερ μάρκετ. Μια ταξονομία είναι ένα δένδρο εννοιών, όπου οι ακμές αναπαριστούν μια σχέση «είναι ένα» (is-a relationship), από το παιδί προς τον πατέρα. Ένα τέτοιο παράδειγμα είναι το εξής: «Το Cheddar είναι ένα Τυρί είναι ένα Γαλακτοκομικό είναι ένα Τρόφιμο είναι ένα Προϊόν». Στην περίπτωση κατά την οποία μια ταξονομία ενός πεδίου εφαρμογής είναι διαθέσιμη, ένας αριθμός κανόνων υψηλής ε- μπιστοσύνης αλλά χαμηλής υποστήριξης είναι δυνατόν να συγχωνευθούν, δημιουργώντας έναν κανόνα που θα συγκεντρώνει την υποστήριξη των επιμέρους κανόνων σε ένα υψηλότερο αφαιρετικό επίπεδο. Με άλλα λόγια, είναι δυνατόν να συνδυαστεί πληροφορία από αδύναμους κανόνες που συσχετίζουν αντικείμενα στα χαμηλότερα επίπεδα μιας ταξονομίας και να δημιουργηθούν ισχυρές συσχετίσεις στα υψηλότερα επίπεδα. Έτσι, για παράδειγμα, ο κανόνας «αν ένας πελάτης αγοράσει ½ κιλό ψωμί ολικής αλέσεως, τότε θα αγοράσει και 1 λίτρο φρέσκο παστεριωμένο γάλα» είναι πιθανό να έχει χαμηλή υποστήριξη, ενώ ένας κανόνας όπως ο «αν ένας πελάτης α- γοράσει ψωμί, τότε θα αγοράσει και γάλα» είναι πιθανότερο να έχει υψηλότερη υ- ποστήριξη, αφού θα συγκεντρώνει πληροφορία για όλα τα είδη, συσκευασίες και μάρκες ψωμιού και γάλακτος που αγοράζουν οι πελάτες του καταστήματος. 81

98 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» 5.3 Σχετικές εργασίες Οι κανόνες συσχέτισης προτάθηκαν αρχικά από τους Agrawal et al. (1993) ώς ένα εργαλείο «ανάλυσης καλαθιού αγορών» (market basket analysis). Αργότερα, οι Agrawal & Srikant (1994) πρότειναν τον Apriori, έναν αλγόριθμο που εκτελείται σε επίπεδα και βασίζεται στη δημιουργία υποψήφιων συχνών συνόλων αντικειμένων, των οποίων η συχνότητα κάθε φορά μετράται με ένα πέρασμα στη βάση δεδομένων. Ο Apriori εκμεταλλεύεται το γεγονός ότι όλα τα (μη κενά) υποσύνολα ενός συχνού συνόλου αντικειμένων θα είναι και εκείνα συχνά, βάσει του ίδιου κατώτατου κριτηρίου υποστήριξης. Έτσι, σε κάθε επίπεδο, τα υποψήφια συχνά σύνολα δημιουργούνται από την ένωση μόνο των συχνών σύνολα αντικειμένων του προηγούμενου επιπέδου. Το ίδιο περίπου διάστημα οι Mannila et al. (1994) εκμεταλλευόμενοι την ίδια ιδιότητα, πρότειναν μια παραλλαγή του Apriori, τον αλγόριθμο OCD. Αργότερα οι συγγραφείς των δύο αλγορίθμων δημοσίευσαν από κοινού ένα άρθρο που συνδυάζει τις εργασίες και των δύο (Agrawal, Mannila, Srikant, Toivonen, & Verkamo, 1996). Στη συνέχεια, προτάθηκαν διάφοροι αλγόριθμοι ανακάλυψης κανόνων συσχέτισης, άλλοτε με στόχο την βελτίωση της απόδοσης, όπως ο FP-Growth (Han, Pei, & Yin, 2000), και άλλοτε με στόχο την αντιμετώπιση ειδικών προβλημάτων και εφαρμογών, όπως χωρικοί κανόνες συσχέτισης (Han & Koperski, 1995), χρονικοί (Chen & Petrounias, 2000), και διασυναλλακτικοί κανόνες συσχέτισης (Tung, Lu, Han, & Feng, 2003). Ένα από τα σημαντικότερα προβλήματα στην εξόρυξη κανόνων συσχέτισης είναι ο μεγάλος αριθμός κανόνων, πολλοί από τους οποίους μάλιστα μπορεί να μην είναι και ενδιαφέροντες. Οι Srikant & Agrawal (Srikant & Agrawal, 1995) πρότειναν για πρώτη φορά την ιδέα της εξόρυξης γενικευμένων κανόνων συσχέτισης (generalized association rules). Έτσι, για παράδειγμα, γνωρίζοντας ότι «κασέρι είναι ένα τυρί» και «Edam είναι ένα τυρί», μπορούμε να εξαγάγουμε κανόνες όπως «αν κάποιος πελάτης αγοράσει ψωμί, τότε θα αγοράσει και τυρί», με υποστήριξη μεγαλύτερη από έναν κανόνα που θα αφορούσε ένα συγκεκριμένο τυρί. Στην ίδια εργασία, οι συγγραφείς αρχικά προτείνουν έναν βασικό αλγόριθμο και στη συνέχεια τρεις βελτιωμένους αλγορίθμους που βασίζονται σε ένα νέο μέτρο ενδιαφέροντος κανόνων, που χρησιμοποιεί πληροφορία από την ταξονομία. Οι Thomas & Sarawagi (1998) προτείνουν μια τεχνική για την εξόρυξη γενικευμένων κανόνων συσχέτισης 82

99 Κεφάλαιο 5- «Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων» που στηρίζεται σε ερωτήματα SQL. Οι Han & Fu (1995) περιγράφουν το πρόβλημα της εξόρυξης κανόνων συσχέτισης «πολλαπλών επιπέδων», βασιζόμενοι και εκείνοι σε ταξονομίες και προτείνουν ένα σύνολο αλγορίθμων βαθμιαίας εμβάθυνσης (progressive deepening). Ο Teng (2002) προτείνει έναν τύπο ενισχυμένων συσχετίσεων, που χρησιμοποιούν και αρνητική πληροφορία, που ονομάζονται αντιδιαστολές (dissociations). Μια αντιδιαστολή είναι μια σχέση της μορφής «Χ δε συνεπάγεται Υ», αλλά μπορεί να ισχύει «όταν το Χ εμφανίζεται μαζί με το Ζ, αυτό συνεπάγεται Υ». Ένα άλλο είδος κανόνων συσχέτισης είναι οι αρνητικοί κανόνες συσχέτισης (negative association rules). Οι Savasere et al. (1998) εισήγαγαν το πρόβλημα της εξόρυξης αρνητικών συσχετίσεων, κανόνων δηλαδή που υποδηλώνουν ποια αντικείμενα δεν είναι πιθανό να αγοραστούν, όταν αγοράζεται ένα συγκεκριμένο σύνολο αντικειμένων. Η προσέγγιση των Savasere et al. προϋποθέτει την ύπαρξη ταξονομίας και βασίζεται στην υπόθεση ότι τα αντικείμενα που ανήκουν στον ίδιο πατρικό κόμβο στο δένδρο της ιεραρχίας, είναι αναμενόμενο να έχουν και παρόμοιες συσχετίσεις. Εφόσον λαμβάνονται υπόψη μόνο εκείνες οι περιπτώσεις που η υποστήριξη μπορεί να υπολογιστεί βάσει ταξονομίας, μόνο ένα υποσύνολο των αρνητικών κανόνων μπορεί να ανακαλυφθεί. Στη συγκεκριμένη εργασία προτείνουν έναν αφελή και έναν βελτιωμένο αλγόριθμο εξόρυξης, καθώς και ένα νέο μέτρο ενδιαφέροντος. Σε μια πρόσφατη εργασία τους οι Wu et al. (2004) προτείνουν μια αποτελεσματική μέθοδο για την εξόρυξη θετικών και αρνητικών συσχετίσεων και προτείνουν μια στρατηγική κλαδέματος και ένα μέτρο ενδιαφέροντος. Η μέθοδός τους επεκτείνει τους παραδοσιακούς κανόνες συσχέτισης (Α Β) ώστε να περιλαμβάνει και κανόνες της μορφής A -B, -A B, και -A -B. Οι τρεις τελευταίοι κανόνες υποδηλώνουν αρνητική συσχέτιση ανάμεσα στα σύνολα αντικειμένων Α και Β. Ένας τέτοιος κανόνας δε μπορεί να υποδηλώσει αμοιβαίο αποκλεισμό δύο αντικειμένων. Αν τα αντικείμενα α και β είναι αμοιβαίως αποκλειόμενα, τότε θα ίσχυε ταυτόχρονα {α} -{β} και {β} - {α}, κάτι που είναι διαφορετικό από το -{α} -{β}. Οι Han & Fu (1994) προτείνουν αλγορίθμους για το δυναμικό ξεκαθάρισμα (refinement) και τη δυναμική δημιουργία εννοιολογικών ιεραρχιών. Η δημιουργία εννοιολογικών ιεραρχιών αφορά μόνο αριθμητικά χαρακτηριστικά και βασίζεται στην κατανομή των δεδομένων. Το δυναμικό ξεκαθάρισμα μιας ιεραρχίας στηρίζε- 83

100 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» ται σε ένα συγκεκριμένο αίτημα μάθησης, τα σχετικά μόνο δεδομένα και ορισμένα στατιστικά της βάσης. 5.4 Εξόρυξη αμοιβαίως αποκλειόμενων αντικειμένων Στην ενότητα αυτή παρουσιάζεται η προσέγγιση της παρούσας διατριβής στο πρόβλημα της εξόρυξης αμοιβαίως αποκλειόμενων αντικειμένων. Ειδικότερα, στην υ- ποενότητα ορίζεται η έννοια του αμοιβαίου αποκλεισμού και εξηγείται η βασική ιδέα της προσέγγισής μας. Στην υποενότητα περιγράφεται η διαδικασία εξόρυξης γειτονικών συχνών συνόλων αντικειμένων, η οποία αποτελεί βασικό στοιχείο της προσέγγισής. Στη συνέχεια, προτείνονται οι μετρικές αξιολόγησης των υ- ποψήφιων ζευγών και ο αλγόριθμος εξόρυξης. Τέλος, στην υποενότητα περιλαμβάνεται ένα χαρακτηριστικό παράδειγμα εκτέλεσης του αλγορίθμου Ορισμός του προβλήματος Ορισμός 5.1. Έστω D ένα πεπερασμένο σύνολο συναλλαγών και I ένα πεπερασμένο σύνολο αντικειμένων. Κάθε συναλλαγή Τ D είναι ένα σύνολο αντικειμένων τέτοιο, ώστε T I. Αν δύο αντικείμενα i 1 Ι και i 2 Ι είναι αμοιβαίως αποκλειόμενα, τότε δεν υπάρχει καμία συναλλαγή Τ D τέτοια, ώστε {i 1, i 2 } Τ. Ο παραπάνω ορισμός είναι ιδιαίτερα αυστηρός. Ωστόσο, το αντίστροφό του γενικά δεν ισχύει και συνεπώς δε μπορεί να χρησιμοποιηθεί για την αναγνώριση α- μοιβαίως αποκλειόμενων αντικειμένων. Ας υποθέσουμε ότι έχουμε μια βάση δεδομένων με περισσότερα από αντικείμενα και μερικά εκατομμύρια συναλλαγές. Είναι πιθανό να υπάρχει ένας μεγάλος αριθμός ζευγών αντικειμένων, που δεν αγοράζονται μαζί. Σύμφωνα με τον ορισμό 5.1, τα ζεύγη αυτά αποτελούνται από αμοιβαίως αποκλειόμενα αντικείμενα. Στην πραγματικότητα όμως, ένα πολύ μικρό ποσοστό από αυτά μπορεί να είναι όντως αμοιβαίως αποκλειόμενα. Στηριζόμενοι στις έννοιες που ορίστηκαν νωρίτερα, προτείνουμε έναν αλγόριθμο για την εξόρυξη αμοιβαίως αποκλειόμενων αντικειμένων από μια βάση δεδομένων συναλλαγών, εστιάζοντας κυρίως σε δεδομένα ανάλυσης καλαθιού αγορών. Ο αμοιβαίος αποκλεισμός δύο αντικειμένων μπορεί να αποτελέσει ένα εναλλακτικό είδος συσχέτισης. Φυσικά, αυτό είναι κάτι που πρέπει να επιβεβαιώνεται από τον 84

101 Κεφάλαιο 5- «Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων» ειδικό του εκάστοτε πεδίου έτσι, ώστε να μπορεί τελικά να αξιοποιηθεί. Επίσης, ο αμοιβαίος αποκλεισμός μπορεί να συνιστά αιτιώδη συνάφεια μεταξύ δύο αντικειμένων, υπό την έννοια ότι η εμφάνιση ενός αντικειμένου τελικά ενδέχεται να «αποτρέπει» ή να «προκαλεί» τη μη εμφάνιση ενός άλλου. Ωστόσο, η ανάλυση αιτιότητας απαιτεί ειδικό χειρισμό και αυτό δεν εντάσσεται στους στόχους της παρούσας διατριβής. Στόχος είναι η ανακάλυψη αντικειμένων που εμφανίζονται μαζί, σπάνια ή ποτέ, κάτω από ορισμένες συνθήκες, που αναλύονται παρακάτω. Η εξόρυξη αμοιβαίως αποκλειόμενων αντικειμένων σε μια βάση δεδομένων που μπορεί να περιέχει μερικές χιλιάδες διαφορετικά αντικείμενα, αφορά στην αναζήτηση σε έναν χώρο που αποτελείται από όλα τα πιθανά ζεύγη αντικειμένων. Ω- στόσο, η απλοϊκή αυτή προσέγγιση θα παρήγαγε έναν μεγάλο αριθμό υποψήφιων αμοιβαίως αποκλειόμενων ζευγών, πολλά από τα οποία θα ήταν εσφαλμένα, για τους λόγους που εξηγήθηκαν στην αρχή της ενότητας. Προτείνουμε μια λύση που στηρίζεται στην παρατήρηση ότι κάθε συχνό σύνολο αντικειμένων εκφράζει μια συγκεκριμένη συμπεριφορά μιας ομάδας πελατών και ως τέτοια μπορεί να χρησιμοποιηθεί για να κατευθύνει την αναζήτηση. Τα αντικείμενα που εμφανίζονται με υ- ψηλή συχνότητα στον υποχώρο ενός συχνού συνόλου αντικειμένων είναι πιο πιθανό να αλληλο-αποκλείονται συστηματικά, λόγω του ότι ακολουθούν μια συγκεκριμένη αγοραστική συμπεριφορά και όχι λόγω τυχαίων ή ασυνήθιστων περιπτώσεων (Berberidis, Tzanis, & Vlahavas, 2005). Βάση δεδομένων Βήμα 1 Συχνά Βήμα 2 Γειτονικά Βήμα 3 Σύνολα Συχνά Σύνολα Αντικειμένων Αντικειμένων Αμοιβαίως Αποκλειόμενα Αντικείμενα Εικόνα Τα τρία βήματα του αλγορίθμου εξόρυξης Ο προτεινόμενος αλγόριθμος αποτελείται από τρία βήματα (Εικόνα 5.1). Στο πρώτο βήμα, εξάγονται όλα τα συχνά σύνολα αντικειμένων. Στο βήμα αυτό μπορεί να χρησιμοποιηθεί οποιοσδήποτε αλγόριθμος εξόρυξης συχνών συνόλων αντικειμένων. Στη συνέχεια, τα συχνά σύνολα αντικειμένων χρησιμοποιούνται για την εξόρυξη των γειτονικών συνόλων αντικειμένων (σύνολα που μοιράζονται ένα κοινό υποσύνολο), παράγοντας τις επεκτάσεις που θα χρησιμοποιηθούν στο επόμενο βήμα, ως 85

102 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» υποψήφια αμοιβαίως αποκλειόμενα αντικείμενα. Το δεύτερο αυτό βήμα εκτελείται σε επίπεδα, όπως ο Apriori, και απαιτεί έναν αριθμό περασμάτων στη βάση δεδομένων ανάλογο με το μέγεθος των επεκτάσεων που επιθυμούμε να ανακαλύψουμε. Στην περίπτωση του κλασικού αλγορίθμου Apriori, ο αριθμός των περασμάτων στη βάση είναι ίσος με το μέγεθος των συνόλων αντικειμένων, ωστόσο υπάρχουν ορισμένες βελτιώσεις του που απαιτούν λιγότερα περάσματα και είναι ταχύτεροι (Tzanis & Berberidis, 2007) Εξόρυξη γειτονικών συχνών συνόλων αντικειμένων Έστω D ένα πεπερασμένο σύνολο συναλλαγών και I ένα πεπερασμένο σύνολο αντικειμένων. Κάθε συναλλαγή Τ D είναι ένα σύνολο αντικειμένων τέτοιο, ώστε T I. Η εξόρυξη των συχνών k-συνόλων αντικειμένων (συνόλων αντικειμένων που περιέχουν k αντικείμενα), στο Ι αφορά στην αναζήτηση σε έναν χώρο που αποτελείται από όλους τους πιθανούς συνδυασμούς μήκους k όλων των αντικειμένων του Ι. Κάθε συχνό σύνολο αντικειμένων F I διαιρεί το χώρο αναζήτησης σε δύο διακριτούς υποχώρους: ο πρώτος αποτελείται από τις συναλλαγές που περιέχουν το F και στο εξής θα αναφέρεται ως ο F-υποχώρος και ο δεύτερος από όλες τις άλλες συναλλαγές. Ορισμός 5.2. Έστω F I ένα συχνό σύνολο αντικειμένων στο D, σύμφωνα με ένα κατώτατο όριο υποστήριξης πρώτου επιπέδου και E I ένα άλλο σύνολο αντικειμένων. Το σύνολο αντικειμένων F E αποτελεί γειτονικό (contiguous) συχνό σύνολο αντικειμένων, αν F E = και το E είναι συχνό στον F-υποχώρο, σύμφωνα με ένα όριο υποστήριξης δεύτερου επιπέδου. Το σύνολο αντικειμένων Ε αποτελεί την τοπικά συχνή επέκταση του F. Ο όρος «τοπικά» χρησιμοποιείται επειδή το Ε μπορεί να μην είναι συχνό στο σύνολο όλων των συναλλαγών. Προκειμένου να αποφευχθεί σύγχυση, στο εξής θα χρησιμοποιούνται οι όροι τοπικός και τοπικά, όταν θα γίνεται αναφορά σε ένα υποσύνολο του D, ενώ θα γίνεται χρήση των όρων καθολικός και καθολικά, όταν θα γίνεται αναφορά σε ολόκληρο το D. Για παράδειγμα, ονομάζουμε καθολική υποστήριξη (gsup) την υποστήριξη πρώτου επιπέδου και τοπική υποστήριξη (lsup) την υποστήριξη δευτέρου επιπέδου. Ένα σύνολο αντικειμένων F που πληροί το κριτήριο της ελάχιστης καθολικής υποστήριξης (min_gsup) θεωρείται καθολικώς συχνό, ενώ ένα αντικείμενο Ε 86

103 Κεφάλαιο 5- «Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων» που είναι συχνό στον F-υποχώρο, ικανοποιώντας το κριτήριο ελάχιστης τοπικής υ- ποστήριξης (min_lsup), θεωρείται τοπικά συχνό. Η τοπική υποστήριξη ενός αντικειμένου E στον F-υποχώρο υπολογίζεται βάσει της εξίσωσης (5.1). lsup(e, F) = gsup(e F) / gsup(f) (5.1) Το κατώτατο όριο τοπικής υποστήριξης ορίζεται αυθαίρετα από το χρήστη ειδικό του πεδίου εφαρμογής ή μπορεί να είναι ίσο με το όριο καθολικής υποστήριξης. Τα γειτονικά συχνά σύνολα αντικειμένων που περιέχουν τοπικά συχνές επεκτάσεις μήκους k ονομάζονται k-γειτονικά συχνά σύνολα αντικειμένων (k-contiguous itemsets). Δοθέντος ενός πεπερασμένου συνόλου συναλλαγών D, το πρόβλημα της εξόρυξης των γειτονικών συχνών συνόλων αντικειμένων αφορά στη δημιουργία όλων των συνόλων αντικειμένων F E, που αποτελούνται από ένα σύνολο αντικειμένων F, που έχει καθολική υποστήριξη τουλάχιστο ίση με το κατώτατο όριο και μια επέκταση Ε, που έχει τοπική υποστήριξη τουλάχιστο ίση με το αντίστοιχο κατώτατο ό- ριο Μετρικές και αλγόριθμος εξόρυξης αμοιβαίως αποκλειόμενων αντικειμένων Στο σημείο αυτό είναι απαραίτητο να οριστεί ένα κριτήριο αμοιβαίου αποκλεισμού, μια μετρική δηλαδή βάσει της οποίας θα αξιολογείται ο βαθμός αμοιβαίου αποκλεισμού μεταξύ δύο αντικειμένων. Αρχικά, θα πρέπει να μπορούμε να υπολογίσουμε τη μετρική αυτή μέσα στον υποχώρο ενός συχνού συνόλου αντικειμένων (τοπικά) και στη συνέχεια θα πρέπει να μπορεί να υπολογιστεί και καθολικά, όπου όλα τα συχνά σύνολα αντικειμένων που υποστηρίζουν το συγκεκριμένο υποψήφιο ζεύγος συνεισφέρουν αναλόγως. Για το σκοπό αυτό προτείνουμε τη χρήση μιας μετρικής που ο- νομάζουμε MEM (Mutual Exclusion Metric), η οποία υπολογίζεται σε δύο φάσεις, πρώτα τοπικά και στη συνέχεια καθολικά. Τοπική Μετρική. Προτείνουμε την τοπική μετρική που ορίζεται από την εξίσωση (5.2), η οποία στο εξής θα αναφέρεται ως LM (Local MEM), για την αξιολόγηση ενός υποψήφιου ζεύγους αμοιβαίως αποκλειόμενων αντικειμένων, που υποστηρίζεται από ένα συχνό σύνολο αντικειμένων Ι και παίρνει τιμές στο διάστημα [0, 1]. 87

104 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» LM 1 = [P(A-B) + P(B A)] * min[p(a-b A), P(B-A B)] = [(S A S B ) + (S B - S AB ) * min[(s A S AB ) / S A, (S B S AB )/S B ] = (S A + S B - 2S AB ) * [1 S AB / min(s A, S B )] (5.2) Στην εξίσωση (5.2) ισχύει P(I) = 1. Το S X είναι το κλάσμα των συναλλαγών που περιέχουν το X προς τον αριθμό των συναλλαγών που περιέχουν το Ι. Η Εικόνα 5.2 δείχνει ότι η LM αυξάνει ανάλογα με την αύξηση της υποστήριξης των Α και Β και για όσο δεν υπάρχει αλληλεπικάλυψη (S A, S B <0.5 και S AB =0), μέχρις ότου φτάσει στη μέγιστη τιμή της που είναι 1. Υποθέτουμε ότι S A =S B για λόγους απλότητας, χωρίς να επηρεάζεται η γενικότητα. Όταν αρχίζει η αλληλεπικάλυψη (S A, S B >0.5), η LM ελαττώνεται γρήγορα ώσπου μηδενίζεται. Αυτή η ιδιότητα είναι επιθυμητή αφού ακόμα και ένας μικρός βαθμός αλληλεπικάλυψης αποτελεί σοβαρή ένδειξη εις βάρος της πιθανότητας να είναι τα δύο αντικείμενα αμοιβαίως αποκλειόμενα S AB LM(A, B) S A and S B Εικόνα Η τοπική μετρική (LM) ως προς την τοπική υποστήριξη των υποψήφιων αμοιβαίως αποκλειόμενων αντικειμένων A B A B A-B A-B B-A B-A (α) (β) Εικόνα Διαγράμματα Venn ενός ζεύγους υποψήφιων αμοιβαίως αποκλειόμενων αντικειμένων 88

105 Κεφάλαιο 5- «Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων» Στην Εικόνα 5.3 παρουσιάζεται ένα χαρακτηριστικό παράδειγμα με διαγράμματα Venn. Στα διαγράμματα (α) και (β) οι σκιασμένες περιοχές αναπαριστούν τις συναλλαγές που υποστηρίζουν το A αλλά όχι το B (ή A-B) και το B αλλά όχι το A (ή B-A), που είναι ο πρώτος παράγοντας στην εξίσωση (5.2). Ο δεύτερος παράγοντας της εξίσωσης (5.2) εκφράζεται από το ελάχιστο των A B A και B A. Τα δύο αντι- B κείμενα στο διάγραμμα (β) της Εικόνας 5.3 είναι λιγότερο πιθανά να είναι αμοιβαίως αποκλειόμενα απ ότι στο (α). Καθολική Μετρική. Προτείνουμε την καθολική μετρική GM (Global MEM) που υπολογίζεται από την εξίσωση (5.3) για την αξιολόγηση του αμοιβαίου αποκλεισμού ενός υποψήφιου ζεύγους αμοιβαίως αποκλειόμενων αντικειμένων, που υποστηρίζεται από ένα συχνό σύνολο αντικειμένων ΙS. GM 1 ( A, B) = IIF SILM I( A, B) (5.3) I IS Το IIF (Itemset Independence Factor) είναι ο συντελεστής ανεξαρτησίας ενός συνόλου αντικειμένων και είναι ο λόγος του αριθμού των διακριτών αντικειμένων που περιέχονται σε όλα τα σύνολα αντικειμένων που υποστηρίζουν ένα υποψήφιο ζεύγος, προς το συνολικό αριθμό των αντικειμένων που περιέχονται στα σύνολα αυτά. Για παράδειγμα, ο συντελεστής IIF των συνόλων {A, B, C} και {A, D} είναι 0,8 επειδή υπάρχουν 4 διακριτά αντικείμενα (A, B, C και D) σε ένα σύνολο 5 αντικειμένων (A, B, C, A and D). Ο συντελεστής IIF υπεισέρχεται στον υπολογισμό της καθολικής μετρικής GM προκειμένου να λάβουμε υπόψη την πιθανή αλληλεπικάλυψη δύο υποψήφιων αμοιβαίως αποκλειόμενων αντικειμένων. Ο λόγος είναι ότι η αλληλεπικάλυψη των συναλλαγών που περιέχουν δύο διαφορετικά σύνολα αντικειμένων σημαίνει αλληλεπικάλυψη των συναλλαγών που περιέχουν το υποψήφιο ζεύγος. Ε- ναλλακτικά, για τον υπολογισμό της GM μπορεί να χρησιμοποιηθεί και η εξίσωση (5.4), που προκύπτει από κανονικοποίηση της (5.3). Το πεδίο τιμών της GM 1 (3) είναι το [0, + ), ενώ της GM 2 είναι το [0, 1]. GM ( A, B) = IIF 2 I IS SLM( AB, ) I max IS FS I I IS S I (5.4) 89

106 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» Το FS είναι το σύνολο που περιέχει όλα τα συχνά σύνολα αντικειμένων που υποστηρίζουν ένα ζεύγος υποψήφιων αμοιβαίως αποκλειόμενων αντικειμένων. Η διαφορά ανάμεσα στις εξισώσεις (5.3) και (5.4) είναι ο παρονομαστής της (5.4). Ο συγκεκριμένος όρος χρησιμοποιείται προκειμένου να κανονικοποιηθεί η μετρική, αφού η τιμή που παίρνει ο αριθμητής είναι πάντοτε μικρότερη ή ίση με του παρονομαστή. Με άλλα λόγια, για κάθε υποψήφιο ζεύγος υπολογίζουμε το άθροισμα των υποστηρίξεων των συχνών συνόλων αντικειμένων που το υποστηρίζουν. Το μεγαλύτερο από τα αθροίσματα χρησιμοποιείται για την κανονικοποίηση, κάτι που τελικά είναι χρήσιμο για το σωστό ορισμό του κατώτατου ορίου από το χρήστη. Ωστόσο, αυτό δεν είναι επιθυμητό όταν ο χρήστης θέλει να συγκρίνει τα αποτελέσματα του αλγορίθμου σε διαφορετικά σύνολα δεδομένων ή τα αποτελέσματα από εκτελέσεις του αλγορίθμου με διαφορετικό σύνολο παραμέτρων. Πίνακας Ο αλγόριθμος εξόρυξης αμοιβαίως αποκλειόμενων αντικειμένων Είσοδος: Ένα σύνολο συναλλαγών D, ένα κατώτατο όριο καθολικής υποστήριξης min_gsup, ένα κατώτατο όριο τοπικής υποστήριξης min_lsup και ένα κατώτατο όριο καθολικής min_gm. Έξοδος: Όλα τα αμοιβαίως αποκλειόμενα αντικείμενα FI minefrequentitemsets(d, min_gsup) for each (T D) for each (I FI) if (I T) for each (E T-I) Extensions(I) Extensions(I) E Count[I][E] Count[I][E] + 1 for each (I FI) for each (E Extensions(I)) if (Count[I][E] < min_lsup) Extensions(I) Extensions(I) - E for each (T D) for each (I FI) for each (E1, E2 Extensions(I)) if ({E1, E2} T) ExtensionPairs(I) ExtensionPairs(I) {E1, E2} Local_MEM[I][{E1, E2}] calculatelocal_mem(i, {E1, E2}) for each (I FI) for each (EP ExtensionPairs(I)) AllExtensionPairs AllExtensionPairs EP for each (EP AllExtensionPairs) if (Global_MEM(EP) min_gm) MutuallyExclusivePairs MutuallyExclusivePairs EP return MutuallyExclusivePairs 90

107 Κεφάλαιο 5- «Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων» Ο αλγόριθμος εξόρυξης αμοιβαίως αποκλειόμενων αντικειμένων φαίνεται στον Πίνακας 5.1. Στο πρώτο βήμα, κατά το οποίο εξάγονται τα συχνά σύνολα αντικειμένων, μπορεί να χρησιμοποιηθεί οποιοσδήποτε γνωστός αλγόριθμος Παράδειγμα Στην ενότητα αυτή αναπτύσσεται ένα χαρακτηριστικό παράδειγμα του προτεινόμενου αλγορίθμου. Ο Πίνακας 5.2 περιέχει ένα σύνολο δεδομένων καλαθιού αγορών ενώ ο Πίνακας 5.3 τους κανόνες συσχέτισης που εξάγονται από το σύνολο αυτό, με κατώτατο όριο υποστήριξης 2/9. Πίνακας Ένα σύνολο δεδομένων καλαθιού αγορών TID Αντικείμενα 1 espresso, sugar, newspaper 2 espresso, sugar, cola 3 espresso, sugar 4 cappuccino, cigarettes 5 cappuccino, sugar 6 cappuccino, sugar, sweets 7 decaf, sugar, chewing_gums 8 decaf, soda, vinegar 9 decaf, sugar, cigarettes Πίνακας Οι κανόνες συσχέτισης από το παράδειγμα του Πίνακα 5.2 Κανόνες Συσχέτισης Υποστήριξη Εμπιστοσύνη espresso sugar 3/9 1 decaf sugar 2/9 2/3 cappuccino sugar 2/9 2/3 Η εκτέλεση του αλγορίθμου παράγει τα αμοιβαίως αποκλειόμενα ζεύγη αντικειμένων που περιέχονται στον Πίνακα 5.4, μαζί με τις σχετικές μετρικές και τα συχνά σύνολα αντικειμένων που τα υποστηρίζουν. 91

108 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» Πίνακας Αμοιβαίως αποκλειόμενα αντικείμενα, τα συχνά σύνολα που τα υποστηρίζουν και οι αντίστοιχες μετρικές. Αμοιβαίως Αποκλειόμενα Ζεύγη (GM, gsup) Υποστήριξη Συχνά Σύνολα Αντικειμένων Τοπική Μετρική (LM) {espresso, cappuccino}: 5/9, 0 {sugar}: 7/ {espresso, decaf}: 5/9, 0 {sugar}: 7/ {cappuccino, decaf}: 4/9, 0 {sugar}: 7/ Πειράματα Για την αξιολόγηση της απόδοσης του αλγορίθμου, εκτελέστηκε ένας αριθμός πειραμάτων σε ένα συνθετικό σύνολο δεδομένων καλαθιού αγορών της IBM. Το σύνολο αυτό περιέχει συναλλαγές. Το γράφημα στην Εικόνα 5.4 δείχνει την α- πόδοση του αλγορίθμου εξόρυξης με όρους χρόνων εκτέλεσης (δευτερόλεπτα), για μεταβαλλόμενο όριο τοπικής υποστήριξης (από 0,1 μέχρι 0,3) και μεταβαλλόμενο όριο καθολικής υποστήριξης (από 0,01 μέχρι 0,04). Run Time (sec) min_lsup min_gsup = 0.01 min_gsup = 0.02 min_gsup = 0.03 min_gsup = 0.04 Εικόνα 5.4- Χρόνοι εκτέλεσης του αλγορίθμου εξόρυξης Όπως αναμενόταν, παρατηρούμε ότι ο χρόνος εκτέλεσης αυξάνει όσο μειώνονται τα όρια υποστήριξης. Η απόδοση πέφτει σημαντικά για πολύ χαμηλά κατώτατα όρια. Σημαντικότερο ρόλο παίζει το όριο καθολικής υποστήριξης (min_gsup) επειδή όσο χαμηλότερο είναι τόσο περισσότερα συχνά σύνολα αντικειμένων θα εξορυ- 92

109 Κεφάλαιο 5- «Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων» χθούν στο πρώτο βήμα και κατ επέκταση, τόσο περισσότεροι υποχώροι θα πρέπει να ελεγχθούν. 5.6 Συζήτηση - Ταξονομίες Εφαρμόσαμε μια τεχνική τύπου Apriori προκειμένου να εξαγάγουμε τα γειτονικά συχνά σύνολα αντικειμένων και ακολούθως τα αμοιβαίως αποκλειόμενα αντικείμενα. Η λογική πίσω από την προσέγγιση αυτή έχει δύο σκέλη: (α) αν οι επεκτάσεις είναι όντως συχνές στον υποχώρο ενός συχνού συνόλου αντικειμένων τότε ενδέχεται να αποτελούν ενδιαφέρουσα πληροφορία που χαρακτηρίζει το σύνολο αυτό, η οποία μπορεί να μην είναι γνωστή για διάφορους λόγους. (β) αν ένας μεγάλος αριθμός συνόλων αντικειμένων μοιράζονται τις ίδιες επεκτάσεις και οι κοινές αυτές επεκτάσεις είναι συχνές στους αντίστοιχους υποχώρους, τότε είναι πιθανό να είναι α- μοιβαίως αποκλειόμενες και να ανήκουν στην ίδια κατηγορία και στο ίδιο επίπεδο μιας υποκείμενης ταξονομίας. Στις περιπτώσεις αυτές, η συνολική υποστήριξη του γονεϊκού κόμβου στην ταξονομία διαιρείται σε επιμέρους υποστηρίξεις χαμηλότερων επιπέδων, οι οποίες δεν είναι αρκετά μεγάλες, ώστε να ικανοποιούν το κριτήριο ελάχιστης υποστήριξης. Αυτό αποτελεί και μια εξήγηση για την απώλεια της πληροφορίας που προηγουμένως περιγράψαμε. Η υποστήριξη ενός συγκεκριμένου συχνού συνόλου αντικειμένων μειώνεται λόγω της χαμηλής υποστήριξης των επεκτάσεών του και τελικά αποτυγχάνει να προκριθεί ως συχνό. Στις περιπτώσεις όπου δεν υπάρχει διαθέσιμη πληροφορία σχετικά με υποκείμενη ταξονομία, η πληροφορία που συγκεντρώνεται κατά τη διαδικασία που περιγράφηκε εδώ μπορεί να αποτελέσει σημαντική ένδειξη για την ύπαρξη ταξονομίας. Η εξόρυξη ταξονομικής γνώσης από μια βάση δεδομένων συναλλαγών είναι μια διαδικασία με αμφίβολα αποτελέσματα και η ύπαρξη ταξονομίας αποτελεί πληροφορία πολύτιμη για τη διαδικασία αυτή. Στην περίπτωση που εξετάζεται εδώ ω- στόσο, το Άγιο Δισκοπότηρο θα ήταν η ακριβώς αντίστροφη διαδικασία. Σε ένα πρόβλημα εξόρυξης γνώσης, όπου η πληροφορία για μια υποκείμενη ταξονομία δεν παρέχεται εξ αρχής, είναι δυνατόν να ακολουθήσουμε μια διαδικασία αντίστροφης μηχανικής (reverse engineering), προκειμένου να εξαγάγουμε ψήγματα ταξονομικής γνώσης από τα δεδομένα; Στην περίπτωση που η απάντηση θα ήταν καταφατική, 93

110 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» τότε το πλεονέκτημα θα ήταν διπλό: Πρώτον, ο ειδικός του πεδίου εφαρμογής θα κατείχε επιπρόσθετη πληροφορία σχετικά με εννοιολογικά ιεραρχικές σχέσεις ανάμεσα στα δεδομένα του. Δεύτερον, αυτή η γνώση θα μπορούσε να χρησιμοποιηθεί για την εξόρυξη γενικευμένων και ιεραρχικών κανόνων συσχέτισης, με πρόσθετο ενδιαφέρον σε εκείνες τις ιεραρχικές συσχετίσεις που ο ειδικός θα ήθελε να αξιολογήσει και τελικά να επικυρώσει ή να απορρίψει. Η γνώση ότι δύο αντικείμενα είναι αμοιβαίως αποκλειόμενα μπορεί να αναλυθεί περαιτέρω, προκειμένου να αποφασιστεί αν τα συγκεκριμένα δύο προϊόντα μπορούν να ταξινομηθούν στο ίδιο επίπεδο της ταξονομίας και κάτω από τον ίδιο γονεϊκό κόμβο. Η «τυφλή» αναζήτηση για τέτοια ζεύγη θα παρήγαγε ένα τεράστιο αριθμό υποψήφιων ζευγών, τα περισσότερα από τα οποία μάλιστα πιθανότατα δε θα είχαν κάποιο ενδιαφέρον. Η λογική στην οποία βασίζεται η αναζήτηση αμοιβαίως αποκλειόμενων αντικειμένων ανάμεσα στις επεκτάσεις των συχνών συνόλων αντικειμένων έχει δύο σκέλη. Πρώτον, ο χώρος αναζήτησης μειώνεται δραματικά και δεύτερον, ένα συχνό σύνολο αντικειμένων εκφράζει μια κατηγορία καταναλωτών που έ- χουν συγκεκριμένες προτιμήσεις. Έτσι, τα αμοιβαίως αποκλειόμενα αντικείμενα που βρίσκονται στον υποχώρο ενός συχνού συνόλου αντικειμένων έχουν ένα επιπλέον ενδιαφέρον. Ας υποθέσουμε ότι σε ένα μεγάλο κατάστημα ειδών ένδυσης πωλείται το σύνολο αντικειμένων A = {Κάλτσες, Αθλητικά Παπούτσια, Ρακέτα}, που προκύπτει από αθλητές του τένις και το σύνολο B = {Κάλτσες, Αθλητικά Παπούτσια, Μπάλα Βόλεϊ}, που προκύπτει από αθλητές ποδοσφαίρου. Ενώ τα αντικείμενα A και B ενδέχεται να μην έχουν μεγάλη υποστήριξη, το C = A B = {Κάλτσες, Αθλητικά Παπούτσια} είναι πολύ πιθανόν να έχει μεγαλύτερη υποστήριξη από αυτά, α- φού προκύπτει από όλους σχεδόν τους αθλητές. Ωστόσο, τα αντικείμενα «Ρακέτα» και «Μπάλα Βόλεϊ» είναι λογικό να είναι τοπικά συχνά στο υποσύνολο των συναλλαγών που περιέχουν το C. Οι παραδοσιακοί κανόνες συσχέτισης δεν παρέχουν τη δυνατότητα να εξερευνήσει κανείς τον υποχώρο του C με αποτέλεσμα πιθανώς πολύτιμη γνώση να παραμένει ανεξερεύνητη. Με τον προτεινόμενο αλγόριθμο, τα α- ντικείμενα «Ρακέτα» και «Μπάλα Βόλεϊ» θα ανακαλυφθούν ως αμοιβαίως αποκλειόμενα, υποδεικνύοντας μάλιστα ότι ενδέχεται να συνδέονται με κάποια ταξονομική σχέση (Tzanis, Berberidis, & Vlahavas, 2006). Ας επιστρέψουμε τώρα στο παράδειγμα της ενότητας Τα αμοιβαίως α- 94

111 Κεφάλαιο 5- «Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων» ποκλειόμενα ζευγάρια που περιέχονται στον Πίνακας 5.4 είναι όλα διαφορετικά είδη καφέ (espresso, cappuccino και decaffeinated). Θεωρώντας ότι ανήκουν στο ίδιο ε- πίπεδο της ταξονομίας (Εικόνα 5.5), αν τα αντικαταστήσουμε όλα με ένα άλλο αντικείμενο και συγκεκριμένα με τον κόμβο-πατέρα «Coffee», τότε μπορούμε να αυξήσουμε το κατώτατο όριο υποστήριξης με αποτέλεσμα τελικά να ανακαλύψουμε ι- σχυρότερους κανόνες συσχέτισης (Πίνακας 5.5). Coffee Espresso Cappuccino Decaf Εικόνα Μια ταξονομία προϊόντων καφέ. Πίνακας Γενικευμένοι κανόνες συσχέτισης βάσει της ταξονομίας της Εικόνας 5.5 Κανόνες συσχέτισης Υποστήριξη Εμπιστοσύνη sugar coffee 7/9 1 coffee sugar 7/9 7/9 Η δημιουργία ταξονομιών είναι χρήσιμη σε πολλά πεδία εφαρμογής. Ακόμα και στις περιπτώσεις όπου η ταξονομία είναι εκ των προτέρων γνωστή, κάποιες φορές μπορεί να χρειάζονται διορθώσεις και αναθεωρήσεις, είτε λόγω αλλαγών στις προτιμήσεις των πελατών είτε λόγω της εισαγωγής νέων προϊόντων, που μπορεί να επηρεάζουν τελικά και την ίδια την ταξονομία αλλά και τις επιλογές των πελατών. Επίσης, οι προτιμήσεις των πελατών μπορεί να διαφέρουν σε διαφορετικές γεωγραφικές τοποθεσίες και αυτό να συντελεί σε διαφορετικές ταξονομίες. Για παράδειγμα, μια ταξονομία που χρησιμοποιείται σε ένα κατάστημα ενδυμάτων σε μια ορεινή περιοχή πιθανότατα θα είναι ακατάλληλη για κάποιο άλλο παραθαλάσσιο. Τέλος, είναι δυνατόν να δημιουργηθούν διαφορετικές ταξονομίες ανάλογα με τη σκοπιά που α- ντιμετωπίζεται ένα πρόβλημα. Στο παράδειγμα με τα αθλητικά είδη, μπορεί να μην υπάρχει κάποια ταξονομία που να περιέχει ρακέτες και μπάλες του βόλεϊ στο ίδιο επίπεδο και κάτω από τον ίδιο γονεϊκό κόμβο. Πιθανόν όμως να πρέπει να οριστεί 95

112 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» μια τέτοια σχέση και να εισαχθεί στην εννοιολογική ιεραρχία ή να αναθεωρηθεί κάποια από τις υπάρχουσες ώστε να συμπεριλάβει τη νέα γνώση. 5.7 Συμπεράσματα Στο κεφάλαιο αυτό προτάθηκε ένα νέο πρόβλημα, αυτό της εξόρυξης αμοιβαίως α- ποκλειόμενων αντικειμένων, ως επέκταση του παραδοσιακού προβλήματος των κανόνων συσχέτισης. Η γνώση ότι δύο αντικείμενα είναι αμοιβαίως αποκλειόμενα, μπορεί να αποτελέσει σημαντική βοήθεια κατά την αναζήτηση άγνωστων ταξονομικών σχέσεων μεταξύ τους. Σε μια τέτοια περίπτωση, αυτό αποτελεί ενδιαφέρουσα γνώση για τον ειδικό του εκάστοτε πεδίου εφαρμογής αλλά και πολύτιμη πληροφορία για την εξόρυξη ιεραρχικών και γενικευμένων κανόνων συσχέτισης. Η συμβολή της παρούσας διατριβής στο αντικείμενο αυτό είναι ο ορισμός του προβλήματος, ορισμός μετρικών αμοιβαίου αποκλεισμού και ένας απλός αλγόριθμος εξόρυξης που στηρίζεται στον Apriori. Στο μέλλον, στόχος είναι η εφαρμογή του αλγορίθμου σε πραγματικά δεδομένα σούπερ μάρκετ. 96

113 Κεφάλαιο 6 «Ανακάλυψη Γνώσης από Γονιδιακές Αλληλουχίες» 6.1 Εισαγωγή Το κεφάλαιο αυτό της διατριβής εντάσσεται σε μια περιοχή έρευνας και εφαρμογής που ονομάζεται Βιοπληροφορική. Παρ όλο που οι ρίζες της Βιοπληροφορικής ε- ντοπίζονται πριν από 80 περίπου χρόνια, με τις πρώτες προσπάθειες ανάλυσης βιολογικών δεδομένων για τη δημιουργία βιολογικών νόμων από επαγωγή (Lotka, 1925), τις τελευταίες δύο δεκαετίες έχει αναγνωριστεί ως ένας από τους πλέον ραγδαία αναπτυσσόμενους και πολλά υποσχόμενους κλάδους έρευνας. Η Βιοπληροφορική (Bioinformatics) είναι μια κατεύθυνση εφαρμοσμένης έρευνας στην Πληροφορική, που έχει ως στόχο την ικανοποίηση των ολοένα αυξανόμενων αναγκών της Βιολογίας και των ερευνητικών κλάδων που σχετίζονται με αυτή (Μοριακή Βιολογία, Γενετική, Βιοχημεία κλπ.) για αυτοματοποιημένα υπολογιστικά εργαλεία. Έ- χουν δοθεί ως τώρα αρκετοί ορισμοί για τη Βιοπληροφορική, ένας από τους δημοφιλέστερους εκ των οποίων είναι εκείνος του Εθνικού Ινστιτούτου Υγείας των ΗΠΑ (N.I.H.): Βιοπληροφορική. Η έρευνα, ανάπτυξη ή εφαρμογή υπολογιστικών εργαλείων και προσεγγίσεων για την ενίσχυση της χρήσης δεδομένων βιολογικών, ιατρικών, συμπεριφοράς και υγείας, συμπεριλαμβανομένων εκείνων (των εργαλείων) για την

114 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» συλλογή, αποθήκευση, οργάνωση, αρχειοθέτηση, ανάλυση και οπτικοποίηση των δεδομένων αυτών. - Εθνικό Ινστιτούτο Υγείας, ΗΠΑ. Επίσης, συχνά συναντάται και ο όρος «Υπολογιστική Βιολογία» (Computational Biology), που σύμφωνα με το NIH, εστιάζει στην επεξεργασία και ανάλυση των δεδομένων. Υπολογιστική Βιολογία. Η ανάπτυξη και εφαρμογή μεθόδων ανάλυσης και θεωρίας για τα δεδομένα, τεχνικών μοντελοποίησης και υπολογιστικής προσομοίωσης για τη μελέτη συστημάτων βιολογικών, κοινωνικών και συμπεριφοράς. - Εθνικό Ινστιτούτο Υγείας, ΗΠΑ. Την ίδια στιγμή μπορεί κανείς να παρατηρήσει ότι η ίδια περίπου έμφαση στην ανάλυση και επεξεργασία των βιολογικών δεδομένων δίνεται και στον ορισμό της Βιοπληροφορικής από το Γαλλικό Ινστιτούτο Παστέρ, στον οποίο μοιάζει να εμπίπτει απόλυτα και η Ανακάλυψη Γνώσης από Βάσεις Δεδομένων: Βιοπληροφορική. Η Βιοπληροφορική εξάγει γνώση από την υπολογιστική ανάλυση των βιολογικών δεδομένων. Αυτά μπορεί να αποτελούνται από την πληροφορία που είναι αποθηκευμένη στο γενετικό κώδικα αλλά και από πειραματικά αποτελέσματα διαφόρων πηγών, στατιστικά ασθενών και επιστημονική βιβλιογραφία. Η έρευνα στη Βιοπληροφορική περιλαμβάνει μεθόδους ανάπτυξης για την αποθήκευση, ανάκτηση και ανάλυση των δεδομένων. Η Βιοπληροφορική είναι ένας ραγδαία αναπτυσσόμενος κλάδος της Βιολογίας και είναι ιδιαίτερα διεπιστημονικός, χρησιμοποιώντας τεχνικές και έννοιες από την Πληροφορική, τη Στατιστική, τα Μαθηματικά, τη Χημεία, τη Βιοχημεία, τη Φυσική και τη Γλωσσολογία. Έχει πολλές πρακτικές εφαρμογές σε διάφορες περιοχές της Βιολογίας και της Ιατρικής. - Ινστιτούτο Παστέρ, Γαλλία Μελετώντας τη διεθνή βιβλιογραφία, γίνεται φανερό ότι οι όροι Βιοπληροφορική και Υπολογιστική Βιολογία συχνά χρησιμοποιούνται κατ εναλλαγήν, παρ όλο που αρκετοί έγκριτοι φορείς και επιστήμονες έχουν επιχειρήσει να δώσουν τους δικούς τους ορισμούς. Το Εθνικό Ινστιτούτο Υγείας των ΗΠΑ παραδέχεται ότι «κανένας ορισμός δε μπορεί να εξαφανίσει εντελώς την αλληλεπικάλυψη με άλλες δραστηριότητες ή να αποκλείσει παραλλαγές στην ερμηνεία από διάφορα άτομα και οργανισμούς». Στην παρούσα διατριβή θα χρησιμοποιηθεί ο όρος Βιοπληροφορική, 98

115 Κεφάλαιο 6 - «Ανακάλυψη Γνώσης από Γονιδιακές Αλληλουχίες» που είναι συνηθέστερος και συντομότερος. Ο συλλογή βιολογικών δεδομένων σε ηλεκτρονική μορφή αυξάνεται ραγδαία λόγω της διαρκούς βελτίωσης των υπαρχουσών τεχνολογιών αλλά και της εισαγωγής νέων, που επιτρέπουν τη εκτέλεση πολλαπλών πειραμάτων μεγάλης κλίμακας. Μια μεγάλη διεθνής προσπάθεια που είχε ως αποτέλεσμα τη συλλογή ολόκληρης της γονιδιακής αλληλουχίας του ανθρώπου είναι το Πρόγραμμα του Ανθρώπινου Γονιδιώματος (Human Genome Project). Χαρακτηριστικό παράδειγμα της έκρηξης του όγκου των βιολογικών δεδομένων είναι η εκθετική αύξηση της GenBank (Εικόνα 6.1), της βάσης δεδομένων γενετικών αλληλουχιών του Εθνικού Ινστιτούτου Υ- γείας των ΗΠΑ. Εκατομμύρια Ακολουθίες Εικόνα Αύξηση της GenBank ( ) Η συμβολή της παρούσας διατριβής έχει δύο σκέλη. Αρχικά παρατίθεται μια σύντομη επισκόπηση της εφαρμογής της Ανακάλυψης Γνώσης σε Βάσεις Δεδομένων και της Μηχανικής Μάθησης στη Βιολογία, αποτέλεσμα εκτενούς βιβλιογραφικής έρευνας. Στη συνέχεια παρουσιάζεται μια μελέτη ενός ανοικτού ερευνητικού προβλήματος, εκείνου της πρόβλεψης του σημείου έναρξης της μετάφρασης (Translation Initiation Site TIS) σε μια αλληλουχία cdna (complementary DNA), καθώς και μια νέα μεθοδολογία με αποτελέσματα υψηλής ακρίβειας, που ονομάζεται 99

116 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» MANTIS. 6.2 Ιστορικά στοιχεία Τις τελευταίες δεκαετίες, η επιστήμη της Μοριακής Βιολογίας εμφάνισε ραγδαία πρόοδο, κυρίως μάλιστα μετά την ανακάλυψη της διπλής έλικας του DNA, το 1953 από τους James Watson και Francis Crick (Εικόνα 6.2). Προέκυψε ως κράμα διαφόρων άλλων επιστημών με κυριότερες εκείνες της Βιολογίας, της Γενετικής, της Κρυσταλλογραφίας, της Βιοχημείας, της Βιοφυσικής και της Μικροβιολογίας. Ο Crick είχε δηλώσει «υποχρεώθηκα να αποκαλώ τον εαυτό μου μοριακό βιολόγο ε- πειδή διάφοροι κληρικοί με ρωτούσαν τι δουλειά κάνω και εγώ είχα κουραστεί να τους εξηγώ ότι ήμουν ένα μίγμα κρυσταλλογράφου, βιοφυσικού, βιοχημικού και γενετιστή» (Stent, 1968). Η βιοχημεία, η κρυσταλλογραφία, η γενετική και η μικροβιολογία, ως συστατικά της Μοριακής Βιολογίας, εστιάζουν στις μοριακές δομές. Καθώς επεκτείνεται, η Μοριακή Βιολογία αντλεί και από άλλες επιστήμες, όπως η ιατρική, η μηχανική, οι ανθρωπιστικές επιστήμες και η πληροφορική. Οι ιατρικές επιστήμες εντοπίζουν σημαντικά προβλήματα και με αυτόν τον τρόπο κατευθύνουν την έρευνα. Η μηχανική παρέχει εξοπλισμό και τεχνολογία αλλά και αποδοτικές μεθοδολογίες για την επίλυση σύνθετων προβλημάτων. Οι ανθρωπιστικές επιστήμες εξετάζουν τις νομικές, ηθικές και κοινωνικές προεκτάσεις της, ζητήματα ιδιαίτερα σημαντικά για τα οποία ενδεικτικό είναι ότι απαιτήθηκε το 5% του προϋπολογισμού του προγράμματος του ανθρώπινου γονιδιώματος. Τέλος, η πληροφορική προσφέρει στη Μοριακή Βιολογία μεθόδους για την ανάλυση τεράστιου όγκου δεδομένων, την ερμηνεία των αποτελεσμάτων και τη διαχείριση της συσσωρευόμενης πληροφορίας και γνώσης. Ένα άλλο σημείο-κλειδί στην ιστορία της Μοριακής Βιολογίας, περίπου έξι δεκαετίες μετά τις απαρχές της, ήταν η 26 η Ιουνίου του 2000, όταν ο πρόεδρος των ΗΠΑ Bill Clinton και ο πρωθυπουργός της Αγγλίας Tony Blair από κοινού ανακοίνωσαν την πρώτη πρόχειρη έκδοση (rough draft) της χαρτογράφησης του ανθρώπινου γονιδιώματος, του «βιβλίου της ζωής», που περιέχει όλα τα ανθρώπινα γονίδια. Το γεγονός αυτό ήταν καρπός της πρώτης μεγάλης διεθνούς προσπάθειας, που ξεκίνησε το 1990 με πρωτοβουλία του υπουργείου ενέργειας των ΗΠΑ και επικεφαλής 100

117 Κεφάλαιο 6 - «Ανακάλυψη Γνώσης από Γονιδιακές Αλληλουχίες» τον James Watson, τότε επικεφαλής του Εθνικού Κέντρου Γονιδιακής Έρευνας (National Center for Human Genome Research) του Εθνικού Ινστιτούτου Υγείας (National Institute of Health (NIH)). Ονομάστηκε «Πρόγραμμα του Ανθρώπινου Γονιδιώματος» (Human Genome Project) και ήταν προγραμματισμένο να διαρκέσει δεκαπέντε χρόνια, με προϋπολογισμό 3 δισεκατομμύρια δολάρια. Το διεθνές consortium αποτελείτο επίσης από την Αγγλία, τη Γαλλία, την Κίνα τη Γερμανία και την Ιαπωνία. Συνεχίστηκε και ολοκληρώθηκε τελικά τον Απρίλιο του 2003, δύο χρόνια νωρίτερα από τον αρχικό προγραμματισμό. Η συνέχιση της αλληλούχησης οδήγησε στη δημοσίευση της αλληλουχίας του τελευταίου γονιδίου στο περιοδικό Nature, το Μάιο του Εικόνα Οι James Watson και Francis Crick παρουσιάζουν το μοντέλο τους με τη διπλή έλικα του DNA 2. Ιδιαίτερα ενδιαφέρον στοιχείο αποτελεί το γεγονός ότι η Μοριακή Βιολογία και η Πληροφορική είναι δύο επιστήμες των οποίων η γέννηση και η ραγδαία εξέλιξη συντελέστηκε τις τελευταίες πέντε περίπου δεκαετίες, κάτι που σίγουρα δεν απο- 2 Φωτογραφία του A.C. Barrington Brown, με την ευγενική άδεια των Cold Spring Harbor Laboratory Archives. 101

118 «Ανακάλυψη Γνώσης από Ακολουθίες και Δεδομένα Συναλλαγών» τελεί σύμπτωση. Η πρόοδος στην τεχνολογία των υπολογιστικών συστημάτων και μεθόδων έδωσε στην εργαστηριακή μοριακή βιολογία μια πληθώρα ισχυρών εργαλείων σε πολλαπλά επίπεδα. Η πρόοδος της τεχνολογίας των μέσων αποθήκευσης, με κυριότερη εκείνη των σκληρών δίσκων, έδωσε τη δυνατότητα ηλεκτρονικής συλλογής και αποθήκευσης των δεδομένων και των αποτελεσμάτων της έρευνας, με τρόπο εύκολο και χαμηλό κόστος. Οι δικτυακές υποδομές και υπηρεσίες παρείχαν στους μοριακούς βιολόγους πρόσβαση σε απομακρυσμένα δεδομένα και στα αποτελέσματα έρευνας άλλων ερευνητικών ομάδων, ενώ παράλληλα έδωσε ώθηση στην επικοινωνία και στη συνεργασία των επιστημόνων σε παγκόσμιο επίπεδο. Η εξέλιξη των υπολογιστικών και αλγοριθμικών μεθόδων έδωσε στη Μοριακή Βιολογία ένα σύνολο εργαλείων επεξεργασίας και ανάλυσης δεδομένων. 6.3 Βασικές έννοιες της Βιολογίας Στην ενότητα αυτή θα οριστούν σύντομα μερικές βασικές έννοιες της βιολογίας που είναι απαραίτητες για την κατανόηση του υπόλοιπου κεφαλαίου. Ένα από τα βασικά χαρακτηριστικά της ζωής είναι η ποικιλία, κάτι που μπορεί εύκολα να διαπιστώσει κανείς, παρατηρώντας τις διαφορές ανάμεσα στους διάφορους οργανισμούς. Παρ όλη όμως την ποικιλία ανάμεσα στους οργανισμούς, οι μοριακές τους δομές είναι σε πολύ μεγάλο ποσοστό όμοιες. Κάθε ζωντανός οργανισμός εξαρτάται από τις ιδιότητες και τη λειτουργικότητα μιας σύνθετης οικογένειας μορίων που ονομά&zet