ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης



Σχετικά έγγραφα
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Αναγνώριση Προτύπων Ι

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Υπερπροσαρμογή (Overfitting) (1)

Αποθήκες και Εξόρυξη Δεδομένων

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Δέντρα Απόφασης (Decision(

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Μηχανική Μάθηση: γιατί;

Τεχνικές Εξόρυξης Δεδομένων

Μια από τις σημαντικότερες δυσκολίες που συναντά ο φυσικός στη διάρκεια ενός πειράματος, είναι τα σφάλματα.

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006


Σχεδιασμός και Διεξαγωγή Πειραμάτων

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Εκπαιδευτική Μονάδα 10.2: Εργαλεία χρονοπρογραμματισμού των δραστηριοτήτων.

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0

Παραδείγματα (2) Διανυσματικοί Χώροι

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

Κεφάλαιο 6: Προσομοίωση ενός συστήματος αναμονής

Δίκτυα Υπολογιστών I Εργαστήρια

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων

Ευφυής Προγραμματισμός

Μη γράφετε στο πίσω μέρος της σελίδας

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Διδάσκουσα: Χάλκου Χαρά,

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

Γ. Πειραματισμός - Βιομετρία

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

HMY 795: Αναγνώριση Προτύπων

Ασκήσεις μελέτης της 16 ης διάλεξης

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

Το μοντέλο Perceptron

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Δισδιάστατη ανάλυση. Για παράδειγμα, έστω ότι 11 άτομα δήλωσαν ότι είναι άγαμοι (Α), 26 έγγαμοι (Ε), 12 χήροι (Χ) και 9 διαζευγμένοι (Δ).

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Εισαγωγή στη Στατιστική

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας.

Πληροφορική 2. Τεχνητή νοημοσύνη

ΚΕΦΑΛΑΙΟ 2ο ΠΡΟΣΟΜΟΙΩΣΗ ΔΙΑΚΡΙΤΩΝ ΓΕΓΟΝΟΤΩΝ

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Εισαγωγή - Πειραματικοί Σχεδιασμοί. Κατσιλέρος Αναστάσιος

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Η αβεβαιότητα στη μέτρηση.

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

ΠΡΟΔΙΑΓΡΑΦΕΣ - ΟΔΗΓΙΕΣ ΔΙΑΜΟΡΦΩΣΗΣ ΘΕΜΑΤΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ

Γ. Πειραματισμός Βιομετρία

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

Κατανεμημένα Συστήματα Ι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

Υπολογιστικά & Διακριτά Μαθηματικά

Ανάλυση διακύμανσης (Μέρος 2 ο ) 31/3/2017

Αλγόριθμος Ομαδοποίησης

ΕΙΣΑΓΩΓΗ ΣΤΗ ΔΙΑΧΕΙΡΙΣΗ ΚΑΙ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΕΡΓΩΝ

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

ΚΥΚΛΟΣ ΣΤΑΤΙΣΤΙΚΗΣ ΕΡΕΥΝΑΣ

Περιγραφή του εκπαιδευτικού/ μαθησιακού υλικού (Teaching plan)

Κωδικοποίηση και Έλεγχος Ορθότητας

Δραστηριότητες & Υλικό για τα Μαθηματικά του Δημοτικού

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

1 η ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Εφαρμογές Υπολογιστικής Νοημοσύνης στις Ασύρματες Επικοινωνίες

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της;

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ελαφρύτερος και βαρύτερος Αλγόριθμοι ταξινόμησης

Transcript:

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης «Σχεδίαση και υλοποίηση έξυπνου συστήματος ανάλυσης και αξιολόγησης δεδομένων από αισθητήρες χώρου» ΠΑΠΑΜΑΤΘΑΙΑΚΗΣ Ι. ΓΕΩΡΓΙΟΣ Επιβλέπων: ΠΟΛΥΖΟΣ ΓΕΩΡΓΙΟΣ 2 ος Αξιολογητής: ΞΥΛΩΜΕΝΟΣ ΓΕΩΡΓΙΟΣ ΑΘΗΝΑ, ΙΟΥΝΙΟΣ 2008

2

ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ... 3 ΚΕΦΑΛΑΙΟ 1 Ο... 5 1.1 Εισαγωγή... 7 1.2 Κίνητρα... 8 ΚΕΦΑΛΑΙΟ 2 Ο... 11 2.1 Εισαγωγή... 13 2.2 Γενικά... 15 2.3 Χρονικές Σχέσεις... 16 2.4 Υλοποίηση... 17 2.4.1 Διαθέσιμα δεδομένα... 17 2.4.2 Αναγνώριση Δραστηριοτήτων... 20 2.5 Συμπεράσματα... 49 ΚΕΦΑΛΑΙΟ 3 Ο... 51 3.1 Εισαγωγή... 53 3.2 Η μηχανή Jess... 53 3.3 Η σύνταξη της Jess... 55 3.4 Υλοποίηση... 57 3.4.1 Κανόνες και Συναρτήσεις... 59 3.4.2 Εκτέλεση του Κώδικα... 60 3.5 Συμπεράσματα... 65 ΚΕΦΑΛΑΙΟ 4 Ο... 67 4.1 Εισαγωγή... 69 4.2 Μέθοδοι και Μοντέλα... 70 4.3 Προηγούμενη Εργασία... 72 4.4 Παρούσα Έρευνα... 75 4.5 Υλοποίηση... 77 4.5.1 Δεδομένα που χρησιμοποιήθηκαν... 77 4.5.2 Νευρωνικά Δίκτυα... 77 4.6 Αποτελέσματα... 78 4.6.1 Σύγκριση διαφορετικών order... 78 4.6.2 Επίδραση των δεδομένων εκπαίδευσης στην ακρίβεια... 79 4.6.3 Αποτελέσματα για πρόβλεψη σημείου... 80 4.7 Συμπεράσματα... 83 ΚΕΦΑΛΑΙΟ 5 Ο... 85 5.1 Επίλογος... 87 5.2 Μελλοντική Έρευνα... 88 Βιβλιογραφία... 89 3

4

ΚΕΦΑΛΑΙΟ 1 Ο 5

6

1.1 Εισαγωγή Από τα πρώτα χρόνια της εμφάνισής τους στον πλανήτη, οι άνθρωποι ζούσαν σε τόπους που τους παρείχαν καταφύγιο και τις βασικές ανέσεις. Καθώς όμως η κοινωνία και η τεχνολογία εξελίσσονται, υπάρχει ένα αυξανόμενο ενδιαφέρον για τη βελτίωση της νοημοσύνης του περιβάλλοντος, στο οποίο οι άνθρωποι ζουν και εργάζονται. Ένα «έξυπνο περιβάλλον», αποκτά γνώση και την εφαρμόζει πάντα με βάση τον φυσικό χώρο και τους κατοίκους του, από όπου αντλεί το σημαντικότερο κομμάτι της γνώσης. Ένα τέτοιο περιβάλλον μπορεί να αντιμετωπίζεται ως ένας ευφυής πράκτορας, ο οποίος αντιλαμβάνεται την κατάσταση του χώρου και τις συνθήκες χρησιμοποιώντας αισθητήρες, ενώ επιδρά προς το περιβάλλον με τη χρήση ειδικών συσκευών (controllers - actuators). Το γεγονός αυτό, μπορεί να βελτιστοποιήσει μια σειρά από διαφορετικούς στόχους, συμπεριλαμβάνοντας τη μεγιστοποίηση της άνεσης των κατοίκων, την ελαχιστοποίηση της κατανάλωσης πόρων, και τη διατήρηση της ασφάλειας του περιβάλλοντος και των κατοίκων του. Καθώς η ανάγκη για την αυτοματοποίηση των προσωπικών χώρων μεγαλώνει, αυξάνεται και ο αριθμός των ερευνητών πάνω στο θέμα αυτό. Ορισμένοι ερευνητές έχουν ως στόχο μεμονωμένες συσκευές που παρέχουν μια χρήσιμη λειτουργία, όπως οι προγραμματιζόμενες συσκευές. Παρόλο που αυτές οι συσκευές είναι χρήσιμες για περιορισμένα καθήκοντα, συνήθως δεν στοχεύουν στη συνολική αλληλεπίδραση με το υπόλοιπο περιβάλλον. Άλλοι ερευνητές σχεδιάζουν και υλοποιούν εφαρμογές με διαδραστικές αίθουσες, γραφεία, περίπτερα και έξυπνα έπιπλα που αντιδρούν ανάλογα με τη συμπεριφορά και τις ανάγκες του χρήστη. Επιπλέον, έχουν παρουσιαστεί σημαντικές ιδέες για αναγνώριση δραστηριοτήτων των κατοίκων ενός χώρου [17], για το σχεδιασμό περιβάλλοντος υπενθυμίσεων εργασιών [18], και για περιβάλλοντα που αντιδρούν σε επικίνδυνες καταστάσεις [19]. Ένα «έξυπνο περιβάλλον» οφείλει να παρέχει τη δυνατότητα ενίσχυσης των ατόμων με ψυχικά και σωματικά προβλήματα, κάνοντας τη ζωή τους πιο άνετη και παραγωγική. Βέβαια, το κυριότερο εμπόδιο για την υλοποίηση ενός δυναμικού περιβάλλοντος είναι η δυσκολία με την οποία η τεχνολογία μπορεί να ενσωματωθεί και να επιδράσει στον τρόπο ζωής των ανθρώπων. Σκοπός μας λοιπόν, είναι ο σχεδιασμός ενός έξυπνου περιβάλλοντος που θα προσαρμόζεται στους κατοίκους του, θα κατανοεί τις δραστηριότητές τους και θα βοηθά στην ολοκληρωμένη πρόληψη πιθανών παραλήψεων (π.χ. παράληψη της φαρμακευτικής του αγωγής). Με την προσέγγιση αυτή, ο κάτοικος διαδραματίζει έναν κρίσιμο ρόλο στην καθοδήγηση του περιβάλλοντος και ουσιαστικά το περιβάλλον μαθαίνει να ξεχωρίζει τις δραστηριότητες, σύμφωνα με τις συνήθειες του ίδιου του χρήστη. 7

1.2 Κίνητρα Το Ευρωπαϊκό και το Αμερικάνικο σύστημα υγείας βρίσκονται υπό σοβαρή οικονομική πίεση, ενώ η κατάσταση αναμένεται να επιδεινωθεί στο άμεσο μέλλον. Μία λύση στο πρόβλημα αυτό, περιλαμβάνει την ανάπτυξη συστημάτων για την αποσυμφόρηση των νοσοκομείων, με τη μερική νοσηλεία στο σπίτι και τη βελτίωση της ποιότητας ζωής στον προσωπικό χώρο του ασθενή. Περιθάλποντας λοιπόν τα άτομα στο σπίτι (εκτός νοσοκομείου), μειώνεται το οικονομικό βάρος για το σύστημα υγείας. Σύμφωνα με ειδικούς επιστήμονες (gerontologists), ο εντοπισμός αλλαγών στην καθημερινή συμπεριφορά των ατόμων, όπως στον ύπνο, την παρασκευή φαγητού, την καθαριότητα, την ψυχαγωγία, και την άσκηση, είναι συχνά πολυτιμότερος (από τις βιομετρικές πληροφορίες) για την τον έγκαιρο εντοπισμό των ψυχικών και σωματικών προβλημάτων υγείας, ιδιαίτερα για τους ηλικιωμένους [16]. Έτσι, με τη βοήθεια ενός καλού συστήματος αναγνώρισης των δραστηριοτήτων της καθημερινής ζωής, οι επιστήμονες θα βρίσκονται σε θέση να πραγματοποιήσουν πολλές από τις προτεινόμενες στρατηγικές για την ενθάρρυνση της υγιούς συμπεριφοράς, που σχετίζονται με τη δίαιτα, την άσκηση και τη φαρμακευτική αγωγή. Επιπλέον, μπορούν να επιβλέπουν απομακρυσμένα την ορθή λειτουργία της καθημερινότητας ενός ατόμου με προβλήματα υγείας, έχοντας άμεσο σύμμαχο το έξυπνο αυτό σύστημα. Δυστυχώς, οι ερευνητές υγείας σήμερα δεν έχουν τα μέσα για να συλλέξουν τα αναγκαία στοιχεία από αισθητήρες για την ανίχνευση των δραστηριοτήτων και τα μοτίβα συμπεριφοράς σε πραγματικούς χώρους. Επιπλέον, οι ερευνητές δεν γνωρίζουν πλήρως αν είναι δυνατό να αναγνωρίσουμε τις ανθρώπινες δραστηριότητες, χρησιμοποιώντας μια σειρά από απλούς αισθητήρες. Ακόμη, δεν είναι σίγουροι για το ποιες τροποποιήσεις είναι απαραίτητο να γίνουν στους συμβατικούς αλγόριθμους αναγνώριση προτύπων, ώστε να αναγνωρίζουμε τις δραστηριότητες αυτές. Ωστόσο, αν υπάρχει η δυνατότητα να αναπτυχθούν υπολογιστικά συστήματα που μπορούν να αναγνωρίζουν τέτοιες δραστηριότητες, πιθανότατα οι ερευνητές να είναι σε θέση να αναγνωρίζουν αυτόματα αλλαγές στις συνήθειες της συμπεριφοράς των ανθρώπων στο σπίτι, οι οποίες είναι σημάδι επιδείνωσης της υγείας. Η έγκαιρη αυτή διάγνωση της υγείας του ατόμου, μπορεί με τη σειρά της να είναι διαθέσιμη άμεσα σε κάποιον που έχει αναλάβει την παρακολούθηση της υγείας του ασθενούς, όπως ένα μέλος της οικογένειας ή ένας γιατρός. Στην παρούσα εργασία, θα προσπαθήσουμε να σχεδιάσουμε και να υλοποιήσουμε ένα «έξυπνο» σύστημα που εκπαιδεύεται, ώστε να αναγνωρίζει τις δραστηριότητες του ατόμου εντός του προσωπικού του χώρου. Επιπλέον, θα επεκτείνουμε τη λειτουργία του έξυπνου 8

συστήματος και εκτός σπιτιού, ώστε με χρήση GPS να προβλέπει την επόμενη κίνηση του χρήστη και να ενεργεί προληπτικά για την αποφυγή επικίνδυνων καταστάσεων εκτός σπιτιού. Πιο συγκεκριμένα, στο δεύτερο κεφάλαιο θα παρουσιάσουμε, θα μελετήσουμε και θα συγκρίνουμε κάποιες μεθόδους αναγνώρισης των καθημερινών δραστηριοτήτων ενός ατόμου (εντός σπιτιού). Οι μέθοδοι αυτοί, στηρίζονται σε γνωστές τεχνικές της εξόρυξης γνώσης (data mining) όπως η κατηγοριοποίηση (classification) και οι κανόνες συσχέτισης (association rules), για γεγονότα της καθημερινότητας. Στο τρίτο κεφάλαιο, θα παρουσιάσουμε και θα αξιολογήσουμε τη χρήση της μηχανής κανόνων Jess, με την οποία υλοποιούμε το «έξυπνο» σύστημα αναγνώρισης δραστηριοτήτων. Επίσης, αναλύουμε τον τρόπο με τον οποίο επεξεργάζεται η μηχανή κανόνων τα δεδομένα εισόδου της, παρουσιάζουμε τη λογική λειτουργίας του «έξυπνου» συστήματος και επιχειρηματολογούμε σχετικά με την επιλογή χρήσης μιας μηχανής κανόνων. Στο τέταρτο κεφάλαιο, επεκτείνουμε το «έξυπνο» περιβάλλον εκτός του προσωπικού χώρου του ατόμου. Συγκεκριμένα, εξετάζουμε τους λόγους χρήσης ενός τέτοιου συστήματος, παρουσιάζουμε ορισμένα ζητήματα σχετικά με τη χρήση του συστήματος σε συνάρτηση με την τεχνολογία GPS, και καθορίζουμε τη μέθοδο υλοποίησης ενός συστήματος πρόβλεψης της επόμενης κίνησης, του ατόμου, εκτός σπιτιού. Η μέθοδος που προτείνουμε στηρίζεται στη χρήση των νευρωνικών δικτύων και η απόδοσή της αξιολογείται με μια σειρά από πειράματα, πάνω σε πραγματικά δεδομένα ενός ασύρματου δικτύου. Τέλος, στο πέμπτο κεφάλαιο βρίσκεται ο επίλογος μαζί με σκέψεις σχετικά με την παρούσα έρευνα και με μελλοντικές επεκτάσεις της. 9

10

ΚΕΦΑΛΑΙΟ 2 Ο 11

12

2.1 Εισαγωγή Σύμφωνα με τις έρευνες του Alexander Szalai [1], οι ενέργειες των ατόμων μπορούν να ομαδοποιηθούν σε συγκεκριμένες κατηγορίες, ανάλογα με τις καθημερινές συνήθειές τους. Με βάση, ένα δείγμα δεδομένων από την καταγραφή της καθημερινής δραστηριότητας με tape on and forget sensors, σε ένα προσωπικό χώρο, τα αποτελέσματα της έρευνας που παρουσιάζονται στο [2] δείχνουν ότι μπορούμε να αναγνωρίσουμε κάποιες δραστηριότητες ενός ατόμου με ακρίβεια έως 89%. Οι δραστηριότητες αυτές, μπορούν να επεξεργαστούν και να δώσουν με τη σειρά τους χρήσιμα συμπεράσματα για τη ζωή και τις συνήθειες του ατόμου. Το βασικό μέρος του συστήματός μας, στηρίζεται κυρίως στην έρευνα των [2][3] και στα διαθέσιμα δεδομένα από τη ζωή δύο διαφορετικών ατόμων ηλικίας 30 και 80 ετών αντίστοιχα, που ζουν μόνα σε παρόμοια διαμερίσματα. Το διαθέσιμο σετ δεδομένων [2] αποτελείται από καταγεγραμμένες δραστηριότητες στον προσωπικό χώρο κάθε ατόμου, με βάση αισθητήρες που έχουν τοποθετηθεί σε 80 περίπου σημεία. Επιπλέον, γίνεται μια ομαδοποίηση των ενεργειών με κύριο σκοπό την επεξεργασία των δειγμάτων και την εύρεση patterns από τη συμπεριφορά μέσα στο σπίτι. Η ομαδοποίηση αυτή των ενεργειών, στηρίζεται στο [1] και αποτελεί ένα σύνολο από καθημερινές δραστηριότητες του ατόμου στο σπίτι, όπως είναι η προετοιμασία γεύματος, η παρακολούθηση τηλεόρασης, η επίσκεψη στο μπάνιο κ.α. Το παραπάνω σετ δεδομένων, θα αποτελέσει τον κύριο παράγοντα αξιολόγησης των αποτελεσμάτων που θα λάβουμε από την προσπάθεια αναγνώρισης των δραστηριοτήτων του ατόμου μέσα στο χώρο. Το πιο πολύπλοκο και πλέον δύσκολο στάδιο του συστήματος, αποτελεί η διαδικασία αναγνώρισης του είδους των ενεργειών ενός ατόμου στον χώρο. Η βασική ιδέα στηρίζεται στους χρονικούς κανόνες (temporal rules) που καθορίζουν τη χρονική σχέση εμφάνισης μεταξύ των αισθητήρων χώρου, όπως περιγράφεται στο [2] και [3]. Πιο συγκεκριμένα, οι χρονικοί κανόνες του Allen (Allen s temporal rules) καθορίζουν τη σχέση μεταξύ δύο γεγονότων Χ και Υ (στην περίπτωσή μας μεταξύ δύο αισθητήρων), όπως παρουσιάζονται στον Πίνακα 1. Αν για κάθε είδος δραστηριότητας, του ατόμου, παράγουμε τους χρονικούς κανόνες μεταξύ ζευγών αισθητήρων και στη συνέχεια καθορίσουμε τους κανόνες συσχέτισης (association rules) των διαθέσιμων χρονικών κανόνων, τότε για κάθε δραστηριότητα (π.χ. ετοιμασία γεύματος, πλύσιμο πιάτων, ψυχαγωγία με μουσική) μπορούμε να καθορίσουμε ένα σύνολο από τους κυριότερους χρονικούς κανόνες που χαρακτηρίζουν την κάθε ενέργεια. Το σύνολο των κανόνων συσχέτισης που αναφέραμε πιο πάνω, είναι σχεδόν μοναδικό για κάθε άτομο αφού ουσιαστικά αποτελεί την «ταυτότητα» της συμπεριφοράς του για κάθε δραστηριότητα μέσα στο σπίτι. Έτσι, με βάση τους σημαντικότερους χρονικούς κανόνες για 13

κάθε δραστηριότητα, μπορούμε να εκπαιδεύσουμε το σύστημά μας (π.χ. με τα δεδομένα μιας εβδομάδας), ώστε να αναγνωρίζει τις διαφορές ανάμεσα σε ανόμοιες δραστηριότητες και να επιλέγει το είδος της δραστηριότητας που έχει εκτελεστεί. Επιπλέον, η αξιολόγηση των δραστηριοτήτων θα γίνεται με τη χρήση της μηχανής κανόνων Jess (τρίτο κεφάλαιο). Με την εμφάνιση κάποιου χρονικού κανόνα μιας δραστηριότητας, από το σύνολο των σημαντικότερων κανόνων για κάθε δραστηριότητα, αυξάνεται ο αριθμός σπουδαιότητας (ranking) για τη δραστηριότητα στην οποία ανήκει ο κανόνας. Έτσι, η δραστηριότητα που τελικά έχει τον μεγαλύτερο αριθμό ranking είναι πιθανότατα η δραστηριότητα που εκτελέστηκε. Βασικός σκοπός της προσπάθειας αναγνώρισης των δραστηριοτήτων σε ένα χώρο, αποτελεί ο εντοπισμός πιθανής ασυνήθιστης συμπεριφοράς από το άτομο και η ταχύτερη αποκατάσταση της ισορροπίας στην καθημερινή ζωή του. Στην περίπτωση λοιπόν που παρατηρηθεί κάποια ασυμφωνία στις δραστηριότητες που εντοπίστηκαν από το σύστημα (π.χ. το άτομο δεν έφαγε για μεσημέρι ή δεν πήρε το φάρμακό του), τότε μπαίνουμε σε διαδικασία ενεργοποίησης του μηχανισμού προειδοποίησης. Ενδεχομένως, η αναμενόμενη ενέργεια του ατόμου να γίνει αργότερα μέσα στη μέρα, οπότε η προειδοποιητική σήμανση παύει να υφίσταται, αλλά σε περίπτωση που συνεχίζει να μην πραγματοποιείται η προβλεπόμενη ενέργεια χρειάζεται άμεση επέμβαση από τρίτους ή από το σύστημα (π.χ. υπενθύμιση για να λάβει τη φαρμακευτική αγωγή του). 14

Πίνακας 1 2.2 Γενικά Η ανάγκη για ένα εξελιγμένο και ακριβές μοντέλο αναγνώρισης ενεργειών, είναι σημαντική για κάθε ευφυές σπίτι που λειτουργεί σε ένα δυναμικό και συνεχώς μεταβαλλόμενο περιβάλλον. Ένα τέτοιο έξυπνο σύστημα, θα πρέπει να είναι σε θέση να εφαρμόζει την περιορισμένη εμπειρία που λαμβάνει από το ιστορικό των γεγονότων και σχετίζονται μεταξύ τους με χρονικές σχέσεις. Μάλιστα, η εξόρυξης δεδομένων με βάση χρονικούς κανόνες (temporal rules) έχει προσελκύσει μεγάλο αριθμό ερευνητών κατά τη διάρκεια της δεκαετίας [6], [7]. 15

Χαρακτηριστικό παράδειγμα αποτελεί ο Allen, που παρατήρησε ότι θα ήταν πιο λογικό να περιγράψει τα διάφορα σενάρια γεγονότων με χρονικά διαστήματα και για τον λόγο αυτό παρουσίασε δεκατρείς χρονικές σχέσεις μεταξύ γεγονότων (Πίνακας 1) [5]. Οι χρονικές σχέσεις αυτές, διαδραματίζουν σημαντικό ρόλο στον προσδιορισμό των δραστηριοτήτων που συμβαίνουν σε έναν έξυπνο σπίτι. Σκεφτείτε, για παράδειγμα, την περίπτωση όπου το άτομο έχει ανοίξει την τηλεόραση (TV) μετά από το γεγονός ότι έκατσε στον καναπέ. Παρατηρούμε ότι τα δύο αυτά γεγονότα, το άνοιγμα της Τηλεόρασης και το ότι κάθεται στον καναπέ, συχνά σχετίζονται με τη χρονική σχέση "μετά". Συνεπώς, όταν κάποιος κάθεται σε καναπέ, το έξυπνο περιβάλλον μπορεί να προβλέψει ότι στο εγγύς μέλλον η τηλεόραση θα μπορούσε πιθανώς να είναι ενεργοποιημένη. Από τις αρχικές δεκατρείς χρονικές σχέσεις του Allen [5], θα χρησιμοποιήσουμε τις εννέα σχέσεις που είναι σημειωμένες με κόκκινο χρώμα στον Πίνακα 1. Οι εν λόγω χρονικές σχέσεις αφορούν τη σχέση μεταξύ δύο διαδοχικών γεγονότων, με αποτέλεσμα να είναι χρήσιμες στην περίπτωση της πρόβλεψης αλλά και της αναγνώρισης των δραστηριοτήτων μέσα σε ένα χώρο. Επίσης, οι τέσσερις παραλειπόμενες σχέσεις του Allen δεν ενισχύουν τα πειραματικά αποτελέσματα, αφού ουσιαστικά είναι όμοιες με την αντίστροφη λογική άλλων χρονικών σχέσεων και μπορούν να αντικατασταθούν από αυτές. Για παράδειγμα, η σχέση X Before Y μπορεί να αντικατασταθεί με τη σχέση Y After X. Ένα ερώτημα που μπορεί να προκύψει είναι το γιατί οι χρονικές σχέσεις του Allen θα πρέπει να χρησιμοποιηθούν για τη δημιουργία χρονικών διαστημάτων. Η απάντηση είναι ότι, οι χρονικές σχέσεις καθορίζουν τη βασική αναπαράσταση των διαχρονικών διαστημάτων, τα οποία όταν χρησιμοποιούνται με κατάλληλους περιορισμούς αποτελούν μια ισχυρή μέθοδο έκφρασης της σχέσης μεταξύ των διαφόρων γεγονότων που συμβαίνουν σε έναν έξυπνο περιβάλλον. Επιπλέον, έχουν εύκολη ονοματολογία, πράγμα που καθιστά ευκολότερο να αναγνωρίσουν, να ερμηνευτούν και να χρησιμοποιηθούν γενικότερα. 2.3 Χρονικές Σχέσεις Οι δραστηριότητες σε έναν έξυπνο σπίτι περιλαμβάνουν σωματικές καθώς και διαδραστικές (πάνω σε αντικείμενα) δραστηριότητες. Για παράδειγμα, αυτές μπορεί να περιλαμβάνουν περπάτημα, ανάπαυση στον καναπέ, το άνοιγμα μιας λάμπας, χρήση της καφετιέρας και άλλα. Σημαντικό σημείο αποτελεί η παρατήρηση ότι οι δραστηριότητες δεν είναι στιγμιαίες, αλλά έχουν διακριτούς χρόνους έναρξης και λήξης, όπως επίσης ότι υπάρχουν καθορισμένες χρονικές σχέσεις μεταξύ των δραστηριοτήτων. 16

Οι χρονικές σχέσεις αυτές, μπορούν εύκολα να αναπαρασταθούν και να περιγραφούν με τη χρήση των χρονικών σχέσεων του Allen, ενώ μπορούν να χρησιμοποιηθούν ως γνώση, στην ανακάλυψη του τρόπου διεξαγωγής των καθημερινών δραστηριοτήτων. Με τον τρόπο αυτό είναι ευκολότερη η ανάπτυξη συστημάτων τα οποία λειτουργούν ως βοηθοί σε άτομα με ειδικές ανάγκες, καθώς συντελούν στην ανίχνευση ανωμαλιών της καθημερινής δραστηριότητας και στην λήψη προληπτικών μέτρων ασφάλειας [8]. 2.4 Υλοποίηση 2.4.1 Διαθέσιμα δεδομένα Όπως έχουμε αναφέρει, το διαθέσιμο σετ δεδομένων [2] αποτελείται από καταγεγραμμένες δραστηριότητες σε παρόμοιους προσωπικούς χώρους δύο ατόμων, με βάση αισθητήρες που έχουν τοποθετηθεί σε 80 περίπου σημεία. Η έρευνά μας στηρίζεται στα διαθέσιμα δεδομένα που βρίσκονται σε κατάλληλη μορφοποίηση για επεξεργασία από τη Matlab [4]. Συγκεκριμένα, τα δεδομένα για τα γεγονότα που εξελίσσονται μέσα στο σπίτι, όπως καταγράφονται από τους αισθητήρες, έχουν τη μορφή : [year_day, week_day, activation, deactivation, interval, sensor_id, location type] 1. year_day: είναι η ημερομηνία (ημέρα, μήνας, χρονιά) στην οποία εξελίσσεται μια ενέργεια. 2. week_day: είναι ο αριθμός, μεταξύ του 1 και του 7, που αντιστοιχεί στην ημέρα της εβδομάδας (1=Δευτέρα - 7=Κυριακή) όπου εξελίσσεται μια ενέργεια. 3. activation: παρουσιάζει την ώρα ενεργοποίησης του αισθητήρα, για κάποιο συμβάν. Η αναπαράσταση της ώρας είναι σε δευτερόλεπτα, με ώρα εκκίνησης τις 12:00π.μ. 4. deactivation: παρουσιάζει την ώρα απενεργοποίησης του αισθητήρα, για κάποιο συμβάν. Η αναπαράσταση της ώρας είναι σε δευτερόλεπτα, με ώρα εκκίνησης τις 12:00π.μ. 5. interval: αναπαριστά σε δευτερόλεπτα τον χρόνο που ήταν ενεργοποιημένος ο αισθητήρας. (μη αξιόπιστη πληροφορία, λόγω της φύσης των αισθητήρων) 17

6. sensor_id: είναι ο χαρακτηριστικός αριθμός που αναπαριστά τη μοναδική ταυτότητα κάθε αισθητήρα. 7. location: είναι ο αριθμός που αναπαριστά το δωμάτιο όπου είναι τοποθετημένος ο σχετικός αισθητήρας (π.χ. location{2} = «κουζίνα»). 8. type: είναι ο αριθμός που αναπαριστά το αριθμημένο αντικείμενο στο οποίο είναι εγκατεστημένος ο αισθητήρας (π.χ. type{5} = «καναπές»). Επιπλέον, γίνεται μια ομαδοποίηση των ενεργειών με κύριο σκοπό την επεξεργασία των δειγμάτων και την εύρεση μοτίβων από τη συμπεριφορά μέσα στο σπίτι. Η ομαδοποίηση αυτή των ενεργειών, στηρίζεται στο [1] και αποτελεί ένα σύνολο από καθημερινές δραστηριότητες του ατόμου στο σπίτι, όπως είναι η προετοιμασία γεύματος, η παρακολούθηση τηλεόρασης, η επίσκεψη στο μπάνιο κ.α. Συγκεκριμένα, τα δεδομένα για τις δραστηριότητες που καταγράφονται (για δύο εβδομάδες) μέσα στο σπίτι, έχουν τη μορφή : [year_day, week_day, start_time, activity_code, subcategory_index, end_time] 1. year_day: είναι η ημερομηνία (ημέρα, μήνας, χρονιά) στην οποία εξελίσσεται μια ενέργεια. 2. week_day: είναι ο αριθμός, μεταξύ του 1 και του 7, που αντιστοιχεί στην ημέρα της εβδομάδας (1=Δευτέρα - 7=Κυριακή) όπου εξελίσσεται μια ενέργεια. 3. start_time: είναι η ώρα (σε δευτερόλεπτα) που ξεκίνησε η δραστηριότητα. 4. activity_code: είναι ο αριθμός που παριστάνει τον κωδικό για την κάθε δραστηριότητα. 5. subcategory_index: είναι ο αριθμός που προσδιορίζει τη θέση που βρίσκεται η αντίστοιχη δραστηριότητα στον πίνακα των δραστηριοτήτων (classes). 6. end_time: είναι η ώρα (σε δευτερόλεπτα) που τελείωσε η δραστηριότητα. 18

Αξίζει να αναφέρουμε ότι, οι δραστηριότητες που εμφανίζονται στο σετ δεδομένων βασίζονται στις πληροφορίες που παρέχει ο ίδιος ο χρήστης [2]. Συγκεκριμένα, το άτομο που εκτελούσε τις δραστηριότητες ήταν εφοδιασμένο με ένα PDA, στο οποίο έπρεπε να συμπληρώνει ένα ερωτηματολόγιο σχετικά με το είδος της δραστηριότητα την οποία εκτέλεσε, το χρόνο έναρξης και λήξης της δραστηριότητάς του, καθώς και την εκτιμώμενη διάρκειά της. Έτσι, με κατάλληλη επεξεργασία των δεδομένων που έλαβαν από τον κάθε χρήστη, προέκυψε η κατηγοριοποίηση των γεγονότων σε δραστηριότητες. Μάλιστα, ο τρόπος που έγινε η εκτίμηση των δραστηριοτήτων αποτελεί πρόβλημα στην ορθότητα των δεδομένων μας, γεγονός το οποίο είναι εμφανές στα τελικά μας αποτελέσματα. Παράδειγμα Αντιπροσωπευτικό παράδειγμα δεδομένων για μια δραστηριότητα παρουσιάζεται στον Πίνακα 2. Δραστηριότητα Ετοιμασία Πρωινού Νο. Αισθητήρα Ημέρα Ώρα Ενεργοποίησης Ώρα Απενεργοποίησης Διάρκεια (δευτ.) 20/5/2008 08:23:01 600 Δωμάτιο Είδος Αντικειμένου 23 20/5/2008 08:23:03 08:23:07 4 Κουζίνα Πόρτα 18 20/5/2008 08:23:09 08:23:17 8 Κουζίνα Ντουλάπι 89 20/5/2008 08:24:49 08:24:59 10 Κουζίνα Ψυγείο : : : : : : : : : : : : : : Πίνακας 2. Τα διαθέσιμα δεδομένα προέρχονται από δύο όμοια διαμερίσματα και είναι ομαδοποιημένα σε δύο διαφορετικά σύνολα. Επίσης, το κάθε ένα διαμέρισμα ήταν εφοδιασμένο με περίπου 80 αισθητήρες, οι οποίοι εγκαταστάθηκαν σε διαφορετικά σημεία του σπιτιού, ενώ η πληροφορία από τους αισθητήρες αναπαρίσταται με απλά σήματα (ΟΝ/OFF). Πιο συγκεκριμένα : 1 ο Σύνολο Δεδομένων (Σπίτι 1) Ο προσωπικός χώρος αυτός, κατοικείται από μια γυναίκα 30 ετών. Έτσι, τα διαθέσιμα δεδομένα περιέχουν δραστηριότητες για ένα άτομο το οποίο εργάζεται, λείπει κάποιες ώρες από το σπίτι και επιλέγει να εκτελεί ορισμένες πολύ βασικές δραστηριότητες, όπως το πλύσιμο των πιάτων, η προετοιμασία γεύματος κτλ. Για τις πολύ βασικές αυτές δραστηριότητες έχουμε μεγαλύτερο αριθμό δεδομένων, με αποτέλεσμα να εστιάσουμε εκεί την προσοχή μας. Το γεγονός ότι το άτομο ζει μόνο του, διευκολύνει την υπόθεση ότι δεν υπάρχουν χρονικά παράλληλες δραστηριότητες εντός του σπιτιού. 19

2 ο Σύνολο Δεδομένων (Σπίτι 2) Στο δεύτερο διαθέσιμο σπίτι, κατοικεί μια ηλικιωμένη γυναίκα 80 ετών. Το διαθέσιμα σύνολο δεδομένων περιέχει δραστηριότητες ενός ατόμου που μένει πολλές ώρες στο σπίτι, αποζητά την ψυχαγωγία εντός του προσωπικού του χώρου, ενώ ταυτόχρονα εκτελεί ορισμένες πολύ βασικές καθημερινές δραστηριότητες, όπως η προετοιμασία πρωινού, η προετοιμασία γεύματος κτλ. Το γεγονός ότι το άτομο ζει μόνο του, διευκολύνει την υπόθεση ότι δεν υπάρχουν χρονικά παράλληλες δραστηριότητες εντός του σπιτιού. 2.4.2 Αναγνώριση Δραστηριοτήτων Στην παράγραφο αυτή, θα παρουσιάσουμε διαφορετικές μεθόδους αναγνώρισης των δραστηριοτήτων εντός σπιτιού και θα αναλύσουμε τα αποτελέσματα που δίνει η κάθε μέθοδος. Για την αξιολόγηση των μεθόδων αυτών, χρησιμοποιούμε τα σύνολα δεδομένων με τις δραστηριότητες από τα δύο διαμερίσματα, που παρουσιάσαμε πιο πάνω. 2.4.2.1 Κατηγοριοποίηση Δεδομένων Μια αρχική ιδέα αποτελεί ο συνδυασμός των αισθητήρων που εμφανίζονται στις δραστηριότητες μαζί με το πλήθος των εμφανίσεών τους σε κάθε δραστηριότητα (π.χ. ο αισθητήρας της τηλεόρασης ενεργοποιείται 4 φορές σε μια δραστηριότητα «Παρακολούθηση Τηλεόρασης»). Η απλή αυτή ιδέα έχει σκοπό την αναγνώριση των δραστηριοτήτων με βάση τα γεγονότα που συμβαίνουν σε συνδυασμό με τις φορές εμφάνισής τους, στο πλαίσιο μιας δραστηριότητας. Για το λόγο αυτό θεωρούμε ως κατάλληλο εργαλείο την εξόρυξη δεδομένων (Data Mining) και πιο συγκεκριμένα την τεχνική της «κατηγοριοποίησης» (classification). Μέθοδοι Κατηγοριοποίησης Η κατηγοριοποίηση δεδομένων (data classification) αποτελεί μία από τις βασικές μορφές εξόρυξης γνώσης. Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειμένου (μη κατηγοριοποιημένο), το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Έτσι, με βάση τα χαρακτηριστικά (στην περίπτωσή μας τους αισθητήρες), μπορούμε να συμπεράνουμε σε ποια κατηγορία (δηλαδή σε ποια δραστηριότητα) ανήκει το σύνολο από τους αισθητήρες που περιγράφουν μια συγκεκριμένη δραστηριότητα. Βασικές μέθοδοι κατηγοριοποίησης αποτελούν οι μέθοδοι Bayes, τα Δέντρα Απόφασης, τα Νευρωνικά Δίκτυα και άλλα. 20

1. Naive Bayesian Για καλύτερη υπολογιστική απόδοση και χαμηλό ποσοστό σφάλματος σε πολλά σύνολα δεδομένων, η μέθοδος Naive Bayesian είναι από τις συνηθέστερα χρησιμοποιούμενες στην κατηγοριοποίηση. Οι κατηγοριοποιητές Naive Bayesian (Σχήμα 1Α) είναι ένα δίκτυο στο οποίο ο κόμβος τάξη είναι ο μητρικός κόμβος όλων των κόμβων με τα χαρακτηριστικά, και η κύρια υπόθεση του Naive Bayesian είναι ότι, δεδομένης μιας τάξης, όλα τα χαρακτηριστικά είναι ανεξάρτητες μεταβλητές. Έτσι, με βάση το υπάρχον σύνολο από δεδομένα ο κατηγοριοποιητής υπολογίζει την πιο πιθανή τάξη (κατηγορία) σύμφωνα με τον νόμο του Bayes. Στο Σχήμα 1Β παρουσιάζεται η δική μας περίπτωση, όπου η τάξη (κατηγορία) είναι το είδος της δραστηριότητας που έχουμε και τα χαρακτηριστικά αποτελούν το πλήθος των εμφανίσεων για κάθε αισθητήρα, στη συγκεκριμένη δραστηριότητα. Τάξη Δραστηριότητα Κ1 Κ2 Κ3 Α1 Α2 Α3 Α Β Σχήμα 1 Σε ορισμένες περιπτώσεις Naive Bayesian υπερτερεί έναντι πολλών άλλων συγκριτικά πολύπλοκων αλγορίθμων. Ο κατηγοριοποιητής αυτός κάνει χρήση των μεταβλητών στοιχείων που περιέχονται στο δείγμα, παρατηρώντας τα ξεχωριστά, ανεξάρτητα το ένα από το άλλο. Έτσι, ο κατηγοριοποιητής Naive Bayesian θα εξετάσει κάθε ένα από αυτά τα χαρακτηριστικά κάθε κατηγορίας χωριστά και όχι την ταυτόχρονη συνύπαρξη των χαρακτηριστικών. Για παράδειγμα, για να διαπιστωθεί αν ένα ζώο είναι ελέφαντας, ο Naive Bayesian δεν θα ελέγξει αν το ζώο είναι μεγαλόσωμο και έχει μεγάλα αυτιά και μεγάλη προβοσκίδα. Αντίθετα, θα ελέγξει κατά πόσο ξεχωριστά το νέο παράδειγμα, είναι μεγαλόσωμο, αν έχει μεγάλα αυτιά, αν έχει μεγάλη προβοσκίδα κλπ. Δηλαδή, λειτουργεί υπό την παραδοχή ότι ένα χαρακτηριστικό ενεργεί ανεξάρτητα από τα άλλα χαρακτηριστικά που περιέχονται στα δεδομένα. Τέλος, είναι ευρέως αποδεκτό ότι αν και απλός στη σύλληψη, ο Naive Bayesian δουλεύει καλά στα περισσότερα δεδομένα για προβλήματα κατηγοριοποίησης. 21

2. Δέντρο Απόφασης J48 Τα Δέντρα Απόφασης (Decision Trees) Μια προσέγγιση "διαίρει και βασίλευε" ("divide-and-conquer") στο πρόβλημα της μάθησης από ανεξάρτητα στιγμιότυπα οδηγεί σε ένα είδος αναπαράστασης που καλείται δέντρο απόφασης (decision tree). Οι κόμβοι σε ένα δέντρο απόφασης περιπλέκουν τον έλεγχο ενός συγκεκριμένου χαρακτηριστικού. Συνήθως, ο έλεγχος σε έναν κόμβο συγκρίνει μια τιμή χαρακτηριστικού με μια σταθερά. Όμως, μερικά δέντρα συγκρίνουν δύο χαρακτηριστικά μεταξύ τους, ή χρησιμοποιούν κάποια συνάρτηση ενός ή περισσότερων χαρακτηριστικών. Οι κόμβοι φύλλα δίνουν μια ταξινόμηση που εφαρμόζεται σε όλα τα στιγμιότυπα που φτάνουν στο αντίστοιχο φύλλο, ή ένα σύνολο ταξινομήσεων, ή μια πιθανοτική κατανομή ως προς τις δυνατές ταξινομήσεις. Για την ταξινόμηση ενός αγνώστου στιγμιοτύπου, το δρομολογούμε κάτω στο δέντρο σύμφωνα με τις τιμές των χαρακτηριστικών του, οι οποίες ελέγχονται κατά μήκος της διαδρομής σε διαδοχικούς κόμβους, μέχρις ότου φτάσουμε σε ένα φύλλο, οπότε και ταξινομούμε το αντίστοιχο στιγμιότυπο σύμφωνα με την κλάση του φύλλου. Αν το χαρακτηριστικό είναι αριθμητικό, ο έλεγχος σε έναν κόμβο συνήθως καθορίζει αν η τιμή είναι μεγαλύτερη ή μικρότερη μιας προκαθορισμένης σταθεράς, δίνοντας έναν διαχωρισμό δύο κατευθύνσεων. Επιλογή Χαρακτηριστικών (Attribute Selection) Οι περισσότεροι αλγόριθμοι μάθησης μηχανής έχουν σχεδιαστεί έτσι ώστε να μαθαίνουν ποια είναι τα περισσότερο κατάλληλα χαρακτηριστικά (attributes, features) για την πραγματοποίηση των αποφάσεών τους. Για παράδειγμα, οι αλγόριθμοι δέντρου αποφάσεων (decision tree) επιλέγουν το καταλληλότερο χαρακτηριστικό για την διάσπαση (splitting) σε κάθε σημείο, και (στην θεωρία τουλάχιστον) ποτέ δεν επιλέγουν άσχετα ή αναποτελεσματικά χαρακτηριστικά. Η χρησιμοποίηση περισσότερων χαρακτηριστικών δίνει θεωρητικά μεγαλύτερες δυνατότητες σε ένα σύστημα data mining. Στην πράξη όμως, ο μεγάλος αριθμός χαρακτηριστικών πολύ εύκολα οδηγεί πολλούς αλγορίθμους μάθησης σε πολύ χαμηλές αποδόσεις. Αλγόριθμος ID3 Ο ID3 υπήρξε ο κυριότερος εκπρόσωπος των δέντρων απόφασης μέχρι την έλευση του C4.5 (ή αλλιώς J48, για το Weka). Ήταν ο πρώτος αλγόριθμος που χρησιμοποίησε για κριτήριο καταλληλότητας τεμαχισμού το κέρδος Gain από τη θεωρία πληροφορίας. Αν Y={y1,,yn} το σύνολο των κλάσεων της ποιοτικής εξαρτημένης μεταβλητής Y, p(yi) η 22

πιθανότητα εμφάνισης της yi κλάσης, τότε η εντροπία του συνόλου υπολογίζεται από τον τύπο: E( Y) n i 1 p( y )logp( i y i Η ελάχιστη τιμή εντροπίας Εmin(Y)=0 φανερώνει τη μέγιστη βεβαιότητα (σιγουριά) σχετικά με την πιθανότητα εμφάνισης μίας συγκεκριμένης τιμής yi από το σύνολο Υ. Η μέγιστη τιμή εντροπίας από την άλλη πλευρά επιτυγχάνεται όταν όλες οι πιθανότητες p(yi) είναι ίσες με 1/n, οπότε και η εντροπία διαμορφώνεται σε Emax(Y) = logn, γεγονός που αυξάνει στο μέγιστο την αβεβαιότητα σχετικά με ποιο μέλος του συνόλου Υ θα προκύψει. Πρακτικά για την εφαρμογή ενός τέτοιου κριτηρίου, μικρή τιμή εντροπίας αυξάνουν τις πιθανότητες η τρέχουσα θέση του δέντρου απόφασης δηλαδή ο υπό εξέταση κόμβος t να είναι φύλλο του δέντρου, ενώ αντίθετα μεγάλες τιμές δείχνουν ότι απαιτείται κατασκευή υποδέντρου κάτω από τον t κόμβο. Στην περίπτωση που n=2, δηλαδή στην περίπτωση των δύο μόνο κλάσεων, έστω οι κλάσεις P και Ν, και p ο αριθμός των παραδειγμάτων από το σύνολο εκπαίδευσης που ανήκει στην P κλάση, n ο αντίστοιχος αριθμός παραδειγμάτων που ανήκει στην N κλάση, p/(p+n) η πιθανότητα ένα παράδειγμα να ανήκει στην P κλάση, n/(p+n) η πιθανότητα να ανήκει στην N κλάση. Η αναμενόμενη πληροφορία για τον καθορισμό της κλάσης είναι: I ( p, n) p p n log 2 log p n p n p n 2 ) n p n Η τιμή του I για τον κόμβο t είναι μία σταθερή τιμή που υπολογίζεται από τον αριθμό θετικών και αρνητικών παραδειγμάτων σύμφωνα με τον προηγούμενο τύπο. Αν ο αλγόριθμος τεμάχιζε το δέντρο κάτω από τον κόμβο t σε m τεμάχια-κλαδιά με βάση την ιδιότητα Α, τότε η αναμενόμενη πληροφορία για τον καθορισμό της κλάσης από τον κόμβο t και κάτω με δεδομένο τον τεμαχισμό που αναφέρθηκε θα ήταν: m pi n E(Y A) = p n i 1 i I( p, n ) Το κέρδος πληροφορίας πριν και μετά τον τεμαχισμό υπολογίζεται σαν η διαφορά μεταξύ της αναμενόμενης πληροφορίας στον κόμβο t πριν τον τεμαχισμό I(p,n), και μετά τον τεμαχισμό E(Y A): Gain(A) = I(p,n) E(Y A) Από όλους τους δυνατούς τεμαχισμούς με όλες τις δυνατές ιδιότητες, θα επιλεχθεί αυτός που δίνει το μεγαλύτερο κέρδος, δηλαδή τη μικρότερη εντροπία λόγω τεμαχισμού E(Y A). i i 23

Αλγόριθμος C4.5 (ή J48) Είναι ένας αλγόριθμος που χρησιμοποιείται για να παραγάγει ένα δέντρο απόφασης και αποτελεί μια επέκταση του προηγούμενου αλγορίθμου ID3. Ο C4.5 δημιουργεί δέντρα απόφασης από ένα σύνολο δεδομένων εκπαίδευσης, όμοια με τον αλγόριθμο ID3, χρησιμοποιώντας την έννοια της εντροπίας πληροφοριών. Τα δεδομένα εκπαίδευσης είναι ένα σύνολο S = s1, s2, από ήδη ταξινομημένα δείγματα. Κάθε δείγμα Si = x1, x2, είναι ένα διάνυσμα όπου x1, x2, αντιπροσωπεύει τις ιδιότητες ή τα χαρακτηριστικά γνωρίσματα του δείγματος. Επίσης, στα δεδομένα εκπαίδευσης αντιστοιχεί ένα διάνυσμα C = c1, c2, όπου c1, c2, αντιπροσωπεύει την κατηγορία στην οποία ανήκει κάθε δείγμα. Ο C4.5 χρησιμοποιεί το γεγονός ότι κάθε χαρακτηριστικό των δεδομένων μπορεί να χρησιμοποιηθεί για να λάβει μια απόφαση, η οποία χωρίζει τα δεδομένα σε μικρότερα υποσύνολα. Ο C4.5 εξετάζει το ομαλοποιημένο κέρδος πληροφοριών (information gain - διαφορά στην εντροπία) που προκύπτει από την επιλογή ενός χαρακτηριστικού για το διαχωρισμό των δεδομένων. Το χαρακτηριστικό με το υψηλότερο ομαλοποιημένο κέρδος πληροφοριών είναι αυτό που χρησιμοποιείται για να ληφθεί μια απόφαση. Ο αλγόριθμος επαναλαμβάνεται για μικρότερες υπολίστες δεδομένων. Πιο κάτω παρουσιάζεται ο ψευδοκώδικας του αλγόριθμου C4.5 (δηλ. του J48). Αλγόριθμος C4.5 (Weka J48) Για κάθε χαρακτηριστικό Α Βρίσκουμε το ομαλοποιημένο κέρδος πληροφοριών από το διαχωρισμό στο Α Έστω ότι Α_best είναι το χαρακτηριστικό με το υψηλότερο ομαλοποιημένο κέρδος πληροφοριών Δημιούργησε έναν κόμβων απόφασης Νode που χωρίζεται στο Α_best Επανερχόμαστε στις υπολίστες που λαμβάνονται με το διαχωρισμό στο Α_best και προσθέτουμε αυτούς τους κόμβους ως παιδιά του Νode Προσομοίωση Κατηγοριοποίησης Στο σημείο αυτό χρησιμοποιήσαμε το Weka, ένα εργαλείο που παρέχει πολλές τεχνικές και αλγόριθμους εξόρυξης δεδομένων, ώστε να εφαρμόσουμε στα δεδομένα μας την τεχνική της κατηγοριοποίησης. Για τον λόγο αυτό, δημιουργήσαμε ένα αρχείο σε κατάλληλη μορφοποίηση για το Weka (.arff), όπου σε κάθε γραμμή του αρχείου υπάρχουν εγγραφές που προσδιορίζουν για κάθε δραστηριότητα το πλήθος των φορών που συμμετέχει ένας 24

αισθητήρας (από το διαθέσιμο σύνολο των αισθητήρων). Ένα παράδειγμα απεικόνισης μιας δραστηριότητας παρουσιάζεται στον Πίνακα 3. Αισθητήρας 51... 75... 98... 115... 137... 141 Δραστηριότητα #Εμφανίσεων 2,..., 1,..., 1,..., 2,..., 3,..., 5 Watching_TV Πίνακας 3. Στην πρώτη γραμμή του Πίνακα 3, εμφανίζονται οι αριθμοί που αντιστοιχούν στους αισθητήρες και λαμβάνουν μέρος στην δραστηριότητα, ενώ στη δεύτερη γραμμή παρουσιάζεται το πλήθος εμφανίσεων για κάθε αισθητήρα αντίστοιχα και το όνομα της δραστηριότητας. Πρέπει να σημειώσουμε εδώ ότι, στο αρχείο (.arff) του Weka κάθε γραμμή δεδομένων έχει πληροφορίες μόνο από τη δεύτερη γραμμή του Πίνακα 3, δηλαδή περιέχει μια ακολουθία από αριθμούς που καθορίζουν το πλήθος των φορών εμφάνισης κάθε αισθητήρα αντίστοιχα. Δεδομένου βέβαια ότι ο αριθμός των πληροφοριών που για μια δραστηριότητα είναι πολύ μεγάλος, παραλείπουμε (στον Πίνακα 3) ένα μέρος των δεδομένων με την εμφάνιση της συμβολοσειράς «...». Αφού οργανώσουμε τα δεδομένα για όλες τις δραστηριότητες, με τον τρόπο που περιγράψαμε πιο πάνω, εφαρμόζουμε «Κατηγοριοποίηση» με βάση τις μεθόδους Naive Bayesian και J48. Αποτελέσματα Κατηγοριοποίησης (αναγνώριση δραστηριοτήτων) 1. Μέθοδος Naive Bayesian Για συνολικά 158 δραστηριότητες που σημειώνονται μέσα σε δύο εβδομάδες παρακολούθησης της ζωής ενός ατόμου στο δεύτερο διαμέρισμα (δεύτερο σετ δεδομένων), η μέθοδος Naive Bayesian κατηγοριοποιεί σωστά τις 105 δραστηριότητες (ποσοστό 66.4557 %), ενώ κατηγοριοποιεί λανθασμένα τις 53 δραστηριότητες (ποσοστό 33.5443 %). Η πειραματική αξιολόγηση της μεθόδου έγινε με την εκπαίδευση του συστήματος για όλα τα διαθέσιμα δεδομένα (δραστηριοτήτων) του δευτέρου σετ και κατόπιν την προσπάθεια αναγνώρισης όλων των δραστηριοτήτων από την αρχή (πάλι για το δεύτερο σετ). Τα αποτελέσματα της μεθόδου, για κάθε κατηγορία δραστηριότητας, παρουσιάζονται στον Πίνακα 4. 25

Naive Bayesian Όλα τα δεδομένα (2 ο Σπίτι) TP Rate FP Rate Class 0.667 0.094 Toileting 0.429 0.007 Watching_TV 0.722 0.064 Preparing_breakfast 0.706 0.135 Washing_dishes 0.75 0.021 Listening_music 0.5 0.014 Preparing_snack 0.5 0.014 Preparing_lunch 0.769 0 Preparing_dinner 1 0.035 Taking_medication Πίνακας 4. Στις μεθόδους κατηγοριοποίησης χρησιμοποιούνται κάποια είδη μετρικών, τα οποία προσδιορίζουν από διαφορετική σκοπιά την απόδοση κάθε μεθόδου. Στα πειράματά μας χρησιμοποιήσαμε τις μετρικές True Positive (TP) rate και False Positive (FP) rate, που προσδιορίζουν τα εξής ποσοστά : o True Positive (TP) rate: είναι το ποσοστό των δειγμάτων τα οποία ταξινομήθηκαν σωστά (στην τάξη την οποία ανήκουν πραγματικά). o False Positive (FP) rate: είναι το ποσοστό των δειγμάτων τα οποία ταξινομήθηκαν κάποια τάξη Χ, αλλά ανήκουν σε διαφορετική κατηγορία, ανάμεσα σε όλα τα δείγματα που δεν είναι της κλάσης Χ. Από τις δύο μετρικές, αυτή που θα μας απασχολήσει περισσότερο είναι η True Positive (TP) που ουσιαστικά δίνει το ποσοστό επιτυχίας της κάθε μεθόδου κατηγοριοποίησης. 2. Μέθοδος J48 Για συνολικά 158 δραστηριότητες που σημειώνονται μέσα σε δύο εβδομάδες παρακολούθησης της ζωής του ατόμου στο δεύτερο διαμέρισμα, η μέθοδος Naive Bayesian κατηγοριοποιεί σωστά τις 119 δραστηριότητες (ποσοστό 75.3165 %) ενώ κατηγοριοποιεί λανθασμένα τις 39 δραστηριότητες (ποσοστό 24.6835 %). Όμοια με πριν, η πειραματική αξιολόγηση της μεθόδου έγινε με την εκπαίδευση του συστήματος για όλα τα διαθέσιμα δεδομένα (δραστηριοτήτων) του δευτέρου σετ και κατόπιν την προσπάθεια αναγνώρισης όλων των δραστηριοτήτων από την αρχή. Τα αποτελέσματα της μεθόδου, για κάθε κατηγορία 26

δραστηριότητας, παρουσιάζονται στον Πίνακα 5. J48 Όλα τα δεδομένα (2 ο Σπίτι) TP Rate FP Rate Class 0.867 0.055 Toileting 0.857 0.021 Watching_TV 0.833 0.043 Preparing_breakfast 0.529 0.043 Washing_dishes 0.875 0.014 Listening_music 0.188 0.035 Preparing_snack 0.8 0.022 Preparing_lunch 0.769 0.021 Preparing_dinner 1 0.028 Taking_medication Πίνακας 5. Σύμφωνα με τα αποτελέσματα των δύο μεθόδων, το δέντρο απόφασης J48 δίνει πολύ καλύτερα αποτελέσματα από τη μέθοδο Naive Bayesian. Το γεγονός αυτό ήταν αναμενόμενο αφού η μέθοδος Naive Bayesian θεωρεί στατιστικώς ανεξάρτητα τα χαρακτηριστικά κάθε δραστηριότητας, ενώ κάτι τέτοιο δεν ισχύει απόλυτα για τα δεδομένα μας. Έτσι, με αποδεδειγμένα καλύτερη μέθοδο κατηγοριοποίησης την J48, εκπαιδεύουμε το μοντέλο μας και τρέχουμε τον κατηγοριοποιητή, πάνω στα διαθέσιμα δεδομένα μας [2]. Όπως έχουμε αναφέρει, τα δεδομένα αυτά βασίζονται σε μετρήσεις που έγιναν σε δύο διαφορετικά σπίτια. Το κάθε σπίτι, κατοικείται από ένα άτομο και έτσι δεν υπάρχουν παράλληλες δραστηριότητες. 1 ο Σύνολο Δεδομένων (Σπίτι Ν ο 1) Αρχικά, για το συγκεκριμένο σύνολο δεδομένων, εκπαιδεύσαμε το μοντέλου του κατηγοριοποιητή (που στηρίζεται στον αλγόριθμο J48) με βάση το 40% των δεδομένων και τρέξαμε τον κατηγοριοποιητή για το υπόλοιπο 60% των δεδομένων. Αξίζει να σημειώσουμε ότι, το συγκεκριμένο ποσοστό για τα δεδομένα εκπαίδευσης αντιστοιχεί σε ημέρες λιγότερες από μια εβδομάδα, ενώ σκοπός της μεθόδου είναι η αναγνώριση των δραστηριοτήτων εντός του σπιτιού. Τα αποτελέσματα για το πείραμα αυτό, παρουσιάζονται στον Πίνακα 6. Επίσης, ως σημαντικότερες δραστηριότητες θεωρούμε τις δραστηριότητες που ουσιαστικά έχουν το μεγαλύτερο πλήθος δειγμάτων στο σύνολο και για τις οποίες μπορούμε να βγάλουμε πιο ασφαλή συμπεράσματα. Οι δραστηριότητες αυτές, σημειώνονται με κόκκινη παχιά γραφή στο πεδίο TP rate, των αποτελεσμάτων. 27

J48 - Percentage Split Εκπαίδευση για το 40% δεδομένων TP Rate FP Rate Class 0.745 0.203 Toileting 0.286 0.057 Preparing_breakfast 0.636 0.026 Bathing 0.389 0.02 Dressing 0.444 0.029 Grooming 1 0.051 Going_out_to_work 0.1 0 Preparing_lunch 1 0.031 Preparing_a_beverage 0.5 0.025 Washing_dishes 0.25 0.012 Preparing_dinner 0 0.031 Cleaning 0.5 0.032 Preparing_snack 0.545 0.006 Doing_laundry Πίνακας 6. Κατόπιν, εκπαιδεύουμε το μοντέλο μας με το 50% των δεδομένων και τρέχουμε τον κατηγοριοποιητή για το υπόλοιπο ποσοστό (50%) των δεδομένων μας. Το 50% των δεδομένων αντιστοιχεί σε λίγο παραπάνω από μια εβδομάδα και τα αποτελέσματα του πειράματος παρουσιάζονται στον Πίνακα 7. J48 - Percentage Split Εκπαίδευση για το 50% δεδομένων TP Rate FP Rate Class 0.805 0.227 Toileting 0.286 0.069 Preparing_breakfast 0.625 0.031 Bathing 0.333 0.024 Dressing 0.409 0.043 Grooming 1 0.015 Going_out_to_work 0.5 0.015 Preparing_lunch 0.6 0.03 Preparing_a_beverage 0.333 0.022 Washing_dishes 0.333 0.015 Preparing_dinner 0 0.015 Cleaning 0.429 0.008 Preparing_snack 0.6 0.008 Doing_laundry Πίνακας 7. 28

Τέλος, εκπαιδεύουμε το μοντέλο μας με το 60% των δεδομένων και τρέχουμε τον κατηγοριοποιητή για το υπόλοιπο ποσοστό (40%) των δεδομένων μας. Τα αποτελέσματα παρουσιάζονται στον Πίνακα 8. J48 - Percentage Split Εκπαίδευση για το 60% δεδομένων TP Rate FP Rate Class 0.824 0.224 Toileting 0 0.075 Preparing_breakfast 1 0.038 Bathing 0.833 0.01 Dressing 0.158 0.022 Grooming 1 0.019 Going_out_to_work 0 0.019 Preparing_lunch 0.75 0.038 Preparing_a_beverage 0 0 Washing_dishes 0 0.028 Preparing_dinner 0 0 Cleaning 0.333 0.029 Preparing_snack 0.8 0.001 Doing_laundry Πίνακας 8. Συγκρίνοντας τα αποτελέσματα που λάβαμε για τα τρία πειράματα, παρατηρούμε τα εξής: Τα αποτελέσματα που λάβαμε στο δεύτερο πείραμα (εκπαίδευση με το 50% των δεδομένων) σε σχέση με το πρώτο πείραμα (εκπαίδευση στο 40% των δεδομένων) είναι λίγο καλύτερα σε ορισμένες από τις πιο σημαντικές δραστηριότητες (π.χ.toileting, Doing Laundry), ενώ σε άλλες δραστηριότητες παρατηρείται μείωση της απόδοσης ορθής αναγνώρισης των δραστηριοτήτων (π.χ.bathing, Grooming). Αντίθετα τώρα, στο τρίτο και τελευταίο πείραμα (εκπαίδευση με το 60% των δεδομένων) σχεδόν όλες οι σημαντικές δραστηριότητες σημείωσαν καλύτερες επιδόσεις από τα προηγούμενα πείραμα, ενώ οι δραστηριότητες που παρουσιάζουν μηδενικό ποσοστό ορθής ταξινόμησης (TP rate) ουσιαστικά δεν είχαν δείγματα δραστηριοτήτων στο 40% των δεδομένων, ώστε να αξιολογηθούν. 2 ο Σύνολο Δεδομένων (Σπίτι Ν ο 2) Αρχικά, για το συγκεκριμένο σύνολο δεδομένων, εκπαιδεύσαμε το μοντέλου του κατηγοριοποιητή (που στηρίζεται στον αλγόριθμο J48) με βάση το 50% των δεδομένων και τρέξαμε τον κατηγοριοποιητή για το υπόλοιπο 50% των δεδομένων. Αξίζει να σημειώσουμε ότι, το συγκεκριμένο ποσοστό για τα δεδομένα εκπαίδευσης αντιστοιχεί σε ημέρες λιγότερες 29

από μια εβδομάδα, ενώ σκοπός της μεθόδου είναι η αναγνώριση των δραστηριοτήτων εντός του σπιτιού. Τα αποτελέσματα για το πείραμα αυτό, παρουσιάζονται στον Πίνακα 9. Επίσης, ως σημαντικότερες δραστηριότητες, θεωρούμε τις δραστηριότητες που ουσιαστικά έχουν το μεγαλύτερο ποσοστό δειγμάτων στο σύνολο και για τις οποίες μπορούμε να βγάλουμε πιο ασφαλή συμπεράσματα. Οι δραστηριότητες αυτές, σημειώνονται με κόκκινη παχιά γραφή στο πεδίο TP rate, των αποτελεσμάτων. J48 - Percentage Split Εκπαίδευση για το 50% δεδομένων TP Rate FP Rate Class 0.765 0.258 Toileting 0.375 0 Watching_TV 0.714 0.125 Preparing_breakfast 0.167 0 Washing_dishes 0.778 0.029 Listening_music 0 0 Preparing_snack 0.6 0.058 Preparing_lunch 0 0.026 Preparing_dinner 0.8 0.043 Taking_medication Πίνακας 9. Επίσης, εκπαιδεύουμε το μοντέλο μας με το 60% των δεδομένων και τρέχουμε τον κατηγοριοποιητή για το υπόλοιπο ποσοστό (40%) των δεδομένων μας. Το ποσοστό 60% των δειγμάτων, αντιστοιχεί σε δεδομένα λίγο παραπάνω από μιας εβδομάδας και τα αποτελέσματα του πειράματος παρουσιάζονται στον Πίνακα 10. J48 Percentage Split Εκπαίδευση για το 60% δεδομένων TP Rate FP Rate Class 0.714 0.26 Toileting 0.375 0 Watching_TV 0.667 0.069 Preparing_breakfast 0.333 0.049 Washing_dishes 0.778 0.036 Listening_music 0 0 Preparing_snack 0.571 0 Preparing_lunch 0 0.048 Preparing_dinner 0.778 0.055 Taking_medication Πίνακας 10. 30

Τέλος, εκπαιδεύουμε το μοντέλο μας με το 70% των δεδομένων και τρέχουμε τον κατηγοριοποιητή για το υπόλοιπο ποσοστό (30%) των δεδομένων μας. Τα αποτελέσματα κατηγοριοποίησης παρουσιάζονται στον Πίνακα 11. J48 Percentage Split Εκπαίδευση για το 70% δεδομένων TP Rate FP Rate Class 0.909 0.135 Toileting 0.6 0 Watching_TV 0.667 0.089 Preparing_breakfast 1 0.043 Washing_dishes 0.667 0.024 Listening_music 0.4 0.023 Preparing_snack 0.571 0 Preparing_lunch 0 0.043 Preparing_dinner 0.778 0 Taking_medication Πίνακας 11. Συγκρίνοντας τα αποτελέσματα που λάβαμε παρατηρούμε τα εξής: Τα δεδομένα που λάβαμε στο δεύτερο πείραμα (εκπαίδευση με το 60% των δεδομένων) είναι χειρότερα στις πιο σημαντικές δραστηριότητες, από ότι στο πείραμα με το 50% των δεδομένων. Αντίθετα, στο τρίτο και τελευταίο πείραμα (εκπαίδευση με το 70% των δεδομένων) ορισμένες δραστηριότητες σημείωσαν πολύ καλύτερες επιδόσεις από το πρώτο πείραμα (π.χ.toileting, Watching TV) και κάποιες άλλες χειρότερες (π.χ.taking Medication, Preparing Lunch). Παρατηρώντας τα αποτελέσματα που λάβαμε από τα πειράματα και στα δύο σπίτια, συμπεραίνουμε ότι για την τεχνική αυτή σαφώς το καλύτερο αποτέλεσμα δίνεται από το σύστημα που εκπαιδεύτηκε με βάση τα περισσότερα δεδομένα. Το γεγονός αυτό ήταν φυσικά αναμενόμενο, όμως μια σημαντική παρατήρηση αφορά το κομβικό χρονικό σημείο της εκπαίδευσης, όπου ένα τέτοιο σύστημα θα δίνει αποδεκτά καλά αποτελέσματα. Έτσι, το χρονικό σημείο που θεωρούμε ως αρκετά καλό για την εκπαίδευση του συστήματος, είναι η μια εβδομάδα. Μάλιστα, την άποψη αυτή υποστηρίζουν αρκετοί ερευνητές τέτοιων συστημάτων, όπως ο Sajal K. Das. 31

2.4.2.2 Χρήση Κανόνων Συσχέτισης Στο μέρος αυτό, με τη χρήση της τεχνικής των κανόνων συσχέτισης και των χρονικών σχέσεων των γεγονότων, θα προσπαθήσουμε πάλι να ανακαλύψουμε τις δραστηριότητες εντός των δύο σπιτιών. Αρχικά λοιπόν, χρησιμοποιούμε έναν πολύ απλό αλγόριθμο σε Matlab, ώστε να επεξεργαστούμε το διαθέσιμο σύνολο δεδομένων [2] και να δημιουργήσουμε τους χρονικούς κανόνες μεταξύ δύο διαδοχικών γεγονότων (δύο ενεργειών από αισθητήρες). Ο αλγόριθμος αυτός, συγκρίνει χρονικά δύο διαδοχικές ενέργειες και με βάση την ώρα έναρξης και λήξης τους, δίνει τη χρονική τους σχέση, με βάση τις σχέσεις του Πίνακα 1. Πιο κάτω παρουσιάζουμε με ψευδοκώδικα τον αλγόριθμο εύρεσης της χρονικής σχέσης των ενεργειών : Είσοδος: γεγονός (αισθητήρας), ώρα έναρξης και ώρα λήξης γεγονότος Repeat While [ (Γεγονός && Γεγονός + 1)] Βρες την ώρα «Έναρξης» και «Λήξης» των δύο διαδοχικών γεγονότων. Σύγκρινε τις ώρες «Έναρξης» και «Λήξης». Αναγνώρισε τη χρονική σχέση μεταξύ των γεγονότων, με βάση τις σχέσεις του Πίνακα 1 (τις 9 σχέσεις με κόκκινο χρώμα). Κατέγραψε τους αισθητήρες των γεγονότων και δημιούργησε τον χρονικό κανόνα. Αύξησε τον δείκτη των γεγονότων (πήγαινε στο επόμενο γεγονός). Loop Until τέλος εισόδου. Παράδειγμα Με βάση τον πιο πάνω αλγόριθμο, για μια είσοδο δύο διαδοχικών γεγονότων: Ημερομηνία Έναρξη Λήξη Αισθητήρας Σημείο Δωμάτιο 109 13624 19148 137 5 2 109 15939 18176 109 5 9 (δηλαδή) 19/4/2003 3:47:04 1:32:04 137 'Door' 'Bathroom' 19/4/2003 4:25:39 0:37:17 109 'Light switch' 'Bathroom' Θα λάβουμε σαν έξοδο από τον αλγόριθμο, την εξής χρονική σχέση μεταξύ των αισθητήρων 137 και 109: 109 DURING 137 32

Κάθε δραστηριότητα πλέον, μπορεί να περιγραφεί με ένα σύνολο από χρονικές σχέσεις που αποτελούν το κλειδί στην έρευνά μας. Συγκεκριμένα, παρατηρήσαμε ότι, όμοιες δραστηριότητες έχουν ένα σύνολο από κοινές χρονικές σχέσεις μεταξύ συγκεκριμένων αισθητήρων. Με άλλα λόγια, αν καταφέρουμε να απομονώσουμε τις σημαντικότερες χρονικές σχέσεις μπορούμε να περιγράψουμε κάθε δραστηριότητα με αρκετά μεγάλο ποσοστό ακρίβειας. Η λύση στο πρόβλημα αυτό, βρίσκεται στην εξόρυξη δεδομένων (Data Mining) και συγκεκριμένα στους κανόνες συσχέτισης (association rules). Κανόνες συσχέτισης Η εξαγωγή κανόνων συσχέτισης (Mining Association Rules) θεωρείται μια από τις σημαντικότερες διεργασίες εξόρυξης δεδομένων. Έχει προσελκύσει ιδιαίτερο ενδιαφέρον καθώς οι κανόνες συσχέτισης παρέχουν έναν συνοπτικό τρόπο για να εκφραστούν οι ενδεχομένως χρήσιμες πληροφορίες, που γίνονται εύκολα κατανοητές από τους χρήστες. Συγκεκριμένα, οι κανόνες συσχέτισης ανακαλύπτουν κρυμμένες «συσχετίσεις» μεταξύ των γνωρισμάτων ενός συνόλου των δεδομένων. Αυτοί οι συσχετισμοί παρουσιάζονται στην ακόλουθη μορφή: Α Β, όπου το Α και το Β αναφέρονται στα σύνολα γνωρισμάτων που υπάρχουν στα υπό ανάλυση δεδομένα Τέλος, βασικοί αλγόριθμοι κανόνων συσχέτισης αποτελούν ο αλγόριθμος Apriori και οι παραλλαγές του. Ορισμοί Οι κανόνες συσχέτισης έχουν τη μορφή {x1, x2,...,xn}=>y. Αυτό σημαίνει ότι αν στο ίδιο σύνολο έχουμε τα x1, x2,...,xn, τότε υπάρχει μεγάλη πιθανότητα να βρούμε το y. Η πιθανότητα εύρεσης του y καλείται «εμπιστοσύνη» (confidence) του κανόνα, δηλαδή η «Εμπιστοσύνη» μετρά την αξιοπιστία του κανόνα. Έτσι, όσο μεγαλύτερη εμπιστοσύνη έχουμε, τόσο μεγαλύτερη η πιθανότητα εμφάνισης του y σε κανόνες που περιέχουν τα στοιχεία x1, x2,...,xn. Για το λόγο αυτό, στις τεχνικές εύρεσης κανόνων συσχέτισης ψάχνουμε, κυρίως, κανόνες που η πιθανότητά τους είναι πάνω από κάποιο κατώφλι, δηλαδή κανόνες με σημαντικά υψηλότερη «εμπιστοσύνη» (πιθανότητα), από ότι θα είχαμε αν τα στοιχεία τοποθετούνταν τυχαία μέσα στο σύνολο. Έστω ότι έχουμε τα αριθμημένα σύνολα από πιθανούς συνδυασμούς τροφίμων, όπως φαίνονται στον Πίνακα 12 33

Αρ. Συνόλου Σύνολο Στοιχείων 1 Bread, Milk 2 Bread, Butter, Beer, Eggs 3 Milk, Butter, Beer, Coke 4 Bread, Milk, Butter, Beer 5 Bread, Milk, Butter, Coke Πίνακας 12. Έστω, Ι = {i 1, i 2,.., i k } ένα σύνολο από διακριτά στοιχεία (items) Παράδειγμα: Ι ={Bread, Milk, Butter, Beer, Eggs, Coke} Στοιχειοσύνολο (Itemset): Είναι ένα υποσύνολο I m του συνόλου Ι Παράδειγμα: I m = {Milk, Bread, Butter} k-στοιχειοσύνολο (k-itemset): Είναι ένα στοιχειοσύνολο με k στοιχεία Υποστήριξη (Support (s)) ενός στοιχειοσυνόλου: Είναι το ποσοστό των δοσοληψιών που περιέχουν ένα στοιχειοσύνολο. Παράδειγμα: s({milk, Bread, Butter}) = 2/5, λόγω των συνόλων 4 και 5 του Πίνακα 9 Δηλαδή, οι δοσοληψίες συνολικά στον Πίνακα 12 είναι πέντε (5) και από αυτές το ζητούμενο στοιχειοσύνολο βρίσκεται στην 4η και στην 5η. Frequent Itemset Συχνό Στοιχειοσύνολο: Είναι ένα στοιχειοσύνολο του οποίου η υποστήριξη είναι μεγαλύτερη ή ίση από κάποια τιμή κατωφλίου (minimum support) Κανόνας Συσχέτισης (Association Rule) Είναι μια έκφραση της μορφής X Y, όπου X και Y είναι στοιχειοσύνολα Χ Ι, Υ Ι, Χ Υ = Υποστήριξη Κανόνα (Support (s)) Το ποσοστό των δοσοληψιών που περιέχουν και το X και το Y (Χ Υ) ( X Y ), όπου Τ είναι ο αριθμός των δοσοληψιών T 34

Εμπιστοσύνη (Confidence (c)) Πόσες από τις δοσοληψίες (ποσοστό) που περιέχουν το Χ περιέχουν και το Υ ( X Y ) ( X ) Εξόρυξη Κανόνων Συσχέτισης Όπως έχουμε αναφέρει, βασικός αλγόριθμος για την εξόρυξη κανόνων συσχέτισης αποτελεί ο αλγόριθμος Apriori. Παρόλα αυτά, δεν αποτελεί τον ευκολότερο τρόπο για την εύρεση των κανόνων συσχέτισης. Η ευκολότερη ιδέα βρίσκεται στην Brute-force προσέγγιση της διαδικασίας που περιγράφεται πιο κάτω: Brute-force προσέγγιση: Παρήγαγε όλους τους πιθανούς κανόνες συσχέτισης Υπολόγισε την υποστήριξη και την εμπιστοσύνη για τον κάθε κανόνα Prune τους κανόνες που δεν ικανοποιούν το κατώφλι εμπιστοσύνης και υποστήριξης (θέλουμε support minsup και confidence minconf) Παρόλα αυτά, η προσέγγιση Brute-force είναι υπολογιστικά ακριβή διαδικασία και έχει πολύ μεγάλη πολυπλοκότητα. Την ασφάλεια της απλότητας και της μειωμένης πολυπλοκότητας προσφέρει ο αλγόριθμος Apriori, που έχει ως σκοπό την εύρεση συχνών στοιχειοσυνόλων και παρουσιάζεται πιο κάτω: Apriori k := 1 Δημιούργησε όλα τα συχνά στοιχειοσύνολα μήκους 1 Repeat until δεν δημιουργούνται νέα στοιχειοσύνολα Δημιούργησε υποψήφια στοιχειοσύνολα μήκους (k+1) από τα συχνά στοιχειοσύνολα μήκους k Prune τα υποψήφια στοιχειοσύνολα που περιέχουν υποσύνολα μήκους k που δεν είναι συχνά Υπολόγισε την υποστήριξη (support) κάθε υποψηφίου στοιχειοσυνόλου Σβήσε τα υποψήφια στοιχειοσύνολα που δεν είναι συχνά, αφήνοντας μόνο τα συχνά (support minsup). Για τη δημιουργία των κανόνων συσχέτισης χρησιμοποιήσαμε το εργαλείο Weka, ώστε να παράγουμε με τη βοήθεια του αλγόριθμου Apriori το επιθυμητό σύνολο σημαντικότερων χρονικών σχέσεων, οι οποίες περιγράφουν κάθε μια από τις δραστηριότητες. Για το λόγο αυτό, δημιουργήσαμε (μέσω κώδικα Matlab) αρχεία (.csv) με κατάλληλο μορφότυπο 35

δεδομένων, τα οποία δίνονται σαν είσοδος στο Weka. Τα αρχεία αυτά περιέχουν τις χρονικές σχέσεις μεταξύ γεγονότων (αισθητήρων) και περιγράφουν συνολικά ένα είδος δραστηριότητας με την εξής μορφή: SensorID_X - SensorID_Y, Relation S_141-S_98, DURING S_137-S_141, AFTER S_141-S_137, DURING S_110-S_141, AFTER S_137-S_110, DURING S_112-S_137, OVERLAPBY S_106-S_112, DURING Με βάση λοιπόν το σύνολο των χρονικών σχέσεων μιας δραστηριότητας και με χρήση του αλγόριθμου Apriori, το Weka δίνει τους σημαντικότερους κανόνες συσχέτισης που περιγράφουν τη δραστηριότητα. Έτσι, η έξοδος από το Weka έχει την εξής μορφή: 1. SensorID_X-SensorID_Y=S_141-S_141 29 ==> Relation=AFTER 29 conf:(1) 2. SensorID_X-SensorID_Y=S_101-S_101 15 ==> Relation=AFTER 15 conf:(1) 3. SensorID_X-SensorID_Y=S_115-S_115 4 ==> Relation=AFTER 4 conf:(1) 4. SensorID_X-SensorID_Y=S_100-S_141 3 ==> Relation=AFTER 3 conf:(1) 5. SensorID_X-SensorID_Y=S_100-S_100 3 ==> Relation=AFTER 3 conf:(1) 6. SensorID_X-SensorID_Y=S_137-S_137 5 ==> Relation=AFTER 4 conf:(0.8) Από το σύνολο των κανόνων συσχέτισης έχουν επιλεγεί οι κανόνες που παρέχουν την επιθυμητή υποστήριξη (support minsup) και εμπιστοσύνη (confidence minconf), ενώ δίπλα από κάθε κανόνα υπάρχει το ποσοστό εμπιστοσύνης του (conf). Το ποσοστό αυτό, υπολογίζεται από τον λόγο των φορών εμφάνισης κάθε σχέσης (relation) προς το πλήθος των εμφανίσεων του ζεύγους γεγονότων (αισθητήρων). Το πλήθος των εμφανίσεων για κάθε σχέση και για κάθε ζευγάρι αισθητήρων αναγράφεται στα αποτελέσματα δίπλα από τις αντίστοιχες εκφράσεις. Για παράδειγμα, ο κανόνας: SensorID_X-SensorID_Y=S_141-S_141 29 Relation=AFTER 29 έχει 29 εμφανίσεις του ζεύγους S_141-S_141 και το ζεύγος συνδέεται 29 φορές με τη χρονική σχέση AFTER. Άρα, το ποσοστό εμπιστοσύνης του θα είναι ίσο με ένα (1). 36