Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α"

Transcript

1 Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ Medical Data Analysis EΙΡΗΝΗ ΜΗΤΣΟΠΟΥΛΟΥ (Α.Ε.Μ: 2375) ΘΕΣΣΑΛΟΝΙΚΗ Iούνιος 2017

2 ΠΕΡΙΛΗΨΗ Ο ταχέως αυξανόµενος όγκος των ιατρικών δεδοµένων που συσσωρεύεται στα πληροφοριακά συστήµατα των νοσοκοµείων, σηµατοδοτεί την εποχή των Μεγάλων Δεδοµένων στον τοµέα της υγείας. Η ανάλυση των ιατρικών δεδοµένων είναι µια µοναδική ευκαιρία για τα εθνικά συστήµατα υγείας να µειώσουν το κόστος και να βελτιώσουν την υγειονοµική περίθαλψη. Η επεξεργασία υπέρογκου αριθµού ιατρικών δεδοµένων από ηλεκτρονικά αρχεία ασθενών µπορεί να παρέχει σε ερευνητές, κλινικούς ιατρούς και ιδιωτικές εταιρείες παροχής υγείας πολύτιµες γνώσεις για όλες τις πτυχές του τοµέα της υγείας. Η παρούσα πτυχιακή εργασία ασχολείται µε την πειραµατική εφαρµογή µεθόδων αναζήτησης γνώσης σε πραγµατικά (ανώνυµα) ιατρικά δεδοµένα, των οποίων τα αποτελέσµατα µπορούν να αξιολογηθούν από άτοµα ειδικευµένα στους τοµείς της Υγείας. Εφαρµόστηκαν λοιπόν τεχνικές αναζήτησης γνώσης για ανάκτηση χρήσιµης πληροφορίας σε ιατρικά δεδοµένα του Γενικού Νοσοκοµείου Παπαγεωργίου που αφορούν ασθενείς της µονάδας τεχνητού νεφρού. Χρησιµοποιήθηκε το περιβάλλον NetBeans 8.2 για τη δηµιουργία ενός συστήµατος γραµµένο σε Java, το οποίο στοχεύει στο: Να µπορούµε να βγάλουµε συµπεράσµατα για το ποιοι ασθενείς της βάσης είναι πιο όµοιοι µε κάποια συγκεκριµένη περίπτωση ασθενή. Δηλαδή σκοπός είναι η εύρεση των πλησιέστερων γειτόνων σε ένα σύνολο ασθενών, µε κριτήριο τις µετρήσεις των εργαστηριακών τους εξετάσεων. Να µπορούµε να ανακαλύψουµε συχνά ακολουθιακά πρότυπα, τα οποία παρέχουν κάποια χρήσιµη πληροφορία για τη συµπεριφορά των µετρήσεων - µεταβλητών σε µία συγκεκριµένη χρονική περίοδο, µέσω της εξόρυξης ακολουθιακών προτύπων από τη βάση. 2 of 104

3 ΕΥΧΑΡΙΣΤΙΕΣ Για την εκπόνηση της συγκεκριµένης πτυχιακής εργασίας θα ήθελα να ευχαριστήσω θερµά τον επιβλέποντα Επίκουρο Καθηγητή του Τµήµατος Πληροφορικής κ. Αναστάσιο Γούναρη για την εµπιστοσύνη που µου έδειξε αναθέτοντάς µου αυτή την εργασία, για την εξαιρετική µας συνεργασία και την πολύτιµη καθοδήγηση και συµβολή του στην ολοκλήρωσή της. Τέλος ιδιαίτερες ευχαριστίες θέλω να απευθύνω στην οικογένειά µου - η οποία στήριξε τις σπουδές µου µε διάφορους τρόπους, φροντίζοντας για την καλύτερη δυνατή µόρφωσή µου - και ιδιαίτερα στον πατέρα µου, ο οποίος µου παρείχε όλες τις απαραίτητες πληροφορίες αναφορικά µε την ιατρική πλευρά της πτυχιακής µου εργασίας. 3 of 104

4 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΛΗΨΗ 2 ΕΥΧΑΡΙΣΤΙΕΣ 3 ΠΕΡΙΕΧΟΜΕΝΑ 4 ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ Εισαγωγικό Σηµείωµα Δοµή Πτυχιακής 8 ΚΕΦΑΛΑΙΟ 2: ΓΕΝΙΚΕΣ ΑΡΧΕΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Εισαγωγή στη Μηχανική Μάθηση Εξόρυξη Δεδοµένων και Ανακάλυψη Γνώσης Τα Στάδια της Ανακάλυψης Γνώσης από Βάσεις Δεδοµένων Βασικές Μέθοδοι Εξόρυξης Γνώσης από Δεδοµένα Κατηγοριοποίηση (Classification) Παλινδρόµηση (Regression) Ανάλυση Χρονοσειρών (Τime Series Analysis) Πρόβλεψη (Prediction) Συσταδοποίηση (Clustering) Παρουσίαση Συνόψεων (Summarization) Κανόνες Συσχέτισης (Association Rules) Ακολουθιακά Πρότυπα (Sequential Patterns) Προβλήµατα στην Ανακάλυψη Γνώσης 23 ΚΕΦΑΛΑΙΟ 3: ΙΑΤΡΙΚΑ ΔΕΔΟΜΕΝΑ ΥΠΟ ΜΕΛΕΤΗ Περιγραφή των Δεδοµένων Η Βάση Δεδοµένων Προεπεξεργασία και Μετασχηµατισµός των Δεδοµένων 31 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΖΗΤΗΣΗ ΠΛΗΣΙΕΣΤΕΡΟΥ ΓΕΙΤΟΝΑ ΣΕ ΔΕΔΟΜΕΝΑ ΥΨΗΛΩΝ ΔΙΑΣΤΑΣΕΩΝ Η Έννοια του Πλησιέστερου Γείτονα στα Δεδοµένα του Τεχνητού Νεφρού To Πρόβληµα Aναζήτησης του Πλησιέστερου Γείτονα (Nearest Neighbor Search) Παραλλαγές στην Aναζήτηση Πλησιέστερου Γείτονα Αναζήτηση k-πλησιέστερων Γειτόνων (k-nearest Neighbor Search) Προσεγγιστική Αναζήτηση Πλησιέστερου Γείτονα (Approximate Nearest Neighbor Search) Η Χρήση Κατακερµατισµού στο Πρόβληµα Αναζήτησης Πλησιέστερου Γείτονα Locality Sensitive Hashing (LSH) Πίνακας Υπογραφών (Signature Matrix) O Αλγόριθµος LSH και η Τεχνική Banding Ανάλυση της Τεχνικής Banding Μέτρα Απόστασης (Distance Measures) Απόσταση Jaccard (Jaccard Distance) 51 4 of 104

5 4.6.2 Ευκλείδεια Απόσταση (Euclidean Distance) Απόσταση Hamming (Hamming Distance) Απόσταση Συνηµιτόνου (Cosine Distance) Απόσταση Edit (Edit Distance) Bέλτιστο Μέτρο Απόστασης σε Δεδοµένα του Τεχνητού Νεφρού Κ-Means Ο Αλγόριθµος Κ-Means Eπιλογή Αρχικών Κεντροειδών (Centroids) Bέλτιστο Μέτρο Απόστασης στον K-Means σε Δεδοµένα του Τεχνητού Νεφρού 59 ΚΕΦΑΛΑΙΟ 5: ΑΝΑΚΑΛΥΨΗ ΑΚΟΛΟΥΘΙΑΚΩΝ ΠΡΟΤΥΠΩΝ ΣΕ ΔΕΔΟΜΕΝΑ ΧΡΟΝΟΣΕΙΡΩΝ Χρονολογικές Σειρές (Time Series) Συχνά Πρότυπα (Frequent Patterns) Εξόρυξη Γνώσης από Ακολουθιακά Πρότυπα Ορισµός του Προβλήµατος Εξόρυξης Ακολουθιακών Προτύπων Ο Αλγόριθµος PrefixSpan Εφαρµογή του PrefixSpan σε Δεδοµένα του Τεχνητού Νεφρού 68 ΚΕΦΑΛΑΙΟ 6: ΣΥΜΠΕΡΑΣΜΑΤΑ - ΜΕΛΛΟΝΤΙΚΕΣ ΕΞΕΛΙΞΕΙΣ Συµπεράσµατα Μελλοντικές Εξελίξεις 74 ΑΝΑΦΟΡΕΣ - ΒΙΒΛΙΟΓΡΑΦΙΑ 75 ΠΑΡΑΡΤΗΜΑΤΑ 77 ΠΑΡΑΡΤΗΜΑ Ι. H Bάση δεδοµένων 77 ΠΑΡΑΡΤΗΜΑ ΙΙ. Κώδικας LSH 77 ΠΑΡΑΡΤΗΜΑ ΙΙΙ. Κώδικας Κ-Means 80 ΠΑΡΑΡΤΗΜΑ ΙV. Κώδικας PrefixSpan 85 5 of 104

6 ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ 6 of 104

7 1. ΕΙΣΑΓΩΓΗ 1.1 Εισαγωγικό Σηµείωµα Είναι γεγονός ότι το µέγεθος των πληροφοριών που συνολικά αποθηκεύονται καθηµερινά στις βάσεις δεδοµένων αυξάνει συνεχώς µε γρήγορους ρυθµούς. Τα δεδοµένα ποικίλουν από απλές αριθµητικές µετρήσεις και έγγραφα, σε πιο περίπλοκες πληροφορίες όπως χωρικά δεδοµένα, πολυµεσικά δεδοµένα και έγγραφα υπερκειµένου. Ορισµένες µόνο ενδεικτικές κατηγορίες δεδοµένων που συλλέγονται είναι: συναλλαγές εταιρειών που καταγράφονται για λόγους ιστορικότητας και έχουν σχέση τόσο µε τις συναλλαγές των εταιρειών µε άλλες εταιρείες όσο και µε την εσωτερική τους λειτουργία, επιστηµονικά δεδοµένα, ιατρικά και προσωπικά δεδοµένα που συλλέγονται από κυβερνήσεις, επιχειρήσεις και νοσηλευτικά ιδρύµατα για βελτίωση της ποιότητας των παρεχόµενων υπηρεσιών, βίντεο και εικόνες, αναφορές και σηµειώµατα, µηνύµατα ηλεκτρονικού ταχυδροµείου και τα λοιπά. Αρχικά, η συλλογή αυτών των δεδοµένων γινόταν ανεξέλεγκτα βάσει της τεράστιας δύναµης που προσέφερε η ψηφιακή αποθήκευση, αδιαφορώντας για τις δυνατότητες των υπαρχόντων αποθηκευτικών δοµών σχετικά µε την επεξεργασία των δεδοµένων. Αυτό οδήγησε στη δηµιουργία δοµηµένων συστηµάτων διαχείρισης βάσεων δεδοµένων (κυρίως σχεσιακών) που προσέφεραν υπηρεσίες αποτελεσµατικής και αποδοτικής ανάκτησης πληροφοριών από τεράστιες συλλογές δεδοµένων. Βέβαια, οι µόνες δυνατότητες επεξεργασίας των παραπάνω συστηµάτων ήταν σχεσιακού τύπου ερωτήµατα για επιλογή ενός υποσυνόλου των δεδοµένων από το καθολικό σύνολο βάσει κάποιων κριτηρίων και διαδικασίες στατιστικής επεξεργασίας των δεδοµένων, δυνατότητες στις οποίες ο χρήστης έχει θέσει εκ των προτέρων ένα συγκεκριµένο στόχο προς αναζήτηση. Εξαιτίας της ραγδαίας αύξησης των πληροφοριών συχνά παρατηρούµε ότι τα δεδοµένα στα οποία έχουµε πρόσβαση είναι πολύ περισσότερα από αυτά τα οποία µπορούµε να διαχειριστούµε. Πολλές φορές µάλιστα το πλήθος των δεδοµένων και το µέγεθος των βάσεων δεδοµένων αυξάνονται τόσο ως προς το πλήθος των εγγράφων όσο και ως προς το πλήθος των πεδίων. Πίσω από αυτές τις τεράστιες βάσεις δεδοµένων υπάρχει µη προφανής γνώση που δεν είναι ορατή και γνωστή εκ των προτέρων, αλλά µπορεί να αποδειχτεί πολύ χρήσιµη αν ανακαλυφθεί. Την απαίτηση αυτή έρχεται να καλύψει ένα νέο επιστηµονικό πεδίο, η Ανακάλυψη Γνώσης σε Βάσεις εδοµένων (Knowledge Discovery in 7 of 104

8 Databases), που µε την εφαρµογή µεθόδων και τεχνικών εξόρυξης γνώσης (Data Mining) στοχεύει στην ανακάλυψη προτύπων και κατασκευή µοντέλων από τα δεδοµένα. Στις µέρες µας, όλο και περισσότερος λόγος γίνεται για τις υπηρεσίες και τη χρησιµότητα των δύο αυτών επιστηµονικών τοµέων στα ιατρικά δεδοµένα. Στην ιατρική επιστήµη και πιο συγκεκριµένα σε ένα οργανωµένο νοσοκοµειακό περιβάλλον, η εξεύρεση γνώσης και η εξαγωγή αυτής αποτελούν κρίσιµες εφαρµογές. Η ιατρική από µόνη της δεν καταφέρνει να αναδείξει τη γνώση, η οποία ουσιαστικά α- ποτελεί παράγωγο της εµπειρίας και της συχνότητας εµφάνισής της στα περιστατικά των ασθενών. Η γνώση αυτή, εάν εξαχθεί από τις µεγάλες βάσεις δεδοµένων που ουσιαστικά βρίσκεται κρυµµένη, είναι πολύτιµη τόσο για την ισχυροποίηση θεωρητικών ιατρικών συµπερασµάτων ή συµπερασµάτων που αναφέρονται κυρίως σε ιατρικά εγχειρίδια, όσο και για την αύξηση της θεωρητικής αυτής γνώσης. Οι ειδικοί του τοµέα καταφέρνουν να φτάσουν σε αντικειµενικά αποτελέσµατα στηριγµένοι στην επιστήµη τους, χρησιµοποιώντας υποκειµενικά και ουσιαστικά στοιχεία παραµέτρων, όπως ιατρικό ιστορικό, αποτελέσµατα εξετάσεων και τα λοιπά. Σκοπός της εργασίας αυτής είναι η πειραµατική εφαρµογή µεθόδων αναζήτησης γνώσης σε πραγµατικά ιατρικά δεδοµένα, προκειµένου να προσεγγιστούν αυτά από µια διαφορετική σκοπιά. Θα επιχειρηθεί λοιπόν η αναζήτηση και ανάδειξη κρυµµένης γνώσης, η οποία θα µπορέσει να αξιολογηθεί από τους ειδικούς του τοµέα της υγείας. Χρησιµοποιήθηκε µία βάση µε πραγµατικά ιατρικά δεδοµένα και πιο συγκεκριµένα µε ιατρικές πληροφορίες (ιατρικό ιστορικό, κλινικές εξετάσεις) ασθενών που πάσχουν από χρόνια νεφρική ανεπάρκεια. 1.2 Δοµή Πτυχιακής H παρούσα πτυχιακή είναι χωρισµένη σε έξι κεφάλαια: - Στο 1 ο Κεφάλαιο γίνεται µία Εισαγωγή στην πτυχιακή, όπου αναγράφεται µία γενική περιγραφή του θέµατος, καθώς και ο βασικός σκοπός και η δοµή της εργασίας. - Στο 2 ο Κεφάλαιο, µε τίτλο Γενικές Αρχές Εξόρυξης Γνώσης από Βάσεις εδοµένων, περιγράφονται οι βασικές έννοιες σχετικά µε την κατανόηση της επιστηµονικής περιοχής που κινείται η εργασία. Αναφέρονται δηλαδή οι έννοιες της εξόρυξης δεδοµένων και της ανακάλυψης γνώσης, η σχέση τους µε τη µηχανική µάθηση, οι βασικές µέθοδοι και τεχνικές ανακάλυψης γνώσης αλλά και τα προβλήµατα που προκύπτουν συχνά κατά τη διαδικασία της ανακάλυψης γνώσης. 8 of 104

9 - Στο 3 ο Κεφάλαιο, µε τίτλο Ιατρικά Δεδοµένα Υπό Μελέτη, παρουσιάζονται και περιγράφονται τα ιατρικά δεδοµένα που αφορούν σε ασθενείς που πάσχουν από χρόνια νεφρική ανεπάρκεια και αποτελούν τη βάση της µελέτης µας. - Στο 4 ο Κεφάλαιο, µε τίτλο Αναζήτηση Πλησιέστερου Γείτονα σε εδοµένα Υψηλών Διαστάσεων, αναλύεται το πρόβληµα αναζήτησης του πλησιέστερου γείτονα καθώς και ορισµένες παραλλαγές του προβλήµατος. Επιπλέον παρουσιάζεται αναλυτικά ένα γενικευµένο framework κατακερµατισµού, το λεγόµενο locality sensitive hashing, το οποίο στοχεύει στην επιτάχυνση του χρόνου αναζήτησης οµοιότητων µεταξύ ασθενών. Ακολουθεί ανάλυση και δοκιµή ορισµένων µέτρων απόστασης, µε στόχο την εύρεση εκείνου του µέτρου που προσφέρει τη µεγαλύτερη ακρίβεια για τα δεδοµένα µας. Στοχεύοντας στην εύρεση του βέλτιστου µέτρου, εφαρµόζεται επίσης και µία τεχνική συσταδοποίησης, η λεγόµενη k-means, η οποία δηµιουργεί συστάδες οµοίων αντικειµένων µε βάση κάποιο µέτρο απόστασης. - Στο 5 ο Κεφάλαιο, µε τίτλο Ανακάλυψη Ακολουθιακών Προτύπων σε Δεδοµένα Χρονοσειρών, αναλύεται το πρόβληµα της εύρεσης ακολουθιακών προτύπων σε δεδοµένα που σχετίζονται µε το χρόνο. Επίσης περιγράφεται εκτενώς ο αλγόριθµος PrefixSpan και εφαρµόζεται στην ακολουθιακή µας βάση δεδοµένων µε στόχο την ανακάλυψη συχνών ακολουθιακών προτύπων που µπορούν να µας δώσουν κάποια χρήσιµη πληροφορία. - Τέλος, το 6 ο Κεφάλαιο µε τίτλο Συµπεράσµατα - Μελλοντικές Εξελίξεις, είναι ο επίλογος του κειµένου και γίνεται µια συνολική επισκόπηση όλων όσων παρουσιάστηκαν καθώς και κάποιες προτάσεις για πιθανή µελλοντική εργασία. 9 of 104

10 ΚΕΦΑΛΑΙΟ 2: ΓΕΝΙΚΕΣ ΑΡΧΕΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ 10 of 104

11 2. ΓΕΝΙΚΕΣ ΑΡΧΕΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Η τεράστια πρόοδος της επιστήµης της πληροφορικής ενθάρρυνε τη µαζική συλλογή και αποθήκευση δεδοµένων σε όλους τους τοµείς της ανθρώπινης δραστηριότητας. Η τεράστια πρόοδος των βάσεων δεδοµένων όλων των µεγεθών και τύπων, είναι ενδεικτική της ικανότητας για συλλογή δεδοµένων, αλλά ταυτόχρονα αυξάνει την αναγκαιότητα για καλύτερες µεθόδους πρόσβασης και ανάλυσής τους. Η ανθρώπινη δυνατότητα για τη διαχείριση των διαθέσιµων δεδοµένων µε σκοπό την ανακάλυψη νέας γνώσης δεν επαρκεί για έναν σύντοµο έλεγχο και ανάλυση, µε αποτέλεσµα να χρησιµοποιείται ένα µικρό µόνο µέρος από τα διαθέσιµα δεδοµένα. Η τεχνολογία όµως δίνει δυνατότητες µεγιστοποίησης της ωφέλειας από τα δεδοµένα µε γρήγορο και οικονοµικό τρόπο. Στην δεκαετία του 1980 εµφανίστηκε ο όρος εξόρυξη δεδοµένων (Data Mining), που χρησιµοποιήθηκε από τους στατιστικολόγους και αναλυτές και περιέγραφε την εφαρµογή αλγορίθµων για την ανεύρεση προτύπων σε συλλογές δεδοµένων. Λίγο αργότερα, το 1989, o όρος ανακάλυψη γνώσης σε βάσεις δεδοµένων (Knowledge Discovery in Databases / KDD) χρησιµοποιήθηκε για να αντικαταστήσει όλους τους παλιούς όρους, που σκοπός τους ήταν η ανακάλυψη προτύπων και οµοιοτήτων σε δεδοµένα. Το νέο αυτό επιστηµονικό πεδίο περιέχει στοιχεία από πολλούς άλλους επιστηµονικούς κλάδους, όπως για παράδειγµα την τεχνητή νοηµοσύνη, τη µηχανική µάθηση και τη στατιστική. Πολύ γρήγορα υιοθετήθηκε ως πρακτική από πολλούς επιστήµονες της τεχνητής νοηµοσύνης και της µηχανικής µάθησης και χρησιµοποιήθηκε για να περιγράψει τη συνολική διαδικασία εξαγωγής γνώσης από βάσεις δεδοµένων, από τον αρχικό προσδιορισµό των στόχων της επιχείρησης ως την τελική ανάλυση των αποτελεσµάτων. 2.1 Εισαγωγή στη Μηχανική Μάθηση Η Μηχανική Μάθηση (Machine Learning) εµφανίστηκε στις αρχές της δεκαετίας του 1980 και αποτελεί έναν από τους βασικούς τοµείς της Τεχνητής Νοηµοσύνης, καθώς και ένα επιστηµονικό πεδίο που µελετά τη σχεδίαση υπολογιστικών προγραµµάτων, ικανών να µαθαίνουν ώστε να βελτιώνεται η απόδοσή τους µέσω προηγούµενης γνώσης και εµπειρίας. 11 of 104

12 Η έννοια της Μηχανικής Μάθησης ταυτίζεται µε την απόκτηση γνώσης και εµπειρίας σε κάποιο τοµέα. Κάθε νοήµων οντότητα µπορεί να µαθαίνει κι έτσι είτε να αποκτά επιπλέον γνώση είτε να βελτιώνει προηγούµενη γνώση. Αντίστοιχα, και ένα υπολογιστικό σύστηµα µπορεί µε αυτόµατο όµως τρόπο να µαθαίνει και να αποθηκεύει, σε καθορισµένη γλώσσα βέβαια, τη γνώση αυτή για µελλοντική χρήση µε στόχο τη βελτιστοποίησή της µέσω της επανάληψης. Η Μηχανική Μάθηση αποτελεί ένα επιστηµονικό πεδίο που µελετά τη σχεδίαση υπολογιστικών προγραµµάτων ικανών να µαθαίνουν, δηλαδή ικανών να βελτιώνουν την απόδοσή τους µέσω της αξιοποίησης προηγούµενης γνώσης και εµπειρίας. Η απόκτηση αυτής της γνώσης και εµπειρίας δεν προκύπτει έπειτα από την αλληλεπίδραση του συστήµατος µε το περιβάλλον, αλλά από ένα σύνολο κωδικοποιηµένων δεδοµένων που προέκυψαν από δειγµατοληψία στο σύνολο της βάσης δεδοµένων και αποτελούν το σύνολο των δεδοµένων εκπαίδευσης (training set). Το σύστηµα εφαρµόζεται στη γενική βάση δεδοµένων για να εκτελέσει σωστά την επιθυµητή εργασία και η διαδικασία αυτή διαιρείται σε δύο φάσεις: (1) Της εκπαίδευσης, όπου χρησιµοποιούνται δεδοµένα δειγµατοληψίας ή ιστορικά δεδοµένα για τη δηµιουργία αντιπροσωπευτικού µοντέλου που να τα αναπαριστά. (2) Του ελέγχου, όπου εφαρµόζεται το αντιπροσωπευτικό µοντέλο στα υπόλοιπα δεδοµένα. Έχουν αναπτυχθεί πολλές τεχνικές µηχανικής µάθησης, οι οποίες χρησιµοποιούνται ανάλογα µε τη φύση του προβλήµατος και κατατάσσονται στα παρακάτω δύο είδη: Μάθηση µε επίβλεψη (supervised learning) ή µάθηση µε παραδείγµατα (learning from examples), στην οποία το σύστηµα τροφοδοτείται µε διάφορα παραδείγµατα αντικειµένων που ανήκουν σε µια κατηγορία. Το ίδιο το σύστηµα καλείται να ανακαλύψει τις κοινές ιδιότητες των αντικειµένων αυτών. Πιο συγκεκριµένα το υπολογιστικό µοντέλο εφαρµόζει επιτυχώς κάθε καταχώρηση στο σύνολο εκπαίδευσης, εφόσον του έχει δοθεί το σύνολο δεδοµένων εκπαίδευσης σε συνδυασµό µε τις σωστές απαντήσεις. Μάθηση χωρίς επίβλεψη (unsupervised learning) ή µάθηση από παρατήρηση, όπου το σύστηµα µόνο του, βασισµένο στις δικές του ιδιότητες, καλείται να ανακαλύψει κλάσεις/κατηγορίες αντικειµένων. Σύµφωνα µε αυτή τη µάθηση, τα δεδοµένα εκπαίδευσης υπάρχουν αλλά δεν υπάρχει γνώση της σωστής απάντησης εφαρµογής του υπολογιστικού µοντέλου στα δεδοµένα. 12 of 104

13 2.2 Εξόρυξη Δεδοµένων και Ανακάλυψη Γνώσης Η εξόρυξη γνώσης από βάσεις δεδοµένων (Knowledge Discovery in Databases) ή πιο απλά η εξόρυξη γνώσης είναι µια νέα δυναµική τεχνολογία, που βοηθάει τις επιχειρήσεις να εστιάσουν στη σηµαντική πληροφορία που βρίσκεται µέσα στις αποθήκες δεδοµένων τους (Data Warehouses). Οι τεχνικές της είναι σε θέση να αναζητήσουν και να βρουν γρήγορα και λεπτοµερειακά βάσεις δεδοµένων για την αναζήτηση κρυµµένων προτύπων (patterns). Έτσι λοιπόν µπορούµε να πούµε ότι η εξόρυξη γνώσης είναι µια διαδικασία εξαγωγής κρυµµένης πληροφορίας από µεγάλες βάσεις δεδοµένων. Η εξόρυξη γνώσης περιλαµβάνει πολλούς διαφορετικούς αλγορίθµους για να εκπληρωθούν διαφορετικές εργασίες. Όλοι αυτοί οι αλγόριθµοι επιχειρούν να ταιριάξουν ένα µοντέλο στα δεδοµένα. Οι αλγόριθµοι εξετάζουν τα δεδοµένα και καθορίζουν ένα µοντέλο που να είναι το πλησιέστερο στα χαρακτηριστικά των δεδοµένων που εξετάζονται. Οι αλγόριθµοι εξόρυξης γνώσης µπορεί να θεωρηθεί ότι αποτελούνται από τρία µέρη: (1) Μοντέλο: Ο σκοπός του αλγορίθµου είναι να ταιριάζει το µοντέλο στα δεδοµένα. (2) Προτίµηση: Πρέπει να χρησιµοποιούνται κάποια κριτήρια για να ταιριάξει ένα µοντέλο έναντι ενός άλλου. (3) Αναζήτηση: Όλοι οι αλγόριθµοι απαιτούν µία τεχνική για να κάνουν αναζήτηση. Όσον αφορά το µοντέλο που δηµιουργείται, µπορεί να είναι είτε προβλεπτικό είτε περιγραφικό µοντέλο. Παρατηρώντας το Σχήµα 1, βλέπουµε πως κάτω από κάθε τύπο µοντέλου απεικονίζονται µερικές από τις πιο συνηθισµένες µέθοδοι εξόρυξης γνώσης από δεδοµένα που χρησιµοποιούν αυτό το είδος του µοντέλου. Σχήµα 1. Μοντέλα εξόρυξης γνώσης από δεδοµένα 13 of 104

14 Ένα προβλεπτικό µοντέλο (predictive model) κάνει µία πρόβλεψη για τις τιµές των δεδοµένων χρησιµοποιώντας γνωστά αποτελέσµατα που έχει βρει από άλλα δεδοµένα. Η υλοποίηση πρόβλεψης µπορεί να γίνει µε βάση τη χρήση ιστορικών δεδοµένων. Οι εργασίες εξόρυξης γνώσης από δεδοµένα για το χτίσιµο ενός προβλεπτικού µοντέλου περιλαµβάνουν κατηγοριοποίηση, παλινδρόµηση, ανάλυση χρονολογικών σειρών και πρόβλεψη. Ένα περιγραφικό µοντέλο (descriptive model) αναγνωρίζει πρότυπα ή συσχετίσεις στα δεδοµένα. Αντίθετα από το προβλεπτικό, το περιγραφικό µοντέλο λειτουργεί σαν ένα µέσο που διερευνά τις ιδιότητες των δεδοµένων που εξετάζονται χωρίς να προβλέπει νέες ιδιότητες. Η συσταδοποίηση, η παρουσίαση συνόψεων, οι κανόνες συσχετίσεων και η ανακάλυψη ακολουθιών συνήθως θεωρούνται σαν περιγραφικές εργασίες από τη φύση τους. Παρά το γεγονός ότι υπάρχει µια γενικότερη συµφωνία ότι ο στόχος της εξόρυξης δεδοµένων είναι η ανακάλυψη νέας και χρήσιµης πληροφορίας σε βάσεις δεδοµένων, τα µέσα για την επίτευξη του στόχου αυτού ποικίλουν σε πολύ υψηλό βαθµό. Η εξόρυξη γνώσης από δεδοµένα περιλαµβάνει ένα ευρύ πεδίο υπολογιστικών µεθόδων που µεταξύ άλλων περιλαµβάνουν, τη Στατιστική Ανάλυση (statistical analysis), τη Μηχανική Μάθηση (machine learning), τις Βάσεις Δεδοµένων (databases), την Αναγνώρηση Προτύπων (pattern recognition), τη Γραφική Οπτικοποίηση (graphic visualization) και άλλους. Τέτοιες µέθοδοι χρησιµοποιούνται για την εύρεση συσχετίσεων, προτύπων και δοµών σε µεγάλες και διαρκώς αυξανόµενες βάσεις δεδοµένων. Σχήµα 2. Η Εξόρυξη Δεδοµένων ως αποτέλεσµα συµβολής άλλων κλάδων. 14 of 104

15 2.3 Τα Στάδια της Ανακάλυψης Γνώσης από Βάσεις Δεδοµένων Η ανακάλυψη γνώσης από βάσεις δεδοµένων αρχίζει µε την κατανόηση του τοµέα στον οποίο θα εφαρµοστεί και τον καθορισµό του στόχου από τη σκοπιά του χρήστη των αποτελεσµάτων. Για να διασφαλιστεί η χρησιµότητα και η ακρίβεια των αποτελεσµάτων αυτής της διαδικασίας, συνήθως χρειάζεται η συνεργασία ειδικών του πεδίου εφαρµογής µε ειδικούς της διαδικασίας KDD καθ' όλη τη διάρκεια της διαδικασίας αυτής. Τα επιµέρους στάδια της διαδικασίας αυτής απεικονίζονται στο Σχήµα 3 και αναλύονται παρακάτω. Σχήµα 3. Στάδια Ανακάλυψης Γνώσης Επιλογή (Selection) Στο στάδιο αυτό επιλέγεται το σύνολο των δεδοµένων στο οποίο θα εφαρµοστεί η διαδικασία ανακάλυψης γνώσης. Πρόκειται είτε για ένα υποσύνολο µεταβλητών είτε δείγµα δεδοµένων. Η δηµιουργία ενός βιώσιµου συνόλου δεδοµένων είναι πρωταρχικής σηµασίας. Συνήθως τα δεδοµένα αυτά προέρχονται από πολλές και ετερογενείς πηγές και έχουν συγκεντρωθεί για πολλούς σκοπούς πλην της ανακάλυψης γνώσης και είναι αποθηκευµένα σε δοµές (κυρίως σχεσιακές βάσεις δεδοµένων) και σε µορφές ακατάλληλες για τις µεθόδους της εξόρυξης δεδοµένων. Λόγω αυτού, θα πρέπει να συνδυαστούν και να αποθηκευτούν σε απλούστερες δοµές κατάλληλες για την εξόρυξη δεδοµένων. 15 of 104

16 Προ-επεξεργασία (Pre-processing) Τα δεδοµένα στα οποία θα εφαρµοστούν οι αλγόριθµοι, πολλές φορές είναι λανθασµένα ή ελλιπή. Συνεπώς είναι απαραίτητη η διόρθωση ή η αποµάκρυνση των λανθασµένων δεδοµένων και η απόκτηση ή πρόβλεψη των δεδοµένων που είναι ελλιπή. Εξαιτίας των ενεργειών που απαιτούνται, το στάδιο µπορεί να µετονοµαστεί και σε στάδιο καθαρισµού των δεδοµένων (data cleaning). Κατά το στάδιο αυτό αντιµετωπίζονται και δύο πολύ σηµαντικά προβλήµατα: η ύπαρξη θορύβου και ελλιπών τιµών στα δεδοµένα. Μετασχηµατισµός (Transformation) Στο συγκεκριµένο στάδιο τα δεδοµένα µετασχηµατίζονται ώστε να διευκολύνουν την ανακάλυψη γνώσης καθώς πολλοί αλγόριθµοι εξόρυξης απαιτούν συγκεκριµένες δοµές, µε αποτέλεσµα να επιβάλλεται η προσαρµογή των αρχικών δεδοµένων σε αυτές τις δοµές. Οι µετασχηµατισµοί περιλαµβάνουν: Απλό µετασχηµατισµό της µορφοποίησης των δεδοµένων Μείωση του αριθµού των υπό εξέταση µεταβλητών (data reduction). Κανονικοποίηση αριθµητικών χαρακτηριστικών. Μετατροπή του τύπου των δεδοµένων (data type conversion), καθώς είναι δυνατόν πολλές τεχνικές εξόρυξης δεδοµένων να µην επεξεργάζονται αριθµητικές ή κατηγορηµατικές τιµές. ηµιουργία νέων µεταβλητών από το συνδυασµό άλλων ήδη υπαρχόντων µεταβλητών. Οµοιόµορφη κωδικοποίηση ποιοτικά ίδιας πληροφορίας. Επιλογή Αλγορίθµου και Εφαρµογή (Data Mining) Στο στάδιο αυτό καθορίζεται το είδος της γνώσης που θα αναζητηθεί, κάτι το οποίο έµµεσα προσδιορίζει και την κατηγορία αλγορίθµου που θα χρησιµοποιηθεί. Η εφαρµογή του αλγορίθµου είναι ένα καθαρά υπολογιστικό στάδιο, στο οποίο γίνεται η ουσιαστική ανακάλυψη γνώσης από τα δεδοµένα. Υπάρχουν δύο είδη γνώσης που προκύπτουν ως αποτέλεσµα µιας διαδικασίας ανακάλυψης γνώσης: τα µοντέλα πρόβλεψης και τα πρότυπα πληροφόρησης. Πολλές φορές προτιµούνται αλγόριθµοι που έχουν ισχυρά χαρακτηριστικά, αν και έχουν χειρότερη δυνατότητα πρόβλεψης, διότι τα αποτελέσµατά τους γίνονται πιο εύκολα αντιληπτά από τον ειδικό του τοµέα. 16 of 104

17 Ερµηνεία και Αξιολόγηση (Interpretation / Evaluation) Στο στάδιο αυτό γίνεται η ερµηνεία και η αξιολόγηση γνώσης που προκύπτει, µε τη βοήθεια γραφικών παραστάσεων των περιγραφών ή και των δεδοµένων που περιγράφονται. Επίσης κρίνεται απαραίτητη προϋπόθεση και η συµµετοχή ενός ειδικού αναλυτή δεδοµένων. Η γνώση που παράγεται µπορεί να χρησιµοποιηθεί σε ένα σύστηµα γνώσης, όµως στην περίπτωση αυτή είναι πολύ πιθανόν να υπάρξουν συγκρούσεις µεταξύ της υπάρχουσας γνώσης και της παραγόµενης. Πρέπει να σηµειωθεί ότι η διαδικασία µπορεί να περιλαµβάνει συνεχείς επαναλήψεις κι έτσι πολλά βήµατα να επαναλαµβάνονται πολλές φορές ή να υπάρχουν βρόγχοι δύο διαδοχικών βηµάτων, ωσότου αυτή ολοκληρωθεί επιτυχώς. Κάτι άλλο που πρέπει να τονιστεί είναι ότι τα βήµατα της διαδικασίας αυτής δεν έχουν τις ίδιες απαιτήσεις χρόνου και προσπάθειας εκτέλεσης. Υπολογίζεται ότι περίπου το 60% του συνολικού χρόνου εκτέλεσης της διαδικασίας δαπανάται στην προετοιµασία και προεπεξεργασία των δεδοµένων και για το πραγµατικό στάδιο, δηλαδή αυτό της εξόρυξης, µόλις το 10%. 2.4 Βασικές Μέθοδοι Εξόρυξης Γνώσης από Δεδοµένα Υπάρχουν διάφορες µέθοδοι που χρησιµοποιούνται για την εξόρυξη γνώσης από δεδοµένα. Οι τεχνικές αυτές όχι µόνο απαιτούν συγκεκριµένους τύπους δοµών δεδοµένων, αλλά υλοποιούνται και µε πολλούς διαφορετικούς αλγορίθµους. Οι βασικές µέθοδοι Εξόρυξης Γνώσης από Δεδοµένα παρουσιάζονται παρακάτω Κατηγοριοποίηση (Classification) Η διαδικασία της κατηγοριοποίησης (classification) περιλαµβάνει την οργάνωση ενός συνόλου αντικειµένων (objects) που περιγράφονται από ένα σύνολο χαρακτηριστικών (attributes), σε µια σειρά από προκαθορισµένες κλάσεις (classes), χρησιµοποιώντας µεθόδους µάθησης µε επίβλεψη (supervised learning methods). Οι τεχνικές της κατηγοριοποίησης χρησιµοποιούν κατά κανόνα ένα σύνολο εκπαίδευσης (training set), όπου όλα τα αντικείµενα είναι ήδη συνδεδεµένα µε γνωστές κλάσεις. Ο αλγόριθµος ταξινόµησης µαθαίνει από αυτό το σύνολο, χρησιµοποιώντας τη µάθηση αυτή για την κατασκευή ενός µοντέλου και το µοντέλο αυτό στην συνέχεια ταξινοµεί νέα αντικείµενα στις κατάλληλες κλάσεις. Η κατηγοριοποίηση πρόκειται ίσως για την πιο δηµοφιλή τεχνική µε πλήθος εφαρµογών στην αναγνώριση προτύπων και εικόνας σε διάφορους κλάδους. 17 of 104

18 Στην πράξη, µια διαδικασία κατηγοριοποίησης µπορεί να οριστεί ως η εκτέλεση δύο συγκεκριµένων βηµάτων: Εκµάθηση (Learning): Στο στάδιο αυτό δηµιουργείται ένα µοντέλο, µε τη χρήση του συνόλου των δεδοµένων εκπαίδευσης που δηµιουργείται µε τυχαία δειγµατοληψία. Κατηγοριοποίηση (Classification): Πρώτη εργασία του σταδίου αυτού είναι η εκτίµηση της ακρίβειας του µοντέλου που προέκυψε. Για την αποφυγή της υπερ- µοντελοποίησης χρησιµοποιείται για τον έλεγχο ένα σύνολο δεδοµένων α- ξιολόγησης διαφορετικό από το σύνολο των δεδοµένων εκπαίδευσης. Την αποδοχή του µοντέλου ακολουθεί η χρήση του για την κατηγοριοποίηση των πραγµατικών δεδοµένων. Η αξιολόγηση της απόδοσης ενός µοντέλου ταξινόµησης βασίζεται στον αριθµό των εγγραφών του συνόλου ελέγχου (test set) που προβλέφθηκαν σωστά ή λάθος από τον ταξινοµητή. Για να είναι ευκολότερη η σύγκριση των αποδόσεων διαφορετικών µοντέλων χρησιµοποιούνται δύο δείκτες επίδοσης, η ακρίβεια (accuracy) και η αποτίµηση του σφάλµατος (error rate). Έτσι τελικά ο ταξινοµητής µε τη µεγαλύτερη ακρίβεια και τη µικρότερη αποτίµηση σφάλµατος είναι ορθότερος και πιο αποτελεσµατικός, δηλαδή µπορεί και κάνει καλύτερες προβλέψεις. Μερικές από τις πιο γνωστές τεχνικές κατηγοριοποίησης είναι η µάθηση εννοιών, τα δένδρα ταξινόµησης ή απόφασης, η µάθηση κατά Bayes και η µάθηση κατά περίπτωση Παλινδρόμηση (Regression) Η παλινδρόµηση είναι µια εργασία επιβλεπόµενης µάθησης που µοιάζει πολύ µε την κατηγοριοποίηση. Υπάρχει πάλι ένα γνώρισµα-στόχος, οι τιµές του οποίου υπολογίζονται από τα υπόλοιπα γνωρίσµατα. Οι αλγόριθµοι παλινδρόµησης εξετάζουν τις σχέσεις µεταξύ του γνωρίσµατος-στόχου και των υπόλοιπων γνωρισµάτων και κατασκευάζουν έναν µηχανισµό 18 of 104

19 υπολογισµού. Η διαφορά µε την κατηγοριοποίηση είναι ότι στην περίπτωση της παλινδρό- µησης υπολογίζονται συνεχείς και όχι διακριτές αριθµητικές τιµές. Στις επιχειρήσεις, τεχνικές παλινδρόµησης χρησιµοποιούνται για την πρόβλεψη αριθµητικών τιµών, όπως το ύψος των πωλήσεων, το ύψος των κερδών και τα λοιπά Ανάλυση Χρονοσειρών (Τime Series Analysis) Υπάρχουν µεγέθη τα οποία παρουσιάζουν µια χρονική εξέλιξη. Η εξέλιξη αυτή αναπαρίσταται µε τη βοήθεια χρονοσειρών (time series), δηλαδή ακολουθιών σηµείων που αποτελούν µετρήσεις του µεγέθους στη διάρκεια του χρόνου. Οι µέθοδοι ανάλυσης χρονοσειρών αναλύουν τα δεδοµένα διαφορετικών χρονικών περιόδων και εξάγουν χρήσιµα συµπεράσµατα για το φαινόµενο. Με την ανάλυση χρονοσειρών (time series analysis), µελετάται η τιµή ενός γνωρίσµατος, καθώς µεταβάλλεται στο χρόνο. Οι τιµές συνήθως λαµβάνονται σε ίσα χρονικά διαστήµατα (ηµερήσια, εβδοµαδιαία, ωριαία, κοκ.). Για να παρασταθούν οπτικά οι χρονοσειρές χρησιµοποιείται ένα διάγραµµα χρονοσειρών (Σχήµα 4). Οι µέθοδοι ανάλυσης χρονοσειρών αναλύουν τα δεδοµένα διαφορετικών χρονικών περιόδων και εξάγουν χρήσιµα συµπεράσµατα για το φαινόµενο. Εάν για παράδειγµα, οι τιµές παρουσιάζουν κανονικότητες στις διακυµάνσεις τους στη διάρκεια του χρόνου, ο εντοπισµός αυτών των διακυµάνσεων µπορεί να χρησιµοποιηθεί για τη διατύπωση προβλέψεων. Το συνηθέστερο παράδειγµα χρονοσειρών είναι ο δείκτης τιµών του χρηµατιστήριου. Σχήµα 4. Διάγραµµα Χρονοσειρών Πρόβλεψη (Prediction) Πολλές από τις πρακτικές εφαρµογές εξόρυξης γνώσης µπορούν να θεωρηθούν σαν πρόβλεψη µελλοντικών καταστάσεων µε γνώση των προηγούµενων και των σηµερινών 19 of 104

20 δεδοµένων. Η πρόβλεψη (prediction) µπορεί να θεωρηθεί σαν ένα είδος κατηγοριοποίησης. Η διαφορά είναι ότι ως πρόβλεψη θεωρείται περισσότερο το να δίνεται τιµή σε µία µελλοντική κατάσταση παρά σε µία τρέχουσα. Εδώ αναφερόµαστε σε ένα είδος εφαρµογής παρά σε µια προσέγγιση µοντελοποίησης, όπως συζητήθηκε προηγουµένως. Οι εφαρµογές πρόβλεψης περιλαµβάνουν πρόγνωση πληµµυρών, αναγνώριση οµιλίας, µηχανική µάθηση και αναγνώριση προτύπου. Παρόλο που µπορούν να προβλεφθούν οι µελλοντικές τιµές µε τεχνικές ανάλυσης χρονοσειρών ή παλινδρόµησης, µπορούν να χρησιµοποιηθούν επίσης και άλλες προσεγγίσεις Συσταδοποίηση (Clustering) Η συσταδιοποίηση ή αλλιώς οµαδοποίηση (clustering) αφορά το διαχωρισµό (partition) των αντικειµένων µιας βάσης δεδοµένων σε µη συνδεδεµένες µεταξύ τους και οµοιογενείς οµάδες, κατά τέτοιο τρόπο ώστε τα αντικείµενα του συνόλου που ανήκουν σε µια οµάδα, να είναι πιο όµοια µεταξύ τους, παρά µε τα αντικείµενα που ανήκουν σε διαφορετικές οµάδες. Ένα ιδιαίτερο χαρακτηριστικό της οµαδοποίησης, σε αντίθεση µε την κατηγοριοποίηση, είναι ότι η δοµή και το πλήθος των οµάδων είναι καταρχάς άγνωστα και καθορίζονται από τον εκάστοτε αλγόριθµο συσταδιοποίησης. Αυτοί οι αλγόριθµοι βασίζονται στο σύνολό τους στην αρχή της µεγιστοποίησης της οµοιότητας ανάµεσα στα αντικείµενα την ίδιας οµάδας (intra-class similarity) και την ταυτόχρονη αρχή της ελαχιστοποίησης της οµοιότητας µεταξύ των αντικειµένων διαφορετικών οµάδων (inter-class similarity). Δεν υπάρχουν προκαθορισµένες κατηγορίες οµαδοποίησης αλλά οι εγγραφές συγκεντρώνονται σε οµάδες µε βάση το κριτήριο που θέτει ο χρήστης για κάθε συστάδα. Σκοπός είναι η δηµιουργία συστάδων µε όσο το δυνατόν περισσότερα κοινά χαρακτηριστικά εντός της εκάστοτε οµάδας, ενώ ταυτόχρονα η µία οµάδα από την άλλη θα πρέπει να διαφοροποιείται ικανοποιητικά, ώστε να µη συγχέονται. Δηλαδή θα πρέπει να δηµιουργηθούν διακριτές οµάδες µε βάση ξεκάθαρα χαρακτηριστικά που περιγράφουν την κάθε οµάδα και την κάνουν να ξεχωρίζει από τις υπόλοιπες. Σχήµα 5. Παράδειγµα Συσταδοποίησης 20 of 104

21 Υπάρχουν τρεις βασικές κατηγορίες αλγορίθµων συσταδιοποίησης: 1. Αλγόριθµοι διαχωρισµού (partitioning algorithms): Δηµιουργoύν οµάδες από ένα δεδοµένο αρχικό σύνολο αντικειµένων, µε κάθε οµάδα να αντιπροσωπεύει µία συστάδα/οµάδα (cluster) και να ικανοποιούνται οι εξής δύο συνθήκες: (α) κάθε cluster περιέχει τουλάχιστον ένα αντικείµενο και (β) κάθε αντικείµενο ανήκει σε ένα µόνο cluster. Ενας τέτοιος αλγόριθµος είναι ο Κ-means. 2. Ιεραρχικοί αλγόριθµοι (hierarchical algorithms): Διασπούν το αρχικό σύνολο δεδοµένων δηµιουργώντας µια ιεραρχική δοµή από clusters. Διακρίνονται σε αλγόριθµους συγχώνευσης (agglomerative) ή διαίρεσης (divisive), ανάλογα µε τον τρόπο που γίνεται η διάσπαση. 3. Πιθανοκρατικοί αλγόριθµοι (propabilistic algorithms): Βασίζονται σε µοντέλα πιθανοτήτων. Υποθέτουν ότι καθένα από τα clusters περιγράφεται από ένα µαθηµατικό µοντέλο και εντοπίζουν τα αντικείµενα που ανήκουν σε κάθε cluster, ώστε να ικανοποιούν το αντίστοιχο µοντέλο Παρουσίαση Συνόψεων (Summarization) Η παρουσίαση συνόψεων (summarization) απεικονίζει τα δεδοµένα σε υποσύνολά τους µε συνοδευτικές απλές περιγραφές. Η σύνοψη των δεδοµένων ονοµάζεται επίσης και χαρακτηρισµός (characterization) ή γενίκευση (generalization). Εξάγει ή παράγει αντιπροσωπευτικές πληροφορίες σχετικά µε τις βάσεις δεδοµένων. Αυτό στην πραγµατικότητα γίνεται ανακτώντας τµήµατα από τα δεδοµένα. Εναλλακτικά, µπορούν να εξαχθούν από τα δεδοµένα συνοπτικές πληροφορίες (όπως είναι ο µέσος όρος κάποιου αριθµητικού γνωρίσµατος). Εν ολίγοις, η παρουσίαση συνόψεων χαρακτηρίζει τα περιεχόµενα της βάσης δεδοµένων Κανόνες Συσχέτισης (Association Rules) H συσχέτιση (association) αναφέρεται στη διαδικασία εκείνη της εξόρυξης γνώσης που αποκαλύπτει συσχετίσεις µεταξύ των δεδοµένων. Το καλύτερο παράδειγµα αυτού του είδους της εφαρµογής είναι ο προσδιορισµός κανόνων συσχετίσεων. Ένας κανόνας συσχέτισης (αssociation rule) είναι ένα µοντέλο που αναγνωρίζει ειδικούς τύπους συσχέτισης µεταξύ δεδοµένων. Αυτές οι συσχετίσεις συχνά χρησιµοποιούνται στις λιανικές πωλήσεις για να αναγνωριστούν προϊόντα που συχνά αγοράζονται µαζί. Χρησιµοποιούνται λοιπόν για να εντοπίσουν οµοιότητες µεταξύ διαφορετικών τύπων δεδοµένων και να επιτευχθεί καλύτερη κατανόηση της συµπεριφοράς των χρηστών. Οι κανόνες αυτοί 21 of 104

22 συνδέουν ένα ή περισσότερα (αρχικά µη συσχετιζόµενα) γεγονότα και ανακαλύπτουν σχέσεις που δε µπορούν εύκολα να προβλεφθούν. Ένας τέτοιος κανόνας έχει τη µορφή Α Β και υποδηλώνει µια σχέση εξάρτησης ανάµεσα σε δύο ξένα σύνολα στοιχείων Α και Β, δηλαδή υπολογίζει την πιθανότητα να συµβεί το Β µε δεδοµένο ότι έχει συµβεί το Α. Υπάρχουν δύο συντελεστές οι οποίοι αναφέρονται στην ποιότητα των ευρεθέντων συσχετίσεων της µορφής: Α Β: 1. Παράγοντας υποστήριξης (support) είναι ο λόγος των εγγραφών που ικανοποιούν και το Α και το Β ως προς το σύνολο των εγγραφών. 2. Παράγοντας εµπιστοσύνης (confidence) είναι ο λόγος των εγγραφών που ικανοποιούν και το Α και το Β ως προς τις εγγραφές που ικανοποιούν µόνο το A. Η µεγαλύτερη δυσκολία στην αναζήτηση κανόνων συσχέτισης είναι ο µεγάλος αριθµός τέτοιων κανόνων που θεωρητικά υπάρχουν σε µια βάση δεδοµένων και η επιλογή εκείνων που έχουν πρακτική αξία. Αυτό συνήθως γίνεται θέτοντας κάποιο κατώτατο όριο στις τιµές των µεγεθών Εµπιστοσύνη και Υποστήριξη. Σχήµα 6. Παράδειγµα Συσχετίσεων Για την ανακάλυψη κανόνων συσχέτισης είναι σηµαντικός ο αριθµός των περασµάτων στα δεδοµένα που εκτελεί ο αλγόριθµος. Έτσι υπάρχουν διάφοροι αλγόριθµοι, όπως ο Apriori που βασίζεται στην παραγωγή υποψήφιων συχνών συνόλων και ο FP-Growth, που έχει µεγάλες απαιτήσεις µνήµης, επειδή βασίζεται σε πολύπλοκες δενδρικές δοµές δεδοµένων που αποθηκεύουν µια συµπιεσµένη έκδοση της βάσης δεδοµένων στη µνήµη. 22 of 104

23 2.4.8 Ακολουθιακά Πρότυπα (Sequential Patterns) Με τον όρο ακολουθιακά πρότυπα µπορεί να αναφερόµαστε είτε σε σύνολα από αντικείµενα (itemsets), είτε σε ακολουθίες (sequences), είτε σε δοµές (structures), οι οποίες κάνουν την εµφάνισή τους µέσα σε µια βάση δεδοµένων µε συχνότητα µεγαλύτερη από µια προκαθορισµένη. Τα ακολουθιακά πρότυπα, που αποτελούν εξέλιξη των κανόνων συσχέτισης, χρησιµοποιήθηκαν για πρώτη φορά για τη µελέτη της σειράς αγοράς των προϊόντων από τους καταναλωτές. Για πάραδειγµα ένα σύνολο από αντικείµενα (γάλα, ψωµί, νερό) είναι συχνό, όταν εµφανίζονται πολλές φορές µαζί σε µια βάση αγορών, χωρίς να µας απασχολεί η σειρά µε την οποία θα αγοραστούν τα προϊόντα. Όταν όµως δεν µας ενδιαφέρει η ταυτόχρονη αγορά τους αλλά και η χρονολογική σειρά µε την οποία αγοράστηκαν, τότε µιλάµε για ακολουθία. Εποµένως, στόχος είναι η εξόρυξη των σχετικών µε το χρόνο ή άλλων ακολουθιακών προτύπων. Τρεις είναι οι βασικοί αλγόριθµοι για τον προσδιορισµό ακολουθιακών προτύπων, που όλοι άµεσα ή έµµεσα εξετάζουν την a priori ιδιότητα, σύµφωνα µε την οποία καθεµιά µη κενή υπό-συµβολοσειρά ενός ακολουθιακού προτύπου είναι ακολουθιακό πρότυπο. Στον αλγόριθµο GSP αναζητούνται και ελέγχονται υποψήφια ακολουθιακά πρότυπα οριζόντιας µορφής αποθήκευσης των εγγραφών της µορφής <ID_Ακολουθίας: ακολουθία αντικειµένων>. Ο αλγόριθµος SPADE είναι παρόµοιος µε τον αλγόριθµο GSP, µε τη µόνη διαφορά της κατακόρυφης αποθήκευσης των δεδοµένων, στην οποία κάθε αντικείµενο αναπαριστάνεται ως <αντικείµενο: ID_Ακολουθίας, ID_εγγραφής>. Τέλος, στον αλγόριθµο PrefixSpan που προέρχεται από τον αλγόριθµο FP-Growth δεν υπάρχει δηµιουργία συνόλων υποψήφιων υπό-συµβολοσειρών. 2.5 Προβλήµατα στην Ανακάλυψη Γνώσης Τα συστήµατα ανακάλυψης γνώσης στηρίζονται στην παροχή δεδοµένων εισόδου από βάσεις δεδοµένων, οι οποίες συνήθως είναι δυναµικές, µεγάλου µεγέθους, µε ελλιπή δεδοµένα καθώς και κάποιες φορές µε εσφαλµένα δεδοµένα. Επίσης, προκύπτει και το θέµα το κατά πόσο σχετικές και επαρκείς είναι οι πληροφορίες που βρίσκονται αποθηκευµένες στη βάση δεδοµένων. Έτσι εµφανίζεται µια σειρά από προβλήµατα, τα σηµαντικότερα από τα οποία τα διαπραγµατευόµαστε παρακάτω. Ακατάλληλα Δεδοµένα Οι βάσεις δεδοµένων τις περισσότερες φορές δεν είναι σχεδιασµένες κατάλληλα για την ανακάλυψη γνώσης. Πεδία τα οποία είναι απαραίτητα για σηµαντικές ανακαλύψεις όχι 23 of 104

24 µόνο λείπουν αλλά και υπάρχουν περιπτώσεις που είναι αδύνατον να συλλεχθούν από το χρήστη. Θόρυβος στα δεδοµένα Ο θόρυβος αντιπροσωπεύει την ύπαρξη τυχαίων λαθών σε τιµές χαρακτηριστικών, δηλαδή τιµών που αποκλίνουν κατά πολύ από τις αναµενόµενες αποδεκτές τιµές. Βασικά προβλήµατα που αντιµετωπίζονται και επιλύονται είναι η ύπαρξη διπλών εγγραφών και ο προσδιορισµός πεδίων µε λανθασµένες τιµές. Οι διαφορετικές αυτές µορφές θορύβου στα δεδοµένα µπορεί να είναι αποτέλεσµα ανθρώπινων λαθών, οπότε του εντοπισµού τους έπεται είτε η διόρθωσή τους είτε η παράβλεψη των σχετικών εγγραφών ή µπορεί να είναι αποτέλεσµα της επίδρασης των αλλαγών του λειτουργικού συστήµατος στο περιβάλλον εξόρυξης δεδοµένων. Ελλιπείς τιµές Ένα άλλο πρόβληµα που αντιµετωπίζουµε στην ανακάλυψη γνώσης είναι η ύπαρξη πεδίων χωρίς τιµές ή τιµών που ουσιαστικά τα καθιστούν κενά. Ορισµένες µέθοδοι αντιµετώπισης του προβλήµατος αυτού είναι: Παράβλεψη εγγραφών που περιέχουν πεδία χωρίς τιµές. Είναι κατάλληλη για τις εγγραφές στις οποίες πολλά πεδία δεν περιέχουν τιµές, µε ορατό όµως τον κίνδυνο απώλειας πολύτιµων δεδοµένων. Παράβλεψη µεταβλητών για τις οποίες πολλές εγγραφές δεδοµένων δεν έχουν τιµές, µε ορατό όµως τον κίνδυνο απόρριψης µεταβλητών σηµαντικών στην ανακάλυψη γνώσης. Χειροκίνητη συµπλήρωση κενών πεδίων µε το µέσο όρο των τιµών του συγκεκριµένου πεδίου. Χρήση στατιστικών µεθόδων για τον υπολογισµό της πιο πιθανής τιµής για τα κενά πεδία. Αραιά Δεδοµένα Ο χώρος αναζήτησης κατά την διαδικασία αναζήτησης γνώσης σε δεδοµένα, καθορίζεται ύστερα από την ένωση όλων των συνόλων που ορίζονται τα πεδία. Πολλές φορές όµως ο χώρος αναζήτησης καλύπτει ένα µικρό µόνο µέρος, µε αποτέλεσµα η αναζήτηση να µην µπορεί να ολοκληρώσει επιτυχώς οποιαδήποτε µέθοδο εξόρυξης δεδοµένων. Δείγµατα Η χρήση δείγµατος είναι σχεδόν πάντα επιβεβληµένη, καθώς οι πραγµατικές βάσεις δεδοµένων έχουν τεράστιο αριθµό εγγραφών ενώ πολλοί αλγόριθµοι KDD απαιτούν τα 24 of 104

25 δεδοµένα εκπαίδευσης να είναι όλα στη µνήµη. Η λήψη ενός δείγµατος απαιτεί µεγάλη προσοχή και εφαρµογή στατιστικών τεχνικών, ώστε να αντιπροσωπεύει ικανοποιητικά την αρχική βάση. Πρόσφατα Δεδοµένα Καθώς οι βάσεις δεδοµένων είναι δυναµικές, το περιεχόµενο και το µέγεθός τους µεταβάλλεται εφόσον νέα πληροφορία εισάγεται, τροποποιείται ή διαγράφεται. Κανόνες που έχουν εξαχθεί από προηγούµενη µη ενηµερωµένη βάση, είναι πολύ πιθανό να µην έ- χουν ισχύ για τα νέα δεδοµένα και να χρειάζονται προσαρµογή µέσω κατάλληλων τεχνικών, όπου θα ανανεώνουν την υπάρχουσα γνώση εξετάζοντας µόνο τα επιπλέον δεδοµένα και όχι το σύνολο των δεδοµένων από την αρχή. Μέγεθος Βάσης Δεδοµένων Η εφαρµογή της αναζήτησης γνώσης σε βάσεις δεδοµένων τεράστιου µεγέθους έχει ως αποτέλεσµα τη δηµιουργία προβληµάτων. Τέτοια προβλήµατα είναι η χρονοβόρα εκτέλεση των αλγορίθµων, η οποία σχετίζεται µε το πλήθος των εγγραφών και η αναγκαιότητα ελέγχου της εγκυρότητας και της ορθότητας του πλήθους των πεδίων ανά εγγραφή. 25 of 104

26 ΚΕΦΑΛΑΙΟ 3: ΙΑΤΡΙΚΑ ΔΕΔΟΜΕΝΑ ΥΠΟ ΜΕΛΕΤΗ 26 of 104

27 3. ΙΑΤΡΙΚΑ ΔΕΔΟΜΕΝΑ ΥΠΟ ΜΕΛΕΤΗ Με τη µηχανοργάνωση στα νοσοκοµεία, τη σταθερή ανάπτυξη των ηλεκτρονικών αρχείων ασθενών και των συστηµάτων κλινικής ιατρικής πληροφορικής, τα δεδοµένα που συλλέγονται για τη συνήθη κλινική χρήση, συσσωρεύονται µε δραµατικό ρυθµό. Το περιβάλλον της υγειονοµικής περίθαλψης γενικά θεωρείται ότι είναι «πλούσιο σε πληροφορίες» αλλά «φτωχό σε γνώση». Μπορεί να υπάρχουν πολλά δεδοµένα διαθέσιµα στα συστήµατα υγειονοµικής περίθαλψης, ωστόσο υπάρχει έλλειψη αποτελεσµατικών εργαλείων ανάλυσης για την ανακάλυψη κρυφών σχέσεων και τάσεων στα δεδοµένα. Η εξόρυξη δεδοµένων είναι ένα ουσιαστικό βήµα της ανακάλυψης γνώσης. Τα τελευταία χρόνια έχει προσελκύσει µεγάλο ενδιαφέρον για τη βιοµηχανία πληροφοριών. Η διαδικασία εντοπισµού γνώσης αποτελείται από µια επαναληπτική ακολουθία καθαρισµού δεδοµένων, ενσωµάτωσης δεδοµένων, επιλογής δεδοµένων, αναγνώρισης προτύπων εξόρυξης δεδοµένων και παρουσίασης γνώσης. Ειδικότερα, η εξόρυξη δεδοµένων µπορεί να ολοκληρώσει την περιγραφή, τη συσχέτιση, την ταξινόµηση, την οµαδοποίηση, την πρόβλεψη και την ανάλυση χρονοσειρών. Παρέχει αυτόµατη αναγνώριση προτύπων και προσπαθεί να ανακαλύψει πρότυπα σε δεδοµένα που είναι δύσκολο να ανιχνευθούν µε τις παραδοσιακές στατιστικές µεθόδους. Για να είναι επιτυχηµένη η οργάνωση της υγειονοµικής περίθαλψης, πρέπει να υπάρχει η δυνατότητα της συλλογής, της αποθήκευσης και της ανάλυσης δεδοµένων. Σχήµα 7. Ο Κύκλος της Εξόρυξης Δεδοµένων στον Τοµέα της Υγείας [4] 27 of 104

28 Χωρίς την εξόρυξη δεδοµένων είναι δύσκολο να αξιοποιηθεί πλήρως το δυναµικό των δεδοµένων που συλλέγονται στο πλαίσιο της οργάνωσης της υγειονοµικής περίθαλψης, δεδοµένου ότι τα υπό ανάλυση δεδοµένα είναι τεράστια, κατανεµηµένα και αβέβαια. Με την εξόρυξη ιατρικών δεδοµένων δίνεται η δυνατότητα της εξερεύνησης κρυµµένων µοτίβων στα σύνολα δεδοµένων του ιατρικού τοµέα, τα οποία µπορούν να χρησιµοποιηθούν για κλινική διάγνωση. Παράλληλα, τα µαζικά δεδοµένα µπορούν να µετατραπούν σε πληροφορίες και γνώσεις, οι οποίες µπορούν να συµβάλλουν στον έλεγχο, το κόστος και τη διατήρηση της υψηλής ποιότητας φροντίδας των ασθενών. Τα αρχεία θεραπείας εκατοµµυρίων ασθενών µπορούν να αποθηκευτούν και να µηχανογραφηθούν και οι τεχνικές εξόρυξης δεδοµένων µπορούν να βοηθήσουν απαντώντας σε αρκετά σηµαντικά και κρίσιµα ζητήµατα που σχετίζονται µε την υγειονοµική περίθαλψη. Στη συνέχεια θα παρουσιαστεί η εφαρµογή των τεχνικών Εξόρυξης Γνώσης σε κλινικά νοσοκοµειακά δεδοµένα και συγκεκριµένα σε δεδοµένα ασθενών που πάσχουν από νεφρική ανεπάρκεια. 3.1 Περιγραφή των Δεδοµένων Σύµφωνα µε τα πιο πρόσφατα δηµοσιευµένα στοιχεία του Εθνικού Αρχείου Καταγραφής Νεφροπαθών, σε όλη την Ελλάδα το 2012 λειτουργούσαν 164 Μονάδες Εξωνεφρικής Κάθαρσης (ΜΕΚ), όπου αιµοκαθαίρονταν ασθενείς. Τα δεδοµένα που χρησιµοποιήσαµε, προέρχονται από την ΜΕΚ του Γενικού Νοσοκοµείου Παπαγεωργίου Θεσσαλονίκης, το οποίο αποτελεί και τη µεγαλύτερη κρατική µονάδα όσον αφορά τον αριθµό των αιµοκαθαιρόµενων ασθενών, έχοντας περίπου 170 µόνιµους ασθενείς σε πρόγραµµα χρόνιας αιµοκάθαρσης. Όλοι οι ασθενείς της µονάδας πάσχουν από χρόνια νεφρική ανεπάρκεια τελικού σταδίου. Η χρόνια νεφρική ανεπάρκεια είναι η προοδευτική, µη αναστρέψιµη µείωση της νεφρικής λειτουργίας, η οποία προκαλείται από βλάβη του νεφρού ποικίλης αιτιολογίας. Κάθε νεφρός περιέχει περίπου ένα εκατοµµύριο µικροσκοπικά φίλτρα, τους νεφρώνες, τα οποία καθαρίζουν το αίµα από τις άχρηστες ουσίες που παράγονται από το µεταβολισµό. Επίσης, ρυθµίζουν το νερό και τους ηλεκτρολύτες του οργανισµού. Σε κάποιες περιπτώσεις, κάποιοι νεφρώνες αρχίζουν να υπολειτουργούν και να καταστρέφονται και έτσι οι νεφροί δε µπορούν να επιτελέσουν σωστά τον ρόλο τους. Η χρόνια νεφρική ανεπάρκεια διακρίνεται σε 5 στάδια, αρχίζοντας από την ήπια και µπορεί να φτάσει µέχρι το τελικό στάδιο, µια διαδικασία που µπορεί να διαρκέσει από λίγες ηµέρες έως πολλά χρόνια. Στο τελικό στάδιο 28 of 104

29 της νόσου ο ασθενής χρειάζεται άµεση υποστήριξη της νεφρικής του λειτουργίας, µε αιµοκάθαρση ή περιτοναϊκή κάθαρση. Οι πιο κοινές αιτίες που προκαλούν τη χρόνια νεφρική ανεπάρκεια είναι: Η υψηλή αρτηριακή πίεση Ο σακχαρώδης διαβήτης Διάφορες παθήσεις που προσβάλλουν τα νεφρά (σπειραµατονεφρίτιδα, πολυκυστική νόσος των νεφρών κ.ά.) Στένωση της νεφρικής αρτηρίας Μακροχρόνια λήψη φαρµάκων, όπως τα αντιφλεγµονώδη Στα πρώτα στάδια της νόσου οι περισσότεροι ασθενείς µπορεί να µην έχουν κανένα σύµπτωµα. Όσο όµως η νόσος εξελίσσεται, και ιδιαίτερα λίγο πριν το τελικό της στάδιο, τα συµπτώµατα που µπορεί να εµφανιστούν είναι: Μειωµένη παραγωγή ούρων Οίδηµα κάτω άκρων Κούραση, υπνηλία, καταβολή Ναυτία ή και έµετοι Ανορεξία Πονοκέφαλος και προβλήµατα ύπνου Απώλεια βάρους Σύγχυση Η θνητότητα των αιµοκαθαιρόµενων ασθενών είναι ιδιαίτερα µεγάλη µε κυριότερη αιτία θανάτου τα καρδιαγγειακά επεισόδια και τις λοιµώξεις. Τα ποσοστά επιβίωσης των ασθενών στο πρώτο, δεύτερο και πέµπτο έτος από την έναρξη της αιµοκάθαρσης είναι 81%, 67% και 41% αντίστοιχα. Όµως ο αριθµός των αιµοκαθαιρόµενων συνεχώς αυξάνεται, διότι ο αριθµός των νέων ασθενών που εντάσσονται είναι όλο και µεγαλύτερος. Κατά τη διάρκεια του έτους 2000, ασθενείς εντάχθηκαν στην αιµοκάθαρση (131,9 ασθενείς ανά εκ.πλ.) ενώ ο αριθµός των νέων ασθενών κατά το έτος 2011 ανήλθε στους ασθενείς (191,2 ασθενείς ανά εκ.πλ.). 29 of 104

30 3.2 Η Βάση Δεδοµένων Στη βάση δεδοµένων ΜainMedicalData.xlsx είναι καταγεγραµµένοι 630 ασθενείς του τεχνητού νεφρού. Στη βάση αναγράφονται στοιχεία που σχετίζονται µε τα δηµογραφικά στοιχεία των ασθενών και τις µετρήσεις εργαστηριακών εξετάσεων σχετικών µε την ασθένεια της νεφρικής ανεπάρκειας. Είναι σηµαντικό να τονίσουµε ότι πρόκειται για ανώνυµα δεδοµένα. Επίσης, δεν πρέπει να παραλείψουµε να αναφέρουµε ότι στη βάση αναγράφεται ένα ιστορικό από εξετάσεις που έχει κάνει ο κάθε ασθενής, διαχωρισµένες ανά τετράµηνο για το πρώτο έτος και στη συνέχεια ανά έτος. Εποµένως, εύκολα κατανοούµε πως οι εργαστηριακές µετρήσεις των εξετάσεων δηµιουργούν χρονοσειρές. Όλες οι µεταβλητές της βάσης δεδοµένων καθώς και η αναλυτική περιγραφή της κάθε µίας, παρουσιάζονται αναλυτικά στον παρακάτω πίνακα. 30 of 104

31 Πρέπει να αναφέρουµε ότι το στάδιο αυτό της εύρεσης και συλλογής των δεδοµένων ήταν αρκετά δύσκολο και χρονοβόρο, παρά το γεγονός ότι το ΓΝ Παπαγεωργίου διατηρεί ηλεκτρονικό ιατρικό φάκελο ασθενών καθώς και ηλεκρονικό αρχείο µε τις εργαστηριακές εξετάσεις κάθε ασθενούς. Όµως έπρεπε όλα αυτά τα στοιχεία να µεταφερθούν στο excel, να καθαριστούν από λανθασµένες ή περιττές πληροφορίες και να συµπληρωθούν τα κενά µε πληροφορίες που βρίσκονταν σε άλλα αρχεία. 3.3 Προεπεξεργασία και Μετασχηµατισµός των Δεδοµένων Το στάδιο της συλλογής και επιλογής των δεδοµένων ακολουθείται από τα στάδια της προεπεξεργασίας και µετασχηµατισµού των δεδοµένων, όπου γίνεται προσπάθεια 31 of 104

32 αντιµετώπισης των διαφόρων προβληµάτων που έχουν σχέση µε τη µορφή των δεδοµένων, µε απώτερο σκοπό τον µετασχηµατισµό τους σε µορφές κατάλληλες προς επεξεργασία. Ορισµένες ενέργειες που υλοποιήθηκαν είναι η διαγραφή µεταβλητών που δε µεταφέρουν καµιά ουσιαστική πληροφορία καθώς και η διαγραφή εγγραφών που περιέχουν πολλά πεδία ελλιπών τιµών, η διακριτοποίηση συνεχών αριθµητικών τιµών και η αντικατάστασή τους µε κατηγορηµατικές και τέλος η ανάθεση βαρών µε βάση τη σηµαντικότητα κάθε µεταβλητής. Πρέπει να σηµειωθεί ότι επειδή οι παραπάνω διαδικασίες είναι αρκετά περίπλοκες και τυχόν λάθη µπορεί να επηρεάσουν την ποιότητα και την ορθότητα των δεδοµένων προς ανάλυση, σε αυτό το στάδιο ζητήθηκε η συµβουλή των επιστηµόνων της υγείας και πιο συγκεκριµένα νεφρολόγου της ΜΕΚ. Πρώτα από όλα πραγµατοποιήθηκε η διαγραφή εγγραφών από τη βάση, δηλαδή ασθενών όπου οι εργαστηριακές τους εξετάσεις περιείχαν πολλά πεδία µε ελλιπείς τιµές. Έτσι ο αριθµός των ασθενών µειώθηκε στους 507. Ακολούθησε η διακριτοποίηση και η ανάθεση βαρών, η οποία έγινε κατά κύριο λόγο µε κριτήριο τις διαταραχές που µπορεί να εµφανίζουν ορισµένοι ασθενείς. Πιο συγκεκριµένα, διαταραχές που συχνά εµφανίζονται στους αιµοκαθαιρόµενους ασθενείς και θα µπορούσαν να επηρεάσουν τις εργαστηριακές τους εξετάσεις είναι η σιδηροπενική αναιµία, ο δευτεροπαθής υπερπαραθυρεοειδισµός, η αδυναµική οστική νόσος και η υποθρεψία αυτών των ασθενών. Η σιδηροπενική αναιµία µπορεί να διαγνωσθεί από τα επίπεδα της φερριτίνης και του κορεσµού της τρανσφερίνης. Ο δευτεροπαθής υπερπαραθυρεοειδισµός χαρακτηρίζεται από σχετικά αυξηµένα επίπεδα παραθορµόνης, αλκαλικής φωσφατάσης και φωσφόρου και από χαµηλά επίπεδα ασβεστίου. Η αδυναµική οστική νόσος χαρακτηρίζεται από σχετικά χαµηλά επίπεδα παραθορµόνης, αλκαλικής φωσφατάσης, φωσφόρου και αυξηµένα επίπεδα ασβεστίου. Τέλος, η υποθρεψία χαρακτηρίζεται από σχετικά χαµηλά επίπεδα αλβουµίνης, ουρίας, χοληστερίνης και κρεατινίνης. Ανάλογα µε τη σπουδαιότητα των παραµέτρων που συνδέονται µε τη διάγνωση των παραπάνω καταστάσεων, οι παράµετροι αυτοί συνοδεύτηκαν και από κατάλληλα βάρη. Το εύρος των βαρών για τις συγκεκριµένες παραµέτρους κυµαίνεται µεταξύ των ακεραίων 2-6. Τέλος, η διακριτοποίηση των παραπάνω συνεχών µεταβλητών που χαρακτηρίζουν τις διαταραχές, πραγµατοποιήθηκε µε γνώµονα τη διεθνώς αποδεκτή ιατρική γνώση. Όλες οι υπόλοιπες συνεχείς µεταβλητές, για τις οποίες δεν υπάρχει ιδιαίτερη αναφορά στη προηγούµενη παράγραφο και κατα συνέπεια δεν αποτελούν παράγοντα για την εµφάνιση κάποιας διαταραχής, διακριτοποιήθηκαν µε βάση τη διαίρεσή τους σε τριτηµόρια. Ίσως κάποιος ισχυριζόταν ότι η διακριτοποίηση θα έπρεπε να γίνει µε βάση τις φυσιολογικές τιµές των διάφορων µεταβλητών. Όµως, στους αιµοκαθαιρόµενους ασθενείς αυτός ο διαχωρισµός δεν είναι ο κατάλληλος, διότι αφενός οι τιµές πολλών µεταβλητών 32 of 104

33 είναι στην πλειοψηφία των ασθενών µη φυσιολογικές (π.χ. κρεατινίνη, ουρία, αιµατοκρίτης, φωσφόρος, κάλιο, παραθορµόνη), αφετέρου οι φυσιολογικές τιµές δεν είναι πάντα και οι καλύτερες. Στους αιµοκαθαιρόµενους ασθενείς παρατηρείται, αντίθετα µε τον υπόλοιπο πληθυσµό, µια παράδοξη επιδηµιολογία π.χ. οι αυξηµένες τιµές της χοληστερίνης σχετίζονται παραδόξως µε καλύτερη επιβίωση. Παρόµοια, οι φυσιολογικές τιµές αιµατοκρίτη σχετίζονται µε αυξηµένη νοσηρότητα και θνησιµότητα συγκριτικά µε όσους έχουν µια µετρίου βαθµού αναιµία. Πρέπει να αναφέρουµε ότι για τις µεταβλητές που δεν αποτελούν παράγοντα για την εµφάνιση κάποιας από τις παραπάνω διαταραχές, θέσαµε ως βάρος τον ακέραιο αριθµό 1, διότι δεν θέλαµε να δώσουµε τόση µεγάλη έµφαση σε εκείνες. Βασικός µας στόχος ήταν να δώσουµε µεγαλύτερη βαρύτητα στις µεταβλητές που αφορούν τις διαταραχές, διότι όπως θα δούµε αναλυτικά στο επόµενο κεφάλαιο, οι διαταραχές οι οποίες είναι πιθανό να εµφανίζονται σε ορισµένους ασθενείς, αποτέλεσαν στην παρούσα πτυχιακή το σηµαντικότερο κριτήριο εντοπισµού οµοιοτήτων µεταξύ των ασθενών. Στον πίνακα 2 αναγράφονται οι τέσσερεις διαταραχές που προαναφέραµε καθώς και οι τιµές των µεταβλητών στις οποίες βασίζεται η διαγνωσή τους. 33 of 104

34 Οι µετασχηµατισµοί στις συνεχείς µεταβλητές που πραγµατοποιήθηκαν µε γνώµονα τις διαταραχές καθώς και τα βάρη κάθε µεταβλητής αποτυπώνονται στους παρακάτω πίνακες. 34 of 104

35 Οι µετασχηµατισµοί και τα βάρη των λοιπών συνεχών µεταβλητών που είναι ανεξάρτητες των διαταραχών, αποτυπώνονται στον παρακάτω πίνακα. Να αναφέρουµε πως όσες µετάβλητες δεν αναφέρονται στον παρακάτω πίνακα και δεν περιλαµβάνονται ούτε στους πίνακες που σχετίζονται µε τις διαταραχές, κρίθηκαν ότι δε µεταφέρουν καµιά ουσιαστική πληροφορία και για το λόγο αυτό δεν έχουν ληφθεί καθόλου υπόψη και κατά συνέπεια δε θα περιλαµβάνονται στη νέα µετασχηµατισµένη βάση δεδοµένων. 35 of 104

36 Πρέπει να σηµειώσουµε ότι οι παραπάνω µετασχηµατισµοί σε όλες τις µεταβλητές δεν είναι απόλυτα δεσµευτικοί. Όπως προαναφέραµε ορισµένες µεταβλητές µετασχηµατίστηκαν µε βάση τις συµβουλές των ιατρών σύµφωνα µε τη διεθνή βιβλιογραφία και άλλες µε βάση τη διαίρεσή τους σε τριτηµόρια. Σε περίπτωση που κατά την εφαρµογή εξόρυξης γνώσης προκύψουν νέα δεδοµένα και απαιτήσεις για άλλου είδους διακριτοποιήσεις, αυτές είναι δυνατό και αποδεκτό να υλοποιηθούν. 36 of 104

37 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΖΗΤΗΣΗ ΠΛΗΣΙΕΣΤΕΡΟΥ ΓΕΙΤΟΝΑ ΣΕ ΔΕΔΟΜΕΝΑ ΥΨΗΛΩΝ ΔΙΑΣΤΑΣΕΩΝ 37 of 104

38 4. ΑΝΑΖΗΤΗΣΗ ΠΛΗΣΙΕΣΤΕΡΟΥ ΓΕΙΤΟΝΑ ΣΕ ΔΕΔΟΜΕΝΑ ΥΨΗΛΩΝ ΔΙΑΣΤΑΣΕΩΝ Οι πολυπαραµετρικές χρονολογικές σειρές ή αλλιώς χρονοσειρές είναι µορφές δεδοµένων που συναντούµε όλο και συχνότερα τα τελευταία χρόνια. Πουθενά η τάση αυτή δεν είναι πιο προφανής από ό,τι στην υγειονοµική περίθαλψη, όπου η αυξανόµενη υιοθέτηση συστηµάτων ηλεκτρονικών ιατρικών αρχείων είναι γεγονός. Σύµφωνα µε µία έρευνα του 2009, οι νοσοκοµειακές µονάδες εντατικής θεραπείας στις Ηνωµένες Πολιτείες (ΗΠΑ) αντιµετώπισαν σχεδόν ασθενείς την ηµέρα, δηµιουργώντας ψηφιακές βάσεις δεδοµένων υγείας που περιέχουν εκατοµµύρια µεµονωµένες µετρήσεις, πολλές από τις οποίες αποτελούν πολυδιάστατες χρονολογικές σειρές. Οι κλινικοί γιατροί φυσικά θέλουν να χρησιµοποιήσουν αυτά τα δεδοµένα µε καινοτόµους τρόπους για να βοηθήσουν στη διάγνωση και θεραπεία νέων ασθενών. Μια ολοένα και πιο δηµοφιλής ιδέα είναι η πραγµατοποίηση µιας µορφής αναζήτησης σε κλινικές βάσεις δεδοµένων, µε σκοπό να βρεθούν παλαιότερες περιπτώσεις ασθενών που είναι παρόµοιες µε αντίστοιχες πρόσφατες περιπτώσεις. Το πρόβληµα αυτό της αναζήτησης οµοιότητας, επίσης γνωστό και ως αναζήτηση πλησιέστερου γείτονα, στοχεύει στην εύρεση ενός στοιχείου που είναι το πλησιέστερο ως προς ένα συγκεκριµένο στοιχείο ερωτήµατος, µε βάση κάποιο µέτρου απόστασης. Ωστόσο, η αναζήτηση οµοιότητας σε δεδοµένα πολλών διαστάσεων είναι δύσκολη, διότι: (1) Ο υπολογισµός τoυ βαθµού οµοιότητας µεταξύ πολυδιάστατων σηµείων του χώρου, είναι συχνά υπολογιστικά ακριβός. (2) Δεν υπάρχει καµία τελική συµφωνία για το ποιο είναι το καλύτερο µέτρο οµοιότητας, αφού διαφορετικά µέτρα οµοιότητας λειτουργούν καλύτερα σε διαφορετικά δεδοµένα. Στη συνέχεια του κεφαλαίου, µέσω της υλοποίησης και εφαρµογής ορισµένων τεχνικών, γίνεται µία προσπάθεια αντιµετώπισης των παραπάνω δυσκολιών. Αρχικά, παρουσιάζεται αναλυτικά ένα γενικευµένο framework κατακερµατισµού, το λεγόµενο locality sensitive hashing, το οποίο στοχεύει στην επιτάχυνση του χρόνου αναζήτησης οµοιότητων. Έπειτα ακολουθεί ανάλυση και δοκιµή ορισµένων µέτρων απόστασης (ή αλλιώς µέτρων 38 of 104

39 οµοιότητας), µε στόχο την εύρεση εκείνου του µέτρου που προσφέρει τη µεγαλύτερη ακρίβεια για τα δεδοµένα µας. Στοχεύοντας στην εύρεση του βέλτιστου µέτρου εφαρµόζεται επίσης και µία τεχνική συσταδοποίησης, η λεγόµενη Κ-Means, η οποία δηµιουργεί συστάδες οµοίων αντικειµένων µε βάση κάποιο µέτρο απόστασης. Είναι σηµαντικό να αναφέρουµε ότι στις τεχνικές εύρεσης του πλησιέστερου γείτονα που θα αναλύσουµε παρακάτω, χρησιµοποιήσαµε ένα δείγµα µόνο των ιατρικών δεδοµένων. Πιο συγκεκριµένα χρησιµοποιήσαµε τις κλινικές µετρήσεις µόνο του πρώτου εξαµήνου κάθε ασθενή, µε την προοπτική να βρούµε οµοιότητες µεταξύ ασθενών κατά την εισαγωγή τους στη µονάδα του τεχνητού νεφρού. Οι όµοιοι ασθενείς δυνητικά µπορούν να είναι πολύ χρήσιµοι, διότι παρακολουθώντας την πορεία των παλαιότερων χρονικά ασθενών, µπορούµε να χρησιµοποιήσουµε τη γνώση αυτή στην παρακολούθηση των νεότερων. 4.1 Η Έννοια του Πλησιέστερου Γείτονα στα Δεδοµένα του Τεχνητού Νεφρού Οι εξετάσεις κάθε ασθενή περιλαµβάνουν ένα µεγάλο αριθµό µεταβλητών, µε συνέπεια ένας επιστηµόνας της υγείας να είναι αδύνατον να προσδιορίσει τους ασθενείς εκείνους, των οποίων οι µεταβλητές ως σύνολο µοιάζουν περισσότερο µεταξύ τους. Το πρόβληµα αυτό της εύρεσης οµοιοτήτων µεταξύ ασθενών γίνεται ακόµα πιο δύσκολο γνωρίζοντας ότι η διαγνώση (νεφρική ανεπάρκεια τελικού σταδίου) είναι κοινή για όλους τους ασθενείς της βάσης. Παρά τις δυσκολίες στην εύρεση κάποιου κριτηρίου το οποίο θα µπορέσει να προσδιορίσει τις οµοιότητες µεταξύ των ασθενών, βρέθηκε ένας τρόπος προσέγγισης µέσω της οµαδοποίησης. Πιο συγκεκριµένα, πραγµατοποιήθηκε οµαδοποίηση των ασθενών µε γνώµονα ένα σύνολο µεταβλητών, που σχετίζονται µε τέσσερις βασικές διαταραχές των ασθενών υπό αιµοκάθαρση. Με τον τρόπο αυτό οι διαταραχές, οι οποίες είναι πιθανό να εµφανίζονται στους ασθενείς, µπορούν να αποτέλεσουν το κριτήριο εντοπισµού οµοιοτήτων µεταξύ των ασθενών. Δηλαδή, ασθενείς που πάσχουν από τις ίδιες διαταραχές και κατά συνέπεια ανήκουν στην ίδια οµάδα, θα θεωρούνται και πλησιέστεροι γείτονες. Γι αυτό το λόγο, όπως αναφέρθηκε ήδη στο προηγούµενο κεφάλαιο, κατά το στάδιο της προεπεξεργασίας και µετασχηµατισµού των δεδοµένων, ο καταµερισµός των βαρών στις µεταβλητές έγινε µε τέτοιο τρόπο, ώστε να δοθεί µεγαλύτερη βαρύτητα στις µεταβλητές που σχετίζονται µε διαταραχές των ασθενών. 39 of 104

40 Με βάση τις πιθανές διαταραχές από τις οποίες µπορεί να πάσχει κάποιος ασθενής, έχουµε δηµιουργήσει δώδεκα οµάδες, στις οποίες έχουµε κατατάξει τους ασθενείς. Οι δώδεκα σε αριθµό οµάδες ασθενών παρουσιάζονται αναλυτικά στον Πίνακα 7 και προκύπτουν από τις 4 διαταραχές (σιδηροπενική αναιµία / ΣΙΔΗΡ, ο δευτεροπαθής υπερπαραθυρεοειδισµός / ΔΥΠΘ, η αδυναµική οστική νόσος / ΑΔΟΝ, υποθρεψία / ΥΠΟΘΡΕ) µεµονοµένα αλλά και συνδυαστικά. Να σηµειώσουµε ότι ο δευτεροπαθής υπερπαραθυρεοειδισµός δε µπορεί να συνδυαστεί µε την αδυναµική οστική νόσο, διότι οι µεταβλητές οι οποίες χαρακτηρίζουν τις συγκεκριµένες διαταραχές είναι κοινές και το µόνο που αλλάζει είναι τα διαστήµατα στα οποία κυµαίνονται οι τιµές αυτών των µεταβλητών. Ετσι, δεν είναι δυνατόν ένας ασθενής που πάσχει από τη διαταραχή του δευτεροπαθούς υπερπαραθυρεοειδισµού να εµφανίζει ταυτόχρονα και αδυναµική οστική νόσο ή το αντίστροφο. Πίνακας 7. Οµάδες Ασθενών µε βάση τις Διαταραχές 4.2 To Πρόβληµα Aναζήτησης του Πλησιέστερου Γείτονα (Nearest Neighbor Search) Η αναζήτηση πλησιέστερου γείτονα (Nearest neighbor search - NNS) ή αλλιώς η αναζήτηση οµοιότητας (Similarity search - SS) είναι ένα από τα θεµελιώδη προβλήµατα στην επιστήµη 40 of 104

41 των υπολογιστών. Σε αυτό το πρόβληµα δίνεται συνήθως µια γιγαντιαία συλλογή δεδοµένων C R D και ένα ερώτηµα q R D. Ο στόχος είναι να αναζητήσουµε το σηµείο x C, το οποίο ελαχιστοποιεί (ή µεγιστοποιεί) την απόσταση (ή την οµοιότητα) µε το ερώτηµα q, δηλαδή µας ενδιαφέρει όπου Dist είναι η µετρική απόστασης που χρησιµοποιούµε. Για να δουλέψουµε µε οµοιότητες µπορούµε να αλλάξουµε σε argmax και να αντικαταστήσουµε την απόσταση µε την κατάλληλη οµοιότητα. Οι αλγόριθµοι αναζήτησης του πλησιέστερου γείτονα αποτελούν ένα από τα βασικά δοµικά στοιχεία πολλών εφαρµογών, όπως η αναγνώριση προτύπων, η µηχανική µάθηση, η αναζήτηση ερωτηµάτων, η υπολογιστική όραση, κλπ. Με τη ραγδαία αύξηση των δεδοµένων τα τελευταία χρόνια, αυξήθηκε και το µέγεθος της συλλογής δεδοµένων C, όπως είναι για παράδειγµα τα εγγράφα κειµένου στο διαδίκτυο, οι εικόνες και άλλα συνόλα δεδοµένων. Μια γραµµική σάρωση είναι υπολογιστικά ακριβής σε αυτήν την κλίµακα, µε συνέπεια να είναι ανέφικτη η σάρωση ολόκληρης της συλλογής για την εξέταση κάθε ερωτήµατος. Για να µετριαστεί αυτό το πρόβληµα, υπάρχουν πολλοί τρόποι δηµιουργίας έξυπνων δοµών δεδοµένων, που µπορούν να απαντήσουν αποτελεσµατικά στις ερωτήσεις γειτνίασης. Αυτές οι δοµές δεδοµένων απαιτούν µία δαπανηρή προεπεξεργασία της συλλογής C κατά τη διάρκεια της κατασκευής της. Μετά από αυτήν την προ-επεξεργασία, η εξέταση του ερώτηµατος είναι πολύ γρήγορη και ο χρόνος εκτέλεσης υπο-γραµµικός ανάλογα µε το µέγεθος της συλλογής. Οι πρώιµες τεχνικές που υλοποιήθηκαν για την αναζήτηση πλησιέστερου γείτονα σε υπο-γραµµικό χρόνο, βασίστηκαν σε ντετερµινιστικές µεθόδους διαχωρισµού χώρου, όπως είναι τα kd-trees και τα διαγράµµατα Voronoi. Αργότερα διαπιστώθηκε ότι οι τεχνικές που βασίζονται στο διαχωρισµό χώρου υποφέρουν από την κατάρα της διαστασιµότητας (curse of dimensionality), διότι σε πολύ µεγάλες διαστάσεις οι τεχνικές αυτές είναι αδύνατον να επιτύχουν υπο-γραµµική απόδοση και ο χρόνος εκτέλεσης συνήθως µειώνεται εκθετικά µε τον αριθµό των διαστάσεων. Εποµένως καταλήγουµε πως όλες οι τρέχουσες τεχνικές που βασίζονται στο διαχωρισµό χώρου οδηγούν σε γραµµική αναζήτηση, όταν οι διαστάσεις των δεδοµένων είναι µεγάλες. Για αυτόν το λόγο προκύπτει η ανάγκη εύρεσης µίας τεχνικής που θα επιλύσει αποτελεσµατικά το πρόβληµα της εύρεσης πλησιέστερου γείτονα, ανεξάρτητα από τη διαστατικότητα των δεδοµένων. 41 of 104

42 4.3 Παραλλαγές στην Aναζήτηση Πλησιέστερου Γείτονα Ο αλγόριθµος αναζήτησης πλησιέστερου γείτονα (NNS) βρίσκει το πλησιέστερο σηµείο x µε βάση κάποιο ερώτηµα q. Υπάρχουν πολλές παραλλαγές του προβλήµατος NNS και οι δύο πιο γνωστές είναι η αναζήτηση k-πλησιέστερων γειτόνων και η προσεγγιστική αναζήτηση πλησιέστερου γείτονα Αναζήτηση k-πλησιέστερων Γειτόνων (k-nearest Neighbor Search) Η αναζήτηση K-πλησιέστερων γειτόνων (k-nn) προσδιορίζει τους κορυφαίους k πλησιέστερους γείτονες ενός ερωτήµατος q. Πιο συγκεκριµένα, έστω ότι R = {r1, r2,, rm είναι ένα σύνολο από m σηµεία αναφοράς µε τιµές στον R D χώρο και q είναι ένα ερώτηµα στον ίδιο χώρο. Το πρόβληµα αναζήτησης k-nn συνίσταται στην αναζήτηση των k πλησιέστερων γειτόνων του ερωτήµατος q, στο σύνολο σηµείων αναφοράς R, µε κριτήριο την απόσταση κάθε σηµείου αναφοράς ri R από το σηµείο που βρίσκεται το ερώτηµα q. Συνήθως χρησιµοποιείται η ευκλείδεια ή η απόσταση Μανχάταν, αλλά µπορεί να χρησιµοποιηθεί και οποιαδήποτε άλλη απόσταση. Ο k-nn είναι ένας µη-παραµετρικός αλγόριθµος που χρησιµοποιείται σε βασικές µέθοδους εξόρυξης γνώσεων από δεδοµένα, όπως για παράδειγµα στην παλινδρόµηση και την κατηγοριοποίηση. Τα γραφήµατα k-πλησιέστερων γειτόνων είναι γραφήµατα στα οποία κάθε σηµείο συνδέεται µε τους k πλησιέστερους γείτονές του. Το µειονέκτηµα αυτού του αλγορίθµου είναι ότι είναι αρκετά ευαίσθητος στην τοπική δοµή των δεδοµένων. Παρακάτω δίνεται ένα παράδειγµα αναζήτησης k-πλησιέστερων Γειτόνων με k=3. Τα µπλε σηµεία αντιστοιχούν στα σηµεία αναφοράς και ο κόκκινος σταυρός αντιστοιχεί στο ερώτηµα q. Ο κύκλος δίνει την απόσταση µεταξύ του ερωτήµατος q και του τρίτου πλησιέστερου σηµείου αναφοράς. Σχήµα 8. Αναζήτηση k-πλησιέστερων Γειτόνων µε k=3 42 of 104

43 4.3.2 Προσεγγιστική Αναζήτηση Πλησιέστερου Γείτονα (Approximate Nearest Neighbor Search) Η προσεγγιστική αναζήτηση πλησιέστερου γείτονα (Approximate nearest neighbor - ΑΝΝ) είναι µια τεχνική αναζήτησης που δε στοχεύει τόσο στην ακρίβεια του αποτελέσµατος, άλλα πλεονεκτεί όσον αφορά την ταχύτητα. Για ορισµένες εφαρµογές, η ακρίβεια δεν είναι τόσο σηµαντική όσο είναι η ταχύτητα. Αυτές είναι οι περιπτώσεις που επιλέγουµε να χρησιµοποιήσουµε έναν αλγόριθµο που δεν εγγυάται την επιστροφή του πραγµατικού πλησιέστερου γείτονα σε κάθε περίπτωση, όµως αντίθετα συµβάλλει στη βελτίωση της ταχύτητας ή στην εξοικονόµηση χώρου στη µνήµη. Συχνά ένας τέτοιος αλγόριθµος θα βρει τον πλησιέστερο γείτονα στην πλειονότητα των περιπτώσεων, αλλά αυτό εξαρτάται κυρίως από το σύνολο δεδοµένων. Σύµφωνα µε τον ορισµό του ANN, λαµβάνοντας ένα σύνολο P από σηµεία σε έναν κανονικοποιηµένο χώρο, σκοπός είναι η προεπεξεργασία του συνόλου P έτσι ώστε να επιστρέψει αποτελεσµατικά ένα σηµείο p P για οποιοδήποτε ερώτηµα q, τέτοιο ώστε: d(q, p) (1+ε) d(q, P), όπου d(q, P) είναι η απόσταση του q από πλησιέστερο σηµείο του συνόλου P και ε µία παράµετρος ακρίβειας. Ο παραπάνω ορισµός γενικεύεται και στην περίπτωση που αναζητάµε k > 1 προσεγγιστικούς πλησιέστερους γείτονες (K-Approximate nearest neighbors / k-nns). Στο λεγόµενο k-nns πρόβληµα, θέλουµε να βρούµε k σηµεία (p1,.,pk), έτσι ώστε η απόσταση του σηµείου pi από ερώτηµα q να είναι το πολύ (1+ε) φορές η απόσταση του ι-οστού πλησιέστερου σηµείου από το q. 4.4 Η Χρήση Κατακερµατισµού στο Πρόβληµα Αναζήτησης Πλησιέστερου Γείτονα Η προσέγγιση του προβλήµατος αναζήτησης πλησιέστερων γειτόνων µε χρήση κατακερµατισµού στοχεύει στην αµοιβαία αντιστοίχιση αντικειµένων της συλλογής C µε αντικείµενα στόχους, έτσι ώστε η αναζήτηση να µπορεί να εκτελείται αποτελεσµατικά και µε ακρίβεια. Τα αντικείµενα στόχοι ονοµάζονται κωδικοί κατακερµατισµού (hash codes) (επίσης γνωστοί και ως hash values, η απλά hashes). Τυπικά, µία συνάρτηση κατακερµατισµού ορίζεται ως: y = h (x), όπου y είναι ο κώδικας κατακερµατισµού και η h ( ) είναι η συνάρτηση. Μία συνάρτηση κατακερµατισµού είναι µια µαθηµατική συνάρτηση που δέχεται ως είσοδο κάποιο αντικείµενο τυχαίου µεγέθους και επιστρέφει έναν ακέραιο σταθερού µεγέθους αναπαράστασης (κώδικας 43 of 104

44 κατακερµατισµού). Στην εφαρµογή για την προσέγγιση της αναζήτησης πλησιέστερων γειτόνων συνήθως χρησιµοποιούνται διάφορες συναρτήσεις κατακερµατισµού για τον καθορισµό του κώδικα κατακερµατισµού: y = h (x), όπου y = [y1 y2 ym] T και [h1 (x) h2 (x) hm(x)] T. Μία βασική στρατηγική για την εκτέλεση αναζήτησης πλησιέστερου γείτονα χρησιµοποιώντας κώδικες κατακερµατισµού είναι η αναζήτηση σε πίνακα κατακερµατισµού. Ο πίνακας κατακερµατισµού (hash table) είναι µια δοµή δεδοµένων που αποτελείται από κάδους, καθένας από τους οποίους έχει το δικό του κώδικα κατακερµατισµού. Κάθε στοιχείο αναφοράς x τοποθετείται στον κάδο h (x). Σε αντίθεση µε το συµβατικό αλγόριθµο κατακερµατισµού της επιστήµης των υπολογιστών, που αποφεύγει τις συγκρούσεις (δηλαδή αποφεύγει την εγγραφή δύο αντικειµένων στον ίδιο κάδο), η προσέγγιση κατακερµατισµού, χρησιµοποιώντας έναν πίνακα κατακερµατισµού, στοχεύει στη µεγιστοποίηση της πιθανότητας σύγκρουσης των κοντινών αντικειµένων. Δεδοµένου του ερωτήµατος q, τα αντικείµενα που βρίσκονται στον κάδο h (q) ανακτώνται ως κοντά στα στοιχεία του q. Στη συνέχεια θα µελετήσουµε τον αλγόριθµο Locality Sensitive Hashing, ο οποίος χρησιµοποιώντας πίνακες κατακερµατισµού, προσεγγίζει αποτελεσµατικά το πρόβληµα εύρεσης πλησιέστερου γείτονα, επιστρέφοντας k προσεγγιστικούς γείτονες για κάθε ερώτηµα σε σταθερό χρόνο. 4.5 Locality Sensitive Hashing (LSH) Η εύρεση του πλησιέστερου γείτονα µπορεί να είναι φαινοµενικά ένα εύκολο πρόβληµα, όταν όµως η βάση δεδοµένων είναι µεγάλη και τα αντικείµενα περίπλοκα, ο χρόνος επεξεργασίας αυξάνεται γραµµικά µε τον αριθµό των αντικειµένων στο χώρο. Για πολύ µεγάλες βάσεις δεδοµένων που περιλαµβάνουν αντικείµενα πολλών διαστάσεων, η Locality Sensitive Hashing (LSH) είναι µια ιδιαίτερα πολύτιµη τεχνική, που επιτρέπει σε κάποιον να βρει γρήγορα παρόµοιες εγγραφές σε µεγάλες βάσεις δεδοµένων. Αυτή η προσέγγιση ανήκει σε µια νέα και ενδιαφέρουσα κατηγορία αλγορίθµων που είναι γνωστοί ως τυχαίοι αλγόριθµοι και µπορούν να µειώσουν δραστικά τον υπολογιστικό χρόνο. Ένας τυχαίος αλγόριθµος δεν εγγυάται µια ακριβή απάντηση, αλλά παρέχει µια υψηλή εγγύηση ότι θα επιστρέψει τη σωστή απάντηση ή κάποια απάντηση κοντά σε αυτήν. Ο όρος "Locality Sensitive Hashing, έγινε γνωστός το 1998 και αναφέρεται σε ένα framework κατακερµατισµού, που σκοπό έχει να προσεγγίσει αποτελεσµατικά τον πλησιέστερο γείνονα (ANN) σε ένα χώρο µεγάλων διαστάσεων. Πιο συγκεκριµένα 44 of 104

45 χρησιµοποιείται στη αναζήτηση παρόµοιων στοιχείων σε τεράστιο όγκο δεδοµένων και προσπαθεί να οµαδοποιήσει σηµεία του χώρου µέσα σε κάδους (buckets), βασιζόµενη σε κάποιο µέτρο απόστασης, όπου σηµεία κοντινά µεταξύ τους αντιστοιχίζονται στον ίδιο κάδο µε µεγάλη πιθανότητα. Σε αντίθεση µε τις τεχνικές διαχωρισµού χώρου, τόσο ο χρόνος λειτουργίας, όσο και η ακρίβεια των αλγορίθµων που βασίζονται στον LSH είναι ανεξάρτητες των διαστάσεων των δεδοµένων. Αυτό καθιστά τον LSH κατάλληλο για συστήµατα επεξεργασίας µεγάλης κλίµακας που ασχολούνται µε δεδοµένα εξαιρετικά υψηλών διαστάσεων. Επιπλέον, τα συστήµατα που βασίζονται στον LSH είναι παραλληλοποιήσιµα, γεγονός που τα καθιστά ιδανικά για τα σύγχρονα µεγάλα σύνολα δεδοµένων. Στη συνέχεια θα µελετήσουµε αναλυτικά τον τρόπο λειτουργίας του αλγορίθµου LSH όσον αφορά τα ιατρικά δεδοµένα της βάσης µας. Επίσης θα παρουσιάσουµε αναλυτικά ορισµένα µέτρα απόστασης και θα εφαρµόσουµε κάποια από αυτά, προσπαθώντας να βγάλουµε κάποιο συµπέρασµα για το ποιο λειτουργεί καλύτερα στα δεδοµένα µας, µε βάση την ακρίβεια των αποτελεσµάτων που δίνει Πίνακας Υπογραφών (Signature Matrix) Η βασική ίδεα στην οποία στηρίζεται ο αλγόριθµος LSH είναι ο κατακερµατισµός σηµείων του χώρου σε κάδους. Τα σηµεία αυτά θα µπορούσαµε να τα αναπαραστήσουµε ως διανύσµατα, όπου κάθε αριθµός του διανύσµατος αντιστοιχεί σε µία διάσταση. Ετσι πρώτα απ όλα, για την υλοποίηση του αλγορίθµου LSΗ αναγκαία είναι η δηµιουργία µίας δοµής όπου θα συµπεριλαµβάνει όλα τα δεδοµένα της βάσης µας. Αυτή η δοµή δεδοµένων θα µπορούσε να είναι ένας δυσδιάστατος πίνακας (matrix) όπου κάθε στήλη του πίνακα αναπαριστά ένα σηµείο του χώρου. Αναφορικά σε περιπτώσεις όπου θέλουµε να συγκρίνουµε µία τεράστια συλλογή εγγράφων, εφαρµόζουµε την τεχνική Minhash, η οποία χρησιµοποιώντας τη µέθοδο της συµπίεσης δηµιουργεί ένα πίνακα, τον λεγόµενο Signature Matrix, όπου το σύνολο των δεδοµένων που περιλαµβάνει είναι σαφώς συγκριτικά µικρότερο από το αρχικό. Η εφαρµογή µια τέτοιας τεχνικής δεν είναι απαραίτητη στο σύνολο δεδοµένων που αναλύουµε στην συγκεκριµένη πτυχιακή, αφού όπως αναφέραµε και στο προηγούµενο κεφάλαιο, έχουµε ήδη προεπεξεργαστεί και µετασχηµατίσει τα ιατρικά δεδοµένα µε αποτέλεσµα να µην απαιτείται περεταίρω επεξεργασία. Έτσι εύκολα µπορούµε να προχωρήσουµε στο βήµα της εισαγωγής των µετασχηµατισµένων δεδοµένων σε έναν πίνακα, που θα ονοµάσουµε πίνακα υπογραφών (Signature Matrix). Πρόκειται ουσιαστικά για έναν ορθογώνιο πίνακα, όπου οι στήλες (signatures) αντιπροσωπεύουν κάθε σηµείο (αντικείµενο) του συνόλου των δεδοµένων και 45 of 104

46 οι γραµµές ένα σύνολο από µεταβλητές - διαστάσεις. Ειδικότερα, όσον αφορά τα ιατρικά δεδοµένα, κάθε στήλη αναπαριστά ουσιαστικά τις ιατρικές εξετάσεις ενός συγκεκριµένου ασθενή (συνολικά 507 ασθενείς, άρα και 507 στήλες - signatures), µέσω ενός διανύσµατος ακεραίων, όπου κάθε ακέραιος αριθµός αντιπροσωπεύει την διακριτοποιηµένη τιµή µιας συγκεκριµένης µεταβλητής (µέτρησης), πολλαπλασιασµένη µε το αντίστοιχο βάρος της. Να σηµειώσουµε ότι οι µεταβλητές είναι 25 στο σύνολο τους και εποµένως 25 θα είναι και οι συνολικές γραµµές του πίνακα O Αλγόριθµος LSH και η Τεχνική Banding Παρακάτω θα αναλύσουµε πώς λειτουργεί η τεχνική LSH και πώς µπορούµε να τη χρησιµοποιήσουµε αποτελεσµατικά στην περίπτωσή µας, για να βρούµε ασθενείς µε πανοµοιότυπες ιατρικές εξετάσεις. Είναι σηµαντικό να αναφέρουµε ότι η µεθοδολογία του αλγόριθµου LSH που θα παρουσιάσουµε, ακολουθεί το σκεπτικό του Κεφαλαίου 3.4 του βιβλίου "Mining of Massive Datasets". Αρχικά λοιπόν, είναι απαραίτητο να έχουµε δηµιουργήσει τον πίνακα υπογραφών (Signature Matrix), όπως περιγράφεται στην προηγούµενη ενότητα. Στη συνέχεια θα διαιρέσουµε τον πίνακα υπογραφών σε b περιοχές - ζώνες (bands), όπου σε κάθε ζώνη θα περιέχονται r σειρές. Εποµένως θα πρέπει να ισχύει: b r = # γραµµών του πίνακα υπογραφών. Στη συνέχεια, σε κάθε ζώνη εφαρµόζεται µία συνάρτηση κατακερµατισµού, όπου κάθε στήλη της ζώνης (η οποία αντιπροσωπεύει τον κάθε ασθενή ξεχωριστά), θα κατακερµατιστεί σε έναν κάδο (bucket). Είναι σηµαντικό να αναφέρουµε ότι σύµφωνα µε τον αλγόριθµο LSH, δεν επιτρέπεται στήλες που ανήκουν σε διαφορετικές ζώνες να κατακερµατίζονται στον ίδιο κάδο. Δηλαδή κάθε ζώνη πρέπει να έχει τον δικό της πίνακα κατακερµατισµού (hash table). Επιπλέον, αρκετά σηµαντική είναι και η επιλογή µιας καλής συνάρτησης κατακερµατισµού, η οποία θα αντιστοιχίσει τις στήλες κάθε ζώνης σε ένα ευρύ αριθµό διαφορετικών κάδων. Αυτό στην πραγµατικότητα µας εξασφαλίζει ότι µόνο αρκετά όµοιες στήλες θα κατακερµατιστούν τελικά στον ίδιο κάδο. Οι στήλες που έχουν κατακερµατιστεί στον ίδιο κάδο, αποτελούν και υποψήφια ζεύγη (candidate pairs) οµοιότητας και έτσι ο έλεγχος οµοιότητας θα πραγµατοποιηθεί πλέον µόνο µεταξύ αυτών των ζευγών. Ως εκ τούτου, αναµένουµε ότι µόνο τα πιο όµοια αντικείµενα (ασθενείς) θα έχουν κατακερµατιστεί στον ίδιο κάδο και τα ανόµοια θα ανήκουν σε διαφορετικούς κάδους. Φυσικά µπορεί να υπάρχουν ψευδώς θετικά (false positives), δηλαδή ανόµοια ζευγάρια που έχουν κατακερµατιστεί στον ίδιο κάδο και ψευδώς αρνητικά (false negatives), δηλαδή όµοια ζεύγη που κατακερµατίστηκαν σε διαφορετικούς κάδους. Αναµένουµε όµως, ότι το σύνολο των ψευδώς θετικών και ψευδώς αρνητικών θα 46 of 104

47 αποτελούν µόνο ένα µικρό ποσοστό των πραγµατικών θετικών (true positives) και πραγµατικών αρνητικών (true negatives) ζευγών. Είσοδος: P ={p1,p2,,pn // Σύνολο n στοιχείων Έξοδος: L // Αριθµός των πινάκων κατακερµατισµού (hash tables) Ti, i=1,2,..,l // L Πινάκες κατακερµατισµού Aλγόριθµος LSH: Για κάθε i=1,2,..,l Αρχικοποίησε τον πίνακα Ti µε µία τυχαία συνάρτηση κατακερµατισµού gi(.); Για κάθε i=1,2,..,l Για κάθε j=1,2,..,l Aποθήκευσε το σηµείο pi στον κάδο gi(pj) του πίνακα κατακερµατισµού Ti; Πίνακας 8. Αλγόριθµος LSH Σχήµα 9. Τεχνική Banding 47 of 104

48 Για να κατανοήσουµε καλύτερα τη λειτουργία της τεχνικής Banding ακολουθεί ένα αντιπροσωπευτικό παράδειγµα. Η Σχήµα 10 δείχνει έναν πίνακα υπογραφών που έχει διαιρεθεί µε την τεχνική Banding σε b ζώνες µε 3 σειρές η κάθε µία. Αν κοιτάξουµε πιο προσεκτικά την band 1, είναι εύκολο να παρατηρήσουµε ότι οι στήλες 2 και 5 έχουν την ίδια ακολουθία αριθµών: {2, 1, 0, οπότε αναµένουµε οι στήλες αυτές να κατακερµατιστούν στον ίδιο κάδο. Σύµφωνα µε όσα αναφέρθηκαν παραπάνω, περιµένουµε ότι δεν θα υπάρξει κανένα άλλο ζεύγος στηλών, από τις έξι στήλες που αναγράφονται στη band 1, που θα κατακερµατιστεί στον ίδιο κάδο. Οι στήλες 1 και 2 είναι δυνατόν να κατακερµατιστούν στον ίδιο κάδο, σε κάποια άλλη ζώνη όµως εκτός της πρώτης, εάν για παράδειγµα παρουσιάσουν την ίδια ακολουθία αριθµών. Σηµειώνουµε λοιπόν, ότι υπάρχουν άλλες b-1 ευκαιρίες για κάθε ζεύγος στηλών που δεν κατακερµατίστηκε στον ίδιο κάδο στην πρώτη ζώνη, να κατακερµατιστεί στον ίδιο κάδο σε κάποια άλλη ζώνη. Να σηµειωθεί βέβαια, ότι µπορεί να υπάρξουν και τυχαίες συγκρούσεις, αλλά αναµένουµε ότι κάτι τέτοιο θα συµβεί σε σπάνιες περιπτώσεις. Σχήµα 10. Τεχνική Banding σε Πίνακα Υπογραφών χωρισµένο σε n bands, µε 3 σειρές το καθένα. 48 of 104

49 4.5.3 Ανάλυση της Τεχνικής Banding Έστω ένας πίνακας υπογραφών που χωρίζεται σε b ζώνες των r σειρών η κάθε µία και ας υποθέσουµε ότι ενδιαφερόµαστε να βρούµε όµοια αντικείµενα (signatures). Η πιθανότητα δύο στήλες να συµφωνούν σε µία συγκεκριµένη σειρά του πίνακα υπογραφών ισούται µε s. Υπό το πρίσµα αυτό, η πιθανότητα δύο αντικειµένων να αποτελέσουν υποψήφιο ζεύγος οµοιότητας µπορεί να υπολογιστεί ως εξής: Η πιθανότητα δύο στήλες να έχουν την ίδια ακολουθία αριθµών σε µία ζώνη είναι: s r. Η πιθανότητα δύο στήλες να µην έχουν την ίδια ακολουθία αριθµών σε µία ζώνη είναι: 1 - s r. Η πιθανότητα δύο στήλες να µην έχουν την ίδια ακολουθία αριθµών σε κάθε ζώνη είναι: (1 - s r ) b. Τέλος, η πιθανότητα δύο στήλες να έχουν την ίδια ακολουθία αριθµών σε τουλάχιστον µία ζώνη είναι: 1 - (1 - s r ) b. Σχήµα 11. S-curve για b = 20 και r = 5 Σχήµα 12. S-curve για b = 50 και r = 2 Τα σχήµατα της συνάρτησης 1 - (1 - s r ) b δείχνουν ότι οι παράµετροι b και r επηρεάζουν την κλίση της καµπύλης, και κατά συνέπεια µπορούν να επηρεάσουν άµεσα και την ακρίβεια. Στο Σχήµα 11 παρουσιάζεται ένα είδος βηµατικής συνάρτησης, όπου το κατώφλι (threshold) οµοιότητας, δηλαδή το σηµείο στο οποίο η κλίση γίνεται πιο απότοµη, είναι περίπου στο Το Σχήµα 12 έχει σκοπό να δείξει ότι η κλίση µπορεί να µετατοπιστεί αυθαίρετα. Σε αυτή την περίπτωση η κλίση µετατοπίζεται προς τα αριστερά έτσι ώστε δύο signatures µε οµοιότητα 0.1 να έχουν περίπου 50% πιθανότητα να γίνουν υποψήφια ζεύγη 49 of 104

50 και 70% πιθανότητα εάν η οµοιότητά τους είναι 0.2. Με βάση τις σταθερές b και r, η τιµή του κατωφλιού(threshold) t προκύπτει προσεγγιστικά από τον τύπο: (1/b) 1/r. Ας δώσουµε ένα γρήγορο παράδειγµα, στο οποίο έχουµε 20 ζώνες (b=50) µε 5 σειρές η κάθε µπάντα (r=5). Εφαρµόζοντας τη συνάρτηση 1 - (1 - s r ) b, έχουµε 1 - (1 - s 5 ) 20. Στο Σχήµα 13 παρακάτω δίνεται το αποτέλεσµα της συνάρτησης για ορισµένες τιµές της οµοιότητας s. Aυτό που παρατηρούµε είναι ότι το µεγαλύτερο άλµα της συνάρτησης συµβαίνει από το s=0.4 στο s=0.6, όπου αυξάνεται για περισσότερο από 0.6. Σχήµα 13. Τιµές της καµπύλης S για b = 20 και r = 5 Το παραπάνω σχήµα ουσιαστικά αναγράφει την πιθανότητα δύο στήλες να έχουν κατακερµατιστεί στο ίδιο κάδο σε τουλάχιστον µία ζώνη, µε συνέπεια οι δύο αυτές στήλες να αποτελούν και υποψήφα ζεύγη. 4.6 Μέτρα Απόστασης (Distance Measures) Μέχρι τώρα, έχουµε παρουσιάσει αναλυτικά τον τρόπο λειτουργίας του αλγορίθµου locality sensitive hashing, ο οποίος στοχεύει στην επιτάχυνση του χρόνου αναζήτησης ενός προβλήµατος πλησιέστερου γείτονα σε δεδοµένα υψηλών διαστάσεων. Περιγράψαµε πως µέσω της χρήσης κατακερµατισµού, σηµεία κοντινά µεταξύ τους αντιστοιχίζονται στον ίδιο κάδο και αποτελούν υποψήφια ζεύγη (candidate pairs). Το τελευταίο βήµα όλης αυτής της διεργασίας είναι η εφαρµογή ενός µέτρου απόστασης (ή οµοιότητας) στα υποψήφια ζεύγη που έχουν προκύψει, έτσι ώστε για κάθε σηµείο του χώρου να βρούµε τους κοντινότερους γείτονές του. Εποµένως, κάνουµε λόγο για ένα πρόβληµα εύρεσης k-κοντινότερων γειτόνων. 50 of 104

51 Ένα µέτρο απόστασης (µετρική) είναι µια συνάρτηση d (x, y), η οποία παίρνει ως είσοδο δύο σηµεία του χώρου x και y και παράγει έναν πραγµατικό αριθµό που ικανοποιεί τα ακόλουθα αξιώµατα: - d (x, y) 0 x, y (η απόσταση είναι πάντα θετικός αριθµός). - d (x, y) = 0 εάν και µόνο εάν x = y (οι αποστάσεις είναι θετικές, εκτός της απόστασης ενός σηµείου από τον εαυτό του). - d (x, y) = d (y, x) x, y (συµµετρία). - d (x, y) + d (y, z) d (x, z) x, y, z (τριγωνική ανισότητα). Διάφορες µετρικές απόστασης χρησιµοποιούνται για την αξιολόγηση της εγγύτητας των σηµείων σε κάποιο συγκεκριµένο χώρο. Μερικά από τα συνήθως χρησιµοποιούµενα µέτρα απόστασης δίνονται παρακάτω Απόσταση Jaccard (Jaccard Distance) Ο συντελεστής Jaccard J(A,B) µετρά την οµοιότητα µεταξύ 2 πεπερασµένων συνόλων A και B και ορίζεται ως η απόλυτη τιµή της τοµής διαιρούµενη µε την απόλυτη τιµή της ένωσης των συνόλων. Η απόσταση Jaccard αντίθετα, αποτελεί ένα µέτρο που ποσοτικοποιεί την ανοµοιογένεια δύο συνόλων. Δηλαδή η Dist(Α,Β) είναι συµπληρωµατική του συντελεστή Jaccard και υπολογίζεται αφαιρώντας το συντελεστή Jaccard από τον αριθµό 1 ή διαιρώντας τη διαφορά των απολύτων τιµών της ένωσης και της τοµής των δύο συνόλων από την απόλυτη τιµή της ένωσης των συνόλων: Οι διάφοροι περιορισµοί της απόστασης Jaccard είναι: - Εάν τα Α και Β είναι και τα δύο κενά σύνολα, τότε J (A, B) = 1, µε 0 J (A, B) 1 - Η απόσταση Jaccard είναι αυστηρά θετική. 51 of 104

52 - Τα αποτελέσµατα που προκύπτουν µετά από την ένωση και την τοµή δύο συνόλων είναι πάντα συµµετρικά. - Η απόσταση Jaccard ικανοποιεί πάντα την τριγωνική ανισότητα Ευκλείδεια Απόσταση (Euclidean Distance) Η ευκλείδεια απόσταση είναι ένα από τα πιο συχνά χρησιµοποιούµενα µέτρα απόστασης. Ένας ν-διάστατος ευκλείδειος χώρος θεωρείται εκείνος όπου τα σηµεία του µπορούν να αναπαρασταθούν µε τη µορφή διανυσµάτων και το κάθε διάνυσµα αποτελείται από ν πραγµατικούς αριθµούς. Η ευκλείδεια απόσταση d (p, q) µεταξύ δύο σηµείων p και q, είναι: Οι περιορισµοί στην ευκλείδεια απόσταση είναι: - Η ευκλείδεια απόσταση µεταξύ δύο σηµείων δεν µπορεί ποτέ να είναι αρνητική, επειδή υπάρχει θετική τετραγωνική ρίζα στην εξίσωση απόστασης. - Εάν pi = qi για όλα τα i, τότε η απόσταση είναι µηδέν. - Η ευκλείδεια απόσταση είναι συµµετρική, αφού (pi - qi) 2 = (pi - qi) 2 - Η τριγωνική ανισότητα απαιτεί πολλούς αλγεβρικούς υπολογισµούς για να επαληθευτεί Απόσταση Hamming (Hamming Distance) Η απόσταση Hamming είναι ένα µέτρο που χρησιµοποιείται για να εντοπίσει τις διαφορές ανάµεσα σε δύο συµβολοσειρές ίσου µήκους. Συνήθως, η απόσταση Hamming χρησιµοποιείται όταν τα διανύσµατα είναι δυαδικά (δηλαδή περιέχουν µόνο 0 ή 1 ), ωστόσο αυτό δεν απόλυτο. Aπόσταση Hamming d(x, y) µεταξύ των συµβολοσειρών x = x1x2... xn και y = y1y2... yn είναι ουσιαστικά ο αριθµός των θέσεων στις οποίες διαφέρουν οι συµβολοσειρές x και y, δηλαδή ο αριθµός των i (i = 1,2,..., n) για τα οποία xi yi. Η απόσταση αυτή αναπαριστά ουσιαστικά τον ελάχιστο αριθµό αντικαταστάσεων που χρειάζονται να γίνουν, ώστε να µετατραπεί η συµβολοσειρά x σε y ή η y σε x. Σηµαντικές ιδιότητες της απόστασης hamming είναι: - Η απόσταση Hamming δεν µπορεί να είναι αρνητική. 52 of 104

53 - Η απόσταση Hamming είναι µηδέν, αν και µόνο αν τα διανύσµατα είναι τα ίδια. - Η απόσταση Hamming είναι συµµετρική. - Η απόσταση Hamming ικανοποιεί την τριγωνική ανισότητα, επειδή εάν για παράδειγµα έχουµε τα x και z που διαφέρουν σε a σηµεία και τα z και y που διαφέρουν σε b σηµεία, τότε µπορούµε να συµπεράνουµε εύκολα ότι τα x και y δε γίνεται να διαφέρουν σε περισσότερα από a + b σηµεία Απόσταση Συνηµιτόνου (Cosine Distance) Τα σηµεία του χώρου µπορούν να αναπαρασταθούν ως ν-διάστατα διανύσµατα, όπου κάθε όρος ανήκει σε µία διάσταση. Η συσχέτιση µεταξύ δύο σηµείων µπορεί µε αυτόν τον τρόπο να µετατραπεί σε σύγκριση δύο διανυσµάτων. Αυτό ποσοτικοποιείται ως το συνηµίτονο της γωνίας ανάµεσα στα δύο διανύσµατα, η οποία είναι η λεγόµενη οµοιότητα συνηµίτονου. Δεδοµένου των δύο διανυσµάτων Α και Β, το συνηµίτονο της γωνίας µεταξύ τους είναι το άθροισµα του γινοµένου των τιµών των συνιστωσών των διανυσµάτων Α και Β διαιρούµενο µε το γινόµενο των τετραγωνικών ριζών του αθροίσµατος του τετραγώνου των συνιστωσών του Α και των συνιστωσών του Β: Η απόσταση συνηµίτονου υπολογίζεται αφαιρώντας την οµοιότητα από τον αριθµό 1, όπως στον παρακάτω τύπο: dist(a,b) = 1 - sim(a,b) - Καθώς οι τιµές κυµαίνονται στην περιοχή (0,180), η απόσταση δε µπορεί ποτέ να είναι αρνητική. - Δύο διανύσµατα έχουν γωνία ίση µε µηδέν αν και µόνο αν είναι στην ίδια κατεύθυνση. - Όταν η γωνία µεταξύ των αντικειµένων είναι µηδέν µοίρες, η οµοιότητα συνηµιτόνου ισούται µε 1 - Η απόσταση συνηµιτόνου είναι συµµετρική, αφού η γωνία µεταξύ των Α και Β είναι ίδια µε τη γωνία µεταξύ των Β και Α. - Η απόσταση συνηµιτόνου ικανοποιεί την τριγωνική ανισότητα. 53 of 104

54 4.6.5 Απόσταση Edit (Edit Distance) Η απόσταση Εdit χρησιµοποιείται όταν σηµεία του χώρου είναι αποθηκεύµένα υπό τη µορφή συµβολοσειρών. Υποθέστε ότι υπάρχουν δύο συµβολοσειρές p = p1, p2, p3... pn και q = q1, q2, q3... qm. Η απόσταση µεταξύ τους υπολογίζεται ως ο ελάχιστος αριθµός των φορών που γίνεται η ώθηση και η απόσπαση ενός µόνο χαρακτήρα, για να µετατραπεί το p σε q ή το q σε p. Ένας ακόµη τρόπος για να ορίσουµε την απόσταση Εdit είναι να υπολογίσουµε τη µεγαλύτερη κοινή ακολουθία (Longest Common Subsequence / LCS) των p και q, δηλαδή το LCS (p, q). Έτσι η απόσταση Εdit µπορεί να οριστεί ως εξής: d(p,q) = ΜΗΚΟΣ (p) + ΜΗΚΟΣ (q) - 2 * ΜΗΚΟΣ (LCS (p, q)) Bέλτιστο Μέτρο Απόστασης σε Δεδοµένα του Τεχνητού Νεφρού Αφού περιγράψαµε ορισµένα από τα πιο δηµοφιλή µέτρα απόστασης και έχουµε κατανοήσει τον τρόπο λειτουργίας τους, µπορούµε εύκολα να περάσουµε στο στάδιο της εφαρµογής τους στα ιατρικά δεδοµένα της βάσης µας. Όπως έχουµε προαναφέρει, δεν υπάρχει καµία τελική συµφωνία για το ποιο είναι το καλύτερο µέτρο απόστασης, αφού διαφορετικά µέτρα απόστασης λειτουργούν καλύτερα σε διαφορετικά δεδοµένα. Έτσι σε αυτήν την ενότητα θα προσπαθήσουµε να βγάλουµε ένα συµπέρασµα για το ποιο µέτρο οµοιότητας είναι εκείνο που λειτουργεί αποδοτικότερα σε µία βάση ιατρικών δεδοµένων που περιέχει µετρήσεις κλινικών εξετάσεων. Ουσιαστικά, θα αναζητήσουµε εκείνο το µέτρο απόστασης που προσεγγίζει µε µεγαλύτερη ακρίβεια το πρόβληµα αναζήτησης k- πλησιέστερων γειτόνων (k-nn). Να θυµήσουµε ότι στα δεδοµένα του τεχνητού νεφρού τα οποία αναλύουµε στην παρούσα πτυχιακή, οι ασθενείς που εµφανίζουν τις ίδιες διαταραχές ή αντίστοιχα δεν εµφανίζουν καµία διαταραχή, είναι εκείνοι που θεωρούνται πιο όµοιοι µεταξύ τους και κατά συνέπεια θεωρούνται πλησιέστεροι γείτονες. Εποµένως η ακρίβεια θα σχετίζεται µε το κατά πόσο οι πλησιέστεροι γείτονες που θα προκύψουν (για κάθε έναν από τους 507 ασθενείς της βάσης), ανήκουν στην ίδια οµάδα διαταραχών µε τον ασθενή - ερώτηµα. Ακουλούθησε λοιπόν, η υλοποίηση και εφαρµογή τριών µέτρων απόστασης και συγκεκριµένα της Jaccard, του συνηµιτόνου και της ευκλείδιας. Σε πρώτο στάδιο εφαρµόσαµε τις τρεις µετρικές στο σύνολο των δεδοµένων και βγάλαµε ορισµένα συµπεράσµατα για την ακρίβεια µε την οποία προσεγγίζουν το πρόβληµα των k- πλησιέστερων γειτόνων, για k = 3. Εάν θεωρήσουµε ότι τα δεδοµένα είναι n στο σύνολο, εύκολα συµπεραίνουµε ότι σε αυτό το πρόβληµα εύρεσης των πλησιέστερων γειτόνων πραγµατοποιήθηκαν n 2 συγκρίσεις κατά την εφαρµογή κάθε µετρικής. Οσον αφορά την ακρίβεια των αποτελεσµάτων που προέκυψαν, η Jaccard ήταν εκείνη η µετρική µε την 54 of 104

55 µικρότερη ακρίβεια αποτελεσµάτων, σε αντίθεση µε τις άλλες δύο µετρικές (συνηµιτόνου και ευκλείδια) που παρουσίασαν αρκετά υψηλή ακρίβεια. Πιο συγκεκριµένα, η ακρίβεια της ευκλείδιας απόστασης προέκυψε ίση µε 0.94 και η ακρίβεια της απόστασης συνηµιτόνου ίση µε Οπως διαπιστώνουµε, η διαφορά στην ακρίβεια των δύο µετρικών είναι αρκετά µικρή, γι αυτό αποφασίσαµε να εφαρµόσουµε το ίδιο 3-NN πρόβληµα, µε χρήση της τεχνικής LSΗ αυτή τη φορά, για να διαπιστώσουµε εάν η ευκλείδια απόσταση θα εµφανίσει και πάλι µεγαλύτερη ακρίβεια. Όπως φαίνεται στον Πίνακα 9 εφαρµόσαµε την τεχνική LSΗ στα δεδοµένα µας 3 φορές, για διαφορετικές τιµές b και r κάθε φορά. Τα αποτελέσµατα βέβαια, παρουσιάζουν την ευκλείδια για ακόµα µια φορά ως τη µετρική µε τη βέλτιστη ακρίβεια. Βέβαια, η διαφορά στην ακρίβεια µεταξύ των δύο µετρικών είναι και πάλι µικρή, σε κάθε µία από τις τρεις εκδοχές του LSΗ. Στον πίνακα παρακάτω αναγράφεται αναλυτικά η ακρίβεια των δύο µετρικών στα δεδοµένα του τεχνητού νεφρού, µε χρήση LSH ή χωρίς, καθώς και οι συγκρίσεις που πραγµατοποιήθηκαν σε κάθε περίπτωση. Αξίζει να σηµειωθεί ότι οι δύο µετρικές πετυχαίνουν την ίδια περίπου ακρίβεια στην περίπτωση που δε γίνεται χρήση της τεχνικής LSΗ και στην περίπτωση που γίνεται χρήση της LSΗ µε b = 7 και r = 3. Το σηµαντικό όµως είναι ότι στη δεύτερη περίπτωση (µε LSΗ), οι µετρικές έκαναν µόνο ένα ποσοστό της τάξης του 44,5% των συγκρίσεων σε σχέση µε εκείνες που χρειάστηκαν να κάνουν στην πρώτη περίπτωση (χωρίς LSΗ). Πίνακας 9. Ακρίβεια Μετρικών σε Δεδοµένα του Τεχνητού Νεφρού µε χρήση LSH ή χωρίς. Όπως αναφέρθηκε και σε προηγούµενη ενότητα, η µεθοδολογία για LSH ακολούθησε το σκεπτικό του Κεφαλαίου 3.4 του βιβλίου "Mining of Massive Datasets". Μία άλλη προσέγγιση θα ήταν να ακολουθούσαµε για τις ευκλείδιες αποστάσεις και τις αποστάσεις συνηµιτόνου το σκεπτικό του Κεφαλαίου 3.7 του ίδιου βιβλίου, που είναι πιο εξειδικευµένο για αυτές τις µετρικές. Όµως αυτό που µας ενδιαφέρει να δείξουµε αναφορικά µε το LSH είναι η δυνατότητα επιτάχυνσης της διαδικασίας, κάτι το οποίο ήδη φαίνεται από τον Πίνακα 9. Στη συνέχεια θα µελετήσουµε ένα πρόβληµα συσταδοποίησης και θα συγκρίνουµε για ακόµα µια φορά τις δύο µετρικές, µε σκοπό να αναδείξουµε τη µετρική που λειτουργεί βέλτιστα στην τµηµατοποίηση του συνόλου των δεδοµένων. 55 of 104

56 4.7 Κ-Means Το πρόβληµα της συσταδοποίησης σχετίζεται µε την τµηµατοποίηση (partitioning, clustering) ενός συνόλου δεδοµένων σε συστάδες, έτσι ώστε τα στοιχεία που ανήκουν σε µία συστάδα να είναι περισσότερο όµοια µεταξύ τους από ότι είναι µε τα στοιχεία των άλλων συστάδων. Έτσι, σκοπός είναι να προσδιοριστούν οι οµάδες στις οποίες ανήκουν διάφορες ποσότητες δεδοµένων, µε βάση κάποια κριτήρια οµοιογένειας. Ο αλγόριθµος K-means είναι µια από τις πιο γνωστές µεθόδους παραγωγής συστάδων. Προτάθηκε πρώτη φορά από τον Stuart Lloyd το 1957 ως µια τεχνική για διαµόρφωση παλµικού κώδικα και εκτελεί συσταδοποίηση αντικειµένων στον ν-διάστατο ευκλείδιο χώρο Ο Αλγόριθµος Κ-Means Ο διαµεριστικός αλγόριθµος k-means είναι ένας από τους πιο απλούς και δηµοφιλέστερους αλγορίθµους οµαδοποίησης που ανήκουν στην ευρύτερη κατηγορία των τεχνικών µάθησης χωρίς επίβλεψη. Ο αλγόριθµος αυτός είναι δηµοφιλής εξαιτίας της απλότητας της υλοποίησης του και της γραµµικής πολυπλοκότητας του. Ο αλγόριθµος, δεδοµένου ενός συνόλου n αντικειµένων κατάλληλα µοντελοποιηµένων ως διανυσµάτων µε διαστάσεις d που αναπαριστούν τα χαρακτηριστικά τους, εκτελεί επαναληπτικά τις παρακάτω 2 φάσεις: Αντιστοίχιση αντικειµένων σε συστάδα Επαναϋπολογισµός κεντροειδών Για τη φάση της αντιστοίχισης αντικειµένων σε συστάδα κατά την εκκίνηση του αλγορίθµου, η κύρια ιδέα είναι να προσδιοριστούν αρχικά k κεντροειδή (centroids), ένα για κάθε cluster. Αυτά τα αρχικά κεντροειδή πρέπει να επιλεγούν µε επιδέξιο τρόπο, γιατί διαφορετικές αρχικές θέσεις για τα κεντροειδή δίνουν διαφορετικά αποτελέσµατα. Δηλαδή, η αρχική θέση των κεντροειδών επηρεάζει το αποτέλεσµα που θα δώσει ο αλγόριθµος. Σε δεύτερο χρόνο ο αλγόριθµος αποφασίζει την απόσταση κάθε αντικειµένου εισόδου από κάθε ένα από τα κεντροειδή σύµφωνα µε κάποιο µέτρο απόστασης και αναλαµβάνει να αντιστοιχίσει το κάθε ένα από αυτά µε το κοντινότερο κεντροειδές. Στο τέλος της πρώτης φάσης κάθε επανάληψης το αποτέλεσµα είναι να έχουµε k συστάδες που αντιπροσωπεύονται από τα k κεντροειδή και αποτελούνται από αντικείµενα, τα οποία βρίσκονται εγγύτερα στο κεντροειδές-εκπρόσωπο της εκάστοτε συστάδας σε σχέση µε κάθε άλλο κεντροειδές. Η φάση του επαναϋπολογισµού κεντροειδών αφορά στην εύρεση του αριθµητικού µέσου των αντικειµένων-διανυσµάτων που αποτελούν την κάθε συστάδα, έτσι όπως αυτές 56 of 104

57 διαµορφώθηκαν από το προηγούµενο βήµα του αλγορίθµου και στην ανακήρυξη αυτού του αποτελέσµατος ως νέου κεντροειδούς. Με το πέρας και αυτής της φάσης έχουµε k νέα κεντροειδή τα οποία επανατροφοδοτούνται στην πρώτη φάση της επόµενης επανάληψης. Έτσι, γίνεται µια επανάληψη της ίδιας διαδικασίας. Αποτέλεσµα αυτής της επανάληψης είναι ότι σε κάθε βήµα τα centroids αλλάζουν θέση (ορίζονται νέα) και τα στοιχεία ανατίθενται στο κατάλληλο cluster κάθε φορά µε βάση το κοντινότερο centroid. Όταν σε κάποια επανάληψη δε σηµειωθούν αντιµεταθέσεις στοιχείων, τότε τερµατίζει η εκτέλεση του αλγορίθµου. Το αποτέλεσµα που προκύπτει είναι η οµαδοποίηση του συνόλου δεδοµένων σε k clusters. Ο αλγόριθµος στοχεύει να ελαχιστοποιήσει µία αντικειµενική συνάρτηση, την λεγόµενη συνάρτηση τετραγωνικού λάθους, που ορίζεται ως εξής: είναι ένα µέτρο απόστασης που χρησιµοποιείται για να µετρά την απόσταση κάθε στοιχείου xi (j) από το centroid cj του κάθε cluster. Όπου n το σύνολο των στοιχείων του συνόλου δεδοµένων. Ο παρακάτω πίνακας δείχνει συνοπτικά τα βήµατα του αλγορίθµου k-means. Είσοδος: Έξοδος: D ={x1,x2,...,xn// Σύνολο n στοιχείων k // Αριθµός επιθυµητών clusters k clusters// Σύνολο clusters Aλγόριθµος k-means: Ανέθεσε τιµές στα αρχικά κεντροειδή (centroids) c1,c2,...,ck; Επανέλαβε Ανάθεση όλων των αρχικών σηµείων στο κοντινότερο τους από τα k κεντρικά σηµεία; Υπολόγισε νέα κεντροειδή για κάθε cluster; Μέχρι τα κεντρικά σηµεία να µην αλλάζουν; Πίνακας 10. Αλγόριθµος Κ-Μeans 57 of 104

58 4.7.2 Eπιλογή Αρχικών Κεντροειδών (Centroids) Αν και µπορεί να αποδειχθεί ότι ο αλγόριθµος K-means πάντα τερµατίζει, αξίζει να τονιστεί ότι δεν καταφέρνει να βρει πάντα τη βέλτιστη λύση. Ο αλγόριθµος επηρεάζεται σηµαντικά από τα αρχικά κεντροειδή. Αν η επιλογή αυτή δεν είναι αρκετά προσεκτική, τότε το κριτήριο τετραγωνικού λάθους συγκλίνει σε τοπικά ελάχιστο κάνοντας την τελική επιλογή συστάδων ανεπιτυχή. Όπως παρατηρούµε, ο χώρος στο Σχήµα 14 περιέχει επτά στοιχεία. Αν η αρχική µας επιλογή είναι τρία clusters µε αρχικά κέντρα το Α,B,C στο καθένα, το αποτέλεσµα της συσταδοποίησης θα είναι αυτό που φαίνεται στο σχήµα µε τις ελλείψεις. Αντίθετα, αν τα αρχικά κέντρα είναι τα σηµεία Α,D,F τα τελικά clusters θα είναι εκείνα που φαίνονται στα παραλληλόγραµµα. Στην πρώτη περίπτωση το κριτήριο τετραγωνικού λάθους είναι αρκετά µεγαλύτερο από τη δεύτερη περίπτωση. Έτσι η τελική επιλογή συστάδων στην πρώτη περίπτωση καταλήγει ανεπιτυχής, εξαιτίας της λανθασµένης αρχικής επιλογής των κεντροειδών όπου τα σηµεία (κεντροειδή) είναι πολύ κοντινά στο χώρο. Για αυτό το λόγο, συνιστάται κατά την αρχική επιλογή των κεντροειδών να επιλέγουµε σηµεία που είναι αποµακρυσµένα µεταξύ τους στο χώρο. Σχήµα 14. Ευαισθησία του k-means στην αρχική επιλογή κεντροειδών. Με βάση την παραπάνω παράγραφο, συµπεραίνουµε ότι εξαιτίας της ευαισθησίας του k-means στην αρχική επιλογή κεντροειδών, η επιλογή τους πρέπει να γίνει µε µεθοδικότητα. Ας δούµε λοιπόν το κριτήριο µε το οποίο έγινε η επιλογή των κεντροειδών στα δεδοµένα του τεχνητού νεφρού. Όπως εχουµε αναφέρει, οι ασθενείς που εµφανίζουν τις ίδιες διαταραχές ή αντίστοιχα δεν εµφανίζουν καµία διαταραχή, είναι εκείνοι που θεωρούνται πιο όµοιοι µεταξύ τους και κατά συνέπεια θεωρούνται πλησιέστεροι γείτονες. Έτσι µε βάση τις πιθανές διαταραχές από τις 58 of 104

59 οποίες µπορεί να πάσχει κάποιος ασθενής, δηµιουργήσαµε δώδεκα οµάδες (Πίνακας 7), όπου κατατάξαµε τους ασθενείς. Οι δώδεκα αυτές οµάδες θα αποτελέσουν και τα τελικά clusters στα οποία θα πρέπει ιδανικά να τερµατίζει η εκτέλεση του αλγορίθµου K-Means. Στοχεύοντας στο διαχωρισµό των δεδοµένων σε δώδεκα clusters, πρέπει αρχικά να επιλέξουµε δώδεκα κεντροειδή. Επιλέξαµε λοιπόν ένα τυχαίο στοιχείο που ανήκει σε κάθε µία από τις δώδεκα οµάδες διαταραχών και έτσι προέκυψαν τα δώδεκα αρχικά κεντροειδή. Αφού κάθε κεντρικό σηµείο ανήκει σε διαφορετική οµάδα διαταραχών, µπορούµε να βγάλουµε το συµπέρασµα ότι τα σηµεία αυτά είναι αρκετά ανόµοια µεταξύ τους και κατά συνέπεια αποµακρυσµένα. Οπως αναφέραµε σε προηγούµενο σηµείο, η επιλογή αποµακρυσµένων µεταξύ τους κεντροειδών συµβάλλει σε αποδοτικότερη τµηµατοποίηση των δεδοµένων σε συστάδες Bέλτιστο Μέτρο Απόστασης στον K-Means σε Δεδοµένα του Τεχνητού Νεφρού Όπως προαναφέραµε, η τεχνική οµαδοποίησης µε βάση το διαµεριστικό αλγόριθµο Κ-Means (Κ-Μέσων) διαχωρίζει ένα σύνολο σηµείων του χώρου σε k οµάδες (clusters). Η οµοιότητα των σηµειών αυτών υπολογίζεται µε τη χρήση κάποιας µετρικής απόστασης. Υπάρχουν πολλές διαδεδοµένες µετρικές που χρησιµοποιούνται στις τεχνικές οµαδοποίησης, όµως στα συγκεκριµένα δεδοµένα χρησιµοποιήσαµε την ευκλείδια απόσταση και την απόσταση συνηµιτόνου, µε σκοπό να βγάλουµε κάποιο συµπέρασµα για το ποια µετρική κατατάσσει τα δεδοµένα σε συστάδες µε µεγαλύτερη ακρίβεια. Ο παρακάτω πίνακας παρουσιάζει την ακρίβεια µε την οποία οι δύο µετρικές οµαδοποίησαν τα δεδοµένα του τεχνητού νεφρού χρησιµοποιώντας τον αλγόριθµο Κ-Means. Με βάση τα αποτελέσµατα διακρίνουµε ότι η ευκλίδεια απόσταση είναι εκείνη η µετρική που για ακόµα µια φορά πετυχαίνει την µεγαλύτερη ακρίβεια και άρα µπορούµε να πούµε ότι αποτελεί τη βέλτιστη µετρική για τα δεδοµένα του τεχνητού νεφρού. Πίνακας 11. Ακρίβεια Μετρικών σε Δεδοµένα του Τεχνητού Νεφρού χρησιµοποιώντας τον K-Means 59 of 104

60 ΚΕΦΑΛΑΙΟ 5: ΑΝΑΚΑΛΥΨΗ ΑΚΟΛΟΥΘΙΑΚΩΝ ΠΡΟΤΥΠΩΝ ΣΕ ΔΕΔΟΜΕΝΑ ΧΡΟΝΟΣΕΙΡΩΝ 60 of 104

61 5. ΑΝΑΚΑΛΥΨΗ ΑΚΟΛΟΥΘΙΑΚΩΝ ΠΡΟΤΥΠΩΝ ΣΕ ΔΕΔΟΜΕΝΑ ΧΡΟΝΟΣΕΙΡΩΝ Διάφοροι κλάδοι της εξόρυξης δεδοµένων έχουν αντιµετωπίσει το πρόβληµα της εύρεσης προτύπων σε δεδοµένα που σχετίζονται µε το χρόνο. Η εξόρυξη ακολουθιακών προτύπων αποτελεί έναν από αυτούς και στοχεύει στην ανακάλυψη συχνών προτύπων σε µια ακολουθιακή βάση δεδοµένων. Σχετίζεται µε την εύρεση στατιστικά σχετικών προτύπων µεταξύ δεδοµένων όπου οι τιµές παρατίθενται σε µια ακολουθία. Είναι µια διαδικασία ανάλυσης τεράστιων δεδοµένων από διαφορετικές οπτικές γωνίες και η σύνταξή τους σε χρήσιµες πληροφορίες. Οι πληροφορίες µπορούν να µετατραπούν σε γνώση για τα ιστορικά πρότυπα και τις µελλοντικές τάσεις. Τέλος, αποτελεί ένα σηµαντικό πρόβληµα εξόρυξης δεδοµένων µε ευρείες εφαρµογές, συµπεριλαµβανοµένης της ανάλυσης ακολουθιών ή διαδικασιών που σχετίζονται µε το χρόνο, όπως επιστηµονικά πειράµατα, φυσικές καταστροφές, θεραπείες ασθενειών, ανάλυση αλληλουχίας του DNA κλπ. Με τον όρο συχνά πρότυπα µπορεί να αναφερόµαστε είτε σε σύνολα από αντικείµενα (itemsets), είτε σε ακολουθίες (sequences), είτε σε δοµές (structures), οι οποίες κάνουν την εµφάνισή τους µέσα σε µια βάση δεδοµένων µε συχνότητα µεγαλύτερη από µια προκαθορισµένη τιµή. Ένα σύνολο από αντικείµενα - για παράδειγµα γάλα, ψωµί, νερόείναι συχνό όταν εµφανίζεται πολλές φορές σε µια βάση αγορών, χωρίς να µας απασχολεί η σειρά µε την οποία θα αγοραστούν τα προϊόντα. Αντιθέτως όταν δεν µας ενδιαφέρει η ταυτόχρονη αγορά τους αλλά και η χρονολογική σειρά µε την οποία αγοράστηκαν, τότε µιλάµε για ακολουθία. Εποµένως, τα πρότυπα που είναι ακολουθιακά σχετίζονται άµεσα µε το χρόνο και κατά συνέπεια προκύπτουν µέσα από ένα σύνολο χρονολογικών σειρών. 5.1 Χρονολογικές Σειρές (Time Series) Μία χρονολογική σειρά ή χρονοσειρά (time series) είναι ένα σύνολο από τιµές ιδιοτήτων στη διάρκεια του χρόνου. Δοθείσης µιας ιδιότητας A, µια χρονολογική σειρά είναι ένα σύνολο από n τιµές: {< t 1,a >,< t,a >,...,< t,a 1 >. Εδώ υπάρχουν n χρονικές τιµές και σε 2 2 n n καθεµία αντιστοιχεί µια τιµή της A. Συχνά οι τιµές προσδιορίζονται για κάποιες 61 of 104

62 συγκεκριµένες και καλά ορισµένες χρονικές στιγµές, οπότε στην περίπτωση αυτή οι τιµές µπορούν να παρασταθούν σαν ένα διάνυσµα < a 1,a 2,...,a n >. Η ανάλυση χρονολογικών σειρών µπορεί να θεωρηθεί ως η εύρεση προτύπων στα δεδοµένα και η πρόβλεψη µελλοντικών τιµών. Τα πρότυπα που ανακαλύπτονται µπορεί να είναι: Τάσεις Μία τάση µπορεί να θεωρηθεί ως µια συστηµατική, µη επαναλαµβανόµενη αλλαγή (γραµµική ή µη) των τιµών της ιδιότητας κατά τη διάρκεια του χρόνου. Ένα παράδειγµα θα ήταν η τιµή µιας µετοχής που συνεχώς ανεβαίνει. Κύκλοι Εδώ η παρατηρούµενη συµπεριφορά είναι κυκλική. Εποχιακά Τα παρατηρούµενα πρότυπα µπορεί να είναι βασισµένα σε µια συγκεκριµένη περίοδο του έτους ή του µήνα ή της ηµέρας. Για παράδειγµα, ο όγκος των πωλήσεων ενός καταστήµατος κατά την περίοδο των Χριστουγέννων είναι πάντα αυξηµένος. Συχνά, η εύρεση των προτύπων σε δεδοµένα του πραγµατικού κόσµου µπορεί να είναι δύσκολη λόγω θορύβου, ακραίων σηµείων, σφαλµάτων και ελλιπών στοιχείων. 5.2 Συχνά Πρότυπα (Frequent Patterns) Έστω Ι = {i 1,i 2,i 3..,i m ένα σύνολο από διακριτά αντικείµενα (items). Έστω επίσης D = {r 1,r 2,r 3,..,r m όπου κάθε r i είναι ένα σύνολο αντικειµένων του Ι. Το µήκος ενός συνόλου r i ορίζεται ως ο αριθµός των αντικειµένων που εµφανίζεται µέσα σε αυτό. Μια σηµαντική ιδιότητα των συνόλων αντικειµένων είναι η υποστήριξη (support), η οποία ορίζεται ως ο αριθµός των συνόλων r i που περιέχουν το συγκεκριµένο σύνολο (itemset). Πίνακας 10. Βάση Δεδοµένων αποτελούµενη από σύνολα αντικειµένων 62 of 104

63 Έστω ότι παραπάνω πίνακας είναι µία βάση δεδοµένων, όπου κάθε γραµµή αντιπροσωπεύει τις αγορές ενός πελάτη, ενώ σε κάθε πελάτη δίνεται και ένα αναγνωριστικό TID. Το itemset {ψωµί, γάλα εµφανίζεται σε 3 γραµµές r i άρα έχει υποστήριξη 3. Ουσιαστικά η υποστήριξη µας δείχνει πόσο συχνά εµφανίζεται το itemset του κανόνα. Αυτό µπορεί να σηµαίνει την αποµάκρυνση αντικειµένων που εµφανίζονται πιο σπάνια. Έτσι λοιπόν η ανάλυση µας σε πρώτο στάδιο θα εστιάσει στη εύρεση των συνόλων αντικειµένων που εµφανίζονται πιο συχνά στα σύνολα r i. Αφού δώσαµε τους τυπικούς ορισµούς, σειρά έχει η εύρεση των πιο συχνά εµφανιζόµενων συνόλων αντικειµένων (frequent item sets), δηλαδή των συνόλων που ικανοποιούν την απαίτηση για µεγάλη υποστήριξη. Πρόκειται για µία δύσκολη εργασία µε πολλές διαθέσιµες µεθοδολογίες. Ξεκινώντας µε ένα σύνολο δεδοµένων που αποτελείται από d αντικείµενα, ο αριθµός των πιθανών frequent item sets είναι ίσος µε 2 d 1. Για µεγάλο αριθµό αντικειµένων όµως, το µέγεθος αυτό γίνεται υπερβολικά µεγάλο. Επιπροσθέτως είπαµε ότι δε µας ενδιαφέρουν όλα αλλά µόνο αυτά που συµβαίνουν συχνά. Έτσι λοιπόν µέσω της αρχικής δήλωσης µιας τιµής που αντιπροσωπεύει την ελάχιστη υποστήριξη (minimum support) κάθε συνόλου αντικειµένων και αποτελεί ένα κατώφλι, µπορούµε να µειώσουµε τον αριθµό των συχνά εµφανιζόµενων συνόλων αντικειµένων. 5.3 Εξόρυξη Γνώσης από Ακολουθιακά Πρότυπα Τα ακολουθιακά πρότυπα (sequential patterns) παρουσιάστηκαν για πρώτη φορά από τους Agrawal και Srikant (1995) σε µια προσπάθειά τους να βρουν ακολουθιακά πρότυπα σε µία βάση δοσοληψιών. Μια ακολουθιακή βάση δεδοµένων αποτελείται από στοιχεία σαφώς διατεταγµένα στο χρόνο. Τα ακολουθιακά δεδοµένα συναντώνται σε πλήθος εφαρµογών όπως είναι η αγορά προϊόντων, η επίσκεψη σε ιστότοπους αλλά και η έρευνα δεδοµένων από επιστήµες όπως η βιολογία και η ιατρική. Λαµβάνοντας ένα σύνολο ακολουθιών, κάθε ακολουθία αποτελείται από µια λίστα στοιχείων και κάθε στοιχείο αποτελείται από ένα σύνολο αντικειµένων. Δεδοµένου ενός ορισµένου ελάχιστου ορίου υποστήριξης, η εξόρυξη διαδοχικών προτύπων είναι ουσιαστικά η εύρεση όλων των συχνών ακολουθιών, δηλαδή των υπο-ακολουθιών, των οποίων η συχνότητα εµφάνισης στο σύνολο των ακολουθιών δεν είναι µικρότερη από την ελάχιστη υποστήριξη. 63 of 104

64 5.3.1 Ορισµός του Προβλήµατος Εξόρυξης Ακολουθιακών Προτύπων Το πρόβληµα της εξόρυξης ακολουθιακών προτύπων (problem of mining sequential patterns) εστιάζει στην εύρεση όλων των ακολουθιών, των οποίων η υποστήριξη (support) είναι µεγαλύτερη από µία προκαθορισµένη από το χρήστη ελάχιστη υποστήριξη (minimum support). Κάθε µία από αυτές τις ακολουθίες αντιπροσωπέυει ένα ακολουθιακό πρότυπο το οποίο µπορούµε να ονοµάσουµε και συχνό πρότυπο. Παρακάτω παρουσιάζουµε τις βασικές έννοιες που απαιτούνται για να καθορίσουµε σαφώς το πρόβληµα της εξόρυξης ακολουθιακών προτύπων. Ορισµός 1. Η ακολουθία (sequence) που αποτελεί αντικείµενο µελέτης ορίζεται ως α = < t1,t2,t3..,tm >. Η α είναι µια διατεταγµένη λίστα που αποτελείται από σύνολο αντικειµένων tι. Τα tι έχουν την ιδιότητα όλα τα αντικείµενα γεγονότα που περιέχουν, να συµβαίνουν την ίδια χρονική στιγµή. Ορισµός 2. Επίσης ένας σηµαντικός ορισµός είναι αυτός της υπο-ακολουθίας. Έτσι µια ακολουθία α=< α1,α2,α3..,αm > είναι υποακολουθία της β=< β1,β2,β3..,βm > αν α β και για κάθε στοιχείο της α υπάρχει κοµµάτι της β που να το περιέχει. Ορισµός 3. Δεδοµένης λοιπόν µιας ακολουθιακής βάσης D = {s1,s2,s3..,sm, µια ακολουθία α έχει υποστήριξη που ισούται µε τον αριθµό των ακολουθιών της βάσης που περιέχουν την α. Αν αυτή η υποστήριξη ξεπερνά το κατώφλι που θέτουµε κατά περίπτωση, τότε µιλάµε για συχνό ακολουθιακό πρότυπο. Πολλοί είναι οι αλγόριθµοι εξόρυξης ακολουθιακών προτύπων που έχουν αναπτυχθεί, όπως για παράδειγµα ο Generalized Sequential Patterns (GSP), ένας αλγόριθµος στη λογική του Apriori, που ενσωµατώνει χρονικούς περιορισµούς µε τεχνικές κινούµενου χρονικά παραθύρου. Στο αλγόριθµο GSP αναζητούνται και ελέγχονται υποψήφια ακολουθιακά πρότυπα οριζόντιας µορφής αποθήκευσης των εγγραφών της µορφής <ID_Ακολουθίας: ακολουθία αντικειµένων>. Ο αλγόριθµος SPADE είναι παρόµοιος µε τον αλγόριθµο GSP, µε τη µόνη διαφορά της κατακόρυφης αποθήκευσης των δεδοµένων στην οποία κάθε αντικείµενο αναπαριστάνεται ως <αντικείµενο: ID_Ακολουθίας, ID_εγγραφής>. Οι αλγόριθµοι GSP, SPADE έχουν το µειονέκτηµα της παραγωγής µεγάλων υποψήφιων συνόλων. Για να αποφευχθεί αυτό το πρόβληµα, αναπτύχθηκαν και αλγόριθµοι οι οποίοι δουλεύουν στο πρότυπο του FP Growth. Αυτό σηµαίνει ότι η εξόρυξη προτύπων πραγµατοποιείται µέσω της µεθοδολογίας διαίρει και βασίλευε. Μία τέτοιου είδους τεχνική υλοποιείται από τον αλγόριθµο PrefixSpan, τον οποίο θα αναλύσουµε στη συνέχεια. 64 of 104

65 5.3.2 Ο Αλγόριθµος PrefixSpan Ο αλγόριθµος PrefixSpan (Prefix-projected Sequential pattern mining) προτάθηκε από τους J. Han και J. Pei et αϊ το 2001 και µπορεί να εξαγάγει έναν µεγάλο αριθµό ακολουθιακών προτύπων από ακολουθιακές βάσεις δεδοµένων. Η κύρια ιδέα του αλγόριθµου PrefixSpan είναι ότι εξετάζει µόνο τις υπο-ακολουθίες του προθέµατος (prefix) και προβάλλει (project) µόνο τις αντίστοιχες postfix ακολουθίες τους σε projected βάσεις δεδοµένων. Για κάθε projected βάση δεδοµένων αναπτύσσονται ακολουθιακά πρότυπα µέσω της διερεύνησης µόνο των τοπικά συχνών προτύπων. Όλες αυτές οι διεργασίες θα αναφερθούν στη συνέχεια της ενότητας αναλυτικά, µέσω µιας εκτενούς περιγραφής του αλγορίθµου. Πρώτα απ όλα, θα δώσουµε τους ορισµούς όσον αφορά το πρόθεµα (prefix), την προβολή (projection) και την κατάληξη (postfix), οι οποίες αποτελλούν βασικές έννοιες πάνω στις οποίες κατασκευάζεται ο αλγόριθµος PrefixSpan. Υποθέστε ότι όλα τα αντικείµενα e παρατίθενται αλφαβητικά. Με δεδοµένο µία ακολουθία α = <e1e2... en>, η ακολουθία β = <e 1e 2... e m> (m n) oνοµάζεται πρόθεµα (prefix) του α εάν και µόνο αν (1) e i = ei για (i m-1) (2) e m em για (i m-1) και (3) όλα τα αντικείµενα στο (em - e m) είναι αλφαβητικά µετά από εκείνα του e m. Με δεδοµένο τις ακολουθίες α και β τέτοιες ώστε η β να είναι µια υπο-ακολουθία του α, δηλαδή β α. Μια υπο-ακολουθία α της ακολουθίας α (δηλ. α α) ονοµάζεται προβολή (projection) της α σε σχέση µε το πρόθεµα β, εάν και µόνο εάν (1) α έχει πρόθεµα β και (2) δεν υπάρχει καµία κατάλληλη υπερ-ακολουθία α του α (δηλ. α α αλλά α α ) τέτοια που η α είναι µια υπο-ακολουθία του α και έχει επίσης πρόθεµα β. Έστω α = <e1e2... en> είναι η προβολή του α ως προς το πρόθεµα β = <e1e2... em-1e m> (m n) Η ακολουθία γ = <e mem+1 en> ονοµάζεται κατάληξη (postfix) του α σε σχέση µε το πρόθεµα β που υποδηλώνεται ως γ = α / β, όπου e m = (em - e m) 2. Ο παρακάτω πίνακας δείχνει συνοπτικά τα βήµατα του αλγορίθµου PrefixSpan. Είσοδος: S // Μια βάση δεδοµένων από ακολουθίες min_sup // ελάχιστο όριο υποστήριξης Έξοδος: Το πλήρες σύνολο ακολουθιακών προτύπων Μέθοδος: Κάλεσε την PrefixSpan(<>,0,S) Yπορουτίνα: PrefixSpan(α, l, S α) 65 of 104

66 Παράµετροι: α: ακολουθιακό προτύπο, l: το µήκος του α, S α: η <α>-projected βάση δεδοµένων, αν α <>; αλλιώς; η βάση βάση δεδοµένων S Μέθοδος PrefixSpan: 1. Σάρωσε τη S α µία φορά και βρές το σύνολο των συχνών αντικειµένων b έτσι ώστε: b µπορεί να προστεθέι στο τελευταίο αντικείµενο του α για να σχηµατίσει ένα ακολουθιακό πρότυπο; ή <b> µπορεί να προσαρτηθεί στο α για να σχηµατίσει ένα ακολουθιακό πρότυπο. 2. Για κάθε συχνό στοιχείο b: Το προσαρτούµε στο α για να σχηµατίσουµε ένα ακολουθιακό πρότυπο α ; Εξάγουµε το α ; 3. Για κάθε α : Κατασκευάζουµε την α'-projected βάση δεδοµένων S α και Καλούµε τη µέθοδο PrefixSpan (α, L + l, S α ). Πίνακας 11. Αλγόριθµος PrefixSpan Για να κατανοήσουµε καλύτερα τη λειτουργία του αλγορίθµου PrefixSpan ακολουθεί ένα σχετικό παράδειγµα. Έστω ότι η βάση δεδοµένων S του Πίνακα 12 είναι µια βάση ακολουθιακών δεδοµένων και η ελάχιστη υποστήριξη (min_support) ισούται µε 2. Το σύνολο των αντικειµένων στη βάση δεδοµένων είναι {a, b, c, d, e, f, g. Μπορούµε να ανακαλύψουµε τα ακολουθιακά πρότυπα, ακολουθώντας τα ακόλουθα βήµατα. Sequences <(b d) c b (a c)> <(b f) (c e) b (f g)> <(a h) (b f) a b f> <(b e) (c e) d> <a (b d) b c b (a d e)> Πίνακας 12. Ακολουθιακή βάση δεδοµένων S. Βήµα 1: Ο αλγόριθµος PrefixSpan ξεκινάει σαρώνοντας την βάση δεδοµένων µία φορά µε σκοπό για να βρει όλα τα συχνά αντικείµενα µε µήκος-1. Αυτά είναι τα εξής: <a>: 3, <b>: 5, <c>: 4, <d>: 3, <e>: 3, <f>: 2, όπου το ζέυγος <πρότυπο>:αριθµός αντιπροσωπεύει το πρότυπο και τον σχετικό αριθµό υποστήριξης. 66 of 104

67 Βήµα 2: Σε µία δεύτερη σάρωση η βάση δεδοµένων S χωρίζεται σε έξι projected βάσεις δεδοµένων, χρησιµοποιώντας κάθε συχνό αντικείµενο ως πρόθεµα (δες Πίνακα 13), δηλαδή: η πρώτη projected βάση έχει πρόθεµα το <a>, η δεύτερη projected βάση έχει πρόθεµα το <b>,., η έκτη projected βάση έχει πρόθεµα το <f>. Πίνακας 13. Projected βάσεις δεδοµένων και ακολουθιακά πρότυπα Βήµα 3: Σε µία προσπάθεια να βρεθούν τα ακολουθιακά πρότυπα που έχουν πρόθεµα το <b>, µόνο οι ακολουθίες που περιέχουν το b µπορουν να διαµορφώνουν τη <b>-projected βάση δεδοµένων. Επιπλέον, σε µια ακολουθία που περιέχει το <b>, θα πρέπει να ληφθεί υπόψη µόνο η υπο-ακολουθία µε την πρώτη εµφάνιση του <b>. Για παράδειγµα στην ακολουθία <(bd)cb(ac)>, µόνο η υπο-ακολουθία <(_d)cb(ac)> θα πρέπει να ληφθεί υπόψιν στην projected βάση δεδοµένων µε πρόθεµα το <b>. Η υπο-ακολουθία (_d) υποδεικνύει ότι το d συµπίπτει µε το τελευταίο στοιχείο του προθέµατος (στην περίπτωση αυτή µε το <b>). Με τη σάρωση της <b>-projected βάσης δεδοµένων και τη µέτρηση της συχνότητας των αντικειµένων που υπάρχουν, µπορούν να βρεθούν όλα τα πρότυπα µήκους-2: <bα>, <bb>, <bc>, <bd>, <(bd)>, <be>, <bf>, <(bf)>. Αναδροµικά τώρα, κάθε ακολουθιακό πρότυπο µε πρόθεµα <b> µπορεί να χωριστεί περαιτέρω σε 8 υποσύνολα: εκείνα µε πρόθεµα <ba>, <bb>, <bc> κλπ. Τα υπόλοιπα ακολουθιακά πρότυπα για την <b>-projected βάση δεδοµένων παρουσιάζονται παρακάτω. 67 of 104

68 Πίνακας 14. Ακολουθιακά πρότυπα για τη <b>-projected βάση δεδοµένων Με το ίδιο τρόπο µπορούν να βρεθούν και τα ακολουθιακά πρότυπα για τις υπόλοιπες projected βάσεις δεδοµένων µε πρόθεµα το <a>, το <c>, το <d>, το <e> και τέλος το <f> Εφαρµογή του PrefixSpan σε Δεδοµένα του Τεχνητού Νεφρού Η ανάλυση συνόλων δεδοµένων, που είναι διατεταγµένα µε βάση το χρόνο, είναι απαραίτητη σε πολλούς τοµείς συµπεριλαµβανοµένης της µηχανικής, της ιατρικής και του επιχειρηµατικού κόσµου. Η µελλοντική συµπεριφορά µιας συγκεκριµένης µεταβλητής µπορεί να προβλεφθεί µελετώντας τον τρόπο µε τον οποίο συµπεριφέρθηκε µέχρι ένα συγκεκριµένο χρονικό διάστηµα. Οι τεχνικές εξόρυξης δεδοµένων αποτελούν πολύ χρήσιµα εργαλεία στην ανάλυση των δεδοµένων και κατά συνέπεια στη µελέτη της συµπεριφοράς των µεταβλητών µιας βάσης. Τα ακολουθιακά πρότυπα είναι ένα καλά δηλωµένο πρόβληµα εξόρυξης δεδοµένων. Σε αυτή την περίπτωση απαιτείται να εξορύξουµε την αιτιώδη συνάφεια µεταξύ διαφορετικών γεγονότων. Ένα γεγονός είναι ουσιαστικά µία µη κενή συλλογή αντικειµένων. Μία από τις σηµαντικές εφαρµογές της εξόρυξης ακολουθιακών προτύπων είναι στα ιατρικά δεδοµένα. Η ακολουθιακή εξόρυξη σε ιατρικά δεδοµένα µπορεί να οδηγήσει στην ανακάλυψη της αιτιώδης σχέσης µεταξύ διαφορετικών παθήσεων ή συµπτωµάτων. Ο αλγόριθµος PrefixSpan, όπως αναφέραµε στην προηγούµενη ενότητα, αποτελεί µία αποτελεσµατική µέθοδο εξόρυξης ακολουθιακών προτύπων σε µια µεγάλη βάση δεδοµένων. Γι αυτό το λόγο στη συνέχεια θα ακολουθήσει µία περιγραφή του τρόπου εφαρµογής του PrefixSpan στα δεδοµένα του τεχνητού νεφρού και θα παρουσιαστούν τα αποτελέσµατα του αλγορίθµου για διαφορετικές χρονικές περιόδους. Στόχος είναι η ανακάλυψη ακολουθιακών προτύπων, τα οποία θα παρέχουν κάποια χρήσιµη πληροφορία για τη συµπεριφορά των µετρήσεων - µεταβλητών σε µία συγκεκριµένη χρονική περίοδο. 68 of 104

69 Αρχικά, το πρώτο βήµα του αλγόριθµου είναι η δηµιουργία µιας διατεταγµένης λίστας ακολουθιών (sequences). H διατεταγµένη αυτή λίστα θα αποτελείται από ένα σύνολο αντικειµένων, όπου κάθε αντικείµενο ξεχωριστά θα αντιπροσωπεύει τη διακριτή τιµή µίας συγκεκριµένης µέτρησης ενός ασθενή, σε µία χρονική περιόδο. Ουσιαστικά κάθε ακολουθία θα αντιπροσωπεύει τις µετρήσεις ενός ξεχωριστού ασθενή για διαδοχικές χρονικές περιόδους. Επιλέξαµε να εφαρµόσουµε τον αλγόριθµο PrefixSpan σε ακολουθίες, στις οποίες περιλαµβάνονται µετρήσεις δύο διαδοχικών χρονικών περιόδων, για ευκολία στη µελέτη των αποτελεσµάτων που θα προκύψουν. Πιο συγκεκριµένα µελετήσαµε τις εξετάσεις των ασθενών για τις διαδοχικές περιόδους: δεύτερο τετράµηνο - τρίτο τετράµηνο - δεύτερο έτος, όπου µελετήθηκαν ξεχωριστά οι περίοδοι δεύτερο τετράµηνο - τρίτο τετράµηνο και οι τρίτο τετράµηνο - δεύτερο έτος. Δεν επιλέξαµε να συµπεριλάβουµε τις µετρήσεις του πρώτου τετραµήνου, διότι είναι οι εργαστηριακές µετρήσεις των ασθενών κατά την εισαγωγή τους στη µονάδα του τεχνητού νεφρού και οι τιµές των µετρήσεων είναι στην πλειοψηφία τους επηρεασµένες από τη χρόνια νεφρική ανεπάρκεια και στη διάρκεια του πρώτου τετραµήνου βελτιώνονται λόγω της αιµοκάθαρσης. Είναι επίσης σηµαντικό να αναφέρουµε ότι σε ορισµένους ασθενείς παρατηρήθηκε η ύπαρξη αρκετών ελλειπών τιµών σε πεδία των εργαστηριακών τους µετρήσεων για τις συγκεκριµένες χρονικές περιόδους, µε συνέπεια να κριθεί αναγκαία η διαγραφή τους από τη βάση. Ετσι, µετά τη διαδικασία της διαγραφής, ο συνολικός αριθµός των εγγραφών της βάσης, ο οποίος θα ισούται µε το πλήθος των ακολουθιών, ανέρχεται στους 347 ασθενείς. Η ακολουθίες που προέκυψαν και περιλαµβάνουν τις διακριτές τιµές των µετρήσεων των ασθενών για δύο διαδοχικές χρονικές περιόδους έχουν την µορφή <( 1d1 2d d19 )( 1d1 2d d19 )>, όπου τα 1,2,,19 είναι τα id των 19 µεταβλητών - µετρήσεων που αναγράφονται στον πίνακα 15 και η di για i = 1,2,19, είναι η διακριτή τιµή (discrete value) της µεταβλητής i. Τα αντικείµενα της µορφής idi που περικλείονται από το ίδιο ζεύγος παρανθέσεων, αφορούν µετρήσεις της ίδιας χρονικής περιόδου. Το γεγονός ότι έχουµε δύο ζεύγη παρανθέσεων στις ακολουθίες, φανερώνει ότι µετρήσεις που αναγράφονται είναι δύο διαδοχικών χρονικών περιόδων. 69 of 104

70 Για καλύτερη κατανόηση της µορφής των ακολουθιών παραθέτεται στον παρακάτω πίνακα ένα δείγµα της λίστας των ακολουθιών. Πίνακας 16. Δείγµα από τη λίστα των sequences Ένα ακόµα βασικό βήµα πριν την εκτέλεση του αλγορίθµου είναι o καθορισµός της τιµής του ελάχιστου ορίου υποστήριξης (mininmum support). Η επιλογή της κατάλληλης τιµή του ορίου εξαρτάται αποκλειστικά και µόνο από το σύνολο των δεδοµένων. Δηλαδή µπορεί ένα όριο που ισούται µε 80% να είναι ιδανικό σε ορισµένα δεδοµένα, ενώ σε κάποια άλλα να λειτουργεί καλύτερα το 0,05%. Για αυτόν το λόγο, η τεχνική που συνήθως προτείνεται είναι να δώσουµε αρχικά ένα υψηλό ποσοστό ορίου και να έπειτα να το µειώνουµε σταδιακά, µέχρι να βρούµε ένα ποσοστό που θα δηµιουργήσει αρκετά συχνά πρότυπα (frequent patterns). Ακολουθώντας αυτή τη µέθοδο, θέσαµε το mininmum support ίσο µε 72%. Βέβαια εάν επιδιώξουµε να µειώσουµε το ποσοστό αυτό, τα frequent patterns που θα προκύψουν θα είναι περισσότερα σε αριθµό. Αφού έχουµε κάνει όλες τις παραπάνω διεργασίες µπορούµε να εκτελέσουµε τον αλγόριθµο PrefixSpan. Με βάση τη λίστα των sequences που έχουµε δηµιουργήσει για τις εργαστηριακές εξετάσεις 347 ασθενών και θέτοντας το mininmum support στο 72%, τα συχνά πρότυπα που προκύπτουν αναγράφονται στους παρακάτω πίνακες. Πιο συγκεκριµένα στον Πίνακα 16 αναγράφονται τα frequent patterns που προκύπτουν από ακολουθίες µετρήσεων των διαδοχικών χρονικών περιόδων: δεύτερο τετράµηνο - τρίτο τετράµηνο και στον Πίνακα 17 των διαδοχικών χρονικών περιόδων: τρίτο τετράµηνο - δεύτερο έτος. Πίνακας 16. Frequent Patterns για τις περιόδους: 2ο τετράµηνο - 3ο τετράµηνο. Πίνακας 17. Frequent Patterns για τις περιόδους: 3ο τετράµηνο - 2ο έτος. 70 of 104

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΜΕΤΑΜΟΣΧΕΥΣΗ ΝΕΦΡΟΥ. Λειτουργία των νεφρών. Συμπτώματα της χρόνιας νεφρικής ανεπάρκειας

ΜΕΤΑΜΟΣΧΕΥΣΗ ΝΕΦΡΟΥ. Λειτουργία των νεφρών. Συμπτώματα της χρόνιας νεφρικής ανεπάρκειας ΜΕΤΑΜΟΣΧΕΥΣΗ ΝΕΦΡΟΥ Η χρόνια νεφρική ανεπάρκεια είναι η προοδευτική, μη αναστρέψιμη μείωση της νεφρικής λειτουργίας, η οποία προκαλείται από βλάβη του νεφρού ποικίλης αιτιολογίας. Η χρόνια νεφρική ανεπάρκεια

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΝΕΦΡΟΛΟΓΙΚΗ ΕΤΑΙΡΕΙΑ

ΕΛΛΗΝΙΚΗ ΝΕΦΡΟΛΟΓΙΚΗ ΕΤΑΙΡΕΙΑ ΕΛΛΗΝΙΚΗ ΝΕΦΡΟΛΟΓΙΚΗ ΕΤΑΙΡΕΙΑ Αθήνα 8 Μαρτίου 2011 ΔΕΛΤΙΟ ΤΥΠΟΥ Ένας στους δυο θανάτους, ασθενών με Χρόνια Νεφρική Νόσο, οφείλεται σε καρδιαγγειακό επεισόδιο και όχι στη νόσο αυτή καθ αυτή!!! Αυτό ανέφερε

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος Η έννοια πρόβληµα Ανάλυση προβλήµατος Με τον όρο πρόβληµα εννοούµε µια κατάσταση η οποία χρήζει αντιµετώπισης, απαιτεί λύση, η δε λύση της δεν είναι γνωστή ούτε προφανής. Μερικά προβλήµατα είναι τα εξής:

Διαβάστε περισσότερα

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο ρ. Η. Μαγκλογιάννης Πανεπιστήµιο Αιγαίου Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας 1. Εισαγωγή Σχολιασµός των εργασιών της 16 ης παράλληλης συνεδρίας µε θέµα «Σχεδίαση Περιβαλλόντων για ιδασκαλία Προγραµµατισµού» που πραγµατοποιήθηκε στο πλαίσιο του 4 ου Πανελλήνιου Συνεδρίου «ιδακτική

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

and Intelligent Systems Group LPIS Group).

and Intelligent Systems Group LPIS Group). ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΙΑΤΡΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Αναζήτηση Γνώσης σε Ιατρικά εδοµένα ιπλωµατική Εργασία της Παπαρνάκη Σουλτάνας Επιβλέπων Καθηγητής:

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 10: Ομαδοποίηση Μέρος Δ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Διαχείριση Πολιτισμικών Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων Διαχείριση Πολιτισμικών Δεδομένων Ενότητα 6: Εισαγωγή στις Βάσεις Δεδομένων Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Περίληψη ιπλωµατικής Εργασίας

Περίληψη ιπλωµατικής Εργασίας Περίληψη ιπλωµατικής Εργασίας Θέµα: Εναλλακτικές Τεχνικές Εντοπισµού Θέσης Όνοµα: Κατερίνα Σπόντου Επιβλέπων: Ιωάννης Βασιλείου Συν-επιβλέπων: Σπύρος Αθανασίου 1. Αντικείµενο της διπλωµατικής Ο εντοπισµός

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΠΛΗΘΥΣΜΟΙ ΔΕΙΓΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΕΔΟΜΕΝΩΝ Περιγραφική Στατιστική Με τις στατιστικές μεθόδους επιδιώκεται: - η συνοπτική αλλά πλήρης και κατατοπιστική παρουσίαση των ευρημάτων μιας

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Η Έρευνα Μάρκετινγκ ως εργαλείο ανάπτυξης νέων προϊόντων ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ.

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος Εισαγωγή στον προγραµµατισµό Η έννοια του προγράµµατος Ο προγραµµατισµός ασχολείται µε τη δηµιουργία του προγράµµατος, δηλαδή του συνόλου εντολών που πρέπει να δοθούν στον υπολογιστή ώστε να υλοποιηθεί

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ ΔΕΔΟΜΕΝΑ ΔΕΔΟΜΕΝΑ ΠΛΗΡΟΦΟΡΙΑ ΑΡΙΘΜΟΙ ΣΥΜΒΟΛΑ - ΛΕΞΕΙΣ ΟΠΟΙΑΔΗΠΟΤΕ ΔΡΑΣΤΗΡΙΟΤΗΤΑ ΣΥΜΒΑΙΝΕΙ ΣΕ ΜΙΑ ΟΙΚΟΝΟΜΙΚΗ ΜΟΝΑΔΑ ΠΡΕΠΕΙ ΝΑ ΜΕΤΡΕΙΤΑΙ ΚΑΙ ΝΑ ΚΑΤΑΓΡΑΦΕΤΑΙ ΟΡΓΑΝΩΣΗ ΚΑΤΑΓΡΑΦΗΣ

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 1 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 Β. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΕΥΝΑ 1. Γενικά Έννοιες.. 2 2. Πρακτικός Οδηγός Ανάλυσης εδοµένων.. 4 α. Οδηγός Λύσεων στο πλαίσιο

Διαβάστε περισσότερα

Στόχος της ψυχολογικής έρευνας:

Στόχος της ψυχολογικής έρευνας: Στόχος της ψυχολογικής έρευνας: Συστηματική περιγραφή και κατανόηση των ψυχολογικών φαινομένων. Η ψυχολογική έρευνα χρησιμοποιεί μεθόδους συστηματικής διερεύνησης για τη συλλογή, την ανάλυση και την ερμηνεία

Διαβάστε περισσότερα

Είδη Μεταβλητών. κλίµακα µέτρησης

Είδη Μεταβλητών. κλίµακα µέτρησης ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρµοσµένες Επιστήµες Στατιστικός Πληθυσµός και Δείγµα Το στατιστικό

Διαβάστε περισσότερα

ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ

ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ 1 ΕΙΣΑΓΩΓΗ Με την ολοένα και ταχύτερη ανάπτυξη των τεχνολογιών και των επικοινωνιών και ιδίως τη ραγδαία, τα τελευταία

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ 3 η ΠΑΡΟΥΣΙΑΣΗ Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου Συλλογή δεδομένων Πρωτογενή δεδομένα Εργαστηριακές μετρήσεις Παρατήρηση Παρατήρηση με συμμετοχή,

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: Αναζήτηση γνώσης σε Νοσοκομειακά Δεδομένα ΤΟΡΤΟΠΙΔΗΣ ΓΕΩΡΓΙΟΣ Μηχανικός Η/Υ & Πληροφορικής Επιβλέπων: ΒΛΑΧΑΒΑΣ Π. ΙΩΑΝΝΗΣ Καθηγητής Τμ. Πληροφορικής

Διαβάστε περισσότερα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA) ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα 005 - Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Coponent Analysis, PCA) καθ. Βασίλης Μάγκλαρης aglaris@netode.ntua.gr www.netode.ntua.gr

Διαβάστε περισσότερα

εισήγηση 8η Είδη Έρευνας ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (#Ν151)

εισήγηση 8η Είδη Έρευνας ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (#Ν151) εισήγηση 8η Είδη Έρευνας ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (#Ν151) Βασική (ή Καθαρή) και Εφαρμοσμένη 1 Η Βασική ή Καθαρή έρευνα δεν στοχεύει σε οικονομικά ή κοινωνικά οφέλη και δεν καταβάλλονται προσπάθειες για την εφαρμογή

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) ρ. ΧΑΛΚΙΑΣ ΧΡΙΣΤΟΣ xalkias@hua.gr Χ. Χαλκιάς - Εισαγωγή στα GIS 1 Ορισµοί ΓΠΣ Ένα γεωγραφικό πληροφοριακό σύστηµα Geographic Information

Διαβάστε περισσότερα

Ανάλυση κατά Συστάδες. Cluster analysis

Ανάλυση κατά Συστάδες. Cluster analysis Ανάλυση κατά Συστάδες Cluster analysis 1 H ανάλυση κατά συστάδες είναι µια µέθοδος που σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες

Διαβάστε περισσότερα

Ο ΡΟΛΟΣ ΤΟΥ ΝΟΣΗΛΕΥΤΗ ΣΤΗ ΜΕΙΩΣΗ ΤΩΝ ΕΠΑΝΕΙΣΑΓΩΓΩΝ ΣΤΗΝ ΚΑΡΔΙΑΚΗ ΑΝΕΠΑΡΚΕΙΑ

Ο ΡΟΛΟΣ ΤΟΥ ΝΟΣΗΛΕΥΤΗ ΣΤΗ ΜΕΙΩΣΗ ΤΩΝ ΕΠΑΝΕΙΣΑΓΩΓΩΝ ΣΤΗΝ ΚΑΡΔΙΑΚΗ ΑΝΕΠΑΡΚΕΙΑ Ο ΡΟΛΟΣ ΤΟΥ ΝΟΣΗΛΕΥΤΗ ΣΤΗ ΜΕΙΩΣΗ ΤΩΝ ΕΠΑΝΕΙΣΑΓΩΓΩΝ ΣΤΗΝ ΚΑΡΔΙΑΚΗ ΑΝΕΠΑΡΚΕΙΑ Η Καρδιακή Ανεπάρκεια(ΚΑ) είναι ένα πολύπλοκο, προοδευτικά εξελισσόμενο σύνδρομο κλινικών, αιμοδυναμικών και νευροορμονικών διαταραχών

Διαβάστε περισσότερα

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΓΩΓΗΣ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ Ενότητα 2: Επαγωγική-περιγραφική στατιστική, παραµετρικές

Διαβάστε περισσότερα

Έκδοσης 2005 Π. Κεντερλής

Έκδοσης 2005 Π. Κεντερλής Σύστημα «Ηλέκτρα» Το Σύστημα «Ηλέκτρα» αποτελεί μια ολοκληρωμένη διαδικτυακή εφαρμογή διαχείρισης πληροφοριών μαθημάτων και χρηστών. Αναπτύχθηκε εξολοκλήρου από τον εργαστηριακό συνεργάτη Παναγιώτη Κεντερλή

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ρ. Χαράλαµπος Π. Στρουθόπουλος Αναπληρωτής Καθηγητής

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ Δομή Παρουσίασης

Διαβάστε περισσότερα

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 6. Δειγματοληψία 6-1

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 6. Δειγματοληψία 6-1 Εισαγωγή στην κοινωνική έρευνα Earl Babbie Κεφάλαιο 6 Δειγματοληψία 6-1 Σύνοψη κεφαλαίου Σύντομη ιστορία της δειγματοληψίας Μη πιθανοτική δειγματοληψία Θεωρία και λογική της πιθανοτικής Δειγματοληψίας

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

ιαγνωστικός Συλλογισµός και Λήψη Ιατρικής Απόφασης

ιαγνωστικός Συλλογισµός και Λήψη Ιατρικής Απόφασης ιαγνωστικός Συλλογισµός και Λήψη Ιατρικής Απόφασης ρ. Βασίλης Σπυρόπουλος Τµήµα Τεχνολογίας Ιατρικών Οργάνων Σχολή Τεχνολογικών Εφαρµογών Tεχνολογικό Εκπαιδευτικό Ιδρυµα Αθήνας 1 Η αφετηρία του διαγνωστικού

Διαβάστε περισσότερα

Ε Ν Η Μ Ε Ρ Ω Σ Ο Υ. νεφρά

Ε Ν Η Μ Ε Ρ Ω Σ Ο Υ. νεφρά Ε Ν Η Μ Ε Ρ Ω Σ Ο Υ νεφρά νεφρών Η υψηλή αρτηριακή πίεση (υπέρταση) είναι ένα από τα δύο κύρια αίτια χρόνιας νεφρικής νόσου παγκοσμίως (το άλλο είναι ο διαβήτης). Επίσης, τα νεφρά έχουν βασικό ρόλο στη

Διαβάστε περισσότερα

Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας)

Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας) Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας) Εισαγωγή 1. Τι είναι αυτό που κρατάς στα χέρια σου. Αυτό το κείµενο είναι µια προσπάθεια να αποτυπωθεί όλη η θεωρία του σχολικού µε

Διαβάστε περισσότερα

Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων. Παράδειγμα

Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων. Παράδειγμα Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων Παράδειγμα Μας δίνονται τα παρακάτω δεδομένα που αντιπροσωπεύουν τις τιμές πίεσης σε ατμόσφαιρες

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου ΠΡΟΛΟΓΟΣ Η γραμμική παλινδρόμηση χρησιμοποιείται για την μελέτη των σχέσεων μεταξύ μετρήσιμων μεταβλητών. Γενικότερα, η γραμμική στατιστική συμπερασματολογία αποτελεί ένα ευρύ πεδίο της στατιστικής ανάλυσης

Διαβάστε περισσότερα

Μητρώο Τεκµηρίων Εκπαιδευτή ΕΝΟΤΗΤΑ/ΣΤΟΙΧΕΙΟ E/15 ΑΝΑΦΟΡΑ ΧΑΡΤΟΦΥΛΑΚΙΟΥ 15 ΕΚΠΑΙ ΕΥΤΗΣ Χρίστου Χρίστος

Μητρώο Τεκµηρίων Εκπαιδευτή ΕΝΟΤΗΤΑ/ΣΤΟΙΧΕΙΟ E/15 ΑΝΑΦΟΡΑ ΧΑΡΤΟΦΥΛΑΚΙΟΥ 15 ΕΚΠΑΙ ΕΥΤΗΣ Χρίστου Χρίστος 1. Προσδιορισµός κατάλληλων µέτρων αξιολόγησης για το πρόγραµµα ECDL α. Εφαρµογή διαφορετικών επιπέδων αξιολόγησης στο πρόγραµµα ECDL. Η αξιολόγηση του προγράµµατος ECDL πρέπει να διενεργείται σε 4 επίπεδα

Διαβάστε περισσότερα

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Αναστάσιος Σκαρλατίδης 1,2 anskarl@iit.demokritos.gr επιβλέπων: Καθ. Βούρος Γ. 1 1 Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων Πανεπιστήµιο

Διαβάστε περισσότερα

Γλώσσες υψηλού επιπέδου Περιέχουν περισσότερες εντολές για την εκτέλεση πολύπλοκων εργασιών Τα προγράµµατα µεταφράζονται σε γλώσσα µηχανής είτε από το

Γλώσσες υψηλού επιπέδου Περιέχουν περισσότερες εντολές για την εκτέλεση πολύπλοκων εργασιών Τα προγράµµατα µεταφράζονται σε γλώσσα µηχανής είτε από το Σηµαντικά σηµεία κεφαλαίου Τα τρία στάδια επίλυσης ενός προβλήµατος: Ακριβής προσδιορισµό του προβλήµατος Ανάπτυξη του αντίστοιχου αλγορίθµου. ιατύπωση του αλγορίθµου σε κατανοητή µορφή από τον υπολογιστή.

Διαβάστε περισσότερα

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση µεθόδων Συµπερασµού Γραµµατικών Κορφιάτης Γιώργος ιπλωµατική Εργασία Αντικείµενο Κατασκευή µοντέλου ικανού να περιγράψει την πλοήγηση

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής

Διαβάστε περισσότερα

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων... Περιεχόμενα Ανάλυση προβλήματος 1. Η έννοια πρόβλημα...13 2. Επίλυση προβλημάτων...17 Δομή ακολουθίας 3. Βασικές έννοιες αλγορίθμων...27 4. Εισαγωγή στην ψευδογλώσσα...31 5. Οι πρώτοι μου αλγόριθμοι...54

Διαβάστε περισσότερα

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής Περιεχόµενα Κατηγορίες Π.Σ. ιαχείρισης Πράξεων ιοίκησης Υποστήριξης Αποφάσεων Έµπειρα Συστήµατα Ατόµων και Οµάδων Ο κύκλος ζωής Π.Σ. Ορισµός Φάσεις Χρήστες

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Συλλογή,, αποθήκευση, ανανέωση και παρουσίαση στατιστικών δεδοµένων

Συλλογή,, αποθήκευση, ανανέωση και παρουσίαση στατιστικών δεδοµένων Συλλογή,, αποθήκευση, ανανέωση και παρουσίαση στατιστικών δεδοµένων 1. Αναζήτηση των κατάλληλων δεδοµένων. 2. Έλεγχος µεταβλητών και κωδικών για συµβατότητα. 3. Αποθήκευση σε ηλεκτρονική µορφή (αρχεία

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΖΩΓΡΑΦΟΥ 157 73, ΑΘΗΝΑ ΕΒΓ - ΙΠΛ-2003-1 20 Ιανουαρίου 2003 Σύγκριση Αλγορίθµων

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ Βασικές Έννοιες - εδοµένα { Νίκος, Μιχάλης, Μαρία, Θάλασσα, Αυτοκίνητο }, αριθµοί, π.χ. {1, 2, 3, 5, 78}, συµβολοσειρές (strings) π.χ. { Κώστας, 5621, ΤΡ 882, 6&5 #1, +

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Γεώργιος Φίλιππας 23/8/2015

Γεώργιος Φίλιππας 23/8/2015 MACROWEB Προβλήματα Γεώργιος Φίλιππας 23/8/2015 Παραδείγματα Προβλημάτων. Πως ορίζεται η έννοια πρόβλημα; Από ποιους παράγοντες εξαρτάται η κατανόηση ενός προβλήματος; Τι εννοούμε λέγοντας χώρο ενός προβλήματος;

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος εδοµένα οµές δεδοµένων και αλγόριθµοι Τα δεδοµένα είναι ακατέργαστα γεγονότα. Η συλλογή των ακατέργαστων δεδοµένων και ο συσχετισµός τους δίνει ως αποτέλεσµα την πληροφορία. Η µέτρηση, η κωδικοποίηση,

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό,

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό, 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή 1. εδοµένα, Πληροφορίες και Υπολογιστές 2. Πώς φτάσαµε στους σηµερινούς υπολογιστές 3. Το υλικό ενός υπολογιστικού συστήµατος 4. Το λογισµικό ενός υπολογιστικού συστήµατος

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 1 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 1 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ 1 η ΠΑΡΟΥΣΙΑΣΗ Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου Κάποιες έννοιες Επιστήμη : κάθε συστηματικό πεδίο μελέτης ή σύστημα γνώσης που έχει ως σκοπό

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση

Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση Πέρα όµως από την Γνωσιακή/Εννοιολογική ανάλυση της δοµής και του περιεχοµένου των σχολικών εγχειριδίων των Μαθηµατικών του Δηµοτικού ως προς τις έννοιες

Διαβάστε περισσότερα

Μάθηση Απόδοση. Διαφοροποιήσεις στην Κινητική Συμπεριφορά. Μάθημα 710 Μάθηση - Απόδοση Διάλεξη 3η

Μάθηση Απόδοση. Διαφοροποιήσεις στην Κινητική Συμπεριφορά. Μάθημα 710 Μάθηση - Απόδοση Διάλεξη 3η Μάθηση Απόδοση. Διαφοροποιήσεις στην Κινητική Συμπεριφορά Μάθημα 710 Μάθηση - Απόδοση Διάλεξη 3η Στόχοι- περιεχόμενο διάλεξης Ορισμός μάθησης διαφορές με την απόδοση Αξιολόγησης Μάθησης Στάδια μάθησης

Διαβάστε περισσότερα

Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών. (Geographical Information Systems GIS)

Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών. (Geographical Information Systems GIS) Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών (Geographical Information Systems GIS) ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ, ΤΜΗΜΑ ΓΕΩΓΡΑΦΙΑΣ ΧΑΛΚΙΑΣ ΧΡΙΣΤΟΣ Εισαγωγή στα GIS 1 Ορισµοί ΣΓΠ Ένα σύστηµα γεωγραφικών πληροφοριών

Διαβάστε περισσότερα

Κεφάλαιο 4: Λογισμικό Συστήματος

Κεφάλαιο 4: Λογισμικό Συστήματος Κεφάλαιο 4: Λογισμικό Συστήματος Ερωτήσεις 1. Να αναφέρετε συνοπτικά τις κατηγορίες στις οποίες διακρίνεται το λογισμικό συστήματος. Σε ποια ευρύτερη κατηγορία εντάσσεται αυτό; Το λογισμικό συστήματος

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Επιχειρηµατικές ιαδικασίες: Εισαγωγικές Έννοιες & Αρχικά στάδια µοντελοποίησης

Επιχειρηµατικές ιαδικασίες: Εισαγωγικές Έννοιες & Αρχικά στάδια µοντελοποίησης ΟΙΚΟΝΟΜΙΚΌ ΠΑΝΕΠΙΣΤΉΜΙΟ ΑΘΗΝΏΝ ΤΜΗΜΑ ΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ Επιχειρηµατικές ιαδικασίες: Εισαγωγικές Έννοιες & Αρχικά στάδια µοντελοποίησης 1o φροντιστήριο στο µάθηµα Ανάλυση και µοντελοποίηση

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Κωδικοποίηση

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Κωδικοποίηση ΙΕΚ ΞΑΝΘΗΣ Μάθημα : Στατιστική Ι Υποενότητα : Κωδικοποίηση Επαμεινώνδας Διαμαντόπουλος Ιστοσελίδα : http://users.sch.gr/epdiaman/ Email : epdiamantopoulos@yahoo.gr 1 Στόχοι της υποενότητας Μετά τη μελέτη

Διαβάστε περισσότερα

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ Δομή παρουσίασης Εισαγωγή Βασικές Έννοιες Σχετικές μελέτες Εφαρμογή Δεδομένων Συμπεράσματα Εισαγωγή Μελέτη και προσαρμογή των διάφορων

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

Η ΕΜΠΕΙΡΙΑ ΤΗΣ ΚΑΤΑΓΡΑΦΗΣ ΑΠΟ ΤΗΝ ΠΛΕΥΡΑ ΤΟΥ ΚΑΤΑΓΡΑΦΕΑ

Η ΕΜΠΕΙΡΙΑ ΤΗΣ ΚΑΤΑΓΡΑΦΗΣ ΑΠΟ ΤΗΝ ΠΛΕΥΡΑ ΤΟΥ ΚΑΤΑΓΡΑΦΕΑ Η ΕΜΠΕΙΡΙΑ ΤΗΣ ΚΑΤΑΓΡΑΦΗΣ ΑΠΟ ΤΗΝ ΠΛΕΥΡΑ ΤΟΥ ΚΑΤΑΓΡΑΦΕΑ ΚΑΤΑΓΡΑΦΕΙΣ Ε.Α.Ν Γ.Ν.Ν.Θ.Α «Η ΣΩΤΗΡΙΑ» ΚΩΝΣΤΑΝΤΙΝΑ ΜΠΡΟΥΠΗ ΕΠΙΣΚΕΠΤΡΙΑ ΥΓΕΙΑΣ ΓΕΡΑΣΙΜΟΣ ΜΕΤΑΞΑΣ ΝΟΣΗΛΕΥΤΗΣ ΠΕ 12/2/2015 ΙΣΤΟΡΙΚΟ Γ.Ν.Ν.Θ.Α. «Η ΣΩΤΗΡΙΑ»

Διαβάστε περισσότερα

1 Ανάλυση Προβλήματος

1 Ανάλυση Προβλήματος 1 Ανάλυση Προβλήματος 1.1 Η Έννοια Πρόβλημα Τι είναι δεδομένο; Δεδομένο είναι οτιδήποτε μπορεί να γίνει αντιληπτό από έναν τουλάχιστον παρατηρητή, με μία από τις πέντε αισθήσεις του. Τι είναι επεξεργασία

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών-ΤΕΙ Πελοποννήσου

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών-ΤΕΙ Πελοποννήσου ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών-ΤΕΙ Πελοποννήσου Σχηματική παρουσίαση της ερευνητικής διαδικασίας ΣΚΟΠΟΣ-ΣΤΟΧΟΣ ΘΕΩΡΙΑ ΥΠΟΘΕΣΕΙΣ ΕΡΓΑΣΙΑΣ Ερευνητικά

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα