Επιβλέπων καθηγητής: Βασίλειος Μεγαλοοικονόμου

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Επιβλέπων καθηγητής: Βασίλειος Μεγαλοοικονόμου"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ» ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΦΑΡΜΟΓΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΣΕ ΕΙΚΟΝΕΣ Ελισάβετ Δ. Ζαχαρία Επιβλέπων καθηγητής: Βασίλειος Μεγαλοοικονόμου Πάτρα, Απρίλιος 2013

2 1

3 UNIVERSITY OF PATRAS SCHOOL OF SCIENCES DEPARTMENT OF MATHEMATICS POSTGRADUATE PROGRAM «MATHEMATICS OF COMPUTATION AND DECISION MAKING» MASTER THESIS APPLICATION OF DATA MINING ALGORITHM IN IMAGES Elisavet D. Zacharia Supervisor :Vasileios Megalooikonomou Patra, April

4 3

5 Η παρούσα μεταπτυχιακή εργασία πραγματοποιήθηκε στα πλαίσια Διατμηματικού Προγράμματος Μεταπτυχιακών Σπουδών «Μαθηματικά των Υπολογιστών και των Αποφάσεων» στην κατεύθυνση «Στατιστική Θεωρία των Αποφάσεων και Εφαρμογές της» και κατατέθηκε τον Απρίλιο του Την επιτροπή αξιολόγησης αποτέλεσαν οι : Ν. Τσάντας, Αναπληρωτής Καθηγητής,Τμήμα Μαθηματικών, Πανεπιστήμιο Πάτρας Ε. Μακρή, Αναπληρώτρια Καθηγήτρια, Τμήμα Μαθηματικών, Πανεπιστήμιο Πάτρας Β. Μεγαλοοικονόμου (Επιβλέπων Καθηγητής),Καθηγητής, Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής, Πολυτεχνική Σχολή Πανεπιστημίου Πατρών. 4

6 5

7 Περίληψη H παρούσα εργασία ασχολείται με τεχνικές εξόρυξης δεδομένων από εικόνες. Παρουσιάζει κάποια βασικά θεωρητικά στοιχεία σχετικά με τις διάφορες μεθόδους, και στη συνέχεια εστιάζει στην υλοποίηση της τεχνικής dynamic recursive partitioning (DRP), που αναφέρεται ειδικά σε εξόρυξη δεδομένων σε σχέση με εικόνες. Η συγκεκριμένη τεχνική μελετήθηκε έτσι ώστε να καθοριστούν και να χαρακτηριστούν συγκεκριμένα μορφομετρικά χαρακτηριστικά ανάμεσα σε ανατομικές δομές / εικόνες εγκεφάλων, για ιατρικές εφαρμογές. Στόχος είναι να αποδειχτεί ότι η μέθοδος αυτή μειώνει τον απαιτούμενο αριθμό στατιστικών τεστ σε σχέση με άλλες αντίστοιχες μεθόδους, όπως για παράδειγμα σε σχέση με τη μέθοδο ανάλυσης κατά pixel. Όπως φάνηκε η μέθοδος DRP αποδίδει έχοντας εξίσου καλά και ικανοποιητικά αποτελέσματα με την μέθοδο ανάλυσης κατά pixel. Ταυτόχρονα όμως, η χρήση της DRP έχει ως αποτέλεσμα να χρησιμοποιείται σαφώς μικρότερος αριθμός στατιστικών τεστ, για την εξόρυξη των δεδομένων από τις εικόνες και την καταγραφή των περιοχών των εικόνων με τις σημαντικότερες μορφολογικές διαφοροποιήσεις, με την μείωση αυτή να φτάνει ως και το 50%. 6

8 Abstract This dissertation deals with methods of data mining from images. It presents a basic theoretical background regarding the several different methods, and then it focuses on a specific technique called dynamic recursive partitioning (DRP). The specific technique was examined in order to define some basic morphological characteristics between anatomical structures / images of brains for medical applications. The main target was to prove that this method reduces the necessary number of statistical tests with respect to other similar methods. As it was shown, DRP indeed performs at least the same as other methods. At the same time, its usage results in a significantly lower number of statistical tests, in order to perform data mining from the images and extract the areas of images with the most important morphological differences. This reduction of statistical tests reaches almost 50%. 7

9 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ 1 Εισαγωγή Βασικές έννοιες Αλγόριθμοι εξόρυξης γνώσεων Μοντέλα και Εργασίες στην Εξόρυξη Γνώσης από Δεδομένα Περιγραφικό Μοντέλο Προβλεπτικό Μοντέλο Οι σημαντικότεροι αλγόριθμοι Αλγόριθμοι κατηγοριοποίησης Αλγόριθμοι συσταδοποίησης Αλγόριθμοι κανόνων συσχετίσεων Μέθοδοι εξόρυξης και συσταδοποίησης χωρικών δεδομένων Εισαγωγή Οργάνωση χωρικών δεδομένων Βασικές αρχές εξόρυξης γνώσης Περιγραφή αλγορίθμων Γενικά χαρακτηριστικά Αλγόριθμοι Χωρικής Κατηγοριοποίησης Συσταδοποίηση χωρικών δεδομένων Ορισμοί Εφαρμογές Μέθοδοι Εξόρυξη δεδομένων και εικόνες Η τεχνική DRP Περιγραφή τεχνικής Έλεγχος λαθών σε συνδυασμό με την DRP

10 5.3 Έλεγχος απαιτούμενων στατιστικών τεστ Επίλογος Βιβλιογραφία

11 ΚΑΤΑΛΟΓΟΣ ΕΙΚΟΝΩΝ Εικόνα 1: Η βασική ιδέα του DRP Εικόνα 2: Τεστ κανονικότητας για την κλάση των ανδρών και των γυναικών με επίπεδο στατιστικής σημαντικότητας Εικόνα 3: Διαχωρισμός υπο περιοχών με μορφολογικές διαφοροποιήσεις από την υλοποίηση DRP με χρήση t test (περίπτωση α p<0.05, περίπτωση b p<0.01) και με χρήση rank sum (περίπτωση c p<0.05 και περίπτωση d p<0.01) Εικόνα 4: Διαχωρισμός υπο περιοχών με μορφολογικές διαφοροποιήσεις από την υλοποίηση ανά pixel με χρήση t test (περίπτωση α p<0.05, περίπτωση b p<0.01) και με χρήση rank sum (περίπτωση c p<0.05 και περίπτωση d p<0.01) Εικόνα 5: Διαχωρισμός υπο περιοχών με μορφολογικές διαφοροποιήσεις από την υλοποίηση (a) DPR με χρήση Bonferroni και FDR, p<0.0008, q = 0,54και (b) ανάλυση κατά pixel, με χρήση FDR, p<0.0042, q = 0,

12 ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ Πίνακας 1: Σύνοψη παραδοχών για την εφαρμογή του DRP Πίνακας 2: Σύνοψη αποτελεσμάτων αναφορικά με τον αριθμό των απαιτούμενων τεστ για DRP και ανάλυση κατά pixel

13 1 Εισαγωγή Η Εξόρυξη Γνώσης ορίζεται ως η εύρεση πληροφοριών που είναι κρυμμένες σε μία βάση δεδομένων, η εξερευνητική ανάλυση δεδομένων, η ανακάλυψη καθοδηγούμενη από δεδομένα και η εξερευνητική μάθηση. Η σημερινή εξέλιξη στις λειτουργίες και στα προϊόντα της εξόρυξης γνώσης από δεδομένα είναι αποτέλεσμα πολλών χρόνων επιρροής από πολλούς επιστημονικούς κλάδους όπως είναι οι βάσεις δεδομένων, η ανάκτηση πληροφοριών, η στατιστική, οι αλγόριθμοι και η μηχανική μάθηση. Ειδικότερα, πρόκειται για την διαδικασία «ανακάλυψης» ενδιαφερόντων και εν δυνάμει χρήσιμων προτύπων (patterns), υπαρκτών σε μεγάλες βάσεις δεδομένων. Ο όρος «εξόρυξη» χρησιμοποιείται προκειμένου να τονισθεί ότι τα πρότυπα συνιστούν ρινίσματα πολύτιμης πληροφορίας προς ανακάλυψη, κρυμμένης μέσα σε μεγάλες βάσεις δεδομένων. Ένα πρότυπο μπορεί να είναι μία στατιστική περίληψη (summary statistic), όπως ο μέσος όρος (mean), ο αριθμητικός μέσος (median), ή η τυπική απόκλιση (standard deviation) ενός συνόλου δεδομένων. Μέσω της εξόρυξης γνώσης αναζητούνται ταχύτατα και αυτόματα τοπικά και υψηλής χρησιμότητας πρότυπα, κάνοντας χρήση αλγορίθμων. Σε αυτό το πλαίσιο, θα παρουσιαστεί καταρχήν στην εργασία αυτή το ζήτημα της Εξόρυξης Δεδομένων (Data Mining) ή Εξόρυξης Γνώσης από Δεδομένα (Knowledge Data Mining). Θα επιχειρηθεί μία γενική θεώρηση σημαντικών εννοιών, οι οποίες σχετίζονται με αυτή την σχετικά καινούρια και ραγδαία εξελισσόμενη επιστημονική περιοχή. Ενδεικτικά αναφέρεται ότι θα μελετηθούν έννοιες όπως η κατηγοριοποίηση (Classification), οι κανόνες συσχετίσεων (Association Rules), η παρουσίαση συνόψεων (Summarization), η συσταδοποίηση (Clustering), η πρόβλεψη (Prediction), η ανάλυση Χρονοσειρών (Time Series Analysis) και η παλινδρόμηση (Regression).(Πέραν αυτών, θα γίνει και μια επισκόπηση των αλγορίθμων οι οποίοι αφορούν στην εξόρυξη δεδομένων, στα πλαίσια των πιο πάνω εργασιών εξόρυξης γνώσης. 12

14 Στη συνέχεια, θα παρουσιαστούν κάποια στοιχεία αναφορικά με την εξόρυξη χωρικών δεδομένων. Θα αναλυθεί το ζήτημα της Εξόρυξης Χωρικής Γνώσης και θα γίνει αναφορά στις χωρικές ερωτήσεις. Ακόμα, θα αναπτυχθεί η οργάνωση χωρικών δεδομένων αναλύοντας τις δομές αυτών, και θα παρουσιαστούν οι βασικές αρχές εξόρυξης γνώσης από χωρικά δεδομένα, καθώς και οι αλγόριθμοι εξόρυξης χωρικών δεδομένων στα πλαίσια της κατηγοριοποίησης, της συσταδοποίησης και των κανόνων χωρικών συσχετίσεων. Στη συνέχεια θα γίνει ανάλυση του θεωρητικού πλαισίου της συσταδοποίησης, εστιάζοντας στις αρχές και τις εφαρμογές της, ενώ θα αναπτυχθούν μέθοδοι συσταδοποίησης και θα γίνει συγκριτική θεώρηση των αλγορίθμων. Ακολούθως, η εργασία θα εστιάσει στην υλοποίηση της τεχνικής dynamic recursive partitioning (DRP), που αναφέρεται ειδικά σε εξόρυξη δεδομένων σε σχέση με εικόνες. Η συγκεκριμένη τεχνική θα μελετηθεί έτσι ώστε να καθοριστούν και να χαρακτηριστούν συγκεκριμένα μορφομετρικά χαρακτηριστικά ανάμεσα σε ανατομικές δομές / εικόνες εγκεφάλων, για ιατρικές εφαρμογές. Στόχος είναι, να αποδειχτεί ότι η μέθοδος αυτή μειώνει τον απαιτούμενο αριθμό στατιστικών τεστ. 13

15 2 Βασικές έννοιες Σε αυτήν την ενότητα, θα γίνει μια προσπάθεια να αποσαφηνιστούν οι σημαντικότερες έννοιες που χρησιμοποιούνται στην παρούσα εργασία. Δύο από τις πιο σημαντικές αυτές έννοιες, είναι η «Εξόρυξη Γνώσης από Δεδομένα» και η «Ανακάλυψη Γνώσης σε Βάσεις Δεδομένων» (Knowledge Discovery in Databases). Οι έννοιες αυτές, όπως θα φανεί στην συνέχεια, συχνά χρησιμοποιούνται εναλλακτικά για να περιγράψουν το ίδιο πράγμα. Τελευταία, ο όρος «Ανακάλυψη Γνώσης σε Βάσεις Δεδομένων» έχει χρησιμοποιηθεί για να εκφράσει μια διαδικασία που αποτελείται από πολλά βήματα, ένα από τα οποία είναι η εξόρυξη γνώσης από δεδομένα. Σε αυτό το πλαίσιο, μπορούμε να πούμε πως όταν αναφερόμαστε σε ανακάλυψη γνώσης σε βάσεις δεδομένων, ουσιαστικά πρόκειται για την διαδικασία εύρεσης χρήσιμων πληροφοριών και προτύπων στα δεδομένα. Αντίστοιχα, όταν γίνεται λόγος για εξόρυξη γνώσης από δεδομένα, ουσιαστικά περιγράφεται η χρήση αλγορίθμων για την εξαγωγή πληροφοριών και προτύπων που παράγονται με την διαδικασία ανακάλυψης γνώσης σε βάσεις δεδομένων. Ο ορισμός της ανακάλυψης γνώσης σε βάσεις δεδομένων περιλαμβάνει την λέξη κλειδί «χρήσιμο». Εφόσον οι πληροφορίες που προκύπτουν από αυτήν την διαδικασία δεν είναι χρήσιμες, τότε δεν είναι στην πραγματικότητα πληροφορίες. Φυσικά το αν κάτι είναι χρήσιμο ή όχι είναι σχετική και υποκειμενική έννοια. Η ανακάλυψη γνώσης σε βάσεις δεδομένων είναι μια διαδικασία που περιλαμβάνει πολλά διαφορετικά βήματα. Η είσοδος σε αυτή τη διαδικασία είναι τα δεδομένα και οι χρήσιμες πληροφορίες που επιθυμούν οι χρήστες είναι η έξοδος. Όμως, ο αντικειμενικός σκοπός δεν είναι από την αρχή ξεκάθαρος. Η διαδικασία από μόνη της είναι διαδραστική και συνήθως απαιτείται πολύς χρόνος για την ολοκλήρωσή της. Προκειμένου να διασφαλισθεί η χρησιμότητα και η ακρίβεια των αποτελεσμάτων αυτής της διαδικασίας, συνήθως χρειάζεται η συνεργασία ειδικών του πεδίου εφαρμογής με ειδικούς της διαδικασίας ανακάλυψης γνώσης σε βάσεις δεδομένων. 14

16 Το σύνολο της διαδικασίας που περιλαμβάνεται στα πλαίσια της εξόρυξης δεδομένων, αποτελείται από μια σειρά βημάτων. Τα βήματα αυτά είναι τα ακόλουθα. Το πρώτο βήμα, αφορά στην επιλογή. Ουσιαστικά, σε αυτό το βήμα συλλέγονται δεδομένα από διάφορες βάσεις δεδομένων, αρχεία και μη ηλεκτρονικές πηγές. Εν συνεχεία, ακολουθεί η προεπεξεργασία, κατά τη διάρκεια της οποίας εκτελούνται ενέργειες όπως διόρθωση ή αφαίρεση λανθασμένων δεδομένων, ή συλλογή και εκτίμηση ελλιπών δεδομένων. Μετά την προεπεξεργασία ακολουθεί ο μετασχηματισμός. Το βήμα του μετασχηματισμού αναφέρεται στα δεδομένα που προέρχονται από διαφορετικές πηγές, και τα οποία χρειάζεται να μετατραπούν σε ένα κοινό σχήμα για την περαιτέρω επεξεργασία τους. Κάποια από αυτά ίσως απαιτηθεί να κωδικοποιηθούν, ή να μετασχηματισθούν σε πιο χρήσιμα σχήματα. Μπορεί να ελαττωθούν τα δεδομένα, προκειμένου για την μείωση του αριθμού των τιμών αυτών που θα ληφθούν υπόψη. Ακολουθεί στη συνέχεια το βήμα της εξόρυξης γνώσης από δεδομένα. Στο βήμα αυτό, και με βάση το είδος της εξόρυξης που πρόκειται να εκτελεσθεί, σε αυτό το βήμα εφαρμόζονται αλγόριθμοι στα τροποποιημένα δεδομένα, ώστε να προκύψουν τα προσδοκώμενα αποτελέσματα. Τέλος, το τελευταίο βήμα της διαδικασίας περιλαμβάνει την ερμηνεία και την αξιολόγηση: Είναι πολύ σημαντικό το πώς θα παρουσιασθούν στους χρήστες τα αποτελέσματα της εξόρυξης γνώσης, επειδή η χρησιμότητα ή μη των αποτελεσμάτων μπορεί να εξαρτάται ακριβώς από αυτήν την παρουσίαση. Σε αυτό το τελευταίο βήμα χρησιμοποιούνται διάφορες στρατηγικές οπτικοποίησης και γραφικές διεπαφές χρήστη (Graphic User Interface). Αυτές οι διαφορετικές επιρροές από το παρελθόν, οι οποίες οδήγησαν στην ανάπτυξη της περιοχής της εξόρυξης γνώσης από δεδομένα, συντέλεσαν στη δημιουργία διαφορετικών απόψεων για το τι είναι στην πραγματικότητα οι λειτουργίες της εξόρυξης γνώσης. 15

17 Πιο συγκεκριμένα, μπορούμε να αναφερθούμε καταρχήν στην επαγωγή, η οποία χρησιμοποιείται για να οδηγηθούμε από μία πολύ εξειδικευμένη γνώση σε πιο γενικές πληροφορίες. Αυτό το είδος της τεχνικής συχνά υπάρχει στις εφαρμογές της τεχνητής νοημοσύνης. Αντίστοιχα, και επειδή ο πρωταρχικός αντικειμενικός στόχος της εξόρυξης γνώσης από δεδομένα είναι να περιγράψει μερικά χαρακτηριστικά ενός συνόλου δεδομένων από ένα γενικό μοντέλο, αυτή η προσέγγιση μπορεί να θεωρηθεί σαν ένα είδος συμπίεσης. Εδώ, τα λεπτομερή δεδομένα της βάσης δεδομένων «αφαιρούνται» και συμπιέζονται σε μία μικρότερη περιγραφή των χαρακτηριστικών των δεδομένων που βρίσκονται στο μοντέλο. Από την άλλη όμως μεριά, και όπως διατυπώθηκε και προηγουμένως, η διαδικασία της εξόρυξης γνώσης από δεδομένα μπορεί να θεωρηθεί από μόνη της σαν ένας τύπος διαδικασίας υποβολής ερωτήσεων στη σχετική βάση δεδομένων. Πράγματι, η έρευνα στην εξόρυξη γνώσης από δεδομένα τείνει προς την κατεύθυνση εκείνη όπου αναζητείται ο τρόπος ορισμού μιας ερώτησης εξόρυξης γνώσης και το κατά πόσο μπορεί να αναπτυχθεί μία γλώσσα ερωτήσεων που να περιλαμβάνει τόσους πολλούς διαφορετικούς τύπους επερωτήσεων εξόρυξης γνώσης. Σύμφωνα με μια άλλη διατύπωση, η περιγραφή μιας μεγάλης βάσης δεδομένων μπορεί να θεωρηθεί σαν να χρησιμοποιούμε προσέγγιση προκειμένου να αποκαλυφθούν κρυμμένες πληροφορίες σχετικές με τα δεδομένα. Τέλος, όταν εργαζόμαστε με μεγάλες βάσεις δεδομένων, η επίδραση του μεγέθους και η ικανότητα ανάπτυξης ενός αφηρημένου μοντέλου μπορούν να θεωρηθούν σαν ένας τύπος προβλήματος αναζήτησης. Σε κάθε περίπτωση, στο επόμενο κεφάλαιο θα γίνει μια περιεκτική αναφορά στους σημαντικότερους αλγόριθμους εξόρυξης δεδομένων και στα αντίστοιχα μοντέλα και εργασίες. 16

18 3 Αλγόριθμοι εξόρυξης γνώσεων Όπως έχει ήδη αναφερθεί και προηγουμένως, η εξόρυξη γνώσης από δεδομένα περιλαμβάνει πολλούς διαφορετικούς αλγορίθμους για να εκπληρωθούν διαφορετικές εργασίες. Στόχος των αλγορίθμων αυτών, είναι να ταιριάξουν ένα μοντέλο στα δεδομένα, εξετάζοντας τα τελευταία και καθορίζοντας το μοντέλο αυτό που είναι το πλησιέστερο στα χαρακτηριστικά τους. Θα μελετήσουμε πρώτα τα βασικότερα μοντέλα και εργασίες για την εξόρυξη γνώσης από ένα σύνολο δεδομένων, και στη συνέχεια θα γίνει μια σύντομη περιγραφή των σημαντικότερων αλγορίθμων. 3.1 Μοντέλα και Εργασίες στην Εξόρυξη Γνώσης από Δεδομένα Σύμφωνα με την βιβλιογραφία, οι αλγόριθμοι εξόρυξης γνώσης μπορεί να θεωρηθεί ότι αποτελούνται από τρία μέρη. Το πρώτο μέρος είναι το μοντέλο αναφορικά με το μέρος αυτό, ο σκοπός του αλγορίθμου είναι να ταιριάζει το μοντέλο στα δεδομένα. Εν συνεχεία ακολουθεί η προτίμηση, που βασίζεται στο ότι πρέπει να χρησιμοποιούνται κάποια κριτήρια για να ταιριάξει ένα μοντέλο έναντι ενός άλλου. Τέλος, υπάρχει η αναζήτηση, καθώς όλοι οι αλγόριθμοι απαιτούν μια τεχνική για να κάνουν αναζήτηση στα δεδομένα. Οι διάφοροι τύποι μοντέλων και ορισμένες από τις πιο συνήθεις εργασίες εξόρυξης γνώσης από δεδομένα που χρησιμοποιούν αυτό το είδος μοντέλου αναλύονται στη συνέχεια. 17

19 3.1.1 Περιγραφικό Μοντέλο Το μοντέλο αυτό, αναγνωρίζει πρότυπα ή συσχετίσεις στα δεδομένα. Αντίθετα από το προβλεπτικό, λειτουργεί σαν ένα μέσο που διερευνά τις ιδιότητες των δεδομένων που εξετάζονται και όχι για να προβλέπει νέες ιδιότητες. Ένα παράδειγμα περιγραφικού μοντέλου είναι το εξής: Μία αλυσίδα πολυκαταστημάτων δημιουργεί ειδικούς καταλόγους, που στοχεύουν σε διάφορες δημογραφικές ομάδες, με βάση γνωρίσματα όπως το εισόδημα, ο τόπος διαμονής και τα φυσικά χαρακτηριστικά των δυνητικών πελατών (ηλικία, ύψος, βάρος κλπ). Προκειμένου να καθορίσει σε ποιους από τους πελάτες των διαφόρων καταλόγων θα σταλεί ταχυδρομικά διαφημιστικό υλικό και προκειμένου να δημιουργηθούν καινούργιοι και πιο συγκεκριμένοι κατάλογοι, η εταιρεία κάνει ομαδοποίηση των πιθανών πελατών βασιζόμενη στις προκαθορισμένες τιμές γνωρισμάτων. Τα αποτελέσματα της συσταδοποίησης χρησιμοποιούνται στη συνέχεια από τη διεύθυνση προκειμένου να δημιουργηθούν ειδικοί κατάλογοι που θα διανεμηθούν στο πιο κατάλληλο τμήμα του πληθυσμού, βάσει της ομάδας που αντιστοιχεί σε αυτόν τον κατάλογο. Οι πιο συνηθισμένες εργασίες εξόρυξης γνώσης από δεδομένα που χρησιμοποιούν το περιγραφικό μοντέλο, είναι οι ακόλουθες: συσταδοποίηση, παρουσίαση συνόψεων, κανόνες συσχετίσεων και παρουσίαση ακολουθιών Η συσταδοποίηση είναι κάτι αντίστοιχο με την κατηγοριοποίηση που παρουσιάζεται στην επόμενη ενότητα, εκτός από το ότι οι συστάδες ομάδες δεδομένων δεν είναι προκαθορισμένες, αλλά ορίζονται κυρίως από τα ίδια δεδομένα. Η συσταδοποίηση αναφέρεται εναλλακτικά και σαν μη εποπτευόμενη μάθηση, ή τμηματοποίηση. Μπορεί να θεωρηθεί σαν μια διαμέριση ή τμηματοποίηση των δεδομένων σε ομάδες, που μπορεί να είναι ή να μην είναι διακριτές μεταξύ τους. Συνήθως επιτυγχάνεται με τον καθορισμό της ομοιότητας, ως προς προκαθορισμένα γνωρίσματα, ανάμεσα στα δεδομένα. 18

20 Τα πιο σχετικά δεδομένα κατατάσσονται στις ίδιες ομάδες. Εάν οι ομάδες δεν είναι προκαθορισμένες, χρειάζεται ένας ειδικός του πεδίου για να ερμηνεύσει τη σημασία των συστάδων που δημιουργούνται. Μια ειδική κατηγορία συσταδοποίησης ονομάζεται κατάτμηση (segmentation). Με την κατάτμηση, μια βάση δεδομένων χωρίζεται σε διακριτές ομάδες παρόμοιων εγγραφών που ονομάζονται τμήματα (segments). Η κατάτμηση συχνά θεωρείται πανομοιότυπη με την συσταδοποίηση. Κατά άλλους, η κατάτμηση θεωρείται σαν ειδικός τύπος συσταδοποίησης που εφαρμόζεται στην ίδια βάση δεδομένων. Η παρουσίαση συνόψεων απεικονίζει τα δεδομένα σε υποσύνολά τους με συνοδευτικές απλές περιγραφές. Η σύνοψη των δεδομένων ονομάζεται επίσης και χαρακτηρισμός (characterization) ή γενίκευση (generalization). Εξάγει ή παράγει αντιπροσωπευτικές πληροφορίες σχετικά με τις βάσεις δεδομένων. Αυτό γίνεται ανακτώντας, στην πραγματικότητα, τμήματα από τα δεδομένα. Εναλλακτικά, μπορούν να εξαχθούν από τα δεδομένα συνοπτικές πληροφορίες (όπως είναι ο μέσος όρος κάποιου αριθμητικού γνωρίσματος). Εν ολίγοις, η παρουσίαση συνόψεων χαρακτηρίζει τα περιεχόμενα της βάσης δεδομένων. Αντίστοιχα, οι κανόνες συσχετίσεων περιλαμβάνουν την ανάλυση συνδέσμων (link analysis), που εναλλακτικά αναφέρεται και σαν ανάλυση συγγένειας (affinity analysis) ή συσχέτιση (association). Πρόκειται ουσιαστικά για τη διαδικασία εκείνη της εξόρυξης γνώσης που αποκαλύπτει συσχετίσεις μεταξύ των δεδομένων. Ένας κανόνας συσχέτισης (association rule) είναι ένα μοντέλο που αναγνωρίζει ειδικούς τύπους συσχέτισης μεταξύ των δεδομένων. Η πιο διαδεδομένη προσέγγιση για την εύρεση κανόνων συσχετίσεων χρησιμοποιεί τα συχνά στοιχειοσύνολα (frequent itemsets), τα οποία ορίζονται ως τα στοιχειοσύνολα εκείνα των οποίων ο αριθμός των εμφανίσεων είναι πάνω από ένα κατώφλι s. Η προσέγγιση των συχνών στοιχειοσυνόλων i) εντοπίζει τα συχνά στοιχειοσύνολα βάσει του ορισμού τους και ii) δημιουργεί κανόνες από τα συχνά στοιχειοσύνολα. Οι συσχετίσεις συχνά χρησιμοποιούνται στις λιανικές πωλήσεις για να αναγνωρισθούν προϊόντα που συχνά αγοράζονται μαζί. Συσχετίσεις χρησιμοποιούνται επίσης σε πολλές άλλες εφαρμογές, όπως είναι η πρόβλεψη της αποτυχίας λειτουργίας των τηλεπικοινωνιακών διακοπτών. Η χρήση των κανόνων 19

21 συσχετίσεων για τις όποιες αποφάσεις, πρέπει να γίνεται πολύ προσεκτικά επειδή υπάρχει ο κίνδυνος αυτές οι συσχετίσεις να είναι τυχαίες. Οι συσχετίσεις αυτές μπορεί να μην αντιπροσωπεύουν καμία έμφυτη σχέση ανάμεσα στα δεδομένα (κάτι που ισχύει για παράδειγμα στις συναρτησιακές εξαρτήσεις). Τέλος, η ανακάλυψη ακολουθιών αφορά στην ακολουθιακή ανάλυση (sequential analysis) ή αλλιώς ανακάλυψη ακολουθιών (sequence discovery), η οποία χρησιμοποιείται για να καθορισθούν σειριακά πρότυπα στα δεδομένα. Αυτά τα πρότυπα βασίζονται σε μία χρονική ακολουθία ενεργειών και είναι παρόμοια με τις συσχετίσεις στο ότι τα δεδομένα που εξάγονται συσχετίζονται, με τη διαφορά ότι η συσχέτισή τους αυτή βασίζεται στο χρόνο. 20

22 3.1.2 Προβλεπτικό Μοντέλο Το μοντέλο αυτό κάνει μία πρόβλεψη για τις τιμές των δεδομένων, χρησιμοποιώντας γνωστά αποτελέσματα που έχει βρει από άλλα δεδομένα. Η μοντελοποίηση της πρόβλεψης μπορεί να γίνει με βάση τη χρήση ιστορικών δεδομένων. Η πρόβλεψη μπορεί να χρησιμοποιηθεί επίσης για να υποδηλώσει ένα συγκεκριμένο τύπο λειτουργίας εξόρυξης γνώσης από δεδομένα. Προκειμένου να καταστεί σαφής η έννοια του προβλεπτικού μοντέλου, παρατίθεται το εξής παράδειγμα: Η πρόβλεψη μιας πλημμύρας είναι δύσκολο πρόβλημα. Μία προσέγγιση περιλαμβάνει την χρήση οργάνων παρακολούθησης και ελέγχου που έχουν τοποθετηθεί σε διάφορα σημεία του ποταμού. Αυτά τα όργανα συλλέγουν δεδομένα σχετικά με την πρόβλεψη της πλημμύρας: ύψος της στάθμης του νερού, ποσότητα βροχής, χρόνος, υγρασία, κοκ. Στην συνέχεια μπορεί να προβλεφθεί το ύψος της στάθμης του νερού σε ένα σημείο του ποταμού στο οποίο είναι πιθανό να δημιουργηθεί πλημμύρα, βάσει των δεδομένων που συλλέχθηκαν από αισθητήρες που βρίσκονται στον ποταμό πάνω από το σημείο αυτό. Η πρόβλεψη πρέπει να γίνει σε σχέση με το χρόνο που συλλέχθηκαν τα δεδομένα. Οι πιο συνηθισμένες εργασίες εξόρυξης γνώσης από δεδομένα που χρησιμοποιούν αυτό το είδος μοντέλου, είναι: κατηγοριοποίηση, παλινδρόμηση, ανάλυση χρονολογικών σειρών και πρόβλεψη Η κατηγοριοποίηση (Classifiacation), απεικονίζει τα δεδομένα σε προκαθορισμένες ομάδες ή κατηγορίες κλάσεις (classes). Αναφέρεται συχνά σαν εποπτευόμενη μάθηση, επειδή οι κατηγορίες κλάσεις καθορίζονται πριν ακόμη εξεταστούν τα δεδομένα. Η αναγνώριση προτύπου (pattern recognition) αποτελεί 21

23 ένα είδος κατηγοριοποίησης, όπου ένα πρότυπο εισόδου κατηγοριοποιείται σε μία από διάφορες κατηγορίες, με βάση την εγγύτητά του ως προς αυτές τις προκαθορισμένες κατηγορίες. Αντίστοιχα, η παλινδρόμηση (Regression): χρησιμοποιείται για να απεικονιστεί ένα στοιχειώδες δεδομένο σε μία πραγματική μεταβλητή πρόβλεψης. Περιλαμβάνει την εκμάθηση της συνάρτησης που κάνει αυτή την απεικόνιση. Η παλινδρόμηση προϋποθέτει ότι τα σχετικά δεδομένα ταιριάζουν με μερικά γνωστά είδη συνάρτησης και μετά καθορίζει την καλύτερη συνάρτηση αυτού του είδους που μοντελοποιεί τα δεδομένα που έχουν δοθεί. Ένα είδος ανάλυσης σφάλματος χρησιμοποιείται για να καθορίσει ποια συνάρτηση είναι η «καλύτερη». Η τρίτη εργασία, η ανάλυση χρονοσειρών (Time Series Analysis), περιλαμβάνει την διαδικασία μελέτης της τιμής ενός γνωρίσματος καθώς μεταβάλλεται στο χρόνο. Οι τιμές συνήθως λαμβάνονται σε ίσα χρονικά διαστήματα (ημερήσια, εβδομαδιαία, ωριαία, κοκ). Για να παρασταθούν οπτικά οι χρονοσειρές, χρησιμοποιείται ένα διάγραμμα χρονοσειρών. Τρεις βασικές λειτουργίες πραγματοποιούνται στην ανάλυση χρονοσειρών: στη μία περίπτωση χρησιμοποιούνται μονάδες μέτρησης απόστασης για να καθορίσουν την ομοιότητα ανάμεσα σε διαφορετικές χρονοσειρές, στη δεύτερη εξετάζεται η δομή της χρονοσειράς για να καθορίσει (και ίσως να κατηγοριοποιήσει) την συμπεριφορά της και στην τρίτη χρησιμοποιούνται διαγράμματα χρονοσειρών για την πρόβλεψη μελλοντικών τιμών. Τέλος, η εργασία της πρόβλεψης μπορεί να θεωρηθεί σαν ένα είδος κατηγοριοποίησης. Αυτή η εργασία εξόρυξης γνώσης είναι διαφορετική από το μοντέλο πρόβλεψης, παρόλο που η διαδικασία πρόβλεψης αποτελεί έναν τύπο μοντέλου πρόβλεψης. Η διαφορά είναι ότι ως πρόβλεψη θεωρείται περισσότερο το να δίνεται τιμή σε μία μελλοντική κατάσταση, παρά σε μία τρέχουσα. Εδώ, γίνεται αναφορά σε ένα είδος εφαρμογής, παρά σε μία προσέγγιση μοντελοποίησης. Οι εφαρμογές πρόβλεψης περιλαμβάνουν πρόγνωση πλημμύρων, αναγνώριση ομιλίας, μηχανική μάθηση και αναγνώριση προτύπου. Αν και μπορούν να προβλεφθούν οι μελλοντικές τιμές με τεχνικές ανάλυσης χρονοσειρών ή παλινδρόμησης, μπορούν να χρησιμοποιηθούν επίσης και άλλες προσεγγίσεις. 22

24 3.2 Οι σημαντικότεροι αλγόριθμοι Έχοντας αναφέρει τις σημαντικότερες ενέργειες που περιλαμβάνονται στην διαδικασία εξόρυξης δεδομένων, θα δούμε στην ενότητα αυτή μια σύντομη παρουσίαση βασικών αλγορίθμων που αφορούν στις εργασίες εξόρυξης γνώσης από δεδομένα, οι οποίες αναπτύχθηκαν προηγουμένως. Ειδικότερα, η μελέτη εστιάζεται σε τρεις από αυτές, την κατηγοριοποίηση, την συσταδοποίηση και τους κανόνες συσχετίσεων, που θα μας απασχολήσουν στην εξόρυξη γνώσης από χωρικά δεδομένα, γεγονός που καθιστά την αναφορά αυτή απαραίτητη. Τονίζεται πως περαιτέρω ανάλυση σε αυτό το σημείο ξεφεύγει από τους σκοπούς της παρούσας μελέτης, καθώς και ότι δεν εξαντλούνται όλοι οι αλγόριθμοι οι οποίοι αναφέρονται στην βιβλιογραφία. Η ανάλυση θα πραγματοποιηθεί, θα περιοριστεί σε ορισμένους εκ των αλγορίθμων εξόρυξης χωρικών δεδομένων, καθώς και σε κάποιους αλγόριθμους εξόρυξης γνώσης που βρίσκουν εφαρμογή τόσο σε χωρικά, όσο και σε μη χωρικά δεδομένα και οι οποίοι εξυπηρετούν τις ανάγκες αυτής της μελέτης, η οποία εστιάζει σε εξόρυξη δεδομένων από εικόνες. Σε επόμενη ενότητα θα γίνει πληρέστερη αναφορά σε αλγόριθμους που αφορούν στην εξόρυξη γνώσης από δεδομένα μέσω της συσταδοποίησης. Αξίζει επιπλέον να σημειωθεί, ότι ο αλγόριθμος K means (Κ πλησιέστεροι γείτονες) απαντάται τόσο στην κατηγοριοποίηση, όσο και στην συσταδοποίηση. 23

25 3.2.1 Αλγόριθμοι κατηγοριοποίησης Ειδικότερα, σε ό,τι αφορά στην κατηγοριοποίηση, καμία τεχνική αυτής δεν υπερτερεί πάντα σε σχέση τις άλλες αναφορικά με την ακρίβεια της κατηγοριοποίησης. Ωστόσο, υπάρχουν πλεονεκτήματα και μειονεκτήματα σχετικά με τη χρήση της κάθε μιας. Οι προσεγγίσεις της παλινδρόμησης επιβάλλουν στα δεδομένα να ταιριάξουν σε ένα προκαθορισμένο μοντέλο. Εάν επιλεγεί ένα γραμμικό μοντέλο, τότε τα δεδομένα ταιριάζουν σε αυτό το μοντέλο, έστω και εάν στην πραγματικότητα μπορεί να μην είναι γραμμικά. Αυτό απαιτεί τη χρήση γραμμικών δεδομένων. Η τεχνική K πλησιέστερου γείτονα απαιτεί μόνο ότι τα δεδομένα θα είναι τέτοια ώστε να μπορούν να υπολογιστούν Μ αποστάσεις. Αυτό μπορεί στη συνέχεια να εφαρμοστεί ακόμα και σε μη αριθμητικά δεδομένα. Ο χειρισμός των ακραίων σημείων γίνεται με το να κοιτάζει η μέθοδος μόνο τους Κ πλησιέστερους γείτονες. Οι τεχνικές που βασίζονται σε δένδρα αποφάσεων είναι εύκολες στην κατανόηση, αλλά μπορεί να οδηγήσουν σε υπερπροσαρμογή. Προκειμένου να αποφευχθεί κάτι τέτοιο, μπορούν να χρησιμοποιηθούν τεχνικές κλαδέματος. Ο ID3 μπορεί να. εφαρμοσθεί μόνο σε κατηγορικά δεδομένα. Βελτιστοποιήσεις σε. αυτό το σημείο έχουν εμφανιστεί με τον C4.5 και τον C5, οι οποίοι επιτρέπουν τη χρήση συνεχών δεδομένων, όπως επίσης και βελτιωμένες τεχνικές διάσπασης. Ο CART δημιουργεί μερικά δυαδικά δένδρα και έτσι μπορεί να οδηγήσει στη δημιουργία δένδρων με μεγάλο βάθος 1. Η εξέταση των παραπάνω προσεγγίσεων με βάση την ανάλυση πολυπλοκότητας οδηγεί στο συμπέρασμα ότι είναι πολύ αποτελεσματικές. Αυτό οφείλεται στο γεγονός ότι με το που θα χτισθεί το μοντέλο, η εφαρμογή του στην κατηγοριοποίηση είναι σχετικά απλή. Οι στατιστικές τεχνικές, όπως η παλινδρόμηση απαιτούν σταθερό χρόνο για να κατηγοριοποιήσουν μία πλειάδα με το που τα μοντέλα έχουν χτιστεί. Οι προσεγγίσεις που βασίζονται στην απόσταση χρειάζονται επίσης σταθερό χρόνο αλλά απαιτούν κάθε πλειάδα να συγκριθεί είτε με έναν αντιπρόσωπο κάθε κατηγορίας είτε με όλα τα στοιχεία στο σύνολο εκπαίδευσης. 1 www. cis.temple.edu ~ ingargio/cis587/readings/id3-c45.html 24

26 Υποθέτοντας ότι υπάρχουν q από αυτά, η προσέγγιση K πλησιέστερου γείτονα απαιτεί O(q) χρόνο για κάθε πλειάδα. Οι τεχνικές κατηγοριοποίησης με δένδρα απόφασης, απαιτούν έναν αριθμό από συγκρίσεις ο οποίος είναι (στη χειρότερη περίπτωση) ίσος με το πιο μακρύ μονοπάτι από τη ρίζα προς ένα φύλλο. Έτσι, απαιτούν O(log(q)) χρόνο ανά πλειάδα. Οι προσεγγίσεις τύπου νευρωνικού δικτύου και πάλι απαιτούν μια πλειάδα να διαδοθεί μέσω του γράφου. Επειδή το μέγεθος του γράφου είναι σταθερό, μπορεί να θεωρηθεί ότι η εκτέλεση γίνεται σε σταθερό χρόνο. 'Έτσι, όλοι οι αλγόριθμοι απαιτούν O(n) χρόνο για να κατηγοριοποιήσουν n στοιχεία μίας βάσης δεδομένων Αλγόριθμοι συσταδοποίησης Αναφορικά με τους αλγορίθμους συσταδοποίησης, οι τεχνικές απλού συνδέσμου, πλήρους συνδέσμου και μέσου συνδέσμου είναι ιεραρχικές τεχνικές με πολυπλοκότητα O(n 2 ). Οι παραπάνω τεχνικές είναι συσσωρευτικές. αλλά είναι παράλληλα και διαμεριστικές και δημιουργούν τις συστάδες με φορά από πάνω προς τα κάτω (top - down). Επίσης, οι τεχνικές αυτές υποθέτουν ότι υπάρχουν όλα τα δεδομένα ταυτόχρονα και συνεπώς δεν είναι αυξητικές Τόσο ο k means, όσο και οι τεχνικές τετραγωνικού σφάλματος είναι επαναληπτικές τεχνικές και απαιτούν O(tkn) χρόνο. Η τεχνική πλησιέστερου γείτονα δεν είναι επαναληπτική, αλλά στην περίπτωση αυτή ο αριθμός των συστάδων δεν είναι προκαθορισμένος. Συνεπώς, η πολυπλοκότητα χειρότερης περίπτωσης μπορεί να είναι O(n 2 ). Ο αλγόριθμος BIRCH φαίνεται να είναι αρκετά αποδοτικός. Ο αλγόριθμος CURE αποτελεί βελτίωση των ανωτέρω, επιτυγχάνει καλύτερη κλιμάκωση μέσω δειγματοληψίας και διαμερισμού και αναπαριστά μια συστάδα με πολλαπλά σημεία αντί ενός. Η χρήση πολλαπλών σημείων επιτρέπει στη συγκεκριμένη προσέγγιση να εντοπίζει μη σφαιρικές συστάδες. Με τη δειγματοληψία, ο CURE επιτυγχάνει πολυπλοκότητα χρόνου O(n). Ωστόσο, ο CURE δεν χειρίζεται αποδοτικά τα κατηγορικά δεδομένα. Αυτό βέβαια του επιτρέπει να είναι πιο ανθεκτικός στις αρνητικές συνέπειες των ακραίων σημείων. Οι αλγόριθμοι k - means και PAM στηρίζονται στην επαναπροσδιορισμό των στοιχείων στις συστάδες, ο οποίος δεν οδηγεί πάντα στον εντοπισμό μιας καθολικά 25

27 βέλτιστης ανάθεσης. Τα αποτελέσματα του k - means είναι αρκετά ευαίσθητα στην ύπαρξη ακραίων σημείων. Ο αλγόριθμος BIRCH είναι ταυτόχρονα δυναμικός και κλιμακούμενος. Ωστόσο, εντοπίζει μόνο σφαιρικές συστάδες. Ο αλγόριθμος DBSCAN στηρίζεται στην πυκνότητα. Η πολυπλοκότητα χρόνου του DBSCAN μπορεί να βελτιωθεί στο O(nlog(n)) με κατάλληλα χωρικά ευρετήρια. Η απόδοση των γενετικών αλγορίθμων εξαρτάται εξ ολοκλήρου από την τεχνική που επιλέγεται για την αναπαράσταση των επιμέρους στοιχείων, από το πώς γίνεται η διασταύρωση, και από το κριτήριο τερματισμού που χρησιμοποιείται Αλγόριθμοι κανόνων συσχετίσεων Οι αλγόριθμοι κανόνων συσχετίσεων μπορούν να ταξινομηθούν ως προς τις ακόλουθες διαστάσεις: Στόχος: είτε να δημιουργούν όλους τους κανόνες που ικανοποιούν μια δεδομένη τιμή για την υποστήριξη και το επίπεδο εμπιστοσύνης, είτε να δημιουργούν κάποιο υποσύνολο των κανόνων με βάση τους δεδομένους περιορισμούς. Τύπος: αφορά στους κανόνες συσχετίσεων, οι οποίοι μπορεί να είναι κανονικοί ή πιο εξελιγμένοι. Τύπος δεδομένων: κατηγορικά χωρικά (ή μη χωρικά) δεδομένα. Κανόνες μπορούν επίσης να παραχθούν για άλλους τύπους δεδομένων, όπως το απλό κείμενο (εξόρυξη γνώσης από τον παγκόσμιο ιστό). Τεχνική: η πιο κοινή στρατηγική για τη δημιουργία κανόνων συσχέτισης είναι αυτή της εύρεσης των συχνών στοιχειοσυνόλων. Στρατηγική στοιχειοσυνόλων: τα στοιχειοσύνολα μπορούν να μετρηθούν με διάφορους τρόπους. Η πιο απλοϊκή προσέγγιση είναι η δημιουργία όλων των στοιχειοσυνόλων και το μέτρημα αυτών. Καθώς αυτό είναι συνήθως πολύ απαιτητικό σε χώρο, η πιο κοινή προσέγγιση είναι η από κάτω προς τα πάνω (bottom - up) προσέγγιση που χρησιμοποιείται από τον Apriori αλγόριθμο, η οποία εκμεταλλεύεται την ιδιότητα των συχνών 26

28 στοιχειοσυνόλων. Εναλλακτικά, θα μπορούσε να χρησιμοποιηθεί μια από πάνω προς τα κάτω τεχνική. Στρατηγική συναλλαγών: προκειμένου να μετρηθούν τα στοιχειοσύνολα, πρέπει να γίνει ένα πέρασμα των συναλλαγών της βάσης δεδομένων. Θα μπορούσαν να μετρηθούν όλες οι συναλλαγές, ή μόνο ένα δείγμα, ή οι συναλλαγές θα μπορούσαν να διαιρεθούν σε διαμερίσεις. Δομή δεδομένων στοιχειοσυνόλων: Η πιο κοινή δομή δεδομένων που χρησιμοποιείται για την αποθήκευση των υποψήφιων στοιχειοσυνόλων, όπως επίσης και των μετρητών τους, είναι ένα δένδρο κατακερματισμού. Ένα δένδρο κατακερματισμού (hash tree) είναι ένα δέντρο αναζήτησης πολλαπλών δρόμων, όπου η διακλάδωση που θα ακολουθηθεί σε κάθε επίπεδο του δένδρου καθορίζεται με την εφαρμογή μίας συνάρτησης κατακερματισμού, σε αντίθεση με την σύγκριση των τιμών των κλειδιών με τα σημεία διάσπασης του κόμβου. Ένας κόμβος - φύλλο στο δένδρο κατακερματισμού περιέχει τους υποψηφίους που κατακερματίζονται σε αυτό, αποθηκευμένους με κάποια διάταξη. Κάθε εσωτερικός κόμβος στην πραγματικότητα περιέχει έναν πίνακα κατακερματισμού με συνδέσμους προς τους κόμβους κλειδιά. Τα δένδρα κατακερματισμού παρέχουν μία αποτελεσματική τεχνική για την αποθήκευση, προσπέλαση και μέτρημα των στοιχειοσυνόλων. Είναι αποτελεσματικά στην αναζήτηση, εισαγωγή και διαγραφή στοιχειοσυνόλων. Βελτιστοποίηση: Αυτές οι τεχνικές αποσκοπούν στο να βελτιώσουν την απόδοση ενός αλγορίθμου, δεδομένης της κατανομής των δεδομένων (ανομοιομορφία) ή της ποσότητας της κύριας μνήμης. Αρχιτεκτονική: Έχουν προστεθεί σειριακοί, παράλληλοι όσο και κατανεμημένοι αλγόριθμοι. Στρατηγική παραλληλισμού: Έχουν χρησιμοποιηθεί τόσο ο παραλληλισμός των δεδομένων, όσο και ο παραλληλισμός των εργασιών. 27

29 4 Μέθοδοι εξόρυξης και συσταδοποίησης χωρικών δεδομένων 4.1 Εισαγωγή Η Εξόρυξη Χωρικής Γνώσης (Spatial Mining) είναι εξόρυξη γνώσης που εφαρμόζεται σε βάσεις χωρικών δεδομένων ή χωρικά δεδομένα. Ορισμένες από τις εφαρμογές εξόρυξης χωρικής γνώσης εντάσσονται στα πεδία των γεωγραφικών συστημάτων πληροφοριών, γεωλογίας, περιβαλλοντικής επιστήμης, διαχείρισης πόρων, γεωργίας, ιατρικής και ρομποτικής. Τα χωρικά δεδομένα είναι δεδομένα, τα οποία έχουν μια χωρική συνιστώσα (ή συνιστώσα θέσης). Μπορούν να θεωρηθούν ως δεδομένα αντικειμένων τα οποία βρίσκονται σε έναν φυσικό χώρο. Αυτό μπορεί να δηλώνεται ρητά με ένα ή περισσότερα γνωρίσματα θέσης, όπως η διεύθυνση ή το γεωγραφικό πλάτος / μήκος ή μπορεί να υπονοείται, όπως με μια διαμέριση της βάσης δεδομένων η οποία βασίζεται στη θέση. Επιπλέον, τα χωρικά δεδομένα μπορούν να προσπελασθούν χρησιμοποιώντας ερωτήσεις που περιέχουν χωρικούς τελεστές όπως οι τελεστές «κοντά», «βόρεια», «νότια», «γειτονικά» και «περιέχεται σε». Τα χωρικά δεδομένα αποθηκεύονται σε βάσεις χωρικών δεδομένων που περιέχουν τόσο τη χωρική όσο και τη μη χωρική πληροφορία. Εξαιτίας της ενυπάρχουσας πληροφορίας της απόστασης που σχετίζεται με τα χωρικά δεδομένα, οι βάσεις χωρικών δεδομένων πολύ συχνά χρησιμοποιούν ειδικές δομές δεδομένων ή ευρετήρια τα οποία είναι χτισμένα με βάση την πληροφορία απόστασης ή τοπολογίας. Όσον αφορά στην εξόρυξη γνώσης, αυτή η πληροφορία απόστασης παρέχεται στη βάση για τις αναγκαίες μετρήσεις ομοιότητας. Η προσπέλαση των χωρικών δεδομένων μπορεί να είναι πιο πολύπλοκη από αυτή των μη χωρικών δεδομένων. Υπάρχουν ειδικές λειτουργίες και δομές 28

30 δεδομένων που χρησιμοποιούνται για την προσπέλαση των χωρικών δεδομένων, οι οποίες αναπτύσσονται πιο κάτω. 29

31 4.2 Οργάνωση χωρικών δεδομένων Υπάρχουν πολλές δομές που έχουν σχεδιαστεί ειδικά για την αποθήκευση ή τη δεικτοδότηση των χωρικών δεδομένων. Αυτό συμβαίνει λόγω των μοναδικών γνωρισμάτων που τα χαρακτηρίζουν και προς τούτο στα επόμενα εξετάζονται σύντομα κάποιες από τις πιο γνωστές δομές αυτών. Οι χωρικές δομές δεδομένων, σε αντίθεση με τις αλφαριθμητικές, διαχειρίζονται αντικείμενα με διαστάσεις, καθώς και σύνθετες σχέσεις που υφίστανται μεταξύ των αντικειμένων αυτών. Διακρίνονται σε διανυσματικές δομές και δομές ψηφιδωτού. Επίσης, μια σημαντική κατηγορία δομών είναι αυτή των τοπολογικών δομών, που έχουν σαν στόχο την ταχεία ανάκτηση των τοπολογικών σχέσεων μεταξύ διανυσμάτων. Ειδικότερα, οι δομές ψηφιδωτού οργανώνουν δεδομένα τύπου ψηφιδωτού και επιτυγχάνουν αφενός τη συμπίεση των δεδομένων και αφετέρου την αποτελεσματική εκτέλεση ορισμένων λειτουργιών χωρικής ανάλυσης. Σε αυτή την κατηγορία ανήκουν η κωδικοποίηση κατά γραμμές και η δομή του τετραδικού δένδρου. Η πρώτη επιτυγχάνει συμπίεση των δεδομένων. Το τετραδικό δένδρο δομεί το χώρο με αναδρομική διαίρεσή του σε τέσσερις περιοχές (τεταρτημόρια) και είναι πολύ αποτελεσματικό στην εκτέλεση ορισμένων λειτουργιών χωρικής ανάλυσης. Οι διανυσματικές δομές κατηγοριοποιούνται ανάλογα με τον τύπο των διανυσμάτων προς δεικτοδότηση. Συγκεκριμένα διακρίνονται στις: Σημειακές δομές Αφορούν στη δεικτοδότηση σημειακών αντικειμένων. Αντιπροσωπευτικές δομές δεδομένων για σημειακά αντικείμενα στο χώρο των ν διαστάσεων είναι το k d δένδρο, το K D B δένδρο, το αρχείο καννάβου και το σημειακό τετραδικό δένδρο. Γραμμικές δομές: 30

32 Έχουν προταθεί για να υποστηρίξουν την αποτελεσματική δεικτοδότηση γραμμικών αντικειμένων. Αντιπροσωπευτικές γραμμικές δομές αποτελούν το strip δένδρο και παραλλαγές του τετραδικού δένδρου. Πολυγωνικές δομές: Έχουν σχεδιαστεί για τη δεικτοδότηση χωρικών αντικειμένων με συντεταγμένες και διαστάσεις στο χώρο των ν διαστάσεων. Συνεπώς, μπορούν να εφαρμοσθούν για την δεικτοδότηση σημειακών, γραμμικών, αλλά και πολυγωνικών αντικειμένων. Η αντιπροσωπευτικότερη δομή για την δεικτοδότηση πολυγωνικών αντικειμένων είναι το R δένδρο και οι παραλλαγές του (R + - δένδρο, R * - δένδρο, κ.ά. ). Οι ως άνω χωρικές δομές δεδομένων έχουν σχεδιασθεί για να υποστηρίξουν δύο τύπους αναζήτησης: (α) σημείου και (β) περιοχής. Μια αναζήτηση σημείου (πχ επιλογή με τον κέρσορα μίας χώρας σε έναν ψηφιακό χάρτη) στοχεύει στην ανάκτηση των αντικειμένων που τέμνουν ένα σημείο. Μια αναζήτηση περιοχής στοχεύει στην ανάκτηση των αντικειμένων που τέμνουν μια περιοχή (πχ μεγέθυνση μιας περιοχής ενός ψηφιακού χάρτη). Στην πραγματικότητα οι δύο τύποι αναζήτησης αφορούν σε ένα μοναδικό τύπο (αναζήτηση σημείου αποτελεί: αναζήτηση περιοχής με μηδενικό μέγεθος). Όπως προκύπτει από τα παραπάνω, σημαντικές διανυσματικές δομές δεδομένων εν γένει αλλά και για τους σκοπούς της παρούσας μελέτης συνιστούν το τετραδικό δένδρο (quad - tree), καθώς και το R δένδρο (R - tree). Οι τοπολογικές δομές δεδομένων, τέλος, συνιστούν κατάλληλες δομές, συνήθως με μορφή πίνακα (συλλογή σχεσιακών πινάκων), όπου οργανώνονται προϋπολογισμένες σχέσεις ή βοηθητικά στοιχεία κατά το κτίσιμο της γεωμετρικής βάσης. Ένα πλεονέκτημα των δομών χωρικών δεδομένων είναι ότι συσταδοποιούν τα αντικείμενα βάσει της θέσης. Αυτό συνεπάγεται ότι αντικείμενα που είναι κοντά στο ν διάστατο χώρο, τείνουν να αποθηκεύονται κοντά στη δομή δεδομένων και στο δίσκο. Επομένως, αυτές οι δομές θα μπορούσαν να χρησιμοποιηθούν για να 31

33 μειώσουν το κόστος εκτέλεσης ενός αλγορίθμου, περιορίζοντας το χώρο αναζήτησης. 32

34 4.3 Βασικές αρχές εξόρυξης γνώσης Προκειμένου για την πληρέστερη παρουσίαση του ζητήματος της εξόρυξης γνώσης από χωρικά δεδομένα, παρακάτω γίνεται παρουσίαση ορισμένων από τις βασικές αρχές της. Έστω ότι τα Α και Β είναι χωρικά αντικείμενα σε ένα δισδιάστατο χώρο. Μπορεί να θεωρηθεί πως κάθε αντικείμενο αποτελείται από ένα σύνολο σημείων στο χώρο Μπορεί να υπάρχουν πολλές τοπολογικές σχέσεις μεταξύ δυο χωρικών αντικειμένων. Αυτές οι σχέσεις βασίζονται στους τρόπους με τους οποίους δυο αντικείμενα τοποθετούνται γεωγραφικά: Ξένο: το Α είναι ξένο (disjoint) ως προς το Β, εάν δεν υπάρχουν σημεία στο A που να περιέχονται στο Β. Έχει επικάλυψη ή τέμνει: το Α έχει επικάλυψη με (overlaps) ή τέμνει (disjoints) το Β, εάν υπάρχει τουλάχιστον ένα σημείο στο Α που να ανήκει και στο Β. Είναι ίσο: το Α είναι ίσο με (equals) το Β, εάν έχουν όλα τα σημεία τους κοινά. Καλύπτεται από ή βρίσκεται εντός ή περιέχεται σε: το Α καλύπτεται από (covered by) ή βρίσκεται εντός (inside) ή περιέχεται στο (contained in) Β, εάν όλα τα σημεία του A ανήκουν στο Β. Καλύπτει ή περιέχει: το Α καλύπτει (covers) ή περιέχει (contains) το Β και μόνο εάν το Β καλύπτεται από ή περιέχεται στο Α. Βάσει της τοποθέτησης των αντικειμένων στο χώρο, μπορούν να ορισθούν σχέσεις ως προς κατεύθυνση, με την προσθήκη του προσανατολισμού του χάρτη στο χώρο («βόρεια», «νότια», «ανατολικά» κοκ). 33

35 Τα μέτρα Ευκλείδειας και Μανχάταν απόστασης χρησιμοποιούνται συχνά για την μέτρηση της απόστασης. Η απόσταση μεταξύ δυο χωρικών αντικειμένων μπορεί να οριστεί ως επέκταση των παραδοσιακών ορισμών της Ευκλείδειας και Μανχάταν απόστασης. Για παράδειγμα, το χωρικό αντικείμενο θα μπορούσε να θεωρηθεί ως μια συστάδα των σημείων εντός του. Τα κεντροειδή που χρησιμοποιήθηκαν για τον τελευταίο τύπο μέτρησης της απόστασης, μπορούν να αναγνωρισθούν βρίσκοντας το γεωμετρικό κέντρο του. Έτσι, εάν χρησιμοποιείται ένα ελάχιστο περιβάλλον ορθογώνιο (Minimum Bounding Rectangle MBR), η απόσταση μεταξύ των αντικειμένων μπορεί να βρεθεί χρησιμοποιώντας την Ευκλείδεια απόσταση μεταξύ των κέντρων των ορθογωνίων αυτών για τα δύο αντικείμενα. Τα χωρικά αντικείμενα μπορούν να ανακτηθούν βάσει λειτουργιών επιλογής, συνάθροισης ή σύνδεσης. Μια επιλογή μπορεί να εφαρμοσθεί πάνω στα χωρικά ή μη χωρικά γνωρίσματα. Η ανάκτηση που βασίζεται στα χωρικά γνωρίσματα μπορεί να εφαρμοσθεί χρησιμοποιώντας έναν από τους χωρικούς τελεστές. Μια χωρική σύνδεση ανακτά τα χωρικά αντικείμενα βάσει της συσχέτισης μεταξύ τους. 34

36 4.4 Περιγραφή αλγορίθμων Γενικά χαρακτηριστικά Η διαδικασία εξόρυξης δεδομένων μέσω αλγορίθμων εμπεριέχει στενή αλληλεπίδραση ανάμεσα σε έναν ειδικό πεδίου και έναν αναλυτή εξόρυξης γνώσης. Το εξαγόμενο της διαδικασίας είναι ένα σύνολο υποθέσεων (πρότυπα), τα οποία μπορούν να επιβεβαιωθούν με ακρίβεια κάνοντας χρήση στατιστικών εργαλείων και να οπτικοποιηθούν με τη χρήση γεωγραφικών συστημάτων πληροφοριών. Τελικά, ο αναλυτής μπορεί να ερμηνεύσει τα πρότυπα, να δημιουργήσει και να προτείνει τις κατάλληλες ενέργειες. Μία ιδανική περίπτωση ενός αλγόριθμου εξόρυξης χωρικών δεδομένων θα έπρεπε να σχεδιασθεί έτσι ώστε να έχει απευθείας πρόσβαση στη βάση δεδομένων. Η επιλογή της τεχνικής και η εκλογή του κατάλληλου αλγορίθμου είναι μια επαναληπτική διαδικασία. Έτσι, οι περισσότεροι αλγόριθμοι απαιτούν την προσαρμογή παραμέτρων που ορίζονται από τον χρήστη, ενώ στην πλειοψηφία των περιπτώσεων δεν υπάρχει τρόπος να προκύψει εκ των προτέρων ποιες παράμετροι είναι κατάλληλες για την συγκεκριμένη βάση δεδομένων. Το ζήτημα της Εξόρυξης Γνώσης από Χωρικά Δεδομένα είναι αρκετά μεγάλο και δεν είναι δυνατόν να εξαντληθεί στα πλαίσια αυτής της μελέτης. Στα επόμενα, ωστόσο γίνεται μία προσπάθεια παρουσίασης αλγορίθμων εξόρυξης χωρικής γνώσης. Η χρήση μιας ιεραρχίας εννοιών δείχνει επίπεδα σχέσεων ανάμεσα στα δεδομένα. Όταν εφαρμόζονται σε χαρακτηριστικά χωρικών δεδομένων, οι ιεραρχίες εννοιών επιτρέπουν την ανάπτυξη κανόνων και σχέσεων σε διαφορετικά επίπεδα στην ιεραρχία. Κάτι αντίστοιχο χρησιμοποιείται και στους γενικευμένους κανόνες συσχέτισης, καθώς και στις αρχές γενίκευσης και εξειδίκευσης, οι οποίες βρίσκουν εφαρμογή στην μηχανική μάθηση. Παρόλα αυτά, στις ως άνω περιπτώσεις η ιεραρχία δεν σχετίζεται αναγκαία με χωρικά δεδομένα. Οι τεχνικές εξόρυξης γνώσης σε χωρικά δεδομένα εμπλέκουν και τις δύο προσεγγίσεις τύπου γενίκευσης και εξειδίκευσης. 35

37 Αναφορικά με την προοδευτική βελτίωση, εξαιτίας του μεγάλου όγκου δεδομένων που υπάρχουν στις χωρικές εφαρμογές, μπορεί δοθούν προσεγγιστικές απαντήσεις, προτού αναζητηθούν πιο ακριβείς. Η χρήση των ελάχιστων περιβαλλόντων ορθογωνίων είναι μια μέθοδος προσέγγισης του σχήματος ενός αντικειμένου. Τα τετραδικά δένδρα, τα R δένδρα και οι περισσότερες τεχνικές χωρικής δεικτοδότησης χρησιμοποιούν ένα είδος προοδευτικής βελτίωσης. Εκτιμούν το σχήμα των αντικειμένων σε υψηλότερα επίπεδα στη δενδρική δομή και οι είσοδοι των χαμηλότερων επιπέδων παρέχουν πιο ακριβείς περιγραφές των χωρικών αντικειμένων. Η προοδευτική βελτίωση (progressive refinement) μπορεί να θεωρηθεί ως ένα φιλτράρισμα των δεδομένων που δεν είναι εφαρμόσιμα σε ένα πρόβλημα. Με την προοδευτική βελτίωση, τα ιεραρχικά επίπεδα βασίζονται σε χωρικές συσχετίσεις. H γενίκευση (generalization) καθοδηγείται από μια ιεραρχία εννοιών και μπορεί να θεωρηθεί ως η διαδικασία εξαγωγής πληροφορίας σε ένα υψηλό επίπεδο, που βασίζεται σε πληροφορία χαμηλότερων επιπέδων. Οι ιεραρχίες εννοιών για χωρικά δεδομένα μπορεί να είναι χωρικές ή μη χωρικές. Μια χωρική ιεραρχία (spatial hierarchy) δείχνει τις σχέσεις μεταξύ γεωγραφικών περιοχών. Η γενίκευση μπορεί να εκτελεστεί χρησιμοποιώντας οποιαδήποτε από αυτές τις δύο ιεραρχίες. Όταν γενικεύονται τα χωρικά δεδομένα, τα μη χωρικά πρέπει να τροποποιούνται κατάλληλα, ώστε να αντικατοπτρίζουν τα μη χωρικά δεδομένα που σχετίζονται με τα νέα χωρικά δεδομένα. Παρόμοια, όταν γενικεύονται τα μη χωρικά δεδομένα, τα χωρικά δεδομένα πρέπει να τροποποιούνται κατάλληλα. Χρησιμοποιώντας αυτά τα δύο είδη ιεραρχιών, η γενίκευση, όπως εφαρμόζεται στα χωρικά δεδομένα, μπορεί να διαιρεθεί σε δύο υποκλάσεις: γενίκευση χωρικής τάξης (spatial data dominant generalization) και γενίκευση μη χωρικής τάξης (nonspatial data dominant generalization. Και οι δύο υποκλάσεις μπορεί να θεωρηθούν ως ένα είδος συσταδοποίησης. Η γενίκευση χωρικής τάξης πραγματοποιεί τη συσταδοποίηση που βασίζεται σε χωρικές θέσεις (έτσι ώστε να ομαδοποιούνται κοντινά αντικείμενα), ενώ η γενίκευση μη χωρικής τάξης συσταδοποιεί βάσει της ομοιότητας των τιμών μη χωρικών γνωρισμάτων. Αυτές οι προσεγγίσεις αναφέρονται ως μια επαγωγή 36

38 προσανατολισμένη σε γνωρίσματα (attribute oriented induction) επειδή η διαδικασία γενίκευσης βασίζεται σε τιμές γνωρισμάτων. Με την γενίκευση χωρικής τάξης, η γενίκευση αρχικά εφαρμόζεται στα χωρικά δεδομένα και στη συνέχεια τα σχετιζόμενα μη χωρικά γνωρίσματα τροποποιούνται ανάλογα. Η γενίκευση εφαρμόζεται έως έναν αριθμό περιοχών, που θεωρείται κατώφλι. Για παράδειγμα, ο προσδιορισμός της μέσης βροχόπτωσης σε διάφορες περιφέρειες θα μπορούσε να γίνει βρίσκοντας τη μέση βροχόπτωση για όλες τις επιμέρους περιοχές που απεικονίζονται από μια χωρική ιεραρχία. Επομένως, η χωρική ιεραρχία καθορίζει ποιες περιοχές χαμηλού επιπέδου βρίσκονται στην περιοχή υψηλού επιπέδου που εξετάζεται. Ο καθορισμός του τρόπου εφαρμογής της γενίκευσης σε μη χωρικά δεδομένα, δεν είναι, παρόλα αυτά, μια προφανής διαδικασία συνάθροισης. Στην πράξη ο τρόπος καθορισμού της μέσης βροχόπτωσης σε αυτήν την περίπτωση είναι ο ίδιος για κάθε επιμέρους περιοχή. Όμως, απαιτείται μια διαδικασία στάθμισης, η οποία θα παρέχει μια πιο ακριβή μέση τιμή βροχόπτωσης για την περιοχή υψηλότερου επιπέδου. Μια εναλλακτική προσέγγιση είναι η γενίκευση των τιμών των μη χωρικών γνωρισμάτων. Η γενίκευση βασίζεται στην ομαδοποίηση των δεδομένων. Οι γειτονικές περιοχές συγχωνεύονται εάν έχουν τις ίδιες γενικευμένες τιμές για τα μη χωρικά δεδομένα. Εάν αντί των μέσων τιμών βροχόπτωσης επιστρέφονται απλώς τιμές που αναπαριστούν κάποια συστάδα, θα μπορούσαν να ανατεθούν τιμές όπως ισχυρή, μέτρια, ασθενής κοκ. για να περιγραφεί η βροχόπτωση αντί να δοθούν πραγματικές αριθμητικές τιμές. Μπορεί να δίνεται ένα κατώφλι που καθορίζει το μέγιστο αριθμό περιοχών. Βάσει αυτού του κατωφλίου, επιλέγεται το σωστό επίπεδο στην ιεραρχία και επομένως καθορίζεται ο αριθμός των περιοχών. Η τεχνική γενίκευσης μη χωρικής τάξης λειτουργεί με έναν παρόμοιο τρόπο. Το πρώτο βήμα σε αυτόν τον αλγόριθμο είναι η ανάκτηση των δεδομένων βάσει των κριτηρίων μη χωρικής επιλογής που διατυπώνονται στην ερώτηση. Στη συνέχεια εφαρμόζεται η απαιτούμενη προσανατολισμένη στα γνωρίσματα επαγωγή στα ανακτώμενα μη χωρικά δεδομένα. Για να γίνει αυτό, λαμβάνονται υπόψη οι μη χωρικές εννοιολογικές ιεραρχίες. Κατά τη διάρκεια αυτού του 37

39 βήματος, γενικεύονται οι τιμές των μη χωρικών δεδομένων σε τιμές πιο υψηλών επιπέδων. Αυτές οι γενικεύσεις είναι συνοπτικές τιμές υψηλότερων επιπέδων των συγκεκριμένων τιμών χαμηλότερων επιπέδων. Για παράδειγμα, εάν γενικευόταν η μέση θερμοκρασία, θα μπορούσαν να συνδυαστούν διαφορετικές μέσες θερμοκρασίες (ή διαστήματα) και να τους αποδοθεί η ετικέτα «ζέστη». Στην συνέχεια θα εφαρμοζόταν μια γενίκευση χωρικά προσανατολισμένη, όπου συγχωνεύονται οι γειτονικές περιοχές με τις ίδιες (ή παρόμοιες) γενικευμένες μη χωρικές τιμές. Αυτό αποσκοπεί στην μείωση των περιοχών που επιστρέφονται στην απάντηση της ερώτησης. Ένα αρνητικό αυτών των προσεγγίσεων είναι ότι η ιεραρχία πρέπει να προκαθορισθεί από ειδικούς του πεδίου και η ποιότητα οποιωνδήποτε αιτημάτων, για διαχείριση δεδομένων εξαρτάται από τη δοθείσα ιεραρχία. Η πολυπλοκότητα δημιουργίας των ιεραρχιών είναι Ο(nlogn). Σε κάθε περίπτωση, μπορούν να παραχθούν χωρικοί κανόνες που να περιγράφουν τη συσχέτιση και τη δομή των χωρικών αντικειμένων. Υπάρχουν τρεις τύποι κανόνων που μπορούν να βρεθούν κατά τη διάρκεια της εξόρυξης γνώσης από χωρικά δεδομένα. Οι κανόνες χωρικών χαρακτηριστικών (spatial characteristic rules) περιγράφουν τα δεδομένα. Οι κανόνες χωρικών διαχωρισμών (spatial discriminant rules) περιγράφουν τις διαφορές μεταξύ διαφορετικών κλάσεων των δεδομένων (τα χαρακτηριστικά που διαφοροποιούν τις διαφορετικές κλάσεις). Οι κανόνες χωρικών συσχετίσεων (spatial association rules) είναι συνεπαγωγές ενός συνόλου δεδομένων από ένα άλλο. Ειδικότερα, οι κανόνες χωρικών συσχετίσεων συνιστούν κανόνες συσχετίσεων για αντικείμενα χωρικών δεδομένων. Είτε το πρότερο (antecedent), είτε το απότοκο (consequent) του κανόνα πρέπει να περιέχει κάποια χωρικά κατηγορήματα (π.χ. κοντά). Βάσει ενός απλού αλγόριθμου δημιουργίας κανόνων χωρικών συσχετίσεων, παράγονται όλοι αυτοί οι κανόνες που ικανοποιούν την ελάχιστη εμπιστοσύνη και υποστήριξη. Εξαιτίας της μεγάλης πιθανότητας για τοπολογικές συσχετίσεις, θεωρείται ότι η αίτηση για εξόρυξη γνώσης από δεδομένα καθορίζει ποιο(-α) χωρικό(-ά) κατηγόρημα(-ατα) θα χρησιμοποιηθεί. 38

40 Από τη στιγμή που καθοριστεί το σχετικό υποσύνολο της βάσης, αναγνωρίζονται συσχετίσεις αυτού του τύπου. Αρχικά γίνεται η υπόθεση πως χρησιμοποιούνται οι «γενικευμένες» εκδοχές των τοπολογικών συσχετίσεων. Οι γενικευμένες συσχετίσεις ικανοποιούνται εάν κάποια αντικείμενα υψηλότερα στην ιεραρχία εννοιών τις ικανοποιούν. Σε αυτό το επίπεδο, εφαρμόζεται ένα φιλτράρισμα για την απομάκρυνση αντικειμένων που πιθανόν δεν θα μπορούσαν να ικανοποιούν τη συσχέτιση. Προκειμένου να εξηγηθεί η έννοια της γενίκευσης με τις χωρικές συσχετίσεις, γίνεται η υπόθεση ότι η τοπολογική σχέση που εξετάζεται είναι η «κοντά». Το σύστημα GIS ορίζει τι ακριβώς σημαίνει αυτό το κατηγόρημα. Για παράδειγμα, θα μπορούσε να ορίσει τη σχέση αυτή βάσει της Ευκλείδειας απόστασης μεταξύ των δυο χωρικών αντικειμένων. Επιπλέον, μπορεί να ορισθεί διαφορετικά βάσει του τύπου των αντικειμένων στην ερώτηση. Η γενίκευση του «κοντά» που γράφεται «γεν_κοντά» (γενικευμένο κοντά) μπορεί να οριστεί με μια ιεραρχία που δείχνει ότι το «γεν_κοντά» περιέχει το «κοντά» όπως και άλλα κατηγορήματα (όπως το «περιέχει» ή το «ίσο»). Ένα πρώτο βήμα για τον καθορισμό του κατά πόσο ικανοποιείται το κατηγόρημα «κοντά» θα είναι να κοιτάξουμε γενικότερα πόσο ικανοποιείται το «γεν_κοντά». Η γενικευμένη αποτίμηση χρησιμοποιείται ως ένα είδος φίλτρου για τον αποδοτικό αποκλεισμό αντικειμένων που πιθανόν δε θα μπορούσαν να ικανοποιούν το αληθές κατηγόρημα. Το ευρύτερο κατηγόρημα «ευρύτερο γεν_κοντά» ικανοποιείται από αντικείμενα εάν τα ελάχιστα περιβάλλοντα ορθογώνια αυτών ικανοποιούν το «γεν_κοντά». Μόνο τα αντικείμενα που ικανοποιούν το «ευρύτερο_γεν_κοντά» εξετάζονται ώστε να καταστεί σαφές εάν ικανοποιούν το «γεν_κοντά». Ο χαρακτηρισμός (characterization) είναι η διαδικασία εύρεσης μιας περιγραφής για μια βάση δεδομένων ή για κάποιο τμήμα της. Όλοι αυτοί οι κανόνες μπορεί να θεωρηθούν ως ειδικοί τύποι χαρακτηρισμών. Ο κανόνας χωρικού χαρακτηριστικού είναι ο απλούστερος. Μια άλλη συνήθης προσέγγιση σύνοψης χωρικών δεδομένων είναι αυτή της εκτέλεσης μιας ανίχνευσης τάσης (data detection), η οποία μπορεί να θεωρηθεί ως μια τυπική αλλαγή σε μια ή περισσότερες τιμές μη χωρικών γνωρισμάτων για 39

41 χωρικά αντικείμενα, καθώς απομακρύνεται κανείς από ένα άλλο χωρικό αντικείμενο. Για την ανίχνευση μιας τάσης, μπορεί να χρησιμοποιηθεί ανάλυση παλινδρόμησης Αλγόριθμοι Χωρικής Κατηγοριοποίησης Τα προβλήματα χωρικής κατηγοριοποίησης χρησιμοποιούνται για την διαμέριση συνόλων χωρικών αντικειμένων. Τα χωρικά αντικείμενα μπορούν να κατηγοριοποιηθούν με χρήση μη χωρικών γνωρισμάτων, χωρικών κατηγορημάτων (χωρικών γνωρισμάτων), ή χωρικών και μη χωρικών γνωρισμάτων. Μπορεί επίσης να χρησιμοποιηθούν ιεραρχίες εννοιών, όπως και δειγματοληψία. Όπως και με τους άλλους τρόπους εξόρυξης γνώσης από χωρικά δεδομένα, μπορούν να χρησιμοποιηθούν τεχνικές γενίκευσης και προοδευτικής βελτίωσης, για την βελτίωση της αποδοτικότητας. Ένας σημαντικός αλγόριθμος χωρικής κατηγοριοποίησης είναι ο ID3, ο οποίος βασίζεται στο «χτίσιμο» ενός δένδρου απόφασης. Για την πραγματοποίηση κατηγοριοποίησης χωρικών αντικειμένων με χρήση μιας επέκτασης του ID3, έχει εφαρμοσθεί η έννοια των γράφων γειτνίασης. Ένας γράφος γειτνίασης (neighborhood grahp) είναι ένας γράφος που κτίζεται από αντικείμενα στο χώρο. Κάθε αντικείμενο γίνεται ένας κόμβος του γράφου. Οι ακμές κατασκευάζονται από τους γείτονες. Δηλαδή, δύο κόμβοι συνδέονται με μία ακμή στο γράφο γειτνίασης, εάν ο ένας είναι γείτονας του άλλου. Ο «γείτονας»μπορεί να ορισθεί βάσει οποιασδήποτε συσχέτισης μεταξύ των χωρικών αντικειμένων, όπως απόσταση μικρότερη από κάποιο κατώφλι, ικανοποίηση μιας τοπολογικής σχέσης μεταξύ των αντικειμένων, ή σχέση κατεύθυνσης. Σημειώνεται ότι κάποιες από τις σχέσεις είναι σχέσεις διάταξης και κάποιες άλλες όχι. Η ιδέα του αλγορίθμου είναι να λάβει υπόψη του τα αντικείμενα που είναι κοντά σε ένα δοθέν αντικείμενο. Ένας δείκτης μέγιστου μήκους δίδεται ως είσοδος που καθορίζει το μέγιστο μήκος ενός μονοπατιού γειτονικότητας που ξεκινά από έναν κόμβο. Αυτό στη συνέχεια προσδιορίζει ένα σύνολο από κόμβους που σχετίζονται με τον κόμβο-στόχο. Στη συνέχεια ο ID3 θεωρεί για σκοπούς 40

42 κατηγοριοποίησης όχι μόνο τα μη χωρικά γνωρίσματα του αντικειμένου-στόχου, αλλά και αυτά στα γειτονικά αντικείμενα. Μια τεχνική χωρικής κατηγοριοποίησης χτίζει δένδρα αποφάσεων χρησιμοποιώντας μια διαδικασία παρόμοια με αυτή που χρησιμοποιήθηκε για τους κανόνες συσχετίσεων. Η βάση αυτής της προσέγγισης είναι ότι τα χωρικά αντικείμενα μπορούν να περιγραφούν βάσει των αντικειμένου που είναι κοντά σε αυτά. Στη συνέχεια θεωρείται μια περιγραφή των κλάσεων βασισμένη σε μια συνάθροιση των πιο σχετικών κατηγορημάτων για κοντινά αντικείμενα. Για την κατασκευή του δένδρου απόφασης, πρώτα ορίζονται τα πιο σχετικά (χωρικά και μη) κατηγορήματα. Αυτά τα σχετικά κατηγορήματα είναι εκείνα που θα χρησιμοποιηθούν για το χτίσιμο του δένδρου απόφασης. Γίνεται η υπόθεση ότι ένα δείγμα εκπαίδευσης χρησιμοποιείται για να πραγματοποιήσει αυτό το βήμα και ότι ανατίθενται βάρη σε γνωρίσματα και κατηγορήματα. Τα αρχικά βάρη είναι 0. Για κάθε αντικείμενο, εξετάζονται δυο αντίστοιχα αντικείμενα. Η πλησιέστερη αστοχία (nearest miss) είναι το κοντινότερο χωρικό αντικείμενο στο αντικείμενο-στόχο, το οποίο ανήκει σε διαφορετική κλάση. Η πλησιέστερη επιτυχία (nearest hit) είναι ο κοντινότερος στόχος στην ίδια κλάση. Για κάθε τιμή κατηγορήματος στο αντικείμενο-στόχο, εάν η πλησιέστερη επιτυχία έχει την ίδια τιμή, τότε το βάρος του κατηγορήματος αυξάνεται. Εάν έχει διαφορετική τιμή, τότε μειώνεται. Παρόμοια, το βάρος μειώνεται (αυξάνεται) εάν η πλησιέστερη αστοχία έχει την ίδια (διαφορετική) τιμή. Μόνο κατηγορήματα με θετικά βάρη μεγαλύτερα από κάποιο προκαθορισμένο κατώφλι χρησιμοποιούνται στη συνέχεια για την κατασκευή του δένδρου. Προτείνεται, εξαιτίας της πολυπλοκότητας εύρεσης σχετικών κατηγορημάτων να βρίσκονται πρώτα σχετικά κατηγορήματα σε ένα ευρύτερο επίπεδο και στη συνέχεια σε ένα περιορισμένο. Αρχικά χρησιμοποιούνται τα ελάχιστα περιβάλλοντα ορθογώνια αντί των πραγματικών αντικειμένων και μια γενικευμένη ευρύτερη σχέση «κοντά» για την εύρεση των σχετικών κατηγορημάτων. Στη συνέχεια, κατά το δεύτερο πέρασμα, χρησιμοποιούνται αυτά τα σχετικά κατηγορήματα μαζί με τα πραγματικά αντικείμενα. 41

43 Για κάθε αντικείμενο του δείγματος, εξετάζεται η περιοχή γύρω από αυτό, η οποία καλείται ενδιάμεση ζώνη (buffer). Μια περιγραφή αυτής της ενδιάμεσης περιοχής δημιουργείται με την συνάθροιση των τιμών των πιο σχετικών κατηγορημάτων των αντικειμένων στην ενδιάμεση περιοχή. Προφανώς, το μέγεθος και το σχήμα της ενδιάμεσης ζώνης επιδρούν στον προκύπτοντα αλγόριθμο κατηγοριοποίησης. Είναι πιθανό, αν και μη ρεαλιστικό, να πραγματοποιηθεί μια εξαντλητική αναζήτηση σε όλα τα πιθανά μεγέθη και σχήματα ενδιάμεσων περιοχών. Ο αντικειμενικός στόχος θα ήταν να επιλεγεί εκείνη η ενδιάμεση ζώνη που οδηγεί στην καλύτερη διάκριση μεταξύ των κλάσεων στο σύνολο εκπαίδευσης. Αυτό θα υπολογιζόταν χρησιμοποιώντας το κέρδος πληροφορίας (information gain). Εξετάστηκαν και άλλες προσεγγίσεις βασισμένες στην επιλογή ενός συγκεκριμένου σχήματος, αλλά τελικά χρησιμοποιήθηκαν κύκλοι (ενδιάμεσες ισαπέχουσες ζώνες). Για την κατασκευή του δένδρου γίνεται η υπόθεση ότι κάθε αντικείμενο του δείγματος συσχετίζεται με ένα σύνολο από γενικευμένα κατηγορήματα, τα οποία ικανοποιεί. Μπορούν τότε να καθορισθούν οι αριθμοί των αντικειμένων που ικανοποιούν ή δεν ικανοποιούν κάθε κατηγόρημα. Αυτό χρησιμοποιείται στη συνέχεια για να υπολογισθεί το κέρδος της πληροφορίας, όπως γίνεται στον ID3. Αντί να δημιουργείται ένα δένδρο διακλαδώσεων πολλών δρόμων, δημιουργείται ένα δυαδικό δένδρο απόφασης. 42

44 4.5 Συσταδοποίηση χωρικών δεδομένων Ορισμοί Η συσταδοποίηση (clustering) είναι παρόμοια με την κατηγοριοποίηση καθώς και στις δύο περιπτώσεις τα δεδομένα οργανώνονται σε ομάδες. Στην συσταδοποίηση, ωστόσο, σε αντίθεση με την κατηγοριοποίηση, οι ομάδες δεν είναι προκαθορισμένες. Η συσταδοποίηση επιτυγχάνεται βρίσκοντας ομοιότητες μεταξύ των δεδομένων βάσει των χαρακτηριστικών που υπάρχουν σε αυτά. Οι ομάδες αυτές ονομάζονται συστάδες (clusters). Κατά πολλούς, η συσταδοποίηση είναι μια ειδική μορφή κατηγοριοποίησης. Στα επόμενα οι δύο αυτές έννοιες λογίζονται διαφορετικές. Για τη συσταδοποίηση έχουν προταθεί πολλοί ορισμοί: Σύνολο όμοιων στοιχείων. Στοιχεία διαφορετικών συστάδων δεν είναι όμοια. Η απόσταση μεταξύ των σημείων κάποιας συστάδας είναι μικρότερη από την απόσταση μεταξύ ενός σημείου της συστάδας και οποιουδήποτε σημείου εκτός της συστάδας. Η διαδικασία ομαδοποίησης συνόλου απτών ή αφηρημένων αντικειμένων σε κατηγορίες παρεμφερών αντικειμένων. Μία συστάδα ορίζεται ως η συλλογή δεδομένων τα οποία είναι όμοια για την ίδια συστάδα και ανόμοια σε σχέση με αντικείμενα διαφορετικών συστάδων. Μία συστάδα αντικειμένων / δεδομένων μπορεί να αντιμετωπισθεί συνολικά σαν μία ομάδα σε πολλές εφαρμογές. Η συσταδοποίηση συνιστά ένα πολλά υποσχόμενο ερευνητικό πεδίο της οποίας οι δυνητικές εφαρμογές θέτουν τις δικές τους απαιτήσεις. Τυπικές απαιτήσεις συσταδοποίησης στην εξόρυξη δεδομένων συνιστούν τα εξής: Εύρος κλίμακας αναφορικά με την διαχείριση στοιχείων στη βάση δεδομένων. Ικανότητα διαχείρισης διαφορετικών τύπων δεδομένων. 43

45 Εύρεση κατηγοριών με ακανόνιστο σχήμα. Ικανότητα αντιμετώπισης «θορύβου». Έλλειψη ευαισθησίας αναφορικά με την σειρά εισαγωγής των στοιχείων Διαχείριση δεδομένων στο χώρο πολλών διαστάσεων Συσταδοποίηση υπό περιορισμούς Μεταφράσιμα και χρηστικά αποτελέσματα Εφαρμογές Οι βασικοί άξονες στους οποίους χρησιμοποιείται η συσταδοποίηση είναι οι εξής: Μείωση των δεδομένων: η ανάλυση συσταδοποίησης μπορεί να χρησιμοποιηθεί προκειμένου να διαμερίσει τα δεδομένα σε ένα σύνολο από «ενδιαφέρουσες συστάδες». Στη συνέχεια, αντί να γίνει διαχείριση των δεδομένων σαν μία ολότητα, υιοθετούνται αντιπροσωπευτικά δείγματα των συστάδων που έχουν καθορισθεί. Με αυτόν τον τρόπο επιτυγχάνεται συμπίεση των δεδομένων. Γενίκευση υποθέσεων: αφορά συμπερασμό σε σχέση με κάποιες υποθέσεις οι οποίες αφορούν στα δεδομένα. Δοκιμασία υποθέσεων: αφορά στην επιβεβαίωση της εγκυρότητας μιας συγκεκριμένης υπόθεσης. Πρόβλεψη που βασίζεται σε ομάδες: Οι συστάδες που προκύπτουν από την εφαρμογή της συσταδοποίησης σε ένα σύνολο δεδομένων, χαρακτηρίζονται από τα χαρακτηριστικά των προτύπων που ανήκουν σε αυτές. Εν συνεχεία, τα άγνωστα πρότυπα μπορούν να ταξινομηθούν σε συγκεκριμένες κατηγορίες, βάσει της ομοιότητάς 44

46 τους με τα χαρακτηριστικά των συστάδων. Έτσι μπορεί να εξαχθεί χρήσιμη γνώση που σχετίζεται με τα δεδομένα. Μερικές τυπικές εφαρμογές της συσταδοποίησης παρατηρούνται στα πεδία μάρκετινγκ και οικονομίας, ιατρικής, ανθρωπολογίας, βιολογίας (taxonomy), επεξεργασία εικόνας, ανάκτηση κειμένων. Πρόσφατες χρήσεις της συσταδοποίησης περιλαμβάνουν την εξέταση των δεδομένων των αρχείων λειτουργίας του Web (Web logs) για τον εντοπισμό προτύπων σχετικά με τον τρόπο χρήσης του δικτύου. Τέλος, σημαντικότατη εφαρμογή της συσταδοποίησης συνιστά η ανάλυση χωρικών δεδομένων. Λόγω του μεγάλου όγκου αυτών των δεδομένων, καθίσταται αντιοικονομική και δυσχερής η λεπτομερής εξέταση αυτών των δεδομένων από τους χρήστες. Η συσταδοποίηση βοηθά στην αυτοματοποίηση της διαδικασίας ανάλυσης και κατανόησης των χωρικών δεδομένων. Χρησιμοποιείται προκειμένου να ταυτοποιήσει και να εξάγει ενδιαφέροντα χαρακτηριστικά και πρότυπα που ενδέχεται να υπάρχουν σε μεγάλες βάσεις χωρικών δεδομένων. Όταν εφαρμόζεται συσταδοποίηση σε πραγματικές βάσεις δεδομένων, προκύπτουν ζητήματα όπως: Ο χειρισμός των ακραίων σημείων (outliers). Τα στοιχεία αυτά δεν ανήκουν στην πράξη σε καμία συστάδα μπορούν να θεωρηθούν σαν μεμονωμένες συστάδες. Ωστόσο, αν ένας αλγόριθμος συσταδοποίησης επιχειρήσει να βρει μεγαλύτερες συστάδες, αυτά τα στοιχεία αναγκαστικά θα τοποθετούν σε κάποια ευρύτερη συστάδα. Καθώς αυτή η διαδικασία μπορεί να συνδυάσει δύο υπάρχουσες συστάδες και να αφήσει το απομονωμένο σημείο στη δική του συστάδα, μπορεί να οδηγήσει σε φτωχή συσταδοποίηση. Τα δυναμικά δεδομένα που υπάρχουν στη βάση δεδομένων υποδηλώνουν ότι η σύσταση των συστάδων μπορεί να αλλάξει στην πορεία του χρόνου. Η ερμηνεία της σημασιολογίας κάθε συστάδας ενδέχεται να είναι δύσκολη. Στην περίπτωση της κατηγοριοποίησης, η περιγραφή των 45

47 κλάσεων είναι γνωστή εκ των προτέρων. Αυτό όμως δεν ισχύει στη συσταδοποίηση. Συνεπώς, όταν ολοκληρωθεί η διαδικασία συσταδοποίησης δημιουργώντας ένα σύνολο συστάδων, μπορεί να μην είναι προφανής η ακριβής σημασία της κάθε συστάδας. Στο σημείο αυτό χρειάζεται ένας ειδικός του πεδίου προκειμένου να αναθέσει «ετικέτες» (προσδιορισμούς) στις συστάδες. Δεν υπάρχει μία και μόνη σωστή λύση σε ένα πρόβλημα συσταδοποίησης. Στην πραγματικότητα, μπορούν να βρεθούν πολλές απαντήσεις. Το ακριβές πλήθος των συστάδων που απαιτούνται δεν είναι τόσο εύκολο να προσδιοριστεί. Ένα άλλο σχετικό θέμα είναι τι δεδομένα θα πρέπει να χρησιμοποιηθούν για τη συσταδοποίηση. Σε αντίθεση με τη μάθηση κατά τη διάρκεια της διαδικασίας κατηγοριοποίησης, όπου υπάρχει εκ των προτέρων κάποια γνώση σχετικά με το ποια πρέπει να είναι τα γνωρίσματα της κατηγοριοποίησης, στη συσταδοποίηση δεν υπάρχει επιβλεπόμενη μάθηση για να βοηθήσει τη διαδικασία. Πράγματι, η συσταδοποίηση μπορεί να θεωρηθεί παρόμοια με τη μη επιβλεπόμενη μάθηση Μέθοδοι Από όσα αναπτύχθηκαν προηγουμένως, γίνεται σαφής η σημασία της συσταδοποίησης στα πλαίσια της εξόρυξης (χωρικής) γνώσης. Βάσει της πιο συχνής κατηγοριοποίησης που χρησιμοποιείται, στην ιεραρχική συσταδοποίηση (hierarchical clustering) δημιουργείται ένα εμφωλιασμένο σύνολο από συστάδες. Κάθε επίπεδο της ιεραρχίας έχει ένα ξεχωριστό σύνολο συστάδων. Στο κατώτατο επίπεδο, κάθε αντικείμενο βρίσκεται στη δική του συστάδα. Στο ανώτατο επίπεδο, όλα τα αντικείμενα ανήκουν στην ίδια συστάδα. Στην ιεραρχική συσταδοποίηση, ο επιθυμητός αριθμός των συστάδων δεν αποτελεί είσοδο. Στην 46

48 διαμεριστική συσταδοποίηση (partitional clustering) ο αλγόριθμος δημιουργεί μόνο ένα σύνολο συστάδων. Οι προσεγγίσεις που ακολουθούνται στην περίπτωση αυτή χρησιμοποιούν τον επιθυμητό αριθμό συστάδων για να καθοδηγήσουν τη δημιουργία του τελικού συνόλου αυτών. Οι παραδοσιακοί αλγόριθμοι συσταδοποίησης προορίζονται για μικρές αριθμητικές βάσεις δεδομένων που χωράνε στη μνήμη. Υπάρχουν, ωστόσο, πιο πρόσφατοι αλγόριθμοι συσταδοποίησης που αφορούν σε μη αριθμητικά δεδομένα και προορίζονται για μεγαλύτερες, πιθανόν δυναμικές, βάσεις δεδομένων. Οι αλγόριθμοι που αφορούν σε μεγάλες βάσεις δεδομένων μπορούν να προσαρμοστούν στους εκάστοτε περιορισμούς μνήμης, είτε εφαρμόζοντας δειγματοληψία στη βάση δεδομένων, είτε χρησιμοποιώντας δομές δεδομένων που μπορούν να συμπιεστούν ή να υποστούν περικοπές προκείμενου να χωρέσουν στη μνήμη ανεξάρτητα από το μέγεθος της βάσης. Οι αλγόριθμοι συσταδοποίησης διαφοροποιούνται επίσης και ως προς το εάν παράγουν επικαλυπτόμενες ή μη επικαλυπτόμενες συστάδες. Οι μη επικαλυπτόμενες συστάδες μπορούν να θεωρηθούν ως εξωγενείς (extrinsic) ή εγγενείς (intrinsic). Οι εξωγενείς τεχνικές χρησιμοποιούν ετικέτες πάνω στα στοιχεία για να βοηθήσουν την διαδικασία κατηγοριοποίησης. Περιλαμβάνουν τους κλασσικούς αλγορίθμους επιβλεπόμενης μάθησης για την ταξινόμηση, οι οποίοι έχουν ως είσοδο ένα ειδικό σύνολο εκπαίδευσης. Οι εγγενείς (intrinsic) τεχνικές δεν χρησιμοποιούν κανέναν εκ των προτέρων προσδιορισμό των κατηγοριών, αλλά βασίζονται αποκλειστικά στην μήτρα γειτνίασης που περιέχει τις αποστάσεις μεταξύ των αντικειμένων. Οι τύποι των αλγορίθμων συσταδοποίησης μπορούν να κατηγοριοποιηθούν περαιτέρω με βάση την τεχνική υλοποίησης που υιοθετούν. Οι ιεραρχικοί αλγόριθμοι μπορούν να διαιρεθούν σε συσσωρευτικούς (agglomerative) και διαιρετικούς (divisive). Στους συσσωρευτικούς αλγορίθμους οι συστάδες δημιουργούνται με διαδικασία από κάτω προς τα πάνω (bottom - up) ενώ στους διαιρετικούς με σχεδιασμό από πάνω προς τα κάτω (top - down). Παρά το γεγονός ότι τόσο οι ιεραρχικοί όσο και οι διαμεριστικοί αλγόριθμοι θα μπορούσαν να χωριστούν σε συσσωρευτικούς και διαιρετικούς, τυπικά αυτή η διάκριση σχετίζεται περισσότερο με τους ιεραρχικούς αλγορίθμους. Ένας άλλος περιγραφικός προσδιορισμός, η σειριακή (μερικές φορές, ονομάζεται και αυξητική) προσέγγιση, 47

49 δείχνει αν γίνεται ξεχωριστός χειρισμός κάθε επιμέρους στοιχείου, ενώ η ταυτόχρονη προσέγγιση αν εξετάζονται μαζί όλα τα στοιχεία. Αν θεωρηθεί ότι κάθε πλειάδα έχει τιμές για όλα τα γνωρίσματα του σχήματος της βάσης, τότε θα διαφοροποιούνταν οι αλγόριθμοι συσταδοποίησης και ως προς το πώς εξετάζουν τις τιμές κάθε γνωρίσματος. Όπως συμβαίνει συνήθως με τις τεχνικές κατηγοριοποίησης με δένδρα αποφάσεων, οι μονοθετικοί (monothetic)) αλγόριθμοι εξετάζουν μία τιμή γνωρίσματος τη φορά. Αντιθέτως, οι πολυθετικοί (polythetic) αλγόριθμοι εξετάζουν όλες τις τιμές του γνωρίσματος μαζί. 48

50 5 Εξόρυξη δεδομένων και εικόνες Η τεχνική DRP 5.1 Περιγραφή τεχνικής Η τεχνική DRP (Dynamic recursive partitioning) είναι δυνατόν να εφαρμοστεί σε πολλές περιπτώσεις. Ένα παράδειγμα που θα εξεταστεί στη συνέχεια, αφορά στις εικόνες του μεσολοβίου και τις Jacobian παραμέτρους που υπολογίζονται μέσω πρότυπων πεδίων αποδιαμόρφωσης. Για να εξασφαλιστεί η σαφής περιγραφή της μεθοδολογίας, κατά κανόνα γίνεται υλοποίηση της DRP για το πρόβλημα δύο κλάσεων του συνόλου δεδομένων μεσολοβίου με τη χρήση στατιστικών δοκιμών δύο δειγμάτων. Επέκταση σε περισσότερες από δύο κατηγορίες μπορούν επίσης να εφαρμοστούν με τη χρήση των κατάλληλων στατιστικών, όπως η ανάλυση μονής διακύμανσης (ANOVA). Η κύρια ιδέα του DRP είναι η διχοτόμηση μιας εικόνας δύο διαστάσεων προσαρμοστικά σε βαθμιαία μικρότερες υποπεριφέρειες μέχρι να ανιχνεύσουμε τις περιφέρειες με στατιστικά σημαντικές μορφολογικές μεταβλητότητες. Η όλη εικόνα αρχικά αντιμετωπίζεται ως μία περιφέρεια (δηλαδή, ορθογώνιο). Μια προσαρμοστική κατάτμηση του χώρου σε μικρότερες περιοχές λαμβάνει χώρα. Στη συνέχεια μια περιοχή χωρίζεται διαιρώντας κάθε χωρική διάσταση εξίσου σε δύο κομμάτια. Η επιλεκτικότητα του διαχωρισμού γίνεται με βάση τις στατιστικές δοκιμές. Κάθε περιοχή είναι χωρισμένη αν το στατιστικό τεστ δείχνει ότι η περιοχή δεν διαθέτει αρκετή μορφολογική διαφοροποίηση μεταξύ των δύο τάξεων (παραδείγματος χάριν, άνδρες και γυναίκες). Για παράδειγμα, μπορεί να θεωρηθεί ως χαρακτηριστικός εκπρόσωπος της κάθε περιοχής ο διάμεσος V J των αντίστοιχων τιμών Jacobian. Έτσι, τα pixels που ανήκουν σε φόντο της εικόνας δεν λαμβάνονται υπόψη στον υπολογισμό αυτό. Επειδή οι Jacobian τιμές ποσοτικοποιούν το βαθμό της επέκτασης ή συρρίκνωσης κατά κάθε pixel, η διάμεση τιμή των Jacobian παραγόντων για μια ομάδα pixels, 49

51 δίνει ένα μέτρο της κεντρικής τάσης της συρρίκνωσης ή επέκτασης εντός της συγκεκριμένης περιοχής, αναφορικά με τα pixel. Σε γενικές γραμμές, και άλλα περιγραφικά στατιστικά στοιχεία, όπως η μέση τιμή, το άθροισμα κλπ, θα μπορούσαν ενδεχομένως να χρησιμοποιηθούν σαν χαρακτηριστικά. Ωστόσο, στις περισσότερες των εφαρμογών, χρήση άλλων χαρακτηριστικών θα μπορούσε να εισαγάγει σημαντικές αποκλίσεις ως προς τον χαρακτηρισμό των μορφολογικών παραλλαγών μιας περιοχής - όπως όταν χρησιμοποιείται, για παράδειγμα, η μέση τιμή της περιοχής ως χαρακτηριστικό. Κάτι τέτοιο θα μπορούσε να ιδιαίτερα σημαντικό, ιδιαίτερα στο πρώτο επίπεδο του DRP, όπου οι περιοχές υπό εξέταση περιέχουν μεγάλο αριθμό pixels. Για το λόγο αυτό, η διάμεσος επιλέγεται ως το πιο αξιόπιστο μέτρο, δεδομένου ότι έχει αποδειχθεί ότι είναι πιο ισχυρό στατιστικό στοιχείο από ότι η μέση τιμή. Ο αλγόριθμος του DRP στη συνέχεια πραγματοποιεί τον κατακερματισμό κάθε περιφέρειας, εάν η διάμεσος δεν διαθέτει επαρκή διακριτική ικανότητα ώστε να γίνει διάκριση μεταξύ των δύο κατηγοριών. Μια στατιστικά σημαντική διαφορά μεταξύ των διαμέσων των δύο τάξεων δείχνει σημαντική γενική μορφομετρική διαφοροποίηση για μια συγκεκριμένη περιοχή. Η διακριτική ικανότητα / ισχύς μιας περιοχής καθορίζεται από την υλοποίηση εφαρμογή ενός στατιστικού τεστ (παραδείγματος χάριν, t - test) για την αντίστοιχη διάμεσο των χαρακτηριστικών των δύο τάξεων. Σε αυτήν την λογική, υπάρχει ένα κατώτατο όριο για την αντίστοιχη P value, το οποίο χρησιμοποιείται για να καθορίσει το επιθυμητό επίπεδο διακριτικής σημασίας και να κατευθύνει την επιλεκτικότητα της κατάτμησης. Ο αλγόριθμος DRP ανιχνεύει διακριτές περιοχές κατά τρόπο πολλαπλών αναλύσεων λειτουργώντας σε μια «coarse to fine grain» βάση. Δεδομένης της ανάλυσης της εικόνας, η διαδικασία της κατάτμησης εξελίσσεται αναδρομικά μέχρι να είναι όλα τα υπόλοιπα ορθογώνια διακριτά ή ένα ορθογώνιο να γίνεται τόσο μικρό που δεν μπορεί να χωριστεί περαιτέρω. Η εικόνα που ακολουθεί, περιγράφει την κεντρική ιδέα της προσαρμοστικής διαδικασίας διαχωρισμού. Οι περιοχές της εικόνας που αντιστοιχούν στο παρασκήνιο εξαιρούνται από την ανάλυση. 50

52 Εικόνα 1: Η βασική ιδέα του DRP. Μια από τις βασικές παραδοχές που έγιναν για την εφαρμογή του αλγορίθμου DRP είναι ότι οποιαδήποτε σχέδια των μορφολογικών διακυμάνσεων στις εικόνες δημιουργούνται από ανεξάρτητες (ασυσχέτιστες) κατανομές. Αυτή η υπόθεση είναι ρεαλιστική δεδομένου ότι οι δύο κλάσεις περιέχουν εικόνες από ασύζευκτα θέματα που έχουν παραχθεί κάτω από διαφορετικές συνθήκες (παραδείγματος χάριν, άνδρες και γυναίκες σε μια τυπική εφαρμογή). Στη βάση αυτή την υπόθεση, τα ακόλουθα υπποθετικά σενάρια δοκιμής εξετάζονται σε κάθε βήμα της διαδικασίας διαχωρισμού για την διάμεσο: Η 0 (μηδενική υπόθεση): Η κατανομή των διαμέσων είναι η ίδια για τις δύο κατηγορίες. Η περιοχή υπό εξέταση δεν είναι αρκετά διακριτική μεταξύ ανδρών και γυναικών. H 1 (εναλλακτική υπόθεση): Η κατανομή των διαμέσων δεν είναι η ίδια για τις δύο κατηγορίες. Η περιοχής υπό εξέταση είναι αρκετά διακριτική μεταξύ ανδρών και γυναικών. Ανάλογα με τις ιδιότητες του συνόλου δεδομένων που είναι υπό εξέταση, είτε παραμετρικά είτε μη παραμετρικά στατιστικά τεστ μπορούν να χρησιμοποιηθούν για την καθοδήγηση της επιλεκτικότητας του διαχωρισμού της εικόνας. Το t test για παράδειγμα μπορεί να χρησιμοποιηθεί για την αξιολόγηση της μηδενικής υπόθεσης H0 για την υπολογιζόμενη διάμεσο, στην περίπτωση που 51

53 η υπόθεση της κανονικότητας ισχύει και για την κατανομή των pixel σε όλες τις εικόνες της κάθε κατηγορίας, και παρατηρείται ίση διακύμανση εντός του πληθυσμού. Εναλλακτικά, στην περίπτωση που η υπόθεση της κανονικότητας και της ισότητας αναφορικά με τη διακύμανση του πληθυσμού δεν μπορεί να βεβαιωθεί για τα υπό εξέταση δεδομένα, το μη παραμετρικό Wilcoxon rank - sum τεστ μπορεί να χρησιμοποιηθεί για τον έλεγχο της μηδενικής υπόθεσης H0 για τη διάμεσο. Το Wilcoxon rank sum τεστ δεν κάνει καμία υπόθεση κατανομής και βασίζεται στο άθροισμα των βαθμών των διαμέσων σε κάθε μία από τις δύο κατηγορίες. Ο Πίνακας που ακολουθεί συνοψίζει όλες τις παραδοχές που έγιναν για εφαρμογή DRP. Παραδοχές Πίνακας 1: Σύνοψη παραδοχών για την εφαρμογή του DRP 1 Υπάρχουν 2 ή περισσότερες ομάδες εικόνων που παράγονται από ανεξάρτητες κατανομές 2 Το φόντο των εικόνων και άσχετες περιοχές έχουν καθοριστεί και δεν λαμβάνονται υπόψη 3 Εφαρμόζεται διαδικασία επεξεργασίας εικόνας που εξαρτάται από την εκάστοτε εφαρμογή 4 Υπάρχουν ίσες πιθανότητες αναφορικά με τα pixel που συμμετέχουν σε μορφολογικές διαφοροποιήσεις. 52

54 Σε σύγκριση με την ανάλυση που βασίζεται κατά κύριο λόγο στα pixel, η μέθοδος του αλγορίθμου DRP μειώνει αποτελεσματικά τον αριθμό των στατιστικών ελέγχων. Η μείωση αυτή οφείλεται στο γεγονός ότι οι δοκιμές εφαρμόζονται επιλεκτικά σε ομάδες pixels (δηλαδή, ορθογώνια), παρά για μεμονωμένα pixels, εστιάζοντας μόνο σε ορισμένες δυνητικά διακεκριμένες υπό - περιοχές. Η μείωση των στατιστικών ελέγχων στην περίπτωση της χρήσης του αλγορίθμου DRP ουσιαστικά εξαρτάται από τις διαστάσεις και την ανάλυση που έχουν οι αρχικές εικόνες, καθώς και το επιθυμητό επίπεδο της ανάλυσης για την ανίχνευση διακριτών περιοχών, όπως υλοποιείται από την εκάστοτε συγκεκριμένη εφαρμογή. Προκειμένου να γίνουν κατανοητά τα παραπάνω, ας εξετάσουμε μια δισδιάστατη εικόνα που έχει σύνολο m X n pixels. Ας δηλώσουμε επίσης με L τον μέγιστο αριθμό των επιπέδων που επιτρέπεται να χρησιμοποιηθούν για την τομεοποίηση της εικόνας. Στον DRP, η παράμετρος αυτή καθορίζεται από το χρήστη και μπορεί να αξιολογηθεί βέλτιστα λαμβάνοντας υπόψη τις διαστάσεις των δεδομένων και την επιθυμητή μέγιστη ανάλυση των ROIs που έχουν ανιχνευτεί. Μέσα από την διαδικασία της προσαρμοστικής τομεοποίησης, ορίζουμε ως l το τρέχον επίπεδο της DRP τομεοποίησης (δηλαδή, l = 0,..., L). Σημειώνουμε ότι η τιμή l = 0 αντιστοιχεί στο αρχικό κόμβο του δένδρου διαχωρισμού που αντιπροσωπεύει το σύνολο της αρχικής δισδιάστατης εικόνας. Σε κάθε l επίπεδο του αλγορίθμου DRP, ο μέγιστος αριθμός των ορθογωνίων που θα μπορούσαν να χρησιμοποιηθούν για τον περαιτέρω διαχωρισμό είναι ίσος με: l _ max R 2 D l όπου D = 2 για μια δισδιάστατη εικόνα. Σε κάθε l επίπεδο, ο αριθμός των στατιστικών τεστ που υλοποιούνται από τον αλγόριθμο DRP έχει ένα ανώτερο όριο, που είναι ίσο με το μέγιστο αριθμό από ορθογώνια: 53

55 Tests 2 l R l _ max D l Ως εκ τούτου, η εκτίμηση του άνω ορίου για τον συνολικό αριθμό των στατιστικών τεστ που απαιτούνται και μπορούν να υλοποιηθούν από έναν αλγόριθμο DRP δίνεται από την παρακάτω έκφραση: Tests DRP Tests l L l 0 L D l 2 l 0 Λαμβάνουμε στη συνέχεια υπόψη ότι η ελάχιστη επιθυμητή ανάλυση της τομεοποίησης κατά DRP μπορεί να καθοριστεί με βάση την αρχική ανάλυση της εικόνας με βάση τις παρακάτω σχέσεις: X Y L L m l 2 n l 2 Έτσι, μπορούμε να έχουμε μια εκτίμηση για τον μέγιστο αριθμό των στατιστικών τεστ που απαιτούνται, σε σχέση με τις αρχικές διαστάσεις (m X n) της εικόνας μας: Tests L l 0 L l 0 DRP 2 2 D D log log L l m / X n / Y L D L l 54

56 Η ποσότητα αυτή μπορεί να συγκριθεί για παράδειγμα με τον αριθμό των στατιστικών τεστ που απαιτούνται και πραγματοποιούνται από την ανάλυση κατά pixel της ίδιας εικόνας, που δίνεται από την παρακάτω εξίσωση: Tests pixel _ wise m n 5.2 Έλεγχος λαθών σε συνδυασμό με την DRP Παρόλα αυτά, αξίζει να σημειωθεί το εξής. Ενώ η μέθοδος DRP μειώνει τον αριθμό των απαιτούμενων στατιστικών τεστ σε σχέση για παράδειγμα με την ανάλυση κατά pixel, είναι μερικές φορές χρήσιμο να υλοποιηθεί σε συνδυασμό με κάποιες P value μεθόδους διόρθωσης, σε περιπτώσεις για παράδειγμα που απαιτείται ένας πιο αυστηρός έλεγχος των λαθών τύπου Ι (δηλαδή, για παράδειγμα, των λαθών που αναφέρονται στα λεγόμενα false positives, δηλαδή την εσφαλμένη εκτίμηση ότι κάτι ισχύει ενώ δεν ισχύει). Ειδικότερα για την DRP, προτείνεται να χρησιμοποιείται επιπροσθέτως και η διορθωτική μέθοδος Bonferroni, σε συνδυασμό με την FDR (False Discovery Rate), έτσι ώστε να επιτυγχάνεται καλύτερος έλεγχος αναφορικά με τα λάθη τύπου Ι. Η μέθοδος DRP κατά κανόνα πραγματοποιεί πολύ λίγα στατιστικά τεστ κατά τη διάρκεια των αρχικών σταδίων της τομεοποίησης. Για παράδειγμα, μπορούμε να δούμε από την προηγούμενη εξίσωση πως το άνω όριο για την DRP είναι 1, 4, 16 και 64 στατιστικά τεστ αντίστοιχα, για τις περιπτώσεις που αναφερόμαστε στο στάδιο 0, 1, 2 και 3 κατ αντιστοιχία. Ο αριθμός αυτός είναι ιδιαίτερα χαμηλός σε σχέση με τον αντίστοιχο αριθμό που προκύπτει από την ανάλυση κατά pixel. Για κάθε ένα από αυτά τα στάδια υλοποίησης της DRP, η τυπική μέθοδος ελέγχου Bonferroni μπορεί να υλοποιηθεί 55

57 παράλληλα, με δεδομένο ότι οι διαστάσεις X L και Y L των υπό περιοχών (πχ των ορθογωνίων) είναι αρκετά μεγάλες ώστε να μπορούμε να υποθέσουμε πως η διάμεσος σε κάθε περιοχή είναι στατιστικά ανεξάρτητη και χωρικά ασυσχέτιστη με τις διαμέσους των άλλων περιοχών. Φυσικά, καθώς ο αριθμός των στατιστικών τεστ αυξάνεται εκθετικά με την αύξηση του επιπέδου υλοποίησης της μεθόδου DRP, η διαδικασία αυτή γίνεται πιο δύσκολη, και σε αυτήν την περίπτωση προτείνεται συνήθως η χρήση της FDR. Η FDR είναι μια μέθοδος που έχει προταθεί σχετικά πρόσφατα, και ελέγχει τον αριθμό των περιπτώσεων που εμφανίζεται το λεγόμενο false positive, δηλαδή τις περιπτώσεις που έχουμε εσφαλμένη εκτίμηση ότι κάτι ισχύει, ενώ δεν ισχύει, όταν έχουμε πολλαπλά τεστ υποθέσεων να λαμβάνουν χώρα. Σε αντίθεση με τις πιο συνηθισμένες τεχνικές που χρησιμοποιούνται σε περιπτώσεις ανάλυσης κατά pixel για τον έλεγχο των false positive, η μέθοδος FDR δεν λαμβάνει υπόψη υποθέσεις σχετικά με την κατανομή των τιμών των pixel. Η διαδικασία της FDR βασίζεται στην επιλογή μιας βέλτιστης οριακής τιμής για το P value με βάση το οποίο θα γίνεται η απόρριψη της μηδενικής υπόθεσης Ηο, η οποία σχετίζεται με τα χαρακτηριστικά των δεδομένων της υπό εξέταση εικόνας. Η FDR αναφέρεται στον λόγο των false positive τεστ σε σχέση με τα τεστ που απορρίπτουν την μηδενική υπόθεση. Σε περίπτωση που έχουμε DRP ανάλυση, ο λόγος FDR μπορεί να οριστεί ως εξής: q R l _ false_ positive R l _ positive Στην σχέση αυτή, ο αριθμητής αντιστοιχεί στα false positive ορθογώνια και ο παρονομαστής στο σύνολο των ορθογωνίων για τα οποία η μηδενική υπόθεση έχει απορριφθεί, στο επίπεδο l του αλγορίθμου DRP. Ας υποθέσουμε ότι η μεταβλητή Tests_l μας δείχνει τον αριθμό των τεστ που υλοποιούνται σε κάθε επίπεδο l της διαδικασίας. Τότε, η βέλτιστη οριακή τιμή για το P value μπορεί να εκτιμηθεί με βάση την παρακάτω διαδικασία: 56

58 Βήμα 1 ο : Καθορίζεται ένας αποδεκτός λόγος q για την FDR, με την προϋπόθεση να ικανοποιεί την συνθήκη: 0 q 1 Βήμα 2 ο Οι τιμές των P values που λαμβάνονται από την εφαρμογή των στατιστικών test στο επίπεδο υπολογισμού l ταξινομούνται ως εξής: P( 1) P(2)... P( Tests l ) Βήμα 3 ο Υπολογίζεται ο μεγαλύτερος αριθμός i, δηλαδή το r = max(i), για τον οποίο ισχύει το εξής: Όπου c Tests l P ( i) i q Testsl c Tests l Είναι μια σταθερά που εξαρτάται από την κατανομή των P values που λαμβάνονται σε κάθε επίπεδο l. 57

59 Σε γενικές γραμμές, για τυπικές αποδιαμορφώσεις βάσει εικόνων Jacobian, είναι γενικά αποδεκτό να θεωρούμε θετική συσχέτιση των pixel. Ειδικότερα για την περίπτωση του DRP, τα ορθογώνια κατά τη διάρκεια των πρώτων 5 επιπέδων υλοποίησης είναι αρκετά μεγάλα ώστε να θεωρούμε πως υπάρχει στατιστική ανεξαρτησία. Και για τις δύο αυτές περιπτώσεις υποθέσεων, έχει αποδειχτεί το εξής: c 1 Tests l Βήμα 4 ο Επιλέγεται η οριακή τιμή για το P value: P thres P(r) Τέλος, απορρίπτεται η μηδενική υπόθεση Ηο για όλες τις περιπτώσεις των ορθογωνίων που έχουν τιμές έως και την P(r). 58

60 5.3 Έλεγχος απαιτούμενων στατιστικών τεστ Σε αυτήν την ενότητα, θα παρουσιάσουμε μια πιλοτική εφαρμογή της μεθόδου DRP όπως παρουσιάζεται στο άρθρο των Kontos, Megalooikonomou και James. Στο συγκεκριμένο άρθρο, εφαρμόστηκε DRP σε Ιακωβιανές παραμέτρους που είχαν εκτιμηθεί από τις εικόνες του μεσολοβίου για άνδρες και γυναίκες. Λόγω της ιδιαίτερης φύσης αυτού του είδους των δεδομένων, ήταν λογικό να υποτεθεί πως οι δύο πληθυσμοί (εικόνες ανδρών και γυναικών δηλαδή) είναι πιο πιθανό να έχουν παραχθεί με βάση κανονικές κατανομές που έχουν ίσες τυπικές αποκλίσεις. Με βάση αυτή την υπόθεση, μπορούμε να εξάγουμε το συμπέρασμα πως μπορεί να χρησιμοποιηθεί t test. Για να επιβεβαιωθεί η παραπάνω υπόθεση, εξετάστηκε η κατανομή των pixel και ελέγχθηκε για την κανονικότητά της. Σημειώνεται πως κατά τη διάρκεια της υλοποίησης του DRP, τα στατιστικά τεστ πραγματοποιούνται στο άθροισμα των τιμών των pixel (παραδείγματος χάριν στη διάμεσό τους) που υπολογίζεται από τις ίδιες χωρικές περιοχές σε κάθε εικόνα. Αυτές οι τιμές στη συνέχεια συγκρίνονται μεταξύ των δύο κλάσεων με τη χρήση των κατάλληλων στατιστικών τεστ (παραδείγματος χάριν, t test ή rank sum). Έτσι, μπορούμε να πούμε πως το ενδιαφέρον έγκειται στο αν η υπόθεση για κανονικότητα είναι ορθή σε επίπεδο pixel για τα αντικείμενα της κάθε κλάσης, και όχι τόσο για την συνολική κατανομή των τιμών των pixel. Οι συγγραφείς εφάρμοσαν το Lilliefors τεστ για κανονικότητα, σε επίπεδο στατιστικής σημαντικότητας Για την κλάση των ανδρών, το 82% του δείγματος ακλουθούσε την κανονική κατανομή σε επίπεδο pixel. Αντίστοιχα, για την κλάση των γυναικών, το ποσοστό αυτό ήταν 85%. Στην επόμενη εικόνα, συνοψίζονται τα pixel σε κάθε κλάση που ακολουθούν κανονική κατανομή. 59

61 Εικόνα 2: Τεστ κανονικότητας για την κλάση των ανδρών και των γυναικών με επίπεδο στατιστικής σημαντικότητας Λαμβάνοντας υπόψη το ότι η πλειοψηφία των pixel ακολουθεί κανονική κατανομή, εφαρμόστηκε ένα t test, το οποίο βασίζεται στην υπόθεση της κανονικότητας. Επιπλέον, για να μελετηθεί το κατά πόσο η επιλογή των στατιστικών τεστ επηρεάζει τις επιλεγμένες περιοχές των εικόνων, εφαρμόστηκε και ένα rank sum τεστ για να συγκριθούν τα αποτελέσματα. Το αποτέλεσμα των τεστ δείχνει ότι έχουν αντίστοιχα αποτελέσματα, όπως φαίνεται από τις δύο εικόνες που ακολουθούν και αναφέρονται στον συνδυασμό με DRP και ανάλυση κατά pixel, αντίστοιχα. 60

62 Εικόνα 3: Διαχωρισμός υπο περιοχών με μορφολογικές διαφοροποιήσεις από την υλοποίηση DRP με χρήση t test (περίπτωση α p<0.05, περίπτωση b p<0.01) και με χρήση rank sum (περίπτωση c p<0.05 και περίπτωση d p<0.01) Εικόνα 4: Διαχωρισμός υπο περιοχών με μορφολογικές διαφοροποιήσεις από την υλοποίηση ανά pixel με χρήση t test (περίπτωση α p<0.05, περίπτωση b p<0.01) και με χρήση rank sum (περίπτωση c p<0.05 και περίπτωση d p<0.01) Όπως φαίνεται και στις παραπάνω εικόνες, τα πειράματα έγιναν με δύο διαφορετικές τιμές για την τιμή του κριτηρίου στατιστικής σημαντικότητας (0.01 και 0.05). Ο μέγιστος αριθμός επιπέδων τομεοποίησης που παρατηρήθηκε ήταν το L = 5. Η τιμή αυτή αντιστοιχεί σε μια ελάχιστη ανάλυση της τάξης των 2 Χ 5 mm 2 που μπορεί να θεωρηθεί σαν αρκετά λογική για την συγκεκριμένη εφαρμογή. Σημαντικές μορφολογικές διαφοροποιήσεις έγιναν αντιληπτές σε μια συγκεκριμένη περιοχή των εικόνων, στην οπίσθια περιοχή του μεσολοβίου. Η περιοχή αυτή έχει 61

63 αναγνωριστεί ως σημαντική από πληθώρα διαφορετικών πειραματικών διαδικασιών. Εκτός από την περιοχή αυτή, διαφοροποιήσεις σημειώθηκαν και σε άλλες περιοχές των εικόνων. Παραδείγματος χάριν, η πρώτη από τις δύο ανωτέρω εικόνες δείχνει συγκεκριμένες περιοχές μορφολογικών διαφοροποιήσεων που βρέθηκαν από την χρήση του DRP, και οι οποίες συμφωνούν με τα αποτελέσματα αντίστοιχων ερευνών. Αν συγκρίνουμε τα αποτελέσματα που λαμβάνονται με τη μέθοδο DRP και αυτά που λαμβάνονται από την ανάλυση κατά pixel, μπορούμε να εξάγουμε χρήσιμα συμπεράσματα. Όπως φαίνεται από τις 2 εικόνες, η περιοχή του οπίσθιου μεσολοβίου γίνεται αντιληπτή και από τις δύο τεχνικές, ενώ το ίδιο ισχύει και για τις άλλες περιοχές, κάτι που δείχνει πως η τεχνική DRP αποδίδει εξίσου καλά. Στη συνέχεια, στον πίνακα που ακολουθεί, συνοψίζεται ο αριθμός των στατιστικών τεστ που χρειάστηκε η κάθε μια από τις δύο αυτές μεθόδους. Στον πίνακα περιλαμβάνονται αποτελέσματα τόσο για τις δύο εξεταζόμενες μεθόδους, όσο και για όλες τις περιπτώσεις στατιστικών τεστ αλλά και οριακών τιμών της p value που καθορίζει το επίπεδο στατιστικής σημαντικότητας. Πίνακας 2: Σύνοψη αποτελεσμάτων αναφορικά με τον αριθμό των απαιτούμενων τεστ για DRP και ανάλυση κατά pixel. Μέθοδος Στατιστικό τεστ P value Αριθμός απαιτούμενων τεστ 62

64 DRP t - test 0, , Runk - sum 0, , Ανά pixel t - test 0,05/0, Runk - sum 0,05/0, Όπως φαίνεται από τον πίνακα, η μέθοδος DRP ήταν σε θέση να αναγνωρίσει τις αντίστοιχες περιοχές που αναγνωρίστηκαν από την μέθοδο ανάλυσης ανά pixel, με τον αριθμό των απαιτούμενων τεστ να μειώνεται στο 50% περίπου σε σχέση με την άλλη μέθοδο. Επιπλέον, και όπως φαίνεται από τις αντίστοιχες εικόνες, αξίζει να σημειωθεί πως η μέθοδος DRP είναι λιγότερο πιθανό να ανιχνεύσει περιοχές απομονωμένων pixel χαρακτηρίζοντάς τες σημαντικές, σε αντίθεση με την ανάλυση κατά pixel. Εν συνεχεία, έγινε σύγκριση των περιοχών που αναγνώρισε η μέθοδος DRP με αυτές που αναγνωρίζονται χρησιμοποιώντας πιο αυστηρά όρια για την p value. Η υλοποίηση έγινε με την ταυτόχρονη χρήση της Bonferroni μεθόδου διόρθωσης αλλά και της FDR, όπως αυτές περιγράφηκαν προηγουμένως, με στόχο να περιοριστεί ο αριθμός των λαθών σφαλμάτων τύπου Ι. Η μέθοδος Bonferroni υλοποιήθηκε για τιμές του l ως και 3, ενώ για το τελευταίο επίπεδο (4) χρησιμοποιήθηκε η FDR. Η τιμή του ορίου για την p value ορίστηκε στα p = , και τα αποτελέσματα της υλοποίησης της μεθόδου φαίνονται στην εικόνα που ακολουθεί. 63

65 Εικόνα 5: Διαχωρισμός υπο περιοχών με μορφολογικές διαφοροποιήσεις από την υλοποίηση (a) DPR με χρήση Bonferroni και FDR, p<0.0008, q = 0,54και (b) ανάλυση κατά pixel, με χρήση FDR, p<0.0042, q = 0,53 Όπως φαίνεται και στην εικόνα, το γεγονός ότι χρησιμοποιήσαμε μικρότερη τιμή για την p value είχε ως αποτέλεσμα να περιοριστούν οι αναγνωρίσιμες περιοχές μόνο στο οπίσθιο μεσολόβιο. Συγκριτικά, έγινε η ίδια ανάλυση και με τη μέθοδο ανάλυσης κατά pixel, με την τιμή του λόγου FDR να ορίζεται στα 0,53 και την τιμή του p value στα 0,0042. Σε αυτήν την περίπτωση δεν χρησιμοποιήθηκε η μέθοδος ελέγχου Bonferroni, καθώς ο αριθμός των στατιστικών τεστ που λαμβάνουν χώρα ταυτόχρονα είναι εξαιρετικά μεγάλος. Όπως φαίνεται από το 2 ο μέρος της παραπάνω εικόνας, η περιοχή που αναγνωρίζεται από αυτήν την μέθοδο είναι αντίστοιχη με αυτή που αναγνωρίζεται από την μέθοδο DPR. Συνολικά λοιπόν, μπορούμε να πούμε πως η μέθοδος DPR αποδίδει έχοντας εξίσου καλά και ικανοποιητικά αποτελέσματα με την μέθοδο ανάλυσης κατά pixel. Ταυτόχρονα όμως, η χρήση της DRP έχει ως αποτέλεσμα να χρησιμοποιείται σαφώς μικρότερος αριθμός στατιστικών τεστ, για την εξόρυξη των δεδομένων από τις εικόνες και την καταγραφή των περιοχών των εικόνων με τις σημαντικότερες μορφολογικές διαφοροποιήσεις, με την μείωση αυτή να φτάνει ως και το 50%. 64

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

Αλγόριθμοι Εξόρυξης Χωρικών εδομένων

Αλγόριθμοι Εξόρυξης Χωρικών εδομένων Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Αγρονόμων και Τοπογράφων Μηχανικών ιατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών «ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ» Αλγόριθμοι Εξόρυξης Χωρικών εδομένων Εφαρμογή σε Αλγόριθμους Συσταδοποίησης

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Επεκτεταμένο Μοντέλο Οντοτήτων-Συσχετίσεων Αντζουλάτος Γεράσιμος antzoulatos@upatras.gr Τμήμα Εφαρμογών Πληροφορικής στην Διοίκηση και Οικονομία ΤΕΙ Πατρών - Παράρτημα Αμαλιάδας 08 Νοεμβρίου 2012 Περιεχομενα

Διαβάστε περισσότερα

Οι διαθέσιμες μέθοδοι σε γενικές γραμμές είναι:

Οι διαθέσιμες μέθοδοι σε γενικές γραμμές είναι: Χωρική Ανάλυση Ο σκοπός χρήσης των ΣΓΠ δεν είναι μόνο η δημιουργία μίας Β.Δ. για ψηφιακές αναπαραστάσεις των φαινομένων του χώρου, αλλά κυρίως, η βοήθειά του προς την κατεύθυνση της υπόδειξης τρόπων διαχείρισής

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: βελτιστοποίηση χωρίς περιορισμούς Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 7-8 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ ΜΕΡΟΣ ΙΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ 36 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ Πολλές από τις αποφάσεις

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

Μορφές των χωρικών δεδομένων

Μορφές των χωρικών δεδομένων Μορφές των χωρικών δεδομένων Eάν θελήσουμε να αναπαραστήσουμε το περιβάλλον με ακρίβεια, τότε θα χρειαζόταν μιά απείρως μεγάλη και πρακτικά μη πραγματοποιήσιμη βάση δεδομένων. Αυτό οδηγεί στην επιλογή

Διαβάστε περισσότερα

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΧΑΡΤΟΓΡΑΦΗΣΗ ΦΥΣΙΚΩΝ ΠΟΡΩΝ

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΧΑΡΤΟΓΡΑΦΗΣΗ ΦΥΣΙΚΩΝ ΠΟΡΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΧΑΡΤΟΓΡΑΦΗΣΗ ΦΥΣΙΚΩΝ ΠΟΡΩΝ ΜΑΘΗΜΑ 4 Ο Δ Ε Δ Ο Μ Ε Ν Α ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ Δεδομένα ή στοιχεία είναι μη επεξεργασμένα ποσοτικά και ποιοτικά χαρακτηριστικά

Διαβάστε περισσότερα

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΑΛΓΟΡΙΘΜΩΝ και ΔΟΜΗ ΑΚΟΛΟΥΘΙΑΣ 2.1 Να δοθεί ο ορισμός

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420)

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Διάλεξη 8: Σχεδίαση Συστήματος Σχεδίαση Συστήματος 2 Διεργασία μετατροπής του προβλήματος σε λύση. Από το Τί στο Πώς. Σχέδιο: Λεπτομερής περιγραφή της λύσης. Λύση:

Διαβάστε περισσότερα

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΧΑΡΤΟΓΡΑΦΗΣΗ ΦΥΣΙΚΩΝ ΠΟΡΩΝ

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΧΑΡΤΟΓΡΑΦΗΣΗ ΦΥΣΙΚΩΝ ΠΟΡΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΧΑΡΤΟΓΡΑΦΗΣΗ ΦΥΣΙΚΩΝ ΠΟΡΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ Τα Γεωγραφικά Συστήματα Πληροφοριών (G.I.S.), επιτυγχάνουν με τη βοήθεια υπολογιστών την ανάπτυξη και τον

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

ΧΩΡΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ

ΧΩΡΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΧΩΡΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΕΛΕΤΗ ΓΙΑ ΤΗΝ ΕΚΤΙΜΗΣΗ ΤΗΣ ΑΛΗΘΟΦΑΝΕΙΑΣ ΤΩΝ ΧΩΡΙΚΩΝ ΣΧΕΣΕΩΝ (COGNITIVE PLAUSIBILITY ASSESSMENT)... 2 ΣΥΝΔΥΑΣΜΟΣ ΤΟΠΟΛΟΓΙΚΩΝ ΚΑΙ ΚΑΤΕΥΘΥΝΤΗΡΙΩΝ ΣΧΕΣΕΩΝ ΣΕ ΧΩΡΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ...

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για 2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για τον καθορισμό του καλύτερου υποσυνόλου από ένα σύνολο

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 19 Hashing - Κατακερματισμός 1 / 23 Πίνακες απευθείας πρόσβασης (Direct Access Tables) Οι πίνακες απευθείας

Διαβάστε περισσότερα

9. Τοπογραφική σχεδίαση

9. Τοπογραφική σχεδίαση 9. Τοπογραφική σχεδίαση 9.1 Εισαγωγή Το κεφάλαιο αυτό εξετάζει τις παραμέτρους, μεθόδους και τεχνικές της τοπογραφικής σχεδίασης. Η προσέγγιση του κεφαλαίου γίνεται τόσο για την περίπτωση της συμβατικής

Διαβάστε περισσότερα

Πληροφορική 2. Δομές δεδομένων και αρχείων

Πληροφορική 2. Δομές δεδομένων και αρχείων Πληροφορική 2 Δομές δεδομένων και αρχείων 1 2 Δομή Δεδομένων (data structure) Δομή δεδομένων είναι μια συλλογή δεδομένων που έχουν μεταξύ τους μια συγκεκριμένη σχέση Παραδείγματα δομών δεδομένων Πίνακες

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

3η Ενότητα Προβλέψεις

3η Ενότητα Προβλέψεις ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων 3η Ενότητα Προβλέψεις (Μέρος 4 ο ) http://www.fsu.gr

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΕΥΑΓΓΕΛΙΑΣ Π. ΛΟΥΚΟΓΕΩΡΓΑΚΗ Διπλωματούχου Πολιτικού Μηχανικού ΟΛΟΚΛΗΡΩΜΕΝΟ

Διαβάστε περισσότερα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα Δύο κύριοι τρόποι παρουσίασης δεδομένων Παράδειγμα Με πίνακες Με διαγράμματα Ονομαστικά δεδομένα Εδώ τα περιγραφικά μέτρα (μέσος, διάμεσος κλπ ) δεν έχουν νόημα Πήραμε ένα δείγμα από 25 άτομα και τα ρωτήσαμε

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ 3.1 Τυχαίοι αριθμοί Στην προσομοίωση διακριτών γεγονότων γίνεται χρήση ακολουθίας τυχαίων αριθμών στις περιπτώσεις που απαιτείται η δημιουργία στοχαστικών

Διαβάστε περισσότερα

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα Κεφάλαιο 7. 7.1 ομές εδομένων για Γραφικά Υπολογιστών. Οι δομές δεδομένων αποτελούν αντικείμενο της επιστήμης υπολογιστών. Κατά συνέπεια πρέπει να γνωρίζουμε πώς οργανώνονται τα γεωμετρικά δεδομένα, προκειμένου

Διαβάστε περισσότερα

Εισαγωγή στη χρήση των Συστηµάτων Γεωγραφικής Πληροφορίας

Εισαγωγή στη χρήση των Συστηµάτων Γεωγραφικής Πληροφορίας Εισαγωγή στη χρήση των Συστηµάτων Γεωγραφικής Πληροφορίας Ν. Μαµάσης και Α. Κουκουβίνος Αθήνα 2006 Συστήµατα Γεωγραφικής Πληροφορίας Σύστηµα Γεωγραφικής Πληροφορίας (ΣΓΠ, Geographic Information System,

Διαβάστε περισσότερα

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Περιγραφική Ανάλυση ποσοτικών μεταβλητών Περιγραφική Ανάλυση ποσοτικών μεταβλητών Στο data file Worldsales.sav (αρχείο υποθετικών πωλήσεων ανά ήπειρο και προϊόν) Analyze Descriptive Statistics Frequencies Επιλογή μεταβλητής Revenue Πατάμε στο

Διαβάστε περισσότερα

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου ΠΡΟΛΟΓΟΣ Η γραμμική παλινδρόμηση χρησιμοποιείται για την μελέτη των σχέσεων μεταξύ μετρήσιμων μεταβλητών. Γενικότερα, η γραμμική στατιστική συμπερασματολογία αποτελεί ένα ευρύ πεδίο της στατιστικής ανάλυσης

Διαβάστε περισσότερα

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας 1. Ποια είναι τα βασικά πλεονεκτήματα ενός παραδοσιακού σχεσιακού συστήματος βάσεων δεδομένων και

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ-ΕΙΣΑΓΩΓΗ

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ-ΕΙΣΑΓΩΓΗ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ-ΕΙΣΑΓΩΓΗ Χαρτογραφία Η τέχνη ή επιστήμη της δημιουργίας χαρτών Δημιουργεί την ιστορία μιας περιοχής ενδιαφέροντος Αποσαφηνίζει και κάνει πιο ξεκάθαρο κάποιο συγκεκριμένο

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας 1. Πως δομούνται οι ιεραρχικές μνήμες; Αναφέρετε τα διάφορα επίπεδά τους από τον επεξεργαστή μέχρι τη δευτερεύουσα

Διαβάστε περισσότερα

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΕΝΟΤΗΤΑ 1 : ΕΙΣΑΓΩΓΗ Διάλεξη 1: Γενικά για το ΓΣΠ, Ιστορική αναδρομή, Διαχρονική εξέλιξη Διάλεξη 2 : Ανάλυση χώρου (8/4/2013) Διάλεξη 3: Βασικές έννοιες των Γ.Σ.Π.. (8/4/2013)

Διαβάστε περισσότερα

Βραχυπρόθεσμη τοπική μετεωρολογική πρόγνωση με αναζήτηση ανάλογων καταστάσεων

Βραχυπρόθεσμη τοπική μετεωρολογική πρόγνωση με αναζήτηση ανάλογων καταστάσεων ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Βραχυπρόθεσμη τοπική μετεωρολογική πρόγνωση με αναζήτηση ανάλογων καταστάσεων Γεώργιος Θεοδωρόπουλος Επιβλέπων

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ακαδημαϊκό Έτος 2015-16 Παρουσίαση Νο. 1 Εισαγωγή Τι είναι η εικόνα; Οτιδήποτε μπορούμε να δούμε ή να απεικονίσουμε Π.χ. Μια εικόνα τοπίου αλλά και η απεικόνιση

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

Χειρισμός Ανάλυση Δεδομένων

Χειρισμός Ανάλυση Δεδομένων Χειρισμός Ανάλυση Δεδομένων Ταξινόμηση διαδικασιών Ανάλυση διανυσματικών δεδομένων Επιλογή Ποσοτικές διαδικασίες Κατηγοριοποίηση Ανάλυση εγγύτητας Επικάλυψη Διαχείριση Ανάλυση ορίων Ανάλυση στοιχείων ράστερ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Εφαρµογές γεωγραφικών επεξεργασιών

Εφαρµογές γεωγραφικών επεξεργασιών ΕΞΑΡΧΟΥ ΝΙΚΟΛΟΠΟΥΛΟΣ ΜΠΕΝΣΑΣΣΩΝ ΣΥΜΒΟΥΛΟΙ ΜΗΧΑΝΙΚΟΙ Ε.Π.Ε. ΛΑΖΑΡΙ ΗΣ & ΣΥΝΕΡΓΑΤΕΣ ΑΝΩΝΥΜΗ ΤΕΧΝΙΚΗ ΕΤΑΙΡΕΙΑ ΜΕΛΕΤΩΝ Α.Ε. ΓΕΩΘΕΣΙΑ ΣΥΜΒΟΥΛΟΙ ΑΝΑΠΤΥΞΗΣ Ε.Π.Ε. Εφαρµογές γεωγραφικών επεξεργασιών Α. Κουκουβίνος

Διαβάστε περισσότερα

Γεώργιος Φίλιππας 23/8/2015

Γεώργιος Φίλιππας 23/8/2015 MACROWEB Προβλήματα Γεώργιος Φίλιππας 23/8/2015 Παραδείγματα Προβλημάτων. Πως ορίζεται η έννοια πρόβλημα; Από ποιους παράγοντες εξαρτάται η κατανόηση ενός προβλήματος; Τι εννοούμε λέγοντας χώρο ενός προβλήματος;

Διαβάστε περισσότερα

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme Επιλογή δείγματος Κατερίνα Δημάκη Αν. Καθηγήτρια Τμήμα Στατιστικής Οικονομικό Πανεπιστήμιο Αθηνών 1 Τρόποι Συλλογής Δεδομένων Απογραφική

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ 3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ Πρόβλημα: Ένας ραδιοφωνικός σταθμός ενδιαφέρεται να κάνει μια ανάλυση για τους πελάτες του που διαφημίζονται σ αυτόν για να εξετάσει την ποσοστιαία μεταβολή των πωλήσεων

Διαβάστε περισσότερα

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων Γιάννης Λιαπέρδος TEI Πελοποννήσου Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ Η έννοια του συνδυαστικού

Διαβάστε περισσότερα

Ενδεικτικές Ερωτήσεις Θεωρίας

Ενδεικτικές Ερωτήσεις Θεωρίας Ενδεικτικές Ερωτήσεις Θεωρίας Κεφάλαιο 2 1. Τι καλούμε αλγόριθμο; 2. Ποια κριτήρια πρέπει οπωσδήποτε να ικανοποιεί ένας αλγόριθμος; 3. Πώς ονομάζεται μια διαδικασία που δεν περατώνεται μετά από συγκεκριμένο

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση Διαφάνεια 16-1

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση Διαφάνεια 16-1 Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση Διαφάνεια 16-1 Κεφάλαιο 20 Φυσικός Σχεδιασμός Βάσεων Δεδομένων και Ρύθμιση Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση Χειμερινό Εξάμηνο 2013-2014 Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση 5 η Παρουσίαση : Ψηφιακή Επεξεργασία Εικόνας Διδάσκων: Γιάννης Ντόκας Σύνθεση Χρωμάτων Αφαιρετική Παραγωγή Χρώματος Χρωματικά

Διαβάστε περισσότερα

Ανάλυση και Σχεδιασμός Μεταφορών Ι Δειγματοληψία - Μέθοδοι συλλογής στοιχείων

Ανάλυση και Σχεδιασμός Μεταφορών Ι Δειγματοληψία - Μέθοδοι συλλογής στοιχείων Δειγματοληψία - Μέθοδοι συλλογής στοιχείων Παναγιώτης Παπαντωνίου Δρ. Πολιτικός Μηχανικός, Συγκοινωνιολόγος ppapant@upatras.gr Πάτρα, 2017 Στόχοι Βασικές έννοιες στατιστικής Μέθοδοι συλλογής στοιχείων

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή Oι οπτικές επιδράσεις, που μπορεί να προκαλέσει μια εικόνα στους χρήστες, αποτελούν ένα από τα σπουδαιότερα αποτελέσματα των λειτουργιών γραφικών με Η/Υ. Τον όρο της οπτικοποίησης

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ Τομέας Έρευνας ΚΕΘΕΑ Η ποιοτική έρευνα επιχειρεί να περιγράψει, αναλύσει, κατανοήσει, ερμηνεύσει κοινωνικά φαινόμενα, έννοιες ή συμπεριφορές επιχειρεί να απαντήσει το γιατί

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Γεράσιμος Παπαναστασάτος, Ph.D. Αθήνα, Σεπτέμβριος 2016

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Γεράσιμος Παπαναστασάτος, Ph.D. Αθήνα, Σεπτέμβριος 2016 ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ Γεράσιμος Παπαναστασάτος, Ph.D. Αθήνα, Σεπτέμβριος 2016 ΚΕΘΕΑ Τομέας Έρευνας Η ποιοτική έρευνα επιχειρεί να περιγράψει, αναλύσει, κατανοήσει, ερμηνεύσει κοινωνικά φαινόμενα,

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ Γεράσιμος Παπαναστασάτος, Ph.D. Αθήνα, Σεπτέμβριος 2016 ΚΕΘΕΑ Τομέας Έρευνας Η ποιοτική έρευνα επιχειρεί να περιγράψει, αναλύσει, κατανοήσει, ερμηνεύσει κοινωνικά φαινόμενα,

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ Συνδυασμένη χρήση μοντέλων προσομοίωσης βελτιστοποίησης. Η μέθοδος του μητρώου μοναδιαίας απόκρισης Νικόλαος

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΘΕΜΑ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ ΜΕ ΤΗ ΧΡΗΣΗ WEKA ΛΑΖΑΡΙΔΟΥ ΠΑΡΘΕΝΑ ΜΕΤΑΞΑ ΟΛΓΑ ΕΠΙΒΛΕΠΩΝ

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 1 Βάση Δεδομένων: Με το όρο Βάση Δεδομένων εννοούμε ένα σύνολο δεδομένων που είναι οργανωμένο

Διαβάστε περισσότερα

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) ρ. ΧΑΛΚΙΑΣ ΧΡΙΣΤΟΣ xalkias@hua.gr Χ. Χαλκιάς - Εισαγωγή στα GIS 1 Ορισµοί ΓΠΣ Ένα γεωγραφικό πληροφοριακό σύστηµα Geographic Information

Διαβάστε περισσότερα