ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. αυτών σε επιχειρηματικά δεδομένα» Μαρία Κατσούδα Α.Μ.: Επιβλέπων καθηγητής: Βουτσινάς Βασίλειος

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. αυτών σε επιχειρηματικά δεδομένα» Μαρία Κατσούδα Α.Μ.: Επιβλέπων καθηγητής: Βουτσινάς Βασίλειος"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ (M.B.A.)» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Data mining: Αλγόριθμοι ανίχνευσης ακραίων τιμών και εφαρμογή αυτών σε επιχειρηματικά δεδομένα» Μαρία Κατσούδα Α.Μ.: Επιβλέπων καθηγητής: Βουτσινάς Βασίλειος Πάτρα 2018

2 ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή της διπλωματικής μου εργασίας κ. Βασίλειο Βουτσινά για την ευκαιρία που μου έδωσε να ασχοληθώ με ένα τόσο ενδιαφέρον και ουσιαστικό θέμα καθώς και για τις ουσιώδεις συμβουλές του. Βεβαίως επιθυμώ να ευχαριστήσω θερμά την οικογένειά μου και τους φίλους μου, που στάθηκαν δίπλα μου όλο αυτό το διάστημα και μου έδωσαν κουράγιο σε κάθε δυσκολία που αντιμετώπισα. 2

3 ΠΕΡΙΛΗΨΗ Στην εξόρυξη δεδομένων (Data Mining), η ανίχνευση ακραίων τιμών είναι η ταυτοποίηση αντικειμένων, συμβάντων ή παρατηρήσεων που δεν συμμορφώνονται σε ένα αναμενόμενο πρότυπο σε σχέση με το σύνολο των δεδομένων. Στο σύγχρονο, συχνά μεταβαλλόμενο περιβάλλον, είναι επιτακτική η ανάγκη για τις επιχειρήσεις να αναλύουν τα πολλαπλά και σύνθετα δεδομένα τους και να αναζητούν ακραίες τιμές που μπορούν να αποκαλύψουν σημαντικές πληροφορίες για τη λειτουργία μιας επιχείρησης, οδηγώντας σε επίλυση δυσλειτουργιών, σε εξοικονόμηση χρημάτων ή στη δημιουργία νέων επιχειρηματικών ευκαιριών. Στη παρούσα εργασία θα αναλύσουμε τα είδη των ακραίων τιμών, αλλά και τους τρόπους με τους οποίους λειτουργεί μία τεχνική ανίχνευσης ακραίων τιμών. Πολλές είναι οι διάφορες τεχνικές που έχουν προταθεί στη διεθνή βιβλιογραφία. Θα μελετήσουμε τις πιο δημοφιλείς που χρησιμοποιούνται σε επιχειρηματικά δεδομένα, οι οποίες μπορούν να εξάγουν σημαντική γνώση αλλά και να κάνουν προβλέψεις για τα δεδομένα. Η εφαρμογή διαδικασιών ανίχνευσης ακραίων τιμών στο χώρο των επιχειρήσεων κρίνεται απαραίτητη στο έντονα ανταγωνιστικό περιβάλλον που δρουν οι περισσότερες. Τα οφέλη είναι πολλά και στόχος η εξέλιξη και η επιτυχημένη πορεία μιας επιχείρησης. Επιπλέον, θα γίνει εφαρμογή της ανίχνευσης ακραίων τιμών σε επιχειρηματικά δεδομένα με στόχο την εξαγωγή συμπερασμάτων. 3

4 ΕΝΕΡΓΕΙΕΣ ΠΟΥ ΕΓΙΝΑΝ ΣΤΑ ΠΛΑΙΣΙΑ ΤΗΣ ΕΡΓΑΣΙΑΣ Στην παρούσα εργασία γίνεται μια προσπάθεια να κατανοήσουμε τι είναι οι ακραίες τιμές και τους λόγους στους οποίους οφείλονται. Γίνεται ανάλυση των διαφόρων ειδών τους που μπορεί να συναντήσουμε με παραδείγματα από την καθημερινότητά μας. Έπειτα, μέσω έρευνας που διεξήχθη κυρίως στην ξένη βιβλιογραφία και αρθρογραφία για τις διάφορες μεθόδους ανίχνευσης ανωμαλιών, παρουσιάζονται εκείνες με τις περισσότερες εφαρμογές όπως είναι της ομαδοποίησης ή του κοντινότερου γείτονα. Έπειτα από μελέτη πάνω σε διάφορα προγράμματα που χρησιμοποιούνται από τις επιχειρήσεις για την ανίχνευση ακραίων τιμών και θεωρώντας πως το Rapid Miner ικανοποιεί πλήρως το σκοπό της συγκεκριμένης έρευνας επιλέχθηκε για την ανάλυση των επιχειρηματικών δεδομένων της παρούσας εργασίας. Με τη βοήθεια του διαδικτύου, βρέθηκαν αρκετά σύνολα επιχειρηματικών ή όχι δεδομένων, τα οποία παρέχονται δωρεάν για ανάλυση και από τα οποία επιλέχθηκε εκείνο που θεωρήθηκε πιο κοντά στο συγκεκριμένο αντικείμενο έρευνας. Εκτός του διαδικτύου, κρίσιμο ρόλο στην εύρεση επιχειρηματικών δεδομένων είχε το εργαστήριο του τμήματος Διοίκησης Επιχειρήσεων, μέσω του οποίου πάρθηκαν δεδομένα ισολογισμών προερχόμενα από την Icap Group, των τελευταίων δέκα ετών για μεγάλες και γνωστές επιχειρήσεις στην Ελλάδα τα οποία επίσης χρησιμοποιήσαμε στην έρευνά μας για τις ακραίες τιμές και την σημασία που μπορούν αυτές να έχουν στη λειτουργία μιας επιχείρησης. 4

5 Πίνακας περιεχομένων ΕΥΧΑΡΙΣΤΙΕΣ... 2 ΠΕΡΙΛΗΨΗ... 3 ΕΝΕΡΓΕΙΕΣ ΠΟΥ ΕΓΙΝΑΝ ΣΤΑ ΠΛΑΙΣΙΑ ΤΗΣ ΕΡΓΑΣΙΑΣ... 4 ΕΙΣΑΓΩΓΗ... 7 ΚΕΦΑΛΑΙΟ 1- ΑΛΓΟΡΙΘΜΟΙ ΕΝΤΟΠΙΣΜΟΥ ΑΚΡΑΙΩΝ ΤΙΜΩΝ Τι είναι ακραίες τιμές; Είδη ακραίων τιμών Τρόποι λειτουργίας τεχνικών ανίχνευσης ακραίων τιμών Τεχνικές ανίχνευσης ακραίων τιμών Τεχνικές βασισμένες στην ταξινόμηση (classification) Τεχνικές βασισμένες στην εγγύτητα (proximity) ή στον κοντινότερο γείτονα (nearest neighbor) Τεχνικές βασισμένες στην ομαδοποίηση (clustering) Τεχνικές ανίχνευσης ακραίων τιμών βασισμένες στη στατιστική Χειρισμός ακραίων τιμών που σχετίζονται με το περιβάλλον (contextual anomalies) Χειρισμός συλλογικών ακραίων τιμών (collective anomalies) ΚΕΦΑΛΑΙΟ 2-ΑΝΩΜΑΛΙΕΣ ΣΕ ΕΠΙΧΕΙΡΗΜΑΤΙΚΑ ΔΕΔΟΜΕΝΑ Ανίχνευση ακραίων τιμών στις επιχειρήσεις Σχεδιαστικές αρχές για ένα σύστημα ανίχνευσης ακραίων τιμών στις επιχειρήσεις Προκλήσεις για τη διαδικασία ανίχνευσης ακραίων τιμών σε μια επιχείρηση ΚΕΦΑΛΑΙΟ 3-ΛΟΓΙΣΜΙΚΟ ΑΝΙΧΝΕΥΣΗΣ ΑΝΩΜΑΛΙΩΝ Rapid Miner-γενικά Ανίχνευση ακραίων τιμών στο Rapid miner Οι 4 βασικοί αλγόριθμοι για την ανίχνευση ακραίων τιμών στο Rapid miner Ανίχνευση ακραίων τιμών σύμφωνα με την απόσταση Ανίχνευση ακραίων τιμών σύμφωνα με την πυκνότητα Ανίχνευση ακραίων τιμών σύμφωνα με τη μέθοδο LOF (Local Outlier Factors) Ανίχνευση ακραίων τιμών σύμφωνα με τη μέθοδο COF (Class Outlier Factor) Anomaly detection: ειδικοί αλγόριθμοι Histogram-based Outlier Score (HBOS)

6 ΚΕΦΑΛΑΙΟ 4: ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ Εφαρμογή Rapid miner σε επιχειρηματικά δεδομένα Δεδομένα ο σύνολο δεδομένων: η χρήση του Facebook στην Ισλανδία ο σύνολο δεδομένων: στοιχεία της Icap Group για την εταιρεία Cosmote Κινητές Τηλεπικοινωνίες Α.Ε. για τα έτη ο σύνολο δεδομένων: στοιχεία της Icap Group για την εταιρεία Wind Ελλάς Τηλεπικοινωνίες Α.Ε.Β.Ε. για τα έτη ο σύνολο δεδομένων: στοιχεία της Icap Group για την εταιρεία Vodafone- Παναφόν Α.Ε.Ε.Τ για τα έτη ΕΠΙΛΟΓΟΣ Βιβλιογραφία

7 ΕΙΣΑΓΩΓΗ Η ανίχνευση ανωμαλιών (anomaly detection) αναφέρεται στο πρόβλημα της εύρεσης προτύπων σε ένα σύνολο δεδομένων που δεν συμφωνούν με την προσδοκώμενη συμπεριφορά. Η ανίχνευση ακραίων τιμών έχει ποικίλες εφαρμογές όπως η ανίχνευση απάτης στις πιστωτικές κάρτες, η ανίχνευση απάτης σε συστήματα κρίσιμα για την ασφάλεια, στον τομέα των ασφαλειών και της ιατρικής περίθαλψης ακόμη και σε στρατιωτικά συστήματα για την ανίχνευση εχθρικών δραστηριοτήτων. Η σημαντικότητα της ανίχνευσης ακραίων τιμών προκύπτει από το γεγονός πως οι ακραίες τιμές στα δεδομένα μεταφράζονται σε σημαντικές πληροφορίες σε ένα ευρύ φάσμα τομέων εφαρμογής. Για παράδειγμα, όσον αφορά τις πιστωτικές κάρτες, ακραίες τιμές στα δεδομένα κίνησης και χρήσης θα μπορούσαν να μεταφραστούν σε κλέψιμο της κάρτας ή της ταυτότητας του χρήστη. Οι πρώτες προσπάθειες για ανίχνευση ακραίων τιμών ξεκινούν από το 1970, όπου οι ερευνητές προσπάθησαν να διώξουν τις λάθος μετρήσεις από τα δεδομένα τους προκειμένου να διασφαλίσουν πως τα δεδομένα ταιριάζουν καλύτερα με τα προτεινόμενα μοντέλα ( Hofmann, et al., 2014 p. 410). Η ανίχνευση ανωμαλιών ή ακραίων τιμών έχει ερευνηθεί στον τομέα της στατιστικής από τις αρχές του 19 ου αιώνα. Κατά τη διάρκεια των χρόνων, μία μεγάλη ποικιλία τεχνικών έχει αναπτυχθεί σε διάφορους ερευνητικούς τομείς. Πολλές από αυτές έχουν δημιουργηθεί για πιο συγκεκριμένες εφαρμογές ενώ άλλες είναι πιο γενικές. Υπάρχουν επίσης περιπτώσεις όπου παρόλο που μία τεχνική έχει αναπτυχθεί για ένα συγκεκριμένο πρόβλημα εφαρμόζεται ακολούθως σε τομείς που δεν προοριζόταν αρχικά. 7

8 ΚΕΦΑΛΑΙΟ 1- ΑΛΓΟΡΙΘΜΟΙ ΕΝΤΟΠΙΣΜΟΥ ΑΚΡΑΙΩΝ ΤΙΜΩΝ 1.1 Τι είναι ακραίες τιμές; Ακραίες τιμές είναι πρότυπα στα δεδομένα, τα οποία δεν συμμορφώνονται με μια καλά ορισμένη έννοια της φυσιολογικής συμπεριφοράς και συνήθως φαίνονται να παράγονται από ένα διαφορετικό μηχανισμό από τα υπόλοιπα δεδομένα. (Han, et al., 2011 p. 544) Ο προσδιορισμός μια ακραίας τιμής αποτελεί μια πρόκληση και για τους ανθρώπους αλλά και για τους υπολογιστές. Οι ακραίες τιμές μπορούν να προκληθούν στα δεδομένα από ποικίλους λόγους, όπως είναι η κακόβουλη δράση, η απάτη, η εισβολή από χάκερ, ακόμη και τρομοκρατικές δραστηριότητες ή η ίδια η φύση των δεδομένων. Όλοι οι λόγοι έχουν κοινά χαρακτηριστικά που χρήζουν περαιτέρω ανάλυσης. 1.2 Είδη ακραίων τιμών Σημειακές Ακραίες τιμές (point anomalies) : Συναντάμε αυτές τις ακραίες τιμές αν ένα αντικείμενο στα δεδομένα (ένα σημείο) δείχνει μια διαφορετική συμπεριφορά από τα υπόλοιπα δεδομένα. Παρόλο που είναι το πιο εύκολα ανιχνεύσιμο είδος ακραίας τιμής, ένα σημαντικό πρόβλημα είναι το κατάλληλο μέτρο μέτρησης της απόκλισης του ενός σημείου από τα υπόλοιπα. Στο σχήμα 1, βλέπουμε ένα παράδειγμα σημειακών ακραίων τιμών, όπου φαίνεται ξεκάθαρα πως τα δύο σημεία που είναι σε κύκλο και έχουν ονομαστεί v1, είναι αρκετά πιο μακριά από το σύνολο σημείων v2 και χαρακτηρίζονται ως ακραίες τιμές. (Kaur, et al., 2015) Ως ένα παράδειγμα από την πραγματική ζωή ας αναφερθούμε στις πιστωτικές κάρτες. Υποθέτουμε ότι το 8

9 σύνολο των δεδομένων αναφέρεται στις συναλλαγές ενός ιδιώτη και πιο συγκεκριμένα στα ποσά που ξοδεύονται ανά συναλλαγή. Μία συναλλαγή στην οποία το ποσό που διατέθηκε είναι πολύ μεγαλύτερο από το μέσο κανονικό που ξοδεύει ο συγκεκριμένος ιδιώτης, χαρακτηρίζεται ως σημειακή ακραία τιμή. Σχήμα 1: σημειακές ακραίες τιμές Ακραίες τιμές που σχετίζονται με το περιβάλλον (contextual anomalies) : Αυτό το είδος, το συναντάμε αν ένα σημείο των δεδομένων αποκλίνει σημαντικά από τα υπόλοιπα σε ένα συγκεκριμένο περιβάλλον, και μόνο σε αυτό. Η έννοια του περιβάλλοντος προκύπτει από την δομή των δεδομένων και είναι μέρος της διατύπωσης του προβλήματος. Κάθε δεδομένο ορίζεται με βάση δύο χαρακτηριστικά. Α) τα περιβαλλοντικά χαρακτηριστικά, δηλαδή αυτά που καθορίζουν το περιβάλλον και Β) τα χαρακτηριστικά συμπεριφοράς, δηλαδή εκείνα που καθορίζουν τα σημεία που βρίσκονται εκτός του συγκεκριμένου περιβάλλοντος. (Chandola, et al., 2007 p. 8) Ας δώσουμε ένα παράδειγμα μιας τέτοιας ακραίας τιμής που αναφέρεται στη θερμοκρασία που επικρατεί σε ένα μέρος μία συγκεκριμένη χρονική στιγμή. Δηλαδή αν η θερμοκρασία είναι 30 ο C, η κανονικότητά της ή όχι εξαρτάται από τη τοποθεσία και τον χρόνο. Αν πρόκειται για χειμώνα στην Αθήνα είναι ακραία τιμή, αλλά αν πρόκειται για καλοκαίρι στην Αθήνα είναι απόλυτα φυσιολογική. Ως 9

10 περιβαλλοντικά χαρακτηριστικά, μπορούμε να θεωρήσουμε το χρόνο και την τοποθεσία ενώ ως χαρακτηριστικό συμπεριφοράς την θερμοκρασία. Σχήμα 2: contextual anomalies Συλλογικές ακραίες τιμές (collective anomalies): Αυτό το είδος ακραίας τιμής αναφέρεται σε ένα σύνολο από δεδομένα, τα οποία ως ομάδα, δείχνουν μια διαφορετική συμπεριφορά από το γενικό σύνολο των δεδομένων, ενώ σαν ανεξάρτητες μονάδες μπορεί να μην αποτελούν ακραίες τιμές. Στο σχήμα 3, βλέπουμε ένα παράδειγμα συλλογικής ακραίας τιμής. Στο καρδιογράφημα, ενώ οι τιμές που είναι με κόκκινο χρώμα, μόνες τους δεν αποτελούν ακραία τιμή, σαν σύνολο τιμών διαφέρουν από το συνηθισμένο και χαρακτηρίζονται ως μη κανονικές. (Chandola, et al., 2007 p. 9) 10

11 Σχήμα 3: Collective anomaly corresponding to an Atrial Premature Contraction in a human electrocardiogram output. 1.3 Τρόποι λειτουργίας τεχνικών ανίχνευσης ακραίων τιμών 1) Επιβλεπόμενες (supervised) Επιβλεπόμενα προβλήματα είναι εκείνα τα οποία ο υπολογιστής δε λύνει εξ ολοκλήρου μόνος του. Δηλαδή δίνεται στον υπολογιστή ένα σύνολο δεδομένων, και υπάρχει ο ανθρώπινος παράγοντας, ο οποίος λέει στον υπολογιστή πως να ταξινομήσει αυτά τα δεδομένα. Θα πρέπει η συμπεριφορά των δεδομένων, είτε κανονική είτε όχι, να είναι προκαθορισμένη. Αυτό μπορεί να γίνει με δύο τρόπους, είτε να πούμε τι είναι κανονικό και οτιδήποτε δεν συμβαδίζει με αυτό να θεωρείται ακραία τιμή, είτε να καθορίσουμε τι είναι μη κανονικό και οτιδήποτε είναι αντίθετο με αυτό να θεωρείται φυσιολογικό. Αυτή η τεχνική προϋποθέτει ο ανθρώπινος παράγοντας να γνωρίζει όλες τις πιθανές ακραίες τιμές ή ότι μπορεί να θεωρηθεί φυσιολογικό στα δεδομένα κάτι που δεν είναι τόσο εφικτό από τη στιγμή που στόχος είναι ο υπολογιστής να έχει τη δυνατότητα να ανιχνεύσει μόνος τις ακραίες τιμές. Θεωρητικά, αυτό το είδος μεθοδολογίας παρέχει ανίχνευση ακραίων τιμών σε καλύτερο βαθμό καθώς υπάρχει πρόσβαση σε περισσότερες πληροφορίες, το να κρατάμε ακριβής ετικέτες για τα δεδομένα όμως αποτελεί μια μεγάλη πρόκληση που απορρίπτει αυτή τη θεωρία. (Omar, και συν., 2013) 2) Μη επιβλεπόμενες (unsupervised) 11

12 Στις μη επιβλεπόμενες τεχνικές, δεν υπάρχει καμία προ-ταξινόμηση από τον ανθρώπινο παράγοντα, και ο υπολογιστής πρέπει να ανιχνεύσει μόνος του που υπάρχουν ακραίες τιμές, αν φυσικά υπάρχουν. Σε αυτές τις μεθόδους γίνεται η υπόθεση πως τα δεδομένα που έχουν κανονική συμπεριφορά ακολουθούν συχνά ένα πρότυπο ενώ οι ακραίες τιμές δεν συμπεριφέρονται με αυτό τον τρόπο. Αυτή η υπόθεση όμως δεν ευσταθεί πάντα καθώς υπάρχουν περιπτώσεις όπου η ομοιότητα δεν αρκεί για να καθορίσει την κανονικότητα ή όχι κάποιων δεδομένων όπως στην περίπτωση των συλλογικών ακραίων τιμών. Γι αυτό αυτή η τεχνική είναι συχνά αναποτελεσματική και οδηγεί σε λανθασμένες ακραίες τιμές. 3) Ημί-επιβλεπόμενες (semi-supervised) Αυτού του είδους η προσέγγιση είναι κάτι ανάμεσα στις δύο προηγούμενες. Χρησιμοποιείται όταν από το σύνολο των δεδομένων, είναι λίγα εκείνα που έχουν προ-χαρακτηριστεί ως κανονικά. Με βάση αυτά, προσπαθούμε να χαρακτηρίσουμε αυτά που απέμειναν. Αυτή η προσέγγιση, ουσιαστικά, καθορίζει ένα σύνορο της κανονικότητας, όπου ένα δεδομένο λέγεται ακραία τιμή αν βρίσκεται έξω από αυτό και φυσιολογικό αν είναι εντός αυτού. (anodot, 2017 p. 5) 1.4 Τεχνικές ανίχνευσης ακραίων τιμών Τεχνικές βασισμένες στην ταξινόμηση (classification) Η ταξινόμηση είναι μία μορφή ανάλυσης δεδομένων η οποία χρησιμοποιείται για να μάθει ένα μοντέλο από ένα σύνολο προ-χαρακτηρισμένων δεδομένων κι έπειτα να ταξινομήσει κάθε σημείο σε μία τάξη με βάση το μοντέλο εκμάθησης. Τέτοια μοντέλα, που καλούνται ταξινομητές, προβλέπουν κατηγορικές «ετικέτες» κλάσεων. Για παράδειγμα, μπορούμε να δημιουργήσουμε ένα μοντέλο ταξινόμησης προκειμένου να κατηγοριοποιήσουμε τις αιτήσεις τραπεζικών δανείων είτε ως ασφαλή είτε ως ριψοκίνδυνες. Αυτή η ανάλυση μπορεί να μας βοηθήσει, παρέχοντάς μας μία καλύτερη κατανόηση των δεδομένων. Η ταξινόμηση καθορίζεται ως μία επιβλεπόμενη μέθοδος με δύο βήματα, ένα βήμα εκμάθησης κι ένα βήμα ταξινόμησης. Στο στάδιο εκμάθησης, ένα σύνολο από 12

13 χαρακτηρισμένα δεδομένα χρησιμοποιείται για να κατασκευάσουμε ένα μοντέλο ταξινόμησης ενώ στο δεύτερο στάδιο, εμείς καθορίζουμε αν η ακρίβεια του μοντέλου είναι αποδεκτή, και εφόσον είναι, χρησιμοποιούμε το μοντέλο για να ταξινομήσουμε νέα δεδομένα. Για τον καθορισμό των ακραίων τιμών, τα δεδομένα που χρησιμοποιούνται για εκμάθηση χαρακτηρίζονται ως κανονικά και ανώμαλα. Πολυάριθμοι ταξινομητές είναι διαθέσιμοι, οι οποίοι μπορούν να χρησιμοποιηθούν για την ανίχνευση των ακραίων τιμών. Βασισμένες στις ετικέτες που είναι διαθέσιμες κατά τη φάση της εκμάθησης, οι προσεγγίσεις βασισμένες στην ταξινόμηση μπορούν να χρησιμοποιήσουν είτε ένα μοντέλο μίας τάξης (one-class) είτε ένα μοντέλο πολλαπλών τάξεων (multiclass). Στο μοντέλο μίας τάξης, καθορίζεται μία μοναδική χαρακτηρισμένη τάξη, δηλαδή κατασκευάζεται μία τάξη μέσα στην οποία όλα τα δεδομένα που υπάρχουν θεωρούνται κανονικά, ενώ τα άλλα είναι ακραίες τιμές. Αυτού του είδους οι τεχνικές χρησιμοποιούν ένα διακριτό σύνορο γύρω από τα κανονικά δεδομένα, όπως φαίνεται και στο σχήμα 4b. Τα μοντέλα μίας τάξης μας βοηθούν να ανιχνεύσουμε νέες ακραίες τιμές οι οποίες είναι μακριά από τις ήδη υπάρχουσες σε ένα συγκεκριμένο σύνολο δεδομένων. Μερικά παραδείγματα αλγορίθμων που έχουν αναπτυχθεί είναι τα one-class SVM, Gaussian model description (GAUSSD), Principal component analysis description (PCAD). Το μοντέλο πολλαπλών τάξεων χρησιμοποιείται όταν τα δεδομένα ανήκουν σε πολλές τάξεις. Σε αυτές τις τεχνικές γίνεται διάκριση μεταξύ των κανονικών τάξεων και των υπολοίπων, όπως φαίνεται στο σχήμα 4a. Ένα δεδομένο θεωρείται ακραία τιμή αν δεν έχει ταξινομηθεί σε καμία τάξη κανονικών δεδομένων. Σχήμα 4: Using classification for anomaly detection. 13

14 Πλεονεκτήματα μεθόδων ταξινόμησης Α) οι τεχνικές βασισμένες στην ταξινόμηση, ειδικά οι πολλαπλής τάξης, μπορούν να χρησιμοποιήσουν ισχυρούς αλγόριθμους, οι οποίοι έχουν την ικανότητα να διακρίνουν μεταξύ των περιπτώσεων που ανήκουν σε διαφορετικές τάξεις. Β) η φάση εκμάθησης των τεχνικών ταξινόμησης είναι αρκετά γρήγορη καθώς κάθε περίπτωση συγκρίνεται με το ήδη υπολογισμένο μοντέλο. Μειονεκτήματα Α) τα μοντέλα πολλαπλών-τάξεων βασίζονται στη διαθεσιμότητα χαρακτηρισμών ακρίβειας για τις ποικίλες κανονικές τάξεις, κάτι που δεν είναι πάντα εφικτό Β) οι τεχνικές ταξινόμησης, αποδίδουν έναν χαρακτηρισμό σε κάθε δοκιμαστική περίπτωση, κάτι που μπορεί να γίνει μειονέκτημα όταν είναι επιθυμητή μια βαθμολογία ακραίας τιμής. Για την αντιμετώπιση αυτού του θέματος, μπορούν να χρησιμοποιηθούν ορισμένες τεχνικές ταξινόμησης που επιτυγχάνουν μια πιθανολογική βαθμολογία πρόβλεψης στο τέλος της ταξινόμησης. (Chandola, et al., 2007) Τεχνικές βασισμένες στην εγγύτητα (proximity) ή στον κοντινότερο γείτονα (nearest neighbor) Αυτού του είδους οι τεχνικές βασίζονται στην υπόθεση πως τα κανονικά συμβάντα υπάρχουν στις πυκνές γειτονιές, ενώ οι ακραίες τιμές συμβαίνουν μακριά από τους πιο κοντινούς τους γείτονες. Ένα απλό παράδειγμα αυτού του κανόνα αποτελεί η απόσταση μεταξύ σημείων, δηλαδή το πιο απομακρυσμένο σημείο από τους γείτονές του είναι πιο πιθανό να είναι ακραία τιμή. (Kalinichenko, και συν., 2014) Οι τεχνικές εγγύτητας απαιτούν ένα μέτρο απόστασης ή ομοιότητας που να καθορίζει την απόσταση μεταξύ δύο δεδομένων. Διάφοροι μέθοδοι του τύπου των «Κ-κοντινότερων γειτόνων» μπορούν να χρησιμοποιηθούν, οι οποίοι κάνουν χρήση ποικίλων μέτρων, όπως η απόσταση, η πυκνότητα ή άλλα παρόμοια μέτρα για να καθορίσουν την εγγύτητα μεταξύ των κόμβων. Οι τεχνικές βασισμένες στην εγγύτητα χωρίζονται σε δύο κατηγορίες. 14

15 Στην πρώτη κατηγορία βρίσκονται εκείνες που βασίζονται στην απόσταση, οι οποίες είναι κυρίως σημειακές ακραίες τιμές και η ανίχνευσή τους γίνεται ως επί τω πλείστων με τη χρήση της ευκλείδειας απόστασης. Η δεύτερη κατηγορία αποτελείται από εκείνες που βασίζονται στη σχετική πυκνότητα, οι οποίες υπολογίζουν την πυκνότητα της γειτονιάς για κάθε σημείο. Μία περίπτωση που είναι κοντά σε γειτονιά χαμηλής πυκνότητας χαρακτηρίζεται ως ακραία τιμή ενώ μία που είναι κοντά σε πυκνή γειτονιά θεωρείται φυσιολογική. Γνωστοί αλγόριθμοι βασισμένοι στην εγγύτητα ή στον κοντινότερο γείτονα είναι οι: k-nn Global Anomaly Score, Local Outlier Factor (LOF) και Connectivity-Based Outlier Factor (COF). Πλεονεκτήματα των τεχνικών εγγύτητας Α) είναι από τη φύση τους μη επιβλεπόμενες και δεν κάνουν υποθέσεις που αφορούν τη γενική κατανομή των δεδομένων, δηλαδή οδηγούνται καθαρά από τα δεδομένα. Β) οι ημι-επιβλεπόμενες τεχνικές λειτουργούν καλύτερα από τις επιβλεπόμενες στην περίπτωση χαμένων ακραίων τιμών, καθώς η πιθανότητα μιας ακραίας τιμής να σχηματίσει μια στενή γειτονιά στα δεδομένα εκμάθησης είναι πολύ χαμηλή. Γ) η προσαρμογή αυτών των τεχνικών σε ένα διαφορετικό τύπο δεδομένων είναι απλή και απαιτεί κυρίως τον καθορισμό ενός κατάλληλου μέτρου απόστασης για τα δεδομένα. Μειονεκτήματα Α) για τις μη επιβλεπόμενες τεχνικές, αν τα δεδομένα κανονικά δεν έχουν αρκετά στενούς γείτονες, ή αν έχουν ακραίες τιμές που έχουν στενούς γείτονες, τότε η τεχνικές αποτυγχάνουν να τα χαρακτηρίσουν σωστά, οδηγώντας μας σε λάθος ή χαμένες ακραίες τιμές. 15

16 Β) η υπολογιστική πολυπλοκότητα αποτελεί επίσης μια πρόκληση καθώς περιλαμβάνει τον υπολογισμό της απόστασης ενός στοιχείου από όλα τα άλλα προκειμένου να βρούμε τους κοντινότερους γείτονες. (Chandola, et al., 2007) Τεχνικές βασισμένες στην ομαδοποίηση (clustering) Η ομαδοποίηση χρησιμοποιείται για να βάλει όμοιες περιπτώσεις δεδομένων σε ομάδες. Η ομαδοποίηση είναι πρωταρχικά μία μη- επιβλεπόμενη τεχνική, ωστόσο αργότερα αναπτύχθηκε και η ημι-επιβλεπόμενη ομαδοποίηση. Παρόλο που η ομαδοποίηση και η ανίχνευση ακραίων τιμών δείχνουν να είναι θεμελιωδώς διαφορετικές, έχουν αναπτυχθεί πολλαπλές μέθοδοι ανίχνευσης ακραίων τιμών βασισμένες στην ομαδοποίηση. Οι ομάδες των δεδομένων μπορούν να δημιουργηθούν χρησιμοποιώντας αρκετούς αλγορίθμους, όπως είναι ο K-Means, ο K-Medoids για μικρά σύνολα δεδομένων, ο CLARANS για μεγάλα σύνολα δεδομένων, ο BIRCH κ.α. Οι τεχνικές ανίχνευσης ακραίων τιμών που βασίζονται στην ομαδοποίηση χωρίζονται σε τρείς κατηγορίες. Η πρώτη κατηγορία βασίζεται στην υπόθεση πως οι κανονικές περιπτώσεις δεδομένων ανήκουν σε μια ομάδα, ενώ οι ακραίες τιμές δεν ανήκουν σε καμία ομάδα. Οι τεχνικές που βασίζονται σε αυτή την υπόθεση, εφαρμόζουν ένα γνωστό αλγόριθμο ομαδοποίησης στο σύνολο των δεδομένων και κάθε περίπτωση δεδομένου που δεν ανήκει σε καμία ομάδα δηλώνεται ως ακραία τιμή. Πολλοί αλγόριθμοι, οι οποίοι δεν αναγκάζουν όλα τα δεδομένα να ανήκουν σε μία ομάδα μπορούν να χρησιμοποιηθούν, όπως ο DBSCAN, ο ROCK, ο SNN clustering και ο z-windows (Boutsinas, et al., 2006). Ένα μειονέκτημα αυτών των τεχνικών είναι ότι δεν μπορούν να βελτιστοποιηθούν στο να βρίσκουν ακραίες τιμές, καθώς ο σκοπός τους είναι να βρίσκουν ομάδες. Η δεύτερη κατηγορία βασίζεται στην υπόθεση πως οι περιπτώσεις κανονικών δεδομένων βρίσκονται κοντά στο κέντρο της κοντινότερης ομάδας, ενώ οι ακραίες τιμές έχουν μεγάλη απόσταση από το κέντρο της κοντινότερης ομάδας τους. Αυτές οι τεχνικές αποτελούνται από δύο βήματα. Στο πρώτο βήμα, τα δεδομένα ομαδοποιούνται χρησιμοποιώντας έναν αλγόριθμο ομαδοποίησης. Στο δεύτερο βήμα, για κάθε περίπτωση δεδομένου, υπολογίζεται η απόστασή του από το κοντινότερο κέντρο μάζας ομάδας ως ένας βαθμός ακραίας τιμής. Στην περίπτωση που οι ακραίες τιμές στα δεδομένα 16

17 σχηματίζουν μόνες τους ομάδες, αυτού του είδους οι τεχνικές δεν είναι δυνατόν να τις ανιχνεύσουν. Για την αντιμετώπιση αυτού του θέματος, έρχεται η τρίτη κατηγορία. Η τρίτη κατηγορία βασίζεται στην υπόθεση πως οι κανονικές περιπτώσεις δεδομένων ανήκουν σε μεγάλες και πυκνές ομάδες ενώ οι ακραίες τιμές ανήκουν είτε σε μικρές είτε σε αραιές ομάδες. Οι τεχνικές αυτές δηλώνουν τις περιπτώσεις που ανήκουν σε ομάδες των οποίων το μέγεθος και/ή η πυκνότητα βρίσκονται κάτω από ένα συγκεκριμένο όριο ως ακραίες τιμές. Ο αλγόριθμος FindCBLOF ανιχνεύει τόσο τις ανεξάρτητες περιπτώσεις όσο και τα σημεία που ανήκουν σε μικρές ομάδες ως ακραίες τιμές υπολογίζοντας την ομοιότητα μεταξύ των περιπτώσεων στη μικρή ομάδα και στην πλησιέστερη μεγάλη ομάδα. Υπολογίζει μια βαθμολογία ακραίας τιμής γνωστή ως Cluster-Based Local Outlier Factor (CBLOF) για κάθε δεδομένο, σύμφωνα με την οποία γίνεται ο διαχωρισμός σε ακραίες τιμές ή όχι. Άλλες αποτελεσματικές τεχνικές για το χώρισμα των δεδομένων σε ομάδες είναι οι k-d trees και CD-trees. Πλεονεκτήματα των τεχνικών βασισμένων στην ομαδοποίηση Α) οι τεχνικές ομαδοποίησης μπορούν να λειτουργήσουν με μη επιβλεπόμενο τρόπο Β) τέτοιες τεχνικές μπορούν συχνά να προσαρμοστούν σε άλλους σύνθετους τύπους δεδομένων απλά συνθέτοντας έναν αλγόριθμο ομαδοποίησης που μπορεί να χειριστεί τον συγκεκριμένο τύπο δεδομένων. Γ) η φάση εκμάθησης για τις τεχνικές ομαδοποίησης είναι γρήγορη, καθώς ο αριθμός των ομάδων με τις οποίες κάθε παράμετρος πρέπει να συγκριθεί είναι μικρός και σταθερός. 17

18 Μειονεκτήματα Α) η εκτέλεση των τεχνικών αυτών είναι υψηλά εξαρτώμενη από την αποτελεσματικότητα των αλγόριθμων ομαδοποίησης στο να φτιάξουν τη δομή των ομάδων κανονικών περιπτώσεων. Β) πολλές τεχνικές ανιχνεύουν τις ακραίες τιμές ως επακόλουθο της ομαδοποίησης και επομένως δεν βελτιστοποιούνται για την ανίχνευση ακραίων τιμών. Γ) πολλοί αλγόριθμοι ομαδοποίησης θεωρούν πως κάθε δεδομένο πρέπει να ανήκει οπωσδήποτε σε μια ομάδα. Αυτό έχει ως αποτέλεσμα, οι ακραίες τιμές να θεωρούνται μέλη μιας μεγάλης ομάδας και να θεωρούνται ως κανονικές περιπτώσεις από τεχνικές που λειτουργούν με την υπόθεση ότι οι ακραίες τιμές δεν ανήκουν σε καμία ομάδα. Δ) πολλές τεχνικές ομαδοποίησης είναι αποτελεσματικές μόνο όταν οι ακραίες τιμές δεν σχηματίζουν σημαντικές ομάδες μεταξύ τους. Ε) η υπολογιστική πολυπλοκότητα για την ομαδοποίηση των δεδομένων αποτελεί συχνά κώλυμα ειδικά αν χρησιμοποιούνται αλγόριθμοι πολυπλοκότητας O(N 2 d), όπου Ν ο αριθμός των περιπτώσεων και d ο αριθμός των ομάδων. (Chandola, et al., 2007) Τεχνικές ανίχνευσης ακραίων τιμών βασισμένες στη στατιστική Οι στατιστικές μέθοδοι για την ανίχνευση ακραίων τιμών κάνουν υποθέσεις σχετικά με την κανονικότητα των δεδομένων. Υποθέτουν ότι τα κανονικά δεδομένα ενός συνόλου δεδομένων δημιουργούνται από μια στοχαστική διαδικασία. Συνεπώς, οι κανονικές περιπτώσεις δεδομένων συμβαίνουν στις περιοχές υψηλής πιθανότητας ενός στοχαστικού μοντέλου ενώ οι ακραίες τιμές συναντώνται σε περιοχές χαμηλής πιθανότητας. Οι στατιστικές τεχνικές παίρνουν ένα στατιστικό μοντέλο (συνήθως για την κανονική συμπεριφορά) των δοσμένων δεδομένων και εφαρμόζουν μια στατιστική δοκιμή συμπερασμάτων για να καθορίσουν αν μία περίπτωση ανήκει σε αυτό το μοντέλο ή όχι. 18

19 Τα σημεία που έχουν μικρή πιθανότητα να δημιουργήθηκαν από το γνωστό μοντέλο, βασιζόμενοι στο εφαρμοσμένο στατιστικό τεστ, δηλώνονται ως ακραίες τιμές. Για τη δημιουργία ενός στατιστικού μοντέλου έχουν χρησιμοποιηθεί και παραμετρικές αλλά και μη παραμετρικές τεχνικές. Μια παραμετρική μέθοδος υποθέτει ότι τα κανονικά δεδομένα δημιουργούνται από μια παραμετρική κατανομή με παράμετρο θ. Η συνάρτηση πυκνότητας πιθανότητας της παραμετρικής κατανομής f(x, θ) δίνει την πιθανότητα ένα αντικείμενο x να δημιουργείται από την κατανομή. Όσο πιο μικρή είναι αυτή η τιμή τόσο πιο πιθανό το x να είναι μία ακραία τιμή. Η ανίχνευση ακραίων τιμών βασιζόμενη στην κατανομή gauss είναι αυτή που έχει μελετηθεί περισσότερο. Μια μη παραμετρική μέθοδος, δεν υποθέτει εκ των προτέρων ένα στατιστικό μοντέλο. Αντί αυτού, προσπαθεί να καθορίσει το μοντέλο από τα εισαγόμενα δεδομένα. Οι περισσότερες μη παραμετρικές μέθοδοι δεν υποθέτουν πως το μοντέλο είναι εντελώς χωρίς παράμετρο. Μια τέτοια υπόθεση άλλωστε θα μπορούσε να κάνει τη γνώση του μοντέλου από τα δεδομένα σχεδόν αδύνατη. Αυτό που κάνουν, είναι να θεωρούν πως ο αριθμός και η φύση των παραμέτρων είναι ευέλικτες και δεν ορίζονται εκ των προτέρων. Η πιο δημοφιλής μη παραμετρική μέθοδος είναι η χρήση ιστογραμμάτων για τη διατήρηση ενός προφίλ των δεδομένων. Εκ φύσεως οι τεχνικές των ιστογραμμάτων στηρίζονται στη συχνότητα των δεδομένων (Zhang, 2013). Ας δούμε πως με τη χρήση στατιστικών μεθόδων ανιχνεύουμε τις εισβολές σε ένα δίκτυο. Το σύστημα παρατηρεί την δραστηριότητα των αντικειμένων και δημιουργεί προφίλ για να αναπαραστήσει τη συμπεριφορά τους. Μέτρα όπως η ένταση της δραστηριότητας ή η κατανομή της περιλαμβάνονται σε ένα προφίλ. Για κάθε αντικείμενο διατηρούνται δύο προφίλ, το τωρινό και το αποθηκευμένο. Καθώς το σύστημα επεξεργάζεται διάφορα στοιχεία το τωρινό προφίλ ανανεώνεται και υπολογίζεται σταδιακά ένα σκορ ακραίας τιμής συγκρίνοντας το τωρινό προφίλ με το ήδη αποθηκευμένο με τη βοήθεια όλων των μέτρων που υπάρχουν στο προφίλ. Στην περίπτωση που το σκορ ακραίας τιμής υπερβαίνει ένα συγκεκριμένο όριο χτυπάει ένας συναγερμός ασφάλειας του συστήματος (Patcha, et al., 2007). Γνωστοί αλγόριθμοι που βασίζονται στη στατιστική είναι οι Histogram-based Outlier Score (HBOS) και Robust Principal Component Analysis Anomaly Score (rpca). 19

20 Πλεονεκτήματα των στατιστικών τεχνικών Α) αν οι υποθέσεις που σχετίζονται με την βασική κατανομή των δεδομένων ισχύουν, οι στατιστικές τεχνικές παρέχουν μία στατιστικά δικαιολογημένη λύση για την ανίχνευση ακραίων τιμών. Β) η βαθμολογική κλίμακα ακραίας τιμής που παρέχεται από μια στατιστική τεχνική σχετίζεται με το διάστημα εμπιστοσύνης, το οποίο μπορεί να χρησιμοποιηθεί ως επιπρόσθετη πληροφορία για να πάρουμε μια απόφαση που αφορά οποιαδήποτε παρατήρηση. Γ) αν το βήμα εκτίμησης της κατανομής είναι ανθεκτικό στις ακραίες τιμές, τότε οι στατιστικές τεχνικές μπορούν να λειτουργήσουν σε μη επιβλεπόμενο περιβάλλον χωρίς την ανάγκη χαρακτηρισμένων δεδομένων εκμάθησης. Μειονεκτήματα Α) το κύριο μειονέκτημα των στατιστικών τεχνικών είναι ότι βασίζονται στην υπόθεση πως τα δεδομένα δημιουργήθηκαν από μια συγκεκριμένη κατανομή. Αυτή η υπόθεση συχνά δεν ισχύει, ειδικά για τα δεδομένα υψηλής διάστασης. Β) ακόμη κι αν η στατιστική υπόθεση μπορεί να δικαιολογηθεί λογικά, υπάρχουν πολυάριθμα υποθετικά τεστ στατιστικής που μπορούν να εφαρμοστούν για την ανίχνευση ακραίων τιμών, που η επιλογή του καλύτερου και καταλληλότερου δεν είναι συχνά μια εύκολη διαδικασία. Συγκεκριμένα, η κατασκευή τεστ υποθέσεων για πολύπλοκες κατανομές υψηλών διαστάσεων συνόλων δεδομένων είναι μια διαδικασία μη τετριμμένη. Γ) οι τεχνικές που βασίζονται σε ιστογράμματα είναι σχετικά εύκολες στην εφαρμογή, αλλά μια βασική έλλειψη αυτών των τεχνικών για δεδομένα πολλών μεταβλητών είναι ότι δεν μπορούν να συλλάβουν τις αλληλεπιδράσεις μεταξύ διαφορετικών κατανομών. Μία ακραία τιμή μπορεί να έχει τιμές χαρακτηριστικών που μεμονωμένα να είναι συχνές, αλλά 20

21 ο συνδυασμός τους να είναι σπάνιος, ωστόσο μια τεχνική βασισμένη σε ιστογράμματα δε θα ήταν ικανή να ανιχνεύσει τέτοιες ακραίες τιμές (Chandola, et al., 2007). 1.5 Χειρισμός ακραίων τιμών που σχετίζονται με το περιβάλλον (contextual anomalies) Οι τεχνικές ανίχνευσης ακραίων τιμών που συζητήθηκαν προηγουμένως εστιάζουν στην ανίχνευση σημειακών ακραίων τιμών. Οι ακραίες τιμές που σχετίζονται με το περιβάλλον, απαιτούν τα δεδομένα να έχουν ένα σύνολο περιβαλλοντικών χαρακτηριστικών (για τον καθορισμό του περιβάλλοντος) και ένα σύνολο χαρακτηριστικών συμπεριφοράς (για την ανίχνευση των ακραίων τιμών μέσα στο περιβάλλον). Μερικοί τρόποι που τα περιβαλλοντικά χαρακτηριστικά μπορούν να οριστούν είναι: Α) Χωρικά. Τα δεδομένα έχουν χωρικά χαρακτηριστικά, τα οποία καθορίζουν την τοποθεσία ενός δεδομένου και ως εκ τούτου την χωρική γειτονιά. Υπάρχουν πολλές τεχνικές για χωρικά δεδομένα που έχουν προταθεί στη διεθνή βιβλιογραφία. Β) Γραφήματα. Οι ακμές που συνδέουν τους κόμβους (τα δεδομένα) καθορίζουν την γειτονιά για κάθε κόμβο. Υπάρχουν αρκετές τεχνικές που έχουν προταθεί γι αυτό τον τύπο προβλημάτων. Γ) Διαδοχή. Τα δεδομένα είναι διαδοχικά, δηλαδή τα περιβαλλοντικά χαρακτηριστικά ενός δεδομένου είναι η θέση του στη σειρά. Οι χρονοσειρές έχουν εκτενώς εξερευνηθεί στην κατηγορία ανίχνευσης των περιβαλλοντικών ακραίων τιμών. Μία άλλη μορφή διαδοχικών δεδομένων για την οποία έχουν αναπτυχθεί τεχνικές ανίχνευσης ακραίων τιμών είναι τα δεδομένα συμβάντων, στα οποία κάθε συμβάν έχει ένα χρονικό σήμα (όπως στα δεδομένα τηλεφωνικών κλήσεων). Δ) Προφίλ. Πολλές φορές τα δεδομένα μπορεί να μην έχουν μια σαφή χωρική ή διαδοχική δομή αλλά μπορεί ακόμα να χωρίζονται ή ομαδοποιούνται σε επιμέρους συστατικά χρησιμοποιώντας ένα σύνολο περιβαλλοντικών χαρακτηριστικών. Αυτά τα χαρακτηριστικά ουσιαστικά χρησιμοποιούνται για να δώσουν ένα προφίλ και να ομαδοποιήσουν τους χρήστες σε συστήματα παρακολούθησης δραστηριότητας, όπως η 21

22 ανίχνευση απάτης στις τηλεφωνικές κλήσεις. Σε τέτοιες περιπτώσεις οι χρήστες αναλύονται σύμφωνα με την ομάδα ακραίων τιμών στην οποία ανήκουν. Υπάρχουν δύο τρόποι εκτέλεσης του προβλήματος ανίχνευσης περιβαλλοντικών ακραίων τιμών. Ο πρώτος τρόπος είναι να μειώσουμε το πρόβλημα, σε πρόβλημα ανίχνευσης σημειακών ακραίων τιμών. Καθώς οι ακραίες τιμές που σχετίζονται με το περιβάλλον είναι ανεξάρτητες περιπτώσεις δεδομένων (όπως οι σημειακές ακραίες τιμές), αλλά είναι ακραίες τιμές μόνο σε σχέση με ένα συγκεκριμένο περιβάλλον, τότε αρκεί να εφαρμόσουμε μία γνωστή τεχνική ανίχνευσης σημειακών ακραίων τιμών μέσα σε ένα περιβάλλον. Μία βασική τεχνική μείωσης περιλαμβάνει δύο βήματα. Αρχικά, καθορίζουμε το περιβάλλον για κάθε περίπτωση χρησιμοποιώντας τα περιβαλλοντικά χαρακτηριστικά. Δεύτερον, υπολογίζουμε τον βαθμό ακραίας τιμής για τη συγκεκριμένη περίπτωση μέσα στο περιβάλλον, χρησιμοποιώντας μία γνωστή τεχνική ανίχνευσης σημειακών ακραίων τιμών. Πολλές φορές, το να διαχωρίζουμε το σύνολο των δεδομένων σε ξεχωριστά περιβάλλοντα δεν είναι απλό. Αυτό ισχύει στις περιπτώσεις των χρονοσειρών και των ακολουθιακών συμβάντων. Σε αυτές τις περιπτώσεις, χρησιμοποιούμε τον δεύτερο τρόπο, ο οποίος μοντελοποιεί την κανονική συμπεριφορά των δεδομένων, με σεβασμό στα διάφορα περιβάλλοντα. Ας περιγράψουμε μία γενική τεχνική γι αυτή την κατηγορία. Χρησιμοποιώντας ένα σύνολο δεδομένων για εκπαίδευση, το μοντέλο μαθαίνει να προβλέπει την αναμενόμενη συμπεριφορά των τιμών σύμφωνα με τα διάφορα περιβαλλοντικά χαρακτηριστικά. Αν η προσδοκώμενη συμπεριφορά διαφέρει σημαντικά από την παρατηρούμενη συμπεριφορά, τότε δηλώνεται ως ακραία τιμή. Ένα απλό παράδειγμα αυτής της γενικής τεχνικής είναι η παλινδρόμηση, στην οποία τα περιβαλλοντικά χαρακτηριστικά μπορούν να χρησιμοποιηθούν για την πρόβλεψη των χαρακτηριστικών συμπεριφοράς, ταιριάζοντας την γραμμή παλινδρόμησης πάνω στα δεδομένα. Πλεονεκτήματα και μειονεκτήματα των τεχνικών ανίχνευσης ακραίων τιμών που σχετίζονται με το περιβάλλον 22

23 Το κύριο πλεονέκτημα αυτών των τεχνικών είναι ότι επιτρέπουν έναν φυσικό ορισμό των ακραίων τιμών σε πολλές εφαρμογές της πραγματικής ζωής όπου τα δεδομένα τείνουν να είναι όμοια μέσα σε ένα περιβάλλον. Τέτοιες τεχνικές είναι ικανές να ανιχνεύουν ακραίες τιμές που μπορούν να μην είναι ανιχνεύσιμες από τις σημειακές τεχνικές οι οποίες έχουν μια πιο συνολική εικόνα των δεδομένων. Το μειονέκτημα των τεχνικών ανίχνευσης περιβαλλοντικών ακραίων τιμών είναι το γεγονός πως εφαρμόζονται μόνο όταν ένα περιβάλλον μπορεί να καθοριστεί (Chandola, et al., 2007). 1.6 Χειρισμός συλλογικών ακραίων τιμών (collective anomalies) Όπως είπαμε νωρίτερα, συλλογικές ακραίες τιμές είναι ένα υποσύνολο των δεδομένων που συμβαίνουν μαζί ως ομάδα και των οποίων η εμφάνιση δεν είναι κανονική σε σχέση με την φυσιολογική συμπεριφορά. Οι ανεξάρτητες περιπτώσεις που ανήκουν σε αυτή την ομάδα, δεν αποτελούν από μόνες τους ακραίες τιμές, αλλά η συνύπαρξή τους είναι αυτή η ειδική μορφή που τις κάνει ακραίες τιμές. Το πρόβλημα ανίχνευσης συλλογικών ακραίων τιμών είναι πιο δύσκολο από αυτό των σημειακών ή περιβαλλοντικών ακραίων τιμών καθώς θα πρέπει να ελέγξουμε τη δομή των δεδομένων για ανώμαλες περιοχές. Η παρουσία της σχέσης μεταξύ των δεδομένων κάνει επιτακτική την ανάγκη ύπαρξης τεχνικών ανίχνευσης συλλογικών ακραίων τιμών. Τρεις είναι οι τύποι σχέσεων που έχουν μελετηθεί πιο συχνά και αυτοί είναι: Α) Διαδοχική. Αυτές οι τεχνικές δουλεύουν με διαδοχικά δεδομένα και θεωρούν ως ακραίες τιμές, ακολουθίες. Τυπικά σύνολα δεδομένων περιλαμβάνουν ακολουθίες συμβάντων όπως τηλεφωνικά δεδομένα ή αριθμητικές χρονοσειρές. Σε τέτοιου είδους, χρονικά και διαδοχικά δεδομένα, ελέγχουμε τις δομές που δημιουργούνται από το χρόνο, οι οποίες συμβαίνουν σε τμήματα των χρονοσειρών ή ακολουθίες. Β) Χωρική. Αυτές οι τεχνικές δουλεύουν με χωρικά δεδομένα και θεωρούν τις συνδεδεμένες περιοχές μέσα στα δεδομένα ως ακραίες τιμές. 23

24 Γ) Γραφήματα. Αυτές οι τεχνικές δουλεύουν με δεδομένα γραφημάτων και θεωρούν τα συνδεδεμένα υπό γραφήματα μέσα στα δεδομένα ως ακραίες τιμές. Η πιο ουσιώδης έρευνα έχει γίνει στο κομμάτι των ακολουθιών. Αυτό εξηγείται από την ύπαρξη ακολουθιακών δεδομένων σε αρκετούς σημαντικούς τομείς εφαρμογής. Η χωρική ανίχνευση ακραίων τιμών έχει αναπτυχθεί κυρίως στον τομέα της επεξεργασίας εικόνας (Chandola, et al., 2007). 24

25 ΚΕΦΑΛΑΙΟ 2-ΑΝΩΜΑΛΙΕΣ ΣΕ ΕΠΙΧΕΙΡΗΜΑΤΙΚΑ ΔΕΔΟΜΕΝΑ 2.1 Ανίχνευση ακραίων τιμών στις επιχειρήσεις Στον σύγχρονο κόσμο, που τον χαρακτηρίζει ένα συχνά μεταβαλλόμενο και ανταγωνιστικό περιβάλλον και επιχειρήσεις υψηλής ταχύτητας, είναι επιτακτική η ανάγκη της ανάλυσης προτύπων δεδομένων και της εύρεσης ακραίων τιμών που μπορούν να αποκαλύψουν κάτι απροσδόκητο. Η ανίχνευση ακραίων τιμών στα δεδομένα μπορεί να οδηγήσει μια επιχείρηση σε εξοικονόμηση χρημάτων ή στη δημιουργία νέων επιχειρηματικών ευκαιριών. Κύριος στόχος της είναι να μάθει το άγνωστο και να βοηθήσει την επιχείρηση επωφελούμενη από αυτή τη γνώση, να κάνει τα μελλοντικά της, βραχυπρόθεσμα ή μακροπρόθεσμα, πλάνα. Η διαχείριση των διαδικασιών μιας επιχείρησης είναι ζωτικής σημασίας για την εξισορρόπηση των διαδικασιών αυτών με τις ανάγκες των πελατών. Στόχος είναι η συνεχής βελτίωσή τους και η προσπάθεια των εταιρειών να δρουν πιο αποτελεσματικά και αποδοτικά. Η βελτιστοποίηση και ανάλυση των επιχειρηματικών διαδικασιών αποτελεί συχνά μια εργασία με προκλήσεις ακόμα και για τους ειδικούς (Rogge-Solti, και συν., 2014). Οι επιχειρηματικές λειτουργίες σχετίζονται με πολλούς παράγοντες και σχέσεις μεταξύ τους και μοντελοποιούνται ως σύνθετες επιχειρηματικές διεργασίες. Μέσω της εκτέλεσης των διάφορων επιχειρηματικών εργασιών δημιουργείται ένα μεγάλο πλήθος σύνθετων δεδομένων. Τα διάφορα δεδομένα αποτελούν σημεία στη ροή των διαδικασιών που κατά τη διάρκεια της διαδικασίας ακολουθούν διαφορετικές διαδρομές. Στόχος της ανίχνευσης ακραίων τιμών είναι να χρησιμοποιήσουμε αυτά τα σύνθετα δεδομένα προκειμένου να αναλύσουμε και να αναπτύξουμε τις λειτουργίες με στόχο την βελτιστοποίηση της ροής της κάθε διαδικασίας. (Hao, et al., 2006) Η αυτόματη ανίχνευση ακραίων τιμών είναι μία τεχνική της «μηχανικής μάθησης (machine learning)» και είναι μια αρκετά περίπλοκη προσπάθεια. Πρέπει να υπάρχουν εκατοντάδες, χιλιάδες, ακόμη και εκατομμύρια μετρικών που βοηθούν μια επιχείρηση να καθορίσει τι συμβαίνει τώρα συγκρινόμενο με το τι έχει συμβεί στο παρελθόν ή τι ενδέχεται να δούμε στο μέλλον. Τα πρότυπα των δεδομένων εξελίσσονται κάνοντας δύσκολη την επιλογή των μοντέλων ή αλγορίθμων που θα εφαρμόσουμε. Οι εταιρείες που 25

26 χρησιμοποιούν τα κατάλληλα μοντέλα είναι ικανές να ανιχνεύσουν ακόμη και τις πιο λεπτές ακραίες τιμές. Εκείνες όμως που χρησιμοποιούν λάθος μοντέλα, δυστυχώς αποτυγχάνουν να ανακαλύψουν όλες τις ακραίες τιμές, ή βρίσκουν κάποιες εκεί που δεν υπάρχουν. Αυτό το λάθος μπορεί να τους οδηγήσει σε απώλεια εισοδήματος, δυσαρεστημένους πελάτες ή απώλεια σημαντικών επενδυτικών και άλλων ευκαιριών. 2.2 Σχεδιαστικές αρχές για ένα σύστημα ανίχνευσης ακραίων τιμών στις επιχειρήσεις Για να δημιουργηθεί ένα αυτόματο σύστημα ανίχνευσης ακραίων τιμών, πρέπει να έχουμε λάβει υπόψη μας κάποια βασικά στοιχεία προτού το κατασκευάσουμε. Αυτά είναι 5 (Böhmer, et al., 2017) και αναλύονται παρακάτω. Το πρώτο από αυτά έχει να κάνει με το χρόνο και αναφέρεται στο πόσο γρήγορα μια εταιρεία χρειάζεται να ξέρει για τις ακραίες τιμές της. Για ορισμένες επιχειρήσεις είναι αναγκαίο ο καθορισμός των ακραίων τιμών να γίνεται σε πραγματικό χρόνο ενώ για άλλες αρκεί να γνωρίζουν τις ακραίες τιμές μετά από μια βδομάδα, ένα μήνα, ίσως και ένα χρόνο. Οι περισσότερες online επιχειρήσεις χρειάζονται συστήματα πραγματικού χρόνου. Αυτό γίνεται κατανοητό από το γεγονός πως αν συμβαίνει κάτι ασυνήθιστο, όπως είναι η ξαφνική μείωση επισκεπτών σε ένα site ή ξαφνική μείωση εγκαταστάσεων μιας εφαρμογής, οι εταιρείες οφείλουν να αντιδράσουν άμεσα για να μην επεκταθεί το πρόβλημα και γίνει μη αναστρέψιμο. Κάθε ασυνήθιστο γεγονός έχει τις αιτίες του και μπορεί να οδηγήσει σε διάφορα προβλήματα ή ευκαιρίες για τον οργανισμό τα οποία πρέπει να ερευνήσει άμεσα. Η λήψη αποφάσεων σε μη πραγματικό χρόνο, μπορεί να χρησιμοποιηθεί από εταιρείες που θέλουν να κάνουν μακροπρόθεσμο σχεδιασμό και θέλουν να έχουν μια συνολική άποψη για τις ακραίες τιμές της επιχείρησης. Παραδείγματα τέτοιων αποφάσεων αποτελούν ο καθορισμός του συνολικού προϋπολογισμού ή ο καθορισμός αποθεμάτων. Η διάκριση για το αν θα χρησιμοποιηθεί σύστημα πραγματικού χρόνου ή όχι είναι σημαντική για την επιλογή του κατάλληλου αλγορίθμου που θα χρησιμοποιηθεί. Ένα δεύτερο στοιχείο που πρέπει να γνωρίζουμε είναι η κλίμακα, δηλαδή αν το σύστημα χρειάζεται να επεξεργαστεί δεδομένα μικρής κλίμακας εκατοντάδων μετρικών ή 26

27 μεγάλης κλίμακας εκατομμυρίων μετρικών. Προβλήματα υψηλής διάστασης αποτελούν μια σημαντική πρόκληση για την ανίχνευση ακραίων τιμών (Erfani, et al., 2016). Εκτός του ότι οι αλγόριθμοι για μικρά προβλήματα σπάνια βρίσκουν εφαρμογή στα μεγάλα, είναι σημαντικό ο αλγόριθμος που θα εφαρμόσουμε να έχει όσο το δυνατόν μικρότερη υπολογιστική πολυπλοκότητα. Ένα τρίτο στοιχείο αποτελεί ο ορισμός των περιστατικών, δηλαδή αν τα προσδοκόμενα περιστατικά είναι καλά ορισμένα. Ένα καλά ορισμένο περιστατικό είναι εκείνο στο οποίο όλες ή τουλάχιστον οι περισσότερες πιθανές αιτίες των ακραίων τιμών μπορούν να αριθμηθούν. Αυτό πρακτικά μπορεί να εφαρμοστεί σε ένα σύστημα με μικρό αριθμό μετρικών. Σε ένα καλά ορισμένο σύστημα, μπορούμε να εφαρμόσουμε επιβλεπόμενες τεχνικές, καθώς το σύστημα μπορεί εύκολα να ταξινομήσει τα δεδομένα σε ακραίες τιμές ή όχι, εφόσον είναι προ χαρακτηρισμένα. Παρόλα αυτά αν συμβαίνει μια ακραία τιμή η οποία δεν έχει προβλεφθεί τότε το σύστημα δεν είναι δυνατόν να την αντιληφθεί. Ο ρυθμός αλλαγής των δεδομένων είναι επίσης μια σημαντική σχεδιαστική αρχή. Αναφέρεται στο αν τα δεδομένα του συστήματος τείνουν να αλλάζουν γρήγορα ή μένουν σχετικά σταθερά. Οι περισσότερες επιχειρήσεις χαρακτηρίζονται από συνεχή αλλαγή στις μετρικές τους. Τέτοιες αλλαγές είναι το μεταβαλλόμενο περιβάλλον, η ανάπτυξη νέων προϊόντων, ή οι νέες εκδόσεις εφαρμογών που αλλάζουν τον τρόπο που ο κόσμος τα χρησιμοποιεί. Μερικά συστήματα αλλάζουν πολύ αργά, συνήθως εκείνα που δεν επηρεάζονται από εξωτερικά γεγονότα. Ο ρυθμός αλλαγής έχει επιπτώσεις στους αλγόριθμους που θα χρησιμοποιήσουμε. Αν οι αλλαγές στο σύστημα είναι συχνές, όπως στις περισσότερες online επιχειρήσεις, τότε έχουμε ανάγκη από προσαρμοστικούς αλγορίθμους που μπορούν να συνυπολογίζουν τις αλλαγές. Ωστόσο, αν ο ρυθμός αλλαγής είναι μικρός, το σύστημα θα μπορούσε να συλλέξει για παράδειγμα τα δεδομένα ενός ολόκληρου χρόνου και να μάθει από αυτά τι είναι φυσιολογικό και τι όχι. Σε αυτή τη περίπτωση το μοντέλο δε χρειάζεται να αναβαθμίζεται συνεχώς. Τελευταίο στοιχείο, αλλά εξίσου σημαντικό, που οφείλουμε να γνωρίζουμε για τη δημιουργία ενός συστήματος ανίχνευσης ακραίων τιμών είναι η συνοπτικότητα, που σημαίνει ότι το σύστημα λαμβάνει ταυτόχρονα υπόψη πολλές μετρήσεις προκειμένου να έχουμε μια συνολική άποψη για το τι συμβαίνει. Θα πρέπει να αναρωτηθούμε, αν 27

28 υπάρχουν πολλές διαφορετικές μετρικές που μετρούνται, αν θα πρέπει το σύστημα να παράγει μια απάντηση που μας δείχνει τη συνολική εικόνα ή αν επαρκεί να γίνεται ανίχνευση ακραίων τιμών σε κάθε μετρική ξεχωριστά. Στις επιχειρήσεις, προσμετρούνται πολλές μετρικές και όλες μαζί δημιουργούν μια ιστορία για ένα συγκεκριμένο διάστημα. Βλέποντας ανεξάρτητα κάθε μετρική, μπορεί να μη μας δείχνει την ρίζα του προβλήματος αλλά όλες μαζί μας λένε μια ξεκάθαρη ιστορία. Για την ορθή ανάλυση των αιτιών οπότε, ένας οργανισμός χρειάζεται ακραίες τιμές που χαρακτηρίζονται από συνοπτικότητα. Σύμφωνα με αυτό τον όρο, η ανίχνευση ακραίων τιμών διαχωρίζεται σε μίας μεταβλητής αν το σύστημα εξετάζει κάθε μεταβλητή ξεχωριστά και πολλαπλών μεταβλητών αν το αποτέλεσμα δίνεται συνυπολογίζοντας όλα τα δεδομένα ως σύνολο. 2.3 Προκλήσεις για τη διαδικασία ανίχνευσης ακραίων τιμών σε μια επιχείρηση Η πρώτη πρόκληση σχετίζεται με τον χρονικό κύκλο συμπεριφοράς των ακραίων τιμών, σύμφωνα με τον οποίο οι ακραίες τιμές χωρίζονται σε τρεις κατηγορίες ανάλογα με τη χρονική στιγμή που γίνονται αντιληπτές. Η πρώτη είναι η ανίχνευση των ακραίων τιμών κατά τη φάση του σχεδιασμού, δηλαδή όταν τα μοντέλα είναι στη φάση της δημιουργίας. Στη δεύτερη κατηγορία, η ανίχνευση των ακραίων τιμών γίνεται σε πραγματικό χρόνο, δηλαδή κατά τη διάρκεια της εκτέλεσης μιας διαδικασίας ενώ στη τρίτη γίνεται εκ των υστέρων, δηλαδή αφού η εκτέλεση μιας διαδικασίας έχει ολοκληρωθεί. Υποθέτουμε πως η ανίχνευση μιας ακραίας τιμής χάνει την αξία της για έναν οργανισμό όσο μεγαλώνει το χρονικό διάστημα μεταξύ της εμφάνισης και της ανίχνευσής της. Ως εκ τούτου, το βέλτιστο είναι η ανίχνευση ακραίων τιμών να συμβαίνει κατά τη φάση του σχεδιασμού. Ωστόσο, σε εκείνο το χρονικό σημείο δεν είναι διαθέσιμα όλα τα δεδομένα, πολλά από τα οποία γίνονται γνωστά στη φάση της εκτέλεσης. Έτσι, η καλύτερη επόμενη εναλλακτική είναι η ανίχνευση ακραίων τιμών σε πραγματικό χρόνο. Στην περίπτωση της εκ των υστέρων ανίχνευσης ακραίων τιμών, η οποία δεν συνίσταται στις περισσότερες επιχειρήσεις, μπορεί να εντοπιστεί μόνο η εμφάνιση μιας ακραίας τιμής αλλά δεν μπορεί να αναστραφεί καθώς η εκτέλεση των διαδικασιών έχει ήδη ολοκληρωθεί. Οι επιχειρηματικές διαδικασίες συνήθως παίρνουν μέρος σε ένα δυναμικό και συχνά εναλλασσόμενο περιβάλλον. Έτσι, για να καλύψουν μια σειρά απαιτήσεων που 28

29 προέρχονται από το μεταβαλλόμενο περιβάλλον οι διαδικασίες πρέπει να προσαρμόζονται συχνά. Οπότε, ένα άλλο στοιχείο είναι η δια-λειτουργικότητα. Οι επιχειρηματικές διαδικασίες εφαρμόζονται σε πολύπλοκα οργανωτικά σενάρια. Σε τέτοια σενάρια, είναι απαραίτητη η δια-λειτουργικότητα μεταξύ διαφορετικών συστημάτων και διαφορετικών μορφών δεδομένων. Ως εκ τούτου, οι διαδικασίες που έχουν να κάνουν με την ανίχνευση ακραίων τιμών πρέπει να μπορούν να αντιμετωπίζουν διάφορα σενάρια εκτέλεσης, διάφορες συμπεριφορές διαδικασιών και διάφορα δεδομένα. Για να υποστηρίξουν την ευελιξία των διαδικασιών οι τεχνικές ανίχνευσης ακραίων τιμών είναι αναγκαίο να παρέχουν μεθόδους προκειμένου να λαμβάνουν υπόψη ποικίλα και κυμαινόμενα δεδομένα συμπεριφοράς. Ένα άλλο στοιχείο αναφέρεται στη κριτική και την επικοινωνία. Οι επιχειρηματικές διαδικασίες τείνουν να εκτελούνται με αυτόματο ρυθμό υψηλής ταχύτητας. Ως εκ τούτου, όταν αναπτύσσουμε μια τεχνική ανίχνευσης ακραίων τιμών σε πραγματικό χρόνο, πρέπει όχι μόνο να παρέχει υψηλή υπολογιστική απόδοση αλλά επίσης, και ίσως ακόμη πιο σημαντικό, να έχει επαρκή απόδοση. Αυτό γίνεται καθώς πολλές φορές η αντιμετώπιση μιας ακραίας τιμής, που μπορεί να είναι η διακοπή μιας διαδικασίας, μπορεί να έχει αρνητικό αντίκτυπο στην επιτυχία του οργανισμού. Γι αυτό το λόγο, οι ακραίες τιμές δεν πρέπει απλά και μόνο να ανιχνεύονται αλλά και να αξιολογούνται. Θα πρέπει να διεξάγεται ανάλυση των βασικών αιτιών, τα δεδομένα να δίνονται σε ειδικούς για ανάλυση και μαζί με το έμπειρο προσωπικό να παίρνεται η απόφαση για το πως θα αντιμετωπισθεί μια ακραία τιμή. Εναλλακτικές μέθοδοι, που αναφέρονται στην αποκλειστική ευθύνη μικρών ομάδων για τέτοιες αποφάσεις, θα μπορούσαν να οδηγήσουν σε λάθος συναγερμούς, κάτι που θα μείωνε την εμπιστοσύνη στο σύστημα. Μία επιπλέον πρόκληση αποτελεί ο παραλληλισμός. Οι επιχειρηματικές διαδικασίες εκτελούνται τις περισσότερες φορές παράλληλα. Κατά συνέπεια, η ίδια διαδικασία μπορεί να εκτελείται ταυτόχρονα, πολλές φορές, βασιζόμενη σε πολλαπλές περιπτώσεις διεργασιών. Το γεγονός πως διαφορετικές επιχειρηματικές διεργασίες γίνονται παράλληλα, μπορεί να αξιοποιηθεί από τους κακόβουλους εισβολείς προκειμένου να κρύψουν τις επιθέσεις τους. Για παράδειγμα ένας εισβολέας, θα μπορούσε να συνδυάσει πολλές διαδικασίες, όπου κάθε μία από αυτές θα αποτελεί μέρος μιας μεγαλύτερης επίθεσης. Κάθε γεγονός μόνο του θα έδειχνε σωστό και μέρος του γενικότερου συνόλου 29

30 εργασιών, κι έτσι θα ήταν δυσδιάκριτο ως ακραία τιμή. Ο προσδιορισμός τέτοιου είδους επιθέσεων απαιτεί τη χρήση τεχνικών ανίχνευσης συλλογικών ακραίων τιμών που αναφέραμε παραπάνω, καθώς χρειάζεται να γίνει συσχετισμός πολλαπλών επιχειρηματικών δραστηριοτήτων. Τελευταία πρόκληση αποτελούν οι διάφορες και πολυάριθμες διεργασίες. Οι ποικίλες τεχνικές ανίχνευσης ακραίων τιμών χρειάζεται να ενσωματώσουν ένα ευρύ φάσμα διαφορετικών οπτικών στις μεθόδους ανάλυσης. Αυτό συμβαίνει γιατί η συμπεριφορά που πρέπει να αναλυθεί δημιουργείται από διάφορες εργασίες, όπως είναι για παράδειγμα ο έλεγχος, η οργάνωση, η κατανομή των πόρων ή η οργάνωση του χρόνου. Επίσης, κατά την εκτέλεση των διαδικασιών δημιουργούνται, διαχειρίζονται και μεταποιούνται δεδομένα. Κατά συνέπεια, οι διάφορες προσεγγίσεις ανίχνευσης ακραίων τιμών πρέπει να καθορίζουν έναν ευέλικτο τρόπο προκειμένου να υποστηρίζουν τις ποικίλες μορφές εκτέλεσης των διαδικασιών. (Böhmer, και συν., 2017) 30

31 ΚΕΦΑΛΑΙΟ 3-ΛΟΓΙΣΜΙΚΟ ΑΝΙΧΝΕΥΣΗΣ ΑΝΩΜΑΛΙΩΝ 3.1 Rapid Miner-γενικά Το Rapid Miner είναι μια πλατφόρμα λογισμικού για την ανάλυση δεδομένων που αναπτύχθηκε από την ομώνυμη εταιρεία η οποία παρέχει ένα ολοκληρωμένο περιβάλλον για την προετοιμασία δεδομένων, την μηχανική μάθηση (machine learning), την εξόρυξη δεδομένων (data mining) και την προγνωστική ανάλυση. Χρησιμοποιείται σε επιχειρηματικές και εμπορικές εφαρμογές καθώς και για σκοπούς έρευνας ή εκπαίδευσης και υποστηρίζει όλα τα στάδια μηχανικής μάθησης συμπεριλαμβανομένου της προετοιμασίας των δεδομένων, της απεικόνισης των αποτελεσμάτων, αλλά και της βελτιστοποίησης. Το Rapid Miner, γραμμένο στη γλώσσα προγραμματισμού Java, παρέχεται ως μοντέλο ανοικτού κώδικα, το οποίο περιορίζεται σε 10,000 σειρές δεδομένων. Επίσης, παρέχεται δωρεάν με απεριόριστο αριθμό γραμμών σε φοιτητές, ερευνητές και καθηγητές για εκπαιδευτική χρήση. Η εμπορική τιμολόγηση ξεκινά από τα 2,500 $. (wikipedia) Το Rapid Miner παρέχει ένα περιβάλλον εργασίας για τον σχεδιασμό και την εκτέλεση αναλυτικών ροών εργασιών. Αυτές οι ροές εργασίας ονομάζονται «διαδικασίες (processes)» και αποτελούνται από πολλαπλούς «χειριστές (operators)». Κάθε χειριστής εκτελεί μία μόνο εργασία μέσα στη διαδικασία και η έξοδος κάθε χειριστή αποτελεί την είσοδο του επόμενου. Το βασικό χαρακτηριστικό του είναι ότι έχει σχεδιαστεί για να παρέχει το 99% μιας προηγμένης λύσης ανάλυσης χωρίς την απαίτηση κωδικοποίησης από το χρήστη. Το Rapid Miner παρέχει μαθήματα εκμάθησης για αρχάριους, αλλά και επιπλέον μαθήματα μέσω διαδικτύου ώστε να είναι εύκολο ακόμα και για νέους στην ανάλυση δεδομένων να το χρησιμοποιήσουν και να εξάγουν τα αποτελέσματα που επιθυμούν. Το Rapid Miner έχει και αρκετές προεκτάσεις, οι οποίες διατίθενται μέσω της αγοράς Rapid miner για πιο απαιτητικούς και ειδικούς χρήστες. Στόχος της Rapid Miner είναι να καταφέρνουν οι χρήστες να έχουν τα πρώτα αποτελέσματα της ανάλυσής τους μέσα σε πέντε μόλις λεπτά ρύθμισης. Έτσι, μόλις αναπτυχθεί το κατάλληλο πρότυπο με την κατάλληλη διασύνδεση των δεδομένων, το πρόγραμμα να δίνει τη δυνατότητα για προβολή και την προσπάθεια βελτίωσης της 31

32 επιχείρησης. Η διαδικασία αυτή που γίνεται μέσα σε λίγα λεπτά αποτελεί μεγάλο άλμα από τις ώρες, ακόμα και τις μέρες που απαιτούνταν παλαιότερα. (Norris, 2013) Το 2017 η Gartner Research σε έρευνα που πραγματοποίησε για την αξιολόγηση σε 16 πλατφόρμες ανάλυσης δεδομένων συμπεριέλαβε την Rapid miner στις κορυφαίες εταιρείες του κλάδου, όπως φαίνεται και στο παρακάτω σχήμα. Επίσης, η Rapid miner έλαβε έναν από τους υψηλότερους βαθμούς ικανοποίησης στην έρευνα του 2011 «Rexer Analytics Data Miner Survey» (gartner.com, 2017). Ακόμη, το KDnuggets, στις ετήσιες δημοσκοπήσεις λογισμικού 2015 και 2016 ταξινόμησε το Rapid miner ως ένα από τα πιο δημοφιλή λογισμικά ανάλυσης δεδομένων, με την πλειοψηφία των ερωτηθέντων να δηλώνουν πως είναι εκείνο που προτιμούν να χρησιμοποιούν. 32

33 3.2 Ανίχνευση ακραίων τιμών στο Rapid miner Το Rapid miner ως μια ολοκληρωμένη πλατφόρμα ανάλυσης δεδομένων εμπεριέχει στους κύριους χειριστές του την ανίχνευση ακραίων τιμών. Δίνει τη δυνατότητα στους χρήστες να ανιχνεύσουν τις ακραίες τιμές των δεδομένων τους με 4 διαφορετικούς τρόπους αναλόγως και τον τύπο των δεδομένων. Αυτοί είναι: η μεθοδολογία ανίχνευσης που στηρίζεται στις αποστάσεις μεταξύ των δεδομένων, εκείνη που στηρίζεται στην πυκνότητα των δεδομένων, αλλά και οι δύο μεθοδολογίες που στηρίζονται στη σχετική πυκνότητα, η Local Outlier Factors (LOF) και η Connectivity-based Outlier Factors (COF). Εκτός από τους βασικούς αυτούς χειριστές για τις ακραίες τιμές το Rapid miner δίνει τη δυνατότητα μέσω μιας επέκτασης, να δώσει στο χρήστη ακόμη ποιο εξειδικευμένους χειριστές για την ανίχνευση ακραίων τιμών. Σε αυτή την επέκταση, η ανίχνευση ακραίων τιμών χωρίζεται σε 3 κατηγορίες ανάλογα με το είδος της μεθοδολογίας. Αυτές είναι οι τεχνικές βασισμένες στον κοντινότερο γείτονα, οι τεχνικές βασισμένες στην ομαδοποίηση αλλά και εκείνες που στηρίζονται στην στατιστική. Έτσι, δίνεται η δυνατότητα σε όλους τους χρήστες, ανάλογα με το είδος και το πλήθος των δεδομένων τους αλλά και το είδος της έρευνας ή των αποτελεσμάτων που επιθυμούν να έχουν, να χρησιμοποιήσουν τον καταλληλότερο χειριστή. Επισημαίνουμε πως όλοι οι αλγόριθμοι ανήκουν στην κατηγορία των μη επιβλεπόμενων τεχνικών ανίχνευσης ακραίων τιμών όπου καμία προ ταξινόμηση ή προ καθορισμός των δεδομένων δεν είναι αναγκαίο να γίνει από τους χρήστες. 3.3 Οι 4 βασικοί αλγόριθμοι για την ανίχνευση ακραίων τιμών στο Rapid miner Ανίχνευση ακραίων τιμών σύμφωνα με την απόσταση Σύμφωνα με αυτή τη μέθοδο, καθορίζονται n ακραίες τιμές στο δοσμένο σύνολο δεδομένων σύμφωνα με την απόστασή τους από τους k κοντινότερους γείτονές τους. Οι μεταβλητές n και k καθορίζονται από το χρήστη, στο πεδίο των παραμέτρων, ανάλογα με το πλήθος των δεδομένων αλλά και τα αποτελέσματα που θέλει να έχει. Αυτός ο χειριστής, εκτελεί τον έλεγχο των ακραίων τιμών σύμφωνα με την προσέγγιση που προτάθηκε από τους Ramaswamy, Rastogi και Shim στο άρθρο "Efficient Algorithms for Mining Outliers 33

34 from Large Data Sets". Προτείνουν ένα νέο τρόπο για τον εντοπισμό ακραίων τιμών με βάση την απόσταση, που βασίζεται στην απόσταση ενός σημείου από τα k πιο κοντινά σημεία του. Κάθε σημείο ταξινομείται με βάση αυτή την απόσταση και τα κορυφαία n χαρακτηρίζονται ακραίες τιμές. Αναφέρουμε επιγραμματικά τα βήματα του αλγορίθμου (Ramaswamy, και συν., 2000). 1. Ορίζουμε στις παραμέτρους τον αριθμό των ανώμαλων σημείων n που θέλουμε να βρούμε, και το k, δηλαδή τον αριθμό των κοντινών γειτόνων σύμφωνα με τον οποίο θα γίνουν οι υπολογισμοί. 2. Για κάθε σημείο p δημιουργείται μία λίστα που θα περιέχει τα k κοντινότερα σημεία. 3. Για κάθε σημείο q του συνόλου των δεδομένων υπολογίζεται η απόσταση από τα σημεία p. Το είδος της απόστασης που θα χρησιμοποιήσουμε επιλέγεται από τις παραμέτρους. Ως επιλογές υπάρχουν η ευκλείδεια απόσταση, η τετραγωνική, η απόσταση συνημίτονου, η αντίστροφη απόσταση συνημίτονου, και η γωνία μεταξύ δύο διανυσμάτων. 4. Γίνεται έλεγχος προκειμένου να διαπιστωθεί αν η απόσταση του p από το q είναι μικρότερη από την απόσταση από τον k πιο κοντινό γείτονα που έχει βρεθεί μέχρι στιγμής. 5. Αν ο έλεγχος είναι αληθής τότε το q εμπεριέχεται στη λίστα των κοντινότερων γειτόνων του p. Αν η λίστα περιέχει περισσότερους από k γείτονες τότε το πιο μακρινό σημείο διαγράφεται από τη λίστα. 6. Επιλέγονται τα κορυφαία n σημεία, σύμφωνα με την μεγαλύτερη απόσταση ως ακραίες τιμές. Αυτός ο αλγόριθμος, παρόλο που είναι ο βασικός αλγόριθμος για την ανίχνευση αυτού του είδους των ακραίων τιμών, είναι υπολογιστικά πολύπλοκος καθώς απαιτείται ο υπολογισμός όλων των αποστάσεων μεταξύ όλων των σημείων. Γι αυτό το λόγο, οι συγγραφείς ανέπτυξαν έναν αλγόριθμο βασισμένο στη διαμέριση (partition-based algorithm) που βασίζεται στην ομαδοποίηση και μειώνει την υπολογιστική πολυπλοκότητα. Τα βήματα αυτού παρουσιάζονται παρακάτω. 34

35 1. Χρησιμοποιείται ένας αλγόριθμος ομαδοποίησης για να ομαδοποιηθούν τα δεδομένα. Κάθε ομάδα αντιμετωπίζεται χωριστά. 2. Για κάθε ομάδα P υπολογίζουμε το πάνω και το κάτω όριο της απόστασης από τα k πιο κοντινά σημεία. Για κάθε σημείο p που ανήκει στην ομάδα P πρέπει να ισχύει D k P. lower και D k P. upper. 3. Καθορίζουμε τις ομάδες εκείνες που είναι περισσότερο πιθανό να περιέχουν ακραίες τιμές. Έστω ότι υπολογίζουμε το κατώτατο όριο απόστασης από τα k σημεία, mindkdist, το οποίο αποτελεί ακραία τιμή, δηλαδή την ελάχιστη ακραία τιμή. Τότε, οι ομάδες στις οποίες ισχύει ότι το άνω όριο που υπολογίσαμε πριν είναι μεγαλύτερο από την ελάχιστη ακραία τιμή (P. upper mindkdist) είναι πιο πιθανό να περιέχουν ακραίες τιμές. Αντίστοιχα, εκείνες στις οποίες η ελάχιστη απόσταση είναι μεγαλύτερη από το άνω όριο της ομάδας, είναι δύσκολο τα σημεία τους να αποτελούν ακραίες τιμές. 4. Υπολογίζονται οι ακραίες τιμές στις υποψήφιες ομάδες που αναφέραμε προηγουμένως. Για τον υπολογισμό μπορεί να χρησιμοποιηθούν τα βήματα του πρώτου αλγορίθμου, ο οποίος τώρα είναι υπολογιστικά πιο γρήγορος καθώς δεν εφαρμόζεται σε όλο το φάσμα των δεδομένων. (Ramaswamy, και συν., 2000) Ένα σημαντικό προτέρημα αυτού του αλγορίθμου είναι πως είναι ικανός να καθορίσει πολύ γρήγορα πως ένας σημαντικός αριθμός των εισαγόμενων δεδομένων δεν μπορεί να είναι ακραίες τιμές. Αυτός ο χειριστής στο Rapid miner, εισάγει μία καινούρια μεταβλητή στα δεδομένα, την outlier, η οποία έχει τιμή true όταν το σημείο είναι ακραία τιμή και false αντίστροφα. Σημαντικό στοιχείο στην εκτέλεσή του αποτελούν οι τιμές των παραμέτρων που θα ορίσουμε καθώς είμαστε εμείς που θα ορίσουμε πόσες θα είναι οι ακραίες τιμές αλλά και σύμφωνα με πόσα κοντινά σημεία θα υπολογιστούν. Ένα στοιχείο που απαιτεί ιδιαίτερη προσοχή από το χρήστη. 35

36 Παράδειγμα Εφαρμόζουμε τον αλγόριθμο αυτό σε ένα σύνολο δεδομένων που εμπεριέχεται στο Rapid miner, συγκεκριμένα το σύνολο που σχετίζεται με δεδομένα κρασιών. Πρόκειται για 178 γραμμές διαφορετικών κρασιών και 13 στήλες που αφορούν χημικά χαρακτηριστικά τους, όπως φαίνεται στη παρακάτω εικόνα. Από αυτά τα χαρακτηριστικά, για το συγκεκριμένο παράδειγμα θα χρησιμοποιήσουμε μόνο το αλκοόλ και το μαγνήσιο, για να κάνουμε μία ενδεικτική εφαρμογή του χειριστή αυτού. Με τον αλγόριθμο ανίχνευσης ακραίων τιμών με βάση τα κοντινότερα σημεία θα βρούμε τις ακραίες τιμές των δεδομένων με συγκεκριμένες παραμέτρους. Σε αυτή τη περίπτωση ορίσαμε στις παραμέτρους τον αριθμό των ακραίων τιμών που θέλουμε να έχουμε σε 8 και τον αριθμό τον γειτόνων σύμφωνα με τους οποίους θα γίνουν οι υπολογισμοί σε 1. Τα αποτελέσματα φαίνονται στη παρακάτω εικόνα. Ακραίες τιμές σύμφωνα με 1 γειτονικό σημείο θεωρούνται τα άνω απομακρυσμένα σημεία και ένα πιο μακρινό σημείο στο κάτω μέρος. 36

37 Ας δούμε τώρα πως αλλάζουν οι ακραίες τιμές αν αλλάξουμε τον αριθμό των γειτονικών σημείων στις παραμέτρους. Αντί για 1, θέτουμε την τιμή των γειτόνων στους 2. Δηλαδή πλέον, οι ακραίες τιμές δεν χαρακτηρίζονται με βάση ένα κοντινό σημείο αλλά δύο. Για παράδειγμα, παρόλο που μπορεί δύο σημεία να είναι μακριά από όλα τα υπόλοιπα, όταν ο υπολογισμός γίνεται με ένα γείτονα, αυτά τα σημεία δε θα θεωρηθούν ακραίες τιμές καθώς είναι κοντά το ένα στο άλλο. Αν όμως ο υπολογισμός γίνει με k=2 τότε θα είναι ακραίες τιμές καθώς δεν μετράει μόνο ο ένας πιο κοντινός γείτονας. Τα αποτελέσματα για 2 γείτονες στα δεδομένα των κρασιών φαίνονται στην παρακάτω εικόνα. Όπως βλέπουμε, το σημείο που είναι κυκλωμένο, πριν δεν ήταν ακραία τιμή, ενώ τώρα είναι. Αυτό συμβαίνει καθώς στον υπολογισμό με 1 γείτονα έχει διπλανό σημείο που θεωρείται αρκετά κοντά του, έτσι ώστε να μην θεωρηθεί ακραία τιμή. Όταν οι γείτονες ανεβαίνουν στους 2 όμως, φαίνεται πως δεν είναι τόσο κοντά στα δύο διπλανά του σημεία κι έτσι χαρακτηρίζεται ως ακραία τιμή. Γενικά, επιλέγουμε να θέτουμε στην παράμετρο των γειτονικών σημείων τιμές πάνω από το ένα και το δύο για να υπάρχει μια πιο γενική άποψη των δεδομένων και να αποφευχθεί ο λανθασμένος χαρακτηρισμός ακραίων τιμών. Αυτές οι δύο εικόνες μας τονίζουν τη σημαντικότητα που έχει ο ορισμός των παραμέτρων από το χρήστη καθώς διαφορετικοί παράμετροι δίνουν τελείως διαφορετικά αποτελέσματα. 37

38 3.3.2 Ανίχνευση ακραίων τιμών σύμφωνα με την πυκνότητα Αυτός ο χειριστής είναι ένας αλγόριθμος ανίχνευσης ακραίων τιμών που υπολογίζει τα Distance Based (DB(p, D) outliers) από το δοσμένο σύνολο δεδομένων. Ένα DB(p, D) outlier είναι ένα σημείο το οποίο έχει τουλάχιστον απόσταση D σε τουλάχιστον ποσοστό p από όλα τα άλλα σημεία. Τα DB(p, D) outliers είναι ακραίες τιμές βασισμένες στην απόσταση σύμφωνα με τους Knorr και Ng. Μέσω αυτής της μεθόδου, υλοποιείται μια ομογενή αναζήτηση ακραίων τιμών σε όλο το φάσμα των δεδομένων. Επιγραμματικά παρουσιάζουμε παρακάτω τα βήματα του αλγορίθμου για τον καθορισμό των συγκεκριμένων ακραίων τιμών. (Ng, και συν., 1998) 1. Στις τιμές των παραμέτρων καθορίζουμε τις τιμές D και p. Η απόσταση D είναι πραγματικός αριθμός από 0 έως άπειρο ενώ το ποσοστό από 0 έως 1 2. Υποθέτουμε ότι έχουμε έναν συνολικό αποθηκευτικό χώρο, έστω του Β% του συνόλου των δεδομένων. Χωρίζουμε τον χώρο σε δύο τμήματα τα οποία ονομάζουμε πρώτο και δεύτερο διάνυσμα 3. Ο αλγόριθμος διαβάζει το σύνολο των δεδομένων στα δύο διανύσματα 4. Υπολογίζεται η απόσταση μεταξύ κάθε ζευγαριού σημείων 5. Για κάθε σημείο στο πρώτο διάνυσμα ο αλγόριθμος κρατάει έναν μετρητή για τους κοντινούς γείτονες. 38

39 6. Ο μετρητής σταματάει όταν ο αριθμός του ξεπεράσει έναν συγκεκριμένο αριθμό Μ. 7. Κάθε σημείο που η απόστασή του από ένα άλλο είναι μεγαλύτερη από το D χαρακτηρίζεται ως ακραία τιμή. Όπως και ο προηγούμενος χειριστής, έτσι και αυτός προσθέτει στα δεδομένα μία μεταβλητή outlier, την οποία χαρακτηρίζει true αν πρόκειται για ακραία τιμή και false αντίστροφα. Όπως και στον προηγούμενο αλγόριθμο, έτσι κι εδώ ο καθορισμός των σωστών παραμέτρων, που να συνάδουν απόλυτα και με το πλήθος των δεδομένων και με το είδος των συμπερασμάτων που επιθυμούμε να εξάγουμε, παίζει σημαντικό ρόλο στα αποτελέσματα που θα δώσει η εκτέλεσή του. Παράδειγμα Για να δείξουμε πως λειτουργεί αυτή η μέθοδος χρησιμοποιούμε το ίδιο σύνολο δεδομένων με τα κρασιά και τα χημικά χαρακτηριστικά τους. Στην παρακάτω εικόνα φαίνονται οι ακραίες τιμές που προέκυψαν θέτοντας στις μεταβλητές στο πεδίο της απόστασης τον αριθμό 10 και στο πεδίο του ποσοστού το 0,8. Δηλαδή ακραίες τιμές θα χαρακτηρίζονται τα σημεία που έχουν απόσταση τουλάχιστον 10 από το 80% του συνόλου δεδομένων. Παρακάτω φαίνονται με κόκκινο χρώμα τα σημεία που ικανοποιούν αυτή την ιδιότητα, τα οποία όπως βλέπουμε είναι αρκετά. 39

40 Θέλοντας να μειώσουμε τα σημεία που φαίνονται ως ακραίες τιμές επιλέγουμε να αυξήσουμε την απόσταση στην οποία ένα σημείο θα θεωρείται ακραία τιμή από 10 σε 15, κρατώντας το ποσοστό στο 0,8 και παρατηρούμε πως η μείωση των ακραίων τιμών είναι αισθητή. Αλλάζοντας την παράμετρο της απόστασης, πήραμε ένα διαφορετικό αποτέλεσμα που μας τονίζει ακόμη περισσότερο τη σημαντικότητα στον προσδιορισμό των παραμέτρων. Στη δεύτερη περίπτωση, θεωρούμε ακραία τιμή ένα σημείο αν έχει απόσταση τουλάχιστον 15 από το 80% των σημείων. Έτσι, αυξάνοντας το εύρος της φυσιολογικής απόστασης πετυχαίνουμε μείωση των ακραίων τιμών. Υπάρχουν περιπτώσεις που η διαδικασία της ανίχνευσης ακραίων τιμών απαιτεί των εντοπισμό όλων των πιθανών ακραίων τιμών, ακόμη και αυτών που μπορεί να έχουν μικρότερη σημασία, και περιπτώσεις που η ανίχνευση λαμβάνει μέρος μόνο για λιγότερες ακραίες τιμές, οι οποίες είναι πιθανό να οδηγούν σε σημαντικότερα αποτελέσματα. 40

41 3.3.3 Ανίχνευση ακραίων τιμών σύμφωνα με τη μέθοδο LOF (Local Outlier Factors) Η LOF στηρίζεται στην έννοια της τοπικής πυκνότητας, όπου η τοποθεσία δίνεται από τους k πιο κοντινούς γείτονες, των οποίων η απόσταση χρησιμοποιείται για τον υπολογισμό της πυκνότητας. Συγκρίνοντας την τοπική πυκνότητα ενός στοιχείου με την τοπική πυκνότητα των γειτονικών του στοιχείων, μπορούν να καθοριστούν περιοχές όμοιας πυκνότητας. Τα σημεία που έχουν ουσιαστική χαμηλότερη πυκνότητα από τα γειτονικά τους χαρακτηρίζονται ως ακραίες τιμές. Ο χειριστής LOF στο Rapid miner υπολογίζει τις ακραίες τιμές με βάση την πυκνότητα σύμφωνα με τους Breunig, Kriegel, Ng και Sander. Οι συγγραφείς υποστηρίζουν στην έρευνά τους, πως η ανίχνευση ακραίων τιμών που γίνεται με βάση μια ολική οπτική των δεδομένων, δε μπορεί να είναι αποτελεσματική στη γενική περίπτωση όπου υπάρχουν ομάδες διαφορετικών πυκνοτήτων. Γι αυτό και ορίζουν την τοπική πυκνότητα η οποία καθορίζεται από την τυπική απόσταση στην οποία ένα σημείο μπορεί να είναι «προσβάσιμο» από τους γείτονές του. Ο ορισμός της «απόστασης προσβασιμότητας» είναι ένα επιπρόσθετο μέτρο προκειμένου να υπάρχουν πιο σταθερά αποτελέσματα. Περιγράφουμε στη συνέχεια επιγραμματικά τα βήματα του αλγορίθμου. (Breunig, et al., 2000) 1. Καθορίζουμε στις παραμέτρους το άνω και κάτω όριο για το MinPts (ουσιαστικά προσδιορίζει το k) 2. Τα σημεία χωρίζονται σε ομάδες 3. Για κάθε σημείο, υλοποιούμε μία σάρωση ακτίνας για όλα τα σημεία. 4. Όλες οι αποστάσεις μεταξύ ενός σημείου και των υπολοίπων που βρίσκονται στην ίδια ακτίνα μπαίνουν στην ίδια ομάδα. Η ομάδα εκτός από την πληροφορία της απόστασης έχει και την πληροφορία του αριθμού των στοιχείων που βρίσκονται σε αυτή 5. Για κάθε στοιχείο οι ομάδες μπαίνουν σε αύξουσα σειρά σύμφωνα με τον πληθάριθμο των στοιχείων τους. 6. Οι τοπικές πυκνότητες προσβασιμότητας υπολογίζονται χρησιμοποιώντας το μέγιστο από την κανονική απόσταση και την k-απόσταση για κάθε ζευγάρι 41

42 στοιχείων και κάνοντας το μέσο όρο αυτής με τον πληθάριθμο της κάθε k- γειτονιάς. 7. Ο παράγοντας LOF υπολογίζεται βασισμένος στο μέσο όρο της τοπικής πυκνότητας ενός στοιχείου και των k πιο κοντινών του. Αυτός ο χειριστής, εκτός από την ευκλείδεια απόσταση υποστηρίζει την τετραγωνική, την απόσταση συνημίτονου, αντίστροφου συνημίτονου αλλά και τη γωνιακή απόσταση. Για κάθε στοιχείο, προκύπτει ένας LOF, δηλαδή ένας παράγοντας που δείχνει το βαθμό στον οποίο αυτό το στοιχείο είναι ακραία τιμή. Θα μπορούσε να χαρακτηριστεί ως πιο δίκαιος αλγόριθμος από τους προηγούμενους καθώς δίνει μία συγκεκριμένη βαρύτητα σε κάθε σημείο και δεν γίνεται απόλυτος όπως στην περίπτωση των true, false προηγουμένως. Το Rapid miner βάζει στα δεδομένα μία καινούρια στήλη για την εμφάνιση αυτού του παράγοντα. Για σημεία που βρίσκονται κοντά στο κέντρο μιας ομάδας ο παράγοντας αυτός παίρνει τιμές κοντά στο 1, που φυσικά δεν χαρακτηρίζουν το στοιχείο ως ακραία τιμή. Όσο πιο πολύ αυξάνει η τιμή του παράγοντα αυτού τόσο πιο πιθανό είναι να πρόκειται για ακραία τιμή. Παράδειγμα Στο σύνολο δεδομένων των κρασιών που αναφέραμε προηγουμένως εφαρμόζουμε και την μέθοδο LOF. Οι παράμετροι που θέσαμε για το άνω και κάτω όριο είναι οι 10,20 οι οποίοι σύμφωνα με το πρόγραμμα, δίνουν ικανοποιητικά αποτελέσματα στη πλειονότητα των συνόλων δεδομένων. Σε αντίθεση με τις προηγούμενες δύο μεθόδους, εδώ παρατηρούμε πως υπάρχει μία τοποθέτηση κλίμακας στα σημεία ανάλογα με το πόσο πιθανό είναι να πρόκειται για ακραίες τιμές. Οι τιμές κοντά στο 1, όπως αναφέραμε και παραπάνω δεν μπορούν να αποτελούν ακραίες τιμές και όσο ο αριθμός του παράγοντα αυξάνεται τόσο πιο έντονο γίνεται το ενδεχόμενο για ένα σημείο να αποτελεί ακραία τιμή. Στο γράφημα αυτό, μόνο δύο σημεία εμφανίζονται με κόκκινο χρώμα, δηλαδή είναι σίγουρο πως είναι ακραίες τιμές, ενώ υπάρχουν αρκετά με πράσινο και κίτρινο τα οποία χρήζουν επίσης διερεύνησης. 42

43 3.3.4 Ανίχνευση ακραίων τιμών σύμφωνα με τη μέθοδο COF (Class Outlier Factor) Η κύρια έννοια αυτού του αλγορίθμου είναι να ταξινομήσει κάθε απόσταση στο σύνολο των δεδομένων δοθέντος των παραμέτρων N (κορυφαίες Ν ακραίες τιμές τάξης) και Κ (ο αριθμός των κοντινότερων γειτόνων). Σε αυτόν τον αλγόριθμο τα δεδομένα θα πρέπει να έχουν μία τουλάχιστον παράμετρο η οποία χαρακτηρίζεται ως ετικέτα και οι τιμές της δεν είναι αριθμητικές. Η τάξη κάθε στοιχείου βρίσκεται από τον τύπο: COF = PCL(T, K)- norm(deviation(t))+ norm(kdist(t)) όπου o PCL(T, K) είναι η πιθανότητα της ετικέτας κλάσης του στοιχείου Τ λαμβάνοντας υπόψη και τις ετικέτες των κλάσεων των Κ κοντινότερων γειτόνων του. o norm(deviation(t)) και norm(kdist(t)) είναι οι κανονικοποιημένες τιμές των deviation(t) και kdist(t) αντίστοιχα και οι τιμές τους κινούνται στο διάστημα [ 1,0] 43

44 o deviation(t) είναι πόσο το στοιχείο T αποκλίνει από τα στοιχεία της ίδια κλάσης. Υπολογίζεται αθροίζοντας τις αποστάσεις μεταξύ του στοιχείου Τ και κάθε στοιχείου που ανήκει στην ίδια κλάση. o kdist είναι το άθροισμα των αποστάσεων μεταξύ του στοιχείου Τ και των Κ κοντινότερων γειτόνων του. Αυτός ο χειριστής προσθέτει μία νέα στήλη, μία δυαδική μεταβλητή, την οποία ονομάζει ακραία τιμή στο δοσμένο σύνολο δεδομένων. Αν η τιμή αυτής της μεταβλητής είναι true τότε το παράδειγμα είναι μια ακραία τιμή και αντίστροφα για false. Μια άλλη ειδική μεταβλητή, η «COF Factor» προστίθεται επίσης στο σύνολο των δεδομένων. Αυτή η μεταβλητή μετρά τον βαθμό στον οποίο ένα στοιχείο είναι ακραία τιμή κλάσης. Όπως και στους προηγούμενους χειριστές, έτσι κι εδώ ρυθμίζουμε κάποια στοιχεία του, μέσα από τις παραμέτρους. Η πρώτη είναι ο αριθμός των γειτόνων, μέσα από την οποία καθορίζουμε τους Κ κοντινότερους γείτονες που θα αναλυθούν και παίρνει τιμές από 1 έως 1 εκατ.. Η δεύτερη έχει να κάνει με τον αριθμό των κλάσεων των ακραίων τιμών και καθορίζει τις κορυφαίες-n τάξεις ακραίων τιμών που θα ανευρεθούν. Το επερχόμενο σύνολο δεδομένων θα έχει n στοιχεία που θεωρούνται ακραίες τιμές. Η ελάχιστη και μέγιστη τιμή αυτής της παραμέτρου είναι 2 και 1 εκατ. αντίστοιχα. Η επόμενη παράμετρος χρησιμοποιείται για να διαλέξουμε το είδος της μέτρησης που θα χρησιμοποιηθεί για να μετρήσουμε την απόσταση μεταξύ των σημείων. Υπάρχουν οι επιλογές της μίξης μέτρων, των ονομαστικών μέτρων, των αριθμητικών μέτρων και των αποκλίσεων Bregman. Παράδειγμα Επειδή για να χρησιμοποιήσουμε τη συγκεκριμένη μέθοδο, όπως είπαμε προηγουμένων πρέπει να έχουν μία επιπλέον στήλη, η οποία να είναι σαν ετικέτα για τα δεδομένα δε μπορούμε να χρησιμοποιήσουμε το ίδιο σύνολο δεδομένων με πριν. Γι αυτό το λόγο, προκειμένου να δείξουμε τα αποτελέσματα που εξάγει ο αλγόριθμος COF θα χρησιμοποιήσουμε ένα δοσμένο τυχαίο σύνολο δεδομένων που μας δίνει το πρόγραμμα Rapid Miner και φαίνεται στην παρακάτω εικόνα. Πρόκειται για 200 γραμμές 2 τυχαίων 44

45 μεταβλητών οι οποίες έχουν ομαδοποιηθεί σε ομάδες 0, 1,2, 3. Σε αυτό το σύνολο δεδομένων εφαρμόζουμε τον χειριστή COF. Μετά την εφαρμογή του αλγορίθμου παίρνουμε τα εξής αποτελέσματα, σε πίνακα αλλά και σε γράφημα. Τα αποτελέσματα που έχουμε εξάγει αφορούν την περίπτωση που θέλουμε να βρούμε 7 ακραίες τιμές σύμφωνα με τους 7 κοντινότερους γείτονες. Με ταξινόμηση των ακραίων τιμών στον πίνακα βλέπουμε στην κορυφή ποιες γραμμές είναι ακραίες τιμές, έχοντας την ένδειξη true και δίπλα ποιος είναι ο παράγοντας COF που τους αντιστοιχεί. Στο γράφημα, βλέπουμε αυτές τις ακραίες τιμές να εμφανίζονται με κόκκινο χρώμα Όπως είναι αναμενόμενο, πρόκειται για τα σημεία της κάτω ομάδας της οποία τα στοιχεία είναι πολύ πιο αραιά από τις άλλες. 45

46 3.4 Anomaly detection: ειδικοί αλγόριθμοι Οι 4 βασικοί αλγόριθμοι που παρουσιάσαμε παραπάνω προτείνονται περισσότερο για καθαρισμό δεδομένων από ακραίες/λανθασμένες τιμές παρά για ανίχνευση ακραίων τιμών. Γι αυτό το Rapid Miner προτείνει στους χρήστες μια επέκταση η οποία ονομάζεται Anomaly detection extention και περιέχει εξειδικευμένους αλγορίθμους για την ανίχνευση ακραίων τιμών. Έναν από αυτούς τους αλγορίθμους, τον Histogram-based 46

47 Outlier Score (HBOS) θα παρουσιάσουμε στη συνέχεια και θα χρησιμοποιήσουμε στην μελέτη της περίπτωσής μας Histogram-based Outlier Score (HBOS) Αυτός ο αλγόριθμος περιέχεται στην επέκταση του προγράμματος Rapid miner για την ανίχνευση ακραίων τιμών και ανήκει στην ομάδα των στατιστικών αλγορίθμων. Υπολογίζει ένα ξεχωριστό, μονομεταβλητό ιστόγραμμα για κάθε στήλη των δεδομένων. Υπάρχουν δύο λειτουργίες, από τις οποίες η μία λειτουργεί με στατικό εύρος και η άλλη με δυναμικό. Στη στατική λειτουργία, κάθε ομάδα έχει το ίδιο εύρος, κατανεμημένο εξίσου γύρω από το εύρος τιμών. Στη δυναμική λειτουργία το εύρος μπορεί να ποικίλλει αλλά μπορεί να οριστεί ένας ελάχιστος αριθμός στοιχείων που θα περιέχονται σε κάθε ομάδα. Το εύρος, δηλαδή ο ελάχιστος αριθμός τιμών που περιέχονται σε μία ομάδα υπολογίζεται αυτόματα. Για τον υπολογισμό του σκορ ακραίων τιμών, τα ιστογράμματα κανονικοποιούνται σε ένα ύψος αρχικά. Έπειτα το σκορ μετατρέπεται έτσι ώστε οι ακραίες τιμές να έχουν υψηλό σκορ και οι κανονικές τιμές χαμηλό σκορ. 47

48 ΚΕΦΑΛΑΙΟ 4: ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ 4.1 Εφαρμογή Rapid miner σε επιχειρηματικά δεδομένα Μετά την παρουσίαση του προγράμματος Rapid miner, θα το εφαρμόσουμε στην ανίχνευση ακραίων τιμών σε κάποια σύνολα επιχειρηματικών δεδομένων τα οποία θα παρουσιαστούν παρακάτω και θα αναλύσουμε τα αποτελέσματα που εξάγονται με στόχο την εξαγωγή συμπερασμάτων. Η ανίχνευση ακραίων τιμών θα υλοποιηθεί με τον αλγόριθμο Histogram-based Outlier Score (HBOS) που παρουσιάσαμε στο προηγούμενο κεφάλαιο και που κρίναμε καταλληλότερο για την ανάλυση των δεδομένων μας. 4.2 Δεδομένα ο σύνολο δεδομένων: η χρήση του Facebook στην Ισλανδία Τα δεδομένα αυτά αφορούν τη χρήση του κοινωνικού δικτύου Facebook στην Ισλανδία, από τις 16 Ιουνίου 2010 έως 4 Μαΐου 2012 και αναφέρονται στα δευτερόλεπτα που ένας χρήστης επισκέπτεται ημερησίως το συγκεκριμένο δίκτυο. Η έρευνα πραγματοποιήθηκε στις ηλικίες από 13 έως 65+ ετών, οπότε καλύπτει σχεδόν όλους τους χρήστες. Πρόκειται για πραγματικές τιμές σε 53 χρονοσειρές. (datamarket, 2014) Τα δεδομένα είναι σε μορφή excel, με την πρώτη στήλη του να αναφέρεται στις ημερομηνίες και τις επόμενες στη συμπεριφορά κάθε ηλικίας ανά ημέρα και είναι πλήρης, δηλαδή δεν υπάρχουν κενά κελιά. Παρουσιάζουμε ένα ενδεικτικό κομμάτι στην παρακάτω εικόνα. 48

49 Εισαγωγή δεδομένων στο Rapid Miner και εξαγωγή αποτελεσμάτων Μετά την εισαγωγή των δεδομένων, η οποία γίνεται εύκολα μιας και το πρόγραμμα δέχεται μορφές δεδομένων σε excel, τοποθετούμε τα δεδομένα στο τμήμα του προγράμματος που αναφέρεται ως διαδικασία/επεξεργασία και μετά εισάγουμε και τον χειριστή της ανίχνευσης ακραίων τιμών με τον αλγόριθμο που επιλέξαμε και τρέχουμε το πρόγραμμα. 49

50 Εξάγουμε τα εξής αποτελέσματα: Στο σύνολο των δεδομένων προστίθεται μία επιπλέον στήλη η οποία αναφέρεται στο σκορ ακραίων τιμών που προέκυψε μετά την εκτέλεση του αλγορίθμου. Μπορούμε να δούμε το σκορ ακραίων τιμών και ταξινομημένο, σε αύξουσα ή σε φθίνουσα σειρά. Ενδεικτικά, παρουσιάζουμε παρακάτω τον πίνακα με φθίνουσα σειρά στον οποίον αναδεικνύονται οι ημερομηνίες που χαρακτηρίζονται ως ακραίες τιμές. Όπως φαίνεται, ημερομηνίες που είναι σχεδόν βέβαιο πως πρόκειται για ακραίες τιμές είναι οι τέσσερις πρώτες μέρες του Μαΐου 2012, οι οποίες κατέχουν τις υψηλότερες βαθμολογίες. 50

51 Έπειτα παρουσιάζονται τα στατιστικά στοιχεία όλων των δεδομένων που μας γνωστοποιούν τη μέγιστη και την ελάχιστη τιμή αλλά και το μέσο όρο κάθε μεταβλητής. Στο κομμάτι των γραφημάτων βλέπουμε πως κατανέμονται οι ακραίες τιμές για κάθε ηλικία. Επιλέγουμε ένα διάγραμμα διασποράς με την ημερομηνία να φαίνεται στον άξονα των x και την ηλικία στο άξονα των y. Οι ακραίες τιμές εμφανίζονται με χρώμα 51

52 σύμφωνα με τη βαθμολογία τους, το οποίο ξεκινά από μπλε για τις κανονικές τιμές (σκορ 3.654) και σταδιακά όπως ανεβαίνουν οι βαθμολογίες γίνεται πράσινο, κίτρινο, πορτοκαλί και κόκκινο (σκορ ) που αποτελεί το πιο ακραίο σημείο. Στην πρώτη ηλικία από την οποία ξεκινούν τα δεδομένα μας, την ηλικία των 13 ετών, φαίνεται πως η χρήση του Facebook ήταν σε χαμηλά επίπεδα τον Ιούνιο του 2010, έφτασε σε υψηλά επίπεδα τον Μάιο του 2011 και έπειτα παρουσίασε μία πτώση με αποκορύφωμα τον Μάιο του 2012, όπου παρατηρείται πολύ χαμηλή χρήση του δικτύου από τα παιδιά 13 ετών. Τα σημεία που φαίνονται ως ακραίες τιμές στο γράφημα είναι οι πρώτες τιμές του Ιουνίου του 2010, οι οποίες παρουσιάζονται με πράσινο χρώμα, με το οποίο εμφανίζονται και κάποιες τιμές τον Δεκέμβριο του 2011, οι οποίες είναι πιο πάνω από τις κανονικές εκείνη την περίοδο. Μετά η πορεία της χρήσης δείχνει να είναι κανονική μέχρι τον Μάρτιο του 2012 όπου τα δεδομένα εμφανίζουν μια τελείως διαφορετική συμπεριφορά και διασκορπίζονται αρκετά, ώσπου τον Μάρτιο του 2012 η χρήση του κοινωνικού δικτύου φαίνεται να περιορίζεται στο ελάχιστο γι αυτό άλλωστε και οι ακραίες αυτές τιμές είναι βαμμένες με τα τελευταία χρώματα της κλίμακας, πορτοκαλί και κόκκινο. Παρουσιάζουμε παρακάτω και τα γραφήματα ακραίων τιμών για τις υπόλοιπες ηλικίες. 52

53 53

54 54

55 55

56 56

57 57

58 58

59 59

60 60

61 61

62 62

63 63

64 64

65 65

66 66

67 67

68 68

69 69

70 Ανάλυση αποτελεσμάτων Όπως φαίνεται στα παραπάνω γραφήματα, παρόλο που οι ηλικίες είναι διαφορετικές και η συμπεριφορά τους, όπως άλλωστε είναι λογικό, δεν είναι η ίδια, τα σημεία στα οποία παρουσιάζονται ακραίες τιμές είναι κοινά σχεδόν σε όλες τις ηλικίες. Οι ανώμαλες συμπεριφορές λοιπόν παρουσιάζονται κυρίως σε δύο περιόδους. Η πρώτη είναι τον Δεκέμβριο του 2011, όπου φαίνεται μία αισθητή αύξηση στο χρόνο που χρησιμοποιούν οι χρήστες το Facebook και η δεύτερη και πιο αισθητή σε όλες τις ηλικίες, αφορά την μεγάλη πτώση που υπάρχει ξαφνικά τους μήνες Απρίλιο και Μάιο του 2012, η οποία μάλιστα προέρχεται μετά από μία απότομη άνοδο για ελάχιστα σημεία. Είναι τα δύο σημεία οπότε, στα οποία η εταιρεία θα πρέπει να δώσει ενδιαφέρον και να εξερευνήσει παραπάνω προκειμένου να εντοπίσει ποιες είναι οι αιτίες εκείνες που οδήγησαν σε αυτές τις ακραίες τιμές τις αντίστοιχες περιόδους. Αναφορικά με την περίοδο που εμφανίζονται οι πρώτες ακραίες τιμές, τον Δεκέμβριο του 2011, παρατηρούμε μία έντονη αύξηση στο χρόνο που χρησιμοποιούν το Facebook οι μικρές ηλικίες κυρίως, πριν τα 35 έτη. Μία αύξηση που στη συνέχεια δεν είναι αρκετά αισθητή σε όλα τα γραφήματα, ιδίως σε εκείνα των ηλικιών Παρόλα αυτά, φαίνεται πως η αρκετά μεγάλη άνοδος που συμβαίνει στις μικρές ηλικίες είναι ικανή να καταστήσει την περίοδο αυτή ως ανώμαλη σε όλο το φάσμα των δεδομένων. Ίσως αυτός είναι και ο λόγος που τα συγκεκριμένα σημεία εμφανίζονται στο διάγραμμα με πράσινο 70

71 προς κίτρινο χρώμα και όχι με κόκκινο που συμβολίζει τη βεβαιότητα ενός σημείου να είναι ακραία τιμή, καθώς υπάρχει η πιθανότητα να πρόκειται για μία παροδική συμπεριφορά των νέων και όχι μία σίγουρη ανώμαλη συμπεριφορά που οφείλει να αντιμετωπίσει η εταιρεία. Οι ιθύνοντες του κοινωνικού αυτού δικτύου θα πρέπει, προκειμένου να ανακαλύψουν την αιτία που κρύβεται πίσω από αυτή την αύξηση, να ανατρέξουν στη συγκεκριμένη περίοδο και να δουν ποια γεγονότα συνέβησαν που μπορεί να οδήγησαν τους χρήστες στο να μένουν για μεγαλύτερο χρονικό διάστημα στο δίκτυο. Εκ πρώτης όψεως, η περίοδος του Δεκεμβρίου που είναι και περίοδος των Χριστουγέννων, θα μπορούσε να δικαιολογεί τον επιπλέον αυτό χρόνο. Παρόλα αυτά, αν προσέξουμε καλύτερα το σύνολο των δεδομένων, το οποίο καλύπτει την περίοδο σχεδόν δύο χρόνων, θα παρατηρήσουμε πως την επόμενη χρονιά, δεν υπάρχει καμία αισθητή άνοδος την αντίστοιχη περίοδο. Συνεπώς, τα αίτια αυτής της ακραίας τιμής είναι βαθύτερα από κάτι αναμενόμενο και μπορεί να σχετίζονται με μία διαφημιστική κίνηση της εταιρείας που είχε μεγάλη επίδραση στις νέες κυρίως ηλικίες, με την πτώση ενός ανταγωνιστικού δικτύου, ή ακόμα και με κάποιο συμβάν στην Ισλανδία που ώθησε τους χρήστες στην αύξηση χρήσης του Facebook είτε για ενημερωτικούς είτε για επικοινωνιακούς λόγους. Συγκεκριμένα γεγονότα που συνέβησαν και μπορεί να επηρέασαν τους χρήστες στην αύξηση χρήσης του Facebook τον Δεκέμβριο του 2011 είναι η έκρυθμη πολιτική κατάσταση στη Ρωσία με βουλευτικές εκλογές και έντονες αντιδράσεις με διαδηλώσεις για τουλάχιστον 3 εβδομάδες καταγγέλλοντας νοθεία υπέρ του κυβερνόντος κόμματος αλλά και οι φονικές πλημμύρες που έπληξαν Φιλιππίνες και Ταϊλάνδη με 1500 και 700 νεκρούς αντίστοιχα (wikipedia). Η δεύτερη περίοδος που παρουσιάζει έντονο φαινόμενο ακραίων τιμών είναι η περίοδος του Απριλίου και του Μαΐου του Σε αντίθεση με τις προηγούμενες ακραίες τιμές, που παρουσιαζόταν κυρίως σε ποιο νεαρές ηλικίες και είχαν μία απόκλιση λιγότερο αισθητή, οι ακραίες τιμές αυτής της περιόδου απεικονίζουν μία απότομη πτώση στο χρόνο που περνούν οι χρήστες όλων των ηλικιών στο κοινωνικό δίκτυο Facebook. Τα συγκεκριμένα σημεία εμφανίζονται σε όλα τα γραφήματα με πορτοκαλί προς κόκκινο χρώμα ερμηνεύοντας έτσι την μέγιστη πιθανότητα να πρόκειται για ακραίες τιμές. Σε όλα τα γραφήματα φαίνεται η ίδια πορεία στη συμπεριφορά των χρηστών, μία απότομη άνοδος 71

72 που αφορά ένα με δύο σημεία, δηλαδή δύο με τρεις ημέρες ανά περίπτωση και έπειτα μία βίαιη πτώση η οποία φαίνεται να διαρκεί περίπου ένα μήνα. Η δεύτερη αυτή ανώμαλη συμπεριφορά των χρηστών δείχνει πολύ πιο σοβαρή από την πρώτη, αφενός γιατί τα σημεία αυτά εμφανίζονται να έχουν πιο μεγάλα σκορ ακραίων τιμών και φαίνονται στα γραφήματα με κόκκινο χρώμα και αφετέρου γιατί πρόκειται για μία μείωση στο χρόνο που αφιερώνουν οι πολίτες της Ισλανδίας στο Facebook και όχι για μία αύξηση που αποτελεί θετικό γεγονός για την εταιρεία. Η εταιρεία λοιπόν θα πρέπει να εξετάσει τι συνέβη εκείνη την περίοδο και οδήγησε όλους τους χρήστες αυτή τη φορά, και όχι μόνο τους νέους στο να έχουν αυτή τη συμπεριφορά. Μία τέτοια ανώμαλη πτώση μπορεί να αποτελεί ένα καμπανάκι κινδύνου για το Facebook, όχι μόνο για την απότομη μείωση της χρήσης αλλά και το γεγονός πως αυτή η μείωση έχει αρκετά μεγάλη διάρκεια και φαίνεται να γίνεται από παροδική σε μόνιμη. Μπορεί οπότε να οφείλεται σε κάποια κίνηση ανταγωνιστικής εταιρείας που έκανε τους χρήστες να απομακρυνθούν από το δίκτυο αλλά ακόμα και σε κάποιο κακόβουλο λογισμικό που τρόμαξε τους χρήστες και τους έκανε να μειώσουν τη χρήση του. Το γεγονός πως τα δεδομένα που έχουμε αναφέρονται στην περίοδο σχεδόν δύο χρόνων, που είναι μία σχετικά μεγάλη περίοδος για μία επιχείρηση, δίνουν το δικαίωμα στην εταιρεία να δει συνολικά την πορεία της αυτά τα δύο χρόνια, να συγκρίνει αντίστοιχες περιόδους και να αποκτήσει μία συνολική εικόνα που θα βοηθήσει στα βραχυχρόνια και μακροχρόνια σχέδιά της για μία επιτυχημένη και διαχρονική πορεία. Μιας και πρόκειται για μία μεγάλη περίοδο, η ανίχνευση ακραίων τιμών ξεφεύγει από τα όρια του τι θα κάνει η εταιρεία για να αντιμετωπίσει άμεσα μια ακραία τιμή και περνά στη φάση της πρόβλεψης και της αποφυγής αντίστοιχων καταστάσεων στο μέλλον. Ξέροντας ποιες αιτίες ήταν εκείνες που οδήγησαν την εταιρεία σε άνοδο ή πτώση μπορεί να τις επαναλάβει ή να τις αποφύγει αντίστοιχα ο σύνολο δεδομένων: στοιχεία της Icap Group για την εταιρεία Cosmote Κινητές Τηλεπικοινωνίες Α.Ε. για τα έτη Τα δεδομένα αυτά αφορούν επιλεγμένους λογαριασμούς από τον ισολογισμό της εταιρείας Cosmote για τα έτη Οι λογαριασμοί που έχουν επιλεγεί για να διερευνηθούν για τυχόν ακραίες τιμές είναι οι εξής: πωλήσεις, πάγια, βραχυπρόθεσμες 72

73 υποχρεώσεις, αποθέματα, ταμείο-τράπεζες και γενική ρευστότητα. Μέσω αυτών των λογαριασμών θα εξετάσουμε την πορεία της επιχείρησης για τα προαναφερόμενα 11 έτη και θα αναλύσουμε τα σημεία εκείνα που αναφέρονται ως ανώμαλες τιμές (Icap, 2017). Πήραμε τα συγκεκριμένα δεδομένα της Icap σε αρχεία excel για όλες τις εταιρείες ενός κλάδου ανά τριετία κι έπειτα έγινε η εισαγωγή σε νέο αρχείο excel για όλα τα έτη και κάθε εταιρεία χωριστά. Η τελική μορφή των δεδομένων φαίνεται στην παρακάτω εικόνα. Στην επόμενη εικόνα βλέπουμε τα στατιστικά στοιχεία των δεδομένων μας για κάθε μεταβλητή. Όπως παρατηρούμε, στα δεδομένα δεν υπάρχουν τιμές που λείπουν. Στην πρώτη στήλη αναφέρεται το είδος κάθε μεταβλητής, ως πραγματική ή ακέραια ενώ ακολούθως βλέπουμε την μέγιστη και την ελάχιστη τιμή της καθεμίας αλλά και τη μέση τιμή της. 73

74 Μετά την εισαγωγή των δεδομένων στο πρόγραμμα, ακολουθούμε την ίδια διαδικασία με προηγουμένως, δηλαδή ανιχνεύουμε τις ακραίες τιμές του συνόλου των δεδομένων χρησιμοποιώντας τον χειριστή Histogram-based Outlier Score (HBOS). Αφού τρέξουμε το πρόγραμμα βγαίνουν τα ακόλουθα αποτελέσματα σε πίνακα αλλά και σε γράφημα. Στον πίνακα φαίνεται η τιμή του σκορ στην πρώτη στήλη, με το οποίο καθορίζεται το πόσο πιθανό είναι η κάθε γραμμή να αποτελεί ακραία τιμή. Είναι σε φθίνουσα σειρά με την πρώτη γραμμή, δηλαδή το έτος 2009 να καθορίζεται ως μεγαλύτερη ακραία τιμή. Στα επόμενα γραφήματα βλέπουμε και τους λογαριασμούς της εταιρείας σε συνάρτηση με τα έτη και τις αντίστοιχες ακραίες τιμές. 74

75 75

76 76

77 Ανάλυση αποτελεσμάτων Όπως φαίνεται στα γραφήματα των λογαριασμών με το έτος, δύο είναι τα σημεία εκείνα που είναι κύριες ακραίες τιμές, τα έτη 2009 και Μετά από αυτά, που εμφανίζονται με κόκκινο χρώμα και έχουν το μεγαλύτερο σκορ στην πιθανότητα ακραίας τιμής, τα έτη 2008, 2011 και 2012 εμφανίζονται με πράσινο χρώμα, γεγονός που αποδεικνύει πως επίσης είναι σημεία με πιθανότητα, ακόμα και μικρή, να αποτελούν ακραίες τιμές. Τέλος, τα σημεία των ετών 2006, 2007 και εμφανίζονται με μπλε χρώμα γεγονός που τα κάνει κανονικά. Παρατηρούμε πως σε όλα τα γραφήματα υπάρχει μια σταθερή πορεία της επιχείρησης τα έτη Είναι τα μόνα έτη από τα συνολικά 11 που μελετάμε που σε όλους τους λογαριασμούς φαίνεται να μην υπάρχουν απρόσμενα σκαμπανεβάσματα και να διατηρείται μία συνεχής ροή που κινείται στα ίδια περίπου αριθμητικά επίπεδα. Αυτό είναι και το γεγονός που προφανώς κάνει αυτά τα σημεία να είναι κανονικά έναντι των άλλων, αλλά και να οδηγεί τα άλλα πιο κοντά στην πιθανότητα να είναι ακραίες τιμές. Το ίδιο συμβαίνει και τα έτη 2006 και 2007, δύο σημεία που επίσης είναι αρκετά κοντά σε όλους τους λογαριασμούς. Τα υπόλοιπα έτη δείχνουν να μην έχουν συνοχή στους περισσότερους λογαριασμούς τους. Οι μεγάλες αποκλίσεις από τη μία χρονιά στην άλλη οδηγούν τα περισσότερα από αυτά τα σημεία στο ενδεχόμενο να αποτελούν ακραίες τιμές και να χρήζουν περεταίρω διερεύνησης από την εταιρεία. Πιο συγκεκριμένα, στο γράφημα του κύκλου εργασιών, το έτος 2009 παρουσιάζονται οι μεγαλύτερες πωλήσεις ενώ το έτος 2010 παρουσιάζεται η αρχή μιας φθίνουσας πορείας. Αυτό που κάνει τα συγκεκριμένα σημεία ακραίες τιμές φαίνεται πως είναι η διαφορά τους από τα υπόλοιπα και κυρίως από τα έτη 2013 με 2016 όπου υπάρχει μία μεγαλύτερη σταθερότητα, με πωλήσεις που κυμαίνονται λίγο πάνω από το ένα δις. Αυτή η μείωση στις πωλήσεις που υπάρχει μετά το 2010 και φαίνεται να σταθεροποιείται μετά το 2013 ενδεχομένως οφείλεται σε μερίδια αγοράς που κέρδισαν οι ανταγωνιστές. Είναι γεγονός πως τα πρώτα έτη του 21ού αιώνα η Cosmote δρούσε σαν μονοπώλιο στην ελληνική αγορά, επωφελούμενη από το δίκτυο του ΟΤΕ που είχε την πλειονότητα των συνδέσεων και θεωρούνταν πιο αξιόπιστο από τους καταναλωτές. Οι άλλες εταιρείες, κυρίως η Vodafone και η Wind άργησαν να κερδίσουν μερίδια αγοράς παρόλο που 77

78 υπήρχαν ήδη στην ελληνική αγορά. Πιο ειδικά, το μερίδιο αγοράς της Cosmote, της κυρίαρχης εταιρείας στο κλάδο των τηλεπικοινωνιών, ήταν στο 52,4% το 2010 και μειώθηκε στο 45,2% το (Ηγουμενίδη, 2016) Στα γραφήματα των υπόλοιπων λογαριασμών τα έτη 2009 και 2010, τα πάγια ήταν σχετικά αυξημένα, οι βραχυπρόθεσμες υποχρεώσεις σε μέτρια επίπεδα το 2009 και σε κορύφωση το 2010, τα αποθέματα πολύ υψηλά, ειδικά το 2009, το ταμείο σε μέτρια προς χαμηλά επίπεδα και η γενική ρευστότητα σε αρκετά χαμηλά ποσοστά. Το σύνολο των γραφημάτων μας δίνει μια πιο συνολική εικόνα της επιχείρησης και τη δυνατότητα στα στελέχη της να αναζητήσουν σε βάθος τις αιτίες των ακραίων τιμών. Ακραίες τιμές που ενώ στις πωλήσεις φαίνεται να είναι θετικές, βλέποντάς τις συνολικά με τους άλλους λογαριασμούς αυτή η άποψη ίσως αναθεωρείται. Αυτό συμβαίνει γιατί λογαριασμοί όπως οι υποχρεώσεις της εταιρείας, το ταμείο αλλά και η ρευστότητα κινούνται σε πολύ χαμηλές τιμές, γεγονός που δεν είναι θετικό για μια επιχείρηση. Συνεπώς, φαίνεται πως η πορεία της εταιρείας, φαίνεται να είναι πιο υγιής μετά το έτος 2013 όπου και οι περισσότεροι λογαριασμοί της σταθεροποιούνται. Τα στελέχη που παρατηρούν αυτή την ανίχνευση ακραίων τιμών θα πρέπει να δουν πως τα έτη 2009 και 2010 παρόλο που οι πωλήσεις ήταν υψηλές, οι υπόλοιποι λογαριασμοί δεν ήταν σε ικανοποιητικά επίπεδα και άρα αυτή η άνοδος στις πωλήσεις δε μπορεί αυτόματα να μεταφρασθεί σε επιτυχής πορεία. Οι μεγάλες διαφορές στους λογαριασμούς της Cosmote τα πρώτα έτη που μελετάμε είναι πιθανό να οφείλονται, όπως είπαμε και προηγουμένως, στην μεγάλη αποδοχή που είχε η εταιρεία πριν μερικά χρόνια που δεν είχαν αναπτυχθεί τόσο οι ανταγωνιστές της. Μόλις άρχισε να χάνει σιγά σιγά μερίδιο της δικής της αγοράς φαίνεται πως ανασυγκροτήθηκε και κατάφερε να έχει σταθερά υψηλά κέρδη και ικανοποιητικούς αριθμούς σε όλους της τους λογαριασμούς. Μετά το έτος 2013 οπότε, η πορεία φαίνεται να είναι ικανοποιητική και επομένως, στόχος θα πρέπει να είναι η διατήρηση σε αυτά τα επίπεδα με κινήσεις περαιτέρω ανάπτυξης και βελτίωσης έναντι του ανταγωνισμού. 78

79 ο σύνολο δεδομένων: στοιχεία της Icap Group για την εταιρεία Wind Ελλάς Τηλεπικοινωνίες Α.Ε.Β.Ε. για τα έτη Αυτό το σύνολο δεδομένων αφορά όπως και το προηγούμενο επιλεγμένους λογαριασμούς του ισολογισμού της εταιρείας Wind (Icap, 2017). Τα δεδομένα δόθηκαν στην ίδια μορφή με εκείνα της Cosmote και μετά την εξαγωγή σε ξεχωριστό αρχείο excel έχουν τη μορφή και παρουσιάζουν τα στατιστικά στοιχεία που φαίνονται στις παρακάτω εικόνες. Παρατηρούμε πως στο έτος 2008 στις πωλήσεις υπάρχει ερωτηματικό. Πρόκειται για μία χαμένη τιμή (missing value). Γενικά, μπορούμε να αντιμετωπίσουμε τις χαμένες τιμές με διάφορους τρόπους. Αν έχουμε πολλές τέτοιες τιμές σε μία στήλη προτιμούμε να απαλείψουμε ολόκληρη τη στήλη από τα δεδομένα μας. Στην περίπτωση που έχουμε λιγότερες χαμένες τιμές μπορούμε να επιλέξουμε να αντικαταστήσουμε αυτές με το μέσο όρο των τιμών στην ίδια στήλη. Στην περίπτωση που οι συγκεκριμένες τιμές είναι πολύ λίγες μπορούμε να επιλέξουμε να σβήσουμε ολόκληρη τη γραμμή στην οποία ανήκουν. Εφόσον στο σύνολο δεδομένων που μελετάμε η απώλεια μιας γραμμής θα σημάνει και την απώλεια μιας χρονιάς από τις συνολικά 11, επιλέγουμε να αντικαταστήσουμε την χαμένη τιμή με το μέσο όρο των τιμών των πωλήσεων υποθέτοντας πως αυτή η αλλαγή δεν θα επηρεάσει τα αποτελέσματά μας. 79

80 Προκειμένου να αντικαταστήσουμε την χαμένη τιμή οπότε θα χρησιμοποιήσουμε έναν χειριστή του Rapid miner που ονομάζεται Replace missing values και χρησιμοποιείται γι αυτόν ακριβώς το σκοπό. Στις παραμέτρους του χειριστή, που φαίνονται στην παρακάτω εικόνα, επιλέγουμε το φίλτρο να είναι μοναδικό καθώς πρόκειται για μία μεταβλητή με χαμένες τιμές και στις μεταβλητές επιλέγουμε τις πωλήσεις στις οποίες βρίσκεται η συγκεκριμένη τιμή. Μετά την μορφοποίηση αυτή, τα δεδομένα παίρνουν την παρακάτω μορφή. Βλέπουμε πως η χαμένη τιμή αντικαταστάθηκε από το μέσο όρο των τιμών όπως αυτός φαίνεται και στον πίνακα των αποτελεσμάτων που παρουσιάσαμε παραπάνω. 80

81 Μετά την εφαρμογή του αλγορίθμου Histogram based Outlier Score εξάγουμε τα αποτελέσματα για τις ακραίες τιμές σε πίνακα αλλά και σε γραφήματα. Στην παρακάτω εικόνα βλέπουμε σε μορφή πίνακα τις τιμές εκείνες που έχουν τη μεγαλύτερη πιθανότητα να αποτελούν ακραίες τιμές. Βλέπουμε τη στήλη του σκορ με φθίνουσα σειρά, έτσι στη κορυφή είναι τα σημεία με τη μεγαλύτερη πιθανότητα να είναι ακραίες τιμές που αφορούν τα έτη 2009 και Παρακάτω παρουσιάζουμε τα γραφήματα του έτους σε συνάρτηση με τον κάθε λογαριασμό ξεχωριστά. Ο χρωματισμός των σημείων γίνεται με βάση το σκορ που ανήκει σε κάθε σημείο με το μπλε να είναι το φυσιολογικό και κόκκινο το απόλυτα ανώμαλο. 81

82 82

83 83

84 Ανάλυση αποτελεσμάτων Μετά από παρατήρηση των γραφημάτων βλέπουμε πως δύο είναι εκείνα τα σημεία που αποτελούν ξεκάθαρα ακραίες τιμές και εμφανίζονται με κόκκινο χρώμα, τα έτη 2009 και Μετά από αυτά, το έτος 2014 εμφανίζεται να έχει κίτρινο χρώμα, δηλαδή είναι το επόμενο που έχει πιθανότητα να αποτελεί ακραία τιμή. Ακολούθως, τα έτη 2007, 2008 και 2014 εμφανίζονται με πράσινο χρώμα, δηλαδή έχουν μικρή πιθανότητα να αποτελούν ακραίες τιμές. Τέλος, τα μόνα σημεία που εμφανίζονται με μπλε χρώμα, το οποίο καθορίζει την κανονικότητα, εμφανίζονται τα έτη 2006, 2011, 2012, 2013, 2015 και Παρατηρώντας τα γραφήματα βλέπουμε πως σχεδόν όλοι οι λογαριασμοί ακολουθούν παρόμοια πορεία. Είναι χαμηλά τα πρώτα δύο έτη, ανεβαίνουν απότομα τα έτη 2008 και 2009 και μετά πέφτουν και διατηρούνται σε σταθερά επίπεδα για τα υπόλοιπα χρόνια. Κοιτώντας την πορεία της επιχείρησης συνολικά ανά έτος, βλέπουμε πως το έτος 2006 όλοι οι λογαριασμοί κινούνται σε χαμηλά αλλά σταθερά επίπεδα. Το ίδιο συμβαίνει και για το 2007, το οποίο έχει μία μεγάλη τιμή στον λογαριασμό της γενικής ρευστότητας που ως φαίνεται είναι και η τιμή που το καθιστά να έχει πιθανότητα να είναι ακραία τιμή. Καθώς η τιμή της γενικής ρευστότητας είναι θετικό να είναι υψηλή, μπορούμε να συμπεράνουμε πως πρόκειται για θετική ακραία τιμή και η επιχείρηση μπορεί να ελέγξει τις ενέργειες με τις οποίες έφτασε στο συγκεκριμένο αποτέλεσμα προκειμένου να το ξανά πετύχει. Το έτος 2008 οι πωλήσεις βρίσκονται σε μέτρια επίπεδα, οι λογαριασμοί των παγίων, των βραχυπρόθεσμων υποχρεώσεων και των αποθεμάτων είναι αρκετά υψηλά και οι λογαριασμοί του ταμείου και της γενικής ρευστότητας σε αρκετά χαμηλά επίπεδα. Αυτή η ανισορροπία στα επίπεδα των λογαριασμών φαίνεται πως καθιστά το συγκεκριμένο έτος να χρήζει περαιτέρω διερεύνησης από την εταιρεία. Το έτος 2009, που σύμφωνα με τα δεδομένα στοιχεία αποτελεί ακραία τιμή, η εταιρεία παρουσιάζει πολύ υψηλές πωλήσεις, υψηλά πάγια, βραχυπρόθεσμες υποχρεώσεις και αποθέματα, σε μέτρια επίπεδα βρίσκεται ο λογαριασμός της γενικής ρευστότητας και σε χαμηλά επίπεδα το ταμείο. Η μεγάλη άνοδος που υπάρχει ξαφνικά σε όλους τους λογαριασμούς και εμφανίζει το συγκεκριμένο έτος πολύ πάνω από το μέσο όρο των περισσοτέρων λογαριασμών φαίνεται πως καθιστά το συγκεκριμένο έτος ως την κύρια ακραία τιμή. Εκτός από το σημείο των υποχρεώσεων 84

85 όλοι οι υπόλοιποι λογαριασμοί είναι θετικό να βρίσκονται υψηλά, συνεπώς είναι πιθανό να πρόκειται για μια θετική ακραία τιμή. Το έτος 2010, φαίνεται πως ακολουθεί την ίδια πορεία με το 2009 απλά σε ποιο χαμηλή άνοδο γι αυτό άλλωστε βρίσκεται και κάτω από αυτό στο σκορ της ακραίας τιμής. Τα έτη 2011, 2012 και 2013 που παρουσιάζουν κανονικότητα σε σχέση με τα υπόλοιπα, φαίνεται πως η επιχείρηση ακολουθεί μία σταθερή πορεία σε όλους τους λογαριασμούς, κάτι που καθιστά τα σημεία της φυσιολογικά. Το έτος 2014, το οποίο παρεμβάλλεται με κίτρινο χρώμα στην κανονική πορεία της εταιρείας, φαίνεται να θεωρείται ως ακραία τιμή λόγω των υψηλών αριθμών που επικρατούν στους λογαριασμούς του ταμείου και της γενικής ρευστότητας. Εφόσον και οι δύο αυτοί λογαριασμοί είναι θετικό να βρίσκονται σε υψηλά επίπεδα μπορούμε να συμπεράνουμε ότι το 2014 ήταν ένα καλύτερο έτος για την επιχείρηση στην διάρκεια των 5 ετών από το 2011 έως το Τέλος, τα έτη 2015 και 2016 ακολουθούν επίσης μία κανονική πορεία η οποία αν εξαιρέσουμε το 2014 συνεχίζεται από το Συμπερασματικά, η Wind βρίσκεται σε πολύ χαμηλά επίπεδα τα έτη 2006 και 2007 που όπως ενδεχομένως οφείλεται στα μεγάλα ποσοστά που κατείχε η Cosmote στο κλάδο των τηλεπικοινωνιών παλαιότερα, όπως είπαμε και προηγουμένως. Κάνει μία άνοδο τα έτη 2008 και 2009 που ίσως οφείλεται στη παροχή ανταγωνιστικών υπηρεσιών ή σε έντονες διαφημιστικές κινήσεις και έπειτα φαίνεται πως διατηρείται σε σταθερά επίπεδα για τα επόμενα χρόνια. Στόχος της εταιρείας και των στελεχών της πρέπει να αποτελέσει η διατήρηση σε αυτά τα επίπεδα, στα οποία όπως φαίνεται έχει εδραιωθεί και με προσεγμένες και επικεντρωμένες προσπάθειες η σταδιακή ανάπτυξη ο σύνολο δεδομένων: στοιχεία της Icap Group για την εταιρεία Vodafone- Παναφόν Α.Ε.Ε.Τ για τα έτη Επόμενο σύνολο δεδομένων που θα αναλύσουμε είναι επιλεγμένοι λογαριασμοί της εταιρείας Vodafone (Icap, 2017) η οποία δραστηριοποιείται στον ίδιο τομέα με την Cosmote και τη Wind που μελετήσαμε προηγουμένως. Τα στοιχεία συλλέχθηκαν από τα ίδια αρχεία με των προηγουμένων εταιρειών και εμφανίζονται στο Rapid miner όπως παρακάτω. 85

86 Όπως παρατηρούμε η τελευταία γραμμή που αναφέρεται στο έτος 2016 έχει μόνο ερωτηματικά, δηλαδή χαμένες τιμές. Από τους τρόπους χειρισμού των χαμένων τιμών που αναφέραμε προηγουμένως, σε αυτή την περίπτωση θα επιλέξουμε την απαλοιφή ολόκληρης της γραμμής καθώς δεν μας δίνει κανένα στοιχείο και άρα δεν μας είναι απαραίτητη. Για το λόγο αυτό, θα χρησιμοποιήσουμε τον χειριστή του Rapid miner που ονομάζεται Filter examples. Με αυτό τον χειριστή, επιλέγονται τα δεδομένα εκείνα που ικανοποιούν μία συγκεκριμένη συνθήκη και τα υπόλοιπα απαλείφονται. Στο πεδίο των παραμέτρων, όπως φαίνεται στη παρακάτω εικόνα επιλέγουμε από την συνθήκες εκείνη που αφορά τις χαμένες τιμές και εφαρμόζουμε στα δεδομένα. Μετά την απαλοιφή των χαμένων τιμών το σύνολο των δεδομένων και ο στατιστικός πίνακας διαμορφώνονται όπως φαίνονται παρακάτω. 86

87 Στη συνέχεια εφαρμόζουμε τον αλγόριθμο Histogram based Outlier Score και παίρνουμε τα παρακάτω αποτελέσματα σε μορφή πίνακα. Έχοντας ταξινομήσει τη στήλη στου σκορ σε φθίνουσα σειρά βλέπουμε πως το έτος με την μεγαλύτερη πιθανότητα να αποτελεί ακραία τιμή είναι το 2006 και ακολουθεί το

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

6. Διαχείριση Έργου. Έκδοση των φοιτητών

6. Διαχείριση Έργου. Έκδοση των φοιτητών 6. Διαχείριση Έργου Έκδοση των φοιτητών Εισαγωγή 1. Η διαδικασία της Διαχείρισης Έργου 2. Διαχείριση κινδύνων Επανεξέταση Ερωτήσεις Αυτοαξιολόγησης Διαχείριση του έργου είναι να βάζεις σαφείς στόχους,

Διαβάστε περισσότερα

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Η ταξινόμηση εικόνας αναφέρεται στην ερμηνεία με χρήση υπολογιστή των τηλεπισκοπικών εικόνων. Παρόλο που ορισμένες διαδικασίες έχουν τη δυνατότητα να συμπεριλάβουν πληροφορίες

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Εξόρυξη γνώσης από δεδομένα δικτύου υπολογιστών: Συστήματα ανίχνευσης εισβολής.

Εξόρυξη γνώσης από δεδομένα δικτύου υπολογιστών: Συστήματα ανίχνευσης εισβολής. Πανεπιστήμιο Μακεδονίας, Δια τμηματικό πρόγραμμα μεταπτυχιακών σπουδών στα πληροφοριακά συστήματα. Εξόρυξη γνώσης από δεδομένα δικτύου υπολογιστών: Συστήματα ανίχνευσης εισβολής. Κατσαβέλης Κ. Ζήσης Οκτώβριος

Διαβάστε περισσότερα

Εισαγωγή στη Σχεδίαση Λογισμικού

Εισαγωγή στη Σχεδίαση Λογισμικού Εισαγωγή στη Σχεδίαση Λογισμικού περιεχόμενα παρουσίασης Τι είναι η σχεδίαση λογισμικού Έννοιες σχεδίασης Δραστηριότητες σχεδίασης Σχεδίαση και υποδείγματα ανάπτυξης λογισμικού σχεδίαση Η σχεδίαση του

Διαβάστε περισσότερα

Λειτουργικά. Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Σιώζιος Κων/νος - Πληροφορική Ι

Λειτουργικά. Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Σιώζιος Κων/νος - Πληροφορική Ι Λειτουργικά Συστήματα 1 Λογισμικό του Υπολογιστή Για να λειτουργήσει ένας Η/Υ εκτός από το υλικό του, είναι απαραίτητο και το λογισμικό Το σύνολο των προγραμμάτων που συντονίζουν τις λειτουργίες του υλικού

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ 3.1 Τυχαίοι αριθμοί Στην προσομοίωση διακριτών γεγονότων γίνεται χρήση ακολουθίας τυχαίων αριθμών στις περιπτώσεις που απαιτείται η δημιουργία στοχαστικών

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

Εφαρμογές Προσομοίωσης

Εφαρμογές Προσομοίωσης Εφαρμογές Προσομοίωσης H προσομοίωση (simulation) ως τεχνική μίμησης της συμπεριφοράς ενός συστήματος από ένα άλλο σύστημα, καταλαμβάνει περίοπτη θέση στα πλαίσια των εκπαιδευτικών εφαρμογών των ΤΠΕ. Μπορούμε

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

DeSqual Ενότητες κατάρτισης 1. Ενδυνάμωση των εξυπηρετούμενων

DeSqual Ενότητες κατάρτισης 1. Ενδυνάμωση των εξυπηρετούμενων DeSqual Ενότητες κατάρτισης 1. Ενδυνάμωση των εξυπηρετούμενων 2 x 4 ώρες Μέτρηση και Βελτίωση Ενδυνάμωσης Ορισμός της Ενδυνάμωσης: Η ενδυνάμωση είναι η διαδικασία της αύξησης της ικανότητας των ατόμων

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Υπολογιστικής Σκέψης

Υπολογιστικής Σκέψης Απόκτηση και καλλιέργεια Υπολογιστικής Σκέψης Διακριτά Μαθηματικά Εισαγωγή στους Αλγόριθμους Αλγοριθμικά Θέματα Ασύρματων Δικτύων Υπολογιστική Επιστήμη και Πολιτισμός Τι είναι η υπολογιστική σκέψη; Οι

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

Μεθοδολογία Έρευνας Διάλεξη 6 η : Μέθοδοι Δειγματοληψίας

Μεθοδολογία Έρευνας Διάλεξη 6 η : Μέθοδοι Δειγματοληψίας Μεθοδολογία Έρευνας Διάλεξη 6 η : Μέθοδοι Δειγματοληψίας Δρ. Αλέξανδρος Αποστολάκης Email: aapostolakis@staff.teicrete.gr Τηλ.: 2810379603 E-class μαθήματος: https://eclass.teicrete.gr/courses/pgrad_omm104/

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ Ενότητα: Αναγνώριση Διεργασίας - Προσαρμοστικός Έλεγχος (Process Identification) Αλαφοδήμος Κωνσταντίνος

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ Συνδυασμένη χρήση μοντέλων προσομοίωσης βελτιστοποίησης. Η μέθοδος του μητρώου μοναδιαίας απόκρισης Νικόλαος

Διαβάστε περισσότερα

ΑΝΤΙΚΕΙΜΕΝΟ Ι. ΓΙΑΝΝΑΤΣΗΣ

ΑΝΤΙΚΕΙΜΕΝΟ Ι. ΓΙΑΝΝΑΤΣΗΣ ΣΧΕΔΙΑΣΜΟΣ ΣΥΣΤΗΜΑΤΩΝ ΠΑΡΑΓΩΓΗΣ ΜΕΤΡΗΣΗ ΕΡΓΑΣΙΑΣ Ι. ΓΙΑΝΝΑΤΣΗΣ ΑΝΤΙΚΕΙΜΕΝΟ Η Μέτρηση Εργασίας (Work Measurement ή Time Study) έχει ως αντικείμενο τον προσδιορισμό του χρόνου που απαιτείται από ένα ειδικευμένο

Διαβάστε περισσότερα

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition) Ο στόχος της διπλωματικής είναι η αναγνώριση του συναισθήματος ενός συγκεκριμένου ανθρώπου από μια αλληλουχία εικόνων στις οποίες παίρνει διάφορες εκφράσεις. Αυτό θα γίνει κάνοντας χρήση τεχνικών βαθιάς

Διαβάστε περισσότερα

Σχεδιασμός Οικολογικού Διαμεσολαβητή για την εποπτεία και διαχείριση δικτύου διανομής ηλεκτρικής ενέργειας

Σχεδιασμός Οικολογικού Διαμεσολαβητή για την εποπτεία και διαχείριση δικτύου διανομής ηλεκτρικής ενέργειας Σχεδιασμός Οικολογικού Διαμεσολαβητή για την εποπτεία και διαχείριση δικτύου διανομής ηλεκτρικής ενέργειας Σωτηρία Δριβάλου Εθνικό Μετσόβιο Πολυτεχνείο Μονάδα Εργονομίας Συστήματα διανομής ηλεκτρικής ενέργειας

Διαβάστε περισσότερα

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων Κεφάλαιο 11 Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων 11.1 Λήψη αποφάσεων και πληροφοριακά συστήματα Η επιχειρηματική αξία της βελτιωμένης λήψης αποφάσεων Είναι εφικτό να αποτιμηθεί σε κάποιον

Διαβάστε περισσότερα

Στόχος της ψυχολογικής έρευνας:

Στόχος της ψυχολογικής έρευνας: Στόχος της ψυχολογικής έρευνας: Συστηματική περιγραφή και κατανόηση των ψυχολογικών φαινομένων. Η ψυχολογική έρευνα χρησιμοποιεί μεθόδους συστηματικής διερεύνησης για τη συλλογή, την ανάλυση και την ερμηνεία

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud Το Oracle Analytics Cloud αποτελεί ένα ολοκληρωμένο σύνολο δυνατοτήτων που περιλαμβάνει έτοιμο περιεχόμενο, εξειδικευμένα

Διαβάστε περισσότερα

Γενικός Κανονισμός για την Προστασία Δεδομένων και Microsoft 365: Απλοποιήστε την πορεία σας προς τη συμμόρφωση

Γενικός Κανονισμός για την Προστασία Δεδομένων και Microsoft 365: Απλοποιήστε την πορεία σας προς τη συμμόρφωση Γενικός Κανονισμός για την Προστασία Δεδομένων και Microsoft 365: Απλοποιήστε την πορεία σας προς τη συμμόρφωση Γενικός Κανονισμός για την Προστασία Δεδομένων: Μια επισκόπηση Ο Γενικός Κανονισμός για την

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΕΠΙΧΕΙΡΗΜΑΤΙΚΩΝ ΚΙΝΔΥΝΩΝ

ΑΝΑΛΥΣΗ ΕΠΙΧΕΙΡΗΜΑΤΙΚΩΝ ΚΙΝΔΥΝΩΝ ΑΝΑΛΥΣΗ ΕΠΙΧΕΙΡΗΜΑΤΙΚΩΝ ΚΙΝΔΥΝΩΝ ΙΟΡΔΑΝΗΣ ΕΛΕΥΘΕΡΙΑΔΗΣ jordan@uom.gr Κτήριο Η- Θ γραφείο 402 Τηλ. 2310-891-591 DAN BORGE «Η διαχείριση του κινδύνου είναι δυνατό να μας βοηθήσει να αρπάξουμε μια ευκαιρία

Διαβάστε περισσότερα

Agile Προσέγγιση στη Διαχείριση Έργων Λογισμικού

Agile Προσέγγιση στη Διαχείριση Έργων Λογισμικού Agile Προσέγγιση στη Διαχείριση Έργων Λογισμικού Ενότητα 2- Οι αρχές της agile προσέγγισης Δρ. Δημήτριος Τσέλιος Καθηγητής Εφαρμογών Τμήμα Μηχανικών Πληροφορικής Τ.Ε.- ΤΕΙ Θεσσαλίας Μεταπτυχιακό Πρόγραμμα

Διαβάστε περισσότερα

ΚΑΙΝΟΤΟΜΕΣ ΛΥΣΕΙΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗΣ ΟΔΗΓΟΣ E-LEARNING

ΚΑΙΝΟΤΟΜΕΣ ΛΥΣΕΙΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗΣ ΟΔΗΓΟΣ E-LEARNING ΚΑΙΝΟΤΟΜΕΣ ΛΥΣΕΙΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗΣ ΑΘΗΝΑ 2014 1 1. Τι είναι το e-learning; Το e-learning, η ηλεκτρονική μάθηση, είναι μια διαδικασία μάθησης και ταυτόχρονα μια μεθοδολογία εξ αποστάσεως εκπαίδευσης

Διαβάστε περισσότερα

Βασίλειος Κοντογιάννης ΠΕ19

Βασίλειος Κοντογιάννης ΠΕ19 Ενότητα2 Προγραμματιστικά Περιβάλλοντα Δημιουργία Εφαρμογών 5.1 Πρόβλημα και Υπολογιστής Τι ονομάζουμε πρόβλημα; Πρόβλημα θεωρείται κάθε ζήτημα που τίθεται προς επίλυση, κάθε κατάσταση που μας απασχολεί

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

ΑΞΙΟΛΟΓΗΣΗ (THE MATRIX)

ΑΞΙΟΛΟΓΗΣΗ (THE MATRIX) ΕΠΙΧΕΙΡΗΜΑΤΙΚΟ ΠΑΙΧΝΙΔΙ PLAY4GUIDANCE ΑΞΙΟΛΟΓΗΣΗ (THE MATRIX) Συγγραφέας: Jan M. Pawlowski, Hochschule Ruhr West (HRW) Page 1 of 7 Κατηγορία Ικανότητας Περιγραφή Ικανότητας Περιγραφή του επιπέδου επάρκειας

Διαβάστε περισσότερα

Στάδιο Εκτέλεσης

Στάδιο Εκτέλεσης 16 ΚΕΦΑΛΑΙΟ 1Ο 1.4.2.2 Στάδιο Εκτέλεσης Το στάδιο της εκτέλεσης μίας έρευνας αποτελεί αυτό ακριβώς που υπονοεί η ονομασία του. Δηλαδή, περιλαμβάνει όλες εκείνες τις ενέργειες από τη στιγμή που η έρευνα

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ Δομή Παρουσίασης

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Εισαγωγή, Βασικές Έννοιες, Οφέλη και Κίνδυνοι

Εισαγωγή, Βασικές Έννοιες, Οφέλη και Κίνδυνοι Εισαγωγή, Βασικές Έννοιες, Οφέλη και Κίνδυνοι Ευθύμιος Ταμπούρης tambouris@uom.gr Επιστημονική Επιχειρηματική Χρήση των Η/Υ Η επιστημονική κοινότητα ασχολείται με τη λύση πολύπλοκων μαθηματικών προβλημάτων

Διαβάστε περισσότερα

2.5.1 Χρήση δεξιοτήτων αρχειοθέτησης για τη διατήρηση ενός καθιερωμένου συστήματος

2.5.1 Χρήση δεξιοτήτων αρχειοθέτησης για τη διατήρηση ενός καθιερωμένου συστήματος 2.5 Σύστημα αρχειοθέτησης, έγγραφα και βάσεις δεδομένων 2.5.1 Χρήση δεξιοτήτων αρχειοθέτησης για τη διατήρηση ενός καθιερωμένου συστήματος Να είναι σε θέση να διατηρήσει ένα καθιερωμένο, ηλεκτρονικό και

Διαβάστε περισσότερα

Βάσεις δεδομένων και Microsoft Access

Βάσεις δεδομένων και Microsoft Access Περιεχόμενα Κεφάλαιο 1 Βάσεις δεδομένων και Microsoft Access... 7 Κεφάλαιο 2 Microsoft Access 2010... 16 Κεφάλαιο 3 Σχεδιασμός βάσης δεδομένων και δημιουργία πίνακα... 27 Κεφάλαιο 4 Προβολές πινάκων και

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ ΜΕΡΛΙΑΟΥΝΤΑΣ ΣΤΕΦΑΝΟΣ, ΠΕ19 ΚΕΦΑΛΑΙΟ 3 Αλγόριθμοι 3. Αλγόριθμοι 2 3. Αλγόριθμοι 3.1 Η έννοια του αλγορίθμου 3.2 Χαρακτηριστικά αλγορίθμου 3.3 Ανάλυση αλγορίθμων

Διαβάστε περισσότερα

Μηχανική Μάθηση Εργασία 2

Μηχανική Μάθηση Εργασία 2 Πανεπιστήμιο Ιωαννίνων Ακαδ. Έτος 2014-15 Τμήμα Μηχανικών Η/Υ & Πληροφορικής Εαρινό Εξάμηνο Παρασκευάς Τσανταρλιώτης Α.Μ. 318 Μηχανική Μάθηση Εργασία 2 Ο κώδικας για τις παρακάτω ασκήσεις είναι διαθέσιμος

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. 4o Εργαστήριο Σ.Α.Ε

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. 4o Εργαστήριο Σ.Α.Ε ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα 4o Εργαστήριο Σ.Α.Ε Ενότητα : Μελέτη και Σχεδίαση Σ.Α.Ε Με χρήση του MATLAB Aναστασία Βελώνη Τμήμα Η.Υ.Σ Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000)

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000) Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000) Πρόκειται για την έρευνα που διεξάγουν οι επιστήμονες. Είναι μια πολύπλοκη δραστηριότητα που απαιτεί ειδικό ακριβό

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος Η έννοια του προβλήματος 1. Αναφέρετε μερικά από τα προβλήματα που συναντάτε στην καθημερινότητά σας. Απλά προβλήματα Ποιο δρόμο θα ακολουθήσω για να πάω στο σχολείο; Πως θα οργανώσω μια εκδρομή; Πως θα

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

ΒΑΣΙΚΕΣ ΑΡΧΕΣ ΓΙΑ ΤΗ ΜΑΘΗΣΗ ΚΑΙ ΤΗ ΔΙΔΑΣΚΑΛΙΑ ΣΤΗΝ ΠΡΟΣΧΟΛΙΚΗ ΕΚΠΑΙΔΕΥΣΗ

ΒΑΣΙΚΕΣ ΑΡΧΕΣ ΓΙΑ ΤΗ ΜΑΘΗΣΗ ΚΑΙ ΤΗ ΔΙΔΑΣΚΑΛΙΑ ΣΤΗΝ ΠΡΟΣΧΟΛΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΒΑΣΙΚΕΣ ΑΡΧΕΣ ΓΙΑ ΤΗ ΜΑΘΗΣΗ ΚΑΙ ΤΗ ΔΙΔΑΣΚΑΛΙΑ ΣΤΗΝ ΠΡΟΣΧΟΛΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΑΝΑΓΝΩΡΙΖΟΝΤΑΣ ΤΗ ΔΙΑΦΟΡΕΤΙΚΟΤΗΤΑ & ΑΝΑΠΤΥΣΣΟΝΤΑΣ ΔΙΑΦΟΡΟΠΟΙΗΜΕΝΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ Διαστάσεις της διαφορετικότητας Τα παιδιά προέρχονται

Διαβάστε περισσότερα

ΕΡΓΑΣΙΑ ΣΤΗΝ ΑΝΑΠΤΥΞΙΑΚΗ ΕΚΠΑΙΔΕΥΤΙΚΗ ΨΥΧΟΛΟΓΙΑ

ΕΡΓΑΣΙΑ ΣΤΗΝ ΑΝΑΠΤΥΞΙΑΚΗ ΕΚΠΑΙΔΕΥΤΙΚΗ ΨΥΧΟΛΟΓΙΑ 1 ΕΡΓΑΣΙΑ ΣΕ ΜΙΑ ΑΠΟ ΤΙΣ 12 ΑΡΧΕΣ ΤΗΣ ΜΑΘΗΣΗΣ ΑΡΧΗ ΤΗΣ ΜΑΘΗΣΗΣ: Ενεργός συμμετοχή (βιωματική μάθηση) ΘΕΜΑ: Παράδοση στο μάθημα των «ΛΕΙΤΟΥΡΓΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ», για τον τρόπο διαχείρισης των σκληρών δίσκων.

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Διοίκηση Παραγωγής και Υπηρεσιών

Διοίκηση Παραγωγής και Υπηρεσιών Διοίκηση Παραγωγής και Υπηρεσιών Εισαγωγή -3 Γιώργος Ιωάννου, Ph.D. Αναπληρωτής Καθηγητής Σύνοψη διάλεξης Σχεδιασμός διαδικασιών ορισμός Συστημική προσέγγιση Μεθοδολογίες σχεδιασμού διαδικασιών Διαγράμματα

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Λήψη Αποφάσεων και Πληροφορίες

Λήψη Αποφάσεων και Πληροφορίες Λήψη Αποφάσεων και Πληροφορίες Διαδικασία λήψεως αποφάσεων Δεδομένα - πληροφορίες και managers Πληροφοριακά συσυστήματα και οργανισμοί Λάθη και επιλογές κατα τη λήψη αποφάσεων 1 1 Είδη αποφάσεων - προβληµάτων

Διαβάστε περισσότερα

Διαδικασία Ελέγχου Μηδενικών Υποθέσεων

Διαδικασία Ελέγχου Μηδενικών Υποθέσεων Διαδικασία Ελέγχου Μηδενικών Υποθέσεων Πέτρος Ρούσσος, Τμήμα Ψυχολογίας, ΕΚΠΑ Η λογική της διαδικασίας Ο σάκος περιέχει έναν μεγάλο αλλά άγνωστο αριθμό (αρκετές χιλιάδες) λευκών και μαύρων βόλων: 1 Το

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Περίληψη Διδακτορικής Διατριβής ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πανεπιστήμιο Αιγαίου. Τμήμα Περιβάλλοντος. Ευστράτιος Γιαννούλης

Περίληψη Διδακτορικής Διατριβής ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πανεπιστήμιο Αιγαίου. Τμήμα Περιβάλλοντος. Ευστράτιος Γιαννούλης Μοντελοποίηση και βελτιστοποίηση του ενεργειακού συστήματος με την χρήση κατανεμημένης παραγωγής και ανανεώσιμων πηγών ενέργειας. H τεχνολογική διάσταση Περίληψη Διδακτορικής Διατριβής ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνολογία Λογισμικού

Πληροφορική 2. Τεχνολογία Λογισμικού Πληροφορική 2 Τεχνολογία Λογισμικού 1 2 Κρίση Λογισμικού (1968) Στην δεκαετία του 1970 παρατηρήθηκαν μαζικά: Μεγάλες καθυστερήσεις στην ολοκλήρωση κατασκευής λογισμικών Μεγαλύτερα κόστη ανάπτυξης λογισμικού

Διαβάστε περισσότερα

Διασπορά ατμοσφαιρικών ρύπων

Διασπορά ατμοσφαιρικών ρύπων Διασπορά ατμοσφαιρικών ρύπων Καθηγητής Δημοσθένης A. Σαρηγιάννης Εργαστήριο Περιβαλλοντικής Μηχανικής Τμήμα Χημικών Μηχανικών Πολυτεχνική Σχολή Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Βασικές ατμοσφαιρικές

Διαβάστε περισσότερα

ΣΗΜΕΙΩΣΕΙΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ «ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ»

ΣΗΜΕΙΩΣΕΙΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ «ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ» ΣΗΜΕΙΩΣΕΙΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ «ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ» Κωνσταντίνος Π. Φερεντίνος Διδάσκων ΠΔ 407/80 Οι σημειώσεις αυτές αναπτύχθηκαν στα πλαίσια του προγράμματος «ΕΠΕΑΕΚ 2 Πρόγραμμα Αναβάθμισης

Διαβάστε περισσότερα

ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ Ανακαλύψτε νέες επιχειρήσεις

ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ Ανακαλύψτε νέες επιχειρήσεις ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ Ανακαλύψτε νέες επιχειρήσεις Ent-teach Κεφάλαιο 2 Αναγνώριση ευκαιριών Περιγραφή της εκπαιδευτικής δραστηριότητας Αυτή η εκπαιδευτική δραστηριότητα στοχεύει να βοηθήσει τους

Διαβάστε περισσότερα

Απελευθερώστε τη δυναμική της επιχείρησής σας

Απελευθερώστε τη δυναμική της επιχείρησής σας Απελευθερώστε τη δυναμική της επιχείρησής σας Εφαρμοσμένες ΛΥΣΕΙΣ για Μικρομεσαίες Επιχειρήσεις Συμβουλευτικές Υπηρεσίες Εκπαιδευτικά Σεμινάρια Ανάπτυξη Πωλήσεων Ανδρόμαχος Δημητροκάλλης, MBA Management

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

οικονομικές τάσεις Εκτεταμένη συνεργασία της εφοδιαστικής αλυσίδας. έργου FLUID-WIN το οποίο χρηματοδοτήθηκε από το 6ο Πρόγραμμα Πλαίσιο Παγκόσμιες

οικονομικές τάσεις Εκτεταμένη συνεργασία της εφοδιαστικής αλυσίδας. έργου FLUID-WIN το οποίο χρηματοδοτήθηκε από το 6ο Πρόγραμμα Πλαίσιο Παγκόσμιες Συνοπτική παρουσίαση του ευνητικού έργου FLUID-WIN το οποίο χρηματοδοτήθηκε από το 6ο Πρόγραμμα Πλαίσιο Ενοποίηση τρίτων παρόχων υπηρεσιών με ολόκληρη την εφοδιαστική αλυσίδα σε πολυλειτουργικές πλατφόρμες

Διαβάστε περισσότερα

Διδακτική της Πληροφορικής ΙΙ

Διδακτική της Πληροφορικής ΙΙ Διδακτική της Πληροφορικής ΙΙ Ομάδα Γ Βότσης Ευστάθιος Γιαζιτσής Παντελής Σπαής Αλέξανδρος Τάτσης Γεώργιος Προβλήματα που αντιμετωπίζουν οι αρχάριοι προγραμματιστές Εισαγωγή Προβλήματα Δυσκολίες Διδακτικό

Διαβάστε περισσότερα

Τι μαθησιακός τύπος είναι το παιδί σας;

Τι μαθησιακός τύπος είναι το παιδί σας; Για τους γονείς και όχι μόνο από το Τι μαθησιακός τύπος είναι το παιδί σας; Ακουστικός, οπτικός ή μήπως σφαιρικός; Ανακαλύψτε ποιος είναι ο μαθησιακός τύπος του παιδιού σας, δηλαδή με ποιο τρόπο μαθαίνει

Διαβάστε περισσότερα

ΙV. Πρόβλεψης της Ζήτησης Η Σημασία της Πρόβλεψης της Ζήτησης

ΙV. Πρόβλεψης της Ζήτησης Η Σημασία της Πρόβλεψης της Ζήτησης Η Σημασία της Πρόβλεψης της Ζήτησης 150 Η πρόβλεψη της μελλοντικής ζήτησης είναι ιδιαίτερα σημαντική: Είναι απαραίτητη για τον προγραμματισμό του ανάλογου ανθρώπινου δυναμικού έτσι ώστε η επιχείρηση να

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

Εφαρμοσμένη Βελτιστοποίηση

Εφαρμοσμένη Βελτιστοποίηση Εφαρμοσμένη Βελτιστοποίηση Ενότητα 1: Το πρόβλημα της βελτιστοποίησης Καθηγητής Αντώνιος Αλεξανδρίδης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Σημείωμα Αδειοδότησης Το

Διαβάστε περισσότερα

Υλοποίηση Συστήματος Ανίχνευσης Εισβολών σε Περιβάλλον Android για Ασύρματα Δίκτυα Πρόσβασης

Υλοποίηση Συστήματος Ανίχνευσης Εισβολών σε Περιβάλλον Android για Ασύρματα Δίκτυα Πρόσβασης Πανεπιστήμιο Δυτικής Μακεδονίας Πολυτεχνική Σχολή Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών Υλοποίηση Συστήματος Ανίχνευσης Εισβολών σε Περιβάλλον Android για Ασύρματα Δίκτυα Πρόσβασης Ράδογλου

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική ΕΕΟ 11 Η χρήση στατιστικών εργαλείων στην εκτιμητική 1. Εισαγωγή 2. Προϋποθέσεις χρήσης των Αυτοματοποιημένων Εκτιμητικών Μοντέλων (ΑΕΜ) 3. Περιορισμοί στη χρήση των ΑΕΜ εφόσον έχουν πληρωθεί οι προϋποθέσεις

Διαβάστε περισσότερα

ΠΥΘΙΑ 2η ΕΚΔΟΣΗ. Μονάδα Προβλέψεων και Στρατηγικής Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Ηλεκτρονικών

ΠΥΘΙΑ 2η ΕΚΔΟΣΗ. Μονάδα Προβλέψεων και Στρατηγικής Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Ηλεκτρονικών ΠΥΘΙΑ 2η ΕΚΔΟΣΗ Επιχειρησιακές Προβλέψεις Σύστημα Υποστήριξης Μονάδα Προβλέψεων και Στρατηγικής Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Ηλεκτρονικών Υπολογιστών http://www.fsu.gr

Διαβάστε περισσότερα

Σχεδιασµός βασισµένος σε συνιστώσες

Σχεδιασµός βασισµένος σε συνιστώσες Σχεδιασµός βασισµένος σε συνιστώσες 1 Ενδεικτικά περιεχόµενα του κεφαλαίου Ποια είναι τα "άτοµα", από τα οποία κατασκευάζονται οι υπηρεσίες; Πώς οργανώνουµε τις συνιστώσες σε ένα αρµονικό σύνολο; Τι είναι

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ. Χρηματοδότηση Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

i Σύνολα w = = = i v v i=

i Σύνολα w = = = i v v i= ΜΕΤΡΑ ΘΕΣΗΣ ΆΣΚΗΣΗ Η βαθμολογία στα 0 μαθήματα ενός μαθητή είναι: 3, 9, 6, 0, 5,,, 0, 0, 4. Να υπολογίσετε: α) Τη μέση τιμή. β) Τη διάμεσο. Απάντηση t t + t + t 0 = = = = 3 + 9 + 6 + 0 + 5 + + + 0 + 0

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι Συναίνεση χωρίς την παρουσία σφαλμάτων Κατανεμημένα Συστήματα Ι 4η Διάλεξη 27 Οκτωβρίου 2016 Παναγιώτα Παναγοπούλου Κατανεμημένα Συστήματα Ι 4η Διάλεξη 1 Συναίνεση χωρίς την παρουσία σφαλμάτων Προηγούμενη

Διαβάστε περισσότερα