ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ"

Transcript

1 ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ Ανάλυση Οικονομικών Δεδομένων με Χρήση Τεχνικών Εξόρυξης Μεταπτυχιακός φοιτητής: Ζαβουδάκης Γεώργιος. Α.Μ. 238 Επιβλέπων καθηγητής: Μεγαλοοικονόμου Βασίλειος. Πάτρα

2 - 2 -

3 ΠΕΡΙΛΗΨΗ Μετά την μεγάλη έξαρση της τεχνολογικής ανάπτυξης ο όγκος των δεδομένων-πληροφοριών σήμερα είναι τεράστιος και όσο περνάνε τα χρόνια θα μεγαλώνει ακόμα περισσότερο. Είναι βέβαιο λοιπόν ότι ζούμε στην κοινωνία της πληροφορίας, όπου η μετατροπή των δεδομένων σε πληροφορία απαιτείται να οδηγεί στη μετατροπή της πληροφορίας σε γνώση. Έτσι δημιουργήθηκε η ανάγκη επεξεργασίας αυτών των δεδομένων και η μετατροπή τους σε χρήσιμες πληροφορίες που θα βοηθήσουν στην λήψη αποφάσεων. Οι τεχνικές εξόρυξης αποτελούν ένα σημαντικό εργαλείο που μας βοηθά να αντλήσουμε γνώση από μεγάλους όγκους δεδομένων και αν σκεφτούμε ότι όλα αυτά μπορούν να συνδυαστούν με στατιστικές μεθόδους τότε εύκολα μπορούμε να κάνουμε ανάκτηση πληροφορίας. Η συνύπαρξη ετερόκλητων επιστημονικών πεδίων όπως της στατιστικής, της μηχανικής εκμάθησης, της θεωρίας της πληροφορίας και των υπολογιστικών διαδικασιών, έχει δημιουργήσει μια νέα επιστήμη με δυναμικά εργαλεία. Η επιστήμη αυτή καλείται «Εξόρυξη Δεδομένων (ΕΔ)» (Data Mining) και είναι μέρος της διαδικασίας «Ανακάλυψης Γνώσης από Βάσεις Δεδομένων» (Knowledge Discovery in Databases - KDD). Τα εργαλεία της ΕΔ είναι οι αλγόριθμοί της, οι οποίοι επιχειρούν να βρουν χρήσιμα και κατανοητά πρότυπα στα δεδομένα. Κύριος στόχος της παρούσας Διπλωματικής Εργασίας είναι η συγκέντρωση βασικών αλγορίθμων και μεθόδων που επιλέγουν και καθαρίζουν δεδομένα, αναγνωρίζουν πρότυπα, βελτιστοποιούν ένα σύστημα διαχείρισης και συσταδοποιούν δεδομένα. Θα δώσουμε έμφαση σε αλγορίθμους που είναι κατάλληλοι για χρονικά οικονομικά δεδομένα. Εκτός από την καταγραφή των μεθόδων και εφαρμογών της Εξόρυξης δεδομένων και της KDD, θα εφαρμόσουμε τεχνικές συσταδοποίησης σε ένα σύνολο δεδομένων, το οποίο περιλαμβάνει οικονομικά δεδομένα από τρεις διαφορετικές κατηγορίες: τιμές των μετοχών υψηλής κεφαλαιοποίησης του δείκτη Nasdaq, η διαχρονική ισοτιμία Ευρώ/δολλαρίου και η διαχρονική διαμόρφωση των τιμών του πετρελαίου/ανα βαρέλι στις διεθνείς αγορές

4 Η εργασία αυτή χωρίζεται σε πέντε κεφάλαια: Εισαγωγή, θεωρητικό υπόβαθρο, μεθοδολογία, υλοποίηση πρακτικής εφαρμογής και συμπεράσματα. Στο κεφάλαιο 1 κάνουμε μια πρώτη γνωριμία με την Εξόρυξη γνώσης από Δεδομένα,στο κεφάλαιο 2 γίνεται η βιβλιογραφική ανασκόπηση και παρουσιάζεται αναλυτικά όλο το θεωρητικό υπόβαθρο των μεθόδων που θα χρησιμοποιηθούν. Στο κεφάλαιο 3 παρουσιάζονται οι μεθοδολογίες (μέθοδοι εξόρυξης για συσταδοποίηση, κατηγοριοποίηση και πρόβλεψη) που χρησιμοποιήθηκαν για τη μελέτη, ενώ στο επόμενο κεφάλαιο παρουσιάζεται μια πρακτική εφαρμογή των παραπάνω ως αποτελέσματα των μεθοδολογιών αυτών. Και τέλος, στο κεφάλαιο 5 παρουσιάζονται κάποια συμπεράσματα που μπορούμε να εξάγουμε από την υλοποίηση της πρακτικής εφαρμογής. Η εργασία αυτή έχει ως στόχο να αναδείξει την σχέση που μπορεί να υπάρξει ανάμεσα στην Οικονομική επιστήμη και σε αυτήν της Τεχνητής Νοημοσύνης, εστιάζοντας κυρίως στο κατά πόσο η δεύτερη μπορεί να δώσει λύσεις σε καίρια ζητήματα, προβλήματα αλλά και προκλήσεις που παρουσιάζονται στο σύγχρονο οικονομικό περιβάλλον. Το μέσο για την εκπλήρωση αυτού του στόχου είναι οι τεχνικές Data Mining, που στα ελληνικά σαν όρος, αποδίδονται ως Τεχνικές Εξόρυξης Δεδομένων. Για την υλοποίηση της εργασίας αυτής, σαν πηγές χρησιμοποιήθηκαν πολλά επιστημονικά βιβλία που σχετίζονται με την Οικονομία, τα Χρηματοοικονομικά, την Τεχνητή Νοημοσύνη και τις μεθόδους Data Mining, τις Πολυκριτήριες Τεχνικές Ταξινόμησης αλλά και την Στατιστική. Το αποτέλεσμα από τον συνδυασμό των παραπάνω θα παρουσιαστεί στις σελίδες που θα ακολουθήσουν

5 ABSTRACT After the great upsurge of technological development the volume of currently-information data is huge and as the years pass will grow even more. It is certain, therefore, that we live in the information society, where the transformation of data into information needed to drive the conversion of information into knowledge. This created the need to process this data and turn them into useful information that will help in decision making. The mining techniques are an important tool that helps us to draw knowledge from large volumes of data and if we think that all this can be combined with statistical methods then we can easily retrieve information. The disparate disciplines such as statistics, machine learning, information theory and computational procedures, has created a new science with powerful tools. This science is called "Data Mining (DM)» and is part of the 'Knowledge Discovery from Databases». The tools of DM are the algorithms that are trying to find useful and understandable patterns in data. The main objective of this thesis is the concentration of basic algorithms and methods chosen and cleanse data, recognize patterns, optimize a management system and clustering data. Will emphasize algorithms that are suitable for time economic data. Besides recording the methods and applications of data mining and KDD, we apply clustering techniques to a data set, which includes financial data from three different categories: price-cap stock index Nasdaq, the timeless rate Euro / dollar and the configuration of oil prices / per barrel in international markets. This paper is divided into five chapters: Introduction, theoretical background, methodology, implementation of practical application and conclusions. In Chapter 1, we make a first acquaintance with the Mining Data, in Chapter 2 is the literature review and presented in detail all the theoretical background of the methods used. Methodologies presented in Chapter 3 (mining methods for clustering, classification and prediction) used for the study, while the next chapter presents a practical application of the above as a result of these methodologies. Finally, Chapter 5 presents some conclusions can be drawn from the implementation of the practice

6 This paper aims to highlight the relationship that can exist between economic science and that of Artificial Intelligence, focusing mainly on whether the latter can provide solutions to key issues, problems and challenges presented in today's economic environment. The means to achieve this objective are the technical Data Mining, which in Greek as term, rendered as Technical Data Mining. For the realization of this work, as sources used many scientific books related to the Economy, Finance, Artificial Intelligence and methods Data Mining, the Multicriteria Classification Techniques and Statistics. The result from the combination of the above will be presented in the pages that follow

7 ΠΕΡΙΕΧΟΜΕΝΑ Ευρετήριο εικόνων...9 Ευρετήριο πινάκων ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ Ανακαλύπτοντας την «κρυμμένη γνώση» Data mining στην οικονομία Χρησιμότητα-Εφαρμογές Αξιολόγηση εργαλείων Data Mining Το μέλλον του Data Mining...20 ΚΕΦΑΛΑΙΟ 2: ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Η τεχνική Data Mining / Εξόρυξη από Δεδομένα Η εξόρυξη ως στάδιο ανακάλυψης γνώσης σε βάσεις δεδομένων Προεπεξεργασία των Δεδομένων Η εξόρυξη γνώσης από την σκοπιά των βάσεων δεδομένων Μέθοδοι της τεχνικής Data mining..., Κατηγοριοποίηση-Ταξινόμηση (classification) Ομαδοποίηση-συσταδοποίηση (clustering) Ιεραρχική συσταδοποίηση Διαμεριστική συσταδοποίηση Αξιολόγηση συσταδοποίησης Συσχέτιση (Dependency Modeling) Πρόβλεψη (Prediction) Χρονολογικές σειρές και Data Mining Εισαγωγή στις χρονολογικές σειρές Ανάλυση χρονολογικών σειρών Μέθοδοι μοντελοποίησης των χρονολογικών σειρών Εξόρυξη και ομοιότητα χρονολογικών σειρών

8 Εξόρυξη και ανακάλυψη κρυμμένων προτύπων Ομοιότητα χρονοσειρών Μέτρα ομοιότητας χρονοσειρών Ευκλείδεια απόσταση vs DTW Μέθοδοι πρόβλεψης στις χρονοσειρές Πρόβλεψη οικονομικών δεδομένων Μέθοδοι πρόβλεψης χρονοσειρών Μέθοδοι εξομάλυνσης Διάσπαση χρονοσειρών Ανάλυση ARIMA ΚΕΦΑΛΑΙΟ 3: ΕΦΑΡΜΟΓΕΣ ΑΛΓΟΡΙΘΜΩΝ Βασικά βήματα υλοποίησης της μελέτης Βήμα 1 Συσταδοποίηση Βήμα 2 Κατηγοριοποίηση Βήμα 3 Πρόβλεψη...92 ΚΕΦΑΛΑΙΟ 4: ΥΛΟΠΟΙΗΣΗ ΠΡΑΚΤΙΚΗΣ ΕΦΑΡΜΟΓΗΣ Δεδομένα της μελέτης Προεπεξεργασία δεδομένων Συσταδοποίηση/clustering K-means με μετρική την Ευκλείδεια απόσταση K-means με μετρική την Απόσταση Manhattan Συσταδοποίηση ισοτιμίας και πετρελαίου με το πρόγραμμα weka Κατηγοριοποίηση Πρόβλεψη Πρόβλεψη ισοτιμίας Euro/Doll Σύγκριση με πραγματικές τιμές Πρόβλεψη Oil/Barrel Σύγκριση με πραγματικές τιμές Πρόβλεψη μετοχών δείκτη NASDAQ Σύγκριση με πραγματικές τιμές Συμπεράσματα Βιβλιογραφία-αναφορές

9 ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ Εικόνα 1: Οι ρίζες τις εξόρυξης δεδομένων...24 Εικόνα 2: Τα βασικά βήματα της KDD διαδικασίας...27 Εικόνα 3: Κατηγοριοποίηση των τεχνικών clustering Εικόνα 4: Σχηματική αναπαράσταση ιεραρχικών,συσσωρευτικών και διαιρετικών, αλγορίθμων...42 Εικόνα 5: Σχηματική αναπαράσταση κριτηρίου εγγύτερου γείτονα μεταξύ δύο συστάδων...43 Εικόνα 6: Σχηματική αναπαράσταση κριτηρίου απώτερου γείτονα μεταξύ δύο συστάδων...44 Εικόνα 7: Σχηματική αναπαράσταση κριτηρίου μέσης απόστασης μεταξύ δύο συστάδων...45 Εικόνα 8: Σχηματική αναπαράσταση κριτηρίου του κέντρου βάρους μεταξύ δύο συστάδων...45 Εικόνα 9: Παράδειγμα τιμών Silhouette για 3 clusters τυχαίου πειράματος...50 Εικόνα 10: Γράφημα διακύμανσης τιμών του δείκτη Dunn Εικόνα 11: Η αξία και ο όγκος μια μετοχής κατά την διάρκεια των μηνών Μαΐου και Απριλίου...56 Εικόνα 12: Μεθοδολογία ανάλυσης χρονολογικών σειρών.. 57 Εικόνα 13: Συνεχής χρονολογική σειρά Εικόνα 14: Διακριτή χρονολογική σειρά...58 Εικόνα 15: Κατευθυνόμενος γράφος μοντέλου Markov...62 Εικόνα 16: Γραφική αναπαράσταση ομοίων χρονοσειρών...64 Εικόνα 17: Απόσταση σημείου προς σημείου μεταξύ χρονοσειρών.. 67 Εικόνα 18: Υπολογισμός της απόστασης μεταξύ χρονοσειρών βάσει της μετρικής DTW...68 Eικόνα 19: Απόσταση μεταξύ χρονοσειρών σύμφωνα με τη μετρική απόστασης DΤW.69 Εικόνα 20: Ευκλείδεια απόσταση VS DTW. 70 Εικόνα 21: Η Βασική λειτουργία του αλγορίθμου K-means...88 Εικόνα 22: Διαδικασία απομάκρυνσης θορύβου, μείωσης όγκου και εφαρμογής του k-nn κατηγοριοποιητή Εικόνα 23: Κατηγοριοποίηση με χρήση του αλγορίθμου ΚΝΝ...92 Εικόνα 24: Συναρτήσεις Αυτοσυσχέτισης και Μερικής Αυτοσυσχέτισης για δύο ARMA(1,1) Διαδικασίες...98 Εικόνα 25 : Αρχικά δεδομένα της μετοχής υψηλής κεφαλαιοποίησης American Airlines Group Inc. (AAL) Εικόνα 26 : Αρχικά δεδομένα για τις τιμές του Αργού Πετρελαίου/βαρέλι σε doll

10 Εικόνα 27 : Αρχικά δεδομένα για τις ισοτιμίες Euro/dollar Εικόνα 28: Γραφική αναπαράσταση του Data set των μετοχών του δείκτη Nasdaq πριν την προεπεξεργασία Εικόνα 29: Γραφική αναπαράσταση τιμών του πετρελαίου Εικόνα 30: Γραφική αναπαράσταση τιμών της ισοτιμίας euro/dollar. 107 Εικόνα 31: Data set του δείκτη Nasdaq μετα την πρώτη προεπεξεργασία..108 Εικόνα 32: Data set του δείκτη Nasdaq μετα την δεύτερη προεπεξεργασία-μετασχηματισμός Εικόνα 33: Διαχωρισμός δεδομένων σε 3 συστάδες με τον k-means..110 Εικόνα 34: Οι τιμές silhouettes για κ=3 μετα την 1 η Προεπεξεργασία Εικόνα 35: Οι τιμές silhouettes για κ=4 μετα την 1 η Προεπεξεργασία Εικόνα 36: Οι τιμές silhouettes για κ=5 και κ=6 μετα την 1 η Προεπεξεργασία Εικόνα 37: Οι τιμές silhouettes για κ=8 και κ=10 μετα την 1 η Προεπεξεργασία Εικόνα 38: Οι τιμές silhouettes για κ=3 και κ=4 μετα την 2 η προεπεξεργασία Εικόνα 39: Οι τιμές silhouettes για κ=5 και κ=6 μετα την 2 η προεπεξεργασία Εικόνα 40: Οι τιμές silhouettes για κ=8 και κ=10 μετα την 2 η προεπεξεργασία Εικόνα 41: Η μέση τιμή των silhouettes εκφράζει τη συμπαγότητα των συστάδων μετα την 1 η προεπεξεργασία Εικόνα 42: Βέλτιστη λύση της Matlab μετά την 1 η προεπεξεργασία Εικόνα 43: Η μέση τιμή των silhouettes εκφράζει τη συμπαγότητα των συστάδων μετα την 2 η προεπεξεργασία Εικόνα 44: Βέλτιστη λύση της Matlab μετα την 2 η προεπεξεργασία Εικόνα 45: Οι τιμές silhouettes για κ=3 μετα την 1 η Προεπεξεργασία. (Manhattan distance) Εικόνα 46: Οι τιμές silhouettes για κ=5,κ=6 μετα την 1 η Προεπεξεργασία. (Manhattan distance) Εικόνα 47: Οι τιμές silhouettes για κ=8,κ=10 μετα την 1 η Προεπεξεργασία. (Manhattan distance) Εικόνα 48: Η μέση τιμή των silhouettes εκφράζει τη συμπαγότητα των συστάδων μετα την 1 η προεπεξεργασία(manhattan distance) Εικόνα 49: Οι τιμές silhouettes για κ=3 μετα την 2 η Προεπεξεργασία. (Manhattan distance) Εικόνα 50: Οι τιμές silhouettes για κ=5.κ=6 μετα την 2 η Προεπεξεργασία. (Manhattan distance) Εικόνα 51: Οι τιμές silhouettes για κ=8.κ=10 μετα την 2 η Προεπεξεργασία. (Manhattan distance) Εικόνα 52: Η μέση τιμή των silhouettes εκφράζει τη συμπαγότητα των συστάδων μετα την 2 η προεπεξεργασία(manhattan distance) Εικόνα 53: ARFF αρχεία του πειράματος Εικόνα 54: Συνοπτική εικόνα μιας πρώτης προεπεξεργασίας των δεδομένων της isotimias

11 Εικόνα 55: Συνοπτική εικόνα μιας πρώτης προεπεξεργασίας των δεδομένων Oil/Barrel Εικόνα 56: Επιλογές που μας παρέχει το πρόγραμμα weka κατά το clustering Εικόνα 57: Αποτελέσματα clustering για τα δεδομένα της ισοτιμίας euro/doll..124 Εικόνα 58: Αποτελέσματα clustering για τα δεδομένα Oil/Barrel Εικόνα 59: Folds 1-10 και για N=1,2,3 κοντινότερους γείτονες Εικόνα 60: Το σύνολο εκπαίδευσης (δεξιά) και σύνολο δοκιμής (αριστερά) στη 8 η επανάληψης του crossvalidation. 127 Εικόνα 61: Αποτελέσματα υποδείγματος ARIMA(1,1,1) Εικόνα 62: Προβλέψεις του υποδείγματος ARIMA(1,1,1) Εικόνα 63: Πρόβλεψη με ARIMA(1,1,1) των τελευταίων 200 ημερών της χρονοσειράς της ισοτιμίας Εικόνα 64: Πρόβλεψη με τη μέθοδο ARIMA(1,1,1) της ισοτιμίας. Με μπλέ χρώμα απεικονίζονται οι πραγματικές τιμές και με κόκκινο οι προβλεπόμενες Εικόνα 65: Πρόβλεψη με τo υπόδειγμα ARIMA(1,1,1), ARIMA(2,1,1), ARIMA(1,2,1) της ισοτιμίας. Με μπλέ χρώμα απεικονίζονται οι πραγματικές τιμές Εικόνα 66 : Αποκλίσεις από πραγματικές τιμές με τη μέθοδο ARIMA(1,1,1), ARIMA(2,1,1), ARIMA(1,2,1) της ισοτιμίας Εικόνα 67: Πραγματικά δεδομένα, προβλεφθήσες τιμές και απόλυτα σφάλματα 20 τυχαίων παρατηρήσεων της χρονοσειράς isotimia Εικόνα 68: Αποτελέσματα του υποδείγματος ARIMA(1,1,1) Εικόνα 69: Πρόβλεψη με τη μέθοδο ARIMA(1,1,1), ARIMA(2,1,1), ARIMA(1,2,1) του Oil/barrel. Με μπλε χρώμα απεικονίζονται οι πραγματικές τιμές Εικόνα 70: Αποκλίσεις από πραγματικές τιμές με τη μέθοδο ARIMA(1,1,1), ARIMA(2,1,1), ARIMA(1,2,1) του oil/barrel Εικόνα 71: Πραγματικά δεδομένα, προβλεφθήσες τιμές και απόλυτα σφάλματα 20 τυχαίων παρατηρήσεων της χρονοσειράς oil/barrel Εικόνα 72: Πρόβλεψη με τη μέθοδο ARIMA 5 μετοχών της 2 η συστάδας μετά την 1 η προεπεξεργασία. Με μπλε χρώμα απεικονίζονται οι πραγματικές τιμές και με κόκκινο οι προβλεπόμενες. Η μέση τιμή του MAD όλων των μετοχών για 52 ημέρες είναι 2, Εικόνα 73: Πρόβλεψη με τη μέθοδο ARIMA 5 μετοχών της 2 η συστάδας μετα την 2 η προεπεξεργασία. Με μπλε χρώμα απεικονίζονται οι πραγματικές τιμές και με κόκκινο οι προβλεπόμενες. Η μέση τιμή του MAD όλων των μετοχών για 52 ημέρες είναι 0,

12 ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ Πίνακας 1: Βασικές εργασίες εξόρυξης γνώσης από δεδομένα...25 Πίνακας 2: Συσχετίσεις αγαθών σε μια υπεραγορά...52 Πίνακας 3: Πίνακας μεταβάσεων Α μοντέλου Markov Πίνακας 4: Συνοπτικός πίνακας υποδειγμάτων και συναρτήσεων αυτοσυσχέτισης/μερικης αυτοσυσχέτισης...97 Πίνακας 5: Χρονικά διαστήματα άντλησης δεδομένων Πίνακας 6: Σφάλματα κατηγοριοποίησης για κάθε fold με NN =1. Ο μέσος όρος των σφαλμάτων είναι 0, Πίνακας 7: Σφάλματα κατηγοριοποίησης για κάθε fold με NN =2. Ο μέσος όρος των σφαλμάτων είναι 0, Πίνακας 8: Σφάλματα κατηγοριοποίησης για κάθε fold με NN =3. Ο μέσος όρος των σφαλμάτων είναι 0, Πίνακας 9: Μέση Απόλυτη Απόκλιση (mean absolute deviation, MAD) των ARIMA για την isotimias Πίνακας 10: Μέση Απόλυτη Απόκλιση (mean absolute deviation, MAD) των ARIMA για την oil/barrel Πίνακας 11: Μέση απόλυτη απόκλιση για κάθε μετοχή του παραδείγματος μας/52 μέρες Πίνακας 12: Μέση απόλυτη απόκλιση για κάθε μετοχή του παραδείγματος μας/52 μέρες..138 Πίνακας 13: Σύγκριση του μέσου όρου των MAD όλων των μεθόδων για τις 5 μετοχές της 2 η συστάδας μετά την 1 η προεπεξεργασία Πίνακας 14: Σύγκριση του μέσου όρου των MAD όλων των μεθόδων για τις 5 μετοχές της 2 η συστάδας μετά την 2 η προεπεξεργασία

13 - 13 -

14 ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ 1.1 ΑΝΑΚΑΛΥΠΤΟΝΤΑΣ ΤΗΝ «ΚΡΥΜΜΕΝΗ ΓΝΩΣΗ» Ο 21ος αιώνας έχει χαρακτηριστεί από πολλούς, ειδικούς και μη, συγκεκριμένα και άλλες φορές αυθαίρετα, ως ο αιώνας της πληροφορίας. Τα τελευταία χρόνια κατά την επιχειρησιακή και την επιστημονική έρευνα έχει παρατηρηθεί μια εντυπωσιακή αύξηση του όγκου των δεδομένων που συλλέγονται για την πραγματοποίηση των ερευνών. Πολυεθνικές εταιρίες, όπως για παράδειγμα οι μεγάλες αλυσίδες πολυκαταστημάτων, χρησιμοποιούν terabytes δεδομένων, από τις αγορές που πραγματοποιούν οι πελάτες τους. Στις μέρες μας, η τεχνολογία μας επιτρέπει να συγκεντρώνουμε και να αποθηκεύουμε απεριόριστη πληροφορία σε σχετικό λογισμικό. Μια από τις εργασίες που αποτελούν πρόκληση στην εποχή μας είναι η ανακάλυψη προτύπων, τάσεων και ανωμαλιών σε τεράστια σύνολα δεδομένων, καθώς και η σύνοψή τους μέσω απλών και εύχρηστων μοντέλων. Εκείνοι οι οποίοι είναι σε θέση και έχουν την ικανότητα να συλλέγουν πληροφορίες και δεδομένα, και έπειτα να τα αναλύουν και να τα αξιοποιούν, μοιραία είναι σε θέση να πρωταγωνιστήσουν σε όποιο πεδίο δραστηριοποιούνται. Η πληροφορία και η αξιοποίησή της, καθώς και η ανάλυση διάφορων δεδομένων τα οποία μπορούν να συλλεχθούν δίνουν την δυνατότητα σε κάθε ενδιαφερόμενο να αποκτήσει ένα ανταγωνιστικό πλεονέκτημα στον χώρο στον οποίο δραστηριοποιείται και να πάρει τις βέλτιστες αποφάσεις σε θέματα και διλήμματα που τον αφορούν. Αυτού του είδους οι αναλύσεις, που λαμβάνουν χώρα σε ποιοτικά αλλά και αριθμητικά δεδομένα γίνονται, ανάμεσα σε άλλες και με την βοήθεια της επιστήμης της Τεχνητής Νοημοσύνης, και πιο συγκεκριμένα με την χρήση των τεχνικών Data Mining, οι οποίες δίνουν την δυνατότητα εξαγωγής κανόνων μέσω των ηλεκτρονικών υπολογιστών. Η εργασία αυτή θα εστιάσει στις τεχνικές Data Mining, και στην συνέχεια θα επικεντρώσει σε θέματα οικονομίας που είναι ζωτικής σημασίας για οικονομικούς οργανισμούς αναφέροντας και παρουσιάζοντας έννοιες και στοιχεία που χαρακτηρίζουν αυτά, θα επισημάνει τρόπους και μεθόδους επίλυσης και αντιμετώπισης που προέρχονται από άλλα επιστημονικά πεδία, και τέλος μέσω κάποιων εφαρμογών με την βοήθεια αλγορίθμων οι οποίοι θα εφαρμοστούν σε οικονομικά

15 στοιχεία που έχουν συλλεχθεί, θα καταλήξουμε στο κατά πόσο είναι ικανές αυτές οι τεχνικές στην αντιμετώπιση τέτοιων ζητημάτων. Στον εμπορικό κόσμο και στη σημερινή εποχή πρωταρχικός στόχος από τη σύλληψη μιας ιδέα μέχρι την ίδρυσης μίας εταιρείας είναι το κέρδος. Το μάρκετινγκ είναι η επιστήμη που έχει επιφορτισθεί με το ρόλο της προσέλκυσης δυνητικών πελατών, αύξησης του πελατολογίου και κατ επέκταση εκτόξευση των κερδών. Όμως σε κάθε μεγάλο οργανισμό υπάρχει και ένα άλλο σημαντικό τμήμα.το τμήμα των οικονομικών αναλυτών που με τα κατάλληλα εργαλεία μελετούν διεθνείς δείκτες, μεγάλους όγκους δεδομένων, τάσεις, κάνουν προβλέψεις κτλ. προκειμένου να ετοιμαστούν κατάλληλα reports προς την εκάστοτε διοίκηση η οποία θα πάρει και τις κρίσιμες αποφάσεις. Πώς όμως τροφοδοτείται το σύστημα αυτό με τις κατάλληλες πληροφορίες οι οποίες θα βεβαιώσουν την αδιάλειπτη επιτυχημένη λειτουργία του; Πώς συλλέγονται, αξιοποιούνται και μετατρέπονται σε αξιοποιήσιμες πληροφορίες τα δεδομένα που άπλετα υπάρχουν στον επιχειρηματικό κόσμο; Την απάντηση στα παραπάνω ερωτήματα καλείται να δώσει η επιστήμη της εξόρυξης των δεδομένων μέσω των ισχυρότατων εργαλείων και μεθόδων που διαθέτει. 1.2 DATA MINING ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ Το παγκόσμιο οικονομικό σύστηµα, που έχει διαμορφωθεί στην σημερινή εποχή χαρακτηρίζεται από πολλές αλληλεξαρτήσεις που είναι πάρα πολύ σηµαντικές. Η αλληλεξάρτηση των διαφόρων οικονομιών έχει δύο κυρίως συνιστώσες, το διεθνές εµπόριο αγαθών και υπηρεσιών και την παγκόσμια ολοκλήρωση των χρηµατοπιστωτικών αγορών. Οι επιχειρήσεις πλέον παρακολουθούν τις τάσεις τόσο της εγχώριας όσο και της διεθνούς αγοράς ώστε να παράγουν αγαθά και υπηρεσίες. Επίσης σε συνεχή βάση παρακολουθούν τις διεθνείς τιμές συναλλάγματος και των ενεργειακών πόρων προκειμένου να καταστρώσουν την μελλοντική τους στρατηγική ανάπτυξης. Παράλληλα, η παραγωγικότητα παρουσιάζει σηµαντική αύξηση, αφού η επέκταση του διεθνούς εµπορίου επιτρέπει στις οικονοµίες να ειδικευτούν στην παραγωγή αγαθών και υπηρεσιών που ταιριάζουν στους ανθρώπινους και φυσικούς πόρους τους. Ωστόσο, η επέκταση αυτή υποδηλώνει και την ολοένα αυξανόμενη εξάρτηση των εθνικών οικονομιών από τις

16 εξελίξεις στις υπόλοιπες χώρες. Σε ότι αφορά στην ολοκλήρωση των παγκόσμιων χρηµατοπιστωτικών αγορών, αυτή οδηγεί σε αύξηση την παγκόσμια παραγωγικότητα, όπως συμβαίνει και στην περίπτωση ενός ολοκληρωμένου παγκόσμιου συστήματος εµπορίου, καθώς επιτρέπει στις αποταμιεύσεις να κατευθύνονται στις χρήσεις µε την υψηλότερη απόδοση ανεξάρτητα από τον τόπο διαµονής των αποταμιευτών και επενδυτών. Η πρόβλεψη των τιμών συναλλάγματος και των διεθνών τιμών του πετρελαίου ελκύει το ενδιαφέρον πολλών ερευνητών και επαγγελματιών που δραστηριοποιούνται στις αγορές. Οι τιμές όμως, επηρεάζονται από πολλούς διαφορετικούς πολιτικούς, οικονομικούς, κοινωνικούς, αλλά και ψυχολογικούς παράγοντες, με αποτέλεσμα να καθίσταται αρκετά δύσκολη η πρόβλεψή τους. Αρκετές παραδοσιακές μέθοδοι έχουν χρησιμοποιηθεί στο παρελθόν για τη βραχυχρόνια πρόβλεψη των παραπάνω οικονομικών δεδομένων. Σήμερα η χρήση νέων μεθοδολογιών από το χώρο της εύκαμπτης πληροφορικής (soft computing) παρέχουν στους ερευνητές εργαλεία για το σχεδιασμό μοντέλων υψηλής αποτελεσματικότητας για την πραγματοποίηση βραχυχρόνιων προβλέψεων στον οικονομικό τομέα. Εξ αιτίας των σημαντικών κερδών που μπορεί να προέλθουν από επενδύσεις στις αγορές συναλλάγματος και μετοχών, πολλοί ερευνητές έχουν δημιουργήσει διάφορα μοντέλα για να προβλέψουν τις διακυμάνσεις των ισοτιμιών των νομισμάτων και των τιμών των μετοχών.σήμερα υπάρχουν αρκετά μοντέλα πρόβλεψης τα οποία δίνουν διάφορα επίπεδα επιτυχίας. Ένας άλλος σημαντικός τομέας που εφαρμόζεται η εξόρυξη δεδομένων είναι η οικονομία των οργανισμών και των επιχειρήσεων. Τα οικονομικά δεδομένα κυρίως συλλέγονται από τράπεζες και από άλλους οικονομικούς οργανισμούς. Συνήθως τα δεδομένα είναι αξιόπιστα, ολοκληρωμένα και έχουν υψηλή ποιότητα και απαιτούν συστηματική μέθοδο για την ανάλυση αυτών. H συνεισφορά της εξόρυξης δεδομένων στην επιστήμη της οικονομίας συναντάται στην συλλογή και κατανόηση των δεδομένων, στην βελτίωση δεδομένων (data refinement), στην δημιουργία και εκτίμηση ενός μοντέλου και στην ανάπτυξη αυτού για τυχόν προβλέψεις που θα θελήσουν να γίνουν. Η σωστή ανάλυση των οικονομικών δεδομένων μας διευκολύνει στο να παίρνουμε καλύτερες αποφάσεις ενεργώντας σύμφωνα με την ανάλυση της αγοράς. Τα εργαλεία και οι τεχνικές της εξόρυξης δεδομένων βοηθούν στο να αναλύσουμε τα οικονομικά δεδομένα με τους παρακάτω τρόπους:

17 Τα δεδομένα που συλλέγονται από διάφορα οικονομικά ινστιτούτα, όπως οι τράπεζες,συγκεντρώνονται αρχικά στην αποθήκη δεδομένων (data warehouse). Οι τεχνικές της πολυδιάστατης ανάλυσης δεδομένων χρησιμοποιούνται για την ανάλυση τέτοιων δεδομένων που συλλέγονται στην αποθήκη δεδομένων για τις γενικές ιδιότητές του. Μέθοδοι της εξόρυξης όπως η επιλογή χαρακτηριστικών (feature selection) βοηθάει στην ταυτοποίηση ποικίλων χαρακτηριστικών όπως το επίπεδο εισοδήματος του πελάτη, την εξόφληση ανάλογα με τα έσοδα, την πιστωτική του ιστορία κτλ. Με την επεξεργασία αυτών των χαρακτηριστικών, π.χ. η τράπεζα μπορεί να αποφασίσει για τις πολιτικές δανειοδότησης βάσει των σχετικά χαμηλών κινδύνων. Οι τεχνικές της συσταδοποίησης και της ταξινόμησης βοηθούν τα οικονομικά ινστιτούτα να ομαδοποιούν διάφορους πελάτες που έχουν κοινά χαρακτηριστικά. Η αποτελεσματική συσταδοποίηση και οι μέθοδοι φιλτραρίσματος βοηθούν π.χ. τις τράπεζες να ταυτοποιούν μία ομάδα πελατών, να συσχετίζουν ένα νέο πελάτη με την παρούσα ομάδα και να τους παρέχουν κοινά οφέλη. Τα εργαλεία της εξόρυξης δεδομένων βοηθούν επίσης π.χ. τα οικονομικά ινστιτούτα να αναγνωρίζουν τις απάτες και τα εγκλήματα από παραποιημένα δεδομένα από τις διάφορες βάσεις δεδομένων και από το ιστορικό συναλλαγών που έγιναν από τους πελάτες. 1.3 ΧΡΗΣΙΜΟΤΗΤΑ-ΕΦΑΡΜΟΓΕΣ Στην συγκεκριμένη εργασία θα δούμε πως μπορούν οι τεχνικές αυτές να αποδώσουν στο οικονομικό περιβάλλον, αλλά και γενικότερα στην οικονομία και να αντιμετωπίσουν προβλήματα όπως η πτώχευση των επιχειρήσεων, θέματα διαχείρισης χαρτοφυλακίου και πρόβλεψης της πορείας (όσον αφορά την τιμή) χρηματοοικονομικών προϊόντων, καθώς και πληροφορίες γύρω από την βιωσιμότητα των επιχειρήσεων. Μερικές από τις εφαρμογές της Εξόρυξης Δεδομένων στην οικονομία αλλά και σε άλλους τομείς, στα πλαίσια ανακάλυψης της γνώσης, (Bramer, 2007) είναι: Ανάλυση οργανικών συνθέσεων (analysis of organic compounds). Αυτόματη αφαίρεση (automatic abstracting). Προσδιορισμός απειλών στον κλάδο των πιστώσεων (fraud detection)

18 Πρόβλεψη κατανάλωσης ενέργειας. Οικονομική πρόβλεψη. Ιατρική διάγνωση. Πρόβλεψη τηλεθέασης. Σχεδιασμός παραγωγής. Εκτίμηση ακινήτων. Πώληση προς συγκεκριμένους «στόχους» (Targeted marketing). Ανάλυση κινδύνου από τοξικά (toxic hazard analysis). Βελτιστοποίηση παροχής θερμότητας στα φυτά (thermal power plant optimization). Πρόβλεψη καιρού. Για παράδειγμα, οι Fayyad et al. (1996-b) αναφέρουν ως εφαρμογές της KDD (ανακάλυψη γνώσης από βάσεις δεδομένων) στον χώρο των επιχειρήσεων σε δραστηριότητες όπως: Marketing. Επενδύσεις. Προσδιορισμό απειλών (fraud detection). Βιομηχανική παραγωγή. Τηλεπικοινωνίες. Αγορές σε πολυκαταστήματα/αλυσίδες. Συναλλαγές με τράπεζες/πιστωτικές κάρτες. Στην ουσία ο πραγματικός στόχος της εξόρυξης δεδομένων είναι η αυτόματη ή ημιαυτόματη ανάλυση μεγάλων ποσοτήτων δεδομένα για την εξαγωγή κάποιου ενδιαφέροντος προτύπου που ήταν άγνωστο μέχρι εκείνη τη στιγμή, όπως ομάδες από εγγραφές δεδομένων (συσταδοποίηση), ασυνήθιστες εγγραφές (anomaly detection,outliers) και εξαρτήσεις (κανόνες συσχετίσεων). Αυτό συνήθως συμπεριλαμβάνει τη χρήση βάσης δεδομένων όπως χωρικά ευρετήρια. Αυτά τα πρότυπα ύστερα μπορούν να θεωρηθούν ως μία περιγραφή των δεδομένων εισαγωγής και να χρησιμοποιηθούν για περαιτέρω ανάλυση ή για παράδειγμα στην εκμάθηση μηχανής και στην προγνωστική ανάλυση. Για παράδειγμα, η εξόρυξη δεδομένων θα μπορούσε να προσδιορίσει πολλαπλά σύνολα στα δεδομένα, τα οποία μπορούν να χρησιμοποιηθούν μετά για να εξασφαλίσουν περισσότερο ακριβή αποτελέσματα από ένα σύστημα υποστήριξης αποφάσεων

19 Παρότι η συλλογή δεδομένων και η προετοιμασία δεδομένων, αλλά και η ερμηνεία των αποτελεσμάτων και εκθέσεων δεν αποτελούν μέρος της εξόρυξης δεδομένων, παρ' όλα αυτά ανήκουν στην ανακάλυψη γνώσης από βάσεις δεδομένων σαν κάποια επιπρόσθετα βήματα. 1.4 ΑΞΙΟΛΟΓΗΣΗ ΕΡΓΑΛΕΙΩΝ DATA MINING Εφόσον μια επιχείρηση (για παράδειγμα) έχει πάρει την στρατηγική απόφαση να προχωρήσει στη χρησιμοποίηση των διαδικασιών του Data Mining, θα πρέπει στη συνέχεια να γίνει η επιλογή του κατάλληλου εργαλείου. Υπάρχουν τρία βασικά κριτήρια, τα οποία θα πρέπει κανείς να χρησιμοποιήσει οπωσδήποτε για να μπορέσει να αξιολογήσει ένα εργαλείο Data Mining. Εγκυρότητα. Το εργαλείο για το Data Mining είναι απαραίτητο να έχει την ικανότητα να παράγει όσο το δυνατόν πιο έγκυρα μοντέλα. Η εγκυρότητα των μοντέλων θα πρέπει να μην επηρεάζεται από τις εξωτερικές συνθήκες ή τον θόρυβο των δεδομένων. Ερμηνεία. Θα πρέπει το σύστημα, εκτός από την παραγωγή ορθών μοντέλων, να μπορεί να τα κάνει κατανοητά στον τελικό χρήστη. Θα πρέπει ο χρήστης να αισθάνεται ότι καταλαβαίνει πλήρως την μοντελοποίηση που έχει γίνει, ώστε να μπορεί να κατανοήσει και τα συμπεράσματα που προκύπτουν από την περαιτέρω επεξεργασία. Διασύνδεση. Είναι απαραίτητο να υπάρχει διασύνδεση της διαδικασίας του Data Mining με την επιχειρησιακή λειτουργία της εταιρίας ή γενικότερα του φορέα μου μελετάμε. Έτσι λοιπόν θα πρέπει και το σύστημα για το Data Mining να έχει την δυνατότητα να συνδέεται όσο το δυνατόν με περισσότερα στάδια της λειτουργίας της επιχείρησης ή του φορέα που μελετάμε κάθε φορά και να συλλέγει δεδομένα από διάφορα σημεία της ροής των πληροφοριών. Η ικανοποίηση αυτών των κριτηρίων από ένα σύστημα Data Mining είναι πολύ σημαντική για την παραγωγή αποτελεσματικών και ρεαλιστικών μοντέλων, τα οποία θα έχουν διαχρονικότητα και τη δυνατότητα να προσαρμόζονται στις νέες συνθήκες και στις μεταβολές των δεδομένων

20 1.5 ΤΟ ΜΕΛΛΟΝ ΤΟΥ DATA MINING H εμφάνιση του Data Mining στην αγορά προκάλεσε ανάμεικτα συναισθήματα. Οι πολέμιοι του αμφισβήτησαν ότι μη συστηματικά ερωτήματα ( π.χ. στηριζόμενα στην στατιστική) είναι αδύνατον να οδηγήσουν σε χρήσιμα συμπεράσματα, όμως από την άλλη μεριά οι περισσότεροι έσπευσαν το Data Mining να το υιοθετήσουν. Σε κάθε περίπτωση, η αξία του Data Mining δεν πρέπει να υπερεκτιμηθεί, γιατί κάτι τέτοιο συχνά οδηγεί στην απογοήτευση, όπως για παράδειγμα, συνέβη πριν από κάποια χρόνια με την τεχνητή νοημοσύνη. Το Data Mining είναι ένας νέος τομέας που κερδίζει ολοένα περισσότερο έδαφος, αλλά χρειάζεται ακόμα ανάπτυξη και εξέλιξη. Τα βασικά προβλήματα που αφορούν στη διαχείριση μεγάλου όγκου δεδομένων παραμένουν, για αυτό θα πρέπει οι προσδοκίες από το Data Mining να περιορίζονται σε λογικά επίπεδα. Μερικά από τα προβλήματα που δεν έχουν επιλυθεί πλήρως είναι και τα ακόλουθα: Ανάπτυξη καλύτερων αλγορίθμων για ταξινόμηση, ομαδοποίηση, ανάλυση συνάφειας, αναγνώριση τάσεων, ώστε να μπορούν να χρησιμοποιηθούν σε μεγάλες βάσεις δεδομένων. Ανάπτυξη σχημάτων κωδικοποίησης metadata (δεδομένων τα οποία χαρακτηρίζουν το περιεχόμενο και τη σημασία άλλων δεδομένων) μέσα σε πίνακες, ώστε να μπορεί να γίνει ανάκληση της αντίστοιχης πληροφορίας από το χρήστη. Εύρεση ασφαλιστικών δικλίδων, ώστε να αποφεύγονται περιπτώσεις όπου δεδομένα προσομοιώνονται με κάποιο μοντέλο κατά τύχη. Το πρόβλημα αυτό γίνεται εμφανέστερο καθώς το πρόγραμμα εξετάζει ένα μεγάλο πλήθος παραμέτρων για τον υπολογισμό της συνάφειας με διαφορετικά μοντέλα. Ως αποτέλεσμα, οι διαφορές είναι μικρές και κατά συνέπεια η πιθανότητα σύγχυσης μεγάλη. Ανάπτυξη αποτελεσματικών τρόπων μείωσης των παραμέτρων και του δείγματος που χρησιμοποιούνται. Παρ ότι όσο μεγαλύτερο είναι το δείγμα χρησιμοποιούμε τόσο περισσότερες παραμέτρους μπορούμε να εξετάσουμε, κινδυνεύουμε να χάσουμε τον έλεγχο. Ανάπτυξη σχημάτων αναζήτησης σε μη ομογενή δεδομένα ( π.χ. μείγμα δεδομένων video, φωνής και κειμένου). Aνάπτυξη νέων μεθόδων Data mining οι οποίες επιτρέπουν χρήση γνώσης για τα δεδομένα, ώστε να περιοριστεί το πεδίο αναζήτησης, αντιμετωπίζοντας έτσι όσα προβλήματα δημιουργούνται από έλλειψη ή ασάφεια στα δεδομένα

21 Επέκταση των συστημάτων διαχείρισης δεδομένων (όπως π.χ. η SQL), ώστε να υποστηρίζουν νέες δομές, οι οποίες επιτρέπουν άμεση εξαγωγή στατιστικών στοιχείων. Εφαρμογή των ανωτέρω μεθόδων και σε παράλληλες βάσεις δεδομένων με εκατοντάδες πίνακες, χιλιάδες πεδία και terabytes από δεδομένα. Δημιουργία κατανοητών μοντέλων, συμβιβάζοντας την πολυπλοκότητα με την ευκολία κατανόησης και χρησιμοποιώντας εργαλεία απεικόνισης, με παράλληλη χρήση διαλογικής αναζήτησης από τους αλγορίθμους του Data mining ώστε ο χρήστης να είναι σε θέση καθοδηγεί την αναζήτηση. Τα ερωτήματα που καλείται σήμερα το Data Mining είναι του τύπου Τι συμβαίνει και γιατί;. Τα επόμενα χρόνια θα πρέπει και θα ανταποκριθεί σε ακόμα μεγαλύτερες προκλήσεις, απαντώντας σε ερωτήματα του τύπου Πως μπορώ να διορθώσω το συγκεκριμένο πρόβλημα. Είναι γεγονός πια ότι αυτός ο νέος τομέας εφαρμογής της τεχνητής νοημοσύνης άνοιξε νέους δρόμους στην οικονομία. Οι σωστές πληροφορίες είναι το ισχυρότερο όπλο στην οικονομία γενικότερα και το Data Mining υπόσχεται να το προσφέρει

22 ΚΕΦΑΛΑΙΟ 2: ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 2.1 Η ΤΕΧΝΙΚΗ DATA MINING / ΕΞΟΡΥΞΗ ΑΠΟ ΔΕΔΟΜΕΝΑ Ξεκινώντας θα ήταν σημαντικό να ορίσουμε την έννοια της εξόρυξης δεδομένων. Άρα λοιπόν Εξόρυξη δεδομένων ή ανακάλυψη γνώσης από βάσεις δεδομένων είναι η εξεύρεση μιας ενδιαφέρουσας, αυτονόητης, μη προφανής και πιθανόν χρήσιμης πληροφορίας ή προτύπων από μεγάλες βάσεις δεδομένων με χρήση αλγορίθμων ομαδοποίησης ή κατηγοριοποίησης και των αρχών της στατιστικής, της τεχνητής νοημοσύνης, της μηχανικής μάθησης και των συστημάτων βάσεων δεδομένων. Στόχος της εξόρυξης δεδομένων είναι η πληροφορία που θα εξαχθεί και τα πρότυπα που θα προκύψουν να έχουν δομή κατανοητή προς τον άνθρωπο έτσι ώστε να τον βοηθήσουν να πάρει τις κατάλληλες αποφάσεις. Οι δέκα δημοφιλέστεροι και καλύτεροι αλγόριθμοι της εξόρυξης δεδομένων θα μπορούσαμε να πούμε ότι είναι οι εξής: 1: (61 votes) ταξινόμηση (δέντρο απόφασης). 2: K Means(60 votes) συσταδοποίηση. 3: SVM (58 votes) ταξινόμηση (support vector machine). 4: Apriori (52 votes) κανόνες συσχέτισης. 5: EM (48 votes) στατιστική, συσταδοποίηση (expectation maximization). 6: PageRank (46 votes) ιστοσελίδες. 7: AdaBoost (45 votes) μετα ταξινομητής. 8: ΚNN(45 votes) ταξινόμηση (κοντινότερος γείτονας)

23 9: Naive Bayes (45 votes) στατιστική, ταξινόμηση. 10: CART (34 votes) ταξινόμηση (δέντρο απόφασης). Η επινόηση της Εξόρυξης Δεδομένων τοποθετείται περίπου στα μέσα του 1990 και σήμερα η έννοιά της έχει γίνει συνώνυμη με την έννοια της Εξόρυξης γνώσης από Βάσεις Δεδομένων (Knowledge Discovery In Databases-KDD) η οποία σύμφωνα με τους Fayyas et al.(1996) και Bellazi & Zupan(2008), τονίζει περισσότερο τη διαδικασία ανάλυσης των δεδομένων παρά τις συγκεκριμένες μεθόδους ανάλυσης των δεδομένων. Η KDD είναι μια διεργασία η οποία αποτελείται από 5 στάδια ένα από τα οποία ειναι και η εξόρυξη δεδομένων. Ενδιάμεσα σε αυτά τα 5 στάδια παράγονται συγκεκριμένα προϊόντα τα οποία χρησιμοποιούνται για την πραγματοποίηση επόμενων σταδίων: Αρχικά πρέπει να κατανοηθεί και να αξιοποιηθεί η αρχική γνώση και να αναγνωριστούν οι στόχοι που πρέπει να τεθούν: I. Στο πρώτο στάδιο πρέπει να συγκεντρωθεί και να διαχωριστεί ένα συγκεκριμένο σύνολο δεδομένων πάνω στο οποίο θα πραγματοποιηθεί η εξόρυξη. II. Στο δεύτερο στάδιο πραγματοποιείται ο καθαρισμός και η προεπεξεργασία των δεδομένων που έχουν επιλεγεί στο προηγούμενο στάδιο. III. Στο τρίτο στάδιο πραγματοποιείται η μετατροπή των προηγούμενων δεδομένων με διάφορες τεχνικές μέσα από συγκεκριμένα προγράμματα για κάποιο σκοπό, όπως τη μείωση του μεγέθους του data set. Έπειτα από το τρίτο στάδιο πραγματοποιείται η συσχέτιση των στόχων που έχουν τεθεί στο πρώτο στάδιο, με μια συγκεκριμένη μέθοδο εξόρυξης δεδομένων. Για παράδειγμα, κατηγοριοποίηση ή συσταδοποίηση (Classification or clustering). Πριν το τέταρτο στάδιο, την πραγματοποίηση της εξόρυξης δεδομένων επιλέγεται ο αλγόριθμος εξόρυξης γνώσης και η μέθοδος που θα χρησιμοποιηθεί για την αναζήτηση προτύπων δεδομένων. Επίσης ρυθμίζονται οι παράμετροι που πρέπει να χρησιμοποιηθούν. IV. Στο τέταρτο στάδιο πραγματοποιείται η εξόρυξη δεδομένων.ενδιάμεσα στο τέταρτο και στο πέμπτο στάδιο γίνεται η μεταγλώττιση όλης της πληροφορίας που έχει εξαχθεί έπειτα από την

24 πραγματοποίηση όλων των προηγούμενων σταδίων. Σε αυτό το στάδιο μπορεί να πραγματοποιηθεί και απεικόνιση αποτελεσμάτων. V. Στο πέμπτο και τελευταίο στάδιο προκύπτει η γνώση και αξιολογείται. Έπειτα η γνώση αυτή μπορεί να χρησιμοποιηθεί κατευθείαν για την επίλυση ενός ζητήματος.( Fayyad et,1996). Οι τεχνικές Εξόρυξης (Data Mining) είναι ευρύτατα διαδεδομένες σήμερα και εφαρμόζονται σε διάφορα ζητήματα εταιριών, επιστημονικά και ερευνητικά ζητήματα, όπως για παράδειγμα στην οικονομία, ακόμη και σε κυβερνητικά ζητήματα και πιστεύεται πως η εξόρυξη γνώσης από δεδομένα θα έχει σημαντική θετική επιρροή στη κοινωνία μας σύμφωνα με τους Chakrabarti et H εξόρυξη δεδομένων αποτελεί ένα διεπιστημονικό πεδίο το οποίο έχει τις ρίζες του στη στατιστική, την τεχνητή νοημοσύνη, τη μηχανική μάθηση και τις βάσεις δεδομένων. Εικόνα 1: Οι ρίζες της εξόρυξης δεδομένων. Οι εργασίες που πραγματοποιούνται κατά την Εξόρυξη δεδομένων χωρίζονται σε εργασίες για περιγραφή και πρόβλεψη. Η πρόβλεψη προϋποθέτει τη χρησιμοποίηση διαφόρων γνωστών μεταβλητών για την εκτίμηση μελλοντικών άγνωστων τιμών και η περιγραφή αφορά τη δημιουργία κατανοητών για τον άνθρωπο μοντέλων που θα περιγράφουν τα δεδομένα(bellazi & Zupan 2008). Γενικά η πρόβλεψη με την περιγραφή δεν έχουν μεγάλες διαφορές και οι στόχοι τους υλοποιούνται με διάφορες μεθόδους εξόρυξης δεδομένων

25 Ανάλυση Οικονομικών Δεδομένων με Χρήση Τεχνικών Εξόρυξης Οι κυριότερες μέθοδοι είναι οι εξής: Η κατηγοριοποίηση (classification) εκπαιδεύει μία συνάρτηση, η οποία κατηγοριοποιεί κάποια δεδομένα σε μια από διάφορες κλάσεις που δημιουργούνται (Fayyad et, 1996), (Hand, 1981), (Weiss & Kulikowski, 1991). Παραδείγματα μεθόδων κατηγοριοποίησης συναντώνται στη πρόγνωση μέσα από ιατρικά δεδομένα, για τις τάσεις της οικονομίας κτλ. Η παλινδρόμηση (regression) εκπαιδεύει μια συνάρτηση η οποία αντιστοιχίζει κάποια δεδομένα σε μεταβλητές πρόβλεψης πραγματικών τιμών (Fayyad et, 1996). H συσταδοποίηση (clustering) είναι μια κοινή περιγραφική μέθοδος με την οποία αναζητούνται συστάδες (clusters) για την περιγραφή των δεδομένων, έτσι ώστε τα σημεία της συστάδας να είναι όσο πιο όμοια μεταξύ τους και τα σημεία σε διάφορες συστάδες να είναι όσο το δυνατό λιγότερο όμοια μεταξύ τους. Όπως έχει αναφερθεί η Εξόρυξη Δεδομένων βρίσκει πολλές εφαρμογές τα τελευταία χρόνια σε διάφορους τομείς της κοινωνίας. Ένας πολύ σημαντικός τομέας που έχει άμεση εφαρμογή το Data Mining είναι και η οικονομία καθώς εκεί βρίσκεται συγκεντρωμένος τεράστιος όγκος δεδομένων. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ ΠΡΟΒΛΕΠΤΙΚΑ ΜΟΝΤΕΛΑ ΠΡΟΒΛΕΨΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΠΕΡΙΓΡΑΦΙΚΑ ΜΟΝΤΕΛΑ ΠΑΛΙΝΔ ΑΝΑΛΥΣΗ ΤΩΝ ΡΟΜΗΣΗ ΧΡΟΝΟΣΕΙΡΩΝ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΚΑΝΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗ ΑΝΑΚΑΛΥΨΗ ΣΥΣΧΕΤΙΣΕΩΝ ΣΥΝΟΨΕΩΝ ΑΚΟΛΟΥΘΙΩΝ Πίνακας 1: Βασικές εργασίες εξόρυξης γνώσης από δεδομένα. Όπως φαίνεται στον πίνακα 1, οι τεχνικές εξόρυξης των δεδομένων διαφέρουν ανάλογα με το μοντέλο στο οποίο υλοποιούνται. Στα περιγραφικά μοντέλα, λόγω της αναγνώρισης των προτύπων, κατατάσσονται οι τεχνικές της συσταδοποίησης, της παρουσίασης συνόψεων, της ανακάλυψης ακολουθιών και των κανόνων συσχετίσεων. Ενώ στα προβλεπτικά μοντέλα, λόγω του ότι προβλέπουν μία τιμή ή κάποιες τιμές, καταχωρούνται οι τεχνικές της κατηγοριοποίησης, της παλινδρόμησης, της ανάλυσης των χρονολογικών σειρών και της πρόβλεψης

26 2.2 Η ΕΞΟΡΥΞΗ ΩΣ ΣΤΑΔΙΟ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Σύμφωνα με την Margaret Dunham οι όροι ανακάλυψη γνώσης σε βάσεις δεδομένων (Knowledge Discovery in Databases,KDD) και εξόρυξη γνώσης από δεδομένα (data mining) συχνά χρησιμοποιούνται εναλλακτικά για την ίδια έννοια. Τα τελευταία χρόνια ο όρος KDD έχει χρησιμοποιηθεί για να εκφράσει μια διαδικασία που αποτελείται από πολλά βήματα, ένα από τα οποία είναι η εξόρυξη γνώσης από δεδομένα. Σύμφωνα με τα παραπάνω έχουμε τους δύο παρακάτω ορισμούς: Ορισμός 1: Η ανακάλυψη γνώσης σε βάσεις δεδομένων (KDD) είναι η διαδικασία εύρεσης χρήσιμων πληροφοριών και προτύπων στα δεδομένα. Ορισμός 2: H εξόρυξη γνώσης από δεδομένα είναι η χρήση αλγορίθμων για την εξαγωγή των πληροφοριών και προτύπων που παράγονται με την διαδικασία KDD. H KDD διαδικασία πρόκειται για µια διαδικασία πολλών βηµάτων που περιλαµβάνει την κατάλληλη προετοιμασία των δεδομένων, την αναζήτηση προτύπων και την αξιολόγηση της αποκτηθείσας γνώσης. Η KDD διαδικασία δεν είναι τετριμμένη καθώς εμπεριέχει κάποιο βαθµό αυτονοµίας. H KDD είναι μία διαδικασία που περιλαμβάνει πολλά διαφορετικά βήματα. Η είσοδος σε αυτή τη διαδικασία είναι τα δεδομένα, και οι χρήσιμες πληροφορίες που επιθυμούν οι χρήστες είναι η έξοδος. Για να διασφαλιστεί η χρησιμότητα και η ακρίβεια των αυτής της διαδικασίας, συνήθως χρειάζεται η συνεργασία ειδικών του πεδίου εφαρμογής με ειδικούς της διαδικασίας KDD καθ όλη τη διάρκεια της διαδικασίας αυτής. Ακολουθεί σχηματική αναπαράσταση των βημάτων της διαδικασίας KDD:

27 Εικόνα 2: Τα βασικά βήματα της KDD διαδικασίας. Ποιες είναι οι βασικές ενέργειες του κάθε βήματος της KDD διαδικασίας; Ακολουθεί μια σύνοψη των ενεργειών του κάθε βήματος

28 1ο ΒΗΜΑ: Ανάπτυξη και κατανόηση της περιοχής της εφαρμογής. Σε αυτό το προκαταρκτικό στάδιο γίνεται προετοιμασία για την κατανόηση του πλαισίου δράσης. Πρέπει να γίνει σαφές, δηλαδή, ποιες αποφάσεις θα ληφθούν σχετικά με μετασχηματισμούς, αλγορίθμους, αναπαράσταση κ.λπ. Το Βήμα αυτό βοηθά στην κατανόηση των στόχων από τον τελικό χρήστη, καθώς και στην εύρεση του περιβάλλοντος όπου θα δράσει η διαδικασία ανακάλυψης της γνώσης. Στα πλαίσια αυτά περιλαμβάνεται και η προγενέστερη γνώση του υπό εξέταση τομέα. Είναι πιθανό να απαιτηθεί επανάληψη αυτού του Βήματος στην πορεία. 2ο ΒΗΜΑ: Επιλογή και δημιουργία ενός κατάλληλου συνόλου δεδομένων. Έχοντας ορίσει τους στόχους, θα έπρεπε να έχουν προσδιοριστεί και τα δεδομένα που θα χρησιμοποιηθούν. Το Βήμα αυτό περιλαμβάνει τον εντοπισμό των δεδομένων που είναι διαθέσιμα, την απόκτηση επιπρόσθετων αναγκαίων δεδομένων και την ενσωμάτωση όλων αυτών σε ένα σύνολο δεδομένων το οποίο θα περιλαμβάνει τα χαρακτηριστικά (attributes) που θα ληφθούν υπόψη. Το βήμα αυτό είναι πολύ σημαντικό, καθώς η Εξόρυξη Δεδομένων μαθαίνει και ανακαλύπτει από τα δεδομένα που έχει εκείνη τη στιγμή στη διάθεσή της. Σε αυτή τη βάση κατασκευάζονται και τα μοντέλα. Είναι πιθανό, όμως, να προκύψουν προβλήματα στην περίπτωση όπου λείπουν χαρακτηριστικά από κάποιες παρατηρήσεις, καθώς μπορεί να δημιουργηθούν σφάλματα στη μελέτη. Άρα, χρειάζεται η μέγιστη δυνατή συλλογή χαρακτηριστικών. Από την άλλη πλευρά, όμως, αυτή η ανάγκη ανεβάζει το κόστος διεξαγωγής της ανάλυσης. Για το λόγο αυτό, η διαδικασία της KDD αναλαμβάνει να αξιοποιήσει αρχικά το βέλτιστο διαθέσιμο σύνολο δεδομένων και στη συνέχεια επεκτείνεται και παρατηρεί τα αποτελέσματα στα πλαίσια της ανακάλυψης γνώσης και μοντελοποίησης. 3ο ΒΗΜΑ: Προ-επεξεργασία και καθαρισμός δεδομένων. Ένα πολύ σημαντικό σημείο που μας απασχολεί είναι η αξιοπιστία των δεδομένων, η οποία μελετάται μέσα από αυτό το απαραίτητο Βήμα της διαδικασίας. Στα πλαίσια της αναζήτησης ενός

29 αξιόπιστου συνόλου δεδομένων, οφείλουμε να πραγματοποιήσουμε καθαρισμό δεδομένων (data cleaning). Με τη χρήση του όρου αυτού εννοούμε τη διαχείριση ελλειπουσών τιμών (missing values) και την απομάκρυνση θορύβου (noise) ή έκτροπων παρατηρήσεων (outliers). Οι διαδικασίες καθαρισμού των δεδομένων μπορούν να επιτευχθούν μέσω σύνθετων στατιστικών μεθόδων ή χρησιμοποιώντας έναν αλγόριθμο Εξόρυξης Δεδομένων. 4ο ΒΗΜΑ: Μετασχηματισμός δεδομένων. Μέσω αυτού του βήματος, τα δεδομένα μετασχηματίζονται ή παγιώνονται σε μορφές κατάλληλες για εξόρυξη. Για το σκοπό αυτό εφαρμόζονται μέθοδοι μείωσης διαστάσεων (επιλογή χαρακτηριστικού, εξαγωγή και καταγραφή δείγματος) και μετασχηματισμού χαρακτηριστικών (διακριτοποίηση συνεχών μεταβλητών, λειτουργικός μετασχηματισμός). Αποτέλεσμα των εφαρμογών αυτών είναι η μείωση του αριθμού των υπό εξέταση μεταβλητών ή η εύρεση κατάλληλης αντιπροσώπευσης των δεδομένων χωρίς μεταβλητές. 5ο ΒΗΜΑ: Επιλογή της κατάλληλης μεθόδου εξόρυξης δεδομένων. Ύστερα από όσα βήματα έχουμε εκτελέσει, είμαστε σε θέση να αποφασίσουμε ποιον τύπο Εξόρυξης Δεδομένων θα χρησιμοποιήσουμε (ταξινόμηση, παλινδρόμηση, συσταδοποίηση). Αυτή η επιλογή βασίζεται περισσότερο στους στόχους της KDD, αλλά και στα βήματα που έχουν ήδη προηγηθεί. Όπως έχουμε ήδη αναφέρει και θα σχολιάσουμε και παρακάτω, οι δύο βασικοί στόχοι της Εξόρυξης Δεδομένων είναι η περιγραφή και η πρόβλεψη. Οι τεχνικές Εξόρυξης Δεδομένων βασίζονται στην πλειοψηφία τους στην επαγωγική εκμάθηση (inductive learning), όπου κατασκευάζεται ένα σαφές ή εννοούμενο μοντέλο μέσω γενίκευσης ενός επαρκούς αριθμού εκπαιδευτικών παραδειγμάτων (training examples). Βασική προϋπόθεση είναι ότι αυτό το μοντέλο εκπαίδευσης (trained model) θα μπορεί να εφαρμοστεί σε μελλοντικές περιπτώσεις. Επίσης, η στρατηγική αυτή λαμβάνει υπόψη την περίπτωση μετά-εκμάθησης (meta-learning) για το συγκεκριμένο σύνολο των διαθέσιμων δεδομένων

30 6ο ΒΗΜΑ: Επιλογή αλγορίθμου εξόρυξης δεδομένων. Έχοντας ορίσει τη στρατηγική, μπορούμε να επιλέξουμε τον τρόπο επίτευξης του στόχου. Στο στάδιο αυτό εφαρμόζονται ευφυείς μέθοδοι με σκοπό την αναζήτηση ενδιαφερόντων προτύπων γνώσης. Για παράδειγμα, ένας έλεγχος ακρίβειας θα ήταν καλύτερα να γίνει μέσω νευρωνικών δικτύων, ενώ για την κατανόηση της δομής (understandability) θα επιλέγονταν τα δέντρα αποφάσεων. Τα πρότυπα που αναζητούνται θα μπορούσαν να είναι μια συγκεκριμένης αντιπροσωπευτικής μορφής ή ενός συνόλου αντιπροσωπεύσεων, όπως κανόνες ταξινόμησης, δέντρα, παλινδρόμηση, συσταδοποίηση κ.λπ. Η απόδοση και τα αποτελέσματα της μεθόδου εξόρυξης δεδομένων εξαρτώνται από τα προηγούμενα Βήματα. 7ο ΒΗΜΑ: Εκτέλεση αλγορίθμου. Η κάλυψη των προηγούμενων προϋποθέσεων οδηγεί στο επιθυμητό σημείο όπου θα εκτελέσουμε τον επιλεγόμενο αλγόριθμο. Είναι πιθανή η επανάληψη του αλγορίθμου αυτού για αρκετές φορές μέχρι να προκύψει ικανοποιητικό αποτέλεσμα. 8ο ΒΗΜΑ: Αξιολόγηση. Σε αυτό το στάδιο γίνεται εκτίμηση και ερμηνεία των εξορυχθέντων προτύπων (κανόνες, αξιοπιστία κ.λπ.), λαμβάνοντας υπόψη τους στόχους που είχαν τεθεί στο πρώτο Βήμα. Επίσης, παρατηρούμε την επίδραση των Βημάτων 2, 3 και 4 (προεπεξεργασία δεδομένων) στον αλγόριθμο Εξόρυξης Δεδομένων που έχει επιλεγεί μέσα από τα βήματα 5, 6 και 7 (εξόρυξη δεδομένων). Για παράδειγμα, μπορεί να κριθεί αναγκαία η προσθήκη χαρακτηριστικών (μεταβλητών) στο βήμα 4, ώστε να επαναληφθεί η εφαρμογή της αλυσίδας KDD από εκεί. Το Βήμα της αξιολόγησης επικεντρώνεται στην κρίση εάν το προκύπτων μοντέλο είναι κατανοητό και χρήσιμο, καθώς και στην επιλογή των πιο ενδιαφερόντων εξαγόμενων προτύπων. Επιπλέον, στο βήμα αυτό, τεκμηριώνεται η ανακαλυφθείσα γνώση και είναι πλέον διαθέσιμη για περαιτέρω χρήση

31 9ο ΒΗΜΑ: Παρουσίαση και χρήση της ανακαλυφθείσας γνώσης. Στο τελευταίο Βήμα, η εξορυγμένη γνώση ενσωματώνεται στο σύστημα για περαιτέρω δράση (πραγματοποίηση αλλαγών στο σύστημα, μέτρηση επιδράσεων). Η επιτυχία αυτού του βήματος αποδεικνύει την αποτελεσματικότητα χρήσης της αλυσίδας KDD. Επιπλέον, μέσα από αυτό το βήμα γίνεται έλεγχος για επίλυση τυχών συγκρούσεων με προηγούμενη εξορυγμένη γνώση. Είναι πιθανό να αλλάξουν ορισμένες δομές δεδομένων, καθώς κάποιες μεταβλητές μπορεί να μην είναι πλέον διαθέσιμες. Επίσης, μπορεί να αλλάξει η περιοχή δράσης των δεδομένων, καθώς μπορεί να προκύψει για μια μεταβλητή μια τιμή η οποία να μην είχε υποτεθεί πριν. Όπως παρατηρούμε από την απεικόνιση και την καταγραφή των Βημάτων της KDD, τα Βήματα 2, 3 και 4 ορίζουν τη διαδικασία προεπεξεργασία των δεδομένων (data preprocessing). 2.3 ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ(preprocessing). Πριν την εφαρμογή των αλγορίθμων εξόρυξης δεδομένων, το ερευνώμενο σύνολο δεδομένων πρέπει να συναρμολογείται. Καθώς η εξόρυξη δεδομένων μπορεί να αποκαλύψει μόνο τα πρότυπα που πράγματι εμφανίζονται στα δεδομένα, το σύνολο δεδομένων που ερευνούμε, πρέπει να είναι αρκετά μεγάλο για να περιέχει αυτά τα πρότυπα παραμένοντας να εξορυχτεί σε ένα αποδεκτό χρονικό διάστημα. Η προεπεξεργασία είναι απαραίτητη για την ανάλυση πολυπαραγοντικών συνόλων δεδομένων πριν την εξόρυξη δεδομένων. Οι σημερινές βάσεις δεδομένων λόγω του μεγάλου μεγέθους τους είναι ιδιαίτερα ευαίσθητες σε θορυβώδη (με σφάλματα), ελλειπή και ασυνεπή (διαφορετική κωδικοποίηση) δεδομένα. Επίσης πρόβλημα στην επεξεργασία τους αποτελεί η ποικιλία των πηγών από όπου προέρχονται. Έτσι λοιπόν δεδομένα χαμηλής ποιότητας θα οδηγήσουν με μαθηματική ακρίβεια σε χαμηλής ποιότητας αποτελέσματα

32 Υπάρχουν διάφορες τεχνικές-μέθοδοι προεπεξεργασίας δεδομένων: Καθαρισμός των δεδομένων: Με αυτή τη μέθοδο αφαιρούμε δεδομένα και διορθώνουμε την ασυνέπεια τους. Ενσωμάτωση δεδομένων: Το Data Mining μερικές φορές απαιτεί την ενσωμάτωση δεδομένων δηλαδή την ένωση δεδομένων διαφορετικών προελεύσεων (διαφορετικότητα των data stores). Μείωση των δεδομένων: Στρατηγικές μείωσης δεδομένων περιλαμβάνουν μείωση των διαστάσεων, αφαίρεση πλεοναζόντων χαρακτηριστικών, μείωση πολυαριθμίας, και συμπίεσης δεδομένων. Μετασχηματισμός δεδομένων και διακριτοποίηση: Σε αυτό το στάδιο προ-επεξεργασίας τα δεδομένα μετασχηματίζονται ή ενοποιούνται έτσι ώστε η προκύπτον διαδικασία εξόρυξης να είναι πιο αποτελεσματική και τα πρότυπα που θα βρεθούν να είναι ευκολότερο να κατανοηθούν. Διακριτοποίηση των δεδομένων είναι μια άλλη μορφή μετασχηματισμού δεδομένων που μας βοηθά στην ακρίβεια και στην αποδοτικότητα των δεδομένων μας. 2.4 Η ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΤΗΝ ΣΚΟΠΙΑ ΤΩΝ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Η εξόρυξη γνώσης από δεδομένα μπορεί να μελετηθεί από πολλές διαφορετικές σκοπιές. Για παράδειγμα ένας στατιστικός ίσως κοιτούσε τεχνικές όπως η ανάλυση χρονολογικών σειρών, η δοκιμή υποθέσεων και εφαρμογές του θεωρήματος Bayes.Η μελέτη της εξόρυξης από δεδομένα από την σκοπιά των βάσεων δεδομένων περιλαμβάνει όλων των ειδών των εφαρμογών και των τεχνικών εξόρυξης από δεδομένα. Όμως οι πιο χρήσιμες και ενδιαφέρουσες είναι αυτές που έχουν πρακτικό ενδιαφέρον. Άρα υπάρχουν κάποια κρίσιμα θέματα εάν και εφόσον στοχεύουμε σε εφαρμογές που θέλουμε να γίνουν αποδεκτές και να χρησιμοποιηθούν στο χώρο εργασίας

33 Τα παραπάνω κρίσιμα θέματα θα μπορούσαν να θεωρηθούν τα εξής: Κλιμάκωση: οι αλγόριθμοι που δεν αποδίδουν καλά όταν υπάρχει κλιμάκωση των δεδομένων, όπως πραγματικά συμβαίνει στις πραγματικές ογκώδεις βάσεις δεδομένων, είναι περιορισμένης χρήσης. Πραγματικά δεδομένα: Οι αλγόριθμοι θα πρέπει να δουλεύουν ακόμα και με δεδομένα με θόρυβο και με πολλές ελλιπείς τιμές γνωρισμάτων. Ενημέρωση: Να μπορούν οι αλγόριθμοι να μην δουλεύουν μόνο με στατικές βάσεις δεδομένων. Ευκολία στην χρήση: Άριστοι αλγόριθμοι άλλα με υψηλό επίπεδο δυσκολίας χρήσης τους από τους ερευνητές. 2.5 ΜΕΘΟΔΟΙ ΤΗΣ ΤΕΧΝΙΚΗΣ DATA MINING Οι κυριότερες μέθοδοι της τεχνικής Εξόρυξης από Δεδομένα οι οποίες χρησιμοποιούν κανόνες Μηχανικής Μάθησης είναι : Κανόνες κατηγοριοποίησης-ταξινόμησης (classification). Κανόνες Ομαδοποίησης-Συσταδοποίησης (clustering). Κανόνες Συσχέτισης. Υπάρχουν βέβαια και άλλα πεδία τέτοιων κανόνων, όπως στατιστικής ανάλυσης (statistical analysis) της αριθμητικής ταξινόμησης (numerical taxonomy), της παλινδρόμησης (regression analysis) και άλλων αρκετών. Στην συνέχεια θα παρουσιάσουμε αναλυτικά τον τρόπο λειτουργίας και δομής των κανόνων ταξινόμησης, ομαδοποίησης και συσχέτισης ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ-ΤΑΞΙΝΟΜΗΣΗ (classification) Ίσως η πιο δημοφιλής και αποτελεσματική τεχνική. Οι αλγόριθμοι ταξινόμησης εφαρμόζονται σε δεδομένα τα οποία έχουν προταξινομηθεί σε συγκεκριμένες κλάσεις με στόχο

34 την εξαγωγή κανόνων οι οποίοι μπορεί μετέπειτα να χρησιμοποιηθούν για ταξινόμηση νέων δεδομένων στις ίδιες κλάσεις. Ένα σύνολο εξαγόμενων κανόνων ονομάζεται ταξινομητής (classifier).όλες οι προσεγγίσεις λοιπόν προϋποθέτουν κάποια γνώση δεδομένων. Συχνά ένα σύνολο εκπαίδευσης χρησιμοποιείται για να καθορίσει τις συγκεκριμένες παραμέτρους που απαιτούνται από την τεχνική. Τα δεδομένα εκπαίδευσης (training data) αποτελούνται από ένα δείγμα δεδομένων της εισόδου όπως επίσης και από την κατηγοριοποίηση που έχει δοθεί σε αυτά τα δεδομένα. Θέλοντας να δώσουμε έναν ορισμό της κατηγοριοποίησης θα έχουμε: Ορισμός: Δεδομένης μίας βάσης δεδομένων D={t1,t2,,tn} πλειάδων (στοιχείων) και ένα σύνολο από κατηγορίες C={C1,C2,,Cm}, το πρόβλημα της κατηγοριοποίησης είναι να ορίσουμε μία απεικόνιση f D C όπου κάθε ti εκχωρείται σε μία κατηγορία. Μία κατηγορία ή κλάση, Cj, περιέχει ακριβώς αυτές τις πλειάδες όπου έχουν απεικονιστεί σε αυτή, δηλαδή Cj={ t(i ) f(ti )=Cj,1 i n και ti ϵ D}. Έτσι λοιπόν με πιο απλά λόγια θα λέγαμε οτι η κατηγοριοποίηση (classification) είναι η διαδικασία η οποία απεικονίζει ένα σύνολο δεδομένων σε προκαθορισμένες ομάδες. Τις ομάδες αυτές συχνά τις καλούμε κατηγορίες ή κλάσεις. Είναι ιδιαίτερα σημαντικό να αναφέρουμε ότι οι κατηγορίες είναι προκαθορισμένες δεν είναι επικαλυπτόμενες και διαμερίζουν ολόκληρη την βάση δεδομένων. Κάθε πλειάδα της βάσης δεδομένων εκχωρείται σε ακριβώς μια κατηγορία. Η λειτουργία των αλγορίθμων ταξινόμησης έχει ως εξής: (1) Δίνουμε ένα σύνολο από δεδομένα σαν είσοδο σε έναν αλγόριθμο ταξινόμησης. (2) Ο αλγόριθμος έπειτα με την σειρά του «μαθαίνει» από το πώς αυτά τα δεδομένα έχουν ταξινομηθεί. Δηλαδή κατανοεί τους κανόνες βάσει των οποίων ταξινομήθηκαν τα δεδομένα. (3) Έπειτα βάσει των συγκεκριμένων κανόνων έχει την ικανότητα να ταξινομήσει νέα δεδομένα

35 Τέλος αξίζει να αναφέρουμε και τις τρεις μεθόδους που χρησιμοποιούνται για να λύσουν το πρόβλημα της κατηγοριοποίησης οι οποίες είναι: Καθορισμός των ορίων: Διαίρεση του χώρου της εισόδου των εν δυνάμει πλειάδων της βάσης δεδομένων σε περιοχές που συνδέονται με μία κατηγορία. Χρήση κατανομών πιθανότητας: Για κάθε κατηγορία που δίνεται Cj, P(ti/Cj) είναι η συνάρτηση κατανομής πιθανότητας για την κατηγορία υπολογισμένη σε ένα σημείο ti. Χρήση εκ των υστέρων πιθανότητας: Με δεδομένη μια τιμή δεδομένων ti, θα θέλαμε να καθορίσουμε την πιθανότητα ότι η ti, ανήκει στην κατηγορία Cj. Τα προβλήματα που τυχόν θα προκύψουν κατά την κατηγοριοποίηση έχουν να κάνουν με τις ελλιπείς τιμές δεδομένων καθώς και την επίδοση των διαφορετικών εργαλείων κατηγοριοποίησης (είναι ένα ασαφές πρόβλημα άρα εξαρτάται από την κρίση του χρήστη). Αλγόριθμοι κατηγοριοποίησης: Υπάρχουν διαφόρων ειδών αλγόριθμοι: Αλγόριθμοι βασισμένοι στην στατιστική: Παλινδρόμηση (δέχεται ένα σύνολο από δεδομένα και ταιριάζει αυτά τα δεδομένα σε μια εξίσωση),bayesian Κατηγοριοποίηση (βασίζεται στον κανόνα Bayes για την υπό συνθήκη πιθανότητα). Αλγόριθμοι βάση της απόστασης: Απλή προσέγγιση (έχουμε έναν αντιπρόσωπο από κάθε κατηγορία και για να κάνουμε κατηγοριοποίηση εκχωρούμε κάθε πλειάδα στην κατηγορία με την οποία μοιάζει περισσότερο), K πλησιέστεροι Γείτονες (Η τεχνική προϋποθέτει ότι το σύνολο εκπαίδευσης δεν περιλαμβάνει μόνο τα δεδομένα αλλά επίσης και την επιθυμητή κατηγοριοποίηση για κάθε στοιχείο. Αυτό έχει σαν αποτέλεσμα τα δεδομένα εκπαίδευσης να αποτελούν μοντέλο). Αλγόριθμοι βασιζόμενοι σε δέντρα απόφασης: ID3 ( Η ID3 τεχνική για το χτίσιμο του δένδρου απόφασης βασίζεται στη θεωρία της πληροφορίας και προσπαθεί να ελαχιστοποιήσει τον αναμενόμενο αριθμό των συγκρίσεων. Η βασική ιδέα ενός αλγορίθμου επαγωγής είναι να κάνει ερωτήσεις και οι απαντήσεις να του παρέχουν την περισσότερη πληροφορία). C4.5 και C5.0 είναι βελτιώσεις του ID3 (αγνόηση ελλιπών δεδομένων, κλαδέματα, διασπάσεις κτλ). CART (τεχνική δημιουργίας δυαδικού δέντρου απόφασης). Αλγόριθμοι βασιζόμενοι σε νευρωνικά δίκτυα: Διάδοση, Εποπτευόμενη Μάθηση του ΝΝ (γνωστή έκτων προτέρων ποιά θα πρέπει να είναι η επιθυμητή τιμή εξόδου), Δίκτυα συνάρτησης

36 Ακτινικής Βάσης (συναρτήσεις των οποίων η τιμή μειώνεται ή αυξάνεται με την απόσταση από το κεντρικό σημείο), Νευρωνικά δίκτυα Perception (νευρώνας με πολλαπλές εισόδους και μια έξοδο) Με δεδομένο ένα πρόβλημα κατηγοριοποίησης, δεν υπάρχει τεχνική κατηγοριοποίησης που να δίνει καλύτερα αποτελέσματα, δηλαδή να υπερτερεί πάντα σε σχέση με τις άλλες, για αυτό τον λόγο έχουν γίνει κάποιες προτάσεις για συνδυασμό των τεχνικών. Επίδοση των αλγορίθμων κατηγοριοποίησης Η επίδοση των αλγορίθμων εξετάζεται με την εκτίμηση της ακρίβειας (accuracy) της κατηγοριοποίησης, δηλαδή την ικανότητα του μοντέλου να προβλέπει την κατηγορία μιας νέας περίπτωσης. Η εκτίμηση της ακρίβειας είναι ένα πολύ σημαντικό ζήτημα στο χώρο της κατηγοριοποίησης αφού κάτι τέτοιο μας δείχνει το πόσο καλά ανταποκρίνεται ο αλγόριθμος μας για δεδομένα με τα οποία δεν έχει εκπαιδευτεί. Η εκτίμηση της ακρίβειας είναι επίσης θεμιτή αφού μας επιτρέπει την σύγκριση των διαφόρων αλγορίθμων κατηγοριοποίησης. Αν και η ακρίβεια είναι το πιο σημαντικό μέτρο αποτίμησης της απόδοσης του αλγορίθμου κατηγοριοποίησης που χρησιμοποιούμε, υπάρχουν και άλλα μέτρα σύγκρισης: Ταχύτητα: Κόστος υπολογισμός (συμπεριλαμβανομένου την παραγωγή και τη χρήση του μοντέλου). Rebustness: Σωστή πρόβλεψη με ελλιπή δεδομένα ή δεδομένα με θόρυβο. Scalability: Αποδοτική κατασκευή του μοντέλου δοθέντος μεγάλη ποσότητα δεδομένων (μπορεί να εκτιμηθεί μετρώντας τις λειτουργίες I/O που απαιτεί ο αλγόριθμος). Interpretability: Επίπεδο κατανόησης και γνώση που παρέχεται από το μοντέλο (Μπορεί να εκτιμηθεί μετρώντας το πόσο πολύπλοκο είναι το μοντέλο π.χ. αριθμός κόμβων στα δένδρα απόφασης, αριθμός επιπέδων στα νευρωνικά δίκτυα κ.α.)

37 2.5.2 ΟΜΑΔΟΠΟΙΗΣΗ-ΣΥΣΤΑΔΟΠΟΙΗΣΗ (clustering) Ορισμός: Δοθείσης μιας βάσης δεδομένων D={x1,x2,,xn} που αποτελείται από πλειάδες και μιας ακέραιας τιμής κ, το πρόβλημα της συσταδοποίησης είναι να οριστεί μια αντιστοίχιση f: Dà{1,2,,k} όπου κάθε xi ανατίθεται σε μία πλειάδα Kj,1 j k. Μία συστάδα, Kj, περιέχει ακριβώς εκείνες τις πλειάδες που της ανατέθηκαν δηλαδή, Kj={xi f(xi )=Kj,1 i n,και xi D}. Οι κανόνες Ομαδοποίησης-Συσταδοποίησης είναι αρκετά διαδεδομένοι. Διαφέρουν από εκείνους της ταξινόμησης στο ότι τα δεδομένα που χρησιμοποιούνται για μάθηση δεν είναι προταξινομημένα, λείπει δηλαδή η κλάση του πεδίου. Η τεχνική της συσταδοποίησης χωρίζει ουσιαστικά ένα σύνολο εγγραφών σε ομάδες έτσι ώστε οι εγγραφές που βρίσκονται στην ίδια ομάδα να έχουν περισσότερες ομοιότητες μεταξύ τους, με βάση ορισμένα προκαθορισμένα κριτήρια, απ ότι με εγγραφές άλλων ομάδων. Στον οικονομικό τομέα είναι ιδιαίτερα σημαντικό για της επιχειρήσεις να μπορούν να ομαδοποιούν τους πελάτες τους σε συγκεκριμένες κατηγορίες. Με βάση αυτές τις κατηγορίες μπορούν να αξιολογούν έναν νέο πελάτη με βάση την ομάδα στην οποία κατατάσσεται ή ακόμα να προσδιορίσουν τα χαρακτηριστικά των πελατών που αποφέρουν μεγάλα κέρδη στην εταιρεία. Με βάση αυτόν τον διαχωρισμό των πελατών μπορούν να προσανατολίσουν την στρατηγική της εταιρείας στην εξειδικευμένη εξυπηρέτηση ορισμένων πελατειακών ομάδων. Για παράδειγμα από την ανάλυση ενός πολύ μεγάλου συνόλου πελατών, μπορεί να μειωθεί το κόστος μίας διαφημιστικής εκστρατείας που βασίζεται στην αποστολή διαφημιστικών φυλλαδίων. Αυτό γίνεται περιορίζοντας το πλήθος των πελατών στους οποίους απευθύνεται, επιλέγοντας αυτούς με μεγαλύτερη πιθανότητα να αντιδράσουν θετικά. Για να μπορέσει να γίνει η επιλογή του κατάλληλου αλγορίθμου απαραίτητη προϋπόθεση είναι η μελέτη των δεδομένων που θα χρησιμοποιηθούν για τον προσδιορισμό κυρίως του κριτηρίου ομοιότητας των εγγραφών μίας ομάδας. Γενικά η τεχνική της ομαδοποίησης-συσταδοποίησης μπορεί να είναι: Στατιστική ή Αριθμητική (statistical/numerical clustering). Σε αυτήν την περίπτωση χρησιμοποιούνται διάφορα αριθμητικά κριτήρια ομοιότητας. Έτσι οι ομάδες που προκύπτουν περιγράφονται από αριθμητικές τιμές

38 Εννοιολογική (conceptual clustering) Σε αυτήν την περίπτωση ο προσδιορισμός των ομάδων βασίζεται στο νόημα και στις έννοιες που τα διάφορα αριθμητικά στοιχεία αντιπροσωπεύουνε. Έτσι οι τιμές που έχουμε είναι κατηγορικές και όχι αριθμητικές. Πολλοί από τους αλγόριθμους ομαδοποίησης απαιτούν το σύνολο εκπαίδευσης που επεξεργάζονται να είναι αριθμητικό (πχ k-means) είτε κατηγορικό (πχ k-modes). Η συσταδοποίηση έχει χρησιμοποιηθεί σε πολλά πεδία εφαρμογών, συμπεριλαμβανομένων της βιολογίας, ιατρικής, ανθρωπολογίας, μάρκετινγκ και οικονομίας. Εφαρμογές της συσταδοποίησης περιλαμβάνουν την ταξινομία φυτών και ζώων, την κατηγοριοποίηση βάση ασθένειας, την επεξεργασία εικόνας, την αναγνώριση προτύπων και την ανάκτηση κειμένων. Κατά την εφαρμογή της συσταδοποίησης προκύπτουν βέβαια και διάφορα προβλήματα όπως για παράδειγμα: ο χειρισμός των ακραίων σημείων, αλλαγή στην σύσταση των συστάδων στην πορεία του χρόνου (δυναμικά δεδομένα), δυσκολία στην ερμηνεία της σημασιολογίας κάθε συστάδας, διάφορες λύσεις σε ένα πρόβλημα συσταδοποίησης, ποιά δεδομένα θα χρησιμοποιηθούν για συσταδοποίηση κτλ. Βασικά βήματα Για την πραγματοποίηση μιας συσταδοποίησης που να είναι επιτυχημένη, πρέπει να εκτελεστούν τα ακόλουθα βήματα (βλ. Fayyad et al., 1996-a): 1. Επιλογή χαρακτηριστικών γνωρισμάτων Στόχος του Βήματος αυτού είναι να επιλεγούν κατάλληλα τα γνωρίσματα (attributes) στα οποία πρόκειται να εφαρμοστεί η συσταδοποίηση. Έτσι, θα μπορέσει να κωδικοποιηθεί όσο το δυνατόν περισσότερη πληροφορία σχετικά με το ζήτημα που μας απασχολεί. Κατά συνέπεια, η προ-επεξεργασία των δεδομένων μπορεί να είναι απαραίτητη πριν τη χρησιμοποίησή τους στη διαδικασία της συσταδοποίησης

39 2. Αλγόριθμος συσταδοποίησης Μέσα από το δεύτερο Βήμα, γίνεται η επιλογή ενός αλγορίθμου που οδηγεί στον καθορισμό ενός καλού σχήματος συσταδοποίησης (clustering scheme) για ένα σύνολο δεδομένων. 3. Μέτρο εγγύτητας (proximity measure): Tο μέτρο αυτό προσδιορίζει πόσο «όμοια» είναι δύο αντικείμενα (δηλαδή διανύσματα γνωρισμάτων). Στις περισσότερες περιπτώσεις πρέπει να εξασφαλίσουμε ότι όλα τα γνωρίσματα που επιλέχθηκαν στο πρώτο Βήμα συμβάλλουν εξίσου στον υπολογισμό του μέτρου εγγύτητας και δεν υπάρχει κανένα γνώρισμα που να υπερισχύει των άλλων. 4. Κριτήριο συσταδοποίησης: Tο κριτήριο που θα καθοριστεί μπορεί να εκφραστεί μέσω μιας συνάρτησης κόστους ή κάποιου άλλου τύπου κανόνων. Επίσης, πρέπει να ληφθεί υπόψη ο τύπος συστάδων που αναμένονται να εμφανιστούν στο σύνολο δεδομένων. Η επιλογή ενός κατάλληλου κριτηρίου οδηγεί σε μια τμηματοποίηση που να ταιριάζει στο συγκεκριμένο σύνολο δεδομένων. 5. Επικύρωση αποτελεσμάτων Χρησιμοποιώντας κατάλληλα κριτήρια και τεχνικές, μπορούμε να προσδιορίσουμε την ακρίβεια των αποτελεσμάτων του αλγορίθμου συσταδοποίησης. Στις περισσότερες εφαρμογές, η τελική τμηματοποίηση των δεδομένων απαιτεί κάποιου είδους αξιολόγηση καθώς οι αλγόριθμοι συσταδοποίησης καθορίζουν τις συστάδες που δεν είναι γνωστές εκ των προτέρων (ανεξάρτητα από τις μεθόδους συσταδοποίησης). 6. Ερμηνεία αποτελεσμάτων Στο τελευταίο Βήμα, ερμηνεύονται τα αποτελέσματα. Για το σκοπό αυτό, είναι σύνηθες να ενώνονται τα αποτελέσματα της συσταδοποίησης με άλλα πειραματικά στοιχεία και αποτελέσματα προηγούμενης ανάλυσης

40 Κατηγορίες Αλγορίθμων συσταδοποίησης Οι αλγόριθμοι συσταδοποίησης μπορούν να χωριστούν σε ιεραρχικούς(hierarchical), διαμεριστικούς (Partitioning), με βάση την πυκνότητα (density based) και γενετικούς αλγόριθμους. Στην ιεραρχική συσταδοποίηση δημιουργείται ένα εμφωλιασμένο σύνολο από συστάδες ενώ στην διαμεριστική συσταδοποίηση ο αλγόριθμος δημιουργεί μόνο ένα σύνολο συστάδων. Οι τύποι των αλγορίθμων συσταδοποίησης μπορούν να κατηγοριοποιηθούν περαιτέρω με βάση την τεχνική υλοποίησης που υιοθετούν. Οι ιεραρχικοί αλγόριθμοι μπορούν να διαιρεθούν σε συσσωρευτικούς (agglomerative) και διαιρετικούς (divisive).στους συσσωρευτικούς αλγόριθμους οι συστάδες δημιουργούνται με διαδικασία από πάνω προς τα κάτω ενώ στους διαιρετικούς με σχεδιασμό από πάνω προς τα κάτω. Ένας άλλος περιγραφικός προσδιορισμός δείχνει αν χειριζόμαστε ξεχωριστά κάθε επιμέρους στοιχείο (σειριακή προσέγγιση) ή αν εξετάζουμε μαζί όλα τα στοιχεία (ταυτόχρονη προσέγγιση). Επίσης υπάρχουν οι μονοθετικοί αλγόριθμοι που εξετάζουν μια τιμή γνωρίσματος τη φορά σε αντίθεση με τους πολυθετικούς που εξετάζουν όλες τις τιμές ενός γνωρίσματος μαζί. Εικόνα 3: Κατηγοριοποίηση των τεχνικών clustering. Αλγόριθμοι συσταδοποίησης: Ιεραρχικοί Αλγόριθμοι: Οι συγκεκριμένοι αλγόριθμοι δημιουργούν στην πραγματικότητα σύνολα συστάδων. Θα μπορούσαμε να αναφέρουμε επιγραμματικά μερικούς: Συσσωρευτικοί αλγόριθμοι, διαιρετικοί αλγόριθμοι

41 Διαμεριστικοί αλγόριθμοι: Στους αλγόριθμους διαμέρισης οι συστάδες δημιουργούνται σε ένα βήμα. Μόνο ένα σύνολο συστάδων δημιουργείται παρόλο που εσωτερικά, μέσω των διαφόρων αλγορίθμων, μπορεί να δημιουργηθούν αρκετά διαφορετικά σύνολα συστάδων. Μερικά παραδείγματα: Δένδρο ελάχιστης ζεύξης, συσταδοποίησης τετραγωνικού σφάλματος, συσταδοποίηση K-Means, Πλησιέστερου Γείτονα, Αλγόριθμος PAM,Aαλγόριθμος Ενέργειας Δεσμού, Γενετικοί αλγόριθμοι, Νευρωνικά δίκτυα, αλγόριθμος BIRCH,αλγόριθμος DBSCAN,Αλγόριθμος CURE. Αλγόριθμοι συσταδοποίησης με κατηγορικά γνωρίσματα: Συσταδοποίηση μη αριθμητικών δεδομένων: αλγόριθμος ROCK. Βέβαια σε ένα πρόβλημα συσταδοποίησης δεν υπάρχει μόνο μια λύση. Επίσης βασικό ζήτημα είναι και η επιλογή του πλήθους των συστάδων. Είναι ένα θέμα να υπολογιστεί το ακριβές πλήθος των συστάδων που απαιτείται. Μια καλή αρχικοποίηση των κεντροειδών των συστάδων είναι πάρα πολύ σημαντική. Τέλος υπάρχει πιθανότητα κάποιες συστάδες να είναι άδειες (κανένα στοιχείο μέσα τους) εάν τα κεντροειδή του βρίσκονται αρχικά μακριά από τα δεδομένα. Ένα είναι σίγουρο ότι η συσταδοποίηση δημιουργεί κανόνες για ανάθεση νέων εγγραφών σε κλάσεις και χρησιμεύει για διάγνωση και αναγνώριση ΙΕΡΑΡΧΙΚΗ ΣΥΣΤΑΔΟΠΟΙΗΣΗ Στην ιεραρχική Συσταδοποίηση δημιουργείται ένα σύνολο από εμφωλευμένες συστάδες που οργανώνονται σε ένα ιεραρχικό δέντρο που είναι το δενδρόγραμμα. Σε κάθε επίπεδο υπάρχει ένα ξεχωριστό σύνολο συστάδων ενώ στο κατώτατο επίπεδο κάθε αντικείμενο αποτελεί μία συστάδα. Οι ιεραρχικοί αλγόριθμοι διακρίνονται σε συσσωρευτικούς και διαιρετικούς. Οι συσσωρευτικοί αλγόριθμοι ξεκινούν με τα σημεία ως ξεχωριστές ομάδες και προχωρούν συγχωνεύοντας σε κάθε βήμα τα πιο κοντινά ζεύγη συστάδων. Η διαδικασία της συγχώνευσης επαναλαμβάνεται έως ότου μείνουν κ συστάδες. Οι συσσωρευτικοί αλγόριθμοι εκτελούνται πάντα από κάτω προς τα πάνω.(bottom-up). Αντίθετα οι διαιρετικοί αλγόριθμοι ξεκινούν με μία συστάδα που περιέχει όλα τα σημεία και εξελίσσονται προοδευτικά διαιρώντας τις μεγάλες συστάδες σε μικρότερες μέχρι να φτάσει στο επιθυμητό πλήθος συστάδων. Ας μην ξεχνάμε ότι η διαιρετικοί αλγόριθμοι εκτελούνται αντίθετα δηλαδή από πάνω προς τα κάτω (top-down).ένα βασικό πλεονέκτημα των ιεραρχικών

42 μεθόδων είναι ότι δεν παράγουν έναν διαχωρισμό αλλά επιτρέπουν σε διάφορους χρήστες να επιλέγουν διαφορετικούς διαχωρισμούς. Τα βασικά μειονεκτήματα τους είναι: Καμία δυνατότητα αναίρεσης των πεπραγμένων. Στον απλό σύνδεσμο λίγα αντικείμενα που σχηματίζουν γέφυρα ανάμεσα σε δύο συστάδες προκαλούν την ένωση των δυο αυτών συστάδων. Στον μέσο σύνδεσμο μπορεί να προκαλέσει επιμήκυνση των συστάδων για τον διαχωρισμό και για ενοποίηση τμήματα επιμηκών γειτονικών συστάδων. Η μέθοδος απόσταση πλήρους συνδέσμου δημιουργεί πιο συμπαγείς συστάδες και πιο χρήσιμες ιεραρχίες από ότι η μέθοδος απλού συνδέσμου. Εικόνα 4: Σχηματική αναπαράσταση ιεραρχικών,συσσωρευτικών και διαιρετικών, αλγορίθμων. ΚΡΙΤΗΡΙΑ ΣΥΝΔΕΣΗΣ ΙΕΡΑΡΧΙΚΗΣ ΣΥΣΤΑΔΟΠΟΙΗΣΗΣ Όταν κάθε αντικείμενο αποτελεί κλάση από μόνο του, οι αποστάσεις μεταξύ των αντικειμένων καθορίζονται από το επιλεγμένο μέτρο απόστασης. Κατόπιν αφού σε πρώτο στάδιο τα δύο πιο κοντινά στοιχεία συγχωνευτούν σε μια συστάδα, είναι απαραίτητη η χρήση ενός κριτηρίου σύνδεσης βάση του οποίου θα υπολογίζεται η απόσταση αυτής της νέας συστάδας με τις υπόλοιπες. Εφόσον επιλεγεί το κατάλληλο κριτήριο σύνδεσης θα χρησιμοποιηθεί σε όλα τα επόμενα στάδια της διαδικασίας ταξινόμησης θα πάρουμε και διαφορετικά αποτελέσματα ταξινόμησης σε συστάδες

43 Κριτήριο εγγύτερου γείτονα (single linkage) Σύμφωνα με το κριτήριο του εγγύτερου γείτονα η απόσταση μεταξύ δύο κλάσεων ορίζεται ως η απόσταση μεταξύ των δύο πιο κοντινών αντικειμένων των δύο διαφορετικών κλάσεων. Το παραπάνω κριτήριο κατά κάποιο τρόπο δένει τα αντικείμενα μαζί, καταλήγοντας πολλές φορές σε κλάσεις που περιέχουν μακριές αλυσίδες παρατηρήσεων (chaining effect). Έστω a, b συστάδες για τις οποίες σύμφωνα με το κριτήριο του εγγύτερου γείτονα, η μεταξύ τους απόσταση ορίζεται ως η ελάχιστη απόσταση ανάμεσα στα πιθανά ζευγάρια αντικειμένων (i, j) όπου i, j στοιχεία των κλάσεων a και b αντίστοιχα. D (a, b) = Min {d (i, j) : όπου το αντικείμενο i είναι σημείο της συστάδας a και το σημείο j είναι στοιχείο της συστάδας b) Εικόνα 5: Σχηματική αναπαράσταση κριτηρίου εγγύτερου γείτονα μεταξύ δύο συστάδων. Κριτήριο του απώτερου γείτονα (complete linkage) Με το κριτήριο του απώτερου γείτονα, η απόσταση μεταξύ των συστάδων ισοδυναμεί με την μεγαλύτερη απόσταση μεταξύ δύο οποιονδήποτε στοιχείων των δύο συστάδων, δλδ με την απόσταση μεταξύ των δύο μακρύτερων σημείων των δύο συστάδων. Η μέθοδος του απώτερου γείτονα είναι συνήθως κατάλληλη σε περιπτώσεις που τα αντικείμενα διακρίνονται φυσικά σε διακριτές μάζες ενώ αντενδείκνυται όταν οι κλάσεις είναι επιμηκυμένες σχηματίζοντας κατά κάποιον τρόπο αλυσίδες παρατηρήσεων. D (a, b) = Max {d (i, j): όπου το αντικείμενο i είναι σημείο της συστάδας a και το σημείο j είναι στοιχείο της συστάδας b}

44 Εικόνα 6: Σχηματική αναπαράσταση κριτηρίου απώτερου γείτονα μεταξύ δύο συστάδων. Κριτήριο μέσης απόστασης (average linkage) Με το κριτήριο της μέσης απόστασης (Sneath & Sokal, 1973), η απόσταση μεταξύ δύο συστάδων ορίζεται ως η μέση τιμή των αποστάσεων μεταξύ όλων των ζευγών των αντικειμένων, όπου κάθε ζευγάρι αποτελείται από ένα αντικείμενο από κάθε συστάδα. Η παραπάνω μέθοδος είναι το ίδιο αποτελεσματική σε αντικείμενα που σχηματίζουν φυσικά διακριτές ομάδες (μάζες) αλλά και σε επιμήκεις κλάσεις, που αποτελούνται από αλυσίδες αντικείμενων. D(a,b)=Tab/(Na *Nb) όπου Tab το άθροισμα των αποστάσεων μεταξύ όλων των ζευγαριών (i,j) με i,j τα αντικείμενα των συστάδων a και b αντίστοιχα, και Na,Nb τα μεγέθη των συστάδων a και b

45 Εικόνα 7: Σχηματική αναπαράσταση κριτηρίου μέσης απόστασης μεταξύ δύο συστάδων. Κριτήριο σταθμισμένης μέσης απόστασης Ακολουθεί την ίδια μεθοδολογία με το κριτήριο του μέσου δεσμού με την μόνη διαφορά ότι το κριτήριο του σταθμισμένου μέσου δεσμού σταθμίζει τις αποστάσεις με το μέγεθος των συστάδων, δλδ με τον αριθμό των αντικειμένων που περιέχονται σε αυτές (Sneath & Sokal, 1973). Είναι κατάλληλο στις περιπτώσεις όπου οι κλάσεις έχουν πολύ διαφορετικό μέγεθος. Κριτήριο του κέντρου βάρους Σύμφωνα με το κριτήριο του κέντρου βάρους, η απόσταση ανάμεσα σε δύο συστάδες ορίζεται ως η απόσταση ανάμεσα στα κέντρα βάρους των δύο συστάδων (Sneath & Sokal, 1973). Εικόνα 8: Σχηματική αναπαράσταση κριτηρίου του κέντρου βάρους μεταξύ δύο συστάδων

46 Κριτήριο του σταθμισμένου κέντρου βάρους Στηρίζεται στην ίδια μεθοδολογία με το παραπάνω κριτήριο του κέντρου βάρους με την μόνη διαφορά ότι οι αποστάσεις σταθμίζονται με το μέγεθος των συστάδων (αριθμός αντικειμένων που περιέχει κάθε συστάδα) και προτιμάται έναντι αυτού σε περιπτώσεις όπου οι συστάδες έχουν μεγάλη διαφορά μεγέθους (Sneath & Sokal, 1973). Μέθοδος ελαχίστων διακυμάνσεων του Ward Η μέθοδος του Ward διαφέρει πολύ από τις όλες τις υπόλοιπες μεθόδους που αναλύσαμε παραπάνω, καθώς χρησιμοποιεί τεχνικές ανάλυσης διακύμανσης για να υπολογίσει τις αποστάσεις ανάμεσα στις κλάσεις. Ουσιαστικά ο Ward (1963) θέλοντας να ελαχιστοποιήσει την απώλεια πληροφορίας που συνοδεύει κάθε ομαδοποίηση, πρότεινε μια διαδικασία συσταδοποίησης σε κάθε στάδιο της οποίας συνενώνονται οι κλάσεις με το μικρότερο άθροισμα τετραγώνων των σφαλμάτων (ESS), όπου το άθροισμα των τετραγώνων λειτουργεί ως κριτήριο της απώλειας. Για παράδειγμα: Έστω 10 παρατηρήσεις (1, 1, 1, 1, 2, 2, 2, 5, 5, 10) για κάποια μεταβλητή π.χ. η βαθμολογία ενός φοιτητή στην εξεταστική του 1ου εξαμήνου. Αν μεταχειριζόμασταν και τις δέκα βαθμολογίες ως μία συστάδα με μέσο όρο 3, θα προέκυπτε απώλεια πληροφοριών ίση με το άθροισμα των τετραγώνων των σφαλμάτων: ESS1 = 4*(1-3)2 + 3*(2-3)2 + 2*(5-3)2 + (10-3)2 =68. Αν όμως χωρίσουμε τις παραπάνω παρατηρήσεις σε 4 κλάσεις : {1,1,1,1}, {2,2,2}, {5,5}, {10} τότε ESS2 = ESScluster1 + ESScluster2 + ESScluster3 + ESScluster4 = 0 που σημαίνει ότι αν χωρίσω τις παρατηρήσεις σε 4 κλάσεις έχω μηδενική απώλεια πληροφορίας. Γενικά η μέθοδος του Ward θεωρείται ιδιαίτερα αποτελεσματική, όμως έχει την τάση να δημιουργεί συστάδες μικρού μεγέθους. H σχέση είναι:

47 ΔΙΑΜΕΡΙΣΤΙΚΗ ΣΥΣΤΑΔΟΠΟΙΗΣΗ Συγκριτικά με την ιεραρχική μέθοδο, η διαμεριστική δε σχηματίζει κάποια ιεραρχική δομή. Αντιθέτως η ανάθεση των αντικειμένων σε συστάδες πραγματοποιείται σε ένα βήμα και ως αποτέλεσμα λαμβάνεται μόνο ένα σύνολο συστάδων, παρά το γεγονός ότι εσωτερικά μπορεί να δημιουργηθούν αρκετά διαφορετικά σύνολα συστάδων. Για την εύρεση της βέλτιστης λύσης χρησιμοποιείται μία συνάρτηση κριτηρίου με τη βοήθεια μίας μετρικής που χρησιμοποιείται συχνά. Για την ακρίβεια, ζητείται η ελαχιστοποίηση του αθροίσματος του τετραγωνικού σφάλματος (Least Squared Error). Και ως τελική λύση επιλέγεται εκείνη που έχει την καλύτερη τιμή της συνάρτησης κριτήριου. Το γεγονός ότι για την εύρεση της βέλτιστης λύσης ο υπολογισμός όλων των πιθανών διαμερίσεων (πιθανών συνδυασμών των n-στοιχείων σε κ-συστάδες) είναι εξαντλητικός και αυξάνει την πολυπλοκότητά του, η αναζήτηση περιορίζεται σε ένα μικρό υποσύνολο των πιθανών λύσεων. Με τη χρήση των ευρετικών τεχνικών λαμβάνονται οι προσεγγιστικά βέλτιστες λύσεις. Ένα ακόμα μειονέκτημα αυτής της μεθόδου είναι ότι απαιτείται η εισαγωγή του επιθυμητού πλήθους των συστάδων προκειμένου να υλοποιηθεί ο αλγόριθμος. Αξίζει να σημειωθεί ότι δεν υπάρχει μία μόνο σωστή λύση σε ένα πρόβλημα συσταδοποίησης. Ένα άλλο πρόβλημα της συσταδοποίησης, που είναι κρίσιμο, είναι η επιλογή του πλήθους των συστάδων. Δηλαδή, δεν είναι τόσο εύκολο να προσδιοριστεί το ακριβές πλήθος των συστάδων που απαιτείται. Με την αλλαγή του K μπορεί να προκύψουν διαφορετικές συστάδες. Μία καλή αρχικοποίηση των κεντροειδών των συστάδων μπορεί να είναι και κρίσιμη. Επίσης, υπάρχει πιθανότητα μερικές συστάδες να είναι άδειες (να μην περιέχουν κανένα αντικείμενο) εάν τα κεντροειδή του βρίσκονται αρχικά μακριά από τα δεδομένων. Άρα λοιπόν για να συνοψίσουμε τα βασικά βήματα θα λέγαμε ότι ο χρήστης αρχικά θα πρέπει να δώσει ως είσοδο τον επιθυμητό πλήθος συστάδων και μετά να χρησιμοποιηθούν τα μέτρα απόστασης (μετρικές) για τον προσδιορισμό της καταλληλότητας των προτεινόμενων λύσεων. Ένα συνηθισμένο μέτρο είναι μία μετρική τετραγωνικού σφάλματος η οποία μετράει την τετραγωνική απόσταση των σημείων της συστάδας από το κέντρο της συστάδας: 1 mk t mi K m dis( C, t ) m mi 2 Τέλος αξίζει να σημειώσουμε ότι η πολυπλοκότητα των διαμεριστικών αλγορίθμων μπορεί να εκτοξευτεί υψηλά λόγω του πλήθους των πιθανών λύσεων. Δοθέντος ενός κριτηρίου μέτρησης,

48 μια απλοϊκή λύση θα μπορούσε να κάνει αναζήτηση σε όλα τα πιθανά σύνολα των k συστάδων δηλαδή υπάρχουν S( n, k ) συνδυασμοί που πρέπει να εξεταστούν ΑΞΙΟΛΟΓΗΣΗ ΣΥΣΤΑΔΟΠΟΙΗΣΗΣ Τα βασικά κριτήρια για την αξιολόγηση μιας τεχνικής συσταδοποίησης είναι η δημιουργία συμπαγών και καλά διαχωρισμένων συστάδων. Η έννοια συμπαγότητα σημαίνει ότι οι παρατηρήσεις μέσα σε μια συστάδα πρέπει να είναι όσο πιο κοντά το ένα με το άλλο. Οι περισσότεροι αλγόριθμοι συσταδοποίησης μας δίνουν συστάδες με συγκεκριμένα σχήματα και θα αναθέτουν τα δεδομένα σε συστάδες τέτοιων σχημάτων ακόμα και αν δεν υφίσταται συστάδες. Επειδή το τελικό αποτέλεσμα εξαρτάται από τα κέντρα και το πλήθος των συστάδων (π.χ. για τον αλγόριθμο k-means) είναι σημαντικό να βρεθούν συμπαγείς και καλά διαχωρισμένες συστάδες. Αυτό μπορούμε εύκολα να το πετύχουμε με ελαχιστοποίηση της διασποράς στην συστάδα και ταυτόχρονα να κάνουμε όσο μεγαλύτερο μπορούμε τον διαχωρισμό ανάμεσα στις συστάδες. Στην συνέχεια θα παρουσιάσουμε το πώς μπορούμε να προσδιορίσουμε τον βέλτιστο αριθμό συστάδων καθώς και την συμπαγότητα τους. (Inter-Intra cluster distance, Silhouette value, δείκτης Dunn, μέθοδος Davies-Bouldin,). Inter-Intra cluster distance που στην ουσία αποτελεί την απόσταση των σημείων από τα κέντρα των συστάδων στα οποία ανήκουν και δίδεται ως εξής: Όπου: x κάθε χρονοσειρά της συστάδας i. Zi το κέντρο της συστάδας i. N το πλήθος των χρονοσειρών. Ci η συστάδα

49 Εδώ καταλαβαίνουμε ότι παίρνοντας την απόσταση μεταξύ των κέντρων δύο συστάδων μπορούμε εύκολα να προσδιορίσουμε την αραιότητα δηλαδή: 2 inter z z, i 1,2,., K 1, j 1,2,, K i j Για να βρούμε το άριστο πλήθος των συστάδων μπορούμε να βρούμε την αξιοπιστία των συστάδων σύμφωνα με τον τύπο: mean(int ra) validity min(int er) Ο στόχος είναι να βρούμε την ελάχιστη τιμή του validity εφόσον θέλουμε να μεγιστοποιήσουμε την απόσταση μεταξύ των συστάδων και να ελαχιστοποιήσουμε την διασπορά μέσα σε αυτές. Silhouette value που στην ουσία μετράει τι ομοιότητα έχει μια παρατήρηση με τις υπόλοιπες παρατηρήσεις της συστάδας και αν οι παρατηρήσεις βρίσκονται σωστά μέσα στη συστάδα τους. Με συνδυασμό των silhouettes τα αποτελέσματα παρουσιάζονται σε ένα γράφημα. si () b( i) a( i) max a( i), b( i) 1, 0, b a ai ά ai bi ά ai bi i 1, ά ai bi i με -1 s(i) 1 α(i) μέση απόσταση του σημείου i από όλα τα υπόλοιπα σημεία που ανήκουν στην ίδια συστάδα. b(i) η ελάχιστη μέση απόσταση του σημείου i από τα σημεία που βρίσκονται σε μια διαφορετική συστάδα. Η ελαχιστοποίηση γίνεται μέσα στις συστάδες. s(i) τιμή silhouette για την παρατήρηση i. Αν πάρουμε τιμή -1 τότε η παρατήρηση πρέπει να πάει σε γειτονική συστάδα ενώ αν είναι 0 τότε είναι πάνω στο φυσικό όριο των δύο συστάδων. Με λίγα λόγια όσο πιο κοντά στην μονάδα +1 τόσο το καλύτερο

50 Εικόνα 9: Παράδειγμα τιμών Silhouette για 3 clusters τυχαίου πειράματος. Ο δείκτης Dunn για την αποτίμηση συστάδων και δίνεται με την παρακάτω σχέση: ( Xi, X j) DU ( c) min 1 i, jci j max 1k c ( X k ) Όπου: X i i-στη συστάδα ( Xi, X j) απόσταση μεταξύ των συστάδων X i και X j ( X k ) απόσταση μεταξύ των δυο πιο απομακρυσμένων σημείων της συστάδας X k (διάμετρος). DU ( c) αυξάνει στις περιπτώσεις που η απόσταση μεταξύ των συστάδων είναι μεγάλη και η διάμετρος είναι μικρή). Μέγιστη τιμή βέλτιστος αριθμός συστάδων. Εικόνα 10: Γράφημα διακύμανσης τιμών του δείκτη Dunn

51 Ο δείκτης Davies-Bouldin (DB) βρίσκεται από την παρακάτω σχέση: c 1 ( Xi) ( X ) j DB( Uc) max c i j i1 ( X i, X j) Όπου: ( X, X ) απόσταση μεταξύ των συστάδων X i και i j X j ( X i ) απόσταση μεταξύ των δυο πιο απομακρυσμένων σημείων της συστάδας X i (διάμετρος). Όσο μικρότερη η τιμή του δείκτη τόσο καλύτερα ορίζονται δηλαδή είναι συμπαγείς και τα κέντρα τους σε μεγάλη απόσταση μεταξύ τους. Ελάχιστη τιμή βέλτιστος αριθμός συστάδων ΣΥΣΧΕΤΙΣΗ (Dependency Modeling) Μία από τις σημαντικότερες τεχνικές Εξόρυξης από Δεδομένα είναι η προτυποποίηση αλληλεξαρτήσεων, αλλιώς Συσχέτιση (Dependency Modeling). Σκοπός της είναι η εύρεση των σημαντικών αλληλεξαρτήσεων / συσχετίσεων μεταξύ των διαφόρων πεδίων / χαρακτηριστικών του συνόλου εκπαίδευσης. Αυτές οι συσχετίσεις που αποκαλύπτονται δεν είναι έμφυτες στα δεδομένα, όπως οι συναρτησιακές συσχετίσεις και δεν αντιπροσωπεύουν κανένα είδος αιτιότητας ή συσχέτισης. Αν θέλουμε να δώσουμε ένα σύνηθες οικονομικό παράδειγμα θα μπορούσαμε να πούμε ότι η πιο διαδεδομένη εφαρμογή της μεθόδου της Συσχέτισης είναι «η ανάλυση του καλαθιού της νοικοκυράς». Σκοπός είναι να αναγνωρισθούν τα αγαθά που αγοράζονται μαζί. Έστω για παράδειγμα ο πίνακας με τα δεδομένα που σε κάθε γραμμή του απεικονίζει τα αγαθά που αγοράστηκαν σε ένα καλάθι μέσα σε μία υπεραγορά:

52 κόκα-κόλα γάλα τυρί φρυγανιές κρέας τυρί νερό γάλα κρέας κρέας γάλα ψωμί Πίνακας 2: Συσχετίσεις αγαθών σε μια υπεραγορά. Ένας κανόνας Συσχέτισης θα μπορούσε να πει ότι το γάλα πωλείται μαζί με το τυρί, με τη προφανή αξιοποίηση της πληροφορίας που είναι η γειτνίαση του σημείου πώλησης γάλακτος με αυτό του τυριού. Ένας κανόνας συσχέτισης είναι μία έκφραση της μορφής Χ Y, όπου Χ,Y είναι σύνολα τιμών των πεδίων, όπως για παράδειγμα σύνολα οικονομικών αγαθών. Η σπουδαιότητα ενός κανόνα συσχέτισης καθορίζεται αναλογικά από το ποσοστό εφαρμογής του κανόνα επί του συνόλου εκπαίδευσης. Συγκεκριμένα, οι αλγόριθμοι συσχέτισης που έχουν προταθεί και εφαρμόζονται πρακτικά, εξάγουν κανόνες συσχέτισης της μορφής: «το 98% των πελατών που αγοράζουν γάλα και κρέας αγοράζουν επίσης και τυρί. Αλλά και στο 70% των αγορών έχουν αγορασθεί γάλα, κρέας και τυρί». Το πρώτο ποσοστό αναφέρεται ως αξιοπιστία (confidence) του κανόνα ενώ το δεύτερο ως επιβεβαίωση (support). Η επιβεβαίωση αφορά στο ποσοστό που εμφανίζονται και τα τρία αγαθά μαζί επί όλου του συνόλου εκπαίδευσης ενώ η αξιοπιστία αφορά στο ποσοστό που εμφανίζονται τα αγαθά μαζί επί του αριθμού των αγορών που περιέχουν γάλα και κρέας. Το πρόβλημα της εύρεσης κανόνων συσχέτισης εστιάζεται στην εύρεση όλων των κανόνων που έχουν μία καθορισμένη από τον χρήστη ελάχιστη τιμή επιβεβαίωσης και αξιοπιστίας. Ορισμός: Mε δεδομένο ένα σύνολο από στοιχεία I={I1,I2,.Im) και μια βάση δεδομένων από συναλλαγές D={t1,t2, tn) όπου ti= {Ii1,Ii2..Iik) και Ιij ανήκει στο I, ένας κανόνας συσχέτισης είναι ένα επαγωγικό συμπέρασμα της μορφής Χ=>Υ, όπου X, Y ċ Ι είναι ένα σύνολο στοιχείων που ονομάζονται στοιχειοσύνολα και X U Y = κενό σύνολο

53 Αλγόριθμοι συσχέτισης Ο Αλγόριθμος Apriori: Είναι ο πιο γνωστός αλγόριθμος για την εύρεση κανόνων συσχέτισης και χρησιμοποιείται στα περισσότερα εμπορικά προϊόντα.χρησιμοποιεί την ιδιότητα συχνών στοιχειοσυνόλων που λέει ότι οποιοδήποτε υποσύνολο ενός συχνού στοιχειοσυνόλου πρέπει να είναι συχνό. Ο αλγόριθμος της δειγματοληψίας: Διευκολύνει το αποτελεσματικό μέτρημα των στοιχειοσυνόλων σε μεγάλες βάσεις δεδομένων. Στην ουσία μειώνει τον αριθμό των περασμάτων της βάσης σε ένα, στην καλύτερη περίπτωση, και δυο,στη χειρότερη περίπτωση. Ο αλγόριθμος της διαμέρισης: Μειώνει τον αριθμό των περασμάτων της βάσης δεδομένων σε δύο και διαιρεί τη βάση δεδομένων σε τμήματα, έτσι ώστε κάθε ένα να μπορέσει να χωρέσει στην κύρια μνήμη. Παράλληλοι και κατανεμημένοι αλγόριθμοι: Οι περισσότεροι παράλληλοι ή κατανεμημένοι αλγόριθμοι εύρεσης κανόνων συσχέτισης επιδιώκουν τον παραλληλισμό είτε των δεδομένων, γνωστός ως παραλληλισμός δεδομένων είτε των υποψηφίων γνωστός ως παραλληλισμός εργασιών. Με τον παραλληλισμό εργασιών οι υποψήφιοι διαμερίζονται και καταμετρούνται ξεχωριστά σε κάθε επεξεργαστή ΠΡΟΒΛΕΨΗ (Prediction) Εδώ εξετάζουμε την περίπτωση να προβλέψουμε την τιμή μιας συνεχούς ή διατεταγμένης μεταβλητής.h αριθμητική πρόβλεψη είναι μια διαδικασία πρόβλεψης συνεχών (ή διατεταγμένων) τιμών μιας μεταβλητής για μια δοθείσα είσοδο. Για παράδειγμα επιθυμούμε να προβλέψουμε τον μισθό κάποιων πτυχιούχων με 10 χρόνια προϋπηρεσία ή τις ενδεχόμενες πωλήσεις ενός νέου προϊόντος γνωρίζοντας την τιμή του. Το πρόβλημα της πρόβλεψης ορίζεται ως εξής: Oρισμός: Δοθείσης μίας διακριτής χρονολογικής σειράς με ισαπέχοντα χρονικά διαστήματα, να προβλεφθεί τη χρονική στιγμή t η τιμή xt (i), για ένα προβλεπόμενο χρόνο i υποθέτοντας ότι οι προηγούμενες τιμές της σειράς είναι γνωστές

54 Η πρόβλεψη αυτή διαφέρει από το είδος της πρόβλεψης που γίνεται στην κατηγοριοποίηση. Δηλαδή, στην πρόβλεψη εκτιμώνται οι μελλοντικές τιμές μιας χρονοσειράς σε συγκεκριμένες χρονικές στιγμές, ενώ στην κατηγοριοποίηση «προβλέπονται» σε ποιά κλάση ανήκουν τα νέα εισερχόμενα δεδομένα. Παλινδρόμηση( regression) H πιο διαδεδομένη και γνωστή μέθοδος που χρησιμοποιείται συχνότερα για τις αριθμητικές προβλέψεις είναι η παλινδρόμηση μια στατιστική μέθοδος που αναπτύχθηκε από τον μαθηματικό Sir Frances Galton ( ). Με την ανάλυση παλινδρόμησης επιτυγχάνουμε να διακρίνουμε την σχέση που υπάρχει ανάμεσα σε μια ή περισσότερες ανεξάρτητες μεταβλητές πρόβλεψης και σε εξαρτημένες μεταβλητές απόκρισης. Στο πλαίσιο της εξόρυξης δεδομένων οι μεταβλητές πρόβλεψης αποτελούν τα χαρακτηριστικά του ενδιαφέροντος που περιγράφουν την πλειάδα. Σε γενικές γραμμές οι τιμές των μεταβλητών πρόβλεψης είναι γνωστές. Οι μεταβλητές απόκρισης (έξοδος) είναι αυτές που θέλουμε να προβλέψουμε.h ανάλυση παλινδρόμησης είναι μία καλή επιλογή και όταν όλες οι μεταβλητές πρόβλεψης είναι συνεχείς. Πολλά προβλήματα μπορούν να λυθούν με γραμμική παλινδρόμηση και ακόμα περισσότερο μπορεί να αντιμετωπίσουν προβλήματα υιοθετώντας μετασχηματισμούς μεταβλητών έτσι ώστε ένα μη γραμμικό πρόβλημα να μετασχηματιστεί σε γραμμικό. Πολλά πακέτα λογισμικού υπάρχουν που μπορούν να λύσουν το πρόβλημα της παλινδρόμησης όπως είναι π.χ. το SPSS,SPLUS

55 2.6 ΧΡΟΝΟΛΟΓΙΚΕΣ ΣΕΙΡΕΣ ΚΑΙ DATA MINING ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΧΡΟΝΟΛΟΓΙΚΕΣ ΣΕΙΡΕΣ Η ανάλυση χρονοσειρών (time series analysis) είναι το πεδίο έρευνας που μελετά συστήματα, διαδικασίες, σήματα, οικονομικά δεδομένα και πρότυπα που εξελίσσονται χρονικά. Η ανάλυση χρονοσειρών έχει δυο βασικούς στόχους: 1. Να μελετήσει και να αναγνωρίσει τη φύση ενός φαινομένου που αναπαρίσταται από μια ακολουθία παρατηρήσεων, και 2. Nα προβλέψει τη μελλοντική εξέλιξη του φαινομένου, δηλαδή τις μελλοντικές τιμές της ακολουθίας παρατηρήσεων. Οι τεχνικές ανάλυσης χρονολογικών σειρών αναπτύχθηκαν, εκτός των άλλων, και για να καλύψουν την ανάγκη της οικονομετρικής ανάλυσης για έγκυρες προβλέψεις των διαφόρων οικονομετρικών φαινομένων. Και οι δύο αυτοί στόχοι απαιτούν ότι το υπόδειγμα των παρατηρούμενων δεδομένων της χρονοσειράς έχει αναγνωριστεί και ουσιαστικά περιγραφθεί. Από τη στιγμή που το υπόδειγμα εξακριβωθεί μπορούμε να το ερμηνεύσουμε και να το εντάξουμε σε άλλα δεδομένα (δηλαδή μπορούμε να το χρησιμοποιήσουμε στη θεωρία μας για ένα εξερευνούμενο φαινόμενο, για παράδειγμα στις εποχιακές τιμές ενός προϊόντος). Χωρίς να δώσουμε ιδιαίτερη σημασία στο βάθος της κατανόησης και στην αξιοπιστία της ερμηνείας του φαινομένου, μπορούμε να χρησιμοποιήσουμε το αναγνωρίσιμο πρότυπο για να προβλέψουμε μελλοντικά γεγονότα. Ορισμός: Με τον όρο χρονολογική σειρά εννοούμε μια σειρά από παρατηρήσεις που παίρνονται σε ορισμένες χρονικές στιγμές ή περιόδους. Χρονολογική σειρά λοιπόν, είναι ένα δείγμα Υ₁,Υ₂,...ΥT όπου ο δείκτης παριστάνει ισαπέχοντα ή μη χρονικά σημεία ή διαστήματα. Υποθέτοντας, ότι οι παρατηρήσεις y₁,y₂,.,yt είναι συγκεκριμένες τιμές ή συγκεκριμένες πραγματοποιήσεις των τυχαίων μεταβλητών Υ₁,Υ₂,...ΥΤ και ότι επιπλέον οι τυχαίες μεταβλητές αυτές Υ₁,Υ₂,...ΥΤ είναι μέρος μιας άπειρης σειράς τυχαίων μεταβλητών. Η άπειρη αυτή ακολουθία των τυχαίων μεταβλητών ονομάζεται στοχαστική ή τυχαία διαδικασία ή στοχαστική ανέλιξη και παριστάνεται

56 ως {Υt}. Mε την ορολογία της κλασικής στατιστικής, η έννοια της στοχαστικής διαδικασίας είναι ανάλογη της έννοιας του πληθυσμού, ενώ η έννοια της συγκεκριμένης πραγματοποιήσεως είναι ανάλογη της έννοιας του δείγματος. Γενικά όπως και στην περίπτωση Τ τυχαίων μεταβλητών, μια στοχαστική διαδικασία μπορεί να περιγραφεί από μια συνάρτηση πιθανότητας f(y1,y2,.,yt). Εάν ήταν γνωστή η συνάρτηση πιθανότητας, τότε θα ήταν εύκολο να υπολογιστεί, για παράδειγμα, η πιθανότητα μιας συγκεκριμένης πραγματοποιήσεως ή η πιθανότητα μιας μελλοντικής τιμής. Επειδή όμως όχι μόνο η συνάρτηση πιθανότητας δεν είναι γνωστή, αλλά ούτε και η πλήρης εξειδίκευση της μορφής της είναι δυνατή, σκοπός της ανάλυσης των χρονολογικών σειρών είναι η διατύπωση μοντέλων που θα μπορούν να περιγράψουν το μηχανισμό της στοχαστικής διαδικασίας από την οποία προέκυψε η συγκεκριμένη χρονολογική σειρά.ακολουθεί μια σχηματική αναπαράσταση μιας χρονοσειράς: Εικόνα 11: Η αξία και ο όγκος μια μετοχής κατά την διάρκεια των μηνών Μαΐου και Απριλίου

57 2.6.2 ΑΝΑΛΥΣΗ ΤΩΝ ΧΡΟΝΟΛΟΓΙΚΩΝ ΣΕΙΡΩΝ Όλες ανεξαιρέτως οι μέθοδοι αναλύσεως χρονολογικών σειρών αναζητούν υποδείγματα που θα περιγράφουν κατά τον καλύτερο δυνατό τρόπο τα υπάρχοντα εμπειρικά δεδομένα. Δηλαδή υποδείγματα που θα διαθέτουν την μεγαλύτερη δυνατή απλότητα και συγχρόνως τον ελάχιστο αριθμό παραμέτρων, χωρίς όμως να βλάπτεται η ευελιξία τους. Η κατασκευή των υποδειγμάτων αυτών είναι ενδιαφέρουσα διότι: Αυτά δύναται να μας αποκαλύψουν την υπάρχουσα νομοτέλεια η οποία πιθανόν υφίσταται μεταξύ διαδοχικών παρατηρήσεων μιας μεταβλητής. Αυτά δύναται να χρησιμοποιηθούν για να μας δώσουν άριστες προβλέψεις για την μελλοντική εξέλιξη της υπό έρευνα μεταβλητής. Η πρόβλεψη της μελλοντικής συμπεριφοράς της διαδικασίας (π.χ. παραγωγής) παρέχει στην διοίκηση μιας εταιρείας την ευχέρεια να επέμβει έγκαιρα, αν χρειαστεί και να ελέγξει αυτήν πριν εξελιχθεί δυσμενώς (optimal control policy). Η μεθοδολογία αναλύσεως των χρονολογικών σειρών γνωστή ως μεθολογία των Box-Jenkins περιγράφεται από το παρακάτω διάγραμμα: Εικόνα 12: Μεθοδολογία ανάλυσης χρονολογικών σειρών

58 Οι χρονολογικές σειρές διακρίνονται σε συνεχής χρονολογικές σειρές σε διακριτές: Συνεχείς (continuous) χρονολογικές σειρές είναι αυτές όπου η τιμή του φαινομένου Χ(t) παρατηρείται συνεχώς. Παράδειγμα συνεχών χρονολογικών σειρών είναι η συνεχόμενη καταγραφή της θερμοκρασίας του αέρα ή η συνεχής παρακολούθηση των σεισμών. Εικόνα 13: Συνεχής χρονολογική σειρά. Διακριτές (discrete) χρονολογικές σειρές είναι αυτές όπου η τιμή του φαινομένου X(ti) καταγράφεται σε ορισμένα χρονικά διαστήματα Δt,ti=iΔt. Παραδείγματα διακριτών χρονολογικών σειρών είναι η τιμή μιας μετοχής ανά ημέρα ή ο αριθμός των ηλιακών κηλίδων ανά έτος όπου υπάρχουν τιμές σε συγκεκριμένα χρονικά διαστήματα. Εικόνα 14: Διακριτή χρονολογική σειρά. Οι διακριτές χρονολογικές σειρές είναι αυτές που μπορούν να κατανοηθούν καλύτερα από έναν H/Y.Συνεπώς, αντικειμενικός στόχος είναι οι συνεχείς χρονοσειρές να μετατραπούν σε διακριτές. Η διαδικασία μετατροπής μιας συνεχούς χρονολογικής σειράς σε διακριτή ονομάζεται

59 διακριτοποίηση ή δειγματοληψία (Sampling,read off,digitize) και είναι η διαδικασία κατά την οποία διαβάζοντας μια συνεχή χρονολογική σειρά κρατάμε τιμές μόνο σε σημεία που απέχουν ορισμένη χρονική απόσταση Δt ή μετρώντας εξ αρχής μόνο σε διακριτές χρονικές στιγμές. Συνήθως αποφεύγεται μη σταθερό Δt καθώς δημιουργεί αρκετές δυσκολίες. Επίσης οι χρονοσειρές διακρίνονται σε στάσιμες και μη στάσιμες όπου: Στάσιμη χρονοσειρά είναι όταν οι διακυμάνσεις των τιμών της δεν αλλάζουν με την πάροδο του χρόνου. Μη στάσιμη χρονοσειρά είναι όταν οι διακυμάνσεις των τιμών της αλλάζει με την πάροδο του χρόνου και μπορεί να έχει τάση να εμφανίζει περιοδικότητα ή εποχικότητα. Οι μέθοδοι ανάλυσης των χρονολογικών σειρών βασίζονται πάνω σε μια σχηματισμένη εσωτερική δομή που μπορεί να υπάρχει στα δεδομένα και έτσι είναι απαραίτητο να εξετάζονται τα παρακάτω γνωρίσματα όπως: Τάσεις (Trend Tt) όταν έχουμε μεγάλες αυξομειώσεις στο μέσο όρο. Κύκλοι (Cycle Ct) όταν έχουμε μεγάλες διακυμάνσεις. Εποχιακά (Seasonal Effects It) εάν υπάρχουν κυκλικές διακυμάνσεις ανάλογα την εποχή. Κατάλοιπα (Residuals Et) εάν οι διακυμάνσεις είναι τυχαίες και συστηματικές. Ένα μοντέλο σχηματίζεται με βάση τα παραπάνω τέσσερα χαρακτηριστικά ως εξής: Προσθετικό μοντέλο : Xt = Tt + Ic + Ct + Et. Πολλαπλασιαστικό μοντέλο: Xt = Tt * Ic * Ct * Et. Όπου Xt ή X(t) είναι η τιμή μιας χρονοσειράς τη χρονική στιγμή t. Επίσης μπορούμε να αναφέρουμε ότι μια χρονοσειρά ονομάζεται:

60 Στάσιμη πρώτης τάξης όταν η μέση τιμή της X(t) παραμένει στάσιμη για όλα τα t. Δηλαδή, στις στάσιμες χρονοσειρές οι τιμές προέρχονται από ένα μοντέλο με σταθερό μέσο όρο. Στάσιμη δεύτερης τάξης εάν είναι πρώτης τάξης στάσιμη και η συνδιασπορά μεταξύ των Χ(t) και Χ(s) είναι μία συνάρτηση μόνο μήκους ( t-s ). H σταθεροποίηση των χρονοσειρών ( που δεν είναι στάσιμες πρώτης τάξης) γίνεται λαμβάνοντας τις διαφορές των τιμών τους. Ενώ στην δεύτερη περίπτωση η σταθεροποίηση επιτυγχάνεται εφαρμόζοντας κάποιους μετασχηματισμούς.τέλος ο συντελεστής συσχέτισης δυο στοιχείων που απέχουν χρονικά τ βήματα ορίζεται ως εξής: r Corr( x x ) t t n t1 t t ( x x)( x x) n t 1 _ ( x x) t ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΧΡΟΝΟΛΟΓΙΚΩΝ ΣΕΙΡΩΝ Στο σημείο αυτό θα εξετάσουμε κάποιες βασικές τεχνικές μοντελοποίησης χρονοσειρών που είναι και οι πιο διαδεδομένες όπως είναι: Mοντέλα Markov (Markov Models) που περιέχει καταρχάς το σύνολο των καταστάσεων της διαδικασίας. Την πιθανότητα, όντας κατάσταση Si τη στιγμή t, στην επόμενη χρονική στιγμή t+1 να βρεθούμε στη κατάσταση Sj, με: a P( q S q S ) i, j ji t1 i t i Να την ονομάζουμε πιθανότητα μετάβασης του μοντέλου Markov. Προφανώς από την στιγμή που μιλάμε για πιθανότητες ισχύει aij 0 για κάθε i και j, καθώς επίσης και ότι:

61 k aij 1 i j1 Έκτος από τις καταστάσεις και τις πιθανότητες μετάβασης ένα ακόμα ζήτημα είναι η επιλογή της πρώτης κατάστασης της διαδικασίας. Ορίζουμε την πιθανότητα πi η κατάσταση si να είναι η αρχική κατάσταση της αλυσίδας, δηλαδή P q1 S i ( ) P [,,..., ] 1 2 i Οι πιθανότητες π ονομάζονται πιθανότητες έναρξης. Συνεπώς ένα μοντέλο Markov περιγράφεται από ένα σύνολο παραμέτρων των πιθανοτήτων έναρξης και μεταβάσεων. Θεωρώντας ότι υπάρχουν Κ καταστάσεις στο μοντέλο, έχουμε το σύνολο των πιθανοτήτων έναρξης : P [,,..., ] 1 2 και των πιθανοτήτων μετάβασης: Πίνακας 3: Πίνακας μεταβάσεων Α μοντέλου Markov. Επομένως, το σύνολο των παραμέτρων του μοντέλου Θ είναι οι δυο παραπάνω πίνακες. Ο πίνακας αρχικών καταστάσεων P και ο πίνακας μεταβάσεων Α και το μοντέλο ορίζεται με τη βοήθεια των παραμέτρων του ως Θ={P,A}. Επίσης, ένα μοντέλο Markov μπορεί να οπτικοποιηθεί ως ένας γράφος καταστάσεων και κατευθυνόμενων μεταβάσεων. Οι κόμβοι του γράφου αντιστοιχούν στις καταστάσεις του μοντέλου και οι ακμές στις πιθανότητες μετάβασης μεταξύ των καταστάσεων. Για κάθε κατάσταση του μοντέλου Si υπάρχει ένα σύνολο πιθανοτήτων μετάβασης

62 aij, για όλες τις καταστάσεις Sj του μοντέλου (συμπεριλαμβανομένης της ίδιας της Si). Ένα παράδειγμα μοντέλου Markov με τρεις καταστάσεις δίδεται παρακάτω : Εικόνα 15: Κατευθυνόμενος γράφος μοντέλου Markov. Κρυμμένα Μοντέλα Markov. Τα απλά μοντέλα Markov αποτελούν μια καλή προσέγγιση της διαδικασίας παραγωγής των παρατηρήσεων, αλλά θεωρούν ότι το πλήθος καταστάσεων του μοντέλου είναι ίσο με το πλήθος των διακριτών παρατηρήσεων και κάθε κατάσταση του μοντέλου αντιστοιχεί μόνο σε μια παρατήρηση. Αυτή η απλοποίηση καθιστά το απλό μοντέλο Markov μη αποδοτικό σε περιπτώσεις που η πραγματική διαδικασία παραγωγής των παρατηρήσεων είναι πιο σύνθετη. Τα κρυμμένα μοντέλα Markov μπορούν να ανταποκριθούν καλύτερα σε τέτοιες περιπτώσεις. Η διαφορά τους έγκειται στο ότι το πλήθος των καταστάσεων δεν είναι απαραίτητα ίσο με το πλήθος των διακριτών παρατηρήσεων και σε κάθε κατάσταση η παρατήρηση παράγεται από μια στοχαστική διαδικασία, η οποία δεν είναι άμεσα ορατή. Αυτή η εκ πρώτης όψεως μικρή διαφοροποίηση καθιστά τα κρυμμένα μοντέλα Markov πιο ισχυρά και τους επιτρέπει να προσεγγίσουν με μεγαλύτερη ακρίβεια τα προβλήματα

63 2.6.4 ΕΞΟΡΥΞΗ ΚΑΙ ΟΜΟΙΟΤΗΤΑ ΧΡΟΝΟΣΕΙΡΩΝ ΕΞΟΡΥΞΗ ΚΑΙ ΑΝΑΚΑΛΥΨΗ ΚΡΥΜΜΕΝΩΝ ΠΡΟΤΥΠΩΝ Οι έρευνες για την εξόρυξη των χρονοσειρών στοχεύουν στις παρακάτω διεργασίες : Συσταδοποίηση (clustering): ομαδοποίηση των χρονοσειρών της βάσης δεδομένων μέσω κάποιων μέτρων ομοιότητας και ανομοιότητας. Κατηγοριοποίηση (classification): τοποθέτηση μιας συγκεκριμένης χρονοσειράς σε μια από τις προκαθορισμένες κατηγορίες. Πρόβλεψη (Forecasting): πρόβλεψη της n+1 οστής τιμής μίας χρονοσειράς δοθέντος όλων των προηγούμενων σημείων της. Τμηματοποίηση (segmentation): δημιουργία ενός μοντέλου που διαμερίζεται σε κ τμήματα για την προσέγγιση μιας χρονοσειράς. Σύνοψη (summarization): Έχοντας μία χρονοσειρά μεγάλων διαστάσεων ζητείται να δημιουργηθεί μια προσέγγιση της με ταυτόχρονη διατήρηση των αρχικών χαρακτηριστικών. Ανίχνευση των ανωμαλιών (Anomaly Detection): Δοθέντος μίας κανονικοποιημένης χρονοσειράς Α και μιας άλλης χρονοσειράς Β χωρίς καμία ένδειξη, ζητείται η εύρεση όλων των τμημάτων της Β που περιέχουν ανωμαλίες ΟΜΟΙΟΤΗΤΑ ΧΡΟΝΟΣΕΙΡΩΝ Η απόσταση είναι θεμελιώδης μια θεμελιώδης έννοια στην πολυμεταβλητή ανάλυση και όχι μόνο για την ανάλυση δεδομένων. Σκοπός της απόστασης είναι να μετρήσει πόσο απέχουν δυο παρατηρήσεις, να ποσοτικοποιήσει δηλαδή αν μοιάζουν ή όχι οι παρατηρήσεις. Tα μέτρα απόστασης και μέτρα ομοιότητας είναι δυο πολύ βασικές έννοιες για την ανάλυση κατά συστάδες. Οι έννοιες αυτές είναι πολύ χρήσιμες καθώς μας επιτρέπουν να μετρήσουμε πόσο μοιάζουν οι παρατηρήσεις μεταξύ τους και επομένως να τις τοποθετήσουμε στην ίδια ομάδα. Συγκεκριμένα στις χρονοσειρές μπορούμε να αναζητήσουμε την ομοιότητα με βάση το σχήμα ή την δομή τους. ΟΡΙΣΜΟΣ: Η ομοιότητα ανάμεσα σε δύο πλειάδες xi και xj sim(xi,xj ) σε μία βάση δεδομένων, είναι μία απεικόνιση από DxD στο διάστημα [0,1]

64 Εικόνα 16: Γραφική αναπαράσταση ομοίων χρονοσειρών. Τα επιθυμητά χαρακτηριστικά ενός καλού μέτρου ομοιότητας είναι :, εάν το μοιάζει περισσότερο με το παρά με ΜΕΤΡΑ ΟΜΟΙΟΤΗΤΑΣ ΧΡΟΝΟΣΕΙΡΩΝ Η περίπτωση των συνεχών δεδομένων είναι ίσως η απλούστερη αλλά και η περισσότερο διαδεδομένη. Υπάρχουν πολλά μέτρα ομοιότητας που έχουν χρησιμοποιηθεί για να μετρήσουν την απόσταση σε συνεχή δεδομένα. Ευκλείδεια απόσταση Το πιο γνωστό μέτρο απόστασης μεταξύ δυο παρατηρήσεων είναι η ευκλείδεια απόσταση η οποία στην ουσία είναι η γεωμετρική απόσταση στον πολυδιάστατο χώρο. Ορίζεται από τον τύπο : p d d( x, x ) ( x x ) ij i j ir jr r1 και η ευκλείδεια απόσταση ικανοποιεί τις επόμενες τρεις

65 Ιδιότητες : dij για κάθε I,j και dij i=j. dig dis + ds (τριγωνική ιδιότητα). dij = dji (συμμετρική ιδιότητα). Απόσταση του Pearson Οι αποστάσεις μπορούν να επηρεαστούν σε μεγάλο βαθμό από διαφορές στην κλίμακα μέτρησης μεταξύ των διαστάσεων από τις οποίες οι αποστάσεις υπολογίζονται. Επομένως, είναι πιο σωστό να μετασχηματίσουμε τις μεταβλητές ώστε να έχουν συγκρίσιμη κλίμακα. Ένας τρόπος για να φέρουμε όλες τις μεταβλητές σε συγκρίσιμη κλίμακα είναι να διαιρέσουμε καθεμιά μεταβλητή με την τυπική απόκλιση. Άρα αν συμβολίσουμε με Sr τη διακύμανση της r μεταβλητής με τύπο : n 1 s [ ( X X ) ] r ir r n 1 i1 2 1/2 τότε η απόσταση που παίρνουμε έχει την μορφή : d p ( xir xjr ) d( x, x ) s ij i j r1 2 r 2 Απόσταση Mahalanobis Ένα μειονέκτημα της ευκλείδειας απόστασης είναι πως δεν λαμβάνει υπόψη τις συνδιακυμάνσεις ανάμεσα στις μεταβλητές. Μια τέτοια απόσταση που λαμβάνει υπόψη τις συνδιακυμάνσεις είναι η απόσταση του Mahalanobis η οποία δίδεται από τον τύπο : d ( x x ) ( x x ) 2 1 ' ij i j i j όπου Σ είναι ο δειγματικός πίνακας διακύμανσης-συνδιακύμανσης. Στην ειδική περίπτωση όπου ο Σ είναι διαγώνιος με διαγώνια στοιχεία Sj2 η απόσταση αυτή συμπίπτει με την απόσταση Pearson

66 Απόσταση Manhattan Η απόσταση Manhattan ορίζεται από τον τύπο: p d x x ij ir jr r1 H Απόσταση αυτή είναι απλώς η μέση διαφορά μεταξύ δύο μεταβλητών. Στις περισσότερες περιπτώσεις, αυτό το μέτρο απόστασης μας δίνει παρόμοια αποτελέσματα με την ευκλείδεια απόσταση, εκτός από την περίπτωση που υπάρχουν έκτροπες παρατηρήσεις (outliers). Στην περίπτωση αυτή τους δίνει μικρότερο βάρος, αφού η διαφορά δεν υψώνεται στο τετράγωνο, οπότε μπορούμε να οδηγηθούμε σε καλύτερα αποτελέσματα. Απόσταση Minkowski H απόσταση δίδεται από την παρακάτω σχέση: p 1/ dij ( xir x jr ) r1 Παρατηρούμε ότι η απόσταση Minkowski γενικεύει την Ευκλείδεια και την απόσταση Manhattan, αφού η πρώτη προκύπτει για λ=2, ενώ η δεύτερη για λ=1. Απόσταση max ή Chebyshev Αυτό το μέτρο απόστασης μας δείχνει ότι δύο παρατηρήσεις είναι διαφορετικές αν έχουν μεγάλες διαφορές σε μια τουλάχιστον μεταβλητή. Η απόσταση Chebyshev δίνεται από τον τύπο: d max x x ij ir jr r1,2,..., p Οι παραπάνω αποστάσεις είναι μετρικές απόστασης σημείο προς σημείο και αυτό έχει σαν αποτέλεσμα να εφαρμόζονται σε χρονοσειρές ίσου μεγέθους. Άρα λοιπόν όλες οι χρονοσειρές θα πρέπει να έχουν ακριβώς τον ίδιο αριθμό παρατηρήσεων

67 Εικόνα 17: Απόσταση σημείου προς σημείου μεταξύ χρονοσειρών. Όμως είναι πολύ πιθανόν οι προς ανάλυση χρονοσειρές να μην έχουν το ίδιο μέγεθος λόγω πρώτον του διαφορετικού χρόνου καταμέτρησης των τιμών του χαρακτηριστικού που μελετάται, για παράδειγμα, οι χρονοσειρές οι οποίες αναπαριστούν την ημερήσια τιμή πώλησης του πετρελαίου με διαφορετική ημερομηνία εκκίνησης και δεύτερον λόγω του διαφορετικού ρυθμού δειγματοληψίας και καταγραφής των τιμών του χαρακτηριστικού που μελετάται. Έτσι λοιπόν επινοήθηκε η Dynamic Time Warping DTW που υποστηρίζει τον υπολογισμό της απόστασης μεταξύ χρονοσειρών διαφορετικού μεγέθους. Dynamic Time Warping Σύμφωνα με τους Yi, Jagadish και Φαλούτσο κατά την εφαρμογή της μετρικής DTW, κάθε πιθανός συνδυασμός των σημείων της χρονοσειράς- Q και της χρονοσειράς C, των οποίων η απόσταση μπορεί να υπολογιστεί, αναπαρίσταται, αρχικά, σε έναν δισδιάστατο πίνακα Α. Παίρνοντας σαν δεδομένο ότι το μέγεθος της χρονοσειράς C ισούται με Ν και αυτό της χρονοσειράς query Q ισούται με n, οι διαστάσεις του πίνακα που προκύπτει είναι ίσες με Ν*n. Στο επόμενο βήμα, γίνεται προσπάθεια εύρεσης της μικρότερης δυνατής απόστασης μεταξύ C και Q. Αυτό επιτυγχάνεται ως εξής : ξεκινώντας από το στοιχείο a1.1 του πίνακα, υπολογίζεται η απόσταση μεταξύ του στοιχείου a1.1 και όλων των γειτονικών του στοιχείων χωριστά και μετά διαλέγουμε εκείνο το γειτονικό στοιχείο, το οποίο απέχει λιγότερο από το αρχικό. Άρα χρησιμοποιούμε την παρακάτω αναδρομική σχέση: a( i, j) d( qi, cj) min{ a( i 1, j 1), a( i 1, j), a( i, j 1)} Όπου i παίρνει τιμές από 1 έως Ν και j παίρνει τιμές από 1 έως n. H διαδικασία αυτή επαναλαμβάνεται με το στοιχείο που έχει επιλεγεί ως αρχικό στοιχείο σύγκρισης και ολοκληρώνεται όταν το στοιχείο σύγκρισης ισοδυναμεί με το στοιχείο an,n

68 Εικόνα 18: Υπολογισμός της απόστασης μεταξύ χρονοσειρών βάσει της μετρικής DTW. Αποτέλεσμα της παραπάνω διαδικασίας είναι η εύρεση της ελάχιστης διαδρομής από το στοιχείο a1.1 έως το στοιχείο an,n η οποία είναι γνωστή σαν warping path. Με τον όρο ελάχιστη εννοούμε τη διαδρομή με τη μικρότερη απόσταση μεταξύ των στοιχείων a1.1 και an,n η οποία συνήθως σχεδόν διασχίζει διαγώνια των πίνακα Α των στοιχείων. Η απόσταση μεταξύ των χρονοσειρών C και Q βάσει της μετρικής απόστασης DTW προκύπτει από τον τύπο: K W k k 1 DTW ( C, Q) min K όπου Wk αντιστοιχεί στο k-οστό στοιχείο της ελάχιστης διαδρομής του πίνακα των στοιχείων και Κ είναι το συνολικό πλήθος των στοιχείων της ελάχιστης αυτής διαδρομής

69 Παρατηρώντας προσεκτικά τη διαδικασία εφαρμογής της μετρικής DTW διαπιστώνει κανείς ότι η ιδιαιτερότητα αυτής της τεχνικής σε σύγκριση με τις παραπάνω μετρικές απόστασης σημείο προς σημείο, όπου κάθε τιμή της μίας χρονοσειράς συγκρίνεται με μια μόνο τιμή, την αντίστοιχη τιμή της άλλης χρονοσειράς, είναι ότι επιτρέπει τη σύγκριση ενός σημείου με περισσότερα του ενός σημεία. Κατά συνέπεια οι χρονοσειρές που εξετάζονται δεν είναι απαραίτητο να έχουν το ίδιο μέγεθος παρατηρήσεων. Εικόνα 19: Απόσταση μεταξύ χρονοσειρών σύμφωνα με τη μετρική απόστασης DTW ΕΥΚΛΕΙΔΕΙΑ ΑΠΟΣΤΑΣΗ VS DTW Η διαφορετική προσέγγιση της μετρικής DTW σε σύγκριση με αυτή των μετρικών απόστασης σημείου προς σημείο, παίζει καθοριστικό ρόλο και επηρεάζει σημαντικά τα αποτελέσματα που λαμβάνονται στις εργασίες της διαδικασίας εξόρυξης γνώσης. Πιο συγκεκριμένα ο Keogh σε συνεργασία με τον Ratanamahatana (2004) διαπίστωσε ότι τα ποσοστά λάθους που σημειώνονται στην περίπτωση ομαδοποίησης των προς ανάλυση χρονοσειρών βάσει της μετρικής DTW είναι πολύ μικρότερα από αυτά που καταγράφονται στην περίπτωση εφαρμογής της Ευκλείδειας απόστασης. Συνεπώς η μετρική DTW αποδεικνύεται περισσότερο αξιόπιστη έναντι των μετρικών απόστασης σημείο προς σημείο. Από την άλλη πλευρά η μέθοδος DTW μειονεκτεί σε σημαντικά πεδία όπως είναι ο χρόνος και το κόστος υπολογισμού. Πρόκειται για έναν υπολογιστικά πολύπλοκο και χρονοβόρο αλγόριθμο. Απαιτεί μεγάλο CPU κόστος εφόσον για την σύγκριση δυο χρονοσειρών C και Q, μεγέθους N και n, αντίστοιχα, η πολυπλοκότητα του αλγόριθμου εκτιμάται σε Ο(Νn). Ακόμα η απόσταση μεταξύ των χρονοσειρών μιας βάσης δεδομένων βάσει της μετρικής απόστασης DTW υπολογίζεται σε

70 γραμμικό χρόνο. Συνεπώς όσο περισσότερες είναι οι προς ανάλυση χρονοσειρές, τόσο περισσότερος χρόνος απαιτείται. Μάλιστα σε σύγκριση με την ευκλείδεια απόσταση η μέθοδος DTW έχει διαπιστωθεί ότι είναι 2 με 4 φορές πιο αργή. Συμπερασματικά λοιπόν από την άποψη απαιτούμενου χρόνου η μετρική απόστασης DTW δεν αποτελεί την καλύτερη επιλογή για μεγάλου μεγέθους βάσης δεδομένων. Εικόνα 20: Ευκλείδεια απόσταση VS DTW. 2.7 ΜΕΘΟΔΟΙ ΠΡΟΒΛΕΨΗΣ ΣΤΙΣ ΧΡΟΝΟΣΕΙΡΕΣ ΠΡΟΒΛΕΨΗ ΟΙΚΟΝΟΜΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΧΡΟΝΟΣΕΙΡΕΣ Η ανάλυση χρονοσειρών αποτελεί μια αναγκαία και από τις πλέον βασικές λειτουργίες της διοίκησης των επιχειρήσεων ενώ η πρόβλεψη χρονοσειρών είναι μία απαραίτητη πηγή πληροφόρησης, η οποία υποστηρίζει τη λήψη αποφάσεων. Όλες οι επιχειρήσεις ή οργανισμοί θα πάρουν αποφάσεις με βάση προβλέψεις οικονομικών μεγεθών που προέρχονται από την επεξεργασία των διαθέσιμων δεδομένων και την εφαρμογή των κατάλληλων μεθόδων πρόβλεψης. Οι διοικήσεις καλούνται να λάβουν σημαντικές αποφάσεις που αφορούν τις μελλοντικές εξελίξεις της ίδιας της επιχείρησης. Για παράδειγμα, αποφάσεις που αφορούν τις παραγόμενες ποσότητες των προϊόντων, το σχεδιασμό της παραγωγικής διαδικασίας, τις ανάγκες σε ανθρώπινους και λοιπούς πόρους, το ύψος των διαφημιστικών δαπανών και πολλές άλλες, βασίζονται κατά κύριο λόγο στην πρόβλεψη της μελλοντικής ζήτησης. Συνεπώς η πρόβλεψη της

71 ζήτησης των προϊόντων ή των υπηρεσιών αποτελεί μία από τις πιο σημαντικές λειτουργίες των επιχειρήσεων και των οργανισμών. Παραδείγματα χρονοσειρών είναι οι μηνιαίες πωλήσεις ενός προϊόντος μιας επιχείρησης κατά την τελευταία τετραετία, το ετήσιο ακαθάριστο εθνικό προϊόν μιας χώρας, η ημερήσια τιμή κλεισίματος μιας μετοχής στο Χρηματιστήριο, οι ωριαίες θερμοκρασίες που ανακοινώνονται από το μετεωρολογικό γραφείο μιας πόλης και άλλα πολλά ΜΕΘΟΔΟΙ ΠΡΟΒΛΕΨΗΣ ΤΩΝ ΧΡΟΝΟΣΕΙΡΩΝ Η ανάλυση χρονοσειρών στην ουσία ασχολείται με την διαχρονική συμπεριφορά των τιμών μιας μεταβλητής. Μπορούμε να επιτύχουμε πρόβλεψη των μελλοντικών τιμών της μεταβλητής σύμφωνα με την ανάλυση των χρονοσειρών και μπορεί να προέλθει από τις μεθόδους προβλέψεων που ακολουθούν: Μέθοδοι εξομάλυνσης Διάσπαση χρονοσειρών Ανάλυση ARIMA Για να δούμε ποια μέθοδος είναι κατάλληλη χρησιμοποιούμε τα κριτήρια αξιολόγησης των μεθόδων προβλέψεων που στην ουσία βασίζονται στις τιμές των αποκλίσεων των προβλεπόμενων τιμών από τις αντίστοιχες πραγματικές τιμές. Επίσης στο σημείο αυτό αξίζει να αναφέρουμε και το σφάλμα πρόβλεψης (forecast error) που συμβολίζεται με et και στην ουσία είναι η διαφορά της πραγματικής τιμής από την προβλεπόμενη. Έτσι λοιπόν για να δούμε την αξιοπιστία του μοντέλου πρόβλεψης θα πρέπει δούμε πως κυμαίνονται τα σφάλματα με την πάροδο του χρόνου. Αυτό επιτυγχάνεται με τα παρακάτω κριτήρια: Μέση απόλυτη απόκλιση MAD (Mean Absolute Deviation) που στην ουσία ορίζεται από το άθροισμα των απολύτων τιμών του σφάλματος της πρόβλεψης διαιρούμενο με τον αριθμό των περιόδων n, στις οποίες έγιναν προβλέψεις δηλαδή: n ^ n 1 1 t t t n t1 n t1 MAD Y Y e

72 Το σημαντικό εδώ είναι ότι έχουμε ίδιες μονάδες μέτρησής, λαμβάνει υπόψη απόλυτες τιμές και τέλος η σοβαρότητα του σφάλματος σχετίζεται γραμμικά με το μέγεθος του σφάλματος. Μέσο σφάλμα τετραγώνου MSE (Mean Squared Error) που στην ουσία ορίζεται από το άθροισμα των τετραγώνων των σφαλμάτων διαιρούμενο με τον αριθμό των χρονικών περιόδων n, στις οποίες έγιναν οι προβλέψεις δηλαδή: 2 1 n ^ n 1 2 t t t n t1 n t1 MSE Y Y e Μέσο απόλυτο ποσοστιαίο σφάλμα MAPE ( Mean Absolute Percentage Error) που στην ουσία βλέπει πως συμπεριφέρεται η απόλυτη τιμή του σφάλματος σε σχέση με την πραγματική τιμή της χρονοσειράς και ορίζεται από τον παρακάτω τύπο : n Yt Yt n 1 1 et MAPE n Y n Y ^ t1 t t1 Το κριτήριο αυτό πλεονεκτεί στο γεγονός ότι είναι απαλλαγμένο από μονάδες μέτρησης και μπορούμε να το χρησιμοποιήσουμε και για περισσότερες από μια χρονοσειρές. Μέσο ποσοστιαίο σφάλμα MPE ( Mean Percentage Error) το οποίο μας βοηθάει στον εντοπισμό της μεροληψίας μιας μεθόδου πρόβλεψης και ορίζεται ως εξής: n n 1 Yt Yt 1 et MPE n Y n Y ^ t1 t t1 Εδώ καταλαβαίνουμε ότι όσο πιο κοντά στο μηδέν είναι η τιμή του MPE, τόσο πιο αμερόληπτη και καλή είναι η μέθοδος πρόβλεψης που χρησιμοποιήθηκε ενώ όσο πιο μεγάλες απόλυτες τιμές δείξει ο ΜPE φανερώνει μεγάλη μεροληψία της μεθόδου. t t ΜΕΘΟΔΟΙ ΕΞΟΜΑΛΥΝΣΗΣ Με τις μεθόδους τις εξομάλυνσης επιτυγχάνουμε πρόβλεψη τιμών μιας χρονοσειράς βασιζόμενοι αποκλειστικά στις διαθέσιμες παρατηρήσεις της μεταβλητής και ανεξάρτητα τι σχέση μπορεί να έχει η συγκεκριμένη μεταβλητή με άλλη ή άλλες. Είναι σχετικά εύκολες μέθοδοι και μερικές μπορούν να χρησιμοποιηθούν και για δείγματα παρατηρήσεων μικρού μεγέθους

73 Απλός κινητός μέσος (simple moving average) είναι πολύ απλή μέθοδος και χρησιμοποιεί ως πρόβλεψη την τιμή του αριθμητικού μέσου όρου των m πρόσφατων παρατηρήσεων της χρονοσειράς. Οι προβλέψεις ορίζονται ως εξής: ^ m 1 1 ^ Y (... ) t Y Y Y Y Y Y Y t m m m m t1 t j1 t t1 tm1 j1 Για m=1 η πρόβλεψη της επόμενης περιόδου είναι ίση με την πραγματική τιμή της προηγούμενης περιόδου. Επιλέγουμε εκείνη την τιμή του m που ελαχιστοποιεί το κριτήριο MSE ή κάποιο άλλο. t m Απλή εκθετική εξομάλυνση (simple exponential smoothing) είναι μια μέθοδος που στην ουσία οι προβλέψεις δημιουργούνται με βάση κάποιο σταθμικό μέσο έτσι ώστε κάθε παρατήρηση να έχει διαφορετική βαρύτητα και ειδικότερα δίνει μεγαλύτερη βαρύτητα στις πιο πρόσφατες παρατηρήσεις. Σαν παράδειγμα ας θεωρήσουμε ότι οι προβλέψεις τις χρονοσειράς δημιουργούνται από τον παρακάτω τύπο: ^ 2 t1 t t1 t2 Y ay a(1 a) Y a(1 a) Y... Όπου η παράμετρος α είναι η σταθερά εξομάλυνσης (smoothing constant) και παίρνει τιμές από και 1 δηλαδή 0 α 1. Η τιμή της παραμέτρου α μπορεί να καθοριστεί από τον ερευνητή αλλά το πιο σωστό είναι το α να παίρνει την τιμή που ελαχιστοποιεί το MSE ή κάποιο άλλο κριτήριο. Διπλός κινητός μέσος (double moving average) μπορεί να χρησιμοποιηθεί για την πρόβλεψη των τιμών μιας χρονοσειράς της οποίας οι παρατηρήσεις της παρουσιάζουν μια πορεία (π.χ. ανοδική) που εκφράζεται από κάποια γραμμική τάση. Η εφαρμογή της μεθόδου του διπλού μέσου ακολουθεί κάποια βήματα που στην ουσία είναι: I. Βρίσκουμε τον απλό κινητό μέσο m περιόδων από την σχέση: M 1 m t 1 t j 1 Y m j1 II. Έπειτα βρίσκουμε τον διπλό κινητό μέσο m περιόδων: M ' m 1 Y m t 1 t j 1 j1 III. Υπολογίζεται η διαφορά αt ως εξής:

74 a 2M M ' t t t IV. Ο παράγοντας προσαρμογής για την τάση βρίσκεται: 2 ( ' ) t t t b M M m 1 V. Υπολογίζεται η πρόβλεψη για την h μελλοντική περίοδο ως: ^ Yt h at hbt με h να είναι ένας ακέραιος θετικός αριθμός. Η χρήση της προϋποθέτει μεγαλύτερου αριθμού παρατηρήσεων ιδιαίτερα μάλιστα όταν η τιμή του m είναι σχετικά μεγάλη. Όταν η τιμή του m δεν την ξέρουμε παίρνουμε την τιμή που ελαχιστοποιεί την τιμή του κριτηρίου MSE ή κάποιου άλλου κριτηρίου στα δεδομένα της χρονοσειράς εφαρμόζοντας τη μέθοδο για διάφορες τιμές του m. Μέθοδος Brown ή διπλή εκθετική εξομάλυνση (double exponential smoothing) χρησιμοποιείται σε χρονοσειρές των οποίων οι παρατηρήσεις παρουσιάζουν τάση. Η διαδικασία της μεθόδου της διπλής εκθετικής εξομάλυνσης ακολουθεί τα παρακάτω βήματα: I. Εξομαλύνονται οι αρχικές παρατηρήσεις της χρονοσειράς με την απλή μέθοδο ως ακολούθως: At ayt (1 a) At 1 Όπου α είναι η σταθερά εξομάλυνσης με α να παίρνει τιμές από 0 έως 1. II. Εξομαλύνονται οι εξομαλυνθείσες τιμές Αt της χρονοσειράς με τη μέθοδο της απλής εκθετικής εξομάλυνσης ως ακολούθως: A aa (1 a) A ' ' t t t 1 Και στην ουσία βρίσκουμε τις εξομαλυνθείσες τιμές που προκύπτουν από τη δεύτερη εξομάλυνση. III. Βρίσκουμε την διαφορά αt ως εξής: a 2A A ' t t t IV. Υπολογίζεται ο παράγοντας προσαρμογής για την τάση bt ως εξής: a b A A 1 a ' t ( t t ) V. Έτσι στην συνέχεια έχουμε την πρόβλεψη για την h μελλοντική περίοδο: ^ Y a hb t h t t

75 Με h ακέραιο θετικό αριθμό. Στην ουσία με αυτή τη μέθοδο μπορούμε να επιτύχουμε προβλέψεις για περισσότερες των μια μελλοντικές περιόδους και τέλος αν το α δεν είναι γνωστό επιλέγουμε εκείνη την τιμή που ελαχιστοποιεί την τιμή του κριτηρίου MSE ή κάποιο άλλο κριτήριο. Μέθοδος Holt (εκθετική εξομάλυνση με προσαρμογή στην τάση) που μπορούμε να την συναντήσουμε και με τον αγγλικό όρο exponential smoothing adjusted for trend στην ουσία έχει δυο παραμέτρους εξομάλυνσης η μια για τις τιμές της χρονοσειράς και η άλλη για την τάση της. Ακολουθεί την παρακάτω διαδικασία: I. Εξομάλυνση των τιμών της χρονοσειράς: A ay (1 a)( A T ) t t t1 t1 II. Εξομάλυνση της τάσης: T ( A A ) (1 ) T t t t1 t1 Όπου β, 0 β 1 είναι η σταθερά για την εξομάλυνση της τάσης, Τt οι εξομαλυνθείσες τιμές τις τάσης, για t=2,3,4..n ενώ για t=1 ορίζεται ως αρχική συνθήκη Τ1=0. ΙΙΙ. Βρίσκουμε την πρόβλεψη για την h μελλοντική περίοδο: ^ Y A ht t h t t Όπου h=1,2,3.. Και εδώ βέλτιστες τιμές για τα α,β βρίσκουμε με ελαχιστοποίηση των κριτηρίων MSE ή των άλλων κριτηρίων. Η μέθοδος Holt εφαρμόζεται περισσότερο συχνά στην πράξη, αφού έχει αποδειχθεί ότι παρέχει συνήθως καλύτερα αποτελέσματα από τη μέθοδο Brown. Μέθοδος Winters (εκθετική εξομάλυνση με προσαρμογή στην τάση και στην εποχικότητα) χρησιμοποιείται κυρίως όταν παρουσιάζεται εποχικότητα στις παρατηρήσεις της χρονοσειράς που παρουσιάζεται αρκετά συχνά σε οικονομικά φαινόμενα. Έχουμε τρεις παραμέτρους α,β, και γ που χρησιμοποιούνται για την εξομάλυνση των τιμών της χρονοσειράς, της τάσης και της εποχικότητας. Η εφαρμογή της μεθόδου ακολουθεί την παρακάτω διαδικασία: I. Εξομάλυνση των τιμών της χρονοσειράς: Y A a (1 a)( A T ) t t t1 t1 StL

76 Με 0 α 1, St ο εποχικός συντελεστής της περιόδου t και L η περιοδικότητα της εποχικότητας δηλαδή L=12 για μηνιαία δεδομένα, L=4 για τριμηνιαία δεδομένα κ.ο.κ. ΙΙ. Εξομάλυνση εποχικότητας με 0 γ 1 και βρίσκεται: S t Yt (1 ) S A t t L III. H πρόβλεψη προσδιορίζεται για h μελλοντικές περιόδους του πρώτου έτους: ^ Y ( A ht ) S t h t t thl Όπου h=1,2,3,..l και για μελλοντικές περιόδους του δεύτερου έτους από τη σχέση ^ Y ( A ht ) S t h t t t h 2 L Για h=l+1, L+2,.,2L κ.ο.κ. Οι αρχικές συνθήκες των σχέσεων υπολογίζονται με τον ακόλουθο τρόπο: a. Για t = 1, 2,, L-1 δεν προσδιορίζονται οι τιμές Ατ, ενώ για t=l το AL ορίζεται ως: A L Y1 Y2... YL L b. Για t = 1, 2,, L-1 δεν προσδιορίζονται οι τιμές Τt, ενώ για t = L, τίθεται TL=0. c. Για t = 1, 2,, L οι τιμές των εποχικών συντελεστών St υπολογίζονται ως εξής: S t Yt A L Οι άριστες τιμές των παραμέτρων α, β και γ προκύπτουν από την ελαχιστοποίηση του κριτήριου MSE ή κάποιου άλλου κριτηρίου ΜΕΘΟΔΟΙ ΔΙΑΣΠΑΣΗΣ ΧΡΟΝΟΣΕΙΡΩΝ Και η διάσπαση χρονοσειρών χρησιμοποιείται για προβλέψεις και η βασική διαφορά που έχουν με τις μεθόδους εξομάλυνσης είναι ότι απαιτούν μεγαλύτερο αριθμό παρατηρήσεων ώστε να επιτύχει πιο μακροπρόθεσμες προβλέψεις. Βέβαια απαιτούν πιο πολύ χρόνο και στηρίζονται στη διάσπαση των χρονοσειρών σε 4 συνθετικά στοιχεία που είναι η τάση, η εποχικότητα, η κυκλικότητα και η μη-κανονικότητα. Πρέπει να δούμε σε τι βαθμό κάθε στοιχείο στο πως δημιουργούνται οι παρατηρήσεις της χρονοσειράς. Για να τις δούμε παρακάτω:

77 Ανάλυση εποχικότητας η οποία μετριέται με τους δείκτες εποχικότητας (seasonal indices) που βλέπουν πως συμπεριφέρονται οι παρατηρήσεις της χρονοσειράς σε ένα εποχικό φαινόμενο. Προσδιορίζονται με την εφαρμογή της μεθόδου του κεντρικού κινητού μέσου και στην ουσία απομονώνουμε την εποχικότητα από τα άλλα τρία συνθετικά στοιχεία της χρονοσειράς. Παράδειγμα στο πολλαπλασιαστικό μοντέλο τον δείκτη εποχικότητας St της περιόδου t τον βρίσκουμε: S t Yt Tt St Ct It CA T C I t t t t Όπου CAt είναι η εξομαλυνθείσα τιμή της χρονοσειράς που προέρχεται από την μέθοδο του κεντρικού κινητού μέσου που χρησιμοποιήθηκε. Το πολλαπλασιαστικό μοντέλο προϋποθέτει να είναι το άθροισμα των εποχικών δεικτών ίσο με τον αριθμό των περιόδων εντός του έτους. Εάν αυτό δεν ισχύει θα πρέπει να γίνει η κατάλληλη προσαρμογή. Απαλοιφή της εποχικότητας μπορούμε να επιτύχουμε ως εξής: SAY t Yt SA i Ανάλυση μακροχρόνιας τάσης η όποια δείχνει την μακροχρόνια εξέλιξη των παρατηρήσεων μιας χρονοσειράς. Για τον υπολογισμό της υποθέτουμε ότι εκφράζεται ικανοποιητικά από ένα γραμμικό υπόδειγμα στο οποίο ως ανεξάρτητη μεταβλητή θα είναι ο χρόνος. Έστω ότι την τάση την βρίσκουμε από την σχέση: Y a bt t t Με t ανεξάρτητη μεταβλητή και ε τυχαίο σφάλμα. Οι εκτιμήσεις των συντελεστών της παραπάνω σχέσης προσδιορίζεται με την μέθοδο των ελαχίστων τετραγώνων: n n n n t Y ( t)( Y ) t t1 t1 t1 n n 2 2 n t ( t) t1 t1 t n n 1 1 a Y t n t t1 n t1 Με β να μας δείχνει πόσο θα μεταβληθεί η τιμή της χρονοσειράς όταν ο χρόνος t μεταβληθεί κατά μια μονάδα. Αν το β θετικό η μακροχρόνια τάση είναι ανοδική αντίθετα πτωτική. Εδώ αξίζει να αναφέρουμε ότι η τάση είναι το μόνο συνθετικό στοιχείο της χρονοσειράς που μπορούμε να καθορίσουμε ανεξάρτητα από την ύπαρξη ή όχι εποχικότητας στις τιμές της χρονοσειράς. Όταν δεν

78 υπάρχει εποχικότητα οι συντελεστές της πρώτης σχέσης προσδιορίζονται χρησιμοποιώντας ως εξαρτημένη μεταβλητή τις πραγματικές τιμές της χρονοσειράς. Ανάλυση κυκλικότητας και μη κανονικότητας επιτυγχάνουμε όταν τις απομονώσουμε από τα άλλα δύο συνθετικά στοιχεία. Η απομόνωση αυτή γίνεται με την απαλλαγή της τάσης από τις ήδη απαλλαγμένες από εποχικότητα τιμές της χρονοσειράς: TAY SAY C I t t t t Tt Εδώ οι τιμές περιέχουν μόνο κυκλικότητα και μη-κανονικότητα και φυσικά είναι ανεξάρτητοι από την μονάδα μέτρησης. Αν το SAYt / Tt ισούται με τη μονάδα για όλες τις τιμές της χρονοσειράς τότε η κυκλικότητα και μη-κανονικότητα δεν εμφανίζεται στις παρατηρήσεις της χρονοσειράς ενώ αν δεν ισούται με την μονάδα εμφανίζεται. Απομόνωση της κυκλικότητας-μη κανονικότητας επιτυγχάνουμε με την βοήθεια του σταθμικού κεντρικού κινητού μέσου στα απαλλαγμένα από εποχικότητα και τάση δεδομένα της χρονοσειράς. Παράδειγμα για τριμηνιαία οικονομικά δεδομένα: Y 2Y Y 4 t1 t t1 WAt Έτσι αν η τιμή του είναι ίση με 1.45 αυτό σημαίνει ότι για την συγκεκριμένη περίοδο υπάρχει αύξηση 45% στην τιμή της χρονοσειράς που οφείλεται στην κυκλικότητα. Τέλος απομόνωση της μη-κανονικότητας γίνεται αν διώξουμε την κυκλικότητα (είναι ήδη απαλλαγμένα από εποχικότητα και τάση) σύμφωνα με τον τύπο: CAY TAY t t WAt I t Διαμόρφωση προβλέψεων επιτυγχάνουμε όταν αναγνωρίσουμε τα συνθετικά στοιχεία που μελετήσαμε παραπάνω. Με βάση το πολλαπλασιαστικό μοντέλο έχουμε: ^ Y T S C I th th th th th It+h μη-κανονικότητα δύσκολα καθορίζεται (απρόσμενοι παράγοντες) άρα τον βάζουμε ίσο με 1. Ct+h ίσο με τη μονάδα ένα οι κυκλικές διακυμάνσεις είναι μικρές. Τt+h τιμή της τάσης προκύπτει από την σχέση:

79 T t h a ( t h) όπου α και β οι συντελεστές της γραμμικής τάσης. Άρα με βάση τα παραπάνω οι προβλέψεις βρίσκονται με τον τύπο: ^ Y th [ a ( t h)] SA. i ΑΝΑΛΥΣΗ ARIMA Τα ολοκληρωμένα αυτοπαλίνδρομα υποδείγματα κινητού μέσου (Autoregressive Integrated Moving Average) είναι στοχαστικά μαθηματικά μοντέλα τα οποία χρησιμοποιούνται για την περιγραφή της διαχρονικής εξέλιξης κάποιου φυσικού μεγέθους. Επίσης περιλαμβάνουν το τυχαίο σφάλμα ή σφάλμα πρόβλεψης. Τα υποδείγματα ARIMA έχουν μελετηθεί εκτενώς από τους Box και Jenkins και οι οποίοι κατέληξαν ότι οι προβλέψεις στηρίζονται στις προηγούμενες χρονικά τιμές της χρονοσειράς και στα πρότυπα συμπεριφοράς που εμφανίζει η χρονοσειρά. Η συνάρτηση αυτοσυσχέτισης (autocorrelation function ACF) βασίζεται στον συντελεστή αυτοσυσχέτισης ο οποίος δείχνει την συσχέτιση της χρονοσειράς με τον εαυτό της για παρατηρήσεις που απέχουν k περιόδους και τον βρίσκουμε ως εξής: r k nk 1 ( Y Y )( Y Y ) t t t1 t1 n 1 ( Y Y) t 2 Ο r1 μας δείχνει τι συσχέτιση έχουν διαδοχικές παρατηρήσεις της χρονοσειράς ενώ ο r2 μας δείχνει πως σχετίζονται οι παρατηρήσεις όταν απέχουν δυο χρονικές περιόδους. Με τον συντελεστή γνωρίζουμε αν τα δεδομένα είναι τυχαία, εάν είναι μη-σταθερή και εάν είναι ποιό είναι το πρότυπο τάσης, είναι τα δεδομένα εποχικά και αν ναι ποιο είναι το πρότυπο. Σε μια τυχαία χρονοσειρά το 95% των συντελεστών συσχέτισης βρίσκονται στο διάστημα: 1.96 n όπου n είναι ο αριθμός των παρατηρήσεων της χρονοσειράς. Ένα παράδειγμα τυχαίας χρονοσειράς είναι το θεμελιώδες μοντέλο του λευκού θορύβου με την σχέση: Yt=c+et. Μη σταθερή η στάσιμη θεωρείται η χρονοσειρά που εμφανίζει μεταβολή στα στατιστικά της στοιχεία

80 Η χρονοσειρά σε αυτήν την περίπτωση εμφανίζει ένα πρότυπο τάσης το οποίο πρέπει να εξαλειφθεί. Η εξάλειψη γίνεται με την διαφόριση. Οι σειρές διαφορών πρώτης τάξης προκύπτουν από τις διαφορές των διαδοχικών παρατηρήσεων της αρχικής χρονοσειράς: ' Yt Yt Yt 1 και έχουν n-1 δεδομένα όταν οι παρατηρήσεις της χρονοσειράς είναι n. Εάν οι συντελεστές αυτοσυσχέτισης των δεδομένων των πρώτων διαφορών συνεχίζουν να πλησιάζουν το 0 τότε δεν έχουμε σταθερότητα άρα διαφορίζουμε τα δεδομένα δεύτερη φορά και παίρνουμε την δεύτερη τάξη διαφορών: Y Y Y ( Y Y ) ( Y Y ) Y 2Y Y n ' ' t t t1 t t1 t1 t2 t t1 t2 Με n-2 δεδομένα. Μια χρονοσειρά που έχει εποχικό πρότυπο επαναλαμβάνει τον εαυτό της σε μια περίοδο του χρόνου. Εδώ οι συντελεστές αυτοσυσχέτισης είναι στατιστικά διάφοροι του μηδενός. Εδώ το εποχικό πρότυπο πρέπει να εξαλειφθεί με την μέθοδο των εποχιακών διαφορών (διαφορά μιας παρατήρησης της χρονοσειράς από την αντίστοιχη παρατήρηση του προηγούμενου έτους) ' Yt Yt Yt 12 Τέλος μπορούμε να έχουμε δεύτερης τάξης εποχιακές διαφορές εάν τα διαφορίσουμε δεύτερη φορά. Η συνάρτηση μερικών αυτοσυσχετίσεων (Partial autocorrelation function PACF) μετρούν τον βαθμό της σχέσης των Υt και Υτ-κ όταν οι επιδράσεις όλων των άλλων χρονικών υστερήσεων 1,2,3,..k-1 έχουν αφαιρεθεί και συμβολίζονται με αk. Τον βρίσκουμε με την πολλαπλή γραμμική παλινδρόμηση με εξαρτημένη μεταβλητή την Yt και ανεξάρτητες τις Υt-1,.,Yt-k: Yt b0 by 1 t1... bkyt k με αk=bk και α1=r1 (συντελεστής αυτοσυσχέτισης) Ο Τελεστής Ολίσθησης Β θα μας βοηθήσει να καταλάβουμε πιο εύκολα τα υποδείγματα ARIMA. Ο τύπος ολίσθησης ορίζεται ως εξής: BY Y Be e t t1 t t1 B Y Y B e e 2 2 t t2 t t2 B Y Y B e e 3 3 t t3 t t3... k k B Yt Yt k B et et k Με λίγα λόγια όταν μια παρατήρηση πολλαπλασιαστεί με τον τελεστή τότε αυτό θα έχει σαν αποτέλεσμα την παρατήρηση πριν από κ χρονικές στιγμές όπου κ ο εκθέτης του τελεστή

81 Π.χ. στην διαφόριση έχουμε: Y Y Y 1 Y BY (1 B) Y ' t t t t t t Y Y Y ( Y Y ) ( Y Y ) Y 2 Y Y (1 2 B B ) Y (1 B) Y '' ' ' 2 2 t t t1 t t1 t1 t2 t t1 t2 t t Γενικά η διαφόριση μπορεί να περιγραφεί: (1 B) d Yt Ενώ για διαφόριση πρώτης τάξης δεδομένων με μηνιαία εποχικότητα είναι: Y Y Y 12 Y B Y (1 B ) Y ' t t t t t t Αυτοπαλίνδρομα υποδείγματα AR ρ-τάξης ορίζονται ως εξής: Y b by b Y b Y e t 0 1 t1 2 t2... p t p t Όπου b0 είναι ο σταθερός όρος αν υπάρχει b1,b2 οι παράμετροι και et ό όρος σφάλματος την χρονική στιγμή t. Με την χρήση του τελεστή ολίσθησης εκφράζεται: Y by b Y... b Y b e t 1 t1 2 t2 p t p 0 t (1 b B b B... b B ) Y b e 2 p 1 2 p t 0 t Εάν η τάξη του αυτοπαλίνδρομου υποδείγματος είναι p=1 τότε συμβολίζεται ως AR(1) και βρίσκεται: Y by e t 1 t1 t Ενώ για p=2 έχουμε AR(2) και η εξίσωση γίνεται: Y by b Y e t 1 t1 2 t2 t To AR χρησιμοποιείται όταν οι συντελεστές αυτοσυσχέτισης φθίνουν εκθετικά στο 0 και ταυτόχρονα υπάρχουν p στατιστικά σημαντικοί συντελεστές μερικής αυτοσυσχέτισης. Υποδείγματα κινητού μέσου όρου MA q-τάξης ορίζονται ως εξής: Y b0 e b1 e 1 b2e 2... b e t t t t q tq Όπου b0 είναι ο σταθερός όρος (αν υπάρχει), b1,b2.οι παράμετροι και et ο όρος σφάλματος στον χρόνο t..με την χρήση του τελεστή ολίσθησης το υπόδειγμα εκφράζεται ως:

82 Y b b B b B b B e και εάν η τάξη του υποδείγματος κινητού μέσου 2 0 ( q t q ) t όρου είναι q=1 τότε συμβολίζεται ως MA(1) ή ARIMA(0,0,1) και δίδεται από την εξίσωση: Y e b e t t 1 t 1 Ενώ για q=2 έχουμε ΜΑ(2) ή ARIMA(0,0,2) και η εξίσωση δίδεται: Y e b e b e t t 1 t1 2 t2 Τα υποδείγματα αυτά τα χρησιμοποιούμε όταν οι συντελεστές μερικής αυτοσυσχέτισης φθίνουν εκθετικά στο μηδέν και ταυτόχρονα υπάρχουν q στατιστικά σημαντικοί συντελεστές. Εντοπίζεται ομοιότητα των μεθόδων κινητού μέσου όρου και των υποδειγμάτων εκθετικής εξομάλυνσης. Αυτοπαλίνδρομα υποδείγματα κινητού μέσου όρου ARMA είναι στην ουσία ο συνδυασμός ενός AR(p) υποδείγματος και ενός MA(q) υποδείγματος το οποίο ονομάζεται αυτοπαλίνδρομο υπόδειγμα κινητού μέσου όρου και συμβολίζεται ως ARMA(p,q). Δίδεται: Y Y Y... Y e e e... e t 1 t1 2 t2 p t p t 1 t1 2 t2 q tq Με -1 φ,θ 1. Με τη χρήση του τελεστή ολίσθησης το υπόδειγμα εκφράζεται ως: (1 B B... B ) Y (1 B B... B ) e 2 p 2 q 1 2 p t 1 2 q t Ένα υπόδειγμα ARMA(1,1) ή ARIMA(1,0,1) γράφεται: Y Y e e t 1 t1 t 1 t1 Ενώ ένα υπόδειγμα ARMA(2,1) ή ARIMA(2,0,1) γράφεται: Y Y Y e e t 1 t1 2 t2 t 1 t1 Ολοκληρωμένα αυτοπαλίνδρομα υποδείγματα κινητού μέσου όρου ARIMA χρησιμοποιούνται όταν μια χρονοσειρά είναι μη σταθερή ( μη στάσιμη) τότε πριν εφαρμοστεί ένα υπόδειγμα ARMA(p,q) πρέπει να επιτευχθεί σταθερότητα. Η σταθερότητα επιτυγχάνεται με διαφόριση της χρονοσειράς. Συνεπώς στη μη σταθερή χρονοσειρά εφαρμόζουμε ένα υπόδειγμα ARIMA(p,d,q) όπου p είναι η τάξη του αυτοπαλίνδρομου υποδείγματος, d η τάξη της διαφόρισης για να πετύχουμε σταθερότητα και q η τάξη του κινητού μέσου του υποδείγματος. Ένα υπόδειγμα ARIMA(1,1,1) γράφεται: (1 B)(1 B) Y (1 B) e 1 t 1 Ενώ ένα υπόδειγμα ARIMA(2,1,2) γράφεται : t

83 (1 B)(1 B B ) Y (1 B B ) e t 1 2 t Ολοκληρωμένα αυτοπαλίνδρομα υποδείγματα κινητού μέσου όρου ARIMA με εποχικότητα. Μια χρονοσειρά μπορεί να περιέχει μια εποχική συνιστώσα η οποία επαναλαμβάνεται μετά από κάθε s παρατήρηση (s=4 τριμηνιαία δεδομένα) τότε μπορούμε να χρησιμοποιήσουμε ένα εποχικό και ένα μη-εποχικό υπόδειγμα ARIMA. Τα εποχικά υποδείγματα ARIMA( P, D, Q ) s κατασκευάζονται για εποχικά δεδομένα με τρόπο παρόμοιο της αρχικής διαδικασίας ARIMA. Χρήσιμος συμβολισμός θα μπορούσε να θεωρηθεί ο παρακάτω: ( p, d, q) ( P, D, Q) s Όπου p,d,q είναι το μη εποχικό μέρος της χρονοσειράς ενώ τα P,D,Q είναι το εποχικό μέρος της χρονοσειράς. Ακολουθούν παραδείγματα υποδειγμάτων: 12 (1,0,0) (1,1,0) Γράφεται: 4 (1,1,1) (1,1,1) Γράφεται: (1 1B)(1 12 B )(1 B ) Y t e t (1 B)(1 B )(1 B)(1 B ) Y (1 B)(1 B ) e t 1 4 t Ανάλυση χρονοσειρών με ARIMA. H διαδικασία ης ανάλυσης με ARIMA περιλαμβάνει 4 στάδια: I. Ταυτοποίηση υποδείγματος II. Εκτίμηση υποδείγματος III. Διαγνωστικός έλεγχος υποδείγματος IV. Πρόβλεψη χρονοσειράς Ξεκινώντας με την ταυτοποίηση υλοποιούμε την εξέταση των αυτοσυσχετίσεων και των μερικών αυτοσυσχετίσεων των ακατέργαστων δεδομένων. Διαπιστώνουμε αν υπάρχει κάποιο πρότυπο τάσης ή εποχικό πρότυπο και αν είναι τυχαία και σταθερή (διαφορίζουμε σε περίπτωση μη σταθερότητας). Όταν την σταθεροποιήσουμε από τα νέα διαγράμματα αυτοσυσχετίσεων διαπιστώνουμε τυχόν τάση ή κάποιο εποχικό πρότυπο. Έτσι εξάγουμε ένα δοκιμαστικό υπόδειγμα ARIMA. H εκτίμηση του υποδείγματος περιλαμβάνει την εκτίμηση των παραμέτρων φ,θ που

84 ορίζουν το υπόδειγμα ARIMA οι οποίοι ελαχιστοποιούν το MSE. Μετά από κάποιες επαναλήψεις οι εκτιμήσεις συγκλίνουν σε μια άριστη τιμή για τις παραμέτρους. Με τον διαγνωστικό έλεγχο κάνουμε έλεγχο πόσο κατάλληλο είναι το υπόδειγμα. Με το διάγραμμα των αυτοσυσχετίσεων των καταλοίπων της χρονοσειράς θα γίνει ο έλεγχος. Εάν οι συντελεστές αυτοσυσχέτισης δεν είναι στατιστικά σημαντικοί τότε το δείγμα κρίνεται επαρκές. Μπορούμε επίσης να χρησιμοποιήσουμε και τον έλεγχο Ljung-Box (Q test) με βάση τον παρακάτω τύπο: Q k 2 r i n( n 2) n k i Με n=μήκος χρονοσειράς K=είναι οι k αυτοσυσχετίσεις που έχουν ελεγχθεί. P=τάξη της διαδικασίας ΑR. q=τάξη της διαδικασίας ΜΑ. r=εκτιμημένος συντελεστής αυτοσυσχέτισης του i-οστού κατάλοιπου ορίου. Εάν Q<X² για k-p-q βαθμούς ελευθερίας τότε το υπόδειγμα μας θεωρείται επαρκές. Άλλο κριτήριο επιλογής καλύτερου υποδείγματος είναι το Akaike s Information Criterion ή AIC. Αν m=p+q+p+q είναι το πλήθος των όρων τότε επιλέγουμε τις τιμές p,q,p,q που ελαχιστοποιούν το AIC. Αφού βρούμε και επιλέξουμε το καλύτερο υπόδειγμα το χρησιμοποιούμε για την πρόβλεψη των μελλοντικών τιμών της χρονοσειράς. Όλες οι μελλοντικές προβλέψεις της χρονοσειράς βασίζονται μόνο σε τιμές Yt που έχουν προβλεφθεί εφόσον οι μελλοντικές τιμές του et είναι άγνωστες. Εάν το υπόδειγμα περιγράφει με ορθό τρόπο την χρονοσειρά και δίνει προβλέψεις οι οποίες αποκλίνουν ελάχιστα από τις πραγματικές τιμές της χρονοσειράς τότε υιοθετείται ως υπόδειγμα πρόβλεψης της χρονοσειράς. Σε αντίθετη περίπτωση επαναλαμβάνεται η ίδια διαδικασία από την αρχή

85 ΚΕΦΑΛΑΙΟ 3: ΕΦΑΡΜΟΓΕΣ ΑΛΓΟΡΙΘΜΩΝ 3.1 ΒΑΣΙΚΑ ΒΗΜΑΤΑ ΥΛΟΠΟΙΗΣΗΣ ΤΗΣ ΜΕΛΕΤΗΣ Στην συγκεκριμένη εργασία θα μελετηθεί η διαχρονική εξέλιξη των τιμών του αργού πετρελαίου (τιμή παρατήρησης =τιμή ανά βαρέλι),η ισοτιμία Euro/doll και η συμπεριφορά των 104 μετοχών του δείκτη Nasdaq. Εφόσον τα δεδομένα μας είναι χρονοσειρές θα παρουσιάσουμε παρακάτω τεχνικές εξόρυξης χρονοσειρών. Σημαντικό μέρος της διαδικασίας πριν την εφαρμογή των αλγορίθμων είναι η προεπεξεργασία των παρατηρήσεων που θα γίνει στην αρχή. Έπειτα θα κοιτάξουμε αν υπάρχουν τυχόν συσχετίσεις και δομές στις παρατηρήσεις καθώς και εύρεση όμοιων παρατηρήσεων στις τιμές των βαρελιών. Για αυτό τον λόγο θα χρησιμοποιήσουμε τον πιο γνωστό αλγόριθμο διαμεριστικής συσταδοποίησης να είναι ο k-means με την ευκλείδεια απόσταση για να κάνουμε την συσταδοποίηση (clustering) που θέλουμε. Επίσης θα υλοποιήσουμε μια ταξινόμηση (classification) στις κατασκευασμένες συστάδες με τον knn αλγόριθμο και τέλος θα κάνουμε προβλέψεις με την μέθοδο ARIMA. 3.2 ΒΗΜΑ 1 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Στους μη ιεραρχικούς ή διαμεριστικούς αλγόριθμους (partitional algorithms) οι συστάδες όπως προαναφέραμε και στο θεωρητικό υπόβαθρο δημιουργούνται σε ένα βήμα. Παρόλο που εσωτερικά μέσω των διαφόρων αλγορίθμων μπορεί να δημιουργηθούν πολλά διαφορετικά σύνολα συστάδων τελικώς μόνο ένα σύνολο συστάδων δημιουργείται. 1. Πρώτο βήμα ο ερευνητής θα πρέπει να δώσει ως είσοδο το επιθυμητό πλήθος συστάδων k. 2. Δεύτερο βήμα χρησιμοποιούνται τα μέτρα απόστασης ή αλλιώς μετρικές-συναρτήσεις κριτηρίων για τον προσδιορισμό της καταλληλότητας των προτεινόμενων λύσεων. 3. Χρησιμοποιείται τελικά η λύση που έχει την καλύτερη τιμή για την συνάρτηση κριτηρίου

86 Λόγω των πάρα πολλών πιθανών συνδυασμών συσταδοποίησης οι περισσότεροι αλγόριθμοι κάνουν αναζήτηση μόνο σε ένα μικρό υποσύνολο όλων των συστάδων χρησιμοποιώντας κάποια στρατηγική για τον εντοπισμό των σημαντικών συστάδων. Ο αλγόριθμος k-means είναι ένας διαμεριστικός αλγόριθμος και είναι αρκετά απλός και σίγουρα ο πιο δημοφιλής και ανήκει στην ευρύτερη κατηγορία των τεχνικών μάθησης χωρίς επίβλεψη. Ο αλγόριθμος αυτός οφείλει την ευρεία χρήση του στο γεγονός τον χαρακτηρίζει η απλότητα του και η γραμμική πολυπλοκότητα του η οποία είναι της τάξης n( O( n )) όπου n το σύνολο των στοιχείων. Η διαδικασία της ομαδοποίησης συσταδοποίησης ενός συνόλου παρατηρήσεων με βάση των k-means είναι αρκετά εύκολη αφού βέβαια είναι προκαθορισμένος ( από τον ερευνητή) ο αριθμός (k) συστάδων που θα προκύψουν. Η λειτουργία του k-means είναι η εξής: 1. Προσδιορισμός με επιδέξιο τρόπο k centroids (κεντροειδή), ένα για κάθε μια συστάδα. Η αρχική θέση των centroids πάντα επηρεάζει το αποτέλεσμα που θα δώσει ο αλγόριθμος. Καλύτερη η επιλογή των centroids που απέχουν μεταξύ τους όσο περισσότερο γίνεται. 2. Επιλογή κάθε στοιχείου από το σύνολο παρατηρήσεων και συσχέτιση του με το κοντινότερο σε αυτό centroid. Όταν γίνει αυτό για όλες τις παρατηρήσεις μια πρώτη πρόχειρη συσταδοποίηση έχει γίνει. 3. Υπολογισμός ξανά των k νέων centroids τα οποία θα αποτελούν το κέντρο βάρους για κάθε ένα cluster που προέκυψε από το προηγούμενο βήμα. 4. Μετά των ορισμό των νέων clusters ακολουθεί και πάλι η ίδια διαδικασία ανάθεσης καθεμίας από τις παρατηρήσεις του συνόλου δεδομένων στο κοντινότερο με αυτό, νέο πλέον, centroid. Έτσι, γίνεται μια επανάληψη της ίδιας διαδικασίας. Αποτέλεσμα αυτής της επανάληψης είναι ότι σε κάθε βήμα τα centroids αλλάζουν θέση (ορίζονται νέα) και τα στοιχεία ανατίθενται στη κατάλληλη συστάδα κάθε φορά με βάση το κοντινότερο centroid. Όταν σε κάποια επανάληψη δεν σημειωθούν αντιμεταθέσεις στοιχείων, τότε τερματίζει ο αλγόριθμος. Το αποτέλεσμα που προκύπτει είναι η συσταδοποίηση του συνόλου παρατηρήσεων σε k clusters. Ο αλγόριθμος k- means στοχεύει να ελαχιστοποιήσει την αντικειμενική συνάρτηση, την λεγόμενη συνάρτηση τετραγωνικού λάθους με:

87 k n ( j) 2 i j όπου j1 i1 J x c x ( j) i c j 2 μέτρο απόστασης που χρησιμοποιείται για να μετρά την απόσταση κάθε στοιχείου ( j ) x i από το centroid j c της κάθε συστάδας. Συνοπτικά τα βήματα του αλγορίθμου: Είσοδος: D x1, x2,..., xn // Σύνολο στοιχείων k // Αριθμός επιθυμητών clusters Έξοδος: k // Σύνολο clusters k-means αλγόριθμος: Ανέθεσε τιμές στα αρχικά centroids C1, C2,..., C k; Επανέλαβε Ανέθεσε κάθε x i στο cluster με του οποίου το centroid η απόσταση είναι η μικρότερη; Υπολόγισε νέα centroids για κάθε cluster; Μέχρι να συναντηθεί το κριτήριο σύγκλισης; Ο αλγόριθμος k-means πάντα τερματίζει αλλά χωρίς πάντα να βρίσκει βέλτιστη λύση. Λόγω του επηρεασμού του από τα αρχικά centroids συνίσταται η εκτέλεση του πολλές φορές μέχρι να μειωθεί η επίδραση αυτή. Εφόσον τα clusters είναι σαφώς διαχωρισμένα μεταξύ τους, μπορεί να χρησιμοποιηθεί σαν μέτρο απόστασης μεταξύ των παρατηρήσεων η ευκλείδεια απόσταση ή και άλλα δημοφιλή μέτρα απόστασης, που έχουν αναλυθεί σε προηγούμενο κεφάλαιο. Αυτό σημαίνει ότι σε κάθε βήμα θα λέγεται: η παρατήρηση x ανήκει στο cluster i, εάν η Ευκλείδεια απόσταση του από το centroid του i cluster είναι η μικρότερη σε σχέση με όλες τις άλλες αποστάσεις του από τα centroids των άλλων clusters. Έτσι βρίσκονται π.χ. οι ευκλείδειες αποστάσεις για όλες τις παρατηρήσεις και κάθε ένα από αυτά ανατίθεται στο cluster από του οποίου το centroid απέχει λιγότερο (δηλαδή η Ευκλείδεια απόσταση είναι η μικρότερη). Στην συνέχεια υπολογίζονται τα νέα centroids και μετά πάλι οι ευκλείδειες αποστάσεις( ή άλλο μέτρο απόστασης) όλων των στοιχείων για τα νέα centroids. Γίνονται οι κατάλληλες μετακινήσεις παρατηρήσεων και η ίδια διαδικασία

88 επαναλαμβάνεται μέχρι καμία παρατήρηση να μην μετακινείται σε άλλο cluster, δηλαδή τα clusters να μένουν αμετάβλητα. Εικόνα 21: Η Βασική λειτουργία του αλγορίθμου K-means. Παράδειγμα: Δίνονται: {2,4,10,12,3,20,30,11,25}, k=2 Τυχαία ανάθεσε μέσους όρους: m1=3,m2=4 K1={2,3}, K2={4,10,12,20,30,11,25}, m1=2.5,m2=16 K1={2,3,4},K2={10,12,20,30,11,25}, m1=3,m2=18 K1={2,3,4,10},K2={12,20,30,11,25}, m1=4.75,m2=19.6 K1={2,3,4,10,11,12},K2={20,30,25}, m1=7,m2=25 Σταμάτησε όταν τα clusters με αυτούς τους μέσους παραμένουν αμετάβλητα. Τα βασικά μειονεκτήματα του αλγορίθμου θα μπορούσαμε να πούμε ότι είναι τα παρακάτω : 1. Σύγκλιση σε τοπικό βέλτιστο και όχι σε καθολικό βέλτιστο. 2. Ο τρόπος επιλογής των αρχικών centroids δεν είναι σαφώς καθορισμένος και επειδή το αποτέλεσμα εξαρτάται από την αρχική επιλογή συνίσταται να γίνουν πολλές δοκιμές με διαφορετικά αρχικά centroids. 3. Μια συστάδα ενδέχεται να μείνει χωρίς παρατηρήσεις και έτσι να μην ανανεωθεί κάποιο centroid

89 4. Αρκετές φορές χρειάζεται να γίνει κανονικοποίηση των παρατηρήσεων του συνόλου ώστε να γίνει εφικτή η χρήση του μέτρου απόστασης. Επιπρόσθετα τα αποτελέσματα εξαρτώνται και από το μέτρο απόστασης που θα χρησιμοποιηθεί. 5. Δυσκολία του αλγορίθμου να αναγνωρίσει ομάδες με διαφορετικό σχηματισμό και μέγεθος. 6. Τα αποτελέσματα εξαρτώνται από την τιμή του k, η οποία αποτελεί στοιχείο εισόδου για τον αλγόριθμο (δυσκολία στο να βρει το βέλτιστο k μιας και δεν είναι πάντα δυνατόν να υπάρχει γνώση στο πόσα clusters υπάρχουν όταν πρέπει να κάνουμε συσταδοποίηση σε δεδομένα του πραγματικού κόσμου). Για αυτό το λόγο έχουν προταθεί δείκτες μέσω των οποίων μπορεί να εκτιμηθεί το βέλτιστο k ωστόσο όταν αυξηθεί πολύ το k μπορεί να συμβεί επικάλυψη 37]. 3.3 ΒΗΜΑ 2 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ Η κατηγοριοποίηση (classification) είναι η διαδικασία η οποία απεικονίζει ένα σύνολο δεδομένων σε προκαθορισμένες ομάδες.τις ομάδες αυτές συχνά τις καλούμε κατηγορίες ή κλάσεις. Υπάρχουν αρκετοί αλγόριθμοι κατηγοριοποίησης αλλά το θέμα είναι ποιος είναι καλύτερος αλγόριθμος. Η επίδοση του αλγορίθμου εξετάζεται με την εκτίμηση της ακρίβειας (accuracy) της κατηγοριοποίησης, δηλαδή την ικανότητα του μοντέλου να προβλέπει την κατηγορία μιας νέας περίπτωσης. Ο αλγόριθμος K κοντινότεροι γείτονες (k-nearest Neighbors) προϋποθέτει ότι το σύνολο εκπαίδευσης δεν περιλαμβάνει μόνο τα δεδομένα αλλά επίσης και την επιθυμητή κατηγοριοποίηση για κάθε παρατήρηση. Έτσι λοιπόν το μοντέλο κατηγοριοποίησης είναι τα δεδομένα εκπαίδευσης και όταν πρόκειται να γίνει μια κατηγοριοποίηση για μια νέα παρατήρηση πρέπει να καθοριστεί η απόσταση του από κάθε στοιχείο του συνόλου εκπαίδευσης. Μόνο οι Κ Κοντινότερες εκχωρήσεις στο σύνολο εκπαίδευσης λαμβάνονται υπόψη στη συνέχεια

90 Εικόνα 22: Διαδικασία απομάκρυνσης θορύβου, μείωσης όγκου και εφαρμογής του k-nn κατηγοριοποιητή. Η νέα παρατήρηση τοποθετείται στην κλάση που περιέχει τα περισσότερα στοιχεία από το σύνολο των ^ E κοντινότερων στοιχείων. Αν υπάρχουν q παρατηρήσεις στο σύνολο εκπαίδευσης το πρόβλημα αυτό είναι O(q). Αν τα στοιχεία που πρέπει να κατηγοριοποιηθούν είναι n τότε αυτό γίνεται O(nq) πρόβλημα. Η τεχνική ΚΝΝ είναι ευαίσθητη στην τιμή του ^ E δηλαδή στο πόσοι κοντινότεροι γείτονες χρησιμοποιούνται για την κατηγοριοποίηση. Πρέπει βασικά να έχουμε : ^ E ό _ ή _ ί

91 Ακολουθεί ο ΚΝΝ αλγόριθμος : Είσοδος: Τ // Σύνολο δεδομένων εκπαίδευσης Κ // Αριθμός κοντινότερων γειτόνων t // πλειάδα προς κατηγοριοποίηση Έξοδος: c // Κλάση όπου θα κατηγοριοποιηθεί η t Αλγόριθμος _ Κ _ Κοντινότερων _ Γειτόνων Ν = Ø Για κάθε d T επανέλαβε Αν Ν Κ τότε Ν = Ν {d}; Αλλιώς Αν u N τέτοιο ώστε dist(t,u) dist(t, d), τότε Ν = Ν {u}; N = N {d}; Τέλος _ αν Τέλος _ επανάληψης c = κλάση όπου τα περισσότερα u N κατηγοριοποιούνται Τέλος αλγορίθμου

92 Ανάλυση Οικονομικών Δεδομένων με Χρήση Τεχνικών Εξόρυξης Εικόνα 23: Κατηγοριοποίηση με χρήση του αλγορίθμου ΚΝΝ. Τέλος αξίζει να αναφέρουμε και τον αλγόριθμο του κοντινότερου γείτονα σταθμισμένης απόστασης που στην ουσία το πόσο συνεισφέρει κάθε γείτονας στην κατηγοριοποίηση υπολογίζεται βάσει ενός βάρους ανάλογα με την απόσταση του από το ζητούμενο. Οι κοντινότεροι γείτονες έχουν μεγαλύτερη συνεισφορά με αυξημένος βάρος ενώ οι μακρινότεροι γείτονες το αντίθετο. Με αυτή τη μέθοδο λαμβάνουμε υπόψη όλες τις πλειάδες του συνόλου των δεδομένων εκπαίδευσης και όχι μόνο τις k κοντινότερες. 3.4 ΒΗΜΑ 3 ΠΡΟΒΛΕΨΗ Όπως είναι γνωστό, ο λόγος της συνδιακύμανσης προς το γινόμενο των τετραγωνικών ριζών των διακυμάνσεων δύο μεταβλητών είναι ο συντελεστής συσχέτισής τους. Στην περίπτωση των χρονολογικών σειρών, ο συντελεστής συσχέτισης ανάμεσα στην Υt και στην Υt+s ονομάζεται συντελεστής αυτοσυσχέτισης και δίδεται από την σχέση: s C ov(yt, Yt s ) s 0 V (Yt ) V (Yt s ) )

93 Ας σημειωθεί ότι, όπως η αυτοσυνδιακύμανση έτσι και ο συντελεστής αυτοσυσχέτισης δεν εξαρτάται από το t αλλά από το s. Είναι προφανές ότι ρ s =ρ -s, αφού γ s = γ -s. Στην ανάλυση χρονολογικών σειρών η σημασία της συνάρτησης αυτοσυσχέτισης είναι πολύ μεγάλη, διότι δείχνει τόσο τον βαθμό (ένταση) όσο και το μήκος ή τη χρονική διάρκεια της μνήμης της στοχαστικής διαδικασίας. Ο μέσος (μ), η διακύμανση (σ 2 ), οι αυτοσυνδιακυμάνσεις (γ s ) και ο συντελεστής αυτοσυσχέτισης (ρ s ) είναι άγνωστοι. Στην πράξη, ως εκτιμητές των άγνωστων παραμέτρων του πληθυσμού χρησιμοποιούμε τις αντίστοιχες ροπές του δείγματος. Δηλαδή: Y s T 2 t1 ^ ^ s s T t1 T t1 t1 T Y t ( Y Y) t T 2 για το μ, για το 2, ( Y Y )( Y Y ) t1 t T 2 ts ( Y Y )( Y Y ) t T ts ( Y Y) t για το για το s s Στη γενική του μορφή, ένα αυτοπαλίνδρομο υπόδειγμα p τάξης ή AR(p) σε στάσιμες στοχαστικές διαδικασίες (ο μέσος, η διακύμανση και οι αυτοσυνδιακυμάνσεις δεν εξαρτώνται από τον χρόνο t, αυτοσυνδιακυμάνσεις εξαρτώνται μόνο από την υστέρηση s) διατυπώνεται ως εξής: Yt 0 1Y t1 a2yt 2... apyt p t (1) Και επίσης ισχύουν τα εξής; 1... p

94 p p a1 1 a a s s s p s p a1 1 a a s s s p s p Η τάξη p αναφέρεται στο μήκος της υστερήσεως, ενώ ο όρος αυτοπαλίνδρομο προέρχεται από το γεγονός ότι η πρώτη σχέση είναι, στην ουσία, ένα υπόδειγμα παλινδρόμησης, όταν οι ερμηνευτικές μεταβλητές ή παλινδρομητές είναι οι τιμές της εξαρτημένης μεταβλητής Υt με χρονική υστέρηση. Η μεταβλητή t είναι λευκός θόρυβος. Όταν για μια ακολουθία t ισχύει: E( ) 0 t 2 V ( ) t Cov( t, t s ) 0 Τότε είναι γνωστή ως διαδικασία λευκού θορύβου. Η γενική μορφή ενός AR(1) υποδείγματος είναι: Y a a Y (2) t 0 1 t1 t Ας υποθέσουμε, χάριν ευκολίας, ότι είτε ο μέσος είναι μηδέν (μ=0) είτε ότι οι μεταβλητές εκφράζονται ως αποκλίσεις από τους μέσους, οπότε η (2) γίνεται: Y a Y t 1 t1 t Όπου: y Y E( Y ) Y t t t t Για το υπόδειγμα AR(1) ισχύουν τα εξής: V( y t ) Cov( y, y ) a s t ts s 1 0 s s 0 s

95 H γενική μορφή του αυτοπαλίνδρομου υπόδειγμα δεύτερης τάξης AR(2) είναι: Y a a Y a Y t 0 1 t1 2 t2 t y a y a y ή t 1 t1 2 t2 t Για το AR(2) ισχύουν τα εξής: V( Y t ) a ή 0 (1 ) 2 (1 )(1 )(1 ) Cov( Y, Y ) a s t ts 1 s1 2 s2 a a s 1 s1 2 s2 Τα υποδείγματα κινητού μέσου q τάξης [MA(q)] έχουν σαν βασικό κανόνα : Y t t t t q tq Και επίσης ισχύουν τα εξής: EY ( t ) q VY ( t ) ( q ) s s0 όπου 0 1 2, Cov Y Y (... ) 0 με s=1,2.q και s>q. s t t s s s s q q s... s s s1 1 s2 2 q qs q με s=1,2.q και s>q. Γενικά, οι αυτοσυνδιακυμάνσεις και συνεπώς η συνάρτηση αυτοσυσχέτισης είναι μηδέν μετά από q υστερήσεις, δηλαδή για s > q. Η συμπεριφορά της συνάρτησης μερικής αυτοσυσχέτισης

96 προσομοιάζει με αυτή της συνάρτησης αυτοσυσχέτισης μίας AR διαδικασίας. Ας σημειωθεί ότι, γενικά, ενώ η συνάρτηση αυτοσυσχέτισης μίας AR(p) διαδικασίας μπορεί να εκτείνεται στο άπειρο, η συνάρτηση αυτοσυσχέτισης μίας ΜΑ(q) διαδικασίας μηδενίζεται μετά από q υστερήσεις. Με άλλα λόγια, η μνήμη της εξαντλείται σε q περιόδους. Αντίθετα, η συνάρτηση μερικής αυτοσυσχέτισης μίας AR(p) διαδικασίας μηδενίζεται μετά από p υστερήσεις, ενώ η συνάρτηση μερικής αυτοσυσχέτισης μίας MA(q) διαδικασίας εκτείνεται στο άπειρο. Τα υποδείγματα ARMA αποτελούν τον συνδυασμό p αυτοπαλίνδρομων όρων και q όρων κινητού μέσου και για αυτό τον λόγο λέγεται και μεικτό αυτοπαλίνδρομο-κινητού μέσου υπόδειγμα τάξης (p,q) ή ΑRMA(p,q) με: Y Y Y... Y... t 1 t1 2 t2 p t p t 1 t1 2 t2 q tq Για το γενικό υπόδειγμα ARMA(p,q) οι πρώτες q αυτοσυσχετίσεις, για s q, εξαρτώνται τόσο από τους συντελεστές a i του αυτοπαλίνδρομου τμήματος, όσο και από τους συντελεστές του τμήματος του κινητού μέσου. Για τιμές όμως του s μεγαλύτερες από το q, οι αυτοσυνδιακυμάνσεις και οι αυτοσυσχετίσεις είναι ακριβώς ίδιες με αυτές μίας AR(p) διαδικασίας, δηλαδή δίνονται από τις σχέσεις: s a1 s1 a2 s2... ap s p για s>q, s a1 s1 a2s2... aps p για s>q. Γενικά, η συνάρτηση αυτοσυσχέτισης μίας ARMA(p,q) διαδικασίας θα συμπεριφέρεται όπως αυτή μίας AR(p) διαδικασίας, ενώ η συνάρτηση μερικής αυτοσυσχέτισης θα συμπεριφέρεται όπως αυτή μίας ΜΑ(q) διαδικασίας για s > q p

97 Δηλαδή: Διαδικασία Συνάρτηση αυτοσυσχέτισης (Ps) Συνάρτηση μερικής αυτοσυσχέτισης (Pss) Λευκός Θόρυβος Μηδέν Μηδέν Αυτοπαλίνδρομη Διαδικασία p τάξης AR(p) Διαδικασία Κινητού Μέσου q τάξης MA(q) Αυτοπαλίνδρομη-Κινητού Μέσου Διαδικασία ARMA(p,q) Φθίνει γεωμετρικά ή φθίνει ακολουθώντας ημιτονοειδή συμπεριφορά Μηδενίζεται μετά από q υστερήσεις Φθίνει γεωμετρικά Μηδενίζεται μετά από p υστερήσεις Φθίνει γεωμετρικά Φθίνει γεωμετρικά Πίνακας 4: Συνοπτικός πίνακας υποδειγμάτων και συναρτήσεων αυτοσυσχέτισης/μερικης αυτοσυσχέτισης

98 Εικόνα 24: Συναρτήσεις Αυτοσυσχέτισης και Μερικής Αυτοσυσχέτισης για δύο ARMA(1,1) διαδικασίες. Τα Υποδείγματα ARIMA εφαρμόζονται σε στοχαστικές διαδικασίες που ακολουθούν τυχαία διαδρομή. Δηλαδή στις μη στάσιμες διαδικασίες με σταθερό μέσο θα λέμε ότι η σειρά είναι μη στάσιμη ως προς τη διακύμανση ή βέβαια θα μπορούσε και ως προς το μέσο. Οι περισσότερες, αν όχι όλες, οι οικονομικές χρονολογικές σειρές, όπως ΑΕΠ, κατανάλωση, επένδυση, δείκτης τιμών, κέρδη, απασχόληση ή ανεργία κ.λπ., δεν έχουν τα χαρακτηριστικά στάσιμων διαδικασιών. Μπορούν, όμως, να μετατραπούν σε στάσιμες, δηλαδή, παίρνοντας τις πρώτες ή τις δεύτερες κ.λπ., διαφορές. Στην Οικονομετρία μας ενδιαφέρει οι σειρές να είναι στάσιμες γιατί έτσι αποφεύγεται, για παράδειγμα, το πρόβλημα της φαινομενικής παλινδρόμησης. Όταν μία σειρά μετατρέπεται σε στάσιμη παίρνοντας τις πρώτες διαφορές, λέμε ότι η σειρά είναι ολοκληρωμένη πρώτης τάξης και συμβολίζεται ως Ι(1). Χρησιμοποιώντας τον τελεστή υστέρησης, οι πρώτες διαφορές ορίζονται ως: Y Y 1 (1 L) Y Y. t t t t Γενικά, ένα υπόδειγμα ARMA(p,q), που εφαρμόζεται σε μία ολοκληρωμένη σειρά d τάξης, ονομάζεται αυτοπαλίνδρομο ολοκληρωμένο υπόδειγμα κινητού μέσου τάξης (p,d,q) και συμβολίζεται ως ARIMA(p,d,q). Για παράδειγμα, ARIMA(2,1,2) σημαίνει ότι η σειρά καθίσταται

99 στάσιμη με τις πρώτες διαφορές και στην προκύπτουσα σειρά των πρώτων διαφορών εφαρμόζεται το ARMA(2,2). Μία ARIMA(p,d,q) διαδικασία, μπορεί να διατυπωθεί με τρεις διαφορετικούς τρόπους ή να πάρει τρεις διαφορετικές μορφές: I. Ως συνάρτηση των παρελθουσών τιμών της και των τιμών του διαταρακτικού όρου, τρέχουσας και παρελθουσών (Π.χ. ARIMA(p,1,q)): Y (1 ) Y ( a ) Y... ( a ) Y a Y u u... u t 1 t1 2 1 t2 p p1 t p p t p1 t 1 t1 q tq II. Ως συνάρτηση των παρελθουσών τιμών της και της τρέχουσας τιμής του διαταρακτικού όρου. III. Ως συνάρτηση μόνο των τιμών του διαταρακτικού όρου, τρέχουσας και παρελθουσών. Η μορφή αυτή είναι γνωστή ως τυχαία διαταραχή. Η προσέγγιση Box-Jenkins στην ανάλυση χρονολογικών σειρών είναι μία μέθοδος εύρεσης ενός στατιστικού υποδείγματος (ARIMA) που να παριστάνει ικανοποιητικά τη στοχαστική διαδικασία που παρήγαμε από τα δεδομένα. Η μέθοδος περιλαμβάνει τα εξής τρία στάδια: α) την ταυτοποίηση, β) την εκτίμηση, γ) το διαγνωστικό έλεγχο. I. Ταυτοποίηση στην ουσία είναι ότι με βάση τις πληροφορίες του διαθέσιμου δείγματος εξειδικεύουμε το υπόδειγμα ARIMA. Δηλαδή, καθορισμός του αριθμού (d) των διαφορών που απαιτούνται προκειμένου η σειρά να μετατραπεί σε στάσιμη, αν δεν είναι. Στη συνέχεια, πρέπει να καθοριστεί η τάξη (p) της αυτοπαλίνδρομης διαδικασίας και η τάξη (q) της διαδικασίας κινητού μέσου. Με την δειγματική συνάρτηση αυτοσυσχέτισης διαπιστώνουμε αν η σειρά είναι στάσιμη ή όχι.( αυτοσυσχετίσεις με γρήγορη σύγκλιση στο 0 ένδειξη στασιμότητας). Αν δεν είναι στάσιμη την μετατρέπουμε και με τα δεδομένα της προσδιορίζεται η τάξη του υποδείγματος δηλαδή τα p,q.(με βάση τις δειγματικές απλές και μερικές αυτοσυσχετίσεις). II. Εκτίμηση γίνεται όταν θέλουμε να εκτιμήσουμε τις p παραμέτρους a1, a2,..., a p της AR διαδικασίας και τις q παραμέτρους 1, 2,..., q της ΜΑ διαδικασίας. III. Διαγνωστικός έλεγχος γίνεται για να δούμε την καλή προσαρμογή του υποδείγματος. Αυτός περιλαμβάνει,εκτός απ τους γνωστούς στατιστικούς ελέγχους για τη σημαντικότητα των συντελεστών, τη συμπεριφορά των καταλοίπων καθώς και την τάξη του υποδείγματος

100 Έλεγχος καταλοίπων. Αν το εκτιμώμενο υπόδειγμα ταιριάζει με τα δεδομένα τότε τα κατάλοιπα θα πρέπει να συμπεριφέρονται ως μια διαδικασία λευκού θορύβου δηλαδή να μην αυτοσυσχετίζονται. Τον έλεγχο μπορούμε να τον κάνουμε με την στατιστική Q των Box-Pierce με την οποία ελέγχεται η σημαντικότητα από κοινού ενός αριθμού συντελεστών αυτοσυσχέτισης, έστω m. H m 0 Και η Q ορίζεται ως: m s1 2 ^ QBP T s Με: ^ οι δειγματικές αυτοσυσχετίσεις των καταλοίπων s Τ ο αριθμός των παρατηρήσεων (καταλοίπων). Συνήθως m T H QBP ακολουθεί προσεγγιστικά την 2 X κατανομή με m-p-q βαθμούς ελευθερίας. Για δεδομένο επίπεδο σημαντικότητας α, η μηδενική υπόθεση ότι όλοι οι συντελεστές αυτοσυσχέτισης είναι μηδέν απορρίπτεται αν η τιμή της Q BP υπερβαίνει την κρίσιμη τιμή της 2 X δηλαδή αν: QBP 2 X Για μικρά δείγματα (για μεγάλα δεν υπάρχει διαφορά) μπορούμε να έχουμε και την στατιστική των Ljung και Box και η οποία ορίζεται: Q LB T( T 2) m s1 2 ^ s T s Και η οποία ακολουθεί επίσης την 2 X κατανομή με m,p,q βαθμούς ελευθερίας

101 Έλεγχος της τάξης του υποδείγματος. Η καταλληλότητα του εκτιμημένου υποδείγματος ελέγχεται, επίσης, συγκρίνοντάς το με ένα άλλο υπόδειγμα μεγαλύτερης τάξης. Δηλαδή, το εκτιμημένο υπόδειγμα ARMA(p,q) συγκρίνεται με τα υποδείγματα ARMA(p+1,q) και ARMA(p,q+1). Αν το υπόδειγμα που εκτιμήθηκε περιγράφει τη διαδικασία που παρήγαγε τα δεδομένα, οι επιπλέον συντελεστές στα μεγαλύτερα υποδείγματα δεν θα πρέπει να είναι στατιστικά διαφορετικοί από το μηδέν. Η παραπάνω διαδικασία ελέγχου ονομάζεται υπερπροσαρμογή. Κριτήρια επιλογής υποδείγματος. Είναι φανερό ότι αυξάνοντας την τάξη του υποδείγματος, δηλαδή προσθέτοντας υστερήσεις για το αυτοπαλίνδρομο τμήμα ή και για το τμήμα κινητού μέσου, θα μειώνεται το άθροισμα των τετραγώνων των καταλοίπων, αλλά θα μειώνονται και οι βαθμοί ελευθερίας, αφού εκτιμώνται περισσότερες παράμετροι. Με άλλα λόγια, δεν υπάρχει μόνο κέρδος από την προσθήκη μεταβλητών αλλά και κόστος. Το κριτήριο πληροφοριών Akaike ή AIC και το Μπαιεσιανό κριτήριο Schwartz ή SBC που χρησιμεύουν για να συγκρίνουμε την ερμηνευτική ικανότητα εναλλακτικών υποδειγμάτων (διαφορετικός αριθμός παραμέτρων,μέγεθος δείγματος κτλ.) τα συναντάμε με τις ακόλουθες μορφές: AIC ln T 2 ^ u 2k T ' SBC ln T 2 ^ u ' k T lnt Με: 2 ^u άθροισμα τετραγώνων καταλοίπων. ' k αριθμός παραμέτρων που εκτιμώνται (p+q+1). T αριθμός παρατηρήσεων. Και τα δύο κριτήρια μπορούν να πάρουν αρνητικές τιμές και επιλέγεται το υπόδειγμα με την μικρότερη τιμή

102 ΚΕΦΑΛΑΙΟ 4: ΥΛΟΠΟΙΗΣΗ ΠΡΑΚΤΙΚΗΣ ΕΦΑΡΜΟΓΗΣ Εφόσον παρουσιάστηκαν τα απαραίτητα, για την συγκεκριμένη έρευνα, θεωρητικά στοιχεία στο συγκεκριμένο κεφάλαιο θα παρουσιαστεί η εφαρμογή των μεθόδων εξόρυξης σε πρακτικό επίπεδό. Σε αρχικό επίπεδο θα παρουσιαστούν τα δεδομένα του πειράματος και θα ακολουθήσει η προεπεξεργασία τους. Στην συνέχεια θα εφαρμοστεί ο αλγόριθμος συσταδοποίησης με τον μηιεραρχικό αλγόριθμο k-means προκειμένου να δημιουργηθούν οι συστάδες του πειράματος. Μετά την συσταδοποίηση ακολουθεί η κατηγοριοποίηση με την μέθοδο των k-πλησιέστερων γειτόνων και στο τελικό στάδιο θα παρουσιαστούν τα αποτελέσματα της πρόβλεψης με την μέθοδο ARIMA. Τα πειράματα υλοποιήθηκαν στο περιβάλλον της Matlab (environment for numerical computation, visualization, and programming) και στο Weka το οποίο είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το οποίο περιέχει υλοποιημένες μεθόδους για: Προεπεξεργασία Δεδομένων. Ταξινόμηση. Συσταδοποίηση. Εύρεση Κανόνων Συσχέτισης. Αξίζει να σημειώσουμε εδώ ότι τα βασικά αρχεία τα οποία δέχεται σαν είσοδο το WEKA έχουν κατάληξη ARFF (Attribute Relation File Format) και πρόκειται για ένα αρχείο κειμένου ASCII (ASCII text file) το οποίο περιγράφει /περιέχει μια σειρά από παραδείγματα (instances) τα οποία περιγράφονται απo χαρακτηριστικά (attributes).στην συνέχεια θα παρουσιάσουμε αναλυτικά πως γίνεται η διαδικασία δημιουργίας ARFF αρχείων

103 4.1 ΔΕΔΟΜΕΝΑ ΤΗΣ ΜΕΛΕΤΗΣ Στην συγκεκριμένη εργασία θα πάρουμε ιστορικά δεδομένα από την δείκτη NASDAQ(υψηλής κεφαλαιοποίησης) Composite Index ( The National Association of Securities Dealers Automated Quotation) ο οποίος χρησιμοποιείται και περισσότερο στον κόσμο λόγω της πρόσφατης ανόδου της δημοτικότητας των τεχνολογικών μετοχών. Ο συγκεκριμένος δείκτης διαμορφώνεται με βάση τις διακυμάνσεις των τιμών των μετοχών των 105 μεγαλύτερων εγχώριων και διεθνών εταιριών που είναι καταχωρημένες στο Nasdaq National Market tier of the Nasdaq Stock Market Inc. Είναι εταιρίες κολοσσοί στην υψηλή τεχνολογία, αεροπορικές εταιρείες, πολυκαταστήματα και εταιρείες που ασχολούνται με το διαδίκτυο. Επίσης θα μελετηθούν τα οικονομικά δεδομένα που είναι πολύ σημαντικά στην σημερινή εποχή και είναι η διαχρονική μεταβολή των τιμών του αργού πετρελαίου (Brent Crude Oil Prices) και η ισοτιμία ευρώ/δολαρίου. Ενδεικτικά παρουσιάζονται στον παρακάτω πίνακα τα δεδομένα μας και σε ποια χρονικά διαστήματα αντλήθηκαν : Δεδομένα Χρονικό διάστημα Τιμές 104 Εταιριών του Nasdaq 01/01/13-31/12/13 Αργό Πετρέλαιο/Τιμή ανά βαρέλι 04/06/10-31/12/13 Ισοτιμία Euro/dollar 04/06/10-31/12/13 Πίνακας 5: Χρονικά διαστήματα άντλησης δεδομένων

104 Ακολουθούν εικόνες για την μορφή που είχαν τα δεδομένα μας στην αρχή : Εικόνα 25: Αρχικά δεδομένα της μετοχής υψηλής κεφαλαιοποίησης American Airlines Group Inc (AAL). Τα δεδομένα αυτά περιέχουν πληροφορίες για τις μετοχές όπως η ημερομηνία, η τιμή ανοίγματος, η υψηλότερη τιμή της ημέρας, η χαμηλότερη τιμή της ημέρας, η τιμή κλεισίματος και ο όγκος των συναλλαγών. Εμείς για την έρευνα μας θα μελετήσουμε τις καθημερινές τιμές κλεισίματος όλων των μετοχών του δείκτη Nasdaq (υψηλής κεφαλαιοποίησης) την περίοδο 01/01/13-31/12/

105 Εικόνα 26: Αρχικά δεδομένα για τις τιμές του Αργού Πετρελαίου/βαρέλι σε doll. Εικόνα 27: Αρχικά δεδομένα για τις ισοτιμίες Euro/dollar

106 Εικόνα 28: Γραφική αναπαράσταση του Data set των μετοχών του δείκτη Nasdaq πριν την προεπεξεργασία. Εικόνα 29: Γραφική αναπαράσταση τιμών του πετρελαίου

107 Εικόνα 30: Γραφική αναπαράσταση τιμών της ισοτιμίας euro/dollar. 4.2 ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Με την προεπεξεργασία δεδομένων σε ένα Data set στην ουσία επιτυγχάνουμε τα εξής: Καθαρισμός δεδομένων (Data cleaning) Συμπλήρωση των χαμένων τιμών, απαλοιφή θορύβου, απομάκρυνση των outliers, διόρθωση ασυνεπειών, απαλοιφή πλεονασμού. Ενοποίηση δεδομένων (Data integration) Ενοποίηση πολλαπλών βάσεων δεδομένων, κύβων δεδομένων ή αρχείων, απαλοιφή πλεονασμού. Μετασχηματισμός δεδομένων (Data transformation) και Διακριτοποίηση δεδομένων (Data discretization) Κανονικοποίηση, Μετατροπή των numerical τιμών σε nominal. Μείωση δεδομένων (Data reduction) Μείωση διαστατικότητας, μείωση πληθυκότητας, συμπίεση δεδομένων 1 η Προεπεξεργασία Θα κάνουμε μια πρώτη προεπεξεργασία στα δεδομένα του δείκτη Nasdaq προκειμένου να διαγραφούν οι μετοχές που είχαν τιμές για λίγες μέρες και όσον αφορά τις μετοχές που τους

108 έλειπαν τιμές λιγότερες από 5 μέρες δεν διαγράφηκαν αλλά αντικαταστάθηκαν με το ημιάθροισμα των γειτονικών στοιχείων. Στην παρακάτω εικόνα οπτικοποιούνται οι τιμές κλεισίματος των μετοχών του dataset ως προς τον χρόνο. Στον άξονα των x εμφανίζεται ο χρόνος σε μέρες, στον άξονα των y εμφανίζονται οι τιμές των μετοχών μετά την πρώτη προεπεξεργασία: Εικόνα 31:Data set του δείκτη Nasdaq μετα την πρώτη προεπεξεργασία. 2 η Προεπεξεργασία Προκειμένου να γίνει σωστά η σύγκριση των μετοχών του Data set του δείκτη Nasdaq πρέπει όλες οι μετοχές να έχουν το ίδιο πλάτος. Πρέπει δηλαδή να κανονικοποιηθούν (μετασχηματιστούν) οι τιμές των μετοχών προκειμένου να μην έχουν μεγάλες αποκλίσεις στις

109 τιμές και να έχουν κοινό πλάτος σύγκρισης. Επίσης με την κανονικοποίηση αποτρέπεται η περιττή επανάληψη δεδομένων και εξασφαλίζεται η απλούστερη δυνατή οργάνωση των δεδομένων και η δυνατότητα για μελλοντικές τροποποιήσεις χωρίς μεγάλες επιπτώσεις στη συνολική λειτουργία του συστήματος. Αυτό θα επιτευχθεί με την παρακάτω σχέση: Z X mean( X ) std( X ) Στην παρακάτω εικόνα οπτικοποιούνται οι τιμές κλεισίματος των μετοχών του dataset του δείκτη Nasdaq ως προς τον χρόνο. Στον άξονα των x εμφανίζεται ο χρόνος σε μέρες, στον άξονα των y εμφανίζονται οι κανονικοποιημένες τιμές των μετοχών μετά την δεύτερη προεπεξεργασία: Εικόνα 32: Data set του δείκτη Nasdaq μετα την δεύτερη προεπεξεργασία-μετασχηματισμός. Για τα δεδομένα που αφορούν την ισοτιμία Euro/dollar, Oil/Barrel δεν χρειάζεται να γίνει προεπεξεργασία διότι θα αντιμετωπιστούν σαν time series και δεν περιέχουν missing values και outliers. Θα αρκεστούμε να κάνουμε clustering,classification και να ανακαλύψουμε κρυμμένα πρότυπα για να κάνουμε πρόβλεψη (prediction) με την μέθοδο ARIMA

110 4.3 ΣΥΣΤΑΔΟΠΟΙΗΣΗ/CLUSTERING K-MEANS ΜΕ ΜΕΤΡΙΚΗ ΤΗΝ ΕΥΚΛΕΙΔΕΙΑ ΑΠΟΣΤΑΣΗ Μετα την προεπεξεργασία των δεδομένων υλοποιήθηκε ο αλγόριθμος συσταδοποίησης (clustering) k-means στο περιβάλλον της Matlab. Τον αλγόριθμο k-means θα τον υλοποιήσουμε με την Ευκλείδεια απόσταση για αρχή, με πλήθος επαναλήψεων 5 και για διάφορα k (αριθμός των clusters). Η αρχική επιλογή των θέσεων των κεντροειδών που θα επιλεχθούν θα είναι k τυχαίες παρατηρήσεις από δεδομένα. Ας πάρουμε σαν πρώτη περίπτωση τα δεδομένα των μετοχών του δείκτη Nasdaq για το έτος Αφού εισάγουμε τα δεδομένα μετά την πρώτη προεπεξεργασία στο πρόγραμμα θα χρησιμοποιήσουμε τον k-means για k=3. O κώδικας στην Matlab για την υλοποίηση της δοκιμής είναι ο παρακάτω: idx3 = kmeans(nasdaq11,3,'distance','sqeuclidean'); όπου nasdaq11 είναι τα δεδομένα μας μετά την πρώτη προεπεξεργασία και sqeuclidean είναι η Ευκλείδεια απόσταση (d(x,c)=(x c)(x c) ) όπου c το centroid. Το αποτέλεσμα από την Matlab ήταν ένας n*1 πίνακας που με τους δείκτες 1,2,3 να μας δείχνουν σε ποίο cluster τοποθετείται η κάθε μετοχή. Εικόνα 33: Διαχωρισμός δεδομένων σε 3 συστάδες με τον k-means. Το αποτέλεσμα που πήραμε από αυτήν την πρώτη συσταδοποίηση είναι ότι ο k-means τοποθέτησε σχεδόν όλες τις μετοχές στο πρώτο cluster και ελάχιστες στα άλλα δυο clusters

111 Υπολογίστηκαν οι τιμές των silhouettes για την αξιολόγηση της συμπαγότητας των συστάδων. O Κώδικας στην Matlab που χρησιμοποιήθηκε είναι ο εξής: figure; [silh3,h] = silhouette(nasdaq11,idx3,'sqeuclidean'); h = gca; h.children.edgecolor = [.8.8 1]; xlabel 'Silhouette Value'; ylabel 'Cluster'; Το Silhouette value στην ουσία είναι ένα μέτρο που μετρά το κατά πόσο κοντά, κάθε σημείο της συστάδας, βρίσκεται σε σχέση με τα γειτονικά σμήνη. Το μέτρο αυτό κυμαίνεται από 1, υποδεικνύοντας ότι τα σημεία είναι πολύ απομακρυσμένα (επιθυμητό αυτό) από τις γειτονικές συστάδες, μέσα από το 0, υποδεικνύοντας τα σημεία που δεν είναι ευδιάκριτα σε ένα άλλο σύμπλεγμα ή, σε -1, αναφέροντας τα σημεία που πιθανώς έχουν τοποθετηθεί σε λάθος cluster. Silhouette values μετά την 1 η Προεπεξεργασία Εικόνα 34:Οι τιμές silhouettes για κ=3 μετα την 1 η Προεπεξεργασία. θα χρησιμοποιήσουμε τώρα τον k-means για k=4 για να δούμε μήπως τυχόν και πάρουμε καλύτερα αποτελέσματα. O κώδικας στην Matlab για την υλοποίηση της δοκιμής είναι ο παρακάτω: idx4 = kmeans(nasdaq11,4,'distance','sqeuclidean');

112 και εδώ παρατηρούμε ότι παίρνουμε λίγο καλύτερα αποτελέσματα. Ακολουθεί ο κώδικας για να πάρουμε τις τιμές των silhouettes και η γραφική τους αναπαράσταση: figure; [silh3,h] = silhouette(nasdaq11,idx4,'sqeuclidean'); h = gca; h.children.edgecolor = [.8.8 1]; xlabel 'Silhouette Value'; ylabel 'Cluster' Εικόνα 35: Οι τιμές silhouettes για κ=4 μετα την 1 η Προεπεξεργασία. Παίρνοντας τον k-means για k=5 ή k=6 clusters με τυχαία Centroids θα πάρουμε τα εξής αποτελέσματα: Εικόνα 36: Οι τιμές silhouettes για κ=5 και κ=6 μετα την 1 η Προεπεξεργασία

113 Εικόνα 37: Οι τιμές silhouettes για κ=8 και κ=10 μετα την 1 η Προεπεξεργασία. Silhouette values μετά την 2 η Προεπεξεργασία Εικόνα 38: Οι τιμές silhouettes για κ=3 και κ=4 μετα την 2 η προεπεξεργασία. Εικόνα 39: Οι τιμές silhouettes για κ=5 και κ=6 μετα την 2 η προεπεξεργασία

114 Εικόνα 40: Οι τιμές silhouettes για κ=8 και κ=10 μετα την 2 η προεπεξεργασία. Η επιλογή των κατάλληλων παραμέτρων δεν είναι πάντοτε σαφής με αποτέλεσμα να μην υπάρχει ένα ξεκάθαρο όριο απόφασης καθώς η εκτίμηση της ποιότητας των συστάδων (clusters) είναι υποκειμενική. Οι αποφάσεις κάθε φορά αλλάζουν ανάλογα με το πρόβλημα που αντιμετωπίζουμε. Παρ όλα αυτά γίνεται μία εμπειρική εκτίμηση για την επίλυση αυτών των ζητημάτων. Για τον καλύτερο διαχωρισμό των συστάδων, πρέπει τα αντικείμενα μίας συστάδας να βρίσκονται όσο πιο κοντά μεταξύ τους και όσο το δυνατόν πιο μακριά από τις παρατηρήσεις των άλλων συστάδων. Δηλαδή η κάθε συστάδα να είναι συμπαγής και οι συστάδες μεταξύ τους να είναι αρκετά μακριά. Η μέση τιμή των silhouettes εκφράζει τη συμπαγότητα των συστάδων. Μέσω της Matlab μπορεί εύκολα να υπολογιστεί και να οπτικοποιηθεί. Ο κώδικας και το σχήμα ακολουθούν: E = evalclusters(nasdaq11,'kmeans','silhouette','klist',[1:10],'distance','sqeuclidean')

115 Εικόνα 41: Η μέση τιμή των silhouettes εκφράζει τη συμπαγότητα των συστάδων μετα την 1 η προεπεξεργασία. Η μέση τιμή των silhouettes για το dataset των μετοχών του Nasdaq, για κ από 2 έως 10 δείχνει ότι όσο αυξάνεται το πλήθος των συστάδων μειώνεται η συμπαγότητα τους. Τέλος αξίζει να αναφέρουμε ότι η Matlab μας ενημερώνει για την βέλτιστη λύση του k με βάση το Calinski- Harabasz κριτήριο που βλέποντας τις πληροφορίες παρακάτω: Εικόνα 42:Βέλτιστη λύση της Matlab μετά την 1 η προεπεξεργασία. Κώδικας κριτηρίου Calinski-Harabasz για την εύρεση βέλτιστου κ είναι: eva = evalclusters(nasdaq22,'kmeans','calinskiharabasz','klist',[1:6])

116 Εικόνα 43: Η μέση τιμή των silhouettes εκφράζει τη συμπαγότητα των συστάδων μετα την 2 η προεπεξεργασία. Εικόνα 44: Βέλτιστη λύση της Matlab μετά την 2 η προεπεξεργασία K-MEANS ΜΕ ΜΕΤΡΙΚΗ ΤΗΝ ΑΠΟΣΤΑΣΗ ΜΑΝHATTAN Ας δοκιμάσουμε σε αυτό το σημείο να αλλάξουμε μετρική και να πάρουμε την απόσταση Manhattan και να δούμε μήπως μας δώσει καλύτερα αποτελέσματα. Αφού εισάγουμε τα δεδομένα μετά την πρώτη προεπεξεργασία στο πρόγραμμα θα χρησιμοποιήσουμε τον k-means για k=3. O κώδικας στην Matlab για την υλοποίηση της δοκιμής είναι ο παρακάτω: idx13 = kmeans(nasdaq11,3,'distance','cityblock'); όπου nasdaq11 είναι τα δεδομένα μας μετά την πρώτη προεπεξεργασία και cityblock είναι η απόσταση Manhattan p d x x ij ir jr r1. Υπολογίστηκαν οι τιμές των silhouettes για την αξιολόγηση της συμπαγότητας των συστάδων και πήραμε το παρακάτω γράφημα το οποίο και

117 απεικονίζει τα σαφώς καλύτερα αποτελέσματα ως αφορά την ταξινόμηση των μετοχών στα clusters αλλά χειρότερα αποτελέσματα όσον αφορά τις τιμές των silhouette values. Silhouette values μετά την 1 η Προεπεξεργασία Εικόνα 45: Οι τιμές silhouettes για κ=3 μετα την 1 η Προεπεξεργασία. (Manhattan distance). Εικόνα 46: Οι τιμές silhouettes για κ=5.κ=6 μετα την 1 η Προεπεξεργασία. (Manhattan distance)

118 Εικόνα 47: Οι τιμές silhouettes για κ=8.κ=10 μετα την 1 η Προεπεξεργασία. (Manhattan distance). Εικόνα 48: Η μέση τιμή των silhouettes εκφράζει τη συμπαγότητα των συστάδων μετα την 1 η προεπεξεργασία(manhattan distance). Silhouette values μετά την 2 η Προεπεξεργασία Εικόνα 49: Οι τιμές silhouettes για κ=3 μετα την 2 η Προεπεξεργασία. (Manhattan distance)

119 Εικόνα 50: Οι τιμές silhouettes για κ=5.κ=6 μετα την 2 η Προεπεξεργασία. (Manhattan distance). Εικόνα 51: Οι τιμές silhouettes για κ=8.κ=10 μετα την 2 η Προεπεξεργασία. (Manhattan distance). Εικόνα 52: Η μέση τιμή των silhouettes εκφράζει τη συμπαγότητα των συστάδων μετα την 2 η προεπεξεργασία(manhattan distance)

120 Εμπειρικά παρατηρήθηκε ότι, όσο το k είναι μικρό τόσο πιο γενικά είναι τα σχήματα σε μία συστάδα ενώ με την αύξηση του πλήθους των συστάδων (μέχρι κάποιο επιτρεπτό όριο που εξαρτάται από το σύνολο των δεδομένων) αυξάνεται η αραιότητα των συστάδων. Βέβαια εύκολα μπορούμε να παρατηρήσουμε ότι στα δεδομένα μετα την δεύτερη προεπεξεργασία και με την μετρική Manhattan βρήκαμε σαν βέλτιστη λύση το κ=3. Επομένως, επιλέγουμε το k ανάλογα με το σκοπό που θέλουμε να εξυπηρετήσουμε ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΣΟΤΙΜΙΑΣ ΚΑΙ ΤΙΜΗΣ ΠΕΤΡΕΛΑΙΟΥ ΜΕ ΤΟ ΠΡΟΓΡΑΜΜΑ WEKA Προετοιμάζοντας τα δεδομένα (Μετατροπή αρχείου σε.arff) Τα δεδομένα που βρίσκονται στην βάση δεδομένων του UCI Machine Repository (στο παραπάνω site) πρέπει να εισαχθούν στο Weka με την μορφή.arff. Φορτώνουμε τα δεδομένα σε έναν κειμενογράφο και δημιουργούμε αρχείο arff ως εξής: Τα ARFF αρχεία έχουν δύο ξεχωριστά τμήματα. Το πρώτο τμήμα είναι το Header, το οποίο ακολουθείται από το τμήμα Data. 43 Το Header του αρχείου ARFF περιέχει το όνομα της σχέσης, μια λίστα των μεταβλητών (οι στήλες στα δεδομένα), και τους τύπους τους. Η Το όνομα της σχέσης ορίζεται ως η πρώτη γραμμή στο αρχείο arff. Η μορφή <relation-name> Οι Με αυτές προσθέτουμε τις πληροφορίες των μεταβλητών. Η μορφή τους <attribute-name> <data-type> όπου το <attribute-name πρέπει να ξεκινά με έναν αλφαβητικό χαρακτήρα και το <data-type> μπορεί να είναι: numeric,nominal,string,date Η είναι μια απλή γραμμή που δηλώνει την έναρξη του τμήματος των δεδομένων στο αρχείο. Η μορφή

121 Κατόπιν αποθηκεύουμε το αρχείο.arff και το αρχείο είναι έτοιμο για να εισαχθεί στο Weka. Εικόνα 53: ARFF αρχεία του πειράματος. Η επιλογή Preprocess μας επιτρέπει να εισάγουμε στοιχεία από μια βάση δεδομένων, ένα CSV αρχείο, κλπ. και να προεπεξεργαστούμε αυτά τα δεδομένα χρησιμοποιώντας αλγόριθμους φιλτραρίσματος. Η επιλογή Classify μας επιτρέπει να εφαρμόσουμε αλγόριθμους ταξινόμησης και παλινδρόμησης (που καλούνται ταξινομητές στο WEKA) σε ένα σύνολο δεδομένων, να υπολογίσουμε την ακρίβεια του μοντέλου πρόβλεψης που προκύπτει,να οπτικοποιήσουμε εσφαλμένες προβλέψεις, καμπύλες ROC, κλπ. Η επιλογή Associate μας δίνει πρόσβαση στην εκμάθηση κανόνων συσχετίσεων που επιχειρούν να προσδιορίσουν όλες τις σημαντικές αλληλεξαρτήσεις μεταξύ των μεταβλητών στα δεδομένα. Η επιλογή Cluster δίνει πρόσβαση στις τεχνικές συσταδοποίησης στο WEKA, όπως π.χ. ο απλός αλγόριθμος k-means. Η επιλογή Select attributes παρέχει αλγόριθμους για τον προσδιορισμό των μεταβλητών με το μεγαλύτερο βαθμό πρόβλεψης σε ένα σύνολο δεδομένων

122 Στο παράδειγμα της ισοτιμία Euro/Doll και του Oil/Barrel αφού εισάγουμε τα δεδομένα μας στο πρόγραμμα μας δίδονται πολλές επιλογές στο πώς να κάνουμε reprocess και επιπρόσθετα ήδη το πρόγραμμα έχει χωρίσει τα δεδομένα μας σε κλάσεις και μας ενημερώνει για κάποια πρώτα στατιστικά στοιχεία (μέσος όρος, μέγιστη τιμή, ελάχιστη τιμή κτλ.)όπως φαίνεται και στις παρακάτω εικόνες: Εικόνα 54: Συνοπτική εικόνα μιας πρώτης προεπεξεργασίας των δεδομένων της isotimias. Εικόνα 55: Συνοπτική εικόνα μιας πρώτης προεπεξεργασίας των δεδομένων Oil/Barrel

123 Είναι επιλογή του κάθε χρήστη τι ακριβώς προεπεξεργασία θέλει να κάνει (διαγραφή outliers, κανονικοποίηση κτλ).στο συγκεκριμένο παράδειγμα δεν κάνουμε κάποιου είδους προεπεξεργασία και προχωράμε κατευθείαν στο clustering με τον αλγόριθμο k-means.αφού λοιπόν πατήσουμε την επιλογή cluster θα μας βγάλει στην καρτέλα με τις επιλογές και πατώντας Choose: SimpleKMeans θα πάρουμε τον αλγόριθμο που θέλουμε. Για περισσότερες επιλογές,π.χ. σε σχέση με τον αριθμό των clusters που θέλουμε να ξεκινήσουμε, την μετρική απόστασης, (εδώ θα πάρουμε 5 clusters με ευκλείδεια μετρική απόστασης), πατάμε πάνω στο όνομα του αλγορίθμου για να μας ανοίξει το νέο παράθυρο και διαλέγουμε ότι ακριβώς θέλουμε όπως φαίνεται παρακάτω: Εικόνα 56: Επιλογές που μας παρέχει το πρόγραμμα weka κατά το clustering

124 Και αφού κάνουμε τις ρυθμίσεις που θέλουμε και για τις δύο περιπτώσεις προχωράμε στο clustering με τον αλγόριθμο Kmeans και παίρνουμε τα παρακάτω αποτελέσματα: Εικόνα 57: Αποτελέσματα clustering για τα δεδομένα της ισοτιμίας euro/doll. Εικόνα 58: Αποτελέσματα clustering για τα δεδομένα Oil/Barrel. Συνοψίζοντας αξίζει να επισημάνουμε ότι το ποιον αλγόριθμο θα διαλέξουμε για το clustering και με βάση ποια μετρική θα τον τρέξουμε εξαρτάται αποκλειστικά από το πρόβλημα που υπάρχει και από τις απαιτήσεις του εκάστοτε ερευνητή

125 4.4 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ Η κατηγοριοποίηση στην σημερινή εποχή αποτελεί μια πολύ σημαντική διαδικασία και συγκεκριμένα στο οικονομικό πεδίο έχει πάρα πολλές πρακτικές εφαρμογές. Προκειμένου να εφαρμόσουμε την κατηγοριοποίηση στα δεδομένα μας και συγκεκριμένα στις 104 μετοχές του δείκτη Nasdaq χρησιμοποιήσαμε τον πολύ γνωστό αλγόριθμο k-nearest Neighbor. Τα βήματα της κατηγοριοποίησης είναι τα παρακάτω: A. Σαν πρώτο βήμα υλοποιούμε μια πρώτη συσταδοποίηση και για τις 104 μετοχές μετά την 2 η προεπεξεργασία για τον καθορισμό των κατηγοριών. Για τον καθορισμό των κατηγοριών χρησιμοποιήθηκε ο αλγόριθμος k-means (με Ευκλείδεια απόσταση ) για 3 συστάδες που εδώ αποτελούν τις κατηγορίες των μετοχών. B. Με την χρήση της δειγματοληπτικής μεθόδου kfold cross-validation θα πάρουμε το σύνολο ελέγχου και το σύνολο δοκιμής. Στη μέθοδο k-fold cross validation το αρχικό σύνολο των δειγμάτων εκπαίδευσης διαμερίζεται σε k υποσύνολα, τα οποία ονομάζονται folds. Μετά καλείται ο γενετικός αλγόριθμος για να υπολογίσει τα ασαφή ϐάρη χρησιμοποιώντας σαν σύνολο εκπαίδευσης όλα τα δείγματα σε k 1 folds, αφήνοντας το ένα εκτός, το οποίο χρησιμοποιείται σαν σύνολο δοκιμής. Αυτή η διαδικασία επαναλαμβάνεται k φορές, ώσπου κάθε fold να έχει χρησιμοποιηθεί για δοκιµή µία φορά και για εκπαίδευση τις υπόλοιπες k 1. C. Τέλος υλοποιήθηκε η μέθοδος του κοντινότερου γείτονα προκειμένου να καταχωρηθούν οι μετοχές προς κατηγοριοποίηση (σύνολο ελέγχου) σε κάποιες από τις προκαθορισμένες κλάσεις του βήματος Α. Αξίζει επίσης να αναφέρουμε: Όσον αφορά τις νεοεισερχόμενες μετοχές όταν ζητείται να προσδιοριστούν σε ποιές κατηγορίες των μετοχών ανήκουν έχουμε την δυνατότητα να εφαρμόσουμε την συγκεκριμένη μέθοδο. Εκτελώντας για παράδειγμα πρώτα την 10- fold crossvalidation και για 1-3 πλησιέστερους γείτονες και έπειτα τον αλγόριθμο k-nearest Neighbor classification προσδιορίστηκαν οι κατηγορίες στις οποίες ανήκουν οι νέες μετοχές με σφάλμα περίπου 0.9% 1 NN, 2% 2 ΝΝ και τέλος 1,8% 3 ΝΝ όπως φαίνεται και στους παρακάτω πίνακες:

126 Για 1 κοντινότερο γείτονα θα έχουμε: Κώδικας στην Matlab: Fitcknn (nasdaq22,idx3,'numneighbors',1,'kfold', number of fold ) kcloss = kfoldloss(ans) fold Error Rate Πίνακας 6: Σφάλματα κατηγοριοποίησης για κάθε fold με NN =1. Ο μέσος όρος των σφαλμάτων είναι 0, Για 2 κοντινότερους γείτονες θα έχουμε: Κώδικας στην Matlab: Fitcknn (nasdaq22,idx3,'numneighbors',2,'kfold', number of fold ) kcloss = kfoldloss(ans) fold Error Rate Πίνακας 7: Σφάλματα κατηγοριοποίησης για κάθε fold με NN =2. Ο μέσος όρος των σφαλμάτων είναι 0, Για 3 κοντινότερους γείτονες θα έχουμε: Κώδικας στην Matlab: Fitcknn (nasdaq22,idx3,'numneighbors',3,'kfold', number of fold ) kcloss = kfoldloss(ans) fold Error Rate Πίνακας 8: Σφάλματα κατηγοριοποίησης για κάθε fold με NN =3. Ο μέσος όρος των σφαλμάτων είναι 0,

127 Εικόνα 59: folds 1-10 και για N=1,2,3 κοντινότερους γείτονες. Εικόνα 60: Το σύνολο εκπαίδευσης (δεξιά) και σύνολο δοκιμής (αριστερά) στη 8 η επανάληψης του cross-validation

128 4.5 ΠΡΟΒΛΕΨΗ Για τις ανάγκες τις πρόβλεψης των τιμών των μετοχών του δείκτη Nasdaq, της ισοτιμίας Euro/doll και της τιμής του Πετρελαίου/βαρέλι χρησιμοποιήθηκε η μέθοδος ARIMA για διάφορες τάξεις p,d,q. Ακόμα για κάθε μια περίπτωση ξεχωριστά θα κάνουμε σύγκριση των τιμών που προβλέψαμε με τις πραγματικές τιμές που έχουν καταγραφεί. Σφάλµα πρόβλεψης (Μέση απόλυτη απόκλιση MAD/Mean Absolute Deviation) θα χρησιμοποιηθεί στην παρούσα εργασία το MAD. Το MAD εκφράζει τη μέση τιμή των απόλυτων αποκλίσεων των προβλεπόμενων τιμών της χρονοσειράς από τις αντίστοιχες πραγματικές και έχει τα ακόλουθα χαρακτηριστικά. Πρώτον, η μονάδα μέτρησης του είναι η ίδια με εκείνη των τιμών της χρονοσειράς και έτσι είναι εύκολη η ερμηνεία του. Δεύτερον, στον υπολογισμό του λαμβάνονται υπ όψιν μόνο οι απόλυτες τιμές των σφαλμάτων και όχι οι πραγματικές τιμές τους. Αυτό σημαίνει ότι το MAD είναι ανεξάρτητο από θετικές ή αρνητικές τιμές του σφάλματος, δηλαδή είναι ανεξάρτητο από το αν οι τιμές των προβλέψεων είναι μικρότερες (υποεκτίμηση) ή μεγαλύτερες (υπερεκτίμηση) των πραγματικών τιμών. Τρίτον, το MAD βασίζεται στην υπόθεση ότι η σοβαρότητα του σφάλματος ή το κόστος που δημιουργείται από το σφάλμα της πρόβλεψης σχετίζεται γραμμικά με το μέγεθος του σφάλματος. n ^ n 1 1 i i i n i1 n i1 MAD Y Y e ΠΡΟΒΛΕΨΗ ΙΣΟΤΙΜΙΑΣ Euro/Doll ΣΥΓΚΡΙΣΗ ΜΕ ΠΡΑΓΜΑΤΙΚΕΣ ΤΙΜΕΣ Για την περίπτωση της ισοτιμίας Euro/Doll έχουμε 1307 παρατηρήσεις. Έχοντας εισάγει τα δεδομένα μας στο πρόγραμμα της Matlab αφαιρούμε από το δείγμα μας τις τελευταίες 200 παρατηρήσεις που θα προσπαθήσουμε να τις προβλέψουμε και μετά να τις συγκρίνουμε με τις

129 πραγματικές τιμές που αφαιρέσαμε. O κώδικας στην Matlab για την υλοποίηση των βημάτων που προαναφέραμε είναι ο παρακάτω: Παίρνουμε τις πρώτες 1107 παρατηρήσεις: isotimia1 = isotimia(1:1107); Τοποθετήστε ένα (1,1,1) υπόδειγμα ARIMA στα δεδομένα: isotimia1model = arima(1,1,1); isotimia1fit = estimate(isotimia1model,isotimia1); Και παίρνουμε τον αναλυτικό πίνακα με τα αποτελέσματα της ARIMA(1,1,1) Εικόνα 61: Αποτελέσματα υποδείγματος ARIMA(1,1,1). Για να προβλέψουμε τις τιμές της ισοτιμίας για τις υπόλοιπες 200 ημέρες με τη χρήση προσαρμοσμένου μοντέλου θα έχουμε τον παρακάτω κώδικα στην Matlab: [Y,YMSE] = forecast(isotimia1fit,200,'y0',isotimia1); Και το αποτέλεσμα είναι να πάρουμε έναν πίνακα 200*1 που θα μας δώσει τις προβλέψεις που έκανε το υπόδειγμα ΑRIMA(1,1,1) όπως φαίνεται παρακάτω:

130 Εικόνα 62: Προβλέψεις του υποδείγματος ARIMA(1,1,1). Και τέλος ο κώδικας για την γραφική αναπαράσταση των αποτελεσμάτων: lower = Y *sqrt(YMSE); upper = Y *sqrt(YMSE); figure plot(isotimia1,'color',[.7,.7,.7]); hold on h1 = plot(1108:1307,lower,'r:','linewidth',2); plot(1108:1307,upper,'r:','linewidth',2) h2 = plot(1108:1307,y,'k','linewidth',2); legend([h1 h2],'95% Interval','Forecast',... 'Location','NorthWest') title('isotimia forecast') hold off

131 Εικόνα 63: Πρόβλεψη με ARIMA(1,1,1) των τελευταίων 200 ημερών της χρονοσειράς της ισοτιμίας. Εικόνα 64: Πρόβλεψη με τη μέθοδο ARIMA(1,1,1) της ισοτιμίας. Με μπλέ χρώμα απεικονίζονται οι πραγματικές τιμές και με κόκκινο οι προβλεπόμενες. Για την εξέταση του ενδεχομένου, εάν η αλλαγή των δεικτών του ARIMA (p,d,q) βοηθάει την πρόβλεψη, έγιναν πολλές συγκρίσεις των αποτελεσμάτων της. Όσον αφορά την εκτίμηση του σφάλματος, το γεγονός ότι οι τιμές κυμαίνονται σε διαφορετικό πεδίο τιμών του άξονα y, χρησιμοποιήθηκε το σφάλμα μέσης Απόλυτης Απόκλισης (mean absolute deviation, MAD) διότι καθορίζει καλύτερα την ακρίβεια της ορθότητας του πειράματος. Τα αποτελέσματα έδειξαν ότι όσο αυξάναμε του δείκτες τόσο είχαμε μεγαλύτερο σφάλμα Απόλυτης Απόκλισης ( absolute deviation). Οι παρακάτω εικόνες είναι ενδεικτικές:

132 Εικόνα 65: Πρόβλεψη με τo υπόδειγμα ARIMA(1,1,1), ARIMA(2,1,1), ARIMA(1,2,1) της ισοτιμίας. Με μπλέ χρώμα απεικονίζονται οι πραγματικές τιμές. Εικόνα 66 : Αποκλίσεις από πραγματικές τιμές με τη μέθοδο ARIMA(1,1,1), ARIMA(2,1,1), ARIMA(1,2,1) της ισοτιμίας. Από τα παραπάνω σχήματα εύκολα μπορούμε να διαπίστώσουμε ότι η ARIMA(1,2,1) δεν μας δίνει καθόλου καλά αποτελέσματα. Οι τιμές των υπόλοιπων κριτηρίων είναι αρκετά καλές και δείχνουν ότι οι προβλεπόμενες τιμές με τη μέθοδο ARIMA πλησιάζουν αρκετά τις πραγματικές τιμές της χρονοσειράς. Για την αναζήτηση της απάντησης στο ερώτημα «η πρόβλεψη με την αύξηση των δεικτών της μεθόδου ARIMA δίνει καλύτερες προσεγγίσεις;» Καταλήξαμε στο συμπέρασμα ότι τελικά δεν βελτιώνει τα αποτελέσματα της πρόβλεψης στο συγκεκριμένο πρόβλημα που είναι απόλυτα λογικό. Το επιβεβαιώνει και ο παρακάτω πίνακας των MAD: Arima(p,d,q) Arima(1,1,1) Arima(2,1,1) Arima(1,2,1) MAD 0, , , Πίνακας 9: Μέση Απόλυτη Απόκλιση (mean absolute deviation, MAD) των ARIMA για την isotimias

133 Συνοπτικά τα δεδομένα που βρήκαμε από την εφαρμογή των μεθόδων: Εικόνα 67: Πραγματικά δεδομένα, προβλεφθήσες τιμές και απόλυτα σφάλματα 20 τυχαίων παρατηρήσεων της χρονοσειράς isotimia ΠΡΟΒΛΕΨΗ Oil/Barrel ΣΥΓΚΡΙΣΗ ΜΕ ΠΡΑΓΜΑΤΙΚΕΣ ΤΙΜΕΣ Για την περίπτωση της τιμής του πετρελαίου (Oil/Barrel) έχουμε 1001 παρατηρήσεις. Έχοντας εισάγει τα δεδομένα μας στο πρόγραμμα της Matlab αφαιρούμε από το δείγμα μας τις 100 τελευταίες παρατηρήσεις που θα προσπαθήσουμε να τις προβλέψουμε και μετά τις να τις συγκρίνουμε με τις πραγματικές τιμές που αφαιρέσαμε. O κώδικας στην Matlab για την υλοποίηση των βημάτων που προαναφέραμε είναι ο παρακάτω: Παίρνουμε τις πρώτες 901 παρατηρήσεις: oil1 = oil(1:901); Τοποθετήστε ένα (1,1,1) μοντέλο ARIMA στα δεδομένα: oil1model = arima(2,1,1); oil1fit = estimate(oil1model,oil1);

134 Και παίρνουμε τον αναλυτικό πίνακα με τα αποτελέσματα του ARIMA(1,1,1) Εικόνα 68: Αποτελέσματα του υποδείγματος ARIMA(1,1,1) Για να προβλέψουμε τις τιμές της ισοτιμίας για τις υπόλοιπες 100 ημέρες με τη χρήση προσαρμοσμένου μοντέλου θα έχουμε τον παρακάτω κώδικα στην Matlab: [Y,YMSE] = forecast(oil1fit,100,'y0',oil1); Εικόνα 69: Πρόβλεψη με τη μέθοδο ARIMA(1,1,1), ARIMA(2,1,1), ARIMA(1,2,1) του Oil/barrel. Με μπλέ χρώμα απεικονίζονται οι πραγματικές τιμές

135 Εικόνα 70: Αποκλίσεις από πραγματικές τιμές με τη μέθοδο ARIMA(1,1,1), ARIMA(2,1,1), ARIMA(1,2,1) του oil/barrel. Από τα παραπάνω σχήματα εύκολα μπορούμε να διαπιστώσουμε ότι η ARIMA(1,2,1) δεν μας δίνει καθόλου καλά αποτελέσματα. Οι τιμές των άλλων κριτηρίων είναι αρκετά καλές και δείχνουν ότι οι προβλεπόμενες τιμές με τη μέθοδο ARIMA πλησιάζουν αρκετά τις πραγματικές τιμές της χρονοσειράς. Για την αναζήτηση της απάντησης στο ερώτημα «η πρόβλεψη με την αύξηση των δεικτών της μεθόδου ARIMA δίνει καλύτερες προσεγγίσεις;» Καταλήξαμε στο συμπέρασμα ότι τελικά δεν βελτιώνει τα αποτελέσματα της πρόβλεψης στο συγκεκριμένο πρόβλημα που είναι απόλυτα λογικό. Το επιβεβαιώνει και ο παρακάτω πίνακας των MAD: Arima(p,d,q) Arima(1,1,1) Arima(2,1,1) Arima(1,2,1) MAD 2,54 2, , Πίνακας 10 : Μέση Απόλυτη Απόκλιση (mean absolute deviation, MAD) των ARIMA για την oil/barrel. Συνοπτικά τα δεδομένα που βρήκαμε από την εφαρμογή των μεθόδων: Εικόνα 71: Πραγματικά δεδομένα, προβλεφθήσες τιμές και απόλυτα σφάλματα 20 τυχαίων παρατηρήσεων της χρονοσειράς oil/barrel

136 4.5.3 ΠΡΟΒΛΕΨΗ ΜΕΤΟΧΩΝ ΔΕΙΚΤΗ NASDAQ ΣΥΓΚΡΙΣΗ ΜΕ ΠΡΑΓΜΑΤΙΚΕΣ ΤΙΜΕΣ. Τα πειράματα με την μέθοδο ARIMA(2,1,1) πραγματοποιήθηκαν αναζητώντας τις απαντήσεις των ακόλουθων ερωτημάτων: Η προεπεξεργασία βοηθάει την πρόβλεψη; Με λίγα λόγια να πάρουμε όσο το δυνατόν μικρότερες αποκλίσεις. Η ARIMA σαν μέθοδο πρόβλεψης είναι καλύτερη από κάποιες άλλες μεθόδους; Πρόβλεψη μετά την 1 η προεπεξεργασία Για την εξέταση του ενδεχομένου, εάν η 1 η προεπεξεργασία των δεδομένων βοηθάει την πρόβλεψη, έγιναν πολλές συγκρίσεις των αποτελεσμάτων της πρόβλεψης που έχουμε λάβει πριν και μετά την 1 η προεπεξεργασία των δεδομένων. Επειδή τα δεδομένα των 104 μετοχών του δείκτη Nasdaq δεν περιείχαν σημαντικό αριθμό δεδομένων που έλειπαν (missing data) ή αρκετούς outliers δεν διαπιστώθηκε καμία σημαντική απόκλιση στα αποτελέσματα της μεθόδου ARIMA. Παρακάτω παρουσιάζονται οι προβλέψεις και οι πραγματικές τιμές 5 μετοχών της 2 η συστάδας μετά την 1 η προεπεξεργασία

137 Εικόνα 72: Πρόβλεψη με τη μέθοδο ARIMA 5 μετοχών της 2 η συστάδας μετά την 1 η προεπεξεργασία. Με μπλε χρώμα απεικονίζονται οι πραγματικές τιμές και με κόκκινο οι προβλεπόμενες. Η μέση τιμή του MAD όλων των μετοχών για 52 ημέρες είναι 2, Μετοχές Stock54 Stock55 Stock56 Stock57 Stock58 MAD 1, , , , , Πίνακας 11: Μέση απόλυτη απόκλιση για κάθε μετοχή του παραδείγματος μας/52 μέρες. Πρόβλεψη μετά την 2 η προεπεξεργασία Για την εξέταση του ενδεχομένου, εάν η 2 η προεπεξεργασία των δεδομένων βοηθάει την πρόβλεψη, έγιναν πολλές συγκρίσεις των αποτελεσμάτων της πρόβλεψης που έχουμε λάβει πριν και μετά την 2 η προεπεξεργασία των δεδομένων. Τα αποτελέσματα έδειξαν ότι η 2 η προεπεξεργασία βοηθάει την πρόβλεψη εφόσον η μέση απόλυτη απόκλιση (0,002925) διαφέρει κατά πολύ από την μέση απόλυτη απόκλιση (2,42) μετά την 1 η προεπεξεργασία. Εδώ εύκολα διαπιστώνουμε ότι η κανονικοποίηση των δεδομένων βοηθάει αρκετά την πρόβλεψη

138 + Εικόνα 73: Πρόβλεψη με τη μέθοδο ARIMA 5 μετοχών της 2 η συστάδας μετα την 2 η προεπεξεργασία. Με μπλε χρώμα απεικονίζονται οι πραγματικές τιμές και με κόκκινο οι προβλεπόμενες. Η μέση τιμή του MAD όλων των μετοχών για 52 ημέρες είναι 0, Μετοχές Stock54 Stock55 Stock56 Stock57 Stock58 MAD 0, , , , , Πίνακας 12: Μέση απόλυτη απόκλιση για κάθε μετοχή του παραδείγματος μας/52 μέρες

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης

Διαβάστε περισσότερα

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) 1 Προέλευση και ιστορία της Επιχειρησιακής Έρευνας Αλλαγές στις επιχειρήσεις Τέλος του 19ου αιώνα: βιομηχανική

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής Data Mining: Στοχεύοντας στους σωστούς πελάτες To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Πτυχιακή εργασία ΑΝΑΛΥΣΗ ΚΟΣΤΟΥΣ-ΟΦΕΛΟΥΣ ΓΙΑ ΤΗ ΔΙΕΙΣΔΥΣΗ ΤΩΝ ΑΝΑΝΕΩΣΙΜΩΝ ΠΗΓΩΝ ΕΝΕΡΓΕΙΑΣ ΣΤΗΝ ΚΥΠΡΟ ΜΕΧΡΙ ΤΟ 2030

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ... ΠΕΡΙΕΧΟΜΕΝΑ ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...................................... 11 ΠΡΟΛΟΓΟΣ..........................................................15 1. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΝΑΛΥΤΙΚΗ, ΣΤΑ ΠΟΣΟΤΙΚΑ

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Η συνολική εικόνα Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse

Διαβάστε περισσότερα

Τι είναι πληροφοριακό σύστημα

Τι είναι πληροφοριακό σύστημα Τι είναι πληροφοριακό σύστημα Ένας ορισμός είναι ότι ένα πληροφοριακό σύστημα είναι ένα σύνολο αλληλοσυνδεόμενων μερών που συνεργάζονται για τη συλλογή, επεξεργασία, αποθήκευση και διάχυση πληροφοριών

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων Πληροφοριακά Συστήματα Διοίκησης Διοικητική Επιστήμη και Λήψη Αποφάσεων Η πολυπλοκότητα των αποφάσεων Αυξανόμενη πολυπλοκότητα λόγω: Ταχύτητας αλλαγών στο εξωτερικό περιβάλλον της επιχείρησης. Έντασης

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Η Επίδραση των Events στην Απόδοση των Μετοχών

Η Επίδραση των Events στην Απόδοση των Μετοχών Χρηματοοικονομικά και Διοίκηση Μεταπτυχιακή διατριβή Η Επίδραση των Events στην Απόδοση των Μετοχών Άντρεα Φωτίου Λεμεσός, Μάιος 2018 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΔΙΟΙΚΗΣΗΣ

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Α.Μ. 123/04 ΕΠΙΒΛΕΠΩΝ: ΣΑΜΑΡΑΣ ΝΙΚΟΛΑΟΣ ΘΕΣΣΑΛΟΝΙΚΗ, ΙΟΥΝΙΟΣ 2007 Περιεχόμενα

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική ΕΕΟ 11 Η χρήση στατιστικών εργαλείων στην εκτιμητική 1. Εισαγωγή 2. Προϋποθέσεις χρήσης των Αυτοματοποιημένων Εκτιμητικών Μοντέλων (ΑΕΜ) 3. Περιορισμοί στη χρήση των ΑΕΜ εφόσον έχουν πληρωθεί οι προϋποθέσεις

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Στόχος της ψυχολογικής έρευνας:

Στόχος της ψυχολογικής έρευνας: Στόχος της ψυχολογικής έρευνας: Συστηματική περιγραφή και κατανόηση των ψυχολογικών φαινομένων. Η ψυχολογική έρευνα χρησιμοποιεί μεθόδους συστηματικής διερεύνησης για τη συλλογή, την ανάλυση και την ερμηνεία

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Λογιστική Θεωρία και Έρευνα

Λογιστική Θεωρία και Έρευνα Μεταπτυχιακό Πρόγραμμα στη Λογιστική & Χρηματοοικονομική Master of Science (MSc) in Accounting and Finance ΤΕΙ ΠΕΙΡΑΙΑ Λογιστική Θεωρία και Έρευνα Εισαγωγή στη Λογιστική Έρευνα Η αναζήτηση της αλήθειας

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΣΤΡΑΤΗΓΙΚΗ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ Αθανάσιος Νταραβάνογλου Διπλωματική

Διαβάστε περισσότερα

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. Άδειες Χρήσης Το

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

Η οικολογία μάθησης για τους υπολογιστές ΙII: Η δική σας οικολογία μάθησης

Η οικολογία μάθησης για τους υπολογιστές ΙII: Η δική σας οικολογία μάθησης Η οικολογία μάθησης για τους υπολογιστές ΙII: Η δική σας οικολογία μάθησης Παλαιγεωργίου Γιώργος Τμήμα Μηχανικών Η/Υ, Τηλεπικοινωνιών και Δικτύων Πανεπιστήμιο Θεσσαλίας Ιανουάριος 2011 Ψυχομετρία Η κατασκευή

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Κατηγορίες Πληροφοριακών Συστημάτων Διοικητικής Υποστήριξης

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Κατηγορίες Πληροφοριακών Συστημάτων Διοικητικής Υποστήριξης ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Κατηγορίες Πληροφοριακών Συστημάτων Διοικητικής Υποστήριξης 1 ΕΙΣΑΓΩΓΗ (1) Ταξινόμηση ΠΣ ανάλογα με τις λειτουργίες που υποστηρίζουν: Συστήματα Επεξεργασίας Συναλλαγών ΣΕΣ (Transaction

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας.

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας. ΚΕΦΑΛΑΙΟ 1 Εισαγωγή Η Μεθοδολογία της Έρευνας (research methodology) είναι η επιστήμη που αφορά τη μεθοδολογία πραγματοποίησης μελετών με συστηματικό, επιστημονικό και λογικό τρόπο, με σκοπό την παραγωγή

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Η Έρευνα Μάρκετινγκ ως εργαλείο ανάπτυξης νέων προϊόντων ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ.

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Μαρίνος Θεμιστοκλέους Email: mthemist@unipi.gr Ανδρούτσου 150 Γραφείο 206 Τηλ. 210 414 2723 Ώρες Γραφείου: Δευτέρα 11-12 AM Πληροφοριακά Συστήματα (ΠΣ) Information Systems (IS) Ορισμός

Διαβάστε περισσότερα

ΕΡΩΤΗΣΕΙΣ «ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ»

ΕΡΩΤΗΣΕΙΣ «ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ» ΕΡΩΤΗΣΕΙΣ «ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ» 1. Ποια από τις παρακάτω αποτελεί την πλέον σημαντική πρόκληση που χαρακτηρίζει το σημερινό παγκόσμιο επιχειρηματικό περιβάλλον; α) Ομοιομορφία προϊόντων και υπηρεσιών. β)

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

ΗΡΑΚΛΕΙΟ 2007 ΙΩΑΝΝΑ ΚΑΠΕΤΑΝΟΥ

ΗΡΑΚΛΕΙΟ 2007 ΙΩΑΝΝΑ ΚΑΠΕΤΑΝΟΥ ΙΩΑΝΝΑ ΚΑΠΕΤΑΝΟΥ ΠΕΡΙΕΧΟΜΕΝΑ ΕΙΣΑΓΩΓΗ 1.1 Γιατί οι επιχειρήσεις έχουν ανάγκη την πρόβλεψη σελ.1 1.2 Μέθοδοι πρόβλεψης....σελ.2 ΑΝΑΛΥΤΙΚΗ ΠΑΡΟΥΣΙΑΣΗ 2.1 Υπόδειγμα του Κινητού μέσου όρου.σελ.5 2.2 Υπόδειγμα

Διαβάστε περισσότερα

Μεθοδολογία Έρευνας Διάλεξη 1 η : Εισαγωγή στη Μεθοδολογία Έρευνας

Μεθοδολογία Έρευνας Διάλεξη 1 η : Εισαγωγή στη Μεθοδολογία Έρευνας Μεθοδολογία Έρευνας Διάλεξη 1 η : Εισαγωγή στη Μεθοδολογία Έρευνας 1 Δρ. Αλέξανδρος Αποστολάκης Email: aapostolakis@staff.teicrete.gr Τηλ.: 2810379603 E-class μαθήματος: https://eclass.teicrete.gr/courses/pgrad_omm107/

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

Εισαγωγή, Βασικές Έννοιες, Οφέλη και Κίνδυνοι

Εισαγωγή, Βασικές Έννοιες, Οφέλη και Κίνδυνοι Εισαγωγή, Βασικές Έννοιες, Οφέλη και Κίνδυνοι Ευθύμιος Ταμπούρης tambouris@uom.gr Επιστημονική Επιχειρηματική Χρήση των Η/Υ Η επιστημονική κοινότητα ασχολείται με τη λύση πολύπλοκων μαθηματικών προβλημάτων

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Θέμα: Ανάπτυξη Μοντέλων για την Πρόβλεψη Πιθανής Αποτυχίας Αποπληρωμής Δανείου

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε

ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε Τμήμα Ηλεκτρονικών Μηχανικών Τ.Ε. ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε Πτυχιακή Εργασία Φοιτητής: Γεμενής Κωνσταντίνος ΑΜ: 30931 Επιβλέπων Καθηγητής Κοκκόσης Απόστολος Λέκτορας

Διαβάστε περισσότερα

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα Το Κεντρικό Οριακό Θεώρημα Όπως θα δούμε αργότερα στη Στατιστική Συμπερασματολογία, λέγοντας ότι «από έναν πληθυσμό παίρνουμε ένα τυχαίο δείγμα μεγέθους» εννοούμε ανεξάρτητες τυχαίες μεταβλητές,,..., που

Διαβάστε περισσότερα

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ Βασίλης Γ. Αγγέλης Δρ. Μηχανικός Η/Υ και Πληροφορικής Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ Μετατρέψτε τα δεδομένα σας σε κέρδος Αθήνα Κάθε γνήσιο αντίγραφο έχει την υπογραφή του συγγραφέα Έκδοση 1 η, Copyright 2007

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ ΤΕΧΝΙΚΕΣ ΠΡΟΒΛΕΨΕΩΝ& ΕΛΕΓΧΟΥ ΜΑΘΗΜΑ ΘΕΩΡΙΑΣ-ΣΤΑΣΙΜΕΣ ΔΙΑΔΙΚΑΣΙΕΣ-ΥΠΟΔΕΙΓΜΑΤΑ SARIMA (sp,sd,qs) ARIMA (p,d,q) ΕΠΙΧ - Τεχνικές Προβλέψεων & Ελέγχου

Διαβάστε περισσότερα

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud Το Oracle Analytics Cloud αποτελεί ένα ολοκληρωμένο σύνολο δυνατοτήτων που περιλαμβάνει έτοιμο περιεχόμενο, εξειδικευμένα

Διαβάστε περισσότερα

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (# 252) Ε ΕΞΑΜΗΝΟ 9 η ΕΙΣΗΓΗΣΗ ΣΗΜΕΙΩΣΕΙΣ ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΛΙΓΗ ΘΕΩΡΙΑ Στην προηγούμενη διάλεξη μάθαμε ότι υπάρχουν διάφορες μορφές έρευνας

Διαβάστε περισσότερα

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu. Managing Information Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business e-mail: kyritsis@ist.edu.gr Διαχείριση Γνώσης Knowledge Management Learning Objectives Ποιοί

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ Δομή παρουσίασης Εισαγωγή Βασικές Έννοιες Σχετικές μελέτες Εφαρμογή Δεδομένων Συμπεράσματα Εισαγωγή Μελέτη και προσαρμογή των διάφορων

Διαβάστε περισσότερα

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας A. Montgomery Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας Καρολίνα Δουλουγέρη, ΜSc Υποψ. Διαδάκτωρ Σήμερα Αναζήτηση βιβλιογραφίας Επιλογή μεθοδολογίας Ερευνητικός σχεδιασμός Εγκυρότητα και αξιοπιστία

Διαβάστε περισσότερα

Κυριακή Αγγελοπούλου. Επιβλέπων Καθηγητής: Μανώλης Πατηνιώτης

Κυριακή Αγγελοπούλου. Επιβλέπων Καθηγητής: Μανώλης Πατηνιώτης Κυριακή Αγγελοπούλου Επιβλέπων Καθηγητής: Μανώλης Πατηνιώτης Οι πρώτες προσπάθειες μελέτης του τρόπου επιστημονικής εργασίας έγιναν το 1970. Πραγματοποιήθηκαν μέσω της άμεσης παρατήρησης των επιστημόνων

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΤΕΙ ΚΡΗΤΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΓΙΑΝΝΗΣ ΦΑΝΟΥΡΓΙΑΚΗΣ ΕΠΙΣΤΗΜΟΝΙΚΟΣ ΣΥΝΕΡΓΑΤΗΣ ΤΕΙ ΚΡΗΤΗΣ ΔΟΜΗ ΠΑΡΟΥΣΙΑΣΗΣ 1. Εισαγωγή

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων Κεφάλαιο 11 Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων 11.1 Λήψη αποφάσεων και πληροφοριακά συστήματα Η επιχειρηματική αξία της βελτιωμένης λήψης αποφάσεων Είναι εφικτό να αποτιμηθεί σε κάποιον

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ. Χρηματοδότηση Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ 1 Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα «Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο

Διαβάστε περισσότερα

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) ρ. ΧΑΛΚΙΑΣ ΧΡΙΣΤΟΣ xalkias@hua.gr Χ. Χαλκιάς - Εισαγωγή στα GIS 1 Ορισµοί ΓΠΣ Ένα γεωγραφικό πληροφοριακό σύστηµα Geographic Information

Διαβάστε περισσότερα

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΤΩΝ ΕΞΕΤΑΣΕΩΝ Μ ΑΪΟΥ 2002 2004 Δ ΕΥΤΕΡΟ ΜΕΡΟΣ Π ΕΡΙΛΗΨΗ: Η μελέτη αυτή έχει σκοπό να παρουσιάσει και να ερμηνεύσει τα ευρήματα που προέκυψαν από τη στατιστική

Διαβάστε περισσότερα

Προσομοίωση Μοντέλων Επιχειρησιακών Διαδικασιών

Προσομοίωση Μοντέλων Επιχειρησιακών Διαδικασιών Προσομοίωση Μοντέλων Επιχειρησιακών Διαδικασιών Α. Τσαλγατίδου - Γ.-Δ. Κάπος Πρόγραμμα Μεταπτυχιακών Σπουδών Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών 2017-2018 Σκοπός Διαλέξεων Κίνητρα για προσομοίωση

Διαβάστε περισσότερα

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100 Ποσοτικές Μέθοδοι Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR 50100 Απλή Παλινδρόμηση Η διερεύνηση του τρόπου συμπεριφοράς

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ Αναγνώριση Προτύπων - Νευρωνικά ίκτυα ρ. Χαράλαµπος Π. Στρουθόπουλος Αναπληρωτής Καθηγητής

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS Ακαδημαϊκό Έτος 2016-2017, Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS A. Εισαγωγή στις βάσεις δεδομένων - Γνωριμία με την ACCESS B. Δημιουργία Πινάκων 1. Εξήγηση των

Διαβάστε περισσότερα

Περιεχόμενα. Πρόλογος... 15

Περιεχόμενα. Πρόλογος... 15 Περιεχόμενα Πρόλογος... 15 Κεφάλαιο 1 ΘΕΩΡΗΤΙΚΑ ΚΑΙ ΦΙΛΟΣΟΦΙΚΑ ΟΝΤΟΛΟΓΙΚΑ ΚΑΙ ΕΠΙΣΤΗΜΟΛΟΓΙΚΑ ΖΗΤΗΜΑΤΑ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ ΕΡΕΥΝΑΣ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΚΟΣΜΟΥ... 17 Το θεμελιώδες πρόβλημα των κοινωνικών επιστημών...

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΔΙΑΧΕΙΡΙΣΗ ΚΑΙ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΕΡΓΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΔΙΑΧΕΙΡΙΣΗ ΚΑΙ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΕΡΓΩΝ ΕΙΣΑΓΩΓΗ ΣΤΗ ΔΙΑΧΕΙΡΙΣΗ ΚΑΙ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΕΡΓΩΝ 1. Διαχείριση έργων Τις τελευταίες δεκαετίες παρατηρείται σημαντική αξιοποίηση της διαχείρισης έργων σαν ένα εργαλείο με το οποίο οι διάφορες επιχειρήσεις

Διαβάστε περισσότερα

Μέθοδος : έρευνα και πειραματισμός

Μέθοδος : έρευνα και πειραματισμός 1 Ο ΓΥΜΝΑΣΙΟ ΠΕΥΚΩΝ Γ ΓΥΜΝΑΣΙΟΥ ΜΑΘΗΜΑ : ΤΕΧΝΟΛΟΓΙΑ ΕΚΠΑΙΔΕΥΤΙΚΟΣ : Τρασανίδης Γεώργιος, διπλ. Ηλεκ/γος Μηχανικός Μsc ΠΕ12 05 Μέθοδος : έρευνα και πειραματισμός Στόχος της Τεχνολογίας στην Γ Γυμνασίου

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΜΟΝΤΕΛΑ SCOR ΕΝΝΟΙΑ SCOR Ορισμός των μοντέλων SCOR Το μοντέλο SCOR είναι ένα μοντέλο αναφοράς διαδικασιών για την εφοδιαστική αλυσίδα (η ονομασία του προέρχεται από τα αρχικά γράμματα

Διαβάστε περισσότερα

ΕΘΝΙΚΗ ΣΧΟΛΗ ΔΗΜΟΣΙΑΣ ΔΙΟΙΚΗΣΗΣ ΙΓ' ΕΚΠΑΙΔΕΥΤΙΚΗ ΣΕΙΡΑ

ΕΘΝΙΚΗ ΣΧΟΛΗ ΔΗΜΟΣΙΑΣ ΔΙΟΙΚΗΣΗΣ ΙΓ' ΕΚΠΑΙΔΕΥΤΙΚΗ ΣΕΙΡΑ ΕΘΝΙΚΗ ΣΧΟΛΗ ΔΗΜΟΣΙΑΣ ΔΙΟΙΚΗΣΗΣ ΙΓ' ΕΚΠΑΙΔΕΥΤΙΚΗ ΣΕΙΡΑ ΤΜΗΜΑ : ΕΜΠΟΡΙΚΩΝ ΑΚΟΛΟΥΘΩΝ Θέμα: ΑΝΑΛΥΣΗ ΜΕΘΟΔΩΝ ΜΕΤΡΗΣΗΣ ΤΗΣ ΑΝΤΑΓΩΝΙΣΤΙΚΟΤΗΤΑΣ Η ΕΛΛΗΝΙΚΗ ΕΜΠΕΙΡΙΑ. ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ Επιβλέπων : Π. ΛΙΑΡΓΚΟΒΑΣ Σπουδαστής:

Διαβάστε περισσότερα

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ 8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ Στόχος του εργαστηρίου αυτού είναι να δείξει πώς τα εργαστήρια με τα δεδομένα της ICAP μπορούν να υλοποιηθούν χωρίς τη χρήση SQL Server, χρησιμοποιώντας μόνον Excel και Rapid

Διαβάστε περισσότερα

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες Ορισμός Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες αβεβαιότητας. Βασικές έννοιες Η μελέτη ενός πληθυσμού

Διαβάστε περισσότερα

Ανάπτυξη μεθοδολογίας μέτρησης της αποτελεσματικότητας των τουριστικών επιχειρήσεων

Ανάπτυξη μεθοδολογίας μέτρησης της αποτελεσματικότητας των τουριστικών επιχειρήσεων Ανάπτυξη μεθοδολογίας μέτρησης της αποτελεσματικότητας των τουριστικών επιχειρήσεων ΣΕΠΤΕΜΒΡΙΟΣ 2016 ΑΠΟΤΕΛΕΣΜΑΤΙΚΟΤΗΤΑ ΚΑΙ ΑΠΟΔΟΤΙΚΟΤΗΤΑ ΕΠΙΧΕΙΡΗΣΕΩΝ Αποτελεσματικότητα Βαθμός επίτευξής των στόχων της

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ (DATA MINING) ΚΑΙ ΚΑΤΗΓΟΡΙΚΑ ΔΕΔΟΜΕΝΑ Γεράσιμος Ε. Σταυλιώτης

Διαβάστε περισσότερα