Πρόβλεψη Χρηµατιστηριακών Μεγεθών µε Τεχνικές Εξόρυξης εδοµένων



Σχετικά έγγραφα
Πρόβλεψη Χρηματιστηριακών Μεγεθών με Τεχνικές Εξόρυξης Δεδομένων

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

ΣΤΟ ΣΧΗΜΑ ΣΤΗ ΣΕΛΙ Α 2 ΦΑΙΝΟΝΤΑΙ ΕΠΙΠΕ Α ΣΤΗΡΙΞΗΣ-ΑΝΤΙΣΤΑΣΗΣ & ΕΚΤΙΜΗΣΕΙΣ, ΚΑΙ ΣΤΟ ΣΧΗΜΑ ΣΤΗ ΣΕΛΙ Α 4 Η ΙΑΦΑΙΝΟΜΕΝΗ ΒΕΛΤΙΣΤΗ ΣΤΡΑΤΗΓΙΚΗ

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

Στο παράρτηµα θα παρουσιαστούν συνοπτικά οι δυνατότητες δύο προγραµµάτων Το ένα είναι το Professional Portfolio Manager (-P.P.M-) µε το οποίο µπορεί

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Κεφάλαιο 8 Συνεχείς Κατανομές Πιθανοτήτων

στατιστική θεωρεία της δειγµατοληψίας

Σηµειώσεις στις σειρές

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

ΠΕΡΙΕΧΟΜΕΝΑ. H πηγή επιχειρησιακών βιβλίων

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

2.3. Ασκήσεις σχ. βιβλίου σελίδας Α ΟΜΑ ΑΣ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

11 Το ολοκλήρωµα Riemann

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

Σηµειώσεις Οικονοµετρίας Ι.. ικαίος Τσερκέζος

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

3. Οριακά θεωρήµατα. Κεντρικό Οριακό Θεώρηµα (Κ.Ο.Θ.)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

British Middlesex University

ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ

ΠροσδιορισµόςΒέλτιστης Λύσης στα Προβλήµατα Μεταφοράς Η µέθοδος Stepping Stone

Ονοµατεπώνυµο : Σίσκου Σταµατίνα Ειρήνη. Υπεύθυνοςκαθηγητής: ΑναστάσιοςΒ. Κάτος. Θεσσαλονίκη, Ιανουάριος 2010

προβλήµατος Το φίλτρο Kalman διαφέρει από τα συνηθισµένα προβλήµατα ΜΕΤ σε δύο χαρακτηριστικά: παραµέτρων αγνώστων

Περιγραφική Στατιστική

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΚΕΦΑΛΑΙΟ 3 ΜΕΛΕΤΗ ΑΠΟ ΟΣΗΣ ΚΑΙ ΕΠΙΤΥΧΙΑΣ ΗΜΕΡΗΣΙΩΝ ΗΜΟΣΙΩΝ ΚΑΙ Ι ΙΩΤΙΚΩΝ ΛΥΚΕΙΩΝ ΕΙΣΑΓΩΓΗ

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

ΠΕΡΙ ΜΕΤΑΒΑΣΗΣ ΑΠΟ ΤΑ ΙΑΓΡΑΜΜΑΤΑ ΡΟΗΣ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΕ ΙΑΓΡΑΜΜΑΤΑ ΟΜΗΣ Ε ΟΜΕΝΩΝ

ΠΡΟΒΛΗΜΑΤΑ ΕΛΑΧΙΣΤΟΠΟΙΗΣΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Επιµέλεια Θοδωρής Πιερράτος

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Κεφάλαιο 13. Εισαγωγή στην. Η Ανάλυση ιακύµανσης

1.2 Απλός Κινητός Μέσος (Simple -equally-weighted- Moving Average)

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

Greek Finance Forum* 28/04/15. Καθημερινή Ανάλυση και Σχόλιο για τις αγορές. GFF Athens - London 28/04/2015

1.4 Λύσεις αντιστρόφων προβλημάτων.

Βασικές Έννοιες Στατιστικής & Μέθοδοι Πρόβλεψης

ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΕΙΡΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑ

Παράδειγµα (Risky Business 1)

ΑΛΜΥ και ΑΤΤΙΚΑ: ύο Patterns µε Ενδιαφέρον

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση

Weekly Report 242 ο Τεύχος

11ο Πανελλήνιο Συνέδριο της ΕΕΦ, Λάρισα 30-31/03, 1-2/04/2006. Πρακτικά Συνεδρίου

Greek Finance Forum. Global Technical Analysis Institute 14/02/13

Πρακτική µε στοιχεία στατιστικής ανάλυσης

Μεθοδολογίες παρεµβολής σε DTM.

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

Πληροφοριακά Συστήµατα ιοίκησης Τµήµα Χρηµατοοικονοµικής και Ελεγκτικής Management Information Systems Εργαστήριο 4 ΤΕΙ Ηπείρου (Παράρτηµα Πρέβεζας)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Ελεγκτικής. ΤΕΙ Ηπείρου (Παράρτηµα Πρέβεζας)

Ι. Preprocessing (Επεξεργασία train.arff):

Κεφάλαιο 6 Παράγωγος

1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος

Ανάπτυξη Εφαρµογών σε Προγραµµατιστικό Περιβάλλον

2. Στοιχεία Πολυδιάστατων Κατανοµών

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος


ΣΥΛΛΟΓΗ ΚΑΙ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ Ε ΟΜΕΝΩΝ

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

ΣΕΙΡΕΣ TAYLOR. Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων. Πολυώνυµο είναι κάθε συνάρτηση της µορφής:

Σχολικός Σύµβουλος ΠΕ03

Τηλ: (+30) Φαξ: (+30) ΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΧΡΗΜΑΤΙΣΤΗΡΙΑΚΗ Α.Ε.Π.Ε.Υ. 19/05/2013

Weekly Report 192 ο Τεύχος

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική

Κατανοµές. Η κατανοµή (distribution) µιας µεταβλητής (variable) φαίνεται από το σχήµα του ιστογράµµατος (histogram).

ΕΠΙΤΑΧΥΝΣΗ- ΕΠΙΤΑΧΥΝΟΜΕΝΗ ΚΙΝΗΣΗ

ΣΗΜΕΙΩΣΕΙΣ ΜΑΘΗΜΑΤΙΚΗΣ ΑΝΑΛΥΣΗΣ Ι ( )

Χ.Α, 3/73/ , , /08/2010 ΕΒ ΟΜΑ ΙΑΙΕΣ ΠΡΟΟΠΤΙΚΕΣ ΤΗΣ ΑΓΟΡΑΣ

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

2. Missing Data mechanisms

Transcript:

Πρόβλεψη Χρηµατιστηριακών Μεγεθών µε Τεχνικές Εξόρυξης εδοµένων Αθανάσιος Μαζαράκης Μεταπτυχιακή Εργασία Επιβλέπων Καθηγητής: Σαµαράς Νικόλαος, Επίκουρος Εξεταστές: Ευαγγελίδης Γεώργιος, Αν. Καθηγητής Τµήµα Εφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας Θεσσαλονίκη Ιούλιος, 2007 1

Copyright Μαζαράκης Αθανάσιος, 2007 Με επιφύλαξη παντός δικαιώµατος. All rights reserved Η έγκριση της µεταπτυχιακής εργασίας από το Τµήµα Εφαρµοσµένης Πληροφορικής του Πανεπιστηµίου Μακεδονίας δεν υποδηλώνει απαραιτήτως και αποδοχή των απόψεων του συγγραφέα εκ µέρους του Τµήµατος. 2

ΠΕΡΙΛΗΨΗ Η εν λόγω µελέτη πραγµατεύεται τη δυνατότητα πρόβλεψης κατά την επενδυτική διαδικασία στο χρηµατιστήριο Αθηνών Αξιών, µε τη χρήση τεχνικών Εξόρυξης δεδοµένων. Ειδικότερα, χρησιµοποιούνται πραγµατικά δεδοµένα µετοχών του χρηµατιστηρίου σε ηµερήσια βάση, τα οποία µε κατάλληλη επεξεργασία είναι δυνατόν να µας οδηγήσουν στην κατασκευή µοντέλου πρόβλεψης. Στα πλαίσια της εργασίας ωστόσο είναι η αναφορά σε θέµατα Τεχνικής Ανάλυσης και πιο συγκεκριµένα στους χρηµατιστηριακούς δείκτες. Η Εργασία αποτελεί µια προσπάθεια πρακτικής εφαρµογής της τεχνολογίας Εξόρυξης δεδοµένων. Συµφωνα µε την µεθοδολογία της τεχνικής αυτής, η προσπάθεια εστιάζεται στη κατάλληλη επιλογή και κατ επέκταση επεξεργασίας των δεδοµένων. Τα δεδοµένα περιέχουν πληροφορία την οποία επιθυµούµε να εξάγουµε χρησιµοποιώντας είτε καθοδηγούµενη είτε µη καθοδηγούµενη µεθοδολογία εκµάθησης. Εξετάζουµε, δηλαδή, τρόπον τινά την αποτελεσµατικότητα των δύο προσεγγίσεων για την περίπτωση της διακύµανσης των µετοχών. Βέβαια για την αξιοπιστία και εποµένως την αποτελεσµατικότητα του µοντέλου απαραίτητη είναι η διαδικασία αξιολόγησης (Evaluation) του. Κατά την διαδικασία αυτή φαίνεται εάν ή όχι το µοντέλο λειτουργεί σωστά, σύµφωνα δηλαδή µε την ακρίβεια (accuracy) που το χαρακτηρίζει κατά την δηµιουργία του. Επιπλέον για την πληρότητα της µελέτης, αφού πρώτα υπολογίσαµε για κάθε µία µετοχή ξεχωριστά την ηµερήσια τιµή της, όπως αυτή προκύπτει από τους πιο δηµοφιλείς χρηµατιστηριακούς δείκτες, προσπαθήσαµε να δούµε κατά πόσο πλησιάζει την πραγµατική τιµή κλεισίµατος της αντίστοιχης µετοχής. Το γεγονός αυτό µας παρέχει σηµαντική πληροφορία σχετικά µε το χρηµατιστηριακό σύστηµα. Η όλη διαδικασία δεν µπορεί να χαρακτηριστεί απλή, διότι για να οδηγηθούµε στα βήµατα που τελικά ακολουθήσαµε έπρεπε να γνωρίζουµε πως λειτουργεί το σύστηµα της διακύµανσης των µετοχών. Έτσι λοιπόν αναγκαστήκαµε να πραγµατοποιήσουµε επισκέψεις σε εταιρεία σχετική µε το αντικείµενο µας, προκειµένου να πάρουµε συνεντεύξεις από εµπειρογµώµονα και µε τον τρόπο αυτό να αντλήσουµε σηµαντικές πληροφορίες οι οποίες τελικά να αξιοποιηθούν σωστά. Στο τέλος ως παράρτηµα έχουµε τοποθετήσει όλα τα γραφήµατα που υπολογίστηκαν κατά την επεξεργασία των δεδοµένων. 3

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1...5 1. εδοµένα Γενικά...5 1.1 Μορφή Επεξεργασία εδοµένων...5 1.2 Θέµατα Τεχνικής Ανάλυσης Χρηµατιστηριακοί είκτες...7 1.2.1 Moving Average...8 1.2.2 ΕΚΘΕΤΙΚΟΣ ΚΙΝΗΤΟΣ ΜΕΣΟΣ...9 1.2.3 ΜACD (Moving Average Convergence / Divergence)...9 1.2.4 Bollinger Bands...10 1.2.5 Momentum...11 1.2.6 RSI (Relative Strength Index)...12 1.2.7 Stochastic Oscillator...13 1.3 Τι είναι ο Συντελεστής Ετεροσυσχέτισης;...14 1.4 Γιατί χρειάζεται ο Συντελεστής Ετεροσυσχέτισης;...15 1.5 Συµπεράσµατα...21 ΚΕΦΑΛΑΙΟ 2...23 2. Μη Καθοδηγούµενη Εκµάθηση (Unsupervised Clustering)...23 2.1 Τι είναι η Μη Καθοδηγούµενη Εκµάθηση;...23 2.2 Αλγόριθµος Clustering K-Means...24 2.3 Το εργαλείο WEKA...26 2.4 Η Μορφή των εδοµένων....29 2.5 Αποτελέσµατα του Clustering...31 2.6 Συµπεράσµατα του Clustering...35 ΚΕΦΑΛΑΙΟ 3...36 3. Καθοδηγούµενη Εκµάθηση (Supervised Learning)...36 3.1 Τι είναι η Καθοδηγούµενη Εκµάθηση;...36 3.2 Μορφή εδοµένων....38 3.3 Το Εργαλείο ida (idata Analyzer) ο Αλγόριθµος ESX...41 3.4 Αποτελέσµατα Classification Prediction...43 3.5 Συµπεράσµατα - Αξιολόγηση Classification / Prediction...57 ΒΙΒΛΙΟΓΡΑΦΙΑ...58 Α.ΠΑΡΑΡΤΗΜΑ...60 Γραφήµατα Cross Correlation των Μετοχών...60 B.ΠΑΡΑΡΤΗΜΑ...81 Ενδεικτικά Αποτελέσµατα Prediction Μετοχών...81 4

ΚΕΦΑΛΑΙΟ 1 1. εδοµένα Γενικά Στο κεφάλαιο αυτό αναφέρονται όσα αφορούν στα δεδοµένα που χρησιµοποιήθηκαν σε αρχική µορφή αλλά και στα δεδοµένα τα οποία παρήχθησαν, µετά από επεξεργασία, προκειµένου να χρησιµοποιηθούν όπως θα δούµε λίγο αργότερα στις Τεχνικές Εξόρυξης δεδοµένων. Πρέπει να σηµειωθεί ότι η ποιότητα των δεδοµένων έχει αντίκτυπο στην ποιότητα του αποτελέσµατος. Έτσι, η σωστή επεξεργασία των δεδοµένων αλλά και η σωστή χρήση αυτών είναι δυνατόν να µας οδηγήσει σε µοντέλο µε µεγαλύτερη ακρίβεια. Η σηµασία των δεδοµένων διαφαίνεται και από το γεγονός ότι αφιερώνουµε ολόκληρο κεφάλαιο για να µπορέσουµε να προσδιορίσουµε το πώς θα τα χρησιµοποιήσουµε. Στην ενότητα που ακολουθεί παραθέτουµε στοιχεία που αφορούν στη µορφή των δεδοµένων που χρησιµοποιούνται αλλά και σκέψεις σχετικά µε την περαιτέρω επεξεργασία τους. 1.1 Μορφή Επεξεργασία εδοµένων Η σηµασία των δεδοµένων είναι µεγάλη και καθοριστική για την κατασκεύη ενός µοντέλου µε ικανοποιητή ακρίβεια. Για το λόγο αυτό η προσπάθεια µας επικεντρώθηκε στην ανεύρεση όσο το δυνατόν πιο αξιόπιστων δεδοµένων. Tα δεδοµένα που ελήφθησαν αφορούν πραγµατικά δεδοµένα των 20 σηµαντικότερων µετοχών που διαµορφώνουν το γενικό δείκτη σύµφωνα πάντα µε αποφάσεις της κεντρικής επιτροπής κεφαλαιαγοράς. Η περίοδοι καταγραφής των δεδοµένων καθώς και η ονοµασία των µετοχών παρουσιάζονται στην «εικόνα 1.1». -Εικόνα 1.1-5

Πρέπει να παρατηρήσουµε ότι για κάθε µετοχή το χρονικό διάστηµα αναφέρεται στις ηµεροµηνίες κατά τις οποίες είχαµε λειτουργία του χρηµατιστηρίου και όχι στις επίσηµες αργίες και στα Σαββατοκύριακα όπου το χρηµατιστήριο δεν λειτουργεί. Επιπλέον πρέπει να διευκρινήσουµε ότι κάθε ηµέρα για κάθε µετοχή χαρακτηρίζεται ως στιγµιότυπο (instance), σύµφωνα µε την ορολογία της Τεχνολογίας Εξόρυξης δεδοµένων. Τα στιγµιότυπα για κάθε µετοχή κυµαίνονται (σε πλήθος) µιας και η χρονική περιόδος της διακύµανσης για κάθε µετοχή είναι διαφορετική. Έτσι τα στιγµιότυπα αριθµητικά κυµαίνονται από 5232 µέχρι 151 για την µετοχή µε το µικρότερο χρονικό διάστηµα, πχ για τη µετοχή ΤΤ η οποία εισήχθει στο χρηµατιστήριο το 2006 οι καταγραφές των τιµών διακύµανσης της είναι µόλις 151, όσες και οι µέρες ύπαρξης της στο χρηµατιστήριο. Από τεχνικής απόψεως τα δεδοµένα τα οποία χρησιµοποιήθηκαν ήταν σε µορφή αρχείων.txt όπως φαίνεται στην «εικόνα 1.2». -Εικόνα 1.2- Είναι φανερό από την «εικόνα 1.2» ότι τα αρχεία µας στην αρχική του µορφή περιείχαν όλο το εύρος των µετοχών, οπότε για να µπορέσουµε να επεξεργαστούµε τα δεδοµένα µας έπρεπε να δηµιουργήσουµε αρχεία.txt κάθε ένα από τα οποία θα αφορούσε µια µετοχή. Έτσι ξεχωρίσαµε τις διάφορες µετοχές σε αρχεία όπως αυτό που φαίνεται στην «εικόνα 1.3» που ακολουθεί. 6

-Εικόνα 1.3- Σύµφωνα µε το αρχείο αυτό (εικόνα 1.3) για κάθε µετοχή παρέχονται πληροφορίες όπως η ονοµασία της µετοχής (Ticker), ηµεροµηνία στιγµιοτύπου (DTYYYYMMDD), τιµή ανοίγµατος (Open), υψηλότερη τιµή µετοχής κατά τη διάρκεια της ηµέρας (High), χαµηλότερη τιµή κατά τη διάρκεια της ηµέρας (Low), τιµή κλεισίµατος ανά ηµέρα (Close), όγκος συναλλαγών κατά την διάρκεια της ηµέρας (Volume). Λαµβάνοντας υπόψιν µας το γεγονός ότι οι ανωτέρω πληροφορίες είναι διαθέσιµες για κάθε µία απο τις µετοχές που αναφέρθηκαν στην «εικόνα 1.1» είµαστε σε θέση να προχωρήσουµε στην όσο το δυνατόν πιο συνεπή και πλήρη επεξεργασία των δεδοµένων για την εξαγωγή αξιόπιστων αποτελεσµάτων. Τα αρχεία των δεδοµένων όπως παρουσιάστηκαν αποτελούν τη βασική πρωταρχική δοµή δεδοµένων τα οποία θα χρησιµοποιηθούν στη συνέχεια της εργασιάς προκειµένου να εφαρµόσουµε όχι µόνο τις διάφορες Τεχνικές Εξόρυξης δεδοµένων αλλά και για να εξάγουµε συµπεράσµατα που αφορούν στην στατιστική επεξεργασία των δεδοµένων. 1.2 Θέµατα Τεχνικής Ανάλυσης Χρηµατιστηριακοί είκτες Πριν προχωρήσουµε στην περαιτέρω ανάλυση και επεξεργασία των δεδοµένων χρήσιµο είναι στο σηµείο αυτό να αναφέρουµε ορισµένα στοιχεία που αφορούν θέµατα χρηµατιστηριακής ανάλυσης και πιο συγκεκριµένα θέµατα που αφορούν τους χρηµατιστηριακούς δείκτες. Η όλη επενδυτική διαδικασία στηρίζεται στην έννοια της ικανότητας για πρόβλεψη της διακύµανσης της εκάστοτε µετοχής που ενδιαφέρει κάθε επενδυτή. Επιπλέον, η διακύµανση της τιµής της µετοχής εξαρτάται τόσο από 7

τη ζήτηση όσο και από τη διαµορφούµενη προσφορά αυτής στο επενδυτικό κοινό. Ισχύει εποµένως και για το χρηµατιστήριο ότι ισχύει και για κάθε αγορά, ο νόµος προσφοράς και ζήτησης που διαµορφώνει την τελική τιµή του προϊόντος, µε µόνη διαφορά τη δυναµική που παρουσιάζει η χρηµατιστηριακή αγορά στη διαµόρφωση των τιµών σε σχέση µε τον παράγοντα χρόνο, καθώς επίσης και των ιδιαίτερων παραγόντων που φαίνεται να επιδρούν στην γενικότερη µορφή της εν λόγω αγοράς. Έτσι λοιπόν για έναν επενδυτή αυτό που έχει ιδιαίτερο ενδιαφέρον είναι η όσο το δυνατόν ασφαλέστερη γνώση της συµπεριφοράς µίας µετοχής. Εάν επι παραδείγµατι ενδιαφέρεται να αγοράσει µία µετοχή θα ήταν ευχής έργο να γνωρίζει πως πρόκειται να κινηθεί και πιο συγκεκριµένα να την αγοράσει σε µία χαµηλή τιµή και να την πουλήσει σε µια υψηλότερη. Η διαφορά αυτή είναι που καθορίζει και το απόλυτο κέρδος. Το ζητούµενο εποµένως είναι η δυνατότητα ασφαλούς πρόβλεψης δηλαδή το πότε θα αποφασίσει να αγοράσει ή να πουλήσει ένας επενδυτής µια µετοχή. Τον προβληµατισµό αυτό έρχονται να απαντήσουν οι διάφοροι χρηµατιστηριακοί δείκτες µερικοί από τους οποίους χρησιµοποιούνται κατά κόρο και έχουν ειδικό βάρος σε σχέση µε τους υπόλοιπους. Οι δείκτες αυτοί έχουν τη βάση τους στη στατιστική ανάλυση και υπολογίζονται εφαρµόζωντας µια συγκεκριµένη µαθηµατική φόρµουλα για τον καθένα. Παρακάτω παρουσιάζονται µερικοί από αυτούς για το Χρηµατιστήριο Αθηνών Αξιών όπως προέκυψε ύστερα από ενδελεχή συνέντευξη σε άτοµα του επενδυτικού χώρου. Βέβαια στο σηµείο αυτό πρέπει να διευκρινήσουµε ότι τη διακύµανση της τιµής µιας µετοχής την επηρεάζουν και άλλοι παράγοντες όπως κοινωνικοί, πολιτικοί και γενικότερα οικονοµικού ενδιαφέροντος παράγοντες, οι οποίοι όµως δεν είναι δυνατόν να µοντελοποιηθούν ή καλύτερα να ποσοτικοποιηθούν, για το λόγο αυτό δεν µπορούν να ληφθούν υπόψη στην εν λόγω µελέτη. 1.2.1 Moving Average Ένας από τους δηµοφιλέστερους δείκτες τάσης. Απαλείφει τις έντονες καθηµερινές διακυµάνσεις των τιµών και έτσι δίνει την οµαλοποιηµένη τάση της τιµής της µετοχής. Ο κινητός µέσος είναι ο µέσος όρος της τιµής των προηγούµενων Χ ηµερών. Η εφαρµογή σας επιτρέπει να επιλέγετε των αριθµό των ηµερών για τις οποίες επιθυµείτε να απεικονίσετε τον µέσο όρο. Είναι ένας δείκτης µε χρονική υστέρηση στις τιµές του γιατί χρησιµοποιεί τιµές από το παρελθόν. Ο κινητός µέσος µας δείχνει την µέση τιµή κτήσης της µετοχής των τελευταίων Χ ηµερών. ύο ευρέως χρησιµοποιούµενοι Κινητοί Μέσοι είναι των 40 και των 200 ηµερών. Θεωρία: Κινητός Μέσος Όρος είναι η µέση τιµή κλεισίµατος µιας µετοχής ή δείκτη σε ένα συγκεκριµένο χρονικό διάστηµα που προηγήθηκε. Ο όρος κινητός σηµαίνει ότι η µέση τιµή µετακινείται και αλλάζει στο χρόνο καθώς για κάθε στιγµή λαµβάνεται υπόψη ίσο χρονικό διάστηµα τιµών πριν από την στιγµή υπολογισµού της. Ανάλογα 8

µε τον τρόπο που οι προηγούµενες τιµές συµµετέχουν στον υπολογισµό της µέσης τιµής, οι µέσοι όροι διακρίνονται σε απλούς (όλες οι τιµές λαµβάνονται µε την ίδια βαρύτητα) και εκθετικούς (οι τιµές συµµετέχουν εκθετικά στην διαµόρωση του µέσου όρου καθώς πλησιάζουµε τη στιγµή υπολογισµού). Συµπεριφορά: Με βάση τη θεωρία γύρω από τους µέσους όρους η κίνηση της τιµής προς την περιοχή του µέσου όρου συναντάει αντίσταση πριν και κατά την δάσπαση του µε τάση αντιστροφής, ενώ η τάση τείνει να συνεχίζεται όταν επιβεβαιωθεί η διάσπαση: Οι τιµές τείνουν να αντιστέκονται για να διαπεράσουν κάποιον κινητό µέσο όρο καθώς πέρα από το όριο αυτό αυξάνονται (κατά την άνοδο) ή ελλατώνονται (κατά την κάθοδο) σηµαντικά οι πωλητές. Οι δηµοφιλέστεροι µέσοι όροι για τέτοια χρήση είναι οι κινητός µέσος όρος των 50 ηµερών (συχνά αναφέρεται ως πρώτο όριο αντίστασης) και ο κινητός µέσος όρος των 200 ηµερών (δεύτερο όριο αντίστασης). Οι τιµές τείνουν να συνεχίσουν την τάση τους, όταν τελικά διαπεράσουν την γραµή του κινητού µέσου όρου. Ο δηµοφιλέστερος µέσος όρος σε τέτοια χρήση είναι ο κινητός µέσος όρος των 30 ηµερών. Ενδιαφέρουσα περίπτωση είναι διαστάυρωση ενός µακροχρόνιου µέσου όρου από ένα βραχυχρόνιο του. Τη στιγµή που ο βραχυχρόνιος µέσος όρος ξεπερνά τον µακροχρόνιο δίνει σήµα αγορών και όταν κατέρχεται του µακροχρόνιου δίνει σήµα πώλησης. 1.2.2 ΕΚΘΕΤΙΚΟΣ ΚΙΝΗΤΟΣ ΜΕΣΟΣ Έχει µεγαλύτερη ευαισθησία από τον απλό Κινητό Μέσο καθώς αλλάζει κλίση και κατεύθυνση γρηγορότερα. Επιπλέον η συµµετοχή της κάθε ηµέρας στην εύρεση του εκθετικού µέσου γίνεται µε εκθετικό τρόπο (εκθετικής µορφής βάρη) καθώς πλησιάζουµε στην ηµέρα πρόβλεψης. 1.2.3 ΜACD (Moving Average Convergence / Divergence) 9

Ο δείκτης σύγκλισης - απόκλισης MACD (Moving Average Convergence Divergence) µετράει τον βαθµό σύγκλισης µεταξύ ενός βραχυχρόνιου Κινητού Μέσου και ενός µεσοπρόθεσµου Κινητού Μέσου. Ο MACD δείχνει την µεταβολή της ορµής της τάσης. Συνήθως υπολογίζεται ως η διαφορά του Εκθετικού Κινητού Μέσου των 26 ηµερών από τον Εκθετικό Κινητό Μέσο των 12 ηµερών MACD=ΕΚΜ 12 -ΕΚΜ 26. Η διαφορά του βραχυχρόνιου από τον µεσοπρόθεσµο ΚΜ δείχνει εάν η ορµή των τιµών µέσα στην τάση αυξάνεται ή µειώνεται. Συµπεριφορά: Η λήψη σηµάτων από τον MACD γίνεται συνήθως µε τη χρήση του κινητού µέσου όρου των 9 ηµερών του εαυτού του (διακεκοµµένη γραµµή στο σχήµα) για συνέχιση της τάσης, και µε την σύγκριση των νέων υψηλών-χαµηλών της τιµής της µετοχής µε το δείκτη για αντιστροφή της τάσης. Οταν ο δείκτης τµήσει ανοδικά τον κινητό του µέσο όρο δίνει σήµα αγορών (τάση για περαιτέρω άνοδο). Οταν τµήσει καθοδικά τον κινητό του µέσο όρο δίνει σήµα πωλήσεων (τάση για περαιτέρω πτώση). Οταν η τιµή της µετοχής καταγράφει νέα υψηλά (ή χαµηλά) και ο δείκτης MACD δεν καταγράφει νέες υψηλότερες (ή χαµηλότερες) τιµές δίνει σήµα για αντιστροφή της τάσης. 1.2.4 Bollinger Bands Αποτελούνται από ένα Κινητό Μέσο 20 ηµερών που περιστοιχίζεται από δύο λωρίδες οι οποίες χρησιµοποιούνται για να οριοθετήσουν περιοχές στις οποίες αναµένουµε να κινηθούν οι τιµές. Οι λωρίδες προκύπτουν αν στον Κινητό 10

Μέσο προσθέσουµε και αφαιρέσουµε 2 τυπικές αποκλίσεις των τιµών. Η άνω λωρίδα που βρίσκεται πάνω από τον Κινητό Μέσο προκύπτει από την πρόσθεση 2 τυπικών αποκλίσεων ενώ αντίθετα η κάτω λωρίδα προκύπτει µε την αφαίρεση 2 τυπικών αποκλίσεων. Όταν η µεταβλητότητα των τιµών αυξάνει τότε το πλάτος των λωρίδων αυξάνει. Σε ισχυρά ανοδική ή καθοδική τάση το πλάτος των λωρίδων είναι µικρό. Όταν η τάση ωριµάζει και εµφανίζεται κόπωση τότε το πλάτος µεγαλώνει. Θεωρία: Οι Λωρίδα Bollinger είναι ένας ειδικός τύπος καναλιού (οι δύο γραµµές του οποίου ορίζουν το άνω και κάτω όριο της κανονικής διαπραγµάτευσης) που αναπτύχθηκαν από τον John Bollinger. Οι λωρίδες σχεδιάζονται κρατώντας σταθερή τυπική απόκλιση (συνήθως 2) από κάποιο κινητό µέσο (συνήθως 21 ηµερών). Συµπεριφορά: Επειδή η απόσταση µεταξύ των ορίων υπολογίζετε µε βάση την τυπική απόκλιση της τιµής της µετοχής, οι λωρίδα γίνεται πλατιά όταν η τιµή είναι ευµετάβλητη και στενή όταν η τιµή είναι σταθερότερη. Από τον John Bollinger σηµειώνονται τα παρακάτω χαρακτηριστικά της λωρίδας του: Οταν η τιµή αγγίξει τα όρια της λωρίδας παρατηρούνται οξείες µεταβολές της τιµής. Κίνηση της τιµής εκτός των ορίων αποτελεί ένδειξη για συνέχιση της τάσης. Μέγιστα/ελάχιστα που σηµειώνονται έξω από τα όρια της λωρίδας, ακολουθούµενα από µέγιστα/ελάχιστα εντός των ορίων αποτελούν ένδειξη αντιστροφής της τάσης. Κίνηση που ξεκινά από το ένα όριο της λωρίδας τείνει να συνεχιστεί µέχρι να φτάσει στο άλλο όριο. 1.2.5 Momentum 11

Μετράει την απόλυτη τιµή της ορµής των τιµών ως η διαφορά της σηµερινής τιµής κλεισίµατος από την τιµή κλεισίµατος Χ ηµέρες πίσω. Ο δείκτης αυτός ταλαντώνεται γύρω από το 100. ίνει σήµατα αγοραπωλησιών από την διάσπαση του 100. Ένα σήµα καθοδικής /ανοδικής διάσπασης είναι περισσότερο αξιόπιστο όσο µεγαλύτερη είναι η ανοδική/ καθοδική) απόκλιση από το 100 πριν τη διάσπαση. Θεωρία: Ο momentum µιας µετοχής είναι ο δείκτης της σηµερινής τιµής σε σύγκριση µε την τιµή χ περασµένων χρονικών περιόδων. Η Φόρµα υπολογισµού είναι η εξής: Μometum = κλείσιµο/ (κλείσιµο,-12)*100 όπου (κλείσιµο,-12) είναι το κλείσιµο πριν απο 12 χρονικές περιόδους. 1.2.6 RSI (Relative Strength Index) Εξετάζει πόσο ενισχυµένη φαίνεται να είναι η τρέχουσα τιµή της µετοχής σε σχέση µε την ορµή που έχει αποκτήσει στις τελευταίες συνεδριάσεις. RSI = 100 - [100 / (1 + RS)]. Όπου το RS προκύπτει αν διαιρέσουµε το άθροισµα των τιµών κλεισίµατος των ανοδικών συνεδριάσεων των τελευταίων Χ ηµερών µε το άθροισµα των τιµών κλεισίµατος των καθοδικών συνεδριάσεων των τελευταίων Χ ηµερών. Συνήθως χρησιµοποιούµε περίοδο 14 ηµερών. ίνει προειδοποιητικά σήµατα για : 1. εξάντληση ανοδικής ή καθοδικής τάσης των τιµών 2. ενδείξεις επερχόµενης βίαιης αντιστροφής της αγοράς 3. αξιόπιστα σήµατα αγοραπωλησιών µέσα σε ζώνες συναλλαγών Ο δείκτης RSI (Relative Strength Index) υπολογίζεται από την σχέση του αθροίσµατος των ανοδικών µεταβολών προς το άθροισµα των καθοδικών σε ένα χρονικό διάστηµα µε βάση τον τύπο: 100 - (100/(1+(άθοισµα ανόδων)/(άθροισµα καθόδων))). Είναι ένας αρκετά δηµοφιλής δείκτης ιδιαίτερα στην ανάλυση των παραγώγων και κυρίως για τα σήµατα αντιστροφής της τάσης που παρέχει. Το εξεταζόµενο χρονικό διάστηµα είναι συνήθως 14 ή 6 ή 9 ή 25 ηµέρες. Συµπεριφορά: Η λήψη σηµάτων αντιστροφής της τάσης δίνεται όταν η τιµή της µετοχής καταγράφει νέα υψηλά (ή χαµηλά) και ο δείκτης RSI δεν καταγράφει νέες υψηλότερες (ή χαµηλότερες) τιµές. Η λήψη σηµάτων επιβεβαίωσης γίνεται µε την χρήση ορίων (σηνήθως 30 για το κάτω όριο και 70 για το άνω) τα οποία όταν διασπά προς εσωτερικό του διαγράµµατος δίνει σήµατα αγοράς ή πώλησης. Όταν ευρισκόµενος κάτω από το όριο των 30 µονάδων το διασπάσει ανοδικά δίνει σήµα αγορών (τάση για περαιτέρω άνοδο). Όταν ευρισκόµενος πανω από το όριο των 70 µονάδων το διασπάσει καθοδικά δίνει σήµα πωλήσεων (τάση για περαιτέρω πτώση). 12

Οταν η τιµή της µετοχής καταγράφει νέα υψηλά (ή χαµηλά) και ο δείκτης RSI δεν καταγράφει νέες υψηλότερες (ή χαµηλότερες) τιµές δίνει σήµα για αντιστροφή της τάσης. 1.2.7 Stochastic Oscillator Ο Stochastic Oscillator µετρά τη θέση στην οποία βρίσκεται η σηµερινή τιµή σε σχέση µε το πρόσφατο εύρος τιµών. Αποτελείται από δυο επιµέρους δείκτες, τον %Κ (γρήγορος) και τον %D (αργός). Χρησιµεύει κυρίως στο να παρέχει αξιόπιστα σήµατα αγοραπωλησιών µέσα σε ζώνες συναλλαγών, όταν ο γρήγορος %K, διασπά ανοδικά ή καθοδικά τον αργό %D, και προειδοποιητικά σήµατα για εξάντληση καθοδικής ή ανοδικής τάσης. Για να υπολογίσουµε τον Stochastic Oscillator αφαιρούµε από το τελευταίο κλείσιµο το χαµηλότερο χαµηλό %Κ περιόδων και το διαιρούµε µε το υπόλοιπο του υψηλότερου υψηλού % περιόδων από το χαµηλότερο χαµηλό %Κ περιόδων. Θεωρία: Ο δείκτης Stochastic Οscillator υπολογίζεται από την τιµή κλεισίµατος της µετοχής σε σχέση µε το εύρος διακύµανσης της σε µια προηγούµενη περίοδο. Ο τύπος του είναι (κλείσιµο ηµέρας - ελάχιστο περιόδου) / (µέγιστο περιόδου - ελάχιστο περιόδου). Οι τιµές του δίνονται επί τοις εκατό %. Χρησιµοποιείται για βαχυπρόθεσµες και µεσοπρόθεσµες προβλέψεις ανάλογα µε την παράµετρο στο διάστηµα των ηµερών. Συµπεριφορά: 13

Η λήψη σηµάτων από τον Stochastic Οscillator γίνεται συνήθως µε τη χρήση του κινητού µέσου όρου του εαυτού του (κίτρινη γραµµή στο σχήµα) ή µε την σύγκριση της τιµής του µε κάποια όρια κατά την αλλαγή της τάσης του. Οταν ο δείκτης τµήσει ανοδικά τον κινητό του µέσο όρο δίνει σήµα αγορών (τάση για περαιτέρω άνοδο). Οταν τµήσει καθοδικά τον κινητό του µέσο όρο δίνει σήµα πωλήσεων (τάση για περαιτέρω πτώση). Οταν περάσει κάποιο επίπεδο (κόνινες γραµµές 20% και 80%) και µετά γυρίζοντας αντίστροφα, επιστρέφει σε αυτό δίνει σήµα αντιστροφής της τάσης. 1.3 Τι είναι ο Συντελεστής Ετεροσυσχέτισης; Στο σηµείο αυτό θα αναφερθούµε στο συντελεστή ετεροσυσχέτισης ο οποίος συναντάται κυρίως σε θέµατα που αφορά την ανάλυση σηµάτων και κυµατοµορφών. Ο συντελεστής ετεροσυσχέτισης αφορά τόσο σε ένα σήµα άνυσµα όσο και µεταξύ δύο διαφορετικών σηµάτων - ανυσµάτων. Κυρίως χρησιµοποιείται µε τη µορφή δύο µαθηµατικών εκφράσεων. Η πρώτη αναφέρεται στον υπολογισµό του συντελεστή ετεροσυσχέτισης µεταξύ δύο διαφορετικών σηµάτων ή και του ιδίου σήµατος σε διαφορετική χρονική στιγµή για µία καθυστέρηση συγκεκριµένη d, και αποτυπώνεται από τη µαθηµατική έκφραση που ακολουθεί: 14

Επιπλέον, ιδιαίτερο ενδιαφέρον παρουσιάζει το γεγονός της δεύτερης έκφρασης του συντελεστή ετεροσυσχέτισης η οποία αφορά στον υπολογισµό της τιµής του όχι µόνο για µια συγκεκριµένη καθυστέρηση d αλλά για ένα εύρος καθυστερήσεων το οποίο κυµαίνεται. Έτσι λοιπόν προκειµένου να υπολογίσουµε πιθανή οµοιότητα µεταξύ δύο διαφορετικών σηµάτων ή την περιοδικότητα, στην περίπτωση που πρόκειται για ένα µόνο σήµα, εφαρµόζουµε την ακόλουθη µαθηµατική συνάρτηση : Για να λάβουµε υπόψη µας όλους τους δυνατούς τρόπους συσχέτισης δύο ανυσµάτων, σε σχέση πάντα µε τη µεταξύ τους καθυστέρηση, θα πρέπει να σηµειώσουµε ότι η καθυστέρηση d µπορεί να λαµβάνει, στη γενική της µορφή, τιµές (πεδίο τιµών) από το µείον µέγιστο της καθυστέρησης d (-dmax) µέχρι το σύν µέγιστο της καθυστέρησης d (+dmax). ηλαδή, d= -dmax,,0,1, dmax Ουσιαστικά δηλαδή πρόκειται για µία προσπάθεια σύγκρισης δύο σηµάτων µεταξύ τους «σύρρωντας» κατά κάποιον τρόπο το ένα σήµα σε σχέση µε το άλλο σε όλο το πεδίο τιµών και υπολογίζοντας τη συσχέτιση κάθε φορά για µία συγκεκριµένη καθυστέρηση. 1.4 Γιατί χρειάζεται ο Συντελεστής Ετεροσυσχέτισης; Στην περίπτωση της διακύµανσης των µετοχών που µελετάµε, εύλογα κάποιος θα µπορούσε να αναρωτηθεί τον τρόπο µε τον οποίο µπορεί να χρησιµοποιηθεί ο συντελεστής ετεροσυσχέτισης. Όπως αναφέρθηκε ο συντελεστής ετεροσυσχέτισης χρησιµοποιείται για να ελέγξουµε εάν δύο ανύσµατα είναι όµοια και πότε, δηλαδή µε ποια χρονική καθυστέρηση τα δύο σήµατα γίνονται όµοια ή πλησιάζουν το ένα τη µορφή του άλλου γεγονός το οποίο κατάδεικνύεται από την τιµή του συντελεστή. Το ερώτηµα το οποίο εγείρεται εύλογα, αφορά το ποια σήµατα ή καλύτερα ανύσµατα πρέπει να συγκρίνουµε µε τον συντελεστή ετεροσυσχέτισης και γιατί. Όπως σηµειώσαµε σε προηγούµενη παράγραφο η διαδικασία της ανάλυσης και κατανόησης της χρηµατιστηριακής αγοράς περιελάµβανε συνεντέυξεις από εµπειρογνώµονες του είδους, οι οποιοι µας έδωσαν σηµαντικές πληροφορίες για την κίνηση των µετοχών. Ετσι λοιπόν διαπιστώσαµε ότι ένας επενδυτής,χρησιµοποιώντας ένα σύστηµα, παρακολουθεί την κίνηση της κάθε µετοχής, του γενικού δείκτη και έχει τη δυνατότητα να απεικονίζει την κίνηση που εκτιµά κάθε χρηµατιστηριακός δείκτης. Όλα αυτά πραγµατοποιούνται σε πραγµατικό χρόνο. Παρακολουθώντας σε πραγµατικό χρόνο την διακύµανση µιας µετοχής και έχοντας την εκτίµηση διαφόρων δεικτών είναι σε θέση ο εκάστοτε επενδυτής να προβεί σε αγορά ή σε πώληση µιας µετοχής. Η απόφαση του δηλαδή εξαρτάται σε µεγάλο βαθµό από την τιµή που εκτιµά ο δείκτης που εµπιστεύεται περισσότερο ή τέλος πάντων εµπιστεύεται την πιθανή συµπεριφορά της µετοχής που εκτιµά ένα 15

συγκεκριµένο πλήθος δεικτών. Επιπρόσθετα, πρέπει να τονίσουµε ότι η τιµή της κάθε µετοχής επηρεάζεται τόσο από την προσφορά της όσο και από τη ζήτηση της. Ωστόσο η προσφορά αλλά και η ζήτηση της εξαρτάται ή καλύτερα διαµορφώνεται από τις εκτιµήσεις κάποιον δεικτών. Ποιών δεικτών; Αυτούς τους οποίους το µεγαλύτερο σώµα των επενδυτών θεωρεί ως πιο αξιόπιστους. Όταν εποµένως ένας δείκτης «απολαµβάνει» την εµπιστοσύνη των περισσοτέρων επενδυτών φυσικό και επόµενο είναι να ακολουθεί την ίδια διακύµανση µε την πραγµατική τιµή της µετοχής. Έτσι λοιπόν η διακύµανση του εν λόγω δείκτη ενέχει πραγµατική πληροφορία για την µελλοντική κίνηση της µετοχής και άρα για τη σωστή πρόβλεψη της τιµής της. Οι σηµαντικότεροι δείκτες τους οποίους χρησιµοποιούν οι επενδυτές είναι ο RSI (Relative Strength Index), Momentum, Stochastic Oscillator, MACD. Κάθε ένας από τους δείκτες αυτούς αλγοριθµικά υπολογίζεται ως ακολούθως: Stochastic Oscillator (% Κ=5-period,%D=3-slowing) St_Osc_Index=%(Κλείσιµο ηµέρας- ελάχιστο περιόδου)/(µέγιστο περιόδου ελάχιστο περιόδου) MACD (Moving Average Convergence/Divergence) MACD_Index= ΕΚΜ(Close,12)-ΕΚΜ(Close,26) RSI (Relative Strength Index 14 Days) Momentum RSI =100[100/(1+U/D)], U=Average of upward price change D=Average of downward price change Mom_Index=(τιµή κλεισίµατος/τιµή κλεισίµατος 12 ηµερών προγενέστερα)*100. Στο σηµείο αυτό πρέπει να πούµε ότι ο κάθε δείκτης µπορεί να υπολογιστεί δηλαδή να προβλέπει κάθε µία από τις τιµές που περιγράφουν την διακύµανση κάθε µετοχής. Συγκεκριµένα µπορεί να εφαρµοστεί για την τιµή ανοίγµατος, κλεισίµατος, τη χαµηλότερη τιµή, την υψηλότερη τιµή και στον όγκο συναλλαγών σε ηµερήσια βάση εφόσον πρόκειται για τα δεδοµένα µας. Ο µόνος τρόπος που έχουµε για να ελέγξουµε το βαθµό που ο κάθε δείκτης προέβλεψε ικανοποιητικά την διακύµανση µίας µετοχής είναι να συγκρίνουµε την κάθε πραγµατική τιµή κλεισίµατος µε την τιµή κλεισίµατος που προβλέπει ο κάθε δείκτης. Κατά ένα τρόπο είµαστε σε θέση να αξιολογήσουµε τη «βαρύτητα» του κάθε δείκτη απέναντι στο επενδυτικό κοινό. Ο συντελεστής ετεροσυσχέτισης µας επιτρέπει να δούµε αλγευρικά πόσο καλή είναι η σχέση της πραγµατικής τιµής και της τιµής του εκάστοτε δείκτη. Επιπλέον, η συνάρτηση ετεροσυσχέτισης µας επιτρέπει να ελέγξουµε για όλες τις δυνατές καθυστερήσεις για τις οποίες ενδεχοµένως να παρατηρηθεί οιανδήποτε οµοιότητα. Για κάθε µετοχή εφαρµόσαµε προγραµµατιστικά την συνάρτηση Cross Correlation µεταξύ της πραγµατικής τιµής κλεισίµατος της και της τιµής για κάθε δείκτη σε σχέση πάντα µε την τιµή κλεισίµατος αυτής. Ο αλγόριθµος αφορά όλες τις δυνατές θετικές καθυστερήσεις της τιµής του εκάστοτε δείκτη µε την πραγµατική 16

τιµή διότι είναι δεδοµένο ότι οι τιµές των δεικτών έπονται (εφόσον αφορά πρόβλεψη) σε σχέση µε την πραγµατική τιµή. Ως αποτέλεσµα, για κάθε µετοχή, ελήφθη άνυσµα ιδίας διάστασης µε το πλήθος των καθυστερήσεων, το οποίο και απεικονίσαµε µε το εργαλείο S-Plus 6.1. Παρακάτω παραθέτουµε µέρος του πηγαίου κώδικα υλοποιηµένου σε C++ για την συνάρτηση Cross Correlation. void correlation (double vect1[], double vect2[], double *vect3){ double numerator[n],sy[n],denom[n]; for(int k=0; k<n; k++) numerator[k]=sy[k]=denom[k]=0; double sx; for (int d=0; d<k; d++){ sx=0;//gia kathe d tha prepei na mhdenizoyme to sx for(int i=0; i<k; i++){ if((i-d)>0){ numerator[d]=numerator[d]+((vect1[i]- mean(vect1))*(vect2[i-d]-mean(vect2))); sy[d]=sy[d]+((vect2[i-d]-mean(vect2))*(vect2[i-d]- mean(vect2))); } else{ numerator[d]=numerator[d]+((vect1[i]-mean(vect1))*(- mean(vect2))); sy[d]=sy[d]+((-mean(vect2))*(-mean(vect2))); } sx=sx+((vect1[i]-mean(vect1))*(vect1[i]-mean(vect1))); } denom[d]=sqrt((sx*sy[d])); *vect3=numerator[d]/denom[d]; vect3++; } } Στο παράρτηµα Α παραθέτουµε όλα τα γραφήµατα της συνάρτησης Cross Correlation για κάθε µία µετοχή και για τους δείκτες RSI, Momentum, MACD, Stochastic Oscillator εκτός από τα γραφήµατα των µετοχών ΕΤΕ και ΤΙΤΚ που σας τα παρουσιάζουµε ενδεικτικά παρακάτω. 17

ETE - Stochastic Oscillator Correlation 0.0 0.1 0.2 0.3 0.4 0 1000 2000 3000 4000 5000 Lag Γράφηµα 1.1 ΕΤΕ (Close price Stochastic Oscillator) ETE - RSI Correlation 0.0 0.1 0.2 0.3 0.4 0.5 0 1000 2000 3000 4000 5000 Lag Γράφηµα 1.2 ΕΤΕ (Close price RSI) 18

ETE - Momentum Correlation 0.0 0.1 0.2 0.3 0.4 0.5 0 1000 2000 3000 4000 5000 Lag Γράφηµα 1.3 ΕΤΕ (Close price Momentum) ETE - MACD Correlation 0.0 0.1 0.2 0.3 0 1000 2000 3000 4000 5000 Lag Γράφηµα 1.4 ΕΤΕ (Close price MACD) Με όµοιο τρόπο σας παραθέτουµε ενδεικτικά και τα γραφήµατα που αφορούν την µετοχή ΤΙΤΚ. 19

TITK - Stochastic Oscillator Correlation 0.0 0.1 0.2 0.3 0.4 0.5 0 1000 2000 3000 4000 5000 Lag Γράφηµα 1.5 ΤΙΤΚ (Close price Stochastic Oscillator) TITK - MACD Correlation 0.0 0.1 0.2 0.3 0 1000 2000 3000 4000 5000 Lag Γράφηµα 1.6 ΤΙΤΚ (Close price MACD) 20

TITK - Momentum Correlation 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0 1000 2000 3000 4000 5000 Lag Γράφηµα 1.7 ΤΙΤΚ (Close price Momentum) TITK - RSI Correlation 0.0 0.2 0.4 0.6 0 1000 2000 3000 4000 5000 Lag Γράφηµα 1.8 ΤΙΤΚ (Close price RSI) 1.5 Συµπεράσµατα Στο κεφάλαιο αυτό είδαµε το είδος και τη µορφή των δεδοµένων που έχουµε διαθέσιµα και τα οποία τα χρησιµοποίησαµε για να παράγουµε πρόσθετη πληροφορία, το συντελεστή ετεροσυσχέτισης. Επίσης τονίσαµε τη σηµασία που έχουν τα δεδοµένα στην ακρίβεια των αποτελεσµάτων αλλά και στην εξαγωγή συµπερασµάτων που θα έχουν συνεπή χρειά και λογική προσέγγιση της πραγµατικότητας. Κατά την επενδυτική διαδικασία ο επενδυτής δεν χρησιµοποιεί τον κάθε χρηµατιστηριακό δείκτη µε τον ίδια εµπιστοσύνη. Παρόλο που υπάρχει µια πληθώρα δεικτών το επενδυτικό κοινό αποφαίνεται να χρησιµοποιεί ορισµένους από αυτούς µε 21

µεγαλύτερη ευρύτητα. Προσεγγίζοντας τον χώρο των χρηµατιστηριακών επενδύσεων διαπιστώσαµε ότι µε µεγαλύτερη εµπιστοσύνη χρησιµοποιούνται ο RSI, Momentum, Stochastic Oscillator και MACD. Στην εν λόγω µελέτη και προκειµένου να εξάγουµε ενδιαφέροντα αποτελέσµατα αποφασίσαµε να χρησιµοποιήσουµε τους δείκτες αυτούς ως στοιχεία δεδοµένων που περιέχουν ασφαλή πληροφορία για την µελλοντική κίνηση των µετοχών και άρα την πρόβλεψη αυτών. Μεγάλο ενδιαφέρον παρουσιάζει η ερµηνεία των αποτελεσµάτων της συνάρτησης ετεροσυσχέτισης µεταξύ της τιµής κλεισίµατος της εκάστοτε µετοχής και των τιµών των δεικτών. Ειδικότερα και όπως φαίνεται από τον πίνακα που ακολουθεί για γεγονότα που χαρακτηρίζονται πολυπαραγοντικά όπως είναι η διακύµανση της τιµής µιας µετοχής ένας συντελεστής από 0.5 1.0 και -0.5 (-1.0) χαρακτηρίζεται ως µεγάλη θετική συσχέτιση και µεγάλη αρνητική συσχέτιση αντίστοιχα. Αρχικά λοιπόν µας δίνεται η δυνατότητα να έχουµε ένα πρώτο µέτρο αξιολόγησης της βαρύτητας του κάθε δείκτη που εµπιστεύεται ο επενδυτής για να αγοράσει ή να πουλήσει µία µετοχή και εποµένως να επηρρεάσει µε τον τρόπο αυτό την διακύµανση της µετοχής, βέβαια µεγάλη σηµασία έχει και ο όγκος συναλλαγών που πραγµατοποιεί ο κάθε επενδυτής στη συνολική διαµόρφωση της κίνησης της µετοχής. Ένα δεύτερο συµπέρασµα εξίσου σηµαντικό είναι ότι η συνάρτηση ετεροσυσχέτισης µπορεί να αποτελέσει έναν έµµεσο τρόπο βραχυπρόθεσµης ή µακροπρόθεσµης πρόβλεψης. Αυτό συµβαίνει όταν διαγραµµατικά µας δίνεται η δυνατότητα να δούµε σε ποια χρονική καθυστέρηση τα δύο ανύσµατα, της τιµής κλεισίµατος και του εκάστοτε δείκτη, µοιάζουν περισσότερο. Η έννοια της χρονικής καθυστέρησης, στην περίπτωση της συνάρτησης ετεροσυσχέτισης, µπορεί να ερµηνευτεί ως η χρονική ολίσθηση του σήµατος του εκάστοτε δείκτη στο µέλλον, ώστε αυτό να µοιάζει περισσότερο µε το σήµα της τιµής κλεισίµατος. Η αλγεβρική τιµή της καθυστέρησης αποτυπώνει τον χρονικό ορίζοντα σύγκλισης της πραγµατικής τιµής της µετοχής µε τον δείκτη. Στο επόµενο κεφάλαιο ακολουθεί η εφαρµογή µιας Data mining µεθόδου (Clustering) που χαρακτηρίζεται ως µέθοδος µη καθοδηγούµενης εκµάθησης. 22

ΚΕΦΑΛΑΙΟ 2 2. Μη Καθοδηγούµενη Εκµάθηση (Unsupervised Clustering) Στο κεφάλαιο αυτό θα περιγράψουµε την µη καθοδηγούµενη εκµάθηση ή όπως είναι γνωστή σε άλλα εγχειρίδια Unsupervised Clustering. Επιπλέον θα προχωρήσουµε στην εφαρµογή ενός αλγόριθµου Clustering στα χρηµατιστηριακά µας δεδοµένα προκειµένου να εξάγουµε χρήσιµη πληροφορία η οποία ενδεχοµένως να µας βοηθήσει στο πρόβληµα της πρόβλεψης της συµπεριφοράς µιας µετοχής ή οποιαδήποτε άλλης µορφής πληροφορίας γνώσης που αφορά την σχέση µεταξύ του συνόλου των µετοχών. 2.1 Τι είναι η Μη Καθοδηγούµενη Εκµάθηση; Η µη καθοδηγούµενη εκµάθηση αφορά την κατασκευή µοντέλων εξόρυξης γνώσης µε την χρήση αλγορίθµων Unsupervised Clustering. Η βασική σκέψη αυτής της µεθοδολογίας αφορά στην εύρεση γνώσης η οποία δεν έχει προκαθοριστεί κατά την εισαγωγή των δεδοµένων (instances) µε τη µορφή κλάσεων. Έτσι λοιπόν η µη καθοδηγούµενη εκµάθηση είναι µία µεθοδολογία εξόρυξης γνώσης η οποία ενδεχοµένως να µπορεί να χαρακτηριστεί αφθαίρετη, εφόσον εξ αρχής δεν µπορεί να διαπιστωθεί οιανδήποτε λογική συνέπεια µεταξύ των δεδοµένων. Επιπλέον σε αντίθεση µε άλλες µεθόδους εξόρυξης πληροφορίας, η ΜΚΕ στηρίζεται σε µεθόδους συσταδοποίησης των δεδοµένων χωρίς να προσδιορίζεται µε τον τρόπο αυτό πιο είναι το ζητούµενο. Επιλέγοντας ένα συγκεκριµένο αλγόριθµο συσταδοποίησης και εφαρµόζωντάς τον µε βάσει κάποιο από τα χαρακτηριστικά (attributes) ή σε συνδυασµό αυτών, τα διάφορα στιγµιότυπα (instances) κατανέµονται µε κριτήρια οµοιότητας γεγονός το οποίο ενδεχοµένως να οδηγήσει σε κάποια συµπεράσµατα γνώση. Το αποτέλεσµα της ΜΚΕ µπορεί να αξιολογηθεί και να ερµηνευτεί στη συνέχεια εφαρµόζωντας µια µέθοδο καθοδηγούµενης εκµάθησης έτσι ώστε να γίνει σαφής η ακούσια πληροφορία. Συνοψίζοντας µπορούµε να πούµε ότι στη ΜΚΕ δεν έχουµε εξαρτηµένη µεταβλητή για να οδηγήσουµε την διαδικασία της εκµάθησης. Οι διάφοροι αλγόριθµοι κατασκεύαζουν µια δοµή γνώσης µε τρόπο που αφορά στη µέτρηση της ποιότητας των clusters δηλαδή του τρόπου οµαδοποίησης των διαφόρων στιγµιοτύπων σε δύο ή περισσότερα clusters. Ένας πρωταρχικός στόχος µιας στρατηγικής βασισµένης σε ΜΚΕ είναι να ανακαλύψει δοµές εννοιών (Concept Structures) από τα δεδοµένα. Έτσι µία τέτοια στρατηγική πρέπει να: καθορίσει εάν µπορούν να προσδιοριστούν ενδιάµεσες σχέσεις στη βάση της µορφής των εννοιών (Concepts) από τα δεδοµένα. µπορεί να αξιολογήσει την απόδοση ένος µοντέλου καθοδηγούµενης εκµάθησης. καθορίζει ένα βέλτιστο σύνολο στιγµιοτύπων εισόδου για καθοδηγούµενη εκµάθηση 23

ανιχνεύει στιγµιότυπα που δεν θεωρούνται τυπικά (outliers). Όταν λοιπόν εφαρµόζουµε έναν αλγόριθµο ΜΚΕ είναι πιθανό να προκύψουν σχέσεις και συσχετίσεις µεταξύ των διαφόρων attributes, τα οποία αποτυπώνουν κάποιες συγκεκριµένες έννοιες, οι οποίες ήταν αδύνατον να ανιχνευτούν «δια γυµνού οφθαλµού» και όπως είναι φυσικό θα µας εκπλήξουν. Με τον τρόπο αυτό µας δίνεται η δυνατότητα να ερµηνεύσουµε συµπεριφορές και σε κάποιες περιπτώσεις να προβλέψουµε καταστάσεις. Επίσης µε την ΜΚΕ µας δίνεται η δυνατότητα να αξιολογήσουµε ένα µοντέλο καθοδηγούµενης εκµάθησης. Αυτό µπορεί να συµβαίνει διότι για να κατασκευάσουµε ένα αξιόπιστο µοντέλο µεγάλη σηµασία έχει η επιλογή ενός κατάλληλου - αντιπροσωπευτικού training set δεδοµένων. Για να µπορέσουµε να ελέγξουµε την ποιότητα του µοντέλου αρκεί µε κάποιο τρόπο να ελέγξουµε και άρα να διαπιστώσουµε την καταλληλότητα του training set, το οποίο σηµειωτέον δεν αφορά µόνο στο είδος των στιγµιοτύπων (Instances) αλλά και στην κατάλληλη επιλογή των κλάσεων (Classes - attributes). Εφαρµόζωντας ένα αλγόριθµο Unsupervised Clustering σε ένα training set µε συγκεκριµένες κλάσεις και στιγµιότυπα είµαστε σε θέση να δούµε εάν και κατά πόσο τα στιγµιότυπα συσταδοποιούνται σωστά στα σχηµατιζόµενα Clusters µε βάσει πάντα της προεπιλεγµένες κλάσεις. Στην περίπτωση κατά την οποία η συσταδοποίηση τους δεν είναι ικανοποιητική επιλέγουµε ένα άλλο training set µε διαφορετικές κλάσεις και τρέχουµε τον αλγόριθµο ΜΚΕ έως ότου λάβουµε ικανοποιητικό αποτέλεσµα, οπότε και το δεδοµένο training set θα είναι αυτό το οποίο θα χρησιµοποιηθεί για την κατασκευή του µοντέλου καθοδηγούµενης εκµάθησης. Τέλος η ΜΚΕ µας επιτρέπει να διακρίνουµε τα στιγµιότυπα εκείνα τα οποία βάσει της σχετικής βιβλιογραφίας χαρακτηρίζονται ως µη τυπικά στιγµιότυπα (atypical) ή καλύτερα ως outliers. Η τεχνική αυτή εξόρυξης δεδοµένων επιλύει προβλήµατα που αφορούσαν στατιστικές µεθόδους που δεν µπορούσαν να εξαιρέσουν δεδοµένα outliers. Τα δεδοµένα αυτά χαρακτηρίζονται ως µη αντιπροσωπευτικά και αποτελούν θόρυβο. Όταν µάλιστα δεν αφαιρούνται επηρεάζουν την ακρίβεια του αποτελέσµατος. Οι Data mining τεχνικές αφαιρούν τέτοιου είδους δεδοµένα outliers διασφαλίζοντας τρόπον τινά την ποιότητα του αποτελέσµατος. Στη συνέχεια το κεφαλαίου θα αναφερθούµε στον αλγόριθµο KMeans. Πρόκειται για έναν αλγόριθµο Unsupervised Clustering µέσω του οποίου θα προσπαθήσουµε να εξάγουµε κάποια συµπεράσµατα σχετικά µε την πιθανή σχέση µεταξύ των διαφόρων µετοχών. 2.2 Αλγόριθµος Clustering KMeans. Έχουν αναπτυχθεί διάφοροι αλγόριθµοι συσταδοποίησης µερικοί από τους οποίους παρουσιάζουν ιδιαίτερο ενδιαφέρον µιας και έχουν ευρύα αποδοχή. Ένας τέτοιος αλγόριθµος είναι και ο K-Means, ο οποίος παρόλη την απλότητα της εφαρµογής του συνεχίζει και αποτελεί έναν αποτελεσµατική στατιστική τεχνική συσταδοποίησης. Για να δούµε µε ποια βήµατα ο εν λόγω αλγόριθµος «τεµαχίζει» τα δεδοµένα σε ξεχωριστά ασύνδετα clusters. Επέλεξε τον αριθµό Κ των clusters που θα σχηµατιστούν. 24

Επέλεξε Κ στον αριθµό στιγµιότυπα, µε τυχαίο τρόπο, ως τα πρώτα κέντρα των clusters. Χρησιµοποίησε τη γνωστή Ευκλείδια απόσταση προκειµένου να κατατάξεις τα υπόλοιπα στιγµιότυπα στα clusters µε τρόπο τέτοιο ώστε η απόσταση τους µε τα κέντρα των clusters να είναι η µικρότερη. Χρησιµοποίησε τα στιγµιότυπα του κάθε cluster για να υπολογίσεις την την µέση τιµή αυτών. Η µέση τιµή των στιγµιοτύπων σε κάθε cluster προσδιορίζουν την νέα τιµή του κέντρου του cluster. Έτσι εάν η νέα τιµή (mean) είναι ίδια µε την προηγούµενη η διαδικασία τερµατίζεται, εάν είναι διαφορετική τότε άλλαξε την τιµή του κέντρου και επανέλαβε τα τρία τελευταία βήµατα. Ορισµένα γενικά συµπεράσµατα για τον αλγόριθµο KMeans: 1. Ο αλγόριθµος εφαρµόζεται µόνο στην περίπτωση αριθµητικών δεδοµένων. Εάν επι παραδείγµατι έχουµε δεδοµένα κατηγορικά θα πρέπει να µετατρέψουµε τις τιµές των attributes σε αριθµητικές προκειµένου να τα χρησιµοποιήσουµε. Ωστόσο στην περίπτωση που αποφασίσουµε να τροποποιήσουµε το είδος των δεδοµένων των διαφόρων attributes προκύπτουν περαιτέρω προβλήµατα που δεν είναι του παρόντος. 2. Στο χρήστη εναπόκειται να προκαθορίσει τον αριθµό των clusters που ενδεχοµένως να οδηγήσει στη βέλτιστη συσταδοποίηση, διότι ο αλγόριθµος δεν έχει τη δυνατότητα να προσδιορίσει τον αριθµό των clusters, γεγονός που αποδυναµώνει την αποτελεσµατικότητα του. Χρειάζεται εποµένως να εφαρµόσουµε κάποιες φορές τον αλγόριθµο επαναληπτικά, για διαφορετικό αριθµό των clusters, προκειµένου να αποκτήσουµε µια ρεαλιστική αίσθηση για τον καλύτερο αριθµό αυτών σε σχέση πάντα µε µοντέλο που σχηµατίζειται. 3. Ο εν λόγω αλγόριθµος βρίσκει την βέλτιστη λύση όταν τα clusters που σχηµατίζονται έχουν προσεγγιστικά το ίδιο µέγεθος. Στην περίπτωση όπου ο K-Means καταλλήγει σε µια λύση η οποία αποτελείται από clusters διαφορετικών µεγεθών τότε ο αλγόριθµος δεν είναι σε θέση να αποτυπώσει την καλύτερη λύση. 4. εν υπάρχει τρόπος να καθορίσουµε ποια attributes των δεδοµένων είναι σηµαντικά για το σχηµατισµό των clusters. Για το λόγο αυτό διάφορα attributes τα οποία είναι ασυσχέτιστα µεταξύ τους θα οδηγήσουν σε µία όχι καλή λύση. 5. Η αδυναµία ερµηνείας της φύσης των σχηµατιζόµενων clusters µας αναγκάζει να χρησιµοποιήσουµε ένα supervised mining tool για να µπορέσουµε να τα καταλάβουµε. Παρόλους τους ανωρέρω περιορισµούς ο αλγόριθµος K-Means εξακολουθεί να αποτελεί ένα δηµοφιλές εργαλείο το οποίο παρέχει αξιόπιστα αποτελέσµατα. Για το λόγο αυτό στη συνέχεια της εργασίας τον χρησιµοποιήσαµε προκειµένου να εξάγουµε γνώση από τα δεδοµένα των µετοχών µας. 25

2.3 Το εργαλείο WEKA. Το εργαλείο WEKA είναι ένα πολύ δηµοφιλές εργαλείο που χρησιµοποιείται για ερευνητικούς σκοπούς. Ενσωµατώνει πολλούς αλγόριθµους τόσο αµιγώς στατιστικούς όσο και αλγόριθµους που χρησιµοποιούνται στο Data mining. Επιπλέον περιέχει και διάφορα φίλτρα προεπεξεργασίας δεδοµένων. Πρόκειται για ένα open source εργαλείο σε γλώσσα Java το οποιο υποστηρίζεται από δυνατότητα help desk τοσο για νέους όσο και για παλιούς χρήστες. Υπάρχουν δύο µορφές εκδόσεων του εργαλείου, η µία είναι αυτή η οποία περιγράφεται και στο σχετικό βιβλίο και η δεύτερη η οποία επιτρέπει την ανάπτυξη εφαρµογών από το χρήστη σε γλώσσα java, όπου όµως είναι διαθέσιµες στο ευρύ κοινό έτοιµες κλάσεις. Την εφαρµογή για την περίπτωση των µετοχών την πραγµατοποιήσαµε µε το module explorer το οποίο παρουσιάζουµε στην «εικόνα 2.1». Εικόνα 2.1 Explorer GUI Στην εικόνα φαίνεται ότι το GUI αποτελείται από διάφορες καρτέλες µε συγκεκριµένες λειτουργίες η κάθε µία. Μεταξύ αυτών ξεχωρίζουµε την καρτέλα Preprocess, Classify, Cluster και Visualize. Κατά την εισαγωγή δεδοµένων µέσω της καρτέλας Preprocess, ζητείται όπως φαίνεται στην «εικόνα 2.2» η µετατροπή του τύπου των δεδοµένων µας που είναι σε.txt να µετατραπεί σε.csv (Data Converter) διότι το WEKA χρησιµοποιεί κυρίως τύπους δεδοµένων.arff και.csv. 26

Εικόνα 2.2 Data Converter Στη συνέχεια τα δεδοµένα µας που έχουν µετατραπεί σε.csv απεικονίζονται στο GUI (Preprocess) όπως φαίνεται στην «εικόνα 2.3», όπου παρουσιάζονται στατιστικά στοιχεία για τα διάφορα attributes που υπήρχαν στα δεδοµένα µας. Εικόνα 2.3 27

Προκειµένου να προχωρήσουµε στην εφαρµογή ενός αλγόριθµου συσταδοποίησης µεταβαίνουµε στην καρτέλα Cluster (εικόνα 2.4). Εικόνα 2.4 Επιλογή του K-Means αλγόριθµου Στην «εικόνα 2.4» φαίνεται η επιλογή του K-Means αλγορίθµου στον οποίο έχουµε τη δυνατότητα να επέµβουµε και να αλλάξουµε ορισµένες ρυθµίσεις που είναι προκαθορισµένες όπως για παράδειγµα είναι ο καθορισµός του αριθµού των clusters που είναι αρχικά ίσος µε 2 (εικόνα 2.5). Εικόνα 2.5K-Means Object Editor Το WEKA µας δίνει τη δυνατότητα, εφόσον το επιθυµούµε, να επιλέξουµε το πλήθος των δεδοµένων µας (%) που θα αποτελέσουν το training set καθώς επίσης και το (%) test set. Επιπλέον µας επιτρέπει να αξιολογήσουµε τα σχηµατιζόµενα clusters 28

µε βάσει ένα συγκεκριµένο χαρακτηριστικό πχ το attribute Ticker και να αποτυπώσουµε τα αποτελέσµατα για περαιτέρω διερεύνηση. Σηµαντική δυνατότητα για τον αλγόριθµο K-Means είναι η επιλογή των attributes βάσει των οποίων θα γίνει η συσταδοποίηση των στιγµιοτύπων και η παράλειψη αυτών που δεν µας ενδιαφέρουν. Στην «εικόνα 2.6» φαίνονται οι ρυθµίσεις των παραµέτρων που δύνανται να επιλεγούν πρίν προχωρήσουµε στην εκτέλεση του αλγορίθµου. Εικόνα 2.6 Ρύθµιση των παραµέτρων του K-Means 2.4 Η Μορφή των εδοµένων. Όπως είδαµε στην προηγούµενη παράγραφο το εργαλείο WEKA παρέχει κάποιες συγκεκριµένες δυνατότητες οι οποίες είναι και παραµετροποιήσιµες. Ωστόσο πρίν προχωρήσουµε στην εφαρµογή οποιουδήποτε αλγορίθµου θα πρέπει πρώτα να εισάγουµε τα δεδοµένα βάσει των οποίων θα εξάγουµε ενδεχοµένως κάποιας µορφή πληροφορία. Όµως εύλογα γεννάται το ερώτηµα τι είδους δεδοµένα θα πρέπει να εισάγουµε προκειµένου τα αποτελέσµατα µας να παρουσιάζουν ενδιαφέρον και εποµένως να έχουν νόηµα. Τίθεται εποµένως το θέµα της επιλογής των δεδοµένων η οποία θα πρέπει να γίνει κατά κάποιον τρόπο διαισθητικά ώστε αυτά να παρουσιάζουν συνέπεια µεταξύ τους µιας και δεν έχουµε άλλο τρόπο για να αποφασίσουµε βάσει ποιών δεδοµένων θα σχηµατιστούν τα clusters. Έτσι λοιπόν επειδή επιθυµούµε να εξάγουµε πληροφορίες που θα αφορά πιθανή σχέση τη συµπεριφορά των διαφόρων µετοχών αποφασίσαµε να χρησιµοποιήσουµε αρχεία δεδοµένων που θα περιείχαν το σύνολο των µετοχών. Ειδικότερα, σχηµατίσαµε από τα ήδη υπάρχοντα αρχεία δεδοµένων δύο νέα τα οποία περιείχαν: το πρώτο, στοιχεία για 20 µετοχές και για το ίδιο χρονικό διάστηµα και για το δεύτερο, στοιχεία για 19 µετοχές για µεγαλύτερο διάστηµα. Στην «εικόνα 2.7» 29

παρουσιάζουµε ενδεικτικά τµήµα του ενός από τα δύο αρχεία που χρησιµοποιήθηκαν στον αλγόριθµο clustering. Εικόνα 2.7 Data set Πρέπει να διευκρινήσουµε ότι στο µεν πρώτο Data set όπου περιλαµβάνονται και οι 20 µετοχές, το χρονικό διάστηµα καθορίστηκε από την µετοχή µε τις λιγότερες συνεδριάσεις και αυτή ήταν η ΤΤ µε 151 συνεδριάσεις. Στο δεύτερο Data set οι µετοχές ήταν 19 µε 1200 συνεδριάσεις περίπου η κάθε µία. Η συµµόρφωση αυτή καθορίστηκε µε αυτόν τον τρόπο διότι θέλαµε να εξάγουµε πληροφορία που να συσχετίζει την κίνηση διαφόρων µετοχών µεταξύ τους, οπότε απαραίτητη προϋπόθεση ήταν όλες οι µετοχές να υφίστανται το ίδιο χρονικό διάστηµα. Τελικά τα attributes των δεδοµένων τα οποία χρησιµοποιήσαµε για την κατασκεύη των clusters ήταν τρείς συνδιασµοί ανά δύο attributes. Ουσιαστικά εφαρµόσαµε τον αλγόριθµο για να σχηµατίσουµε τρείς διαφορετικές οµάδες συστάδων. Έτσι λοιπόν αρχικά «τρέξαµε» τον αλγόριθµο για δούµε εάν υπάρχει σχέση µεταξύ της τιµής κλεισίµατος και του όγκου συναλλαγών, στη συνέχεια µεταξύ της τιµής κλεισίµατος και της χαµηλότερης τιµής και τέλος µεταξύ της χαµηλότερης τιµής και της υψηλότερηςη τιµής. Πιο συγκεκριµένα: Close price Volume Close price Low price Close price High price 30

2.5 Αποτελέσµατα του Clustering Στο σηµείο αυτό πρέπει να αναφερθεί ότι τον αλγόριθµο K-Means τον εφαρµόσαµε επαναληπτικά προκειµένου να επιλέξουµε τον καλύτερο αριθµό συστάδων. Το γεγονός ότι ο αλγόριθµος δεν είναι σε θέση να αποφασίζει για το πλήθος των συστάδων που απαιτούνται, προκειµένου τα διάφορα στιγµιότυπα να συσταδοποιηθούν σωστά, αποτελεί µία αδυναµία του. Όπως έχει ήδη σηµειωθεί την συσταδοποίηση την εφαρµόσαµε προκειµένου να διαπιστώσουµε πιθανή σχέση µεταξύ των µετοχών και µάλιστα επιλέξαµε τις ακόλουθες κλάσεις βάσει των οποίων θα υλοποιηθεί το clustering: Close price Volume Close price Low price Close price High price Ενδεικτικά σας παραθέτουµε τα αποτελέσµατα όπως προέκυψαν για την περίπτωση της τιµής κλεισίµατος όγκου συναλλαγών για το πρώτο data set όπου αφορά και τις 20 µετοχές µε περιορισµένο αριθµό συνεδριάσεων (151). Εικόνα 2.8 Clusters Στην «εικόνα 2.8» φαίνονται τα σχηµατιζόµενα clusters 10 στον αριθµό για τις κλάσεις τιµή κλεισίµατος όγκος συναλλαγών. Επιπλέον µπορεί κανείς να 31

παρατηρήσει και το κέντρο του καθενός. Συγκεκριµένα δύο είναι οι τιµές που περιγράφουν το κέντρο του κάθε Cluster διότι αφορά τις τιµές των δύο κλάσεων. Επιπλέον έχει υπολογιστεί και η τυπική απόκλιση, το στατιστικό αυτό µέγεθος αφορά την κατανοµή των διαφόρων στιγµιοτύπων στα clusters. Στη «εικόνα 2.9» που ακολουθεί απεικονίζονται στατιστικά στοιχεία τα οποία έχουν να κάνουν µε το ποσοστό κατανοµής των διαφόρων στιγµιοτύπων στα clusters καθώς επίσης και µε τη διασπορά των στιγµιοτύπων της κάθε µετοχής σε κάθε ένα από τα σχηµατισµένα clusters. Εικόνα 2.9 Αποτελέσµατα Clustering close price volume Τέλος στην «εικόνα 2.10» φαίνεται η επικρατούσα µετοχή σε κάθε cluster καθώς ο αριθµός και το ποσοστό των στιγµιοτύπων τα οποια δεν κατάφερε ο αλγόριθµος να τα συσταδοποιήσει σωστά. Όπως θα δούµε παρακάτω η παράµετρος αυτή έχει µεγάλη σηµασία για την επιτυχία του αλγορίθµου. Σύµφωνα µε τα αποτελέσµατα τα 1897 στιγµιότυπα δηλαδή ποσοστό 63% συνόλου ο αλγόριθµος δεν κατάφερε να τα εντάξει σωστά. Πρόκειται για ένα υψηλό ποσοστό το οποίο θα πρέπει να ληφθεί σοβαρά υπόψη προκειµένου να έχουµε µια εκτίµηση της επιτυχίας του αλγορίθµου. 32

Εικόνα 2.10 Τέλος, το εργαλείο WEKA µέσω του Explorer (καρτέλα Visualize ) µας παρέχει την δυνατότητα για γραφική απεικόνιση των αποτελεσµάτων στο επίπεδο επιλέγοντας µάλιστα τις κλάσεις που επιθυµούµε να µελετήσουµε. Οι εικόνες που ακολουθούν απεικονίζουν γραφικά το αποτέλεσµα της συσταδοποίησης για τις περιπτώσεις : Close price Volume 33

Close price Low price Close price High price 34

Από τα γραφήµατα αυτά διαπιστώνουµε ότι δεν υπάρχουν σαφή όρια µεταξύ των σχηµατιζόµενων clusters. 2.6 Συµπεράσµατα του Clustering Καταρχήν πριν προχωρήσουµε στην ερµηνεία των αποτελεσµάτων χρήσιµο είναι να διευκρινήσουµε ορισµένα στοιχεία τα οποία αναφέρθηκαν σε προηγούµενες παραγράφους. Ειπώθηκε ότι τον αλγόριθµο K-Means τον εφαρµόσαµε επαναληπτικά προκειµένου να αντιληφθούµε τον καλύτερο αριθµό συστάδων που µας επιτρέπει να διασπείρουµε τα διάφορα στιγµιότυπα των µετοχών. Πως όµως γνωρίζουµε πότε ο αριθµός των clusters είναι ο καλύτερος; Την απάντηση στο ερώτηµα αυτό µπορεί κανείς να τη δώσει µε έµµεσο τρόπο. Συγκεκριµένα κάθε φορά που επιλέγουµε έναν αριθµό clusters και εφαρµόζουµε τον αλγόριθµο δύο µεγέθη αλλάζουν. Τα µεγέθη αυτά µπορούµε να τα χρησιµοποιήσουµε προκειµένου να αντιληφθούµε κατά πόσο είναι προτιµότερος ο ένας αριθµός συστάδων από κάποιον άλλον. Ο αριθµός των στιγµιοτύπων τα οποία δεν κατάφερε ο αλγόριθµος να εντάξει αποτελεί ένα µέτρο αποτελεσµατικότητας του αλγορίθµου. Έτσι στην περίπτωση της τιµής κλεισίµατος µε τον όγκο των συναλλαγών έχουµε Incorrectly clustered instances : 1897.0 62.8146 % όπου είναι ένα µεγάλο ποσοστό για το οποίο φαίνεται ότι ο αλγόριθµος δεν οδηγεί σε αποδεκτή λύση. Επιπλέον, όπως αναφέρθηκε στην παράγραφο 2.2, η προσεγγιστικά άνιση κατανοµή των στιγµιοτύπων στα διάφορα clusters δεικνύει ότι η λύση δεν είναι η καλύτερη. Στην περίπτωση πάλι της τιµής κλεισίµατος µε τον όγκο συναλλαγών στην «εικόνα 2.11» που ακολουθεί φαίνεται η άνιση κατανοµή των στιγµιοτύπων γεγονός που καθορίζει τη διάσταση του κάθε cluster. Εικόνα 2.11 Τέλος ένα επιπλέον µέγεθος που µας δίνει µια αίσθηση της αποτελεσµατικότητας του αλγορίθµου σε σχέση µε την επιλογή του αριθµού των συστάδων είναι και το Within cluster sum of squared errors. Στην περίπτωση που παραθέσαµε ανωτέρω µε την επιλογή των 10 συστάδων το άθροισµα του τετραγωνικού σφάλµατος µεταξύ των clusters βρέθηκε ίσο µε 4.21 και δεν µεταβαλλόταν ουσιαστικά κάθε φορά που αυξάναµε περαιτέρω τον αριθµό των clusters. Ο K-Means όπως έχει ήδη αναφερθεί, εφαρµόστηκε και στους τρεις συνδυασµούς περιπτώσεων : Close price Volume 35

Close price Low price Close price High price Σε όλες τις περιπτώσεις προκύπτουν τα ίδια ποιοτικά συµπεράσµατα. Έτσι λοιπόν και στα τρία clusters ο αριθµός των στιγµιοτύπων που δεν έχουν έχουν συσταδοποιηθεί σωστά είναι µεγάλος. Η κατανοµή των διαφόρων στιγµιοτύπων στα διάφορα clusters παραµένει άνισος. Τα δύο αυτά στοιχεία µας οδηγούν στο συµπέρασµα ότι ο αλγόριθµος δεν µπορεί να φτάσει σε ασφαλή λύση. Το γεγονός αυτό µπορεί να ερµηνευτεί από το είδος των δεδοµένων που χρησιµοποιήσαµε. Τα δεδοµένα των µετοχών είναι ακολουθιακά χρονικά και για το λόγο αυτό δεν µπορούµε να εφαρµόσουµε τις κλασσικές µεθόδους clustering. Εποµένως, η προσέγγιση της µη καθοδηγούµενης εκµάθησης (Unsupervised Clustering), στην περίπτωση των χρονικών δεδοµένων, όπως είναι η διακύµανση των µετοχών, δεν µπορεί να µας οδηγήσει σε µία αποδεκτή λύση. Στο επόµενο κεφάλαιο (3 ο ) προσπαθούµε να προβλέψουµε τη συµπεριφορά µιας µετοχής προκειµένου να διαπιστώσουµε εάν µας συµφέρει να επενδύσουµε. Εφαρµόζουµε τεχνικές της καθοδηγούµενης εκµάθησης αφού πρώτα έχουµε επεξεργαστεί τα δεδοµένα µας κατάλληλα. ΚΕΦΑΛΑΙΟ 3 3. Καθοδηγούµενη Εκµάθηση (Supervised Learning) Σε προηγούµενο κεφάλαιο εξετάσαµε τη ΜΚΕ ως µία µέθοδο εξόρυξης γνώσης η οποία βασιζόταν περισσότερο σε διαισθητική ανάλυση των αποτελεσµάτων αλλά και στη σωστή επιλογή των κλάσεων κατά τρόπο τέτοιο που να µας οδηγήσουν σε ένα αποτέλεσµα το οποίο να έχει λογικό έρισµα. Στην περίπτωση της καθοδηγούµενης εκµάθησης τα πράγµατα είναι πιο «ξεκάθαρα». Αυτό συµβαίνει διότι κανείς για να χρησιµοποιήσει την καθοδηγούµενη εκµάθηση θα πρέπει να έχει προσδιορίσει µε σαφήνεια το αποτέλεσµα το είδος της απάντησης που επιζητά. Η απάντηση αυτή προσδιορίζεται όπως θα δούµε και παρακάτω µε τη µορφή µιάς κλάσης που µπορεί να έχει είτε κατηγορική είτε αριθµητική µορφή. 3.1 Τι είναι η Καθοδηγούµενη Εκµάθηση; Την καθοδηγούµενη εκµάθηση την συναντάµε στην καθηµερινή µας ζωή αρκετά συχνά και ιδιαίτερα όταν αναγκαζόµαστε να µάθουµε νέα πράγµατα τα οποία ενδεχοµένως να αγνοούσαµε ότι υπήρχαν ως έννοιες µέχρι τη δεδοµένη στιγµή. Η ΚΕ λειτουργεί ως µηχανισµός σε δύο επίπεδα. Το πρώτο αφορά την κατασκευή από δεδοµένα ενός µοντέλου κατηγοροποίησης, τα οποία είναι χαρακτηριστικά του είδους των εννοιών που θέλουµε να εισάγουµε αλλά και από δεδοµένα τα οποία δεν είναι κατ ανάγκη χαρακτηριστικά του είδους. Κάθε τέτοιο είδος δεδοµένων ονοµάζεται ως 36

στιγµιότυπο (Instance). Το δεύτερο επίπεδο κατά το οποίο, εφόσον έχει κατασκευαστεί το µοντέλο, µπορεί να κατηγοριοποιήσει σωστά τα νέα στιγµιότυπα, άγνωστης προέλευσης, τα οποία θα παρουσιάζονται συνεχώς. Αξίζει να σηµειωθεί ότι ενώ η κατασκευή του µοντέλου είναι µια επαγωγική διαδικασία η κατηγοριοποίηση των νέων στιγµιοτύπων είναι µια παραγωγική διαδικασία. Γενικά η διαδικασία κατασκευής ενός µοντέλου ΚΕ περιλαµβάνει τα ακόλουθα βήµατα. Αρχικά χρησιµοποιώντας ένα σύνολο από δεδοµένα τα οποία θεωρούµε αξιόπιστα ή συνεπή (training data set) είναι αυτά τα οποία είναι γνωστό ότι κατηγοριοποιούνται σωστά. Προκειµένου να εξετάσουµε την ακρίβεια του µοντέλου που κατασκευάσαµε µε τα στιγµιότυπα του training set δηλαδή την ικανότητα του µοντέλου να µπορεί να κατηγοριοποιεί στιγµιότυπα των οποίων δεν είναι γνωστή η κατηγοριοποίηση χρησιµοποιούµε ένα επιπλέον data set γνωστό ως test set. Τα στιγµιότυπα του test set έχουν δεδοµένη κατηγοριοποίηση, έτσι µπορούµε να συγκρίνουµε την κατηγοριοποίηση που υπολογίζει το µοντέλο µας µε την πραγµατική κατηγοριοποίηση των στιγµιοτύπων και να έχουµε µια εικόνα της ακρίβειας του µοντέλου που κατασκευάσαµε και εποµένως µια εκτίµηση της συµπεριφοράς του στο µέλλον. Πέραν των ανωτέρω µπορούµε να πούµε ότι υπάρχουν διάφορες στρατηγικές εξόρυξης δεδοµένων που αφορούν την ΚΕ. Η βασική διαφοροποίηση των ΚΕ από τις στρατηγικές ΜΚΕ είναι ότι στις πρώτες υπάρχουν τόσο ανεξάρτητες µεταβλητές που αποτελούν τα δεδοµένα εισόδου όσο και εξαρτηµένες µεταβλητές που έχουν το ρόλο του αποτελέσµατος. Οι εξαρτηµένες µεταβλητές εξόδου εξαρτώνται από τα δεδοµένα εισόδου (ανεξάρτητες µεταβλητές). Αντίθετα στις ΜΚΕ στρατηγικές δεν έχουµε εξαρτηµένες τιµές εξόδου παρά µόνο ανεξάρτητες τιµές δεδοµένων εισόδου. Οι βασικές στρατηγικές της ΚΕ είναι η κατηγοριοποίηση (Classification), η εκτίµηση (estimation), η πρόβλεψη (Prediction). Η κατηγοριοποίηση είναι προφανώς η πιο εύκολα κατανοητή στρατηγική και παρουσιάζει τα ακόλουθα τρία κοινά χαρακτηριστικά: 1. Η εκµάθηση είναι καθοδηγούµενη 2. Η εξαρτηµένη µεταβλητή είναι κατηγορική 3. Ο σκοπός τους είναι µέσα από το µοντέλο που έχει κατασκευαστεί να αποδίδει σε κάθε νέο στιγµιότυπο µια από τις τιµές της κλάσης εξόδου. Τέλος σχετικά µε τις εφαρµογές που µπορεί να περιγράψει ένα µοντέλο κατηγοριοποίησης αυτό αναφέρεται σε τρέχουσες κυρίως συµπεριφορές και όχι σε µελλοντικές. Από την άλλη πλευρά οι στρατηγικές πρόβλεψης στόχο έχουν να εξάγουν ένα αποτέλεσµα που έχει αναφορά στο µέλλον παρά σε µια τρέχουσα κατάσταση. Πρέπει να σηµειωθεί ότι πολλές τεχνικές εξόρυξης δεδοµένων που βασίζονται σε στρατηγικές κατηγοριοποίησης ή εκτίµησης µπορούν να χρησιµοποιηθούν ώστε να κατασκευαστούν µοντέλα που προβλέπουν. Το γεγονός αυτό όπως και πολλά άλλα θέµατα του data mining εξαρτάται από το είδος ή καλύτερα από τη φύση των δεδοµένων. Εκτός από τις στρατηγικές εξόρυξης δεδοµένων υπάρχουν και οι τεχνικές data mining µερικές εκ των οποίων είναι πολύ δηµοφιλείς. Τα δέντρα απόφασης είναι µια προσέγγιση της ΚΕ. Είναι ευρέως γνωστά και εφαρµόζονται σε πολλά επιστηµονικά πεδία. Έχουν γραφεί πολυάριθµα άρθρα που µνηµονεύουν την αποτελεσµατικότητα των δέντρων απόφασης. Υπάρχουν πολλοί αλγόριθµοι που τα υλοποιούν, ένας από τους πιο γνωστούς είναι ο C4.5. Μια γενική προσέγγιση αυτών των αλγορίθµων 37

περιλαµβάνει κανόνες ελέγχου υπόθεσης -> συµπεράσµατος που είναι τα φύλλα του δέντρου (σηµεία ελέγχου) και οι τερµατικοί κόµβοι που είναι οι δυνατές έξοδοι. Κάθε στιγµιότυπο διέρχεται από διάφορα φύλλα του δέντρου, που αποτελούν όπως αναφέρθηκε, σηµεία ελέγχου για να καταλλήξουν σε έναν τερµατικό κόµβο (έξοδος). 3.2 Μορφή εδοµένων. Όπως έχει ήδη επισηµανθεί η επιλογή των δεδοµένων που πρόκειται να χρησιµοποιηθούν σε µια τεχνική εξόρυξης δεδοµένων έχει τεράστια σηµασία και αντανακλά όχι µόνο στο ίδιο το αποτέλεσµα όπως ενδεχοµένως να συµβαίνει στην περίπτωση της ΜΚΕ αλλά και στην ποιότητα του αποτελέσµατος, όπως θα αναµέναµε στην περίπτωση της ΚΕ. Το είδος των δεδοµένων, όπως αυτό αποτυπώνεται από τον όρο attributes, θα αποτελέσει την είσοδο και έχει µεγάλη σηµασία. Τα δεδοµένα αυτά attributes µε τις τιµές τους θα είναι κατά το ένα µέρος τους το training data set και κατά ένα άλλο µέρος τους το test data set. Έτσι γίνεται φανερό ότι το µοντέλο που θα κατασκευαστεί θα είναι αποκλειστικά προϊόν των δεδοµένων τα οποία έχουν επιλεγεί για να το παράγουν και να το ελέγξουν. Πέρα όµως από το είδος των attributes που θα χρησιµοποιήσουµε σηµαντικό ρόλο έχει και η επιλογή των τιµών αυτών έτσι ώστε να θεωρούνται ως οι πιο αντιπροσωπευτικές. Το γεγονός αυτό σηµαίνει ότι θα πρέπει τα στιγµιότυπα που θα επιλεγούν να έχουν λογική συνέπεια πράγµα το οποίο θα αποτυπώνεται στην έξοδο. Στην περίπτωση των δεδοµένων των µετοχών οι δύο ανωτέρω γενικοί κανόνες δεν δύναται να έχουν πλήρη εφαρµογή. Αυτό συµβαίνει διότι οι διάφορες τιµές των µετοχών (High, Close, Low, Volume, Open) είναι χρονικά µεγέθη, δηλαδή η τιµή τους µεταβάλλεται στο χρόνο. Με τον τρόπο αυτό σχηµατίζονται για κάθε ένα από τα attributes της εκάστοτε µετοχής ανύσµατα διάστασης αντίστοιχης µε τον αριθµό των συνεδριάσεων στις οποίες η µετοχή συµµετείχε. Αρχίζει να γίνεται κατανοητό γιατί δεν µπορούµε από αυτές τις χρονοσειρές να επιλέξουµε κάποιες τιµές, αυτές που πιθανόν να θεωρούσαµε πιο αντιπροσωπευτικές, προκειµένου να κατασκευάσουµε ένα µοντέλο µε µεγαλύτερη αξιοπιστία στην έξοδο του. Τα ακολουθιακά δεδοµένα δεν επιτρέπουν τον τεµαχισµό τους και αυτό γιατί η επόµενη τιµή έχει σχέση µε την προηγούµενη αλλά και µε την αµέσως επόµενη της. Η σχέση αυτή µπορεί να υπαγορεύεται από ένα µεγαλύτερο χρονικό ορίζοντα απ αυτόν των τριών ηµερών. Έτσι λοιπόν αποµονώνοντας αλληλουχία τιµών µιας χρονοσειράς, που πιθανόν να τα θεωρούµε πιο συνεπή σφάλουµε, διότι αλλοιώνουµε πληροφορία που σχετίζεται µε την χρονική διακύµανση µιας συγκεκριµένης τιµής της µετοχής. Είναι κατανοητό ότι δεν µπορούµε να τεµαχίσουµε κατά το δοκούν χρονικά δεδοµένα, διότι µε τον τρόπο αυτό ελλατώνουµε την ποιότητα τόσο του training data set όσο και του test set. Αυτό που µπορεί να γίνει, στην περίπτωση των χρονικών τιµών µιας µετοχής, είναι να κατασκευάσουµε το µοντέλο µας επιλέγοντας συγκεκριµένο σετ δεδοµένων (training & test) για µια χρονική περίοδο κατά την οποία οι τιµές των µετοχών δεν παρουσιάζουν ασυνεπή διακύµανση. Με την επιλογή µιας οµαλής χρονικής περιόδου καταφέρνουµε να κατασκευάσουµε µοντέλο το οποίο θα παρουσιάζει ακρίβεια στην έξοδο του. Πέρα από την γενική προσέγγιση και περιγραφή της σηµασίας των δεδοµένων, είµαστε πλέον σε θέση να προχωρήσουµε σε ειδικότερη επεξήγηση και ερµηνεία των δεδοµένων που πρόκειται να χρησιµοποιήσουµε στην µελέτη µας. Η µορφή των 38

δεδοµένων µας δεν θα περιλαµβάνει τα attributes των data set που χρησιµοποιήσαµε στην ΜΚΕ και περιείχαν την τιµή ανοίγµατος, την µέγιστη και ελάχιστη τιµή τον όγκο συναλλαγών σε ηµερήσια βάση. Η επιλογή τους έγινε κατά τρόπο τέτοιο ώστε τα attributes που θα χρησιµοποιούσαµε να περιείχαν πρόσθετη πληροφορία από αυτή που θα µας έδινε ένα ηµερήσιο στιγµιότυπο µιας µετοχής. Προσπαθήσαµε να δηµιουργήσουµε ένα νέο στιγµιότυπο µεστό σε πληροφορία η οποία θα µπορούσε να αξιοποιηθεί σε µία τεχνική καθοδηγούµενης εκµάθησης όπως είναι η κατηγοριοποίηση. Όπως είδαµε σε προηγούµενο κεφάλαιο υπολογίσαµε για κάθε µετοχή κάθεναν από τους χρηµατιστηριακούς δείκτες (RSI, MACD, Momentum, Stochastic Oscillator) για την τιµή κλεισίµατος σε ηµερήσια βάση. Επιπλέον, ελέγξαµε µε στατιστικό τρόπο τη σχέση - τη σηµασία του κάθε δείκτη σε σχέση µε την πραγµατική τιµή κλεισίµατος της µετοχής και βγάλαµε κάποια συµπεράσµατα σηµαντικά για αυτούς. Για να προχωρήσουµε παρακάτω, στην τεχνική κατηγοριοποίησης θα χρησιµοποιήσουµε ως attributes εισόδου τις τιµές των δεικτών που έχουν υπολογιστεί για την τιµή κλεισίµατος σε ηµερήσια βάση. Επιπρόσθετα, θα εισάγουµε ως attribute για τη δηµιουργία του µοντέλου µας την πραγµατική τιµή κλεισίµατος ανά ηµέρα. Το ερώτηµα που προκύπτει αφορά στο πια θα είναι η έξοδος. Πράγµατι το ερώτηµα αυτό δεν είναι έυκολο κανείς να το απαντήσει διότι χρειάζεται κατά κάποιο τρόπο φαντασία και διαίσθηση. Πάντως το πιο απλό θέµα που πιθανόν θα ενδιέφερε έναν επενδυτή θα ήταν να γνωρίζει εάν θα πρέπει να επενδύσει µια συγκεκριµένη µέρα προκειµένου να κερδίσει. Αυτοµάτως η απάντηση στην ερώτηση αυτή θα ήταν ένα Ναι (yes) ή ένα Όχι (No) σε ηµερήσια βάση. Έτσι γίνεται εµφανές ότι η κλάση εξόδου θα λαµβάνει δύο τιµές (Categorical) «Yes» ή «No». Με ποιο τρόπο όµως θα µπορούσαµε να γεµίσουµε την κλάση εξόδου µε τιµές που θα αφορούσανε τα στιγµιότυπα του training και test set προκειµένου να προχωρήσουµε στην κατασκευή του µοντέλου µας; Το τµήµα του πηγαίου κώδικα σε c++ παρακάτω δείχνει τον τρόπο αυτό. for(i=1; i<n; i++){ if(x[i]>x[i-1]) y[i].assign("yes"); else if(x[i]<x[i-1]) y[i].assign("no"); else if(x[i]=x[i-1]){ if(x[i]<x[i+1]) y[i].assign("yes"); else y[i].assign("no"); } Σύµφωνα µε τον κώδικα αυτό ελέγχεται η τιµή κλεισίµατος της i-οστής µέρας µε την (i-1) µέρα για να διαπιστωθεί: 1. εάν είναι µεγαλύτερη τότε ο επενδυτής είναι σε θέση να προχωρήσει στην αγορά της µετοχής, οπότε η τιµή της κλάσης εξόδου λαµβάνει την τιµή (yes). 39

2. σε διαφορετική περίπτωση δεν θα προβεί στην αγορά αλλά αντίθετα εάν επιθυµεί µπορεί να πουλήσει µετοχές, τότε η τιµή της κλάσεως εξόδου θα λάβει την τιµή (no). Ύστερα από τις διευκρινήσεις που δόθηκαν µπορούµε να παρουσιάσουµε τη µορφή που λαµβάνουν τα data sets δύο µετοχών της ΕΤΕ και της ΤΙΤΚ. Στην «εικόνα 3.1» παρουσιάζουµε τα δεδοµένα µε την κλάση εξόδου. Εικόνα 3.1α Data set µετοχής ΤΙΤΚ. 40

Εικόνα 3.1β Data set µετοχής ΕΤΕ. Ο αλγόριθµος κατηγοριοποίησης που θα χρησιµοποιήσουµε παρακάτω έχει ως κλάση εξόδου κατηγορική τιµή (yes or no) και απαντάει στο ερώτηµα εάν θα πρέπει κανείς να επενδύσει µία δεδοµένη ηµέρα. Λόγω της φύσης των δεδοµένων ο αλγόριθµος κατηγοριοποίησης παίρνει την µορφή αλγόριθµου πρόβλεψης της τιµής µιας κλάσεως όχι τρέχουσας στιγµής αλλά µελλοντικής. Στην παράγραφο που ακολουθεί αναφέρουµε ορισµένα στοιχεία για το εργαλείο που πρόκειται να χρησιµοποιήσουµε προκειµένου να κατασκευάσουµε το µοντέλο πρόβλεψης µας. 3.3 Το Εργαλείο ida (idata Analyzer) ο Αλγόριθµος ESX Στο σηµείο αυτό και πρίν προχωρήσουµε στην εφαρµογή των τεχνικών εξόρυξης δεδοµένων χρήσιµο είναι να πούµε ορισµένα πράγµατα αναφορικά µε το εργαλείο και τον αλγόριθµο που θα χρησιµοποιήσουµε. Το εργαλείο ονοµάζεται ida(idata Analyzer) είναι βασισµένο πάνω στο EXCEL του Microsoft Office. Παρέχει υποστήριξη τόσο σε επιχειρηµατικούς όσο και σε τεχνικούς αναλυτές. Το ida αποτελείται από ένα προεπεξεργαστή (preprocessor), 41

τρία εργαλεία εξόρυξης δεδοµένων και µια γεννήτρια αναφορών (report generator). Ειδικότερα οι συνιστώσες από τις οποίες αποτελείται το ida αναλύονται παρακάτω. Preprocessor. Πρίν τα δεδοµένα να εισαχθούν σε κάποιο εργαλείο Data mining ελέγχονται για διάφορους τύπους σφαλµάτων περιλαµβάνοντας ελέγχους για εσφαλµένες αριθµητικές τιµές, για κενές γραµµές και γενικά για τιµές που λείπουν. O Preprocessor διορθώνει διαφόρων τύπων σφάλµατα αλλά δεν µπορεί να διορθώσει εσφαλµένες αριθµητικές τιµές. Ο Preprocessor εξάγει ένα αρχείο το οποίο είναι έτοιµο για εφαρµογή Data mining καθώς επίσης και µια αναφορά που περιέχει πληροφορίες σχετικά µε το είδος και την θέση των σφαλµάτων που δεν κατάφερε να διορθώσει. Heuristic Agent. Η συνιστώσα αυτή απαντά στον τρόπο παρουσίασης των αρχείων των δεδοµένων που περιέχουν χιλιάδες στιγµιότυπα. Ειδικότερα µας επιτρέπει να αποφασίσουµε εάν επιθυµούµε να εξάγουµε ένα υποσύνολο των δεδοµένων για να χρησιµοποιήσουµε ή εάν θέλουµε να χρησιµοποιήσουµε το σύνολο των δεδοµένων. ESX. Είναι ένα εργαλείο για Data mining το οποίο θα αναλύσουµε παρακάτω διεξοδικότερα. Πρέπει να πούµε ότι λόγω της δυσκολίας που παρουσιάζουν οι διάφορες αρχιτεκτονικές νευρωνικών δικτύων στην εξήγηση των αποτελεσµάτων το µοντέλο εκµάθησης ESX είναι σε θέση να εξάγει χρήσιµες πληροφορίες σχετικές µε µοτίβα γνώσης µεταξύ των δεδοµένων. Neural Networks. To ida περιλαµβάνει δύο αρχιτεκτονικές νευρωνικών δικτύων- back propagation neural network για ΚΕ a self organizing feature map για MKE. RuleMaker. To ida παρέχει τη δυνατότητα για κατασκευή κανόνων µε διάφορες επιλογές ρυθµίσεις. Report generation. Η συνιστώσα αυτή µας προσφέρει µια πληθώρα από αναφορές µε πληροφορίες που αφορούν στατιστικά µεγέθη αλλά και αποτελέσµατα σχετικά µε την εφαρµογή της επιλεχθείσας τεχνικής εξόρυξης δεδοµένων. Πέρα από τις συνιστώσες που συναποτελούν το εργαλείο ida σηµαντικό είναι να αναφέρουµε και ορισµένα πράγµατα σχετικά µε τον αλγόριθµο ESX. Ειδικότερα ο ESX µπορεί να βοηθήσει στην κατασκευή δεδοµένων στόχου (target data), να ανακαλύψει ανωµαλίες µεταξύ των δεδοµένων και να εφαρµόσει data mining. Ορισµένα από τα χαρακτηριστικά του ESX είναι τα ακόλουθα: Υποστηρίζει τόσο ΚΕ όσο και ΜΚΕ. εν κάνει στατιστικές υποθέσεις για τη φύση των δεδοµένων που πρόκειται να επεξεργαστεί. Υποστηρίζει µια αυτοµατοποιηµένη µέθοδο που αφορά στις χαµένες τιµές κάποιων attributes. Εφαρµόζεται σε δεδοµένα που περιλαµβάνουν τόσο αριθµητικά όσο και κατηγορικά δεδοµένα. Μπορεί να σηµειώνει ασυνέπειες και µη χρήσιµες τιµές στα δεδοµένα. 42

Στην ΚΕ µπορεί να εντοπίζει στιγµιότυπα και attributes τα οποία είναι σε θέση να κατηγοριοποιήσουν µε τον καλύτερο τρόπο νέα στιγµιότυπα άγνωστης προέλευσης. Στη ΜΚΕ παρέχει µια συνάρτηση συνολικής βελτιστοποίησης που ενθαρρύνει την καλύτερη συσταδοποίηση των στιγµιοτύπων. Η κύρια δοµή δεδοµένων του ESX είναι ένα ιεραρχικό δένδρο τριών επιπέδων «εικόνα 3.2». Root level Concept level Instance level Εικόνα 3.2 ESX Algorithm Όπου στο Instance Level βρίσκονται τα διάφορα στιγµιότυπα που αποτελούν τιµές των κλάσεων που βρίσκονται στο Concept Level. Concept Level αποθηκεύει την περίληψη για στατιστικά θέµατα για τις τιµές που αφορούν τα διάφορα attributes του αντίστοιχου επιπέδου των στιγµιοτύπων. To Root Level αποθηκεύει πληροφορία συνολικά για όλα τα στιγµιότυπα. Η πληροφορία του Concept Root Level δίνεται στον Report Generator, ο οποίος εξάγει συνολικά τις σχετικές πληροφορίες. 3.4 Αποτελέσµατα Classification Prediction Στην ενότητα αυτή είµαστε πλέον σε θέση να παραθέσουµε τα ενδεικτικά αποτελέσµατα πρόβλεψης δύο µετοχών της ΕΤΕ και της ΤΙΤΚ. Περισσότερα αποτελέσµατα κατηγοριοποίησης - πρόβλεψης παραθέτουµε στο παράρτηµα Β για περαιτέρω µελέτη. Πρέπει να σηµειώσουµε ότι η διαδικασία για τις υπόλοιπες µετοχές δεν διαφοροποιείται στο ελάχιστο και είναι ακριβώς η ίδια. Για την µετοχή ΕΤΕ χρησιµοποιήσαµε τα ακόλουθα data sets: 43

#Training set = 3221 Στιγµιότυπα (60% των συνολικών στιγµιοτύπων). #Test set1=2088 Στιγµιότυπα (40% των συνολικών στιγµιοτύπων). #Test set2=10 Στιγµιότυπα για Evaluation. Εφαρµόσαµε τον αλγόριθµο αφού πρώτα εισάγαµε τα ανωτέρω data set και κατασκευάσαµε το µοντέλο όπως αυτό αποτυπώνεται στις παρακάτω εικόνες. Οπότε το µοντέλο έχει confusion matrix τον πίνακα που φαίνεται στην «εικόνα 3.3»: Εικόνα 3.3 Confusion Matrix για τη µετοχή ΕΤΕ Οι πρώτες διαπιστώσεις από τον «Confusion Matrix» είναι οι ακόλουθες: Το µοντέλο παρουσιάζει accuracy = 61% 36.9%<Error rate<41.1% για διάστηµα εµπιστοσύνης 95% του test set. Επιπλέον, µε τον RuleMaker (component του ida) µπορούµε να παράγουµε κανόνες για κάθε τιµή της κλάσης εξόδου, αφού πρώτα ορίσουµε τις παρακάτω παραµέτρους: Minimum correctness = 75% (παράγονται οι κανόνες µε error rate=<25%) Minimum rule coverage = 50% (καλύπτει το 60% και πάνω των στιγµιοτύπων) Στη συνέχεια παρουσιάζουµε τους κανόνες που παρήχθησαν όχι για όλο το σύνολο των στιγµιοτύπων αλλά για αυτά που θεωρούνται ως πιο αντιπροσωπευτικά για την έξοδο. Για κάθε κανόνα γίνεται αναφορά της ακρίβειας του καθώς και του ποσοστού κάλυψης του επι του αριθµού των στιγµιοτύπουν της συγκεκριµένης κλάσης. 44

Στην «εικόνα 3.4» βλέπουµε ένα µέρος των test set της µετοχής ΕΤΕ που χρησιµοποιήθηκε, όπως ειπώθηκε, για να ελεχθεί η αξιοπιστία του µοντέλου που κατασκευάστηκε µε το training data set. Με χρώµα κίτρινο υπογραµµίζουµε τα attributes που χρησιµοποιήθηκαν ως είσοδοι στον αλγόριθµο ESX για την κατασκευή του µοντέλου µας, και δεν είναι άλλα από τις τιµές πρόβλεψης του κάθε δείκτη σε ηµερήσια βάση καθώς επίσης και η τιµή κλεισίµατος της µετοχής ΕΤΕ. Η κλάση Invest? αποτελεί την έξοδο του µοντέλου πρόβλεψης και έχει προκαθορισµένες τιµές (yes or no) εφόσον αναφερόµαστε στο test set. Το πεδίο computed class είναι αυτό το οποίο λαµβάνει τις τιµές τις οποίες υπολογίζει το µοντέλο πρόβλεψης. Οπότε είµαστε σε θέση να δούµε και µε λεπτοµέρεια την ακρίβεια του µοντέλου πρόβλεψης. Επιπρόσθετα το πεδίο που είναι χρωµατισµένο µε κόκκινο έχει κελιά κενά αλλά και κελιά µε αστερίσκους. Οι αστερίσκοι υποδηλώνουν ότι οι τιµές της κλάσης εξόδου είναι ίδιες µε τις υπολογισµένες. Έτσι οπτικά είναι έυκολο να δούµε πότε το µοντέλο µας κάνει σωστή πρόβλεψη. 45

Εικόνα 3.4 Αποτελέσµατα του Test Set Όπως ήδη έχει αναφερθεί ο αλγόριθµος, µας παρέχει και στατιστικές πληροφορίες που αφορούν τόσο στην κλάση εξόδου όσο και στα attributes εισόδου. Τα στατιστικά µεγέθη είναι χρήσιµα για να έχουµε µια πιο σφαιρική εκτίµηση του µοντέλου (Εικόνα 3.5). Ιδιαίτερη σηµασία για την εκτίµηση του µοντέλου έχουν τα στοιχεία που είναι χαρακτηρισµένα ως Class Resemblance statistics. Ειδικά το µέγεθος που ονοµάζεται Res. Score (Resemblance Score) έχει µεγάλη σηµασία για κάθε κλάση, όταν µάλιστα οι τιµή για κάθε µία από αυτές είναι µεγαλύτερη ή οριακά ίση µε την αντίστοιχη τιµή του Domain, τότε αυτό φανερώνει ότι το µοντέλο µας είναι πολύ καλό µε βάσει τα διαθέσιµα δεδοµένα. 46

Εικόνα 3.5 Στατιστικά αποτελέσµατα Επίσης στην «εικόνα 3.6α, 3.6 β» παρουσιάζονται πιο αναλυτικά στατιστικά στοιχεία για µεγαλύτερη λεπτοµέρεια και αφορούν την κάθε κλάση (yes/no) ξεχωριστά. Εικόνα 3.6α Στατιστικά στοιχεία κλάσης yes 47

Εικόνα 3.6 β Στατιστικά στοιχεία κλάσης no Ο ESX παράγει και ένα φύλλο EXCEL το οποίο έχει σηµαντικές πληροφορίες για κάθε κλάση αλλά και για κάθε στιγµιότυπο. Συγκεκριµένα στην «εικόνα 3.7» απεικονίζεται ένα µεγάλο µέρος των στιγµιοτύπων τα οποία είναι ταξινοµηµένα κατά κλάση και κατά ένα αύξοντα αριθµό που ονοµάζεται typicality. Ο όρος typicality έχει την έννοια της βαθµολόγησης των στιγµιοτύπων που ανήκουν στην ίδια κλάση µε µία τιµή έως το 1.0 (πρακτικά κανένα δεν λαµβάνει αυτή την τιµή αλλά την προσεγγίζει). Η κλίµακα αυτή της βαθµολόγησης έχει την έννοια να εξηγήσει το πόσο αντιπροσωπευτικό µπορεί να θεωρηθεί ένα στιγµιότυπο σε σχέση µε την κλάση αντίστοιχη έξοδο. Όσο µεγάλη είναι η τιµή του typicality για ένα στιγµιότυπο τόσο πιο συνεπές θεωρείται για την εν λόγω έξοδο. 48

Εικόνα 3.7 Ταξινόµηση των στιγµιοτύπων βάσει του typicality τους Για να αξιολογήσουµε περαιτέρω την ακρίβεια του µοντέλου, για το πόσο καλά µπορεί να προβλέψει και να κατευθύνει µε τον τρόπο αυτό την συµπεριφορά ενός υποτιθέµενου επενδυτή, χρησιµοποιήσαµε και το τρίτο σετ δεδοµένων των 10 στιγµιοτύπων, το οποίο αντιστοιχεί σε προβλέψεις επένδυσης ή µη 10 συνεχόµενων ηµερών. Εισάγαµε το test set2 ως προέκταση του test set1 κατά τρόπο τέτοιο που να έχουµε αφαιρέσει την τιµή της κλάσης που αντιστοιχούσε σε κάθε στιγµιότυπο. Ωστόσο γνωρίζουµε εκ των προτέρω πια είναι η τιµή της εξόδου κλάσης για κάθε ένα στιγµιότυπο και αυτό γιατί θα τη χρησιµοποιήσουµε για να τη συγκρίνουµε µε αυτή που υπολόγισε το µοντέλο πρόβλεψης µας. Στην «εικόνα 3.8» αποτυπώνονται τα αποτελέσµατα της πρόβλεψης ενδεχόµενης συµπεριφοράς ενός τυπικού επενδυτή για 10 συνεχόµενες µέρες και µε δεδοµένο ότι έχει εικόνα για τις τιµές των δεικτών και της τιµής κλεισίµατος των προηγούµενων ηµερών. Από την εικόνα µπορεί κανείς να παρατηρήσει ότι στις 6 από τις 10 περιπτώσεις αποφάσισε σωστά, εάν τις συγκρίνει κανείς µε τις τιµές των κλάσεων όπως στην πραγµατικότητα έχουν. Το ποσοστό αυτό, έστω και για ένα µικρό δείγµα test set2 αντανακλά στην ακρίβεια του µοντέλου όπως αυτή περιγράφεται στον confusion matrix. Στην συνέχεια για την περίπτωση της µετοχής TITK χρησιµοποιήσαµε µεγαλύτερο test set2 και στην 49

περίπτωση αυτή τα αποτελέσµατα αντικατόπτριζαν πλήρως την ακρίβεια του µοντέλου, όπως αυτή απεικόνιζόταν στον αντίστοιχο confusion matrix. Εικόνα 3.8 Αποτελέσµατα test set2 µετοχή ΕΤΕ Με όµοιο τρόπο για την µετοχή ΤΙΤΚ έχουµε: #Training set = 2851 Στιγµιότυπα (60% των συνολικών στιγµιοτύπων) #Test set1=1901 Στιγµιότυπα ( 40% των συνολικών στιγµιοτύπων) #Test set2=100 Στιγµιότυπα (Evaluation) Η µορφή των δεδοµένων που εισάγουµε στον αλγόριθµο ESX αφορά τις τιµές των δεικτών που υπολογίσαµε στο κεφάλαιο 1, ως attributes εισόδου, καθώς και την τιµή κλεισίµατος. Η κλάση εξόδου που αποτελεί και την πρόβλεψη µας είναι κατηγορική και αναφέρεται στο εάν κάποιος θα πρέπει να επενδύσει να αγοράσει δηλαδή µία συγκεκριµένη χρονική στιγµή µετοχές ή όχι. Στην «εικόνα 3.9» παρουσιάζουµε τη διασύνδεση του χρήστη για την εφαρµογή του αλγόριθµου ESX. Εικόνα 3.9 Επιπλέον εµφανίζεται ένα παράθυρο διαλόγου που ζητάει να θέσουµε ορισµένες ρυθµίσεις για τον αλγόριθµο ESX όπως είναι ο αριθµός των στιγµιοτύπων του training set. (εικόνα 3.10) 50