Πρόβλεψη Χρηματιστηριακών Μεγεθών με Τεχνικές Εξόρυξης Δεδομένων

Σχετικά έγγραφα
Πρόβλεψη Χρηµατιστηριακών Μεγεθών µε Τεχνικές Εξόρυξης εδοµένων

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Στοιχεία εισηγητή Ημερομηνία: 10/10/2017

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς

Ι. Preprocessing (Επεξεργασία train.arff):

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Greek Finance Forum* 29/06/15. Καθημερινή Ανάλυση και Σχόλιο για τις αγορές. GFF Athens - London 29/06/2015

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Τεχνικές Εξόρυξης Δεδομένων

Αναγνώριση Προτύπων Εργασία 1η Classification

Διδάσκουσα: Χάλκου Χαρά,

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΦΟΡΩΝ

ΠΕΡΙΕΧΟΜΕΝΑ. H πηγή επιχειρησιακών βιβλίων

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΜΙΑ ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ: ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΤΩΝ ΒΑΘΜΟΛΟΓΙΩΝ ΤΩΝ ΜΑΘΗΤΩΝ ΕΝΟΣ ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ 2000 ΩΣ ΤΟ 2013.

ΠΡΟΔΙΑΓΡΑΦΕΣ - ΟΔΗΓΙΕΣ ΔΙΑΜΟΡΦΩΣΗΣ ΘΕΜΑΤΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

Αναγνώριση Προτύπων Εργασία 2η Clustering

Υπόθεση της Αποτελεσματικής Αγοράς

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής

χρηµατοοικονοµικών παράγωγων συµβολαίων είναι για: αντιστάθµιση κινδύνων επενδυτικούς λόγους

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

Greek Finance Forum* 28/04/15. Καθημερινή Ανάλυση και Σχόλιο για τις αγορές. GFF Athens - London 28/04/2015

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Τεχνικές Προβλέψεων. 2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς

Εισόδημα Κατανάλωση

Χρονολογικές Σειρές (Time Series) Lecture notes Φ.Κουντούρη 2008

dtw(a, B) = dtw(a n, B m )

ΣΥΣΤΗΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ ΣΕ ΣΧΕ ΟΝ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου Όρου (ARIMA)

Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

Παντελάκης Χρηματιστηριακή Α.Ε.Π.Ε.Υ. Trade Direct Manual

Εβδομαδιαίο Δελτίο Δεικτών Τάσης και Όγκου / Weekly Trend & Volume Indicators for GREEK Stocks

Greek Finance Forum* 31/07/14. Καθημερινή Ανάλυση και Σχόλιο για τις αγορές

Greek Finance Forum. Global Technical Analysis Institute 14/02/13

Greek Finance Forum* 21/08/14. Καθημερινή Ανάλυση και Σχόλιο για τις αγορές

ΑΝΑΚΟΙΝΩΣΗ. Θέμα: Αλλαγή παραμέτρων Διαχείρισης Κινδύνου

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Weekly Report 242 ο Τεύχος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος

Κεφάλαιο 8 Συνεχείς Κατανομές Πιθανοτήτων

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στη Διοίκηση Επιχειρήσεων (M.B.A.)

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

Τι είναι το GreekStock?

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Πρόγραμμα Σπουδών: ΤΡΑΠΕΖΙΚΗ Θεματική Ενότητα: ΤΡΑ-61 Στρατηγική Τραπεζών Ακαδημαϊκό Έτος:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΟΧΑΣΤΙΚΑ ΜΟΝΤΕΛΑ

Γραπτή Εργασία 3 Παράγωγα Αξιόγραφα. Γενικές οδηγίες

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 3: Πολλαπλή Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

Πάνος Παναγιώτου. Χρηματιστηριακή Τεχνική Ανάλυση. 08 Φεβρουαρίου 2014

Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Πρόγραµµα Σπουδών: ΤΡΑΠΕΖΙΚΗ Θεµατική Ενότητα: ΤΡΑ-61 Στρατηγική Τραπεζών Ακαδηµαϊκό Έτος:

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

4. ΕΠΙΛΟΓΗ ΤΗΣ ΜΕΘΟΔΟΥ ΠΡΟΒΛΕΨΗΣ

Η Επίδραση των Events στην Απόδοση των Μετοχών

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

Μια από τις σημαντικότερες δυσκολίες που συναντά ο φυσικός στη διάρκεια ενός πειράματος, είναι τα σφάλματα.

Βραχυχρόνιες προβλέψεις του πραγματικού ΑΕΠ χρησιμοποιώντας δυναμικά υποδείγματα παραγόντων

Παρασκευή, 2 Δεκεμβρίου, 2016 Έτος: 9 Αύξων Αριθμός Συνεδρίασης: 230

ΚΕΦΑΛΑΙΟ 5 o ΣΥΜΠΕΡΑΣΜΑΤΑ

Δευτέρα, 30 Ιανουαρίου, 2017 Έτος: 10 Αύξων Αριθμός Συνεδρίασης: 20

Τετάρτη, 31 Αυγούστου, 2016 Έτος: 9 Αύξων Αριθμός Συνεδρίασης: 164

Καλώς ήλθατε στο εργαστήριο του GreekTrader!!!

WEEKLY OVERVIEW & CHARTS

ETFs. exchange traded funds. οδηγόςεπενδυτή. μια νέα επενδυτική πρόταση από το ΧΡΗΜΑΤΙΣΤΗΡΙΟ ΑΘΗΝΩΝ

Παρασκευή, 24 Μαρτίου, 2017 Έτος: 10 Αύξων Αριθμός Συνεδρίασης: 58

Παρασκευή, 30 Δεκεμβρίου, 2016 Έτος: 9 Αύξων Αριθμός Συνεδρίασης: 249

Τετάρτη, 13 Δεκεμβρίου, 2017 Έτος: 10 Αύξων Αριθμός Συνεδρίασης: 241

Παρασκευή, 28 Ιουλίου, 2017 Έτος: 10 Αύξων Αριθμός Συνεδρίασης: 144

Παρασκευή, 14 Ιουλίου, 2017 Έτος: 10 Αύξων Αριθμός Συνεδρίασης: 134

Στατιστικές Έννοιες (Υπολογισμός Χρηματοοικονομικού κινδύνου και απόδοσης, διαχρονική αξία του Χρήματος)

Τρίτη, 5 Απριλίου, 2016 Έτος: 9 Αύξων Αριθμός Συνεδρίασης: 63

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Transcript:

Πρόβλεψη Χρηματιστηριακών Μεγεθών με Τεχνικές Εξόρυξης Δεδομένων Σαμαράς Νικόλαος, Μαζαράκης Αθανάσιος Τμ. Εφαρμοσμένης Πληροφορικής, Πανεπιστήμιο Μακεδονίας Εγνατίας 156, 54006, Θεσσαλονίκη samaras@uom.gr, mazarakhs_ath@yahoo.gr Περίληψη Στόχος της εργασίας είναι η δημιουργία ενός μοντέλου, βάσει του οποίου θα είναι δυνατή η πρόβλεψη της διακύμανσης των χρηματιστηριακών μεγεθών που αφορούν στην αγορά και πώληση μετοχών του χρηματιστηρίου αξιών Αθηνών. Η μεθοδολογία προσέγγισης αφορά τόσο στην κατάλληλη επεξεργασία προετοιμασία των δεδομένων όσο και στην επιλογή εργαλείων και τεχνικών εξόρυξης δεδομένων για την κατασκευή του μοντέλου πρόβλεψης. Ειδικότερα, η επεξεργασία των δεδομένων γίνεται με τη χρήση Στατιστικών μεγεθών, της θεωρίας Χρονοσειρών, της τεχνικής Unsupervised Clustering, και Supervised Learning χρονοσειρών. Keywords: Εξόρυξη Δεδομένων, Cross Correlation, Καθοδηγούμενη Εκμάθηση (ΚΕ), Μη Καθοδηγούμενη Εκμάθηση (ΜΚΕ) 1. Εισαγωγή Η παρούσα μελέτη πραγματεύεται τη δυνατότητα πρόβλεψης κατά την επενδυτική διαδικασία στο χρηματιστήριο αξιών Αθηνών, με τη χρήση τεχνικών εξόρυξης δεδομένων. Ειδικότερα, χρησιμοποιούνται πραγματικά δεδομένα μετοχών του χρηματιστηρίου σε ημερήσια βάση, τα οποία με κατάλληλη επεξεργασία είναι δυνατόν να μας οδηγήσουν στην κατασκευή ενός μοντέλου πρόβλεψης. Σύμφωνα με την μεθοδολογία των τεχνικών εξόρυξης δεδομένων, η προσπάθεια εστιάζεται στη κατάλληλη επιλογή και κατ επέκταση επεξεργασία των δεδομένων. Τα δεδομένα περιέχουν πληροφορία η οποία μπορεί να εξαχθεί χρησιμοποιώντας είτε καθοδηγούμενη είτε μη καθοδηγούμενη εκμάθηση. Στόχος της εργασίας είναι η μελέτη της αποτελεσματικότητας των δύο προσεγγίσεων για την περίπτωση της διακύμανσης των μετοχών. Βέβαια για την αξιοπιστία και επομένως την αποτελεσματικότητα του μοντέλου απαραίτητη είναι η διαδικασία αξιολόγησης του. Κατά την διαδικασία αυτή φαίνεται αν το μοντέλο λειτουργεί σωστά, σύμφωνα δηλαδή με την ακρίβεια που το χαρακτηρίζει κατά την δημιουργία του [9]. Επιπλέον για λόγους πληρότητας της μελέτης, αφού πρώτα υπολογίσαμε για κάθε μία μετοχή ξεχωριστά την ημερήσια τιμή της, όπως αυτή προκύπτει από τους πιο δημοφιλείς χρηματιστηριακούς δείκτες, προσπαθήσαμε να δούμε κατά πόσο

6 πλησιάζει την πραγματική τιμή κλεισίματος της αντίστοιχης μετοχής. Το γεγονός αυτό μας παρέχει σημαντική πληροφορία σχετικά με το χρηματιστηριακό σύστημα. Η όλη διαδικασία δεν μπορεί να χαρακτηριστεί απλή, διότι για να οδηγηθούμε στα βήματα που τελικά ακολουθήσαμε έπρεπε να γνωρίζουμε τον τρόπο με τον οποίο μεταβάλλεται διακυμαίνεται η τιμή μιας μετοχής. Έτσι λοιπόν αναγκαστήκαμε να πραγματοποιήσουμε επισκέψεις σε εταιρεία σχετική με το αντικείμενο μας, προκειμένου να πάρουμε συνεντεύξεις από εμπειρογνώμονα και με τον τρόπο αυτό να αντλήσουμε σημαντικές πληροφορίες, οι οποίες τελικά να αξιοποιηθούν σωστά στις τεχνικές εξόρυξης δεδομένων. 2. Σύνολο Δεδομένων 2.1 Μορφή Δεδομένων Η σημασία των δεδομένων είναι μεγάλη και καθοριστική για την κατασκευή ενός μοντέλου. Για το λόγο αυτό η προσπάθεια μας επικεντρώθηκε στην ανεύρεση όσο το δυνατόν πιο αξιόπιστων δεδομένων [7]. Tα δεδομένα που ελήφθησαν αφορούν πραγματικά δεδομένα των 20 σημαντικότερων μετοχών που διαμορφώνουν το γενικό δείκτη του χρηματιστηρίου. Η περίοδοι καταγραφής των δεδομένων καθώς και η ονομασία των μετοχών παρουσιάζονται στην «εικόνα 1». Εικόνα 1. Μορφή Δεδομένων Πρέπει να διευκρινίσουμε ότι κάθε ημέρα για κάθε μετοχή χαρακτηρίζεται ως στιγμιότυπο (instance), σύμφωνα με την ορολογία της Τεχνολογίας Εξόρυξης δεδομένων [9]. Τα στιγμιότυπα για κάθε μετοχή κυμαίνονται (σε πλήθος) μιας και η χρονική περίοδος της διακύμανσης για κάθε μετοχή είναι διαφορετική. Έτσι τα στιγμιότυπα αριθμητικά κυμαίνονται από 5232 μέχρι 151 για την μετοχή με το

μικρότερο χρονικό διάστημα, πχ για τη μετοχή ΤΤ η οποία εισήχθη στο χρηματιστήριο το 2006 οι καταγραφές των τιμών διακύμανσης της είναι μόλις 151, όσες και οι μέρες ύπαρξης της στο χρηματιστήριο. Για κάθε μετοχή παρέχονται πληροφορίες όπως η ονομασία της μετοχής (Ticker), ημερομηνία στιγμιότυπου (DTYYYYMMDD), τιμή ανοίγματος (Open), υψηλότερη τιμή μετοχής κατά τη διάρκεια της ημέρας (High), χαμηλότερη τιμή κατά τη διάρκεια της ημέρας (Low), τιμή κλεισίματος ανά ημέρα (Close), όγκος συναλλαγών στο τέλος της ημέρας (Volume) [2]. Τα αρχεία των δεδομένων όπως παρουσιάστηκαν αποτελούν τη βασική πρωταρχική δομή δεδομένων τα οποία θα χρησιμοποιηθούν προκειμένου να εφαρμόσουμε όχι μόνο τις διάφορες τεχνικές εξόρυξης δεδομένων αλλά και για να εξάγουμε συμπεράσματα που αφορούν στην στατιστική επεξεργασία των δεδομένων [6]. 2.2 Θέματα Τεχνικής Ανάλυσης Χρηματιστηριακοί Δείκτες Πριν προχωρήσουμε στην περαιτέρω ανάλυση και επεξεργασία των δεδομένων χρήσιμο είναι στο σημείο αυτό να αναφέρουμε ορισμένα στοιχεία που αφορούν θέματα χρηματιστηριακής ανάλυσης και πιο συγκεκριμένα θέματα που αφορούν τους χρηματιστηριακούς δείκτες. Η όλη επενδυτική διαδικασία στηρίζεται στην έννοια της ικανότητας για πρόβλεψη της διακύμανσης της εκάστοτε μετοχής που ενδιαφέρει κάθε επενδυτή. Επιπλέον, η διακύμανση της τιμής της μετοχής εξαρτάται τόσο από τη ζήτηση όσο και από τη διαμορφούμενη προσφορά αυτής στο επενδυτικό κοινό. Ισχύει επομένως και για το χρηματιστήριο ότι ισχύει και για κάθε αγορά, ο νόμος προσφοράς και ζήτησης που διαμορφώνει την τελική τιμή του προϊόντος, με μόνη διαφορά τη δυναμική που παρουσιάζει η χρηματιστηριακή αγορά στη διαμόρφωση των τιμών σε σχέση με τον παράγοντα χρόνο, καθώς επίσης και των ιδιαίτερων παραγόντων που φαίνεται να επιδρούν στην γενικότερη μορφή της εν λόγω αγοράς [3]. Έτσι λοιπόν για έναν επενδυτή αυτό που έχει ιδιαίτερο ενδιαφέρον είναι η όσο το δυνατόν ασφαλέστερη γνώση της συμπεριφοράς μίας μετοχής. Αν ενδιαφέρεται να αγοράσει μία μετοχή θα ήταν ευχής έργο να γνωρίζει πως πρόκειται να κινηθεί αυτή έτσι ώστε να την αγοράσει σε μία χαμηλή τιμή και να την πουλήσει σε μια υψηλότερη. Η διαφορά αυτή είναι που καθορίζει και το απόλυτο κέρδος. Το ζητούμενο επομένως είναι η δυνατότητα ασφαλούς πρόβλεψης δηλαδή το πότε θα αποφασίσει να αγοράσει ή να πουλήσει ένας επενδυτής μια μετοχή. Τον προβληματισμό αυτό έρχονται να διευκολύνουν οι διάφοροι χρηματιστηριακοί δείκτες [10]. Οι δείκτες αυτοί έχουν τη βάση τους στη στατιστική ανάλυση και υπολογίζονται εφαρμόζοντας μια συγκεκριμένη μαθηματική σχέση όπως φαίνεται παρακάτω. Βέβαια στο σημείο αυτό πρέπει να διευκρινίσουμε ότι τη διακύμανση της τιμής μιας μετοχής την επηρεάζουν και άλλοι παράγοντες όπως κοινωνικοί, πολιτικοί και γενικότερα οικονομικού ενδιαφέροντος παράγοντες, οι οποίοι όμως δεν είναι 7

8 δυνατόν να μοντελοποιηθούν ή καλύτερα να ποσοτικοποιηθούν και για το λόγο αυτό δεν μπορούν να ληφθούν υπόψη στην παρούσα μελέτη [2]. Stochastic Oscillator (%Κ-period,%D-slowing) =%(Κλείσιμο ημέρας- ελάχιστο περιόδου)/(μέγιστο περιόδου ελάχιστο περιόδου) MACD (Moving Average Convergence/Divergence) = ΕΚΜ(Close,12)-ΕΚΜ(Close,26) RSI (Relative Strength Index 14 Days) =100[100/(1+U/D)], U=Average of upward price change D=Average of downward price change Momentum=(τιμή κλεισίματος/τιμή κλεισίματος 12 ημερών προγενέστερα)*100 Σημείωση: ΕΚΜ σημαίνει ότι οι τιμές συμμετέχουν εκθετικά για τον υπολογισμό του μέσου όρου καθώς πλησιάζουμε τη τρέχουσα τιμή υπολογισμού. 2.3 Ο Συντελεστής Ετεροσυσχέτισης Στο σημείο αυτό θα αναφερθούμε στο συντελεστή ετεροσυσχέτισης ο οποίος συναντάται κυρίως σε θέματα που αφορά την ανάλυση σημάτων και κυματομορφών. Ο συντελεστής ετεροσυσχέτισης αφορά τόσο σε ένα σήμα άνυσμα όσο και μεταξύ δύο διαφορετικών σημάτων - ανυσμάτων. Κυρίως χρησιμοποιείται με τη μορφή δύο μαθηματικών εκφράσεων. Η πρώτη αναφέρεται στον υπολογισμό του συντελεστή ετεροσυσχέτισης μεταξύ δύο διαφορετικών σημάτων ή και του ιδίου σήματος σε διαφορετική χρονική στιγμή για μία καθυστέρηση συγκεκριμένη d, και αποτυπώνεται από τη μαθηματική έκφραση που ακολουθεί [8]: Επιπλέον, ιδιαίτερο ενδιαφέρον παρουσιάζει το γεγονός της δεύτερης έκφρασης του συντελεστή ετεροσυσχέτισης η οποία αφορά στον υπολογισμό της τιμής του όχι μόνο για μια συγκεκριμένη καθυστέρηση d αλλά για ένα εύρος καθυστερήσεων το οποίο κυμαίνεται. Έτσι λοιπόν προκειμένου να υπολογίσουμε πιθανή ομοιότητα μεταξύ δύο διαφορετικών σημάτων ή την περιοδικότητα, στην περίπτωση που πρόκειται για ένα μόνο σήμα, εφαρμόζουμε την παρακάτω μαθηματική συνάρτηση :

Για να λάβουμε υπόψη μας όλους τους δυνατούς τρόπους συσχέτισης δύο ανυσμάτων, σε σχέση πάντα με τη μεταξύ τους καθυστέρηση, θα πρέπει να σημειώσουμε ότι η καθυστέρηση d μπορεί να λαμβάνει, στη γενική της μορφή, τιμές (πεδίο τιμών) από το μείον μέγιστο της καθυστέρησης d (-dmax) μέχρι το σύν μέγιστο της καθυστέρησης d (+dmax). Δηλαδή, d= -dmax,,0,1, dmax Ουσιαστικά δηλαδή πρόκειται για μία προσπάθεια σύγκρισης δύο σημάτων μεταξύ τους «σύροντας» κατά κάποιον τρόπο το ένα σήμα σε σχέση με το άλλο σε όλο το πεδίο τιμών και υπολογίζοντας τη συσχέτιση κάθε φορά για μία συγκεκριμένη καθυστέρηση. Ο μόνος τρόπος που έχουμε για να ελέγξουμε το βαθμό που ο κάθε δείκτης προέβλεψε ικανοποιητικά την διακύμανση μίας μετοχής είναι να συγκρίνουμε την κάθε πραγματική τιμή κλεισίματος με την τιμή κλεισίματος που προβλέπει ο κάθε δείκτης [6]. Κατά ένα τρόπο είμαστε σε θέση να αξιολογήσουμε τη «βαρύτητα» του κάθε δείκτη απέναντι στο επενδυτικό κοινό. Ο συντελεστής ετεροσυσχέτισης μας επιτρέπει να δούμε αλγεβρικά πόσο καλή είναι η σχέση της πραγματικής τιμής και της τιμής του εκάστοτε δείκτη [10]. Επιπλέον, η συνάρτηση ετεροσυσχέτισης μας επιτρέπει να ελέγξουμε για όλες τις δυνατές καθυστερήσεις για τις οποίες ενδεχομένως να παρατηρηθεί οποιαδήποτε ομοιότητα [8]. Για κάθε μετοχή εφαρμόσαμε προγραμματιστικά την συνάρτηση Cross Correlation μεταξύ της πραγματικής τιμής κλεισίματος της και της τιμής για κάθε δείκτη σε σχέση πάντα με την τιμή κλεισίματος αυτής. Ο αλγόριθμος αφορά όλες τις δυνατές θετικές καθυστερήσεις της τιμής του εκάστοτε δείκτη με την πραγματική τιμή διότι είναι δεδομένο ότι οι τιμές των δεικτών έπονται (εφόσον αφορά πρόβλεψη) σε σχέση με την πραγματική τιμή. Ενδεικτικά παραθέτουμε τα διαγράμματα για κάθε δείκτη με την τιμή κλεισίματος της μετοχής ΕΤΕ (Εικόνες 2 ως 5). 9 ETE - MACD Correlation 0.0 0.1 0.2 0.3 ETE - Momentum Correlation 0.0 0.1 0.2 0.3 0.4 0.5 0 1000 2000 3000 4000 5000 Εικόνα 2. MACD Close Price Lag 0 1000 2000 3000 4000 5000 Lag Εικόνα 3. Momentum Close Price

10 ETE - RSI Correlation 0.0 0.1 0.2 0.3 0.4 0.5 ETE - Stochastic Oscillator Correlation 0.0 0.1 0.2 0.3 0.4 0 1000 2000 3000 4000 5000 Lag Εικόνα 4. RSI Close Price 3. Μη Καθοδηγούμενη Εκμάθηση 0 1000 2000 3000 4000 5000 Lag Εικόνα 5. Stochastic Oscillator Close Price Η Μη Καθοδηγούμενη Εκμάθηση (ΜΚΕ) αφορά την κατασκευή μοντέλων εξόρυξης γνώσης με την χρήση αλγορίθμων Unsupervised Clustering. Η βασική σκέψη αυτής της μεθοδολογίας αφορά στην εύρεση γνώσης η οποία δεν έχει προκαθοριστεί κατά την εισαγωγή των δεδομένων με τη μορφή κλάσεων. Επιπλέον σε αντίθεση με άλλες μεθόδους εξόρυξης πληροφορίας, η ΜΚΕ στηρίζεται σε μεθόδους συσταδοποίησης των δεδομένων χωρίς να προσδιορίζεται με τον τρόπο αυτό πιο είναι το ζητούμενο. Επιλέγοντας ένα συγκεκριμένο αλγόριθμο συσταδοποίησης και εφαρμόζοντας τον με βάσει κάποιο από τα χαρακτηριστικά ή σε συνδυασμό αυτών, τα διάφορα στιγμιότυπα κατανέμονται με κριτήρια ομοιότητας γεγονός το οποίο ενδεχομένως να οδηγήσει σε κάποια συμπεράσματα γνώση. Το αποτέλεσμα της ΜΚΕ μπορεί να αξιολογηθεί και να ερμηνευτεί στη συνέχεια εφαρμόζοντας μια μέθοδο καθοδηγούμενης εκμάθησης έτσι ώστε να γίνει σαφής η ακούσια πληροφορία [1], [4], [5]. Πριν προχωρήσουμε στα αποτελέσματα από τη ΜΚΕ πρέπει να αναφέρουμε ορισμένες πληροφορίες που σχετίζονται σε τεχνικό επίπεδο με τη μορφή των δεδομένων που χρησιμοποιήθηκαν [7]. Πιο συγκεκριμένα χρησιμοποιήθηκαν δύο Data sets. Το πρώτο περιείχε εγγραφές και για τις 20 προαναφερόμενες μετοχές για το ίδιο χρονικό διάστημα ενώ το δεύτερο περιείχε εγγραφές για 19 μετοχές Η ΜΚΕ εφαρμόστηκε σε δύο μεταβλητές με τους συνδυασμούς που παρουσιάζονται παρακάτω [11]. Close price Volume Close price Low price Close price High price Το αποτέλεσμα ήταν να σχηματιστούν 10 clusters με τα ακόλουθα χαρακτηριστικά. Attributes: 7 <CLOSE>, <VOL> Ignored: <TICKER>, <DTYYYYMMDD>, <OPEN>, <HIGH>, <LOW>

11 Cluster centroids: Mean/Mode Std Devs Cluster 0 12.8633 15273820.8333 7.6945 6532603.3128 Cluster 1 20.3792 471389.5895 0.7263 520483.5315 Cluster 2 26.035 511434.3591 0.8055 529390.3109 Cluster 3 4.0657 1373293.7405 0.6396 1069166.8506 Cluster 4 34.8865 1120937.9474 1.4582 749560.1374 Cluster 5 8.6974 435054.8603 1.2055 509315.4889 Cluster 6 28.6942 770674.4523 1.0232 654380.2350 Cluster 7 23.0986 427017.3304 0.7452 561851.8590 Cluster 8 17.7385 444704.5057 1.0751 511873.9783 Cluster 9 39.5173 109815.3561 1.6623 69565.6704 Clustered Instances 0 6 ( 0%) 1 531 ( 18%) 2 259 ( 9%) 3 158 ( 5%) 4 114 ( 4%) 5 594 ( 20%) 6 241 ( 8%) 7 457 ( 15%) 8 528 ( 17%) 9 132 ( 4%) Classes to Clusters: 0 1 2 3 4 5 6 7 8 9 <-- assigned to cluster 0 0 0 0 0 1 0 0 150 0 ΤΤ 0 0 0 0 19 0 0 0 0 132 ΤΙΤΚ 1 69 4 0 0 0 0 46 31 0 ΠΕΙΡ 0 50 0 0 0 0 0 24 77 0 ΟΤΕ 0 0 43 0 0 0 106 2 0 0 ΟΠΑΠ 0 135 0 0 0 0 0 7 9 0 ΜΟΗ 4 0 0 7 0 140 0 0 0 0 ΚΥΠΡ 0 30 0 0 0 0 0 17 104 0 ΚΟΣΜΟ 0 67 18 0 0 0 2 58 6 0 ΙΝΛΟΤ 0 21 12 0 0 0 22 43 53 0 ΦΟΛΙ 0 17 51 0 0 0 15 68 0 0 ΕΥΡΩΒ 0 0 2 0 95 0 54 0 0 0 ΕΤΕ 0 1 33 0 0 0 7 110 0 0 ΕΜΠ 0 0 0 0 0 151 0 0 0 0 ΕΛΤΕΧ 0 0 0 0 0 151 0 0 0 0 ΕΛΠΕ 0 0 89 0 0 0 35 27 0 0 ΕΕΕΚ 0 0 0 151 0 0 0 0 0 0 ΑΤΕ 1 69 7 0 0 0 0 55 19 0 ΑΛΦΑ 0 0 0 0 0 151 0 0 0 0 ΒΙΟΧΚ 0 72 0 0 0 0 0 0 79 0 ΔΕΗ Cluster 0 <-- ΚΥΠΡ Cluster 1 <-- ΜΟΗ

12 Cluster 2 <-- ΕΕΕΚ Cluster 3 <-- ΑΤΕ Cluster 4 <-- ΕΤΕ Cluster 5 <-- ΕΛΤΕΧ Cluster 6 <-- ΟΠΑΠ Cluster 7 <-- ΕΜΠ Cluster 8 <-- ΤΤ Cluster 9 <-- ΤΙΤΚ Incorrectly clustered instances : 1897.0 62.8146 % Από τα ανωτέρω γίνεται φανερός και ο αριθμός των στιγμιοτύπων που συμμετέχουν σε κάθε cluster και αφορούν σε συγκεκριμένη μετοχή. Επίσης γίνεται εμφανές πια μετοχή επικρατεί σε κάθε cluster, ενώ υπολογίζεται και ακριβής αριθμός των στιγμιοτύπων που δεν κατάφεραν να συσταδοποιηθούν σωστά (62.8146 %). Πρόκειται για ένα μεγάλο ποσοστό που οφείλεται στο είδος των δεδομένων και στη μεθοδολογία Data mining που ακολουθήθηκε. Στην Εικόνα 6 παρουσιάζονται τα clusters που σχηματίστηκαν μελετώντας το συνδυασμό close-high price. Εικόνα 6. Close High Price Cluster (1 st Data set) Σε όλες τις περιπτώσεις προκύπτουν τα ίδια ποιοτικά συμπεράσματα. Kαι στα τρία clusters ο αριθμός των στιγμιοτύπων που δεν έχουν συσταδοποιηθεί σωστά είναι μεγάλος. Η κατανομή των διαφόρων στιγμιοτύπων στα διάφορα clusters παραμένει άνισος.

Τα δύο αυτά στοιχεία μας οδηγούν στο συμπέρασμα ότι ο αλγόριθμος δεν μπορεί να φτάσει σε ασφαλή λύση. Το γεγονός αυτό μπορεί να ερμηνευτεί από το είδος των δεδομένων που χρησιμοποιήθηκαν. Τα δεδομένα των μετοχών είναι ακολουθιακά χρονικά και για το λόγο αυτό δεν μπορούμε να εφαρμόσουμε τις κλασσικές μεθόδους clustering. Επομένως, η προσέγγιση της ΜΚΕ στην περίπτωση των χρονικών δεδομένων, όπως είναι η διακύμανση των μετοχών, δεν μπορεί να μας οδηγήσει σε μία αποδεκτή λύση. 4. Καθοδηγούμενη Εκμάθηση Γενικά η διαδικασία κατασκευής ενός μοντέλου Καθοδηγούμενης Εκμάθησης (ΚΕ) περιλαμβάνει τα ακόλουθα βήματα. Αρχικά χρησιμοποιώντας ένα σύνολο από δεδομένα τα οποία θεωρούμε αξιόπιστα ή συνεπή (training data set) είναι αυτά τα οποία είναι γνωστό ότι κατηγοριοποιούνται σωστά. Προκειμένου να εξετάσουμε την ακρίβεια του μοντέλου που κατασκευάσαμε με τα στιγμιότυπα του training set δηλαδή την ικανότητα του μοντέλου να μπορεί να κατηγοριοποιεί στιγμιότυπα των οποίων δεν είναι γνωστή η κατηγοριοποίηση χρησιμοποιούμε ένα επιπλέον data set γνωστό ως test set. Τα στιγμιότυπα του test set έχουν δεδομένη κατηγοριοποίηση, έτσι μπορούμε να συγκρίνουμε την κατηγοριοποίηση που υπολογίζει το μοντέλο μας με την πραγματική κατηγοριοποίηση των στιγμιοτύπων και να έχουμε μια εικόνα της ακρίβειας του μοντέλου που κατασκευάσαμε. Όπως έχει ήδη επισημανθεί η επιλογή των δεδομένων που πρόκειται να χρησιμοποιηθούν σε μια τεχνική εξόρυξης δεδομένων έχει τεράστια σημασία και αντανακλά όχι μόνο στο ίδιο το αποτέλεσμα όπως ενδεχομένως να συμβαίνει στην περίπτωση της ΜΚΕ αλλά και στην ποιότητα του αποτελέσματος, όπως θα αναμέναμε στην περίπτωση της ΚΕ. Τα δεδομένα που χρησιμοποιήσαμε ως δεδομένα εισόδου είναι οι διάφοροι χρηματιστηριακοί δείκτες που υπολογίστηκαν για κάθε μία μετοχή ξεχωριστά ανωτέρω. Επιπλέον ως κλάση εξόδου χρησιμοποιείται μια κατηγορική ποσότητα η οποία απαντάει στο ερώτημα για το εάν πρέπει κανείς να επενδύσει σε μία συγκεκριμένη ημέρα και λαμβάνει τις δυνατές τιμές (yes/no). Έτσι, για κάθε μετοχή σχηματίσαμε ένα διαφορετικό data set όπου για την μετοχή ΕΤΕ παρατίθεται παρακάτω (Εικόνα 7). Στη χρήση της ΚΕ χρησιμοποιήθηκαν 3 σύνολα δεδομένων τα οποία παρουσιάζονται στη συνέχεια. #Training set = 2851 Στιγμιότυπα (60% των συνολικών στιγμιότυπων) #Test set1=1901 Στιγμιότυπα ( 40% των συνολικών στιγμιότυπων) #Test set2=100 Στιγμιότυπα (Evaluation) 13

14 Εικόνα 7. Data Set ΚΕ Μετοχής ΕΤΕ Εικόνα 8. Confusion Matrix για τη μετοχή ΕΤΕ Οι πρώτες διαπιστώσεις που προκύπτουν από τον confusion matrix είναι οι ακόλουθες: Το μοντέλο παρουσιάζει accuracy = 58%

39.7%<Error rate<44.3% για διάστημα εμπιστοσύνης 95% του test set. Επιπλέον, με τον RuleMaker μπορούμε να παράγουμε κανόνες για κάθε τιμή της κλάσης εξόδου, αφού πρώτα ορίσουμε τις παρακάτω παραμέτρους: Minimum correctness = 75% (παράγονται οι κανόνες με error rate=<25%) Minimum rule coverage = 50% (καλύπτει το 60% και πάνω των στιγμιοτύπων) Στη συνέχεια παρουσιάζουμε τους κανόνες που παρήχθησαν όχι για όλο το σύνολο των στιγμιοτύπων αλλά για αυτά που θεωρούνται ως πιο αντιπροσωπευτικά για την έξοδο. Για κάθε κανόνα γίνεται αναφορά της ακρίβειας του καθώς και του ποσοστού κάλυψης του επί του αριθμού των στιγμιότυπων της συγκεκριμένης κλάσης (Εικόνα 9 α,β). 15 Εικόνα 9α. Κατασκευή κανόνων για την Μετοχή ΕΤΕ (Κλάση no) Εικόνα 9β. Κατασκευή κανόνων για την Μετοχή ΕΤΕ (Κλάση no) Για να αξιολογήσουμε περαιτέρω την ακρίβεια του μοντέλου, για το πόσο καλά μπορεί να προβλέψει και να κατευθύνει με τον τρόπο αυτό την συμπεριφορά ενός υποτιθέμενου επενδυτή, χρησιμοποιήσαμε και το τρίτο σετ δεδομένων των 100 στιγμιοτύπων, το οποίο αντιστοιχεί σε προβλέψεις επένδυσης ή μη 100 συνεχόμενων ημερών. Εισήγαμε το test set2 ως προέκταση του test set1 κατά τρόπο τέτοιο που να έχουμε αφαιρέσει την τιμή της κλάσης που αντιστοιχούσε σε κάθε στιγμιότυπο. Ωστόσο γνωρίζουμε εκ των προτέρων πια είναι η τιμή της εξόδου κλάσης για κάθε ένα στιγμιότυπο και αυτό γιατί θα τη χρησιμοποιήσουμε για να τη συγκρίνουμε με αυτή που υπολόγισε το μοντέλο πρόβλεψης μας. Στην συνέχεια αποτυπώνονται τα

16 αποτελέσματα της πρόβλεψης ενδεχόμενης συμπεριφοράς ενός τυπικού επενδυτή για 100 συνεχόμενες μέρες και με δεδομένο ότι έχει εικόνα για τις τιμές των δεικτών και της τιμής κλεισίματος των προηγούμενων ημερών. Από την εικόνα μπορεί κανείς να παρατηρήσει ότι στις 58 από τις 100 περιπτώσεις αποφάσισε σωστά, εάν τις συγκρίνει κανείς με τις τιμές των κλάσεων όπως στην πραγματικότητα έχουν. Το ποσοστό αυτό αντανακλά στην ακρίβεια του μοντέλου όπως αυτή περιγράφεται στη confusion matrix. Εικόνα 10. Αποτελέσματα Validation του μοντέλου της Μετοχής ΕΤΕ References [1] Eamonn, J. Keogh & Michael, J. Pazzani. An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback, California, USA. [2] Eric, Zivot & Jiahui, Wang (2004) Modeling Financial Time Series with S-Plus, USA, Springer.

[3] Gerasimos, Marketos & Konstantinos, Pediaditakis & Yannis, Theodoridis & Babis, Theodoulidis. Intelligent Stock Market Assistant using Temporal Data Mining, Piraeus, Greece. [4] Ian, H. Witten & Eibe, Frank (2005) Data Mining: Practical Machine Learning Tools and Techniques 2 nd ed., Waikato, ELSEVIER. [5] Konstantinos, Kalpakis & Dhiral, Gada & Vasundhara, Puttagunta. Distance Measures for Effective Clustering of ARIMA Time-Series, Baltimore, USA. [6] Mark, T. Leung & Hazem, Daouk & An-Sing, Chen. Forecasting stock indices: a comparison of classification and level estimation models, Bloomington, USA, Ming-Hsiung, Taiwan. [7] Martin, Gavrilov & Dragomir, Anguelov & Piotr, Indyk & Rajeev, Motwani. Mining Stock Market: Which Measure is Best?.Stanford, USA. [8] Paul Bourke. Cross Correlation : AutoCorrelation -2D Pattern Identification. Ανάκτηση 24/4/2007 από World Wide Web: http://local.wasp.uwa.edu.au/~pbourke/other/correlate/ [9] Richard, J. Roiger & Michael, W. Geatz (2003) Data Mining: A Tutorial Based Primer, Mankato, Addison Wesley. [10] Stock Market Indices. Ανάκτηση 12/3/2007 από World Wide Web: http://www.zeys.gr/ [11] Weka 3: Data Mining Software in Java. Ανάκτηση 20/4/2007 από World Wide Web: http://www.cs.waikato.ac.nz/ml/weka/ 17