Πρόβλεψη Χρηµατιστηριακών Μεγεθών µε Τεχνικές Εξόρυξης εδοµένων
|
|
- Γάδ Ανδρεάδης
- 9 χρόνια πριν
- Προβολές:
Transcript
1 Πρόβλεψη Χρηµατιστηριακών Μεγεθών µε Τεχνικές Εξόρυξης εδοµένων Αθανάσιος Μαζαράκης Μεταπτυχιακή Εργασία Επιβλέπων Καθηγητής: Σαµαράς Νικόλαος, Επίκουρος Εξεταστές: Ευαγγελίδης Γεώργιος, Αν. Καθηγητής Τµήµα Εφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας Θεσσαλονίκη Ιούλιος,
2 Copyright Μαζαράκης Αθανάσιος, 2007 Με επιφύλαξη παντός δικαιώµατος. All rights reserved Η έγκριση της µεταπτυχιακής εργασίας από το Τµήµα Εφαρµοσµένης Πληροφορικής του Πανεπιστηµίου Μακεδονίας δεν υποδηλώνει απαραιτήτως και αποδοχή των απόψεων του συγγραφέα εκ µέρους του Τµήµατος. 2
3 ΠΕΡΙΛΗΨΗ Η εν λόγω µελέτη πραγµατεύεται τη δυνατότητα πρόβλεψης κατά την επενδυτική διαδικασία στο χρηµατιστήριο Αθηνών Αξιών, µε τη χρήση τεχνικών Εξόρυξης δεδοµένων. Ειδικότερα, χρησιµοποιούνται πραγµατικά δεδοµένα µετοχών του χρηµατιστηρίου σε ηµερήσια βάση, τα οποία µε κατάλληλη επεξεργασία είναι δυνατόν να µας οδηγήσουν στην κατασκευή µοντέλου πρόβλεψης. Στα πλαίσια της εργασίας ωστόσο είναι η αναφορά σε θέµατα Τεχνικής Ανάλυσης και πιο συγκεκριµένα στους χρηµατιστηριακούς δείκτες. Η Εργασία αποτελεί µια προσπάθεια πρακτικής εφαρµογής της τεχνολογίας Εξόρυξης δεδοµένων. Συµφωνα µε την µεθοδολογία της τεχνικής αυτής, η προσπάθεια εστιάζεται στη κατάλληλη επιλογή και κατ επέκταση επεξεργασίας των δεδοµένων. Τα δεδοµένα περιέχουν πληροφορία την οποία επιθυµούµε να εξάγουµε χρησιµοποιώντας είτε καθοδηγούµενη είτε µη καθοδηγούµενη µεθοδολογία εκµάθησης. Εξετάζουµε, δηλαδή, τρόπον τινά την αποτελεσµατικότητα των δύο προσεγγίσεων για την περίπτωση της διακύµανσης των µετοχών. Βέβαια για την αξιοπιστία και εποµένως την αποτελεσµατικότητα του µοντέλου απαραίτητη είναι η διαδικασία αξιολόγησης (Evaluation) του. Κατά την διαδικασία αυτή φαίνεται εάν ή όχι το µοντέλο λειτουργεί σωστά, σύµφωνα δηλαδή µε την ακρίβεια (accuracy) που το χαρακτηρίζει κατά την δηµιουργία του. Επιπλέον για την πληρότητα της µελέτης, αφού πρώτα υπολογίσαµε για κάθε µία µετοχή ξεχωριστά την ηµερήσια τιµή της, όπως αυτή προκύπτει από τους πιο δηµοφιλείς χρηµατιστηριακούς δείκτες, προσπαθήσαµε να δούµε κατά πόσο πλησιάζει την πραγµατική τιµή κλεισίµατος της αντίστοιχης µετοχής. Το γεγονός αυτό µας παρέχει σηµαντική πληροφορία σχετικά µε το χρηµατιστηριακό σύστηµα. Η όλη διαδικασία δεν µπορεί να χαρακτηριστεί απλή, διότι για να οδηγηθούµε στα βήµατα που τελικά ακολουθήσαµε έπρεπε να γνωρίζουµε πως λειτουργεί το σύστηµα της διακύµανσης των µετοχών. Έτσι λοιπόν αναγκαστήκαµε να πραγµατοποιήσουµε επισκέψεις σε εταιρεία σχετική µε το αντικείµενο µας, προκειµένου να πάρουµε συνεντεύξεις από εµπειρογµώµονα και µε τον τρόπο αυτό να αντλήσουµε σηµαντικές πληροφορίες οι οποίες τελικά να αξιοποιηθούν σωστά. Στο τέλος ως παράρτηµα έχουµε τοποθετήσει όλα τα γραφήµατα που υπολογίστηκαν κατά την επεξεργασία των δεδοµένων. 3
4 ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ εδοµένα Γενικά Μορφή Επεξεργασία εδοµένων Θέµατα Τεχνικής Ανάλυσης Χρηµατιστηριακοί είκτες Moving Average ΕΚΘΕΤΙΚΟΣ ΚΙΝΗΤΟΣ ΜΕΣΟΣ ΜACD (Moving Average Convergence / Divergence) Bollinger Bands Momentum RSI (Relative Strength Index) Stochastic Oscillator Τι είναι ο Συντελεστής Ετεροσυσχέτισης; Γιατί χρειάζεται ο Συντελεστής Ετεροσυσχέτισης; Συµπεράσµατα...21 ΚΕΦΑΛΑΙΟ Μη Καθοδηγούµενη Εκµάθηση (Unsupervised Clustering) Τι είναι η Μη Καθοδηγούµενη Εκµάθηση; Αλγόριθµος Clustering K-Means Το εργαλείο WEKA Η Μορφή των εδοµένων Αποτελέσµατα του Clustering Συµπεράσµατα του Clustering...35 ΚΕΦΑΛΑΙΟ Καθοδηγούµενη Εκµάθηση (Supervised Learning) Τι είναι η Καθοδηγούµενη Εκµάθηση; Μορφή εδοµένων Το Εργαλείο ida (idata Analyzer) ο Αλγόριθµος ESX Αποτελέσµατα Classification Prediction Συµπεράσµατα - Αξιολόγηση Classification / Prediction...57 ΒΙΒΛΙΟΓΡΑΦΙΑ...58 Α.ΠΑΡΑΡΤΗΜΑ...60 Γραφήµατα Cross Correlation των Μετοχών...60 B.ΠΑΡΑΡΤΗΜΑ...81 Ενδεικτικά Αποτελέσµατα Prediction Μετοχών
5 ΚΕΦΑΛΑΙΟ 1 1. εδοµένα Γενικά Στο κεφάλαιο αυτό αναφέρονται όσα αφορούν στα δεδοµένα που χρησιµοποιήθηκαν σε αρχική µορφή αλλά και στα δεδοµένα τα οποία παρήχθησαν, µετά από επεξεργασία, προκειµένου να χρησιµοποιηθούν όπως θα δούµε λίγο αργότερα στις Τεχνικές Εξόρυξης δεδοµένων. Πρέπει να σηµειωθεί ότι η ποιότητα των δεδοµένων έχει αντίκτυπο στην ποιότητα του αποτελέσµατος. Έτσι, η σωστή επεξεργασία των δεδοµένων αλλά και η σωστή χρήση αυτών είναι δυνατόν να µας οδηγήσει σε µοντέλο µε µεγαλύτερη ακρίβεια. Η σηµασία των δεδοµένων διαφαίνεται και από το γεγονός ότι αφιερώνουµε ολόκληρο κεφάλαιο για να µπορέσουµε να προσδιορίσουµε το πώς θα τα χρησιµοποιήσουµε. Στην ενότητα που ακολουθεί παραθέτουµε στοιχεία που αφορούν στη µορφή των δεδοµένων που χρησιµοποιούνται αλλά και σκέψεις σχετικά µε την περαιτέρω επεξεργασία τους. 1.1 Μορφή Επεξεργασία εδοµένων Η σηµασία των δεδοµένων είναι µεγάλη και καθοριστική για την κατασκεύη ενός µοντέλου µε ικανοποιητή ακρίβεια. Για το λόγο αυτό η προσπάθεια µας επικεντρώθηκε στην ανεύρεση όσο το δυνατόν πιο αξιόπιστων δεδοµένων. Tα δεδοµένα που ελήφθησαν αφορούν πραγµατικά δεδοµένα των 20 σηµαντικότερων µετοχών που διαµορφώνουν το γενικό δείκτη σύµφωνα πάντα µε αποφάσεις της κεντρικής επιτροπής κεφαλαιαγοράς. Η περίοδοι καταγραφής των δεδοµένων καθώς και η ονοµασία των µετοχών παρουσιάζονται στην «εικόνα 1.1». -Εικόνα 1.1-5
6 Πρέπει να παρατηρήσουµε ότι για κάθε µετοχή το χρονικό διάστηµα αναφέρεται στις ηµεροµηνίες κατά τις οποίες είχαµε λειτουργία του χρηµατιστηρίου και όχι στις επίσηµες αργίες και στα Σαββατοκύριακα όπου το χρηµατιστήριο δεν λειτουργεί. Επιπλέον πρέπει να διευκρινήσουµε ότι κάθε ηµέρα για κάθε µετοχή χαρακτηρίζεται ως στιγµιότυπο (instance), σύµφωνα µε την ορολογία της Τεχνολογίας Εξόρυξης δεδοµένων. Τα στιγµιότυπα για κάθε µετοχή κυµαίνονται (σε πλήθος) µιας και η χρονική περιόδος της διακύµανσης για κάθε µετοχή είναι διαφορετική. Έτσι τα στιγµιότυπα αριθµητικά κυµαίνονται από 5232 µέχρι 151 για την µετοχή µε το µικρότερο χρονικό διάστηµα, πχ για τη µετοχή ΤΤ η οποία εισήχθει στο χρηµατιστήριο το 2006 οι καταγραφές των τιµών διακύµανσης της είναι µόλις 151, όσες και οι µέρες ύπαρξης της στο χρηµατιστήριο. Από τεχνικής απόψεως τα δεδοµένα τα οποία χρησιµοποιήθηκαν ήταν σε µορφή αρχείων.txt όπως φαίνεται στην «εικόνα 1.2». -Εικόνα 1.2- Είναι φανερό από την «εικόνα 1.2» ότι τα αρχεία µας στην αρχική του µορφή περιείχαν όλο το εύρος των µετοχών, οπότε για να µπορέσουµε να επεξεργαστούµε τα δεδοµένα µας έπρεπε να δηµιουργήσουµε αρχεία.txt κάθε ένα από τα οποία θα αφορούσε µια µετοχή. Έτσι ξεχωρίσαµε τις διάφορες µετοχές σε αρχεία όπως αυτό που φαίνεται στην «εικόνα 1.3» που ακολουθεί. 6
7 -Εικόνα 1.3- Σύµφωνα µε το αρχείο αυτό (εικόνα 1.3) για κάθε µετοχή παρέχονται πληροφορίες όπως η ονοµασία της µετοχής (Ticker), ηµεροµηνία στιγµιοτύπου (DTYYYYMMDD), τιµή ανοίγµατος (Open), υψηλότερη τιµή µετοχής κατά τη διάρκεια της ηµέρας (High), χαµηλότερη τιµή κατά τη διάρκεια της ηµέρας (Low), τιµή κλεισίµατος ανά ηµέρα (Close), όγκος συναλλαγών κατά την διάρκεια της ηµέρας (Volume). Λαµβάνοντας υπόψιν µας το γεγονός ότι οι ανωτέρω πληροφορίες είναι διαθέσιµες για κάθε µία απο τις µετοχές που αναφέρθηκαν στην «εικόνα 1.1» είµαστε σε θέση να προχωρήσουµε στην όσο το δυνατόν πιο συνεπή και πλήρη επεξεργασία των δεδοµένων για την εξαγωγή αξιόπιστων αποτελεσµάτων. Τα αρχεία των δεδοµένων όπως παρουσιάστηκαν αποτελούν τη βασική πρωταρχική δοµή δεδοµένων τα οποία θα χρησιµοποιηθούν στη συνέχεια της εργασιάς προκειµένου να εφαρµόσουµε όχι µόνο τις διάφορες Τεχνικές Εξόρυξης δεδοµένων αλλά και για να εξάγουµε συµπεράσµατα που αφορούν στην στατιστική επεξεργασία των δεδοµένων. 1.2 Θέµατα Τεχνικής Ανάλυσης Χρηµατιστηριακοί είκτες Πριν προχωρήσουµε στην περαιτέρω ανάλυση και επεξεργασία των δεδοµένων χρήσιµο είναι στο σηµείο αυτό να αναφέρουµε ορισµένα στοιχεία που αφορούν θέµατα χρηµατιστηριακής ανάλυσης και πιο συγκεκριµένα θέµατα που αφορούν τους χρηµατιστηριακούς δείκτες. Η όλη επενδυτική διαδικασία στηρίζεται στην έννοια της ικανότητας για πρόβλεψη της διακύµανσης της εκάστοτε µετοχής που ενδιαφέρει κάθε επενδυτή. Επιπλέον, η διακύµανση της τιµής της µετοχής εξαρτάται τόσο από 7
8 τη ζήτηση όσο και από τη διαµορφούµενη προσφορά αυτής στο επενδυτικό κοινό. Ισχύει εποµένως και για το χρηµατιστήριο ότι ισχύει και για κάθε αγορά, ο νόµος προσφοράς και ζήτησης που διαµορφώνει την τελική τιµή του προϊόντος, µε µόνη διαφορά τη δυναµική που παρουσιάζει η χρηµατιστηριακή αγορά στη διαµόρφωση των τιµών σε σχέση µε τον παράγοντα χρόνο, καθώς επίσης και των ιδιαίτερων παραγόντων που φαίνεται να επιδρούν στην γενικότερη µορφή της εν λόγω αγοράς. Έτσι λοιπόν για έναν επενδυτή αυτό που έχει ιδιαίτερο ενδιαφέρον είναι η όσο το δυνατόν ασφαλέστερη γνώση της συµπεριφοράς µίας µετοχής. Εάν επι παραδείγµατι ενδιαφέρεται να αγοράσει µία µετοχή θα ήταν ευχής έργο να γνωρίζει πως πρόκειται να κινηθεί και πιο συγκεκριµένα να την αγοράσει σε µία χαµηλή τιµή και να την πουλήσει σε µια υψηλότερη. Η διαφορά αυτή είναι που καθορίζει και το απόλυτο κέρδος. Το ζητούµενο εποµένως είναι η δυνατότητα ασφαλούς πρόβλεψης δηλαδή το πότε θα αποφασίσει να αγοράσει ή να πουλήσει ένας επενδυτής µια µετοχή. Τον προβληµατισµό αυτό έρχονται να απαντήσουν οι διάφοροι χρηµατιστηριακοί δείκτες µερικοί από τους οποίους χρησιµοποιούνται κατά κόρο και έχουν ειδικό βάρος σε σχέση µε τους υπόλοιπους. Οι δείκτες αυτοί έχουν τη βάση τους στη στατιστική ανάλυση και υπολογίζονται εφαρµόζωντας µια συγκεκριµένη µαθηµατική φόρµουλα για τον καθένα. Παρακάτω παρουσιάζονται µερικοί από αυτούς για το Χρηµατιστήριο Αθηνών Αξιών όπως προέκυψε ύστερα από ενδελεχή συνέντευξη σε άτοµα του επενδυτικού χώρου. Βέβαια στο σηµείο αυτό πρέπει να διευκρινήσουµε ότι τη διακύµανση της τιµής µιας µετοχής την επηρεάζουν και άλλοι παράγοντες όπως κοινωνικοί, πολιτικοί και γενικότερα οικονοµικού ενδιαφέροντος παράγοντες, οι οποίοι όµως δεν είναι δυνατόν να µοντελοποιηθούν ή καλύτερα να ποσοτικοποιηθούν, για το λόγο αυτό δεν µπορούν να ληφθούν υπόψη στην εν λόγω µελέτη Moving Average Ένας από τους δηµοφιλέστερους δείκτες τάσης. Απαλείφει τις έντονες καθηµερινές διακυµάνσεις των τιµών και έτσι δίνει την οµαλοποιηµένη τάση της τιµής της µετοχής. Ο κινητός µέσος είναι ο µέσος όρος της τιµής των προηγούµενων Χ ηµερών. Η εφαρµογή σας επιτρέπει να επιλέγετε των αριθµό των ηµερών για τις οποίες επιθυµείτε να απεικονίσετε τον µέσο όρο. Είναι ένας δείκτης µε χρονική υστέρηση στις τιµές του γιατί χρησιµοποιεί τιµές από το παρελθόν. Ο κινητός µέσος µας δείχνει την µέση τιµή κτήσης της µετοχής των τελευταίων Χ ηµερών. ύο ευρέως χρησιµοποιούµενοι Κινητοί Μέσοι είναι των 40 και των 200 ηµερών. Θεωρία: Κινητός Μέσος Όρος είναι η µέση τιµή κλεισίµατος µιας µετοχής ή δείκτη σε ένα συγκεκριµένο χρονικό διάστηµα που προηγήθηκε. Ο όρος κινητός σηµαίνει ότι η µέση τιµή µετακινείται και αλλάζει στο χρόνο καθώς για κάθε στιγµή λαµβάνεται υπόψη ίσο χρονικό διάστηµα τιµών πριν από την στιγµή υπολογισµού της. Ανάλογα 8
9 µε τον τρόπο που οι προηγούµενες τιµές συµµετέχουν στον υπολογισµό της µέσης τιµής, οι µέσοι όροι διακρίνονται σε απλούς (όλες οι τιµές λαµβάνονται µε την ίδια βαρύτητα) και εκθετικούς (οι τιµές συµµετέχουν εκθετικά στην διαµόρωση του µέσου όρου καθώς πλησιάζουµε τη στιγµή υπολογισµού). Συµπεριφορά: Με βάση τη θεωρία γύρω από τους µέσους όρους η κίνηση της τιµής προς την περιοχή του µέσου όρου συναντάει αντίσταση πριν και κατά την δάσπαση του µε τάση αντιστροφής, ενώ η τάση τείνει να συνεχίζεται όταν επιβεβαιωθεί η διάσπαση: Οι τιµές τείνουν να αντιστέκονται για να διαπεράσουν κάποιον κινητό µέσο όρο καθώς πέρα από το όριο αυτό αυξάνονται (κατά την άνοδο) ή ελλατώνονται (κατά την κάθοδο) σηµαντικά οι πωλητές. Οι δηµοφιλέστεροι µέσοι όροι για τέτοια χρήση είναι οι κινητός µέσος όρος των 50 ηµερών (συχνά αναφέρεται ως πρώτο όριο αντίστασης) και ο κινητός µέσος όρος των 200 ηµερών (δεύτερο όριο αντίστασης). Οι τιµές τείνουν να συνεχίσουν την τάση τους, όταν τελικά διαπεράσουν την γραµή του κινητού µέσου όρου. Ο δηµοφιλέστερος µέσος όρος σε τέτοια χρήση είναι ο κινητός µέσος όρος των 30 ηµερών. Ενδιαφέρουσα περίπτωση είναι διαστάυρωση ενός µακροχρόνιου µέσου όρου από ένα βραχυχρόνιο του. Τη στιγµή που ο βραχυχρόνιος µέσος όρος ξεπερνά τον µακροχρόνιο δίνει σήµα αγορών και όταν κατέρχεται του µακροχρόνιου δίνει σήµα πώλησης ΕΚΘΕΤΙΚΟΣ ΚΙΝΗΤΟΣ ΜΕΣΟΣ Έχει µεγαλύτερη ευαισθησία από τον απλό Κινητό Μέσο καθώς αλλάζει κλίση και κατεύθυνση γρηγορότερα. Επιπλέον η συµµετοχή της κάθε ηµέρας στην εύρεση του εκθετικού µέσου γίνεται µε εκθετικό τρόπο (εκθετικής µορφής βάρη) καθώς πλησιάζουµε στην ηµέρα πρόβλεψης ΜACD (Moving Average Convergence / Divergence) 9
10 Ο δείκτης σύγκλισης - απόκλισης MACD (Moving Average Convergence Divergence) µετράει τον βαθµό σύγκλισης µεταξύ ενός βραχυχρόνιου Κινητού Μέσου και ενός µεσοπρόθεσµου Κινητού Μέσου. Ο MACD δείχνει την µεταβολή της ορµής της τάσης. Συνήθως υπολογίζεται ως η διαφορά του Εκθετικού Κινητού Μέσου των 26 ηµερών από τον Εκθετικό Κινητό Μέσο των 12 ηµερών MACD=ΕΚΜ 12 -ΕΚΜ 26. Η διαφορά του βραχυχρόνιου από τον µεσοπρόθεσµο ΚΜ δείχνει εάν η ορµή των τιµών µέσα στην τάση αυξάνεται ή µειώνεται. Συµπεριφορά: Η λήψη σηµάτων από τον MACD γίνεται συνήθως µε τη χρήση του κινητού µέσου όρου των 9 ηµερών του εαυτού του (διακεκοµµένη γραµµή στο σχήµα) για συνέχιση της τάσης, και µε την σύγκριση των νέων υψηλών-χαµηλών της τιµής της µετοχής µε το δείκτη για αντιστροφή της τάσης. Οταν ο δείκτης τµήσει ανοδικά τον κινητό του µέσο όρο δίνει σήµα αγορών (τάση για περαιτέρω άνοδο). Οταν τµήσει καθοδικά τον κινητό του µέσο όρο δίνει σήµα πωλήσεων (τάση για περαιτέρω πτώση). Οταν η τιµή της µετοχής καταγράφει νέα υψηλά (ή χαµηλά) και ο δείκτης MACD δεν καταγράφει νέες υψηλότερες (ή χαµηλότερες) τιµές δίνει σήµα για αντιστροφή της τάσης Bollinger Bands Αποτελούνται από ένα Κινητό Μέσο 20 ηµερών που περιστοιχίζεται από δύο λωρίδες οι οποίες χρησιµοποιούνται για να οριοθετήσουν περιοχές στις οποίες αναµένουµε να κινηθούν οι τιµές. Οι λωρίδες προκύπτουν αν στον Κινητό 10
11 Μέσο προσθέσουµε και αφαιρέσουµε 2 τυπικές αποκλίσεις των τιµών. Η άνω λωρίδα που βρίσκεται πάνω από τον Κινητό Μέσο προκύπτει από την πρόσθεση 2 τυπικών αποκλίσεων ενώ αντίθετα η κάτω λωρίδα προκύπτει µε την αφαίρεση 2 τυπικών αποκλίσεων. Όταν η µεταβλητότητα των τιµών αυξάνει τότε το πλάτος των λωρίδων αυξάνει. Σε ισχυρά ανοδική ή καθοδική τάση το πλάτος των λωρίδων είναι µικρό. Όταν η τάση ωριµάζει και εµφανίζεται κόπωση τότε το πλάτος µεγαλώνει. Θεωρία: Οι Λωρίδα Bollinger είναι ένας ειδικός τύπος καναλιού (οι δύο γραµµές του οποίου ορίζουν το άνω και κάτω όριο της κανονικής διαπραγµάτευσης) που αναπτύχθηκαν από τον John Bollinger. Οι λωρίδες σχεδιάζονται κρατώντας σταθερή τυπική απόκλιση (συνήθως 2) από κάποιο κινητό µέσο (συνήθως 21 ηµερών). Συµπεριφορά: Επειδή η απόσταση µεταξύ των ορίων υπολογίζετε µε βάση την τυπική απόκλιση της τιµής της µετοχής, οι λωρίδα γίνεται πλατιά όταν η τιµή είναι ευµετάβλητη και στενή όταν η τιµή είναι σταθερότερη. Από τον John Bollinger σηµειώνονται τα παρακάτω χαρακτηριστικά της λωρίδας του: Οταν η τιµή αγγίξει τα όρια της λωρίδας παρατηρούνται οξείες µεταβολές της τιµής. Κίνηση της τιµής εκτός των ορίων αποτελεί ένδειξη για συνέχιση της τάσης. Μέγιστα/ελάχιστα που σηµειώνονται έξω από τα όρια της λωρίδας, ακολουθούµενα από µέγιστα/ελάχιστα εντός των ορίων αποτελούν ένδειξη αντιστροφής της τάσης. Κίνηση που ξεκινά από το ένα όριο της λωρίδας τείνει να συνεχιστεί µέχρι να φτάσει στο άλλο όριο Momentum 11
12 Μετράει την απόλυτη τιµή της ορµής των τιµών ως η διαφορά της σηµερινής τιµής κλεισίµατος από την τιµή κλεισίµατος Χ ηµέρες πίσω. Ο δείκτης αυτός ταλαντώνεται γύρω από το 100. ίνει σήµατα αγοραπωλησιών από την διάσπαση του 100. Ένα σήµα καθοδικής /ανοδικής διάσπασης είναι περισσότερο αξιόπιστο όσο µεγαλύτερη είναι η ανοδική/ καθοδική) απόκλιση από το 100 πριν τη διάσπαση. Θεωρία: Ο momentum µιας µετοχής είναι ο δείκτης της σηµερινής τιµής σε σύγκριση µε την τιµή χ περασµένων χρονικών περιόδων. Η Φόρµα υπολογισµού είναι η εξής: Μometum = κλείσιµο/ (κλείσιµο,-12)*100 όπου (κλείσιµο,-12) είναι το κλείσιµο πριν απο 12 χρονικές περιόδους RSI (Relative Strength Index) Εξετάζει πόσο ενισχυµένη φαίνεται να είναι η τρέχουσα τιµή της µετοχής σε σχέση µε την ορµή που έχει αποκτήσει στις τελευταίες συνεδριάσεις. RSI = [100 / (1 + RS)]. Όπου το RS προκύπτει αν διαιρέσουµε το άθροισµα των τιµών κλεισίµατος των ανοδικών συνεδριάσεων των τελευταίων Χ ηµερών µε το άθροισµα των τιµών κλεισίµατος των καθοδικών συνεδριάσεων των τελευταίων Χ ηµερών. Συνήθως χρησιµοποιούµε περίοδο 14 ηµερών. ίνει προειδοποιητικά σήµατα για : 1. εξάντληση ανοδικής ή καθοδικής τάσης των τιµών 2. ενδείξεις επερχόµενης βίαιης αντιστροφής της αγοράς 3. αξιόπιστα σήµατα αγοραπωλησιών µέσα σε ζώνες συναλλαγών Ο δείκτης RSI (Relative Strength Index) υπολογίζεται από την σχέση του αθροίσµατος των ανοδικών µεταβολών προς το άθροισµα των καθοδικών σε ένα χρονικό διάστηµα µε βάση τον τύπο: (100/(1+(άθοισµα ανόδων)/(άθροισµα καθόδων))). Είναι ένας αρκετά δηµοφιλής δείκτης ιδιαίτερα στην ανάλυση των παραγώγων και κυρίως για τα σήµατα αντιστροφής της τάσης που παρέχει. Το εξεταζόµενο χρονικό διάστηµα είναι συνήθως 14 ή 6 ή 9 ή 25 ηµέρες. Συµπεριφορά: Η λήψη σηµάτων αντιστροφής της τάσης δίνεται όταν η τιµή της µετοχής καταγράφει νέα υψηλά (ή χαµηλά) και ο δείκτης RSI δεν καταγράφει νέες υψηλότερες (ή χαµηλότερες) τιµές. Η λήψη σηµάτων επιβεβαίωσης γίνεται µε την χρήση ορίων (σηνήθως 30 για το κάτω όριο και 70 για το άνω) τα οποία όταν διασπά προς εσωτερικό του διαγράµµατος δίνει σήµατα αγοράς ή πώλησης. Όταν ευρισκόµενος κάτω από το όριο των 30 µονάδων το διασπάσει ανοδικά δίνει σήµα αγορών (τάση για περαιτέρω άνοδο). Όταν ευρισκόµενος πανω από το όριο των 70 µονάδων το διασπάσει καθοδικά δίνει σήµα πωλήσεων (τάση για περαιτέρω πτώση). 12
13 Οταν η τιµή της µετοχής καταγράφει νέα υψηλά (ή χαµηλά) και ο δείκτης RSI δεν καταγράφει νέες υψηλότερες (ή χαµηλότερες) τιµές δίνει σήµα για αντιστροφή της τάσης Stochastic Oscillator Ο Stochastic Oscillator µετρά τη θέση στην οποία βρίσκεται η σηµερινή τιµή σε σχέση µε το πρόσφατο εύρος τιµών. Αποτελείται από δυο επιµέρους δείκτες, τον %Κ (γρήγορος) και τον %D (αργός). Χρησιµεύει κυρίως στο να παρέχει αξιόπιστα σήµατα αγοραπωλησιών µέσα σε ζώνες συναλλαγών, όταν ο γρήγορος %K, διασπά ανοδικά ή καθοδικά τον αργό %D, και προειδοποιητικά σήµατα για εξάντληση καθοδικής ή ανοδικής τάσης. Για να υπολογίσουµε τον Stochastic Oscillator αφαιρούµε από το τελευταίο κλείσιµο το χαµηλότερο χαµηλό %Κ περιόδων και το διαιρούµε µε το υπόλοιπο του υψηλότερου υψηλού % περιόδων από το χαµηλότερο χαµηλό %Κ περιόδων. Θεωρία: Ο δείκτης Stochastic Οscillator υπολογίζεται από την τιµή κλεισίµατος της µετοχής σε σχέση µε το εύρος διακύµανσης της σε µια προηγούµενη περίοδο. Ο τύπος του είναι (κλείσιµο ηµέρας - ελάχιστο περιόδου) / (µέγιστο περιόδου - ελάχιστο περιόδου). Οι τιµές του δίνονται επί τοις εκατό %. Χρησιµοποιείται για βαχυπρόθεσµες και µεσοπρόθεσµες προβλέψεις ανάλογα µε την παράµετρο στο διάστηµα των ηµερών. Συµπεριφορά: 13
14 Η λήψη σηµάτων από τον Stochastic Οscillator γίνεται συνήθως µε τη χρήση του κινητού µέσου όρου του εαυτού του (κίτρινη γραµµή στο σχήµα) ή µε την σύγκριση της τιµής του µε κάποια όρια κατά την αλλαγή της τάσης του. Οταν ο δείκτης τµήσει ανοδικά τον κινητό του µέσο όρο δίνει σήµα αγορών (τάση για περαιτέρω άνοδο). Οταν τµήσει καθοδικά τον κινητό του µέσο όρο δίνει σήµα πωλήσεων (τάση για περαιτέρω πτώση). Οταν περάσει κάποιο επίπεδο (κόνινες γραµµές 20% και 80%) και µετά γυρίζοντας αντίστροφα, επιστρέφει σε αυτό δίνει σήµα αντιστροφής της τάσης. 1.3 Τι είναι ο Συντελεστής Ετεροσυσχέτισης; Στο σηµείο αυτό θα αναφερθούµε στο συντελεστή ετεροσυσχέτισης ο οποίος συναντάται κυρίως σε θέµατα που αφορά την ανάλυση σηµάτων και κυµατοµορφών. Ο συντελεστής ετεροσυσχέτισης αφορά τόσο σε ένα σήµα άνυσµα όσο και µεταξύ δύο διαφορετικών σηµάτων - ανυσµάτων. Κυρίως χρησιµοποιείται µε τη µορφή δύο µαθηµατικών εκφράσεων. Η πρώτη αναφέρεται στον υπολογισµό του συντελεστή ετεροσυσχέτισης µεταξύ δύο διαφορετικών σηµάτων ή και του ιδίου σήµατος σε διαφορετική χρονική στιγµή για µία καθυστέρηση συγκεκριµένη d, και αποτυπώνεται από τη µαθηµατική έκφραση που ακολουθεί: 14
15 Επιπλέον, ιδιαίτερο ενδιαφέρον παρουσιάζει το γεγονός της δεύτερης έκφρασης του συντελεστή ετεροσυσχέτισης η οποία αφορά στον υπολογισµό της τιµής του όχι µόνο για µια συγκεκριµένη καθυστέρηση d αλλά για ένα εύρος καθυστερήσεων το οποίο κυµαίνεται. Έτσι λοιπόν προκειµένου να υπολογίσουµε πιθανή οµοιότητα µεταξύ δύο διαφορετικών σηµάτων ή την περιοδικότητα, στην περίπτωση που πρόκειται για ένα µόνο σήµα, εφαρµόζουµε την ακόλουθη µαθηµατική συνάρτηση : Για να λάβουµε υπόψη µας όλους τους δυνατούς τρόπους συσχέτισης δύο ανυσµάτων, σε σχέση πάντα µε τη µεταξύ τους καθυστέρηση, θα πρέπει να σηµειώσουµε ότι η καθυστέρηση d µπορεί να λαµβάνει, στη γενική της µορφή, τιµές (πεδίο τιµών) από το µείον µέγιστο της καθυστέρησης d (-dmax) µέχρι το σύν µέγιστο της καθυστέρησης d (+dmax). ηλαδή, d= -dmax,,0,1, dmax Ουσιαστικά δηλαδή πρόκειται για µία προσπάθεια σύγκρισης δύο σηµάτων µεταξύ τους «σύρρωντας» κατά κάποιον τρόπο το ένα σήµα σε σχέση µε το άλλο σε όλο το πεδίο τιµών και υπολογίζοντας τη συσχέτιση κάθε φορά για µία συγκεκριµένη καθυστέρηση. 1.4 Γιατί χρειάζεται ο Συντελεστής Ετεροσυσχέτισης; Στην περίπτωση της διακύµανσης των µετοχών που µελετάµε, εύλογα κάποιος θα µπορούσε να αναρωτηθεί τον τρόπο µε τον οποίο µπορεί να χρησιµοποιηθεί ο συντελεστής ετεροσυσχέτισης. Όπως αναφέρθηκε ο συντελεστής ετεροσυσχέτισης χρησιµοποιείται για να ελέγξουµε εάν δύο ανύσµατα είναι όµοια και πότε, δηλαδή µε ποια χρονική καθυστέρηση τα δύο σήµατα γίνονται όµοια ή πλησιάζουν το ένα τη µορφή του άλλου γεγονός το οποίο κατάδεικνύεται από την τιµή του συντελεστή. Το ερώτηµα το οποίο εγείρεται εύλογα, αφορά το ποια σήµατα ή καλύτερα ανύσµατα πρέπει να συγκρίνουµε µε τον συντελεστή ετεροσυσχέτισης και γιατί. Όπως σηµειώσαµε σε προηγούµενη παράγραφο η διαδικασία της ανάλυσης και κατανόησης της χρηµατιστηριακής αγοράς περιελάµβανε συνεντέυξεις από εµπειρογνώµονες του είδους, οι οποιοι µας έδωσαν σηµαντικές πληροφορίες για την κίνηση των µετοχών. Ετσι λοιπόν διαπιστώσαµε ότι ένας επενδυτής,χρησιµοποιώντας ένα σύστηµα, παρακολουθεί την κίνηση της κάθε µετοχής, του γενικού δείκτη και έχει τη δυνατότητα να απεικονίζει την κίνηση που εκτιµά κάθε χρηµατιστηριακός δείκτης. Όλα αυτά πραγµατοποιούνται σε πραγµατικό χρόνο. Παρακολουθώντας σε πραγµατικό χρόνο την διακύµανση µιας µετοχής και έχοντας την εκτίµηση διαφόρων δεικτών είναι σε θέση ο εκάστοτε επενδυτής να προβεί σε αγορά ή σε πώληση µιας µετοχής. Η απόφαση του δηλαδή εξαρτάται σε µεγάλο βαθµό από την τιµή που εκτιµά ο δείκτης που εµπιστεύεται περισσότερο ή τέλος πάντων εµπιστεύεται την πιθανή συµπεριφορά της µετοχής που εκτιµά ένα 15
16 συγκεκριµένο πλήθος δεικτών. Επιπρόσθετα, πρέπει να τονίσουµε ότι η τιµή της κάθε µετοχής επηρεάζεται τόσο από την προσφορά της όσο και από τη ζήτηση της. Ωστόσο η προσφορά αλλά και η ζήτηση της εξαρτάται ή καλύτερα διαµορφώνεται από τις εκτιµήσεις κάποιον δεικτών. Ποιών δεικτών; Αυτούς τους οποίους το µεγαλύτερο σώµα των επενδυτών θεωρεί ως πιο αξιόπιστους. Όταν εποµένως ένας δείκτης «απολαµβάνει» την εµπιστοσύνη των περισσοτέρων επενδυτών φυσικό και επόµενο είναι να ακολουθεί την ίδια διακύµανση µε την πραγµατική τιµή της µετοχής. Έτσι λοιπόν η διακύµανση του εν λόγω δείκτη ενέχει πραγµατική πληροφορία για την µελλοντική κίνηση της µετοχής και άρα για τη σωστή πρόβλεψη της τιµής της. Οι σηµαντικότεροι δείκτες τους οποίους χρησιµοποιούν οι επενδυτές είναι ο RSI (Relative Strength Index), Momentum, Stochastic Oscillator, MACD. Κάθε ένας από τους δείκτες αυτούς αλγοριθµικά υπολογίζεται ως ακολούθως: Stochastic Oscillator (% Κ=5-period,%D=3-slowing) St_Osc_Index=%(Κλείσιµο ηµέρας- ελάχιστο περιόδου)/(µέγιστο περιόδου ελάχιστο περιόδου) MACD (Moving Average Convergence/Divergence) MACD_Index= ΕΚΜ(Close,12)-ΕΚΜ(Close,26) RSI (Relative Strength Index 14 Days) Momentum RSI =100[100/(1+U/D)], U=Average of upward price change D=Average of downward price change Mom_Index=(τιµή κλεισίµατος/τιµή κλεισίµατος 12 ηµερών προγενέστερα)*100. Στο σηµείο αυτό πρέπει να πούµε ότι ο κάθε δείκτης µπορεί να υπολογιστεί δηλαδή να προβλέπει κάθε µία από τις τιµές που περιγράφουν την διακύµανση κάθε µετοχής. Συγκεκριµένα µπορεί να εφαρµοστεί για την τιµή ανοίγµατος, κλεισίµατος, τη χαµηλότερη τιµή, την υψηλότερη τιµή και στον όγκο συναλλαγών σε ηµερήσια βάση εφόσον πρόκειται για τα δεδοµένα µας. Ο µόνος τρόπος που έχουµε για να ελέγξουµε το βαθµό που ο κάθε δείκτης προέβλεψε ικανοποιητικά την διακύµανση µίας µετοχής είναι να συγκρίνουµε την κάθε πραγµατική τιµή κλεισίµατος µε την τιµή κλεισίµατος που προβλέπει ο κάθε δείκτης. Κατά ένα τρόπο είµαστε σε θέση να αξιολογήσουµε τη «βαρύτητα» του κάθε δείκτη απέναντι στο επενδυτικό κοινό. Ο συντελεστής ετεροσυσχέτισης µας επιτρέπει να δούµε αλγευρικά πόσο καλή είναι η σχέση της πραγµατικής τιµής και της τιµής του εκάστοτε δείκτη. Επιπλέον, η συνάρτηση ετεροσυσχέτισης µας επιτρέπει να ελέγξουµε για όλες τις δυνατές καθυστερήσεις για τις οποίες ενδεχοµένως να παρατηρηθεί οιανδήποτε οµοιότητα. Για κάθε µετοχή εφαρµόσαµε προγραµµατιστικά την συνάρτηση Cross Correlation µεταξύ της πραγµατικής τιµής κλεισίµατος της και της τιµής για κάθε δείκτη σε σχέση πάντα µε την τιµή κλεισίµατος αυτής. Ο αλγόριθµος αφορά όλες τις δυνατές θετικές καθυστερήσεις της τιµής του εκάστοτε δείκτη µε την πραγµατική 16
17 τιµή διότι είναι δεδοµένο ότι οι τιµές των δεικτών έπονται (εφόσον αφορά πρόβλεψη) σε σχέση µε την πραγµατική τιµή. Ως αποτέλεσµα, για κάθε µετοχή, ελήφθη άνυσµα ιδίας διάστασης µε το πλήθος των καθυστερήσεων, το οποίο και απεικονίσαµε µε το εργαλείο S-Plus 6.1. Παρακάτω παραθέτουµε µέρος του πηγαίου κώδικα υλοποιηµένου σε C++ για την συνάρτηση Cross Correlation. void correlation (double vect1[], double vect2[], double *vect3){ double numerator[n],sy[n],denom[n]; for(int k=0; k<n; k++) numerator[k]=sy[k]=denom[k]=0; double sx; for (int d=0; d<k; d++){ sx=0;//gia kathe d tha prepei na mhdenizoyme to sx for(int i=0; i<k; i++){ if((i-d)>0){ numerator[d]=numerator[d]+((vect1[i]- mean(vect1))*(vect2[i-d]-mean(vect2))); sy[d]=sy[d]+((vect2[i-d]-mean(vect2))*(vect2[i-d]- mean(vect2))); } else{ numerator[d]=numerator[d]+((vect1[i]-mean(vect1))*(- mean(vect2))); sy[d]=sy[d]+((-mean(vect2))*(-mean(vect2))); } sx=sx+((vect1[i]-mean(vect1))*(vect1[i]-mean(vect1))); } denom[d]=sqrt((sx*sy[d])); *vect3=numerator[d]/denom[d]; vect3++; } } Στο παράρτηµα Α παραθέτουµε όλα τα γραφήµατα της συνάρτησης Cross Correlation για κάθε µία µετοχή και για τους δείκτες RSI, Momentum, MACD, Stochastic Oscillator εκτός από τα γραφήµατα των µετοχών ΕΤΕ και ΤΙΤΚ που σας τα παρουσιάζουµε ενδεικτικά παρακάτω. 17
18 ETE - Stochastic Oscillator Correlation Lag Γράφηµα 1.1 ΕΤΕ (Close price Stochastic Oscillator) ETE - RSI Correlation Lag Γράφηµα 1.2 ΕΤΕ (Close price RSI) 18
19 ETE - Momentum Correlation Lag Γράφηµα 1.3 ΕΤΕ (Close price Momentum) ETE - MACD Correlation Lag Γράφηµα 1.4 ΕΤΕ (Close price MACD) Με όµοιο τρόπο σας παραθέτουµε ενδεικτικά και τα γραφήµατα που αφορούν την µετοχή ΤΙΤΚ. 19
20 TITK - Stochastic Oscillator Correlation Lag Γράφηµα 1.5 ΤΙΤΚ (Close price Stochastic Oscillator) TITK - MACD Correlation Lag Γράφηµα 1.6 ΤΙΤΚ (Close price MACD) 20
21 TITK - Momentum Correlation Lag Γράφηµα 1.7 ΤΙΤΚ (Close price Momentum) TITK - RSI Correlation Lag Γράφηµα 1.8 ΤΙΤΚ (Close price RSI) 1.5 Συµπεράσµατα Στο κεφάλαιο αυτό είδαµε το είδος και τη µορφή των δεδοµένων που έχουµε διαθέσιµα και τα οποία τα χρησιµοποίησαµε για να παράγουµε πρόσθετη πληροφορία, το συντελεστή ετεροσυσχέτισης. Επίσης τονίσαµε τη σηµασία που έχουν τα δεδοµένα στην ακρίβεια των αποτελεσµάτων αλλά και στην εξαγωγή συµπερασµάτων που θα έχουν συνεπή χρειά και λογική προσέγγιση της πραγµατικότητας. Κατά την επενδυτική διαδικασία ο επενδυτής δεν χρησιµοποιεί τον κάθε χρηµατιστηριακό δείκτη µε τον ίδια εµπιστοσύνη. Παρόλο που υπάρχει µια πληθώρα δεικτών το επενδυτικό κοινό αποφαίνεται να χρησιµοποιεί ορισµένους από αυτούς µε 21
22 µεγαλύτερη ευρύτητα. Προσεγγίζοντας τον χώρο των χρηµατιστηριακών επενδύσεων διαπιστώσαµε ότι µε µεγαλύτερη εµπιστοσύνη χρησιµοποιούνται ο RSI, Momentum, Stochastic Oscillator και MACD. Στην εν λόγω µελέτη και προκειµένου να εξάγουµε ενδιαφέροντα αποτελέσµατα αποφασίσαµε να χρησιµοποιήσουµε τους δείκτες αυτούς ως στοιχεία δεδοµένων που περιέχουν ασφαλή πληροφορία για την µελλοντική κίνηση των µετοχών και άρα την πρόβλεψη αυτών. Μεγάλο ενδιαφέρον παρουσιάζει η ερµηνεία των αποτελεσµάτων της συνάρτησης ετεροσυσχέτισης µεταξύ της τιµής κλεισίµατος της εκάστοτε µετοχής και των τιµών των δεικτών. Ειδικότερα και όπως φαίνεται από τον πίνακα που ακολουθεί για γεγονότα που χαρακτηρίζονται πολυπαραγοντικά όπως είναι η διακύµανση της τιµής µιας µετοχής ένας συντελεστής από και -0.5 (-1.0) χαρακτηρίζεται ως µεγάλη θετική συσχέτιση και µεγάλη αρνητική συσχέτιση αντίστοιχα. Αρχικά λοιπόν µας δίνεται η δυνατότητα να έχουµε ένα πρώτο µέτρο αξιολόγησης της βαρύτητας του κάθε δείκτη που εµπιστεύεται ο επενδυτής για να αγοράσει ή να πουλήσει µία µετοχή και εποµένως να επηρρεάσει µε τον τρόπο αυτό την διακύµανση της µετοχής, βέβαια µεγάλη σηµασία έχει και ο όγκος συναλλαγών που πραγµατοποιεί ο κάθε επενδυτής στη συνολική διαµόρφωση της κίνησης της µετοχής. Ένα δεύτερο συµπέρασµα εξίσου σηµαντικό είναι ότι η συνάρτηση ετεροσυσχέτισης µπορεί να αποτελέσει έναν έµµεσο τρόπο βραχυπρόθεσµης ή µακροπρόθεσµης πρόβλεψης. Αυτό συµβαίνει όταν διαγραµµατικά µας δίνεται η δυνατότητα να δούµε σε ποια χρονική καθυστέρηση τα δύο ανύσµατα, της τιµής κλεισίµατος και του εκάστοτε δείκτη, µοιάζουν περισσότερο. Η έννοια της χρονικής καθυστέρησης, στην περίπτωση της συνάρτησης ετεροσυσχέτισης, µπορεί να ερµηνευτεί ως η χρονική ολίσθηση του σήµατος του εκάστοτε δείκτη στο µέλλον, ώστε αυτό να µοιάζει περισσότερο µε το σήµα της τιµής κλεισίµατος. Η αλγεβρική τιµή της καθυστέρησης αποτυπώνει τον χρονικό ορίζοντα σύγκλισης της πραγµατικής τιµής της µετοχής µε τον δείκτη. Στο επόµενο κεφάλαιο ακολουθεί η εφαρµογή µιας Data mining µεθόδου (Clustering) που χαρακτηρίζεται ως µέθοδος µη καθοδηγούµενης εκµάθησης. 22
23 ΚΕΦΑΛΑΙΟ 2 2. Μη Καθοδηγούµενη Εκµάθηση (Unsupervised Clustering) Στο κεφάλαιο αυτό θα περιγράψουµε την µη καθοδηγούµενη εκµάθηση ή όπως είναι γνωστή σε άλλα εγχειρίδια Unsupervised Clustering. Επιπλέον θα προχωρήσουµε στην εφαρµογή ενός αλγόριθµου Clustering στα χρηµατιστηριακά µας δεδοµένα προκειµένου να εξάγουµε χρήσιµη πληροφορία η οποία ενδεχοµένως να µας βοηθήσει στο πρόβληµα της πρόβλεψης της συµπεριφοράς µιας µετοχής ή οποιαδήποτε άλλης µορφής πληροφορίας γνώσης που αφορά την σχέση µεταξύ του συνόλου των µετοχών. 2.1 Τι είναι η Μη Καθοδηγούµενη Εκµάθηση; Η µη καθοδηγούµενη εκµάθηση αφορά την κατασκευή µοντέλων εξόρυξης γνώσης µε την χρήση αλγορίθµων Unsupervised Clustering. Η βασική σκέψη αυτής της µεθοδολογίας αφορά στην εύρεση γνώσης η οποία δεν έχει προκαθοριστεί κατά την εισαγωγή των δεδοµένων (instances) µε τη µορφή κλάσεων. Έτσι λοιπόν η µη καθοδηγούµενη εκµάθηση είναι µία µεθοδολογία εξόρυξης γνώσης η οποία ενδεχοµένως να µπορεί να χαρακτηριστεί αφθαίρετη, εφόσον εξ αρχής δεν µπορεί να διαπιστωθεί οιανδήποτε λογική συνέπεια µεταξύ των δεδοµένων. Επιπλέον σε αντίθεση µε άλλες µεθόδους εξόρυξης πληροφορίας, η ΜΚΕ στηρίζεται σε µεθόδους συσταδοποίησης των δεδοµένων χωρίς να προσδιορίζεται µε τον τρόπο αυτό πιο είναι το ζητούµενο. Επιλέγοντας ένα συγκεκριµένο αλγόριθµο συσταδοποίησης και εφαρµόζωντάς τον µε βάσει κάποιο από τα χαρακτηριστικά (attributes) ή σε συνδυασµό αυτών, τα διάφορα στιγµιότυπα (instances) κατανέµονται µε κριτήρια οµοιότητας γεγονός το οποίο ενδεχοµένως να οδηγήσει σε κάποια συµπεράσµατα γνώση. Το αποτέλεσµα της ΜΚΕ µπορεί να αξιολογηθεί και να ερµηνευτεί στη συνέχεια εφαρµόζωντας µια µέθοδο καθοδηγούµενης εκµάθησης έτσι ώστε να γίνει σαφής η ακούσια πληροφορία. Συνοψίζοντας µπορούµε να πούµε ότι στη ΜΚΕ δεν έχουµε εξαρτηµένη µεταβλητή για να οδηγήσουµε την διαδικασία της εκµάθησης. Οι διάφοροι αλγόριθµοι κατασκεύαζουν µια δοµή γνώσης µε τρόπο που αφορά στη µέτρηση της ποιότητας των clusters δηλαδή του τρόπου οµαδοποίησης των διαφόρων στιγµιοτύπων σε δύο ή περισσότερα clusters. Ένας πρωταρχικός στόχος µιας στρατηγικής βασισµένης σε ΜΚΕ είναι να ανακαλύψει δοµές εννοιών (Concept Structures) από τα δεδοµένα. Έτσι µία τέτοια στρατηγική πρέπει να: καθορίσει εάν µπορούν να προσδιοριστούν ενδιάµεσες σχέσεις στη βάση της µορφής των εννοιών (Concepts) από τα δεδοµένα. µπορεί να αξιολογήσει την απόδοση ένος µοντέλου καθοδηγούµενης εκµάθησης. καθορίζει ένα βέλτιστο σύνολο στιγµιοτύπων εισόδου για καθοδηγούµενη εκµάθηση 23
24 ανιχνεύει στιγµιότυπα που δεν θεωρούνται τυπικά (outliers). Όταν λοιπόν εφαρµόζουµε έναν αλγόριθµο ΜΚΕ είναι πιθανό να προκύψουν σχέσεις και συσχετίσεις µεταξύ των διαφόρων attributes, τα οποία αποτυπώνουν κάποιες συγκεκριµένες έννοιες, οι οποίες ήταν αδύνατον να ανιχνευτούν «δια γυµνού οφθαλµού» και όπως είναι φυσικό θα µας εκπλήξουν. Με τον τρόπο αυτό µας δίνεται η δυνατότητα να ερµηνεύσουµε συµπεριφορές και σε κάποιες περιπτώσεις να προβλέψουµε καταστάσεις. Επίσης µε την ΜΚΕ µας δίνεται η δυνατότητα να αξιολογήσουµε ένα µοντέλο καθοδηγούµενης εκµάθησης. Αυτό µπορεί να συµβαίνει διότι για να κατασκευάσουµε ένα αξιόπιστο µοντέλο µεγάλη σηµασία έχει η επιλογή ενός κατάλληλου - αντιπροσωπευτικού training set δεδοµένων. Για να µπορέσουµε να ελέγξουµε την ποιότητα του µοντέλου αρκεί µε κάποιο τρόπο να ελέγξουµε και άρα να διαπιστώσουµε την καταλληλότητα του training set, το οποίο σηµειωτέον δεν αφορά µόνο στο είδος των στιγµιοτύπων (Instances) αλλά και στην κατάλληλη επιλογή των κλάσεων (Classes - attributes). Εφαρµόζωντας ένα αλγόριθµο Unsupervised Clustering σε ένα training set µε συγκεκριµένες κλάσεις και στιγµιότυπα είµαστε σε θέση να δούµε εάν και κατά πόσο τα στιγµιότυπα συσταδοποιούνται σωστά στα σχηµατιζόµενα Clusters µε βάσει πάντα της προεπιλεγµένες κλάσεις. Στην περίπτωση κατά την οποία η συσταδοποίηση τους δεν είναι ικανοποιητική επιλέγουµε ένα άλλο training set µε διαφορετικές κλάσεις και τρέχουµε τον αλγόριθµο ΜΚΕ έως ότου λάβουµε ικανοποιητικό αποτέλεσµα, οπότε και το δεδοµένο training set θα είναι αυτό το οποίο θα χρησιµοποιηθεί για την κατασκευή του µοντέλου καθοδηγούµενης εκµάθησης. Τέλος η ΜΚΕ µας επιτρέπει να διακρίνουµε τα στιγµιότυπα εκείνα τα οποία βάσει της σχετικής βιβλιογραφίας χαρακτηρίζονται ως µη τυπικά στιγµιότυπα (atypical) ή καλύτερα ως outliers. Η τεχνική αυτή εξόρυξης δεδοµένων επιλύει προβλήµατα που αφορούσαν στατιστικές µεθόδους που δεν µπορούσαν να εξαιρέσουν δεδοµένα outliers. Τα δεδοµένα αυτά χαρακτηρίζονται ως µη αντιπροσωπευτικά και αποτελούν θόρυβο. Όταν µάλιστα δεν αφαιρούνται επηρεάζουν την ακρίβεια του αποτελέσµατος. Οι Data mining τεχνικές αφαιρούν τέτοιου είδους δεδοµένα outliers διασφαλίζοντας τρόπον τινά την ποιότητα του αποτελέσµατος. Στη συνέχεια το κεφαλαίου θα αναφερθούµε στον αλγόριθµο KMeans. Πρόκειται για έναν αλγόριθµο Unsupervised Clustering µέσω του οποίου θα προσπαθήσουµε να εξάγουµε κάποια συµπεράσµατα σχετικά µε την πιθανή σχέση µεταξύ των διαφόρων µετοχών. 2.2 Αλγόριθµος Clustering KMeans. Έχουν αναπτυχθεί διάφοροι αλγόριθµοι συσταδοποίησης µερικοί από τους οποίους παρουσιάζουν ιδιαίτερο ενδιαφέρον µιας και έχουν ευρύα αποδοχή. Ένας τέτοιος αλγόριθµος είναι και ο K-Means, ο οποίος παρόλη την απλότητα της εφαρµογής του συνεχίζει και αποτελεί έναν αποτελεσµατική στατιστική τεχνική συσταδοποίησης. Για να δούµε µε ποια βήµατα ο εν λόγω αλγόριθµος «τεµαχίζει» τα δεδοµένα σε ξεχωριστά ασύνδετα clusters. Επέλεξε τον αριθµό Κ των clusters που θα σχηµατιστούν. 24
25 Επέλεξε Κ στον αριθµό στιγµιότυπα, µε τυχαίο τρόπο, ως τα πρώτα κέντρα των clusters. Χρησιµοποίησε τη γνωστή Ευκλείδια απόσταση προκειµένου να κατατάξεις τα υπόλοιπα στιγµιότυπα στα clusters µε τρόπο τέτοιο ώστε η απόσταση τους µε τα κέντρα των clusters να είναι η µικρότερη. Χρησιµοποίησε τα στιγµιότυπα του κάθε cluster για να υπολογίσεις την την µέση τιµή αυτών. Η µέση τιµή των στιγµιοτύπων σε κάθε cluster προσδιορίζουν την νέα τιµή του κέντρου του cluster. Έτσι εάν η νέα τιµή (mean) είναι ίδια µε την προηγούµενη η διαδικασία τερµατίζεται, εάν είναι διαφορετική τότε άλλαξε την τιµή του κέντρου και επανέλαβε τα τρία τελευταία βήµατα. Ορισµένα γενικά συµπεράσµατα για τον αλγόριθµο KMeans: 1. Ο αλγόριθµος εφαρµόζεται µόνο στην περίπτωση αριθµητικών δεδοµένων. Εάν επι παραδείγµατι έχουµε δεδοµένα κατηγορικά θα πρέπει να µετατρέψουµε τις τιµές των attributes σε αριθµητικές προκειµένου να τα χρησιµοποιήσουµε. Ωστόσο στην περίπτωση που αποφασίσουµε να τροποποιήσουµε το είδος των δεδοµένων των διαφόρων attributes προκύπτουν περαιτέρω προβλήµατα που δεν είναι του παρόντος. 2. Στο χρήστη εναπόκειται να προκαθορίσει τον αριθµό των clusters που ενδεχοµένως να οδηγήσει στη βέλτιστη συσταδοποίηση, διότι ο αλγόριθµος δεν έχει τη δυνατότητα να προσδιορίσει τον αριθµό των clusters, γεγονός που αποδυναµώνει την αποτελεσµατικότητα του. Χρειάζεται εποµένως να εφαρµόσουµε κάποιες φορές τον αλγόριθµο επαναληπτικά, για διαφορετικό αριθµό των clusters, προκειµένου να αποκτήσουµε µια ρεαλιστική αίσθηση για τον καλύτερο αριθµό αυτών σε σχέση πάντα µε µοντέλο που σχηµατίζειται. 3. Ο εν λόγω αλγόριθµος βρίσκει την βέλτιστη λύση όταν τα clusters που σχηµατίζονται έχουν προσεγγιστικά το ίδιο µέγεθος. Στην περίπτωση όπου ο K-Means καταλλήγει σε µια λύση η οποία αποτελείται από clusters διαφορετικών µεγεθών τότε ο αλγόριθµος δεν είναι σε θέση να αποτυπώσει την καλύτερη λύση. 4. εν υπάρχει τρόπος να καθορίσουµε ποια attributes των δεδοµένων είναι σηµαντικά για το σχηµατισµό των clusters. Για το λόγο αυτό διάφορα attributes τα οποία είναι ασυσχέτιστα µεταξύ τους θα οδηγήσουν σε µία όχι καλή λύση. 5. Η αδυναµία ερµηνείας της φύσης των σχηµατιζόµενων clusters µας αναγκάζει να χρησιµοποιήσουµε ένα supervised mining tool για να µπορέσουµε να τα καταλάβουµε. Παρόλους τους ανωρέρω περιορισµούς ο αλγόριθµος K-Means εξακολουθεί να αποτελεί ένα δηµοφιλές εργαλείο το οποίο παρέχει αξιόπιστα αποτελέσµατα. Για το λόγο αυτό στη συνέχεια της εργασίας τον χρησιµοποιήσαµε προκειµένου να εξάγουµε γνώση από τα δεδοµένα των µετοχών µας. 25
26 2.3 Το εργαλείο WEKA. Το εργαλείο WEKA είναι ένα πολύ δηµοφιλές εργαλείο που χρησιµοποιείται για ερευνητικούς σκοπούς. Ενσωµατώνει πολλούς αλγόριθµους τόσο αµιγώς στατιστικούς όσο και αλγόριθµους που χρησιµοποιούνται στο Data mining. Επιπλέον περιέχει και διάφορα φίλτρα προεπεξεργασίας δεδοµένων. Πρόκειται για ένα open source εργαλείο σε γλώσσα Java το οποιο υποστηρίζεται από δυνατότητα help desk τοσο για νέους όσο και για παλιούς χρήστες. Υπάρχουν δύο µορφές εκδόσεων του εργαλείου, η µία είναι αυτή η οποία περιγράφεται και στο σχετικό βιβλίο και η δεύτερη η οποία επιτρέπει την ανάπτυξη εφαρµογών από το χρήστη σε γλώσσα java, όπου όµως είναι διαθέσιµες στο ευρύ κοινό έτοιµες κλάσεις. Την εφαρµογή για την περίπτωση των µετοχών την πραγµατοποιήσαµε µε το module explorer το οποίο παρουσιάζουµε στην «εικόνα 2.1». Εικόνα 2.1 Explorer GUI Στην εικόνα φαίνεται ότι το GUI αποτελείται από διάφορες καρτέλες µε συγκεκριµένες λειτουργίες η κάθε µία. Μεταξύ αυτών ξεχωρίζουµε την καρτέλα Preprocess, Classify, Cluster και Visualize. Κατά την εισαγωγή δεδοµένων µέσω της καρτέλας Preprocess, ζητείται όπως φαίνεται στην «εικόνα 2.2» η µετατροπή του τύπου των δεδοµένων µας που είναι σε.txt να µετατραπεί σε.csv (Data Converter) διότι το WEKA χρησιµοποιεί κυρίως τύπους δεδοµένων.arff και.csv. 26
27 Εικόνα 2.2 Data Converter Στη συνέχεια τα δεδοµένα µας που έχουν µετατραπεί σε.csv απεικονίζονται στο GUI (Preprocess) όπως φαίνεται στην «εικόνα 2.3», όπου παρουσιάζονται στατιστικά στοιχεία για τα διάφορα attributes που υπήρχαν στα δεδοµένα µας. Εικόνα
28 Προκειµένου να προχωρήσουµε στην εφαρµογή ενός αλγόριθµου συσταδοποίησης µεταβαίνουµε στην καρτέλα Cluster (εικόνα 2.4). Εικόνα 2.4 Επιλογή του K-Means αλγόριθµου Στην «εικόνα 2.4» φαίνεται η επιλογή του K-Means αλγορίθµου στον οποίο έχουµε τη δυνατότητα να επέµβουµε και να αλλάξουµε ορισµένες ρυθµίσεις που είναι προκαθορισµένες όπως για παράδειγµα είναι ο καθορισµός του αριθµού των clusters που είναι αρχικά ίσος µε 2 (εικόνα 2.5). Εικόνα 2.5K-Means Object Editor Το WEKA µας δίνει τη δυνατότητα, εφόσον το επιθυµούµε, να επιλέξουµε το πλήθος των δεδοµένων µας (%) που θα αποτελέσουν το training set καθώς επίσης και το (%) test set. Επιπλέον µας επιτρέπει να αξιολογήσουµε τα σχηµατιζόµενα clusters 28
29 µε βάσει ένα συγκεκριµένο χαρακτηριστικό πχ το attribute Ticker και να αποτυπώσουµε τα αποτελέσµατα για περαιτέρω διερεύνηση. Σηµαντική δυνατότητα για τον αλγόριθµο K-Means είναι η επιλογή των attributes βάσει των οποίων θα γίνει η συσταδοποίηση των στιγµιοτύπων και η παράλειψη αυτών που δεν µας ενδιαφέρουν. Στην «εικόνα 2.6» φαίνονται οι ρυθµίσεις των παραµέτρων που δύνανται να επιλεγούν πρίν προχωρήσουµε στην εκτέλεση του αλγορίθµου. Εικόνα 2.6 Ρύθµιση των παραµέτρων του K-Means 2.4 Η Μορφή των εδοµένων. Όπως είδαµε στην προηγούµενη παράγραφο το εργαλείο WEKA παρέχει κάποιες συγκεκριµένες δυνατότητες οι οποίες είναι και παραµετροποιήσιµες. Ωστόσο πρίν προχωρήσουµε στην εφαρµογή οποιουδήποτε αλγορίθµου θα πρέπει πρώτα να εισάγουµε τα δεδοµένα βάσει των οποίων θα εξάγουµε ενδεχοµένως κάποιας µορφή πληροφορία. Όµως εύλογα γεννάται το ερώτηµα τι είδους δεδοµένα θα πρέπει να εισάγουµε προκειµένου τα αποτελέσµατα µας να παρουσιάζουν ενδιαφέρον και εποµένως να έχουν νόηµα. Τίθεται εποµένως το θέµα της επιλογής των δεδοµένων η οποία θα πρέπει να γίνει κατά κάποιον τρόπο διαισθητικά ώστε αυτά να παρουσιάζουν συνέπεια µεταξύ τους µιας και δεν έχουµε άλλο τρόπο για να αποφασίσουµε βάσει ποιών δεδοµένων θα σχηµατιστούν τα clusters. Έτσι λοιπόν επειδή επιθυµούµε να εξάγουµε πληροφορίες που θα αφορά πιθανή σχέση τη συµπεριφορά των διαφόρων µετοχών αποφασίσαµε να χρησιµοποιήσουµε αρχεία δεδοµένων που θα περιείχαν το σύνολο των µετοχών. Ειδικότερα, σχηµατίσαµε από τα ήδη υπάρχοντα αρχεία δεδοµένων δύο νέα τα οποία περιείχαν: το πρώτο, στοιχεία για 20 µετοχές και για το ίδιο χρονικό διάστηµα και για το δεύτερο, στοιχεία για 19 µετοχές για µεγαλύτερο διάστηµα. Στην «εικόνα 2.7» 29
30 παρουσιάζουµε ενδεικτικά τµήµα του ενός από τα δύο αρχεία που χρησιµοποιήθηκαν στον αλγόριθµο clustering. Εικόνα 2.7 Data set Πρέπει να διευκρινήσουµε ότι στο µεν πρώτο Data set όπου περιλαµβάνονται και οι 20 µετοχές, το χρονικό διάστηµα καθορίστηκε από την µετοχή µε τις λιγότερες συνεδριάσεις και αυτή ήταν η ΤΤ µε 151 συνεδριάσεις. Στο δεύτερο Data set οι µετοχές ήταν 19 µε 1200 συνεδριάσεις περίπου η κάθε µία. Η συµµόρφωση αυτή καθορίστηκε µε αυτόν τον τρόπο διότι θέλαµε να εξάγουµε πληροφορία που να συσχετίζει την κίνηση διαφόρων µετοχών µεταξύ τους, οπότε απαραίτητη προϋπόθεση ήταν όλες οι µετοχές να υφίστανται το ίδιο χρονικό διάστηµα. Τελικά τα attributes των δεδοµένων τα οποία χρησιµοποιήσαµε για την κατασκεύη των clusters ήταν τρείς συνδιασµοί ανά δύο attributes. Ουσιαστικά εφαρµόσαµε τον αλγόριθµο για να σχηµατίσουµε τρείς διαφορετικές οµάδες συστάδων. Έτσι λοιπόν αρχικά «τρέξαµε» τον αλγόριθµο για δούµε εάν υπάρχει σχέση µεταξύ της τιµής κλεισίµατος και του όγκου συναλλαγών, στη συνέχεια µεταξύ της τιµής κλεισίµατος και της χαµηλότερης τιµής και τέλος µεταξύ της χαµηλότερης τιµής και της υψηλότερηςη τιµής. Πιο συγκεκριµένα: Close price Volume Close price Low price Close price High price 30
31 2.5 Αποτελέσµατα του Clustering Στο σηµείο αυτό πρέπει να αναφερθεί ότι τον αλγόριθµο K-Means τον εφαρµόσαµε επαναληπτικά προκειµένου να επιλέξουµε τον καλύτερο αριθµό συστάδων. Το γεγονός ότι ο αλγόριθµος δεν είναι σε θέση να αποφασίζει για το πλήθος των συστάδων που απαιτούνται, προκειµένου τα διάφορα στιγµιότυπα να συσταδοποιηθούν σωστά, αποτελεί µία αδυναµία του. Όπως έχει ήδη σηµειωθεί την συσταδοποίηση την εφαρµόσαµε προκειµένου να διαπιστώσουµε πιθανή σχέση µεταξύ των µετοχών και µάλιστα επιλέξαµε τις ακόλουθες κλάσεις βάσει των οποίων θα υλοποιηθεί το clustering: Close price Volume Close price Low price Close price High price Ενδεικτικά σας παραθέτουµε τα αποτελέσµατα όπως προέκυψαν για την περίπτωση της τιµής κλεισίµατος όγκου συναλλαγών για το πρώτο data set όπου αφορά και τις 20 µετοχές µε περιορισµένο αριθµό συνεδριάσεων (151). Εικόνα 2.8 Clusters Στην «εικόνα 2.8» φαίνονται τα σχηµατιζόµενα clusters 10 στον αριθµό για τις κλάσεις τιµή κλεισίµατος όγκος συναλλαγών. Επιπλέον µπορεί κανείς να 31
32 παρατηρήσει και το κέντρο του καθενός. Συγκεκριµένα δύο είναι οι τιµές που περιγράφουν το κέντρο του κάθε Cluster διότι αφορά τις τιµές των δύο κλάσεων. Επιπλέον έχει υπολογιστεί και η τυπική απόκλιση, το στατιστικό αυτό µέγεθος αφορά την κατανοµή των διαφόρων στιγµιοτύπων στα clusters. Στη «εικόνα 2.9» που ακολουθεί απεικονίζονται στατιστικά στοιχεία τα οποία έχουν να κάνουν µε το ποσοστό κατανοµής των διαφόρων στιγµιοτύπων στα clusters καθώς επίσης και µε τη διασπορά των στιγµιοτύπων της κάθε µετοχής σε κάθε ένα από τα σχηµατισµένα clusters. Εικόνα 2.9 Αποτελέσµατα Clustering close price volume Τέλος στην «εικόνα 2.10» φαίνεται η επικρατούσα µετοχή σε κάθε cluster καθώς ο αριθµός και το ποσοστό των στιγµιοτύπων τα οποια δεν κατάφερε ο αλγόριθµος να τα συσταδοποιήσει σωστά. Όπως θα δούµε παρακάτω η παράµετρος αυτή έχει µεγάλη σηµασία για την επιτυχία του αλγορίθµου. Σύµφωνα µε τα αποτελέσµατα τα 1897 στιγµιότυπα δηλαδή ποσοστό 63% συνόλου ο αλγόριθµος δεν κατάφερε να τα εντάξει σωστά. Πρόκειται για ένα υψηλό ποσοστό το οποίο θα πρέπει να ληφθεί σοβαρά υπόψη προκειµένου να έχουµε µια εκτίµηση της επιτυχίας του αλγορίθµου. 32
33 Εικόνα 2.10 Τέλος, το εργαλείο WEKA µέσω του Explorer (καρτέλα Visualize ) µας παρέχει την δυνατότητα για γραφική απεικόνιση των αποτελεσµάτων στο επίπεδο επιλέγοντας µάλιστα τις κλάσεις που επιθυµούµε να µελετήσουµε. Οι εικόνες που ακολουθούν απεικονίζουν γραφικά το αποτέλεσµα της συσταδοποίησης για τις περιπτώσεις : Close price Volume 33
34 Close price Low price Close price High price 34
35 Από τα γραφήµατα αυτά διαπιστώνουµε ότι δεν υπάρχουν σαφή όρια µεταξύ των σχηµατιζόµενων clusters. 2.6 Συµπεράσµατα του Clustering Καταρχήν πριν προχωρήσουµε στην ερµηνεία των αποτελεσµάτων χρήσιµο είναι να διευκρινήσουµε ορισµένα στοιχεία τα οποία αναφέρθηκαν σε προηγούµενες παραγράφους. Ειπώθηκε ότι τον αλγόριθµο K-Means τον εφαρµόσαµε επαναληπτικά προκειµένου να αντιληφθούµε τον καλύτερο αριθµό συστάδων που µας επιτρέπει να διασπείρουµε τα διάφορα στιγµιότυπα των µετοχών. Πως όµως γνωρίζουµε πότε ο αριθµός των clusters είναι ο καλύτερος; Την απάντηση στο ερώτηµα αυτό µπορεί κανείς να τη δώσει µε έµµεσο τρόπο. Συγκεκριµένα κάθε φορά που επιλέγουµε έναν αριθµό clusters και εφαρµόζουµε τον αλγόριθµο δύο µεγέθη αλλάζουν. Τα µεγέθη αυτά µπορούµε να τα χρησιµοποιήσουµε προκειµένου να αντιληφθούµε κατά πόσο είναι προτιµότερος ο ένας αριθµός συστάδων από κάποιον άλλον. Ο αριθµός των στιγµιοτύπων τα οποία δεν κατάφερε ο αλγόριθµος να εντάξει αποτελεί ένα µέτρο αποτελεσµατικότητας του αλγορίθµου. Έτσι στην περίπτωση της τιµής κλεισίµατος µε τον όγκο των συναλλαγών έχουµε Incorrectly clustered instances : % όπου είναι ένα µεγάλο ποσοστό για το οποίο φαίνεται ότι ο αλγόριθµος δεν οδηγεί σε αποδεκτή λύση. Επιπλέον, όπως αναφέρθηκε στην παράγραφο 2.2, η προσεγγιστικά άνιση κατανοµή των στιγµιοτύπων στα διάφορα clusters δεικνύει ότι η λύση δεν είναι η καλύτερη. Στην περίπτωση πάλι της τιµής κλεισίµατος µε τον όγκο συναλλαγών στην «εικόνα 2.11» που ακολουθεί φαίνεται η άνιση κατανοµή των στιγµιοτύπων γεγονός που καθορίζει τη διάσταση του κάθε cluster. Εικόνα 2.11 Τέλος ένα επιπλέον µέγεθος που µας δίνει µια αίσθηση της αποτελεσµατικότητας του αλγορίθµου σε σχέση µε την επιλογή του αριθµού των συστάδων είναι και το Within cluster sum of squared errors. Στην περίπτωση που παραθέσαµε ανωτέρω µε την επιλογή των 10 συστάδων το άθροισµα του τετραγωνικού σφάλµατος µεταξύ των clusters βρέθηκε ίσο µε 4.21 και δεν µεταβαλλόταν ουσιαστικά κάθε φορά που αυξάναµε περαιτέρω τον αριθµό των clusters. Ο K-Means όπως έχει ήδη αναφερθεί, εφαρµόστηκε και στους τρεις συνδυασµούς περιπτώσεων : Close price Volume 35
36 Close price Low price Close price High price Σε όλες τις περιπτώσεις προκύπτουν τα ίδια ποιοτικά συµπεράσµατα. Έτσι λοιπόν και στα τρία clusters ο αριθµός των στιγµιοτύπων που δεν έχουν έχουν συσταδοποιηθεί σωστά είναι µεγάλος. Η κατανοµή των διαφόρων στιγµιοτύπων στα διάφορα clusters παραµένει άνισος. Τα δύο αυτά στοιχεία µας οδηγούν στο συµπέρασµα ότι ο αλγόριθµος δεν µπορεί να φτάσει σε ασφαλή λύση. Το γεγονός αυτό µπορεί να ερµηνευτεί από το είδος των δεδοµένων που χρησιµοποιήσαµε. Τα δεδοµένα των µετοχών είναι ακολουθιακά χρονικά και για το λόγο αυτό δεν µπορούµε να εφαρµόσουµε τις κλασσικές µεθόδους clustering. Εποµένως, η προσέγγιση της µη καθοδηγούµενης εκµάθησης (Unsupervised Clustering), στην περίπτωση των χρονικών δεδοµένων, όπως είναι η διακύµανση των µετοχών, δεν µπορεί να µας οδηγήσει σε µία αποδεκτή λύση. Στο επόµενο κεφάλαιο (3 ο ) προσπαθούµε να προβλέψουµε τη συµπεριφορά µιας µετοχής προκειµένου να διαπιστώσουµε εάν µας συµφέρει να επενδύσουµε. Εφαρµόζουµε τεχνικές της καθοδηγούµενης εκµάθησης αφού πρώτα έχουµε επεξεργαστεί τα δεδοµένα µας κατάλληλα. ΚΕΦΑΛΑΙΟ 3 3. Καθοδηγούµενη Εκµάθηση (Supervised Learning) Σε προηγούµενο κεφάλαιο εξετάσαµε τη ΜΚΕ ως µία µέθοδο εξόρυξης γνώσης η οποία βασιζόταν περισσότερο σε διαισθητική ανάλυση των αποτελεσµάτων αλλά και στη σωστή επιλογή των κλάσεων κατά τρόπο τέτοιο που να µας οδηγήσουν σε ένα αποτέλεσµα το οποίο να έχει λογικό έρισµα. Στην περίπτωση της καθοδηγούµενης εκµάθησης τα πράγµατα είναι πιο «ξεκάθαρα». Αυτό συµβαίνει διότι κανείς για να χρησιµοποιήσει την καθοδηγούµενη εκµάθηση θα πρέπει να έχει προσδιορίσει µε σαφήνεια το αποτέλεσµα το είδος της απάντησης που επιζητά. Η απάντηση αυτή προσδιορίζεται όπως θα δούµε και παρακάτω µε τη µορφή µιάς κλάσης που µπορεί να έχει είτε κατηγορική είτε αριθµητική µορφή. 3.1 Τι είναι η Καθοδηγούµενη Εκµάθηση; Την καθοδηγούµενη εκµάθηση την συναντάµε στην καθηµερινή µας ζωή αρκετά συχνά και ιδιαίτερα όταν αναγκαζόµαστε να µάθουµε νέα πράγµατα τα οποία ενδεχοµένως να αγνοούσαµε ότι υπήρχαν ως έννοιες µέχρι τη δεδοµένη στιγµή. Η ΚΕ λειτουργεί ως µηχανισµός σε δύο επίπεδα. Το πρώτο αφορά την κατασκευή από δεδοµένα ενός µοντέλου κατηγοροποίησης, τα οποία είναι χαρακτηριστικά του είδους των εννοιών που θέλουµε να εισάγουµε αλλά και από δεδοµένα τα οποία δεν είναι κατ ανάγκη χαρακτηριστικά του είδους. Κάθε τέτοιο είδος δεδοµένων ονοµάζεται ως 36
37 στιγµιότυπο (Instance). Το δεύτερο επίπεδο κατά το οποίο, εφόσον έχει κατασκευαστεί το µοντέλο, µπορεί να κατηγοριοποιήσει σωστά τα νέα στιγµιότυπα, άγνωστης προέλευσης, τα οποία θα παρουσιάζονται συνεχώς. Αξίζει να σηµειωθεί ότι ενώ η κατασκευή του µοντέλου είναι µια επαγωγική διαδικασία η κατηγοριοποίηση των νέων στιγµιοτύπων είναι µια παραγωγική διαδικασία. Γενικά η διαδικασία κατασκευής ενός µοντέλου ΚΕ περιλαµβάνει τα ακόλουθα βήµατα. Αρχικά χρησιµοποιώντας ένα σύνολο από δεδοµένα τα οποία θεωρούµε αξιόπιστα ή συνεπή (training data set) είναι αυτά τα οποία είναι γνωστό ότι κατηγοριοποιούνται σωστά. Προκειµένου να εξετάσουµε την ακρίβεια του µοντέλου που κατασκευάσαµε µε τα στιγµιότυπα του training set δηλαδή την ικανότητα του µοντέλου να µπορεί να κατηγοριοποιεί στιγµιότυπα των οποίων δεν είναι γνωστή η κατηγοριοποίηση χρησιµοποιούµε ένα επιπλέον data set γνωστό ως test set. Τα στιγµιότυπα του test set έχουν δεδοµένη κατηγοριοποίηση, έτσι µπορούµε να συγκρίνουµε την κατηγοριοποίηση που υπολογίζει το µοντέλο µας µε την πραγµατική κατηγοριοποίηση των στιγµιοτύπων και να έχουµε µια εικόνα της ακρίβειας του µοντέλου που κατασκευάσαµε και εποµένως µια εκτίµηση της συµπεριφοράς του στο µέλλον. Πέραν των ανωτέρω µπορούµε να πούµε ότι υπάρχουν διάφορες στρατηγικές εξόρυξης δεδοµένων που αφορούν την ΚΕ. Η βασική διαφοροποίηση των ΚΕ από τις στρατηγικές ΜΚΕ είναι ότι στις πρώτες υπάρχουν τόσο ανεξάρτητες µεταβλητές που αποτελούν τα δεδοµένα εισόδου όσο και εξαρτηµένες µεταβλητές που έχουν το ρόλο του αποτελέσµατος. Οι εξαρτηµένες µεταβλητές εξόδου εξαρτώνται από τα δεδοµένα εισόδου (ανεξάρτητες µεταβλητές). Αντίθετα στις ΜΚΕ στρατηγικές δεν έχουµε εξαρτηµένες τιµές εξόδου παρά µόνο ανεξάρτητες τιµές δεδοµένων εισόδου. Οι βασικές στρατηγικές της ΚΕ είναι η κατηγοριοποίηση (Classification), η εκτίµηση (estimation), η πρόβλεψη (Prediction). Η κατηγοριοποίηση είναι προφανώς η πιο εύκολα κατανοητή στρατηγική και παρουσιάζει τα ακόλουθα τρία κοινά χαρακτηριστικά: 1. Η εκµάθηση είναι καθοδηγούµενη 2. Η εξαρτηµένη µεταβλητή είναι κατηγορική 3. Ο σκοπός τους είναι µέσα από το µοντέλο που έχει κατασκευαστεί να αποδίδει σε κάθε νέο στιγµιότυπο µια από τις τιµές της κλάσης εξόδου. Τέλος σχετικά µε τις εφαρµογές που µπορεί να περιγράψει ένα µοντέλο κατηγοριοποίησης αυτό αναφέρεται σε τρέχουσες κυρίως συµπεριφορές και όχι σε µελλοντικές. Από την άλλη πλευρά οι στρατηγικές πρόβλεψης στόχο έχουν να εξάγουν ένα αποτέλεσµα που έχει αναφορά στο µέλλον παρά σε µια τρέχουσα κατάσταση. Πρέπει να σηµειωθεί ότι πολλές τεχνικές εξόρυξης δεδοµένων που βασίζονται σε στρατηγικές κατηγοριοποίησης ή εκτίµησης µπορούν να χρησιµοποιηθούν ώστε να κατασκευαστούν µοντέλα που προβλέπουν. Το γεγονός αυτό όπως και πολλά άλλα θέµατα του data mining εξαρτάται από το είδος ή καλύτερα από τη φύση των δεδοµένων. Εκτός από τις στρατηγικές εξόρυξης δεδοµένων υπάρχουν και οι τεχνικές data mining µερικές εκ των οποίων είναι πολύ δηµοφιλείς. Τα δέντρα απόφασης είναι µια προσέγγιση της ΚΕ. Είναι ευρέως γνωστά και εφαρµόζονται σε πολλά επιστηµονικά πεδία. Έχουν γραφεί πολυάριθµα άρθρα που µνηµονεύουν την αποτελεσµατικότητα των δέντρων απόφασης. Υπάρχουν πολλοί αλγόριθµοι που τα υλοποιούν, ένας από τους πιο γνωστούς είναι ο C4.5. Μια γενική προσέγγιση αυτών των αλγορίθµων 37
38 περιλαµβάνει κανόνες ελέγχου υπόθεσης -> συµπεράσµατος που είναι τα φύλλα του δέντρου (σηµεία ελέγχου) και οι τερµατικοί κόµβοι που είναι οι δυνατές έξοδοι. Κάθε στιγµιότυπο διέρχεται από διάφορα φύλλα του δέντρου, που αποτελούν όπως αναφέρθηκε, σηµεία ελέγχου για να καταλλήξουν σε έναν τερµατικό κόµβο (έξοδος). 3.2 Μορφή εδοµένων. Όπως έχει ήδη επισηµανθεί η επιλογή των δεδοµένων που πρόκειται να χρησιµοποιηθούν σε µια τεχνική εξόρυξης δεδοµένων έχει τεράστια σηµασία και αντανακλά όχι µόνο στο ίδιο το αποτέλεσµα όπως ενδεχοµένως να συµβαίνει στην περίπτωση της ΜΚΕ αλλά και στην ποιότητα του αποτελέσµατος, όπως θα αναµέναµε στην περίπτωση της ΚΕ. Το είδος των δεδοµένων, όπως αυτό αποτυπώνεται από τον όρο attributes, θα αποτελέσει την είσοδο και έχει µεγάλη σηµασία. Τα δεδοµένα αυτά attributes µε τις τιµές τους θα είναι κατά το ένα µέρος τους το training data set και κατά ένα άλλο µέρος τους το test data set. Έτσι γίνεται φανερό ότι το µοντέλο που θα κατασκευαστεί θα είναι αποκλειστικά προϊόν των δεδοµένων τα οποία έχουν επιλεγεί για να το παράγουν και να το ελέγξουν. Πέρα όµως από το είδος των attributes που θα χρησιµοποιήσουµε σηµαντικό ρόλο έχει και η επιλογή των τιµών αυτών έτσι ώστε να θεωρούνται ως οι πιο αντιπροσωπευτικές. Το γεγονός αυτό σηµαίνει ότι θα πρέπει τα στιγµιότυπα που θα επιλεγούν να έχουν λογική συνέπεια πράγµα το οποίο θα αποτυπώνεται στην έξοδο. Στην περίπτωση των δεδοµένων των µετοχών οι δύο ανωτέρω γενικοί κανόνες δεν δύναται να έχουν πλήρη εφαρµογή. Αυτό συµβαίνει διότι οι διάφορες τιµές των µετοχών (High, Close, Low, Volume, Open) είναι χρονικά µεγέθη, δηλαδή η τιµή τους µεταβάλλεται στο χρόνο. Με τον τρόπο αυτό σχηµατίζονται για κάθε ένα από τα attributes της εκάστοτε µετοχής ανύσµατα διάστασης αντίστοιχης µε τον αριθµό των συνεδριάσεων στις οποίες η µετοχή συµµετείχε. Αρχίζει να γίνεται κατανοητό γιατί δεν µπορούµε από αυτές τις χρονοσειρές να επιλέξουµε κάποιες τιµές, αυτές που πιθανόν να θεωρούσαµε πιο αντιπροσωπευτικές, προκειµένου να κατασκευάσουµε ένα µοντέλο µε µεγαλύτερη αξιοπιστία στην έξοδο του. Τα ακολουθιακά δεδοµένα δεν επιτρέπουν τον τεµαχισµό τους και αυτό γιατί η επόµενη τιµή έχει σχέση µε την προηγούµενη αλλά και µε την αµέσως επόµενη της. Η σχέση αυτή µπορεί να υπαγορεύεται από ένα µεγαλύτερο χρονικό ορίζοντα απ αυτόν των τριών ηµερών. Έτσι λοιπόν αποµονώνοντας αλληλουχία τιµών µιας χρονοσειράς, που πιθανόν να τα θεωρούµε πιο συνεπή σφάλουµε, διότι αλλοιώνουµε πληροφορία που σχετίζεται µε την χρονική διακύµανση µιας συγκεκριµένης τιµής της µετοχής. Είναι κατανοητό ότι δεν µπορούµε να τεµαχίσουµε κατά το δοκούν χρονικά δεδοµένα, διότι µε τον τρόπο αυτό ελλατώνουµε την ποιότητα τόσο του training data set όσο και του test set. Αυτό που µπορεί να γίνει, στην περίπτωση των χρονικών τιµών µιας µετοχής, είναι να κατασκευάσουµε το µοντέλο µας επιλέγοντας συγκεκριµένο σετ δεδοµένων (training & test) για µια χρονική περίοδο κατά την οποία οι τιµές των µετοχών δεν παρουσιάζουν ασυνεπή διακύµανση. Με την επιλογή µιας οµαλής χρονικής περιόδου καταφέρνουµε να κατασκευάσουµε µοντέλο το οποίο θα παρουσιάζει ακρίβεια στην έξοδο του. Πέρα από την γενική προσέγγιση και περιγραφή της σηµασίας των δεδοµένων, είµαστε πλέον σε θέση να προχωρήσουµε σε ειδικότερη επεξήγηση και ερµηνεία των δεδοµένων που πρόκειται να χρησιµοποιήσουµε στην µελέτη µας. Η µορφή των 38
39 δεδοµένων µας δεν θα περιλαµβάνει τα attributes των data set που χρησιµοποιήσαµε στην ΜΚΕ και περιείχαν την τιµή ανοίγµατος, την µέγιστη και ελάχιστη τιµή τον όγκο συναλλαγών σε ηµερήσια βάση. Η επιλογή τους έγινε κατά τρόπο τέτοιο ώστε τα attributes που θα χρησιµοποιούσαµε να περιείχαν πρόσθετη πληροφορία από αυτή που θα µας έδινε ένα ηµερήσιο στιγµιότυπο µιας µετοχής. Προσπαθήσαµε να δηµιουργήσουµε ένα νέο στιγµιότυπο µεστό σε πληροφορία η οποία θα µπορούσε να αξιοποιηθεί σε µία τεχνική καθοδηγούµενης εκµάθησης όπως είναι η κατηγοριοποίηση. Όπως είδαµε σε προηγούµενο κεφάλαιο υπολογίσαµε για κάθε µετοχή κάθεναν από τους χρηµατιστηριακούς δείκτες (RSI, MACD, Momentum, Stochastic Oscillator) για την τιµή κλεισίµατος σε ηµερήσια βάση. Επιπλέον, ελέγξαµε µε στατιστικό τρόπο τη σχέση - τη σηµασία του κάθε δείκτη σε σχέση µε την πραγµατική τιµή κλεισίµατος της µετοχής και βγάλαµε κάποια συµπεράσµατα σηµαντικά για αυτούς. Για να προχωρήσουµε παρακάτω, στην τεχνική κατηγοριοποίησης θα χρησιµοποιήσουµε ως attributes εισόδου τις τιµές των δεικτών που έχουν υπολογιστεί για την τιµή κλεισίµατος σε ηµερήσια βάση. Επιπρόσθετα, θα εισάγουµε ως attribute για τη δηµιουργία του µοντέλου µας την πραγµατική τιµή κλεισίµατος ανά ηµέρα. Το ερώτηµα που προκύπτει αφορά στο πια θα είναι η έξοδος. Πράγµατι το ερώτηµα αυτό δεν είναι έυκολο κανείς να το απαντήσει διότι χρειάζεται κατά κάποιο τρόπο φαντασία και διαίσθηση. Πάντως το πιο απλό θέµα που πιθανόν θα ενδιέφερε έναν επενδυτή θα ήταν να γνωρίζει εάν θα πρέπει να επενδύσει µια συγκεκριµένη µέρα προκειµένου να κερδίσει. Αυτοµάτως η απάντηση στην ερώτηση αυτή θα ήταν ένα Ναι (yes) ή ένα Όχι (No) σε ηµερήσια βάση. Έτσι γίνεται εµφανές ότι η κλάση εξόδου θα λαµβάνει δύο τιµές (Categorical) «Yes» ή «No». Με ποιο τρόπο όµως θα µπορούσαµε να γεµίσουµε την κλάση εξόδου µε τιµές που θα αφορούσανε τα στιγµιότυπα του training και test set προκειµένου να προχωρήσουµε στην κατασκευή του µοντέλου µας; Το τµήµα του πηγαίου κώδικα σε c++ παρακάτω δείχνει τον τρόπο αυτό. for(i=1; i<n; i++){ if(x[i]>x[i-1]) y[i].assign("yes"); else if(x[i]<x[i-1]) y[i].assign("no"); else if(x[i]=x[i-1]){ if(x[i]<x[i+1]) y[i].assign("yes"); else y[i].assign("no"); } Σύµφωνα µε τον κώδικα αυτό ελέγχεται η τιµή κλεισίµατος της i-οστής µέρας µε την (i-1) µέρα για να διαπιστωθεί: 1. εάν είναι µεγαλύτερη τότε ο επενδυτής είναι σε θέση να προχωρήσει στην αγορά της µετοχής, οπότε η τιµή της κλάσης εξόδου λαµβάνει την τιµή (yes). 39
40 2. σε διαφορετική περίπτωση δεν θα προβεί στην αγορά αλλά αντίθετα εάν επιθυµεί µπορεί να πουλήσει µετοχές, τότε η τιµή της κλάσεως εξόδου θα λάβει την τιµή (no). Ύστερα από τις διευκρινήσεις που δόθηκαν µπορούµε να παρουσιάσουµε τη µορφή που λαµβάνουν τα data sets δύο µετοχών της ΕΤΕ και της ΤΙΤΚ. Στην «εικόνα 3.1» παρουσιάζουµε τα δεδοµένα µε την κλάση εξόδου. Εικόνα 3.1α Data set µετοχής ΤΙΤΚ. 40
41 Εικόνα 3.1β Data set µετοχής ΕΤΕ. Ο αλγόριθµος κατηγοριοποίησης που θα χρησιµοποιήσουµε παρακάτω έχει ως κλάση εξόδου κατηγορική τιµή (yes or no) και απαντάει στο ερώτηµα εάν θα πρέπει κανείς να επενδύσει µία δεδοµένη ηµέρα. Λόγω της φύσης των δεδοµένων ο αλγόριθµος κατηγοριοποίησης παίρνει την µορφή αλγόριθµου πρόβλεψης της τιµής µιας κλάσεως όχι τρέχουσας στιγµής αλλά µελλοντικής. Στην παράγραφο που ακολουθεί αναφέρουµε ορισµένα στοιχεία για το εργαλείο που πρόκειται να χρησιµοποιήσουµε προκειµένου να κατασκευάσουµε το µοντέλο πρόβλεψης µας. 3.3 Το Εργαλείο ida (idata Analyzer) ο Αλγόριθµος ESX Στο σηµείο αυτό και πρίν προχωρήσουµε στην εφαρµογή των τεχνικών εξόρυξης δεδοµένων χρήσιµο είναι να πούµε ορισµένα πράγµατα αναφορικά µε το εργαλείο και τον αλγόριθµο που θα χρησιµοποιήσουµε. Το εργαλείο ονοµάζεται ida(idata Analyzer) είναι βασισµένο πάνω στο EXCEL του Microsoft Office. Παρέχει υποστήριξη τόσο σε επιχειρηµατικούς όσο και σε τεχνικούς αναλυτές. Το ida αποτελείται από ένα προεπεξεργαστή (preprocessor), 41
42 τρία εργαλεία εξόρυξης δεδοµένων και µια γεννήτρια αναφορών (report generator). Ειδικότερα οι συνιστώσες από τις οποίες αποτελείται το ida αναλύονται παρακάτω. Preprocessor. Πρίν τα δεδοµένα να εισαχθούν σε κάποιο εργαλείο Data mining ελέγχονται για διάφορους τύπους σφαλµάτων περιλαµβάνοντας ελέγχους για εσφαλµένες αριθµητικές τιµές, για κενές γραµµές και γενικά για τιµές που λείπουν. O Preprocessor διορθώνει διαφόρων τύπων σφάλµατα αλλά δεν µπορεί να διορθώσει εσφαλµένες αριθµητικές τιµές. Ο Preprocessor εξάγει ένα αρχείο το οποίο είναι έτοιµο για εφαρµογή Data mining καθώς επίσης και µια αναφορά που περιέχει πληροφορίες σχετικά µε το είδος και την θέση των σφαλµάτων που δεν κατάφερε να διορθώσει. Heuristic Agent. Η συνιστώσα αυτή απαντά στον τρόπο παρουσίασης των αρχείων των δεδοµένων που περιέχουν χιλιάδες στιγµιότυπα. Ειδικότερα µας επιτρέπει να αποφασίσουµε εάν επιθυµούµε να εξάγουµε ένα υποσύνολο των δεδοµένων για να χρησιµοποιήσουµε ή εάν θέλουµε να χρησιµοποιήσουµε το σύνολο των δεδοµένων. ESX. Είναι ένα εργαλείο για Data mining το οποίο θα αναλύσουµε παρακάτω διεξοδικότερα. Πρέπει να πούµε ότι λόγω της δυσκολίας που παρουσιάζουν οι διάφορες αρχιτεκτονικές νευρωνικών δικτύων στην εξήγηση των αποτελεσµάτων το µοντέλο εκµάθησης ESX είναι σε θέση να εξάγει χρήσιµες πληροφορίες σχετικές µε µοτίβα γνώσης µεταξύ των δεδοµένων. Neural Networks. To ida περιλαµβάνει δύο αρχιτεκτονικές νευρωνικών δικτύων- back propagation neural network για ΚΕ a self organizing feature map για MKE. RuleMaker. To ida παρέχει τη δυνατότητα για κατασκευή κανόνων µε διάφορες επιλογές ρυθµίσεις. Report generation. Η συνιστώσα αυτή µας προσφέρει µια πληθώρα από αναφορές µε πληροφορίες που αφορούν στατιστικά µεγέθη αλλά και αποτελέσµατα σχετικά µε την εφαρµογή της επιλεχθείσας τεχνικής εξόρυξης δεδοµένων. Πέρα από τις συνιστώσες που συναποτελούν το εργαλείο ida σηµαντικό είναι να αναφέρουµε και ορισµένα πράγµατα σχετικά µε τον αλγόριθµο ESX. Ειδικότερα ο ESX µπορεί να βοηθήσει στην κατασκευή δεδοµένων στόχου (target data), να ανακαλύψει ανωµαλίες µεταξύ των δεδοµένων και να εφαρµόσει data mining. Ορισµένα από τα χαρακτηριστικά του ESX είναι τα ακόλουθα: Υποστηρίζει τόσο ΚΕ όσο και ΜΚΕ. εν κάνει στατιστικές υποθέσεις για τη φύση των δεδοµένων που πρόκειται να επεξεργαστεί. Υποστηρίζει µια αυτοµατοποιηµένη µέθοδο που αφορά στις χαµένες τιµές κάποιων attributes. Εφαρµόζεται σε δεδοµένα που περιλαµβάνουν τόσο αριθµητικά όσο και κατηγορικά δεδοµένα. Μπορεί να σηµειώνει ασυνέπειες και µη χρήσιµες τιµές στα δεδοµένα. 42
43 Στην ΚΕ µπορεί να εντοπίζει στιγµιότυπα και attributes τα οποία είναι σε θέση να κατηγοριοποιήσουν µε τον καλύτερο τρόπο νέα στιγµιότυπα άγνωστης προέλευσης. Στη ΜΚΕ παρέχει µια συνάρτηση συνολικής βελτιστοποίησης που ενθαρρύνει την καλύτερη συσταδοποίηση των στιγµιοτύπων. Η κύρια δοµή δεδοµένων του ESX είναι ένα ιεραρχικό δένδρο τριών επιπέδων «εικόνα 3.2». Root level Concept level Instance level Εικόνα 3.2 ESX Algorithm Όπου στο Instance Level βρίσκονται τα διάφορα στιγµιότυπα που αποτελούν τιµές των κλάσεων που βρίσκονται στο Concept Level. Concept Level αποθηκεύει την περίληψη για στατιστικά θέµατα για τις τιµές που αφορούν τα διάφορα attributes του αντίστοιχου επιπέδου των στιγµιοτύπων. To Root Level αποθηκεύει πληροφορία συνολικά για όλα τα στιγµιότυπα. Η πληροφορία του Concept Root Level δίνεται στον Report Generator, ο οποίος εξάγει συνολικά τις σχετικές πληροφορίες. 3.4 Αποτελέσµατα Classification Prediction Στην ενότητα αυτή είµαστε πλέον σε θέση να παραθέσουµε τα ενδεικτικά αποτελέσµατα πρόβλεψης δύο µετοχών της ΕΤΕ και της ΤΙΤΚ. Περισσότερα αποτελέσµατα κατηγοριοποίησης - πρόβλεψης παραθέτουµε στο παράρτηµα Β για περαιτέρω µελέτη. Πρέπει να σηµειώσουµε ότι η διαδικασία για τις υπόλοιπες µετοχές δεν διαφοροποιείται στο ελάχιστο και είναι ακριβώς η ίδια. Για την µετοχή ΕΤΕ χρησιµοποιήσαµε τα ακόλουθα data sets: 43
44 #Training set = 3221 Στιγµιότυπα (60% των συνολικών στιγµιοτύπων). #Test set1=2088 Στιγµιότυπα (40% των συνολικών στιγµιοτύπων). #Test set2=10 Στιγµιότυπα για Evaluation. Εφαρµόσαµε τον αλγόριθµο αφού πρώτα εισάγαµε τα ανωτέρω data set και κατασκευάσαµε το µοντέλο όπως αυτό αποτυπώνεται στις παρακάτω εικόνες. Οπότε το µοντέλο έχει confusion matrix τον πίνακα που φαίνεται στην «εικόνα 3.3»: Εικόνα 3.3 Confusion Matrix για τη µετοχή ΕΤΕ Οι πρώτες διαπιστώσεις από τον «Confusion Matrix» είναι οι ακόλουθες: Το µοντέλο παρουσιάζει accuracy = 61% 36.9%<Error rate<41.1% για διάστηµα εµπιστοσύνης 95% του test set. Επιπλέον, µε τον RuleMaker (component του ida) µπορούµε να παράγουµε κανόνες για κάθε τιµή της κλάσης εξόδου, αφού πρώτα ορίσουµε τις παρακάτω παραµέτρους: Minimum correctness = 75% (παράγονται οι κανόνες µε error rate=<25%) Minimum rule coverage = 50% (καλύπτει το 60% και πάνω των στιγµιοτύπων) Στη συνέχεια παρουσιάζουµε τους κανόνες που παρήχθησαν όχι για όλο το σύνολο των στιγµιοτύπων αλλά για αυτά που θεωρούνται ως πιο αντιπροσωπευτικά για την έξοδο. Για κάθε κανόνα γίνεται αναφορά της ακρίβειας του καθώς και του ποσοστού κάλυψης του επι του αριθµού των στιγµιοτύπουν της συγκεκριµένης κλάσης. 44
45 Στην «εικόνα 3.4» βλέπουµε ένα µέρος των test set της µετοχής ΕΤΕ που χρησιµοποιήθηκε, όπως ειπώθηκε, για να ελεχθεί η αξιοπιστία του µοντέλου που κατασκευάστηκε µε το training data set. Με χρώµα κίτρινο υπογραµµίζουµε τα attributes που χρησιµοποιήθηκαν ως είσοδοι στον αλγόριθµο ESX για την κατασκευή του µοντέλου µας, και δεν είναι άλλα από τις τιµές πρόβλεψης του κάθε δείκτη σε ηµερήσια βάση καθώς επίσης και η τιµή κλεισίµατος της µετοχής ΕΤΕ. Η κλάση Invest? αποτελεί την έξοδο του µοντέλου πρόβλεψης και έχει προκαθορισµένες τιµές (yes or no) εφόσον αναφερόµαστε στο test set. Το πεδίο computed class είναι αυτό το οποίο λαµβάνει τις τιµές τις οποίες υπολογίζει το µοντέλο πρόβλεψης. Οπότε είµαστε σε θέση να δούµε και µε λεπτοµέρεια την ακρίβεια του µοντέλου πρόβλεψης. Επιπρόσθετα το πεδίο που είναι χρωµατισµένο µε κόκκινο έχει κελιά κενά αλλά και κελιά µε αστερίσκους. Οι αστερίσκοι υποδηλώνουν ότι οι τιµές της κλάσης εξόδου είναι ίδιες µε τις υπολογισµένες. Έτσι οπτικά είναι έυκολο να δούµε πότε το µοντέλο µας κάνει σωστή πρόβλεψη. 45
46 Εικόνα 3.4 Αποτελέσµατα του Test Set Όπως ήδη έχει αναφερθεί ο αλγόριθµος, µας παρέχει και στατιστικές πληροφορίες που αφορούν τόσο στην κλάση εξόδου όσο και στα attributes εισόδου. Τα στατιστικά µεγέθη είναι χρήσιµα για να έχουµε µια πιο σφαιρική εκτίµηση του µοντέλου (Εικόνα 3.5). Ιδιαίτερη σηµασία για την εκτίµηση του µοντέλου έχουν τα στοιχεία που είναι χαρακτηρισµένα ως Class Resemblance statistics. Ειδικά το µέγεθος που ονοµάζεται Res. Score (Resemblance Score) έχει µεγάλη σηµασία για κάθε κλάση, όταν µάλιστα οι τιµή για κάθε µία από αυτές είναι µεγαλύτερη ή οριακά ίση µε την αντίστοιχη τιµή του Domain, τότε αυτό φανερώνει ότι το µοντέλο µας είναι πολύ καλό µε βάσει τα διαθέσιµα δεδοµένα. 46
47 Εικόνα 3.5 Στατιστικά αποτελέσµατα Επίσης στην «εικόνα 3.6α, 3.6 β» παρουσιάζονται πιο αναλυτικά στατιστικά στοιχεία για µεγαλύτερη λεπτοµέρεια και αφορούν την κάθε κλάση (yes/no) ξεχωριστά. Εικόνα 3.6α Στατιστικά στοιχεία κλάσης yes 47
48 Εικόνα 3.6 β Στατιστικά στοιχεία κλάσης no Ο ESX παράγει και ένα φύλλο EXCEL το οποίο έχει σηµαντικές πληροφορίες για κάθε κλάση αλλά και για κάθε στιγµιότυπο. Συγκεκριµένα στην «εικόνα 3.7» απεικονίζεται ένα µεγάλο µέρος των στιγµιοτύπων τα οποία είναι ταξινοµηµένα κατά κλάση και κατά ένα αύξοντα αριθµό που ονοµάζεται typicality. Ο όρος typicality έχει την έννοια της βαθµολόγησης των στιγµιοτύπων που ανήκουν στην ίδια κλάση µε µία τιµή έως το 1.0 (πρακτικά κανένα δεν λαµβάνει αυτή την τιµή αλλά την προσεγγίζει). Η κλίµακα αυτή της βαθµολόγησης έχει την έννοια να εξηγήσει το πόσο αντιπροσωπευτικό µπορεί να θεωρηθεί ένα στιγµιότυπο σε σχέση µε την κλάση αντίστοιχη έξοδο. Όσο µεγάλη είναι η τιµή του typicality για ένα στιγµιότυπο τόσο πιο συνεπές θεωρείται για την εν λόγω έξοδο. 48
49 Εικόνα 3.7 Ταξινόµηση των στιγµιοτύπων βάσει του typicality τους Για να αξιολογήσουµε περαιτέρω την ακρίβεια του µοντέλου, για το πόσο καλά µπορεί να προβλέψει και να κατευθύνει µε τον τρόπο αυτό την συµπεριφορά ενός υποτιθέµενου επενδυτή, χρησιµοποιήσαµε και το τρίτο σετ δεδοµένων των 10 στιγµιοτύπων, το οποίο αντιστοιχεί σε προβλέψεις επένδυσης ή µη 10 συνεχόµενων ηµερών. Εισάγαµε το test set2 ως προέκταση του test set1 κατά τρόπο τέτοιο που να έχουµε αφαιρέσει την τιµή της κλάσης που αντιστοιχούσε σε κάθε στιγµιότυπο. Ωστόσο γνωρίζουµε εκ των προτέρω πια είναι η τιµή της εξόδου κλάσης για κάθε ένα στιγµιότυπο και αυτό γιατί θα τη χρησιµοποιήσουµε για να τη συγκρίνουµε µε αυτή που υπολόγισε το µοντέλο πρόβλεψης µας. Στην «εικόνα 3.8» αποτυπώνονται τα αποτελέσµατα της πρόβλεψης ενδεχόµενης συµπεριφοράς ενός τυπικού επενδυτή για 10 συνεχόµενες µέρες και µε δεδοµένο ότι έχει εικόνα για τις τιµές των δεικτών και της τιµής κλεισίµατος των προηγούµενων ηµερών. Από την εικόνα µπορεί κανείς να παρατηρήσει ότι στις 6 από τις 10 περιπτώσεις αποφάσισε σωστά, εάν τις συγκρίνει κανείς µε τις τιµές των κλάσεων όπως στην πραγµατικότητα έχουν. Το ποσοστό αυτό, έστω και για ένα µικρό δείγµα test set2 αντανακλά στην ακρίβεια του µοντέλου όπως αυτή περιγράφεται στον confusion matrix. Στην συνέχεια για την περίπτωση της µετοχής TITK χρησιµοποιήσαµε µεγαλύτερο test set2 και στην 49
50 περίπτωση αυτή τα αποτελέσµατα αντικατόπτριζαν πλήρως την ακρίβεια του µοντέλου, όπως αυτή απεικόνιζόταν στον αντίστοιχο confusion matrix. Εικόνα 3.8 Αποτελέσµατα test set2 µετοχή ΕΤΕ Με όµοιο τρόπο για την µετοχή ΤΙΤΚ έχουµε: #Training set = 2851 Στιγµιότυπα (60% των συνολικών στιγµιοτύπων) #Test set1=1901 Στιγµιότυπα ( 40% των συνολικών στιγµιοτύπων) #Test set2=100 Στιγµιότυπα (Evaluation) Η µορφή των δεδοµένων που εισάγουµε στον αλγόριθµο ESX αφορά τις τιµές των δεικτών που υπολογίσαµε στο κεφάλαιο 1, ως attributes εισόδου, καθώς και την τιµή κλεισίµατος. Η κλάση εξόδου που αποτελεί και την πρόβλεψη µας είναι κατηγορική και αναφέρεται στο εάν κάποιος θα πρέπει να επενδύσει να αγοράσει δηλαδή µία συγκεκριµένη χρονική στιγµή µετοχές ή όχι. Στην «εικόνα 3.9» παρουσιάζουµε τη διασύνδεση του χρήστη για την εφαρµογή του αλγόριθµου ESX. Εικόνα 3.9 Επιπλέον εµφανίζεται ένα παράθυρο διαλόγου που ζητάει να θέσουµε ορισµένες ρυθµίσεις για τον αλγόριθµο ESX όπως είναι ο αριθµός των στιγµιοτύπων του training set. (εικόνα 3.10) 50
Πρόβλεψη Χρηματιστηριακών Μεγεθών με Τεχνικές Εξόρυξης Δεδομένων
Πρόβλεψη Χρηματιστηριακών Μεγεθών με Τεχνικές Εξόρυξης Δεδομένων Σαμαράς Νικόλαος, Μαζαράκης Αθανάσιος Τμ. Εφαρμοσμένης Πληροφορικής, Πανεπιστήμιο Μακεδονίας Εγνατίας 156, 54006, Θεσσαλονίκη samaras@uom.gr,
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Η µετοχή µέχρι και το δεύτερο δεκαήµερο του Ιουλίου κινήθηκε ανοδικά δηµιουργώντας νέο υψηλό ( 10,78 ευρώ). Ωστόσο, δεν κατάφερε να διατηρηθεί σε αυτά τα επίπεδα και
ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ Τελική Εργασία στο µάθηµα Αλγόριθµοι Εξόρυξης
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Η µετοχή κατά τον Ιούνιο συνέχισε να κινείται εντός του ανοδικού καναλιού βρίσκοντας στήριξη κατά τις διορθωτικές κινήσεις στην ανοδική γραµµή τάσης. Από το διάγραµµα
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Η µετοχή τους τελευταίους τρεις µήνες κινείται ανοδικά παραµένοντας πάνω από τον κινητό µέσο όρο των 30 ηµερών. Κατά τις διορθωτικές κινήσεις όλη αυτή την περίοδο η
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Η µετοχή κατά το Σεπτέµβριο συνέχισε την ανοδική της πορεία µε αποτέλεσµα στις 19 Σεπτεµβρίου να καταφέρει να ξεπεράσει το επίπεδο αντίστασης των 10,7 ευρώ και να φτάσει
squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,
ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣ ΣΤΙΣ ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΈΤΟΣ 2009 ΌΝΟΜΑ : ΚΑΤΣΑΒΡΙΑΣ ΕΥΑΓΓΕΛΟΣ Α.Μ. : 09480014 ΕΞΑΜΗΝΟ
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Η µετοχή κατά τον Οκτώβριο συνέχισε την ανοδική της πορεία και µετά από µία µικρή διόρθωση στα µέσα του µήνα βρίσκεται πλέον στα επίπεδα των 13,5 14,0 ευρώ. Κατά τις
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Η µετοχή του Σαράντη το προηγούµενο µήνα κινήθηκε έντονα καθοδικά και οδηγήθηκε στη µακροχρόνια γραµµή στήριξής της και το επίπεδο των 6 ευρώ. Είναι πολύ πιθανό να
ΣΤΟ ΣΧΗΜΑ ΣΤΗ ΣΕΛΙ Α 2 ΦΑΙΝΟΝΤΑΙ ΕΠΙΠΕ Α ΣΤΗΡΙΞΗΣ-ΑΝΤΙΣΤΑΣΗΣ & ΕΚΤΙΜΗΣΕΙΣ, ΚΑΙ ΣΤΟ ΣΧΗΜΑ ΣΤΗ ΣΕΛΙ Α 4 Η ΙΑΦΑΙΝΟΜΕΝΗ ΒΕΛΤΙΣΤΗ ΣΤΡΑΤΗΓΙΚΗ
Μέλος του Χ.Α, ελεγχόµενο από την Ελληνική Επιτροπή Κεφαλαιαγοράς. Αριθµός Αδείας: 3/73/7.5.1996 Κλεισόβης 8, Αθήναι, Tηλ. 210-3899400, Fax. 210-3216574 Τεύχος 760 05/01/2010 ΤΗΣ ΑΓΟΡΑΣ Εισαγωγή Εκτιµούµε
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Στις αρχές Μαρτίου, η µετοχή επιχείρησε να διασπάσει ανοδικά το επίπεδο αντίστασης των 12,0 12,5 ευρώ χωρίς όµως επιτυχία µε αποτέλεσµα να κινηθεί πτωτικά µέχρι τα
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Η µετοχή στις αρχές Αυγούστου προσπάθησε να κινηθεί ανοδικά και να διασπάσει τον κινητό µέσο όρο των 30 ηµ. εν τα κατάφερε όµως µε αποτέλεσµα να συνεχίσει την πτωτική
ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β
ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β ηµήτρης Κουγιουµτζής http://users.auth.gr/dkugiu/teach/civilengineer E mail: dkugiu@gen.auth.gr 1/11/2009 2 Περιεχόµενα 1 ΠΕΡΙΓΡΑΦΙΚΗ
Στο παράρτηµα θα παρουσιαστούν συνοπτικά οι δυνατότητες δύο προγραµµάτων Το ένα είναι το Professional Portfolio Manager (-P.P.M-) µε το οποίο µπορεί
ΠΑΡΑΡΤΗΜΑ Στο παράρτηµα θα παρουσιαστούν συνοπτικά οι δυνατότητες δύο προγραµµάτων Το ένα είναι το Professional Portfolio Manager (-P.P.M-) µε το οποίο µπορεί ο χρήστης να πραγµατοποιήσει τις µεθόδους
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Η ανοδική κίνηση της µετοχής που είχε ξεκινήσει στις αρχές Μαρτίου του 2007 διακόπηκε στις 7 Ιανουαρίου όπου η µετοχή άρχισε να κινείται πτωτικά ακολουθώντας το γενικό
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Η µετοχή του Σαράντη τον προηγούµενο µήνα κινήθηκε έντονα καθοδικά, ενώ δεν κατάφερε να βρει στήριξη στη µακροχρόνια γραµµή στήριξής της. Για να ισχύσει οποιοδήποτε
ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά
ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά Μάιος 2008 Τα δεδομένα που έχουμε προς επεξεργασία χωρίζονται σε τρία μέρη: 1. Τα δεδομένα εκπαίδευσης (training set) που αποτελούνται από 2528
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Οι ανοδικές προσδοκίες για τη µετοχή, οι οποίες είχαν δηµιουργηθεί στα τέλη Ιανουαρίου µε την ανοδική διάσπαση από τον δείκτη MACD της trigger line του επιβεβαιώθηκαν
ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ
Ε Θ Ν Ι Κ Ο Μ Ε Τ Σ Ο Β Ι Ο Π Ο Λ Υ Τ Ε Χ Ν Ε Ι Ο ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ & ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΟΝΟΜΑΤΕΠΩΝΥΜΟ:
MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)
MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ g( Έστω τυχαίες µεταβλητές οι οποίες έχουν κάποια από κοινού κατανοµή Ας υποθέσουµε ότι επιθυµούµε να προσδιορίσουµε την κατανοµή της τυχαίας µεταβλητής g( Η θεωρία των ένα-προς-ένα
) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή
Ανάλυση Συνδιακύµανσης Alsis of Covrice Η ανάλυση συνδιακύµανσης είναι µία άλλη τεχνική για να βελτιώσουµε την ακρίβεια της προσέγγισης του µοντέλου µας στο πείραµα. Ας υποθέσουµε ότι σ ένα πείραµα εκτός
ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Δ.Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΧΟΥΧΟΥΜΗΣ ΙΩΑΝΝΗΣ Το σύνολο των
Κεφάλαιο 8 Συνεχείς Κατανομές Πιθανοτήτων
Κεφάλαιο 8 Συνεχείς Κατανομές Πιθανοτήτων Copyright 2009 Cengage Learning 8.1 Συναρτήσεις Πυκνότητας Πιθανοτήτων Αντίθετα με τη διακριτή τυχαία μεταβλητή που μελετήσαμε στο Κεφάλαιο 7, μια συνεχής τυχαία
στατιστική θεωρεία της δειγµατοληψίας
στατιστική θεωρεία της δειγµατοληψίας ΕΙΓΜΑΤΟΛΗΨΙΑ : Εισαγωγή δειγµατοληψία Τα στοιχεία που απαιτούνται τόσο για την ανάλυση των µεταφορικών συστηµάτων και όσο και για την ανάπτυξη των συγκοινωνιακών µοντέλων
Σηµειώσεις στις σειρές
. ΟΡΙΣΜΟΙ - ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ Σηµειώσεις στις σειρές Στην Ενότητα αυτή παρουσιάζουµε τις βασικές-απαραίτητες έννοιες για την µελέτη των σειρών πραγµατικών αριθµών και των εφαρµογών τους. Έτσι, δίνονται συστηµατικά
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Στις αρχές Απριλίου, η µετοχή διέσπασε καθοδικά τον κινητό µέσο όρο 30 ηµ. και κινήθηκε πτωτικά µε αποτέλεσµα να βρεθεί κάτω και από τα 11,0 ευρώ. Από τα µέσα Απριλίου
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Η µετοχή Σαράντης στις αρχές Ιουλίου αφού δεν κατάφερε να διασπάσει ανοδικά τον κινητό µέσο όρο των 30 ηµ., κινήθηκε έντονα πτωτικά, µε αποτέλεσµα η τιµή της να µειωθεί
ΠΕΡΙΕΧΟΜΕΝΑ. H πηγή επιχειρησιακών βιβλίων
i ΠΕΡΙΕΧΟΜΕΝΑ Σας παρουσιάζουµε τα περιεχόµενα του βιβλίου, τα οποία καλύπτουν πλήρως τα θέµατα Ανάλυσης Επενδύσεων και ιαχείρισης Χαρτοφυλακίου Πρόλογος Κεφάλαιο 1: Εισαγωγή 1.1 Η επενδυτική διαδικασία
ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ
ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται
2.3. Ασκήσεις σχ. βιβλίου σελίδας 100 104 Α ΟΜΑ ΑΣ
.3 Ασκήσεις σχ. βιβλίου σελίδας 00 04 Α ΟΜΑ ΑΣ. Έξι διαδοχικοί άρτιοι αριθµοί έχουν µέση τιµή. Να βρείτε τους αριθµούς και τη διάµεσό τους. Αν είναι ο ποιο µικρός άρτιος τότε οι ζητούµενοι αριθµοί θα είναι
ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ
ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Τα προς επεξεργασία
11 Το ολοκλήρωµα Riemann
Το ολοκλήρωµα Riem Το πρόβληµα υπολογισµού του εµβαδού οποιασδήποτε επιφάνειας ( όπως κυκλικοί τοµείς, δακτύλιοι και δίσκοι, ελλειπτικοί δίσκοι, παραβολικά και υπερβολικά χωρία κτλ) είναι γνωστό από την
Εξαγωγή κανόνων από αριθµητικά δεδοµένα
Εξαγωγή κανόνων από αριθµητικά δεδοµένα Συχνά το σύστηµα που θέλουµε να µοντελοποιήσουµε η να ελέγξουµε αντιµετωπίζεται ως µαύρο κουτί και η πληροφορία για τη λειτουργία του διατίθεται υπό µορφή ζευγών
Σηµειώσεις Οικονοµετρίας Ι.. ικαίος Τσερκέζος
Ο ΚΕΦΑΛΑΙΙΟ 33 Η ΣΣΥΜΜΕΕΤΤΑΒΛΗΤΤΟΤΤΗΤΤΑ ΤΤΩΝ ΟΙΚΟΝΟΜΙΚΩΝ ΜΕΕΓΓΕΕΘΩΝ.. (ΣΣΥΣΣΧΕΕΤΤΙ ( ΙΣΣΗ) ) Γραµµική και Μη Γραµµική Συσχέτιση. Συντελεστής Αυτοσυσχέτισης. Μνήµη Χρονοσειρών. 8 7 6 F F F3 F4 F5 F6 F7
Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου
Ένας καθηγητής µαθηµατικών έδωσε σε δύο τµήµατα µιας τάξης του σχολείου του το ίδιο τεστ. Η επίδοση των µαθητών του κάθε τµήµατος (όπως µετρήθηκε µε τη χρήση µιας εικοσαβάθµιας κλίµακας) παρουσιάζεται
3. Οριακά θεωρήµατα. Κεντρικό Οριακό Θεώρηµα (Κ.Ο.Θ.)
3 Οριακά θεωρήµατα Κεντρικό Οριακό Θεώρηµα (ΚΟΘ) Ένα από τα πιο συνηθισµένα προβλήµατα που ανακύπτουν στη στατιστική είναι ο προσδιορισµός της κατανοµής ενός µεγάλου αθροίσµατος ανεξάρτητων τµ Έστω Χ Χ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος
Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34
Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 14 Μαρτίου 018 1/34 Διαστήματα Εμπιστοσύνης. Εχουμε δει εκτενώς μέχρι τώρα τρόπους εκτίμησης
British Middlesex University
Καρακολτζίδης Ιωάννης Υποψήφιος ιδάκτωρ British Middlesex University Ερευνητικό πεδίο: Αποκωδικοποίηση της µεταβλητότητας και της διακύµανσης των χρηµατοπιστωτικών αγορών, ως εργαλείο ανάλυσης, για την
ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΓΩΓΗΣ- ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ Εργασία για το σεµινάριο «Στατιστική περιγραφική εφαρµοσµένη στην ψυχοπαιδαγωγική(β06σ03)» ΤΙΤΛΟΣ: «ΜΕΛΕΤΗ ΠΕΡΙΓΡΑΦΙΚΗΣ
ΠροσδιορισµόςΒέλτιστης Λύσης στα Προβλήµατα Μεταφοράς Η µέθοδος Stepping Stone
ΠροσδιορισµόςΒέλτιστης Λύσης στα Προβλήµατα Μεταφοράς Η µέθοδος Stepping Stone Hµέθοδος Stepping Stoneείναι µία επαναληπτική διαδικασία για τον προσδιορισµό της βέλτιστης λύσης σε ένα πρόβληµα µεταφοράς.
Ονοµατεπώνυµο : Σίσκου Σταµατίνα Ειρήνη. Υπεύθυνοςκαθηγητής: ΑναστάσιοςΒ. Κάτος. Θεσσαλονίκη, Ιανουάριος 2010
Π.Μ.Σ ΤΜΗΜΑΤΟΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Ο προσδιορισµός του επιπέδου της ιδιωτικής κατανάλωσης, των επενδύσεων και των συνολικών εισαγωγών. Mία εµπειρική µελέτη για την Νορβηγία, την
προβλήµατος Το φίλτρο Kalman διαφέρει από τα συνηθισµένα προβλήµατα ΜΕΤ σε δύο χαρακτηριστικά: παραµέτρων αγνώστων
Φίλτρα Kalman Εξαγωγή των εξισώσεων τους µε βάση το κριτήριο ελαχιστοποίησης της Μεθόδου των Ελαχίστων Τετραγώνων. Αναλυτικές Μέθοδοι στη Γεωπληροφορική Μεταπτυχιακό Πρόγραµµα ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ ιατύπωση του
Περιγραφική Στατιστική
Ιωάννης Παραβάντης Επίκουρος Καθηγητής Τµήµα ιεθνών και Ευρωπαϊκών Σπουδών Πανεπιστήµιο Πειραιώς Φεβρουάριος 2010 Περιγραφική Στατιστική 1. εδοµένα Θεωρούµε το ακόλουθο σύνολο δεδοµένων (data set): NUM1
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Η µετοχή Σαράντης κατά το Μάιο κινήθηκε πλευρικά µεταξύ των 11,0 και 11,5 ευρώ. Ωστόσο κατά τις τελευταίες συνεδριάσεις κινήθηκε έντονα ανοδικά µε ποτέλεσµα να ξεπεράσει
ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ
ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ Μετά από την εκτίµηση των παραµέτρων ενός προσοµοιώµατος, πρέπει να ελέγχουµε την αλήθεια της υποθέσεως που κάναµε. Είναι ορθή η υπόθεση που κάναµε? Βεβαίως συνήθως υπάρχουν
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008
ΚΕΦΑΛΑΙΟ 3 ΜΕΛΕΤΗ ΑΠΟ ΟΣΗΣ ΚΑΙ ΕΠΙΤΥΧΙΑΣ ΗΜΕΡΗΣΙΩΝ ΗΜΟΣΙΩΝ ΚΑΙ Ι ΙΩΤΙΚΩΝ ΛΥΚΕΙΩΝ ΕΙΣΑΓΩΓΗ
ΚΕΦΑΛΑΙΟ 3 ΜΕΛΕΤΗ ΑΠΟ ΟΣΗΣ ΚΑΙ ΕΠΙΤΥΧΙΑΣ ΗΜΕΡΗΣΙΩΝ ΗΜΟΣΙΩΝ ΚΑΙ Ι ΙΩΤΙΚΩΝ ΛΥΚΕΙΩΝ ΕΙΣΑΓΩΓΗ Στο κεφάλαιο αυτό θα εξετάσουµε την απόδοση και την επιτυχία των υποψηφίων η µερησίων δηµοσίων και ιδιωτικών λυκείων
----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------
----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------ ΚΕΦΑΛΑΙΟ 9 ο 9.1 ηµιουργία µοντέλων πρόβλεψης 9.2 Απλή Γραµµική Παλινδρόµηση 9.3 Αναλυτικά για το ιάγραµµα ιασποράς
ΠΕΡΙ ΜΕΤΑΒΑΣΗΣ ΑΠΟ ΤΑ ΙΑΓΡΑΜΜΑΤΑ ΡΟΗΣ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΕ ΙΑΓΡΑΜΜΑΤΑ ΟΜΗΣ Ε ΟΜΕΝΩΝ
ΠΕΡΙ ΜΕΤΑΒΑΣΗΣ ΑΠΟ ΤΑ ΙΑΓΡΑΜΜΑΤΑ ΡΟΗΣ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΕ ΙΑΓΡΑΜΜΑΤΑ ΟΜΗΣ Ε ΟΜΕΝΩΝ Μερικές παρατηρήσεις και σκέψεις του συγγραφέα του βιβλίου Σχετικά µε τη µετάβαση από Ρ σε ΠΠ υπάρχουν 2 σηµαντικά ερωτήµατα:
ΠΡΟΒΛΗΜΑΤΑ ΕΛΑΧΙΣΤΟΠΟΙΗΣΗΣ
ΠΡΟΒΛΗΜΑΤΑ ΕΛΑΧΙΣΤΟΠΟΙΗΣΗΣ Ελαχιστοποίηση κόστους διατροφής Ηεπιχείρηση ζωοτροφών ΒΙΟΤΡΟΦΕΣ εξασφάλισε µια ειδική παραγγελίααπό έναν πελάτη της για την παρασκευή 1.000 κιλών ζωοτροφής, η οποία θα πρέπει
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε
Επιµέλεια Θοδωρής Πιερράτος
Η έννοια πρόβληµα Ανάλυση προβλήµατος Με τον όρο πρόβληµα εννοούµε µια κατάσταση η οποία χρήζει αντιµετώπισης, απαιτεί λύση, η δε λύση της δεν είναι γνωστή ούτε προφανής. Μερικά προβλήµατα είναι τα εξής:
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ
ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 2 Σεπτεµβρίου 2005 5:00-8:00 Σχεδιάστε έναν αισθητήρα ercetro
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε
Κεφάλαιο 13. Εισαγωγή στην. Η Ανάλυση ιακύµανσης
Κεφάλαιο 13 Εισαγωγή στην Ανάλυση ιακύµανσης 1 Η Ανάλυση ιακύµανσης Από τα πιο συχνά χρησιµοποιούµενα στατιστικά κριτήρια στην κοινωνική έρευνα Γιατί; 1. Ενώ αναφέρεται σε διαφορές µέσων όρων, όπως και
1.2 Απλός Κινητός Μέσος (Simple -equally-weighted- Moving Average)
Μέθοδοι Εξομάλυνσης Οι διαδικασίες της εξομάλυνσης (smoohig και της παρεμβολής (ierpolaio αποτελούν ένα περίπλοκο πεδίο έρευνας και γνώσης και έχουν άμεση πρακτική εφαρμογή στις οικονομικές επιστήμες..
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ.
Τεχνική Ανάλυση Μετοχής ΣΑΡΑΝΤΗΣ ΓΡ. Η µετοχή Σαράντης τελικά δεν κατάφερε στις αρχές Ιουνίου να προσεγγίσει το επίπεδο αντίστασης των 13,0 ευρώ. Άρχισε να κινείται πτωτικά µε αποτέλεσµα στα τέλη Ιουνίου
Greek Finance Forum* 28/04/15. Καθημερινή Ανάλυση και Σχόλιο για τις αγορές. GFF Athens - London 28/04/2015
28/04/15 - Greek Finance Forum Καθημερινή Ανάλυση και Σχόλιο για τις αγορές Greek Finance Forum* Τα όσα αναγράφονται σε καμία περίπτωση δεν μπορούν να θεωρηθούν ως προτροπή για αγορά, πώληση ή/και διακράτηση
1.4 Λύσεις αντιστρόφων προβλημάτων.
.4 Λύσεις αντιστρόφων προβλημάτων. Ο τρόπος παρουσίασης της λύσης ενός αντίστροφου προβλήµατος µπορεί να διαφέρει ανάλογα µε τη «φιλοσοφία» επίλυσης που ακολουθείται και τη δυνατότητα παροχής πρόσθετης
Βασικές Έννοιες Στατιστικής & Μέθοδοι Πρόβλεψης
ΜΕΡΟΣ Βασικές Έννοιες Στατιστικής & Μέθοδοι Πρόβλεψης Εισαγωγή Περιγραφή μεθόδων πρόβλεψης Οι μέθοδοι προβλέψεων χωρίζονται σε 3 μεγάλες κατηγορίες Α. Με βάση τον ορίζοντα προγραμματισμού. βραχυπρόθεσμες.
ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΕΙΡΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑ
ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΕΙΡΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑ απόκλιση από την κανονικότητα µπορεί να σηµαίνει Ύπαρξη θετικής ή αρνητικής ασυµµετρίας Ύπαρξη λεπτοκύρτωσης, δηλαδή παρουσία ακραίων τιµών που δεν είναι συµβατές
Παράδειγµα (Risky Business 1)
Πληροφοριακά Συστήµατα ιοίκησης Τµήµα Χρηµατοοικονοµικής και Ελεγκτικής Management Information Systems Εργαστήριο 3 ΤΕΙ Ηπείρου (Παράρτηµα Πρέβεζας) ΑΝΤΙΚΕΙΜΕΝΟ: Συµπεράσµατα για την αβεβαιότητα Θέµατα
ΑΛΜΥ και ΑΤΤΙΚΑ: ύο Patterns µε Ενδιαφέρον
Techncal Note http://www.metatradng.gr Volume, Issue 6 Πέµπτη 7 Ιανουαρίου 00 ΑΛΜΥ και ΑΤΤΙΚΑ: ύο Patterns µε Ενδιαφέρον Σε αυτό το σύντοµο Specal Report παρουσιάζουµε ακόµα τίτλους, στους πολλούς που
Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv
Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,
Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση
Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση Πέρα όµως από την Γνωσιακή/Εννοιολογική ανάλυση της δοµής και του περιεχοµένου των σχολικών εγχειριδίων των Μαθηµατικών του Δηµοτικού ως προς τις έννοιες
Weekly Report 242 ο Τεύχος
Snapshot Αγορών Κύριοι Δείκτες Ανάλυση Αγορών [Επεξηγήσεις Πίνακα περισσότερες πληροφορίες στο τέλος του report] *Η μέτρηση για το CBOE VIX γίνεται από το Υψηλό του Μαρτίου 2009 1 S&P500 Που βρίσκεται
11ο Πανελλήνιο Συνέδριο της ΕΕΦ, Λάρισα 30-31/03, 1-2/04/2006. Πρακτικά Συνεδρίου
ο Πανελλήνιο Συνέδριο της ΕΕΦ, Λάρισα 30-3/03, -/04/006. Πρακτικά Συνεδρίου Έµµεσες µετρήσεις φυσικών µεγεθών. Παράδειγµα: Ο πειραµατικός υπολογισµός του g µέσω της µέτρησης του χρόνου των αιωρήσεων απλού
Greek Finance Forum. Global Technical Analysis Institute 14/02/13
Global Technical Analysis Institute 14/02/13 Greek Finance Forum Καθημερινή Ανάλυση και Σχόλιο για τις αγορές Greek Finance Forum & Global Technical Analysis Institute* Τα όσα αναγράφονται σε καμία περίπτωση
Πρακτική µε στοιχεία στατιστικής ανάλυσης
Πρακτική µε στοιχεία στατιστικής ανάλυσης 1. Για να υπολογίσουµε µια ποσότητα q = x 2 y xy 2, µετρήσαµε τα µεγέθη x και y και βρήκαµε x = 3.0 ± 0.1και y = 2.0 ± 0.1. Να βρεθεί η ποσότητα q και η αβεβαιότητά
Μεθοδολογίες παρεµβολής σε DTM.
Μάθηµα : Αλγοριθµικές Βάσεις στη Γεωπληροφορική ιδάσκων : Συµεών Κατσουγιαννόπουλος Μεθοδολογίες παρεµβολής σε DTM.. Μέθοδοι παρεµβολής. Η παρεµβολή σε ψηφιακό µοντέλο εδάφους (DTM) είναι η διαδικασία
ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ
ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ : ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ ΠΙΘΑΝΟΝΤΗΤΕΣ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗΣ ΕΡΓΑΣΙΑ 08: ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ 1 Ο ΣΤΑΔΙΟ: Πριν εφαρμόσουμε οποιοδήποτε αλγόριθμο
ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ
ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ ιαφάνειες για το µάθηµα Information Management ΑθανάσιοςΝ. Σταµούλης 1 ΠΗΓΗ Κονδύλης Ε. (1999) Στατιστικές τεχνικές διοίκησης επιχειρήσεων, Interbooks 2 1 Γραµµική παλινδρόµηση Είναι
Πληροφοριακά Συστήµατα ιοίκησης Τµήµα Χρηµατοοικονοµικής και Ελεγκτικής Management Information Systems Εργαστήριο 4 ΤΕΙ Ηπείρου (Παράρτηµα Πρέβεζας)
Πληροφοριακά Συστήµατα ιοίκησης Τµήµα Χρηµατοοικονοµικής και Ελεγκτικής Management Information Systems Εργαστήριο 4 ΤΕΙ Ηπείρου (Παράρτηµα Πρέβεζας) ΑΝΤΙΚΕΙΜΕΝΟ: Προσοµοίωση (Simulation) και Τυχαίες µεταβλητές
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ
ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο
Ελεγκτικής. ΤΕΙ Ηπείρου (Παράρτηµα Πρέβεζας)
Πληροφοριακά Συστήµατα ιοίκησης Management Information Systems Εργαστήριο 2 Τµήµα Χρηµατοοικονοµικής και Ελεγκτικής ΤΕΙ Ηπείρου (Παράρτηµα Πρέβεζας) ΑΝΤΙΚΕΙΜΕΝΟ: Προσοµοίωση (Simulation) και τυχαίες µεταβλητές
Ι. Preprocessing (Επεξεργασία train.arff):
Ονοματεπώνυμο: Κατερίνα Αργύρη Δ.Π.Μ.Σ: Εφαρμοσμένες Μαθηματικές Επιστήμες Ακαδ. Έτος: 2008-2009 1 Για την παρούσα εργασία διατίθενται τρία σύνολα δεδομένων: Δεδομένα Εκπαίδευσης (train set αρχείο train.arff):
Κεφάλαιο 6 Παράγωγος
Σελίδα από 5 Κεφάλαιο 6 Παράγωγος Στο κεφάλαιο αυτό στόχος µας είναι να συνδέσουµε µία συγκεκριµένη συνάρτηση f ( ) µε µία δεύτερη συνάρτηση f ( ), την οποία και θα ονοµάζουµε παράγωγο της f. Η τιµή της
1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος
Έλεγχοι Υποθέσεων 1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος µ = 100 Κάθε υπόθεση συνοδεύεται από µια εναλλακτική: Ο
Ανάπτυξη Εφαρµογών σε Προγραµµατιστικό Περιβάλλον
Ανάπτυξη Εφαρµογών σε Προγραµµατιστικό Περιβάλλον Λύσεις µε κατάλληλο σχολιασµό και παρατηρήσεις σε θέµατα από παλαιότερες πανελλαδικές εξετάσεις. Γενικές οδηγίες και παρατηρήσεις κατά την αντιµετώπιση
2. Στοιχεία Πολυδιάστατων Κατανοµών
Στοιχεία Πολυδιάστατων Κατανοµών Είναι φανερό ότι έως τώρα η µελέτη µας επικεντρώνεται κάθε φορά σε πιθανότητες που αφορούν µία τυχαία µεταβλητή Σε αρκετές όµως περιπτώσεις ενδιαφερόµαστε να εξετάσουµε
ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης
ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση
Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος
Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης
www.onlineclassroom.gr
ΘΕΜΑ 4 Υποθέστε ότι είστε ο διαχειριστής του αµοιβαίου κεφαλαίου ΑΠΟΛΛΩΝ το οποίο εξειδικεύεται σε µετοχές µεγάλης κεφαλαιοποίησης εσωτερικού. Έπειτα από την πρόσφατη ανοδική πορεία του Χρηματιστηρίου
ΣΥΛΛΟΓΗ ΚΑΙ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ Ε ΟΜΕΝΩΝ
ΤΕΤΑΡΤΟ ΠΑΚΕΤΟ ΣΗΜΕΙΩΣΕΩΝ ΣΥΛΛΟΓΗ ΚΑΙ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ Ε ΟΜΕΝΩΝ ΓΕΝΙΚΑ Η συλλογή των στατιστικών δεδοµένων αποτελεί σηµαντικό στάδιο κάθε Στατιστικής έρευνας. Απαιτεί ιδιαίτερη προσοχή, διότι,
Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων
Ελλιπή δεδομένα Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 75 ατόμων Εδώ έχουμε δ 75,0 75 5 Ηλικία Συχνότητες f 5-4 70 5-34 50 35-44 30 45-54 465 55-64 335 Δεν δήλωσαν 5 Σύνολο 75 Μπορεί
ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)
ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί) Α. Ερωτήσεις πολλαπλών επιλογών.(11 βαθµοί) (1:3 βαθµοί, 2-9:8 βαθµοί) 1. ίνεται ο πίνακας: Χ
ΣΕΙΡΕΣ TAYLOR. Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων. Πολυώνυµο είναι κάθε συνάρτηση της µορφής:
ΣΕΙΡΕΣ TAYLOR Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων Πολυώνυµο είναι κάθε συνάρτηση της µορφής: p( ) = a + a + a + a + + a, όπου οι συντελεστές α i θα θεωρούνται
Σχολικός Σύµβουλος ΠΕ03
Ασκήσεις Μαθηµατικών Θετικής & Τεχνολογικής Κατεύθυνσης Γ Λυκείου ρ. Παναγιώτης Λ. Θεοδωρόπουλος Σχολικός Σύµβουλος ΠΕ03 e-mail@p-theodoropoulos.gr Στην εργασία αυτή ξεχωρίζουµε και µελετάµε µερικές περιπτώσεις
Τηλ: (+30) Φαξ: (+30) ΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΧΡΗΜΑΤΙΣΤΗΡΙΑΚΗ Α.Ε.Π.Ε.Υ. 19/05/2013
Είχαµε αναφέρει για το Γενικό είκτη από την προηγούµενη τεχνική ανάλυση ότι: ο αυξηµένος τζίρος συναλλαγών των τελευταίων συνεδριάσεων της προπερασµένης εβδοµάδας σε συνδυασµό µε τη συµπεριφορά στις διαγραµµατικές
Weekly Report 192 ο Τεύχος
Snapshot Αγορών - Κύριοι είκτες Τελευταία Τιµή Κλεισίµατος Ηµερήσια Μεταβολή Παρασκευής Εβδοµαδιαία Μεταβολή Μεταβολή από αρχές του έτους έως σήµερα Μεταβολή από το χαµηλό του Μαρτίου Μεταβολή από το Υψηλότερο
ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική
ΕΕΟ 11 Η χρήση στατιστικών εργαλείων στην εκτιμητική 1. Εισαγωγή 2. Προϋποθέσεις χρήσης των Αυτοματοποιημένων Εκτιμητικών Μοντέλων (ΑΕΜ) 3. Περιορισμοί στη χρήση των ΑΕΜ εφόσον έχουν πληρωθεί οι προϋποθέσεις
Κατανοµές. Η κατανοµή (distribution) µιας µεταβλητής (variable) φαίνεται από το σχήµα του ιστογράµµατος (histogram).
Ιωάννης Παραβάντης Επίκουρος Καθηγητής Τµήµα ιεθνών και Ευρωπαϊκών Σπουδών Πανεπιστήµιο Πειραιώς Μάρτιος 2010 Κατανοµές 1. Οµοιόµορφη κατανοµή Η κατανοµή (distribution) µιας µεταβλητής (variable) φαίνεται
ΕΠΙΤΑΧΥΝΣΗ- ΕΠΙΤΑΧΥΝΟΜΕΝΗ ΚΙΝΗΣΗ
ΕΠΙΤΑΧΥΝΣΗ- ΕΠΙΤΑΧΥΝΟΜΕΝΗ ΚΙΝΗΣΗ Η ταχύτητα συνήθως δεν παραµένει σταθερή Ας υποθέσουµε ότι ένα αυτοκίνητο κινείται σε ευθύγραµµο δρόµο µε ταχύτητα k 36. Ο δρόµος είναι ανοιχτός και ο οδηγός αποφασίζει
ΣΗΜΕΙΩΣΕΙΣ ΜΑΘΗΜΑΤΙΚΗΣ ΑΝΑΛΥΣΗΣ Ι (2006-07)
ΤΕΙ ΥΤΙΚΗΣ ΜΑΚΕ ΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΣΗΜΕΙΩΣΕΙΣ ΜΑΘΗΜΑΤΙΚΗΣ ΑΝΑΛΥΣΗΣ Ι (2006-07) Επιµέλεια Σηµειώσεων : Βασιλειάδης Γεώργιος Καστοριά, εκέµβριος 2006
Χ.Α, 3/73/ , , /08/2010 ΕΒ ΟΜΑ ΙΑΙΕΣ ΠΡΟΟΠΤΙΚΕΣ ΤΗΣ ΑΓΟΡΑΣ
Μέλος του Χ.Α, ελεγχόµενο από την Ελληνική Επιτροπή Κεφαλαιαγοράς. Αριθµός Αδείας: 3/73/7.5.1996 Κλεισόβης 8, Αθήναι, Tηλ. 210-3899400, Fax. 210-3216574 Τεύχος 791 24/08/2010 ΤΗΣ ΑΓΟΡΑΣ Εισαγωγή Εκτιµούµε
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ Ενότητα # 7: Δειγματοληψία Μιλτιάδης Χαλικιάς Τμήμα Διοίκησης Επιχειρήσεων Άδειες Χρήσης
Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:
Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2005-2006 Εαρινό Εξάµηνο 1 η Σειρά Ασκήσεων (Αξιολόγηση Αποτελεσµατικότητας Ανάκτησης) Άσκηση 1 (4 βαθµοί) Θεωρείστε
2. Missing Data mechanisms
Κεφάλαιο 2 ο 2. Missing Data mechanisms 2.1 Εισαγωγή Στην προηγούµενη ενότητα περιγράψαµε κάποια από τα βασικά µοτίβα εµφάνισης των χαµένων τιµών σε σύνολα δεδοµένων. Ένα άλλο ζήτηµα που µας απασχολεί