ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ"

Transcript

1 ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ Ανάλυση κατά Συστάδες σε δεδοµένα Χρονολογικών σειρών Κωνσταντίνα Κ. Μεντζέλου ΕΡΓΑΣΙΑ Που υποβλήθηκε στο Τµήµα Στατιστικής του Οικονοµικού Πανεπιστηµίου ΑΘηνών ως µέρος των απαιτήσεων για την απόκτηση Μεταπτυχιακού ιπλώµατος Συµπληρωµατικής Ειδίκευσης στη Στατιστική Μερικής Παρακολούθησης (Part-time) Αθήνα εκέµβριος 2012

2

3 ΑΦΙΕΡΩΣΗ Σε όσους βλέπουν τον ελέφαντα που έφαγε ο βόας και όχι το καπέλο Στον Κάκτο...Στους δικούς µου

4

5 ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω όλους όσους είναι δίπλα µου όλα αυτά τα χρόνια µε στηρίζουν και µε ανέχονται. Κυρίως όµως θα ήθελα να ευχαριστήσω τους γονείς µου και την αδερφή µου που ήταν και παραµένουν δίπλα µου. Τέλος θα ήθελα να ευχαριστήσω τον καθηγητή µου κ. ηµήτρη Καρλή για την βοήθεια και την υποµονή του κατά την διάρκεια της εκπόνησης αυτής της εργασίας. I

6 II

7 ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ Γεννήθηκα στις 15 Γενάρη του 1984 στο Μαρούσι Αττικής. Τον Οκτώβριο του 2001 ξεκίνησα τις σπουδές µου στο Πανεπιστήµιο Πειραιά στο τµήµα Πληροφορικής, τις οποίες ολοκλήρωσα τον Σεπτέµβριο του Μετά το πέρας των σπουδών µου ξεκίνησα να δουλεύω στο τµήµα Πληροφορικής µεγάλης φαρµακευτικής εταιρείας, στην οποία παραµένω µέχρι και σήµερα. Τον Οκτώβριο του 2009 ξεκίνησα το µεταπτυχιακό πρόγραµµα σπουδών Ποσοτικές Μέθοδοι στην λήψη Αποφάσεων του τµήµατος Στατιστικής του Οικονοµικού Πανεπιστηµίου Αθηνών. III

8 IV

9 ABSTRACT Constantina Mentzelou Cluster Analysis of Time Series data December 2012 Cluster Analysis comprises of a family of methods that are commonly applied for the analysis of real-life data in both the enterprise and the academic sector, since it constitutes a state-of-the-art, flexible and reliable tool for information management, optimization and decision making. The application of Cluster analysis on time series has been an active field of research in the late years in view of producing appropriate distance measures and modifying existing algorithms in order to adapt to such data s nature and that is variables whose value changes over time. This report includes an extensive reference in the most widely known Cluster Analysis algorithms, as well as in Time Series Analysis theory and the efforts made so far towards mixing those two elements. This theoretical part is accompanied by an equally extensive application of such theories and practices on real-life data with the use of R. In the frame of this application, some of the most basic issues of Cluster Analysis are discussed, such as identifying the optimal number of clusters, interpreting the clusters created and extracting additional information from the data available by using the cluster solution. V

10 VI

11 ΠΕΡΙΛΗΨΗ Κωνσταντίνα Μεντζέλου Ανάλυση κατά Συστάδες σε δεδοµένα Χρονολογικών σειρών εκέµβριος 2012 Η Ανάλυση κατά Συστάδες περιλαµβάνει µια οικογένεια µεθόδων που συναντάται πολύ συχνά στην ανάλυση πραγµατικών δεδοµένων τόσο στον επαγγελµατικό όσο και στον ακαδηµαϊκό τοµέα, αποτελώντας ένα πολύ σύγχρονο, ευέλικτο και αποτελεσµατικό εργαλείο για τη συµπύκνωση της πληροφορίας και τη λήψη βέλτιστων αποφάσεων. Η εφαρµογή τέτοιων µεθόδων σε δεδοµένα χρονολογικών σειρών αποτελεί διεθνώς πεδίο µελέτης τα τελευταία χρόνια καθώς απαιτεί την προσαρµογή των αλγορίθµων και των µέτρων απόστασης που χρησιµοποιούν στη φύση των δεδοµένων αυτών τα δεδοµένα αυτά µεταβάλλονται µε το χρόνο. Στο πλαίσιο της παρούσας εργασίας γίνεται εκτενής αναφορά στη µεθοδολογία της Ανάλυσης κατά Συστάδες, στη θεωρία της Ανάλυσης Χρονολογικών Σειρών καθώς και στις προσπάθειες που έχουν γίνει για τη µίξη των δύο θεωριών. Το θεωρητικό µέρος ακολουθεί µια εξίσου εκτενής πρακτική εφαρµογή των συγκεκριµένων θεωριών και πρακτικών σε πραγµατικά δεδοµένα µε τη χρήση του στατιστικού πακέτου R. Στην εφαρµογή αυτή εξετάζονται και ορισµένα από τα σηµαντικότερα σηµεία της εφαρµογής Ανάλυσης κατά Συστάδες που αφορούν την επιλογή του βέλτιστου πλήθους συστάδων, την ερµηνεία των συστάδων και την αξιοποίηση της λύσης της Ανάλυσης κατά Συστάδες για την εξαγωγή πρόσθετης χρήσιµης πληροφορίας από τα διαθέσιµα δεδοµένα. VII

12 VIII

13 ΚΑΤΑΛΟΓΟΣ ΠΕΡΙΕΧΟΜΕΝΩΝ Σελίδα ΕΥΧΑΡΙΣΤΙΕΣ... I ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ... III ABSTRACT... V ΠΕΡΙΛΗΨΗ... VII ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ...XI ΚΑΤΑΛΟΓΟΣ ΓΡΑΦΗΜΑΤΩΝ...XIII 1. Εισαγωγή Ανάλυση κατά Συστάδες Προσεγγίσεις στη δηµιουργία και τον ορισµό συστάδων Βασικά βήµατα της διαδικασίας Αλγόριθµοι ανάλυσης κατά συστάδες Οµοιότητα και µέτρα απόστασης Τοµείς εφαρµογής της Ανάλυσης κατά Συστάδες Χρονολογικές σειρές Ιδιότητες µιας χρονολογικής σειράς Γραµµικότητα Στασιµότητα Εργοδικότητα Στοχαστικότητα Επιλογή µεθόδου για την ανάλυση µιας χρονολογικής σειράς Μοντέλα ανάλυσης χρονολογικών σειρών Μοντέλα κινητού µέσου Μοντέλα ARIMA Εκθετική εξοµάλυνση Ανάλυση παλινδρόµησης Ανάλυση κατά Συστάδες σε δεδοµένα χρονολογικών σειρών Προσεγγίσεις που χρησιµοποιούνται για τη συσταδοποίηση δεδοµένων χρονολογικών σειρών Μέτρα απόστασης χρονολογικών σειρών και εφαρµογές Επιλογή µεθόδων για εφαρµογή Εφαρµογή της µεθοδολογίας σε πραγµατικά δεδοµένα Περιγραφή και επεξεργασία των δεδοµένων Στόχοι της µελέτης Επιλογή των µεθόδων ανάλυσης και περιορισµοί Περιορισµοί στην επιλογή µεθόδων ανάλυσης Επιλογή µεθόδων Εφαρµογή µεθόδων για την οµαδοποίηση των πελατών IX

14 5.3.1 Ιεραρχική Συσταδοποίηση K means Μοντέλα χρονολογικών σειρών Ερµηνεία των Συστάδων - Αξιοποίηση των αποτελεσµάτων της συσταδοποίησης για την εξαγωγή πρόσθετης πληροφορίας Ανάλυση παραγόντων δαπάνης Ανάλυση κατηγοριών και οµάδων προϊόντων Σύνοψη, συµπεράσµατα και συνέχεια της µελέτης Βιβλιογραφία X

15 ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ Πίνακας Σελίδα Πίνακας 1:Ιεραρχικοί αλγόριθµοι ανάλυσης κατά συστάδες Πίνακας 2:Μέτρα απόστασης και φόρµουλες υπολογισµού Πίνακας 3: Μέτρα απόστασης που χρησιµοποιούνται σε µεθόδους που εφαρµόζονται απευθείας στα δεδοµένα Πίνακας 4: Μέτρα απόστασης που χρησιµοποιούνται σε µεθόδους που εφαρµόζονται σε χαρακτηριστικά των δεδοµένων Πίνακας 5: Μέτρα απόστασης που χρησιµοποιούνται σε µεθόδους που εφαρµόζονται σε µοντέλα που προσαρµόζονται στα δεδοµένα Πίνακας 6: Πλήθος εγγραφών ανά εβδοµάδα Πίνακας 7: Κατανοµή του µεγέθους του νοικοκυριού και του αριθµού των µελών του νοικοκυριού ανά ηλικιακή οµάδα (πριν την επεξεργασία των δεδοµένων) Πίνακας 8: Ποσοστό πελατών ανά παράγοντα δαπανών (πριν την επεξεργασία των δεδοµένων) Πίνακας 9: Κατανοµή της εβδοµαδιαίας ποσότητας προϊόντων ανά πελάτη (πριν την επεξεργασία των δεδοµένων) Πίνακας 10: Κατανοµή της εβδοµαδιαίας ποσότητας προϊόντων ανά πελάτη (µετά την επεξεργασία των δεδοµένων) Πίνακας 11: Κατανοµή του πλήθους εβδοµαδιαίων επισκέψεων ανά πελάτη Πίνακας 12: Σύγκριση λύσεων Ιεραρχικών αλγορίθµων για k=60 συστάδες (Adjusted Rand Index) Πίνακας 13: Σύγκριση λύσεων των αλγορίθµων Hartigan Wong και Forgy και των Ιεραρχικών αλγορίθµων για k=60 συστάδες (Adjusted Rand Index) Πίνακας 14: Μέση εβδοµαδιαία ποσότητα προϊόντων που αγοράζεται από τους πελάτες των συστάδων µε 60 ή περισσότερα µέλη (µέθοδος Ward) Πίνακας 15: Μέση εβδοµαδιαία ποσότητα προϊόντων που αγοράζεται από τους πελάτες των συστάδων µε 60 ή περισσότερα µέλη (Αλγόριθµος Hartigan - Wong) Πίνακας 16: Ταξινόµηση των συστάδων της µεθόδου του Ward ανά τιµή της διαµέσου του µεγέθους του νοικοκυριού των πελατών που περιλαµβάνουν Πίνακας 17: Ταξινόµηση των συστάδων της µεθόδου του Ward ανά τιµή της διαµέσου του πλήθους των µελών του νοικοκυριού κάθε ηλικιακής οµάδας Πίνακας 18: Ταξινόµηση των συστάδων του αλγορίθµου Hartigan Wong ανά τιµή της διαµέσου του µεγέθους του νοικοκυριού των πελατών που περιλαµβάνουν Πίνακας 19: Ταξινόµηση των συστάδων του αλγορίθµου Hartigan Wong ανά τιµή της διαµέσου του πλήθους των µελών του νοικοκυριού κάθε ηλικιακής οµάδας Πίνακας 20: Ποσοστό των πελατών ανά παράγοντα δαπανών που διαθέτουν σε επίπεδο συστάδας (Μέθοδος Ward) XI

16 Πίνακας 21: Ποσοστό των πελατών ανά παράγοντα δαπανών που διαθέτουν σε επίπεδο συστάδας (Αλγόριθµος Hartigan - Wong) Πίνακας 22: Κατηγορίες και οµάδες προϊόντων Πίνακας 23: Μέγιστο και ελάχιστο µερίδιο για κάθε οµάδα προϊόντων για τις 50 συστάδες XII

17 ΚΑΤΑΛΟΓΟΣ ΓΡΑΦΗΜΑΤΩΝ Γράφηµα Σελίδα Γράφηµα 1: Αναγνώριση συστάδων αντικειµένων... 4 Γράφηµα 2: Αλγόριθµοι ανάλυσης κατά συστάδες... 8 Γράφηµα 3: Πλήθος ηλιακών κηλίδων ανά έτος (περίοδος ) Γράφηµα 4: Συνεχείς και διακριτές χρονολογικές σειρές Γράφηµα 5: Στάσιµη χρονολογική σειρά Γράφηµα 6: Μηνιαίες τιµές αργού πετρελαίου στις ΗΠΑ (Ιανουάριος 2001 Σεπτέµβριος 2009) Γράφηµα 7: Χρονολογική σειρά ως στοχαστική διαδικασία (τυχαίος περίπατος) Γράφηµα 8: Προσαρµογή καµπυλών µοντέλων παλινδρόµησης Γράφηµα 9: Εναλλακτικές προσεγγίσεις στην ανάλυση κατά συστάδες δεδοµένων χρονολογικών σειρών Γράφηµα 10: Boxplot ποσότητας προϊόντων ανά πελάτη και εβδοµάδα Γράφηµα 11: Ιστόγραµµα ποσότητας προϊόντων ανά πελάτη και εβδοµάδα Γράφηµα 12: Boxplot εβδοµάδων επίσκεψης των πελατών εντός των υπο-περιόδων µελέτης Γράφηµα 13: Μέγιστη & µέση απόσταση µεταξύ αντικειµένων που ανήκουν στην ίδια συστάδα, ανά πλήθος συστάδων (Ward s method Ευκλείδειες αποστάσεις) Γράφηµα 14: Πλήθος αντικειµένων ανά συστάδα σε φθίνουσα σειρά µεγέθους (µέθοδος Ward ευκλείδειες αποστάσεις) Γράφηµα 15: Πλήθος αντικειµένων ανά συστάδα σε φθίνουσα σειρά µεγέθους (Complete linkage, Single linkage, Average linkage & Centroid linkage ευκλείδειες αποστάσεις) Γράφηµα 16: Πλήθος αντικειµένων ανά συστάδα σε φθίνουσα σειρά µεγέθους (Αλγόριθµοι Hartigan - Wong και Forgy) Γράφηµα 17: Μέση ποσότητα προϊόντων ανά πελάτη και εβδοµάδα Γράφηµα 18: Κατανοµή των τιµών της p-value του ελέγχου KPSS των χρονολογικών σειρών των αγορών που πραγµατοποίησαν οι πελάτες κατά την περίοδο 1/9-30/ Γράφηµα 19: Κατανοµή της τάξης των µοντέλων AR που προσαρµόστηκαν στις αγορές των πελατών κατά την περίοδο 1/9-30/ Γράφηµα 20: Μέγιστη & µέση απόσταση µεταξύ αντικειµένων που ανήκουν στην ίδια συστάδα, ανά πλήθος συστάδων (Ward s method Ευκλείδειες αποστάσεις µοντέλα χρονολογικών σειρών) Γράφηµα 21: Πλήθος αντικειµένων ανά συστάδα σε φθίνουσα σειρά µεγέθους (µέθοδος Ward ευκλείδειες αποστάσεις µοντέλα χρονολογικών σειρών) XIII

18 Γράφηµα 22: Πλήθος αντικειµένων ανά συστάδα σε φθίνουσα σειρά µεγέθους (Hartigan Wong µοντέλα χρονολογικών σειρών) Γράφηµα 23:Μέση εβδοµαδιαία ποσότητα προϊόντων που αγοράζεται από τους πελάτες της κάθε συστάδας (µέθοδος Ward) Γράφηµα 24:Μέση εβδοµαδιαία ποσότητα προϊόντων που αγοράζεται από τους πελάτες της κάθε συστάδας (Αλγόριθµος Hartigan - Wong) Γράφηµα 25:Κατανοµή πελατών ανά επάγγελµα (κυριότερες κατηγορίες) Γράφηµα 26:Boxplot του µεγέθους των νοικοκυριών των πελατών Γράφηµα 27: Κατανοµή του αριθµού µελών του νοικοκυριού των πελατών σε βασικές ηλικιακές οµάδες Γράφηµα 28: Ποσοστό των πελατών ανά παράγοντα δαπανών που διαθέτουν πλην του επαγγέλµατος και του µεγέθους και της σύνθεσης του νοικοκυριού Γράφηµα 29: Κατανοµή πελατών ανά επάγγελµα σε επίπεδο συστάδας (Μέθοδος Ward) Γράφηµα 30: Κατανοµή πελατών ανά επάγγελµα σε επίπεδο συστάδας (Αλγόριθµος Hartigan - Wong) Γράφηµα 31: Ποσοστό προϊόντων που αγοράστηκαν ανά κατηγορία Γράφηµα 32: Ποσοστό προϊόντων που αγοράστηκαν ανά οµάδα προϊόντων Γράφηµα 33: Κατανοµή προϊόντων που αγοράστηκαν ανά κατηγορία σε επίπεδο συστάδας (Μέθοδος Ward) Γράφηµα 34: Κατανοµή προϊόντων που αγοράστηκαν ανά κατηγορία σε επίπεδο συστάδας (Αλγόριθµος Hartigan - Wong) XIV

19 1. Εισαγωγή Η Ανάλυση κατά Συστάδες είναι µια πολυµεταβλητή µέθοδος στατιστικής ανάλυσης που χρησιµοποιείται κατά κόρον τόσο στον επιχειρηµατικό όσο και τον ακαδηµαϊκό τοµέα για την συµπύκνωση της πληροφορίας µεγάλων σετ δεδοµένων και την εξόρυξης χρήσιµης γνώσης από αυτά. Ο σκοπός της παρούσας εργασίας είναι η εφαρµογή της συγκεκριµένης µεθόδου για την ανάλυση δεδοµένων χρονολογικών σειρών. Η Ανάλυση κατά Συστάδες είναι µια πολύ δηµοφιλής επιλογή για την ανάλυση µεγάλου όγκου δεδοµένων και την εξόρυξη αξιοποιήσιµης γνώσης από αυτά. εν πρόκειται για έναν µόνο συγκεκριµένο αλγόριθµο που λειτουργεί µε συγκεκριµένα κριτήρια εκτελώντας συγκεκριµένα βήµατα, αλλά για µια µεγάλη οικογένεια αλγορίθµων µε ακόµα περισσότερες παραλλαγές. Μια προσεκτική αναζήτηση στη διεθνή βιβλιογραφία είναι αρκετή για την εύρεση συνήθως αρκετών - µεθοδολογιών για τη συσταδοποίηση αντικειµένων από σετ δεδοµένων µε κάθε ιδιαιτερότητα. Εκεί έγκειται και η εξάπλωση της µεθόδου σε κάθε σχεδόν πεδίο της επιστήµης που περιλαµβάνει συλλογή και ανάλυση δεδοµένων. Στην επόµενη ενότητα (ενότητα 2) γίνεται µια ανασκόπηση των βασικών προσεγγίσεων για τον ορισµό της συστάδας (cluster), των µέτρων οµοιότητας και απόστασης (similirarity / dissimilarity (distance) measures) και των κυριότερων αλγορίθµων συσταδοποίησης (clustering algorithms). ίνεται ακόµα έµφαση στο ευρύ φάσµα εφαρµογών της Ανάλυσης κατά Συστάδες. Οι αλγόριθµοι που αναφέρονται στη 2 η ενότητα βρίσκουν παραδοσιακά εφαρµογή κυρίως σε διαστρωµατικά (cross-sectional) δεδοµένα. Επειδή όµως τόσο το θέµα της εργασίας όσο και αρκετές από τις πραγµατικές εφαρµογές που καλείται κάποιος να χρησιµοποιήσει τέτοιους αλγορίθµους πραγµατεύονται βάσεις δεδοµένων µε µεταβλητές των οποίων οι τιµές µεταβάλλονται στο χρόνο, οι ενότητες 3 και 4 καλύπτουν το συγκεκριµένο θεωρητικό κενό. Στην ενότητα 3 γίνεται µια ανασκόπηση της θεωρίας των Χρονολογικών Σειρών, αφού αυτή είναι προαπαιτούµενη για την «αντιµετώπιση» (treatment) 1

20 χρονικών δεδοµένων. Έµφαση δίνεται αφενός στις επιθυµητές - ιδιότητες µιας χρονολογικής σειράς και στα µοντέλα Ανάλυσης Χρονολογικών Σειρών. Στην ενότητα 4 γίνεται εκτενής αναφορά στις προσεγγίσεις που έχουν επικρατήσει τα τελευταία χρόνια για τη συσταδοποίηση δεδοµένων χρονολογικών σειρών. Σ αυτή την ενότητα δίνεται επίσης έµφαση στον ορισµό εξειδικευµένων µέτρων απόστασης όπως οι αποστάσεις STS (Short time series distance) και DTW (Dynamic time warping distance) και παρατίθενται παραδείγµατα εφαρµογών τους στη διεθνή βιβλιογραφία. Στην 5 η και τελευταία ενότητα, δίνονται τα αποτελέσµατα της εφαρµογής αυτών των θεωριών σε πραγµατικά δεδοµένα που αφορούν την αγοραστική συµπεριφορά πελατών ενός Ολλανδικού σουπερµάρκετ µε τη χρήση του στατιστικού πακέτου R. Γίνεται µια αναλυτική αναφορά στους περιορισµούς που υπάρχουν στην επιλογή των αλγορίθµων και των µέτρων απόστασης (παρ. 5.2), ενώ ακολουθείται βήµα προς βήµα η διαδικασία επιλογής των αλγορίθµων που θα χρησιµοποιηθούν στη συνέχεια της ανάλυσης ως πλέον κατάλληλοι, εφαρµογής κατάλληλων µοντέλων Ανάλυσης Χρονολογικών Σειρών και επιλογής του κατάλληλου (βέλτιστου) αριθµού συστάδων (παρ ), καθώς και της ερµηνείας των συστάδων που κατασκευάζονται και της εξαγωγής περισσότερων αποτελεσµάτων γύρω από τις αγοραστικές συνήθειες των πελατών (παρ. 5.4) που θα βοηθήσουν στη χάραξη πολιτικών από τη µεριά των υπεύθυνων του σουπερµάρκετ για την αύξηση της ικανοποίησης των πελατών (customer satisfaction), των εσόδων τους ή όποιον άλλο στρατηγικό στόχο τους ενδιαφέρει. Η έκθεση ολοκληρώνεται µε την παρ. 5.5 όπου δίνονται επιγραµµατικά τα συµπεράσµατα από την υλοποίηση της εφαρµογής, ενώ στην ενότητα 6 παρατίθεται επιλεγµένη βιβλιογραφία που καλύπτει τα θεωρητικά κοµµάτια της µελέτης. 2

21 2. Ανάλυση κατά Συστάδες Η ανάλυση κατά συστάδες (Cluster Analysis) 1 είναι µια οµάδα αλγορίθµων που έχουν σαν στόχο την αναγνώριση και καθορισµό οµάδων αντικειµένων που είναι οµοιογενείς ως προς τις µεταβλητές που εξετάζονται από τους αλγορίθµους (clustering variables). Οι οµάδες αυτές ονοµάζονται συστάδες (clusters). Αντικείµενα σε ένα συγκεκριµένο cluster αναµένεται να µοιράζονται κοινά χαρακτηριστικά σε αντίθεση µε αντικείµενα που δεν ανήκουν στο ίδιο cluster. Σε αρκετά βιβλία εµφανίζεται η έννοια της κατάτµησης µιας βάσης δεδοµένων (Segmentation) ως συναφής µε την έννοια της ανάλυσης κατά συστάδες. Κατά την διαδικασία της κατάτµησης παρόµοιες εγγραφές της βάσης δεδοµένων οµαδοποιούνται στο ίδιο τµήµα, ώστε η βάση να διαιρεθεί σε συστατικά που µπορεί να δώσουν στη συνέχεια στον χρήστη µια γενικότερη εικόνα των δεδοµένων. Ενδιαφέρον παρουσιάζει η χρήση της τεχνικής της ανάλυσης κατά συστάδες σε πραγµατικές βάσεις δεδοµένων. Ο χειρισµός των ακραίων σηµείων, η δυσκολία ερµηνείας της σηµασιολογίας της κάθε συστάδας, καθώς και τα δυναµικά δεδοµένα που µπορούν να διαφοροποιήσουν το περιεχόµενο των συστάδων στην πορεία του χρόνου είναι µερικά από τα θέµατα που πρέπει να αντιµετωπιστούν. Μια από τις σηµαντικότερες προκλήσεις της µεθόδου όµως έχει να κάνει µε την επιλογή του βέλτιστου αριθµού συστάδων. Τα ακραία σηµεία µπορεί να επηρεάσουν την ποιότητα της συσταδοποίησης εφόσον η επιλογή του αλγορίθµου δεν είναι η κατάλληλη. Επιθυµητό είναι σε τέτοιες περιπτώσεις να επιλέγεται ένας αλγόριθµός που να µπορεί να δηµιουργήσει οµογενείς οµάδες µε ικανό πλήθος σηµείων χωρίς να επηρεάζεται από την παρουσία ακραίων σηµείων (βλέπε ενότητα 5). Οι συστάδες που θα δηµιουργηθούν είναι απαραίτητο να ερµηνευτούν ως προς τα αντικείµενα που περιέχουν ώστε να µεγιστοποιηθεί η αξία των αποτελεσµάτων. Κάτι τέτοιο όµως δεν είναι πάντα εύκολο, αφού µια συστάδα 1 Προτεινόµενη βιβλιογραφία για Ανάλυση κατά Συστάδες αποτελούν τα ακόλουθα κείµενα: Kaufman - Rousseeuw. (2005), Berkhin (2002) και Everitt (1993) 3

22 µπορεί να περιέχει αντικείµενα που είναι µεταξύ τους πολύ κοντά ως προς ένα µέτρο απόστασης, αλλά που εκ των προτέρων δε θα µπορούσε να φανταστεί κανείς ότι θα εντάσσονταν στην ίδια συστάδα. Η περίπτωση των δυναµικών δεδοµένων και η αντιµετώπιση της στο πλαίσιο της ανάλυσης κατά συστάδες αναφέρεται στην ενότητα 4. Σε αρκετές εφαρµογές δεν είναι εύκολο να καθοριστεί ο ακριβής αριθµός των συστάδων που σχηµατίζονται από τα αντικείµενα, κάτι που φαίνεται από το γράφηµα 1. Παρατηρούµε ότι τα ίδια αντικείµενα που περιγράφονται από σηµεία στο επίπεδο µπορούν να ορίσουν 2, 4 ή 6 καλά ορισµένες συστάδες χωρίς να είναι εύκολο να πούµε ποιος αριθµός συστάδων είναι ο βέλτιστος. Αυτή η απόφαση πρέπει να ληφθεί από τον αναλυτή µετά την υλοποίηση του αλγορίθµου, ενώ σε κάποιους αλγόριθµους (π.χ. k-means) αυτή η απόφαση λαµβάνεται εκ των προτέρων (Fraley and Raftery, 1998). Γράφηµα 1: Αναγνώριση συστάδων αντικειµένων Αρχικά σηµεία 2 συστάδες 4 συστάδες 6 συστάδες Πηγή: Η βέλτιστη λύση εξαρτάται και από τα επιθυµητά αποτελέσµατα. Εφόσον το ζητούµενο της ανάλυσης κατά συστάδες είναι η δηµιουργία συγκεκριµένου αριθµού συστάδων ή συστάδων µε συγκεκριµένο επίπεδο οµοιογένειας, τότε η απόφαση δεν είναι πια υποκειµενική. Το επίπεδο οµοιογένειας συχνά σχετίζεται µε κάποιο µέτρο µεταβλητότητας (π.χ. διακύµανση) κάποιου ή κάποιων χαρακτηριστικών των αντικειµένων. Η ανάλυση κατά συστάδες σχετίζεται µε άλλες τεχνικές που χρησιµοποιούνται για τον διαχωρισµό δεδοµένων σε οµάδες. Για παράδειγµα, µπορεί να 4

23 θεωρηθεί σαν µια µορφή κατηγοριοποίησης (classification), όπου τα δεδοµένα οµαδοποιούνται σε κλάσεις. Σε αντίθεση όµως µε την διαδικασία της κατηγοριοποίησης, όπου υπάρχει µια λογική οµαδοποίησης και τα δεδοµένα υπάγονται σε κλάσεις ανάλογα µε αυτή, στην διαδικασία της ανάλυσης κατά συστάδες η οµαδοποίηση προέρχεται µόνο από τα ίδια τα δεδοµένα. Είναι σηµαντικό να δοθεί έµφαση στο ότι η ανάλυση κατά συστάδες διαφοροποιείται από τεχνικές όπως η κατηγοριοποίηση στα ακόλουθα βασικά σηµεία: Ο καθορισµός του βέλτιστου αριθµού συστάδων είναι µια πολύ σηµαντική απόφαση που βασίζεται είτε σε a priori γνώση του αναλυτή, είτε προκύπτει µε διαγνωστικά κριτήρια µετά την εφαρµογή του αλγορίθµου που έχει επιλεγεί (βλέπε παρ. 5.3) Η ερµηνεία των οµάδων στην περίπτωση της κατηγοριοποίησης είναι συνέχεια της λογικής που ακολουθείται για τη δηµιουργία των οµάδων, ενώ στην περίπτωση της ανάλυσης κατά συστάδες συνήθως παρουσιάζει δυσκολίες (βλέπε παρ. 5.4) Η διαδικασία δηµιουργίας συστάδων είναι δυναµική και το αποτέλεσµα της είναι σηµαντικό να ελέγχεται (validation), µέσω της εφαρµογής άλλων αλγορίθµων στα ίδια δεδοµένα ή της εφαρµογής του ίδιου αλγορίθµου σε παρόµοια δεδοµένα 2.1 Προσεγγίσεις στη δηµιουργία και τον ορισµό συστάδων Κατά την διαδικασία της ανάλυσης κατά συστάδες µπορούν να οριστούν διαφορετικοί τύποι συστάδων ανάλογα µε την πληροφορία που θέλουµε να αντλήσουµε από τα δεδοµένα. Οι κυριότερες προσεγγίσεις που εφαρµόζονται για το διαχωρισµό των συστάδων µεταξύ τους είναι οι ακόλουθες: Καλά διαχωρισµένες συστάδες (well-separated): Κάθε αντικείµενο µίας συστάδας απέχει από οποιοδήποτε άλλο αντικείµενο της ίδιας συστάδας λιγότερο από ότι απέχει από αντικείµενα άλλων συστάδων Συστάδες βασισµένες σε πρότυπο (prototype-based): Ένα αντικείµενο που αντιπροσωπεύει (µε τα χαρακτηριστικά που έχει) τη συστάδα 5

24 ορίζεται ως πρότυπο, και στη συνέχεια τα αντικείµενα που είναι κοντά στο πρότυπο ενσωµατώνονται επίσης στη συστάδα Συστάδες βασισµένες σε γράφο (graph based): Κατάλληλες για το διαχωρισµό συστάδων µε διαφορετικό σχήµα Συστάδες βασισµένες σε πυκνότητα (density-based): Οι συστάδες διαχωρίζονται σε χώρους υψηλής πυκνότητας σε αντικείµενα. Τα ακραία αντικείµενα θεωρούνται «θόρυβος» (noise) Στην βιβλιογραφία αναφέρονται και άλλες προσεγγίσεις στο διαχωρισµό των συστάδων (όπως π.χ. το Conceptual clustering), ωστόσο ξεφεύγει από τους σκοπούς του κειµένου περαιτέρω αναφορά σε αυτές. Σε σχέση µε το αν ένα αντικείµενο ανήκει αποκλειστικά σε µια συστάδα ή σε περισσότερες, ο διαχωρισµός των αντικειµένων µπορεί να οδηγήσει σε µη επικαλυπτόµενες (στην 1η περίπτωση) ή σε επικαλυπτόµενες συστάδες (overlapping / non exclusive clustering). Ένα αντικείµενο µπορεί να ανήκει ντετερµινιστικά σε µια συστάδα ή µε συγκεκριµένη πιθανότητα (fuzzy clustering / stochastic clustering). Για τις ανάγκες της ανάλυσης που θα ακολουθήσει θα περιοριστούµε στην εφαρµογή µεθόδων που αντιστοιχούν τα αντικείµενα σε µια συστάδα µε πιθανότητα 1. Μια ακόµα σηµαντική παράµετρος για τη δηµιουργία συστάδων είναι το σχήµα τους. Οι περισσότερες από τις διαδεδοµένες µεθόδους (Hierarchical clustering, k-means κ.τ.λ.) οδηγούν στη δηµιουργία συστάδων µε παρόµοιο σχήµα, ενώ άλλες µέθοδοι όπως αυτές που βασίζονται στην πυκνότητα δεν έχουν τέτοιο περιορισµό (Martin, 1996). 2.2 Βασικά βήµατα της διαδικασίας Το πρώτο βήµα της ανάλυσης κατά συστάδες είναι να καθοριστούν τα χαρακτηριστικά των αντικειµένων που είναι χρήσιµο να µελετηθούν. Με άλλα λόγια θα πρέπει να επιλεχθούν οι µεταβλητές που θα συµπεριληφθούν στην ανάλυση (clustering variables). Για παράδειγµα θα µπορούσαµε να µελετήσουµε το διαχωρισµό ενός φυσικού πληθυσµού σε συστάδες ανάλογα µε προσωπικά τους χαρακτηριστικά, όπως το φύλο, η ηλικία, το επίπεδο εκπαίδευσης, το εισόδηµα, η οικογενειακή κατάσταση και ο τόπος κατοικίας. 6

25 Οι µεταβλητές αυτές µπορεί να είναι ποσοτικές (όπως το εισόδηµα ή σε άλλες εφαρµογές οποιοδήποτε οικονοµικό µέγεθος, βιοµετρικά χαρακτηριστικά, θερµοκρασία, αρτηριακή πίεση κ.ά.) ή ποιοτικές (όπως το φύλο ή η σχολική τάξη, το χρώµα, η εθνικότητα κ.ά.). Η επιλογή των µεταβλητών που θα χρησιµοποιηθούν για τη συσταδοποίηση των αντικειµένων είναι καθοριστική για την επιλογή της µεθόδου (αλγορίθµου) που θα εφαρµοστεί, η οποία είναι και το επόµενο λογικό βήµα. Υπάρχει µεγάλος αριθµός εναλλακτικών αλγορίθµων και καθένας από αυτούς προσεγγίζει τη διαδικασία της δηµιουργίας συστάδων µε διαφορετικό τρόπο (βλέπε παρ. 2.2). Κατά συνέπεια είναι σηµαντικό η επιλογή του αλγορίθµου που θα εφαρµοστεί να είναι κατάλληλη για την ανάλυση των µεταβλητών που επιλέχθηκαν. Τυχόν µεγάλος αριθµός µεταβλητών ή / και µεγάλος όγκος δεδοµένων µπορεί να αντιµετωπιστεί ευέλικτα µέσα από την επιλογή αλγορίθµων που χρειάζονται µικρότερη υπολογιστική ισχύ (π.χ. k-means) σε σύγκριση µε τους αλγορίθµους ιεραρχικής συσταδοποίησης (hierarchical clustering), που όµως προσφέρουν µια πλήρη εποπτεία όλης της διαδικασίας διαµερισµού. Ανεξάρτητα από τον αλγόριθµο που θα επιλεγεί, είναι απαραίτητο αυτός να ικανοποιεί κάποιες ποιοτικές παραµέτρους. Η σηµαντικότερη από αυτές είναι να οδηγεί όντως στη δηµιουργία οµοιογενών συστάδων που µεταξύ τους παρουσιάζουν διακριτές διαφορές, οι οποίες στη συνέχεια µπορούν να ταυτοποιηθούν και να ερµηνευτούν στο πλαίσιο της µελέτης που διεξάγεται. Άλλες ποιοτικές παράµετροι έχουν να κάνουν µε την τεκµηρίωση της καταλληλότητας της µεθόδου που επιλέχθηκε για την ανάλυση των συγκεκριµένων δεδοµένων και µεταβλητών. Η βιβλιογραφία, η διεθνής πρακτική και η εµπειρία του αναλυτή είναι ο οδηγός προς αυτή την κατεύθυνση. Η επιλογή του αλγορίθµου είναι συνυφασµένη µε την επιλογή ενός µέτρου απόστασης ή κάποιου άλλου µέτρου οµοιότητας (όπως π.χ. η πυκνότητα ή η µεταβλητότητα των παραγόµενων συστάδων). Τα περισσότερα πακέτα στατιστικής ανάλυσης διαθέτουν ποικιλία εναλλακτικών µέτρων (παρ ), από τα οποία µπορεί να επιλεχθεί το καταλληλότερο για την εκάστοτε εφαρµογή ανάλογα µε τη φύση των δεδοµένων που αναλύονται. 7

26 Ένα ακόµα σηµείο στο οποίο πρέπει να δοθεί απάντηση σε κάθε αλγόριθµο ανάλυσης κατά συστάδες αφορά τον αριθµό των συστάδων που πρέπει να προκύψουν από τα δεδοµένα. Σε αλγόριθµους διαµέρισης (Partitional algorithms) όπως ο K-means η απόφαση πρέπει να ληφθεί εκ των προτέρων, και εκτός αν είναι προκαθορισµένος από το ίδιο το πρόβληµα τις περισσότερες φορές δεν είναι εύκολη η απόφαση. Ενδεχοµένως µια λύση σε αυτή την απόφαση να είναι η προκαταρκτική χρήση µιας ιεραρχικής µεθόδου που δίνει µια συνολική εικόνα της διαδικασίας προκειµένου να αποφασιστεί ο βέλτιστος αριθµός συστάδων και στη συνέχεια η εφαρµογή ενός αλγορίθµου διαµέρισης για το συγκεκριµένο αριθµό συστάδων (βλέπε παρ 5.3).. Στις παραγράφους και θα γίνει αναφορά στις πιο διαδεδοµένες περιπτώσεις αλγορίθµων ανάλυσης κατά συστάδες και στα πιο συνήθη µέτρα απόστασης και οµοιότητας Αλγόριθµοι ανάλυσης κατά συστάδες Οι αλγόριθµοι ανάλυσης κατά συστάδες µπορούν να κατηγοριοποιηθούν σε ιεραρχικούς (hierarchical) και σε διαµεριστικούς (partitional ή partitioning). Το γράφηµα 2 αποτυπώνει κάποιους από τους πιο διαδεδοµένους αλγορίθµους: Γράφηµα 2: Αλγόριθµοι ανάλυσης κατά συστάδες Πηγή: Οι ιεραρχικοί αλγόριθµοι ενσωµατώνουν βήµα προς βήµα ένα αντικείµενο ή µια συστάδα σε µια νέα µεγαλύτερη συστάδα έως ότου όλα τα αντικείµενα ενσωµατωθούν σε µια και µόνο συστάδα (Agglomerative Clustering), ή 8

27 αποσπούν βήµα προς βήµα συστάδες αντικειµένων από µια αρχική συστάδα που περιέχει όλα τα αντικείµενα έως ότου διαχωριστούν πλήρως µεταξύ τους (Divisive Clustering). Ο τρόπος που λειτουργούν οι αλγόριθµοι εξαρτάται από τον ορισµό της απόστασης ή της οµοιότητας µεταξύ αντικειµένων (βλέπε παρ ) και µεταξύ συστάδων. Η απόσταση µεταξύ δύο συστάδων βασίζεται στο ίδιο µέτρο απόστασης που ορίζεται για τα αντικείµενα και επικεντρώνεται στο ποια απόσταση µεταξύ αντικειµένων των δύο συστάδων προς ένωση είναι αυτή που περιγράφει πραγµατικά την απόσταση των δύο συστάδων. Σε όλες τις περιπτώσεις, σε κάθε βήµα της διαδικασίας ενώνονται οι δύο συστάδες που έχουν τη µικρότερη τιµή από όλα τα ζεύγη συστάδων για το κριτήριο που έχει οριστεί (πίνακας 1). Εναλλακτικά η ένωση δύο συστάδων µπορεί να βασίζεται στη µεταβλητότητα της υποψήφιας νέας συστάδας, όπως στη µέθοδο του Ward (Ward s method) η οποία έχει σαν κριτήριο την ελαχιστοποίηση της αύξησης της διακύµανσης των συστάδων κατά τη σταδιακή τους ένωση σε µεγαλύτερες συστάδες. Ο πίνακας 1 συνοψίζει τον ορισµό της απόστασης µεταξύ συστάδων και την ονοµατολογία των αλγορίθµων βάση αυτής. Είναι προφανές ότι µπορούν να οριστούν και άλλα κριτήρια, ωστόσο αυτά είναι τα πιο διαδεδοµένα. Η εφαρµογή των αλγορίθµων του πιν. 1 στα ίδια δεδοµένα αναµένεται να δώσει διαφορετικά αποτελέσµατα για διαφορετικά µέτρα απόστασης και είναι θεµιτό να εφαρµόζεται περισσότερες από µια εναλλακτικές για έλεγχο και επιβεβαίωση. Οι διαµεριστικοί αλγόριθµοι ακολουθούν µια διαφορετική προσέγγιση για το σχηµατισµό συστάδων η οποία περιγράφεται από τα ακόλουθα βήµατα: 1) Καθορίζεται το πλήθος των clusters 2) Για κάθε cluster επιλέγεται στην τύχη το (αρχικό) γεωµετρικό κέντρο που το αντιπροσωπεύει 3) Υπολογίζεται η απόσταση του κάθε αντικειµένου από όλα τα γεωµετρικά κέντρα που έχουν οριστεί / υπολογιστεί και το κάθε αντικείµενο αντιστοιχίζεται στη συστάδα από την οποία απέχει λιγότερο 9

28 4) Τα γεωµετρικά κέντρα των clusters υπολογίζονται ξανά βάση των αντικειµένων που περιέχουν µετά το βήµα 3 5) Αν ικανοποιείται το κριτήριο σύγκλισης που έχει τεθεί ή συµπληρωθεί συγκεκριµένος αριθµός επαναλήψεων των βηµάτων 2 και 3, η διαδικασία σταµατάει και έχουµε τη λύση (cluster solution). ιαφορετικά επιστρέφουµε στο βήµα 3 µέχρι να ισχύει η συνθήκη τερµατισµού του αλγορίθµου Πίνακας 1:Ιεραρχικοί αλγόριθµοι ανάλυσης κατά συστάδες Αλγόριθµος Single linkage / Nearest neighbor Complete linkage / Furthest neighbor Average linkage Centroid Ward s method Κριτήριο για την ένωση δύο συστάδων Η ελάχιστη (αντίστοιχα η µέγιστη) απόσταση µεταξύ αντικειµένων από δύο διαφορετικές συστάδες Η µέση απόσταση µεταξύ αντικειµένων από δύο διαφορετικές συστάδες Η απόσταση µεταξύ των γεωµετρικών κέντρων των δύο συστάδων προς ένωση Η αύξηση της συνολικής διακύµανσης εντός των συστάδων είναι η ελάχιστη αν ενωθούν οι συγκεκριµένες δύο συστάδες Σχόλια Μπορεί να χειριστεί µη ελλειπτικά σχήµατα. Είναι ευαίσθητο σε θόρυβο και ακραίες τιµές. Μια διαµεριστική παραλλαγή του βασίζεται σε spanning tree (σκελετικά δέντρα) Επηρεάζεται λιγότερο από θόρυβο και ακραία σηµεία. Τείνει να διασπά µεγάλες συστάδες και οδηγεί συνήθως σε κυκλικά σχήµατα Μικρότερη ευαισθησία σε θόρυβο και ακραία σηµεία, ενώ τείνει να οδηγεί σε κυκλικά σχήµατα. - Είναι ιεραρχικό ανάλογο του k-means 10

29 Ο πιο συχνά εφαρµοζόµενος διαµεριστικός αλγόριθµος είναι ο k-means που χρησιµοποιείται κατά κόρον στην Έρευνα Αγοράς, ενώ άλλοι πιο πολύπλοκοι αλγόριθµοι είναι οι k-medoids (Kaufman and Rousseeuw, 2005) και Neural Networks (Bishop, 2006). Ο k-means είναι σηµαντικά πιο γρήγορος στην εκτέλεση του σε σύγκριση µε τους ιεραρχικούς αλγορίθµους και για αυτό το λόγο τείνει να είναι προτιµότερος για την ανάλυση µεγάλων όγκων δεδοµένων. Επιπλέον επηρεάζεται λιγότερο από την παρουσία ακραίων αντικειµένων. Ωστόσο έχει και κοινά σηµεία µε τους ιεραρχικούς αλγόριθµους αφού, όπως και η µέθοδος του Ward, το ζητούµενο είναι η ελαχιστοποίηση της συνολικής µεταβλητότητας εντός των συστάδων, ενώ σε αρκετές περιπτώσεις χρειάζεται να υλοποιηθεί ένας ιεραρχικός αλγόριθµος για να δοθεί απάντηση στο ερώτηµα του πλήθους των συστάδων ή και του αρχικού γεωµετρικού κέντρου των συστάδων. Σηµαντικός περιορισµός του k-means είναι πώς οι µεταβλητές πρέπει να είναι ποσοτικές. Στο πλαίσιο της παρούσας εργασίας δε θα γίνει αναφορά σε άλλα είδη αλγορίθµων πέραν των ιεραρχικών αλγορίθµων και του k-means. Αξίζει να αναφέρουµε µόνο πώς αλγόριθµοι όπως ο DBSCAN που χρησιµοποιούν την πυκνότητα αντί της απόστασης / οµοιότητας σαν µέτρο για την κατασκευή συστάδων (Density-based algorithms) ίσως είναι προτιµότεροι αν το πρόβληµα των ακραίων αντικειµένων είναι πολύ έντονο, αφού µπορούν να διαχωρίσουν συστάδες µε ορισµένη πυκνότητα πληροφορίας από ακραίες παρατηρήσεις (θόρυβο), χωρίς να υπάρχει περιορισµός στο σχήµα που µπορούν να έχουν οι συστάδες. Αντίθετα, ενδέχεται µια οµάδα να περικλείεται εντελώς από µια ευρύτερη, χωρίς αυτό να σηµαίνει ότι δεν είναι καλά διαχωρισµένες Οµοιότητα και µέτρα απόστασης Το µέτρο οµοιότητας που θα οριστεί είναι πολύ σηµαντικό για την οµαδοποίηση των αντικειµένων σε συστάδες. Μια πολύ συνηθισµένη επιλογή είναι η ευκλείδεια απόσταση, ωστόσο υπάρχουν αρκετά εναλλακτικά µέτρα 11

30 που µπορούν να επιλεχθούν. Το τετράγωνο της ευκλείδειας απόστασης χρησιµοποιείται εξίσου συχνά. Άλλα µέτρα απόστασης που χρησιµοποιούνται ευρέως είναι οι αποστάσεις κατά Manhattan / city block και Minkowski (p-norm). Στον πίνακα 2 δίνεται η φόρµουλα υπολογισµού για αυτά τα µέτρα απόστασης, ενώ γίνεται αναφορά και σε κάποια µη ευκλείδεια µέτρα απόστασης, των οποίων ο υπολογισµός δε βασίζεται στη σχετική θέση των αντικειµένων. Σε τέτοιου τύπου µέτρα δε θα αναφερθούµε περαιτέρω. Οµοίως δε θα γίνει άλλη αναφορά σε συντελεστές οµοιότητας για ποιοτικά χαρακτηριστικά (matching coefficients), αφού κάτι τέτοιο δε θα ήταν ιδιαίτερα χρήσιµο στην παρούσα µελέτη 2. Πίνακας 2:Μέτρα απόστασης και φόρµουλες υπολογισµού Μέτρο απόστασης Φόρµουλα / µέθοδος υπολογισµού Ευκλείδεια απόσταση Manhattan ή city block = ( ), Όπου X i και Υ i είναι οι τιµές των αντικειµένων Χ και Υ αντίστοιχα για το i χαρακτηριστικό (υπάρχουν Ν χαρακτηριστικά, Ν=1,2,3,..,Ν ) =, Όπου X i και Υ i είναι οι τιµές των αντικειµένων Χ και Υ αντίστοιχα για το i χαρακτηριστικό (υπάρχουν Ν χαρακτηριστικά, Ν=1,2,3,..,Ν ) Minkowski (p-norm) = ( ) Όπου X i και Υ i είναι οι τιµές των αντικειµένων Χ και Υ αντίστοιχα για το i χαρακτηριστικό (υπάρχουν Ν χαρακτηριστικά, Ν=1,2,3,..,Ν ) και συνήθως p=1 ή 2 Jaccard distance =, Όπου Μ xy το πλήθος των χαρακτηριστικών για τα οποία τo 1 ο αντικείµενο έχει τιµή x και το 2 ο αντικείµενο τιµή y (x,y 0,1 ) Hamming distance Είναι ο ελάχιστος αριθµός αντικαταστάσεων που χρειάζονται ώστε να µετατραπεί µία συµβολοσειρά (string) Α σε µια άλλη συµβολοσειρά ίδιου µήκους, Β 2 Οι χρονολογικές σειρές αφορούν στη µεγάλη πλειοψηφία των περιπτώσεων ποσοτικά χαρακτηριστικά. Αυτό ισχύει και για τις εφαρµογές της παρούσας µελέτης. 12

31 Τα µέτρα απόστασης που αναφέρθηκαν αφορούν τη µέτρηση της απόστασης µεταξύ δύο αντικειµένων, ενώ στην παρ αναφέρθηκε πώς οι αποστάσεις αυτές µπορούν να ορίσουν σε επόµενο στάδιο την απόσταση µεταξύ δύο συστάδων. Σε άλλες περιπτώσεις όµως ορίζεται ένα κέντρο βάρους για όλες τις συστάδες (centroid όπως στην περίπτωση του k-means, medoid 3 ή κάποιο άλλο µέτρο που µπορεί να αντιπροσωπεύσει τη συστάδα) και τα αντικείµενα εντάσσονται στη συστάδα από την οποία απέχουν λιγότερο, χωρίς να υπολογίζονται αποστάσεις µεταξύ των αντικειµένων. 2.3 Τοµείς εφαρµογής της Ανάλυσης κατά Συστάδες Οι πρακτικές εφαρµογές της ανάλυσης κατά συστάδες είναι πάρα πολλές: στην ψυχολογία και τις κοινωνικές επιστήµες, τη βιολογία, τη στατιστική, την εξόρυξη γνώσης (data mining) και γενικά σε όποιο πεδίο µπορεί να παρέχει αξιόλογα πολυµεταβλητά δεδοµένα για µελέτη. Πρόκειται για ένα ιδιαίτερα ευέλικτο και για το λόγο αυτό δηµοφιλές εργαλείο ανάλυσης. Η κατηγοριοποίηση και η οµαδοποίηση είναι προσεγγίσεις που χρησιµοποιεί έµφυτα ο άνθρωπος προκειµένου να εξάγει σύνθετα συµπεράσµατα και να ερµηνεύσει φαινόµενα που εξετάζει. Η χρησιµότητα λοιπόν της ανάλυσης κατά συστάδες έγκειται στο ότι πρόκειται για ένα εργαλείο που µπορεί να εφαρµοστεί για τη σύνθεση πληροφορίας σε όλους πρακτικά τους κλάδους της ανθρώπινης και όχι µόνο δραστηριότητας και που αλληλεπιδρά µε την ανθρώπινη εµπειρία. Χαρακτηριστικά παραδείγµατα εφαρµογών είναι ο τοµέας της βιολογίας (εντοπισµός γονιδίων µε ίδια χαρακτηριστικά), της ανάκτησης πληροφοριών (επιστροφή αποτελεσµάτων για συγκεκριµένο ερώτηµα οµαδοποιηµένων σε κατηγορίες), της ψυχολογίας (εντοπισµός διαφορετικών κατηγοριών κατάθλιψης), του κλίµατος (εντοπισµός προτύπων (patterns) στην ατµοσφαιρική πίεση στους πόλους) και των επιχειρήσεων (µελέτη καταναλωτικών συνηθειών). 3 Είδος πολυµεταβλητού µέσου, πρόκειται για πραγµατικό αντικείµενο. Το centroid µπορεί να µην αντιστοιχεί σε πραγµατικό αντικείµενο. 13

32 Η λογική της ανάλυσης κατά συστάδες προεκτείνεται και στο πεδίο των χρονολογικών σειρών. Το µόνο που χρειάζεται για να γίνει κάτι τέτοιο εφικτό είναι να οριστούν οι κατάλληλοι αλγόριθµοι και τα κατάλληλα µέτρα απόστασης. Για να γίνει πιο κατανοητή η σηµασία και οι δυνατότητες που δηµιουργεί η ανάλυση δεδοµένων χρονολογικών σειρών µε τη χρήση αλγόριθµων ανάλυσης κατά συστάδες είναι απαραίτητο να γίνει µια συνοπτική αναφορά στη θεωρία των χρονολογικών σειρών (ενότητα 3), καθώς και στα βασικότερα εργαλεία που χρησιµοποιούνται από τη διεθνή πρακτική στο συγκεκριµένο αντικείµενο (ενότητα 4). 14

33 3. Χρονολογικές σειρές Μια χρονολογική σειρά ή χρονοσειρά είναι µια σειρά παρατηρήσεων µιας µεταβλητής που έχουν ληφθεί σε δεδοµένες χρονικές στιγµές. Συχνά είναι ενδιαφέρον να µοντελοποιηθεί η χρονολογική σειρά ενός χαρακτηριστικού σαν συνάρτηση παραγόντων που τη διαµορφώνουν ή απλά να αναγνωριστούν διαχρονικές τάσεις και µεταβολές. Παρατηρώντας για παράδειγµα το γράφηµα 3, γεννιέται το ζήτηµα της µοντελοποίησης των εποχικών αυξοµειώσεων του πλήθους των ηλιακών κηλίδων προκειµένου να καταστεί δυνατό να υπάρξουν προβλέψεις και για την µελλοντική ηλιακή δραστηριότητα. Αυτή η µελέτη µπορεί να παρεκταθεί και στην αναζήτηση παραγόντων που θα µπορούσαν να διαµορφώνουν αυτές τις αυξοµειώσεις. Περισσότερα για την ανάλυση των χρονολογικών σειρών µπορούν να βρεθούν στα βιβλία των Brockwell - Davis (1991 και 1996) καθώς και των Kendall Ord (1990). Γράφηµα 3: Πλήθος ηλιακών κηλίδων ανά έτος (περίοδος ) Πηγή: Η βασική υπόθεση της ανάλυσης των χρονολογικών σειρών είναι πως ορισµένες όψεις του µοτίβου (pattern) του παρελθόντος µπορεί να ισχύουν και για το µέλλον, οπότε η πρόβλεψη µελλοντικών τιµών του µεγέθους είναι πιθανή εφόσον το µοτίβο αυτό συνεχίσει να εντοπίζεται και στο µέλλον. Είναι βασικό βεβαίως να υπάρχει και να αναγνωρίζεται ένα τέτοιο µοτίβο προκειµένου να έχει νόηµα η ανάλυση που θα ακολουθήσει. Αν η µεταβολή 15

34 των τιµών του µεγέθους που παρατηρείται είναι εντελώς τυχαία, τότε δεν έχει κανένα νόηµα οποιαδήποτε περαιτέρω ενέργεια. Τα τρία κυριότερα στοιχεία της ανάλυσης χρονολογικών σειρών είναι α) η περιγραφή, β) η επεξήγηση και γ) η πρόβλεψη. Η περιγραφή επιτυγχάνεται µε την βοήθεια διαφόρων γραφηµάτων, η επεξήγηση χρησιµοποιώντας κάποιας µορφής µοντέλα για να εξερευνηθούν οι µηχανισµοί δηµιουργίας της χρονολογικής σειράς και η πρόβλεψη περιλαµβάνει τη χρησιµοποίηση ενός µοντέλου για να προβλεφθούν µελλοντικές τιµές της σειράς. Οι χρονολογικές σειρές εφαρµόζονται σε πολλούς επιστηµονικούς τοµείς, όπως - ενδεικτικά - η οικονοµετρία, τα χρηµατοοικονοµικά, οι κοινωνικές επιστήµες και η ιατρική. Μπορούν να αναλυθούν για την εξαγωγή χρήσιµων στοιχείων και χαρακτηριστικών των δεδοµένων ή µπορούν να µοντελοποιηθούν για να προβλέψουν τη µελλοντική εξέλιξη µεταβλητών. Υπάρχουν αρκετές προσεγγίσεις για τον ορισµό των χρονολογικών σειρών. Οι χρονολογικές σειρές µπορεί να είναι συνεχείς ή διακριτές (βλέπε γράφηµα 4): Συνεχείς (continuous) χρονολογικές σειρές είναι αυτές στις οποίες η τιµή του χαρακτηριστικού που εξετάζεται καταγράφεται συνεχώς (πχ. καταγραφή της θερµοκρασίας του αέρα από µετεωρολογικούς σταθµούς), ενώ διακριτές (discrete) χρονολογικές σειρές είναι αυτές στις οποίες η τιµή του φαινοµένου καταγράφεται σε ορισµένα χρονικά διαστήµατα (π.χ. η τιµή µιας µετοχής στο τέλος της ηµέρας). Όταν ο χρόνος δειγµατοληψίας δεν είναι σταθερός χρειάζεται περαιτέρω επεξεργασία της χρονολογικής σειράς για να γίνει η ανάλυση. Για παράδειγµα οι ηµερήσιες τιµές ενός χρηµατιστηριακού δείκτη συνιστούν µια χρονολογική σειρά µε µεταβλητό φυσικό χρόνο δειγµατοληψίας, αφού µεσολαβούν Σαββατοκύριακα και γιορτές που είναι κλειστό το χρηµατιστήριο. Η πιο απλή προσέγγιση σε αυτήν την περίπτωση είναι να οριστεί ως χρόνος αναφοράς όχι ο φυσικός χρόνος, αλλά ο οικονοµικός χρόνος συναλλαγών. 16

35 Γράφηµα 4: Συνεχείς και διακριτές χρονολογικές σειρές Συνεχής: Διακριτή: Πηγή: ence/en- XX/help/371419D-01/lvasptconcepts/tsa_intro/ Πηγή: Άλλα βασικά µεγέθη των χρονολογικών σειρών που θα πρέπει να οριστούν είναι η µέση τιµή και η διασπορά, τα οποία υπολογίζονται από τους ακόλουθους τύπους αντίστοιχα 4 : = η µέση τιµή και ( ) = η διασπορά Όπου Xt η τιµή της µεταβλητής τη χρονική στιγµή t και Ν το πλήθος των στιγµών στις οποίες έχει µετρηθεί η Χ. 3.1 Ιδιότητες µιας χρονολογικής σειράς Για όλες τις χρονικές στιγµές t στις οποίες έχει µετρηθεί το χαρακτηριστικό Χ που εξετάζεται, θεωρείται η τιµή X t. Η χρονολογική σειρά X t ορίζεται ως το διατεταγµένο σύνολο {Χ 1,..., Χ n }, για τις n χρονικές στιγµές που πραγµατοποιήθηκε µέτρηση. Στην πράξη όλες οι χρονολογικές σειρές είναι διακριτές. Για συνεχείς χρονολογικές σειρές µπορούµε να υποθέσουµε ότι n. Όταν εξετάζονται περισσότερα από ένα χαρακτηριστικά ταυτόχρονα, 4 Οι τύπου αφορούν διακριτές χρονολογικές σειρές. Τα ίδια µεγέθη για συνεχείς χρονολογικές σειρές υπολογίζονται µε όµοιο τρόπο µέσω ολοκλήρωσης 17

36 έστω Χ,Υ,Ζ, τότε έχουµε µια πολυδιάστατη χρονολογική σειρά (multivariate time series 5 ). Πριν την επιλογή της µεθόδου που θα χρησιµοποιηθεί για την ανάλυση µιας χρονολογικής σειράς είναι σηµαντικό να διερευνηθούν κάποιες σηµαντικές ιδιότητες που είναι επιθυµητές να ικανοποιούνται, προκειµένου να επιλεγεί µια κατάλληλη µέθοδος ανάλυσης. Οι ιδιότητες αυτές είναι οι ακόλουθες: 1. Γραµµικότητα 2. Στασιµότητα 3. Εργοδικότητα 4. Στοχαστικότητα Γραµµικότητα Η γραµµικότητα όπως εννοείται στην ανάλυση των χρονολογικών σειρών αφορά την ύπαρξη γραµµικής συσχέτισης ανάµεσα στην τιµή X t και τις προηγούµενες τιµές, έστω X t-1, X t-2 κ.τ.λ. (αυτοσυσχέτιση). Όταν υπάρχει ισχυρή αυτοσυσχέτιση µεταξύ των τιµών µιας µεταβλητής σε διαδοχικές χρονικές στιγµές, τότε ένα µοντέλο αυτοπαλινδρόµισης (Autoregressive model) είναι κατάλληλο για την περιγραφή αυτής της γραµµικής σχέσης καθώς και την πρόβλεψη µελλοντικών τιµών Χ 6 t (περισσότερα στην παρ. 3.2) Στασιµότητα Η ιδιότητα της (αυστηρής) στασιµότητας ικανοποιείται όταν η από κοινού συνάρτηση κατανοµής µιας στοχαστικής διαδικασίας 7 δε µεταβάλλεται, όταν µεταβάλλεται ο χρόνος. Κατά συνέπεια η µέση τιµή και η διασπορά µιας στάσιµης χρονολογικής σειράς επίσης δε µεταβάλλεται µε το χρόνο (βλέπε το γράφηµα 5). 5 ε θα γίνει περαιτέρω αναφορά σε αυτό το κείµενο 6 Απαραίτητη προϋπόθεση η χρονολογική σειρά να είναι στάσιµη 7 Αν η στοχαστική διαδικασία είναι µια χρονολογική σειρά µε µετρήσεις σε k χρονικές στιγµές, τότε αν µετατοπίσουµε το χρόνο παρατήρησης κατά (τυχαίο) χρονικό διάστηµα τα τότε θα ισχύει : 18

37 Γράφηµα 5: Στάσιµη χρονολογική σειρά Πηγή: Μια µη-στάσιµη χρονολογική σειρά µπορεί να παρουσιάζει τάσεις (trends), δηλαδή αλλαγές στη µέση τιµή της ή / και τη διακύµανση της ως προς το χρόνο. Για παράδειγµα η τιµή της βενζίνης µπορεί να έχει διακυµάνσεις λόγω της διεθνούς αγοράς αλλά και να παρουσιάζει µια αυξητική τάση σε βάθος χρόνου λόγω πληθωρισµού. Μια µη-στάσιµη χρονολογική σειρά µπορεί επίσης να παρουσιάζει περιοδικότητα (periodicity) όταν αναφέρεται σε συγκεκριµένες περιόδους που σχετίζονται µε φυσικές εποχές του έτους (µήνα, τρίµηνο, τετράµηνο) ή γενικότερα να παρατηρείται εποχικότητα (seasonality) στη διαµόρφωση της τιµής του χαρακτηριστικού που εξετάζεται, (π.χ. η τιµή του όζοντος στην ατµόσφαιρα υπόκειται σε εποχικές διακυµάνσεις πέρα από τις διακυµάνσεις που µπορεί να οφείλονται στην εξέλιξη του οικοσυστήµατος). Η µη-στασιµότητα µπορεί να δηµιουργήσει πρόβληµα στην ανάλυση χρονολογικών σειρών και κυρίως στην περίπτωση προβλέψεων. Σε χρονολογικές σειρές µε έντονη περιοδικότητα ή εποχικότητα, χρειάζεται πρώτα να ουδετεροποιηθεί η επίδραση της περιοδικής ή εποχικής συνιστώσας πριν γίνει η ανάλυση της χρονολογικής σειράς. Υπάρχουν στατιστικοί έλεγχοι για τον έλεγχο της στασιµότητας (π.χ. το unit root test και τους ελέγχους Dickey Fuller και KPSS) και τεχνικές µετασχηµατισµού για την απαλοιφή τάσης και περιοδικότητας στις χρονολογικές σειρές (βλέπε παρ ). Στο γράφηµα 6 δίνεται ένα παράδειγµα µη-στάσιµης χρονολογικής σειράς. ιακρίνεται µια περιοδική συµπεριφορά στην µεταβολή της τιµής µηνιαία, 19

38 αλλά και µια ανοδική τάση στη µέση τιµή διαχρονικά. Φυσικά τα γεγονότα της 11ης Σεπτεµβρίου 2001 έχουν επηρεάσει τη διαµόρφωση της τιµής όπως και άλλα πολιτικά - και όχι µόνο - γεγονότα. Είναι προφανές ότι δεν είναι εύκολο να πραγµατοποιηθούν αξιόπιστες προβλέψεις αν δε µετασχηµατιστεί η χρονολογική σειρά. Γράφηµα 6: Μηνιαίες τιµές αργού πετρελαίου στις ΗΠΑ (Ιανουάριος 2001 Σεπτέµβριος 2009) Πηγή: Εργοδικότητα Η εργοδικότητα ή εργοδική ιδιότητα είναι µια ιδιότητα εξίσου σηµαντική µε τη στασιµότητα όσον αφορά τις χρονολογικές σειρές. Μια χρονολογική σειρά είναι θεµιτό να ικανοποιεί το εργοδικό θεώρηµα ή πιο απλά ένας ικανός αριθµός παρατηρήσεων να επαρκεί για την αξιόπιστη εκτίµηση της µέσης τιµής και της διασποράς της (Walters, 1982). Είναι προφανές ότι οι ιδιότητες της στασιµότητας και της εργοδικότητας συνδέονται Στοχαστικότητα 20

39 Οι τιµές της χρονολογικής σειράς ενός µεγέθους συνήθως διαµορφώνονται από συγκεκριµένους παράγοντες που είναι παρόντες κατά την περίοδο των µετρήσεων, ωστόσο όχι µε ντετερµινιστικό τρόπο αφού αναµένεται να επηρεάζονται ταυτόχρονα και από τυχαίους παράγοντες ή αλλιώς θόρυβο. Οι χρονολογικές σειρές πραγµατικών µεγεθών είναι σχεδόν πάντα στοχαστικές. Η ανάλυση των χρονολογικών σειρών διερευνά τόσο το ντετερµινιστικό µέρος του συστήµατος όσο και το στοχαστικό (τυχαίο) µέρος µέσω της κατασκευής ενός µοντέλου µε την παράλληλη εφαρµογή τεχνικών για τη βέλτιστη διαχείριση του στοχαστικού µέρους. Αν µια χρονολογική σειρά οριστεί ως στοχαστική διαδικασία, τότε οι παρατηρήσεις {Χ 1,..., Χ n } µπορούν να εκληφθούν ως οι τιµές µιας σειράς n τυχαίων µεταβλητών, διατεταγµένων ως προς το χρόνο, που αποτελούν υποσύνολο µιας άπειρης ακολουθίας τυχαίων µεταβλητών. Αυτή η στοχαστική διαδικασία είναι θεµιτό να είναι στάσιµη και να ικανοποιεί την εργοδική ιδιότητα, ενώ µπορεί να µοντελοποιηθεί µε τη µορφή π.χ. ενός γραµµικού µοντέλου το οποίο θα περιλαµβάνει τον στοχαστικό παράγοντα ε t. Για παράδειγµα, µια στοχαστική διαδικασία που ορίζεται από µια αυτοπαλίνδροµη σχέση πρώτης τάξεως της µορφής X t = βχ t-1 + ε t, εάν β=1, τότε η διαδικασία ονοµάζεται τυχαίος περίπατος: Γράφηµα 7: Χρονολογική σειρά ως στοχαστική διαδικασία (τυχαίος περίπατος) Πηγή: 21

40 3.2 Επιλογή µεθόδου για την ανάλυση µιας χρονολογικής σειράς Η επιλογή ενός κατάλληλου µοντέλου για την ανάλυση µιας χρονολογικής σειράς είναι κρίσιµης σηµασίας για την εκτίµηση παραµέτρων που θα ερµηνεύουν τεκµηριωµένα τις διαχρονικές µεταβολές του µεγέθους που εξετάζεται. Γενικά υπάρχουν δύο προσεγγίσεις που ακολουθούνται για την ανάλυση των χρονολογικών σειρών: 1) Η διάσπαση της χρονολογικής σειράς σε συνιστώσες και 2) Η δηµιουργία ενός δυναµικού µοντέλου µε τη χρονολογική σειρά να αντιπροσωπεύει τις τιµές της εξαρτηµένης µεταβλητής Η πρώτη προσέγγιση αναπαριστά τη χρονολογική σειρά µε ένα µοντέλο ανάλυσης συνιστωσών. Η ανάλυση επικεντρώνεται στην εύρεση προτύπων και την πρόβλεψη µελλοντικών τιµών. Τα πρότυπα αυτά καλούνται συνιστώσες µιας χρονολογικής σειράς και είναι οι ακόλουθες: Τάση: µια συστηµατική µεταβολή (αύξηση ή µείωση που µπορεί να είναι γραµµικής, εκθετικής ή οποιασδήποτε άλλης µορφής) των τιµών της χρονολογικής σειράς Εποχικότητα: µεταβολές (αυξοµειώσεις) που επαναλαµβάνονται σαν πρότυπο σε συγκεκριµένες εποχές της χρονικής περιόδου που εξετάζεται Κύκλοι: Μια ολοκληρωµένη συµπεριφορά που περιλαµβάνει αυξήσεις και µειώσεις της X t (ενίοτε απότοµες) που επαναλαµβάνεται µε τον ίδιο τρόπο σε όχι απαραίτητα σταθερά µεταξύ τους χρονικά διαστήµατα Ακανόνιστες µεταβολές: Παρατηρούµενες αυξοµειώσεις που πιθανό να αποδίδονται σε παράγοντες που εµφανίζονται περιστασιακά στο σύστηµα Ακραία σηµεία: Συγκεκριµένες παρατηρήσεις που δεν εντάσσονται σε καµία από τις παραπάνω συνιστώσες και που είναι προφανές ότι αποτελούν ιδιάζουσες καταστάσεις 22

41 Σε πραγµατικά δεδοµένα η εύρεση προτύπων είναι αρκετά δύσκολη. Για το λόγο αυτό συχνά προτιµάται η δεύτερη προσέγγιση. Συνήθως ορίζεται ένα µοντέλο παλινδρόµησης µε µια µεταβλητή (εξαρτηµένη) ως συνάρτηση κάποιων ανεξάρτητων µεταβλητών. Στα γραµµικά µοντέλα η συσχέτιση αυτή είναι γραµµική. Τα µοντέλα που χρησιµοποιούνται για την ανάλυση χρονολογικών σειρών είναι ως επί το πλείστον ποσοτικά, ενώ µπορεί να ποικίλουν αρκετά ως προς το βαθµό πολυπλοκότητας τους. Οι κυριότερες εναλλακτικές που χρησιµοποιούνται στην πράξη είναι οι ακόλουθες (βλέπε και παρ. 3.3): Μοντέλα κινητού µέσου (Moving Average - MA): Εφαρµόζονται σε στάσιµες χρονολογικές σειρές και βασίζονται στη σχέση της τιµής µιας χρονολογικής σειράς µε τη µέση τιµή των k προηγούµενων χρονικά τιµών της σειράς. Τα µοντέλα ARMA και ARIMA αποτελούν γενικεύσεις του µοντέλου που χρησιµοποιούνται κατά κόρον Μοντέλα Εκθετικής Εξοµάλυνσης (Exponential Smoothing): Οι προβλέψεις είναι σταθµισµένοι συνδυασµοί παρατηρήσεων και προβλέψεων του παρελθόντος Ανάλυση παλινδρόµησης (Regression analysis): Η χρήση της βρίσκει εφαρµογή σε πρόβλεψη µικρού και µέσου χρονικού ορίζοντα. Περιλαµβάνει τα Οικονοµετρικά µοντέλα (Econometric models) Box-Jenkins: εν υποθέτουν την ύπαρξη προτύπου στα δεδοµένα Οι περισσότερες από αυτές τις µεθόδους έχουν σαν προϋπόθεση πως η εξέλιξη της σειράς γίνεται µε τρόπο γραµµικό. Υπάρχει πλήθος προσεγγίσεων για την ανάλυση µη γραµµικών χρονολογικών σειρών. Οι κύριες µέθοδοι που χρησιµοποιούνται πηγάζουν από την ανάλυση µη - γραµµικών δυναµικών συστηµάτων και της θεωρίας του χάους, όπως τα νευρωνικά δίκτυα, η κλασµατοµορφική διάσταση των µη-γραµµικών χαρακτηριστικών (fractal dimension), οι εκθέτες Lyapunov (Lyapunov exponents), τα µη γραµµικά προσθετικά µοντέλα (nonlinear additive models) και τα τοπικά γραµµικά µοντέλα (local linear models). Στην πράξη η χρήση τους είναι περιορισµένη λόγω της ανάγκης γνώσης νέων θεωρήσεων και εννοιών όπως είναι τα Fractals, το χάος κ.τ.λ. Τα µοντέλα Markov είναι µια ακόµα εναλλακτική που έχει προταθεί για την ανάλυση χρονολογικών σειρών. 23

42 Στην συνέχεια θα γίνει µια συνοπτική παρουσίαση κάποιων από τα µοντέλα που αναφέρονται παραπάνω. 3.3 Μοντέλα ανάλυσης χρονολογικών σειρών Μοντέλα κινητού µέσου Μοντέλα ARIMA Αν θεωρήσουµε τη χρονολογική σειρά Y t, τότε ο κινητός µέσος των q πιο πρόσφατων τιµών τη χρονική στιγµή t δίνεται από τον τύπο: = Οι q παρατηρήσεις έχουν το ίδιο βάρος στην διαµόρφωση του κινητού µέσου. Αν υποθέσουµε ότι οι πιο πρόσφατες παρατηρήσεις επηρεάζουν περισσότερο την τιµή M t σε σύγκριση µε τις παλαιότερες, τότε η (1) παίρνει τη µορφή: (1) = Τα θ λ έχουν άθροισµα τη µονάδα ενώ ισχύει θ i >θ j για κάθε i>j. Ένα µοντέλο κινητού µέσου τάξης q (MA(q)) δίνεται από τον τύπο: = (ΜΑ(q)), Όπου µ είναι ο µέσος της χρονολογικής σειράς, ε t είναι παράγοντες λευκού θορύβου τη χρονική στιγµή i:i=t-q, t-q+1,.,t και α t είναι οι συντελεστές αυτών των παραγόντων στο µοντέλο. Τα µοντέλα αυτά γενικεύονται από τη θεωρία των Box Jenkins (Box and Jenkins, 1970) ώστε να ενσωµατώνονται σε ένα µοντέλο αυτοπαλινδρόµισης (AutoRegressive model (AR)). Ένα τέτοιο µοντέλο τάξης p είναι της µορφής: (2) (AR(p)) Όπου φ i οι συντελεστές των όρων X t-i και ε t το σφάλµα του µοντέλου (λευκός θόρυβος). Η σταθερά c συχνά παραλείπεται για λόγους απλότητας. 24

43 Κατά συνέπεια πρόκειται για ένα µοντέλο απλής γραµµικής παλινδρόµησης µε σταθερά c και ανεξάρτητες µεταβλητές τις τιµές µιας χρονολογικής σειράς πριν τη στιγµή που εξετάζεται (t). Το µοντέλο που προκύπτει από το συνδυασµό των µοντέλων AR και MA ονοµάζεται αυτοπαλινδροµούµενο µοντέλο κινούµενου µέσου (AutoRegressive Moving Average, ARMA) και έχει τη µορφή: (ARMA(p,q)) Το παραπάνω µοντέλο έχει παραµέτρους p και q οι οποίες πρέπει να εκτιµηθούν. Αν η χρονολογική σειρά X t δεν είναι στάσιµη, αλλά οι µεταβολές της µπορούν να περιγραφούν από ένα µοντέλο ARMA(p,q), τότε το µοντέλο γενικεύεται περαιτέρω και ορίζεται το αυτοπαλινδροµούµενο ολοκληρωµένο µοντέλο κινούµενου µέσου ή ολοκληρωµένο µικτό µοντέλο (AutoRegressive Integrated Moving Average model, ARIMA) µε παραµέτρους p,d και q. Οι συντελεστές φ i και θ i ορίζονται όπως και στα µοντέλα MA και AR. Η τυπολογία των µοντέλων ARIMA(p,d,q) είναι σύνθετη όταν όλες οι παράµετροι είναι διάφορες του 0. Τα υποδείγµατα ARIMA µπορούν να δώσουν ικανοποιητικές προβλέψεις και συνεπώς να χρησιµεύσουν στην διαδικασία λήψης αποφάσεων και στον στοχαστικό έλεγχο µιας διαδικασίας. Ωστόσο είναι αρκετά προφανές ότι είναι εξαιρετικά σύνθετα, ενώ απαιτούν και πολύ µεγάλο όγκο παρατηρήσεων. Εφαρµόζοντας ένα τέτοιο µοντέλο, το ζητούµενο είναι η εκτίµηση των παραµέτρων του µοντέλου και στη συνέχεια ο έλεγχος της επάρκειας τους για την ερµηνεία των δεδοµένων από τα οποία προήλθαν. Για το λόγο αυτό ελέγχονται οι διαφορές των πραγµατικών παρατηρήσεων µε τις προβλέψεις του µοντέλου, ενώ ένας άλλος τρόπος ελέγχου στηρίζεται στους συντελεστές αυτοσυσχέτισης του δείγµατος, γνωστούς και ως Portmanteau lack of fit test. Εάν ο διαγνωστικός έλεγχος δώσει αρνητικά αποτελέσµατα, θα πρέπει να εκτιµηθούν εκ νέου οι παράµετροι. 25

44 3.3.2 Εκθετική εξοµάλυνση Το µοντέλο της Εκθετικής Εξοµάλυνσης (Exponential Smoothing) χρησιµοποιείται ευρέως καθώς προσφέρει ικανοποιητική ακρίβεια για προβλέψεις, ευκολία στους υπολογισµούς και είναι σαφώς λιγότερο απαιτητικό σε όγκο δεδοµένων από τα µοντέλα ARIMA Τα στοιχεία που απαιτούνται για το µοντέλο είναι: Η πρόβλεψη της τρέχουσας περιόδου (έστω F t ), Η πραγµατική τιµή της τρέχουσας περιόδου (έστω A t ) και Η σταθερά εξοµάλυνσης α (0 α 1) Η σχέση των τριών αυτών στοιχείων δίνεται από τον ακόλουθο τύπο: Όπως φαίνεται και από τον τύπο η σταθερά α είναι ένα µέτρο της βαρύτητας της τωρινής πραγµατικής τιµής, σε σχέση µε την πρόβλεψη αυτής (που προέκυψε από προηγούµενη πραγµατική τιµή από το ίδιο µοντέλο), για την πρόβλεψη της αµέσως επόµενης τιµής. Η µέθοδος αυτή έχει σαν αφετηρία τη µέθοδο των κινούµενων µέσων (Brown, 1956 και Holt, 1957) και υποθέτει επίσης ότι η χρονολογική σειρά είναι στάσιµη. Η διαφορά της προσέγγισης αυτής και ταυτόχρονα το πλεονέκτηµα της είναι πώς λαµβάνει υπόψη όλες τις τιµές της χρονολογικής σειράς µέχρι και τη στιγµή t (και όχι µόνο τις q προηγούµενες), ενώ για τις προβλέψεις χρειάζεται µόνο την ακριβώς προηγούµενη Ανάλυση παλινδρόµησης Η ανάλυση παλινδρόµησης στοχεύει στην κατασκευή ενός µοντέλου βάσει του οποίου οι τιµές µιας ανεξάρτητης µεταβλητής (έστω X), µπορούν να χρησιµοποιηθούν για την εκτίµηση µιας εξαρτηµένης µεταβλητής (έστω Υ). Γενικεύοντας µπορούµε να έχουµε πολλές ανεξάρτητες µεταβλητές (Χ 1, Χ 2 26

45 κ.τ.λ. - Πολλαπλή παλινδρόµηση) ή και πολλές εξαρτηµένες µεταβλητές (Υ 1, Υ 2 κ.τ.λ. - Πολυµεταβλητή παλινδρόµηση). Στην περίπτωση χρονολογικών σειρών, οι Χ και Υ είναι απλά οι Χ t και Y t. Τα µοντέλα παλινδρόµησης που µελετώνται είναι συχνά γραµµικά χωρίς αυτό να είναι απαραίτητο. Αυτό που είναι σηµαντικό, είναι στο διάγραµµα διασποράς (scatter plot) των δύο µεταβλητών να φαίνεται ότι η καµπύλη του µοντέλου προσαρµόζεται καλά στα δεδοµένα, κάτι που σηµαίνει και ότι οι δύο µεταβλητές σχετίζονται ισχυρά. Φυσικά το µοντέλο δεν µπορεί και δεν είναι θεµιτό να προσαρµόζεται στα σηµεία του διαγράµµατος. Αυτό θα έκανε το µοντέλο δύσκολο στην ερµηνεία και στον υπολογισµό χωρίς πρακτικά οφέλη. Στο γράφηµα 8 βλέπουµε το βαθµό προσαρµογής (fit) µιας καµπύλης µοντέλου παλινδρόµησης σε δεδοµένα. Γράφηµα 8: Προσαρµογή καµπυλών µοντέλων παλινδρόµησης Καλή προσαρµογή Μέτρια προσαρµογή Καµία προσαρµογή Το µοντέλο της απλής γραµµικής παλινδρόµησης δίνεται από τον τύπο: = Ζητούµενο της ανάλυσης είναι να υπολογιστούν οι συντελεστές a, b µε τη µέθοδο που χρησιµοποιείται συνήθως να είναι αυτή των ελαχίστων τετραγώνων 8. Όσον αφορά δε τις χρονολογικές σειρές, το µοντέλο µπορεί να χρησιµοποιηθεί για προβλέψεις. Το µοντέλο της πολλαπλής γραµµικής παλινδρόµησης (Multiple Linear Regression) που εφαρµόζεται ακόµα πιο συχνά είναι το εξής: = 8 Περισσότερα για τη µέθοδο των ελαχίστων τετραγώνων και την ανάλυση παλινδρόµησης γενικότερα στους Draper - Smith,

46 Με a, b 1, b 2,,b n τους συντελεστές που πρέπει να υπολογιστούν, Y t και X it οι χρονολογικές σειρές της εξαρτηµένης και των ανεξάρτητων µεταβλητών και ε t ο θόρυβος Μεθοδολογία Box-Jenkins Η µεθοδολογία Box-Jenkins αποτελεί µια γενική προσέγγιση στην εύρεση του καταλληλότερου µοντέλου για την ανάλυση µιας χρονολογικής σειράς. Αυτό το µοντέλο µπορεί να είναι ένα ARMA ή ARIMA µε συγκεκριµένες παραµέτρους. Η προσέγγιση της µεθόδου Box-Jenkins περιλαµβάνει τα ακόλουθα βήµατα: Επιλογή και ταυτοποίηση του υποδείγµατος: Ελέγχεται αν οι σειρές είναι στάσιµες, αν υπάρχει εποχικότητα και αν υπάρχουν παράγοντες αυτοπαλινδρόµισης ή κινούµενου µέσου για να συµπεριληφθούν στο µοντέλο 9. Εκτίµηση των παραµέτρων: Χρησιµοποιείται η µέθοδος της µέγιστης πιθανοφάνειας (Maximum Likelihood) ή των µη γραµµικών ελαχίστων τετραγώνων για την εκτίµηση των παραµέτρων του µοντέλου που έχει ταυτοποιηθεί. ιαγνωστικός έλεγχος του µοντέλου: Το εκτιµώµενο µοντέλο πρέπει να ικανοποιεί τις συνθήκες µιας στάσιµης χρονολογικής σειράς. Τα κατάλοιπα πρέπει να είναι µεταξύ τους ανεξάρτητα µε σταθερή µέση τιµή και διακύµανση. Για να ελεγχθεί αυτό µπορεί να κατασκευαστεί ένα διάγραµµα µέσου διακύµανσης για τα κατάλοιπα και να εφαρµοστεί ένας έλεγχος Ljung-Box 10. Αν το µοντέλο είναι ανεπαρκές, η διαδικασία επιστρέφει στο πρώτο βήµα προκειµένου να κατασκευαστεί ένα καλύτερο µοντέλο. 9 Χρησιµοποιείται το διάγραµµα αυτοσυσχέτισης (autocorrelation plot) της εξαρτηµένης µεταβλητής για το σκοπό αυτό. 10 Ελέγχει αν οποιοδήποτε συνδυασµός αυτοσυσχετίσεων µιας χρονολογικής σειράς είναι διάφορος του 0 (H 0 : Τα δεδοµένα είναι τυχαία κατανεµηµένα (Οι συσχετίσεις στον πληθυσµό είναι 0 έναντι της H 1 : Τα δεδοµένα δεν είναι τυχαία κατανεµηµένα) 28

47 4. Ανάλυση κατά Συστάδες σε δεδοµένα χρονολογικών σειρών Συνήθως οι βάσεις δεδοµένων δεν περιέχουν δεδοµένα χρονολογικών σειρών, αλλά τιµές για διάφορα χαρακτηριστικά (µεταβλητές) µια δεδοµένη χρονική στιγµή. Για το λόγο αυτό συνήθως καλούνται και βάσεις στιγµιότυπου (snapshot databases), ενώ τα δεδοµένα αυτά που δεν έχουν χρονική διάσταση καλούνται και διαστρωµατικά (cross sectional). Οι µέθοδοι ανάλυσης κατά συστάδες που αναφέρθηκαν στη 2 η ενότητα του παρόντος κειµένου έχουν αναπτυχθεί για την ανάλυση τέτοιων δεδοµένων ως επί το πλείστον. Αυτό δε σηµαίνει ότι δεν παρουσιάζει ενδιαφέρον η εφαρµογή τεχνικών συσταδοποίησης σε δεδοµένα χρονολογικών σειρών ή ότι δεν υπάρχει ήδη πληθώρα προεκτάσεων των µεθόδων που αναφέρθηκαν σε δεδοµένα χρονολογικών σειρών. Το µόνο που απαιτείται είναι να προσαρµοστούν αυτές οι µέθοδοι στις ιδιαιτερότητες βάσεων χρονικών δεδοµένων. Αυτές ξεχωρίζουν από τις βάσεις στιγµιότυπου, καθώς περιλαµβάνεται πληροφορία για τη χρονική στιγµή αναφοράς των τιµών των µεταβλητών (χρόνος µέτρησης, χρόνος συναλλαγής, χρόνος λήξης κ.τ.λ.). Ανεξάρτητα από το αν τα χρονικά δεδοµένα είναι µονοµεταβλητά ή πολυµεταβλητά, αν αναφέρονται στο ίδιο χρονικό διάστηµα ή όχι και το αν είναι διακριτά ή συνεχή, η εφαρµογή αλγορίθµων ανάλυσης κατά συστάδες σε τέτοια δεδοµένα έχει να κάνει µε τη διαχείριση του χρονικού παράγοντα ώστε είτε τα δεδοµένα να µπορούν να χρησιµοποιηθούν ως στατικά, είτε οι µέθοδοι να αφοµοιώνουν τη δυναµική φύση των δεδοµένων. Η τελευταία περίπτωση έχει να κάνει µε τον ορισµό ενός κατάλληλου µέτρου απόστασης ή µε τη µοντελοποίηση των χρονολογικών σειρών όπως θα δούµε στη συνέχεια της ενότητας. 29

48 4.1 Προσεγγίσεις που χρησιµοποιούνται για τη συσταδοποίηση δεδοµένων χρονολογικών σειρών Όπως και στην περίπτωση διαστρωµατικών δεδοµένων, υπάρχουν πάρα πολλές µέθοδοι και παραλλαγές αυτών που έχουν εφαρµοστεί σε πραγµατικά δεδοµένα χρονολογικών σειρών και οι οποίες παρουσιάζονται στη συνέχεια. Στο γράφηµα 9 ωστόσο, οι µέθοδοι αυτές εντάσσονται σε τρεις βασικές προσεγγίσεις 11 : 1. Μεθόδους που εφαρµόζονται απευθείας στα δεδοµένα (raw data based methods): Αυτές οι µέθοδοι στηρίζονται πολύ στον ορισµό κατάλληλου µέτρου απόστασης 2. Μεθόδους που εφαρµόζονται σε χαρακτηριστικά των δεδοµένων (feature based methods): Ορίζεται ένα διάνυσµα χαρακτηριστικών από τα αρχικά δεδοµένα, στο οποίο στη συνέχεια εφαρµόζεται το µέτρο απόστασης 3. Μεθόδους που εφαρµόζονται σε µοντέλα που προσαρµόζονται στα δεδοµένα (model based approach): Αυτή η προσέγγιση χρησιµοποιεί σαν χαρακτηριστικά µιας χρονολογικής σειράς τις παραµέτρους ενός µοντέλου που την περιγράφει και έχει προσαρµοστεί σε αυτήν Είναι σηµαντικό να τονιστεί πώς τόσο οι µέθοδοι που εφαρµόζονται απευθείας στα δεδοµένα, όσο και εκείνες που εφαρµόζονται σε επιλεγµένα χαρακτηριστικά ή παραµέτρους µοντέλων είναι παραλλαγές των µεθόδων που περιγράφηκαν στην ενότητα 2. Στην πρώτη περίπτωση, πρέπει να δοθεί έµφαση στο ότι οι χρονολογικές σειρές των οποίων µετριέται η απόσταση πρέπει να ορίζονται στο ίδιο διάστηµα. Επειδή όµως σε πραγµατικά δεδοµένα είναι σύνηθες να µην υπάρχουν επαρκείς µετρήσεις για όλα τα χρονικά σηµεία και όλες τις µεταβλητές, και επειδή τα δεδοµένα από µόνα τους ενδεχοµένως να περιέχουν σηµαντικό 11 Για περισσότερα βλέπε: Liao (2005) 30

49 θόρυβο όταν το σύστηµα έχει µεγάλο αριθµό διαστάσεων (high - dimensional space), συνήθως είναι προτιµότερο να επιχειρείται η περιγραφή του προβλήµατος από ένα ισοδύναµο (στο βαθµό του εφικτού) πρόβληµα µε λιγότερες διαστάσεις. Η µείωση των διαστάσεων του προβλήµατος πραγµατοποιείται είτε µέσω της επιλογής «σηµαντικών» διαστάσεων, είτε µέσω της µοντελοποίησης των δεδοµένων, εποµένως η 2 η και η 3 η προσέγγιση παρέχει λύσεις σε πολλά από τα προβλήµατα που αντιµετωπίζουν οι µέθοδοι της 1 ης προσέγγισης. Γράφηµα 9: Εναλλακτικές προσεγγίσεις στην ανάλυση κατά συστάδες δεδοµένων χρονολογικών σειρών Πηγή: T. Warren Liao / Pattern Recognition 38 (2005) Τα µοντέλα που απαιτεί η 3η προσέγγιση δεν είναι άλλα από τα µοντέλα χρονολογικών σειρών που αναφέρθηκαν στην ενότητα 3. Τα µέτρα απόστασης που απαιτούνται για τη συσταδοποίηση ορίζονται στις παραµέτρους των µοντέλων και τα κατάλοιπα τους, ενώ θεωρείται ότι δύο χρονολογικές σειρές είναι τόσο όµοιες, όσο «κοντά» είναι οι παράµετροι των µοντέλων που τις περιγράφουν. 31

50 4.2 Μέτρα απόστασης χρονολογικών σειρών και εφαρµογές Πολύ συνηθισµένες επιλογές για τη µέτρηση της απόστασης ανάµεσα σε δύο χρονολογικές σειρές είναι τα µέτρα απόστασης που αναφέρθηκαν στην παρ Για παράδειγµα, η ευκλείδεια απόσταση (Euclidean distance) ανάµεσα σε δύο χρονολογικές σειρές X t και Y t µε t=1,2,,t υπολογίζεται από τον τύπο: = ( ) Οµοίως χρησιµοποιείται το τετράγωνο της ευκλείδειας απόστασης. Ιδιαίτερη αναφορά πρέπει να γίνει στη χρήση της µέσης τετραγωνικής ρίζας της απόστασης (root mean square distance): Και της απόστασης Minkowski: = = ( ) Ένα ενδιαφέρον µέγεθος που µπορεί να χρησιµοποιηθεί για τη µέτρηση της απόστασης δύο χρονολογικών σειρών είναι ο συντελεστής συσχέτισης του Pearson (Pearson s correlation coefficient): ( ) ( ) = ( ) ( ) Η διαφορά αυτού του µέτρου από τα υπόλοιπα έγκειται στο ότι πρόκειται για µέτρο «στατιστικής» απόστασης δύο χρονολογικών σειρών, αφού µετράει οµοιότητα στις (συµ)µεταβολές τους. Σαν µέτρο δεν επηρεάζεται από διαφορά στις κλίµακες, ενώ και άλλα µεγέθη βασισµένα στο συντελεστή του Pearson έχουν χρησιµοποιηθεί σαν εναλλακτικές. 32

51 Ένα διαφορετικό µέτρο απόστασης κατάλληλο για χρονολογικές σειρές είναι η απόσταση STS 12 (Short Time Series distance). Πρόκειται για την τετραγωνική ρίζα του αθροίσµατος των τετραγώνων των διαφορών στις κλίσεις των δύο χρονολογικών σειρών που συγκρίνονται: Για τη χρήση αυτού του µέτρου απόστασης, οι χρονολογικές σειρές πρέπει να τυποποιηθούν (standardized), ώστε να µην επηρεάζεται το µέτρο από διαφορές στην κλίµακα τους. Σε αντίθεση µε την απόσταση STS που εφαρµόζεται σε συνεχείς χρονολογικές σειρές, η απόσταση DTW (Dynamic time warping distance) µπορεί να αφορά και διακριτές χρονολογικές σειρές (Myers Rabiner, 1981). Οι χρονολογικές σειρές που συγκρίνονται µπορεί να µην είναι µετρηµένες στα ίδια χρονικά σηµεία, ωστόσο ένας αλγόριθµος τις εξισορροπεί προσοµοιώνοντας τις µε συνεχείς χρονολογικές σειρές, µέσω δυναµικού προγραµµατισµού. Ο κώδικας ενός τέτοιου αλγορίθµου είναι διαθέσιµος στο κοινό 13, ωστόσο δε θα γίνει περαιτέρω αναφορά σε αυτό το κείµενο. Το µέτρο Kullback Liebler (KLIC) είναι ένα µέτρο απόκλισης µεταξύ δύο κατανοµών πιθανότητας. Η πληροφορία για την κατανοµή πιθανότητας των χρονολογικών σειρών µπορεί να δίνεται από τη συχνότητα στη µονάδα του χρόνου. Παρά τη µη συµµετρικότητα του, χρησιµοποιείται ως µέτρο απόστασης 14 (για τυπολογία και περισσότερες πληροφορίες βλέπε Shumway, 2003). Άλλα µέτρα απόστασης που έχουν χρησιµοποιηθεί στη διεθνή πρακτική είναι οι αποκλίσεις κατά J και Chernoff (J divergence and symmetric Chernoff information Divergence) 15 και ένας δείκτης βασισµένος στη συνάρτηση δια - συσχέτισης (cross-correlation function) δύο χρονολογικών σειρών (βλέπε Golay et al., 1998), ωστόσο δε θα γίνει καµία περαιτέρω αναφορά σε αυτές 12 Möller-Levet et al., Αν θεωρήσουµε δύο χρονολογικές σειρές X t, Y t, τότε η απόσταση της πρώτης από τη δεύτερη, δε θα ισούται µε την απόσταση της δεύτερης από την πρώτη, αν το µέτρο που χρησιµοποιείται είναι το KLIC 15 Και πάλι βλέπε Shumway (2003) 33

52 τις εναλλακτικές. Προφανώς, η ποικιλία των εφαρµογών µπορεί να οδηγήσει στον ορισµό και άλλων µέτρων απόστασης για χρονολογικές σειρές. Στους πίνακες 3 5 συνοψίζονται τα µέτρα απόστασης και οι µέθοδοι ανάλυσης κατά συστάδες που συναντώνται στη διεθνή βιβλιογραφία για κάθε προσέγγιση που αναφέρεται στην παρ. 4.1 για την ανάλυση δεδοµένων χρονολογικών σειρών. Η πληροφορία των πινάκων συµπληρώθηκε από τον Liao (2005) και αφορά την καταγραφή χαρακτηριστικών παραδειγµάτων ερευνών στο πεδίο της εφαρµογής της Ανάλυσης κατά Συστάδες σε δεδοµένα χρονολογικών σειρών, τον αλγόριθµο συσταδοποίησης που εφαρµόστηκε, το µέτρο απόστασης που χρησιµοποιήθηκε, το ακριβές πεδίο της εφαρµογής και άλλες χρήσιµες λεπτοµέρειες. Οι µελέτες αυτές περιλαµβάνονται στη βιβλιογραφία. Είναι ξεκάθαρο ότι και άλλοι συνδυασµοί αλγόριθµων ανάλυσης κατά συστάδες και µέτρων απόστασης είναι δόκιµο να εφαρµοστούν και όπως και στην περίπτωση των διαστρωµατικών δεδοµένων είναι θεµιτό τα αποτελέσµατα µιας εφαρµογής να επιβεβαιώνονται µέσω της σύγκρισης τους µε τα αποτελέσµατα που προκύπτουν αν χρησιµοποιηθεί µια διαφορετική µέθοδος ή ένα διαφορετικό µέτρο απόστασης. Πίνακας 3: Μέτρα απόστασης που χρησιµοποιούνται σε µεθόδους που εφαρµόζονται απευθείας στα δεδοµένα 34

53 Πίνακας 4: Μέτρα απόστασης που χρησιµοποιούνται σε µεθόδους που εφαρµόζονται σε χαρακτηριστικά των δεδοµένων Πίνακας 5: Μέτρα απόστασης που χρησιµοποιούνται σε µεθόδους που εφαρµόζονται σε µοντέλα που προσαρµόζονται στα δεδοµένα 35

54 4.3 Επιλογή µεθόδων για εφαρµογή Οι εναλλακτικές που προσφέρονται για την εφαρµογή µεθόδων ανάλυσης κατά συστάδες σε δεδοµένα χρονολογικών σειρών είναι πάρα πολλές και διαρκώς προκύπτουν διάφορες παραλλαγές αυτών µε τους πίνακες 3 5 να επιδέχονται ενηµέρωσης σε τακτά διαστήµατα. Η καταλληλότερη µέθοδος για την ανάλυση ενός σετ / βάσης δεδοµένων εξαρτάται σε µεγάλο βαθµό από τα ίδια τα δεδοµένα. Για το λόγο αυτό είναι πιθανό µια µελέτη που αφορά ένα φαινόµενο µε χαρακτηριστικά που δεν έχουν ποτέ αναλυθεί στο πλαίσιο της ανάλυσης κατά συστάδες να δηµιουργήσει την ανάγκη ορισµού ενός νέου µέτρου απόστασης, καλύτερα προσαρµοσµένου σε τέτοιου είδους χαρακτηριστικά. Το µέτρο αυτό µπορεί να συνδυαστεί µε διαφορετικούς αλγόριθµους συσταδοποίησης. Η καλή γνώση των δεδοµένων προς ανάλυση είναι προαπαιτούµενη για τον καθορισµό της κατάλληλης µεθόδου, όπως και η δηµιουργικότητα και η ευελιξία του αναλυτή. Η γνώση των δεδοµένων αποκτάται τόσο προκαταρκτικά - γνωρίζοντας την φύση και το αντικείµενο των µεταβλητών και της χρονικής διάστασης, και τον τρόπο που συνδέονται αυτές θεωρητικά για να περιγράψουν το φαινόµενο που µελετάµε - όσο και ύστερα από την εφαρµογή κάποιων περιγραφικών / διαγνωστικών µεθόδων διαγράµµατα χρονολογικών σειρών, µέσου / διακύµανσης vs χρόνου, ελέγχους στασιµότητας κ.τ.λ. Τελικά η επιλογή της καταλληλότερης µεθόδου αποτελείται από α) την επιλογή ενός µέτρου για την αποτύπωση της απόστασης ανάµεσα στις χρονολογικές σειρές που ζητείται να συσταδοποιηθούν (απόσταση µεταξύ των ίδιων των δεδοµένων, των χαρακτηριστικών τους ή παραµέτρων µοντέλων που προσαρµόζονται σε αυτές) και β) την επιλογή ενός αλγορίθµου που ενσωµατώνει κατάλληλα αυτό το µέτρο απόστασης και προχωράει στη ζητούµενη συσταδοποίηση. Όπως και στην περίπτωση των διαστρωµατικών δεδοµένων, η λύση της µεθόδου που επιλέχθηκε (Cluster solution) είναι θεµιτό να επικυρώνεται µε τη χρήση κάποιων εναλλακτικών µέτρων απόστασης ή αλγορίθµων συσταδοποίησης. 36

55 5. Εφαρµογή της µεθοδολογίας σε πραγµατικά δεδοµένα Έχοντας αναφερθεί στη θεωρία της Ανάλυσης κατά Συστάδες σε δεδοµένα χρονολογικών σειρών, η παρούσα ενότητα πραγµατεύεται τη δυνατότητα εφαρµογής ορισµένων από τις µεθόδους που αναφέρθηκαν στην ενότητα 4 σε πραγµατικά δεδοµένα. Ο σκοπός της εφαρµογής είναι να αναδείξει τον τρόπο µε τον οποίο προσεγγίζεται στην πράξη το πρόβληµα της δηµιουργίας οµοιογενών οµάδων αντικειµένων όταν είναι διαθέσιµη µια χρονολογική σειρά τιµών ενός χαρακτηριστικού τους. Πρόκειται για την πιο απλή περίπτωση ανάλυσης κατά συστάδες σε δεδοµένα χρονολογικών σειρών, µε την πολυµεταβλητή περίπτωση να είναι µια απλή προέκταση και να παρουσιάζει περισσότερα κοινά παρά διαφορές. Τα δεδοµένα που χρησιµοποιήθηκαν αφορούν τις καταναλωτικές συνήθειες των πελατών µιας αλυσίδας σουπερµάρκετ (περισσότερα στην παρ. 5.1) και το χαρακτηριστικό που εξετάζεται είναι ο αριθµός των προϊόντων που αγοράζουν. Το πλήθος των αντικειµένων που αγοράζουν ανά περίοδο (µέρα, εβδοµάδα κ.τ.λ.) περιγράφει την καταναλωτική τους συµπεριφορά και παρουσιάζει ενδιαφέρον να δηµιουργηθούν οµάδες πελατών µε «όµοια» καταναλωτική συµπεριφορά ώστε σε περαιτέρω ανάλυση να αναγνωριστούν τα προϊόντα που τους ενδιαφέρουν και να τεθούν κατάλληλες πολιτικές για την καλύτερη ικανοποίηση των αναγκών τους. Αν ο σκοπός της ανάλυσης ήταν άλλος (π.χ. η αύξηση του όγκου πωλήσεων), θα µπορούσε ως χαρακτηριστικό να ερευνηθεί η αξία των αγορών. Στις επόµενες παραγράφους παρουσιάζονται τα δεδοµένα της εφαρµογής και η επεξεργασία τους πριν την ανάλυση (παρ. 5.1), τεκµηριώνεται η επιλογή των µεθόδων που χρησιµοποιήθηκαν για την ανάλυση (παρ. 5.2) και παρουσιάζονται και αξιολογούνται τα αποτελέσµατα της εφαρµογής των µεθόδων (παρ. 5.3 έως 5.5). 37

56 5.1 Περιγραφή και επεξεργασία των δεδοµένων Στόχοι της µελέτης Τα δεδοµένα που χρησιµοποιήθηκαν για την εφαρµογή της µεθοδολογίας προέρχονται από τη βάση δεδοµένων µιας αλυσίδας σουπερµάρκετ στην Ολλανδία που περιέχει αναλυτικά στοιχεία (περισσότερες από ένα εκατοµµύριο εγγραφές) για τις αγορές που πραγµατοποίησαν οι πελάτες των υποκαταστηµάτων της κατά την περίοδο 13/12/1999 έως 30/11/ Η βάση αυτή, σε µορφή MS Access, περιέχει σε διακριτούς πίνακες διάφορα δηµογραφικά στοιχεία για τους πελάτες, την ταξινόµηση των προϊόντων (αντικείµενα) και τις πωλήσεις / αγορές των πελατών σε επίπεδο αντικειµένου 17. Η πληροφορία ήταν καταγεγραµµένη στα Ολλανδικά και αυτό έκανε τη µελέτη των στοιχείων αρκετά δύσκολη, ωστόσο η άντληση των βασικότερων πληροφοριών όπως π.χ. η αξία των αγορών των πελατών ήταν εφικτή. Για λόγους εµπιστευτικότητας δε θα αναφερθούµε περαιτέρω στη δοµή της βάσης και στους πίνακες που την αποτελούν. Ο βασικός στόχος της ανάλυσης που ακολούθησε ήταν η διερεύνηση της δυνατότητας εφαρµογής κάποιων από τις µεθόδους που εξετάστηκαν στην ενότητα 4 σε αυτά τα δεδοµένα και η αξιολόγηση των αποτελεσµάτων εφαρµογής τους για την εξαγωγή συµπερασµάτων για την εφαρµοσιµότητα τους. ευτερεύον στόχος της ανάλυσης ήταν η παραγωγή ορισµένων περιγραφικών στατιστικών αναφορικά µε τα χαρακτηριστικά των ατόµων της κάθε συστάδας και των προϊόντων που καταναλώνουν, ώστε να δοθεί έµφαση στα θετικά στοιχεία της εφαρµογής της Ανάλυσης κατά Συστάδες γενικότερα. Στο ίδιο το περιβάλλον της βάσης πραγµατοποιήθηκαν απλά ερωτήµατα (queries) προκειµένου να κατασκευαστούν πίνακες µε δοµή κατάλληλη για περαιτέρω επεξεργασία, όπως λ.χ. ένα ενιαίο αρχείο µε τον αριθµό των 16 Τα δεδοµένα καλύπτουν τις υπο περιόδους: 1) 13/12/ /12/1999, 2) 20/12/ /1/2000, 3) 2/5/ /5/2000, 4) 1/9/ /10/2000 και 5) 2/11/ /11/ Περισσότερα για τα δηµογραφικά των πελατών και την ταξινόµηση των προϊόντων στις παραγράφους και αντίστοιχα 38

57 προϊόντων που αγόρασαν οι πελάτες ανά εβδοµάδα ή συγκεντρωτικοί πίνακες µε την ταξινόµηση των προϊόντων. Ένα σηµαντικό πρόβληµα που αφορά τα δεδοµένα (εκτός από το ότι δεν καλύπτουν όλη την περίοδο µελέτης) έχει να κάνει µε το ότι σηµαντική µερίδα των πελατών δεν επισκέφτηκαν κάποιο από τα υποκαταστήµατα αρκετά συχνά εντός της περιόδου µελέτης ώστε να επιτρέψουν την απρόσκοπτη εφαρµογή των µεθόδων. Τέτοιου είδους προβλήµατα είναι αναµενόµενα σε πραγµατικά δεδοµένα, ενώ η αντιµετώπιση τους παρουσιάζεται αναλυτικότερα στην παρ Σε πρώτη φάση ήταν ξεκάθαρο ότι δεν είναι εφικτό να πραγµατοποιηθεί ανάλυση σε επίπεδο ηµερήσιων αγορών, οπότε εξαρχής οι πίνακες που κατασκευάστηκαν αφορούν εβδοµαδιαίες αγορές. Προκειµένου να αποκτήσουµε µια καλύτερη εικόνα των δεδοµένων προς ανάλυση, κατασκευάστηκε ένας πίνακας 18 για τις εβδοµαδιαίες αγορές των πελατών µε τις ακόλουθες µεταβλητές: week_count: Ο αύξων αριθµός της κάθε εβδοµάδας εντός της περιόδου µελέτης week_label: Η ταµπέλα (label) της κάθε εβδοµάδας που µας πληροφορεί για το ποιες µέρες καλύπτει date: Σαν ηµεροµηνία που αντιστοιχεί στην κάθε εβδοµάδα δόθηκε η πλήρη ηµεροµηνία της ηµέρας µε την οποία ξεκινάει η εβδοµάδα 19 aa: Ο αύξων αριθµός του πελάτη 20 customer_id: Ο κωδικός του πελάτη quantity: Η ποσότητα των προϊόντων που αγόρασε ο εν λόγω πελάτης την εν λόγω εβδοµάδα Wsales: Η αξία των αγορών που περιγράφεται στην προηγούµενη στήλη COUNT: Το πλήθος των εβδοµάδων για τον οποίο ο πελάτης έχει πραγµατοποιήσει αγορές 18 Όλοι οι πίνακες που κατασκευάστηκαν στην Ms Access για χρήση στην R, δηµιουργήθηκαν µε άξονα την εύκολη εισαγωγή και ανάλυση τους στην R. Βλέπε και εικόνα Εκτός πολύ λίγων εξαιρέσεων (αργίες κ.τ.λ.) η ηµέρα αυτή είναι πάντα ευτέρα 20 Σαν µεταβλητή κλειδί δε χρησιµεύει από τη στιγµή που υπάρχει και ο κωδικός του πελάτη, ωστόσο ενδέχεται να χρησιµοποιηθεί για την κατασκευή macro. 39

58 Εικόνα 1: οµή αρχείου προς εισαγωγή στην R Ο εν λόγω πίνακας έχει εγγραφές και αφορά τις εβδοµαδιαίες αγορές 5141 πελατών. Στον πίνακα 6 δίνεται το πλήθος των εγγραφών που αντιστοιχεί σε κάθε εβδοµάδα της περιόδου µελέτης. Κάθε ένας από αυτούς εµφανίζεται σε έως 25 εγγραφές, όσες και οι εβδοµάδες στις οποίες πραγµατοποίησε αγορές. Στην περίοδο που εξετάζεται αγοράστηκαν προϊόντα µε συνολική αξία ,8 νοµισµατικές µονάδες. Πίνακας 6: Πλήθος εγγραφών ανά εβδοµάδα Σειρά εβδοµάδας Εβδοµάδα Εγγραφές 1 13/12/ /12/ /12/ /12/ /12/ /01/ /01/ /01/ /01/ /01/ /01/ /01/ /05/ /05/ /05/ /05/ /05/ /05/ /05/ /05/ /05/ /05/ /09/ /09/ /09/ /09/ /09/ /09/ /09/ /09/ /09/ /09/ /10/ /10/ /10/ /10/ /10/ /10/ /10/ /10/ /10/ /11/ /11/ /11/ /11/ /11/ /11/ /11/ /11/ /11/

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

Χρονολογικές Σειρές (Time Series) Lecture notes Φ.Κουντούρη 2008

Χρονολογικές Σειρές (Time Series) Lecture notes Φ.Κουντούρη 2008 Χρονολογικές Σειρές (Time Series) Lecture notes Φ.Κουντούρη 2008 1 Τύποι Οικονομικών Δεδομένων Τα οικονομικά δεδομένα που χρησιμοποιούνται για την εξέταση οικονομικών φαινομένων μπορεί να έχουν τις ακόλουθες

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100 Ποσοτικές Μέθοδοι Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR 50100 Απλή Παλινδρόμηση Η διερεύνηση του τρόπου συμπεριφοράς

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Χρονοσειρές, Μέρος Β 1 Πρόβλεψη Χρονικών Σειρών

Χρονοσειρές, Μέρος Β 1 Πρόβλεψη Χρονικών Σειρών Χρονοσειρές, Μέρος Β Πρόβλεψη Χρονικών Σειρών Ο βασικός σκοπός της μελέτης των μοντέλων για χρονικές σειρές (όπως AR, MA, ARMA, ARIMA, SARIMA) είναι η πρόβλεψη (predicio, forecasig) Η πρόβλεψη των μελλοντικών

Διαβάστε περισσότερα

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΤΕΧΝΙΚΩΝ ΠΡΟΒΛΕΨΕΩΝ& ΕΛΕΓΧΟΥ ΜΑΘΗΜΑ ΠΡΩΤΟ-ΔΕΥΤΕΡΟ-ΣΤΑΣΙΜΟΤΗΤΑ- ΕΠΟΧΙΚΟΤΗΤΑ-ΚΥΚΛΙΚΗ ΤΑΣΗ ΧΡΗΣΙΜΟΙΟΡΙΣΜΟΙ Χρονολογική Σειρά (χρονοσειρά)

Διαβάστε περισσότερα

ΗΡΑΚΛΕΙΟ 2007 ΙΩΑΝΝΑ ΚΑΠΕΤΑΝΟΥ

ΗΡΑΚΛΕΙΟ 2007 ΙΩΑΝΝΑ ΚΑΠΕΤΑΝΟΥ ΙΩΑΝΝΑ ΚΑΠΕΤΑΝΟΥ ΠΕΡΙΕΧΟΜΕΝΑ ΕΙΣΑΓΩΓΗ 1.1 Γιατί οι επιχειρήσεις έχουν ανάγκη την πρόβλεψη σελ.1 1.2 Μέθοδοι πρόβλεψης....σελ.2 ΑΝΑΛΥΤΙΚΗ ΠΑΡΟΥΣΙΑΣΗ 2.1 Υπόδειγμα του Κινητού μέσου όρου.σελ.5 2.2 Υπόδειγμα

Διαβάστε περισσότερα

Ανάλυση κατά Συστάδες. Cluster analysis

Ανάλυση κατά Συστάδες. Cluster analysis Ανάλυση κατά Συστάδες Cluster analysis 1 H ανάλυση κατά συστάδες είναι µια µέθοδος που σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου Όρου (ARIMA)

Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου Όρου (ARIMA) ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ

Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή,

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ... ΠΕΡΙΕΧΟΜΕΝΑ ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...................................... 11 ΠΡΟΛΟΓΟΣ..........................................................15 1. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΝΑΛΥΤΙΚΗ, ΣΤΑ ΠΟΣΟΤΙΚΑ

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΜΑΘΗΜΑ 3ο. Βασικές έννοιες

ΜΑΘΗΜΑ 3ο. Βασικές έννοιες ΜΑΘΗΜΑ 3ο Βασικές έννοιες Εισαγωγή Βασικές έννοιες Ένας από τους βασικότερους σκοπούς της ανάλυσης των χρονικών σειρών είναι η διενέργεια των προβλέψεων. Στα υποδείγματα αυτά η τρέχουσα τιμή μιας οικονομικής

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΧΡΟΝΟΛΟΓΙΚΕΣ ΣΕΙΡΕΣ (Time-series Analysis)

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΧΡΟΝΟΛΟΓΙΚΕΣ ΣΕΙΡΕΣ (Time-series Analysis) ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΧΡΟΝΟΛΟΓΙΚΕΣ ΣΕΙΡΕΣ (Time-series Analysis) Δρ Ιωάννης Δημόπουλος Καθηγητής Τμήμα Διοίκησης Μονάδων Υγείας και Πρόνοιας -ΤΕΙ Καλαμάτας Τι είναι η χρονολογική σειρά Χρονολογική σειρά ή Χρονοσειρά

Διαβάστε περισσότερα

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής ΑΥΤΟΣΥΣΧΕΤΙΣΗ Στις βασικές υποθέσεις των γραμμικών υποδειγμάτων (απλών και πολλαπλών), υποθέτουμε ότι δεν υπάρχει αυτοσυσχέτιση (autocorrelation

Διαβάστε περισσότερα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : , Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η :1-0-017, 3-0-017 Διδάσκουσα: Κοντογιάννη Αριστούλα Σκοπός του μαθήματος Η παρουσίαση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικών Χρηματοοικονομικών Μαθηματικών ΧΡΟΝΟΣΕΙΡΕΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικών Χρηματοοικονομικών Μαθηματικών ΧΡΟΝΟΣΕΙΡΕΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικών Χρηματοοικονομικών Μαθηματικών ΧΡΟΝΟΣΕΙΡΕΣ Σημειώσεις Πανεπιστημιακών Παραδόσεων ΑΛΕΞΑΝΔΡΟΣ ΜΗΛΙΏΝΗΣ ΟΚΤΩΒΡΙΟΣ 205 ΚΕΦΑΛΑΙΟ

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών ΟΙΚΟΝΟΜΕΤΡΙΑ Βιολέττα Δάλλα Τµήµα Οικονοµικών Επιστηµών Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών 1 Εισαγωγή Οικονοµετρία (Econometrics) είναι ο τοµέας της Οικονοµικής επιστήµης που περιγράφει και αναλύει

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές Εαρινό εξάμηνο 2018-2019 μήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό μήμα, Πανεπιστήμιο

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΤΕΙ ΚΡΗΤΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΓΙΑΝΝΗΣ ΦΑΝΟΥΡΓΙΑΚΗΣ ΕΠΙΣΤΗΜΟΝΙΚΟΣ ΣΥΝΕΡΓΑΤΗΣ ΤΕΙ ΚΡΗΤΗΣ ΔΟΜΗ ΠΑΡΟΥΣΙΑΣΗΣ 1. Εισαγωγή

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

ΕΦΑΡΜΟΣΜΕΝΗ ΑΝΑΛΥΣΗ ΥΔΡΟΛΟΓΙΚΩΝ ΧΡΟΝΙΚΩΝ ΣΕΙΡΩΝ

ΕΦΑΡΜΟΣΜΕΝΗ ΑΝΑΛΥΣΗ ΥΔΡΟΛΟΓΙΚΩΝ ΧΡΟΝΙΚΩΝ ΣΕΙΡΩΝ Διατμηματικό πρόγραμμα μεταπτυχιακών σπουδών ΥΔΡΑΥΛΙΚΗ ΜΗΧΑΝΙΚΗ Δρ Βασίλειος Κιτσικούδης και Δρ Σπηλιώτης Μιχάλης ΕΦΑΡΜΟΣΜΕΝΗ ΑΝΑΛΥΣΗ ΥΔΡΟΛΟΓΙΚΩΝ ΧΡΟΝΙΚΩΝ ΣΕΙΡΩΝ ΞΑΝΘΗ, 2015 Παραδείγματα από Τριβέλλα Θ.

Διαβάστε περισσότερα

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο Πολλαπλή παλινδρόµηση Μάθηµα 3 ο Πολλαπλή παλινδρόµηση (Multivariate regression ) Η συµπεριφορά των περισσότερων οικονοµικών µεταβλητών είναι συνάρτηση όχι µιας αλλά πολλών µεταβλητών Y = f ( X, X 2, X

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 6 ΠΡΟΒΛΕΨΕΙΣ ΜΕ ΥΠΟΔΕΙΓΜΑΤΑ ΧΡΟΝΟΣΕΙΡΩΝ

ΚΕΦΑΛΑΙΟ 6 ΠΡΟΒΛΕΨΕΙΣ ΜΕ ΥΠΟΔΕΙΓΜΑΤΑ ΧΡΟΝΟΣΕΙΡΩΝ ΚΕΦΑΛΑΙΟ 6 ΠΡΟΒΛΕΨΕΙΣ ΜΕ ΥΠΟΔΕΙΓΜΑΤΑ ΧΡΟΝΟΣΕΙΡΩΝ 6. Εισαγωγή 6. Μονομεταβλητές προβλέψεις Βέλτιστη πρόβλεψη και Θεώρημα βέλτιστης πρόβλεψης Διαστήματα εμπιστοσύνης 6.3 Εφαρμογές A. MILIONIS KEF. 6 08 BEA

Διαβάστε περισσότερα

ΧΡΟΝΟΣΕΙΡΕΣ. Διαχείριση Πληροφοριών

ΧΡΟΝΟΣΕΙΡΕΣ. Διαχείριση Πληροφοριών ΧΡΟΝΟΣΕΙΡΕΣ Μία χρονοσειρά είναι ένα σύνολο παρατηρήσεων πάνω σε μία ποσοτική μεταβλητή που συγκεντρώνονται με το πέρασμα του χρόνου. Πρόκειται για δεδομένα πάνω στη συμπεριφορά μιας ή πολλών μεταβλητών

Διαβάστε περισσότερα

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn) MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ g( Έστω τυχαίες µεταβλητές οι οποίες έχουν κάποια από κοινού κατανοµή Ας υποθέσουµε ότι επιθυµούµε να προσδιορίσουµε την κατανοµή της τυχαίας µεταβλητής g( Η θεωρία των ένα-προς-ένα

Διαβάστε περισσότερα

Είδη Μεταβλητών. κλίµακα µέτρησης

Είδη Μεταβλητών. κλίµακα µέτρησης ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρµοσµένες Επιστήµες Στατιστικός Πληθυσµός και Δείγµα Το στατιστικό

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ Τμήμα Μαθηματικών ΧΡΟΝΟΣΕΙΡΕΣ. Σημειώσεις Πανεπιστημιακών Παραδόσεων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ Τμήμα Μαθηματικών ΧΡΟΝΟΣΕΙΡΕΣ. Σημειώσεις Πανεπιστημιακών Παραδόσεων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ Τμήμα Μαθηματικών ΧΡΟΝΟΣΕΙΡΕΣ Σημειώσεις Πανεπιστημιακών Παραδόσεων ΑΛΕΞΑΝΔΡΟΣ ΜΗΛΙΏΝΗΣ ΟΚΤΩΒΡΙΟΣ 07 ΚΕΦΑΛΑΙΟ ΧΡΟΝΟΣΕΙΡΕΣ- ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. ΟΡΙΣΜΟΣ

Διαβάστε περισσότερα

Χρονικές σειρές 11 Ο μάθημα: Προβλέψεις

Χρονικές σειρές 11 Ο μάθημα: Προβλέψεις Χρονικές σειρές 11 Ο μάθημα: Προβλέψεις Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό Τμήμα, Πανεπιστήμιο

Διαβάστε περισσότερα

ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΕΙΡΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑ

ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΕΙΡΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑ ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΕΙΡΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑ απόκλιση από την κανονικότητα µπορεί να σηµαίνει Ύπαρξη θετικής ή αρνητικής ασυµµετρίας Ύπαρξη λεπτοκύρτωσης, δηλαδή παρουσία ακραίων τιµών που δεν είναι συµβατές

Διαβάστε περισσότερα

Στασιμότητα χρονοσειρών Νόθα αποτελέσματα-spurious regression Ο έλεγχος στασιμότητας είναι απαραίτητος ώστε η στοχαστική ανάλυση να οδηγεί σε ασφαλή

Στασιμότητα χρονοσειρών Νόθα αποτελέσματα-spurious regression Ο έλεγχος στασιμότητας είναι απαραίτητος ώστε η στοχαστική ανάλυση να οδηγεί σε ασφαλή Χρονικές σειρές 12 Ο μάθημα: Έλεγχοι στασιμότητας ΑΝΑΚΕΦΑΛΑΙΩΣΗ: Εκτίμηση παραμέτρων γραμμικών μοντέλων Συνάρτηση μερικής αυτοσυσχέτισης Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική

Διαβάστε περισσότερα

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΕΧΝΙΚΕΣ ΠΡΟΒΛΕΨΕΩΝ & ΕΛΕΓΧΟΥ ΜΑΘΗΜΑ ΘΕΩΡΙΑΣ-ΥΠΟΔΕΙΓΜΑΤΑ ΚΙΝΗΤΟΥ ΜΕΣΟΥ MA(q) ΚΑΙ ΜΙΚΤΑ ΥΠΟΔΕΙΓΜΑΤΑ ARMA (p,q) ΕΠΙΧ - Τεχνικές Προβλέψεων & Ελέγχου

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε

Διαβάστε περισσότερα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις

Διαβάστε περισσότερα

Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου Όρου (ARIMA)

Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου Όρου (ARIMA) ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5 o ΣΥΜΠΕΡΑΣΜΑΤΑ

ΚΕΦΑΛΑΙΟ 5 o ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΕΦΑΛΑΙΟ 5 o ΣΥΜΠΕΡΑΣΜΑΤΑ Εισαγωγή Η προσέγγιση του προβλήµατος της ατµοσφαιρικής ρύπανσης έγινε µε βάση την εµπειρία από χώρες που µελετούν το πρόβληµα αυτό συστηµατικά επί χρόνια. Τα συµπεράσµατα που

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΤΙ ΕIΝΑΙ ΠΡΟΒΛΕΨΕΙΣ; Διαδικασία εκτίμησης μελλοντικών καταστάσεων βασιζόμενη συνήθως σε ιστορικά στοιχεία

ΤΙ ΕIΝΑΙ ΠΡΟΒΛΕΨΕΙΣ; Διαδικασία εκτίμησης μελλοντικών καταστάσεων βασιζόμενη συνήθως σε ιστορικά στοιχεία ΤΙ ΕIΝΑΙ ΠΡΟΒΛΕΨΕΙΣ; Διαδικασία εκτίμησης μελλοντικών καταστάσεων βασιζόμενη συνήθως σε ιστορικά στοιχεία Πρόβλεψη μελλοντικών γεγονότων για: Σχεδιασμό, Οργάνωση και Έλεγχο των πόρων Λήψη επιχειρηματικών

Διαβάστε περισσότερα

Βασικές Έννοιες Στατιστικής & Μέθοδοι Πρόβλεψης

Βασικές Έννοιες Στατιστικής & Μέθοδοι Πρόβλεψης ΜΕΡΟΣ Βασικές Έννοιες Στατιστικής & Μέθοδοι Πρόβλεψης Εισαγωγή Περιγραφή μεθόδων πρόβλεψης Οι μέθοδοι προβλέψεων χωρίζονται σε 3 μεγάλες κατηγορίες Α. Με βάση τον ορίζοντα προγραμματισμού. βραχυπρόθεσμες.

Διαβάστε περισσότερα

Ανάλυση Χρονοσειρών. Κεφάλαιο Ανάλυση Χρονοσειρών

Ανάλυση Χρονοσειρών. Κεφάλαιο Ανάλυση Χρονοσειρών Κεφάλαιο 22 Ανάλυση Χρονοσειρών 22.1 Ανάλυση Χρονοσειρών Με τον όρο Χρονοσειρά εννοούµε µια σειρά από παρατηρήσεις που παίρνονται σε ορισµένες χρονικές στιγµές ή περιόδους που ισαπέχουν µεταξύ τους. Υπάρχουν

Διαβάστε περισσότερα

Περιεχόμενα. Πρόλογος... 15

Περιεχόμενα. Πρόλογος... 15 Περιεχόμενα Πρόλογος... 15 Κεφάλαιο 1 ΘΕΩΡΗΤΙΚΑ ΚΑΙ ΦΙΛΟΣΟΦΙΚΑ ΟΝΤΟΛΟΓΙΚΑ ΚΑΙ ΕΠΙΣΤΗΜΟΛΟΓΙΚΑ ΖΗΤΗΜΑΤΑ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ ΕΡΕΥΝΑΣ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΚΟΣΜΟΥ... 17 Το θεμελιώδες πρόβλημα των κοινωνικών επιστημών...

Διαβάστε περισσότερα

Παράρτηµα 3 Εξισώσεις Διαφορών και Στοχαστικές Διαδικασίες

Παράρτηµα 3 Εξισώσεις Διαφορών και Στοχαστικές Διαδικασίες Γιώργος Αλογοσκούφης, Θέµατα Δυναµικής Μακροοικονοµικής, Αθήνα 0 Παράρτηµα 3 Εξισώσεις Διαφορών και Στοχαστικές Διαδικασίες Στο παράρτηµα αυτό εξετάζουµε τις ιδιότητες και τους τρόπους επίλυσης των εξισώσεων

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Χρονοσειρές - Μάθημα 9 Aνάλυση χρονοσειρών και δυναμικά συστήματα

Χρονοσειρές - Μάθημα 9 Aνάλυση χρονοσειρών και δυναμικά συστήματα Χρονοσειρές - Μάθημα 9 Aνάλυση χρονοσειρών και δυναμικά συστήματα - Ανακατασκευή του χώρου καταστάσεων παρατήρηση της πολυπλοκότητας / στοχαστικότητας / δομής του συστήματος - Εκτίμηση χαρακτηριστικών

Διαβάστε περισσότερα

Χρονικές σειρές 1 o μάθημα: Εισαγωγή στις χρονοσειρές

Χρονικές σειρές 1 o μάθημα: Εισαγωγή στις χρονοσειρές Χρονικές σειρές 1 o μάθημα: Εισαγωγή στις χρονοσειρές Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό Τμήμα,

Διαβάστε περισσότερα

Οικονομετρία Ι. Ενότητα 9: Αυτοσυσχέτιση. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Οικονομετρία Ι. Ενότητα 9: Αυτοσυσχέτιση. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής Οικονομετρία Ι Ενότητα 9: Αυτοσυσχέτιση Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό

Διαβάστε περισσότερα

Ορισµός. Ανάλυση Χρονοσειρών

Ορισµός. Ανάλυση Χρονοσειρών Ορισµός Με τον όρο Χρονοσειρές εννοούµε µια σειρά από παρατηρήσεις που παίρνονται σε ορισµένες χρονικές στιγµές ή περιόδους που ισαπέχουν µεταξύ τους. Συµβολίζοντας µε Χi τις n χρονικές στιγµές (έτη, µήνες,

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1 2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση

Διαβάστε περισσότερα

Κασταλία Σύστηµα στοχαστικής προσοµοίωσης υδρολογικών µεταβλητών

Κασταλία Σύστηµα στοχαστικής προσοµοίωσης υδρολογικών µεταβλητών Εθνικό Μετσόβιο Πολυτεχνείο Τοµέας Υδατικών Πόρων, Υδραυλικών και Θαλάσσιων Έργων Κασταλία Σύστηµα στοχαστικής προσοµοίωσης υδρολογικών µεταβλητών. Κουτσογιάννης Α. Ευστρατιάδης Φεβρουάριος 2002 Εισαγωγή

Διαβάστε περισσότερα

Παραβίασητωνβασικώνυποθέσεωντηςπαλινδρόμησης (Violation of the assumptions of the classical linear regression model)

Παραβίασητωνβασικώνυποθέσεωντηςπαλινδρόμησης (Violation of the assumptions of the classical linear regression model) ΜΑΘΗΜΑ 4 ο 1 Παραβίασητωνβασικώνυποθέσεωντηςπαλινδρόμησης (Violation of the assumptions of the classical linear regression model) Αυτοσυσχέτιση (Serial Correlation) Lagrange multiplier test of residual

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Ενότητα 1: Πληθυσμός και δείγμα Είδη Μεταβλητών - Περιγραφική στατιστική

Ενότητα 1: Πληθυσμός και δείγμα Είδη Μεταβλητών - Περιγραφική στατιστική ΕΘΝΙΚΟ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΙΑΤΡΙΚΗ ΣΧΟΛΗ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΕΦΑΡΜΟΣΜΕΝΗ ΝΕΥΡΟΑΝΑΤΟΜΙΑ» «Βιοστατιστική, Μεθοδολογία και Συγγραφή Επιστημονικής Μελέτης» Ενότητα 1: Πληθυσμός

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανασκόπηση βασικών εννοιών Στατιστικής και Πιθανοτήτων Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Σύγχρονα συστήµατα προβλέψεων και µοντελοποίησης

Σύγχρονα συστήµατα προβλέψεων και µοντελοποίησης Σύγχρονα συστήµατα προβλέψεων και µοντελοποίησης ηµήτρης Λέκκας Τµήµα Στατιστικής και Αναλογιστικών Χρηµατοοικονοµικών Μαθηµατικών Περιγραφή Μοντελοποίηση - Περιγραφή Συστήµατος Πρόγνωση Μέθοδοι Πρόγνωση

Διαβάστε περισσότερα

Συλλογή,, αποθήκευση, ανανέωση και παρουσίαση στατιστικών δεδοµένων

Συλλογή,, αποθήκευση, ανανέωση και παρουσίαση στατιστικών δεδοµένων Συλλογή,, αποθήκευση, ανανέωση και παρουσίαση στατιστικών δεδοµένων 1. Αναζήτηση των κατάλληλων δεδοµένων. 2. Έλεγχος µεταβλητών και κωδικών για συµβατότητα. 3. Αποθήκευση σε ηλεκτρονική µορφή (αρχεία

Διαβάστε περισσότερα

Τεχνικές Προβλέψεων. Προβλέψεις

Τεχνικές Προβλέψεων. Προβλέψεις ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων Προβλέψεις http://www.fsu.gr - lesson@fsu.gr

Διαβάστε περισσότερα

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7o Μάθημα: Απλή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

1. Ποιες είναι οι διαφορές μεταξύ αυτοπαλίνδρομων υποδειγμάτων (AR) και υποδειγμάτων κινητού μέσου (MA);

1. Ποιες είναι οι διαφορές μεταξύ αυτοπαλίνδρομων υποδειγμάτων (AR) και υποδειγμάτων κινητού μέσου (MA); Ερωτήσεις: 1. Ποιες είναι οι διαφορές μεταξύ αυτοπαλίνδρομων υποδειγμάτων (AR) και υποδειγμάτων κινητού μέσου (MA); Στα αυτοπαλίνδρομα υποδείγματα η τρέχουσα τιμή της y είναι συνάρτηση p υστερήσεων της

Διαβάστε περισσότερα

Οργάνωση και Διοίκηση Πωλήσεων

Οργάνωση και Διοίκηση Πωλήσεων Οργάνωση και Διοίκηση Πωλήσεων Ενότητα 4: Η ΠΡΟΒΛΕΨΗ ΠΩΛΗΣΕΩΝ Αθανασιάδης Αναστάσιος Τμήμα Εφαρμογών Πληροφορικής στη Διοίκηση και Οικονομία Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΦΟΡΩΝ

ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΦΟΡΩΝ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΦΟΡΩΝ Ενότητα 4: Time and Frequency Analysis Διδάσκων: Γεώργιος Στεφανίδης Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών Σκοποί ενότητας Για την περιγραφή ενός συστήματος κρίσιμο

Διαβάστε περισσότερα

Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου Όρου (ARIMA)

Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου Όρου (ARIMA) ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου

Διαβάστε περισσότερα

Kalman Filter Γιατί ο όρος φίλτρο;

Kalman Filter Γιατί ο όρος φίλτρο; Kalman Filter Γιατί ο όρος φίλτρο; Συνήθως ο όρος φίλτρο υποδηλώνει µια διαδικασία αποµάκρυνσης µη επιθυµητών στοιχείων Απότολατινικόόροfelt : το υλικό για το φιλτράρισµα υγρών Στη εποχή των ραδιολυχνίων:

Διαβάστε περισσότερα

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις ΔΕΟ - Επαναληπτικές Εξετάσεις Λύσεις ΘΕΜΑ () Το Διάγραμμα Διασποράς εμφανίζεται στο επόμενο σχήμα. Από αυτό προκύπτει καταρχήν μία θετική σχέση μεταξύ των δύο μεταβλητών. Επίσης, από το διάγραμμα φαίνεται

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Κεϕάλαιο 6. Χρονοσειρές

Κεϕάλαιο 6. Χρονοσειρές Κεϕάλαιο 6 Χρονοσειρές Στο προηγούµενο κεϕάλαιο µελετήσαµε τη σχέση ενός µεγέθους µε άλλα µεγέθη καθώς και την εξάρτηση του µεγέθους (της εξαρτηµένης τυχαίας µεταβλητής) από άλλα µεγέθη (τις ανεξάρτητες

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΕΠΙΧΕΙΡΗΣΙΑΚΕΣ ΠΡΟΒΛΕΨΕΙΣ

ΕΠΙΧΕΙΡΗΣΙΑΚΕΣ ΠΡΟΒΛΕΨΕΙΣ ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ Ι - ΠΡΟΒΛΕΨΕΙΣ ΚΑΙ ΣΥΓΧΡΟΝΗ ΔΙΟΙΚΗΣΗ....................................17 1.1 Προβλέψεις - Τεχνικές προβλέψεων και διοίκηση................................17 1.2 Τεχνικές προβλέψεων

Διαβάστε περισσότερα

ΣΥΝΘΕΤΑ ΜΟΝΤΕΛΑ. Αριθμητικός Μέσος Εξομάλυνση Μοντελοποίηση. Συνδυασμός κάποιου μοντέλου και εξομάλυνσης. Διαχείριση Πληροφοριών 10.

ΣΥΝΘΕΤΑ ΜΟΝΤΕΛΑ. Αριθμητικός Μέσος Εξομάλυνση Μοντελοποίηση. Συνδυασμός κάποιου μοντέλου και εξομάλυνσης. Διαχείριση Πληροφοριών 10. ΣΥΝΘΕΤΑ ΜΟΝΤΕΛΑ Αριθμητικός Μέσος Εξομάλυνση Μοντελοποίηση Συνδυασμός κάποιου μοντέλου και εξομάλυνσης 10.1 ΑΡΙΘΜΗΤΙΚΟΣ ΜΕΣΟΣ Βασική έννοια στη Στατιστική Σημαντική για την κατανόηση προβλέψεων που βασίζονται

Διαβάστε περισσότερα

Τεχνικές Προβλέψεων. Προβλέψεις

Τεχνικές Προβλέψεων. Προβλέψεις ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων Προβλέψεις http://www.fsu.gr - lesson@fsu.gr

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΝΑΥΤΙΛΙΑ Η ΕΠΟΧΙΚΟΤΗΤΑ ΣΤΙΣ ΤΙΜΕΣ ΤΟΥ ΑΝΘΡΑΚΑ, ΤΟΥ ΠΕΤΡΕΛΑΙΟΥ, ΤΟΥ ΧΑΛΥΒΑ ΚΑΙ ΤΟΥ ΧΡΥΣΟΥ Δαμιανού Χριστίνα Διπλωματική

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436 A εξάμηνο 2009-2010 Περιγραφική Στατιστική Ι users.att.sch.gr/abouras abouras@sch.gr sch.gr abouras@uth.gr Μέτρα θέσης Η θέση αντιπροσωπεύει τη θέση της κατανομής κατά

Διαβάστε περισσότερα

Ανάλυση και Σχεδιασμός Μεταφορών Ι Γένεση Μετακινήσεων

Ανάλυση και Σχεδιασμός Μεταφορών Ι Γένεση Μετακινήσεων Γένεση Μετακινήσεων Παναγιώτης Παπαντωνίου Δρ. Πολιτικός Μηχανικός, Συγκοινωνιολόγος ppapant@upatras.gr Πάτρα, 2017 Εισαγωγή Αθροιστικά μοντέλα (Aggregate models) Ανάλυση κατά ζώνη πόσες μετακινήσεις ξεκινούν

Διαβάστε περισσότερα

Χρονικές σειρές 8 Ο μάθημα: Μοντέλα κινητού μέσου

Χρονικές σειρές 8 Ο μάθημα: Μοντέλα κινητού μέσου Χρονικές σειρές 8 Ο μάθημα: Μοντέλα κινητού μέσου Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό Τμήμα, Πανεπιστήμιο

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ 3 η ΠΑΡΟΥΣΙΑΣΗ Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου Συλλογή δεδομένων Πρωτογενή δεδομένα Εργαστηριακές μετρήσεις Παρατήρηση Παρατήρηση με συμμετοχή,

Διαβάστε περισσότερα

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ 3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ Πρόβλημα: Ένας ραδιοφωνικός σταθμός ενδιαφέρεται να κάνει μια ανάλυση για τους πελάτες του που διαφημίζονται σ αυτόν για να εξετάσει την ποσοστιαία μεταβολή των πωλήσεων

Διαβάστε περισσότερα

Μεθοδολογία της Τράπεζας της Ελλάδος για την κατασκευή των δεικτών τιμών ακινήτων

Μεθοδολογία της Τράπεζας της Ελλάδος για την κατασκευή των δεικτών τιμών ακινήτων Μεθοδολογία της Τράπεζας της Ελλάδος για την κατασκευή των δεικτών τιμών ακινήτων Τράπεζα της Ελλάδος Διεύθυνση Οικονομικής Ανάλυσης και Μελετών Τμήμα Ανάλυσης Αγοράς Ακινήτων (email: sec.realestate@bankofgreece.gr)

Διαβάστε περισσότερα

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ ΤΕΧΝΙΚΕΣ ΠΡΟΒΛΕΨΕΩΝ& ΕΛΕΓΧΟΥ ΜΑΘΗΜΑ ΘΕΩΡΙΑΣ-ΣΤΑΣΙΜΕΣ ΔΙΑΔΙΚΑΣΙΕΣ-ΥΠΟΔΕΙΓΜΑΤΑ SARIMA (sp,sd,qs) ARIMA (p,d,q) ΕΠΙΧ - Τεχνικές Προβλέψεων & Ελέγχου

Διαβάστε περισσότερα

Επιχειρηματικές Προβλέψεις: Μέθοδοι & Τεχνικές Επιλογή Μεθόδου Συνδυασμός Μεθόδου Διάλεξη 10

Επιχειρηματικές Προβλέψεις: Μέθοδοι & Τεχνικές Επιλογή Μεθόδου Συνδυασμός Μεθόδου Διάλεξη 10 ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Επιλογή Μεθόδου Συνδυασμός Μεθόδου Διάλεξη 10 Επιλογή κατάλληλης

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ

ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 18 ου Πανελληνίου Συνεδρίου Στατιστικής (2005) σελ.247-256 ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ ΣΥΜΠΤΩΣΕΩΝ

Διαβάστε περισσότερα

Χρονοσειρές - Μάθημα 7. Μη-γραμμική ανάλυση χρονοσειρών

Χρονοσειρές - Μάθημα 7. Μη-γραμμική ανάλυση χρονοσειρών Χρονοσειρές - Μάθημα 7 Μη-γραμμική ανάλυση χρονοσειρών Γραμμική ανάλυση / Γραμμικά μοντέλα αυτοσυσχέτιση AR μοντέλο ARMA(p,q) μοντέλο x x px p z z z q q Πλεονεκτήματα:. Απλά 2. Κανονική διαδικασία, ανεπτυγμένη

Διαβάστε περισσότερα

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Η συνολική εικόνα Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse

Διαβάστε περισσότερα

Στατιστική ΙΙΙ(ΣΤΑΟ 230) Χρονολογικές Σειρες-Κινητοι Μέσοι, Αφελείς Μέθοδοι και Αποσύνθεση (εκδ. 2η)

Στατιστική ΙΙΙ(ΣΤΑΟ 230) Χρονολογικές Σειρες-Κινητοι Μέσοι, Αφελείς Μέθοδοι και Αποσύνθεση (εκδ. 2η) Στατιστική ΙΙΙ-(ΣΤΑΟ 230) Χρονολογικές Σειρες-Κινητοι Μέσοι, Αφελείς Μέθοδοι και Αποσύνθεση (εκδ. 2η) Γεώργιος Τσιώτας Τμήμα Οικονομικών Επιστημών Σχολή Κοινωνικών Επιστημών Πανεπιστήμιο Κρήτης Στατιστική

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 2: Δομικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Χρονοσειρές Μάθημα 3. Γραμμικές στάσιμες διαδικασίες. Γραμμική χρονοσειρά (στοχαστική διαδικασία) Z Z ~ WN(0, ) είναι στάσιμη. Θεωρούμε μ=0 E[ X ] 0

Χρονοσειρές Μάθημα 3. Γραμμικές στάσιμες διαδικασίες. Γραμμική χρονοσειρά (στοχαστική διαδικασία) Z Z ~ WN(0, ) είναι στάσιμη. Θεωρούμε μ=0 E[ X ] 0 Γραμμικές στάσιμες διαδικασίες Γραμμική χρονοσειρά (στοχαστική διαδικασία) ~ WN(, ) i i i E[ ] είναι στάσιμη? i () Θεωρούμε μ= i i i Χρονοσειρές Μάθημα 3 i Θεωρώντας τον τελεστή υστέρησης: ( B) ( B) ib

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Είδη μεταβλητών Ποσοτικά δεδομένα (π.χ. ηλικία, ύψος, αιμοσφαιρίνη) Ποιοτικά δεδομένα (π.χ. άνδρας/γυναίκα, ναι/όχι) Διατεταγμένα (π.χ. καλό/μέτριο/κακό) 2 Περιγραφή ποσοτικών

Διαβάστε περισσότερα