ΓΡΑΜΜΙΚΗ ΚΑΙ ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ ΕΦΑΡΜΟΓΕΣ ΣΤΗΝ R

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΓΡΑΜΜΙΚΗ ΚΑΙ ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ ΕΦΑΡΜΟΓΕΣ ΣΤΗΝ R"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ "ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ" ΓΡΑΜΜΙΚΗ ΚΑΙ ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ ΕΦΑΡΜΟΓΕΣ ΣΤΗΝ R ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Ελένη Ι. Κουτσουδάκη Α.Μ. 37 Επιβλέπων: κος Φίλιππος Αλεβίζος Αναπληρωτής Καθηγητής Πανεπιστημίου Πατρών Πάτρα, Δεκέμβριος 06

2

3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ "ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ" ΓΡΑΜΜΙΚΗ ΚΑΙ ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ ΕΦΑΡΜΟΓΕΣ ΣΤΗΝ R ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Ελένη Ι. Κουτσουδάκη Α.Μ. 37 Επιβλέπων: κος Φίλιππος Αλεβίζος Αναπληρωτής Καθηγητής Πανεπιστημίου Πατρών Εγκρίθηκε από την τριμελή εξεταστική επιτροπή την 3η Νοεμβρίου 06. Φ. Αλεβίζος Σ. Κουρούκλης Ν. Τσάντας Αναπληρωτής Καθηγητής Καθηγητής Καθηγητής Πανεπιστημίου Πατρών Πανεπιστημίου Πατρών Πανεπιστημίου Πατρών Πάτρα, Δεκέμβριος 06

4 Πανεπιστήμιο Πατρών, Τμήμα Μαθηματικών Ελένη Ι. Κουτσουδάκη 06 - Με την επιφύλαξη παντός δικαιώματος

5 ΠΕΡΙΛΗΨΗ Η παλινδρόμηση είναι μια στατιστική τεχνική μοντελοποίησης που διερευνά την σχέση μεταξύ μιας εξαρτημένης μεταβλητής και μιας ή περισσότερων ανεξάρτητων μεταβλητών, με απώτερο στόχο την εκτίμηση ή/και την πρόβλεψη της πρώτης από τις άλλες γνωστές τιμές των μεταβλητών. Η παρούσα εργασία αποτελείται από τέσσερα επιμέρους κεφάλαια. Τα δύο πρώτα κεφάλαια αφορούν την γραμμική παλινδρόμηση. Συγκεκριμένα, το πρώτο κεφάλαιο αναφέρεται στην απλή γραμμική παλινδρόμηση με μία ανεξάρτητη μεταβλητή, ενώ το δεύτερο κεφάλαιο δίνει έμφαση στην πολλαπλή γραμμική παλινδρόμηση με την χρήση δύο ή και περισσότερων ανεξάρτητων μεταβλητών. Το τρίτο κεφάλαιο αφορά την μη γραμμική παλινδρόμηση και το τέταρτο και τελευταίο κεφάλαιο εστιάζει στην λογιστική παλινδρόμηση. Στο τέλος κάθε κεφαλαίου υπάρχουν παραδείγματα για την παρουσίαση και ερμηνεία της εκάστοτε θεωρίας στην πράξη με την χρήση της γλώσσας προγραμματισμού R. ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ Γραμμική Παλινδρόμηση, Μη Γραμμική Παλινδρόμηση, Λογιστική Παλινδρόμηση, Γλώσσα Προγραμματισμού R.

6 ABSTRACT The regresso s a statstcal modelg techque that explores the relatoshp betwee a depedet ad oe or more depedet varables, wth a vew to assessg ad/or predctg the frst from the other kow values of varables. Ths work cossts of four sub-fuds. The frst two chapters deal wth lear regresso. Specfcally, the frst secto deals wth the smple lear regresso wth oe depedet varable, whle the secod chapter focuses o the multple lear regresso usg two or more depedet varables. The thrd chapter cocers the olear regresso ad the fourth ad fal chapter focuses o logstc regresso. At the ed of each chapter there are examples for presetato ad terpretato of each theory practce wth the use of the programmg laguage R. KEY WORDS Lear Regresso, Nolear Regresso, Logstc Regresso, Programmg Laguage R.

7 ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω θερμά όλους τους καθηγητές και τις καθηγήτριες του Τμήματος Μαθηματικών του Πανεπιστημίου Πατρών για τις γνώσεις που μου προσέφεραν. Ιδιαίτερα ευχαριστώ τον επιβλέποντα καθηγητή κ. Φίλιππο Αλεβίζο για την εμπιστοσύνη, την υπομονή και την αμέριστη καθοδήγηση και βοήθεια του στην διάρκεια της εκπόνησης της διπλωματικής μου εργασίας, καθώς και τα μέλη της τριμελούς επιτροπής για τον χρόνο που διέθεσαν στην αξιολόγηση της διπλωματικής μου εργασίας.

8 ΑΦΙΕΡΩΣΗ Το παρόν πόνημα αφιερώνεται στους γονείς και στον αδερφό μου, για την συνεχή συμπαράσταση και υποστήριξή τους όλα αυτά τα χρόνια των σπουδών μου και όχι μόνο.

9 Πίνακας Περιεχομένων ΠΕΡΙΛΗΨΗ... 5 ABSTRACT... 6 Κεφάλαιο Σελίδα. ΤΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ: ΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ.... Εισαγωγή.... Βασικές υποθέσεις Μέθοδοι εκτίμησης παραμέτρων Η μέθοδος των ελαχίστων τετραγώνων Η μέθοδος της μέγιστης πιθανοφάνειας Ιδιότητες των εκτιμητών Ιδιότητες της γραμμής παλινδρομήσεως Ανάλυση διασποράς Συντελεστής προσδιορισμού Εκτιμητής της διακυμάνσεως σ Έλεγχος του υποδείγματος Έλεγχος υποθέσεων για τους συντελεστές b 0 και b Διαστήματα εμπιστοσύνης για τις παραμέτρους b 0 και b Διάστημα εμπιστοσύνης για την προσδοκώμενη τιμή της Υ Διάστημα εμπιστοσύνης για προβλέψεις Παλινδρόμηση χωρίς σταθερό όρο Εφαρμογές στην R ΤΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ: ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Εισαγωγή Βασικές υποθέσεις Μέθοδοι εκτίμησης παραμέτρων Μέθοδος ελαχίστων τετραγώνων Μέθοδος μέγιστης πιθανοφάνειας Προσαρμοσμένες τιμές και υπόλοιπα Ιδιότητες των εκτιμητών Ανάλυση διασποράς... 88

10 .7 Συντελεστής προσδιορισμού Έλεγχος του υποδείγματος Έλεγχοι υποθέσεων Διαστήματα εμπιστοσύνης Διάστημα εμπιστοσύνης για προβλέψεις Επιλογή μεταβλητών Πολυσυγγραμμικότητα Ψευδομεταβλητές Εφαρμογές στην R ΜΗ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ Εισαγωγή Μέθοδοι εκτίμησης παραμέτρων Μέθοδος Gauss-Newto Μέθοδος απότομης καθόδου Μέθοδος Leveberg-Marquardt Ιδιότητες των εκτιμητών Έλεγχος μη γραμμικού υποδείγματος Έλεγχος υποθέσεων Διαστήματα εμπιστοσύνης Εφαρμογές στην R ΛΟΓΙΣΤΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Εισαγωγή Απλή λογιστική παλινδρόμηση Πολλαπλή λογιστική παλινδρόμηση Ψευδο-συντελεστής προσδιορισμού (pseudo-r ) Έλεγχοι υποθέσεων Εφαρμογές στην R... 9 ΒΙΒΛΙΟΓΡΑΦΙΑ... 3

11 ΚΕΦΑΛΑΙΟ. ΤΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ: ΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ. Εισαγωγή Η οικονομετρία είναι ο κλάδος της οικονομικής επιστήμης που μετράει και σταθμίζει (με στατιστικές και μαθηματικές μεθόδους) τα οικονομικά δεδομένα και προβλήματα, με σκοπό την επαλήθευση της εγκυρότητας των οικονομικών θεωριών, τη διεύρυνση των γνώσεων και τη δυνατότητα προβλέψεων. Το θεωρητικό πεδίο ασχολείται με τη δημιουργία μαθηματικών και στατιστικών μοντέλων για την ερμηνεία οικονομικών στοιχείων. Ουσιαστικά, ο ορισμός της οικονομετρίας περιλαμβάνει την εμπειρική εκτίμηση των οικονομικών σχέσεων. Χρησιμοποιώντας δηλαδή την οικονομική θεωρία, την στατιστική θεωρία, αλλά και τα απαραίτητα σετ δεδομένων από ένα δείγμα ενός πληθυσμού, ελέγχει και μετρά τις σχέσεις ανάμεσα σε διάφορες οικονομικές μεταβλητές. Τα στάδια της οικονομετρικής ανάλυσης είναι:. Η εξειδίκευση του υποδείγματος, δηλαδή ο καθορισμός των μεταβλητών που θα το απαρτίζουν, η καταγραφή αυτών σε εξωγενείς και ενδογενείς, καθώς και στην μαθηματική διατύπωση του υποδείγματος.. Η κατάλληλη επιλογή των οικονομετρικών τεχνικών για την εκτίμηση των συντελεστών των μεταβλητών μας. Το στάδιο αυτό ονομάζεται εκτίμηση του υποδείγματος. 3. Ο έλεγχος του υποδείγματος με την παράλληλη εφαρμογή οικονομικών, στατιστικών και οικονομετρικών κριτηρίων για τον έλεγχο των αποτελεσμάτων της εκτιμήσεως. Η παλινδρόμηση είναι από τα πιο σημαντικά εργαλεία του οικονομέτρη για να αναλύσει τα οικονομικά και χρηματοοικονομικά φαινόμενα. Ασχολείται με την περιγραφή και αξιολόγηση των σχέσεων μεταξύ μιας μεταβλητής, η οποία καλείται εξαρτημένη (depedet) ή μεταβλητή απόκρισης (respose) ή προβλέψιμη (predcted), και μιας ή περισσότερων μεταβλητών οι οποίες ονομάζονται ανεξάρτητες (depedet) ή προβλεπτικές (predctve) ή επεξηγηματικές (explaatory). Η ανεξάρτητη μεταβλητή παίρνει το όνομα της

12 καθόσον ελέγχεται με μετρήσεις που διεξάγει ο ερευνητής, το αποτέλεσμα των οποίων αναμένεται να διαπιστωθεί επί της εξαρτημένης μεταβλητής, της οποίας οι τιμές εξαρτώνται άμεσα από τις τιμές της πρώτης. Τέτοια εξαρτημένη σχέση καλείται παλινδρόμηση και πιο συγκεκριμένα όταν εμπλέκονται δύο μόνο μεταβλητές έχουμε την απλή παλινδρόμηση. Ο όρος παλινδρόμηση, που πλέον έχει μόνο ιστορική σημασία, οφείλεται στον Fracs Galto και αναφέρεται σε μια μελέτη του αναφορικά με την σχέση ανάμεσα στο ύψος των παιδιών και στο ύψος των γονέων. Ο όρος προήλθε από την παρατήρηση του Galto ότι υπάρχει μια τάση όπου ακραίες ως προς το μέσο τους παρατηρήσεις της ανεξάρτητης τυχαίας μεταβλητής, αντιστοιχούν σε παρατηρήσεις της εξαρτημένης τυχαίας μεταβλητής που δεν είναι το ίδιο ακραίες, αλλά είναι πλησιέστερα προς το μέσο τους. Εναλλακτικά, θα μπορούσε να πει κανείς ότι ακραίες παρατηρήσεις ακολουθούνται από λιγότερο ακραίες παρατηρήσεις, παρατηρήσεις που είναι πλησιέστερες προς το κέντρο ή το μέσο όρο. Λόγω της τάσης αυτής, η παλινδρόμηση χαρακτηρίστηκε από τον Galto ως "παλινδρόμηση προς την μετριότητα". Αυτό κάνει το διάγραμμα σημείων να έχει την μορφή μπάλας του αμερικάνικου ποδοσφαίρου. Συγκεκριμένα, η μελέτη των δεδομένων του Galto κατέληξε πως ασυνήθιστα υψηλοί γονείς τείνουν να έχουν παιδιά χαμηλότερα από τους ίδιους, ενώ ασυνήθιστα χαμηλοί γονείς έχουν συνήθως υψηλότερα παιδιά. Τα μοντέλα παλινδρομήσεως χρησιμοποιούνται ευρέως σήμερα στη διοίκηση των επιχειρήσεων, στην οικονομία, στη μηχανική, στην υγεία, στη βιολογία και στις κοινωνικές επιστήμες. Στη στατιστική, η ανάλυση παλινδρόμησης είναι μια στατιστική διαδικασία για την εκτίμηση των σχέσεων μεταξύ διαφόρων μεταβλητών. Περιέχει πολλές τεχνικές για τη μοντελοποίηση και την ανάλυση των μεταβλητών αυτών, ενώ επικεντρώνεται συνήθως στη σχέση μεταξύ μιας εξαρτημένης και μιας ή περισσότερων ανεξάρτητων μεταβλητών. Κάποια παραδείγματα απλής παλινδρόμησης θα μπορούσαν να είναι η ηλικία και το βάρος ενός παιδιού, τα έσοδα και τα έξοδα μιας οικογένειας, το ύψος των αποδοχών των υπαλλήλων μιας εταιρείας και ο αριθμός των υπαλλήλων κ.α. Είναι ενδιαφέρον λοιπόν να εξεταστούν οι επιδράσεις που κάποιες μεταβλητές ασκούν σε κάποιες άλλες μεταβλητές. Η γραμμική παλινδρόμηση αποτελεί μια στατιστική μέθοδο η οποία αποσκοπεί στον προσδιορισμό ενός μαθηματικού μοντέλου για την περιγραφή,

13 ερμηνεία, πρόβλεψη των τιμών ενός χαρακτηριστικού (μεταβλητής) σε σχέση με τις τιμές ενός πλήθους άλλων χαρακτηριστικών (μεταβλητών). Αρχικά θα ασχοληθούμε με την απλούστερη περίπτωση παλινδρόμησης που είναι η απλή γραμμική παλινδρόμηση, κατά την οποία υπάρχει μία μόνο ανεξάρτητη μεταβλητή Χ και η εξαρτημένη μεταβλητή Υ που μπορεί να προσεγγιστεί ικανοποιητικά από μια γραμμική συνάρτηση του Χ. Το πρώτο βήμα για να πραγματοποιηθεί η μελέτη μας, είναι η κατασκευή ενός μαθηματικού μοντέλου που περιγράφει τη φύση της σχέσης που υφίσταται μεταξύ των υπό μελέτη μεταβλητών. Η διαδικασία δημιουργίας μιας μαθηματικής "εξίσωσης" για την περιγραφή ενός φαινομένου μπορεί να είναι ιδιαίτερα πολύπλοκη. Αυτό οφείλεται στο γεγονός ότι για την κατασκευή του μοντέλου απαιτείται κάποια γνώση της φύσης της σχέσης μεταξύ των μεταβλητών. Η σχέση που συνδέει την εξαρτημένη μεταβλητή με τις ανεξάρτητες είναι στατιστική και όχι συναρτησιακή. Στην στατιστική σχέση, για κάθε τιμή της ανεξάρτητης μεταβλητής υπολογίζεται μια θεωρητική τιμή της εξαρτημένης μεταβλητής, ενώ η πραγματική τιμή της βρίσκεται μέσα σε ένα εύρος τιμών το οποίο περιέχει την θεωρητική τιμή. Στην συναρτησιακή σχέση, δηλαδή σε μια εξίσωση, κάθε τιμή της ανεξάρτητης μεταβλητής δίνει πάντα την ίδια τιμή στην εξαρτημένη μεταβλητή (μορφή Υ=f(Χ)). Ωστόσο, για ευκολία χρησιμοποιούμε τον όρο "εξισώσεις παλινδρόμησης", παρόλο που δεν πρόκειται για εξίσωση, αλλά για στατιστικό μοντέλο. Έστω ότι έχουμε δύο μεταβλητές Χ και Υ. Στα μαθηματικά έχουμε συναρτησιακή σχέση μεταξύ των μεταβλητών της μορφής Υ=f(Χ) ή Y στο γραμμικό υπόδειγμα, επισημαίνοντας ότι ο όρος "γραμμικό" για τον χαρακτηρισμό του υποδείγματος αναφέρεται στις παραμέτρους και όχι στις μεταβλητές. Όλα τα μοντέλα της μορφής αυτής είναι παραδείγματα ντετερμινιστικών μοντέλων. Η ονομασία οφείλεται στο γεγονός ότι οι εξισώσεις τέτοιας μορφής επιτρέπουν τον καθορισμό της τιμής της εξαρτημένης μεταβλητής από την τιμή της ανεξάρτητης μεταβλητής, με εξαίρεση μικρά λάθη μετρήσεων. Στην πράξη όμως τα πράγματα δεν είναι πάντα ιδεώδη, είναι δηλαδή σχεδόν απίθανο να έχουμε δύο μεγέθη που να έχουν μια τέλεια γραμμική σχέση. Είναι δύσκολο για παράδειγμα να πιστέψουμε ότι μπορούμε να καθορίσουμε την τιμή πώλησης ενός διαμερίσματος με βάση αποκλειστικά το μέγεθος του. Είναι βέβαια 3

14 αναμφίβολο ότι το μέγεθος του διαμερίσματος επηρεάζει την τιμή του, υπάρχουν όμως και άλλες μεταβλητές (μερικές από τις οποίες μπορεί να μην είναι καν μετρήσιμες) που επίσης επηρεάζουν την τιμή του. Έπειτα, η ανθρώπινη συμπεριφορά είναι κατά κάποιο τρόπο αστάθμητη, οπότε και αν ακόμα μπορούσαμε να συμπεριλάβουμε όλους τους παράγοντες που επηρεάζουν μια δεδομένη μεταβλητή, πάλι θα υπήρχαν ατομικές διαφορές. Τέλος δεν θα μπορούσαν να παραληφθούν τα σφάλματα μετρήσεως των μεταβλητών. Τα σφάλματα μετρήσεως είναι αναπόφευκτα, επομένως ακόμα και αν η θεωρητική σχέση ανάμεσα στις μεταβλητές είναι ακριβής, πάλι θα υπάρχουν αποκλίσεις από τη θεωρητική σχέση, που θα οφείλονται στην ύπαρξη λαθών στην μέτρηση των τιμών των μεταβλητών. Στις περισσότερες επομένως περιπτώσεις που αναφέρονται σε πρακτικά προβλήματα, πρέπει να χρησιμοποιηθούν μοντέλα που να περικλείουν το στοιχείο της τυχαιότητας, στοιχείο που είναι μέρος της καθημερινής ζωής. Τέτοια μοντέλα ονομάζονται μοντέλα πιθανότητας. Προκειμένου να κατασκευάσουμε ένα μοντέλο πιθανότητας, ξεκινάμε με ένα ντετερμινιστικό μοντέλο που προσεγγίζει ικανοποιητικά τη σχέση την οποία θέλουμε να μελετήσουμε. Στην συνέχεια, προσθέτουμε ένα τυχαίο όρο που μετρά τις αποκλίσεις (τα λάθη) του ντετερμινιστικού όρου προσθέτοντας τον παράγοντα της στοχαστικότητας. Ο τυχαίος αυτός όρος αναφέρεται σε όλες τις μεταβλητές, μετρήσιμες ή μη μετρήσιμες, που δεν είναι μέρος του μοντέλου. Γενικά, μπορούμε να πούμε ότι μια οικονομική σχέση αποτελείται από δύο μέρη: το συστηματικό μέρος, δηλαδή η ντετερμινιστική ή ακριβής σχέση, και το μη συστηματικό μέρος, που αποτελεί την "γέφυρα" ανάμεσα στο συστηματικό μέρος της οικονομικής θεωρίας και στα πραγματικά δεδομένα της οικονομικής ζωής. Έτσι λοιπόν καταλήγουμε στο ακόλουθο γραμμικό στοχαστικό πρότυπο: Y, =,,..., (.) όπου είναι το μέγεθος δείγματος, Y και είναι οι τιμές των μεταβλητών Υ, Χ αντίστοιχα και τα τυχαία σφάλματα που ονομάζονται και διαταρακτικοί όροι ακριβώς επειδή διαταράσσουν την προσδιοριστική σχέση που υπάρχει ανάμεσα στις τιμές των μεταβλητών Υ και Χ και αποτελούν τις τιμές της μεταβλητής ε. Οι 0 και είναι άγνωστες, αλλά σταθερές πληθυσμιακές παράμετροι και αποτελούν τους συντελεστές παλινδρόμησης. Αν θέλουμε να δώσουμε την ερμηνεία τους, θα μπορούσαμε να πούμε ότι η παράμετρος 0 4

15 είναι το σημείο που η ευθεία τέμνει τον άξονα των Υ, δηλαδή αντιστοιχεί στην αναμενόμενη τιμή του Υ για Χ=0 και για αυτό ονομάζεται διαφορά ύψους (tercept). H παράμετρος είναι η κλίση (slope) της ευθείας και αντιπροσωπεύει την μεταβολή (αύξηση ή μείωση) στην αναμενόμενη τιμή της Υ που αντιστοιχεί σε μεταβολή της Χ κατά μία μονάδα.τα παραπάνω γίνονται περισσότερο κατανοητά με την βοήθεια της εικόνας (.). Εικόνα. Βέβαια, η σχέση (.) αναφέρεται σε παρατηρήσεις του πληθυσμού. Στην πράξη δεν είναι γνωστές όλες αυτές οι τιμές των μεταβλητών. Χρησιμοποιούμε λοιπόν ένα δείγμα τιμών του πληθυσμού, και κάνουμε εκτίμηση της σχέσης (.) με το πρότυπο Y b0 b e, =,,...,.. Βασικές υποθέσεις Για την εκτίμηση της σχέσης (.), έχουμε ένα δείγμα με ζεύγη παρατηρήσεων (Υ, Χ), αλλά δεν έχουμε παρατηρήσεις για τον διαταρακτικό όρο ε, πράγμα που σημαίνει ότι θα πρέπει να κάνουμε ορισμένες υποθέσεις σχετικά με την συμπεριφορά του. Για να είναι το υπόδειγμα πλήρως εξειδικευμένο, απαιτείται όχι μόνο καθορισμός της μαθηματικής μορφής της σχέσεως που συνδέει την εξαρτημένη με την ανεξάρτητη μεταβλητή, αλλά επίσης και η εξειδίκευση της κατανομής της τυχαίας μεταβλητής. 5

16 Μια ολοκληρωμένη εξειδίκευση του υποδείγματος της παραπάνω γραμμικής σχέσεως ανάμεσα στην Υ και στη Χ, περιγράφεται από τις ακόλουθες υποθέσεις:. Η είναι τυχαία μεταβλητή που παίρνει θετικές και αρνητικές τιμές, αλλά κατά μέσο όρο η τιμή της είναι μηδέν, με κανονική κατανομή N 0,.. E 0, έχει δηλαδή μηδενική μέση τιμή. V 3.. Πρόκειται για την ιδιότητα της ομοσκεδαστικότητας, που σημαίνει ότι η διακύμανση του διαταρακτικού όρου παραμένει σταθερή. Δηλαδή η διακύμανση της τυχαίας μεταβλητής δεν αλλάζει όταν μεταβάλλεται η τιμή της 4. j, αλλά παραμένει η ίδια. Cov, 0, για j. Από εδώ μπορούμε να συμπεράνουμε ότι: Cov, 0 E E E 0 E 0. j j j j Όσον αφορά την μεταβλητή Χ, δεν είναι στοχαστική. Οι τιμές της παραμένουν σταθερές και δεν είναι όλες ίσες μεταξύ τους. Επομένως, αν υποθέσουμε ότι παίρνουμε ένα μεγάλο αριθμό δειγμάτων για τις Υ και Χ μεγέθους, οι τιμές της Χ δεν μεταβάλλονται από δείγμα σε δείγμα, αλλά παραμένουν σταθερές. Οι τιμές όμως που παίρνει ο διαταρακτικός όρος μεταβάλλονται, όπως επίσης μεταβάλλονται και οι τιμές της εξαρτημένης μεταβλητής. Ερχόμαστε τώρα να δούμε τι γίνεται με την μεταβλητή Υ. Λόγω της σχέσης (.), η Υ ως συνάρτηση της τυχαίας μεταβλητής ε είναι επίσης τυχαία μεταβλητή. Μάλιστα, ισχύει πως ως γραμμικός συνδυασμός ανεξάρτητων και ισόνομων τυχαίων μεταβλητών ακολουθεί επίσης κανονική κατανομή. Για την εύρεση της μέσης τιμής και της διακύμανσης της Υ έχουμε: E Y E E E που προκύπτει από την δεύτερη υπόθεση παραπάνω, αλλά και από το γεγονός ότι οι 0 είναι άγνωστες μεν αλλά σταθερές παράμετροι και οι είναι τιμές της ανεξάρτητης μεταβλητής Χ, άρα είναι σταθερές τιμές. 6

17 V Y E Y E Y 0 0 E E 0 0 E E V E V χρησιμοποιώντας τον ορισμό της διακυμάνσεως, αλλά και τις υποθέσεις παραπάνω. Έτσι, καταλήγουμε πως Y N 0,. Η υπόθεση της ομοσκεδαστικότητας απαιτεί ότι η μεταβλητότητα γύρω από την γραμμή παλινδρόμησης είναι σταθερή για όλες τις τιμές του Χ. Αυτό σημαίνει ότι η Υ αποκλίνει με τον ίδιο τρόπο όταν η Χ έχει μικρή τιμή, όπως όταν η Χ έχει μια υψηλή τιμή (βλέπε εικόνα.). E Y Η 0 Εικόνα. ονομάζεται πληθυσμιακή γραμμή παλινδρομήσεως. Δηλαδή η γραμμή παλινδρομήσεως στον πληθυσμό, είναι η σχέση που υπάρχει ανάμεσα στους μέσους της εξαρτημένης μεταβλητής Υ και στις αντίστοιχες τιμές της ανεξάρτητης μεταβλητής Χ. 7

18 .3 Μέθοδοι εκτίμησης παραμέτρων Η γραμμή παλινδρομήσεως στον πληθυσμό είναι άγνωστη εφόσον δεν γνωρίζουμε τις τιμές των παραμέτρων 0. Αν γνωρίζαμε όλες τις δυνατές τιμές που παίρνει η Υ για δύο τουλάχιστον τιμές της Χ, θα μπορούσαμε να υπολογίσουμε τις τιμές των παραμέτρων 0 και, αφού σε αυτήν την περίπτωση θα γνωρίζαμε δύο σημεία από τα οποία διέρχεται η γραμμή παλινδρομήσεως. Εφόσον όμως αυτό είναι αδύνατο, εκτιμάμε τις τιμές των συντελεστών 0 και από δείγμα παρατηρήσεων για τις μεταβλητές Υ και Χ. Έτσι, κάνουμε μια εκτίμηση της πληθυσμιακής γραμμής παλινδρομήσεως από την δειγματική εξίσωση παλινδρομήσεως Y b0 b, όπου τα εκτιμώμενα (προβλεπόμενα) λάθη καλούνται υπόλοιπα και ισχύει ότι: e Y Y. Με την γραμμή παλινδρομήσεως του δείγματος, προσπαθούμε να ερμηνεύσουμε τη μεταβλητότητα της Υ που εξηγείται από τις μεταβολές στην τιμή της Χ. Από την άποψη αυτή, η μεταβλητή Χ είναι η ερμηνευτική μεταβλητή, ενώ η μεταβλητή Υ είναι η ερμηνευόμενη μεταβλητή..3. Η μέθοδος των ελαχίστων τετραγώνων Ο αριθμός των εκτιμητών για μια άγνωστη παράμετρο του πληθυσμού, στην προκειμένη περίπτωση οι συντελεστές 0 και που μπορούμε να έχουμε από ένα δείγμα, είναι στην ουσία άπειρος. Αυτό σημαίνει πως μπορούμε να κατασκευάσουμε άπειρες γραμμές παλινδρομήσεως όταν έχουμε ένα δείγμα από ζεύγη παρατηρήσεων για τις μεταβλητές Υ και Χ. Με την μέθοδο των ελαχίστων τετραγώνων, όπως το όνομα φανερώνει, επιλέγουμε εκείνη τη γραμμή για την οποία το άθροισμα των τετραγώνων των αποκλίσεων (καταλοίπων) των παρατηρήσεων της Υ από την γραμμή παλινδρομήσεως του δείγματος είναι ελάχιστο. Για τον σκοπό αυτό, θα αναζητήσουμε τις τιμές των 0 και για τις οποίες ελαχιστοποιείται το άθροισμα των τετραγώνων των, δηλαδή η ποσότητα: 0. Q Y 8

19 Ορίζουμε τις μερικές παραγώγους της σχέσης αυτής, οπότε: Q Y 0 Q 0 Y 0 Θέτοντας κάθε μια από τις μερικές παραγώγους ίσες με το μηδέν, οι κανονικές εξισώσεις για το μοντέλο απλής γραμμικής παλινδρόμησης απλοποιούνται στην μορφή: Y b0 b και Y b0 b Σημειώνουμε ότι οι παράμετροι 0 και αντικαθίστανται από τις παραμέτρους b 0 και b αντίστοιχα, καθώς οι τιμές είναι εκτιμητές των άλλοτε κανονικών εξισώσεων που ορίσαμε να θέτονται ίσες με μηδέν. Από την πρώτη εξίσωση λύνουμε ως προς b 0, οπότε: Y b b 0 Y b b 0 Y b b 0 b Y b. 0 Στην επίλυση ως προς b, δύο ποσότητες εμφανίζονται και απαιτούν απλούστευση. Η πρώτη ποσότητα είναι: 9

20 Y. Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y. Η δεύτερη ποσότητα που χρειάζεται να απλοποιηθεί είναι η:.. 0

21 Έχοντας αυτές τις δύο εκφράσεις, η παράμετρος b μπορεί να βρεθεί χρησιμοποιώντας την δεύτερη κανονική εξίσωση, όπου: Y b0 b Y Y b b Y Y b b Y Y b b Y Y b b Y Y. Έπειτα, αφού οι b 0 και b έχουν βρεθεί, πρέπει να δείξουμε ότι αυτές οι τιμές θα μας δώσουν μια ελάχιστη τιμή για το άθροισμα ελαχίστων τετραγώνων. Απόδειξη: Αν ο πίνακας των μερικών παραγώγων της ποσότητας Q που ορίσαμε παραπάνω είναι θετικά ορισμένος, τότε οι τιμές b 0 και b δίνουν την ελάχιστη τιμή της ποσότητας Q. Οι δεύτερες μερικές παράγωγοι είναι:

22 Q Q 0 Q 0 Ο μερικός πίνακας λοιπόν προκύπτει να είναι: Η ορίζουσα αυτού του πίνακα είναι. Πρέπει να 4 4 δειχθεί ότι η ποσότητα αυτή είναι πάντα θετική, ώστε να αποδειχθεί πως οι εκτιμητές b 0 και b που υπολογίσαμε παρέχουν την μικρότερη τιμή για την ποσότητα Q. Σημειώνουμε ότι το μέγεθος δείγματος είναι μεγαλύτερο του μηδενός. Ισχύει ότι: 0, ως άθροισμα τετραγώνων. Όμως: Επομένως:

23 Συνεπώς, οι ποσότητες b 0 και b που υπολογίσαμε, όντως δίνουν την μικρότερη τιμή για την ποσότητα Q..3. Η μέθοδος της μέγιστης πιθανοφάνειας Στο κλασικό κανονικό γραμμικό υπόδειγμα, οι διαραρακτικοί όροι για,,..., είναι ανεξάρτητες τυχαίες μεταβλητές που ακολουθούν την κανονική κατανομή με μέσο το μηδέν και σταθερή διακύμανση. Επομένως, η συνάρτηση πυκνότητας πιθανότητας του διαταρακτικού όρου είναι: f e 0 Συνεπώς, η συνάρτηση πιθανοφάνειας του δείγματος είναι: L e e. Αντικαθιστώντας όμως την σχέση (.) στην συνάρτηση πιθανοφάνειας παραπάνω, έχουμε την συνάρτηση πιθανοφάνειας των παρατηρήσεων Y του δείγματος: L e Y0. Αντί να χρησιμοποιήσουμε αυτήν την μορφή της συνάρτησης L, χρησιμοποιούμε τον λογάριθμό της και στην συνέχεια για να βρούμε τις τιμές των παραμέτρων 0 και που μεγιστοποιούν την νέα σχέση που προκύπτει, βρίσκουμε τις μερικές παραγώγους και τις εξισώνουμε με το μηδέν. Έχουμε λοιπόν ότι: log L log log Y 0 3

24 0 log L Y Y b0 b log L Y 0 0 Y b b 0 0 Παρατηρούμε ότι προκύπτουν οι ίδιες κανονικές εξισώσεις όπως με την μέθοδο των ελαχίστων τετραγώνων. Άλλωστε μεγιστοποίηση της λογαριθμικής σχέσης ως προς 0 και, σημαίνει ελαχιστοποίηση του αθροίσματος των Y 0. τετραγώνων των αποκλίσεων.4 Ιδιότητες των εκτιμητών Σύμφωνα με το θεώρημα των Gauss-Markov, για το κλασικό γραμμικό υπόδειγμα, οι εκτιμητές που προκύπτουν από τη μέθοδο των ελαχίστων τετραγώνων είναι άριστοι, γραμμικοί και αμερόληπτοι εκτιμητές. Θεώρημα.4: (Θεώρημα των Gauss-Markov) Για το απλό γραμμικό μοντέλο, οι εκτιμήτριες ελαχίστων τετραγώνων b 0 και b είναι: Απόδειξη:. γραμμικές συναρτήσεις των παρατηρήσεων της εξαρτημένης μεταβλητής Υ,. αμερόληπτες, 3. μεταξύ όλων των γραμμικών αμερόληπτων εκτιμητών, έχουν την μικρότερη διακύμανση.. Έχουμε δείξει ότι Y Y b, όμως: Y Y Y Y 4

25 Y Y Y Επομένως, Y Y b k Y, με k. Επειδή τα είναι γνωστές σταθερές και τα k θα είναι γνωστές σταθερές, και άρα το b είναι γραμμικός συνδυασμός των Y. Επίσης, b0 Y b Y ky k Y Y γραμμικός συνδυασμός των Y, με είναι k. Για την συνέχεια της απόδειξης, θα χρειαστούμε κάποιες επιπλέον ιδιότητες των k και. Ξεκινώντας με τα k, έχουμε: k 0 k k Ανάλογα, για τις ιδιότητες των έχουμε: 5

26 k k 0 0 k k k k k. Για την αμεροληψία των εκτιμητών b 0 και b, αρκεί να δείξουμε ότι Eb ( 0) 0 και Eb ( ) αντίστοιχα. E( b ) E k Y k E Y Εντελώς ανάλογα έχουμε ότι: k 0 0 k k. E b0 E Y E Y Σε αυτό το σημείο θα μπορούσαμε να ορίσουμε και την κατανομή των παραμέτρων b 0 και b. Δείξαμε ότι οι b0, b είναι γραμμικές συναρτήσεις των παρατηρήσεων Y που ακολουθούν κανονική κατανομή και είναι ανεξάρτητες μεταξύ τους. Επομένως, οι b 0 και b ακολουθούν κανονική κατανομή με μέσες τιμές Eb 0 και Eb αντίστοιχα. Όσο για τις διασπορές έχουμε ότι: V b V k Y k k Cov Y Y j j, j και λόγω ανεξαρτησίας των τιμών των παρατηρήσεων Y, 6

27 Ανάλογα, k V Y k V b V Y Cov Y Y j 0 j, j Συνοπτικά έχουμε ότι: b N, VY, Για την συνδιασπορά των δύο εκτιμητών ισχύει ότι: b 0 N0, Cov b b Cov k Y Y k Cov Y Y j, 0, j, j και λόγω ανεξαρτησίας των τιμών των παρατηρήσεων Y, k V Y k k k. k k. 3. Έστω ότι όλοι οι αμερόληπτοι εκτιμητές του που είναι γραμμικές συναρτήσεις των Y, είναι της μορφής: cy, όπου c αυθαίρετες σταθερές. Επειδή έχουμε αμεροληψία: E E cy c 0 7

28 c c 0. Συνεπώς, πρέπει c 0 και c. Η διασπορά του είναι: V V cy c V Y c c, αφού Cov Y, Y 0 για κάθε j. j Έστω ότι τα c έχουν τη μορφή c k d, όπου τα k είναι όπως ορίστηκαν στον εκτιμητή b ky και τα d είναι αυθαίρετες σταθερές. Τότε: V c k d k d kd k d kd Έχουμε, k 0 και c k d 0 d 0, k και c k d d 0. Όμως, k d d d d 0, οπότε. V V b d Η ποσότητα d ελαχιστοποιείται για d 0. Άρα η διασπορά του είναι ελάχιστη όταν d 0 d 0, δηλαδή c k,. Συνεπώς η εκτιμήτρια των ελαχίστων τετραγώνων b έχει την ελάχιστη διασπορά μεταξύ των αμερόληπτων εκτιμητών. 8

29 Ανάλογα, για την περίπτωση του εκτιμητή b 0, θεωρούμε τον εκτιμητή 0 που είναι της μορφής 0 Y. Ισχύει λοιπόν ότι: E 0 E Y E Y δηλαδή ο εκτιμητής 0 είναι αμερόληπτος. E Y E 0 0, Εναλλακτικά, έστω ότι όλοι οι αμερόληπτοι εκτιμητές του 0 που είναι γραμμικές συναρτήσεις των Y, είναι της μορφής: όπου 0 wy, w αυθαίρετες σταθερές. Επειδή έχουμε αμεροληψία: E E wy w w w 0 0. Συνεπώς, πρέπει w και w 0. Η διασπορά του 0 είναι: V 0 V wy w V Y w w, αφού Cov Y, Y 0 για κάθε j. j 9

30 Έστω ότι τα w έχουν τη μορφή w d, όπου τα είναι όπως ορίστηκαν στον εκτιμητή b0 Y και τα d είναι αυθαίρετες σταθερές. Συνεπώς: V 0 w d d d d d Έχουμε, και w d d d d 0, 0 και w d 0 d 0 d 0. Όμως, d k d d dk, οπότε 0. V 0 V b0 d Η ποσότητα d ελαχιστοποιείται για d 0. Άρα η διασπορά του 0 είναι ελάχιστη όταν d 0 d 0, δηλαδή w,. Συνεπώς η εκτιμήτρια των ελαχίστων τετραγώνων b 0 έχει την ελάχιστη διασπορά μεταξύ των αμερόληπτων εκτιμητών..5 Ιδιότητες της γραμμής παλινδρομήσεως ιδιότητες: Η γραμμή παλινδρομήσεως του δείγματος Y b0 b, έχει τις ακόλουθες 30

31 . Η γραμμή παλινδρομήσεως του δείγματος περνάει από το σημείο που ορίζεται από το μέσο των Υ και Χ. Αυτό αποδεικνύεται ως εξής: Y 0 Y 0 Y 0 Y * 0 Όμως η ποσότητα * 0 0, εκτιμάται από την ποσότητα * b0 b0 b Y b b Y. Επομένως, η εκτίμηση * Y b0 b Y Y, για. Άρα η δειγματική εξίσωση παλινδρόμησης διέρχεται από το Y,.. Το άθροισμα των εκτιμώμενων καταλοίπων είναι μηδέν, δηλαδή: e 0. Για την απόδειξη έχουμε: e Y Y e Y b b 0 e Y b b 0, λόγω της πρώτης από τις κανονικές e Y b b 0 0 εξισώσεις. 3. Το άθροισμα των τιμών της Υ από το δείγμα, είναι ίσο με το άθροισμα των τιμών που υπολογίζουμε από την παλινδρόμηση, δηλαδή: 3

32 Y Y. Για την απόδειξη, έχουμε: e Y Y e Y Y Y Y 0 Y Y, με την χρήση της παραπάνω ιδιότητας. 4. Το άθροισμα των γινομένων των τιμών της Χ και των καταλοίπων είναι μηδέν, δηλαδή: e 0. Για την απόδειξη έχουμε: e Y b 0 b Y b b 0 0, λόγω της δεύτερης από τις κανονικές εξισώσεις ισορροπίας. 5. Το άθροισμα των γινομένων των καταλοίπων και των τιμών της Υ που υπολογίζουμε από την παλινδρόμηση του δείγματος είναι μηδέν, δηλαδή: Ye 0. Για την απόδειξη της παραπάνω σχέσεως έχουμε ότι: Y e b b e b e b e 0 0 0, με χρήση των ιδιοτήτων της δειγματικής γραμμής παλινδρομήσεως και 4. 3

33 .6 Ανάλυση διασποράς Στην ανάλυση παλινδρόμησης, αντικείμενο ερμηνείας είναι η εξαρτημένη μεταβλητή Υ. Σε όρους στατιστικής ανάλυσης αυτό σημαίνει ότι επιδιώκουμε να ερμηνεύσουμε τη διασπορά της Υ, δηλαδή τη διαφοροποίηση των τιμών της Υ γύρω από τον αριθμητικό μέσο. Επειδή όπως εξηγήθηκε παραπάνω το μοντέλο της παλινδρόμησης δεν μπορεί να περιλάβει όλες τις ανεξάρτητες μεταβλητές οι οποίες θα εξηγούσαν πλήρως τη μεταβλητότητα των τιμών της Υ, η διασπορά της Υ μπορεί να διαιρεθεί σε δύο τμήματα, το ερμηνευόμενο και το μη ερμηνευόμενο τμήμα. Η συνολική απόκλιση μέρη: Y Y, μπορεί να αναλυθεί σε δύο. Την απόκλιση των τιμών Y από το μέσο Y.. Την απόκλιση των τιμών Y από την γραμμή παλινδρομήσεως. Δηλαδή: Y Y Y Y Y Y (.) Τετραγωνίζοντας και τα δύο μέρη της σχέσης (.) και αθροίζοντας από = έως, έχουμε: Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y, διότι: Y Y Y Y Y Y e Y e Y e *0*

34 Τελικά: Y Y Y Y Y Y Ο όρος στα αριστερά της εξίσωσης αντιστοιχεί στη διασπορά της Υ και αποτελεί το συνολικό άθροισμα τετραγώνων (Sum of Squares Total - SST). Ο πρώτος όρος στα δεξιά της εξίσωσης είναι το άθροισμα των τετραγώνων των οφειλόμενων στην παλινδρόμηση (Sum of Squares Regresso - SSR). Ο δεύτερος όρος στα δεξιά της εξίσωσης, είναι το άθροισμα των τετραγώνων των σφαλμάτων (Sum of Squares Error - SSE) και αποτελεί το μη ερμηνευόμενο τμήμα της διασποράς, το οποίο ελαχιστοποιήσαμε παραπάνω με την μέθοδο των ελαχίστων τετραγώνων. Οι βαθμοί ελευθερίας για το SST χωρίζονται στους βαθμούς ελευθερίας για το SSR και στους βαθμούς ελευθερίας για το SSE, όπως το συνολικό άθροισμα τετραγώνων SST χωρίζεται στις ποσότητες SSR και SSE. Υπάρχουν - βαθμοί ελευθερίας που σχετίζονται με την ποσότητα SST. Ένας βαθμός ελευθερίας χάνεται καθώς οι αποκλίσεις Y Y υπόκεινται στον περιορισμό ότι Y Y πρέπει να ισούται με μηδέν, όπως κάνει πάντα. Άλλη εξήγηση είναι ότι ένας βαθμός ελευθερίας χάνεται καθώς η μέση τιμή την εκτίμηση του πληθυσμιακού μέσου μ. Y χρησιμοποιείται για Η ποσότητα SSE έχει - βαθμούς ελευθερίας. Δύο βαθμοί ελευθερίας χάνονται, καθώς οι δύο παράμετροι 0 και εκτιμώνται από τις τιμές Y. Υπάρχουν δύο βαθμοί ελευθερίας που σχετίζονται με την εκτίμηση της γραμμής παλινδρομήσεως, μία για το σημείο που η ευθεία τέμνει τον άξονα των Υ και μία για την κλίση. Όπως αναφέραμε, ένας βαθμός ελευθερίας χάνεται καθώς η ποσότητα Y Y πρέπει να ισούται με το μηδέν από την 3η ιδιότητα της γραμμής παλινδρομήσεως που ορίσαμε παραπάνω. Κατά συνέπεια η ποσότητα SSR στο μοντέλο απλής γραμμικής παλινδρόμησης έχει έναν βαθμό ελευθερίας. 34

35 Μια άλλη μορφή και επομένως ένας άλλος τρόπος υπολογισμού της ποσότητας SSR είναι: 0 0 SSR Y Y b b b b b0 b b0 b b. b Όταν το άθροισμα τετραγώνων διαιρείται με τους βαθμούς ελευθερίας του, το αποτέλεσμα καλείται μέσο τετράγωνο (mea square) και συμβολίζεται με MS. Ειδικότερα: SSR SSE MSR και MSE. Παρομοίως, αν υπολογίζαμε ένα μέσο του συνολικού αθροίσματος τετραγώνων, θα ήταν: SST MST Y Y που αποτελεί την γνωστή εκτιμήτρια της διασποράς του δείγματος τιμών Y. Για τα μέσα τετράγωνα, σε αντίθεση με τα αθροίσματα τετραγώνων: MST MSR MSE. Ο πίνακας ανάλυσης διασποράς παρουσιάζεται παρακάτω: 35

36 Πηγή Μεταβλητότητας Παλινδρόμηση (Regresso) Υπόλοιπα (Error) Άθροισμα Τετραγώνων SSR Y Y SSE Y Y Σύνολο (Total) SST Y Y Βαθμοί Ελευθερίας Μέσο άθροισμα Τετραγώνων SSR MSR - SSE MSE s - Έλεγχος F MSR F MSE.7 Συντελεστής προσδιορισμού Το άθροισμα τετραγώνων που οφείλεται σε σφάλματα (SSE), μπορεί να ερμηνευθεί ως η ποσότητα μεταβλητότητας της Y που μένει ανερμήνευτη από το γραμμικό μοντέλο και ισχύει ότι SSE SST, με την ισότητα να ισχύει όταν δεν υπάρχουν σφάλματα, δηλαδή όταν το μοντέλο μας περιγράφει με ακρίβεια την πληθυσμιακή εξίσωση παλινδρόμησης. Η αναλογία της συνολικής διασποράς η οποία ερμηνεύεται από την παλινδρόμηση, ονομάζεται συντελεστής προσδιορισμού (coeffcet of determato). Το μέτρο αυτό συμβολίζεται με R και εκφράζει το ποσοστό της διασποράς της εξαρτημένης μεταβλητής Υ που ερμηνεύεται από την ανεξάρτητη μεταβλητή Χ. Δηλαδή: R Y Y SSR SSE. SST SST Y Y Η τιμή του συντελεστή προσδιορισμού R κυμαίνεται από 0 έως. Αν το R είναι κοντά στο, το μοντέλο της παλινδρόμησης έχει μεγάλη δυνατότητα ερμηνείας της εξαρτημένης μεταβλητής και τα σφάλματα είναι μικρά. Αντίθετα τιμές του R κοντά στο 0, δείχνουν ότι δεν είναι επιτυχές το μοντέλο της παλινδρόμησης για την ερμηνεία της εξαρτημένης μεταβλητής. Ο συντελεστής προσδιορισμού παράγει αξιόπιστα αποτελέσματα όταν ο αριθμός των παρατηρήσεων είναι σημαντικά υψηλότερος από τον αριθμό των μεταβλητών. Μπορούμε όμως να υπολογίζουμε και την ποσότητα - R που εκφράζει το 36

37 ποσοστό της συνολικής μεταβλητότητας που οφείλεται σε σφάλματα, ανάλογα με το τι είναι αυτό που θέλουμε να μελετήσουμε. Ο συντελεστής προσδιορισμού αποτελεί σημειακή εκτίμηση (όχι αμερόληπτη) του πληθυσμιακού συντελεστή προσδιορισμού και τείνει να τον υπερεκτιμά (θετικά ασύμμετρη η κατανομή του όταν το δείγμα είναι μικρό). Ως μέτρο του βαθμού συσχετίσεως δύο τυχαίων μεταβλητών, χρησιμοποιείται ο συντελεστής συσχετίσεως ρ που ορίζεται ως το κλάσμα με αριθμητή την συνδιακύμανση των Χ και Υ, και παρανομαστή το γινόμενο των τυπικών αποκλίσεων των Χ και Υ. Ο συντελεστής ρ είναι μια άγνωστη παράμετρος του πληθυσμού, δηλαδή αναφέρεται σε μια παράμετρο της συνδυασμένης κατανομής των Χ και Υ. Ως εκτιμητής του ρ χρησιμοποιείται ο συντελεστής συσχετίσεως του δείγματος, που ορίζεται ως: r Y Y Y Y Ισχύει ότι r R, ωστόσο υπάρχει μεγάλη διαφορά στην ερμηνεία τους. Ο συντελεστής συσχετίσεως του δείγματος r είναι ένας εκτιμητής του συντελεστή συσχετίσεως στον πληθυσμό ρ και δεν εξαρτάται από τις μονάδες μέτρησης των Χ και Υ από την αρχή μέτρησης επάνω στους άξονες, είναι καθαρός αριθμός. Ισχύει ότι r με την τιμή - να σημαίνει ότι έχουμε πλήρη αρνητική γραμμική συσχέτιση και αντίστοιχα το + ότι έχουμε πλήρη θετική γραμμική συσχέτιση. Όταν r η σχέση είναι αιτιοκρατική κι όχι πιθανοκρατική, γιατί γνωρίζοντας την τιμή της μιας τυχαίας μεταβλητής, γνωρίζουμε και την τιμή της άλλης τυχαίας μεταβλητής ακριβώς. Η μηδενική τιμή του συντελεστή συσχετίσεως μας δείχνει ότι δεν υπάρχει γραμμική συσχέτιση. Επίσης το ρ είναι μια άγνωστη παράμετρος της συνδυασμένης κατανομής δύο τυχαίων μεταβλητών, ενώ ο συντελεστής προσδιορισμού αναφέρεται στην αναλογία της μεταβλητότητας της Υ που ερμηνεύει η μεταβλητή Χ, η οποία υποθέτουμε ότι δεν είναι τυχαία μεταβλητή. Επιπλέον, ο συντελεστής συσχετίσεως του δείγματος είναι μέτρο μόνο της γραμμικής συσχετίσεως ή εξαρτήσεως δύο μεταβλητών. Λόγω των ανωτέρω περιορισμών, καθώς και άλλων, η ανάλυση συσχετίσεως έχει περιορισμένη χρήση στην ανάλυση των οικονομικών δεδομένων. 37

38 .8 Εκτιμητής της διακυμάνσεως σ Οι διακυμάνσεις των συντελεστών b 0 και b, είναι όπως είδαμε συναρτήσεις της άγνωστης διακυμάνσεως του διαταρακτικού όρου ε. Επομένως, για να εκτιμήσουμε τις διακυμάνσεις των συντελεστών που είναι απαραίτητες για την εφαρμογή των στατιστικών κριτηρίων, θα πρέπει να έχουμε μια εκτίμηση για την διακύμανση. Γνωρίζουμε ότι η διακύμανση δειγματική διακύμανση ενός πληθυσμού, εκτιμάται από την s. Για τον υπολογισμό της δειγματικής διακύμανσης, θεωρούμε την απόκλιση των παρατηρήσεων Y από την αναμενόμενη μέση τιμή Y τετραγωνίζοντας την και έπειτα παίρνουμε το άθροισμα όλων των τιμών των αποκλίσεων: Y Y. Ένα τέτοιο άθροισμα καλείται άθροισμα τετραγώνων. Στην συνέχεια, διαιρούμε το άθροισμα τετραγώνων με τους βαθμούς ελευθερίας που του αντιστοιχούν. Ο βαθμός ελευθερίας είναι -, με τον ένα βαθμό ελευθερίας να χάνεται λόγω του ότι χρησιμοποιούμε την Y ως εκτιμητή του άγνωστου πληθυσμιακού μέσου μ. Έτσι προκύπτει πως η δειγματική διακύμανση ισούται με: s Y Y. Η ποσότητα αυτή, αποτελεί εκτιμητή της πληθυσμιακής διασποράς. Η δειγματική διακύμανση συχνά καλείται μέσο τετραγώνων, λόγω του αθροίσματος τετραγώνων που διαιρείται με τον ανάλογο αριθμό βαθμών ελευθερίας. Η διακύμανση των παρατηρήσεων Y είναι ίδια με αυτήν των σφαλμάτων. Χρειαζόμαστε να υπολογίσουμε το άθροισμα των τετραγώνων των αποκλίσεων, όμως πρέπει να αναγνωρίσουμε πως οι τιμές Y προέρχονται από διαφορετικές κατανομές πιθανότητας, με διαφορετικές μέσες τιμές που 38

39 εξαρτώνται από τις τιμές των. Έτσι, οι αποκλίσεις των παρατηρήσεων Y πρέπει να υπολογιστούν γύρω από τους δικούς τους εκτιμώμενους μέσους Συνεπώς οι αποκλίσεις είναι τα κατάλοιπα: Y. Y Y e με το κατάλληλο άθροισμα των τετραγώνων, που συμβολίζεται με SSE, να είναι:. SSE Y Y e Έτσι, μπορεί να δειχθεί ότι η ποσότητα MSE s όπως την ορίσαμε παραπάνω, αποτελεί αμερόληπτο εκτιμητή της διακυμάνσεως ισούται με την θετική ρίζα του MSE., με την τυπική απόκλιση να e SSE E MSE E E. Σε αυτό το σημείο μπορούμε να δείξουμε ότι: SSR E MSR E E b E b V b E b 39

40 ..9 Έλεγχος του υποδείγματος.9. Έλεγχος υποθέσεων για τους συντελεστές b 0 και b Στην συνέχεια θα αναφερθούμε στους στατιστικούς ελέγχους υποθέσεων που αφορούν τιμές των παραμέτρων παλινδρομήσεως. Έστω λοιπόν ότι θέλουμε να ελέγξουμε την μηδενική υπόθεση H 0, όπου: H : 0 0 με εναλλακτική υπόθεση την H που συνήθως είναι η γενική: H : 0. Σύμφωνα με την κλασική διαδικασία των Neyma και Pearso, ορίζεται μια κρίσιμη περιοχή Κ αποτελούμενη από τιμές της ελεγχοσυνάρτησης Τ (που έχει γνωστή κατανομή υπό την μηδενική υπόθεση) με χαμηλή πιθανότητα υπό την H 0. Το μέγεθος της κρίσιμης περιοχής εκφράζεται από το επίπεδο στατιστικής σημαντικότητας α, όπου: a P T KH P H H ή πιθανότητα σφάλματος τύπου Ι, η οποία για να διατηρηθεί σε χαμηλό επίπεδο επιλέγεται να έχει τιμές 0.05 ή 0.0. Στη συνέχεια υπολογίζεται η τιμή της Τ=t από το διαθέσιμο δείγμα δεδομένων και: αν t K, τότε απορρίπτεται η H 0 διαφορετικά αν t K, αποδεχόμαστε την H 0. 40

41 Συνήθως η μορφή της ελεγχοσυνάρτησης Τ είναι τέτοια ώστε η κρίσιμη περιοχή να αποτελείται από τις ακραίες τιμές της. Αν για παράδειγμα η κατανομή της στατιστική συνάρτησης Τ είναι η t-studet, τότε η κρίσιμη περιοχή παίρνει τη μορφή T t a, όπου: a a a P T t P T t T t a. Τα όρια της κρίσιμης περιοχής, όπως τα ποσοστιαία σημεία t a της κατανομής t, αποκαλούνται κρίσιμες τιμές. Η διαδικασία αυτή ακολουθείται στην στατιστική, στην περίπτωση όπου εκτελούνται πολλοί έλεγχοι μαζί. Όταν όμως εκτελείται ένας έλεγχος, εφαρμόζεται μια παραλλαγή της παραπάνω διαδικασίας ελέγχου. Συγκεκριμένα: υπολογίζεται η τιμή t της ελεγχοσυνάρτησης από το δείγμα, υπολογίζεται η πιθανότητα μιας υποθετικής κρίσιμης περιοχής παίρνοντας κρίσιμες τιμές από την υπολογισμένη t, όπως: p P T t T t, η H 0 απορρίπτεται αν αυτή η p-τιμή κρίνεται μικρή (π.χ. αν p<0.05 ή p<0.0), διαφορετικά την αποδεχόμαστε. Μια ερμηνεία της p-τιμής είναι ότι εκφράζει το μέγεθος της μικρότερης κρίσιμης περιοχής που οδηγεί στην απόρριψη της H 0. Η λογική της απόρριψης της H 0 σε αυτές τις διαδικασίες γίνεται με το σκεπτικό ότι, αν ισχύει η H 0, τότε με μικρή πιθανότητα η δειγματοληψία θα μας έδινε μια τέτοια σχετικά ακραία ή ακόμα πιο ακραία τιμή t. Ωστόσο, όσο πιο μικρή είναι αυτή η πιθανότητα, τόσο πιο εύκολο είναι να πιστέψουμε ότι η H 0 δεν ισχύει και ότι η πραγματική τιμή της παραμέτρου είναι μια άλλη εντός της H, με την οποία η πιθανότητα η δειγματοληψία να δώσει τιμές όπως την τιμή t που παρατηρούμε να μην είναι μικρή. Οι υποθέσεις για τον συντελεστή είναι: : έναντι της : 4

42 4 όπου μια δεδομένη τιμή. Ο έλεγχος βασίζεται στην ελεγχοσυνάρτηση: b t t s. Αυτό συμβαίνει διότι όπως έχουμε ήδη δείξει:, b N. Έτσι, τυποποιώντας έχουμε πως 0, b N b, όπου b το τυπικό σφάλμα της παραμέτρου b. Επίσης, ισχύει ότι: 0 e Y Y Y b b. Επειδή s e, έχουμε ότι s. Τώρα: s s b b οπότε:

43 s b s b και άρα: b s b. Επομένως: b b s b b b sb t. Εντελώς ανάλογα προκύπτει ότι: 0 0 b 0 b s b b 0 b sb t. Τις περισσότερες φορές ελέγχουμε αν 0, δηλαδή εξετάζουμε αν υπάρχει σχέση μεταξύ των μεταβλητών Υ και Χ. Σε κάθε περίπτωση όμως ακολουθείται η συνηθισμένη διαδικασία της στατιστικής συμπερασματολογίας, δηλαδή υπολογίζεται αρχικά η p-τιμή του ελέγχου η οποία δίνεται από την σχέση P t t, όπου t η υπολογισμένη με βάση τα δεδομένα μας τιμή της ελεγχοσυνάρτησης παραπάνω. Όπως έχει αναφερθεί και νωρίτερα, η p-τιμή του ελέγχου είναι η πιθανότητα το στατιστικό κριτήριο να πάρει τιμές πιο ακραίες από εκείνη που παρατηρήθηκε όταν αληθεύει η. Αν η p-τιμή κρίνεται μικρή, τότε απορρίπτεται η μηδενική υπόθεση, αλλιώς γίνεται δεκτή. Το τι αποτελεί μικρή τιμή επαφίεται στην κρίση του αναλυτή, λαμβάνοντας υπόψη τη φύση του προβλήματος που αναλύει. Η συχνότερη επιλογή, αν και δεν υπάρχουν γενικοί κανόνες, είναι να θεωρηθούν τιμές κάτω του 0.05 ως μικρές, ή κάτω του 0.0 όταν εκτελούνται πολλοί έλεγχοι. 43

44 Εναλλακτικά επιλέγουμε ένα επίπεδο σημαντικότητας α, προσδιορίζουμε την αντίστοιχη κρίσιμη περιοχή του ελέγχου και εξετάζουμε αν η τιμή της ελεγχοσυνάρτησης πέφτει μέσα στην κρίσιμη περιοχή ή όχι. Ο υπολογισμός της κρίσιμης περιοχής, γίνεται μέσω του υπολογισμού των ορίων της κατανομής t. Ανάλογα ορίζονται και ο υποθέσεις για τον συντελεστή όπου ελέγχουμε: : έναντι της :, με μια δεδομένη τιμή. Ο έλεγχος αυτός βασίζεται στην ελεγχοσυνάρτηση: t s b 0 t. Όμως ο έλεγχος της υπόθεσης: : έναντι της : 0 μπορεί να γίνει και μέσο του F ελέγχου. Έχουμε δείξει πως: E MSE δηλαδή έχουμε ότι EMSR EMSE και, E MSR, με την ισότητα να ισχύει όταν η παράμετρος ισούται με μηδέν. Όταν όμως 0, οι δειγματικές κατανομές των MSR και MSE βρίσκονται πανομοιότυπα και οι ποσότητες MSR και MSE τείνουν να είναι ίδιας τάξης μεγέθους. Από την άλλη μεριά όταν 0, η μέση τιμή της δειγματικής κατανομής του MSR είναι μεγαλύτερη αφού η ποσότητα βρίσκεται στα δεξιά από αυτήν της MSE. είναι θετική, και 44

45 Αυτό υποδηλώνει ότι η σύγκριση των MSR και MSE είναι χρήσιμη για να ελέγξουμε αν 0 ή όχι. Εάν οι ποσότητες MSR και MSE είναι της ίδιας τάξης μεγέθους, τότε συμπεραίνουμε ότι 0. Διαφορετικά, εάν η ποσότητα MSR είναι χαρακτηριστικά μεγαλύτερη από την ποσότητα MSE, θα συμπεραίνουμε πως 0. Δείξαμε παραπάνω ότι: που σημαίνει ότι: s SSE. Έπειτα, γνωρίζουμε ότι: Y Y Y b0 b SSR. Κατά συνέπεια, η στατιστική συνάρτηση SSR MSR F MSE SSE SSR SSE ακολουθεί F, κατανομή και μπορεί να χρησιμοποιηθεί για να ελέγξουμε τη σημαντικότητα της παλινδρόμησης, δηλαδή της υπόθεσης: : έναντι της : 0. Η μηδενική υπόθεση H 0 απορρίπτεται όταν η p-τιμή του ελέγχου, δηλαδή η P F, F με F την υπολογισμένη τιμή της ελεγχοσυνάρτησης, είναι μικρή. Ουσιαστικά με τον έλεγχο αυτό εξετάζουμε τον ισχυρισμό ότι πράγματι η Y σχετίζεται με την Χ, όπως περιγράφεται από το γραμμικό μοντέλο. Στην περίπτωση του απλού γραμμικού μοντέλου, ο έλεγχος t και ο έλεγχος F είναι ισοδύναμοι για την υπόθεση :. Αποδεικνύεται πως οι δύο θεωρητικές κατανομές έχουν την σχέση: 45

46 F t,, επομένως και οι p-τιμές των δύο ελέγχων θα συμπίπτουν. Η διαφορετική χρησιμότητα των δύο ελέγχων θα φανεί όταν υπάρχουν περισσότερες από μία ανεξάρτητες μεταβλητές στο μοντέλο. Απόδειξη: Αποδεικνύουμε ότι: SSR b b b b b sb MSR MSR F t MSE s s s s, εφόσον ισχύει η μηδενική υπόθεση :. Με s συμβολίζουμε την b δειγματική διασπορά της παραμέτρου b..9. Διαστήματα εμπιστοσύνης για τις παραμέτρους b 0 και b Έχουμε ήδη δείξει ότι: b b s b b b sb t και 0 0 b 0 b s b b 0 b sb t. Η κατασκευή ενός 00(-α)% διαστήματος εμπιστοσύνης για την παράμετρο βασίζεται στην προηγούμενη σχέση και είναι: 46

47 b t s, b t s, a, a, εφόσον b P t, a t, a a. sb Ανάλογα, ένα 00(-α)% διάστημα εμπιστοσύνης για τη παράμετρο είναι το: b t s, b t s 0, a 0, a αφού b0 0 P t, a t, a a. sb0.9.3 Διάστημα εμπιστοσύνης για την προσδοκώμενη τιμή της Υ Ισχύει ότι η Y b0 b είναι γραμμική συνάρτηση των τυχαίων μεταβλητών, που έχουμε υποθέσει ότι κατανέμονται κανονικά και είναι ανεξάρτητα μεταξύ τους. Έπειτα: E Y E b b 0 0 και V Y V b b V b V b Cov b b,

48 48. Επομένως: 0 0, Y Y N. Αντικαθιστούμε την άγνωστη διακύμανση με την αμερόληπτη εκτίμησή της s και τότε: 0 Y Y t s, με Y s s. Το 00(-α)% διάστημα εμπιστοσύνης για την προσδοκώμενη τιμή της Υ, δίνεται από την ακόλουθη σχέση: / / a a Y Y Y t s E Y Y t s. Είναι φανερό ότι όσο απομακρύνεται η από το μέσο, τόσο μεγαλύτερο είναι το τυπικό σφάλμα της Y και επομένως τόσο μεγαλύτερο το εύρος του διαστήματος εμπιστοσύνης. Το τυπικό σφάλμα της Y είναι ελάχιστο όταν..9.4 Διάστημα εμπιστοσύνης για προβλέψεις Αντί να χρησιμοποιήσει την μέση τιμή του Υ για δοθέν Χ, ο ερευνητής είναι πιθανό να ενδιαφέρεται να προβλέψει μια επόμενη τιμή της Y για δεδομένο. Προφανώς το να κάνει κανείς μια τέτοια πρόβλεψη με ακρίβεια είναι περισσότερο δύσκολο από το να προβλέψει μια εκτίμηση για την μέση τιμή

49 EY. Αυτό γιατί στην πρόβλεψη μιας συγκεκριμένης τιμής υπάρχουν δύο αιτίες διασποράς, διασπορά στην εκτίμηση του πραγματικού μέσου και διασπορά της συγκεκριμένης τιμής γύρω από την μέση τιμή. Μια σημειακή εκτιμήτρια της Y είναι η Y b0 b. Το σφάλμα πρόβλεψης Y Y αποδεικνύεται ότι ακολουθεί την κανονική κατανομή με μέση τιμή μηδέν και διασπορά, δηλαδή: Y Y N 0,. Απόδειξη: Καταρχάς, επειδή ισχύει ότι 0 b Y b : Y b0 b Y b b Y b, που αποτελεί γραμμικό συνδυασμό των κανονικά κατανεμημένων τυχαίων μεταβλητώνy. Συνεπώς η ποσότητα Y Y ως γραμμικός συνδυασμός ανεξάρτητα κατανεμημένων τυχαίων μεταβλητών, ακολουθεί επίσης την κανονική κατανομή. Για την μέση τιμή του σφάλματος πρόβλεψης έχουμε: E Y Y E Y E Y E b b E

50 50 Από την άλλη μεριά, για την διασπορά του σφάλματος πρόβλεψης έχουμε ήδη δείξει ότι V Y. Επιπλέον, επειδή οι τιμές της μεταβλητής Υ και Y είναι ανεξάρτητες μεταξύ τους, είναι και ασυσχέτιστες οπότε 0 Cov Y Y. Οπότε: V Y Y V Y V Y. Επομένως, μια αμερόληπτη εκτιμήτρια της διακύμανσης του σφάλματος πρόβλεψης όταν το είναι άγνωστο, δίνεται από την σχέση: Y Y s s. Αν θεωρήσουμε την τυποποιημένη κατανομή του Y Y και στη συνέχεια διαιρέσουμε την Ν(0,) που καταλήξαμε με την τετραγωνική ρίζα της ποσότητας s s, θα οδηγούμασταν σε μια κατανομή t με - βαθμούς ελευθερίας. Μετά τις απλοποιήσεις θα έχουμε:

51 5 Y Y t s. Αυτό συνεπάγεται ότι σαν ένα 00(-α)% διάστημα πρόβλεψης για την Y μπορούμε να χρησιμοποιήσουμε το διάστημα:, a Y t s..0 Παλινδρόμηση χωρίς σταθερό όρο Μερικές φορές μπορεί να θέλουμε να εκτιμήσουμε την παλινδρόμηση ανάμεσα σε δύο μεταβλητές χωρίς σταθερό όρο. Σε αυτή την περίπτωση το υπόδειγμα είναι της μορφής: Y. Έχουμε επομένως μία παράμετρο να εκτιμήσουμε, το συντελεστή. Για την εκτίμηση του συντελεστή, όταν θέλουμε ο σταθερός όρος να είναι μηδέν, εφαρμόζουμε την μέθοδο ελαχίστων τετραγώνων υπό περιορισμό. Δηλαδή ελαχιστοποιούμε το άθροισμα των τετραγώνων των αποκλίσεων: F e Y. Για τον σκοπό αυτό, βρίσκουμε την μερική παράγωγο της F ως προς την παράμετρο και έχουμε:

52 F Y Y Y Y Y Y. Θέτουμε την μερική παράγωγο ίση με μηδέν και έτσι: Y b. Σημειώνουμε ότι αντικαθιστούμε την παράμετρο από την b καθώς η τιμή είναι εκτιμήτρια της άλλοτε εξίσωσης που ορίσαμε και θέσαμε ίση με μηδέν. Λύνοντας ως προς b έχουμε ότι: b Y. Βλέπουμε λοιπόν ότι στον τύπο αυτό οι μεταβλητές εκφράζονται στις αρχικές τιμές τους και όχι ως αποκλίσεις από τους μέσους τους όπως στην περίπτωση που η παλινδρόμηση περιέχει σταθερό όρο. Ο εκτιμητής b είναι αμερόληπτος αφού: E b E Y E Y 5

53 E E E Η διασπορά του εκτιμητή είναι ίση με :. V b Y V Y V. Επιπλέον, ενώ ισχύει η ιδιότητα e 0, δεν ισχύει η ιδιότητα e 0. Ως συνέπεια αυτού, ο μέσος Y των εκ παρατηρήσεων τιμών Υ, δεν θα είναι ίσος με τον μέσο των υπολογισμένων τιμών Y. Όταν επιβάλλεται ο περιορισμός 0 0, το άθροισμα των τετραγώνων των καταλοίπων θα είναι μηδέν μόνο αν b Y. Όταν δεν υπάρχει σταθερός όρος, δεν υπάρχει τίποτε που να εξασφαλίζει ότι η ποσότητα SSE θα είναι μικρότερη ή ίση από την ποσότητα SST. Κάλλιστα μπορεί να είναι και μεγαλύτερη, οπότε ο συντελεστής προσδιορισμού θα είναι αρνητικός. Για τον λόγο αυτό, συνήθως σε παλινδρομήσεις χωρίς σταθερό όρο, δεν αναφέρεται καν η τιμή του συντελεστή προσδιορισμού.. Εφαρμογές στην R Η προσαρμογή του απλού γραμμικού μοντέλου, δηλαδή η εκτίμηση των παραμέτρων, αλλά και η ανάλυση διασποράς, ο υπολογισμός του συντελεστή 53

54 προσδιορισμού, η εύρεση διαστημάτων εμπιστοσύνης, οι προβλέψεις κ.α. μπορούν να γίνουν με την βοήθεια της R. Παράδειγμα : Σε μια μελέτη καταγράφηκαν ο χρόνος επισκευής και ο αριθμός των προς διόρθωση εξαρτημάτων για 4 ηλεκτρονικά μηχανήματα, με σκοπό τον εντοπισμό της σχέσης που υπάρχει ανάμεσα στον αριθμό Χ των εξαρτημάτων του μηχανήματος που απαιτούν επισκευή, και στο χρονικό διάστημα Υ (σε λεπτά) που απαιτείται για την ολοκλήρωση της εργασίας επισκευής. Τα αποτελέσματα των μετρήσεων παρουσιάζονται στον πίνακα παρακάτω. Χ Υ Το πρώτο βήμα που έχουμε να κάνουμε, είναι να εισάγουμε τα δεδομένα μας στην R και να κατασκευάσουμε ένα διάγραμμα διασποράς (scatterplot). Το διάγραμμα διασποράς είναι κατάλληλο γράφημα για την μελέτη της σχέσης μεταξύ δύο συνεχών μεταβλητών, ιδιαίτερα αν αποσκοπούμε στην δημιουργία μοντέλου πρόγνωσης των τιμών της μιας μεταβλητής από την άλλη. Με το διάγραμμα διασποράς και μια έμπειρη στατιστική ματιά, ανιχνεύεται η σχέση που ενδεχομένως να υπάρχει μεταξύ των δύο μεταβλητών. Αυτά γίνονται με τις παρακάτω εντολές: =c(,,3,4,4,5,6,6,7,8,9,9,0,0) Y=c(3,9,49,64,74,87,96,97,09,9,49,45,54,66) plot(,y,xlab="αριθμός εξαρτημάτων μηχανήματος",ylab="χρονικό διάστημα επισκευής",ma="διάγραμμα Διασποράς (Scatterplot)") 54

55 Χρονικό διάστημα επισκευής Εικόνα.3 Αν στην εντολή plot προσθέσουμε type="o", εμφανίζεται το ίδιο γράφημα με τα σημεία ενωμένα με μια γραμμή, δηλαδή: Διάγραμμα Διασποράς (Scatterplot) Αριθμός εξαρτημάτων μηχανήματος Εικόνα.4 55

56 Από το γράφημα μπορούμε να διαπιστώσουμε ότι τα σημεία του διαγράμματος είναι κοντά σε ευθεία, που σημαίνει πως η εξίσωση παλινδρόμησης πρέπει να είναι γραμμική. Καλό θα ήταν όμως να υπολογίσουμε μια στατιστική ποσότητα που ποσοτικοποιεί το είδος των μεταβολών που εμφανίζονται στις τιμές μιας συνεχούς τυχαίας μεταβλητής όταν η άλλη μεταβάλλεται. Αυτή η ποσότητα είναι η συνδιακύμανση, το πρόσημο της οποίας δείχνει την τάση στην γραμμική σχέση των δύο μεταβλητών. Η συνδιακύμανση ουσιαστικά συμπληρώνει το διάγραμμα διασποράς υπό την έννοια ότι αντιστοιχεί μια συγκεκριμένη αριθμητική τιμή στην οπτική παρατήρηση της προσαρμογής του διαγράμματος διασποράς σε μια ευθεία. Ο υπολογισμός της στην R γίνεται με την εντολή: cor(y,) Το αποτέλεσμα είναι η αριθμητική τιμή που επιβεβαιώνει αυτό που διακρίναμε από το διάγραμμα διασποράς, ότι δηλαδή οι δύο μεταβλητές έχουν παρόμοια συμπεριφορά, άρα υπάρχει ισχυρή θετική γραμμική σχέση. Το επόμενο βήμα, είναι η εύρεση της ευθείας γραμμικής παλινδρόμησης της μιας μεταβλητής πάνω στην άλλη. Η πιο απλή εντολή για την επίτευξη αυτού του στόχου, είναι η εντολή: model=lm(y) ή model=lm(y+) Τα αποτελέσματα παρουσιάζονται παρακάτω: Call: lm(formula = Y ) Coeffcets: (Itercept) Η προσαρμοσμένη συνάρτηση για τα δεδομένα μας προκύπτει να είναι η: Y Η εκτίμηση των συντελεστών μπορεί να προκύψει και από τις εντολές: 56

57 b=sum((-mea())*(y-mea(y)))/sum((-mea())^) b0=mea(y)-b*mea() Στην περίπτωση που δεν θέλαμε να επιλέξουμε την χρήση του σταθερού όρου στο μοντέλο μας, θα μπορούσαμε να εκτιμήσουμε τον συντελεστή παλινδρομήσεως b με την εντολή: model=lm(y0+) και το αποτέλεσμα θα ήταν: Call: lm(formula = Y 0 + ) Coeffcets: 6.07 που σημαίνει ότι η προσαρμοσμένη συνάρτηση για τα δεδομένα μας χωρίς σταθερό όρο, είναι: Y 6.07 Η προσαρμογή της ευθείας αυτής στα δεδομένα, γίνεται με την εντολή: able(model). Εικόνα.5 57

58 Συναρτήσεις που εφαρμόζονται σε ένα lm αντικείμενο, δηλαδή συναρτήσεις που δέχονται ως όρισμα ένα lm αντικείμενο είναι: summary() τυπώνεται μια εκτενέστερη κατάσταση των παραμέτρων της παλινδρόμησης. coef() τυπώνονται οι εκτιμώμενοι συντελεστές παλινδρόμησης. resd() τυπώνονται τα υπόλοιπα. ftted() υπολογίζονται οι εκτιμήσεις των αρχικών δεδομένων. devace() υπολογίζεται το άθροισμα τετραγώνων των σφαλμάτων. aova() δίνεται ο πίνακας ανάλυσης διασποράς. predct() υπολογίζονται προβλέψεις για νέα δεδομένα. plot() τυπώνονται διαγνωστικά γραφήματα. Αρχικά υπολογίζουμε τον πίνακα ανάλυσης διασποράς με την εντολή: aova(model) Aalyss of Varace Table Respose: Y Df Sum Sq Mea Sq F value Pr(>F) e-3 *** Resduals Sgf. codes: 0 *** 0.00 ** 0.0 * F-statstc: 943. o ad DF, p-value: 8.96e-3 Από τον πίνακα αυτό παίρνουμε τους βαθμούς ελευθερίας από την στήλη DF, τα αθροίσματα τετραγώνων SSR=749.5 και SSE=348.8 από την στήλη Sum Sq, τα μέσα τετράγωνα MSR=749.5 και MSE=9., καθώς και την τιμή του F ελέγχου. Επειδή η p-τιμή είναι 8.96e-3, δηλαδή αρκετά μικρότερη από το επίπεδο σημαντικότητας α=5%, απορρίπτουμε την μηδενική υπόθεση περί ισότητας της παραμέτρου παλινδρόμησης με το μηδέν, που σημαίνει ότι το μοντέλο μας είναι στατιστικά σημαντικό. 58

59 Στην συνέχεια, για να πάρουμε περισσότερες πληροφορίες για τις παραμέτρους παλινδρομήσεως, πληκτρολογούμε την εντολή summary(model) και έχουμε: Resduals: M Q Meda 3Q Max Coeffcets: Estmate Std. Error t value Pr(> t ) (Itercept) e-3 *** --- Sgf. codes: 0 *** 0.00 ** 0.0 * Resdual stadard error: 5.39 o degrees of freedom Multple R-squared: , Adjusted R-squared: F-statstc: 943. o ad DF, p-value: 8.96e-3 Η πρώτη γραμμή της ανάλυσης δίνει κάποια στοιχεία για τα υπόλοιπα (resduals). Στην συνέχεια δίνονται για τους εκτιμητές ελαχίστων τετραγώνων των 0 και οι εκτιμήσεις των τυπικών σφαλμάτων (στήλη Std. Error), και τα αποτελέσματα των ελέγχων: H0 : 0 0 έναντι H: 0 0, και H0 : 0 έναντι H: 0. Για τους ελέγχους δίνεται η τιμή της στατιστικής συνάρτησης ελέγχου (στήλη t value), η οποία ακολουθεί την κατανομή t καθώς και οι τιμές p-τιμή που είναι 0.39 και 8.9e-3 αντίστοιχα. Στην πρώτη περίπτωση αποδεχόμαστε την μηδενική υπόθεση H0 : 0 0 και η σταθερά του μοντέλου δεν είναι στατιστικά σημαντική επειδή p value , ενώ στην δεύτερη περίπτωση απορρίπτουμε την μηδενική υπόθεση H0 : 0, είτε θεωρήσουμε επίπεδο 59

60 σημαντικότητας 5% ή % αφού p value 8.9e και 0.0 αντίστοιχα. Επίσης, παρατηρούμε πως το γραμμικό μοντέλο στο σύνολό του είναι στατιστικά σημαντικό, καθώς F-statstc=943. και p-τιμή<0.00. Τέλος, το μοντέλο που προκύπτει εξηγεί το 98,74% της μεταβλητότητας του χρόνου επισκευής, γεγονός που αποδίδει ιδιαίτερη αξιοπιστία στην πρόβλεψη. Η τιμή του προσαρμοσμένου συντελεστή προσδιορισμού Adjusted R-squared θα αναλυθεί περισσότερο στο επόμενο κεφάλαιο που αφορά την πολλαπλή γραμμική παλινδρόμηση. Η εφαρμογή των υπόλοιπων εντολών μας δίνει τα αποτελέσματα που ακολουθούν: coef(model) (Itercept) resd(model) ftted(model) devace(model) [] Για να είμαστε σίγουροι ότι το μοντέλο που προσαρμόσαμε είναι κατάλληλο για την περιγραφή των δεδομένων μας, πρέπει να ελέγξουμε ότι οι προϋποθέσεις για τα τυχαία σφάλματα αληθεύουν. Αν μία ή περισσότερες από τις προϋποθέσεις δεν ισχύουν, τότε το μοντέλο που προσαρμόσαμε βάσει αυτών των υποθέσεων δεν είναι κατάλληλο. Μπορούμε να ελέγξουμε μερικές από τις βασικές προϋποθέσεις του μοντέλου με την εντολή plot(model), η οποία μας δίνει μια σειρά από διαγνωστικά διαγράμματα των καταλοίπων. 60

61 Το πρώτο γράφημα που μας δίνει η εντολή plot(model), αφορά τις προσαρμοσμένες τιμές Y σε σχέση με τα μη τυποποιημένα κατάλοιπα e. Με αυτό το διάγραμμα ελέγχουμε προβλήματα μη γραμμικότητας και ετεροσκεδαστικότητας. Η λεία κόκκινη γραμμή, που αποτελεί μια εκτίμηση της μέσης τιμής των καταλοίπων σε μια περιοχή γύρω από κάθε σημείο, εκτίνεται κοντά στην γραμμή αναφοράς του μηδενός που είναι η μέση τιμή των σφαλμάτων, οπότε δεν φαίνεται να παρουσιάζονται προβλήματα μη γραμμικότητας. Η τυχαιοποιημένη μορφή διασκορπισμού των σημείων, όπως φαίνεται στο σχήμα παρακάτω, είναι ένδειξη της ύπαρξης ομοσκεδαστικότητας των καταλοίπων. Επίσης παρατηρούμε κάποια αριθμημένα σημεία, που αποτελούν ακραίες τιμές. Εικόνα.6 Το δεύτερο διάγραμμα είναι ένα Q-Qplot των τυποποιημένων καταλοίπων. Το διάγραμμα αυτό, απεικονίζει τα ποσοστιαία σημεία των καταλοίπων σε σχέση με τα ποσοστιαία σημεία της κανονικής κατανομής. Επειδή τα σημεία κείνται κοντά στην διακεκομμένη ευθεία, φαίνεται να ικανοποιείται η υπόθεση της κανονικότητας των υπολοίπων. 6

62 Εικόνα.7 Ο έλεγχος της κανονικότητας των καταλοίπων θα μπορούσε να γίνει και με άλλους τρόπους. Αρχικά θα αναφέρουμε τον έλεγχο Kolmogorov-Smrov, που πραγματοποιείται μέσω της εντολής: ks.test(resd(model),"porm",mea=mea(resd(model)),sd=sd(resd(model)),exact=fa LSE) Το αποτέλεσμα είναι: Oe-sample Kolmogorov-Smrov test data: resd(model) D = , p-value = alteratve hypothess: two-sded Επειδή η p-τιμή= είναι μεγαλύτερη από το επίπεδο σημαντικότητας 5% αποδεχόμαστε την υπόθεση περί κανονικότητας των υπολοίπων. Εναλλακτικά, μπορούμε να χρησιμοποιήσουμε τον έλεγχο Shapro-Wlk ο οποίος μπορεί να πραγματοποιηθεί και σε μεγάλο αριθμό δειγμάτων, προτείνεται όμως κυρίως για μικρά δείγματα, μικρότερα του 50, όπως συμβαίνει στην περίπτωσή μας. Ο έλεγχος πραγματοποιείται μέσω της εντολής: shapro.test(resd(model)) 6

63 και ουσιαστικά αποτιμά πόσο κοντά είναι τα εμπειρικά ποσοστιαία σημεία του δείγματος, από τα αντίστοιχα θεωρητικά ποσοστιαία σημεία μιας κατάλληλης κανονικής κατανομής. Shapro-Wlk ormalty test data: resd(model) W = , p-value = Και πάλι η p-τιμή είναι μεγαλύτερη του επιπέδου σημαντικότητας 5%, οπότε αποδεχόμαστε την υπόθεση περί κανονικότητας των υπολοίπων. Ο έλεγχος κανονικότητας μπορεί να γίνει και με τις συναρτήσεις: sf.test Shapro-Fraca test ad.test Aderso-Darlg test cvm.test Cramer-vo Mses test pearso.test Pearso ch square test dagotest D Agosto-Pearso, αλλά για περισσότερες από 0 παρατηρήσεις Shapro-Fraca ormalty test data: resd(model) W = , p-value = Aderso-Darlg ormalty test data: resd(model) A = , p-value = Cramer-vo Mses ormalty test data: resd(model) W = , p-value =

64 Pearso ch-square ormalty test data: resd(model) P = 4.857, p-value = 0.86 Σε όλους αυτούς του ελέγχους, η p-τιμή είναι μεγαλύτερη του επιπέδου σημαντικότητας 5%, που σημαίνει ότι αποδεχόμαστε την υπόθεση κανονικότητας των υπολοίπων. Το τρίτο διάγραμμα, ονομάζεται διάγραμμα κλίμακας θέσης (Scale- Locato) των καταλοίπων και παρουσιάζει τις προσαρμοσμένες τιμές Y έναντι της ρίζας των τυποποιημένων καταλοίπων. Στο διάγραμμα αυτό, όλες οι τιμές των υπολοίπων είναι θετικές. Ανεξαρτήτως πρόσημου, μεγάλες τιμές των υπολοίπων σχεδιάζονται κάνω από την κόκκινη γραμμή και μικρές τιμές των υπολοίπων από κάτω. Τα ακραία σημεία είναι τα ίδια, βρίσκονται όμως στο επάνω μέρος της γραμμής σε αντίθεση με το πρώτο διαγνωστικό γράφημα όπου ένα από τα ακραία αυτά σημεία είχε μεγάλη αρνητική τιμή και βρέθηκε απέναντι από τα υπόλοιπα. Για τον λόγο αυτό, λέμε πως το συγκεκριμένο γράφημα αποτελεί μια θετικά εκτιμημένη έκδοση του πρώτου γραφήματος. Η κόκκινη γραμμή μας δείχνει την τάση και επειδή είναι σχεδόν επίπεδη, ισχύει η υπόθεση της ομοσκεδαστικότητας. Εικόνα.8 64

65 Το τέταρτο διάγραμμα αφορά τους δείκτες επιρροής h (leverages) σε σχέση με τα τυποποιημένα κατάλοιπα. Η επιρροή μετρά το πόσο κάθε σημείο των δεδομένων επηρεάζει την παλινδρόμηση. Επειδή η παλινδρόμηση πρέπει να περάσει μέσα από το κέντρο βάρους, τα σημεία που βρίσκονται μακριά από το κέντρο βάρους έχουν μεγαλύτερη επιρροή, και η επιρροή τους αυξάνει αν υπάρχουν λιγότερα σημεία γειτονικά. Έτσι, η επιρροή αντικατοπτρίζει τόσο την απόσταση από το κέντρο βάρους, όσο και την απομόνωση ενός σημείου. Το διάγραμμα υπολογίζει και την απόσταση Cook, που μετρά το πόσο θα αλλάξει η παλινδρόμηση αν ένα σημείο διαγραφεί. Η απόσταση Cook αυξάνεται από την επιρροή και από τις μεγάλες τιμές των υπολοίπων. Έτσι, ένα σημείο μακριά από το κέντρο βάρους με μεγάλη τιμή σφάλματος, μπορεί να επηρεάσει σημαντικά την παλινδρόμηση. Αυτό που θέλουμε να δούμε σε αυτό το διάγραμμα είναι την κόκκινη συνεχόμενη γραμμή να μένει κοντά στην γκρι οριζόντια διακεκομμένη γραμμή, και ότι τα σημεία δεν έχουν απόσταση Cook μεγαλύτερη από 0.5. Και οι δύο αυτές παρατηρήσεις φαίνεται να ισχύουν στην περίπτωσή μας. Εικόνα.9 Η R παράγει έξι διαγνωστικά διαγράμματα που καλούνται μέσω της εντολής plot(model,whch= ), με την παράμετρο whch να παίρνει τιμές από -6 και με τις τιμές,,3,5 να μας δίνουν τα τέσσερα διαγνωστικά γραφήματα παραπάνω. Αυτά τα διαγράμματα θα μας δώσουν επιπλέον ανάλυση των 65

66 σημείων επιρροής, απεικονίζοντας τις αποστάσεις Cook για κάθε παρατήρηση και τις αποστάσεις Cook σε σχέση με τους δείκτες επιρροής. Τα δύο επιπλέον αυτά διαγράμματα παρουσιάζονται παρακάτω. Εικόνα.0 Εικόνα. 66

67 Για να βρούμε τα 95% διαστήματα εμπιστοσύνης των παραμέτρων 0 και, πληκτρολογούμε την εντολή coft(lm(y),level=0.95). Το αποτέλεσμα είναι: coft(model,level=0.95).5 % 97.5 % (Itercept) Για να κάνουμε σημειακή εκτίμηση και διαστήματα προβλέψεων για την εξαρτημένη μεταβλητή Υ για καθορισμένες τιμές πρόβλεψης, χρησιμοποιούμε την εντολή predct(). Έστω ότι θέλουμε να κάνουμε σημειακή πρόβλεψη της μεταβλητής Υ για την τιμή Χ=5.78. Η τιμή αυτή της ανεξάρτητης μεταβλητής στην πράξη δεν έχει νόημα γιατί ο αριθμός των εξαρτημάτων που χρειάζονται επισκευή δεν μπορεί να είναι δεκαδικός, θα την χρησιμοποιήσουμε όμως για να δούμε πως μπορεί να γίνει η πρόβλεψη. Η σημειακή πρόβλεψη της τιμής της μεταβλητής Υ για την τιμή Χ=5.78, θα γίνει με την εντολή: predct(model,ewdata=data.frame(=5.78)) Το αποτέλεσμα της πρόβλεψης είναι η τιμή παρακάτω: Αν τώρα θέλουμε να βρούμε και το διάστημα εμπιστοσύνης για την μέση τιμή της πρόβλεψης, χρησιμοποιούμε την εντολή: predct(model,ewdata=data.frame(=5.78),terval=cofdece) όπου: ft lwr upr Μέσω της R μπορούμε να σχηματίσουμε και ένα διάγραμμα που να φανερώνει τα διαστήματα εμπιστοσύνης και τα διαστήματα προβλέψεων μέσω της εντολής: 67

68 xyplot(y,pael=pael.lmbads,cof.lty=,pred.lty=) Εικόνα. Στο διάγραμμα αυτό, οι ροζ συνεχόμενες γραμμές αποτελούν το διάστημα εμπιστοσύνης για την πρόβλεψη και οι πράσινες διακεκομμένες γραμμές αποτελούν το διάστημα εμπιστοσύνης για την μέση τιμή της πρόβλεψης. Παράδειγμα : Για την περίπτωση που η ανεξάρτητη μεταβλητή δεν παίρνει αριθμητικές τιμές αλλά είναι κατηγορική, κάτι που θα δούμε αναλυτικότερα στο δεύτερο κεφάλαιο, θα χρησιμοποιήσουμε το επόμενο παράδειγμα, όπου η μεταβλητή Υ αποτελείται από τους βαθμούς που προέκυψαν από ένα τεστ μαθηματικών και η μεταβλητή Χ παίρνει για τιμές -αν το τεστ αυτό το έγραψε άνδρας και 0-αν το τεστ το έγραψε γυναίκα. Έχουμε λοιπόν =0 δείγματα όπου: Υ=7,6,7,8,9,3,5,4,5,3 Χ=0,0,0,0,0,,,,, Αρχικά εισάγουμε τα δεδομένα στην R και προβαίνουμε στην εκτίμηση του μοντέλου παλινδρόμησης με την εντολή model=lm(y), οπότε: model=lm(y) 68

69 model Call: lm(formula = Y ) Coeffcets: (Itercept) Το εκτιμώμενο μοντέλο παλινδρόμησης θα είναι: ^ Y Αν λοιπόν γράψει το τεστ γυναίκα (Χ=0), τότε ο βαθμός στο τεστ προβλέπεται να είναι 7.4, αν όμως το γραπτό είναι ενός άντρα (Χ=), ο προβλεπόμενος βαθμός του τεστ θα είναι =4. Έπειτα, για να πάρουμε περισσότερες πληροφορίες για τις παραμέτρους παλινδρομήσεως, πληκτρολογούμε την εντολή summary(model) και έχουμε: summary(model) Call: lm(formula = Y ) Resduals: M Q Meda 3Q Max Coeffcets: Estmate Std. Error t value Pr(> t ) (Itercept) e-07 *** ** --- Sgf. codes: 0 *** 0.00 ** 0.0 * Resdual stadard error:.07 o 8 degrees of freedom 69

70 Multple R-squared: , Adjusted R-squared: F-statstc: 5.3 o ad 8 DF, p-value: Από τις μικρές τιμές των p-τιμών (<0.05) συμπεραίνουμε ότι και οι δύο παράμετροι παλινδρομήσεως είναι στατιστικά σημαντικές, ενώ με την τιμή του δείκτη Multple R-squared μπορούμε να πούμε πως το μοντέλο καταφέρνει να εξηγήσει το 75.85% της μεταβλητότητας της βαθμολογίας του τεστ. Αν τώρα δημιουργήσουμε και τον πίνακα ανάλυσης διασποράς με την εντολή aova(model), προκύπτει ότι: aova(model) Aalyss of Varace Table Respose: Y Df Sum Sq Mea Sq F value Pr(>F) ** Resduals Sgf. codes: 0 *** 0.00 ** 0.0 * Με την εντολή αυτή, εκτός από τον αριθμό των βαθμών ελευθερίας, την στήλη με τις τιμές των αθροισμάτων τετραγώνων και την στήλη με τις τιμές των μέσων τετραγώνων, λαμβάνουμε και την p-τιμή για τον έλεγχο με μηδενική υπόθεση την ισότητα της παραμέτρου παλινδρόμησης με το μηδέν. Επειδή η p-τιμή <0.05, οδηγούμαστε σε απόρριψη της μηδενικής υπόθεσης. 70

71 ΚΕΦΑΛΑΙΟ. ΤΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ: ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ. Εισαγωγή Σε πολλά πρακτικά προβλήματα είναι απαραίτητο να χρησιμοποιήσουμε δύο ή περισσότερες ανεξάρτητες μεταβλητές προκειμένου να ερμηνεύσουμε με μεγάλη ακρίβεια ένα φυσικό φαινόμενο και να βγάλουμε σωστότερα συμπεράσματα. Για παράδειγμα, προκειμένου να χρησιμοποιηθεί ένα μοντέλο παλινδρόμησης για να προβλεφθεί η ζήτηση ενός προϊόντος μιας εταιρείας σε έναν αριθμό από διαφορετικές πόλεις, είναι ίσως σκόπιμο να χρησιμοποιηθούν κοινωνικοοικονομικές μεταβλητές (μέσο οικογενειακό εισόδημα, μόρφωση), δημογραφικές μεταβλητές (αριθμός μελών οικογένειας, αριθμός συνταξιούχων) και περιβαλλοντολογικές μεταβλητές (μέση ημερήσια θερμοκρασία) κ.α. Όταν έχουμε περισσότερες από μία ανεξάρτητες μεταβλητές, για να ερμηνεύσουμε τη συμπεριφορά της εξαρτημένης μεταβλητής Υ, χρησιμοποιούμε το μοντέλο της πολλαπλής παλινδρόμησης. Μάλιστα, αν η σχέση της εξαρτημένης μεταβλητής είναι γραμμική συνάρτηση των ανεξάρτητων μεταβλητών, τότε η περιγραφή της σχέσης αυτής γίνεται βάση ενός γραμμικού μοντέλου και έτσι αναφερόμαστε στην πολλαπλή γραμμική παλινδρόμηση. Η πολλαπλή παλινδρόμηση έχει ευρεία επιστημονική αποδοχή, διότι θεωρείται ισχυρό και ευέλικτο στατιστικό εργαλείο με πλήθος εφαρμογών σε ποικίλα ερευνητικά πεδία. Κάποια από αυτά είναι: Διοίκηση επιχειρήσεων και έρευνα αγοράς: εκτίμηση του βαθμού επίδοσης του προσωπικού μιας εταιρείας, διαχείριση του αριθμού έκτασης των παραπόνων των πελατών. Προβλήματα οδικής συγκοινωνίας: διαχείριση του τύπου οδοστρώματος και είδους μεταφορικού μέσου στο χρόνο εκπλήρωσης μιας μετακίνησης. Υπέρβαση στον αθλητισμό: τρόποι βελτίωσης των αθλητικών επιδόσεων στο στίβο, προσαρμογή ενός βέλτιστου διαιτολογίου. 7

72 Ατμοσφαιρική και υδρόβια ρύπανση με προεκτάσεις στη διαφύλαξη της δημόσιας υγείας. Τρόποι διερεύνησης της συμπεριφοράς του δείκτη νοημοσύνης σε διαγωνιστικό επίπεδο. Εκτίμηση της δράσης των χημικών συστατικών ενός τροφίμου στις οργανοληπτικές ιδιότητές του. Συνοψίζοντας, η ανάλυση παλινδρόμησης χρησιμοποιείται για την περιγραφή των ειδικών σχέσεων μεταξύ των μεταβλητών, τη διακρίβωση θεωρητικών υποθέσεων, την πρόβλεψη από λήψεις πειραματικών δεδομένων και τη δημιουργία και επαλήθευση εξισώσεων πολλαπλής παλινδρόμησης. Το γραμμικό μοντέλο πολλαπλής παλινδρόμησης με p ανεξάρτητες μεταβλητές, είναι της μορφής: Y... για =,..., 0 p, p ή σε μορφή πινάκων: Υ=Χβ+ε, με όπου Y είναι η τιμή της εξαρτημένης μεταβλητής στην παρατήρηση. Ανάλογα, η j είναι η (για =,...,) παρατήρηση της j (για j=,...,p-) ανεξάρτητης μεταβλητής. Η αντιπροσωπεύει την μεταβολή στην Υ που προέρχεται από μια μεταβολή στην κατά μία μονάδα, όταν όλες οι άλλες ανεξάρτητες μεταβλητές παραμένουν σταθερές. Τέλος, η ύπαρξη των καταλοίπων, όπως και στην απλή γραμμική παλινδρόμηση, είναι απαραίτητη γιατί στην πράξη κανένα μοντέλο δεν μπορεί να περιγράψει το σύνολο των πληροφοριών ενός σετ δεδομένων. Όσο καλά προσαρμοσμένη και να είναι η γραμμή πολλαπλής παλινδρόμησης στα δεδομένα, πάντα θα υπάρχει ένα μέρος της πληροφορίας που θα εξακολουθεί να μην ερμηνεύεται μέσω του μοντέλου. Αυτός ο 7

73 παράγοντας που δεν ερμηνεύεται από το γραμμικό μοντέλο καλείται λάθος της παλινδρόμησης. Επομένως, η πληθυσμιακή εξίσωση παλινδρόμησης ή συνάρτηση παλινδρόμησης ή συνάρτηση ανταπόκρισης είναι η: 0... p, p E Y, για =,...,. Η συνάρτηση αυτή ονομάζεται μερικές φορές και επιφάνεια παλινδρόμησης ή επιφάνεια ανταπόκρισης. Μια απεικόνισή της με την χρήση δύο ανεξάρτητων μεταβλητών, θα μπορούσε να είναι η παρακάτω: Εικόνα. Η γραμμικότητα των μοντέλων αυτών αναφέρεται στις παραμέτρους και όχι στις ανεξάρτητες μεταβλητές. Έτσι, υπάρχουν και κάποια μοντέλα που είναι γραμμικά ως προς τις παραμέτρους όχι όμως ως προς τις μεταβλητές Χ. Κάποια μορφές τέτοιων μοντέλων είναι:. Η πολυωνυμική μορφή k βαθμού, όπου: Y k 0... k k Το μοντέλο αυτό μπορεί να μετασχηματιστεί σε γραμμικό υπόδειγμα και ως προς τις ανεξάρτητες μεταβλητές θέτοντας,,..., k k k. Έτσι προκύπτει το μετασχηματισμένο μοντέλο: Y 0... k k 73

74 . Η αντίστροφη μορφή: Y 0 Το μοντέλο αυτό μετασχηματίζεται σε γραμμικό ως προς τις ανεξάρτητες μεταβλητές θεωρώντας * μετασχηματισμένο μοντέλο: και *, οπότε θα έχουμε το Y * * 0 3. Το υπόδειγμα της μορφής: Y... k 0 k Σε αυτήν την περίπτωση λογαριθμίζοντας θα έχουμε το μετασχηματισμένο μοντέλο: Y * * * * * 0... k k 4. Η λογαριθμική αντίστροφη μορφή: 0 Y e Λογαριθμίζοντας και έπειτα θέτοντας παίρνουμε το μετασχηματισμένο μοντέλο: * και *, *, όπου Y ly Y * * * Η ημιλογαριθμική ή γραμμική λογαριθμική μορφή: l Y l, με 0 0 * * Θεωρώντας l και l μετασχηματισμένο μοντέλο: j, παίρνουμε το Y * * 0 74

75 Ο αριθμός των ανεξάρτητων μεταβλητών στην ανάλυση πολλαπλής παλινδρόμησης έχει σχέση με τον αριθμό των παρατηρήσεων. Στην βιβλιογραφία αναφέρονται εμπειρικοί κανόνες, όπως για παράδειγμα ότι σε κάθε ανεξάρτητη μεταβλητή πρέπει να αντιστοιχούν τουλάχιστον 0 ή 0 παρατηρήσεις. Συνήθως ο αριθμός των ανεξάρτητων μεταβλητών δεν υπερβαίνει τις 0.. Βασικές υποθέσεις Όλες οι βασικές υποθέσεις που αναφέρθηκαν στο υπόδειγμα της απλής παλινδρόμησης ισχύουν και στην περίπτωση της πολλαπλής παλινδρόμησης. Δηλαδή τα κατάλοιπα :. αποτελούν ανεξάρτητες τυχαίες μεταβλητές που ακολουθούν κανονική κατανομή,. έχουν μηδενική μέση τιμή, E E 0 E 0 E 0 E 0 3. ικανοποιούν τις συνθήκες ομοσκεδαστικότητας και της μηδενικής συνδιασποράς. V Cov E E E E E E E E E E E E E E 75

76 V C C 0 0 C V C 0 0 C C V Όσον αφορά τις ανεξάρτητες μεταβλητές, αυτές δεν είναι στοχαστικές. Οι τιμές τους παραμένουν σταθερές, δηλαδή οι μεταβλητές δεν συσχετίζονται με το σφάλμα και η συνδιασπορά τους είναι ίση με το μηδέν. Επίσης, οι τιμές δεν είναι όλες ίσες μεταξύ τους, που σημαίνει ότι η διασπορά των διαφορετική από το μηδέν. Επιπλέον, καμία από τις ανεξάρτητες μεταβλητές δεν μπορεί να είναι εκφραστεί σαν γραμμικός μετασχηματισμός μιας ή περισσότερων από τις υπόλοιπες, πράγμα που αποκλείει τέλεια πολυσυγγραμμικότητα. Τέλος, ο αριθμός των ανεξάρτητων μεταβλητών p θα πρέπει να είναι μικρότερος του αριθμού των παρατηρήσεων. Υπό την προϋπόθεση ότι N0, I και ο γραμμικός μετασχηματισμός Y θα ακολουθεί την πολυμεταβλητή κανονική κατανομή και επιπλέον:, p 0, p E Y E E, p p 76

77 0... p, p 0... p, p E 0... p, p 0... p, p 0... p, p 0... p, p 0... p, p 0... p, p E E E E E E 0... p, p E 0... p, p 0... p, p E 0..., 0... p p p, p. E 0..., 0... p p p, p Ενώ για τον πίνακα διασπορών-συνδιασπορών έχουμε: Cov Y E Y E Y Y E Y E 0 0 E 0 0, 0 0 όπως δείξαμε προηγουμένως για τον πίνακα διασπορών συνδιασπορών των καταλοίπων. 77

78 Κοντολογίς, έχουμε πως :. Y N, I.3 Μέθοδοι εκτίμησης παραμέτρων Στην πολλαπλή παλινδρόμηση προσδιορίζονται περισσότερες παράμετροι με τρόπο ανάλογο όπως και για την απλή παλινδρόμηση. Όπως και εκεί, η γραμμή παλινδρομήσεως στον πληθυσμό είναι άγνωστη, εφόσον είναι άγνωστες οι τιμές των παραμέτρων για =0,,..., p-. Για τον λόγο αυτό, θα πρέπει να εκτιμήσουμε τις τιμές των συντελεστών από ένα δείγμα παρατηρήσεων για τις μεταβλητές Y και j. Με αυτό τον τρόπο κάνουμε μια εκτίμηση του πληθυσμιακού επιπέδου παλινδρόμησης από το δειγματικό E Y b b b... b 0 p, p για =,...,, με τα κατάλοιπα να ορίζονται ως το διάνυσμα e Y Y Y b..3. Μέθοδος ελαχίστων τετραγώνων Η μέθοδος ελαχίστων τετραγώνων για την εκτίμηση των παραμέτρων για =,...,, βασίζεται όπως και στο απλό γραμμικό μοντέλο στην ελαχιστοποίηση της παράστασης. Έχουμε λοιπόν ότι: Y Y Y Y Y Y Y Y. Y Y Y 78

79 διάνυσμα Ορίζουμε τις μερικές παραγώγους της σχέσης αυτής ως προς το, οπότε: e Y Y Y Y Θέτοντας τις μερικές παραγώγους ίσες με το μηδέν, οι κανονικές εξισώσεις ισορροπίας για το μοντέλο πολλαπλής γραμμικής παλινδρόμησης είναι οι: b Y Σημειώνουμε ότι οι παράμετροι του διανύσματος παραμέτρους του διανύσματος αντικαθίστανται από τις b, καθώς οι δεύτερες αποτελούν εκτιμήτριες των άλλοτε κανονικών εξισώσεων που ορίσαμε θέτοντας τις μερικές παραγώγους ίσες με μηδέν. Δηλαδή προκύπτει ότι οι εκτιμητές των συντελεστών γραμμικό μοντέλο παλινδρόμησης είναι οι: b Y. για το πολλαπλό Οι κανονικές εξισώσεις b στην αλγεβρική τους μορφή είναι: Y, p b0 Y, p b Y, p, p, p, p, p, p, p b p Y 79

80 , p Y 0 b, p b Y, p p, p b p, py Y b0 b... b p, p Y b0 b... b p, p, 0,... p Y b p b p bp, p Το διάνυσμα των εκτιμητών των παραμέτρων για να υπολογιστεί, χρειάζεται τον πίνακα. Για να αντιστρέφεται όμως ένας πίνακας, πρέπει να δειχθεί ότι η ορίζουσά του είναι διαφορετική του μηδενός. Εμείς θα δείξουμε ότι ο πίνακας αυτός αντιστρέφεται στην περίπτωση που η διάστασή του είναι x. Απόδειξη: Στην περίπτωση που ο πίνακας είναι x έχουμε:. Για να δείξουμε ότι αντιστρέφεται, αρκεί να δείξουμε ότι η ορίζουσά του είναι διαφορετική του μηδενός. Οπότε: 80

81 0 ως άθροισμα τετραγώνων, με το να αποτελεί το μέγεθος δείγματος που σημαίνει ότι είναι θετικός αριθμός..3. Μέθοδος μέγιστης πιθανοφάνειας Δείξαμε ότι το τυχαίο διάνυσμα πιθανοφάνειας λοιπόν είναι: Y N, I. Η συνάρτηση L b, I e Y I Y I e Y I Y e Y Y Η λογαριθμοποιημένη συνάρτηση πιθανοφάνειας είναι: l L l l Y Y. Για να βρούμε την εκτιμήτρια μέγιστης πιθανοφάνειας, αρκεί να παραγωγίσουμε την λογαριθμοποιημένη συνάρτηση πιθανοφάνειας ως προς το διάνυσμα των παραμέτρων με το μηδενικό διάνυσμα διάστασης px. Οπότε: και στην συνέχεια να θέσουμε την παράγωγο ίση l 0 0 L Y b Y. 8

82 Εναλλακτικά, για να βρούμε τον εκτιμητή μέγιστης πιθανοφάνειας, παρατηρούμε πως η συνάρτηση αυτή μεγιστοποιείται ως προς το διάνυσμα όταν ελαχιστοποιείται η ποσότητα: b Y Y. Η ποσότητα αυτή γράφεται ως: Y Y Y Y Y Y και παίρνοντας την παράγωγο ως προς το διάνυσμα b, έχουμε: Y Y Y. Θέτουμε το διάνυσμα των μερικών παραγώγων ίσο με το μηδενικό διάνυσμα, οπότε:. Y Το σύστημα αυτό των εξισώσεων έχει μοναδική λύση όταν υπάρχει ο αντίστροφος του πιθανοφάνειας για το διάνυσμα και σε αυτή την περίπτωση οι εκτιμήτριες μέγιστης b θα είναι: b Y, όπως ακριβώς προέκυψε και με την μέθοδο ελαχίστων τετραγώνων. Παρατηρούμε ότι παραγωγίζοντας την λογαριθμοποιημένη συνάρτηση πιθανοφάνειας ως προς μηδέν, έχουμε: και θέτοντας στην συνέχεια την παράγωγο ίση με το l L 0 Y Y 0 4 8

83 Y Y 4 Y Y Y b Y b e ee s Οι συντελεστές του διανύσματος b καλούνται μερικοί συντελεστές παλινδρόμησης. Συγκεκριμένα, ο συντελεστής b εκφράζει το μέγεθος της μεταβολής της Υ όταν μεταβάλλεται η μεταβλητή κατά μία μονάδα, ενώ παράλληλα οι υπόλοιπες μεταβλητές διατηρούνται σταθερές στην τιμή του μέσου όρου τους. Διαφορετικά, ο μερικός συντελεστής b εκφράζει τη μέτρηση της σχέσης των Υ και, αφού προηγούμενα απαλειφθεί το αποτέλεσμα των λοιπών μεταβλητών επί των Υ και. Ανάλογα, ο συντελεστής b εκφράζει το βαθμό μεταβολής της Υ όταν μεταβάλλεται μόνο η κατά μία μονάδα κ.ο.κ. Οι συντελεστές παλινδρόμησης καλούνται μερικοί, επειδή εκφράζουν μέρος μόνο της εξαρτημένης σχέσης της Υ με τις μεταβλητές...4 Προσαρμοσμένες τιμές και υπόλοιπα Το προσαρμοσμένο μοντέλο με αυτά που είπαμε μέχρι τώρα, μπορεί να γραφτεί και ως: όπου H Y b Y H Y ο πίνακας προβολής, ή hat matrx μιας και μας δίνει την εκτίμηση του διανύσματος Y, είναι συμμετρικός και ταυτοδύναμος. 83

84 Απόδειξη: H H, που σημαίνει ότι ο πίνακας προβολής είναι συμμετρικός. H HH H, που σημαίνει ότι ο πίνακας προβολής είναι ταυτοδύναμος. Επειδή Y H Y, το διάνυσμα Y ως γραμμικός συνδυασμός του διανύσματος Y που ακολουθεί -διάστατη κανονική κατανομή, ακολουθεί επίσης -διάστατη κανονική κατανομή όπου: E Y E H Y HE Y και CovY Cov H Y HCov Y H H I H HH HH H. Ανάλογα, επειδή: το διάνυσμα των εκτιμώμενων καταλοίπων e YY Y H Y I H Y QY e ως γραμμικός συνδυασμός του διανύσματος Y που ακολουθεί -διάστατη κανονική κατανομή, θα ακολουθεί επίσης -διάστατη κανονική κατανομή. Πριν όμως βρούμε το διάνυσμα των μέσων και τον πίνακα διασπορών συνδιασπορών, θα δούμε κάποιες ιδιότητες του πίνακα Q. Όπως για τον πίνακα προβολής H έτσι και για τον πίνακα Q ισχύει η συμμετρία και η ταυτοδυναμία. Απόδειξη: Q I H I H I H Q, δηλαδή ο πίνακας είναι συμμετρικός. Q QQ I HI H 84

85 II IH HI HH I H H H I H Q, που σημαίνει ότι ο πίνακας Q είναι ταυτοδύναμος. Αφού ορίσαμε τις ιδιότητες του πίνακα Q, μπορούμε να προβούμε στον υπολογισμό του διανύσματος των μέσων τιμών και του πίνακα διασπορών συνδιασπορών του διανύσματος των καταλοίπων E e E QY QE Y I H e, όπου: 0 και Cov e Cov QY QCov Y Q Q I Q QQ QQ Q..5 Ιδιότητες των εκτιμητών Πριν κάνουμε αναφορά των ιδιοτήτων των εκτιμητών, θα δείξουμε την κατανομή τους. Ξέρουμε ότι: N 0, I. Υπό αυτήν την υπόθεση, αποδείξαμε πως το διάνυσμα Y N, I. Έχοντας λοιπόν τις πληροφορίες αυτές, μπορούμε να δείξουμε την κατανομή του διανύσματος των εκτιμητών υπολογίσαμε πως: όπου A b. Από τις μεθόδους εκτίμησης των παραμέτρων, b Y AY μη στοχαστικός πίνακας διάστασης px. 85

86 Αυτό σημαίνει ότι το διάνυσμα των εκτιμητών γραμμικός συνδυασμός του διανύσματος b μπορεί να γραφτεί σαν Y που ακολουθεί πολυδιάστατη κανονική κατανομή. Επομένως και το διάνυσμα των εκτιμητών ακολουθεί πολυδιάστατη κανονική κατανομή με: E b E AY AE Y A, πράγμα που σημαίνει ότι οι εκτιμητές b0, b,..., bp είναι αμερόληπτοι. Έπειτα, Cov b Cov AY ACov Y A I άρα οι εκτιμήσεις των παραμέτρων του μοντέλου δεν είναι ασυσχέτιστες μεταξύ τους. Δείξαμε λοιπόν ότι:. b N p, Τώρα είμαστε σε θέση να αποδείξουμε και τις ιδιότητες των εκτιμητών των παραμέτρων. Θεώρημα Gauss-Markov: Στο κλασικό γραμμικό υπόδειγμα οι εκτιμητές των συντελεστών γραμμικοί, αμερόληπτοι και άριστοι. Απόδειξη: Το γεγονός ότι οι εκτιμητές του διανύσματος b είναι γραμμικοί και b είναι αμερόληπτοι το δείξαμε παραπάνω στην απόδειξη της κατανομής τους. Μας μένει να δείξουμε ότι είναι και άριστοι. Για τον σκοπό αυτό, θεωρούμε ένα άλλο 86

87 διάνυσμα εκτιμητών έστω που είναι επίσης γραμμικό ως προς το διάνυσμα Y και είναι της μορφής M Y M M M, με Μ να είναι ένας μη στοχαστικός πίνακας διάστασης xp. Η αναμενόμενη τιμή του ισούται με:. E E M M M M E M Για να είναι το διάνυσμα πρέπει M I p. αμερόληπτος εκτιμητής του διανύσματος, θα Στην συνέχεια, για τον πίνακα διασπορών συνδιασπορών έχουμε ότι: Cov Cov M Y M Cov Y M M IM M M. Ο πίνακας Μ μπορεί να γραφτεί στην μορφή: M N όπου Ν ένας xp πίνακας σταθερών. Λαμβάνοντας υπόψιν ότι προκύπτει ότι: M I p N I N I p p M I p, N 0 p. Άρα, Cov Cov M Y M Cov Y M M IM M M N N 87

88 N N N N N N N N Cov b N N. Όμως ο NN είναι θετικά ημιορισμένος πίνακας για οποιοδήποτε πίνακα Ν. Έτσι προκύπτει ότι οι διακυμάνσεις οποιονδήποτε άλλων γραμμικών αμερόληπτων εκτιμητών είναι μεγαλύτερες από αυτές του διανύσματος οι εκτιμητές b0, b,..., bp είναι και άριστοι. b, οπότε.6 Ανάλυση διασποράς Όπως και στο απλό γραμμικό μοντέλο, η δειγματική διασπορά των παρατηρήσεων Y χωρίζεται σε δύο αθροίσματα: Y Y Y Y Y Y, τα οποία συμβολίζονται και πάλι με SST, SSR και SSE αντίστοιχα. Το SST εκφράζει τη συνολική παρατηρούμενη μεταβλητότητα των Y, το SSR εκφράζει τη μεταβλητότητα των προσαρμοσμένων τιμών, ενώ το SSE εκφράζει τη μεταβλητότητα των Y σε σχέση με τις αντίστοιχες προσαρμοσμένες τιμές. Ο πίνακας ανάλυσης διασποράς ANOVA είναι: 88

89 Πηγή Αθροίσματα Βαθμοί Μέσο Έλεγχος F Μεταβλητότητας Τετραγώνων Ελευθερίας Άθροισμα Τετραγώνων Παλινδρόμηση SSR Y Y p- MSR SSR p MSR F MSE Υπόλοιπα SSE Y Y -p MSE SSE p Σύνολο SST Y Y - Σημαντική διαφορά από τον πίνακα ανάλυσης διασποράς στην απλή παλινδρόμηση, είναι οι βαθμοί ελευθερίας. Η ποσότητα SST εξακολουθεί να έχει - βαθμούς ελευθερίας, ενώ η ποσότητα SSE έχει πλέον -p βαθμούς ελευθερίας λόγω του ότι γίνεται εκτίμηση p μερικών συντελεστών παλινδρόμησης. Επίσης, η ποσότητα SSR έχει p- βαθμούς ελευθερίας που αντιπροσωπεύουν το πλήθος των μεταβλητών... p. Στην πολλαπλή παλινδρόμηση το άθροισμα των τετραγώνων των υπολοίπων μπορεί να εκφραστεί ως: SSE Y Y e e e Y b Y b Y H Y Y H Y Y Y Y H Y Y H Y Y H H Y Ανάλογα: Y Y Y H Y Y I H Y. SSR Y Y Y Y Y Y 89

90 ^ ^ ^ Y Y Y Y Y J Y H Y H Y Y J Y Y H Y Y J Y Y H J Y όπου J=* T και o x πίνακας ή πίνακας στήλη με στοιχεία του μονάδες. Επειδή SST=SSR+SSE, έχουμε πως: SST Y H J Y Y I H Y Y I J Y. Αυτές οι εκφράσεις αποτελούν τις τετραγωνικές μορφές. Όσον αφορά την ποσότητα MSE, όπως και στην απλή παλινδρόμηση, αποτελεί εκτιμητή της διακύμανσης Απόδειξη:. e SSE ee MSE s, p p p E MSE E e e E tr e e, p p όπου tr (trace) το ίχνος του πίνακα. Όμως, e QY Q I H I I I H Q. 90

91 Οπότε: E tr e e E tr Q Q E tr QQ E tr Q Τελικά έχουμε ότι: tr E Q tr QE tr Q I tr Q tr I H tr I tr I tr tr tr I tr I tr I p p E MSE E e e p p p που σημαίνει ότι η ποσότητα MSE αποτελεί αμερόληπτο εκτιμητή της διακύμανσης. Στην πολλαπλή παλινδρόμηση υπάρχουν και κάποια επιπλέον αθροίσματα τετραγώνων, τα οποία μετρούν την περιθώρια αύξηση στα αθροίσματα τετραγώνων της παλινδρόμησης όταν μία ή περισσότερες μεταβλητές προστίθενται στο μοντέλο παλινδρόμησης. Η περιθώρια αύξηση προσθέτοντας την σε ένα μοντέλο που ήδη έχει την, θα συμβολίζεται ως: \, SSR SSR SSR, το οποίο είναι ισοδύναμο με την έκφραση: \, SSR SSE SSE.., 9

92 Όταν στο μοντέλο υπάρχουν k μεταβλητές Χ, τότε θα υπάρχουν k! αποσυνθέσεις των μεταβλητών Χ. Για παράδειγμα, στην περίπτωση που έχουμε k=3 μεταβλητές Χ, ισχύει ότι:,, 3 \ 3 \,, 3, 3 \ \, 3,, 3 \ 3 \,, 3, 3 \ \, 3 3,, 3 \ 3 \, 3,, SSR SSR \ SSR \, SSR SSR SSR SSR SSR SSR SSR SSR SSR SSR SSR SSR SSR SSR SSR SSR SSR SSR SSR SSR SSR Συντελεστής προσδιορισμού Η αναλογία της συνολικής διασποράς η οποία ερμηνεύεται από την παλινδρόμηση, ονομάζεται συντελεστής προσδιορισμού και ισούται με το τετράγωνο του συντελεστή συσχέτισης του Pearso r. Το μέτρο αυτό συμβολίζεται με R και αποτελεί ένα μέτρο του βαθμού προσαρμογής του επιπέδου παλινδρόμησης στις παρατηρήσεις του δείγματος. Ουσιαστικά μετράει την ερμηνευτική ικανότητα της εξίσωσης παλινδρόμησης και υπολογίζεται από τον τύπο: R SSR SSE SST SST. Το πρόβλημα με τον συντελεστή πολλαπλού προσδιορισμού είναι ότι η τιμή του αυξάνει πάντα όταν αυξάνει ο αριθμός των ανεξάρτητων μεταβλητών, αφού προσθέτοντας ανεξάρτητες μεταβλητές βελτιώνουμε το μοντέλο με αποτέλεσμα να μειώνεται το άθροισμα των τετραγώνων των σφαλμάτων SSE, ενώ η ποσότητα SST παραμένει σταθερή. Προσθέτοντας όμως μια ανεξάρτητη μεταβλητή μπορεί να αυξάνουμε την τιμή του συντελεστή πολλαπλού προσδιορισμού, χάνουμε όμως έναν βαθμό ελευθερίας. Για τον λόγο αυτό χρησιμοποιούμε ένα τροποποιημένο μέτρο, τον διορθωμένο συντελεστή πολλαπλού προσδιορισμού R a, που εκτός από την ποσότητα SSE λαμβάνει υπόψη και τους βαθμούς ελευθερίας. Ο υπολογισμός του διορθωμένου συντελεστή πολλαπλού προσδιορισμού γίνεται μέσω του τύπου: 9

93 R SSE SST SSE. p SST p a Εκτός από τα μέτρα αυτά, υπάρχουν και οι μερικοί συντελεστές προσδιορισμού. Οι μερικοί συντελεστές προσδιορισμού μετρούν το καθαρό ποσοστό της μεταβλητότητας της εξαρτημένης μεταβλητής που ερμηνεύεται από την ανεξάρτητη μεταβλητή, απαλλαγμένη από την επίδραση άλλων μεταβλητών στο υπόδειγμα παλινδρόμησης. Έτσι, στο πολλαπλό μοντέλο παλινδρόμησης με μερικούς συντελεστές παλινδρομήσεως, ο μερικός συντελεστής προσδιορισμού ανάμεσα στην Υ και την, υπό τον περιορισμό ότι οι υπόλοιπες παραμένουν σταθερές, είναι: Y, r Y Y. Σε ένα μοντέλο με δύο ανεξάρτητες μεταβλητές Χ, μπορούμε να ορίσουμε τον μερικό συντελεστή προσδιορισμού μεταξύ της Υ και της ενώ η είναι ήδη στο μοντέλο, να είναι: r Y. SSR \ SSE Ανάλογα, ο μερικός συντελεστής προσδιορισμού μεταξύ της Υ και της ενώ η είναι ήδη στο μοντέλο, είναι: r Y. SSR \ SSE Επιπλέον, σε ένα μοντέλο με τρεις ή περισσότερες μεταβλητές Χ μπορούμε να ορίσουμε μερικούς από τους παρακάτω μερικούς συντελεστές προσδιορισμού: r Y.3 SSR \, SSE,

94 r r Y.3 SSR \, SSE, 3 3 SSR \,, 4 3 Y 4.3 κ.ο.κ. SSE,, 3.8 Έλεγχος του υποδείγματος.8. Έλεγχοι υποθέσεων Στην πολλαπλή παλινδρόμηση λόγω των περισσότερων συντελεστών παλινδρομήσεως, έχουμε μεγαλύτερο αριθμό ελέγχων. Δηλαδή: Έστω ότι έχουμε ένα μοντέλο της μορφής Y... με =,..., και πως έχουμε να 0 p p κάνουμε τον έλεγχο της υπόθεσης: H : 0 0 k έναντι της H : 0 k. Σε αυτήν την περίπτωση, βρίσκουμε το μοντέλο που προκύπτει κάτω από την ισχύ της μηδενικής υπόθεσης και υπολογίζουμε τον αντίστοιχο πίνακα ανάλυσης διασποράς. Ο F-μερικός έλεγχος θα γίνει μέσω της ποσότητας: F SSR F SSR R SSE R SSE F df df df df SSE F SSE F R F R F, df F όπου ο δείκτης F απευθύνεται στο πλήρες μοντέλο και ο δείκτης R αφορά το ελαττωμένο μοντέλο, σύμφωνα με την ισχύ της μηδενικής υπόθεσης. Η ποσότητα αυτή ακολουθεί F κατανομή με df df, df βαθμούς ελευθερίας. df F R F F Έτσι έχουμε ότι η μηδενική υπόθεση απορρίπτεται αν: F F df df, df, a R F F όπου α είναι το επιθυμητό επίπεδο σημαντικότητας. 94

95 Εναλλακτικά, μπορούμε να κάνουμε χρήση του ανεξάρτητου t-ελέγχου όπως στην απλή γραμμική παλινδρόμηση, όπου: t b s k b k και έχουμε ότι η μηδενική υπόθεση απορρίπτεται αν: t a. t p, Στην περίπτωση που ο έλεγχος είναι μονόπλευρος, δηλαδή είναι της μορφής: H : 0 0 k έναντι της H : 0 k η απόρριψη της μηδενικής υπόθεσης θα γινόταν αν: t. t p, a Στην περίπτωση που ο έλεγχος είναι μονόπλευρος, δηλαδή είναι της μορφής: H : 0 0 k έναντι της H : 0 k η απόρριψη της μηδενικής υπόθεσης θα γινόταν αν: t t p, a Έστω τώρα, ότι έχουμε ένα μοντέλο της μορφής Y και 0 q q q, q p, p θέλουμε να κάνουμε τον έλεγχο: H :... 0 έναντι της H : τουλάχιστον ένα 0 για =q,..,p-. 0 q q p Ο υπολογισμός της ποσότητας F του F-μερικού ελέγχου, θα γίνει μέσω του τύπου: 95

96 SSR F SSR R SSR,...,,,..., SSR,..., SSR,..., \,..., q q p q q p q q p dfr dff p q F SSE F SSE,..., SSE,..., dff p p p p και η απόρριψη της μηδενικής υπόθεσης θα συμβεί αν και εφόσον: F F p q, p, a Ο έλεγχος αυτός είναι γνωστός σαν Wald Test και χρησιμοποιείται όταν θέλουμε να ελέγξουμε αν ένα υποσύνολο των ανεξάρτητων μεταβλητών έχει στατιστικά σημαντική επίδραση στην ερμηνευόμενη μεταβλητή. Αν τώρα έχουμε ένα μοντέλο της μορφής Y... για =,..., και θέλουμε να 0 p, p κάνουμε τον έλεγχο: H0... p 0 έναντι της H : τουλάχιστον ένα 0 για =,...,p-, τότε η ελεγχοσυνάρτηση F του F-ολικού ελέγχου θα ήταν η: F SSR,..., p p SSE p MSR MSE και η απόρριψη της μηδενικής υπόθεσης θα γινόταν αν: F Fp, p, a Ένας άλλος έλεγχος που μπορούμε να κάνουμε σε ένα μοντέλο της μορφής Y... για =,...,, είναι: 0 p, p H : k έναντι της H : k. 0 Σε αυτήν την περίπτωση θεωρούμε τον εκτιμητή b b. Αρχικά πρέπει να βρούμε την μέση τιμή του και στην συνέχεια να υπολογίσουμε την διασπορά του. Συνεπώς: 96

97 E b b E b E b, αφού οι συντελεστές b, b είναι αμερόληπτοι εκτιμητές των, αντίστοιχα. Έπειτα: *, b 4 4 b b, b V b b V b V b Cov b b Επομένως, αφού το διάνυσμα b ακολουθεί πολυδιάστατη κανονική κατανομή και κάθε b0, b,..., bp ακολουθεί μονοδιάστατη κανονική κατανομή, άρα και κάθε γραμμικός συνδυασμός τους ακολουθεί επίσης κανονική κατανομή και έτσι: Τυποποιώντας, b b N, 4 4. b b b, b b b 4 4 b b b, b N 0,. Καθώς όμως δεν γνωρίζουμε τις πληθυσμιακές διακυμάνσεις και συνδιακυμάνσεις, θα χρησιμοποιήσουμε τις αντίστοιχες εκτιμήτριες τους και θα έχουμε πως: b b a p, sb 4s 4 b s b, b t Αυτό που μας μένει για να κάνουμε τον παραπάνω έλεγχο, είναι να b b bb k συγκρίνουμε την τιμή t s 4s 4s s 4s 4s b b b, b b b b, b κάτω από την ισχύ της μηδενικής υπόθεσης, με την τιμή t p, a. Η απόρριψη της μηδενικής υπόθεσης θα συμβεί στην περίπτωση που: t a t p, 97

98 Με την μεθοδολογία αυτή μπορούμε να κάνουμε ελέγχους για οποιονδήποτε γραμμικό συνδυασμό των συντελεστών της παλινδρομήσεως..8. Διαστήματα εμπιστοσύνης Για κάθε έναν από τους συντελεστές για =0,,...,p-, μπορούμε να κατασκευάσουμε διάστημα εμπιστοσύνης. Τα διαστήματα εμπιστοσύνης κατασκευάζονται με τον ίδιο ακριβώς τρόπο όπως αυτόν που είδαμε στην απλή γραμμική παλινδρόμηση και έχουν επίσης την ίδια ερμηνεία. Έτσι το 00(-α)% διάστημα εμπιστοσύνης για τον συντελεστή είναι: της πολλαπλής παλινδρόμησης b t s, p, a b όπου b είναι η εκτιμήτρια ελαχίστων τετραγώνων του, a t p, είναι το (α/) ποσοστιαίο σημείο της κατανομής t με -p βαθμούς ελευθερίας και εκτιμήτρια της τυπικής απόκλισης του b. s b είναι η Έστω τώρα ότι θέλουμε να εξετάσουμε από κοινού τις παραμέτρους του μοντέλου μας: αν A το ενδεχόμενο ο συντελεστής να μην ανήκει στο διάστημα εμπιστοσύνης και αν A το ενδεχόμενο ο συντελεστής να μην ανήκει στο διάστημα εμπιστοσύνης και θέλουμε P A a και P A a, τότε: c c c P A A P A A P A A P A P A P A A a a a a. Στην περίπτωση που, ισχύει ότι το ταυτόχρονο διάστημα εμπιστοσύνης είναι της μορφής: 98

99 b t s για =, a *, b p και αποτελεί ένα διάστημα εμπιστοσύνης για τις παραμέτρους και με συντελεστή εμπιστοσύνης τουλάχιστον -α. Κατά την κατασκευή ταυτόχρονων διαστημάτων εμπιστοσύνης με την μέθοδο Boferro, η πλέον συνήθης επιλογή για τις ποσότητες και είναι η συμμετρική:. Σε αυτή την εκδοχή, το ταυτόχρονο διάστημα εμπιστοσύνης είναι της μορφής: b B s για =,, όπου * b B t. a p, * Επαγωγικά, για την δημιουργία ταυτόχρονων διαστημάτων εμπιστοσύνης για οποιεσδήποτε από τις k παραμέτρους 0,,..., p του κανονικού μοντέλου πολλαπλής παλινδρόμησης με k p, αποδεικνύεται ότι: c c c... k c k... k P A A A P A a a a και αν τα,,..., k επιλεγούν έτσι ώστε... k, τότε το ταυτόχρονο διάστημα εμπιστοσύνης ορίζεται ως: b t s για =,...,p- a *, b p και αποτελεί ένα διάστημα εμπιστοσύνης για τις παραμέτρους,,..., συντελεστή εμπιστοσύνης τουλάχιστον -α. Στην κατασκευή ταυτόχρονων διαστημάτων εμπιστοσύνης με την μέθοδο k με Boferro όπως αναφέραμε, η πλέον συνήθης επιλογή για τις ποσότητες,,..., k είναι η συμμετρική:... k. k 99

100 Σε αυτή την εκδοχή, το ταυτόχρονο διάστημα εμπιστοσύνης είναι της μορφής: b B s για =,,...,k όπου * b B t. a p, * k Η ευελιξία που υπάρχει στη μέθοδο Boferro για την επιλογή των,,..., k, μας δίνει την δυνατότητα να αποφασίσουμε εμείς σε ποιές παραμέτρους του ταυτόχρονου διαστήματος εμπιστοσύνης θα δώσουμε ιδιαίτερη βαρύτητα, επιλέγοντας στην πιο σημαντική να τοποθετήσουμε το μεγαλύτερο μέρος του κατά την διάσπαση... k..8.3 Διάστημα εμπιστοσύνης για προβλέψεις Σε αυτήν την ενότητα θα βρούμε διαστήματα εμπιστοσύνης για μια συγκεκριμένη τιμή τόσο της εξαρτημένης μεταβλητής, όσο και του μέσου όρου της. Ενδιαφερόμαστε λοιπόν να προβλέψουμε την επόμενη τιμή της Y και του μέσου όρου της για δεδομένο. Μια άριστη, γραμμική και αμερόληπτη πρόβλεψή της: Y... 0, p, p είναι η: 0,... p, p Y b b b b όπου:,,, p. Έχουμε λοιπόν ότι: E Y E b E Y 00

101 Έπειτα, επειδή έχουμε δείξει πως b N, p, ισχύει ότι: V Y V b V b με αμερόληπτη εκτιμήτρια την ποσότητα: Επομένως: s MSE Y. Y E Y Y N 0, και Y E Y s Y t t p Άρα το ζητούμενο διάστημα εμπιστοσύνης για την πρόβλεψη της μέσης τιμής της εξαρτημένης μεταβλητής είναι: Y t as p, Y Ανάλογα μπορούμε να υπολογίσουμε το διάστημα εμπιστοσύνης για μια συγκεκριμένη τιμή της εξαρτημένης μεταβλητής. Αρχικά ορίζουμε το σφάλμα πρόβλεψης: r Y Y Ισχύει ότι: E r E Y Y E Y E Y 0 και V r V Y Y V Y V Y. 0

102 Παίρνοντας όπου τον εκτιμητή του εκτιμητή της διασποράς του σφάλματος πρόβλεψης: Επομένως, s, λαμβάνουμε τον αμερόληπτο s r s. r E r V r N 0, και Y Y t t p sr και το ζητούμενο διάστημα εμπιστοσύνης για την πρόβλεψη μιας συγκεκριμένης τιμής της εξαρτημένης μεταβλητής είναι: Y t s. a r p,.9 Επιλογή μεταβλητών Σε κάποια προβλήματα παλινδρόμησης, έχουμε στην διάθεσή μας δεδομένα από πολλούς παράγοντες που μπορεί να επηρεάζουν την εξαρτημένη μεταβλητή που μας ενδιαφέρει να καθορίσουμε ή να προβλέψουμε. Θα θέλαμε λοιπόν να επιλέξουμε το μικρότερο δυνατό υποσύνολο ανεξάρτητων μεταβλητών που εξηγεί το ίδιο καλά την εξαρτημένη μεταβλητή, όπως συμβαίνει και με τα μεγαλύτερα υποσύνολα ανεξάρτητων μεταβλητών ή ακόμα και ολόκληρο το σύνολο των ανεξάρτητων μεταβλητών. Σε μια πρώτη προσέγγιση, η λύση είναι να βρούμε όλα τα δυνατά μοντέλα για όλους τους συνδυασμούς των ανεξάρτητων μεταβλητών και με βάση τον προσαρμοσμένο συντελεστή πολλαπλού προσδιορισμού, να βρούμε αυτό το μοντέλο που προσαρμόζεται καλύτερα. Αυτή η μέθοδος, αν και απλή στην σκέψη, δεν χρησιμοποιείται στην πράξη λόγω του μεγάλου αριθμού ανεξάρτητων μεταβλητών που μπορεί να έχουμε. Εναλλακτικά, υπάρχουν κάποιες άλλες μέθοδοι που υπολογίζουν το βέλτιστο μοντέλο πολλαπλής παλινδρόμησης βηματικά και αυτές είναι: 0

103 . Η μέθοδος απαλοιφής προς τα πίσω (backward elmato) Στην μέθοδο αυτή ξεκινάμε περιλαμβάνοντας όλες τις μεταβλητές στο μοντέλο και σε κάθε βήμα αποκλείεται μια μεταβλητή που δεν έχει σημαντική συνεισφορά σε αυτό. Η πρώτη μεταβλητή που αφαιρείται, είναι αυτή με το μικρότερο συντελεστή πολλαπλού προσδιορισμού R και η διαδικασία συνεχίζεται έως ότου η αφαίρεση μεταβλητών συνεπάγεται σημαντική μείωση του R.. Η μέθοδος επιλογής προς τα μπρος (forward selecto) Σε αυτήν την μέθοδο ξεκινάμε με το μοντέλο που δεν έχει καμία μεταβλητή και στη συνέχεια προσθέτουμε κάθε φορά από μια μεταβλητή που έχει σημαντική συνεισφορά στο μοντέλο. Η πρώτη μεταβλητή είναι αυτή που έχει την υψηλότερη συσχέτιση με την εξαρτημένη μεταβλητή και στη συνέχεια επιλέγονται κατά σειρά σημαντικότητας οι επόμενες μεταβλητές. 3. Η διαδικασία της βηματικής παλινδρόμησης (stepwse regresso) Η διαδικασία της βηματικής παλινδρόμησης είναι παρόμοια με την μέθοδο επιλογής προς τα μπρος, με την μόνη διαφορά ότι σε κάθε βήμα ελέγχεται αν οι μεταβλητές οι οποίες έχουν ήδη προστεθεί είναι ακόμα σημαντικές..9. Πολυσυγγραμμικότητα Ένα ζήτημα που δημιουργείται κατά την επιλογή των μεταβλητών, είναι και το πρόβλημα της πολυσυγγραμμικότητας. Στην πολλαπλή παλινδρόμηση είναι δυνατό κάποιες από τις ανεξάρτητες μεταβλητές,,..., p να είναι γραμμικά εξαρτημένες με συνέπεια ο πίνακας πληροφορίας να μην αντιστρέφεται, αφού η ορίζουσά του είναι ίση με μηδέν και έτσι να μην μπορούν να βρεθούν οι εκτιμητές b. Αυτό είναι γνωστό ως το πρόβλημα της πολυσυγγραμμικότητας ή πολλαπλής συγγραμμικότητας. Στην περίπτωση που υπάρχουν σφάλματα στρογγύλευσης, μπορεί η ορίζουσα του πίνακα να μην είναι ακριβώς μηδέν, αλλά πολύ κοντά στο μηδέν δημιουργώντας ξανά το πρόβλημα στην αντιστροφή του πίνακα Αυτό αφορά το πρόβλημα της ασθενούς πολυσυγγραμμικότητας.. 03

104 Το πρόβλημα της πολυσυγγραμμικότητας ή της ασθενούς πολυσυγγραμμικότητας μπορεί να προκύψει και από τις διαφορετικές μονάδες μέτρησης των μεταβλητών και έχει ως συνέπεια ορισμένες μεταβλητές να φαίνεται σημαντικές μέσω της p-τιμής σε κάποιο μοντέλο, ενώ παύουν να είναι σημαντικές όταν στο μοντέλο προσθέσουμε κι άλλες μεταβλητές. Αυτό μπορεί να δικαιολογηθεί αν σκεφτούμε πως η μεταβλητή που προσθέσαμε και που δείχνει να επηρεάζει την Υ, δεν καταφέρνει να την ερμηνεύσει όσο μια άλλη μεταβλητή που δεν έχει ακόμη συμπεριληφθεί στο μοντέλο. Εκτός αυτού, η ύπαρξη της πολυσυγγραμμικότητας μεταξύ των ανεξάρτητων μεταβλητών αυξάνει το μέγεθος των τυπικών σφαλμάτων, με αποτέλεσμα να είναι πολύ μεγαλύτερα και τα διαστήματα εμπιστοσύνης. Ένα απλό και συγχρόνως σημαντικό διαγνωστικό πολυσυγγραμμικότητας είναι ο παράγοντας διόγκωσης διασποράς (Varace Iflato Factor) VIF, ο οποίος για την ανεξάρτητη μεταβλητή με =,...,p- είναι: VIF, R όπου R ο συντελεστής προσδιορισμού του μοντέλου όταν η ως εξαρτημένη μεταβλητή και οι υπόλοιπες p- πλήθους j, j χρησιμοποιούνται ως ανεξάρτητες. Όταν η τιμή του VIF είναι μεγαλύτερη από 0, τότε η αντίστοιχη χρησιμοποιείται μεταβλητή δημιουργεί πρόβλημα πολυσυγγραμμικότητας σε σχέση με τις άλλες μεταβλητές στο μοντέλο, οπότε η αντίστοιχη εξαρτημένη μεταβλητή θα πρέπει να αφαιρεθεί και να γίνει ανάλυση παλινδρόμησης χωρίς αυτήν. Αν όμως η τιμή του δείκτη VIF είναι σχεδόν μοναδιαία, τότε η αντίστοιχη ανεξάρτητη μεταβλητή δεν έχει πρόβλημα πολυσυγγραμμικότητας. Ως ένα ομοιόμορφο κριτήριο για τον έλεγχο μη ύπαρξης πολυσυγγραμμικότητας στο σύνολο των δεδομένων, έχει προταθεί η χρήση του μέσου όρου: VIF p VIF p 04

105 Τιμές του δείκτη VIF κάποιοι από τους δείκτες πολύ μεγαλύτερες της μονάδας, δείχνουν ότι κάποιος ή VIF για =,...,p- έχουν λάβει τιμές μεγαλύτερες της μονάδας, οπότε έχουμε ένδειξη ύπαρξης πολυσυγγραμμικότητας. Η διαπίστωση της πολυσυγγραμμικότητας έχοντας τον δείκτη να γίνει και με τον συντελεστή ανεκτικότητας (Tolerace Itex), όπου: VIF μπορεί TOL R VIF Τιμή του συντελεστή ανεκτικότητας κοντά στο μηδέν δηλώνει πιθανή συσχέτιση, ενώ τιμή κοντά στο ένα το αντίθετο. Το πρόβλημα της πολυσυγγραμμικότητας όταν αυτό προκαλείται από σφάλματα στρογγυλοποιήσεων, θα μπορούσε να αντιμετωπιστεί με το να κρατάμε έναν ικανοποιητικό αριθμό ψηφίων στους υπολογισμούς. Αυτό βέβαια στην περίπτωση που ο αριθμός των μεταβλητών Χ είναι μικρός, γιατί στην περίπτωση που έχουμε έναν μεγάλο αριθμό μεταβλητών Χ μπορούν να προκληθούν σημαντικές επιδράσεις της στρογγυλοποίησης στο μοντέλο. Μια λύση που προκύπτει ανεξάρτητα από το πλήθος των μεταβλητών Χ, είναι να μετασχηματίσουμε τις μεταβλητές λαμβάνοντας ένα νέο μοντέλο παλινδρομήσεως. Ο μετασχηματισμός αυτός καλείται μετασχηματισμός συσχέτισης και αφορά την τυποποίηση των μεταβλητών. Για την τυποποίηση όπως ξέρουμε κεντράρουμε τις παρατηρήσεις, αφαιρώντας από τις τιμές των μεταβλητών τον μέσο όρο όλων των παρατηρήσεων για την μεταβλητή. Έπειτα, διαιρούμε τις κεντροποιημένες παρατηρήσεις με την τυπική απόκλιση των παρατηρήσεων για την μεταβλητή. Με τον τρόπο αυτό παίρνουμε τις τυποποιημένες μεταβλητές: Y Y Y s και k s k k με k=,...,p-, όπου: 05

106 s Y Y Y και s k k k Ο μετασχηματισμός συσχέτισης οδηγεί όλες τις μετασχηματισμένες μεταβλητές να πέφτουν ανάμεσα στο διάστημα - και και η μορφή τους είναι: Y Y Y και s Y k k k s k με k=,...,p-. Ισχύει: Y Y E Y E E Y Y 0 s Y sy και Y. Y Y Y Y s Y sy s Το μοντέλο παλινδρομήσεως με τις μετασχηματισμένες μεταβλητές k, όπως αυτές ορίστηκαν παραπάνω, καλείται τυποποιημένο μοντέλο παλινδρομήσεως και είναι της μορφής: Y και Y... p, p Ο λόγος που δεν υπάρχει η σταθερά είναι διότι και να υπήρχε, οι υπολογισμοί των ελαχίστων τετραγώνων και της μέγιστης πιθανοφάνειας θα οδηγούσαν σε μηδενική εκτίμηση της σταθεράς. Μπορούμε να δείξουμε ότι οι συντελεστές,..., p του τυποποιημένου μοντέλου παλινδρομήσεως και οι συντελεστές,..., p στο συνηθισμένο μοντέλο παλινδρομήσεως συνδέονται με τις σχέσεις: s k s Y k k με k=,...,p-. 06

107 Απόδειξη: Έστω ότι έχουμε το μοντέλο: Y 0 Y Y Y 0 Y Y Y Y αφού Y Y 0 0 Y Y Y Y s s s s Y Y s s Y Δηλαδή, s και sy s sy. Γενικότερα προκύπτει ότι k s k k. sy Προκειμένου να μελετήσουμε τον πίνακα και τις κανονικές εξισώσεις, θα πρέπει θα βρούμε τον πίνακα συσχετίσεων που περιέχει όλα τα ζεύγη συσχετίσεων των συντελεστών μεταξύ των μεταβλητών Y,,,..., p σε δύο πίνακες. Ο πίνακας συσχετίσεων των μεταβλητών Χ είναι: r r r r, p, p r p, p, r r 07

108 με την ποσότητα r j να αποτελεί τον συντελεστή απλής συσχέτισης μεταξύ των μεταβλητών και j. Τα διαγώνια στοιχεία είναι μονάδες, αφού η συσχέτιση μιας μεταβλητής με τον εαυτό της είναι τέλεια, ενώ παρατηρούμε πως ο πίνακας είναι συμμετρικός μιας και rj rj. Ανάλογα, ο πίνακας στήλη που περιέχει τους συντελεστές απλής συσχέτισης μεταξύ των μεταβλητών Υ και Χ είναι: r Y r r r Y Y Y, p Μπορούμε τώρα να ορίσουμε τον πίνακα Χ, όπου χωρίς να περιέχει τον σταθερό όρο το μοντέλο έχει την μορφή:, p, p, p Έχουμε λοιπόν ότι ο πίνακας είναι ίδιος με τον πίνακα συσχετίσεων των μεταβλητών Χ και κάθε στοιχείο του, ως αποτέλεσμα του παραπάνω μετασχηματισμού, έχει τιμή από - έως και έχουν την ίδια μονάδα μέτρησης. Για τα στοιχεία του πίνακα ισχύει πως: s s και s s 08

109 s s / Για την εκτίμηση των παραμέτρων του συνηθισμένου μοντέλου πολλαπλής παλινδρόμησης, είχαμε αποδείξει τις κανονικές εξισώσεις ισορροπίας όπου: b Y Όμως, όπως είδαμε παραπάνω r και επιπλέον κανονικές εξισώσεις ισορροπίας έρχονται στην παρακάτω μορφή: Y r Y. Έτσι οι r b r Y Από εδώ προκύπτουν οι εκτιμήσεις των συντελεστών παλινδρομήσεως, που ονομάζονται τυποποιημένοι συντελεστές παλινδρομήσεως και υπολογίζονται όπως ακολούθως: b r r Y Η επιστροφή μας στο αρχικό συνηθισμένο μοντέλο μπορεί να γίνει μέσω των σχέσεων: b k s s Y k b k που αποδείξαμε παραπάνω, αλλά και της σχέσης: b Y b... b p 0 p όπως δείξαμε στο απλό μοντέλο παλινδρόμησης στο πρώτο κεφάλαιο. 09

110 .0 Ψευδομεταβλητές Πολλές φορές συμβαίνει οι εξαρτημένες μεταβλητές να μην είναι ποσοτικές και να παίρνουν αριθμητικές τιμές, αλλά να είναι κατηγορικές. Ένα άτομο ή μια κατάσταση μπορεί να προσδιορίζεται ως ανήκον σε μια από τις πολλές και αμοιβαία ξένες μεταξύ τους κατηγορίες ή επίπεδα. Προκειμένου να καταστεί δυνατόν να περιληφθούν τέτοιες καταστάσεις σε ένα στατιστικό μοντέλο, χρειάζεται να ορισθούν μεταβλητές που θα προσδώσουν αριθμητική έκφραση σε ποιοτικά ή κατηγορικά χαρακτηριστικά. Για τις περιπτώσεις αυτές, χρησιμοποιούνται οι λεγόμενες εικονικές μεταβλητές ή ψευδομεταβλητές (dummy varables). Οι μεταβλητές αυτές συνήθως χρησιμοποιούνται για να εκφράσουν δύο κατηγορίες, οπότε είναι δίτιμες. Στην περίπτωση των πολυεπίπεδων ανεξάρτητων ποιοτικών μεταβλητών με ν επίπεδα, χρησιμοποιούνται ν- ψευδομεταβλητές ώστε να είναι γραμμικά ανεξάρτητες και μπορεί να είναι δίτιμες ή να παίρνουν περισσότερες από δύο κατηγορίες. Έστω ότι έχουμε ένα μοντέλο της μορφής: Y D, 0 όπου D είναι μια δίτιμη μεταβλητή με τιμές 0 και και ονομάζεται ψευδομεταβλητός παλινδρομητής ή μεταβλητής δείκτης. Όταν ο ψευδομεταβλητός παλινδρομητής πάρει την τιμή 0 προκύπτει το μοντέλο: Y, 0 όταν πάρει όμως την τιμή προκύπτει το μοντέλο: Y. 0 Η διαφορά των δύο μοντέλων έγκειται στον σταθερό όρο και η μορφή τους σε ένα γράφημα παρουσιάζεται παρακάτω. 0

111 Εικόνα. Κάπου εδώ θα μπορούσαμε να κάνουμε τον έλεγχο της μηδενική υπόθεσης H0 : 0 έναντι της εναλλακτικής υπόθεσης H: 0. Έστω τώρα ότι έχουμε ένα μοντέλο της μορφής: Y D 0 όπου D ο ψευδομεταβλητός παλινδρομητής, που όταν πάρει την τιμή 0 μας δίνει το μοντέλο: Y, 0 ενώ όταν πάρει την τιμή προκύπτει το μοντέλο: Y. 0 Η διαφορά των δύο μοντέλων έγκειται στην κλίση τους και η μορφή τους σε ένα γράφημα παρουσιάζεται παρακάτω.

112 Εικόνα.3 Σε αυτήν την περίπτωση θα μπορούσαμε και πάλι να ελέγξουμε την μηδενική υπόθεση H0 : 0 έναντι της εναλλακτικής H: 0. Ως τρίτη και τελευταία περίπτωση θεωρούμε αυτήν που αφορά ένα μοντέλο της μορφής: Y D D, 0 3 όπου ο ψευδομεταβλητός παλινδρομητής μοντέλο: D όταν παίρνει την τιμή 0 μας δίνει το Y, 0 ενώ όταν πάρει την τιμή μας δίνει το μοντέλο: Y. 0 3 Σε αυτήν την περίπτωση η διαφορά των δύο μοντέλων έγκειται τόσο στην σταθερά όσο και στην κλίση και το γράφημά τους θα είναι της μορφής:

113 Εικόνα.4 Εδώ μπορούν να γίνουν τρεις διαφορετικοί έλεγχοι:. H0 : 0 έναντι της H: 0,. H0 : 3 0 έναντι της H: 3 0, H : 0 έναντι της H : κάποια τουλάχιστον διαφορετική από το μηδέν.. Εφαρμογές στην R Στην ενότητα αυτή θα δούμε πως μπορούμε να κάνουμε εκτίμηση παραμέτρων, ανάλυση διασποράς, υπολογισμό του συντελεστή προσδιορισμού, εύρεση διαστημάτων εμπιστοσύνης, προβλέψεις, επιλογή βέλτιστου μοντέλου κ.α. μέσω της R. Παράδειγμα : Τα δεδομένα παρακάτω προέρχονται από το περιοδικό Motor Tred των ΗΠΑ 974 και περιλαμβάνουν την κατανάλωση καυσίμου (mpg) και 0 πτυχές του σχεδιασμού των αυτοκινήτων και απόδοσης για 3 αυτοκίνητα, με μοντέλα έτους Για να μπορέσουμε να δούμε στην πράξη τα δεδομένα αυτά, πληκτρολογούμε στην R τις εντολές data=mtcars και έπειτα prt(data). 3

114 Έχουμε λοιπόν 3 παρατηρήσεις, μεταβλητών. Η μεταβλητές περιγράφουν:. mpg μίλι/(ηπα) γαλόνι,. cly αριθμός των κυλίνδρων, 3. dsp κυβισμός, 4. hp ιπποδύναμη, 5. drat αναλογία πίσω άξονα, 6. wt βάρος (λίβρες / 000), 7. qsec το χρονικό διάστημα που έχει παρέλθει κάτω από το μήκος /4 μίλι, 8. vs V/ευθύς, πρόκειται για την μορφή του κινητήρα (0 για τον κινητήρα με V διάταξη και για τους κινητήρες που διατάσσονται σε ευθεία), 9. am κιβώτιο ταχυτήτων (0 για το αυτόματο και για το χειροκίνητο), 0. gear αριθμός ταχυτήτων για να κινηθούμε μπροστά,. carb αριθμός καρμπυρατέρ. Αφού εμφανίσουμε τα δεδομένα, ίσως να μην θέλουμε να χρησιμοποιούμε τις ονομασίες cly, dsp, κ.τ.λ για τις ανεξάρτητες μεταβλητές, αλλά να τις παραστήσουμε με, κ.ο.κ. Για τον σκοπό αυτό πληκτρολογούμε: attach(data) 4

115 Y=mpg;=cyl;=dsp;3=hp;4=drat;5=wt;6=qsec;7=vs;8=am;9=gear; 0=carb Στην συνέχεια θα μπορούσαμε να ορίσουμε τον πίνακα Χ με πρώτη στήλη το μοναδιαίο διάνυσμα και τις υπόλοιπες στήλες με τις,,..., 0. Αυτό επιτυγχάνεται με την εντολή: =cbd(rep(,3),,,3,4,5,6,7,8,9,0). Για την εύρεση των εκτιμήσεων των παραμέτρων της παλινδρομήσεως, χρησιμοποιούμε την εντολή: model=lm(y) ή model=lm(y ) Από τα αποτελέσματα: Coeffcets: (Itercept) συμπεραίνουμε ότι η προσαρμοσμένη συνάρτηση για τα δεδομένα μας είναι η: ^ Y Εναλλακτικά, μπορούμε να κάνουμε τις εκτιμήσεις των παραμέτρων με τους τύπους που αποδείξαμε στην θεωρία. Αυτό μπορεί να γίνει με τις εντολές: t=t()%*% Υπολογισμός του πίνακα ΧΧ t= solve(t) Υπολογισμός του πίνακα(χχ) - ty= t() %*% Y Υπολογισμός του πίνακα ΧΥ YtY= sum(y^) Υπολογισμός της ποσότητας ΥΥ bhat= t %*% ty Εκτίμηση των συντελεστών παλινδρόμησης 5

116 Με τα αποτελέσματα να είναι ίδια με αυτά της εντολής lm. Αν τώρα είχαμε ένα πολυωνυμικό υπόδειγμα δευτέρου βαθμού της μορφής Y μη γραμμικό ως προς τις ανεξάρτητες μεταβλητές Χ, η εντολή lm θα γραφόταν στην μορφή: model=lm(yχ+ι(χ^)+ι(χ3^3)) με την συνάρτηση Ι() να χρησιμοποιείται για την ύψωση της ανεξάρτητης μεταβλητής Χ σε κάποια δύναμη. Ανάλογα για ένα μη γραμμικό μοντέλο ως προς τις ανεξάρτητες μεταβλητές της μορφής Y l l, η εύρεση των παραμέτρων 0 παλινδρομήσεως θα γινόταν με την εντολή: model=lm(ylog()+log()) Στην συνέχεια, πληκτρολογούμε την εντολή aova(model) προκειμένου να πάρουμε τον πίνακα ανάλυσης διασποράς. Aalyss of Varace Table Respose: Y Df Sum Sq Mea Sq F value Pr(>F) e-0 *** * **

117 Resduals Sgf. codes: 0 *** 0.00 ** 0.0 * Πιο απλά ο πίνακας ανάλυσης διασποράς είναι: Πηγή Μεταβλητότητας Παλινδρόμηση (Regresso) Άθροισμα Τετραγώνων Βαθμοί Ελευθερίας Μέσο άθροισμα Τετραγώνων Έλεγχος SSR MSR F 3.93 Υπόλοιπα (Error) SSE MSE 7.0 Σύνολο (Total) SST F Έπειτα, χρησιμοποιούμε την εντολή summary(model) ώστε να τυπώσουμε μια εκτενέστερη κατάσταση των παραμέτρων της παλινδρόμησης. Resduals: M Q Meda 3Q Max Coeffcets: Estmate Std. Error t value Pr(> t ) (Itercept)

118 Sgf. codes: 0 *** 0.00 ** 0.0 * Resdual stadard error:.65 o degrees of freedom Multple R-squared: 0.869, Adjusted R-squared: F-statstc: 3.93 o 0 ad DF, p-value: 3.793e-07 Αρχικά παίρνουμε κάποια στοιχεία που αφορούν τα κατάλοιπα. Έπειτα στην στήλη Std. Error δίνονται οι εκτιμήσεις των τυπικών σφαλμάτων για τους εκτιμητές ελαχίστων τετραγώνων 0,,..., 0, ενώ στην στήλη t-value δίνονται οι τιμές των στατιστικών συναρτήσεων ελέγχου. Από τις p-τιμές παρατηρούμε ότι επειδή όλες έχουν τιμή μεγαλύτερη είτε από το επίπεδο σημαντικότητας α=5%, είτε από το επίπεδο σημαντικότητας α=%, αποδεχόμαστε ότι όλοι οι εκτιμητές των παραμέτρων παλινδρόμησης ξεχωριστά δεν είναι στατιστικά σημαντικοί. Η τιμή F-statstcs=3.93 που είναι ίδια με αυτή που προέκυψε από τον πίνακα ανάλυσης διασποράς παραπάνω, και η p-τιμή=3.793e-07<0.00 μας οδηγεί στην απόρριψη της μηδενικής υπόθεσης H0 : , άρα το μοντέλο είναι στατιστικά σημαντικό. Τέλος, αναφέρεται η τιμή του συντελεστή πολλαπλού προσδιορισμού Multple R-squared=0.869 και η τιμή του προσαρμοσμένου συντελεστή προσδιορισμού Adjusted R-squared= Τα t-test της εντολής summary μετρούν την σημαντικότητα της προσθήκης μιας ανεξάρτητης μεταβλητής στο μοντέλο που ήδη περιέχει κάποιες άλλες μεταβλητές. Όταν η προσαρμογή ενός μοντέλου είναι σημαντική, αλλά οι p-τιμές για τις παραμέτρους είναι μεγάλες, είναι ένδειξη συγγραμμικότητας μεταξύ των ανεξάρτητων μεταβλητών. Όταν υπάρχει συγγραμμικότητα ανάμεσα στις ανεξάρτητες μεταβλητές, είναι δύσκολο να εκτιμήσουμε επακριβώς τις παραμέτρους του μοντέλου. Αρχικά, για να διαπιστώσουμε αν πραγματικά υπάρχει το φαινόμενο της συγγραμμικότητας, χρησιμοποιούμε την συνάρτηση rcorr(,y) για να υπολογίσουμε τις τιμές των συσχετίσεων ανά ζεύγη και τις p-τιμές, ή την εντολή 8

119 corrplot(data=mtcars) και στην συνέχεια την εντολή vf() για τον υπολογισμό του παράγοντα διόγκωσης διασποράς vf. Έχουμε λοιπόν: rcorr() NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN = 3 P

120 Παρατηρούμε ότι οι μεταβλητές και συσχετίζονται σε μεγάλο βαθμό. Το ίδιο συμβαίνει και με τις υπόλοιπες μεταβλητές που οι δείκτες συσχέτισης κατά απόλυτη τιμή είναι κοντά στην μονάδα και κατά συνέπεια η p-τιμή τους κοντά στο 0. corrplot(data=mtcars) Εικόνα.5 Για τον υπολογισμό του δείκτη vf(), έχουμε: vf(model)

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

9. Παλινδρόμηση και Συσχέτιση

9. Παλινδρόμηση και Συσχέτιση 9. Παλινδρόμηση και Συσχέτιση Παλινδρόμηση και Συσχέτιση Υπάρχει σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές; Αν ναι, ποια είναι αυτή η σχέση; Πως μπορεί αυτή η σχέση να χρησιμοποιηθεί για να προβλέψουμε

Διαβάστε περισσότερα

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7o Μάθημα: Απλή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Χ. Εμμανουηλίδης, 1

Χ. Εμμανουηλίδης, 1 Εφαρμοσμένη Στατιστική Έρευνα Απλό Γραμμικό Υπόδειγμα AΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟ ΕΙΓΜΑ Δρ. Χρήστος Εμμανουηλίδης Αν. Καθηγητής Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Εφαρμοσμένη Στατιστική, Τμήμα Ο.Ε. ΑΠΘ Χ. Εμμανουηλίδης,

Διαβάστε περισσότερα

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής Υποθέσεις του Απλού γραμμικού υποδείγματος της Παλινδρόμησης Η μεταβλητή ε t (διαταρακτικός όρος) είναι τυχαία μεταβλητή με μέσο όρο

Διαβάστε περισσότερα

Απλή Παλινδρόμηση και Συσχέτιση

Απλή Παλινδρόμηση και Συσχέτιση Απλή Παλινδρόμηση και Συσχέτιση Πωλήσεις, Δαπάνες Διαφήμισης και Αριθμός Πωλητών Έτος Πωλήσεις (χιλ ) Διαφήμιση (χιλ ) Πωλητές (Άτομα) Έτος Πωλήσεις (χιλ ) Διαφήμιση (χιλ ) Πωλητές (Άτομα) 98 050 6 3 989

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis) Μέρος V. Ανάλυση Παλινδρόμηση (Regresso Aalss) Βασικές έννοιες Απλή Γραμμική Παλινδρόμηση Πολλαπλή Παλινδρόμηση Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας () Βασικές έννοιες Έστω τ.μ. Χ,Υ όπου υπάρχει

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2 013 [Κεφάλαιο ] ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο Μάθημα Εαρινού Εξάμηνου 01-013 M.E. OE0300 Πανεπιστήμιο Θεσσαλίας Τμήμα Μηχανικών Χωροταξίας, Πολεοδομίας και Περιφερειακής Ανάπτυξης [Οικονομετρία 01-013] Μαρί-Νοέλ

Διαβάστε περισσότερα

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης Γραμμική Παλινδρόμηση και Συσχέτιση Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών Εξίσωση παλινδρόμησης Πρόβλεψη εξέλιξης Διμεταβλητές συσχετίσεις Πολλές φορές χρειάζεται να

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική

Εφαρμοσμένη Στατιστική ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Εφαρμοσμένη Στατιστική Παλινδρόμηση Διδάσκων: Επίκουρος Καθηγητής Κωνσταντίνος Μπλέκας Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης

Διαβάστε περισσότερα

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7ο μάθημα: Πολυμεταβλητή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 3η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 3η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Διοίκησης Επιχειρήσεων Γρεβενά Μάθημα: Οικονομετρία Διάλεξη 3η: Απλή Γραμμική Παλινδρόμηση Διδάσκουσα: Κοντογιάννη Αριστούλα Ιδιότητες εκτιμώμενης ευθείας παλινδρόμησης με τη μέθοδο των ελαχίστων

Διαβάστε περισσότερα

Διαχείριση Υδατικών Πόρων

Διαχείριση Υδατικών Πόρων Εθνικό Μετσόβιο Πολυτεχνείο Διαχείριση Υδατικών Πόρων Γ.. Τσακίρης Μάθημα 3 ο Λεκάνη απορροής Υπάρχουσα κατάσταση Σενάριο 1: Μέσες υδρολογικές συνθήκες Σενάριο : Δυσμενείς υδρολογικές συνθήκες Μελλοντική

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 2 Μαΐου 2017 1/23 Ανάλυση Διακύμανσης. Η ανάλυση παλινδρόμησης μελετά τη στατιστική σχέση ανάμεσα

Διαβάστε περισσότερα

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ Οικονομετρία 4.1 Πολλαπλό Γραμμικό Υπόδειγμα Παλινδρόμησης Γενικεύοντας τη διμεταβλητή (Y, X) συνάρτηση

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 5: Ανάλυση γραμμικού υποδείγματος Πολυμεταβλητή παλινδρόμηση (1 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: ageliki.papaa@gmail.com, agpapaa@auth.gr Webpage: http://users.auth.gr/agpapaa

Διαβάστε περισσότερα

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1) Σημειώσεις Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου Αθήνα -3-7 Εκτίμηση των Παραμέτρων β & β Απλό γραμμικό υπόδειγμα: Y X () Η αναμενόμενη τιμή του Υ, δηλαδή, μέση τιμή του Υ, δίνεται παρακάτω: EY ( ) X EY

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 10: Οικονομετρικά προβλήματα: Παραβίαση των υποθέσεων Β μέρος: Ετεροσκεδαστικότητα Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ Ι ΦΥΛΛΑΔΙΟ

ΟΙΚΟΝΟΜΕΤΡΙΑ Ι ΦΥΛΛΑΔΙΟ ΟΙΚΟΝΟΜΕΤΡΙΑ Ι ΦΥΛΛΑΔΙΟ Παράρτημα Πανεπιστημίου: Δεληγιώργη 6 Α (έναντι Πανεπιστημίου Πειραιώς) Τηλ.: 4..97,,, Fax : 4..634 URL : www.vtal.gr emal: f@vtal.gr Παράρτημα Πανεπιστημίου: Δεληγιώργη 6 Α (έναντι

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 3: Ανάλυση γραμμικού υποδείγματος Απλή παλινδρόμηση (2 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΑΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ Συντελεστής συσχέτισης (εκτιμητής Person: r, Y ( ( Y Y xy ( ( Y Y x y, όπου r, Y (ισχυρή θετική γραμμική συσχέτιση όταν, ισχυρή αρνητική

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13 ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7 ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13 1.1. Εισαγωγή 13 1.2. Μοντέλο ή Υπόδειγμα 13 1.3. Η Ανάλυση Παλινδρόμησης 16 1.4. Το γραμμικό μοντέλο Παλινδρόμησης 17 1.5. Πρακτική χρησιμότητα

Διαβάστε περισσότερα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση Διδάσκουσα: Κοντογιάννη Αριστούλα Πώς συσχετίζονται δυο μεταβλητές; Ένας απλός τρόπος για να αποκτήσουμε

Διαβάστε περισσότερα

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής Οικονομετρία Ι Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ Καθ Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 5 Έστω για την σύγκριση δειγμάτων συλλέγουμε παρατηρήσεις Υ =,,, από

Διαβάστε περισσότερα

Πολλαπλή παλινδρόμηση (Multivariate regression)

Πολλαπλή παλινδρόμηση (Multivariate regression) ΜΑΘΗΜΑ 3 ο 1 Πολλαπλή παλινδρόμηση (Multivariate regression) Η συμπεριφορά των περισσότερων οικονομικών μεταβλητών είναι συνάρτηση όχι μιας αλλά πολλών μεταβλητών Υ = f ( X 1, X 2,... X n ) δηλαδή η Υ

Διαβάστε περισσότερα

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΣΤΑΤΙΣΤΙΚΕΣ ΕΚΤΙΜΗΣΕΙΣ Οι συναρτήσεις πιθανότητας ή πυκνότητας πιθανότητας των διαφόρων τυχαίων μεταβλητών χαρακτηρίζονται από κάποιες

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ. Καθ. Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 2015 Πληθυσμός: Εισαγωγή Ονομάζεται το σύνολο των χαρακτηριστικών που

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση II

Απλή Γραμμική Παλινδρόμηση II . Ο Συντελεστής Προσδιορισμού Η γραμμή Παλινδρόμησης στο δείγμα, αποτελεί μία εκτίμηση της γραμμής παλινδρόμησης στον πληθυσμό. Αν και από τη μέθοδο των ελαχίστων τετραγώνων προκύπτουν εκτιμητές που έχουν

Διαβάστε περισσότερα

Στατιστική Επιχειρήσεων Ι

Στατιστική Επιχειρήσεων Ι ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Στατιστική Επιχειρήσεων Ι Ενότητα 5: Παλινδρόμηση Συσχέτιση θεωρητική προσέγγιση Μιλτιάδης Χαλικιάς, Επίκουρος Καθηγητής Τμήμα Διοίκησης Επιχειρήσεων

Διαβάστε περισσότερα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα Ανάλυση Διασποράς Έστω ότι μας δίνονται δείγματα που προέρχονται από άγνωστους πληθυσμούς. Πόσο διαφέρουν οι μέσες τιμές τους; Με άλλα λόγια: πόσο πιθανό είναι να προέρχονται από πληθυσμούς με την ίδια

Διαβάστε περισσότερα

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 2 Γιατί ανάλυση διακύμανσης; (1) Ας θεωρήσουμε k πληθυσμούς με μέσες τιμές μ 1, μ 2,, μ k, αντίστοιχα Πως μπορούμε να συγκρίνουμε τις μέσες τιμές k πληθυσμών

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ Καθ Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 05 Έλεγχος διακυμάνσεων Μας ενδιαφέρει να εξετάσουμε 5 δίαιτες που δίνονται

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 13: Επανάληψη Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana 1 Γιατί μελετούμε την Οικονομετρία;

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 2: Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 2: Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις περιόδου στο μάθημα ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις περιόδου στο μάθημα ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις περιόδου στο μάθημα ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ Ονοματεπώνυμο: Όνομα Πατρός:... Σ ΑΜ:. Ημερομηνία: Παρακαλώ μη γράφετε στα παρακάτω

Διαβάστε περισσότερα

Γ. Πειραματισμός Βιομετρία

Γ. Πειραματισμός Βιομετρία Γενικά Συσχέτιση και Συμμεταβολή Όταν σε ένα πείραμα παραλλάσουν ταυτόχρονα δύο μεταβλητές, τότε ενδιαφέρει να διερευνηθεί εάν και πως οι αλλαγές στη μία μεταβλητή σχετίζονται με τις αλλαγές στην άλλη.

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116) Σελίδα 1 ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΜΑΘΗΜΑ: ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙΙ (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116) ΠΑΝΕΠΙΣΤΗΜΙΑΚΟΣ ΥΠΟΤΡΟΦΟΣ ΠΑΝΑΓΙΩΤΗΣ

Διαβάστε περισσότερα

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Συσχέτιση μεταξύ δύο συνόλων δεδομένων Διαγράμματα διασποράς (scattergrams) Συσχέτιση μεταξύ δύο συνόλων δεδομένων Η οπτική απεικόνιση δύο συνόλων δεδομένων μπορεί να αποκαλύψει με παραστατικό τρόπο πιθανές τάσεις και μεταξύ τους συσχετίσεις,

Διαβάστε περισσότερα

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο 5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο Ένα εναλλακτικό μοντέλο της απλής γραμμικής παλινδρόμησης (που χρησιμοποιήθηκε

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση I

Απλή Γραμμική Παλινδρόμηση I Απλή Γραμμική Παλινδρόμηση I. Εισαγωγή Έστω ότι θέλουμε να ερευνήσουμε εμπειρικά τη σχέση που υπάρχει ανάμεσα στις δαπάνες κατανάλωσης και στο διαθέσιμο εισόδημα, των οικογενειών. Σύμφωνα με την Κεϋνσιανή

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ. Καθ. Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 015 Ανάλυση Διακύμανσης Η Ανάλυση Διακύμανσης είναι μία τεχνική που

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 6: Ανάλυση γραμμικού υποδείγματος Πολυμεταβλητή παλινδρόμηση (2 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage:

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών ΟΙΚΟΝΟΜΕΤΡΙΑ Βιολέττα Δάλλα Τµήµα Οικονοµικών Επιστηµών Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών 1 Εισαγωγή Οικονοµετρία (Econometrics) είναι ο τοµέας της Οικονοµικής επιστήµης που περιγράφει και αναλύει

Διαβάστε περισσότερα

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΗ ΣΤΑΤΙΣΤΙΚΗ ΙΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ, ΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΗ ΣΤΑΤΙΣΤΙΚΗ ΙΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ, ΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΗ ΣΤΑΤΙΣΤΙΚΗ ΙΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ, ΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΣΙΜΟΣ ΜΕΙΝΤΑΝΗΣ, Αναπληρωτής Καθηγητής Τμήμα Οικονομικών Επιστημών, ΕΚΠΑ ΓΙΑΝΝΗΣ Κ. ΜΠΑΣΙΑΚΟΣ, Επίκουρος Καθηγητής Τμήμα Οικονομικών

Διαβάστε περισσότερα

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100 Ποσοτικές Μέθοδοι Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR 50100 Απλή Παλινδρόμηση Η διερεύνηση του τρόπου συμπεριφοράς

Διαβάστε περισσότερα

Στατιστική Συμπερασματολογία

Στατιστική Συμπερασματολογία 4. Εκτιμητική Στατιστική Συμπερασματολογία εκτιμήσεις των αγνώστων παραμέτρων μιας γνωστής από άποψη είδους κατανομής έλεγχο των υποθέσεων που γίνονται σε σχέση με τις παραμέτρους μιας κατανομής και σε

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕΡΟΣ B Δημήτρης Κουγιουμτζής e-mal: dkugu@auth.gr Ιστοσελίδα αυτού του τμήματος του μαθήματος: http://uer.auth.gr/~dkugu/teach/cvltraport/dex.html Εφαρμοσμένη Στατιστική:

Διαβάστε περισσότερα

Β Γραφικές παραστάσεις - Πρώτο γράφημα Σχεδιάζοντας το μήκος της σανίδας συναρτήσει των φάσεων της σελήνης μπορείτε να δείτε αν υπάρχει κάποιος συσχετισμός μεταξύ των μεγεθών. Ο συνήθης τρόπος γραφικής

Διαβάστε περισσότερα

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο «Περιγραφική & Επαγωγική Στατιστική» 1. Πάνω από το 3 ο τεταρτημόριο ενός δείγματος βρίσκεται το: α) 15%

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 14 Μαρτίου 018 1/34 Διαστήματα Εμπιστοσύνης. Εχουμε δει εκτενώς μέχρι τώρα τρόπους εκτίμησης

Διαβάστε περισσότερα

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ Οικονομετρία 6.1 Ετεροσκεδαστικότητα: Εισαγωγή Συχνά, η υπόθεση της σταθερής διακύμανσης των όρων σφάλματος,

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ... ΚΕΦΑΛΑΙΟ 0 Ένα Πρόβλημα Δεδομένα.6 3. 3.8 4. 4.4 5.8 6.0 6.7 7. 7.8 5.6 7.9 8.0 8. 8. 9. 9.5 9.4 9.6 9.9 Απλή Γραμμική Παλινδρόμηση Μωυσιάδης Χρόνης 6 o Εξάμηνο Μαθηματικών Έχει σχέση το με το ; Ειδικότερα

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ Οικονομετρία 7.1 Πολυσυγγραμμικότητα: Εισαγωγή Παραβίαση υπόθεσης Οι ανεξάρτητες μεταβλητές δεν πρέπει

Διαβάστε περισσότερα

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση Copyright 2009 Cengage Learning 16.1 Ανάλυση Παλινδρόμησης Σκοπός του προβλήματος είναι η ανάλυση της σχέσης μεταξύ συνεχών μεταβλητών. Η ανάλυση παλινδρόμησης

Διαβάστε περισσότερα

Ιδιότητες της ευθείας παλινδρόµησης

Ιδιότητες της ευθείας παλινδρόµησης Ιδιότητες της ευθείας παλινδρόµησης Ηευθεία παλινδρόµησης περνάει από το σηµείο αφού a b, a b ( b ) b b ( + + + ) ( ) + b u u a b a b Αυτό όµως προϋποθέτει την ύπαρξη του a. Αν δηλαδή υποχρεώσουµε την

Διαβάστε περισσότερα

Πρόλογος Μέρος Ι: Απλό και πολλαπλό υπόδειγμα παλινδρόμησης Αντικείμενο της οικονομετρίας... 21

Πρόλογος Μέρος Ι: Απλό και πολλαπλό υπόδειγμα παλινδρόμησης Αντικείμενο της οικονομετρίας... 21 Περιεχόμενα Πρόλογος... 15 Μέρος Ι: Απλό και πολλαπλό υπόδειγμα παλινδρόμησης... 19 1 Αντικείμενο της οικονομετρίας... 21 1.1 Τι είναι η οικονομετρία... 21 1.2 Σκοποί της οικονομετρίας... 24 1.3 Οικονομετρική

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 30 Μαρτίου /32

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 30 Μαρτίου /32 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 30 Μαρτίου 2017 1/32 Ανάλυση Παλινδρόμησης: Γενικά. Με την ανάλυση παλινδρόμησης εξετάζουμε

Διαβάστε περισσότερα

ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΜΕΣΟΛΟΓΓΙΟΥ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ & ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ

ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΜΕΣΟΛΟΓΓΙΟΥ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ & ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ Α εξεταστική περίοδος χειµερινού εξαµήνου 4-5 ιάρκεια εξέτασης ώρες και 45 λεπτά Θέµατα Θέµα (α) Τα υποδείγµατα που χρησιµοποιούνται στην οικονοµική θεωρία ονοµάζονται ντετερµινιστικά ενώ τα οικονοµετρικά

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανάλυση γραμμικού υποδείγματος Απλή παλινδρόμηση (1 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

x y max(x))

x y max(x)) ΚΕΦΑΛΑΙΟ 0 Απλή Γραµµική Παλινδρόµηση Μωυσιάδης Χρόνης 6 o Εξάµηνο Μαθηµατικών Ένα Πρόβληµα εδοµένα.6 3. 3.8 4. 4.4 5.8 6.0 6.7 7. 7.8 y 5.6 7.9 8.0 8. 8. 9. 9.5 9.4 9.6 9.9 Έχει σχέση το yµε το ; Ειδικότερα

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

Στατιστική. Εκτιμητική

Στατιστική. Εκτιμητική Στατιστική Εκτιμητική Χατζόπουλος Σταύρος 28/2/2018 και 01 /03/2018 Εισαγωγή Το αντικείμενο της Στατιστικής είναι η εξαγωγή συμπερασμάτων που αφορούν τον πληθυσμό ή το φαινόμενο που μελετάμε, με τη βοήθεια

Διαβάστε περισσότερα

3η Ενότητα Προβλέψεις

3η Ενότητα Προβλέψεις ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων 3η Ενότητα Προβλέψεις (Μέρος 4 ο ) http://www.fsu.gr

Διαβάστε περισσότερα

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ίδρυμα Θεσσαλονίκης Τμήμα Πληροφορικής Εργαστήριο «Θεωρία Πιθανοτήτων και Στατιστική» ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Περιεχόμενα 1. Συσχέτιση μεταξύ δύο ποσοτικών

Διαβάστε περισσότερα

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο Σύνοψη Στο κεφάλαιο αυτό παρουσιάζεται η ιδέα του συμπτωτικού πολυωνύμου, του πολυωνύμου, δηλαδή, που είναι του μικρότερου δυνατού βαθμού και που, για συγκεκριμένες,

Διαβάστε περισσότερα

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΟΙΚΟΝΟΜΕΤΡΙΑ (Ι)

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΟΙΚΟΝΟΜΕΤΡΙΑ (Ι) ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΧΩΡΟΤΑΞΙΑΣ, ΠΟΛΕΟΔΟΜΙΑΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΑΝΑΠΤΥΞΗΣ ΠΜΣ «ΕΠΕΝΔΥΣΕΙΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗ ΑΝΑΠΤΥΞΗ» ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΑΓΩΓΙΚΗ

Διαβάστε περισσότερα

Διάστημα εμπιστοσύνης της μέσης τιμής

Διάστημα εμπιστοσύνης της μέσης τιμής Διάστημα εμπιστοσύνης της μέσης τιμής Συντελεστής εμπιστοσύνης Όταν : x z c s < μ < x +z s c Ν>30 Στον πίνακα δίνονται κρίσιμες τιμές z c και η αντιστοίχισή τους σε διάφορους συντελεστές εμπιστοσύνης:

Διαβάστε περισσότερα

7.1.1 Η Μέθοδος των Ελαχίστων Τετραγώνων

7.1.1 Η Μέθοδος των Ελαχίστων Τετραγώνων 7.. Η Μέθοδος των Ελαχίστων Τετραγώνων Όπως ήδη αναφέρθηκε, μία ευρύτατα διαδεδομένη μέθοδος για την εκτίμηση των σταθερών α και β είναι η μέθοδος των ελαχίστων τετραγώνων. Η μέθοδος αυτή επιλέγει εκτιμήτριες

Διαβάστε περισσότερα

Μέθοδος μέγιστης πιθανοφάνειας

Μέθοδος μέγιστης πιθανοφάνειας Μέθοδος μέγιστης πιθανοφάνειας Αν x =,,, παρατηρήσεις των Χ =,,,, τότε έχουμε διαθέσιμο ένα δείγμα Χ={Χ, =,,,} της κατανομής F μεγέθους με από κοινού σ.κ. της Χ f x f x Ορισμός : Θεωρούμε ένα τυχαίο δείγμα

Διαβάστε περισσότερα

Y Y ... y nx1. nx1

Y Y ... y nx1. nx1 6 ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ ΤΗ ΧΡΗΣΗ ΠΙΚΑΚΩΝ Η χρησιμοποίηση και ο συμβολισμός πινάκων απλοποιεί σημαντικά τα αποτελέσματα της γραμμικής παλινδρόμησης, ιδίως στην περίπτωση της πολλαπλής παλινδρόμησης Γενικά,

Διαβάστε περισσότερα

X = = 81 9 = 9

X = = 81 9 = 9 Πιθανότητες και Αρχές Στατιστικής (11η Διάλεξη) Σωτήρης Νικολετσέας, καθηγητής Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Πανεπιστήμιο Πατρών Ακαδημαϊκό Ετος 2018-2019 Σωτήρης Νικολετσέας, καθηγητής 1 / 35 Σύνοψη

Διαβάστε περισσότερα

Οικονομετρία Ι. Ενότητα 2: Ανάλυση Παλινδρόμησης. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Οικονομετρία Ι. Ενότητα 2: Ανάλυση Παλινδρόμησης. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής Οικονομετρία Ι Ενότητα 2: Ανάλυση Παλινδρόμησης Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commos. Για εκπαιδευτικό

Διαβάστε περισσότερα

Μοντέλα Παλινδρόμησης. Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ

Μοντέλα Παλινδρόμησης. Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ Μοντέλα Παλινδρόμησης Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ Εισαγωγή (1) Σε αρκετές περιπτώσεις επίλυσης προβλημάτων ενδιαφέρει η ταυτόχρονη μελέτη δύο ή περισσότερων μεταβλητών, για να προσδιορίσουμε με ποιο

Διαβάστε περισσότερα

Μέθοδος μέγιστης πιθανοφάνειας

Μέθοδος μέγιστης πιθανοφάνειας Αν x =,,, παρατηρήσεις των Χ =,,,, τότε έχουμε διαθέσιμο ένα δείγμα Χ={Χ, =,,,} της κατανομής F μεγέθους με από κοινού σκ της Χ f x f x Ορισμός : Θεωρούμε ένα τυχαίο δείγμα Χ=(Χ, Χ,, Χ ) από πληθυσμό το

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Α μέρος: Πολυσυγγραμμικότητα. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Α μέρος: Πολυσυγγραμμικότητα. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 9: Οικονομετρικά προβλήματα: Παραβίαση των υποθέσεων Α μέρος: Πολυσυγγραμμικότητα Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr

Διαβάστε περισσότερα

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40]

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40] Εργαστήριο Μαθηματικών & Στατιστικής η Πρόοδος στο Μάθημα Στατιστική 8// (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) ο Θέμα [4] Τα τελευταία χρόνια παρατηρείται συνεχώς αυξανόμενο ενδιαφέρον για τη μελέτη της συγκέντρωσης

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Η μέθοδος των βοηθητικών μεταβλητών. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Η μέθοδος των βοηθητικών μεταβλητών. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 12: Σφάλματα μέτρησης στις μεταβλητές Η μέθοδος των βοηθητικών μεταβλητών Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage:

Διαβάστε περισσότερα

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής Πολλαπλό Γραμμικό Υπόδειγμα Παλινδρόμησης Τα υποδείγματα του απλού γραμμικού υποδείγματος της παλινδρόμησης (simple linear regression

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ Συσχέτιση (Correlation) - Copulas Σημασία της μέτρησης της συσχέτισης Έστω μία εταιρεία που είναι εκτεθειμένη σε δύο μεταβλητές της αγοράς. Πιθανή αύξηση των 2 μεταβλητών

Διαβάστε περισσότερα

Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια. Γραμμικά Μοντέλα. Λύσεις Ασκήσεων

Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια. Γραμμικά Μοντέλα. Λύσεις Ασκήσεων Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια Αθήνα, 6-4-7 Γραμμικά Μοντέλα Λύσεις Ασκήσεων η Άσκηση: (α) Eίναι η σχέση μεταξύ των δύο μεταβλητών γραμμική; Διάγραμμα Διασποράς Για το Υψόμετρο & τις Αρνητικές Τιμές

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 16. Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 16. Απλή Γραμμική Παλινδρόμηση και Συσχέτιση ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος 75 Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ 1.1. Τυχαία γεγονότα ή ενδεχόμενα 17 1.2. Πειράματα τύχης - Δειγματικός χώρος 18 1.3. Πράξεις με ενδεχόμενα 20 1.3.1. Ενδεχόμενα ασυμβίβαστα

Διαβάστε περισσότερα

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων Ελλιπή δεδομένα Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 75 ατόμων Εδώ έχουμε δ 75,0 75 5 Ηλικία Συχνότητες f 5-4 70 5-34 50 35-44 30 45-54 465 55-64 335 Δεν δήλωσαν 5 Σύνολο 75 Μπορεί

Διαβάστε περισσότερα

Μάθημα Αστικής Γεωγραφίας

Μάθημα Αστικής Γεωγραφίας Μάθημα Αστικής Γεωγραφίας Διδακτικό Έτος 2015-2016 Παραδόσεις Διδακτικής Ενότητας: Πληθυσμιακή πρόβλεψη Δούκισσας Λεωνίδας, Στατιστικός, Υποψ. Διδάκτορας, Τμήμα Γεωγραφίας, Χαροκόπειο Πανεπιστήμιο Σελίδα

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 5-6 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

Αναλυτική Στατιστική

Αναλυτική Στατιστική Αναλυτική Στατιστική Συμπερασματολογία Στόχος: εξαγωγή συμπερασμάτων για το σύνολο ενός πληθυσμού, αντλώντας πληροφορίες από ένα μικρό υποσύνολο αυτού Ορισμοί Πληθυσμός: σύνολο όλων των υπό εξέταση μονάδων

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΗ 07 & ΔΙΑΛΕΞΗ 08 ΣΗΜΠΕΡΑΣΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Βόλος, 016-017 ΕΙΣΑΓΩΓΗ ΣΤΗΝ

Διαβάστε περισσότερα