Ανάλυση Διακύμανσης Ι. Κ. Δημητρίου
Να κάνετε πολλά παραδείγματα και για να κατανοήσετε την Ανάλυση Διακύμανσης (ΑΝΑΔΙΑ) ή Analysis of Variance (ANOVA). Ακόμη, να κοιτάξετε περιπτώσεις εφαρμογής. 3
Εισαγωγή Η σημαντικότητα της διαφοράς των μέσων δύο διαφορετικών δειγμάτων μπορεί να ελεγχθεί με t- test ή z-test. Τι γίνεται όταν υπάρχουν τέσσερεις ομάδες; Πχ 4 φάρμακα, 4 διαφημιστικά video, 4 δίαιτες, 4 μάρκες αυτοκινήτων κλπ. Η Ανάλυση Διακύμανσης (ΑΝΑΔΙΑ, ANOVA) παρέχει ένα έλεγχο αποδοχής ή απόρριψης της υπόθεσης ότι οι μέσοι των ομάδων είναι ίσοι. 4
Γιατί Όχι t-tests; Αν συγκρίνομε ανά δύο (πχ με ένα t test), έχομε άδικο πλεονέκτημα ως προς τις πιθανότητες. Πχ αν θέσομε 0.05 προ διαδικασίας t για την απόρριψη της αληθούς Η 0 το λάθος θα μπορούσε να περάσει διότι οι δειγματικοί μέσοι μπορεί να είναι απίθανα μακριά, αλλά στην πράξη προέρχονται από το ίδιο πληθυσμό και επομένως έχουν την ίδια μτ. 5
Η συνιστώμενη μέθοδος προσέγγισης όταν εμπλέκονται περισσότερες από δύο ομάδες είναι να χρησιμοποιούμε ΑΝΑΔΙΑ. Αυτή η προσέγγιση ελέγχει αν όλοι οι μέσοι είναι ίσοι ταυτόχρονα, λαμβάνοντας υπόψη την Εντός Ομάδων (Within Groups) μεταβλητικότητα και σε ειδοποιεί αν υπάρχει αξιόπιστη διαφορά οπουδήποτε στο σύνολο των μέσων. (περικλείοντας και πολύπλοκες συγκρίσεις όπως ο μέσος δύο ομάδων συγκρινόμενος με το μέσο δύο άλλων ομάδων). 6
Η λογική της ΑΝΑΔΙΑ Κάθε παρατήρηση σε κάθε ομάδα εκφράζεται μέσω τριών συνιστωσών: Τον μεγάλο μέσο όλων των παρατηρήσεων Το μέσο κάθε ομάδας και πόσο κάθε τέτοιος μέσος διαφέρει από τον μεγάλο μέσο Κάθε παρατήρηση σε κάθε ομάδα και πόσο κάθε παρατήρηση διαφέρει από τον μέσο της ομάδας. 7
Η ΑΝΑΔΙΑ χρησιμοποιεί αυτές τις συνιστώσες για να βρει δύο εκτιμητές της διακύμανσης του πληθυσμού. Έναν που βασίζεται καθ ολοκληρία στη μεταβλητικότητα των παρατηρήσεων εντός κάθε ομάδας. Έναν που βασίζεται καθ ολοκληρία στη μεταβλητικότητα των μέσων ομάδας πέριξ του μεγάλου μέσου 8
Αν αυτοί οι εκτιμητές διαφέρουν κατά πολύ μεταξύ τους, τότε υπάρχει μαρτυρία ότι οι ομάδες προέρχονται από διαφορετικούς πληθυσμούς δηλ. πληθυσμούς με διαφορετικούς μέσους. 9
Έστωσαν k ομάδες Υπόδειγμα: y = μ i + error, error ~ N(0,σ 2 ) όπου μ i είναι η μέση τιμή της i-ομάδας, i=1,2,,k Η 0 : μ 1 = μ 2 = = μ k Η 1 : Όχι όλες οι μ i ίσες 10
Παράδειγμα: Σύγκριση Τιμών Ξενοδοχείων Είναι οι τιμές των ξενοδοχείων της Ν. Υόρκης ακριβότερες από ξενοδοχεία άλλων πόλεων; 11
City Hotel Stars Price LA NEW OTANI 3 119 LA HILTON 3 150 LA BEVERLY PLZA 3 110 LA HOL INN CONV 2 79 LA LE DUFY 2 145 LA BILTMORE 4 140 LA LE PARC 2 165 LA SHERATON GRD 3 175 SF HOL INN FIN 2 99 SF STOUFFER 5 185 SF MANDARIN 4 265 SF DIVA 2 109 SF GRAND HYATT 4 169 SF HOL INN GATE 2 99 SF NOB HILL LAM 2 175 SF INN AT OPERA 3 110 DC LOMBARDY 2 115 DC SHERATON 2 185 DC HILTON 3 166 DC GRAND HYATT 3 189 DC ONE WASH CIR 3 125 DC COMFORT INN 1 64 DC CAPITOL HILL 1 120 DC RAD PRK TERR 3 119 NY EASTGATE 1 170 NY HELMSLEY MID 2 135 NY HOL INN CRWN 2 185 NY THE MARK 3 250 NY PENINSULA 4 250 NY WARWICK 2 170 NY GRAND HYATT 3 210 NY THE REGENCY 4 215 City Hotel Stars Price (1992 Mobil Travel Guide) n = 32 k = 4 12
Υποθέσεις Η 0 : Η 1 : οι μέσες τιμές ίσες για κάθε πόλη όχι ίσες 13
Καθ ομάδες διαχωρισμός τιμών LA SF DC NY 119 99 115 170 150 185 185 135 110 265 166 185 79 109 189 250 145 169 125 250 140 99 64 170 165 175 120 210 175 110 119 215 Φαίνεται ότι η ΝΥ είναι ακριβότερη, αλλά υπάρχει επικάλυψη τιμών. Είναι η ΝΥ σημαντικά ακριβότερη; Απάντηση: Χρήση ANOVA 14
Βήματα στο Excel Tools (ή Δεδομένα) Data analysis Anova: Single factor (Ανάλυση Διακύμανσης κατά ένα παράγοντα) Ok A1:D9 input range, grouped by columns Labels in first row New worksheet Ply Γράψε: Price ANOVA 15
16
Αποτελέσματα 17
Ανάλυση διακύμανσης κατά ένα παράγοντα ΣΥΜΠΕΡΑΣΜΑ Ομάδες Πλήθος Άθροισμα Μέσος όρος Διακύμανση LA 8 1083 135.38 980.84 SF 8 1211 151.38 3414.84 DC 8 1083 135.38 1771.13 NY 8 1585 198.13 1649.55 ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Προέλευση διακύμανσης SS Bαθμοί ελευθερίας MS F τιμή-p κριτήριο F Μεταξύ ομάδων 21145.4 3 7048.5 3.6 0.0255 2.947 Μέσα στις ομάδες 54714.5 28 1954.1 Σύνολο 75859.9 31
Διερμήνευση ΑΝΑΔΙΑ Δηλ. ποιο μέρος της διακύμανσης οφείλεται στην τυχαιότητα και ποιο σε άλλους παράγοντες. Η ΑΝΑΔΙΑ το κάνει διαχωρίζοντας το Total SS (ss αποκλίσεων από το μέσο y) σε δύο μέρη: ένα στις διαφορές μεταξύ των ομάδων (SST, ss απόκλιση από μέσο ομάδας) και ένα στο τυχαίο σφάλμα (SSE). 20
Ανάλυση διακύμανσης κατά ένα παράγοντα ΣΥΜΠΕΡΑΣΜΑ Ομάδες Πλήθος Άθροισμα Μέσος όρος Διακύμανση LA 8 1083 135.38 980.84 SF 8 1211 151.38 3414.84 DC 8 1083 135.38 1771.13 NY 8 1585 198.13 1649.55 ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Προέλευση διακύμανσης SS βαθμοί ελευθερίας MS F τιμή-p κριτήριο F Μεταξύ ομάδων 21145.4 3 7048.5 3.6 0.0255 2.947 Μέσα στις ομάδες 54714.5 28 1954.1 Σύνολο 75859.9 31 4 8 4 2 SSE 2 ( yij yi ) i( i ) i 1 j 1 22 i 1 SSΤ n y y
Total SS = SST + SSE Πως σχετίζεται αυτό με την τιμή διαμονής; Αν οι μτ διαμονής στις διάφορες πόλεις είναι πολύ διαφορετικές, το μεταξύ των ομάδων sst 4 θα είναι μεγάλο. 2 SSΤ n ( y y) Αν οι μτ είναι κοντινές, το μεταξύ των ομάδων sst θα είναι περίπου μηδέν. Πώς εξάγεται αυτό από τον πίνακα; i 1 i i 23
βαθμοί ελευθερίας n = 32 βε: αριθμός ομάδων (πόλεων) = 4 μείον 1 = 3 αριθμός παρατηρήσεων = 32 μείον 1 = 31 υπόλοιποι βε = 31-3 = 28 (αποδίδονται στο σφάλμα) 3 28 31 MS 7048.46 1954.09 = Sum of Squares / df = SST/3 = 21145.4/3 = var (Hotels) = SSE/28 = 54714.5 /28 = var (εντός πόλεων) 24
Οι όροι ως διακυμάνσεις: MS 7048.46 1954.09 7048,46 μετρά τη διακύμανση κόστους ξενοδοχείου μεταξύ των πόλεων 1954,09 μετρά τη διακύμανση κόστους ξενοδοχείου εντός των πόλεων 25
Αν η μεταβλητότητα στις τιμές ξενοδοχείων μεταξύ πόλεων είναι μεγάλη ως προς εντός πόλεων, θα μπορούσαμε να συμπεράνομε ότι η μτ ξενοδοχείων δεν είναι η ίδια για κάθε πόλη. Αυτό ελέγχεται με το F-test 26
Ανάλυση διακύμανσης κατά ένα παράγοντα ΣΥΜΠΕΡΑΣΜΑ Ομάδες Πλήθος ΆθροισμαΜέσος όροςδιακύμανση LA 8 1083 135.375 980.8393 SF 8 1211 151.375 3414.839 DC 8 1083 135.375 1771.125 NY 8 1585 198.125 1649.554 ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ υση διακύμ SS μοί ελευθερ MS F τιμή-p κριτήριο F Μεταξύ ομ 21145.38 3 7048.458 3.60703 0.02549 2.946685 Μέσα στις 54714.5 28 1954.089 Σύνολο 75859.88 31 3,61 ~ F(3,28), p-value = 0,025 < 0,05, απορρίπτομε Η 0, αποδεχόμενοι την Η 1 ότι υπάρχει διαφορά στη μτ ξενοδοχείου. 27
Από τον πίνακα ANOVA μπορούμε να εξάγομε στατιστικά όπως στην παλινδρόμηση: 28
Ανάλυση διακύμανσης κατ ά ένα παράγοντ α ΣΥΜΠΕΡΑΣΜΑ Ομάδες Πλήθος ΆθροισμαΜέσος όροςδιακύμανση LA 8 1083 135,375 980,8393 SF 8 1211 151,375 3414,839 DC 8 1083 135,375 1771,125 NY 8 1585 198,125 1649,554 ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ υση διακύμ SS μοί ελευθερ MS F τ ιμή-p κριτ ήριο F Μετ αξ ύ ομ 21145,38 3 7048,458 3,60703 0,02549 2,946685 Μέσα στ ις 54714,5 28 1954,089 Σύνολο 75859,88 31 Συντελεστής προσδιορισμού: R 2 = 21145 / 75859 = 0,2787 ή 28% της μεταβλητότητας τιμών εξηγείται από την πόλη. 29
Σύγκριση μέσων Μέσων τιμών ξενοδοχείων ανά πόλη Μέσου τετραγωνικού σφάλματος Χρήση boxplot ΠΡΟΣΟΧΗ Οι μέσες τιμές επηρεάζονται από τα έκτοπα σημεία Οι διάμεσες τιμές δεν επηρεάζονται από τα έκτοπα σημεία Αν τα δεδομένα είναι «λοξά, skew», η μτ επηρεάζεται από τις έκτοπες, αλλά όχι η διάμεση κλπ // 30