ιαφάνειες ιαλέξεων - Εισαγωγή Εισαγωγή στα Μοντέλα Ποιοτικών Εξαρτηµένων Μεταβλητών Τµήµα Οικονοµικών Επιστηµών ΑΠΘ Χρήστος Εµµανουηλίδης ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ Πολλές φορές η εξαρτηµένη µεταβλητή που θέλουµε να µοντελοποιήσουµε είναι ποιοτική. Παραδείγµατα: συµµετοχή στην αγορά εργασίας, αγορά ή όχι ενός καταναλωτικού αγαθού, επιλογή υποψηφίου στις εκλογές, απόφαση γάµου, απόφαση τεκνοποίησης, απόφαση να κάνουµε µεταπτυχιακές σπουδές, ολοκλήρωση σπουδών, κατάταξη σε µια κατηγορία (π.χ. φτωχός/ή, πλούσιος/α, µορφωµένος/η, κ.ο.κ. Χαρακτηριστικό παράδειγµα εξαρτηµένης ποιοτικής µεταβλητής: µια διακριτή επιλογή (dscrete choce από ένα σύνολο εναλλακτικών επιλογών (set of alteratves choce set. Εισαγωγή Θα εστιαστούµε σε µια κατηγορία µοντέλων που είναι γνωστά ως υποδείγµατα ποιοτικών εξαρτηµένων µεταβλητών (qualtatve respose QR models ή υποδείγµατα διακριτών επιλογών (dscrete choce models. Στα υποδείγµατα αυτά η εξαρτηµένη µεταβλητή είναι ένας δείκτης µιας από δύο δυνατές τιµές-κατηγορίες, π.χ. µια απόφαση του τύπου «Ναι» - «Όχι». Γενικά οι συνήθεις µέθοδοι παλινδρόµησης δεν είναι ικανοποιητικές για την µοντελοποίηση τέτοιων µεταβλητών. Τις περισσότερες φορές τα υποδείγµατα αυτά εκτιµώνται από τα δεδοµένα µε τη µέθοδο της µέγιστης πιθανοφάνειας (maxmum lkelhood estmato - MLE. 3 Τα υποδείγµατα στα οποία θα εστιαστούµε αφορούν εξαρτηµένες µεταβλητές που οι τιµές τους είναι κατηγορίες κωδικοποιηµένες σε τιµές,,,...,κ. Π.χ. Είσοδος στην αγορά εργασίας: κωδικοποιούµε την τιµή «όχι» µε το και την τιµή «ναι» µε το. Η µεταβλητή επιλογής είναι ποιοτική και η κωδικοποίηση / είναι απλά συµβατική. Άποψη σχετικά µε ένα νοµοθέτηµα: = «αντίθετος/η», = «ουδέτερος/η», = «θετικός/ή». Οι τιµές είναι τάξεις (διατεταγµένες και η αριθµητική κωδικοποίηση δηλώνει απλά την διάταξη. 4 Το επάγγελµα που επιλέγει κάποιο άτοµο: Έστω = «υπάλληλος», = «µηχανικός», = «δικηγόρος», 3 = «πολιτικός», κ.ο.κ. Τα δεδοµένα είναι απλές κατηγορίες. Επιλογή ανάµεσα σε διαφορετικά πολυκαταστήµατα από καταναλωτές. Τα δεδοµένα είναι κι εδώ απλές κατηγορίες. Τα δύο τελευταία παραδείγµατα διαφέρουν ως προς το βαθµό που η επιλογή σχετίζεται κυρίως (α µε τα χαρακτηριστικά των ατόµων (πιθανότερο στο ο παράδειγµα και (β µε τα χαρακτηριστικά των επιλογών (πιθανότεροστο ο παράδειγµα. Άλλα παραδείγµατα: Επιλογή µέσου µεταφοράς για µετακίνηση σε κάποιο προορισµό, Αγοραστική συµπεριφορά, επιλογήαγοράς αγαθών, brads, χρηµατοοικονοµικών ή τηλεπικοινωνιακών προϊόντων Επιλογή υπηρεσιών ψυχαγωγίας, υγείας, εκπαίδευσης Επιλογή χωρικής τοποθεσίας, π.χ. οικογενειακής διαµονής, εγκατάστασης µιας επιχείρησης Εκλογική συµπεριφορά, π.χ. η επιλογή ενός υποψηφίου Επιλογή συντρόφου, τεκνοποίησης, κ.ο.κ. 5 6 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης PDF processed wth CutePDF evaluato edto www.cutepdf.com
ιαφάνειες ιαλέξεων - Σε κάθε περίπτωση µπορούµε να κατασκευάσουµε µοντέλα που συναρτούν την τιµή της µεταβλητής µε ένα σύνολο παραγόντων ή χαρακτηριστικών, όπως και στα συνήθη υποδείγµατα παλινδρόµησης. Όµως, τα υποδείγµατα αυτά διαφέρουν από τα συνήθη υποδείγµατα παλινδρόµησης στο ότι είναι υποδείγµατα πιθανότητας που έχουν την µορφή: Prob(να συµβεί το ενδεχόµενο = Prob(Y = = F[σχετικώνµεταβλητών,παραµέτρων]. Prob =πιθανότητα F = κάποια συνάρτηση πιθανότητας µε παραµέτρους που καθορίζονται από τις τιµές σχετικών µεταβλητών και αντίστοιχων συντελεστών 7 Μοντελοποίηση της συµπεριφοράς οικονοµικών µονάδων και ανάλυση µεριδίων αγοράς ως συνάρτηση π.χ.: Τιµών Εισοδήµατος ηµογραφικών χαρακτηριστικών Πολιτικών προώθησης Άλλα χαρακτηριστικά των διαθέσιµων επιλογών 8 Μεθοδολογία ίτιµες (δυαδικές ποιοτικές µεταβλητές (bary respose Βάση όλων των υποδειγµάτων η µοντελοποίηση της ταξινόµησης σε µια από δύο εναλλακτικές κατηγορίες (ή συµπεριφορές Μοντέλα δυαδικών µεταβλητών: Probt και Logt Προσδιορισµός, εκτίµηση, έλεγχος Ανάλυση επιδράσεων - συµπεριφοράς Πρόβλεψη και καµπύλες ROC 9 Παρατηρούµενα δεδοµένα: ιαστρωµατικά ή διαµήκη (cross-sectoal - pael Στατιστικές µονάδες: οικονοµικές µονάδες (άτοµα =,.., N υαδική εξαρτηµένη µεταβλητή y {,} ( = οικογενειακό, = σπορ αυτοκίνητο Ανεξάρτητες µεταβλητές Μπορεί να είναι x Χαρακτηριστικά των στατιστικών µονάδων (demographcs -εισόδηµα, φύλο, οικογένεια, παιδιά, ή/και Χαρακτηριστικά των διαθέσιµων επιλογών (attrbutes στα άτοµα (µπορεί να διαφέρουν από άτοµο σε άτοµο -τιµή, µέγεθος, κατανάλωση, αντοχή, Θεωρία συµπεριφοράς: Υπάρχει µια λανθάνουσα (µη παρατηρούµενη εξαρτηµένη µεταβλητή (π.χ. χρησιµότητα y * = β x + ε, ~ d(, β = συντελεστές σχετικοί µε τα χαρακτηριστικά των µονάδων ή/και των διαθέσιµων επιλογών ε σ στοχαστική συνιστώσα (συµπεριλαµβάνει µη µετρούµενα χαρακτηριστικά µη στοχαστική συνιστώσα (συµπεριλαµβάνει µετρούµενα χαρακτηριστικά Θεωρία συµπεριφοράς: Παρατηρούµενη καταστατική µεταβλητή, δηλ. µια ψευδο- µεταβλητή που δηλώνει ταξινόµηση, προτίµηση, κ.ο.κ. y = αν y * >, y = αν y * Στην εξειδίκευση αυτή, β x = E y * x και όχι E y x, Πιθανότητα: ( ( όπως στην γραµµική παλινδρόµηση [ y = ] [ y > ] β x + ε > = Pr ε > β x = F( β x = F( β x = F( β x Pr = Pr * = Pr ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -3 Το µοντέλο πιθανότητας: [ y = x] = F( ε < β x Pr παρατηρείστε τη σχέση µεταξύ της διαταραχής και του αποτελέσµατος Pr[y = ]..8.6.4. Το µοντέλο πιθανότητας Γενική µορφή συνάρτησης κατανοµής (cdf Τι µπορούµε να µάθουµε από τα δεδοµένα y και x ; Σχετίζονται τα χαρακτηριστικά µε την καταστατική µεταβλητή; Μπορούµε να προβλέψουµε την συµπεριφορά στο µικρο-και µακρο-επίπεδο; Μπορούµε να αναλύσουµε µεταβολές στη συµπεριφορά όταν µεταβάλλονται τα χαρακτηριστικά (π.χ. µεταβλητές πολιτικής; Πώς εκτιµώνται οι παράµετροι β δεδοµένων των y και x ; ( β x Pr[ y = β x ] = F = F( ε = F. -3. -.8 -.6.6.8 3. β Τ x 3 4 H y παίρνει δυό τιµές : µε πιθανότητα F και µε - F Η yείναι µεταβλητή Beroull. Αναµενόµενη τιµή της y δεδοµένων των β x : { β x } ( ( E y β x = Pr y = β x + Pr y = β x Συνεπώς, = Pr y = β x = F y = F + y Ey = F + u 5 Απαιτεί παραδοχή για την κατανοµή του διαταρακτικού όρου ε, έστω F(ε εν είναι ικανοποιητική η χρήση γραµµικού µοντέλου: y = F + u = β x + u (α εν εξασφαλίζει πως F (β Ετεροσκεδαστικότητα διαταρακτικού όρου (γ Μη κανονικότητα του διαταρακτικού όρου 6 Απαιτεί παραδοχή για την κατανοµή του διαταρακτικού όρου ε, έστω F(ε ιακύµανση σ : Θέτουµε σ = καθώς δε µπορεί να ˆ β ταυτοποιηθεί (δηλ. δε µπορεί να εκτιµηθεί ˆ* β = σ ταυτόχρονα µε τα β - «απορροφάται στα β» Probt: (stadard ormal cdf ε z F( ε = Φ( ε = exp dz, Var( ε = π Logt: logstc cdf - πλατύτερες ουρές exp( ε π F( ε =, Var( ε = + exp( ε 3 7 Logt vs. Probt.4.3... ormal pdf -4-4 logstc ormal logstc pdf 8 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -4 Logt: Probt: y = F + u exp( β x y = + u + exp( β x y = Φ( β x + u Μικρές διαφορές στις εκτιµήσεις και στις ποσότητες ενδιαφέροντος ˆ β.6 ˆ β Logt Pr obt Logt ευκολότερο στην εκτίµηση (αναλυτικά Η εκτίµηση γίνεται συνήθως µε τη µέθοδο µέγιστης πιθανοφάνειας (Maxmum Lkelhood 9 Εκτίµηση ML: Μεγιστοποίηση της πιθανότητας να παρατηρήσουµε τα δεδοµένα µας, y, υπό συνθήκητων β, x (συνάρτηση πιθανοφάνειας lkelhood fucto, L N N y y ( Y x, β ( = = L= Pr = y = F F Ισοδύναµα,ελαχιστοποίηση του αρνητικού φυσικού λογαρίθµου της log L= y log F + ( y log( F (ευκολότεροι υπολογισµοί N N = = εδοµένα: παρατηρήσεις χρήσης αεροπλάνου για µετάβαση από τον τόπο κατοικίας στον τόπο εργασίας ( συγκεκριµένες πόλεις της Αυστραλίας ιαθέσιµες επιλογές: =χρήση αεροπλάνου, =χρήση άλλου µέσου Χαρακτηριστικά επιλογής: Κόστος (GC, χρόνος αναµονής (tme, κ.ά. Χαρακτηριστικά ατόµου: Εισόδηµα (Hc εδοµένα: Εκτίµηση µοντέλου Logt µε το SPSS: l Summary - Log Cox & Sell Nagelkerke Step lkelhood R Square R Square 6.93a.335.483 a. Estmato termated at terato umber 5 because parameter estmates chaged by less tha.. Step Step Block l Ombus ests of l Coeffcets Ch-square df Sg. συντελεστές 85.58. 3 85.58 3. 85.58 3. τυπικά σφάλµατα σηµαντικότητα (p-value 3 4 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -5 Επίδραση στην εκτιµώµενη πιθανότητα: Pr( y =...4.6.8. -4-4 ˆ β x= 6.337. GC.98 me+. INC κατά µια µονάδα αύξηση εισοδήµατος 5 Οριακές επιδράσεις στα µοντέλα πιθανότητας: ( β x Pr[ y = β x ] = F = F F(. X Logt: Probt: οριακή επίδραση της Χ ανεξάρτητης µεταβλητής F(. = β F(. (. X F(. = β ϕ(. X [ F ] Normal PDF εξαρτάται από την τιµή τηςχ 6 Οριακές επιδράσεις στα µοντέλα πιθανότητας : Υπολογισµός στη µέση τιµή των µεταβλητών Εκτίµηση οριακών επιδράσεων: Logt: Probt: ˆ E[ y x] = F( β x E[ y x] ˆ ( ˆ ( ˆ = β F β x F β x x [ ] ( ˆ E y x = Φβ x E[ y x] ˆ ( ˆ = β ϕ β x x E[ y x] ˆ ( ˆ ( ˆ = β F β x F β x x ˆ β x= 6.337. GC.98 me+. INC=.8 [ F ] F(.8 (.8 =.35(.35 =.8 7 8 Εκτίµηση οριακών επιδράσεων: ˆ β x= 6.337. GC.98 me+. INC=.8 [ F ] F(.8 (.8 =.35(.35 =.8 ˆ ˆ : ( ( ˆ GC βgc F β x F β x =..8=.378 : ˆ ( ˆ ( ˆ me βme F β x F β x =.98.8= -.76 : ˆ ( ˆ ( ˆ INC βinc F β x F β x =..8=.396 9 Εκτίµηση οριακών επιδράσεων ψευδοµεταβλητών: Οριακή επίδραση της ψευδοµεταβλητής Ζ (µε τιµές, FZ, = Pr[ y = z = ]- Pr[ y = z = ] ( β x - ( β x = F + az z = F + az z = : ΗΗΙΝC = αν ΙΝC > 5, αλλιώς ΗΗΙΝC = Υπόδειγµα Logt : 3 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -6 Εκτίµηση οριακών επιδράσεων ψευδοµεταβλητών: Οριακή επίδραση της ψευδοµεταβλητής Ζ (µε τιµές, Εκτίµηση οριακών επιδράσεων ψευδοµεταβλητών: Οριακή επίδραση της ψευδοµεταβλητής Ζ (µε τιµές, Οριακές επιδράσεις των άλλων µεταβλητών (υπολογισµένες στη µέση τιµή: ˆ β x= 7.. GC.99 me=.3 Z ( β x - ( β x F = F + az z= F + az z= ( F( = F.3+.45.3 =.884 3 ˆ β x+ az =.3+.45.9=.4 [ F ] F(.4 (.4 =.43(.43 =.84 GC:.84 x (-. = -.368 me:.84 x (-.99 = -.8 ΗINC:.884 3 Ελαστικότητες (στη µέση τιµή της Χ: Logt: Probt: logpr[ ˆ y= x] E[ y x] x ˆ η = = log x x Pr[ ˆ y= x] ˆ ˆ ( ˆ ( ˆ x η = β F β x F β x ˆPr[ y= x] ˆ ˆ ( ˆ x η = β ϕ β x ˆPr[ y= x] 33 Ελαστικότητα εισοδήµατος ( =3 : Logt: ˆ ˆ ( ˆ ( ˆ x η = β F β x F β x ˆPr[ y= x] =. x.8 x 34.55 /.35=.58 Παρατήρηση: Pr[ ˆ ] ( ˆ y= x = F β x % αύξηση στο εισόδηµα αυξάνει κατά.58% την πιθανότητα επιλογής του αεροπλάνου ως µέσου µεταφοράς 34 Odds και logt µετασχηµατισµός: Odds : πιθανότητα «επιτυχίας» / πιθανότητα «αποτυχίας» Log(odds = logt Pr( y = β x F = = exp( β x Pr( y = β x F F logt( F = log = β x F 35 Σηµασία των συντελεστών β: Pr( y = β x F = = exp( β x Pr( y = β x F exp(β : το αποτέλεσµα µοναδιαίας µεταβολής της Χ στον λόγο πιθανοτήτων επιτυχίας-αποτυχίας (όλα τα άλλα σταθερά Odds rato [ β ( x + ] F[ β ] F[ β x] F[ β x] F odds( at X ( = x+ + = = exp( β odds( at X = x 36 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -7 Σηµασία των συντελεστών β: F logt( F = log = β x F β : το αποτέλεσµα µοναδιαίας µεταβολής της Χ στον λογάριθµο του λόγου πιθανοτήτων επιτυχίας-αποτυχίας Log-odds rato F[ β ( x+ ] odds( at X [ ( = x F x + ] log log β + = = β odds( at X = x F[ β x] F[ β x] 37 Σηµασία των συντελεστών β: exp(β : το αποτέλεσµα µοναδιαίας µεταβολής της Χ στον λόγο πιθανοτήτων επιτυχίας-αποτυχίας π.χ. αν ο χρόνος αναµονής αυξηθεί κατά ένα λεπτό (όλα τα άλλα σταθερά ο λόγος πιθανότητας επιτυχίας αποτυχίας θα πολλαπλασιαστεί µε.96 Π.χ. έστω P(y=/P(y= =, δηλαδή P(y==.5 τότε ο λόγος θα γίνει.96, δηλ. η Ρ(y= θα γίνει.475 Αν P(y=/P(y= = 9, δηλ. P(y==.9, τότε ο λόγος θα γίνει 8.54 και η Ρ(y= θα γίνει.89 38 Σηµασία των συντελεστών β: exp(β : το αποτέλεσµα µοναδιαίας µεταβολής της Χ στον λόγο πιθανοτήτων επιτυχίας-αποτυχίας Π.χ. έστω P(y=/P(y= =, δηλαδή P(y==.5 τότε ο λόγος θα γίνει.96, δηλ. η Ρ(y= θα γίνει.475 (= Αν P(y=/P(y= = 9, δηλ. P(y==.9, τότε ο λόγος θα γίνει 8.54 και η Ρ(y= θα γίνει.89 P( y= P( y= = =.96 P( y= =.96.96 P( y= P( y= P( y=.96.96 P( y= =.96 P( y= = =.475.96 Παροµοίως υπολογίζεται και η µεταβολή στο δεύτερο παράδειγµα 39 Συµπερασµατολογία έλεγχοι υποθέσεων: Σηµαντικότητα συντελεστών: t-rato ή Wald ή LR tests H : β = Υπόθεση ανεξαρτησίας των Yκαι X ˆ β t rato : t= ~ N(, Για µεγάλο µέγεθος δείγµατος, s ˆ β ˆ β Wald statstc= ~ χ s 4 ˆ β Συµπερασµατολογία έλεγχοι υποθέσεων: Σηµαντικότητα συντελεστών: t-rato ή Wald ή LR tests H β β β m : = =... = = L R LR statstc= log = log L log L ~ LUR ( χ R UR m Συµπερασµατολογία έλεγχοι υποθέσεων: l Summary - Log Cox & Sell Nagelkerke Step lkelhood R Square R Square 6.93a.335.483 a. Estmato termated at terato umber 5 because parameter estmates chaged by less tha.. Ombus ests of l Coeffcets Ch-square df Sg. Step Step 85.58 3. Block 85.58 3. l 85.58 3. ( L L χ log log ~, m= 3 LR-test R UR m LR = Restrcted model s lkelhood (H LUR = Urestrcted model s lkelhood devace = - logl 4 4 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -8 Μέτρα προσαρµογής: εν έχει νόηµα ο συνήθης συντελεστής προσδιορισµού R Η προσαρµογή αξιολογείται µε βάση την log(l «Ψευδο - R»του MacFadde log LMODEL LR Idex= [,] log L NULL Αυξάνει µε το πλήθος των παραµέτρων -> AIC, BIC Μέτρα προσαρµογής: Ombus ests of l Coeffcets Ch-square df Sg. Step Step 85.58 3. Block 85.58 3. l 85.58 3. log = 6.93+ 85.58 L NULL = 47. 54 Step a. l Summary - Log Cox & Sell Nagelkerke lkelhood R Square R Square 6.93 a.335.483 Estmato termated at terato umber 5 because parameter estmates chaged by less tha.. log L MODEL = 6.93 AIC= log L+ par BIC = log L+ par log( N -Επίσης µε το πόσο καλή είναι η πρόβλεψη της ατοµικής συµπεριφοράς 43 log LMODEL 6.93 LR Idex= = =.346 log L 47.54 NULL 44 Πρόβλεψη πιθανότητας: ˆ ˆPr[ ] ( ˆ y = β x = F β x Πρόβλεψη ατοµικής επιλογής: ˆPr[ ˆ Αν y = β x ] µεγάλο, τότε y ˆ = «Κατώφλι» η τιµή Ρ* =.5 ; Εξαρτάται... Μεγιστοποιεί το συνολικό ποσοστό προβλεπτικής επιτυχίας. Καταγραφή επιτυχιών και αποτυχιών στην πρόβλεψη 45 ˆPr[ ˆ Αν y = β x ] > Ρ*, τότε y ˆ = 46 ˆPr[ ˆ Αν y = β x ] > Ρ*, τότε y ˆ = Η προβλεπτική επιτυχία εξαρτάται από το κατώφλι Ρ* Pr[ yˆ = y= ] Pr[ yˆ = y= ] 47 Ρ* Καµπύλες ROC (Recever operatg characterstc Γράφηµα άξονας Υ: Pr[ yˆ = y= ] άξονας Χ: Pr[ yˆ = y= ] = Pr[ yˆ = y= ] για διάφορα κατώφλια % σωστά προβλεπόµενων y = (sestvty % λάθος προβλεπόµενων y = ( specfcty P* (, 48 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -9 Καµπύλες ROC (Recever operatg characterstc Η γραµµή 45 δηλώνει απουσία συστηµατικής προβλεπτικής ικανότητας. Στην γραµµή 45% : Pr[ yˆ = y= ] = Pr[ yˆ = y= ] (sestvty = - specfcty Όσο µεγαλύτερη η καµπυλότητα (δηλ. το ΑUC Αrea uder curve, τόσο καλύτερη η πρόβλεψη. ηλαδή τόσο περισσότερο η Pr[ yˆ = y= ] > Pr[ yˆ = y= ] Παρέχουν έναν εναλλακτικό τρόπο επιλογής υποδείγµατος : Επιλέγεται το µοντέλο µε max( AUC 49 Καµπύλες ROC Area Uder the Curve est Result Varable(s: Predcted probablty Asymptotc 95% Cofdece Asymptotc Iterval Area Std. Error a Sg. b Lower Boud Upper Boud.87.46..77.97 a. Uder the oparametrc assumpto b. Null hypothess: true area =.5 ΑUC =.87 γραµµή 45 5 Καµπύλες ROC * ( Pr[ ˆ ˆ E Demad = y = β x ], συνήθως yˆ όταν P =.5 = = Classfcato able a Predcted Step Overall Percetage Percetage Correct 5 99.3 38 65.5 9. = yˆ = 39 a. he cut value s.5 ΑUC =.685 Μοντέλο χωρίς ΤΙΜΕ Σαφώς υποδεέστερο 5 ( ˆ ˆ E Dem. = Pr[ y = β x ] = 58 Μάιος 3 = Χ. Εµµανουηλίδης 5 Αµερόληπτη εκτίµηση ( ˆPr[ ˆ E Share = y = β x ] = Classfcato able a Predcted Percetage Correct Step 5 99.3 38 65.5 Overall Percetage 9. a. he cut value s.5 ( ˆ E Share = ˆPr[ y = β x ] = =.76 = 53 39 yˆ = = =.86 Αµερόληπτη εκτίµηση 58 Step a. Overall Percetage he cut value s.5 Classfcato able a Predcted (p --------------- --------------------------------+ ----- otal (a --------------- --------------------------------+------- N(a,p FP(a,p N(a FN(a,p P(a,p P(a --------------- --------------------------------+ ----- otal N(p P(p N Predcted Percetage Correct 5 99.3 38 65.5 54 9. specfcty = 99.3% sestvty = 65.5% ( ˆ, ( ˆ N= I y = y = FN= I y = y = = = ( ˆ, ( ˆ P= I y = y = FP= I y = y = = = ( I yˆ = c y = d = αν c= d, αλλιώς. c, d= {,} ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων - Step a. Overall Percetage he cut value s.5 Classfcato able a Predcted (p --------------- --------------------------------+ ----- otal (a --------------- --------------------------------+------- N(a,p FP(a,p N(a FN(a,p P(a,p P(a --------------- --------------------------------+ ----- otal N(p P(p N Predcted Percetage Correct 5 99.3 38 65.5 55 9. specfcty = 99.3% sestvty = 65.5% Pr[ yˆ = y= ] = P / ( P+ FN = 38 / 58=.655 Pr[ yˆ = y= ] = N / ( N+ FP = 5/5=.993 PC= ( P+ N / ( P+ N+ FP+ FN = 89 / =.9 Step Χρήσιµη για την αξιολόγηση της συµβολής των µεταβλητών στην προβλεπτική ικανότητα του µοντέλου Classfcato able a Overall Percetage a. he cut value s.5 Predcted Percetage Correct 45 7 95.4 48 7. Μοντέλο χωρίς ΤΙΜΕ 73.8 Step Classfcato able a Percetage Correct 5 99.3 38 65.5 56 Overall Percetage a. he cut value s.5 Μοντέλο µε ΤΙΜΕ Predcted 9. Χρήσιµη για την µελέτη της επίδρασης µεταβολών σε «µεταβλητές πολιτικής» µε προσοµοίωση Όλες οι τιµές του χρόνου ΤΙΜΕ αυξάνονται κατά 5% Παρατήρηση: Οι υπολογισµοί γίνονται µε το ίδιο µοντέλο (παράµετροι exp ˆ * * ˆPr[ ] ( ˆ y = β x = F β x = + exp ( ˆ * β x * ( ˆ β x ˆ * β x = 6.337. GC+. INC.98 IME * ˆ ˆ * E( Demad = Pr[ y = β x ] = 57 Χρήσιµη για την µελέτη της επίδρασης µεταβολών σε «µεταβλητές πολιτικής» µε προσωµοίωση Όλες οι τιµές του χρόνου ΤΙΜΕ αυξάνονται κατά 5% Πριν τη µεταβολή Μετά την µεταβολή Αποτέλεσµα: 5 άτοµα λιγότερα θα χρησιµοποιήσουν αεροπλάνο * Μερίδιο αγοράς: ( Pr[ ˆ ˆ E Demad = y = β x ] = 3.64 = E( Share = 3.64 / =.55, µείωση κατά 43.8% 58 Πιθανά προβλήµατα Μεταβλητές που δεν συµπεριλαµβάνονται στην παλινδρόµηση (µεροληψία LR tests Πολυσυγγραµµικότητα έλεγχος των συσχετίσεων των συντελεστών (>.4 συνήθως Eξειδίκευση παλινδρόµησης - LR tests οµικές αλλαγές - LR test -LL(pooled [-LL(sample - LL(sample] ~χ m+ (m = αριθµός ανεξάρτητων µεταβλητών ειγµατοληψία µε sample-selecto (choce-based? Ειδικές µέθοδοι (π.χ. Heckma s method. 59 ΤΕΛΟΣ ΕΝΟΤΗΤΑΣ 6 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης