Correlation Analysis 개념 Bivariate analysis 측정형두변수간의관계분석 상관관계? 두측정형변수의산점도 : 상호직선적관련성을상관계수 (Correlation Coefficient) 측정. 잠재설명 ( 원인 ) 변수 (X s) 상관관계, 잠재변인과결과변수 (Y) 의상관관계 Pearson 상관계수 측정형변수직선관계정도 cov( X, Y ) E( X E( X )) E( Y E( Y )) r = = = var( X ) var( Y ) var( X ) var( Y ) (1) (3) () ( xi x)( yi y) ( x x) ( y y) i i 산점도 (scatter plot) 그리기 가로축은항상입력변인 (X) 를나타내고, 세로축은다른입력요소또는결과 (Y) 를나타냄. 각각의점들은짝으로이루어진데이터 (X,Y) 임 얻는정보 In correlation: 두변수간함수관계 In regression: 이상치 / 영향치 ( 옆그림번호참고 ), 등분산성진단 (1 ) 이상치 (outlier) ( ) 이상치 + 영향치 (3 ) 영향치 (influential observation) 등분산성? 개체들이직선주위로퍼지는정도가 fan 모양 5 Simulation (Fall, 007)
Correlation Analysis 가설검정 상관계수유의성검정 H 0: ρ=0 ( 두변수의상관관계존재하지않음 ) r T = n ~ t( n ) 1 r 비모수 (nonparametric) 상관계수 관측치의개수가 10~15개미만이거나관측치가가질수있는값의수준이 5~10개미만 H 0 : ρ= ρ 0 ( 두변수의상관계수가 ρ 0 이다 ) T 1 + r = 0.5ln 1 r ~ 1 + ρ0 1 N(0.5ln, ) 1 ρ n 3 0 상관계수차이검정 귀무가설 (H 0 ): ρ x =ρ y ( 두모집단상관계수는동일하다.) 1+ r 1+ r x z ( x ) = 0.5 ln, z ( y ) = 0.5 ln 1 r 1 r z = 1/( n z( x) z( y) x x 3) + 1/( n y y y ~ N(0,1) 3) 53 Simulation (Fall, 007)
Correlation Analysis 실습 데이터 PCS.xls 15개 notebook PC의성능평가점수 (Performance) 와소비자평가점수 (Rating) 를조사한자료이다. 산점도를그리고해석하시오. 상관계수를구하고선형관계가있는지검정하시오. 유의수준 5% In Minitab 산점도 Notebook Performance Rating AMS Tech Roadster 15CTA380 115 67 Compaq Armada M700 191 78 Compaq Prosignia Notebook 150 153 79 Dell Inspiron 3700 C466GT 194 80 Dell Inspiron 7500 R500VT 36 84 Dell Latitude Cpi A366XT 184 76 Enpower ENP-313 Pro 184 77 Gateway Solo 9300LS 16 9 HP Pavilion Notebook PC 185 83 IBM ThinkPad I Series 1480 183 78 Micro Express NP7400 189 77 Micron TransPort NX PII-400 0 78 NEC Versa SX 19 78 Sceptre Soundx 500 141 73 Sony VAIO PCG-F340 187 77 54 Simulation (Fall, 007)
Correlation Analysis 실습 산점도 상관계수구하기및두변수상관관계유의성검정 선형관계보임 gateway Solo notebook 이상개체로판단 한국 Notebook 경우성능과평가상관계수가 0.7이다. 상관관계정도가서로다르다고할수있나? 귀무가설 : ρ=0.7 1+ r 1+ ρ0 0.5ln 0.5ln 수작업에의한계산 1 r 1 ρ0 T = ~ N(0,1) R을이용하자. 1 n 3 상관관계가유의하다 ( 유의확률 =0.001) 양의상관관계가높다 (r=0.78) 성능점수가높으면소비자평가도높다. 이상개체제거후 55 Simulation (Fall, 007)
Correlation Analysis 실습 3 In SPSS 56 Simulation (Fall, 007)
Correlation Analysis 실습 4 In R 데이터불러오기 abline() 추정회귀선 (fitted regression line) 을긋는다. attach() 해서반드시사용데이터를가져오자. 산점도그리기 plot() 함수 xlim=c( 최소, 최대 ), ylim=c( 최소, 최대 ) 사용가능 main= 그림제목 xlab= x- 축제목, ylab= y- 축제목 57 Simulation (Fall, 007)
Regression Analysis 개념, 절차 회귀분석이란 (1) 두변수의인과관계가존재? Y=f(x) y를종속변수 x를설명변수 ( 독립변수 ) 라한다. () 함수관계중가장간단한직선관계 : Y=a+bX 단순회귀 ( 선형 ) 모형 : Y=a+bX+e ( 오차 ) 오차의가정 : 정규성, 등분산성, 독립성 e ~ iidn( (0, σ ) 상관분석과유사 ( 상관계수 r 과회귀계수 b 의관계 ) 유래 Francis Galton(18-1911) e t Y i = a + bxi + ei 유전학자, 98명의성인자녀키와부모키의관계 부모키 =( 아버지키 + 어머니키 )/ 여자키는 1.08배 ( 아버지키) = 33.73+ 0.516( 아들키) Karl Pearson (1857-1936) 수학적함수 ( 모형 ) 관계설정및 OLS 추정치계산 Pearson 상관계수계산식유도 회귀분석과정 (1) 회귀모형설정 종속변수 (Y) 및설명변수 (X) 설정 : ( 예 ) 성능이소비자평가에영향을줄것이다. Y= 소비자평가, X= 성능 데이터수집및입력 (yi, xi), i=1,,, n(=15) () 산점도그리기 직선관계존재여부? 오차의가정, 등분산문제 ( 소비자평가) i = a + b( 성능) i + ei 58 Simulation (Fall, 007)
Regression Analysis 절차 (3) 회귀계수 (a, b) 추정 추정한다는것은? 데이터에가장적합한직선도출 (fitted LINE) 방법 OLS 추정치 n n min Q( = e i ) = min ( Yi a bxi ) a, b i= 1 a, b i= 1 OLS 추정치 ˆ ( x x)( y y) b = i i aˆ = βˆ x ( x x) y β i (4) 선형회귀모형유의성검정 Fitted line ( 적합선 ) 의유의성 Y i = a + bxi + ei Q n = ( y ˆ 설명변수가유의하지않다, 설명하지못한다, b=0 i ˆ α βxi ) = 0 α i= 1 모형 ( 모형내변수전체 ) 의유의성 H n 0 : b1 = b =... = bp = 0 Q = x ( ˆ ˆ i yi α βxi ) = 0 귀무가설 : 모형내모든설명변수는유의하지않다 β i= 1 Yˆ i = aˆ + bˆ X i 변동분할 -총변동 (Total Sum of Squares, SST) SSTO = ( yi y) ) y i -회귀변동(Regression Sum of Squares, SSR) SSR = ( yˆ i yi ) ri = eˆ i = ( Y ˆ i Yi ) -오차변동(Error Sum of Squares, SSE) SSE = ( y i yˆ i ) Y ( Y i Y ) Yˆ i Y 변동 자유도 자숭합 평균자승합 F df SS MS 모형 p SSR MSR=SSR/p MSR/MSE 오차 n-p-1 SSE MSE=SSE/(n-p-1) ~F(1,n-1) 총변동 n-1 R ( 결정계수 )=SSR/SST r = ± R 59 Simulation (Fall, 007) X x i 개별설명변수 Syy 귀무가설 : H0 : b k = 0 b ˆ = r Sxx Sxx = ( ), ( ) xi x Syy = yi y Sxy = ( xi x)( yi y) ˆ β β ~ t( n ) s ( ˆ) β s (βˆ) = MSE Sxx
Regression Analysis 절차 3 / 예제 (5) 회귀진단 (skip here) 오차의추정치잔차 (residual) 활용 r ˆ ( ˆ i = ei = Yi Yi ) 방법 : ( 표준화 ) 잔차 (y-축) 와예측치 (x-축) 산점도 선형성 오차가정 3가지 : 정규성, 등분산성, 독립성 이상치, 영향치진단 당분간은산점도에서이상치, 영향치진단하여미리제외하자. In R (1) () 데이터읽기 데이터 PCS.xls ( 계속 ) 15 개 notebook PC 의성능평가점수 (Performance) 와소비자평가점수 (Rating) 를조사한자료이다. 모형설정 산점도 (done already) 회귀계수추정 회귀모형유의성검정 F- 검정 t- 검정 회귀진단및잔차진단 (optional) ( 소비자평가) i = a + b( 성능) i + ei () 산점도그리기 ( 이전슬라이드참고 ) 직선의경향이보인다. 이상치존재하는것같다. 60 Simulation (Fall, 007)
Regression Analysis 예제결과 (3-4) 회귀계수추정및모형유의성진단 lm() 함수 선형모형형 (linear model) 결과 reg1 에저장됨 names() 함수 reg1 데이터에저장된변수가표현 summary() 함수 선형모형결과에대한표현 설명변수 Performance 유의성 모형의유의성과동일 회귀계수 b 에대한유의성 t- 값 =4.491, F 값 =0.169 (t =F) 유의확률은서로동일하다. 유의하다. 결정계수=0.6081 설명변수가종속변수변동 60.1% 설명 Sqrt 는상관계수와동일, 부호 > 기울기 b 의부호 MSE: 오차추정치 s=sqrt(mse)=3053 최종모형 ( 소비자평가 ) = 51.8 + 0.145( 성능) 성능이높을수록소비자평가높아진다. 성능 1 점높아지면소비자평가 0.145 점증가한다. 61 Simulation (Fall, 007)
Regression Analysis 예제결과 / 실습 (5) 회귀진단및잔차진단 (optional here) 8 번째개체가이상관측치이다. Residuals: 잔차 (R i ), fiited.values: 예측치 Ŷ i 영향치는없다 (Cook s distance 참고 ) 이상치 8 번의 Rating 값을제외하고 (NA) 재분석 ( 영향치 1 번도제외하는것을권함 ) 진단에필요한 4 개의그림이동시에그려지다. 4 번째그려지는그래프만이용하면된다. 데이터 CEO.XLS 회사자본 ( 단위 : 백만불 ) 이많을수록 CEO 연봉 ( 단위 : 천불 ) 이많을것이라는생각에조사한자료이다. (1) 산점도 () 회귀계수추정및회귀모형유의성진단 (3) 결과해석 (4) 잔차진단 (optional) 6 Simulation (Fall, 007)
Regression Analysis In Minitab 메뉴선택 그래프설정에서잔차진단을위한표준화잔차와적합치산점도 63 Simulation (Fall, 007)
Regression Analysis In SPSS 메뉴선택 64 Simulation (Fall, 007)