Chương 11 HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN Ths. Nguyễn Tiến Dũng Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội Email: dung.nguyentien3@hust.edu.vn
MỤC TIÊU CỦA CHƯƠNG Sau khi học xong chương này, người học sẽ Nói được phạm vi ứng dụng của phương pháp phân tích hồi quy và tương quan đơn biến Biết cách thực hiện một phân tích hồi quy dựa trên dữ liệu mẫu Nói được những điều kiện và giả định cần thiết khi phân tích hồi quy Biết được cách tính và ý nghĩa của hệ số tương quan Pearson và hệ số tương quan hạng Spearman 2013 Nguyễn Tiến Dũng 2
CÁC NỘI DUNG CHÍNH 11.1 LÀM QUEN VỚI HỒI QUY 11.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN 11.3 TƯƠNG QUAN TUYẾN TÍNH 11.4 TƯƠNG QUAN GIỮA CÁC BIẾN ĐỊNH TÍNH 2013 Nguyễn Tiến Dũng 3
11.1 Làm quen với hồi quy 11.1.1 Khái niệm hồi quy Regression, Regression to mediority: quy các điểm DL đã biết về một đường lý thuyết Đ/nghĩa của TK: NC mối liên hệ phụ thuộc giữa một biến phụ thuộc (biến đầu ra) và một hay nhiều biến độc lập (biến đầu vào), nhằm ước tính hoặc dự báo giá trị trung bình tổng thể của biến phụ thuộc dựa trên các giá trị biết trước của biến độc lập Hồi quy đơn biến (simple regression): 1 biến PT và 1 biến ĐL, DL định lượng TD: KQ học tập = f(thời gian tự học) KQ học tập = f(thời gian tự học, yêu thích chuyên ngành) Lượng tiêu thụ = f(p1, P2, P3, P4) Chất lượng sản phẩm = f(nvl, thiết bị, công nghệ, con người, quản lý) 2013 Nguyễn Tiến Dũng 4
11.1.2 Phân biệt liên hệ TK và liên hệ hàm số khi phân tích hồi quy Liên hệ hàm số: Y = b0 + b1x Với 1 giá trị của X, có 1 giá trị xác định và duy nhất của Y Liên hệ TK: Y = b0 + b1.x X = thời gian tự học; Y = điểm GPA DL về X: dữ liệu mẫu Một X, có thể có nhiều Y DL mẫu xác định đường HQ mẫu dự đoán đường HQ tổng thể 2013 Nguyễn Tiến Dũng 5
2013 Nguyễn Tiến Dũng 6
11.1.3 Quy ước về ký hiệu và tên gọi Biến số: Y = b0 + b1.x1 + b2x2 Biến độc lập, biến đầu vào, biến giải thích: X 1, X 2 Biến phụ thuộc, biến đầu ra, biến được giải thích: Y X ki : giá trị của quan sát thứ i của biến X k. b 0, b 1, b 2 : các hệ số của phương trình hồi quy Hồi quy đơn biến và hồi quy đa biến (HQ bội) HQ đơn biến (simple regression): 1 biến ĐL HQ đa biến (multiple regression): nhiều biến ĐL 2013 Nguyễn Tiến Dũng 7
11.1.4 Các dạng liên hệ giữa biến độc lập và biến phụ thuộc 2013 Nguyễn Tiến Dũng 8
11.2 Mô hình hồi quy tuyến tính đơn 11.2.1 Mở đầu NC mối liên hệ giữa thu nhập (X) và chi tiêu (Y) Lấy mẫu n hộ gia đình Đường hồi quy lý thuyết E(Y Xi) = b0 + b1.x i Y i = b 0 + b 1 X i + e i b0: hệ số tung độ gốc (hệ số chặn) b1: hệ số dốc (hệ số góc) e i : sai số, thể hiện yếu tố nhiễu 2013 Nguyễn Tiến Dũng 9
11.2.2 Các giả định liên quan đến yếu tố nhiễu Các e i tại mỗi X i có phân phối bình thường Không có sự tương quan giữa các nhiễu, hay các e i độc lập với nhau 2013 Nguyễn Tiến Dũng 10
11.2.3 Ý nghĩa và cách xác định các hệ số hồi quy b 1 : hệ số độ dốc, đo lường lượng thay đổi TB trong biến phụ thuộc Y khi X thay đổi 1 đơn vị. b 0 : hệ số tung độ gốc cho biết giá trị của Y khi X = 0, có thể coi là ảnh hưởng TB của các yếu tố khác mà không có mặt trong mô hình 2013 Nguyễn Tiến Dũng 11
Dữ liệu mẫu Bảng 11.1 Stt Số năm Doanh số 1 3 487 2 5 445 3 2 272 4 8 641 5 2 187 6 6 440 7 7 346 8 1 238 9 4 312 10 2 269 11 9 655 12 6 563 2013 Nguyễn Tiến Dũng 12
Xác định các hệ số hồi quy Phương pháp Cực tiểu hoá tổng bình phương của các phần dư n n 2 2 ei Yi b0 b1x i i1 i1 min min ( ) b 1 n i1 i1 0 1 ( X X )( Y Y ) n b Y b X i ( X X) i i 2 2013 Nguyễn Tiến Dũng 13
Doanh số bán hàng (triệu đồng) 11.2.4 Tính toán các kết quả hồi quy bằng Excel Vẽ đồ thị Scatter Chart 700 y = 49,91x + 175,83 R² = 0,6931 600 500 400 300 200 100 0 0 2 4 6 8 10 Số năm kinh nghiệm 2013 Nguyễn Tiến Dũng 14
Sử dụng Data Analysis 2013 Nguyễn Tiến Dũng 15
11.2.6 Đo lường biến thiên bằng Hệ số xác định Hệ số xác định (Coefficient of Determination) SST SSR SSE SST ( Y Y ) 2 n i1 n SSR ( Yˆ Y ) i1 n SSE ( Y Yˆ ) R i1 SSR SST i i i i 2 2 2 2013 Nguyễn Tiến Dũng 16
2013 Nguyễn Tiến Dũng 17
11.2.5 Vấn đề cần chú ý khi dự đoán với mô hình hồi quy Chỉ nên dự đoán Y i với những giá trị X i nằm giữa X min và X max, hoặc không quá xa X min và X max Lý do: với những giá trị X i nằm càng xa X tb, thì sai số khi ước lượng Y i càng lớn. 2013 Nguyễn Tiến Dũng 18
11.2.8 Suy diễn TK về hệ số độ dốc 11.2.8.1 Định lý Gauss-Markov Giả định: PP của Y là bình thường thì PP của b0 và b1 cũng là PP bình thường Đ/lý Gauss-Markov Trong các ƯL tuyến tính không chệch cho hệ số hồi quy tổng thể, ƯL tìm được bằng PP bình phương bé nhất có PS cực tiểu. 2013 Nguyễn Tiến Dũng 19
11.2.8.2 Khoảng tin cậy cho hệ số độ dốc 2013 Nguyễn Tiến Dũng 20
11.2.8.3 KĐ ý nghĩa của hệ số độ dốc Cặp giả thuyết KĐ Chỉ tiêu KĐ tính: t = b 1 /s b1 Quy tắc bác bỏ H 0 : TD: b 1 = 49,91 s b1 = 10,5021 t = 4,7524 t tra bảng: t n-2;α/2 = t 10; 0,025 =2,228 Bác bỏ H 0. H H : 0 0 1 : 0 1 1 Baùc boû H 0 neáu t t t t n2; /2 n2; /2 2013 Nguyễn Tiến Dũng 21
2013 Nguyễn Tiến Dũng 22
11.2.9 Phân tích phần dư 11.2.9.1 Kiểm tra tính đúng đắn của mô hình HQTT KT mối liên hệ tuyến tính: Vẽ đồ thị phần dư theo biến độc lập X: e = f(x) Nếu các điểm không tạo thành một hình mẫu cụ thể nào thì quan hệ HQTT là đúng đắn 2013 Nguyễn Tiến Dũng 23
11.2.9.2 KT sự vi phạm giả định PS bằng nhau Phương pháp đồ thị phần dư (e) theo X Nếu phần dư tăng dần khi X tăng lên thì có nghĩa là phương sai của phần dư đã thay đổi vi phạm Phương pháp Kiểm định Park 2013 Nguyễn Tiến Dũng 24
11.2.9.3 KT giả định PP bình thường của phần dư Vẽ đồ thị xác suất bình thường (Normal Probability Plot): e = e(z) Sử dụng Excel 2013 Nguyễn Tiến Dũng 25
2013 Nguyễn Tiến Dũng 26
11.2.9.4 KT tính độc lập của phần dư P.pháp đồ thị: vẽ đồ thị phần dư theo trật tự các giá trị thu được theo thời gian. Nếu không xuất hiện một hình mẫu xác định nào có thể KL là các phần dư độc lập với nhau. KĐ Durbin-Watson: Chỉ tiêu KĐ D D n i2 ( e e ) i n i1 2 i i1 e : phaàn dö taïi quan saùt i i e n: soá quan saùt Giaù trò cuûa D: 0 D 4 2 2013 Nguyễn Tiến Dũng 27
2013 Nguyễn Tiến Dũng 28
Durbin-Watson Table 2013 Nguyễn Tiến Dũng 29
11.2.10 Sử dụng PT hồi quy để dự đoán giá trị TB và giá trị cá biệt của Y Giá trị TB E( Y X ) Yˆ e 0 0 Yˆ b b X 0 0 1 0 Y 2 1 ( X0 X) e t Y n2; /2 sy X n n ( X X) i1 i 2 Giá trị cá biệt Y Yˆ e 0 0 Y Yˆ b b X 0 0 1 0 2 1 ( X0 X) ey tn2; /2 sy X 1 n n ( X X) i1 i 2 2013 Nguyễn Tiến Dũng 30
11.3 Tương quan tuyến tính 11.3.1 Hệ số tương quan tổng thể rho 11.3.2 Hệ số tương quan mẫu r XY XY XY cov( XY, ) var( X) var( Y) X XY. Y r XY s s X XY. s Y n i1 ( x x )( y y) i n n 2 2 ( xi x ) ( yi y) i1 i1 i 2013 Nguyễn Tiến Dũng 31
Giá trị và ý nghĩa của hệ số tương quan: r < 0: có mối liên hệ tỷ lệ nghịch r > 0: có mối liên hệ tỷ lệ thuận r > 0,8 : TQTT rất mạnh r = 0,6 0,8: TQTT mạnh r = 0,4 0,6: TQTT vừa phải r = 0,2 0,4: TQTT yếu r < 0,2 : TQTT rất yếu 2013 Nguyễn Tiến Dũng 32
KĐ ý nghĩa của hệ số tương quan tuyến tính Cặp giả thuyết KĐ Chỉ tiêu KĐ Quy tắc bác bỏ H0 Bác bỏ H0 nếu t > t n-2;α/2 TD: Trang 345 t H H 0 1 : 0 : 0 r 2 1 r r n 2 n 2 1 r 2 2013 Nguyễn Tiến Dũng 33
11.4 Tương quan giữa các biến định tính 11.4.1 Hệ số TQ hạng Spearman 11.4.2 Hệ số Kendall Tau 11.4.3 Hệ số tq đối với DL thứ bậc trong DL đã phân nhóm (tau c, gamma, dyx và dxy) 2013 Nguyễn Tiến Dũng 34
KĐ theo hệ số tương quan hạng Spearman r S Biến X1 và X2 có dữ liệu thứ bậc (hoặc DL khoảng, nhưng đã biến thành DL thứ bậc bằng cách xếp hạng trong từng mẫu), mẫu n cặp quan sát Tính chênh lệch hạng di = x1i x2i (i = 1, 2, n) Tính hệ số tương quan hạng r S H0: Không có liên hệ giữa 2 biến (Hệ số tương quan hạng của tổng thể = 0) Nếu số trường hợp có di = 0 nhiều, thì cần thêm một hệ số hiệu chỉnh Nếu n > 10, PP của hệ số TQ hạng trên mẫu xấp xỉ PP bình thường với độ lệch chuẩn là 1/(n 1). Chỉ tiêu KĐ sẽ là z rs z rs n 1 1 / n 1 r S 1 6 n i1 d 2 i nn ( 1) 2013 Nguyễn Tiến Dũng 35