ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NINH HOÀI ANH NGHIÊN CỨU VÀ XÂY DỰNG ỨNG DỤNG PHÂN TÍCH DỮ LIỆU KINH DOANH THIẾT BỊ ĐIỆN TỬ

Σχετικά έγγραφα
Câu 2 (1,0 điểm). Giải phương trình: 1 sin x sin cos x π x x = + +.

HỒI QUI VÀ TƯƠNG QUAN

Gi i tých c c hµm nhiòu biõn

Chuỗi Fourier và tích phân Fourier

PHÉP TÍNH VI PHÂN HÀM MỘT BIẾN

là: A. 253 B. 300 C. 276 D. 231 Câu 2: Điểm M 3; 4 khi đó a b c

TRÌNH TỰ TÍNH TOÁN THIẾT KẾ BỘ TRUYỀN BÁNH RĂNG TRỤ (THẲNG, NGHIÊNG)

MỘT SỐ LỚP BÀI TOÁN VỀ DÃY SỐ

ĐỀ THI VÀ LỜI GIẢI ĐỀ CHỌN ĐỘI TUYỂN QUỐC GIA DỰ THI OLYMPIC TOÁN QUỐC TẾ CỦA VIỆT NAM TỪ NĂM 2005 ĐẾN NĂM 2010

(2.2) (2.3) - Mômen xoắn là tổng các mômen của các ứng suất tiếp ñối với trục z. Hình 2.3. Các thành phần nội lực P 6. Q x II.

Kinh tế học vĩ mô Bài đọc

CHƯƠNG 1: HÀM NHIỀU BIẾN

AD AB và M là một điểm trên cạnh DD ' sao cho DM = a 1 +.

HỒI QUI VÀ TƯƠNG QUAN

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ===== ===== SÁCH HƯỚNG DẪN HỌC TẬP TOÁN CAO CẤP (A2) (Dùng cho sinh viên hệ đào tạo đại học từ xa)

1. Ma trận A = Ký hiệu tắt A = [a ij ] m n hoặc A = (a ij ) m n

Năm Chứng minh Y N

GIÁO TRÌNH PHƯƠNG PHÁP TÍNH

LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN

I 2 Z I 1 Y O 2 I A O 1 T Q Z N

Tôi có thể tìm mẫu đơn đăng kí ở đâu? Tôi có thể tìm mẫu đơn đăng kí ở đâu? Για να ρωτήσετε που μπορείτε να βρείτε μια φόρμα

SÁCH HƯỚNG DẪN HỌC TẬP TOÁN CAO CẤP (A1) Ths. ĐỖ PHI NGA

5. Phương trình vi phân

Năm Chứng minh. Cách 1. Y H b. H c. BH c BM = P M. CM = Y H b

MALE = 1 nếu là nam, MALE = 0 nếu là nữ. 1) Nêu ý nghĩa của các hệ số hồi quy trong hàm hồi quy mẫu trên?

Bài Tập Môn: NGÔN NGỮ LẬP TRÌNH

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

1.3.3 Ma trận tự tương quan Các bài toán Khái niệm Ý nghĩa So sánh hai mô hình...

Chương 1: VECTOR KHÔNG GIAN VÀ BỘ NGHỊCH LƯU BA PHA

9.2. Lựa chọn thiết bị và các tham số theo điều kiện làm việc lâu dài Kiểm tra các thiết bị điện Lựa chọn các phần tử của

BIÊN SOẠN : TS. MAI VĂN NAM

A A i j, i i. Ta kiểm chứng lại rằng giá trị này không phụ thuộc vào cách biểu diễn hàm f thành tổ hợp tuyền tính những hàm ñặc trưng. =, = j A B.

Năm 2017 Q 1 Q 2 P 2 P P 1

SỞ GD & ĐT ĐỒNG THÁP ĐỀ THI THỬ TUYỂN SINH ĐẠI HỌC NĂM 2014 LẦN 1

Ngày 26 tháng 12 năm 2015

Truy cập website: hoc360.net để tải tài liệu đề thi miễn phí

O 2 I = 1 suy ra II 2 O 1 B.

BÀI TOÁN ĐẲNG CHU RỜI RẠC TRONG MỘT GÓC

PHƯƠNG PHÁP THỐNG KÊ TRONG HẢI DƯƠNG HỌC. Phạm Văn Huấn

ĐỀ 56

có thể biểu diễn được như là một kiểu đạo hàm của một phiếm hàm năng lượng I[]

Tự tương quan (Autocorrelation)

Q B Y A P O 4 O 6 Z O 5 O 1 O 2 O 3

Suy ra EA. EN = ED hay EI EJ = EN ED. Mặt khác, EID = BCD = ENM = ENJ. Suy ra EID ENJ. Ta thu được EI. EJ Suy ra EA EB = EN ED hay EA

Tự tương quan (Autoregression)

* Môn thi: VẬT LÝ (Bảng A) * Ngày thi: 27/01/2013 * Thời gian làm bài: 180 phút (Không kể thời gian giao đề) ĐỀ:

Y i = β 1 + β 2 X 2i + + β k X ki + U i

KỸ THUẬT ĐIỆN CHƯƠNG IV

Sử dụngụ Minitab trong thống kê môi trường

Năm Pascal xem tại [2]. A B C A B C. 2 Chứng minh. chứng minh sau. Cách 1 (Jan van Yzeren).

BÀI TẬP LỚN MÔN THIẾT KẾ HỆ THỐNG CƠ KHÍ THEO ĐỘ TIN CẬY

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐỀ THI MINH HỌA - KỲ THI THPT QUỐC GIA NĂM 2015 Môn: TOÁN Thời gian làm bài: 180 phút.

M c. E M b F I. M a. Chứng minh. M b M c. trong thứ hai của (O 1 ) và (O 2 ).

(CH4 - PHÂN TÍCH PHƯƠNG SAI, SO SÁNH VÀ KIỂM ĐỊNH) Ch4 - Phân tích phương sai, so sánh và kiểm định 1

Năm 2014 B 1 A 1 C C 1. Ta có A 1, B 1, C 1 thẳng hàng khi và chỉ khi BA 1 C 1 = B 1 A 1 C.

Phụ thuộc hàm. và Chuẩn hóa cơ sở dữ liệu. Nội dung trình bày. Chương 7. Nguyên tắc thiết kế. Ngữ nghĩa của các thuộc tính (1) Phụ thuộc hàm

c) y = c) y = arctan(sin x) d) y = arctan(e x ).

x y y

x = Cho U là một hệ gồm 2n vec-tơ trong không gian R n : (1.2)

HỒI QUY TUYẾN TÍNH ĐƠN. GV : Đinh Công Khải FETP Môn: Các Phương Pháp Định Lượng

ĐỀ BÀI TẬP LỚN MÔN XỬ LÝ SONG SONG HỆ PHÂN BỐ (501047)

Ý NGHĨA BẢNG HỒI QUY MÔ HÌNH BẰNG PHẦN MỀM EVIEWS

Lecture-11. Ch-6: Phân tích hệ thống liên tục dùng biếnđổi Laplace

Μπορείτε να με βοηθήσετε να γεμίσω αυτή τη φόρμα; Για να ρωτήσετε αν κάποιος μπορεί να σας βοηθήσει να γεμίσετε μια φόρμα

PHÂN TÍCH ẢNH HƢỞNG CỦA SÓNG HÀI TRONG TRẠM BÙ CÔNG SUẤT PHẢN KHÁNG KIỂU SVC VÀ NHỮNG GIẢI PHÁP KHẮC PHỤC

1. Nghiên cứu khoa học là gì?

CHUYÊN ĐỀ 7. CACBOHIĐRAT

Môn: Toán Năm học Thời gian làm bài: 90 phút; 50 câu trắc nghiệm khách quan Mã đề thi 116. (Thí sinh không được sử dụng tài liệu)

Chương 12: Chu trình máy lạnh và bơm nhiệt

SỞ GIÁO DỤC VÀ ĐÀO TẠO KÌ THI TUYỂN SINH LỚP 10 NĂM HỌC NGÀY THI : 19/06/2009 Thời gian làm bài: 120 phút (không kể thời gian giao đề)

Tuyển chọn Đề và đáp án : Luyện thi thử Đại Học của các trường trong nước năm 2012.

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Ví dụ 2 Giải phương trình 3 " + = 0. Lời giải. Giải phương trình đặc trưng chúng ta nhận được

Chương 2: Mô hình hồi quy đơn

Dữ liệu bảng (Panel Data)

MỤC LỤC LỜI NÓI ĐẦU...

A. ĐẶT VẤN ĐỀ B. HƯỚNG DẪN HỌC SINH SỬ DỤNG PHƯƠNG PHÁP VECTƠ GIẢI MỘT SỐ BÀI TOÁN HÌNH HỌC KHÔNG GIAN

HOC360.NET - TÀI LIỆU HỌC TẬP MIỄN PHÍ. đến va chạm với vật M. Gọi vv, là vận tốc của m và M ngay. đến va chạm vào nó.

KỸ THUẬT ĐIỆN CHƯƠNG II

ĐỀ CƯƠNG CHI TIẾT HỌC PHẦN (Chương trình đào tạo tín chỉ, từ Khóa 2011)

Thuật toán Cực đại hóa Kì vọng (EM)

Bài Giảng Môn học: OTOMAT VÀ NGÔN NGỮ HÌNH THỨC

O C I O. I a. I b P P. 2 Chứng minh

Chương 11 HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN

Μετανάστευση Σπουδές. Σπουδές - Πανεπιστήμιο. Για να δηλώσετε ότι θέλετε να εγγραφείτε

Chương 5. Chẩn đoán hồi quy: Phương sai thay đổi

A 2 B 1 C 1 C 2 B B 2 A 1

HÀM NHIỀU BIẾN Lân cận tại một điểm. 1. Định nghĩa Hàm 2 biến. Miền xác định của hàm f(x,y) là miền VD:

Batigoal_mathscope.org ñược tính theo công thức

B. chiều dài dây treo C.vĩ độ địa lý

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

ĐỀ THI THỬ LẦN 10 THPT QUỐC GIA

TOÁN CAO CẤP (A2) BÀI GIẢNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Biên soạn : Ts. LÊ BÁ LONG Ths.

1.6 Công thức tính theo t = tan x 2

Biên soạn và giảng dạy : Giáo viên Nguyễn Minh Tuấn Tổ Hóa Trường THPT Chuyên Hùng Vương Phú Thọ

Tinh chỉnh lược đồ và các dạng chuẩn hoá

(Instrumental Variables and Regression Discontinuity Design)

Xác định nguyên nhân và giải pháp hạn chế nứt ống bê tông dự ứng lực D2400mm

gặp của Học viên Học viên sử dụng khái niệm tích phân để tính.

Бизнес Заказ. Заказ - Размещение. Официально, проба

Transcript:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NINH HOÀI ANH NGHIÊN CỨU VÀ XÂY DỰNG ỨNG DỤNG PHÂN TÍCH DỮ LIỆU KINH DOANH THIẾT BỊ ĐIỆN TỬ Ngàh: Côg ghệ thôg ti Chuyê gàh: Kỹ thuật phầ mềm Mã số: 60480103 TÓM TẮT LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội - 2017

2 MỤC LỤC MỞ ĐẦU... 3 CHƯƠNG 1. ĐẶT VẤN ĐỀ... 5 1.1. Bài toá phâ tích dữ liệu... 5 1.2. Lựa chọ miề ứg dụg... 5 1.3. Phươg pháp và côg cụ... 5 1.3.1. Lựa chọ phươg pháp... 5 1.3.2. Lựa chọ côg cụ... 6 CHƯƠNG 2. MÔ HÌNH HỒI QUY TUYẾN TÍNH VÀ CÔNG CỤ HỖ TRỢ WEKA... 7 2.1. Mô hìh hồi quy tuyế tíh... 7 2.1.1. Lý thuyết về mô hìh hồi quy... 7 2.1.2. Mô hìh hồi quy tuyế tíh... 8 2.1.3. Phươg pháp bìh phươg tối thiểu để ước lượg các tham số của mô hìh hồi quy tuyế tíh... 9 2.1.4. Ứg dụg mô hìh hồi quy tuyế tíh vào phâ tích dữ liệu... 9 2.2. Côg cụ hỗ trợ xây dựg mô hìh hồi quy tuyế tíh WEKA... 12 2.2.1. Giới thiệu về WEKA... 12 2.2.2. Các chức ăg chíh của WEKA... 13 2.2.3. Xây dựg mô hìh hồi quy tuyế tíh với WEKA... 13 CHƯƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ... 16 3.1. Phát biểu bài toá thực tế... 16 3.2. Tiế hàh xây dựg mô hìh... 16 3.2.1. Thu thập dữ liệu... 16 3.2.2. Tiề xử lý dữ liệu... 17 3.2.3. Lựa chọ thuộc tíh... 19 3.2.4. Xây dựg và đáh giá mô hìh... 20 3.3. Tíh toá thử ghiệm độ chíh xác dự báo... 22 CHƯƠNG 4. KẾT LUẬN... 24 TÀI LIỆU THAM KHẢO... 25

3 MỞ ĐẦU Ngày ay, dữ liệu được sih ra từg phút, từg giây, có ở khắp mọi ơi và chúg có thể chỉ cho ta thấy hiều điều. Tuy hiê, làm thế ào để dữ liệu trở ê có ý ghĩa lại trở thàh một vấ đề khôg hỏ đối với hữg cá hâ, tổ chức sở hữu hữg khối dữ liệu ày. Phâ tích dữ liệu là khoa học khám phá dữ liệu thô hằm rút ra kết luậ từ hữg dữ liệu ấy. Phâ tích dữ liệu được sử dụg trog hiều gàh côg ghiệp để hỗ trợ các côg ty, tổ chức để đưa ra quyết địh kih doah tốt hơ hoặc trog các gàh khoa học để xác hậ hay bác bỏ các mô hìh, lý thuyết hiệ có. Quá trìh phâ tích dữ liệu bao gồm các bước kiểm tra, làm sạch, chuyể đổi và mô hìh hóa dữ liệu với mục đích tìm thôg ti hữu ích, cho thấy kết luậ hoặc hỗ trợ ra quyết địh dựa trê bộ dữ liệu hiệ có. Vấ đề ghiê cứu và ứg dụg phâ tích dữ liệu vào các lĩh vực rất phổ biế và phát triể trê thế giới. Tuy hiê, tại Việt Nam, vấ đề ày cò chưa được ứg dụg rộg rãi, hất là trog lĩh vực kih doah thươg mại. Trê cơ sở các ghiê cứu đã có, luậ vă tập trug vào các mục tiêu và các vấ đề cầ giải quyết sau: Mục tiêu và phạm vi ghiê cứu: Luậ vă tập trug ghiê cứu về mô hìh hồi quy tuyế tíh, phươg pháp sử dụg mô hìh hồi quy tuyế tíh trog phâ tích dữ liệu, tìm hiểu côg cụ hỗ trợ phâ tích dữ liệu Weka. Mục tiêu chíh của luậ vă là dựa trê côg cụ Weka xây dựg được mô hìh hồi quy tuyế tíh dự đoá giá của mặt hàg máy tíh xách tay trê thị trườg Việt Nam thôg qua việc phâ tích dữ liệu bá hàg của Côg ty cổ phầ thươg mại Nguyễ Kim. Từ đó, hỗ trợ các doah ghiệp, hà phâ phối máy tíh xách tay đưa giá bá cạh trah hất trê thị trườg. Bê cạh đó, cũg giúp gười tiêu dùg ước lượg chi phí để mua một chiếc máy tíh xách tay phù hợp với hu cầu của bả thâ. Phươg pháp ghiê cứu: Trog phạm vi luậ vă ày, tôi đã sử dụg 03 phươg pháp ghiê cứu khoa học để tiếp cậ và làm rõ hữg vấ đề của đề tài mà mìh đã lựa chọ. Đó là các phươg pháp ghiê cứu sau: - Phươg pháp phâ tích và tổg hợp lý thuyết: Nghiê cứu các tài liệu khác hau về mô hìh hồi quy tuyế tíh, phâ tích dữ liệu và côg cụ Weka; phâ tích để tìm hiểu sâu sắc đối với mỗi vấ đề và tổg hợp để có cái hì tổg qua và đầy đủ về các vấ đề cầ tìm hiểu. - Phươg pháp thực ghiệm khoa học: Chủ độg tiế hàh thu thập, xử lý dữ liệu bá máy tíh xách tay; sử dụg côg cụ Weka xây dựg mô hìh hồi quy tuyế tíh để dự báo giá.

4 - Phươg pháp phâ tích, tổg kết kih ghiệm: Nghiê cứu, phâ tích và đáh giá các mô hìh đã xây dựg để từg bước xây dựg mô hìh phù hợp hất với độ ti cậy, chíh xác cao hơ. Bố cục của luậ vă: Luậ vă được trìh bày với bố cục gồm 04 chươg với hữg ội dug chíh hư sau: Chươg 1 - Đặt vấ đề: Phát biểu bài toá, lựa chọ miề ứg dụg và giới thiệu các phươg pháp và côg cụ để giải quyết bài toá Chươg 2 - Mô hìh hồi quy tuyế tíh và côg cụ hỗ trợ Weka: Trìh bày cơ sở lý thuyết của mô hìh hồi quy, đi vào cụ thể với mô hìh hồi quy tuyế tíh. Đồg thời, giới thiệu về côg cụ Weka, xây dựg mô hìh hồi quy tuyế tíh với sự hỗ trợ của Weka. Chươg 3 - Thực ghiệm và đáh giá kết quả: Sử dụg côg cụ Weka để xây dựg mô hìh hồi quy tuyế tíh dự báo giá bá máy tíh xách tay của Côg ty cổ phầ thươg mại Nguyễ Kim. Tiế hàh phâ tích, xây dựg mô hìh và đáh giá kết quả thu được. Chươg 4 - Kết luậ: Trìh bày kết quả đạt được của luậ vă và địh hướg phát triể trog tươg lai.

5 Chươg 1 ĐẶT VẤN ĐỀ 1.1. Bài toá phâ tích dữ liệu Dữ liệu được tạo ra từg giây, từg phút trog đời sốg xã hội hiệ đại. Chúg có thể là dữ liệu web, dữ liệu từ các cảm biế, các tệp lưu hật ký, dữ liệu cá hâ, dữ liệu từ các thiết bị thôg mih, Từ khối dữ liệu ày mà chúg ta có thể tìm kiếm, khai thác và trích xuất ra hữg thôg ti hữu ích. Làm thế ào để có được hữg thôg ti ấy là vấ đề được đặt ra. Phâ tích dữ liệu là một trog hữg chìa khóa giúp chúg ta giải quyết vấ đề êu trê. Vậy phâ tích dữ liệu là gì? Phâ tích dữ liệu là một trog hữg ứg dụg thực tiễ của kỹ thuật khai phá dữ liệu. Phâ tích dữ liệu là một quá trìh trích xuất thôg ti hữu ích từ tập dữ liệu được cug cấp. Các bước cơ bả của quá trìh phâ tích dữ liệu bao gồm: Kiểm địh, làm sạch, chuyể đổi, mô hìh hóa và phâ tích dữ liệu hằm mục đích tìm kiếm thôg ti, cho thấy kết luậ, hỗ trợ đưa ra quyết địh. Trước khi có máy tíh, hiều phươg pháp phâ tích cho tập dữ liệu hỏ đã phát triể và tập trug phâ tích từg biế riêg lẻ. Ngày ay, khi khả ăg tíh toá của máy tíh đã phát triể vượt bậc, phâ tích dữ liệu đã phâ tích đồg thời qua hệ của hiều biế. 1.2. Lựa chọ miề ứg dụg Trog khuô khổ luậ vă ày, tác giả tập trug ghiê cứu, ứg dụg phâ tích dữ liệu vào lĩh vực kih doah. Dữ liệu bá hàg của các côg ty điệ máy là khối dữ liệu đồ sộ với đa dạg các loại mặt hàg của hiều hà cug cấp được bày bá với mức giá có thể thay đổi theo thời gia và từg chươg trìh khuyế mãi khác hau. Khối dữ liệu ày được thể hiệ đầy đủ và đág ti cậy trê website của các côg ty điệ máy và có thể được thu thập một cách chíh xác thôg qua các côg cụ sẵ có. Tác giả lấy dữ liệu bá hàg của Côg ty cổ phầ thươg mại Nguyễ Kim là điể hìh. Phâ tích dữ liệu bá hàg của Côg ty cổ phầ thươg mại Nguyễ Kim để hỗ trợ các côg ty điệ máy dự đoá và đưa ra giá bá cạh trah hất cho mặt hàg máy tíh xách tay trê thị trườg Việt Nam. 1.3. Phươg pháp và côg cụ 1.3.1. Lựa chọ phươg pháp Phâ tích dữ liệu khẳg địh là lựa chọ khôg thể bỏ qua để hỗ trợ đưa ra quyết địh kih doah ság suốt. Một mô hìh dữ liệu được xây dựg dựa trê tập dữ liệu lịch sử. Nhữg thuật toá học máy được sử dụg để xây dựg mô hìh dữ liệu ẩ giấu trog tập dữ liệu ày. Sau khi mô hìh dữ liệu được xác hậ, ó được coi là tổg quát hóa kiế thức và có thể dự đoá tươg lai. Bằg cách ày, các doah ghiệp có thể dự đoá các guy cơ tiềm ẩ trog tươg lai để hoạch địh chiế lược kih doah phù hợp.

6 Thốg kê cug cấp các phươg pháp, kỹ thuật xây dựg mô hìh toá học để phâ tích dữ liệu. Hai phươg pháp thốg kê chíh được sử dụg trog phâ tích dữ liệu là: Thốg kê mô tả (Descriptive statistics) và thốg kê suy diễ (Iferetial statistics). Dữ liệu thốg kê thườg được thu thập để trả lời các câu hỏi được địh trước. Thốg kê mô tả tóm tắt dữ liệu từ một mẫu thí ghiệm cò thốg kê suy diễ rút ra kết luậ từ dữ liệu. Ngày ay, với sự phát triể khôg gừg về khả ăg tíh toá của máy tíh, thốg kê được sử dụg hiều trog học máy (Machie learig) hằm xây dựg các mô hìh toá cho các thuật toá học máy. Thốg kê suy diễ được sử dụg hiều trog phâ tích dữ liệu khẳg địh. Trog khuô khổ luậ vă ày, tác giả tập trug ghiê cứu mô hìh hồi quy tuyế tíh trog thốg kê với mục đích xây dựg mô hìh học máy cho bài toá phâ tích dữ liệu để dự đoá tươg lai. 1.3.2. Lựa chọ côg cụ Hiệ tại, các côg cụ hỗ trợ phâ tích dữ liệu đã xuất hiệ hiều hư R, SPSS, Weka, Tuy hiê, tác giả lựa chọ và ghiê cứu phầ mềm Weka. Đây là phầ mềm được phát triể bằg Java hằm phát triể các kỹ thuật học máy và áp dụg chúg vào các bài toá khai phá dữ liệu trog thực tế.

7 Chươg 2 MÔ HÌNH HỒI QUY TUYẾN TÍNH VÀ CÔNG CỤ HỖ TRỢ WEKA 2.1. Mô hìh hồi quy tuyế tíh 2.1.1. Lý thuyết về mô hìh hồi quy Phâ tích hồi quy ghiê cứu sự phụ thuộc của biế phụ thuộc vào một hay hiều biế độc lập để ước lượg hay dự đoá giá trị trug bìh của biế phụ thuộc trê cơ sở các giá trị biết trước của biế độc lập. Phâ tích hồi quy được mô hìh hóa thôg qua dưới dạg: Y = f(x) + ε (2.1) Trog đó: X là biế độc lập, Y là biế phụ thuộc, ε là sai số gẫu hiê và f(x) = E(Y X) là hàm hồi quy tổg thể PRF cho biết giá trị trug bìh của biế Y sẽ thay đổi hư thế ào khi biế X hậ các giá trị khác hau Mô hìh (2.1) được gọi là mô hìh hồi quy. Để khảo sát mô hìh hồi quy gười ta tiế hàh qua sát các bộ số (Xi, Yi). Ở lầ qua sát thứ i, biế X hậ giá trị Xi, biế Y hậ giá trị Yi và sai số gẫu hiê là εi. Khi đó, mô hìh (2.1) trở thàh: Yi = f(xi) + εi = E(Y Xi) + εi (2.2) εi là độ chêh lệch giữa giá trị qua sát Yi của biế phụ thuộc Y với giá trị trug bìh của Y khi biế độc lập X hậ giá trị Xi. ε tồ tại bởi hiều yếu tố tác độg. Một yếu tố qua trọg là do goài các biế độc lập X đã được đưa vào mô hìh có thể cò có các biế khác chưa được xem xét tới cũg ảh hưởg đế giá trị của biế phụ thuộc Y ê ε đại diệ cho phầ ảh hưởg ấy. Từ (2.2) ta có: εi = Yi - f(xi) => εi 0 Yi - f(xi) 0 Nếu εi có giá trị càg hỏ thì biế phụ thuộc Y càg qua hệ mật thiết hay càg phụ thuộc vào biế độc lập X. Vì vậy, ε đóg vai trò qua trọg trog việc đáh giá chất lượg của mô hìh hồi quy. Việc xây dựg mô hìh hồi quy tốt thực chất là xác địh hàm hồi quy tổg thể f(x) sao cho sai số gẫu hiê ε của mô hìh hậ giá trị hỏ hất. Khi đó, ta có thể ước lượg hay dự đoá giá trị của biế phụ thuộc Y trê cơ sở các giá trị biết trước của biế độc lập X với một độ ti cậy hất địh. Trog hiều trườg hợp, ta khôg có điều kiệ để xét toà bộ tổg thể của một vấ đề. Khi đó, ta có thể ước lượg giá trị trug bìh của biế phụ thuộc từ tập số liệu mẫu. Thốg kê học cug cấp phươg pháp điều tra chọ mẫu cho phép lấy tập số liệu tổg thể một số mẫu số liệu để ghiê cứu, phâ tích và đưa ra kết quả cho tổg thể với độ ti cậy cho trước. Việc xây dựg hàm hồi quy tổg thể được thực hiệ thôg qua việc xác địh hàm hồi quy mẫu SRF, dùg ó để ước lượg và kiểm địh các giả thiết từ đó xây dựg hàm hồi quy tổg thể. Hàm hồi quy mẫu được xây dựg dựa trê tập số liệu mẫu. Mô hìh hồi quy được chia làm 02 loại:

8 - Mô hìh hồi quy đơ với hàm hồi quy tổg thể chỉ có 1 biế độc lập - Mô hìh hồi quy bội với hàm hồi quy tổg thể có từ 2 biế độc lập trở lê 2.1.2. Mô hìh hồi quy tuyế tíh Mô hìh hồi quy tuyế tíh là mô hìh hồi quy mà trog đó hàm hồi quy tổg thể có dạg tuyế tíh f(xi) = E(Y Xi) = β 0 + β 1X 1i + β 2X 2i + + β X i (2.3) Trog đó: - Xi là giá trị của các biế độc lập X ở qua sát thứ i - E(Y Xi) là giá trị trug bìh của biế phụ thuộc Y khi biế độc lập X hậ các giá trị Xi ở qua sát thứ i - β 0, β 1, β 2,, β là các tham số hồi quy. Tham số hồi quy β 0 cò được gọi là hệ số tự do, ó cho biết giá trị trug bìh của biế phụ thuộc Y là bao hiêu khi biế độc lập X hậ giá trị 0. Tham số hồi quy β j cò được gọi là các hệ số góc, ó cho biết giá trị trug bìh của biế phụ thuộc Y sẽ thay đổi hư thế ào khi giá trị của biế độc lập thứ j X ji tăg một đơ vị với điều kiệ các biế độc lập khác khôg thay đổi giá trị. Thật vậy: Giả sử X ji 1 = X ji + 1 Ta có E(Y Xi) 1 = E(Y Xi) + βj => βj = E(Y Xi) 1 - E(Y Xi) Nếu βj > 0 thì E(Y Xi) 1 > E(Y Xi) tức là giá trị trug bìh của Y tăg. Ngược lại, ếu βj < 0 thì E(Y Xi) 1 < E(Y Xi) tức là giá trị trug bìh của Y giảm. Như đã trìh bày ở phầ trước: - Nếu f(xi) = E(Y Xi) = β 0 + β 1Xi thì mô hìh được gọi là mô hìh hồi quy tuyế tíh đơ. - Nếu f(xi) = E(Y Xi) = β 0 + β 1X 1i + β 2X 2i + + β X i với >= 2 thì mô hìh được gọi là mô hìh hồi quy tuyế tíh bội. Đối với mô hìh hồi quy tuyế tíh, hàm hồi quy mẫu có dạg: Y i = β 0 + β 1X 1i + β 2X 2i + + β X i (2.3) Trog đó: β i là ước lượg điểm của β i, Y i là ước lượg điểm của Yi Khi đó, sai số ei = Yi - Y i. Mih họa bằg hìh 2.1. Hìh 2.1. Sai số ei giữa Yi và Y i

9 Như vậy, việc xây dựg mô hìh hồi quy tuyế tíh trở thàh việc xác địh các β i sao cho sai số ei hỏ hất tức là Y i càg gầ với giá trị Yi càg tốt. 2.1.3. Phươg pháp bìh phươg tối thiểu để ước lượg các tham số của mô hìh hồi quy tuyế tíh Phươg pháp bìh phươg tối thiểu OLS được đưa ra bởi hà toá học Carl Friedrich Gauss là phươg pháp được sử dụg phổ biế hất trog thốg kê để xác địh các β i sao cho tổg bìh phươg các sai số ei giữa giá trị qua sát Yi với giá trị Y i tíh theo hàm hồi quy mẫu là hỏ hất. Nội dug phươg pháp cụ thể hư sau: Xét trườg hợp, hàm hồi quy tổg thể có dạg: f(xi) = E(Y Xi) = β 0 + β 1Xi và có một mẫu gồm cặp qua sát (Xi, Yi) với i = 1, 2,,. Ở lầ qua sát thứ i, ta có: - Hàm hồi quy mẫu: Y i = β 0 + β 1Xi - Sai số: e i = Yi - Y i = Yi - β 0 - β 1Xi - Tổg bìh phươg các sai số ei: 2 e i = (Yi β 0 β 1Xi) 2 Việc cầ làm là xác địh β 0 và β 1 sao cho tổg bìh phươg các ei là hỏ hất. Tức là: f(β 0, β 1) = (Yi β 0 β 1Xi) 2 => mi Vì f(β 0, β 1) là đa thức bậc 2 của 2 biế β 0, β 1 ê điều kiệ để ó đạt cực tiểu là: { f(β 0,β 1) β 0 f(β 0,β 1) β 1 Giải hệ phươg trìh (2.4) ta được: = 2 (Yi β 0 β 1Xi)( 1) = 0 = 2 (Yi β 0 β 1Xi)( Xi) = 0 β 0 = Y - β 1X và β 1 = (Xi X )(Yi Y ) = Yi Xi X Y (Xi X ) 2 Xi 2 (X ) 2 (2.4) Trog đó: - X là giá trị trug bìh của X, X = Xi - Y là giá trị trug bìh của Y, Y = Yi 2.1.4. Ứg dụg mô hìh hồi quy tuyế tíh vào phâ tích dữ liệu Trê thực tế, khi phâ tích dữ liệu, chúg ta phải xác địh mối qua hệ giữa một biế phụ thuộc vào hiều biế độc. Vì vậy, chúg ta cầ xem xét các mô hìh hồi quy tuyế tíh hiều hơ 1 biế độc lập. Khi đó, hàm hồi quy tổg thể với k biế độc lập có dạg: f(xi) = E(Y Xi) = β 0 + β 1X 1i + β 2X 2i + + β kx ki

10 Với qua sát ta có: Y 1 = β 0 + β 1 X 11 + β 2 X 21 + + β k X k1 + e 1 Y 2 = β 0 + β 1 X 12 + β 2 X 22 + + β k X k2 + e 2 Y = β 0 + β 1 X 1 + β 2 X 2 + + β k X k + e Ký hiệu: Y 1 β 0 e 1 1 X 11 X 21 X k1 Y Y = [ 2 β ]; β = [ 1 e ]; e = [ 2 1 X ] và X = [ 12 X 22 X k2 ] Y β e k 1 X 1 X 2 X k Ta có: Y = Xβ + e Hàm hồi quy mẫu có dạg: Khi đó: e = [ e 2 ] = Y Xβ e Y i = β 0 + β 1X 1i + β 2X 2i + + β kx ki e 1 Các ước lượg OLS tìm được bằg cách tìm các β i sao cho: e i 2 = (Y i β 0 β 1X 1i β 2X 2i β kx ki ) 2 => Mi i = 1 Gọi X T, Y T, β T, e T lầ lượt là ma trậ chuyể vị của X, Y, β và e Khi đó: 2 e i = e T e = Y T Y 2β T X T Y + β T X T Xβ Hệ phươg trìh có dạg: (e T e) β = 0 => 2X T Y + 2X T Xβ = 0 Trog đó ma trậ X T X có dạg hư sau: X T X = X 1i X 2i X ki [ => β = (X T X) 1 X T Y (2.10) X 1i X 1i 2 X 2i X 1i X ki X 1i X 2i X 1i X 2i X 2i 2 X ki X 2i X ki X 1i X ki X 2i X ki X ki 2 ] Kết quả: Các hệ số hồi quy được ước lượg theo côg thức (2.10)

11 Hệ số xác địh r 2 được địh ghĩa hư là tỷ lệ (%) sự biế độg của biế phụ thuộc Y được giải thích bằg các biế độc lập X k. r 2 = 1 - RSS TSS = ESS TSS (0 r2 1) Hệ số tươg qua r ói lê mối tươg qua giữa biế phụ thuộc Y và các biế độc lập X k. r = r 2 ( 1 r 1) Hệ số xác địh đã điều chỉh r 2 để xác địh có ê thêm 1 biế độc lập vào mới vào mô hìh hay khôg. Thườg thì giá trị của r 2 có sự khác biệt rất ít so với. Chúg ta có thể quyết địh thêm một biế độc lập mới vào mô hìh ếu r 2 tăg lê khi tăg biế đó. r 2 = 1 (1 r 2 )( 1 ) k Trog đó: k là số biế độc lập đưa vào mô hìh Ví dụ: Ta có số liệu qua sát của một mẫu được êu trog Bảg 2.1 i 1 2 3 4 5 6 7 8 9 10 X 1 8 7 8 8 6 6 5 5 4 3 X 2 2 3 4 4 5 5 6 7 8 8 Y 20 18 19 18 17 17 16 15 13 12 Bảg 2.1. Số liệu theo dõi dữ liệu bá hàg Trog đó: - Y là số lượg hàg bá được của một loại hàg (tấ/thág) - X1 là thu hập của gười tiêu dùg (triệu đồg/ăm) - X2 là giá bá của loại hàg ày (gà đồg/kg) Cầ tìm hàm hồi quy: Y = β 0 + β 1X 1 + β 2X 2 Lời giải: Ta tíh được: 39980 3816 3256 165 (X T X) 1 1 = [ 3816 376 300 ] và X T Y = [ 1029] 1528 3256 300 280 813 39980 3816 3256 165 14.99 1 => β = [ 3816 376 300 ] [ 1029] = [ 0.76 ] 1528 3256 300 280 813 0.59 Vậy hàm hồi quy cầ tìm là: Y = 14.99 + 0.76X 1 0.59X 2 Khi đó ta có: i 1 2 3 4 5 6 7 8 9 10 Y 20 18 19 18 17 17 16 15 13 12 Ŷ 19.89 18.54 18.71 18.71 16.6 16.6 15.25 14.66 13.31 12.55

12 RSS = 2.2886 ESS = 56.1686 TSS = 58.5 r 2 = 0.960147 r = 0.979871 r 2 = 0.955165 Vậy, với hàm hồi quy tìm được, sự biế độg của số lượg hàg bá ra được giải thích theo thu hập của gười dùg và giá bá của sả phẩm với tỷ lệ 96%. Đồg thời, số lượg hàg bá ra có tươg qua chặt chẽ với thu hập của gười dùg và giá bá của sả phẩm. 2.2. Côg cụ hỗ trợ xây dựg mô hìh hồi quy tuyế tíh WEKA 2.2.1. Giới thiệu về WEKA WEKA (Waikato Eviromet for Kowledge Aalysis) là một phầ mềm khai phá dữ liệu mã guồ mở được phát triể bởi Đại học Waikato ở New Zealad. WEKA cũg là tê một loài chim chỉ có trê một hò đảo của New Zealad. WEKA được xây dựg bằg gô gữ Java với mục tiêu xây dựg một côg cụ hiệ đại phát triể các kỹ thuật học máy và ứg dụg vào các bài toá khai phá dữ liệu trog thực tế. WEKA được chia sẻ rộg rãi trê website http://www.cs.waikato.ac.z/~ml/weka/idex.html. Weka cug cấp đầy đủ các phiê bả cho hệ điều hàh Widows, Mac OS X, Liux. Lưu ý, máy tíh cầ phải phiê bả Java cầ thiết để để chạy một phiê bả Weka cụ thể. Với bả Weka 3.8 hiệ tại, máy tíh cầ cài đặt phiê bả Java 1.7 trở lê. WEKA được xây dựg với hơ 600 lớp, tổ chức thàh 10 packages, mỗi package thực hiệ một hiệm vụ trog quá trìh khai phá dữ liệu. Giao diệ đồ họa gười sử dụg GUI của WEKA được phát triể theo hướg trực qua và dễ sử dụg. a. Giao diệ chíh b. Giao diệ chức ăg Explorer Hìh 2.3. Một số hìh ảh về giao diệ đồ họa gười sử dụg của WEKA

13 2.2.2. Các chức ăg chíh của WEKA WEKA cug cấp 5 môi trườg làm việc hằm hỗ trợ gười sử dụg hai chức ăg chíh là khai phá dữ liệu và thực ghiệm, đáh giá các mô hìh học máy. Cụ thể: - Explorer: Môi trườg cho phép tiế hàh khai phá dữ liệu. - Experimeter: Môi trườg cho phép thực ghiệm (Setup, Ru), so sáh, phâ tích (Aalyse) các mô hìh học máy. - KowledgeFlow: Môi trườg ày hỗ trợ các tíh ăg cơ bả giốg hư Explorer hưg với một giao diệ kéo thả để hỗ trợ học tập gia tăg. - Simple CLI: Cug cấp một giao diệ dòg lệh đơ giả cho phép thực thi trực tiếp các lệh của WEKA cho các hệ điều hàh khôg cug cấp giao diệ dòg lệh riêg. - Workbech: Môi trườg ày là sự kết hợp của 4 môi trườg êu trê, gười sử dụg có thể tùy ý chuyể đổi mà khôg cầ phải quay lại cửa sổ Weka GUI Chooser. 2.2.3. Xây dựg mô hìh hồi quy tuyế tíh với WEKA Để xây dựg một mô hìh hồi quy tuyế tíh với WEKA, gười sử dụg cầ lựa chọ Explorer với các tíh ăg Preprocess, Classify và Select attributes. Quá trìh xây dựg mô hìh được theo 03 bước: Tiề xử lý dữ liệu, lựa chọ các thuộc tíh, xây dựg và đáh giá mô hìh. Hìh 2.4. Các bước xây dựg một mô hìh hồi quy tuyế tíh với WEKA Trước tiê, để tiề xử lý dữ liệu, gười sử dụg cầ chọ tíh ăg Preprocess của Explorer. Tíh ăg Preprocess cho phép gười sử dụg lựa chọ và chỉh sửa các tập dữ liệu được sử dụg để khai phá. Weka có thể tiếp hậ dữ liệu từ các tập dữ liệu, từ các địa chỉ URL và từ các cơ sở dữ liệu SQL (thôg qua JDBC). Dữ liệu đầu vào của Weka được địh dạg chuẩ ARFF với phầ mở rộg *.arff. Tuy hiê, Weka cug cấp bộ chuyể đổi dữ liệu từ các địh dạg *.csv, *.ames,.data, *.jso, *.libsvm, *.m, *.dat, *.bsi sag dạg *.arff. Ngoài ra, gười dùg cũg có thể bổ sug các địh dạg khác bằg các thêm bộ chuyể đổi tập ti vào package weka.core.coverters. Người sử dụg cầ mở tập ti dữ liệu ba đầu, tùy chỉh dữ liệu rồi lưu lại với địh dạg *.arff. Sau khi tiề xử lý dữ liệu, gười sử dụg cầ lựa chọ các thuộc tíh qua trọg, cầ thiết để xây dựg mô hìh hồi quy tuyế tíh. Tập dữ liệu có rất hiều thuộc tíh để mô tả đầy đủ các khía cạh của dữ liệu, tuy hiê khôg

14 phải tất cả các thuộc tíh đề phù hợp để xây dựg mô hìh hồi quy tuyế tíh. Nói cách khác, việc lựa chọ thuộc tíh chíh là lựa chọ tập hợp các biế quy để xây dựg mô hìh. WEKA cug cấp tíh ăg Select attributes của Explorer để hỗ trợ gười sử dụg lựa chọ các thuộc tíh xây dựg mô hìh hồi quy tuyế tíh. Tíh ăg Select attributes có hiệm vụ tìm tập co các thuộc tíh của tập dữ liệu để xây dựg được mô hìh ti cậy hất. Người sử dụg cầ thiết lập bố đối tượg cụ thể sau: - Lựa chọ thuộc tíh được dự đoá (biế phụ thuộc): Sử dụg dropdow liệt kê tập thuộc tíh của tập dữ liệu. Hìh 2.5. Lựa chọ thuộc tíh được dự đoá - Bộ đáh giá thuộc tíh (Attribute Evaluator): Để đáh giá tập các thuộc tíh của tập dữ liệu. WEKA cug cấp 9 phươg pháp đáh giá thuộc tíh - Phươg thức tìm kiếm (Search Method): Để xác địh phươg pháp tìm kiếm được thực hiệ. WEKA cug cấp 3 phươg thức tìm kiếm. - Chế độ lựa chọ thuộc tíh (Attribute Selectio Mode): Xác địh chế độ lựa chọ thuộc tíh sử dụg tập huấ luyệ đầy đủ hoặc tiế hàh xác hậ chéo. Để xây dựg mô hìh hồi quy tuyế tíh, gười sử dụg cầ lựa chọ sử dụg tập huấ luyệ đầy đủ. Sau cùg, để xây dựg và đáh giá mô hìh, WEKA hỗ trợ gười sử dụg thôg qua tíh ăg Classify của Explorer. Người sử dụg cầ thiết lập ba đối tượg cụ thể sau: - Bộ phâ lớp (Classifer): Lựa chọ fuctios/liearregressio. Việc xây dựg mô hìh hồi quy tuyế tíh được WEKA thực hiệ trê cơ sở phươg pháp bìh phươg tối thiểu. Có thể thực hiệ lựa chọ thuộc tíh bằg phươg

15 thức tham lam sử dụg loại bỏ lạc hậu hoặc xây dựg một mô hìh đầy đủ từ tất cả các thuộc tíh rồi loại bỏ dầ các thuộc tíh cho đế khi đạt được tiêu chí chấm dứt AIC. Ngoài ra, việc xây dựg mô hìh được thực hiệ với cơ chế phát hiệ các thuộc tíh đa cộg tuyế và cơ chế ổ địh các trườg hợp thoái hóa, giảm tìh trạg quá tải thôg bằg cách xử phạt các hệ số lớ Tiêu chuẩ thôg ti Akaike (AIC) của Nhà thốg kê Akaike Hirotsugu gười Nhật chỉ ra sự phù hợp của mô hìh. Mô hìh có tiêu chuẩ ày càg hỏ thì độ thích hợp của dữ liệu đối với mô hìh càg cao. AIC là tiêu chuẩ được sử dụg phổ biế hất trog các phâ tích chuổi thời gia và được tíh theo côg thức: AIC = ( ESS ) e(2k ) - Các tùy chọ kiểm thử (Test optios): Tùy chọ phươg pháp kiểm thử. WEKA cug cấp 4 phươg pháp, gồm: Use traiig set, Supplied test set, Cross-validatio, Percetage split. - Lựa chọ thuộc tíh được dự đoá (biế phụ thuộc).

16 Chươg 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1. Phát biểu bài toá Tác giả đã tiế hàh thu thập dữ liệu kih doah mặt hàg máy tíh xách tay của Côg ty Cổ phầ thươg mại Nguyễ Kim, xây dựg mô hìh hồi quy tuyế tíh trê tập dữ liệu thu thập được để dự báo giá bá sả phẩm. Quá trìh thực ghiệm được tiế thàh gồm 04 bước: Thu thập dữ liệu, tiề xử lý dữ liệu, lựa chọ thuộc tíh và xây dựg mô hìh. Trog đó, dữ liệu đầu vào của quá trìh thực ghiệm là hữg thôg ti về mặt hàg máy tíh xách tay được cug cấp trê trag thôg ti điệ tử của Côg ty Cổ phầ thươg mại Nguyễ Kim. Dữ liệu đầu ra là một mô hìh hồi quy tuyế tíh với biế phục thuộc là giá bá mặt hàg máy tíh xách tay, các biế độc lập là các thôg ti về cấu hìh, hà cug cấp sả phẩm, 3.2. Tiế hàh xây dựg mô hìh 3.2.1. Thu thập dữ liệu Dữ liệu được thu thập tại website thươg mại điệ tử của Côg ty cổ phâ thươg mại Nguyễ Kim với địa chỉ http://www.guyekim.com/may-tihxach-tay. Dữ liệu thu thập với hữg thôg ti chíh về tê sả phẩm, bộ vi xử lý (CPU Cetral Processig Uit), ram, card mà hìh, loại mà hìh và giá thàh sả phẩm. Website thươg mại điệ tử của Côg ty cổ phâ thươg mại Nguyễ Kim được thiết kế trê ề tảg HTML. Jsoup được lựa chọ để phâ tích và khai thác dữ liệu từ một tài liệu HTML. Nó là một thư việ Java cug cấp các API để phâ tích tài liệu HTML thàh dah sách các phầ tử và khai thác dữ liệu của từg phầ tử. Người sử dụg có thể tải trực tiếp bộ thư việ Jsoup dưới dạg tập ti jar tại địa chỉ https://jsoup.org/dowload. Jsoup phâ tích tài liệu HTML thàh mô hìh DOM. Người sử dụg cầ hiễu rõ bố cục của tài liệu HTML để truy cập chíh xác đế từg phầ tử cụ thể của dah sách. a. Tập ti Dom.html b. Mô hìh DOM của tập ti Dom.html Hìh 3.1. Mô hìh DOM của tập ti HTML đơ giả

17 Jsoup bao gồm hiều lớp đối tượg, hưg ba lớp đối tượg chíh và qua trọg hất là org.jsoup.jsoup, org.jsoup.odes.documet và org.jsoup.odes.elemet. Người sử dụg có thể tìm hiểu cụ thể trê website https://jsoup.org. Dữ liệu kih doah mặt hàg máy tíh xách tay của Côg ty cổ phầ thươg mại Nguyễ Kim được thu thập với hữg thuộc tíh tiêu biểu sau: TT Tê thuộc tíh Khuô dạg dữ liệu Mô tả 01 NgayTT 4/4/2016 Ngày dữ liệu được thu thập 02 NhaPP Nguye Kim Nhà phâ phối sả phẩm 03 NhaCC Asus, Leovo, Nhà cug cấp sả phẩm 04 TeSP E402SA WX043D Tê sả phẩm 05 Gia 5.300.000 Giá bá của sả phẩm 06 CPU_NhaCC Itel Celero Tê hà cug cấp CPU 07 CPU_TocDo 1.60 GHz, 800 MHz Tốc độ CPU 08 CPU_Dem 2 MB Cache Dug lượg bộ hớ đệm của CPU 09 Ram_Loai SDRAM DDR3 Loại Ram 10 Ram_DL 2 GB Dug lượg Ram 11 Ram_Bus 1600 MHz Tốc độ bus của Ram 12 HDD_Loai SATA, SDD Loại ổ cứg 13 HDD_DL 500 GB, 1 TB Dug lượg ổ cứg 14 Card_Loai Itel HD, GT 820M Loại card mà hìh 15 Card_DL 2GB, Share Dug lượg card mà hìh 16 MH_Loai LED HD, Full HD Loại mà hìh 17 MH_KT 14.0 ich, 15.6 ich Kích thước mà hìh 18 MH_DPG 1366 x 768 Pixels Độ phâ giải mà hìh Bảg 3.1. Dah sách thuộc tíh của tập dữ liệu thu thập Quá trìh thu thập dữ liệu được thực hiệ liê tục để theo dõi sự thay đổi về giá bá của các dòg sả phẩm máy tíh xác tay theo các thuộc tíh được thu thập. Cụ thể, với khoảg thời gia từ 04/4/2016 đế 19/7/2016, tập dữ liệu thu thập ở địh dạg.csv có 5.527 dòg dữ liệu với 327 dòg sả phẩm của 06 hà cug cấp, 16 lầ thu thập dữ liệu và 1.34MB dug lượg dữ liệu. 3.2.2. Tiề xử lý dữ liệu Như đã trìh bày ở Chươg 2, dữ liệu thu thập cầ phải tiề xử lý trước khi đưa vào xây dựg mô hìh. Ở đây, việc tiề xử lý dữ liệu được tiế hàh theo 02 giai đoạ: - Giai đoạ 1: Người sử dụg cầ loại bỏ các dữ liệu dư thừa và chuẩ hóa khuô dạg dữ liệu để WEKA có thể đọc được tập ti dữ liệu.csv. Cụ thể: Tê thuộc tíh ba đầu Khuô dạg dữ liệu ba đầu Tê thuộc tíh mới Khuô dạg dữ liệu mới NgayTT 4/4/2016 NgayTT 2016-04-04 12:00:00 Gia 5.300.000 Gia 5300000

CPU_NhaCC Itel Celero CPU_NhaCC Itel Celero CPU_TocDo 1.60 GHz, 800 CPU_TocDo MHz 1.60, 0.8 CPU_Dem 2 MB Cache CPU_Dem 1, 2, 3, Ram_DL 2 GB Ram_DL 2, 4, Ram_Bus 1600 MHz Ram_Bus 1600, 1333, HDD_Loai SATA, SDD, HDD SATA hoặc để trốg SATA + SDD SDD SDD hoặc để trốg HDD_DL 500 GB, 1 TB, HDD_DL 0, 500, 1024 1 TB + 128 GB SDD_DL 0, 128 Card_DL Card_DL 1, 2, 4, 2GB, Share 0 với card share MH_KT 14.0 ich, 15.6 ich MH_KT 14.0, 15.6 MH_DPG_W 1280, 1366, MH_DPG 1366 x 768 Pixels MH_DPG_H MH_DPG_H 768, 800, MH_DPG_S = MH_DPG_W * Tất cả các giá trị chưa xác địh được biểu diễ bởi? 18 Bảg 3.2. Dah sách các thuộc tíh đã tiề xử lý Kết thúc giai đoạ 1, tập ti dữ liệu có 862KB dug lượg. - Giai đoạ 2: Người sử dụg cầ mở tập ti dữ liệu bằg WEKA và tiế hàh lọc dữ liệu để loại bỏ các bả ghi giốg hau và xử các giá trị thiếu (missig value). Để loại bỏ các bả ghi giốg hau, gười sử dụg cầ sử dụg bộ lọc Usupervised/Istace/RemoveDuplicates. Sau khi lọc dữ liệu lầ thứ hất, tập ti dữ liệu cò 5.099 dòg dữ liệu và 869KB dug lượg. a. Lựa chọ bộ lọc dữ liệu b. Dữ liệu đã qua xử lý của bộ lọc Hìh 3.2. Loại bỏ các bả ghi giốg hau của tập ti dữ liệu Để xử lý các giá trị thiếu, gười sử dụg cầ sử dụg bộ lọc Usupervised/Attribute/RepalceMissigValue để thay thế các giá trị thiếu dựa

19 trê hữg giá trị đã biết của tập dữ liệu huấ luyệ. Sau khi lọc dữ liệu lầ thứ hai, tập ti dữ liệu có 880KB dug lượg. a. Lựa chọ bộ lọc dữ liệu b. Dữ liệu đã qua xử lý của bộ lọc Hìh 3.3. Xử lý giá trị thiếu trog tập dữ liệu Cuối cùg, để hoà tất việc tiề xử lý dữ liệu, gười sử dụg cầ lưu lại tập dữ liệu với địh dạg *.arff. 3.2.3. Lựa chọ thuộc tíh Lựa chọ thuộc tíh là bước đóg vai trò qua trọg trog quá trìh xây dựg mô hìh. Tập ti dữ liệu thu thập sau khi được tiề xử lý đã có 21 thuộc tíh, trog đó thuộc tíh Gia được xác địh là thuộc tíh được dự báo hay biế phụ thuộc trog mô hìh hồi quy tuyế tíh. Người sử dụg cầ sử dụg tíh ăg Select attributes của Explorer để lựa chọ các thuộc tíh độc lập xây dựg mô hìh trog số 20 thuộc tíh cò lại. Phươg thức tìm kiếm tập co thuộc tíh được lựa chọ thôg qua phươg pháp BestFirst. Tập thuộc tíh ba đầu chưa có thuộc tíh ào được lựa chọ.

20 Tìm kiếm tập co thuộc tíh bằg cơ chế leo đồi tham lam kết hợp với cơ chế quay lui. Phươg thức đáh giá thuộc tíh CfsSubsetEval được lựa chọ để tìm ra tập co thuộc tíh có độ tươg qua chặt chẽ với thuộc tíh Gia được dự đoá. Kết quả 10 thuộc tíh được lựa chọ, bao gồm: NgayTT, NhaCC, CPU_NhaCC, CPU_Dem, Ram_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_DPG_W. 3.2.4. Xây dựg và đáh giá mô hìh Để xây dựg mô hìh hồi quy tuyế tíh, gười sử dụg cầ lựa tíh ăg Classify của Explorer và thiết lập các đối tượg hư sau: - Bộ phâ lớp: Lựa chọ fuctios/liearregressio. Ngoài ra, gười sử dụg cầ thiết lập thêm tùy chọ outputadditioalstats = True để có thêm thôg ti về kết quả mô hìh được xây dựg. - Các tùy chọ kiểm thử: Tiế hàh kiểm thử xây dựg mô hìh hồi quy tuyế tíh 03 lầ, mỗi lầ lựa chọ một trog 03 tùy chọ Use traiig set, Supplied test set và Percetage split. Trog đó: + Use traiig set: Sử dụg tập ti dữ liệu đầu vào. + Supplied test set: Chia tập ti dữ liệu đầu vào thàh 02 phầ: Phầ 1 gồm dữ liệu 15 lầ thu thập đầu tiê để huấ luyệ (4742 dòg dữ liệu 93% dữ liệu), phầ 2 gồm dữ liệu của lầ thu thập cuối cùg (357 dòg dữ liệu 7% dữ liệu) để kiểm thử. + Percetage split: Chia tập ti dữ liệu đầu vào thàh 2 phầ: Phầ 1 có 66% dữ liệu để huấ luyệ, phầ 2 có 34% dữ liệu cò lại để kiểm thử. - Lựa chọ thuộc tíh được dự đoá: (Num) Giá Kết quả thu được: Kiểm thử Use traiig set Kiểm thử Supplied test set Kiểm thử Percetage split Degrees of freedom 5035 4676 5035 R^2 value 0.9655 0.9645 0.9655 Adjusted R^2 0.9651 0.96403 0.9651 Correlatio coefficiet 0.9826 0.987 0.9828 Mea absolute error 837.146.4483 879.776.3325 838.952.2489 Root mea squared error 1.138.025.3298 1.158.829.3494 1.125.783.6627 Relative absolute error 20.6454 % 19.2251 % 20.9419 % Root relative squared error 18.5656 % 16.1924 % 18.5856 % Total Number of Istaces 5099 357 1734 Bảg 3.3. Kết quả kiểm thử mô hìh Đáh giá mô hìh: Kết quả kiểm thử đối với mô hìh hồi quy tuyế tíh được xây dựg bằg WEKA trê tập ti dữ liệu đầu vào là chấp hậ được. Cụ thể hư sau:

21 - Hệ số xác địh r 2 qua 03 lầ kiểm thử đều đạt giá trị lớ hơ 0.96 cho thấy hơ 96% sự thay đổi của biế phụ thuộc Gia được giải thích bởi tập các biế độc lập được lựa chọ. - Từ hệ số xác địh r 2 tíh được hệ số tươg qua qua 03 lầ kiểm thử đều đạt giá trị lớ hơ 0.98 cho thấy biế phụ thuộc Gia có mối tươg qua chặt chẽ với tập các biế độc lập được lựa chọ. Tuy hiê, cầ phải thêm các biế độc lập chưa được lựa chọ vào mô hìh để khảo sát sự phù hợp của mô hìh đã được xây dựg. Quá trìh thêm các biế độc lập được thực hiệ qua 05 lầ, cụ thể hư sau: - Lầ thứ 1: Thêm biế độc lập HDD_DL - Lầ thứ 2: Thêm biế độc lập Ram_Bus - Lầ thứ 3: Thêm biế độc lập MH_KT - Lầ thứ 4: Thêm biế độc lập Ram_Loai - Lầ thứ 5: Thêm biế độc lập CPU_TocDo Kết quả thu được hư sau: Bảg 3.4. Kết quả quá trìh thêm biế độc lập vào mô hìh Qua 05 lầ thêm biế độc lập vào mô hìh, các hệ số của mô hìh đều được cải thiệ. Trog đó: - Hệ số xác địh điều chỉh r 2 (Adjusted R^2) đều tăg trog 04 lầ khảo sát đầu từ 0.9651 lê 0.96679 - Sai số trug bìh tuyệt đối (Mea absolute error) đều giảm qua 04 lầ khảo sát đầu từ 837,416 xuốg 809,546 Tổg kết: Thêm các biế độc lập Ram_Bus, Ram_Loai, HDD_DL, MH_KT vào mô hìh là cầ thiết. Vậy, mô hìh hồi quy tuyế tíh được thiết lập với 15 biế, gồm: - Biế phụ thuộc: Gia - Biế độc lập: NgayTT, NhaCC, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_Loai, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W

22 3.3. Tíh toá thử ghiệm độ chíh xác dự báo Sau khi xây dựg mô hìh hồi quy tuyế tíh, WEKA hỗ trợ gười sử dụg khảo sát độ chíh xác dự báo thôg qua việc so sáh giá sả phẩm trê thực tế và giá sả phẩm được dự đoá bằg mô hìh hồi quy tuyế tíh. Quá trìh khảo sát được hỗ trợ thôg qua tíh ăg đồ thị hóa sai số của mô hìh hồi quy tuyế tíh. Hìh 3.5. Mô hìh hóa sai số của mô hìh Ngoài ra, WEKA cò hỗ trợ trích xuất kết quả dự báo của mô hìh thàh tập ti dữ liệu kết quả với địh dạg arff. Tuy hiê, để thuậ tiệ cho việc đáh giá và khảo sát, gười sử dụg có thể mở tập ti dữ liệu kết quả dưới địh dạg arff bằg WEKA và lưu lại dưới địh dạg csv. a. Tập ti arff mở bằg WEKA b. Tập ti csv mở bằg Excel Hìh 3.6. Tập ti dữ liệu kết quả

23 Qua khảo sát tập ti dữ liệu kết quả, thu được một số thôg ti sau: - Sai số lớ hất: 9.623.216đ của 01 dòg dữ liệu. NhaCC predictedgia Gia Error CPU_NhaCC 2406 Dell 28,366,783.67 37,990,000.00-9,623,216.33 'Itel Core i7' - Sai số hỏ hất: 0đ với giá thực tế 03 dòg dữ liệu NhaCC predictedgia Gia Error CPU_NhaCC 4743 HP 42,990,000.00 42,990,000.00 0.00 'Itel Core i7' 5015 Leovo 15,990,000.00 15,990,000.00 0.00 'Itel Core i5' 5099 HP 42,990,000.00 42,990,000.00 0.00 'Itel Core i7' - Sai số hỏ hơ 500.000đ: có 2060/5099 dòg dữ liệu chiếm 40,4%. - Sai số lớ hơ 2.000.000đ: có 374/5099 dòg dữ liệu chiếm 7,3%.

24 Chươg 4 KẾT LUẬN Việc ứg dụg phâ tích dữ liệu vào côg tác dự báo là hướg ghiê cứu có hiều triể vọg, có thể áp dụg cho hiều lĩh vực trog đời sốg xã hội. Nó có thể hỗ trợ, chúg ta hoạch đĩh hữg chiế lược hay kế hoạch đầu tư phát triể hợp lý. Bê cạh đó, với sự phát triể khôg gừg của Ngàh côg ghệ thôg ti, các côg cụ hỗ trợ phâ tích dữ liệu gày càg phog phú và hỗ trợ đắc lực co gười trog côg tác dự báo. Thôg qua quá trìh ghiê cứu về mô hìh hồi quy tuyế tíh và côg cụ hỗ trợ WEKA, luậ vă đã tiế hàh giải quyết bài toá thực tế về côg tác dự báo. Cụ thể, luậ vă đã đi sâu ghiê cứu và làm rõ hữg ội dug sau: - Đưa ra cơ sở lý thuyết về mô hìh hồi quy tuyế tíh ứg dụg trog việc phâ tích dữ liệu để tiế hàh dự báo. - Tìm hiểu, ghiê cứu côg cụ hỗ trợ WEKA trog việc xây dựg mô hìh hồi quy tuyế tíh để tiế hàh dự báo. - Sử dụg côg cụ hỗ trợ WEKA để giải quyết bài toá thực tế về phâ tích dữ liệu bá hàg và dự báo giá bá sả phẩm máy tíh xách tay của Côg ty cổ phầ thươg mại Nguyễ Kim. Luậ vă đã cho thấy sự hữu ích của việc phâ tích dữ liệu để áp dụg, giải quyết các bài toá thực tế. Tuy hiê, do một số guyê hâ khách qua và chủ qua, luậ vă vẫ cò tồ tại một số hạ chế sau: - Dữ liệu thu thập của duy hất một đơ vị dẫ đế côg tác dự bảo mới chỉ dừg lại ở phạm vi cục bộ. - Chưa tìm hiểu hết tất cả các tíh ăg của côg cụ hỗ trợ WEKA để giải quyết các bài toà thực tế. Để khắc phục hữg hạ chế êu trê, trog thời gia tới, luậ vă sẽ tiếp tục ghiê cứu mở rộg phạm vi thu thập dữ liệu, tìm hiểu rõ côg cụ hỗ trợ WEKA và các côg cụ hỗ trợ khác để tiế hàh dự báo có tíh khái quát và chíh xác hơ.

Tiếg Việt 25 TÀI LIỆU THAM KHẢO 1. Trầ Ngọc Mih (2006), Kih tế lượg, Học việ Côg ghệ Bưu chíh - Viễ thôg, Hà Nội. 2. https://websrv1.ctu.edu.v/coursewares/kihte/phatichdulieu/chuog6.htm Tiếg Ah 3. Ramu Ramaatha (2002), Itroductory Ecoometrics with Applicatios 4. Ia H. Witte, Eibe Frak, Mark A. Hall (2011), Data Miig Practical Machie Learig Tools ad Techiques 5. https://www.ibm.com/developerworks/v/library/12/ba-predictiveaalytics1/