Mass data analysis and bid price forecasting in online ad exchange marketplace

2016 3 30 Ì 1 Mar. 2016 Communication on Applied Mathematics and Computation Vol.30 No.1 DOI 10.3969/j.issn.1006-6330.2016.01.001 «ÏÈÑÐ Ì Ú ÔÄ² Ñ ¾ 1, 2, 1, 1, 1 (1. ºÕ Ì 200433; 2. ÇÏ ( ) ÀÚ 200070) ÚØÎ Á½ º É É Î Î Á ½ Ç º ÞÛÓÏÁ ÂßÙÁ ÏØ (Cui Y, Zhang R, Li W, Mao J. Bid landscape forecasting in online ad exchange marketplace. Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2011: 265-273) ±ÝÚ Ï Ò Î «Óß ÑÚ É Ò Ö ß É Â Ì Ù ÐÎ (gradient boosting decision trees, GBDT) ÀÚ Ñ (finite mixture model, FMM) ÞÛÓÏÁ Ñ Á½ º É ÏØ «Ï Õ ± Î Î» Á Á½ Ç ÐÆ 2010 ÃÙ 00A06 Ë ÃÙ O211 ÈÞ A 1006-6330(2016)01-0001-15 Mass data analysis and bid price forecasting in online ad exchange marketplace MAO Heng 1, HU Ning 2, CHEN Wei 1, GAO Weiguo 1, CHEN Wenbin 1 (1. School of Mathematical Sciences, Fudan University, Shanghai 200433, China; 2. Juyue Information Technology (Shanghai) Co., Ltd., Shanghai 200070, China) Abstract Online ad exchange marketplace will produce huge amounts of data. The analyses and modeling of the data will determine the results of advertisement action. One of the important problems is how to derive the cumulative probability density function of win price. In the reference (Cui Y, Zhang R, Li W, Mao J. Bid landscape forecasting in online ad exchange marketplace. Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2011: 265-273), Yahoo! Lab proposed a technical framework ÆÇ 2015-06-01; 2015-09-30 ß Ë Ð (J1103105)»ÏÀ Ö ³Ã È Û E-mail: hmao12@fudan.edu.cn

2 30 Ì to overcome this problem: Firstly, features and attributes of mass data are classified by rational statistical methods and stored by efficient data structure. Then, the information of specified attributes can be located quickly. Finally, the distribution of the win price is obtained by the GBDT (gradient boosting decision trees) model and the FMM (finite mixture model). In the paper, we use the property of the domestic ad exchange marketplace to modify the technical framework and propose a modified algorithm based on the framework of the reference. Key words ad exchange marketplace; bid price forecasting; star tree 2010 Mathematics Subject Classification 00A06 Chinese Library Classification O211 0 Í Ë ÄÄĐµ ÃÆ ÌÍ Ëß ÁÆ ßÃ Google, Baidu, Yahoo! Ð À¼ Æ Í ËÎ Å ÌÍ ß À¼ ß¾Õ ² Þ À¼ÆÎ Ç ß ÌË Æ Ì ² Ç Æ 21 ÙØÆÎÑÎ ß ±Ç Í ËßÀ¼ ÞÆ»ÄĐ ÆÐ ß Ó Ã¼ÆÍ Ë Ú ßß¾Ñ ÙØÆ Ù Î Í ËßÀ¼ ¾ÕÀ¼ ÀÆÅÇÍ º À (ad exchange marketplace), ±Ç (non-guaranteed delivery, NGD) À Ü ßÍ ÀÆ NGD À Ê ÔÅß Æ µä Å Ë ßß«Æ ßß Ð«Æ Ê Í À¼ Ñ ß NGD ß ĐÆ ßß¾Ñ ³Õ ¾ Æ ÁÀ¼ Ñ Æ µä ÈÝÛÀ¼ß ÈÆÎ¾ ß ÒÎÀ¼ ß Đ³ Æ ÐÅÚÕ ß ß Æ Æ ¹ ÆÎÒ«¾ ßÀ¼ ¾ Æ Á Ñ Æ ÈÝÛ È³ ÆÑÍ ßÍ ËĐ ßÇ Í Ë ÆĐĐ NGD À Ù À¼ Æ ĐĐ Ñ Æ NGD À ÒÎÀ¼ ßÆ Đ È ¹ß NGD Đ¾ Å»ß ÆÞĐÃ ß Ó Æ ß Ý IP Ý ¼ Ã ËÐ ³ß ¾Ñ ÐÙ Ú ß ß ßÝÛ È ³ Î ß ßÀ¼ «ÆÆÇ NGD À¼ Æ ß² Æ Á NGD À ¾Æ ÆÝÛ È» ¾µ»Æ ¾À ß Æ Î [1] Æ ÜÙµ ß²ÂÊÉ ¾ÕÀ¼ Æ Æ NGD À ß Î ÞØ ½ Æ ¾À¼ß Æ» ÆÁ ¾ ¾Ñ Í ËßÀ¼ ³ ÅÒÆµ Ó ß¾Ñ Ì ÎÑ Æ Á¾ ËÁ ß± Ó Æ Ý«Ì Æ Ç Æ ß Æ ¼Ì Ç 0 1, ³¼» ± ÇØÆ ß¾Ñ Æ ¾ ßÏ Ð À¼ ß ß¾Ñ ÆÞ ÐÙß È ÁÑ Ý Û È Ú ß¾Ñ ØÆÞ Í (gradient boosting

1 Õ ÚØÎ Á½ º É Á Ç 3 decision trees, GBDT) Ù Ð (finite mixture model, FMM) ³ ß ÑÝÚÀ¼ ¾Ñ Ù ß È ½ ØÛ (off-line) É Û (on-line) À Æ ÉÆ ØÛß É (i) ÝÛ ÈßÆ (ii) ¾Ñ Ì É Í Æ¾ ÐÙß¾Ñ ÐÆ Å³ÏĐÅÁ ÜÈ ß (fast correlation-based filter, FCBF) [2] ; (iii) ¾Ñ ß Ð ÐÙß Æ Å³ÏĐÁ ¾Õ Ç (star tree) ß È Á (iv) Î Õ Ð ßÀ¼ ³ «ÆÈ ³ÏĐ Ð¾Ñ À È ß¾Õ±Û Í (GBDT) Ù Ð (FMM). ÛÀ Æ É (i) ¾ÀÙ Í À¼ Å (ii) ¾Ñ ³ßÀ «¾ ÐÙß¾Ñ Ð (iii) Ë¾Ñ Ð ßÀ «¾Æ À¼ (iv) È½¾Ñ Ð ßÀ¼ ³ À¼ ÎÞØ (v) À¼ ØÛ Éß (iv) Û Éß (iii) «ßºÞÆ ½ ÆÇ¾ ÀÓß Đ ÑÆÜ ³ÆÆÎ«( ) Ù (ÈÆÒÁÐÍ Ù Æ Ð Å M ) Đ ÁÍ À ¹ß ²Â¾ È ³ÆÄ¹Ô ËÐ ³ È³ [3]. M ß È ß ÈÜ Æ Ù ÆÜÝ Õ Èß²Â ² ¾Æ Á ÉÈ Æ ß È ÃÖß Æ Ã¼ Ó ¾Ñ ß Ð Å Ñ ³Î Ð Õ ß È Î [1] ß ¾ ÆÜ µä Èß¾ 1 ß ß Êß Ü Æ³Î ¹ Ð ¾ 1 Ä ÁÜ (i) ¾Ñ ß Æ ¾Ñ Á ß ¹ÆµÄ Þ Øß Òµ«Æ ÈÎ [3] ¼ ß Æ Ó ß ßÃ¼ ³ÆÝ

4 30 Ì Ú¾Æß«(ii) Æ È Ë É Æ ¾Ñ ß ¾Æ ß ÅÉ (iii) ØÆ ÀÆ È³ÙØÆÞ ¾Ñ ßÀ¼ ³ Æ Á ÓÜ ÐÙ Î Ð³Ï 1 ¾Ñ ß Ý ß³ÆÎ ¾Õ 2 Þ ÐÙß È ÁÆ Ô¾Î Ëß 3 Þ GBDT FMM Á À¼ ³ ß 4 Þ M ß È ÛÙµÆ¾ ¾Ñ Ðß³Õ Á ß ¾ ß¼ 5 Î Óß 1 Ã ¾ ß NGD À ¹ Æ ĐĐÀ ß È Å Ñ Æ Ú 2013 6 Æ M Ã 7 000 Á À Æ À¼ ÌË ÌÕ ³ß 40 ¾Ñ ß È Æ ĐĐ ß¼ Ñ ÆÕ ß µ ± ¹ Ç Å É Í Æ Î ¹ß¾Ñ ÐÙ ÆÇ º¾Ñ ÜÈß¾Ñ Æ¾ À Ã¾Ñ Æ Ê FCBF [2] Ç Ê ß É Æ ÕÓ Þ FCBF Æ¾ Þ ß«Æ Ç ÓÝÚ Á ÜÈ (weighted fast correlation-based filter, wfcbf) ÐÑÎ Ê ß É ÅÒÆµ Í ¾Ñ Ù ÜÈ ß Î Æ ¾ Ñ Ì Æ ÉĐ ÆÄÄÞ Û ÜÈ r Ñ (X, Y ) Ù ßÜÈ Æ (x i x i )(y i y i ) i r =. (x i x i ) 2 (y i y i ) 2 i i Þ Û ÜÈ r ¾Ñ Ê ¾ÆÛ ÜÈ r ß Ó Æ ÁÙ Æ ¹ ß¾Ñ ÄÄ º¾Ñ ßÛ ÜÈ ¾ Æ ØÜ È ÍÝß»ßÐĐÛ ³ (linearly separable) ßÆ ¾ Û Ðß¾Ñ Æ½ ÈÎÇĐÛ ³ß [4]. ÖĐÆ Ù Æ¾Ñ Ù ÄÄ ĐÛ ÜÈßÆÓ Þ Û ÜÈ ¾ µò Ù ¾Ñ Ù ß È Ç Æ Þ Î [2] ß Ñ ¾Ñ Ù ßÜÈ

1 Õ ÚØÎ Á½ º É Á Ç 5 Đ X ß± Ç H(X) = i P(x i )log 2 (P(x i )), Þ ÆP(x i )»ß¾Ñ Û x i ½¾Ñ ÎÕß «É Ú ¾ Đ Y Ù ØÆ µ±ß ¹ H(X Y ) = j P(y j ) i P(x i y j )log 2 (P(x i y j )), Ü P(x i ) Ç X ßÒµ³ Æ P(x i y i ) Ç Đ Y ÙØ X ßØµ³ ¾ ÆÄµÎ«(information gain, IG) Û [5], IG(X Y ) = H(X) H(X Y ). Æ ¾Ð ÙÆÄÝÚ Å Å (symmetrical uncertainty) [6], SU(X, Y ) = 2IG(X Y ) H(X) + H(Y ). SU Û Å Æ»ÄĐ SU(X, Y ) = SU(Y, X). SU Û Û Æ 0 Ú 1 Ù Æ 0»ß Đ ÐÆ 1»ß Đ ÞÜÆ ßÛ ß FCBF ÅÁ SU ÛÑ ¾Ñ Ù ßÜÈ ÆÖ Ê ß É Æ Â µ ÙÞ ÀÓ ß ÈÆ È ¾Ñ µ Ç ÈÃÖ ÈÉÅß ÆÜÝ º¾ Ñ Ù ß SU Û Đ ßĐÆÄÄ ß¾ ¹ßÒµ«Æ ÆÒ ¾Ñ ¹ Å Ç Æ Ô ß FCBF Æ¾Î Ð À 1 wfcbf ( ) ÍÝÐ S(F 1, F 2,, F n, C), Á w 1, w 2,, w n, Û δ 1, δ 2 ; ( ) for i = 1 to n do ( ) SU(F i, C); ( ) w i SU(F i, C) < δ 1, S À¾Ñ F i ; ( ) end for ( ) ÑÃß ñ ¾Ñ w i SU(F i, C) ßÛ Ú ¾ ( ) for i = 1 to ñ 1 do ( ) for j = i + 1 to ñ do (Å) if wi w j SU(F i, F j ) w j SU(F j, C) > δ 2, then («) S À¾Ñ F j ; ( ) end if ( ) end for (XIII) end for ß FCBF Ü Æ wfcbf Á ß ¹Æ 4 9 ÎÆ «Ó ¾Ñ ß Ð É ß¹

6 30 Ì 2 Õ ³³Ï Æ ¹ Ï Èß Þ 2.1 Í Ç ¾Ñ ßÀ ÝÛ È ÐÙß³Õ Æ Â Á Ó ³Æ ÝÛ ÈÊ 3 ¹ß¾Ñ a, b, c, ³¼Ê Û a 1, b 1, b 2 c 1, c 2. ÝÛ Æ ß¾Ñ ³¼Ç a 1 b 1 c 1, a 1 b 2 c 1 a 1 b 2 c 2, Ð ÝÚ 2 ßß Á Æ ½ È ÁÆ Ý Û ³ÕÆ¾ È ½ Æ ¾Ñ Ç a 1 b 1 c 1 ß ÇÆ ÌßÀ «Æ È«Ú a 1 b 1 c 1 ß½ Ç Ù ß É Æ½ Á ÐÃ Á È Æ µ ÀÓ Å ÀÓß¾Ñ «µ ¾Ñ a 1 c 1 ß Æ»ß ß b ÊØ µ Ú ß È Æ Õ Á Ñ Æa 1 b 2 c 2 Ä 2 ß Á ÑÆ Á ² ß ÆÐµ Õ È«ß Æ ¹ Ë¾Ñ ß Æ Á Ú a 1 b 2 c 2 ß¾Ñ «2 ½ Ì Ç Í ÆÎ [1] Þ ß ÁÐ (star tree expansion) Ñ Í ÊØ Û Ç¾Õ¾Æß ÛÆ Á¾Ñ a Ñ Æ ÍÇ Ê Û a 1. Æ Á ß Á 3 ÚÆ ß Á Í Î Úß Ã ¾ ÝÛ Ó¾ß½ Æ Î Úß¾Ñ Ç a 1 b 1 c 1 ßÝÛ Æ, c 1, b 1, b 1 c 1, a 1, a 1 c 1, a 1 b 1, a 1 b 1 c 1 Ð

1 Õ ÚØÎ Á½ º É Á Ç 7 2.2 Â 3 ¼½ ½ Ì ¾ ÆÞ ¾Õ¾Æß È ÁÑ ÝÛ ÈÆ ¾ É ØÛÀ ÆÆ ß¹ ¾ ĐÒ ÖĐÆ Í À À Æ ¾ÔÎ ¾ Í ËÆÀ¼ µ Æ ß ³Îß Æ» ÎÀ¼ Ä¹ À¼ ¾ ÆÇ ß ÆµÄ Æ ß ³ Ú ÌË ¾Ñ ß½ ÆÞ ÝÛ ÈÆ Ó³¾ÎÀ¼ Î [1] Î ¾Õ ß Æ¾Î ² É ß¹É Å Æ ÈÊ ß ¹ ¾ Æ ß ÐÑ Ó ß È Á Æ ß Þ ¾ÕÇ Û Æ Ñ»ßÆ¾ÕÇ Å Æ v Ñ»ß ÎÇ ¾Ñ a 1 b 1 c 1 Ç Æ ß Ç T = v v, ÙØÝÚ¾Ñ Ç a 1 c 1, ¾ É Ç v v a 1 b 1 c 1 = a 1 c 1. ¾Ñ ßÉ Ç D, µ ß ÇÇ 2 D ¹ ß¾ Ñ Æ¾¾Ä ÆÑ Ë ¹ ßÝÛ«Æ ß ÐÆ ¹¹ÝÂ ß D ß Û¾ ß Æ Đ¾ Æ ß ÉÆ ¾ ß ³ µàæ ßÌ Ç Æµ ß ¹ÉÆ ³Ö¾ ß ÐÆ ³Ç ³ÀÆ ¾Ñ ¾ ³ λ d = w d SU(F d,bid), 1 ßÁ w d ¾ Ñ F d À¼ Ù ß SU ÛÍ Î ßÍÝ³ q(t) = D λ d δ(t d, v), d=1 Üß δ δ(v, v) = δ(, ) = 1, δ(, v) = δ(v, ) = 0, ¾ T i Ç T ß i ³ ÆÐµ ÛÇ v. Þ {s j, n impj } n j, s j Ç¾Ñ Æ n impj Ç ß Ì

8 30 Ì ß¾Ñ Ù ßÜ Ç D f sim (s j, T) = λ d δ(s d j, T d ), d=1 ß ³»ßÇ f score (T) = n f sim (s j, T)q(T)n impj. Ø È ³ ÑÍ ß ÐÎ ¾ É ß Þ Î À 2 ( ) Á T i, i {1, 2,, 2 D }, ßÍÝ³ q(t i ) = D λ d δ(ti d, v); d=1 ( ) for j = 1 to n do ( ) Þ Ò µ Æ¹Ý ÁÆÝÚÐÙß T; j=1 ( ) f score (T) = f score (T) + f sim (s j, T)q(T)n impj ; ( ) end for ( ) ³ f score Ú ¾ Æ¾ ÐÙß Ï K, K Î [1] ß 1 Ü Æ 2 ¹Ý ß Æ ³ Ý Ç ÅÆÖ» Ñ ß Ç Æ Ê ß Đ ß ¾Æ s j ß¹ÝĐ ÐßÆ ¾ Æ ±Ö Æ ² Ò µß Æ Æ Í µ m (m 5) Ü ¾ ß Đ ØÛ ÞÀÆß Ê À Æ ÆÖ Á Ð ¾ Æ Ù É ĐÐÙß Æ ß ÄÄ±Â Æ ¾ 3 Ò ³ ¾Ñ ß Ð³ ÙØÆ ¾ ß ÐÙ³À ÄÄÈÕ Ô»³ ß» Ç Æ ¹Æ ß¾Ñ ÛÆ Ë µ Å Æ ¹ Æ ¾Ñ Ð Æ ÑÆ ßÀ¼ Ç Í ÆÎ [1,7-9] FMM ÑÁ Õ³ ÐÙ Æ Θ = θ i, i = 1, 2,, n, ² X ß «³ Ç P(X θ i ) θ i ÎÕß «π i, n P(X Θ) = P(X θ i )π i. i=1 Ê Æ Á ¾ ß¾Ñ ÐÆ ßÀ¼ ³ Ô»³ x log N(µ, σ 2 ),

1 Õ ÚØÎ Á½ º É Á Ç 9 f(x; µ, σ) = 1 ( (lnx µ) xσ 2 2π exp ) ) 2σ 2, x > 0, Ð ÐÆÊ Û¾Ñ ßÀ¼ ³ Ç n 1 ( (lnx µi ) 2 ) ) f(x x; θ 1, θ 2,, θ n, π 1, π 2,, π n ) = π i exp, xσ i 2π Þ Æ 0 < π i < 1 n π i = 1. 4 ß Ô»³ ß Ð³ i=1 i=1 2σ 2 i 4 ËÓ FMM ÆÝÃ» Ø Ô»³ Å E º std, Óß ÝÚ µ σ, µ = lne 1 ( ) 2 ln 1 + std2 E 2, ) σ 2 = ln (1 + std2 E 2. Ê ß Æ π i ÄÄ ¾ ¾Ñ ß ³ ³ ß ÑÅ Æ Å Ä ÐÇ µ ÞÑ Ý Å E º std. ÐÙ Æ Ð Ú Þ ß ³ Û ³º Ç Ô»³ ß Å º Þ GBDT Æ ±Û ß ÞÑ Å º Î [10-12] ÞÎ GBDT ¾Ñ ³Õ Ò ß Î [1] ÅÁ GBDT ÆÖ Ê ß É ÕÆ GBDT Å ß ¾ ß ²Æ µ ÐßÕ Æ Æ ¾Ñ Ç Å Æ Õ ß ¼ 4 Ç Ê ß ÛÙµ Æ Þ M ßÀ¼ Ùµ Ùµ Ü 7 ßÀ¼ Æ ß 7 000 Á Æ 41 ¾Ñ Ç Ð

10 30 Ì ß ÞÆ À¼ ³Æ ³Æ¾ ³ Ñ ¾Ñ ß Æ¾ ³ Ñ ß Æ Ø¾ ³ Ç Æ ß Á ÈÏ ¾ Æµ Þ wfcbf ¾Ñ ß ¾ ß Æ ÅÚ «Æ Á {w i } 41 i=1 ßÛ Ç 1.» 1 Î ³¾Ñ À¼ Ù ß SU Û ¾ ÙØÆ 41 ¾Ñ Ð 8 ¾Ñ 1 Â ¾ Ð Å SU Æ Ò Event Time Request Time Response Time winprice bidprice SU Ü 0.004 1 0.004 1 0.004 1 0.718 7 0.697 2 Ò Auction Price clickurl IP Referrer Url pagereferal Url SU Ü 0.693 6 0 0 0.013 1 0 Ò country province city county language SU Ü 0.014 9 0.008 7 0.005 2 0 0.962 2 Ò Browser Os adspace Width Adspace Height Adspace Position SU Ü 0.825 8 0.812 1 0 0 0.827 9 Ò Adspace Page Type bidmode RPM FEE CTR SU Ü 0 0.965 6 0.692 4 0.740 5 0.692 4 Á È ß É ÆÉ Ú ³ ß ¾Ñ ĐÃÖßÆ Æ Ü ß È ÁĐÐÙß ¾Ñ ÊÇß³Æ 2 5 ÛÆ Á ß ÁÊ Á ½ Æ ¹ ß Ç Ó ³Æ ³ ¾ ß ÐÑ Æ Æ Û ÐÙÛ Æ Æ 5 ßÆ À¼ ²³Æ ¾ ß 6 Æ¾ Æ Û ÐÙÛ ÐÝ¾ 5 ÁÅ ½Ð É µ

1 Õ ÚØÎ Á½ º É Á Ç 11 ÆÆ ÛÇ {ŷ i } n i=1, ÐÙÛÇ {y i} n i=1, n Ç ³ß ³ Û ³º ßÏ Û err i = ŷ i y i Ü rerr i = ŷi y i. 6 ß ßÆ Æ ¾»Ò ÆÓ Æ ¾ Ú Ûß Ò Æ º y i 5%. 6 Ð É± 7 Ü ß¼ Ñ ÒÆ Æ Ú ß ßÜ Á 7 ± ¾ Æ ³ È ß¾Ñ ³ Æ Æ Û ÐÙÛÙ ß (RMSE) Ü (RMSRE), Ç Åß Ê Æ RMSE = n / n I i (ŷ i y i ) 2 I i, i=1 i=1

12 30 Ö RMSRE = n (ŷ i y i ) I 2 / n i yi 2 I i, i=1 i=1 Þ Æ n Đ ¾Ñ Ðß Æ {I i } n i=1 Đ ß¾Ñ Ð ß ³ 8 Î Û º ß RMSE Û RMSRE Û 8 Ð É± Ù ÇÚÉß Ñ²ÂÆ ß ÇÆ ² ÀÐÙÛÆ ÝÚ 9 ßß ß µ»ß «Æ Ð ³¼Ñ» Æ 2 10 50 ¾Ñ Ð ß Û 90% ß «9 ³»ß GBDT ß ÆÐ ³ĐÚ ³ Û º ß Æ Õ Ë ÚÆ² Æ ¾ Ñ Ðß ÆÆ ß ÎÑÎ Å Ö» ÕÆÓ Ó º Æ»ßÆ Ó

1 Õ ÚØÎ Á½ º É Á Ç 13 9 ± Æ Êº Æ¾Ñ ÉÆ Ó Á Ç 1, Õ µ»ß«æ È ÓÁ Đ (RetargetingType) ¾Ñ Æ 10 ÕÆ ³ÕÆ ÛÐßÀ ³ ¼¾ Ç Æ½¾Ñ Ä Á À¼ Ù ßÜÈ Æ» SU (RetargetingType, bid) ¾Đ² Ç Æ Đ ßÁ ØÆ ¾ ÝÚÜ ß 11 ÚÆ Ý ÅßÆ Æ À¼ ¾ ÆÆ Û Ó º¼ «ÅÆ Æ ¾Đ 10 Î º ¾Æ Ë Å ĐÃ¹ Û Íº Î ¾ Æ³ Ã» Å ĐÊ Û Ã»

14 30 Ì 11 Î ¾Å 5 ³Î ¹ Đ ³Ù Í À ¹ ß ÈÆ ß Æ À¼ Î [1] ¾Õ Æ ¾Ñ ß ÆÁ ÁÆ GBDT FMM ÎÀ¼ ß³ Æ ÞØÀ Î ³Î ½ ßÅ Æ Ð ³ Èß¾ ¾ Æ ¾Ñ Á ß ¹Æ¾ Ó ¾ ¾Ñ ß ÛÙµ» ß Î¾ ß É¹ ÅÒ ÆÎ«( ) Ù ß È ËÆ¾¼ Î ÉÔ ³ ß «¼ MediaV ¹Ô ĐÐÙµ ßÔÔ Æ ÆÉ ² Â À ÆÐ ³ ßÀ Æ Ô É½ ßÞØ ¼Ø µ [1] Cui Y, Zhang R, Li W, Mao J. Bid landscape forecasting in online ad exchange marketplace [C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2011: 265-273. [2] Yu L, Liu H. Feature selection for high-dimensional data: A fast correlation-based filter solution [J]. Proceedings of International Conferences on Machine Learning, 2003, 20(2): 856-863. [3] ³ Úº ÄÏ½ Í Ê LDA ± Mahout Ñ ÚÖ [J]. Õ È 2013, 2013(3): 118-130. [4] Das S K. Feature selection with a linear dependence measure [J]. IEEE Transactions on Computers, 1971, 20(9): 1106-1109.

1 Õ ÚØÎ Á½ º É Á Ç 15 [5] Quinlan J. C 4.5: Programs for Machine Learning [M]. San Francisco: Morgan Kaufmann, 1993. [6] Press W H, Flannery B P, Teukolsky S A, Vetterling W T. Numerical Recipes in C [M]. Cambridge: Cambridge University Press, 1988, 10(1): 195-196. [7] Mclachlan G, Peel D. Finite mixture models [J]. Encyclopedia of Machine Learning, 2000, 39(4): 521-541. [8] Jain A K, Figueiredo M A T. Unsupervised learning of finite mixture models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(3): 381-396. [9] Muthén B. Finite mixture modeling with mixture outcomes using the EM algorithm [J]. Biometrics, 1999, 55(2): 463-469. [10] Friedman J H. Stochastic gradient boosting [J]. Computational Statistics and Data Analysis, 2002, 38(4): 367-378. [11] Friedman J H. Greedy function approximation: a gradient boosting machine [J]. Institute of Mathematical Statistics, 2001, 29(5): 1189-1232. [12] Hastie T, Tibshirani R J, Friedman J. The elements of statistical learning: data mining, inference and prediction [J]. Journal of the Royal Statistical Society, 2011, 27(2): 693-694.