Mass data analysis and bid price forecasting in online ad exchange marketplace

Σχετικά έγγραφα
ACTA MATHEMATICAE APPLICATAE SINICA Nov., ( µ ) ( (

UDC. An Integral Equation Problem With Shift of Several Complex Variables 厦门大学博硕士论文摘要库



Z L L L N b d g 5 * " # $ % $ ' $ % % % ) * + *, - %. / / + 3 / / / / + * 4 / / 1 " 5 % / 6, 7 # * $ 8 2. / / % 1 9 ; < ; = ; ; >? 8 3 " #

2 SFI

2011 Ð 5 ACTA MATHEMATICAE APPLICATAE SINICA May, ( MR(2000) ß Â 49J20; 47H10; 91A10

M 2. T = 1 + κ 1. p = 1 + κ 1 ] κ. ρ = 1 + κ 1 ] 1. 2 κ + 1

2011 Đ 3 Ñ ACTA METALLURGICA SINICA Mar pp

Blowup of regular solutions for radial relativistic Euler equations with damping

AN RFID INDOOR LOCATION ALGORITHM BASED ON FUZZY NEURAL NETWORK MODEL. J. Sys. Sci. & Math. Scis. 34(12) (2014, 12),

Θεωρία Συνόλων. Ενότητα: Διατακτικοί αριθμοί. Γιάννης Μοσχοβάκης. Τμήμα Μαθηματικών

ØÖÓÒÓÑ ÈÖ Ø ÙÑ Ù Ò Ö Ò Ë Ð ØÛ ØØ Ö¹ ØÖÓÒÓÑ Íº Ù ÍÒ Ú Ö ØØ Ù ÙÖ ¹ Ò Ö ËÓÒÒ ÒÐ Ù Ñ Î ÖÐ Ù Ò Â Ö Ð ÙÒ ½ Û ÙÒ Ö ËÓÒÒ Ö Ò À ÑÑ Ð ÞÙ Ï ÒØ Ö Ò Ò Ö Ð Ò Ò Ò ÙÒ

Ηυλοποίησ ητηςπαραπάνωκατηγορίαςβρίσ κεταισ τοναλγόριθμο º¾ºΗγραμμή

Ανώτερα Μαθηματικά ΙI

v w = v = pr w v = v cos(v,w) = v w

High order interpolation function for surface contact problem

NUMERICAL SIMULATION OF KEYHOLE SHAPE AND TRANSFORMATION FROM PARTIAL TO OPEN STATES IN PLASMA ARC WELDING

p din,j = p tot,j p stat = ρ 2 v2 j,

Αλγόριθμοι Δικτύων και Πολυπλοκότητα Προσεγγιστικοί Αλγόριθμοι. Άρης Παγουρτζής

Quick algorithm f or computing core attribute

: Monte Carlo EM 313, Louis (1982) EM, EM Newton-Raphson, /. EM, 2 Monte Carlo EM Newton-Raphson, Monte Carlo EM, Monte Carlo EM, /. 3, Monte Carlo EM

Ó³ Ÿ , º 2(131).. 105Ä ƒ. ± Ï,.. ÊÉ ±μ,.. Šμ ² ±μ,.. Œ Ì ²μ. Ñ Ò É ÉÊÉ Ö ÒÌ ² μ, Ê

Μαθηματικά ΙΙΙ. Ανοικτά Ακαδημαϊκά Μαθήματα. Ενότητα 7: Προσεγγιστική Λύση Εξισώσεων. Αθανάσιος Μπράτσος. Τμήμα Μηχανικών Ενεργειακής Τεχνολογίας ΤΕ

RELATIONSHIP BETWEEN MECHANICAL PROPERTIES AND LAMELLAR ORIENTATION OF PST CRYSTALS IN Ti 45Al 8Nb ALLOY

EFFECT OF HAFNIUM CONTENT ON MORPHOLOGY EVOLUTION OF γ PRECIPITATES IN P/M Ni BASED SUPERALLOY

Τεχνικές βασισμένες στα Δίκτυα Αναμονής Εισαγωγικά Επιχειρησιακοί νόμοι

Σανπρώτοπαράδειγμαχρήσ εωςτης ÉÈ ÒØ Öπαρουσ ιάζεταιέναπαράδειγμασ χεδιασ μούκύκλωνμέσ ασ εένακεντρικόπαράθυροº

Ó³ Ÿ , º 2(214).. 171Ä176. Š Œ œ ƒˆˆ ˆ ˆŠ

ˆ Œ ˆŸ Š ˆˆ ƒ Šˆ ƒ ƒ ˆ Šˆ ˆ ˆ Œ ˆ

CORROSION BEHAVIOR OF X70 PIPELINE STEEL IN SIMULATED KU ERLE SOIL SOLUTION WITH CO 2

P ² ± μ. œ Š ƒ Š Ÿƒ ˆŸ Œ œ Œ ƒˆ. μ²μ μ Œ Ê μ μ ±μ Ë Í μ É Í ±μ ³μ²μ (RUSGRAV-13), Œμ ±, Õ Ó 2008.

P ƒ.. Š ³ÒÏ,.. Š ³ÒÏ,.. ± ˆ ŒˆŠˆ Š ˆŠ

Editorís Talk. Advisor. Editorial team. Thank

ΕΙΣΑΓΩΓΗ ΣΤΑ ΟΠΤΙΚΑ ΣΥΣΤΑΤΙΚΑ

.. ƒ²μ É, Œ. Œ Ï,. Š. μé ±μ,..,.. ³ μ μ, ƒ.. ÒÌ

EFFECT OF WELDING PROCESSING PARAMETERS ON POROSITY FORMATION OF MILD STEEL TREATED BY CO 2 LASER DEEP PENETRATION WELDING

STUDY ON CYCLIC OXIDATION RESISTANCE OF HIGH NIOBIUM CONTAINING TiAl BASE ALLOY WITH ERBIUM

P Ë ³μ,.. μ μ³μ²μ,.. ŠμÎ μ,.. μ μ,.. Š μ. ˆ œ ˆ Š Œˆ ŠˆŒ ƒ Œ Ÿ ˆŸ Š ˆ ˆ -ˆ ˆŠ

P ƒ. μ μ², Œ.. ˆ μ,.. μ ± Î Š Ÿ ˆ Œ ˆŸ ˆ Ÿ Š ˆ. ² μ Ê ² μ Ò É Ì ± Ô± ³ É.

Μαθηματικά ΙΙΙ. Ανοικτά Ακαδημαϊκά Μαθήματα. Ενότητα 11: SPLINES. Αθανάσιος Μπράτσος. Τμήμα Μηχανικών Ενεργειακής Τεχνολογίας ΤΕ

P Œ ²μ, Œ.. ƒê Éμ,. ƒ. ²μ,.. μ. ˆ ˆŸ Œˆ ˆŸ ˆ Š Œ ˆŸ Ÿ - ˆ ˆ ŠˆŒˆ Œ Œˆ ˆ œ ˆ Œ ˆ ŒˆŠ Œ -25

Probabilistic Approach to Robust Optimization

MODEL RESEARCH BASED ON LIQUID/SOLID TWO PHANSE FLOWS IN METALLURGY STIRRED TUBULAR REACTOR

S i L L I OUT. i IN =i S. i C. i D + V V OUT

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο. Επίδοση Υπολογιστικών Συστημάτων. Α.-Γ. Σταφυλοπάτης.

ACTA MATHEMATICAE APPLICATAE SINICA Sep., ( MR (2000) Õ È 32C17; 32F07; 35G30; 53C55

tan(2α) = 2tanα 1 tan 2 α

P É Ô Ô² 1,2,.. Ò± 1,.. ±μ 1,. ƒ. ±μ μ 1,.Š. ±μ μ 1, ˆ.. Ê Ò 1,.. Ê Ò 1 Œˆ ˆŸ. ² μ Ê ² μ Ì μ ÉÓ. É μ ±, Ì μé μ Ò É μ Ò ² μ Ö

½ Τετραγωνίζω=κατασκευάζωκάτιίσουεμβαδούμεδοθέντετράγωνο. Δείτεκαιτην υποσημείωσηστηνπρότασηβ 14. ¾

FRICTION AND WEAR PROPERTIES OF SURFACE PLASMA Cr W ALLOYING LAYER OF γ TiAl ALLOY

Ανώτερα Μαθηματικά ΙI

Ó³ Ÿ , º 4Ä5(174Ä175).. 682Ä688 ˆ ˆŠ ˆ ˆŠ Š ˆ

{:=, :, goto, if, else} ß ß LB {beg, end, l 1, l 2,..., }.

Μαθηματικά ΙΙΙ. Ανοικτά Ακαδημαϊκά Μαθήματα. Ενότητα 10: Μέθοδος Ελάχιστων Τετραγώνων. Αθανάσιος Μπράτσος. Τμήμα Μηχανικών Ενεργειακής Τεχνολογίας ΤΕ

P Ò±,. Ï ± ˆ ˆŒˆ Š ƒ ˆŸ. Œ ƒ Œ ˆˆ γ-š Œˆ ƒ ƒˆ 23 ŒÔ. ² μ Ê ². Í μ ²Ó Ò Í É Ö ÒÌ ² μ, É μí±, μ²óï

ˆ ˆŠ Œ ˆ ˆ Œ ƒ Ÿ Ä Œμ Ìμ. ±É- É Ê ± μ Ê É Ò Ê É É, ±É- É Ê, μ Ö

Προσομοίωση Δημιουργία τυχαίων αριθμών

ER-Tree (Extended R*-Tree)

CONVECTION EFFECTS AND BANDING STRUCTURE FORMATION MECHANISM DURING DIRECTIONAL SOLIDIFICATION OF PERITECTIC ALLOYS I. Experimental Result

ˆ Œ ˆ Ÿ ˆ ˆŸ Ÿ - ˆ ˆ Šˆ Š ˆŸˆ

PHOTOCATALYTIC PROPERTIES OF TiO 2 THIN FILMS PREPARED BY MICROARC OXIDATION AND DOPING ELECTROLYTES

EFFECTS OF Al Al 4 C 3 REFINER AND ULTRASONIC FIELD ON MICROSTRUCTURES OF PURE Mg

Schedulability Analysis Algorithm for Timing Constraint Workflow Models

A NEW ONE PARAMETER KINETICS MODEL OF DYNAMIC RECRYSTALLIZATION AND GRAIN SIZE PREDICATION

ÈÖÓ Ö ÑÑ Ò ÑÓÖ Û ÈÖÓÔØÙÕ ÛÒ ËÔÓÙ ÛÒ ÌÑ Ñ ØÓ Å Ñ Ø ÛÒ È Ò Ô Ø Ñ Ó È ØÖÛÒ Å Ñ Û Ø Ò Ô Ø Ñ ØÛÒ ÍÔÓÐÓ ØôÒ

ΑΡΧΕΙΑ ΚΑΙ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ

Minimizing makespan in a three-stage flexible flowshop with identical machines and two batch processors

476,,. : 4. 7, MML. 4 6,.,. : ; Wishart ; MML Wishart ; CEM 2 ; ;,. 2. EM 2.1 Y = Y 1,, Y d T d, y = y 1,, y d T Y. k : p(y θ) = k α m p(y θ m ), (2.1

J. of Math. (PRC) 6 n (nt ) + n V = 0, (1.1) n t + div. div(n T ) = n τ (T L(x) T ), (1.2) n)xx (nt ) x + nv x = J 0, (1.4) n. 6 n

Θεωρία Συνόλων. Ενότητα: Τα πάντα σύνολα; Γιάννης Μοσχοβάκης. Τμήμα Μαθηματικών

v[m/s] U[mV] 2,2 3,8 6,2 8,1 9,7 12,0 13,8 14,2 14,6 14,9

EXPERIMENTAL RESEARCH ON MELTING SURFACE BEHAVIOR IN MOLD UNDER COMPOUND MAGNETIC FIELD

Congruence Classes of Invertible Matrices of Order 3 over F 2

ÅÊ NEAR (Near-Earth Asteroid Rendezvous) Hayabusa

ƒ Š ˆ Šˆ Š Œˆ Šˆ Š ˆŒ PAMELA ˆ AMS-02

Ó³ Ÿ , º 3(187).. 431Ä438. Š. ˆ. ±μ,.. ŒÖ²±μ ±,.. Ï Ìμ μ,.. μ² ±μ. Ñ Ò É ÉÊÉ Ö ÒÌ ² μ, Ê

THE MICRO FABRICATING PROCESS AND ELECTRO- MAGNETIC PROPERTIES OF TWO KINDS OF Fe POWDERS WITH DIFFERENT GRAIN SIZES AND INTERNAL STRAINS

Stabilization of stock price prediction by cross entropy optimization

Θεωρία Συνόλων. Ενότητα: Επιλογής επόμενα. Γιάννης Μοσχοβάκης. Τμήμα Μαθηματικών

Nov Journal of Zhengzhou University Engineering Science Vol. 36 No FCM. A doi /j. issn

Ó³ Ÿ , º 7(163).. 855Ä862 ˆ ˆŠ ˆ ˆŠ Š ˆ. . ƒ. ² ͱ 1,.. μ μ Íμ,.. μ²ö,.. ƒ² μ,.. ² É,.. ³ μ μ, ƒ.. Š ³ÒÏ,.. Œμ μ μ,. Œ.

ˆ ˆŠ Œ ˆ ˆ Œ ƒ Ÿ Ä1350 ˆ ˆ Š -3

P ² Ì μ Š ˆ Œˆ Š Œ Œˆ. ² μ Ê ² Nuclear Instruments and Methods in Physics Research.

Μαθηματικά ΙΙΙ. Ανοικτά Ακαδημαϊκά Μαθήματα. Ενότητα 4: Διανυσματικές Συναρτήσεις μιας Μεταβλητής. Αθανάσιος Μπράτσος

ΟπτικόςΠρογραμματισ μός. ΙωάννηςΓºΤσ ούλος

Motion analysis and simulation of a stratospheric airship

Ó³ Ÿ , º 6(155).. 805Ä813 ˆ ˆŠ ˆ ˆŠ Š ˆ. ˆ.. ³ Ì μ, ƒ.. Š ³ÒÏ, ˆ.. Š Ö. Ñ Ò É ÉÊÉ Ö ÒÌ ² μ, Ê. Ÿ. ʲ ±μ ±

Ó³ Ÿ , º 5(147).. 777Ä786. Œ ˆŠ ˆ ˆ Š ƒ Š ˆŒ. ˆ.. Š Öαμ,. ˆ. ÕÉÕ ±μ,.. ²Ö. Ñ Ò É ÉÊÉ Ö ÒÌ ² μ, Ê

Morganναδώσειμίαεναλλακτικήμέθοδο,αποδεικνύονταςπρώταότιηευθείαπουδιχοτομεί κάθεταμίαχορδήπεριέχειτοκέντροτουκύκλου. Παρ όλααυτά,καιαυτήημέθοδοςέχει

SocialDict. A reading support tool with prediction capability and its extension to readability measurement

Ó³ Ÿ , º 7(163).. 798Ä802 ˆ ˆŠ ˆ ˆŠ Š ˆ. .. Ëμ μ. Î ± É ÉÊÉ ³..., Œμ ±

Εφαρμοσμένα Μαθηματικά

Μαθηματικά ΙΙΙ. Ανοικτά Ακαδημαϊκά Μαθήματα. Ενότητα 6: Επικαμπύλια Ολοκληρώματα. Αθανάσιος Μπράτσος. Τμήμα Μηχανικών Ενεργειακής Τεχνολογίας ΤΕ

Supplementary Materials for Evolutionary Multiobjective Optimization Based Multimodal Optimization: Fitness Landscape Approximation and Peak Detection

Ανώτερα Μαθηματικά ΙI

Œ ˆ Œ Ÿ Œˆ Ÿ ˆŸŒˆ Œˆ Ÿ ˆ œ, Ä ÞŒ Å Š ˆ ˆ Œ Œ ˆˆ

No. 7 Modular Machine Tool & Automatic Manufacturing Technique. Jul TH166 TG659 A

Œˆ ˆ ƒ ˆŸ Ÿ ˆ ˆ Ÿ Œˆ ˆ

Ó³ Ÿ , º 7(156).. 62Ä69. Š Œ œ ƒˆˆ ˆ ˆŠ. .. ŠÊ²Ö μ 1,. ƒ. ²ÓÖ μ 2. μ ± Ê É É Ê Ò μ μ, Œμ ±

Transcript:

2016 3 30 Ì 1 Mar. 2016 Communication on Applied Mathematics and Computation Vol.30 No.1 DOI 10.3969/j.issn.1006-6330.2016.01.001 «ÏÈÑÐ Ì Ú ÔIJ Ñ ¾ 1, 2, 1, 1, 1 (1. ºÕ Ì 200433; 2. ÇÏ ( ) ÀÚ 200070) ÚØÎ Á½ º É É Î Î Á ½ Ç º ÞÛÓÏÁ ÂßÙÁ ÏØ (Cui Y, Zhang R, Li W, Mao J. Bid landscape forecasting in online ad exchange marketplace. Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2011: 265-273) ±ÝÚ Ï Ò Î «Óß ÑÚ É Ò Ö ß É Â Ì Ù ÐÎ (gradient boosting decision trees, GBDT) ÀÚ Ñ (finite mixture model, FMM) ÞÛÓÏÁ Ñ Á½ º É ÏØ «Ï Õ ± Πλ Á Á½ Ç ÐÆ 2010 ÃÙ 00A06 Ë ÃÙ O211 ÈÞ A 1006-6330(2016)01-0001-15 Mass data analysis and bid price forecasting in online ad exchange marketplace MAO Heng 1, HU Ning 2, CHEN Wei 1, GAO Weiguo 1, CHEN Wenbin 1 (1. School of Mathematical Sciences, Fudan University, Shanghai 200433, China; 2. Juyue Information Technology (Shanghai) Co., Ltd., Shanghai 200070, China) Abstract Online ad exchange marketplace will produce huge amounts of data. The analyses and modeling of the data will determine the results of advertisement action. One of the important problems is how to derive the cumulative probability density function of win price. In the reference (Cui Y, Zhang R, Li W, Mao J. Bid landscape forecasting in online ad exchange marketplace. Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2011: 265-273), Yahoo! Lab proposed a technical framework ÆÇ 2015-06-01; 2015-09-30 ß Ë Ð (J1103105)»ÏÀ Ö ³Ã È Û E-mail: hmao12@fudan.edu.cn

2 30 Ì to overcome this problem: Firstly, features and attributes of mass data are classified by rational statistical methods and stored by efficient data structure. Then, the information of specified attributes can be located quickly. Finally, the distribution of the win price is obtained by the GBDT (gradient boosting decision trees) model and the FMM (finite mixture model). In the paper, we use the property of the domestic ad exchange marketplace to modify the technical framework and propose a modified algorithm based on the framework of the reference. Key words ad exchange marketplace; bid price forecasting; star tree 2010 Mathematics Subject Classification 00A06 Chinese Library Classification O211 0 Í Ë ÄÄе ÃÆ ÌÍ Ëß ÁÆ ßà Google, Baidu, Yahoo! Ð À¼ Æ Í ËÎ Å ÌÍ ß À¼ ß¾Õ ² Þ À¼ÆÎ Ç ß ÌË Æ Ì ² Ç Æ 21 ÙØÆÎÑÎ ß ±Ç Í ËßÀ¼ ÞÆ»ÄĐ ÆÐ ß Ó Ã¼ÆÍ Ë Ú ßß¾Ñ ÙØÆ Ù Î Í ËßÀ¼ ¾ÕÀ¼ ÀÆÅÇÍ º À (ad exchange marketplace), ±Ç (non-guaranteed delivery, NGD) À Ü ßÍ ÀÆ NGD À Ê ÔÅß Æ µä Å Ë ßß«Æ ßß Ð«Æ Ê Í À¼ Ñ ß NGD ß ĐÆ ßß¾Ñ ³Õ ¾ Æ ÁÀ¼ Ñ Æ µä ÈÝÛÀ¼ß ÈÆξ ß ÒÎÀ¼ ß Đ³ Æ ÐÅÚÕ ß ß Æ Æ ¹ ÆÎÒ«¾ ßÀ¼ ¾ Æ Á Ñ Æ ÈÝÛ È³ ÆÑÍ ßÍ ËĐ ßÇ Í Ë ÆĐĐ NGD À Ù À¼ Æ ĐĐ Ñ Æ NGD À ÒÎÀ¼ ßÆ Đ È ¹ß NGD Đ¾ Å»ß ÆÞĐÃ ß Ó Æ ß Ý IP Ý ¼ à ËÐ ³ß ¾Ñ ÐÙ Ú ß ß ßÝÛ È ³ Î ß ßÀ¼ «ÆÆÇ NGD À¼ Æ ß² Æ Á NGD À ¾Æ ÆÝÛ È» ¾µ»Æ ¾À ß Æ Î [1] Æ ÜÙµ ß²ÂÊÉ ¾ÕÀ¼ Æ Æ NGD À ß Î ÞØ ½ Æ ¾À¼ß Æ» ÆÁ ¾ ¾Ñ Í ËßÀ¼ ³ ÅÒƵ Ó ß¾Ñ Ì ÎÑ Æ Á¾ ËÁ ß± Ó Æ Ý«Ì Æ Ç Æ ß Æ ¼Ì Ç 0 1, ³¼» ± ÇØÆ ß¾Ñ Æ ¾ ßÏ Ð À¼ ß ß¾Ñ ÆÞ ÐÙß È ÁÑ Ý Û È Ú ß¾Ñ ØÆÞ Í (gradient boosting

1 Õ ÚØÎ Á½ º É Á Ç 3 decision trees, GBDT) Ù Ð (finite mixture model, FMM) ³ ß ÑÝÚÀ¼ ¾Ñ Ù ß È ½ ØÛ (off-line) É Û (on-line) À Æ ÉÆ ØÛß É (i) ÝÛ ÈßÆ (ii) ¾Ñ Ì É Í Æ¾ ÐÙß¾Ñ ÐÆ Å³ÏĐÅÁ ÜÈ ß (fast correlation-based filter, FCBF) [2] ; (iii) ¾Ñ ß Ð ÐÙß Æ Å³ÏĐÁ ¾Õ Ç (star tree) ß È Á (iv) Î Õ Ð ßÀ¼ ³ «ÆÈ ³ÏĐ Ð¾Ñ À È ß¾Õ±Û Í (GBDT) Ù Ð (FMM). ÛÀ Æ É (i) ¾ÀÙ Í À¼ Å (ii) ¾Ñ ³ßÀ «¾ ÐÙß¾Ñ Ð (iii) Ë¾Ñ Ð ßÀ «¾Æ À¼ (iv) Ƚ¾Ñ Ð ßÀ¼ ³ À¼ ÎÞØ (v) À¼ ØÛ Éß (iv) Û Éß (iii) «ßºÞÆ ½ ÆǾ ÀÓß Đ ÑÆÜ ³ÆÆΫ( ) Ù (ÈÆÒÁÐÍ Ù Æ Ð Å M ) Đ ÁÍ À ¹ß ²Â¾ È ³ÆÄ¹Ô ËÐ ³ ȳ [3]. M ß È ß ÈÜ Æ Ù ÆÜÝ Õ È߲ ² ¾Æ Á ÉÈ Æ ß È ÃÖß Æ Ã¼ Ó ¾Ñ ß Ð Å Ñ ³Î Ð Õ ß È Î [1] ß ¾ ÆÜ µä Èß¾ 1 ß ß Êß Ü Æ³Î ¹ Ð ¾ 1 Ä ÁÜ (i) ¾Ñ ß Æ ¾Ñ Á ß ¹ÆµÄ Þ Øß Òµ«Æ ÈÎ [3] ¼ ß Æ Ó ß ßü ³ÆÝ

4 30 Ì Ú¾Æß«(ii) Æ È Ë É Æ ¾Ñ ß ¾Æ ß ÅÉ (iii) ØÆ ÀÆ È³ÙØÆÞ ¾Ñ ßÀ¼ ³ Æ Á ÓÜ ÐÙ Î Ð³Ï 1 ¾Ñ ß Ý ß³ÆÎ ¾Õ 2 Þ ÐÙß È ÁÆ Ô¾Î Ëß 3 Þ GBDT FMM Á À¼ ³ ß 4 Þ M ß È Ûٵƾ ¾Ñ Ðß³Õ Á ß ¾ ß¼ 5 Î Óß 1 à ¾ ß NGD À ¹ Æ ĐĐÀ ß È Å Ñ Æ Ú 2013 6 Æ M à 7 000 Á À Æ À¼ ÌË ÌÕ ³ß 40 ¾Ñ ß È Æ ĐĐ ß¼ Ñ ÆÕ ß µ ± ¹ Ç Å É Í Æ Î ¹ß¾Ñ ÐÙ ÆÇ º¾Ñ ÜÈß¾Ñ Æ¾ À Ã¾Ñ Æ Ê FCBF [2] Ç Ê ß É Æ ÕÓ Þ FCBF ƾ Þ ß«Æ Ç ÓÝÚ Á ÜÈ (weighted fast correlation-based filter, wfcbf) ÐÑÎ Ê ß É ÅÒƵ Í ¾Ñ Ù ÜÈ ß Î Æ ¾ Ñ Ì Æ ÉĐ ÆÄÄÞ Û ÜÈ r Ñ (X, Y ) Ù ßÜÈ Æ (x i x i )(y i y i ) i r =. (x i x i ) 2 (y i y i ) 2 i i Þ Û ÜÈ r ¾Ñ Ê ¾ÆÛ ÜÈ r ß Ó Æ ÁÙ Æ ¹ ß¾Ñ ÄÄ º¾Ñ ßÛ ÜÈ ¾ Æ ØÜ È ÍÝß»ßÐĐÛ ³ (linearly separable) ßÆ ¾ Û Ðß¾Ñ Æ½ ÈÎÇĐÛ ³ß [4]. ÖĐÆ Ù Æ¾Ñ Ù ÄÄ ĐÛ ÜÈßÆÓ Þ Û ÜÈ ¾ µò Ù ¾Ñ Ù ß È Ç Æ Þ Î [2] ß Ñ ¾Ñ Ù ßÜÈ

1 Õ ÚØÎ Á½ º É Á Ç 5 Đ X ß± Ç H(X) = i P(x i )log 2 (P(x i )), Þ ÆP(x i )»ß¾Ñ Û x i ½¾Ñ ÎÕß «É Ú ¾ Đ Y Ù ØÆ µ±ß ¹ H(X Y ) = j P(y j ) i P(x i y j )log 2 (P(x i y j )), Ü P(x i ) Ç X ßÒµ³ Æ P(x i y i ) Ç Đ Y ÙØ X ßص³ ¾ ÆĵΫ(information gain, IG) Û [5], IG(X Y ) = H(X) H(X Y ). Æ ¾Ð ÙÆÄÝÚ Å Å (symmetrical uncertainty) [6], SU(X, Y ) = 2IG(X Y ) H(X) + H(Y ). SU Û Å Æ»ÄĐ SU(X, Y ) = SU(Y, X). SU Û Û Æ 0 Ú 1 Ù Æ 0»ß Đ ÐÆ 1»ß Đ ÞÜÆ ßÛ ß FCBF ÅÁ SU ÛÑ ¾Ñ Ù ßÜÈ ÆÖ Ê ß É Æ Â µ ÙÞ ÀÓ ß ÈÆ È ¾Ñ µ Ç ÈÃÖ ÈÉÅß ÆÜÝ º¾ Ñ Ù ß SU Û Đ ßĐÆÄÄ ß¾ ¹ßÒµ«Æ ÆÒ ¾Ñ ¹ Å Ç Æ Ô ß FCBF ƾΠРÀ 1 wfcbf ( ) ÍÝÐ S(F 1, F 2,, F n, C), Á w 1, w 2,, w n, Û δ 1, δ 2 ; ( ) for i = 1 to n do ( ) SU(F i, C); ( ) w i SU(F i, C) < δ 1, S À¾Ñ F i ; ( ) end for ( ) ÑÃß ñ ¾Ñ w i SU(F i, C) ßÛ Ú ¾ ( ) for i = 1 to ñ 1 do ( ) for j = i + 1 to ñ do (Å) if wi w j SU(F i, F j ) w j SU(F j, C) > δ 2, then («) S À¾Ñ F j ; ( ) end if ( ) end for (XIII) end for ß FCBF Ü Æ wfcbf Á ß ¹Æ 4 9 ÎÆ «Ó ¾Ñ ß Ð É ß¹

6 30 Ì 2 Õ ³³Ï Æ ¹ Ï Èß Þ 2.1 Í Ç ¾Ñ ßÀ ÝÛ È ÐÙß³Õ Æ Â Á Ó ³Æ ÝÛ ÈÊ 3 ¹ß¾Ñ a, b, c, ³¼Ê Û a 1, b 1, b 2 c 1, c 2. ÝÛ Æ ß¾Ñ ³¼Ç a 1 b 1 c 1, a 1 b 2 c 1 a 1 b 2 c 2, Ð ÝÚ 2 ßß Á Æ ½ È ÁÆ Ý Û ³Õƾ È ½ Æ ¾Ñ Ç a 1 b 1 c 1 ß ÇÆ ÌßÀ «Æ È«Ú a 1 b 1 c 1 ß½ Ç Ù ß É Æ½ Á Ðà Á È Æ µ ÀÓ Å ÀÓß¾Ñ «µ ¾Ñ a 1 c 1 ß Æ»ß ß b ÊØ µ Ú ß È Æ Õ Á Ñ Æa 1 b 2 c 2 Ä 2 ß Á ÑÆ Á ² ß Æе Õ È«ß Æ ¹ Ë¾Ñ ß Æ Á Ú a 1 b 2 c 2 ß¾Ñ «2 ½ Ì Ç Í ÆÎ [1] Þ ß ÁÐ (star tree expansion) Ñ Í ÊØ Û Ç¾Õ¾Æß ÛÆ Á¾Ñ a Ñ Æ ÍÇ Ê Û a 1. Æ Á ß Á 3 ÚÆ ß Á Í Î Úß Ã ¾ ÝÛ Ó¾ß½ Æ Î Úß¾Ñ Ç a 1 b 1 c 1 ßÝÛ Æ, c 1, b 1, b 1 c 1, a 1, a 1 c 1, a 1 b 1, a 1 b 1 c 1 Ð

1 Õ ÚØÎ Á½ º É Á Ç 7 2.2  3 ¼½ ½ Ì ¾ ÆÞ ¾Õ¾Æß È ÁÑ ÝÛ ÈÆ ¾ É ØÛÀ ÆÆ ß¹ ¾ ĐÒ ÖĐÆ Í À À Æ ¾ÔÎ ¾ Í ËÆÀ¼ µ Æ ß ³Îß Æ» ÎÀ¼ Ĺ À¼ ¾ ÆÇ ß ÆµÄ Æ ß ³ Ú ÌË ¾Ñ ß½ ÆÞ ÝÛ ÈÆ Ó³¾ÎÀ¼ Î [1] Î ¾Õ ß Æ¾Î ² É ß¹É Å Æ ÈÊ ß ¹ ¾ Æ ß ÐÑ Ó ß È Á Æ ß Þ ¾ÕÇ Û Æ Ñ»ßƾÕÇ Å Æ v Ñ»ß ÎÇ ¾Ñ a 1 b 1 c 1 Ç Æ ß Ç T = v v, ÙØÝÚ¾Ñ Ç a 1 c 1, ¾ É Ç v v a 1 b 1 c 1 = a 1 c 1. ¾Ñ ßÉ Ç D, µ ß ÇÇ 2 D ¹ ß¾ Ñ Æ¾¾Ä ÆÑ Ë ¹ ßÝÛ«Æ ß ÐÆ ¹¹ÝÂ ß D ß Û¾ ß Æ Đ¾ Æ ß ÉÆ ¾ ß ³ µàæ ßÌ Ç Æµ ß ¹ÉÆ ³Ö¾ ß ÐÆ ³Ç ³ÀÆ ¾Ñ ¾ ³ λ d = w d SU(F d,bid), 1 ßÁ w d ¾ Ñ F d À¼ Ù ß SU ÛÍ Î ßÍݳ q(t) = D λ d δ(t d, v), d=1 Üß δ δ(v, v) = δ(, ) = 1, δ(, v) = δ(v, ) = 0, ¾ T i Ç T ß i ³ Æе ÛÇ v. Þ {s j, n impj } n j, s j Ç¾Ñ Æ n impj Ç ß Ì

8 30 Ì ß¾Ñ Ù ßÜ Ç D f sim (s j, T) = λ d δ(s d j, T d ), d=1 ß ³»ßÇ f score (T) = n f sim (s j, T)q(T)n impj. Ø È ³ ÑÍ ß ÐÎ ¾ É ß Þ Î À 2 ( ) Á T i, i {1, 2,, 2 D }, ßÍݳ q(t i ) = D λ d δ(ti d, v); d=1 ( ) for j = 1 to n do ( ) Þ Ò µ Æ¹Ý ÁÆÝÚÐÙß T; j=1 ( ) f score (T) = f score (T) + f sim (s j, T)q(T)n impj ; ( ) end for ( ) ³ f score Ú ¾ ƾ ÐÙß Ï K, K Î [1] ß 1 Ü Æ 2 ¹Ý ß Æ ³ Ý Ç ÅÆÖ» Ñ ß Ç Æ Ê ß Đ ß ¾Æ s j ß¹ÝĐ ÐßÆ ¾ Æ ±Ö Æ ² Ò µß Æ Æ Í µ m (m 5) Ü ¾ ß Đ ØÛ ÞÀÆß Ê À Æ ÆÖ Á Ð ¾ Æ Ù É ĐÐÙß Æ ß ÄÄ±Â Æ ¾ 3 Ò ³ ¾Ñ ß Ð³ ÙØÆ ¾ ß ÐÙ³À ÄÄÈÕ Ô»³ ß» Ç Æ ¹Æ ß¾Ñ ÛÆ Ë µ Å Æ ¹ Æ ¾Ñ Ð Æ ÑÆ ßÀ¼ Ç Í ÆÎ [1,7-9] FMM ÑÁ Õ³ ÐÙ Æ Θ = θ i, i = 1, 2,, n, ² X ß «³ Ç P(X θ i ) θ i ÎÕß «π i, n P(X Θ) = P(X θ i )π i. i=1 Ê Æ Á ¾ ß¾Ñ ÐÆ ßÀ¼ ³ Ô»³ x log N(µ, σ 2 ),

1 Õ ÚØÎ Á½ º É Á Ç 9 f(x; µ, σ) = 1 ( (lnx µ) xσ 2 2π exp ) ) 2σ 2, x > 0, Ð ÐÆÊ Û¾Ñ ßÀ¼ ³ Ç n 1 ( (lnx µi ) 2 ) ) f(x x; θ 1, θ 2,, θ n, π 1, π 2,, π n ) = π i exp, xσ i 2π Þ Æ 0 < π i < 1 n π i = 1. 4 ß Ô»³ ß Ð³ i=1 i=1 2σ 2 i 4 ËÓ FMM ÆÝû Ø Ô»³ Å E º std, Óß ÝÚ µ σ, µ = lne 1 ( ) 2 ln 1 + std2 E 2, ) σ 2 = ln (1 + std2 E 2. Ê ß Æ π i ÄÄ ¾ ¾Ñ ß ³ ³ ß ÑÅ Æ Å Ä ÐÇ µ ÞÑ Ý Å E º std. ÐÙ Æ Ð Ú Þ ß ³ Û ³º Ç Ô»³ ß Å º Þ GBDT Æ ±Û ß ÞÑ Å º Î [10-12] ÞÎ GBDT ¾Ñ ³Õ Ò ß Î [1] ÅÁ GBDT ÆÖ Ê ß É ÕÆ GBDT Å ß ¾ ß ²Æ µ ÐßÕ Æ Æ ¾Ñ Ç Å Æ Õ ß ¼ 4 Ç Ê ß ÛÙµ Æ Þ M ßÀ¼ Ùµ Ùµ Ü 7 ßÀ¼ Æ ß 7 000 Á Æ 41 ¾Ñ Ç Ð

10 30 Ì ß ÞÆ À¼ ³Æ ³Æ¾ ³ Ñ ¾Ñ ß Æ¾ ³ Ñ ß Æ Ø¾ ³ Ç Æ ß Á ÈÏ ¾ Ƶ Þ wfcbf ¾Ñ ß ¾ ß Æ ÅÚ «Æ Á {w i } 41 i=1 ßÛ Ç 1.» 1 Î ³¾Ñ À¼ Ù ß SU Û ¾ ÙØÆ 41 ¾Ñ Ð 8 ¾Ñ 1  ¾ Ð Å SU Æ Ò Event Time Request Time Response Time winprice bidprice SU Ü 0.004 1 0.004 1 0.004 1 0.718 7 0.697 2 Ò Auction Price clickurl IP Referrer Url pagereferal Url SU Ü 0.693 6 0 0 0.013 1 0 Ò country province city county language SU Ü 0.014 9 0.008 7 0.005 2 0 0.962 2 Ò Browser Os adspace Width Adspace Height Adspace Position SU Ü 0.825 8 0.812 1 0 0 0.827 9 Ò Adspace Page Type bidmode RPM FEE CTR SU Ü 0 0.965 6 0.692 4 0.740 5 0.692 4 Á È ß É ÆÉ Ú ³ ß ¾Ñ ĐÃÖßÆ Æ Ü ß È ÁĐÐÙß ¾Ñ ÊÇß³Æ 2 5 ÛÆ Á ß ÁÊ Á ½ Æ ¹ ß Ç Ó ³Æ ³ ¾ ß ÐÑ Æ Æ Û ÐÙÛ Æ Æ 5 ßÆ À¼ ²³Æ ¾ ß 6 ƾ Æ Û ÐÙÛ Ðݾ 5 ÁÅ ½Ð É µ

1 Õ ÚØÎ Á½ º É Á Ç 11 ÆÆ ÛÇ {ŷ i } n i=1, ÐÙÛÇ {y i} n i=1, n Ç ³ß ³ Û ³º ßÏ Û err i = ŷ i y i Ü rerr i = ŷi y i. 6 ß ßÆ Æ ¾»Ò ÆÓ Æ ¾ Ú Ûß Ò Æ º y i 5%. 6 Рɱ 7 Ü ß¼ Ñ ÒÆ Æ Ú ß ßÜ Á 7 ± ¾ Æ ³ È ß¾Ñ ³ Æ Æ Û ÐÙÛÙ ß (RMSE) Ü (RMSRE), Ç Åß Ê Æ RMSE = n / n I i (ŷ i y i ) 2 I i, i=1 i=1

12 30 Ö RMSRE = n (ŷ i y i ) I 2 / n i yi 2 I i, i=1 i=1 Þ Æ n Đ ¾Ñ Ðß Æ {I i } n i=1 Đ ß¾Ñ Ð ß ³ 8 Î Û º ß RMSE Û RMSRE Û 8 Рɱ Ù ÇÚÉß Ñ²ÂÆ ß ÇÆ ² ÀÐÙÛÆ ÝÚ 9 ßß ß µ»ß «Æ Ð ³¼Ñ» Æ 2 10 50 ¾Ñ Ð ß Û 90% ß «9 ³»ß GBDT ß ÆÐ ³ĐÚ ³ Û º ß Æ Õ Ë ÚƲ Æ ¾ Ñ Ðß ÆÆ ß ÎÑÎ Å Ö» ÕÆÓ Ó º Æ»ßÆ Ó

1 Õ ÚØÎ Á½ º É Á Ç 13 9 ± Æ Êº Æ¾Ñ ÉÆ Ó Á Ç 1, Õ µ»ß«æ È ÓÁ Đ (RetargetingType) ¾Ñ Æ 10 ÕÆ ³ÕÆ ÛÐßÀ ³ ¼¾ Ç Æ½¾Ñ Ä Á À¼ Ù ßÜÈ Æ» SU (RetargetingType, bid) ¾Đ² Ç Æ Đ ßÁ ØÆ ¾ ÝÚÜ ß 11 ÚÆ Ý ÅßÆ Æ À¼ ¾ ÆÆ Û Ó º¼ «ÅÆ Æ ¾Đ 10 Î º ¾Æ Ë Å Đù Û Íº Î ¾ Ƴ û Å ĐÊ Û Ã»

14 30 Ì 11 Î ¾Å 5 ³Î ¹ Đ ³Ù Í À ¹ ß ÈÆ ß Æ À¼ Î [1] ¾Õ Æ ¾Ñ ß ÆÁ ÁÆ GBDT FMM ÎÀ¼ ß³ Æ ÞØÀ Î ³Î ½ ßÅ Æ Ð ³ Èß¾ ¾ Æ ¾Ñ Á ß ¹Æ¾ Ó ¾ ¾Ñ ß ÛÙµ» ß Î¾ ß É¹ ÅÒ ÆΫ( ) Ù ß È Ëƾ¼ Î ÉÔ ³ ß «¼ MediaV ¹Ô ĐÐÙµ ßÔÔ Æ ÆÉ ²  À ÆÐ ³ ßÀ Æ Ô É½ ßÞØ ¼Ø µ [1] Cui Y, Zhang R, Li W, Mao J. Bid landscape forecasting in online ad exchange marketplace [C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2011: 265-273. [2] Yu L, Liu H. Feature selection for high-dimensional data: A fast correlation-based filter solution [J]. Proceedings of International Conferences on Machine Learning, 2003, 20(2): 856-863. [3] ³ Úº ÄϽ Í Ê LDA ± Mahout Ñ ÚÖ [J]. Õ È 2013, 2013(3): 118-130. [4] Das S K. Feature selection with a linear dependence measure [J]. IEEE Transactions on Computers, 1971, 20(9): 1106-1109.

1 Õ ÚØÎ Á½ º É Á Ç 15 [5] Quinlan J. C 4.5: Programs for Machine Learning [M]. San Francisco: Morgan Kaufmann, 1993. [6] Press W H, Flannery B P, Teukolsky S A, Vetterling W T. Numerical Recipes in C [M]. Cambridge: Cambridge University Press, 1988, 10(1): 195-196. [7] Mclachlan G, Peel D. Finite mixture models [J]. Encyclopedia of Machine Learning, 2000, 39(4): 521-541. [8] Jain A K, Figueiredo M A T. Unsupervised learning of finite mixture models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(3): 381-396. [9] Muthén B. Finite mixture modeling with mixture outcomes using the EM algorithm [J]. Biometrics, 1999, 55(2): 463-469. [10] Friedman J H. Stochastic gradient boosting [J]. Computational Statistics and Data Analysis, 2002, 38(4): 367-378. [11] Friedman J H. Greedy function approximation: a gradient boosting machine [J]. Institute of Mathematical Statistics, 2001, 29(5): 1189-1232. [12] Hastie T, Tibshirani R J, Friedman J. The elements of statistical learning: data mining, inference and prediction [J]. Journal of the Royal Statistical Society, 2011, 27(2): 693-694.