Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων Katharina Rausch 1, Ειρήνη Ντούτση 1, Κώστας Στεφανίδης 2, Hans Peter Kriegel 1 Ελληνικό Συμπόσιο Διαχείρισης Δεδομένων Ιούλιος 2014 Institute fr Infrmatics, Ludwig Maximilians Universität (LMU) München, Germany 1 2 Fundatin fr Research and Technlgy Hellas (FORTH), Institute f Cmputer Science, Heraklin, Greece.
Nwadays, due t the grwing cmplexity f the Web, users find themselves verwhelmed by the mass f chices available E.g., shpping fr DVDs, bks r clthes nline becmes mre and mre difficult, as the variety f ffers increases rapidly and gets unmanageable. Recmmender systems facilitate users in their selectin prcess, by prviding suggestins n items, which culd be interesting fr the respective user. Hw? Estimate preferences fr items. Recmmend items featuring the maximal predicted preference. Use: Histrical infrmatin n the users interests, e.g., the users purchase histry. Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 2
In general, recmmendatin appraches are distinguished between: Cntent based: recmmendatins are based n a descriptin f each item and a prfile f the user s preferences. Cllabrative filtering: ratings are predicted using previus ratings f similar users Recmmendatins fr a user u are based n the ratings f his/her similar users. Cmpute the set f similar users, Friends F u Fr all items i unrated by the user, estimate the user preference fr the item,,,, Present the tp k ranked items t the user Hw d we cmpute the set f friends? Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 3
[Nearest neighbrs apprach] Scan the whle database t find similar users F u = {u ϵ U: sim(u,u ) δ} sim(u,u ): a user similarity functin (e.g., Pearsn crrelatin) δ: a user similarity threshld,,,, Friends are defined in the full dimensinal feature space Linear scan f the db t cmpute F u Online cmputatin f the set f friends fr each query user Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 4
[Full Dimensinal Clustering apprach] Users are gruped int clusters f similar users Θ={θ 1, θ 2,..., θ k }, θ i θ j =. The friends f a user are the members f his crrespnding cluster F clu u = {u ϵ θ i : u ϵ θ i } Agglmerative hierarchical clustering, cmplete link distance Similarity between tw clusters is the similarity f their mst dissimilar members Stp, if the similarity f the clsest pair f clusters vilates the user similarity threshld δ,,,, Faster than nearest neighbrs apprach Fr each u,u ϵ θ i, sim(u,u ) δ (crrectness) F clu u F u (incmpleteness) Fr small clusters, F clu u t narrw. Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 5
Fr bth cases, user similarity is evaluated in the full high dimensinal feature space Its difficult t find similar users when s many dimensins are cnsidered Its mre prbable users t exhibit similarity in sme subspace f the feature space e.g., similar taste in cmedies but nt in dramas Subspace clustering Extract bth clusters f users and dimensins, items in ur case, based n which users are gruped tgether Clusters are defined in subspaces f the riginal feature space: θ = (U θ, I θ ) Subspace clustering: Θ={θ 1, θ 2,..., θ k }, θ i θ j w.r.t. bth users and items Traditinal appraches d nt cnsider missing values thugh Fault tlerant subspace clustering Missing values are tlerated but bunded per cluster User tlerance threshld ε u Item tlerance threshld ε i Rating tlerance threshld ε g Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 6
Subspace based recmmendatins (Rughly) The friends f a user are the members f all his subspace clusters F subclu u = {u ϵ θ i : u ϵ θ i } [Subspace Clustering apprach],,,, The benefits Imprves clustering quality due t subspace partitining Expands the set f friends as a user belngs t >1 clusters. Diversifies the set f friends as different friends might be chsen based n different items. Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 7
In the riginal paper [1], a grid based apprach was prpsed (gridftsc) The apprach is based n CLIQUE algrithm Each dimensin is partitined int g equal length intervals, called units. A k dimensinal unit is the intersectin f k 1 dimensinal units frm k different dimensins A unit is dense if its pints exceeds minpts pints. A cluster in a subspace is a maximal set f cnnected units in that subspace. Extensin t fault tlerance Als emply the missing values per dimensin t extract cluster apprximatins Clique? GridFTSC? 2??? Dimensin 2 3 2 1 Dimensin 2 3 2 1 21?1 1 2 3 Dimensin 1? 1 2 3 Dimensin 1? [1] Flexible Fault Tlerant Subspace Clustering fr Data with Missing Values, Gunneman et al, ICDM 2011. Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 8
hybridftsc apprach 1 dimensinal DBSCAN t detect density based clusters in each dimensin Objects with missing values in the dimensin are filtered ut befre DBSCAN call They frm a pseud cluster As in gridftsc, we extend the clusters by cmbining them with the pseud cluster DBSCAN is applied in single dimensins denftsc apprach The apprach is based n SUBCLU, a DBSCAN based apprach where ntins f reachability etc are defined per subspace. 1 dimensinal DBSCAN t detect density based clusters in each dimensin Objects with missing values in the dimensin are filtered ut befre DBSCAN call They frm a pseud cluster DBSCAN distance is based n the current subspace (ignring missing values) Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 9
T speed up the algrithms, we intrduce the significance threshld fr dimensin pruning Heuristic: Cnsider nly dimensins with significant infrmatin fr subspace expansin. Intuitively these are dimensins with big clusters. Significant dimensins: Thse including c clusters featuring at least d %f the verall ppulatin Cluster threshld c: c > 1 & apprximately half f rating values pssible Data threshld d: 0.1 d 0.2 depending n c Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 10
Thrugh subspace clustering, we ptentially receive several subspace clusters the query user u belngs t. Basic cmbining apprach: Unin f clusters (F) Weighted ranking apprach: 1) Cmbine all cluster members the query user u belng t (F) 2) Rank them accrding t their weighted full dimensinal distance t u 3) Select as friends thse belw the weighte distance threshld β Subspace based Full dimensinal based Weighted full dimensinal distance: Refine distance by weighting based n the number f cmmn dimensins, c uv, Nrmalized #cmmn dimensins c uv, v Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 11
ML 100K dataset: 983 users, 1682 mvies, 100000 ratings. ML 1M dataset: 6040 users, 3952 mvies, 1000000 ratings. Recmmendatin quality measures: Mean abslute errr (MAE) Rt mean squared errr (RMSE) Cmpared appraches Nearest neighbrs apprach [Naïve] Full dimensinal clustering apprach [fullclu] Fault tlerant grid based apprach [gridftsc] Fault tlerant hybrid apprach [hybriftsc] Fault tlerant subclu based apprach [denftsc] Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 12
[ML 100K dataset] Cluster cardinality: 3 15, 27, 38 Cluster cardinality: 3 28, 138 Dimensinality: 1 4, max 5 Dimensinality: 1 3, mstly 1 Dimensinality: 1 5 Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 13
[ML 1M dataset] Dimensinality: 1 3 Many small clusters, a few big Dimensinality: 1 4 Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 14
randm user frm [ML 1M dataset] T examine the qualitative differences f the appraches, we issued the 10 mst prmising recmmendatins t randm query users. Fr fullclu, the user was part f a cluster f 9 members t narrw selectin Naïve cnsiders > half the users as similar t brad selectin Subspace als ffers a brad selectin f friends but this set is refined thrugh weighted ranking and refinement better quality f recmmendatins. Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 15
[ML 100K dataset] Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 16
[ML 1M dataset] Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 17
We intrduce subspace clustering fr recmmendatins We prpse tw new density based appraches fr fault tlerant subspace clustering, hybridftsc and denftsc We intrduce the significance threshld t speed up cmputatins. We prpse a weighted ranking apprach t cmbine multiple subspace clusters and select the mst prminent users fr a query user. Our results shw that neither a narrw selectin f frieds (fullclu), nr a brad selectin f friends (naïve) perfrm well. Rather, a brad pl f diverse friends extracted thrugh subspace clustering and a refinement f this set thrugh weighted ranking ffers the best quality f recmmendatins at a fair runtime. Open issues Experimentatin with mre datasets Matrix factrizatin methds Cmbinatin f ratings with review texts Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 18
Ερωτήσεις? Παράληψη από χθες Η εργασία Discvering and Mnitring Prduct Features and the Opinins n them with OPINSTREAM είναι σε συνεργία με τους Max Zimmermann, Myra Spilipulu από University f Magdeburg, Germany.
Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 20
1 dimensinal DBSCAN t detect density based clusters in each dimensin Objects with missing values in the dimensin are filtered ut befre DBSCAN call They frm a pseud cluster minpts = 3, ε = 0.04 Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 21
DBSCAN emplys a distance functin, which is based n subspace & ignres missing values minpts = 3, ε = 0.04 Αξιοποιώντας Τεχνικές Συσταδοποίησης με βάση Υποχώρους σε Συστήματα Συστάσεων 22