Exhaustive Topic Detection and Query Expansion Support Based on Substance-Oriented Term Clustering



Σχετικά έγγραφα
IPSJ SIG Technical Report Vol.2014-CE-127 No /12/6 CS Activity 1,a) CS Computer Science Activity Activity Actvity Activity Dining Eight-He

Automatic extraction of bibliography with machine learning

Topic Structure Mining based on Wikipedia and Web Search

Newman Modularity Newman [4], [5] Newman Q Q Q greedy algorithm[6] Newman Newman Q 1 Tabu Search[7] Newman Newman Newman Q Newman 1 2 Newman 3

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "ΠΟΛΥΚΡΙΤΗΡΙΑ ΣΥΣΤΗΜΑΤΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ. Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΠΙΛΟΓΗΣ ΑΣΦΑΛΙΣΤΗΡΙΟΥ ΣΥΜΒΟΛΑΙΟΥ ΥΓΕΙΑΣ "

Study of In-vehicle Sound Field Creation by Simultaneous Equation Method

Retrieval of Seismic Data Recorded on Open-reel-type Magnetic Tapes (MT) by Using Existing Devices

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ψηφιακό Μουσείο Ελληνικής Προφορικής Ιστορίας: πώς ένας βιωματικός θησαυρός γίνεται ερευνητικό και εκπαιδευτικό εργαλείο στα χέρια μαθητών

ΔΙΕΡΕΥΝΗΣΗ ΤΗΣ ΣΕΞΟΥΑΛΙΚΗΣ ΔΡΑΣΤΗΡΙΟΤΗΤΑΣ ΤΩΝ ΓΥΝΑΙΚΩΝ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ ΤΗΣ ΕΓΚΥΜΟΣΥΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

n 1 n 3 choice node (shelf) choice node (rough group) choice node (representative candidate)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

GPU. CUDA GPU GeForce GTX 580 GPU 2.67GHz Intel Core 2 Duo CPU E7300 CUDA. Parallelizing the Number Partitioning Problem for GPUs

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία

Reading Order Detection for Text Layout Excluded by Image

Κάθε γνήσιο αντίγραφο φέρει υπογραφή του συγγραφέα. / Each genuine copy is signed by the author.

Μεταπτυχιακή διατριβή. Ανδρέας Παπαευσταθίου

ΣΔΥΝΟΛΟΓΗΚΟ ΔΚΠΑΗΓΔΤΣΗΚΟ ΗΓΡΤΜΑ ΗΟΝΗΧΝ ΝΖΧΝ «ΗΣΟΔΛΗΓΔ ΠΟΛΗΣΗΚΖ ΔΠΗΚΟΗΝΧΝΗΑ:ΜΔΛΔΣΖ ΚΑΣΑΚΔΤΖ ΔΡΓΑΛΔΗΟΤ ΑΞΗΟΛΟΓΖΖ» ΠΣΤΥΗΑΚΖ ΔΡΓΑΗΑ ΔΤΑΓΓΔΛΗΑ ΣΔΓΟΤ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Simplex Crossover for Real-coded Genetic Algolithms

HIV HIV HIV HIV AIDS 3 :.1 /-,**1 +332

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»


Web. Web p OutDegree(p) log 7 1/OutDegree(p) A New Difinition of Subjective Distance between Web Pages

Technical Research Report, Earthquake Research Institute, the University of Tokyo, No. +-, pp. 0 +3,,**1. No ,**1

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

AKAΔΗΜΙΑ ΕΜΠΟΡΙΚΟΥ ΝΑΥΤΙΚΟΥ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: Η ΧΡΗΣΗ ΒΙΟΚΑΥΣΙΜΩΝ ΣΤΗΝ ΝΑΥΤΙΛΙΑ ΠΛΕΟΝΕΚΤΗΜΑΤΑ-ΜΕΙΟΝΕΚΤΗΜΑΤΑ ΠΡΟΟΠΤΙΚΕΣ

Γιπλυμαηική Δπγαζία. «Ανθπυποκενηπικόρ ζσεδιαζμόρ γέθςπαρ πλοίος» Φοςζιάνηρ Αθανάζιορ. Δπιβλέπυν Καθηγηηήρ: Νηθφιανο Π. Βεληίθνο

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΗΡΑΚΛΕΙΟ ΚΡΗΤΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ

GPGPU. Grover. On Large Scale Simulation of Grover s Algorithm by Using GPGPU

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΑΝΘΡΩΠΙΣΤΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΦΙΛΟΛΟΓΙΑΣ

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

An Automatic Modulation Classifier using a Frequency Discriminator for Intelligent Software Defined Radio

ΚΕΙΜΕΝΟΚΕΝΤΡΙΚΗ ΘΕΩΡΙΑ: ΘΕΩΡΗΤΙΚΟ ΠΛΑΙΣΙΟ ΚΑΙ ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ ΣΕ ΣΠΠΕ ΜΕ ΣΤΟΧΟ ΤΟΝ ΠΕΡΙΒΑΛΛΟΝΤΙΚΟ ΓΡΑΜΜΑΤΙΣΜΟ ΤΩΝ ΜΑΘΗΤΩΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΠΟΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΒΙΟΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΤΡΟΦΙΜΩΝ. Πτυχιακή εργασία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks

Vol. 31,No JOURNAL OF CHINA UNIVERSITY OF SCIENCE AND TECHNOLOGY Feb

derivation of the Laplacian from rectangular to spherical coordinates

Η ΨΥΧΙΑΤΡΙΚΗ - ΨΥΧΟΛΟΓΙΚΗ ΠΡΑΓΜΑΤΟΓΝΩΜΟΣΥΝΗ ΣΤΗΝ ΠΟΙΝΙΚΗ ΔΙΚΗ

Approximation of distance between locations on earth given by latitude and longitude

Math221: HW# 1 solutions

Wiki. Wiki. Analysis of user activity of closed Wiki used by small groups

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

υγεία των νοσηλευτών που συστηματικά εμπλέκονται στην παρασκευή και χορήγηση τους.

Buried Markov Model Pairwise

ΣΤΥΛΙΑΝΟΥ ΣΟΦΙΑ

ΘΕΜΑΤΙΚΗ ΕΥΡΕΤΗΡΙΑΣΗ ΚΑΙ ΚΑΘΙΕΡΩΣΗ ΟΡΟΛΟΓΙΑΣ ΣΤΙΣ ΤΕΧΝΙΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ: Η ΕΜΠΕΙΡΙΑ ΣΤΟ ΤΕΕ

Μιχαήλ Νικητάκης 1, Ανέστης Σίτας 2, Γιώργος Παπαδουράκης Ph.D 1, Θοδωρής Πιτηκάρης 3

Study of urban housing development projects: The general planning of Alexandria City

Comparison of Evapotranspiration between Indigenous Vegetation and Invading Vegetation in a Bog

Περίληψη (Executive Summary)

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία ΑΓΧΟΣ ΚΑΙ ΚΑΤΑΘΛΙΨΗ ΣΕ ΓΥΝΑΙΚΕΣ ΜΕ ΚΑΡΚΙΝΟΥ ΤΟΥ ΜΑΣΤΟΥ ΜΕΤΑ ΑΠΟ ΜΑΣΤΕΚΤΟΜΗ

IMES DISCUSSION PAPER SERIES

ΠΕΡΙΕΧΟΜΕΝΑ. Μάρκετινγκ Αθλητικών Τουριστικών Προορισμών 1

Ζητήματα Τυποποίησης στην Ορολογία - ο ρόλος και οι δράσεις της Επιτροπής Ορολογίας ΤΕ21 του ΕΛΟΤ

: Monte Carlo EM 313, Louis (1982) EM, EM Newton-Raphson, /. EM, 2 Monte Carlo EM Newton-Raphson, Monte Carlo EM, Monte Carlo EM, /. 3, Monte Carlo EM

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Other Test Constructions: Likelihood Ratio & Bayes Tests

Schedulability Analysis Algorithm for Timing Constraint Workflow Models

Development of the Nursing Program for Rehabilitation of Woman Diagnosed with Breast Cancer

Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α

Japanese Fuzzy String Matching in Cooking Recipes

2 Composition. Invertible Mappings

Toward a SPARQL Query Execution Mechanism using Dynamic Mapping Adaptation -A Preliminary Report- Takuya Adachi 1 Naoki Fukuta 2.

ΕΘΝΙΚΗ ΣΧΟΛΗ ΤΟΠΙΚΗΣ ΑΥΤΟ ΙΟΙΚΗΣΗΣ Β ΕΚΠΑΙ ΕΥΤΙΚΗ ΣΕΙΡΑ ΤΜΗΜΑ: ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΙΟΙΚΗΣΗΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ. Θέµα:

ΠΑΝΔΠΙΣΗΜΙΟ ΜΑΚΔΓΟΝΙΑ ΠΡΟΓΡΑΜΜΑ ΜΔΣΑΠΣΤΥΙΑΚΧΝ ΠΟΤΓΧΝ ΣΜΗΜΑΣΟ ΔΦΑΡΜΟΜΔΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

ER-Tree (Extended R*-Tree)

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΒΑΛΕΝΤΙΝΑ ΠΑΠΑΔΟΠΟΥΛΟΥ Α.Μ.: 09/061. Υπεύθυνος Καθηγητής: Σάββας Μακρίδης

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΓΗΠΛΧΜΑΣΗΚΖ ΔΡΓΑΗΑ ΑΡΥΗΣΔΚΣΟΝΗΚΖ ΣΧΝ ΓΔΦΤΡΧΝ ΑΠΟ ΑΠΟΦΖ ΜΟΡΦΟΛΟΓΗΑ ΚΑΗ ΑΗΘΖΣΗΚΖ

[4] 1.2 [5] Bayesian Approach min-max min-max [6] UCB(Upper Confidence Bound ) UCT [7] [1] ( ) Amazons[8] Lines of Action(LOA)[4] Winands [4] 1

Research on Economics and Management

Η νοθεία των τροφίμων, μελέτη περίπτωσης η νοθεία του ελαιόλαδου

Math 6 SL Probability Distributions Practice Test Mark Scheme

Homework 3 Solutions

ΓΕΩΜΕΣΡΙΚΗ ΣΕΚΜΗΡΙΩΗ ΣΟΤ ΙΕΡΟΤ ΝΑΟΤ ΣΟΤ ΣΙΜΙΟΤ ΣΑΤΡΟΤ ΣΟ ΠΕΛΕΝΔΡΙ ΣΗ ΚΤΠΡΟΤ ΜΕ ΕΦΑΡΜΟΓΗ ΑΤΣΟΜΑΣΟΠΟΙΗΜΕΝΟΤ ΤΣΗΜΑΣΟ ΨΗΦΙΑΚΗ ΦΩΣΟΓΡΑΜΜΕΣΡΙΑ

Η ΔΙΑΣΤΡΕΥΛΩΣΗ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕΣΩ ΤΩΝ SOCIAL MEDIA ΤΗΝ ΤΕΛΕΥΤΑΙΑ ΠΕΝΤΑΕΤΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΗΣ ΑΝΑΣΤΑΣΙΑΣ-ΜΑΡΙΝΑΣ ΔΑΦΝΗ

SCITECH Volume 13, Issue 2 RESEARCH ORGANISATION Published online: March 29, 2018

Research of Han Character Internal Codes Recognition Algorithm in the Multi2lingual Environment

Ο νοσηλευτικός ρόλος στην πρόληψη του μελανώματος

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή Ο ΡΟΛΟΣ ΤΟΥ ΜΗΤΡΙΚΟΥ ΚΑΠΝΙΣΜΑΤΟΣ ΣΤΗΝ ΑΝΑΠΤΥΞΗ ΠΑΙΔΙΚΟΥ ΑΣΘΜΑΤΟΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ. Πτυχιακή Εργασία

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. «Προστασία ηλεκτροδίων γείωσης από τη διάβρωση»

Ανάκτηση Πληροφορίας

Web 論 文. Performance Evaluation and Renewal of Department s Official Web Site. Akira TAKAHASHI and Kenji KAMIMURA

SocialDict. A reading support tool with prediction capability and its extension to readability measurement

«ΑΓΡΟΤΟΥΡΙΣΜΟΣ ΚΑΙ ΤΟΠΙΚΗ ΑΝΑΠΤΥΞΗ: Ο ΡΟΛΟΣ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΗΝ ΠΡΟΩΘΗΣΗ ΤΩΝ ΓΥΝΑΙΚΕΙΩΝ ΣΥΝΕΤΑΙΡΙΣΜΩΝ»

Resurvey of Possible Seismic Fissures in the Old-Edo River in Tokyo

Development of a basic motion analysis system using a sensor KINECT

Πανεπιστήµιο Μακεδονίας Τµήµα ιεθνών Ευρωπαϊκών Σπουδών Πρόγραµµα Μεταπτυχιακών Σπουδών στις Ευρωπαϊκές Πολιτικές της Νεολαίας

Downloaded from HEPHAESTUS Repository, Neapolis University institutional repository

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Τα γνωστικά επίπεδα των επαγγελματιών υγείας Στην ανοσοποίηση κατά του ιού της γρίπης Σε δομές του νομού Λάρισας

Fractional Colorings and Zykov Products of graphs

ΤΕΧΝΙΚΕΣ ΔΙΑΓΝΩΣΗΣ ΤΗΣ ΝΟΣΟΥ ΑΛΤΣΧΑΙΜΕΡ ΜΕ FMRI

Partial Trace and Partial Transpose

ΕΛΕΓΧΟΣ ΚΑΙ ΤΡΟΦΟΔΟΤΗΣΗ ΜΕΛΙΣΣΟΚΟΜΕΙΟΥ ΑΠΟ ΑΠΟΣΤΑΣΗ

c Key words: cultivation of blood, two-sets blood culture, detection rate of germ Vol. 18 No

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΣΥΣΤΗΜΑΤΩΝ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΕΡΓΑΣΤΗΡΙΟ ΥΨΗΛΩΝ ΤΑΣΕΩΝ

Transcript:

DEWS2006 2C-i4 101 8430 2 1 2 101 8430 2 1 2 E-mail: {hiromi,masada,takasu,adachi}@nii.ac.jp Tangibility Tangibility Tangibility WWW Exhaustive Topic Detection and Query Expansion Support Based on Substance-Oriented Term Clustering Hiromi WAKAKI, Tomonari MASADA, Atsuhiro TAKASU, and Jun ADACHI Graduate School of Information Science and Technology, The University of Tokyo. 2 1 2 Hitotsubashi, Chiyoda-ku, Tokyo, 101 8430 Japan National Institute of Informatics 2 1 2 Hitotsubashi, Chiyoda-ku, Tokyo, 101 8430 Japan E-mail: {hiromi,masada,takasu,adachi}@nii.ac.jp Abstract Conventional search engines are designed mainly for general keyword search. Users who are unfamiliar with the field they seek cannot find an appropriate combination of query terms. We aim at a query disambiguation method which discovers various topics buried in a search result by making clusters with the terms appearing in the retrieved documents. At that time, it is desirable that the terms should be key for users to discover new knowledge with term clusters, e.g. proper nouns. In this paper, we propose a new measure, called Tangibility, to gather terms matching the above purpose. With existing term weighting methods, most of the high scored terms are generally used regardless of topics. On the other hand, with our Tangibility term weighting method, we can obtain distinctive terms each of which corresponds to a certain topic and all of which cover various topics implied by the query. We also conduct an experiment and compare our formula with the existing term weighting formulas. Key words Information Retreival, Data Mining, Clustering WWW 1. 1 2

Tangibility Tangibility Tangibility Tangibility 2. (representativeness) [8] χ 2 [12] Web KeyGraph [6] [14] DualNAVI [7] 3. Tangibility 3. 1 t i t j t i t j t i P (t i) t i t i t j P (t j t i) t i t j t i t i document frequency( DF ) DF(t i) 3. 2 Tangibility Tangibility Tangibility Tangibility TNG3 t j t i ti (t j)=p (t j t i) log P (tj ti) (1) P (t j) F i = {t j ti (t j) > 0} Tangibility TNG3 ( t TNG3(t k F ti (t k ) DF(t k )) i i)= F i [10] [11] [10] [11] 3. 3 Tangibility KL t i t j KL KL(t j; t i)= P (t j t i) log P (t j t i ) P (t j ) (2) +P ( t j t i) log P ( t j t i ) P ( t j ) (3)

TNG3 (1) (3) P (t j t i) log P (t j t i ) P (t j (1) t ) j t i t j 0 TNG3 F i = {t j ti (t j) > 0} (1) (2) F i ti (t j) 0 t j ti (t j) 0 t j TNG3 t i t i Tangibility Tangibility (1) (2) 3. 4 t i t j Sim(t i,t j)= t i t j t i t j 3. 5 3. 4 1 t i t j t i t j 2 t i t j t i C 1 t j C 2 s(c 1,C 2) C 1 C 2 s(c 1,C 1) C 1 s(c 1,C 2)= Sim(t i,t j) t i C 1 t j C 2 s(c 1,C 1)= Sim(t i,t j) t j C 1 t i C 1 s(c 1,C 2) (s(c 1,C 1)) (s(c 2,C 2)) > = τ (5) C 1 C 2 τ (4) 1 t i t j t j 1 t i t j Sim(t j,t j) 1 [4] Ding [2] Ding 4. 4. 1 Tangibility (2) (Mutual Information: MI) [9] Robertson s Selection Value(RSV) [5] document frequency(df) [13] DF (DFL) DF (DFS) DFS DF 1 DF 1 DFS DF 10 DF (w(t t j i,t j) DF(t j)) W (t i)= (6) {t j w(t i,t j) > 0} w(t i,t j)= t i t j w(t i,t j) (TNG3 MI) RSV RSV

DFL DFS DF 4. 1. 1 MI t i t j t i t j t j t i MI(t i,t j)= P (t i){p (t j t i) log P (t j t i ) P (t j ) +P ( t j t i) log P ( t j t i ) } P ( t j ) +P ( t i){p (t j t i) log P (t j t i ) P (t j ) +P ( t j t i) log P ( t j t i ) P ( t j ) } MI W (t i)= j (MI(t i,t j ) DF (t j )) {t j w(t i,t j )>0} (7) 4. 1. 2 RSV RSV (Robertson s Selection Value) [5] RSV RSV =( rdf R df N ) { α log N rdf+0.5 +(1 α) log df } R rdf+0.5 df rdf+0.5 N df R+rdf+0.5 (8) rdf : S R df N α t : S : S U t : U : α 0.5 U 4. 2 4. 2. 1 Web 1 1 http://www.sanspo.com/ 3519 RSV NTCIR3 NTCIR4 NW100G-01 [3] NW100G-01 1000 RSV (8) R 3519 3519 N NW100G-01 (10253810 ) 10253810+ 3519 4. 2. 2 1 400 2 8000 3 4. 2. 3 Web 3 D 1 D 2 D 3 3 t DF DF(t; D 1),DF(t; D 2),DF(t; D 3) DF(t) D 1 D 2 D 3 t DF C DF(t; D k) D k C DF(t; D1) DF(t; D2) DF(t; D3) DF(t; D2) C C Prec(C) DF(t; D(C)) Prec(C) = DF(t) D(C) C C macroaveraged precision microaveraged precision [1] macroaveraged precision

microaveraged precision microaveraged precision macroaveraged precision microaveraged precision Tangibility macroaveraged precision microaveraged precision C Prec(C) DF(t; D(C)) C C Prec(C) = DF(t) C C DF DF 1 3 C 1,C 2,C 3 C 1 ( 1) DF(t; D(C 1)) = 1303 + 1312 + 1222 = 3837 1 DF(t) = 3911 1 C 2 ( 2) 2 DF(t; D(C 2)) = 850 + 1017 = 1867 2 DF(t) = 2022 C 3 ( 3) 3 DF(t; D(C 3)) = 581 + 381 + 283 + 526 = 1771 3 DF(t) = 2401 3837 + 1867 + 1771 Prec(C) = 3911 + 2022 + 2401 = 7475 =0.8969... 8334 1 C 1 D 1 DF D 2 DF D 3 DF 1303 1 0 1304 1312 59 3 1374 1222 7 4 1233 3837 67 7 3911 2 C 2 D 1 DF D 2 DF D 3 DF 138 0 850 988 17 0 1017 1034 155 0 1867 2022 3 C 2 D 1 DF D 2 DF D 3 DF 98 581 295 974 66 381 0 447 68 283 0 306 102 526 1 629 335 1771 295 2401 4. 3 4. 3. 1 1 microaveraged precison Prec(C) τ 1 ( ) 1 1 TNG3 DFS MI RSV DFL. TNG3 0.001. 0.001. 0.001

. 0.005 TNG3 TNG3 1 DFS DFS DFS DFS TNG3 TNG3 Tangibility DF TNG3 5 6 4. 3. 2 2,3,4 Prec(C) TNG3 MI RSV 0.05 0.005 0.001 3 0.05 TNG3 MI RSV TNG3 1 30 MI RSV 1 40 TNG3 0.8 MI RSV 0.4 1 MI RSV 0.005 0.001 TNG3 TNG3 MI RSV 1 150 TNG3 1 MI RSV 1 DF 1 MI RSV DF TNG3 TNG3 DF MI RSV 400 400 400(400 1)/2 8000 MI RSV TNG3 4. 3. 3 DF 1 TNG3 DFS TNG3 TNG3 DF 4 DF 3519 3 3 1 TNG3 DF 1000 DF 100 MI RSV 0 TNG3 164 DF TNG3 DFS TNG3 400 DF 20 DFS TNG3 DF 5. Tangibility Tangibility TNG3 TNG3 Tangibility MI RSV DFS DFL TNG3 DF TNG3

1 Microaveraged Precision. 4 RSV Microaveraged Precision 0.05 0.005 0.001 3 4 TNG3 MI RSV DFS 400 DF DF TNG3 MI RSV DFS 1500 7 72 91 0 1000 1500 17 34 27 0 500 1000 64 159 110 0 250 500 87 135 144 0 100 250 61 0 28 0 20 100 60 0 0 0 10 20 94 0 0 400 10 10 0 0 0 2 TNG3 Microaveraged Precision 0.05 0.005 0.001 3 3 MI Microaveraged Precision 0.05 0.005 0.001 3 Tangibility [10] [11] 2 [1] Soumen Chakrabarti. Mining the Web: Discovering Knowledge from Hypertext Data. Morgan-Kauffman, 2002. [2] C. Ding and X. He. Cluster merging and splitting in hierarchical clustering algorithms. In IEEE International Conference on Data Mining (ICDM 02), pp. 139 146, 2002. [3] Oyama K. Ishida E. Kando N. Eguchi, K. and K. Kuriyama. Overview of the web retrieval task at the third ntcir workshop, 2003. [4] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: a review. ACM Computing Surveys, Vol. 31, No. 3, pp. 264 323, 1999. [5] Toyoda Masashi, Kitsuregawa Masaru, Mano Hiroko, Itoh Hideo, and Ogawa Yasushi. University of tokyo/ricoh at ntcir-3 web retrieval task. In Proc. of the 3rd NTCIR Workshop Meeting, pp. 31 38, 2002. [6] Y. Ohsawa, E.B. Nels,, and M. Yachida. Keygraph: Automatic indexing by co-occurrence graph based on building construction metaphor. In Proc. of IEEE ADL 98, 1998. [7] A. Takano, Y. Niwa, S. Nishioka, M. Iwayama, T. Hisamitsu, O. Imaichi, and H. Sakurai. Associative information access using dualnavi. In Proc. of ICDL 00, pp. 2 [10] [11] Articulateness Tangibility AR1 AR2 TNG3

5 TNG3 0.05 5 D(C) 27 0.898626 24 0.589595 23 0.827410 22 0.933853 21 0.950072 6 TNG3 0.005 5 D(C) 101 0.776698 74 0.890372 37 0.828181 21 0.954717 18 0.906100 285 289. [8] Hisamitsu Toru, Niwa Yoshiki, Nishioka Shingo, Sakurai Hirofumi, Imaichi Osamu, Iwayama Makoto, and Takano Akihiko. Extracting terms by a combination of term frequency and a measure of term representativeness. International journal of theoretical and applied aissues in specialized communication, Vol. 6, No. 2, pp. 211 232, 2000. [9] Yang Yiming and O. Pedersen Jan. A comparative study on feature selection in text categorization. In Proc. of ICML- 97, pp. 412 420, 1997. [10],,,.. DBSJ Letters, Vol. 4, No. 2, pp. 41 44, 2005. [11],,,.., 137, pp. 269 276, 2005. [12],.., Vol. 17, pp. 213 227, 2002. [13].., Vol. 41, pp. 3332 3343, 2000. [14], E.,. Keygraph:., Vol. J82-D-I, pp. 391 400, 2 1999.