TEXT MINING 4 11/17/2015. Objavovanie znalostí v textoch. Úlohy dolovania z textov. Extrahovanie tém (1) Extrahovanie tém (2)

Σχετικά έγγραφα
Matematika Funkcia viac premenných, Parciálne derivácie

Ekvačná a kvantifikačná logika

Start. Vstup r. O = 2*π*r S = π*r*r. Vystup O, S. Stop. Start. Vstup P, C V = P*C*1,19. Vystup V. Stop

Metódy vol nej optimalizácie

Obvod a obsah štvoruholníka

Prechod z 2D do 3D. Martin Florek 3. marca 2009

Gramatická indukcia a jej využitie

Matematika 2. časť: Analytická geometria

Motivácia Denícia determinantu Výpo et determinantov Determinant sú inu matíc Vyuºitie determinantov. Determinanty. 14. decembra 2010.

7. FUNKCIE POJEM FUNKCIE

1. Limita, spojitost a diferenciálny počet funkcie jednej premennej

Matematika prednáška 4 Postupnosti a rady 4.5 Funkcionálne rady - mocninové rady - Taylorov rad, MacLaurinov rad

Jednotkový koreň (unit root), diferencovanie časového radu, unit root testy

Cvičenie č. 4,5 Limita funkcie

Jednotkový koreň (unit root), diferencovanie časového radu, unit root testy

M6: Model Hydraulický systém dvoch zásobníkov kvapaliny s interakciou

Chí kvadrát test dobrej zhody. Metódy riešenia úloh z pravdepodobnosti a štatistiky

Goniometrické rovnice a nerovnice. Základné goniometrické rovnice

KATEDRA DOPRAVNEJ A MANIPULAČNEJ TECHNIKY Strojnícka fakulta, Žilinská Univerzita

ARMA modely čast 2: moving average modely (MA)

Tomáš Madaras Prvočísla

Lineárna algebra I - pole skalárov, lineárny priestor, lineárna závislosť, dimenzia, podpriestor, suma podpriestorov, izomorfizmus

HASLIM112V, HASLIM123V, HASLIM136V HASLIM112Z, HASLIM123Z, HASLIM136Z HASLIM112S, HASLIM123S, HASLIM136S

PRIEMER DROTU d = 0,4-6,3 mm

3. Striedavé prúdy. Sínusoida

REZISTORY. Rezistory (súčiastky) sú pasívne prvky. Používajú sa vo všetkých elektrických

Moderné vzdelávanie pre vedomostnú spoločnosť Projekt je spolufinancovaný zo zdrojov EÚ M A T E M A T I K A

Vektorový priestor V : Množina prvkov (vektory), na ktorej je definované ich sčítanie a ich

1. písomná práca z matematiky Skupina A

Priamkové plochy. Ak každým bodom plochy Φ prechádza aspoň jedna priamka, ktorá (celá) na nej leží potom plocha Φ je priamková. Santiago Calatrava

ARMA modely čast 2: moving average modely (MA)

Kontrolné otázky na kvíz z jednotiek fyzikálnych veličín. Upozornenie: Umiestnenie správnej a nesprávnych odpovedí sa môže v teste meniť.

Spojité rozdelenia pravdepodobnosti. Pomôcka k predmetu PaŠ. RNDr. Aleš Kozubík, PhD. 26. marca Domovská stránka. Titulná strana.

Návrh vzduchotesnosti pre detaily napojení

Modelovanie dynamickej podmienenej korelácie kurzov V4

Pravdivostná hodnota negácie výroku A je opačná ako pravdivostná hodnota výroku A.

Rozsah hodnotenia a spôsob výpočtu energetickej účinnosti rozvodu tepla

Kódovanie a dekódovanie

Metodicko pedagogické centrum. Národný projekt VZDELÁVANÍM PEDAGOGICKÝCH ZAMESTNANCOV K INKLÚZII MARGINALIZOVANÝCH RÓMSKYCH KOMUNÍT

,Zohrievanie vody indukčným varičom bez pokrievky,

6 Limita funkcie. 6.1 Myšlienka limity, interval bez bodu

Rozsah akreditácie 1/5. Príloha zo dňa k osvedčeniu o akreditácii č. K-003

Hľadanie, skúmanie a hodnotenie súvislosti medzi znakmi

Reálna funkcia reálnej premennej

Definícia parciálna derivácia funkcie podľa premennej x. Definícia parciálna derivácia funkcie podľa premennej y. Ak existuje limita.

23. Zhodné zobrazenia

Obsah. Motivácia a definícia. Metódy výpočtu. Problémy a kritika. Spätné testovanie. Prípadová štúdia využitie v NBS. pre 1 aktívum pre portfólio

Úvod do lineárnej algebry. Monika Molnárová Prednášky

Odporníky. 1. Príklad1. TESLA TR

Život vedca krajší od vysnívaného... s prírodou na hladine α R-P-R

x x x2 n

Pevné ložiská. Voľné ložiská

Datamining, princípy a metódy (Bakalárska práca)

Harmonizované technické špecifikácie Trieda GP - CS lv EN Pevnosť v tlaku 6 N/mm² EN Prídržnosť

Funkcie - základné pojmy

Teória pravdepodobnosti

Podnikateľ 90 Mobilný telefón Cena 95 % 50 % 25 %

2 Chyby a neistoty merania, zápis výsledku merania

Prediktívne dolovanie v dátach 1.

Reprezentácia informácií v počítači

VLASTNÉ ČÍSLA A JORDANOV KANONICKÝ TVAR. Michal Zajac. 3 T b 1 = T b 2 = = = 2b

Komplexné čísla, Diskrétna Fourierova transformácia 1

Numerické metódy matematiky I

Výroky, hypotézy, axiómy, definície a matematické vety

KATALÓG KRUHOVÉ POTRUBIE

MOSTÍKOVÁ METÓDA 1.ÚLOHA: 2.OPIS MERANÉHO PREDMETU: 3.TEORETICKÝ ROZBOR: 4.SCHÉMA ZAPOJENIA:

2. prednáška. Teória množín I. množina operácie nad množinami množinová algebra mohutnosť a enumerácia karteziánsky súčin

AerobTec Altis Micro

SLOVENSKO maloobchodný cenník (bez DPH)

MIDTERM (A) riešenia a bodovanie

Analýza hlavných komponentov

6 APLIKÁCIE FUNKCIE DVOCH PREMENNÝCH

CHÉMIA Ing. Iveta Bruončová

Meranie na jednofázovom transformátore

BANACHOVE A HILBERTOVE PRIESTORY

TC Obsahový štandard Výkonový štandard

MPV PO 16/2013 Stanovenie kovov v rastlinnom materiáli ZÁVEREČNÁ SPRÁVA

DOMÁCE ZADANIE 1 - PRÍKLAD č. 2

UČEBNÉ TEXTY. Pracovný zošit č.2. Moderné vzdelávanie pre vedomostnú spoločnosť Elektrotechnické merania. Ing. Alžbeta Kršňáková

Termodynamika. Doplnkové materiály k prednáškam z Fyziky I pre SjF Dušan PUDIŠ (2008)

24. Základné spôsoby zobrazovania priestoru do roviny

1.4 Rovnice, nerovnice a ich sústavy

Základy metodológie vedy I. 9. prednáška

Integrovanie racionálnych funkcií

Kompilátory. Cvičenie 6: LLVM. Peter Kostolányi. 21. novembra 2017

Deliteľnosť a znaky deliteľnosti

4. Výrokové funkcie (formy), ich definičný obor a obor pravdivosti

Certifikovaná energetická účinnosť.

Kontrolné otázky z jednotiek fyzikálnych veličín

FUNKCIE N REÁLNYCH PREMENNÝCH

C. Kontaktný fasádny zatepľovací systém

Εξόρυξη Γνώμης: Δημιουργία Ελληνικού Λεξικού Πόρου

RIEŠENIE WHEATSONOVHO MOSTÍKA

Ing. Andrej Trnka, PhD. Základné štatistické metódy marketingového výskumu

Riešenie cvičení z 5. kapitoly

ZADANIE 1_ ÚLOHA 3_Všeobecná rovinná silová sústava ZADANIE 1 _ ÚLOHA 3

Základy matematickej štatistiky

Planárne a rovinné grafy

3. Výroková logika. Princíp dvojhodnotovosti (bivalencie): Existujú práve dve pravdivostné hodnoty pravda a nepravda.

9. kapitola. Viachodnotové logiky trojhodnotová Łukasiewiczova logika a Zadehova fuzzy logika. priesvitka

Transcript:

Úlohy dolovania z textov TEXT MINING Objavovanie znalostí v textoch Klasifikácia Zaradenie dokumentu do preddefinovaných kategórií Zhlukovanie Nájdenie a popis zhlukov podobných dokumentov Extrahovanie tém Vyextrahovanie hlavných tém v dokumentoch Analýza sentimentu Určenie polarity textu Extrahovanie informácií Extrahovanie entít, udalostí, vzťahov a faktov Extrahovanie tém (1) Extrahovanie tém () Úlohou je 1) nájsť témy zastúpené v množine dokumentov a ) popísať témy tak aby ich bolo možné interpretovať Najčastejšie sa používajú nekontrolované metódy Vhodná je vektorová + slovné spojenia Predpoklady: Obsah jedného dokumentu môže byť zložený z viacerých tém Témy je možné reprezentovať možinou charakteristických slov alebo fráz Jedno slovo môže vyjadrovať rôzne témy (v každej sa však vyskytuje v kontexte iných slov) Vyhodnotenie Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové (za predpokladu rovnakého zastúpenia tém) Ale podobne ako pri zhlukovaní, dôležitá je interpretácia exom a vizualizácia výsledkov Extrahovanie tém a LSI (1) Extrahovanie tém a LSI () Term-dokument matica bola rozložená na súčin matíc T S D T Komponenty LSI sme prirovnali k témam, pričom platilo, že: Počet tém bol daný počtom komponentov LSI k Každej téme zodpovedal stĺpcový vektor v matici T, ktorého hodnoty T i,t určovali, do akej miery term i vyjadruje tému t Každej téme zodpovedal stĺpcový vektor v matici D, ktorého hodnoty D j,t určovali, do akej miery dokument j obsahuje tému t Témy boli vážené pre celú množinu dokumentov singulárnymi hodnotami s t z diagonálej matice S Váha termu v dokumente sa rozložila podľa: A i,j = T i,1 s 1 D j,1 + T i, s D j, +... + T i,k s k D j,k Hlavným problémom LSI pre extrahovanie tém je to, že hodnoty T i,t a D j,t nie sú ohraničené a môžu nadobúdať zápornú hodnotu, čo znemožňuje jednoduchú interpretáciu príslušnosti medzi termami a témami, resp. témami a dokumentami Pre jednoduchú interpretáciu by mali byť hodnoty T i,t a D j,t kladné a ohraničené 6 1

téma téma 1 téma téma téma téma téma 6 téma téma 8 téma 9 téma 1 11/1/1 LSI príklad (1) LSI príklad () A = T S D T téma. 1 téma. téma. téma. téma. téma. 6 téma. téma. 8 téma. 9 téma. 1 A A -1 A -9,-1 8,,, - - -, -, -, Priestor LSI 1,,, téma 1 9 1 6 8 LSI príklad (),6,,, 1 1 6 8 9,,,,6 Priestor tf-idf,6,,, 6 8 1 19,,,,6 Pri LSI sú dokumenty o e znalostí a e ov výrazne oddelené. Pri tf-idf pre dopyt + je ako najpodobnejší chybne zaradený dokument 1, a naopak, pre + by nemusel byť zaradený dokument 9 Pravdepodobnostný model tém Pravdepodobnostný model tém pre danú množinu n dokumentov a počet tém k priradí: Pre každú tému t rozdelenie pravdepodobnosti β t = (β t,1, β t,,..., β t,m ), β t,i (, 1), β t,1 + β t, +... + β t,m = 1, kde pravdepodobnosť β t,i určuje, do akej miery term i vyjadruje tému t Pre každý dokument j rozdelenie pravdepodobnosti θ j = (θ j,1, θ j,,..., θ n,j ), θ j,t (, 1), θ j,1 + θ j, +... + θ j,n = 1, kde pravdepodbnosť θ t,j určuje, do akej miery dokument j obsahuje tému t 9 1 Latentná Dirichletová Alokácia LDA (1) Latentná Dirichletová Alokácia LDA () Nie každé rozdelenie je vhodné na reprezentovanie príslušnosti termov ku témam Napr. ak máme celkovo 1 slov, pri uniformnom rozdelení β t = (.1,.1,.1,...,.1) každé slovo vyjadruje tému t s rovnakou pravdepodobnosťou, t.j. o žiadnom slove nemôžeme povedať, že charakterizuje danú tému t Vhodné je rozdelenie, kde sa len niektorým termom priradí vysoká pravdepodobnosť, a ostatným sa priradí veľmi malá Napr. podľa rozdelenia β t = (.,.1,.,.1,...,.1) vieme rozlíšiť, že slová 1 a sú charakteristické pre tému t (obe vyjadrujú tému s rovnakou pravdepodobnosťou.), všetky ostatné slová sa takmer nevyskytujú Podobne je to pri dokumentoch, chceme aby bol dokument zložený len z menšieho počtu tém: Napr. pre témy podľa rozdelenia θ j = (.6,.,.,.) je obsah dokumentu j tvorený hlavne témou 1 (6%) a (%) Vhodné rozdelenie je Dirichletove rozdelenie pravdepodobnosti, ktoré sústredí väčšiu časť pravdepodobnosti na malý počet hodnôt (termov, tém, atď.) Rozdelenie má parameter < α - čím menšia hodnota, tým je pravdepodobnosť sústredená na menší počet hodnôt (pre α = 1 dostaneme uniformné rozdelenie) 11 1

Latentná Dirichletova Alokácia LDA () LDA príklad Metóda LDA je pravdepodobnostná metóda založená na predpoklade, že pravdepodobnosti termov pre každú tému a pravdepodobnosti tém pre každý dokument majú Dirichletové rozdelenie Vstupné parametre: k - počet extrahovaných tém α t - parameter Dirichletovho rozdelenia pre priradenie termov, určuje počet charakteristických termov pre jednu tému α d - parameter Dirichletovho rozdelenia pre priradenie tém, určuje predpokladaný počet rôznych tém v jednom dokumente Vstupné : term-dokument matica s frekvenciami termov (nnn váhovanie) β 1 - Téma 1 β - Téma Téma 1 Téma θ 1 = (1,1E-, 9,99E-1) θ = (9,9E-, 9,99E-1) θ = (8,1E-, 9,99E-1) θ = (1,19E-, 9,99E-1) θ = (1,8E-, 9,99E-1) θ 6 = (9,99E-1, 1,1E-) θ = (9,99E-1, 1,E-) θ 8 = (9,99E-1, 1,9E-) θ 9 = (9,9E-1,,E-) θ 1 = (9,99E-1, 1,8E-),, 1 1 LSI a LDA - zhrnutie a porovnanie Analýza tém v dátových prúdoch Latentné Sémantické Indexovanie - LSI Vhodné na redukciu príznakového priestoru a zlepšenie vyhľadávania informácií Projekcia dát pre D/D vizualizáciu Latentná Direchletova Alokácia - LDA Určená pre pravdepodobnostné modelovanie tém Obidve metódy nezohľadňujú poradie slov v dokumente. Textové sú publikované postupne v čase napr. novinové články, správy na sociálnom webe, atď. Cieľom je analyzovať, ako sa témy menili v čase Detegovať vznik novej témy, alebo ďalší výskyt predošlej témy Analyzovať trendy (stúpajúca/klesajúca populárnosť témy) Najjednoduchší spôsob je analyzovať celú množinu za dané obdobie a zobraziť histogram dokumentov zaradených do jednotlivých tém Rozšírené metódy okrem priradenia tém termom a dokumentom modelujú aj výskyt témy v čase rozdelenie pravdepodobnosti pre časovú os 1 16 Interpretovanie tém Vizualizácia tém (1) Podľa pravdepodobnostného modelu: Vieme zistiť, ktoré slová sú charakteristické pre danú tému (majú väčšiu pravdepodobnosť β t,i ) Podľa θ j,t vieme rozhodnúť, ktorý dokument obsahuje danú tému Podobne ako pri zhlukovaní, okrem slov môžeme vyextrahovať vety, ktoré obsahujú čo najviac slov charakteristických pre danú tému Dôležitá je vizualizácia a interaktívne prehliadanie http://vis.stanford.edu/papers/termite 1 18

Vizualizácia tém () Analýza sentimentu (1) Základným om je priradiť textom subjektívnu polaritu t.j. rozhodnúť, či je text pozitívny, alebo negatívny Rozšírená rozlišuje viacero stupňov polarity (napr. počet hviezdičiek pri hodnotení filmov a pod.) Využitie hlavne v marketingu, starostlivosti o zákazníka, pri prieskumoch verejnej mienky Vhodná je vektorová + slovné spojenia, alebo kratšie postupnosti slov Vyhodnotenie na testovacej množine Chyba klasifikácie a kontingenčná tabuľka Subjektívne vnímanie môže spôsobiť nízku zhodu aj medzi ľuďmi (okolo 9%) http://www.memetracker.org/ 19 Analýza sentimentu () Analýza sentimentu () Pozitívne/negatívne slová Slová všeobecne vyjadrujúce pozitívny, alebo negatívny sentiment - dobrý/zlý Stupňovanie polarity Kontext, ktorý modifikuje stupeň, ale nemení sa polarita - celkom dobrý, úplne zlý, nie až taký zlý Negácia Kontext, ktorý mení polaritu výrazu Jednoduchá priama negácia - nie je dobrý Rozšírené frázy - nemyslím si, že je dobrý, mal byť dobrý (môže vyjadrovať nenaplnené očakávanie) Sarkazmus, irónia, implikácie a prenesený význam Doménová závislosť Niektoré slová, alebo tvrdenia v jednej doméne indikujú pozitívnu polaritu a v inej negatívnu: nepredvídateľný scenár - nepredvídateľné ovládanie, smiešna komédia - smiešna dráma, prečítajte si knihu Kultúrna závislosť Slangové výrazy Rozličný spôsob vyjadrovania a vnímania - napr. Britská vs. Americká angličtina: that s not bad, I almost agree,... 1 Analýza sentimentu - dôležitosť kontextu Metódy analýzy sentimentu (1) Vážení predajcovia <oddelenie predaja> Včera som navštívil <konkurenčnú predajňu>. Majú skvelý výber, najlepšie ceny, a nápomocný personál. Vaša firma je nanič. S pozdravom... Slovníkové metódy Slovník pozitívnych/negatívnych slov + pravidlá pre stupňovanie a negáciu SentiWordNet Slovník založený na WordNete, každému synsetu je priradená hodnota polarity a objektivity MPQA subjectivity lexicon Slovník slov používaných pri subjektívnych vyjadreniach s priradenou polaritou Správne klasifikovanie sentimentu vyžaduje vo všeobecnosti rozšírený kontext a zachovanie syntaktických väzieb

Metódy analýzy sentimentu () Metódy analýzy sentimentu () Nízka zhoda pri manuálne vytváraných slovníkoch Automatické metódy pre rozšírenie slovníka Založené na spoluvýskyte slov - vzájomná kde P(w) = počet výskytov slova w / celkový počet výskytov slov a P(w 1, w ) = počet spolu výskytov w 1 a w / celkový počet výskytov dvojíc slov Kontrolované metódy učenia Segmentovanie na vety, alebo krátke slovné spojenia, ktoré obsahujú subjektívny obsah môže zlepšiť Lineárne klasifikátory (hlavne SVM) Využitie aktívneho a semikontrolovaného učenia Kombinované metódy Počiatočná klasifikácia slovníkovou metódou (tzv. bootstrap) + rozšírenie naučeným modelom Založené na selekcii termov na klasifikovanej množine textov - informačný zisk, χ štatistika 6 Využitie semikontrolovaného a aktívneho učenia Rozšírené úlohy analýzy sentimentu text Rozdelenie na trénovacie a testovacie U Klasifikácia slovníkovou metódou X Manuálna klasifikácia X n Učenie klasifikátora T f Aktívny výber trénovacích dát Vyhodnotenie Aspektová analýza sentimentu Z textu sa vyextrahujú hodnotené entity a ich aspekty/vlastnosti (napr. produkt a jeho vlastnosti - veľkosť displeja, kapacita batérie a pod.) Hodnotí sa sentiment pre každý aspekt/vlastnosť samostatne Vyžaduje extrahovanie entít a rozlíšenie, ku ktorým aspektom sa vyjadrenie sentimentu vzťahuje (v jednej vete môže byť napr. pozitívne aj negatívne hodnotenie rôznych aspektov) Analýza sentimentu tém Vyžaduje extrahovanie tém, resp. klasifikáciu do preddefinovaných tém výsledný klasifikátor 8 Klasifikácia emócií SenticNet model Cieľom je rozpoznať emócie vyjadrené v texte Klasifikačná, ktorá zaradí text do preddefinovaných kategórií podľa rozdelenia emócií Základné rozdelenie podľa Ekmana: hnev, znechutenie, strach, šťastie/veselosť, smútok a prekvapenie Existuje aj viacero vektorových modelov - odhadujú sa spojité premenné v rôznych dimenziách, ktoré vyjadrujú napr. polaritu, intenzitu, pasívnosť/aktívnosť Je založený na tzv. modeli presýpacích hodín ohodnotených pojmov dimenzie (sensitivity, aptitude, attention, pleasantness) ktorých kombinácia definuje 16 základných emócií http://sentic.net/ 9