Autìmath Exagwg Peril yewn kai h Axiolìghs touc Ge rgioc Giannakìpouloc 1 ggianna@iit.demokritos.gr 1 Tm ma Mhqanik n Plhroforiak n kai Epikoinwniak n Susthmˆtwn Panepist mio AigaÐou se sunergasða me to InstitoÔto Thlepikoinwni n kai Plhroforik c Ergast rio TeqnologÐac Gn sewn kai LogismikoÔ E.K.E.F.E. Dhmìkritoc Epìpthc: Kaj. BoÔroc G. 23 Maòou 2008
Dom thc ParousÐashc Eisagwg AntikeÐmeno - EpiteÔgmata MellontikoÐ Stìqoi Parˆrthma
Stìqoi kai Paradotèa Stìqoi Ekpìnhshc Didaktorik c Diatrib c 'Ereuna kai UlopoÐhsh Mejìdou Axiolìghshc Peril yewn - AutoSummENG (ACM TSLP - DUC 2008) Prìtash TupopoÐhshc kai Mètrhshc twn Poiot twn PerÐlhyhc - Symbol Sequence Statistical Normality (CoLing 2008) Perigraf kai UlopoÐhsh Sust matoc Exagwg c Peril yewn - Engrab (DUC 2008)
Axiolìghsh Peril yewn AutoSummENG - Eggen c Axiolìghsh Autìmath Axiolìghsh Susthmˆtwn Exagwg c Peril yewn me Qr sh Grˆfou N-Grammˆtwn Epidìseic exðsou kalèc me ( kai kalôterec apì) ta kalôtera sust mata tou tomèa (ROUGE, ROUGE-BE, Pyramid). KalÔtero apì ta ROUGE-2, ROUGE-SU4 kai me statistik upost rixh. Elègqjhke sta dedomèna tri n (3) et n tou DUC (2005, 2006, 2007).
Axiolìghsh Peril yewn AutoSummENG - Epidìseic AxiologoÔmenoi Rouge-2 Rouge-SU4 BE-HM AutoSummENG Autìmata Sust mata 0.84 (0.00) 0.85 (0.00) 0.78 (0.00) 0.91 (0.00) 'Anjrwpoi 0.64 (0.05) 0.69 (0.03) 0.57 (0.09) 0.68 (0.03) 'Oloi 0.90 (0.00) 0.88 (0.00) 0.88 (0.00) 0.97 (0.00) Πίνακας: Pearson Συσχέτιση των Μετρικών Αξιολόγησης προς την Αποκρισιμότητα Περιεχομένου του DUC 2006. Στις παρενθέσεις η τιμή p του αντίστοιχου στατιστικού ελέγχου.
Anaparˆstash Grˆfoc n-grammˆtwn Parˆjura Grˆfoc n-grammˆtwn lèxewn qarakt rwn. Exagwg bˆsei parajôrou. Σχήμα: Τύποι παραθύρων ν-γραμμάτων (από πάνω προς τα κάτω): μη-συμμετρικό, συμμετρικό και gauss-κανονικοποιημένο συμμετρικό.
Anaparˆstash Grˆfoc n-grammˆtwn Mèjodoi Σχήμα: Γράφοι εξηγμένοι από τη συμβολοσειρά 123456 (από αριστερά προς τα δεξιά): μη-συμμετρικό, συμμετρικό και gauss-κανονικοποιημένο. Ν-γράμματα τάξης 3.
Anaparˆstash Grˆfoc n-grammˆtwn Omoiìthta KeÐmena: T 1 kai T 2. Kˆje keðmeno anaparðstatai wc sônolo grˆfwn, G i, me diˆforec tˆxeic n-grammˆtwn. 'Eqoume G i, G j dôo diaforetikoôc grˆfouc Ðdiac tˆxhc n, kai orðzoume: Omoiìthta SunÔparxhc Omoiìthta Tim c (Omoiìthta Bar n Akm n)
Anaparˆstash Grˆfoc n-grammˆtwn Efarmogèc Omoiìthta Keimènwn KathgoriopoÐhsh Keimènwn (p.q. Ufologik, Jematik ) OmadopoÐhsh Keimènwn Exagwg Perieqomènou - Grammatik c Axiolìghsh Peril yewn
Mètrhsh Poiot twn Keimènou Anagn rish anjrwpìmorfou keimènou me qr sh thc Statistik c Kanonikìthtac AkoloujÐac Sumbìlwn Σχήμα: 8-γράμματα χαρακηρων και η κατανομή SSN για τα κείμενα του DUC 2006. Τα 50 κείμενα με χαμηλή γραμματικότητα είναι τυχαία παρηγμένα κείμενα
Exagwg Peril yewn Engrab - To sôsthma Evolutionary N-gram Graph Based Summarization System SÔsthma Exeliktik c Exagwg c PerÐlhyhc Basismèno se Grˆfouc N-grammˆtwn OmadopoÐhsh kai deiktodìthsh eggrˆfwn bˆsei: Περιεχομένου Ημερομηνίας Anaz thsh sqetik n eggrˆfwn bˆsei erwt matoc /kai hmeromhni n Anˆdeixh shmantik n protˆsewn - periìdwn Di jhsh bˆsei epanˆlhyhc kai qronik c epikˆluyhc SÔnjesh telik c perðlhyhc
Exagwg Peril yewn OmadopoÐhsh kai Deiktodìthsh Eggrˆfwn bˆsei Perieqomènou Exagwg kai afaðresh grˆfou grammatik c Efarmog diairetik n mejìdwn omadopoðhshc Metrik apìstashc orismènh me bˆsh thn apìstash grˆfwn Mèso èggrafo anˆ omˆda H anaz thsh efarmìzetai me qr sh thc omadopoðhshc wc eurethrðou.
Exagwg Peril yewn Anˆdeixh Shmantik n Tmhmˆtwn Keimènou Diaqwrismìc tmhmˆtwn (chunks) Omoiìthta tmhmˆtwn me to er thma, bˆsei sôgkrishc grˆfwn
Exagwg Peril yewn Di jhsh - SÔnjesh Telik c PerÐlhyhc Di jhsh bˆsei eurethrðwn. Anˆjesh poin c gia allhlokalôyeic. DhmiourgÐa eggrˆfou pareljoôshc plhroforðac. Anˆjesh poin c se ne tera keðmena gia allhlokˆluyh me autì to èggrafo. SÔnjesh telik c perðlhyhc me taxinìmhsh bˆsei shmasðac.
En exelðxei Olokl rwsh Sust matoc Exagwg c Peril yewn Exagwg nohmˆtwn (Ennoiologikì Euret rio) SunergasÐa me phgèc shmasiologik c plhroforðac (ontologðec, WordNet)
Idèec Epektˆseic Sust matoc Exagwg c Peril yewn SunergasÐa me Mhqan Paragwg c Gl ssac ExaploÔmenh EnergopoÐhsh gia SunafeÐc 'Ennoiec
Idèec Euqarist Erwt seic?
'Allec plhroforðec AutoSummENG - Epidìseic Analutikˆ 'Etoc - AxiologoÔmenoi Spearman Pearson Kendall 2005 - Autìmata Sust mata 0.840 (0.0) 0.885 (0.0) 0.669 (0.0) 2005 - 'Anjrwpoi 0.936 (0.0) 0.878 (0.00) 0.854 (0.00) 2005 - 'Oloi 0.929 (0.00) 0.977 (0.00) 0.803 (0.0) 2006 - Autìmata Sust mata 0.871 (0.0) 0.891 (0.0) 0.709 (0.0) 2006 - 'Anjrwpoi 0.759 (0.01) 0.715 (0.02) 0.566 (0.03) 2006 - 'Oloi 0.937 (0.00) 0.967 (0.00) 0.806 (0.0) 2007 - Autìmata Sust mata 0.842 (0.0) 0.871 (0.0) 0.687 (0.0) 2007 - 'Anjrwpoi 0.659 (0.04) 0.673 (0.03) 0.442 (0.08) 2007 - 'Oloi 0.925 (0.00) 0.966 (0.00) 0.792 (0.0) Πίνακας: Συσχέτιση του AutoSummENG με τη μετρική Αποκρισιμότητας του DUC 2005 και τη μετρική Αποκρισιμότητας Περιεχομένου των DUC 2006, 2007. Στις παρενθέσεις η τιμή p του αντίστοιχου στατιστικού ελέγχου.
'Allec plhroforðec Statistical Symbol Sequence Representation S= A big big test anaparðstatai wc stigmiìtupo tou SSS-R(2,2,word): big,big test (1 1.0) a,big test(2 1.0) a,big big(1 1.0)
1,49 1,49 0,65 0,01 0,65 0,01 1,02 0,32 0,32 0,32 Thi 0,32 s_i 0,32 0,32 0,01 his 0,32 _is 1,49 0,04 0,32 0,01 0,04 1,49 1,02 0,04 1,02 0,01 0,01 s_a 1,02 0,04 is_ 0,65 _a_ 0,65 0,65 0,32 0,04 0,04 0,04 0,04 0,01 a_t 0,01 est 0,32 0,32 0,32 0,01 0,01 0,32 tes 0,34 _te 0,32 0,34 0,04 0,04 'Allec plhroforðec Parˆdeigma grˆfou Grˆfoc n-grammˆtwn qarakt rwn me summetrikì Gauss-kanonikopoihmèno parˆjuro S= This is a test anaparðstatai wc: Σχήμα: Παράθυρο:2, Τάξη Ν-γραμμάτων:3