review1= a great movie - positive, review2= excellent film - positive review3= worst film ever - negative, review4= a bad movie - negative

Σχετικά έγγραφα
ΗΛΕΚΣΡΟΝΙΚΗ ΤΠΗΡΕΙΑ ΑΠΟΚΣΗΗ ΑΚΑΔΗΜΑΪΚΗ ΣΑΤΣΟΣΗΣΑ

Εγχειρίδιο Χρήςησ Support

Διαδικασία Δημιοσργίας Ειδικών Λογαριασμών. (v.1.0.7)

Seventron Limited. Οδηγίες χρήσης EnglishOnlineTests.com

3 ΕΝΤΟΛΕΣ ΕΠΑΝΑΛΗΨΗΣ ( while, do while )

ΕΝΟΤΗΤΑ 2: ΤΟ ΛΟΓΙΣΜΙΚΟ ΤΟΥ ΥΠΟΛΟΓΙΣΤΗ. ΚΕΦΑΛΑΙΟ 5: Γνωριμία με το λογιςμικό του υπολογιςτι

Αυτόματη δημιουργία στηλών Αντιστοίχηση νέων λογαριασμών ΦΠΑ

Πωσ δθμιουργώ φακζλουσ;

Διαδικαςία Διαχείριςθσ Στθλϊν Βιβλίου Εςόδων - Εξόδων. (v.1.0.7)

Ειδικά Θζματα Βάςεων Δεδομζνων

ΛΕΙΤΟΥΓΙΚΆ ΣΥΣΤΉΜΑΤΑ. 5 ο Εργαςτιριο Ειςαγωγι ςτθ Γραμμι Εντολϊν

ΕΠΑΝΕΚΔΟΗ ΣΙΜΟΛΟΓΙΩΝ ΙΑΝΟΤΑΡΙΟΤ (version )

Οδηγίες Πρόζβαζης ζηο EndNote Web. Πρόζβαζη ζηο EndNote Web

Διδάςκων: Κωνςταντίνοσ τεφανίδθσ

Άςκθςθ 1θ: Να γραφεί αλγόρικμοσ που κα δθμιουργεί με τθ βοικεια διπλοφ επαναλθπτικοφ βρόχου, τον ακόλουκο διςδιάςτατο πίνακα:

Διαδικαζία Διατείριζης Εκηύπωζης Ιζοζσγίοσ Γενικού - Αναλσηικών Καθολικών. (v )

ΟΝΟΜΑΣΟΛΟΓΙΑ ΠΑΡΑΜΕΣΡΩΝ ΓΙΑ ΠΡΟΑΡΜΟΜΕΝΕ ΑΝΑΦΟΡΕ. παραμζτρου> (Εμφανίηεται ςαν Caption ςτθν φόρμα των φίλτρων).

ΕΦΑΡΜΟΓΕ ΒΑΕΩΝ ΔΕΔΟΜΕΝΩΝ ΣΗ ΝΟΗΛΕΤΣΙΚΗ. Φιλιοποφλου Ειρινθ

Νζεσ Τάςεισ ςτην εκπαιδευτική διαδικαςία: Gamification

Διαδικαςία Προγράμματοσ Ωρομζτρθςθσ. (v.1.0.7)

Οδηγίεσ για τη ςφνδεςη του υπολογιςτή ςασ ςτουσ προβολείσ των αιθουςών Ι 1, Ι 2, Ι 3 και του 10 ου ορόφου

1 Εγκατϊςταςη λογαριαςμού

Εφδοξοσ+ Συνδεκείτε ςτθν Εφαρμογι Φοιτθτϊν και μεταβείτε ςτθ ςελίδα «Ανταλλαγι Βιβλίων (Εφδοξοσ+)».

Megatron ERP Βάςη δεδομζνων Π/Φ - κατηγοριοποίηςη Databox

Παράςταςη ςυμπλήρωμα ωσ προσ 1

Ηλεκτρονικι Επιχειρθςιακι Δράςθ Εργαςτιριο 1

assessment.gr USER S MANUAL (users)

Εισαγωγικές έννοιες. Αντώνησ Κ Μαώργιώτησ

Ανάπτυξη Εφαρμογών Σε Προγραμματιςτικό Περιβάλλον

Ανάπτυξη Εφαρμογών με Σχεςιακέσ Βάςεισ Δεδομένων

= = 124

ΛΕΙΣΟΤΡΓΙΚΆ ΤΣΉΜΑΣΑ. 3 ο Εργαςτιριο υγχρονιςμόσ Διεργαςιϊν

Γράφοι. Δομζσ Δεδομζνων Διάλεξθ 9

ΧΡΗΙΜΟΠΟΙΩΝΣΑ ΣΟ VISUAL HISTORY ARCHIVE

Οδηγίεσ προσ τουσ εκπαιδευτικοφσ για το μοντζλο του Άβακα

1η Ενδιάμεση Τεχνική Έκθεση

Διαχείριση Επιλογών Διαμόρφωσης

Τίτλος Μαθήματος: Θεωρία Γραφημάτων. Ενότητα: Εισαγωγικά μαθήματος. Διδάσκων: Λέκτορας Xάρης Παπαδόπουλος. Τμήμα: Μαθηματικών

Ηλεκτρονικι Υπθρεςία Ολοκλθρωμζνθσ Διαχείριςθσ Συγγραμμάτων και Λοιπϊν Βοθκθμάτων

ΕΝΔΕΙΚΣΙΚΕ ΟΔΗΓΙΕ ΠΡΟΑΡΜΟΓΗ ΣΩΝ BROWSERS

ΛΕΙΣΟΤΡΓΙΚΆ ΤΣΉΜΑΣΑ. 2 ο Εργαςτιριο Διαχείριςθ Διεργαςιϊν

Τυπικζσ Γλϊςςεσ Περιγραφισ Υλικοφ Εργαςτιριο 2

ςυςτιματα γραμμικϊν εξιςϊςεων

ΑΞΙΟΛΟΓΗΣΗ ΕΚΠΑΙΔΕΥΤΙΚΟΥ

ΡΟΓΑΜΜΑΤΙΣΤΙΚΟ ΡΕΙΒΑΛΛΟΝ MICRO WORLDS PRO

Διαχείριςη Αριθμοδεικτών (v.1.0.7)

1. Κατέβαςμα του VirtueMart

Παρουςίαςθ εγγραφισ ςτο E-shop. E-shop.

Ε. ε περίπτωςθ που θ διαφορά των δφο ηαριϊν είναι 3 τότε ο παίκτθσ ξαναρίχνει μόνο ζνα ηάρι.

Ένα πρόβλθμα γραμμικοφ προγραμματιςμοφ βρίςκεται ςτθν κανονικι μορφι όταν:

Virtualization. Στο ςυγκεκριμζνο οδηγό, θα παρουςιαςτεί η ικανότητα δοκιμήσ τησ διανομήσ Ubuntu 9.04, χωρίσ την ανάγκη του format.

TIM Εικονικό Περιβάλλον Συνεργασίας Οδθγίεσ Χριςθσ

ΑΚΗΕΙ ΠΡΟΒΛΕΨΕΩΝ ΠΡΟΒΛΕΨΕΙ

ΡΥΘΜΙΕΙ για περιοριςμένο χρήςτη (limited user)

Εισαγωγή Νέου Παγίου

Εγχειρίδιο Χριςθσ τθσ διαδικτυακισ εφαρμογισ «Υποβολι και παρακολοφκθςθ τθσ ζγκριςθσ Εκπαιδευτικών Πακζτων»

w e b t r a i l s. g r Η ΛΕΙΣΟΤΡΓΙΚΟΣΗΣΑ ΣΟΤ ΙΣΟΣΟΠΟΤ J24CLASS.GR

Βάςεισ Δεδομζνων Ι. Ενότητα 12: Κανονικοποίηςη. Δρ. Τςιμπίρθσ Αλκιβιάδθσ Τμιμα Μθχανικών Πλθροφορικισ ΤΕ

Αςφάλεια και Προςταςία Δεδομζνων

Παράςταςη ακεραίων ςτο ςυςτημα ςυμπλήρωμα ωσ προσ 2

Περιεχόμενα. χολι Χοροφ Αντιγόνθ Βοφτου - Πολιτικι Διαχείριςθσ Cookie 1

Οδηγύεσ Εφαρμογόσ Ηλεκτρονικόσ Κοςτολόγηςησ

ΟΔΗΓΙΕ ΔΗΜΙΟΤΡΓΙΑ ΚΑΙ ΡΤΘΜΙΗ ΔΩΡΕΑΝ ΗΛΕΚΣΡΟΝΙΚΟΤ ΣΑΧΤΔΡΟΜΕΙΟΤ ΣΟ GOOGLE (G-MAIL)

ΔΡΑΣΤΗΡΙΟΤΗΤΑ ΣΤΗN ΙΣΤΟΡΙΑ

Δζντρα. Δομζσ Δεδομζνων

Εγχειρίδιο Χρήςησ Προςωποποιημζνων Υπηρεςιών Γ.Ε.ΜΗ. (Εθνικό Τυπογραφείο)

Περιοριςμοί μιασ Β.Δ. ςτθν Access(1/3)

Epsilon Cloud Services

ΔΟΜΗ ΑΠΛΗΣ ΕΠΙΛΟΓΗΣ Αςκήςεισ με ψευδογλώςςα/ διάγραμμα ροήσ. Αντώνης Μαϊργιώτης

Διδακτικι Φυςικισ Αγωγισ. Δθμιτρθσ Χατηόπουλοσ Dr. Sportwissenschaften Deutsche Sporthochschule Köln ΣΕΦΑΑ-ΑΠΘ

ΠΡΟΓΡΑΜΜΑΣΙΜΌ ΤΠΟΛΟΓΙΣΏΝ. Κεφάλαιο 8 Η γλϊςςα Pascal

ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΕΛΟΠΟΝΝΗΣΟΥ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

Ειδικζσ Ναυπηγικζσ Καταςκευζσ και Ιςτιοφόρα κάφη (Ε)

Φυςικι δραςτθριότθτα παιδιών και εφιβων ςτθ χώρα μασ: ςυμβολι ςτθν υγεία και παράγοντεσ που επθρεάηουν τθ ςυμμετοχι ςτθν άςκθςθ

Οδηγίεσ προσ τουσ εκπαιδευτικοφσ για το μοντζλο τησ Αριθμογραμμήσ

Εγχειρίδιο χρήσης. Εφαρμογι Pegasus. Αικατερίνθ Γκιόκα ΟΑΕΔ ΔΙΕΥΘΥΝΣΗ ΑΧΙΚΗΣ ΕΡΑΓΓΕΛΜΑΤΙΚΗΣ ΕΚΡΑΙΔΕΥΣΗΣ & ΚΑΤΑΤΙΣΗΣ

Οδηγός χρήσης Blackboard Learning System για φοιτητές

Πνομα Ομάδασ: Προγραμματιςμόσ ενόσ κινοφμενου ρομπότ

Εγτειρίδιο διατείριζης online ερεσνών

Ραραμετροποίθςθ ειςαγωγισ δεδομζνων περιόδων

Εγχειρίδιο Χρήςησ Προςωποποιημζνων Υπηρεςιών Γ.Ε.ΜΗ. (Εθνικό Τυπογραφείο)

Ειδικά Θζματα Βάςεων Δεδομζνων

GNSS Solutions guide. 1. Create new Project

Σφντομεσ Οδθγίεσ Χριςθσ

Γ' ΛΥΚΕΙΟΥ Η ΤΑΞΗ ΤΗΣ ΤΕΛΙΚΗΣ ΕΠΙΛΟΓΗΣ. Στθ ΓϋΛυκείου οι Ομάδεσ Προςανατολιςμοφ είναι τρεισ:

Πολυπλέκτες. 0 x 0 F = S x 0 + Sx 1 1 x 1

Ιδιότθτεσ πεδίων Γενικζσ.

On-line εργαλεία του SINERGIA για τθν υποςτιριξθ μικρομεςαίων βιομθχανιών τροφίμων να βελτιώςουν τθν ενεργειακι τουσ απόδοςθ

ΕΝΟΤΘΤΑ 2: ΕΠΙΚΟΙΝΩΝΩ ΜΕ ΤΟΝ ΥΠΟΛΟΓΙΣΤΘ. ΚΕΦΑΛΑΙΟ 6: Θ «Βοικεια» ςτον Υπολογιςτι

ΟΜΑΔΑ: ΘΕΟΚΛΗΣΩ-ΑΝΣΡΕΑ-ΝΕΦΕΛΗ

Σφςτημα Κεντρικήσ Υποςτήριξησ τησ Πρακτικήσ Άςκηςησ Φοιτητών ΑΕΙ

ΕΝΟΤΘΤΑ 2: ΤΟ ΛΟΓΙΣΜΙΚΟ ΤΟΥ ΥΠΟΛΟΓΙΣΤΘ. ΚΕΦΑΛΑΙΟ 8: Πειρατεία Λογιςμικοφ

ΕΝΟΤΗΤΑ 2: ΕΠΙΚΟΙΝΩΝΩ ΜΕ ΤΟΝ ΥΠΟΛΟΓΙΣΤΗ. ΚΕΦΑΛΑΙΟ 5: Αρχεία - Φάκελοι

Οδηγίες αναβάθμισης χαρτών

Ειςαγωγι ςτο Δομθμζνο Προγραμματιςμό. Βαγγζλθσ Οικονόμου

ΛΕΙΣΟΤΡΓΙΚΆ ΤΣΉΜΑΣΑ. 7 θ Διάλεξθ Διαχείριςθ Μνιμθσ Μζροσ Γ

Σμιμα Marketing & Sales

ΑΝΑΚΟΙΝΩΗ ΜΕΣΑΒΑΣΙΚΩΝ ΡΤΘΜΙΕΩΝ ΓΙΑ ΣΙ ΑΛΛΑΓΕ ΣΟ ΠΡΟΓΡΑΜΜΑ ΠΟΤΔΩΝ ΣΟΤ ΣΜΗΜΑΣΟ ΜΗΧ. ΣΕΧΝΟΛΟΓΙΑ ΑΕΡΟΚΑΦΩΝ

Το γλωςςικό μάθημα. διδαςκαλία τησ γλώςςασ με τη βοήθεια του υπολογιςτή. 1. Ειςαγωγικά ςτοιχεία

PERSONAL TRAINING 5 ΛΟΓΟΙ ΝΑ ΕΧΕΙΣ PERSONAL TRAINER

Transcript:

Τεχνικζσ Εξόρυξθσ Δεδομζνων: Χειμερινό Εξάμθνο 2011 Πρϊτθ Άςκθςθ (ομάδεσ ζωσ 2 ατόμων) Ημερομθνία Παράδοςθσ: 8/1/2011 Σε αυτι τθν άςκθςθ θα μελετήςετε τρόπουσ προεπεξεργαςίασ των δεδομζνων, αλγορίθμουσ κατηγοριοποίηςησ δεδομζνων και θα δοκιμάςετε να υλοποιήςετε τον δικό ςασ απλό αλγόριθμο ανάλυςησ ςυναιςθήματοσ. 1) Πιο ςυγκεκριμζνα ςτθν άςκθςθ αυτι κα χρθςιμοποιιςετε τουσ αλγορίκμουσ Naïve Bayes και Δζντρο Αποφάςεων που είναι υλοποιθμζνοι ςτο weka. Οι αλγόρικμοι αυτοί κα εφαρμοςτοφν ςτο ςφνολο δεδομζνων που είναι αναρτθμζνο ςτθ ςελίδα: http://cgi.di.uoa.gr/~ys11/ Το ςυγκεκριμζνο ςφνολο δεδομζνων περιλαμβάνει 2000 reviews ταινιϊν. Τα reviews αυτά ανικουν ςε δφο κατθγορίεσ: τα 1000 από αυτά είναι χαρακτθριςμζνα ωσ «κετικά» και τα άλλα 1000 είναι χαρακτθριςμζνα ωσ «αρνθτικά». Κάκε review είναι ζνα ςφνολο από λζξεισ, επομζνωσ χρθςιμοποιϊντασ το μοντζλο αναπαράςταςθσ δεδομζνων bag-of-words κάκε review μπορεί να αναπαραςτακεί ωσ ζνα vector. Το εργαλείο weka προςφζρει τθν δυνατότθτα αυτόματθσ δθμιουργίασ αυτϊν των vectors. Παράδειγμα: Για τα reviews: review1= a great movie - positive, review2= excellent film - positive review3= worst film ever - negative, review4= a bad movie - negative Τα διανφςματα που κα δθμιουργθκοφν είναι:

a bad ever excellent film great movie worst Class V1 1 0 0 0 0 1 1 0 + V2 0 0 0 1 1 0 0 0 + V3 0 0 1 0 1 0 0 1 - V4 1 1 0 0 0 0 1 0 - Οι αλγόρικμοι κατθγοριοποίθςθσ επωφελοφνται ςε μεγάλο βακμό αν από το dataset ζχουν αφαιρεκεί λζξεισ που δεν είναι χριςιμεσ για τθν ανάλυςθ. Τζτοιεσ λζξεισ είναι και τα stop words, π.χ. and, the, a, this, I, you, etc. Το εργαλείο weka προςφζρει τθν δυνατότθτα αφαίρεςθσ των stop words πριν τθ δθμιουργία των vectors που κα χρθςιμοποιθκοφν για τθν εκπαίδευςθ και τθν εκτζλεςθ των αλγορίκμων κατθγοριοποίθςθσ. 2) Στθν ιςτοςελίδα http://cgi.di.uoa.gr/~ys11/ κα βρείτε αναρτθμζνα δφο διαφορετικά λεξικά κετικϊν και αρνθτικϊν λζξεων. Επιλζξτε όποια γλϊςςα προγραμματιςμοφ επικυμείτε και υλοποιιςτε ζναν απλό αλγόρικμο χαρακτθριςμοφ ενόσ review ωσ κετικοφ ι αρνθτικοφ. Για να βοθκθκείτε, τα αποτελζςματά ςασ μποροφν να ζχουν τθ μορφι: Review1: 40% positive, 20% negative, 40% neutral Review2: 32% positive, 28% negative, 40% neutral Review3: 30% positive, 25% negative, 45% neutral Review4: 10% positive, 10% negative, 80% neutral

Εκτελζςτε τον αλγόρικμό ςασ ςτο ςφνολο των reviews που ςασ δίνετε, παρουςιάςτε, μελετιςτε και ςχολιάςτε τα αποτελζςματά ςασ. Ποια λεξικά δουλεφουν καλφτερα; Επθρεάηουν τθν ποιότθτα των αποτελεςμάτων ςασ; (Θυμθκείτε ότι για κάκε review ςασ δίνεται και ζνασ χαρακτθριςμόσ ωσ positive ι negative. Αυτόν τον χαρακτθριςμό δεν πρζπει να τον χρθςιμοποιιςετε ςτον αλγόρικμό ςασ (εξάλλου αυτό ακριβϊσ προςπακοφμε να «μαντζψουμε») αλλά μπορείτε να τον χρθςιμοποιιςετε για τθν αξιολόγθςθ των αποτελεςμάτων ςασ). Δεν κα βακμολογθκείτε για τθν αποτελεςματικότθτα του αλγορίκμου, αλλά για τθν ανάλυςθ των αποτελεςμάτων ςασ. Οδηγίεσ χρήςησ του Weka: a. Κατεβάςτε και εγκαταςτιςτε το weka από τθν ιςτοςελίδα: http://www.cs.waikato.ac.nz/ml/weka/ (Stable book 3rd ed. Version) b. Εκτελζςτε το weka και ςτθ ςυνζχεια επιλζξτε Explorer. Για περιςςότερεσ λεπτομζρειεσ ςχετικά με το weka υπάρχουν ςτθν παραπάνω ιςτοςελίδα αρκετζσ καλζσ πλθροφορίεσ ςχετικά με τον τρόπο λειτουργίασ του. c. Επιλζξτε Open file και φορτϊςτε το αρχείο με το ςφνολο δεδομζνων. d. Επιλζξτε τθν καρτζλα Classify και ςτθ ςυνζχεια τον ταξινομθτι που επικυμείτε. e. Στθν επιλογι test options επιλζγετε: i. Cross-validation και ειςάγετε τον αρικμό των folds που επικυμείτε. Περιςςότερεσ πλθροφορίεσ ςχετικά με το k-fold cross-validation μπορείτε να βρείτε εδϊ:

http://en.wikipedia.org/wiki/cross-validation_(statistics)#kfold_cross-validation ii. Percentage-split και ειςάγετε το ποςοςτό του dataset που επικυμείτε να χρθςιμοποιιςετε ωσ training set (το υπόλοιπο κα χρθςιμοποιθκεί ωσ test set) f. Πατιςτε Start και κα δείτε τα αποτελζςματα Στον παρακάτω πίνακα ακολουκεί θ αναλυτικι βακμολογία ανά ερϊτθςθ: Δπωηήμαηα Βαθμολογία Πποεπεξεπγαζία Γεδομένων Α) Δθμιουργία του αρχείου δεδομζνων.arff από το ςφνολο δεδομζνων που παρζχεται ςε μορφι.txt Β) Προεπεξεργαςία δεδομζνων: Αφαίρεςθ των stop words από το ςφνολο δεδομζνων Καηηγοπιοποίηζη Γεδομένων Α) Δθηέιεζε ηνπ αιγνξίζκνπ θαηεγνξηνπνίεζεο Decision Trees θαη παξνπζίαζε ηωλ απνηειεζκάηωλ. B) Δθηέιεζε ηνπ αιγνξίζκνπ θαηεγνξηνπνίεζεο Naïve Bayes θαη παξνπζίαζε ηωλ απνηειεζκάηωλ. Γ) Αμηνιόγεζε θαη ζύγθξηζε ηωλ απνηειεζκάηωλ πνπ δίλνπλ νη δύν δηαθνξεηηθνί αιγόξηζκνη θαηεγνξηνπνίεζεο (κε θαη ρωξίο αθαίξεζε ηωλ stop words) Γ) Αμηνιόγεζε θαη ζύγθξηζε ηωλ απνηειεζκάηωλ πνπ δίλνπλ νη δύν δηαθνξεηηθνί αιγόξηζκνη θαηεγνξηνπνίεζεο αλάινγα κε ηηο

παξακέηξνπο πνπ θαζνξίδνπλ ην κέγεζνο ηνπ training θαη ηνπ test set. (Π.ρ. Πώο επεξεάδεη ην κέγεζνο ηνπ training set ηελ πνηόηεηα ηεο θαηεγνξηνπνίεζεο ηωλ δεδνκέλωλ ηνπ test set;) Αλγόπιθμορ Ανάλςζηρ Σςναιζθήμαηορ Α) Υινπνίεζε αιγνξίζκνπ (Μπνξείηε λα ρξεζηκνπνηήζεηε όπνηα γιώζζα πξνγξακκαηηζκνύ επηζπκείηε. Κώδηθαο πνπ δελ ηξέρεη δελ ζα βαζκνινγεζεί θαζόινπ) Β) Μειέηε θαη ζρνιηαζκόο ηωλ απνηειεζκάηωλ αλάιπζεο ζπλαηζζήκαηνο. Γ) Bonus: Υινπνίεζε αιγνξίζκνπ αμηνιόγεζεο απνηειεζκαηηθόηεηαο αιγνξίζκνπ (tip: ρξεζηκνπνηήζεηε ηα labels - positive θαη negative πνπ έρεηε γηα θάζε review). Σύνολο 1 E-mail επικοινωνίασ: Δημήτρησ Κωτςάκοσ (dimkots [at] di.uoa.gr). Σε μια από τισ επόμενεσ διαλζξεισ κα γίνει παρουςίαςθ τθσ άςκθςθσ και επίλυςθ αποριϊν.