Γλωσσική Τεχνολογία. Natural Language Toolkit



Σχετικά έγγραφα
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Εισαγωγικό Φροντιστήριο

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Οι αδελφοί Montgolfier: Ψηφιακή αφήγηση The Montgolfier Βrothers Digital Story (προτείνεται να διδαχθεί στο Unit 4, Lesson 3, Αγγλικά Στ Δημοτικού)

derivation of the Laplacian from rectangular to spherical coordinates

«ΨΥΧΙΚΗ ΥΓΕΙΑ ΚΑΙ ΣΕΞΟΥΑΛΙΚΗ» ΠΑΝΕΥΡΩΠΑΪΚΗ ΕΡΕΥΝΑ ΤΗΣ GAMIAN- EUROPE

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Python & NLTK: Εισαγωγή

ΑΛΕΞΑΝΔΡΟΣ ΠΑΛΛΗΣ SCHOOLTIME E-BOOKS

τεύχος #20, Οκτώβριος#Νοέμβριος#Δεκέμβριος 2009, περιοδικό των Μεγάλων Οδηγών

Newborn Upfront Payment & Newborn Supplement

7 Present PERFECT Simple. 8 Present PERFECT Continuous. 9 Past PERFECT Simple. 10 Past PERFECT Continuous. 11 Future PERFECT Simple

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

Dynamic types, Lambda calculus machines Section and Practice Problems Apr 21 22, 2016

EE512: Error Control Coding

MathCity.org Merging man and maths

The Simply Typed Lambda Calculus

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

The Project Gutenberg EBook of Gerodimos Pamphletes, by Argyris Eftaliotis

ΜΔΛΔΣΖ ΚΑΗ ΔΛΔΓΥΟ ΣΟΤ PYTHON NATURAL LANGUAGE TOOLKIT ΣΖΝ ΔΛΛΖΝΗΚΖ ΓΛΧΑ

Κάθε γνήσιο αντίγραφο φέρει υπογραφή του συγγραφέα. / Each genuine copy is signed by the author.

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

Mean bond enthalpy Standard enthalpy of formation Bond N H N N N N H O O O

ST5224: Advanced Statistical Theory II

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.

Example Sheet 3 Solutions

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

BandPass (4A) Young Won Lim 1/11/14

Other Test Constructions: Likelihood Ratio & Bayes Tests

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΛΛΗΛΟΓΡΑΦΙΑ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑ ΣΤΗΝ ΑΓΓΛΙΚΗ ΓΛΩΣΣΑ

Γλωσσική Τεχνολογία. Εισαγωγικό Φροντιστήριο

Αζεκίλα Α. Μπνπράγηεξ (Α.Μ. 261)

EU-Profiler: User Profiles in the 2009 European Elections

CORDIC Background (4A)

Εγκατάσταση λογισμικού και αναβάθμιση συσκευής Device software installation and software upgrade

Πώς μπορεί κανείς να έχει έναν διερμηνέα κατά την επίσκεψή του στον Οικογενειακό του Γιατρό στο Ίσλινγκτον Getting an interpreter when you visit your

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΛΛΗΛΟΓΡΑΦΙΑ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑ ΣΤΗΝ ΑΓΓΛΙΚΗ ΓΛΩΣΣΑ

Οδηγός χρήσης Nokia 6730 classic. Τεύχος 2

Στο εστιατόριο «ToDokimasesPrinToBgaleisStonKosmo?» έξω από τους δακτυλίους του Κρόνου, οι παραγγελίες γίνονται ηλεκτρονικά.

Παραμύθια τησ Χαλιμϊσ, τομ. A Σελύδα 1

LESSON 12 (ΜΑΘΗΜΑ ΔΩΔΕΚΑ) REF : 202/055/32-ADV. 4 February 2014

Decision-Making in the Dark: How Pre-Trial Errors Change the Narrative in Criminal Jury Trials

Sampling Basics (1B) Young Won Lim 9/21/13

CORDIC Background (2A)

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ : «ΑΜΦΙΣΒΗΤΗΣΕΙΣ ΟΡΙΩΝ ΓΕΩΤΕΜΑΧΙΩΝ ΔΙΑΔΙΚΑΣΙΑ ΕΠΙΛΥΣΗΣ ΜΕΣΩ ΔΙΚΑΣΤΙΚΩΝ ΠΡΑΓΜΑΤΟΓΝΩΜΟΣΥΝΩΝ.»

Παλεπηζηήκην Πεηξαηώο Τκήκα Πιεξνθνξηθήο Πξόγξακκα Μεηαπηπρηαθώλ Σπνπδώλ «Πξνεγκέλα Σπζηήκαηα Πιεξνθνξηθήο»

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

Section 8.3 Trigonometric Equations

Section 9.2 Polar Equations and Graphs

Matrices and Determinants

Math 6 SL Probability Distributions Practice Test Mark Scheme

Από το CUDOS και το Semion στον οργανισμό Creative Commons και στο Open Knowledge Foundation

ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «ΘΕΜΑ»

«Χρήσεις γης, αξίες γης και κυκλοφοριακές ρυθμίσεις στο Δήμο Χαλκιδέων. Η μεταξύ τους σχέση και εξέλιξη.»

Διπλωματική Εργασία. Μελέτη των μηχανικών ιδιοτήτων των stents που χρησιμοποιούνται στην Ιατρική. Αντωνίου Φάνης

Writing for A class. Describe yourself Topic 1: Write your name, your nationality, your hobby, your pet. Write where you live.

ΤΟ ΣΤΑΥΡΟΔΡΟΜΙ ΤΟΥ ΝΟΤΟΥ ΤΟ ΛΙΜΑΝΙ ΤΗΣ ΚΑΛΑΜΑΤΑΣ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Οδηγίες χρήσης υλικού D U N S Registered

Study of In-vehicle Sound Field Creation by Simultaneous Equation Method

Right Rear Door. Let's now finish the door hinge saga with the right rear door

ΔΕΛΤΙΟ ΔΕΔΟΜΕΝΩN ΑΣΦΑΛΕΙΑΣ ΥΛΙΚΟΥ BOSTIK OPF GREY

ΓΕΩΜΕΣΡΙΚΗ ΣΕΚΜΗΡΙΩΗ ΣΟΤ ΙΕΡΟΤ ΝΑΟΤ ΣΟΤ ΣΙΜΙΟΤ ΣΑΤΡΟΤ ΣΟ ΠΕΛΕΝΔΡΙ ΣΗ ΚΤΠΡΟΤ ΜΕ ΕΦΑΡΜΟΓΗ ΑΤΣΟΜΑΣΟΠΟΙΗΜΕΝΟΤ ΤΣΗΜΑΣΟ ΨΗΦΙΑΚΗ ΦΩΣΟΓΡΑΜΜΕΣΡΙΑ

Jesse Maassen and Mark Lundstrom Purdue University November 25, 2013

Trigonometry (4A) Trigonometric Identities. Young Won Lim 1/2/15

Example of the Baum-Welch Algorithm

Προσωπική Aνάπτυξη. Ενότητα 2: Διαπραγμάτευση. Juan Carlos Martínez Director of Projects Development Department

IMES DISCUSSION PAPER SERIES

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Σχολή Πολιτικών Μηχανικών Τοµέας οµοστατικής ΑΛΛΗΛΕΠΙ ΡΑΣΗ ΑΣΤΟΧΙΑΣ ΑΠΟ ΛΥΓΙΣΜΟ ΚΑΙ ΠΛΑΣΤΙΚΟΠΟΙΗΣΗ ΣΕ ΜΕΤΑΛΛΙΚΑ ΠΛΑΙΣΙΑ

Στεγαστική δήλωση: Σχετικά με τις στεγαστικές υπηρεσίες που λαμβάνετε (Residential statement: About the residential services you get)

Strain gauge and rosettes

The Nottingham eprints service makes this work by researchers of the University of Nottingham available open access under the following conditions.

LESSON 28 (ΜΑΘΗΜΑ ΕΙΚΟΣΙ ΟΚΤΩ) REF : 201/033/28. 2 December 2014

Advanced Subsidiary Unit 1: Understanding and Written Response

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

Προσωπική Aνάπτυξη. Ενότητα 4: Συνεργασία. Juan Carlos Martínez Director of Projects Development Department

Πτυχιακή Εργασία. Τίτλος: Ηλεκτρονικό Κατάστηµα. Τεχνολογικό Εκπαιδευτικό Ίδρυµα Κρήτης. Σχολή ιοίκησης και Οικονοµίας. Τµήµα ιοίκησης Επιχειρήσεων

Statistical Inference I Locally most powerful tests

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΠΑΝΔΠΙΣΗΜΙΟ ΜΑΚΔΓΟΝΙΑ ΠΡΟΓΡΑΜΜΑ ΜΔΣΑΠΣΤΥΙΑΚΧΝ ΠΟΤΓΧΝ ΣΜΗΜΑΣΟ ΔΦΑΡΜΟΜΔΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

(C) 2010 Pearson Education, Inc. All rights reserved.

ΕΡΕΥΝΑ ΕΠΙΤΥΧΙΑ ΚΑΤΑΡΤΙΣΗ ΕΡΓΑΣΙΑ ΕΜΠΕΙΡΙΑ ΥΠΟΤΡΟΦΙΕΣ ΕΚΠΑΙΔΕΥΣΗ ΑΚΑΔΗΜΑΙΚΗ ΕΠΙΤΥΧΙΑ ΚΥΠΡΟΣ ΟΔΗΓΟΣ ΕΠΙΤΥΧΙΑΣ: ΣΤΑΔΙΟΔΡΟΜΙΑ ΧΩΡΙΣ ΣΥΝΟΡΑ!

Μιχάλης Βαφόπουλος, vafopoulos.org

Ερώτηση και Αίτηση Κατάθεσης Εγγράφων Προς τον κ. Υπουργό Ανάπτυξης και Ανταγωνιστικότητας

Digital Signal Octave Codes (0B)

Capacitors - Capacitance, Charge and Potential Difference

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

Χρειάζεται να φέρω μαζί μου τα πρωτότυπα έγγραφα ή τα αντίγραφα; Asking if you need to provide the original documents or copies Ποια είναι τα κριτήρια

SocialDict. A reading support tool with prediction capability and its extension to readability measurement

Παιδί βαρήκοο ή με διαταραχή στο φάσμα του αυτισμού;

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 11/3/2006

b. Use the parametrization from (a) to compute the area of S a as S a ds. Be sure to substitute for ds!

LESSON 14 (ΜΑΘΗΜΑ ΔΕΚΑΤΕΣΣΕΡΑ) REF : 202/057/34-ADV. 18 February 2014

Transcript:

Γλωσσική Τεχνολογία Natural Language Toolkit

Natural Language Toolkit Πακέτο βιβλιοθηκών και εργαλείων για Natural Language Processing σε Python. Δεν εγκαθίσταται με την Python, πρέπει να το εγκαταστήσετε. http://www.nltk.org/ Download των πακέτων που χρειάζονται Οδηγίες για την εγκατάσταση Διαθέσιμο online το βιβλίο Natural Language Processing with Python Σε αυτό το φροντιστήριο αναφέρονται κάποια βασικά εργαλεία. Το NLTK περιέχει πολλά περισσότερα!!!

NLTK Installing Corpora Το NLTK δίνει τη δυνατότητα εγκατάστασης corpora. Χρησιμοποιούνται για πολλές NLP εργασίες, όπως Normalization, Tagging, Classification etc. >>> import nltk >>> nltk.download() NLTK Downloader --------------------------------------------------------------------------- d) Download l) List c) Config h) Help q) Quit --------------------------------------------------------------------------- Downloader> Το Brown Corpus και το Wordnet αρκούν. Καλύτερα εγκαταστήστε τα όλα!

Using Corpora Μέσω του NLTK είναι δυνατή η προσπέλαση των αρχείων στα corpora: >>> nltk.corpus.brown.fileids() ['ca01', 'ca02', 'ca03', 'ca04', 'ca05', 'ca06', 'ca07', 'ca08', 'ca09', 'ca10', 'ca11', 'ca12', 'ca13', 'ca14', 'ca15', 'ca16', 'ca17', 'ca18', 'ca19', 'ca20',... Προσπέλαση του καθαρού κειμένου στα αρχεία: >>> nltk.corpus.brown.raw('ca01') "\n\n\tthe/at Fulton/np-tl County/nn-tl Grand/jj-tl Jury/nn-tl said/vbd Friday/nr an/at investigation/nn of/in Atlanta's/np$ recent/jj primary/nn election/nn produced/vbd ``/`` no/at evidence/nn ''/'' that/cs any/dti irregularities/nns took/vbd place/nn./.\n\n\n\tthe/at jury/nn further/rbr said/vbd in/in termend/nn presentments/nns that/cs the/at City/nn-tl Executive/jj-tl Committee/nn-tl,/,.... Το κείμενο στο brown corpus είναι tagged!

Corpora Data Διάβασμα των κειμένων ανά λέξη >>> from nltk.corpus import brown >>> brown.words('ca01') ['The', 'Fulton', 'County', 'Grand', 'Jury', 'said',...] Διάβασμα των κειμένων ανά πρόταση >>> brown.sents('ca01') [['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.'], ['The', 'jury', 'further', 'said', 'in', 'term-end', 'presentments', 'that', 'the', 'City', 'Executive', 'Committee', ',', 'which', 'had', 'over-all', 'charge', 'of', 'the', 'election', ',', '``', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'City', 'of', 'Atlanta', "''", 'for', 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted', '.'],...] Λίστα από λίστες λέξεων!

Brown Corpus Το Brown Corpus περιέχει κείμενα ταξινομημένα σε κατηγορίες >>> from nltk.corpus import brown >>> brown.categories() ['adventure', 'belles_lettres', 'editorial', 'fiction', 'government', 'hobbies', 'humor', 'learned', 'lore', 'mystery', 'news', 'religion', 'reviews', 'romance', 'science_fiction'] Λέξεις ανά κατηγορία >>> brown.words(categories='science_fiction') ['Now', 'that', 'he', 'knew', 'himself', 'to', 'be',...] Προτάσεις ανά κατηγορία >>> brown.sents(categories='science_fiction') [['Now', 'that', 'he', 'knew', 'himself', 'to', 'be', 'self', 'he', 'was', 'free', 'to', 'grok', 'ever', 'closer', 'to', 'his', 'brothers', ',', 'merge', 'without', 'let', '.'], ["Self's", 'integrity', 'was', 'and', 'is', 'and', 'ever', 'had', 'been', '.'],...]

Processing Raw Text Στο NLTK περιλαμβάνονται (ανάμεσα στ άλλα) εργαλεία για: Εξαγωγή κειμένου από ιστοσελίδες Normalization Tokenization Tagging

Raw Text Extraction From HTML Κατέβασμα του περιεχομένου ενός url >>> from urllib import urlopen >>> url="http://en.wikipedia.org/wiki/natural_language_toolkit" >>> raw=urlopen(url).read() >>> raw '<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">\n<head>\n<title>wikimedia Error</title>\n<meta http-equiv="content- Type" content="text/html; charset=utf-8"/>\n<meta name="author" content="mark Ryan"/>\n<meta name="copyright" content="(c) 2005-2007 Mark Ryan and others. Text licensed under the GNU Free Documentation License. http://www.gnu.org/licenses/fdl.txt... Εξαγωγή κειμένου >>> pure=nltk.clean_html(raw) >>> pure 'Wikimedia Error \n \n \n \n\n\n\n \n\n \n Wikimedia Foundation \n\n\n Error \n\n\n\n \n\n \n Our servers are currently experiencing a technical problem. This is probably temporary and should be fixed soon. Please try again in a few minutes. \n You may be able to get further information in the #wikipedia channel on the Freenode IRC network. \n The Wikimedia Foundation is... Δεν επιτρέπεται παντού το crawling

Tokenization Μετατροπή ενός κειμένου σε λίστα από tokens Simple split >>> text="when it's over, I want to go. It's 15:30!" >>> tokens=text.split(" ") >>> tokens ['When', "it's", 'over,', 'I', 'want', 'to', 'go.', "It's", '15:30!'] Using Regular Expressions >>> import re >>> tokens=re.split(r'\w+',text) >>> tokens ['When', 'it', 's', 'over', 'I', 'want', 'to', 'go', 'It', 's', '15', '30', ''] NLTK >>> tokens=nltk.word_tokenize(text) >>> tokens ['When', 'it', "'s", 'over', ',', 'I', 'want', 'to', 'go.', 'It', "'s", '15', ':', '30', '!']

Text Normalization Κανονικοποίηση λέξεων: μετατροπή σε τύπους που μπορούν να ομαδοποιηθούν. Stemming (αποκατάληξη) >>> porter=nltk.porterstemmer() >>> tokens=['baby','babies','child','children'] >>> stemms=[porter.stem(t) for t in tokens] >>> stemms ['babi', 'babi', 'child', 'children'] Lemmatization (αναγωγή στον πρώτο κλιτικό τύπο) >>> wnl=nltk.wordnetlemmatizer() >>> tokens=['baby','babies','child','children'] >>> lemmas=[wnl.lemmatize(t) for t in tokens] >>> lemmas ['baby', 'baby', 'child', 'child'] Αλλά >>> wnl=nltk.wordnetlemmatizer() >>> tokens=['go','goes','went'] >>> lemmas=[wnl.lemmatize(t) for t in tokens] >>> lemmas ['go', 'go', 'went']

Tagging Αναγνώριση του Part of Speech Using NLTK >>> text="natural Language Processing is a growing field." >>> tokens=nltk.word_tokenize(text) >>> nltk.pos_tag(tokens) [('Natural', 'NNP'), ('Language', 'NNP'), ('Processing', 'NNP'), ('is', 'VBZ'), ('a', 'DT'), ('growing', 'VBG'), ('field', 'NN'), ('.', '.')] Χρήση tagged κειμένων >>> from nltk.corpus import brown >>> tagged_text=brown.raw('ca01') >>> tagged_text "\n\n\tthe/at Fulton/np-tl County/nn-tl Grand/jj-tl Jury/nn-tl said/vbd Friday/nr an/at investigation/nn of/in Atlanta's/np$ recent/jj primary/nn election/nn produced/vbd ``/`` no/at evidence/nn ''/'' that/cs any/dti irregularities/nns took/vbd place/nn./. >>> tagged_tokens=[nltk.tag.str2tuple(t) for t in tagged_text.split()] >>> tagged_tokens [('The', 'AT'), ('Fulton', 'NP-TL'), ('County', 'NN-TL'), ('Grand', 'JJ-TL'), ('Jury', 'NN-TL'), ('said', 'VBD'), ('Friday', 'NR'), ('an', 'AT'), ('investigation', 'NN'), ('of', 'IN'), ("Atlanta's", 'NP$'), ('recent', 'JJ'), ('primary', 'NN'), ('election', 'NN'), ('produced', 'VBD'), ('``', '``'), ('no', 'AT'), ('evidence', 'NN'), ("''", "''"), ('that', 'CS'), ('any', 'DTI'), ('irregularities', 'NNS'), ('took', 'VBD'), ('place', 'NN'), ('.', '.'),

Για το project Η καλύτερη λύση είναι: Tokenization με το NLTK Normalization με lemmatization και όχι με stemming Normalization & tagging με χρήση των εξωτερικών taggers που δίνονται στη σελίδα του εργαστηρίου (κάνουν και τα δύο). Γιατί: το lemmatization του wordnet σε άλλα μέρη του λόγου εκτός των ουσιαστικών δεν είναι καλό!