ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

Σχετικά έγγραφα
ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

1. Δεν μπορεί να γίνει κλήση μίας διαδικασίας μέσα από μία συνάρτηση.

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Α2. Να γράψετε στο τετράδιο απαντήσεών σας το κατάλληλο τμήμα κώδικα, κάνοντας τις απαραίτητες αλλαγές σύμφωνα με την εκάστοτε εκφώνηση:

ΣΕΤ ΑΣΚΗΣΕΩΝ 3. Προθεσµία: 18/12/12, 22:00

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

ΣΕΤ ΑΣΚΗΣΕΩΝ 4. Προθεσµία: 8/1/12, 22:00

ΣΕΤ ΑΣΚΗΣΕΩΝ 3. Προθεσµία: 7/1/2014, 22:00

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΘΕΜΑ Α. Μονάδες 10 Α2.

Ανάκτηση Πληροφορίας

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

ΣΕΤ ΑΣΚΗΣΕΩΝ 2. Προθεσµία: 25/11/12, 22:00

Α2. Να γράψετε στο τετράδιο σας τον αριθμό 1-4 κάθε πρότασης και δίπλα το γράμμα που δίνει τη σωστή επιλογή.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

Εργαστήριο Βάσεων Δεδομένων

Ακρότατα πίνακα, χωρίς min, max, μόνο με pos

8. Η δημιουργία του εκτελέσιμου προγράμματος γίνεται μόνο όταν το πηγαίο πρόγραμμα δεν περιέχει συντακτικά λάθη.

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Διαδικασιακός Προγραμματισμός

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ «ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ»

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Γ ΛΥΚΕΙΟΥ ΗΜΕΡΟΜΗΝΙΑ: 6/04/2014

ΤΕΛΟΣ 1ΗΣ ΑΠΟ 5 ΣΕΛΙ ΕΣ

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΗΜΕΡΗΣΙΩΝ

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΩΝ & Δ ΤΑΞΗΣ ΕΣΠΕΡΙΝΩΝ ΥΠΟΛΕΙΠΟΜΕΝΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ HMEΡΗΣΙΩΝ ΚΑΙ ΕΣΠΕΡΙΝΩΝ ΕΠΑΓΓΕΛΜΑΤΙΚΩΝ ΛΥΚΕΙΩΝ

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ 23/04/2012. Α. Να απαντήσετε με Σ ή Λ στις παρακάτω προτάσεις:

ΘΕΜΑ 1ο. Μονάδες 10. Β. ίνεται το παρακάτω τμήμα αλγορίθμου: Όσο Ι < 10 επανάλαβε Εμφάνισε Ι Ι Ι + 3 Τέλος_επανάληψης ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ Η/Υ, ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ

ΠΡΟΣΟΜΟΙΩΣΗ ΠΑΝΕΛΛΑΔΙΚΩΝ ΕΞΕΤΑΣΕΩΝ Γʹ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΑΕΠΠ ΤΡΙΤΗ 18 ΑΠΡΙΛΙΟΥ 2017 ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΕΠΤΑ (7)

1. Δεν μπορεί να γίνει κλήση μίας διαδικασίας μέσα από μία συνάρτηση.

ΟΜΟΣΠΟΝΔΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑΔΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2018 Β ΦΑΣΗ


Μέρος B: Εισαγωγή στις έννοιες παιδαγωγικής αξιοποίησης των ΤΠΕ με εφαρμογή στη διδακτική της Πληροφορικής Οργάνωση και Σχεδίαση Μαθήματος

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

(CUT Portal). ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ - ΥΠΟΒΟΛΗ ΑΙΤΗΣΗΣ ΓΙΑ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΗΜΕΡΗΣΙΩΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΟΔΗΓΙΕΣ ΓΙΑ ΤΟ ΠΑΙΧΝΙΔΙ.

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΗΜΕΡΗΣΙΩΝ

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Προγραµµατισµός Ι ΕΡΓΑΣΤΗΡΙΟ 5 ΕΡΓΑΣΤΗΡΙΟ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ I, ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ

ΗΥ240: Δομές Δεδομένων Εαρινό Εξάμηνο Ακαδημαϊκό Έτος 2017 Διδάσκουσα: Παναγιώτα Φατούρου Προγραμματιστική Εργασία - 2o Μέρος

Εισαγωγή. Διαλέξεις στο μάθημα: Μεταφραστές Γιώργος Μανής

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Έρευνα και Συγγραφή

Σύστημα Αναγνώρισης/Αντιστοιχίας Μαθημάτων. Εγχειρίδιο Χρήσης Φοιτητές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ. Εξετάσεις Προσομοίωσης 10/04/2018

ΘΕΜΑ Α. 1. Η δυαδική αναζήτηση χρησιμοποιείται μόνο σε ταξινομημένες συλλογές δεδομένων.

ΑΡΧΗ 1ης ΣΕΛΙΔΑΣ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΤΑΞΗ / ΤΜΗΜΑ : Γ ΛΥΚΕΙΟΥ ΔΙΑΓΩΝΙΣΜΑ ΠΕΡΙΟΔΟΥ : ΜΑΡΤΙΟΣ 2018 ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ : 6 (ΕΞΙ)

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΑΞΗ : Γ ΛΥΚΕΙΟΥ ΣΠΟΥΔΕΣ ΟΙΚΟΝΟΜΙΑΣ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΜΗΜΑ: Γ2

ΟΜΟΣΠΟΝΔΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑΔΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2019 Β ΦΑΣΗ Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ

Λίγα λόγια από το συγγραφέα Κεφάλαιο 1: Microsoft Excel Κεφάλαιο 2: Η δομή ενός φύλλου εργασίας... 26

καθώς και το παρακάτω τμήμα αλγορίθμου γραμμένο σε «ΓΛΩΣΣΑ»:

Εισ. Στην ΠΛΗΡΟΦΟΡΙΚΗ. Διάλεξη 7 η. Βασίλης Στεφανής

Σύστημα Αναγνώρισης/Αντιστοιχίας Μαθημάτων. Εγχειρίδιο Χρήσης - Φοιτητές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

ΣΕΤ ΑΣΚΗΣΕΩΝ 2. Προθεσµία: 27/11/11, 22:00

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Δ ΕΣΠΕΡΙΝΩΝ

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Ανάκτηση Πληροφορίας

ΘΕΜΑ Α. Μονάδες 10 Α2.

ΦΡΟΝΤΙΣΤΗΡΙΟ ΦΑΣΜΑ 21/4/2013

Εργαστήριο 6 ο 7 ο / Ερωτήματα Ι

ΘΕΜΑΤΑ ΠΡΟΣΟΜΟΙΩΣΗΣ ΠΑΝΕΛΛΑΔΙΚΩΝ ΕΞΕΤΑΣΕΩΝ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

Οικονοµικό Πανεπιστήµιο Αθηνών. Τµήµα Πληροφορικής. Φθινοπωρινό Εξάµηνο Δοµές Δεδοµένων - Εργασία 2. Διδάσκων: E. Μαρκάκης

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

Εξομοίωση Τηλεπικοινωνιακού Συστήματος Βασικής Ζώνης

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΗΜΕΡΗΣΙΩΝ

ΑΡΧΗ 1ης ΣΕΛΙΔΑΣ. Για i από 1 μέχρι Μ Εμφάνισε A[4,i] Τέλος_επανάληψης. (μονάδες 6) ΤΕΛΟΣ 1ης ΑΠΟ 7 ΣΕΛΙΔΕΣ

ΥΠΗΡΕΣΙΑ ΣΠΟΥΔΩΝ ΚΑΙ ΦΟΙΤΗΤΙΚΗΣ ΜΕΡΙΜΝΑΣ. Οδηγός Αίτησης για Β Κατανομή Θέσεων μέσω Παγκυπρίων Εξετάσεων στο Πανεπιστήμιο Κύπρου

turnin Lab2.hs

Οδηγός υποβολής Αίτησης Συμμετοχής-Υπεύθυνης Δήλωσης και Δικαιολογητικών Συμμετοχής

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΗΜΕΡΗΣΙΩΝ ΕΠΑΛ (ΟΜΑΔΑ Α ) ΚΑΙ ΜΑΘΗΜΑΤΩΝ ΕΙΔΙΚΟΤΗΤΑΣ ΗΜΕΡΗΣΙΩΝ ΕΠΑΛ (ΟΜΑΔΑ Α ΚΑΙ Β ) ΤΕΤΑΡΤΗ 20 ΙΟΥΝΙΟΥ 2018

ΘΕΜΑ Α ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ

2 ΟΥ και 8 ΟΥ ΚΕΦΑΛΑΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ AΙΓΑIΟΥ & ΑΕΙ ΠΕΙΡΑΙΑ Τ.Τ. Τμήματα Ναυτιλίας και Επιχειρηματικών Υπηρεσιών & Μηχ. Αυτοματισμού ΤΕ. Εισαγωγή στη Python

Προγραμματισμός Υπολογιστών με C++

ΗΥ240: Δοµές Δεδοµένων Εαρινό Εξάµηνο Ακαδηµαϊκό Έτος 2017 Διδάσκουσα: Παναγιώτα Φατούρου Προγραµµατιστική Εργασία - 1 ο Μέρος

Η-Υ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ. Εργαστήριο 1 Εισαγωγή στη C. Σοφία Μπαλτζή s.mpaltzi@di.uoa.gr

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Τελικό επαναληπτικό διαγώνισμα Επιμέλεια: Δρεμούσης Παντελής

ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΕΞΙ (6)

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Δ ΕΣΠΕΡΙΝΩΝ

ΥΠΗΡΕΣΙΑ ΣΠΟΥΔΩΝ ΚΑΙ ΦΟΙΤΗΤΙΚΗΣ ΜΕΡΙΜΝΑΣ. Οδηγός για Συμπλήρωση Αίτησης Εισδοχής. Ελλαδιτών Φοιτητών στο Πανεπιστήμιο Κύπρου ή/και το ΤΕΠΑΚ

Δυναμικές Ιστοσελίδες Εισαγωγή στην Javascript για προγραμματισμό στην πλευρά του client

ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

an:3 are:6 a:10

Οδηγός υποβολής Αίτησης Συμμετοχής-Υπεύθυνης Δήλωσης και Δικαιολογητικών Συμμετοχής

Μοντελοποίηση Συστημάτων

ΦΡΟΝΤΙΣΤΗΡΙΑ ΠΡΟΟΔΟΣ

Transcript:

Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2009-2010 ΑΣΚΗΣΗ Α Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο Τα ανεστραμμένα αρχεία αποτελούν μια βασική μορφή ευρετηρίου και μας επιτρέπουν να εντοπίσουμε ποια κείμενα της συλλογής που δεικτοδοτείται περιέχουν συγκεκριμένους όρους Σκοπός της άσκησης είναι να επεξεργαστείτε μία συλλογή κειμένων η οποία είναι διαθέσιμη στο site του μαθήματος (http://wwwdblabupatrasgr/gr/glwssikitexnologiahtml) και τη δεικτοδοτήσετε σε ένα ανεστραμμένο ευρετήριο που θα υλοποιήσετε Προκειμένου να αξιολογήσετε την απόδοση του ευρετηρίου σας θα υλοποιήσετε έναν μηχανισμό υποβολής ερωτημάτων στα δεικτοδοτημένα κείμενα της συλλογής, μέσω του οποίου θα υποβάλετε ερωτήματα προς το ευρετήριο και θα ανακτάτε τα κείμενα της συλλογής που σχετίζονται με αυτά (δηλ περιέχουν τους όρους των ερωτημάτων) Η υλοποίησή σας θα πρέπει να ανταποκρίνεται στις ανάγκες πραγματικών συστημάτων δεικτοδότησης, δηλ το ευρετήριο να φορτώνεται στη μνήμη, ώστε να μην υπάρχει ανάγκη ανακατασκευής ευρετηρίου κάθε φορά που υποβάλλονται ερωτήματα σε αυτό Διαβάσετε προσεχτικά την εκφώνηση και απαντήσετε με σαφήνεια στα ερωτήματα Βήματα Υλοποίησης 1 Tokenization (5%) Κατεβάστε τη συλλογή κειμένων Wikipediazip (συλλογή άρθρων από την αγγλική Wikipedia) Εφαρμόστε σε κάθε κείμενο τεχνικές tokenization προκειμένου να το μορφοποιήσετε έτσι ώστε στο tokenized κείμενο που θα προκύψει να εμφανίζεται μία λέξη ανά γραμμή ή ένα σημείο στίξης ανά γραμμή Ως σημεία στίξης θεωρήστε όσα αναγράφονται στον παρακάτω πίνακα Αποθηκεύστε την tokenized μορφή κάθε κειμένου σε αντίστοιχο αρχείο Προσοχή, όταν χρησιμοποιείται απόστροφος για να δηλώσει γενική κτητική πχ John s το tokenization θα πρέπει να έχει τη μορφή: John s Επίσης θα πρέπει να προσέξετε την ορθή αναγνώριση αριθμών (ύπαρξη τελείας, κόμματος σαν υποδιαστολή) Πίνακας σημείων στίξης < > { } [ ] ( ) \ /? ; : ~ `! @ # $ % ^ & * - +

2 Μορφοσυντακτική Ανάλυση (10%) Σχολιάστε μορφοσυντακτικά τις λέξεις του κάθε tokenized κειμένου Για το μορφοσυντακτικό σχολιασμό χρησιμοποιήστε κάποιον από τους προτεινόμενους PoS-Taggers (ανάλογα με το περιβάλλον υλοποίησης που έχετε επιλέξει) που θα κατεβάσετε από το site του μαθήματος Στο τέλος του βήματος 2 κάθε κείμενο της συλλογής θα διαθέτει μορφοσυντακτικό σχολιασμό (PoS-tags) για κάθε λέξη που περιέχει Τα μορφοσυντακτικά σχολιασμένα κείμενα της συλλογής θα πρέπει να αποθηκευτούν σε βοηθητικό-ενδιάμεσο αρχείο για μελλοντική χρήση Σημείωση 21: για κάθε λέξη του κειμένου που αναγνωρίζει ο tagger επιστρέφει εκτός από το PoS-tag που περιγράφει τη γραμματική κατηγορία της λέξης και το λήμμα (δηλ, τον πρώτο κλιτικό τύπο) της λέξης Η διαδικασία αυτή ονομάζεται λημματοποίηση (lemmatization), την εκτελεί by default ο Tagger και ουσιαστικά συγχωνεύει σε έναν τύπο (λήμμα) όλες τις κλιτικές μορφές μιας λέξης Για παράδειγμα, το λήμμα παιδί συγχωνεύει τους κλιτικούς τύπους παιδιού, παιδιά, παιδιών 3 Αναπαράσταση κειμένων στο Μοντέλο Διανυσματικού Χώρου (15%) Για να αναπαραστήσετε το περιεχόμενο κάθε κειμένου ως διάνυσμα θα χρησιμοποιήσετε τα μορφοσυντακτικά σχολιασμένα κείμενα (που θα προκύψουν από το βήμα 2) και αρχικά θα αφαιρέσετε τους τερματικούς όρους (stop-words) από κάθε κείμενο Οι τερματικοί όροι είναι λέξεις που δεν έχουν σημασιολογικό περιεχόμενο και εμφανίζονται σε όλα τα κείμενα, με αποτέλεσμα να μην αποτελούν χρήσιμους όρους δεικτοδότησης Σημείωση 31: στο παρακάτω link http://wwwinfogisticscom/tagsethtml θα βρείτε δύο πίνακες, έναν με τα PoS tags για open class categories και έναν με τα PoS tags για closed class categories Τα open class categories είναι γραμματικές κατηγορίες των λέξεων που έχουν σημασιολογικό περιεχόμενο και άρα τις χρειαζόμαστε Αντίθετα, τα closed class categories είναι γραμματικές κατηγορίες για λέξεις άνευ σημασιολογικού περιεχομένου, δηλ, stop-words Συνεπώς, για να εξαλείψετε τους τερματικούς όρους από κάθε μορφοσυντακτικά σχολιασμένο κείμενο της συλλογής θα πρέπει να αφαιρέσετε τις λέξεις στις οποίες έχει ανατεθεί ένα closed class category tag Αφού αφαιρέσετε τους τερματικούς όρους από κάθε κείμενο της συλλογής, στη συνέχεια για κάθε μοναδικό λήμμα του κειμένου θα μετρήσετε τη συχνότητα εμφάνισής του στο κείμενο (πόσες φορές εμφανίζεται το λήμμα και όχι η λέξη) και θα δημιουργήσετε ένα νέο αρχείο για κάθε κείμενο, κάθε γραμμή του οποίου θα είναι της μορφής: Λήμμα PoS_tag συχνότητα_εμφάνισης (freq) Για παράδειγμα ένα μέρος του αρχείου θα μπορούσε να είναι apple N 4 sell V 6 το οποίο σημαίνει πως στο κείμενο βρέθηκε το λήμμα apple 4 φορές και το λήμμα sell 6 φορές Σημείωση 32: Για τις λέξεις που ο tagger επιστρέφει λήμμα unknown (ανεξάρτητα από το αν τους έχει δώσει κάποιο PoS tag ή όχι) δεν θα πρέπει να αποθηκεύεται στο αρχείο το λήμμα unknown Σημείωση 33: Φροντίστε να μετατρέπετε όλους τους χαρακτήρες των λημμάτων σε πεζούς, έτσι ώστε να αποφύγετε να ομαδοποιήσετε λάθος τα λήμματα 4 Δημιουργία ανεστραμμένου ευρετηρίου (20%) Στο βήμα αυτό θα δημιουργήσετε το ανεστραμμένο ευρετήριο για τη συλλογή κειμένων Συγκεκριμένα, για όλα τα κείμενα της συλλογής θα επιλέξετε τα μοναδικά λήμματα που εμφανίζονται στη συλλογή Για κάθε ένα από τα λήμματα της συλλογής θα εντοπίσετε τα κείμενα στα οποία εμφανίζεται από την έξοδο του προηγούμενου βήματος καθώς και τη συχνότητα εμφάνισης του λήμματος στο κάθε κείμενο Η δομή αποθήκευσης που θα επιλέξετε για το ανεστραμμένο ευρετήριο θα έχει συνεπώς εγγραφές της μορφής: <λήμμα, {<docid1, freq1>, <docid2, freq2>, }>

Σημείωση 41: δεν είναι αναγκαίο να δημιουργήσετε ξεχωριστό αρχείο εξόδου για το βήμα αυτό καθώς το ευρετήριο δεν θα είναι ολοκληρωμένο Η ολοκλήρωσή του θα γίνει στο επόμενο βήμα οπότε και θα είναι έτοιμο να φορτωθεί στη μνήμη Αν όμως, κρίνετε αναγκαίο βάσει του σχεδιασμού σας να δημιουργήσετε ενδιάμεσο αρχείο εξόδου για το βήμα 4 μπορείτε να το κάνετε αφού αιτιολογήσετε την επιλογή σας Σημείωση 42: Προσοχή! Ο τρόπος με τον οποίο θα σχεδιάσετε την υλοποίηση του βήματος 4 παίζει πολύ σημαντικό ρόλο στην αποδοτικότητα της αναζήτησης κειμένων στο ευρετήριο 5 Ανάθεση βαρών τους όρους του ευρετηρίου (20%) Χρησιμοποιήστε τη μετρική TF- IDF και υπολογίστε για κάθε λήμμα του ευρετηρίου το βαθμό σπουδαιότητάς του (βάρος) για κάθε κείμενο της συλλογής στο οποίο περιέχεται Στο τέλος του βήματος αυτού το ευρετήριό σας θα πρέπει να έχει τη μορφή: <λήμμα, {<docid1, weight1>, <docid2, weight2>, }> όπου το weight θα είναι μια τιμή που θα υπολογίζει η μετρική TF-IDF Σημείωση 51: Για τον υπολογισμό του IDF χρησιμοποιούμε log10 και το βάρος κάθε λήμματος θα υπολογίζετε για κάθε κείμενο στο οποίο εμφανίζεται Καλείστε να αποθηκεύσετε το ευρετήριο σας σε μορφή XML η οποία θα είναι ως εξής: <inverted_index> <lemma name= orange > </lemma> <document id= 1 weight= 04 /> <document id= 2 weight= 034 /> <lemma name= apple > </lemma> </inverted_index> <document id=1 weight= 065 /> <document id=2 weight= 087 /> <document id=3 weight= 045 /> Επίσης καλείστε να υλοποιήσετε τη λειτουργία φόρτωσης του ευρετηρίου απευθείας από xml αρχείο της προηγούμενης μορφής, έτσι ώστε αν έχει υπολογιστεί το ευρετήριο να μην απαιτείται η επανάληψη όλων των βημάτων για τη δημιουργία του 6 Αξιολόγηση ευρετηρίου (10%) Υλοποιήστε έναν απλό μηχανισμό υποβολής ερωτημάτων στο ευρετήριο σας Ο μηχανισμός θα δέχεται input από τον χρήστη ένα ερώτημα (που θα αποτελείται από ένα ή περισσότερα λήμματα), το οποίο θα ταυτοποιεί (με χρήση string matching) στα λήμματα του ευρετηρίου και θα επιστρέφει στο χρήστη τα ids των κειμένων τα οποία περιέχουν το λήμμα ή τα λήμματα του ερωτήματος Προσοχή! Η λίστα των κειμένων που θα επιστρέφεται θα πρέπει να είναι ταξινομημένη σε φθίνουσα σειρά με βάση το TF-IDF βάρος που έχει το λήμμα του ερωτήματος για το κάθε κείμενο Αν το ερώτημα έχει περισσότερα από ένα λήμματα, η ταξινόμηση θα γίνεται με βάση το άθροισμα των βαρών των λημμάτων που εντοπίστηκαν στο κείμενο Για να ελέγξετε την ορθότητα του μηχανισμού ερωτημάτων, κατεβάστε το αρχείο querytxt το οποίο περιέχει μια λίστα ερωτημάτων (ένα ερώτημα ανά γραμμή) Υποβάλλετε στο ευρετήριό σας τα ερωτήματα και υπολογίστε τον χρόνο απόκρισης του ευρετηρίου για όλα τα ερωτήματα συνολικά Υπολογίστε το μέσο χρόνο απόκρισης του ευρετηρίου διαιρώντας το συνολικό χρόνο που μετρήσατε με τον αριθμό των ερωτημάτων Αν οι χρόνοι είναι πολύ μικροί για να μετρηθούν, επαναλάβατε πολλές φορές πριν υπολογίσετε το μέσο χρόνο και

διαιρέστε το συνολικό χρόνο με τις φορές επανάληψης του πειράματος επί τον αριθμό των ερωτημάτων Καταγράψτε επίσης για κάθε ένα από τα ερωτήματα που περιέχονται στην λίστα τα πρώτα 10 αποτελέσματα και το βάρος του κάθε αποτελέσματος Σημείωση 61: Προσοχή! Μην συνυπολογίσετε στη μέτρηση των χρόνων την είσοδο ή την έξοδο από αρχείο Πριν αρχίσετε να μετράτε χρόνο θα πρέπει να έχετε φορτώσει στη μνήμη όλα τα ερωτήματα και μπορείτε να γράψετε τα αποτελέσματα σε αρχείο μόνο αφού έχετε ολοκληρώσει τη μέτρηση του χρόνου Το I/O σε αρχείο είναι δυσανάλογα μεγαλύτερο από τους υπολογισμούς στη μνήμη Παραδοτέα Άσκησης Α 1 Ο πηγαίος κώδικας για την εκτέλεση όλων των παραπάνω βημάτων Ο σχολιασμός του κώδικα να γίνει απαραίτητα σε επίπεδο συναρτήσεων (λειτουργία, ορίσματα, έξοδος) αλλά και εσωτερικά των συναρτήσεων όπου κρίνεται αναγκαίο για να γίνει κατανοητός 2 Μια σύντομη αναφορά που να περιγράφει πώς ακριβώς εργαστήκατε σε κάθε βήμα 3 Δώστε το συνολικό αριθμό λημμάτων της συλλογής και τον αριθμό των μοναδικών λημμάτων της συλλογής αφού απαλειφθούν τα stop-words 4 Τα tokenized κείμενα (το αρχείο που θα προκύψει στο τέλος του βήματος 1) 5 Τα PoS tagged κείμενα (το αρχείο που θα προκύψει στο τέλος του βήματος 2) 6 Τη διανυσματική αναπαράσταση των κειμένων (το αρχείο που θα προκύψει στο τέλος του βήματος 3) 7 Το ανεστραμμένο ευρετήριο της συλλογής κειμένων σε XML (το αρχείο που θα προκύψει στο τέλος του βήματος 5) 8 Δώστε το μέσο χρόνο απόκρισης του ευρετηρίου σας για όλα τα ερωτήματα που περιέχονται στο αρχείο querytxt 9 Καταγράψτε για κάθε ερώτημα του αρχείου querytxt τα 10 πρώτα αποτελέσματα (docids) και το βάρος που έχουν οι όροι του ερωτήματος σε κάθε αποτέλεσμα

ΑΣΚΗΣΗ Β Εφαρμογή Τεχνικών Σύγκρισης Ομοιότητας Κειμένων Πολλές φορές διαφορετικά κείμενα περιέχουν πανομοιότυπο περιεχόμενο με άλλα λόγια, είτε το ένα είναι ακριβές αντίγραφο του άλλου, είτε μέρος τους ενός κειμένου περιέχεται αυτούσιο σε άλλο κείμενο Για να υπολογίσουμε την επανάληψη περιεχομένου μεταξύ δύο κειμένων χρησιμοποιούμε τη μετρική containment, η οποία υπολογίζει το ποσοστό ενός κειμένου που περιέχεται αυτούσιο σε κάποιο άλλο κείμενο και παίρνει τιμές μεταξύ 0 και 1, όπου η τιμή 0 δηλώνει πως τα δύο εξεταζόμενα κείμενα είναι εντελώς διαφορετικά και η τιμή 1 δηλώνει πως τα δύο εξεταζόμενα κείμενα είναι ακριβώς ίδια! Για να εφαρμοστεί η μετρική containment πρέπει να αναπαραστήσουμε το περιεχόμενο κάθε κειμένου σε w-shingles, όπου ένα w-shingle είναι ένα μοναδικό σύνολο w διαδοχικών στοιχείων Για παράδειγμα, έστω το κείμενο: This Αν θέλουμε να αναπαραστήσουμε το περιεχόμενό του σε w-shingles όπου w =4 θα είχαμε την ακόλουθη αναπαράσταση: this is a beautiful a day Σκοπός της άσκησης είναι να υπολογίσετε το ποσοστό επανάληψης πληροφορίας στα κείμενα που χρησιμοποιήσατε για το πρώτο μέρος της άσκησης Βήματα Υλοποίησης 1 Αναπαράσταση κειμένων σε w-shingles (15%) Αναπαραστήστε το περιεχόμενο κάθε tokenized κειμένου που αποθηκεύσατε στο αρχείο εξόδου του βήματος 1 του προηγούμενου μέρους της άσκησης σε w-shingles, μεγέθους 4 (w = 4) Κάθε κείμενο το περιεχόμενο του οποίου θα αναπαραστήσετε με 4-shingles θα το αποθηκεύσετε σε ξεχωριστό αρχείο εξόδου, το οποίο θα περιέχει ένα shingle ανά γραμμή (όπως φαίνεται και στο παράδειγμα παραπάνω) Επίσης μετατρέψτε όλα τα κεφαλαία γράμματα σε πεζά σε όλες τις λέξεις που διαβάζετε 2 Υπολογισμός επανάληψης περιεχομένου σε κείμενα - containment (5%) Επιλέξτε τα πέντε μεγαλύτερα κείμενα (σε αριθμό λέξεων) και υπολογίστε το ποσοστό του περιεχομένου τους που επαναλαμβάνεται (περιέχεται) στα υπόλοιπα κείμενα της συλλογής Σημείωση 21: Προσοχή! Στο Β μέρος της άσκησης χρησιμοποιούμε λέξεις και όχι λήμματα, συνεπώς δουλεύουμε με τα tokenized texts, δηλ, το αρχείο εξόδου του βήματος 1 του πρώτου μέρους Για τον υπολογισμό της επανάληψης περιεχομένου χρησιμοποιήστε τη μετρική containment η οποία δίνεται από τον τύπο: Containment = ( ) ( ) V ( A) V A V Collection A όπου V ( A) είναι το σύνολο των 4-shingles του κειμένου Α, V ( Collection A) είναι το σύνολο των 4-shingles της υπόλοιπης συλλογής, δηλαδή όλα τα κείμενα εκτός από το Α, V ( A) V ( Collection A) είναι τα 4-shingles του κειμένου Α τα οποία επαναλαμβάνονται (περιέχονται) στην υπόλοιπη συλλογή

Σημείωση 22:Για τον υπολογισμό του Containment ενός κειμένου (έστω Α) θα πρέπει να διαβάσετε όλα τα αρχεία με τα 4-shingles των υπολοίπων κειμένων (όλων εκτός από το Α) να τα συμπεριλάβετε σε ένα σύνολο και να σχηματίσετε το V Collection A ( ) Παράδειγμα: έστω ότι έχουμε το κείμενο Α με περιεχόμενο: Α = He said that this Monday Η αναπαράσταση του Α σε 4-shingles είναι: V ( A ) he said that this said that this Monday that this Monday is this Monday is a Monday is a beautiful a day Έστω ότι τα 4-shingles των υπολοίπων κειμένων είναι: V ( Collection A) this is a beautiful a day Στο παράδειγμα, τα shingles του κειμένου Α που περιέχονται αυτούσια στα υπόλοιπα κείμενα της συλλογής (Collection A), είναι: ( ) ( ) V A V Collection A a day Συνεπώς, το Containment του κειμένου Α στα υπόλοιπα κείμενα της συλλογής θα είναι: Containment = 5/10 = 05 (50%) Σύμφωνα με τα παραπάνω, υπολογίστε το ποσοστό που το περιεχόμενο σε καθένα από τα 5 μεγαλύτερα κείμενα επαναλαμβάνεται (Containment) στα υπόλοιπα κείμενα της συλλογής και αποθηκεύστε τα αποτελέσματα σας σε ένα αρχείο Παραδοτέα Άσκησης B 10 Ο πηγαίος κώδικας για την εκτέλεση όλων των παραπάνω βημάτων Ο σχολιασμός του κώδικα να γίνει απαραίτητα σε επίπεδο συναρτήσεων (λειτουργία, ορίσματα, έξοδος) αλλά και εσωτερικά των συναρτήσεων όπου κρίνεται αναγκαίο για να γίνει κατανοητός 11 Τα 4-shingles για κάθε κείμενο της συλλογής (το αρχείο που θα προκύψει στο τέλος του βήματος 1 του Β μέρους της άσκησης)

12 το ποσοστό Containment των 5 μεγαλύτερων κειμένων στα υπόλοιπα κείμενα της συλλογής (αποτέλεσμα βήματος 2 του Β μέρους της άσκησης) Διαδικαστικά θέματα Ημερομηνία Παράδοσης: Φεβρουάριος 2010 (η ακριβής ημερομηνία θα ανακοινωθεί στο forum) Η άσκηση είναι των 2 ατόμων και υποχρεωτική Οι δηλώσεις των ομάδων θα γίνουν μέχρι 11/12 έπειτα από σχετική ανακοίνωση Σε περίπτωση που κάποιος επιθυμεί να δουλέψει μόνος του ή σε συνεργασία με άλλα 2 άτομα θα πρέπει να το δηλώσει όπως θα υποδειχτεί σε σχετική ανακοίνωση Ασκήσεις που θα παραδοθούν εκπρόθεσμα δεν γίνονται δεκτές Προσοχή, στην εργασία που θα παραδώσετε να αναγράφεται το όνομά σας, το επίθετό σας, το ΑΜ σας και το έτος σπουδών σας Κάθε απάντηση να είναι αιτιολογημένη Τυχόν απορίες και ερωτήσεις, παρακαλώ να κοινοποιούνται μέσω forum προκειμένου να γνωστοποιούνται σε όλους οι απαντήσεις τους Η τελική βαθμολογία στο μάθημα θα προκύψει κατά 80% από την επίδοσή σας στην άσκηση (υλοποίηση και προφορική εξέταση στα ερωτήματα) και κατά 20% από την επίδοσή σας στην προφορική εξέταση στην ύλη που καλύπτουν οι διαλέξεις του μαθήματος Η βαθμολογική συμμετοχή των επιμέρους ερωτημάτων της άσκησης (μέρος Α και Β ) φαίνεται στην εκφώνηση ΚΑΛΗ ΕΠΙΤΥΧΙΑ!!