Περιγραφή των Δεδομένων

Σχετικά έγγραφα
Διαχείριση Δικτύων (ΕΠ 17) Εαρινό Εξάµηνο Εργασία Εξαµήνου, Ηµεροµηνία Παράδοσης: Ηµέρα Εξέτασης Μαθήµατος (25/6/2015)

Διαγραφή Επιλέγετε Διαγραφή για να διαγράψετε μία ήδη υπάρχουσα διαδικασία εισαγωγής ASCII

dtw(a, B) = dtw(a n, B m )

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Π ΑΝΕΠΙΣΤΗΜΙΟ Π ΑΤΡΩΝ Π ΟΛΥΤΕΧΝΙΚΗ Σ ΧΟΛΗ Τ ΜΗΜΑ Μ ΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ Π ΛΗΡΟΦΟΡΙΚΗΣ Κ ΑΤΑΝΕΜΗΜΕΝΑ Σ ΥΣΤΗΜΑΤΑ ΙΙ

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

Διαχείριση Βάσης Δεδομένων (dbadmin)

Φύλλο Εργασίας. Θέμα : Περπατώντας στο Πήλιο Θέλετε να οργανώσετε έναν ορειβατικό περίπατο από την Αγριά στην Δράκεια Πηλίου.

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Nearest Neighbor Analysis

Οδηγίες Χρήσης. Εισαγωγή. Δεδομένα του Συστήματος

Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών Τομέας Ηλεκτρονικής και Υπολογιστών ΤΗΜΜΥ Α.Π.Θ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ.

Λειτουργίες Πληροφοριακού Συστήματος Διασφάλισης Ποιότητας. Οδηγίες εξαγωγής στοιχείων για μέλη ΟΜΕΑ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Ανάπτυξη Λογισμικού για Δίκτυα και Τηλεπικοινωνίες. Χειμερινό εξάμηνο

Εργαστήριο Σημασιολογικού Ιστού

ΜΟΝΑΔΕΣ ΑΡΙΣΤΕΙΑΣ ΑΝΟΙΧΤΟΥ ΛΟΓΙΣΜΙΚΟΥ

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών Τομέας Ηλεκτρονικής και Υπολογιστών. ΤΗΜΜΥ Α.Π.Θ Δευτέρα 22 / 11 / 2017 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

Σχεδιασμός εκτυπώσεων ERG

Μηχανική Μάθηση Εργασία 2

ΚΤΙΡΙΑΚΕΣ ΥΠΟΔΟΜΕΣ Α.Ε. Οδηγίες χρήσης Τελικού Χρήστη (Σ.Μ.) του Πληροφοριακού Συστήματος ηλεκτρονικής διαχείρισης Αιτημάτων. v1.

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Tech village School. Ακολουθούν δομές και σχέδια του εκπαιδευτικού προγράμματος: Σελίδα 1 από 7

Εργαστήριο Σημασιολογικού Ιστού

Εκτύπωση Γενικού Ημερολογίου

ΤΕΙ ΛΑΜΙΑΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ

Λογισμική Εφαρμογή Διαχείρισης Ερωτηματολογίων ΟΔΗΓΟΣ ΧΡΗΣΗΣ System Συμβουλευτική Α.Ε

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Σχεδιασμός εκτυπώσεων ERG

Ενδεικτικές Ερωτήσεις Θεωρίας

Εξόρυξη Γνώσης από Βιολογικά εδομένα

39 40'13.8"N 20 51'27.4"E ή , καταχωρουνται στο gps ως

Σενάριο 14: Προγραμματίζοντας ένα Ρομπότ ανιχνευτή

Διαχείριση Πολιτισμικών Δεδομένων

Παράλληλη Επεξεργασία Εργαστηριακή Ασκηση Εαρινού Εξαµήνου 2008

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΕΙΔΙΚΟΤΗΤΑ: ΤΕΧΝΙΚΟΣ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΑΘΗΜΑ: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Βραχυπρόθεσμη τοπική μετεωρολογική πρόγνωση με αναζήτηση ανάλογων καταστάσεων

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ. Εφαρμογή κατασκευής Προγράμματος εξεταστικών περιόδων. εφαρμογής

Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία. Πέτρος Ποτίκας CoReLab 4/5/2006

ΠΑΡΑΔΟΤΕΟ 4. ΕΚΠΑΙΔΕΥΣΗ ΧΡΗΣΤΩΝ

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) INTERMEDIATE

ΕΦΑΡΜΟΓΕΣ ΔΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ


ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) INTERMEDIATE Επεξεργασία Κειμένου ΕΚΔΟΣΗ 1.0. Διεύθυνση: Ασκληπιού 18 Τηλέφωνο:

Νέα ευέλικτη λίστα εργαζομένων

Σύμβαση 457 ΟΠΣ Πολιτικής Προστασίας. Εγχειρίδιο Χρήσης Εφαρμογής Γεωγραφικής Απεικόνισης (Version: 1.0)

Α.Τ.Ε.Ι. Ηρακλείου Ψηφιακή Επεξεργασία Εικόνας ιδάσκων: Βασίλειος Γαργανουράκης. Ανθρώπινη Όραση - Χρωµατικά Μοντέλα

Οδηγίες εξαγωγής στοιχείων για Διδάσκοντες με πρόσβαση στο Π.Σ.ΔΙ.Π. Σεπτέμβριος 2018

ΕΞΕΤΑΣΤΕΑ ΥΛΗ Key CERT: ΥΠΟΛΟΓΙΣΤΙΚΑ ΦΥΛΛΑ

ΤΕΙ ΗΠΕΙΡΟΥ MΗΝΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Τ.Ε. ΤΕΙ ΗΠΕΙΡΟΥ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ EΦΑΡΜΟΓΗ ΜΕΘΟΔΩΝ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΒΑΣΙΛΕΙΟΣ ΤΡΑΝΤΟΣ

Μέρος Α Περιβάλλον Εργασίας Windows Εργαστηριακή Άσκηση 1 Το Γραφικό Περιβάλλον του Υπολογιστή... 21

ΚΤΙΡΙΑΚΕΣ ΥΠΟΔΟΜΕΣ Α.Ε. Οδηγίες Λειτουργίας Πληροφοριακού Συστήματος ηλεκτρονικής διαχείρισης Αιτημάτων. v1.3 (23/11/2014)

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Δομές Δεδομένων Εργαστηριακή Άσκηση Γκόγκος Νίκος Α.Μ.: 4973 Έτος: 3 ο gkogkos@ceid.upatras.gr. Εισαγωγικά:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΕΞΕΤΑΣΤΕΑ ΥΛΗ KeyCERT EXPERT: ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΟΥ. Έκδοση 2.0

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

25SMEs2009 ΠΑΡΑΔΟΤΕΑ ΕΝΟΤΗΤΑΣ ΕΡΓΑΣΙΩΝ 5: ΟΛΟΚΛΗΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ. 5.1 Ολοκλήρωση Υποσυστημάτων Πλατφόρμας Διαχείρισης Αισθητήρων

Στο grid διαχείρισης φακέλων εμφανίζονται οι εξής πληροφορίες:

Management Classes Create Class Create Class Management Classes List of Classes

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) INTERMEDIATE

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΠΛΑΤΦΟΡΜΑΣ OPENSMS

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Microsoft EXCEL ΛΟΓΙΣΤΙΚΑ ΦΥΛΛΑ ECDL. Περιεχόμενα. Απόκτησε τώρα το δίπλωμα. για να θεωρείσαι Επαγγελματίας! 1 Χρήση της Εφαρμογής.

Ημερομηνία Παράδοσης: 4/1/2013

Διαχείριση εγγράφων MICROSOFT OFFICE WORD

ΣΕΤ ΑΣΚΗΣΕΩΝ 2. Προθεσµία: 25/11/12, 22:00

ΔΡΑΣΗ 2: Καταγραφή της υφιστάμενης κατάστασης των ελαιοτριβείων και των περιοχών διάθεσης αποβλήτων ελαιοτριβείων στην Κρήτη ΠΑΡΑΔΟΤΕΟ 2Γ:

ΗΥ240: Δομές Δεδομένων Εαρινό Εξάμηνο Ακαδημαϊκό Έτος 2018 Διδάσκουσα: Παναγιώτα Φατούρου Προγραμματιστική Εργασία - 1o Μέρος

Σχέδιο μαθήματος Συγκρούσεις και φυσικοί πόροι στην Αφρική Φύλλο εργασίας

Πληροφορική & Τηλεπικοινωνίες. K18 - Υλοποίηση Συστημάτων Βάσεων Δεδομένων Χειμερινό Εξάμηνο

Σειρά Προβλημάτων 1 Λύσεις

ΑΡΧΕΙΟ ΕΚΘΕΣΕΩΝ ΠΡΑΓΜΑΤΟΓΝΩΜΟΣΥΝΗΣ ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ 8 ΝΟΕΜΒΡΙΟΥ 2014

Εισαγωγή ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ

Καταχώρηση Αποδείξεων

Ημερομηνία Ανάρτησης: 08/1/2018 Ημερομηνία Παράδοσης: - Αρχές Γλωσσών Προγραμματισμού

Εκτελέστε τις παρακάτω ενέργειες και απαντήστε στις ερωτήσεις που ακολουθούν

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών ΑΕΙ

Scan HRMS: Module Εντοπισμός & Επιλογή Προσωπικού Σύνοψη Βασικών Λειτουργιών Ver. 26 Oct. 2015

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Tech village School. Κωδικός Πακέτου: Word Εκπαιδευτική Ενότητα: 2. Επεξεργασία Κειμένου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΑΣΚΗΣΗ 4 Υλοποίηση Εφαρμογής Εστιατορίου (take-away)

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Τεχνητή Νοημοσύνη ΙΙ. Εργαστηριακή Άσκηση 3. Μουστάκας Κωνσταντίνος. Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστων

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ ΠΡΟΓΡΑΜΜΑΤΟΣ GPRS 1. ΟΔΗΓΙΕΣ ΕΓΚΑΤΑΣΤΑΣΗΣ GOOGLE EARTH

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών ΑΕΙ

Μοντελοποίηση Συστημάτων

Φάσμα προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Συνεργείο Αυτοκινήτων

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ LIVETRIP TRAVELLER

ΑΣΚΗΣΗ 3 ΑΣΚΗΣΗ 4 ΑΣΚΗΣΗ 5

Transcript:

Τεχνικές Εξόρυξης Δεδομένων Μεγάλης Κλίμακας Χειμερινό Εξάμηνο 2017-2018 1η Άσκηση, Ημερομηνία παράδοσης: Έναρξη Εξεταστικής Χειμερινού Εξαμήνου Ομαδική Εργασία (2 Ατόμων) Σκοπός της εργασίας Σκοπός της εργασίας είναι η εξοικείωσή σας με τα βασικά στάδια της διαδικασίας που ακολουθούνται για την εφαρμογή τεχνικών εξόρυξης δεδομένων, ήτοι: συλλογή, προ-επεξεργασία / καθαρισμός, μετατροπή, εφαρμογή τεχνικών εξόρυξης δεδομένων και αξιολόγηση. Η υλοποίηση θα γίνει στην γλώσσα προγραμματισμού Python με την χρήση του εργαλείου SciKit Learn. Περιγραφή των Δεδομένων Η εργασία σχετίζεται με την κατηγοριοποίηση χωροχρονικών δεδομένων (τροχιές λεωφορείων). Τα Dataset δίνονται σε αρχεία CSV. Οι διαφορετικές στήλες είναι διαχωρισμένες με τον χαρακτήρα,. Δίνονται δυο αρχεία: 1. train_set.csv : Το αρχείο αυτό θα χρησιμοποιηθεί για να εκπαιδεύσετε τους αλγόριθμους σας και περιέχει τα εξής πεδία: JourneyPatternId : Η γραμμή που ακολουθούσε το λεωφορείο, η τιμή αυτή εμπεριέχει τις διαφορετικές κατευθύνσεις κάθε γραμμής (πχ. 224-0: ΕΛ.ΒΕΝΙΖΕΛΟΥ - ΚΑΙΣΑΡΙΑΝΗ και 224-1: ΚΑΙΣΑΡΙΑΝΗ - ΕΛ.ΒΕΝΙΖΕΛΟΥ ). VehicleID : Ένας unique αριθμός ο οποίος προσδιορίζει κάθε όχημα. Τimestamp : Ο χρόνος που καταγράφηκε το στίγμα GPS του λεωφορείου. Longitude : To γεωγραφικό μήκος του στίγματος. Latitude: To γεωγραφικό πλάτος του στίγματος. 2. test_set.csv test_set_a1.csv test_set_a2.csv : Τα αρχεία αυτά θα χρησιμοποιηθούν για να κάνετε προβλέψεις για δεδομένα διαφορετικά από αυτά που χρησιμοποιήσατε για την εκπαίδευση των μοντέλων σας. Το αρχεία αυτά περιέχουν σε κάθε γραμμή τη διαδρομή μιας τροχιάς. Το Format της τροχιάς στα αρχεία είναι το παρακάτω: [[t 1, lon 1, lat 1 ], [t 2, lon 2, lat 2 ],..., [t N, lon N, lat N ]]

t 1 : η χρονική στιγμή που καταγράφηκε το στίγμα. lon 1 : To γεωγραφικό μήκος του στίγματος. lat 1 : To γεωγραφικό πλάτος του στίγματος. [ t i, lon i, lat i ] είναι το i -στο σημείο της τροχιάς. N : το πλήθος των σημείων της τροχιάς. Ερώτημα 1 (Α) Προ-επεξεργασία των Δεδομένων Στο σημείο αυτό καλείστε να εξάγετε από το αρχείο εκπαίδευσης τις διαφορετικές διαδρομές (trips) που ακολούθησε κάθε όχημα. Η κάθε διαδρομή αποτελείται από το ταξινομημένο σύνολο των στιγμάτων που στάλθηκαν από κάθε όχημα κατά τη διάρκεια μιας διαδρομής (JourneyPatternId). Πιο συγκεκριμένα θα πρέπει να εντοπίσετε για κάθε όχημα πότε ξεκινάει και ολοκληρώνεται μια διαδρομή (εναλλαγή του πεδίου JourneyPatternId). Στο παρακάτω παράδειγμα φαίνονται τρεις διαφορετικές διαδρομές για το όχημα 41564. JourneyPatternId VehicleID Τimestamp Longitude Latitude 224-1 41564 t 0 lon 0 lat0 224-1 41564 t 1 lon 1 lat1 224-0 41564 t 2 lon 2 lat2 224-0 41564 t 3 lon 3 lat3 224-0 41564 t 4 lon 4 lat4 224-0 41564 t 5 lon 5 lat5 224-1 41564 t 6 lon 6 lat6 224-1 41564 t 7 lon 7 lat7 Πίνακας 1: Στίγματα των λεωφορείων Τελικά θα πρέπει να αποθηκεύσετε τις διαφορετικές διαδρομές που εξάγατε με το όνομα trips.csv. Θα πρέπει να ακολουθήσετε το παρακάτω format: T ripid; JourneyP atternid; [[t 1, lon 1, lat 1 ], [t 2, lon 2, lat 2 ],..., [t N, lon N, lat N ]] TripId : Μοναδικός αριθμός της τροχιάς που εξήχθη. JourneyPatternId : Η γραμμή στην οποία υπάγεται η τροχιά.

[[t 1, lon 1, lat 1 ], [t 2, lon 2, lat 2 ],..., [t N, lon N, lat N ]] : Η ακολουθία των σημείων της τροχιάς συνοδευόμενα από τον χρόνο. Σύμφωνα με τον Πίνακα 1 θα πρέπει να εξαχθούν και να αποθηκευτούν στο αρχείο trips.csv οι παρακάτω διαδρομές: 0 224-1 [[t 0, lon 0, lat 0 ], [ t 1, lon 1, lat 1 ]] 1 224-0 [[t 2, lon 2, lat 2 ], [ t 3, lon 3, lat 3 ], [ t 4, lon 4, lat 4 ], [ t 5, lon 5, lat 5 ]] 2 224-1 [[t 6, lon 6, lat 6 ], [ t 7, lon 7, lat 7 ]] Πίνακας 2: Διαφορετικές διαδρομές που εντοπίστηκαν από τα στίγματα του Πίνακα 1 (Β) Καθαρισμός των Δεδομένων Στο σημείο αυτό καλείστε να απομακρύνετε προβληματικές-θορυβώδεις τροχιές από το αρχείο trips.csv. Για να το κάνετε αυτό θα πρέπει για κάθε τροχεία να εξάγετε τις παρακάτω τιμές: TotalDistance: Το συνολικό μήκος της διαδρομής (σε χιλιόμετρα). MaxDistance: Η μέγιστη απόσταση μεταξύ δύο διαδοχικών σημείων (σε χιλιόμετρα). Τελικά θα πρέπει να αφαιρέσετε από το dataset όσες διαδρομές έχουν TotalDistance μικρότερο από 2km και όσες διαδρομές έχουν MaxDistance μεγαλύτερο από 2km. Αποθηκεύσετε τις διαδρομές που απέμειναν σε ένα νέο αρχείο με όνομα tripsclean.csv. Καταγράψτε στην αναφορά σας: Πόσες διαδρομές υπήρχαν συνολικά στο dataset trips.csv. Πόσες διαδρομές διαγράφονται εφαρμόζονται κάθε φίλτρο ξεχωριστά. Πόσες διαδρομές παραμένουν τελικά στο tripsclean.csv. (Γ) Οπτικοποίηση των Δεδομένων Στο σημείο αυτό καλείστε να οπτικοποιήσετε 5 διαδρομές από διαφορετικές γραμμές λεωφορείων (journeypatternid), όπως φαίνεται στην παρακάτω εικόνα. Για την οπτικοποίηση μπορείτε να χρησιμοποιήσετε τη βιβλιοθήκη της Python gmplot.

Ερώτημα 2 (Α-1) Εύρεση κοντινότερων γειτόνων Στο σημείο αυτό καλείστε να εντοπίσετε τους κοντινότερους γείτονες χρησιμοποιώντας την τεχνική Dynamic Time Warping (DTW). Θα σας δοθεί το αρχείο test_set_a1.csv το οποίο θα περιέχει ένα σύνολο από διαδρομές. Για κάθε μια από τις διαδρομές αυτές θα πρέπει να βρείτε τους 5 κοντινότερος γείτονες από το dataset tripsclean.csv. Οι γεωγραφικές αποστάσεις ανάμεσα σε δυο σημεία GPS θα πρέπει να υπολογιστούν με τον τύπο Harversine εκφρασμένες σε km. Για κάθε μια από τις διαδρομές του αρχείου test_set_a1.csv θα πρέπει να παρουσιάσετε τα παρακάτω: Το JourneyPatternId για κάθε έναν από τους γείτονες που εντοπίστηκαν. Την DTW απόσταση με κάθε έναν από τους 5 γείτονες. Την οπτικοποίηση της διαδρομής που εξετάστηκε και επίσης την οπτικοποίηση των πέντε γειτόνων (6 εικόνες). Το χρόνο που απαιτήθηκε από το το πρόγραμμα σας για τον εντοπισμό των πλησιέστερων γειτόνων. Χρησιμοποιήστε το παρακάτω format για την παρουσίαση των αποτελεσμάτων σας.

Test Trip 1 Neighbor 1 DTW: 20.5km Neighbor 2 DTW: 20.7km Neighbor 3 DTW: 24km Neighbor 4 DTW: 24.5km Neighbor 5 DTW: 25.5km (Α-2) Εύρεση κοντινότερων υποδιαδρομών Στο σημείο αυτό θα σας δοθεί το αρχείο test_set_a2.csv το οποίο περιέχει ένα σύνολο από διαδρομές. Καλείστε για κάθε μια από αυτές να εντοπίσετε τα k κομμάτια των διαδρομών (του αρχείου tripsclean.csv ) που είναι παρόμοια. Στο ερώτημα αυτό θα χρησιμοποιήσετε την τεχνική Longest Common Subsequence (LCSS). Δυο σημεία θα γίνονται match εάν η απόσταση του δε ξεπερνάει τα 200m. Οι γεωγραφικές αποστάσεις ανάμεσα σε δυο σημεία GPS θα πρέπει να υπολογιστούν με τον τύπο Harversine εκφρασμένες σε km. Για κάθε μια από τις διαδρομές του αρχείου test_set_a2.csv θα πρέπει να παρουσιάσετε τα παρακάτω: Το JourneyPatternId για κάθε έναν από τους γείτονες που εντοπίστηκαν. Τον αριθμό των σημείων που έχουν γίνει match με κάθε έναν από τους 5 γείτονες. Την οπτικοποίηση της διαδρομής που δίνεται και επίσης την οπτικοποίηση των πέντε πλησιέστερων υποδιαδρομών που εντοπίστηκαν με κόκκινο χρώμα και με πράσινο χρώμα ολόκληρη τη διαδρομή του γείτονα (6 εικόνες).

Το χρόνο που απαιτήθηκε από το το πρόγραμμα σας για τον εντοπισμό των πλησιέστερων γειτόνων. Χρησιμοποιήστε το παρακάτω format για την παρουσίαση των αποτελεσμάτων σας. Test Trip 1 Neighbor 1 #Matching Points: 25 Neighbor 2 #Matching Points: 22 Neighbor 3 #Matching Points: 16 Neighbor 4 #Matching Points: 16 Neighbor 5 #Matching Points: 7 (Β) Εξαγωγή των Features για Κατηγοριοποίηση Σε αυτό το ερώτημα θα πρέπει να εφαρμόσετε ένα δισδιάστατο Grid στις συντεταγμένες των διαδρομών, προκειμένου να τις αναπαραστήσετε σαν ένα σύνολο από κελιά. Για παράδειγμα, αν οι συντεταγμένες ενός σημείου πέφτουν στο κελί C1,1 του Grid, τότε το σημείο θα αντικατασταθεί με το C1,1. Για παράδειγμα η διαδρομή που ακολουθεί το λεωφορείο στην παρακάτω εικόνα μπορεί να αναπαρασταθεί από την παρακάτω ακολουθία κελιών του Grid:

C0,2;C1,3;C1,4;C1,5;C2,6;C3,6;C4,6;C5,7;C5,6;C6,6 (Γ) Κατηγοριοποίηση Σε αυτό το ερώτημα θα πρέπει να δοκιμάσετε τις παρακάτω 3 μεθόδους Classification για να εντοπίσετε το JourneyPatternId ενός trip: K-Nearest Neighbors. Logistic Regression Random Forest Θα πρέπει να χρησιμοποιήσετε την αναπαράσταση των trips (η οποία βασίζεται στο Grid) που βρήκατε στο παραπάνω ερώτημα για να εκπαιδεύσετε τους κατηγοριοποιητές. Επίσης θα πρέπει να αξιολογήσετε και να καταγράψετε την απόδοση κάθε μεθόδου χρησιμοποιώντας 10-fold Cross Validation χρησιμοποιώντας τη μετρική Accuracy. Beat the Benchmark Τέλος θα πρέπει να πειραματιστείτε με όποια μέθοδο Classification θέλετε, κάνοντας οποιαδήποτε προ-επεξεργασία στα δεδομένα επιθυμείτε με στόχο να ξεπεράσετε όσο περισσότερο μπορείτε την απόδοση σας στο προηγούμενο ερώτημα. Θα πρέπει αναλυτικά να τεκμηριώσετε τα βήματα που ακολουθήσατε. Το καλύτερο μοντέλο σας θα πρέπει να χρησιμοποιηθεί για την πρόβλεψη των γραμμών των διαδρομών που περιέχονται στο αρχείο test_set.csv. Τις προβλέψεις σας θα πρέπει να τις εισάγετε στο αρχείο testset_journeypatternids.csv. Το format του αρχείου

testset_journeypatternids.csv, το οποίο θα περιέχει τις κατηγορίες των άρθρων που δίνονται στο Test set φαίνεται παρακάτω: Test_Trip_ID Predicted_JourneyPatternID 1 224-0 2 250-0... Για το αρχείο testset_journeypatternids.csv θα πρέπει να χρησιμοποιηθεί αυστηρά η παραπάνω μορφοποίηση διαχωρίζοντας τα δυο πεδία με τον χαρακτήρα TAB ( \t ) και επίσης θα πρέπει στην πρώτη γραμμή να υπάρχουν οι δυο επικεφαλίδες (Test_Trip_ID και Predicted_JourneyPatternID) και ακολούθως οι προβλέψεις του μοντέλου σας στις επόμενες γραμμές διευκρινίζοντας το ID της διαδρομής από το test set και το αντίστοιχο JourneyPatternID. Σχετικά με το παραδοτέο Ο φάκελος που θα παραδώσετε θα έχει το όνομα Ass1_όνοματεπώνυμο1_ΑΜ1_ονοματεπώνυμο2_ΑΜ2. O φάκελος θα περιέχει: 1. Ένα κείμενο με τον σχολιασμό στα πειράματα που κάνατε και στις μεθόδους που δοκιμάσατε σε μορφή PDF. Η αναφορά σας θα πρέπει να περιέχει και τα αποτελέσματα και δε θα πρέπει να ξεπερνάει τις 30 σελίδες. 2. Τα ζητούμενα αρχεία εξόδου. 3. Τους χρόνους εκτέλεσης για τα ερωτήματα 2-(Α1), 2-(Α2) και 2-(Γ). 4. Τα αρχεία κώδικα που γράψατε. Το εκτενές κείμενο που θα παραδώσετε, θα περιέχει την περιγραφή των δοκιμών σας και οτιδήποτε σκεφτείτε για να δείξετε τι δοκιμές κάνατε, για ποιο λόγο έχουν τα συγκεκριμένα αποτελέσματα οι μέθοδοι που επιλέξατε, πως λειτουργούν αυτές οι μέθοδοι και σχολιασμό των αποτελεσμάτων σας. Όλες οι εργασίες θα αξιολογηθούν στη βάση της σωστής τεκμηρίωσης και στο βαθμό που υλοποιούν τα ζητούμενα της εργασίας.