Δουλεύοντας με messy data cleaning - filtering. Ανδρέας Βέγλης καθηγητής

Σχετικά έγγραφα
ΠΛΗ21 Κεφάλαιο 2. ΠΛΗ21 Ψηφιακά Συστήματα: Τόμος Α Κεφάλαιο: 2 Δυαδική Κωδικοποίηση

ΘΕΜΑ : ΣΥΣΤΗΜΑΤΑ ΑΡΙΘΜΗΣΗΣ. ΔΙΑΡΚΕΙΑ: 1 περιόδους. 22/1/ :11 Όνομα: Λεκάκης Κωνσταντίνος καθ. Τεχνολογίας

Εισαγωγή στους Η/Υ. Γιώργος Δημητρίου. Μάθημα 7 και 8: Αναπαραστάσεις. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

Αριθμητικά Συστήματα

Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές. 5 ο Μάθημα. Λεωνίδας Αλεξόπουλος Λέκτορας ΕΜΠ. url:

Αναπαράσταση Δεδομένων. ΜΥΥ-106 Εισαγωγή στους Η/Υ και στην Πληροφορική

Εισαγωγή στον Προγραμματισμό

Προγραμματισμός Υπολογιστών

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

Μάθημα 2: Παράσταση της Πληροφορίας

Κ15 Ψηφιακή Λογική Σχεδίαση 2: Δυαδικό Σύστημα / Αναπαραστάσεις

Τετάρτη 5-12/11/2014. ΣΗΜΕΙΩΣΕΙΣ 3 ου και 4 ου ΜΑΘΗΜΑΤΟΣ ΕΙΔΙΚΟΤΗΤΑ: ΤΕΧΝΙΚΟΣ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΑΘΗΜΑ: ΑΡΧΙΤΕΚΤΟΝΙΚΗ Η/Υ Α ΕΞΑΜΗΝΟ

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

[2] Υπολογιστικά συστήματα: Στρώματα. Τύποι δεδομένων. Μπιτ. επικοινωνία εφαρμογές λειτουργικό σύστημα προγράμματα υλικό

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού

ΠΟΙΟΤΙΚΟΣ ΕΛΕΓΧΟΣ ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΑΠΟΔΟΣΕΩΝ ΣΤΗΝ ΟΡΟΛΟΓΙΚΗ ΒΑΣΗ ΙΑΤΕ ΑΠΘ. 5η ΣΥΝΑΝΤΗΣΗ ΕΛΛΗΝΟΦΩΝΩΝ ΜΕΤΑΦΡΑΣΕΟΛΟΓΩΝ

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Αναπαράσταση δεδομένων

Εισαγωγή στη Βιοπληροφορική

Data & Open Technologies A Perfect Combination Introduction Lecture

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 9 ο : Σύνολα χαρακτήρων και UNICODE. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Αριθμητικά Συστήματα Η ανάγκη του ανθρώπου για μετρήσεις οδήγησε αρχικά στην επινόηση των αριθμών Κατόπιν, στην επινόηση συμβόλων για τη παράσταση

Κατανόηση των βασικών σημείων των διευθύνσεων TCP/IP και της

2ο ΓΕΛ ΑΓ.ΔΗΜΗΤΡΙΟΥ ΑΕΠΠ ΘΕΟΔΟΣΙΟΥ ΔΙΟΝ ΠΡΟΣΟΧΗ ΣΤΑ ΠΑΡΑΚΑΤΩ

Πανεπιστήμιο Πατρών Τμήμα Φυσικής Εργαστήριο Ηλεκτρονικής. Ψηφιακά Ηλεκτρονικά. Αριθμητικά Συστήματα. Επιμέλεια Διαφανειών: Δ.

HTTP API v1.6 SMSBOX.GR HTTP API v

ΕΙΣΑΓΩΓΗ ΣΤOΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΚΕΦΑΛΑΙΟ 12: Επίλυση Προβλημάτων Δικτύων Εισαγωγή

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΥΠΟΛΟΓΙΣΤΩΝ & ΥΠΟΛΟΓΙΣΤΙΚΗ ΦΥΣΙΚΗ

Αλγοριθμική & Δομές Δεδομένων- Γλώσσα Προγραμματισμού Ι (PASCAL)

Αναπαράσταση Μη Αριθμητικών Δεδομένων

! Δεδομένα: ανεξάρτητα από τύπο και προέλευση, στον υπολογιστή υπάρχουν σε μία μορφή: 0 και 1

ATHENS athens.theodi.org

Δεδομένα & Αναπαράσταση Πληροφορίας

ATHENS athens.theodi.org

Paper 3 Reading and Understanding 1GK0/3F or 3H

ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΚΑΙ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

Κεφάλαιο 6 Εισαγωγή στον Προγραμματισμό. 26-Jun-15 ΑΕΠΠ - Καραμαούνας Π. 1

Εισαγωγή στην Επιστήμη των Υπολογιστών

Οδηγίες χρήσης Aspen Plus 7.1

Έλεγχος ορθογραφίας. Ορισμός γλώσσας

Διαμοιρασμός δεδομένων & γλωσσικών πόρων: τεχνικά ζητήματα. Πένυ Λαμπροπούλου ΙΕΛ/ΕΚ "ΑΘΗΝΑ"

Συμβολική γλώσσα Εκπαιδευτικού Υπολογιστή - Λογισμικό Υπολογιστών

Αρχιτεκτονική υπολογιστών

Συστήματα Αρίθμησης. Συστήματα Αρίθμησης 1. PDF created with FinePrint pdffactory Pro trial version

ΚΕΦΑΛΑΙΟ 10 ΥΠΟΠΡΟΓΡΑΜΜΑΤΑ

Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά.

Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών H/Y Department of Electrical and Computer Engineering. Εργαστήριο 8. Χειμερινό Εξάμηνο

Αναφορά εργασιών για το τρίμηνο Μάρτιος 2013 Μάιος 2013 Όνομα : Παπαχριστόπουλος Λεωνίδας

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον κεφ.6 Εισαγωγή στον Προγραμματισμό

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Ανανέωση και ενημέρωση. Της ελληνικής μετάφρασης του. Bash Guide for Beginners. Ελένη Φραγκιαδάκη

Γιάννης Σαμωνάκης. 1 ο ΣΧΟΛΕΙΟ ΚΩΔΙΚΑ «Βασικά Θέματα Προγραμματισμού στην Ανάπτυξη Δυναμικών Διαδικτυακών Εφαρμογών» (Part 4 - PHP)

Αλγόριθμος. Αλγόριθμο ονομάζουμε τη σαφή και ακριβή περιγραφή μιας σειράς ξεχωριστών οδηγιών βημάτων με σκοπό την επίλυση ενός προβλήματος.

Μάθημα Εισαγωγή στις Τηλεπικοινωνίες Κωδικοποίηση πηγής- καναλιού Μάθημα 9o

Older Children Preparing for GCSE

ΥΠΟΛΟΓΙΣΤΕΣ Ι. Τα επιμέρους τμήματα Η ΟΜΗ TOY ΥΠΟΛΟΓΙΣΤΗ. Αναπαράσταση μεγεθών. Αναλογική αναπαράσταση ΚΕΝΤΡΙΚΗ ΜΝΗΜΗ ΜΟΝΑ Α ΕΛΕΓΧΟΥ

Μετάβαση από MS Office / Commercial Programs σε OpenOffice - OpenSource Programs Migration Plan...

1 η Θεµατική Ενότητα : Δυαδικά Συστήµατα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ. Ακαδημαϊκό Έτος: ΣΗΜΕΙΩΣΕΙΣ ΕΠΙΧΕΙΡΗΣΙΑΚΗΣ ΕΡΥΕΝΑΣ ΓΙΑ ΤΟΥΣ ΦΟΙΤΗΤΕΣ ΤΟΥ Ε.Α.Π.

Διάλεξη 3η: Τύποι Μεταβλητών, Τελεστές, Είσοδος/Έξοδος

Υπολογιστές Ι. Άδειες Χρήσης. Εισαγωγή. Διδάσκοντες: Αν. Καθ. Δ. Παπαγεωργίου, Αν. Καθ. Ε. Λοιδωρίκης

Έλεγχος του εγγράφου και της διάταξης εμφάνισης περιθώρια, μέγεθος γραμματοσειράς, μορφοποίησης και ορθογραφία

Λίγα λόγια από το συγγραφέα Κεφάλαιο 1: Microsoft Excel Κεφάλαιο 2: Η δομή ενός φύλλου εργασίας... 26

ΠΡΟΤΕΙΝΟΜΕΝΗ Μεθοδολογια Αξιολογησης Διαδικασιας Πιστοποιησης

Chapter 2. Εντολές : Η γλώσσα του υπολογιστή. (συνέχεια) Η διασύνδεση Υλικού και λογισμικού David A. Patterson και John L.

Διαδικασιακός Προγραμματισμός

1: Λογισμικό μετατροπής λόγου σε κείμενο (Ελληνική γλώσσα) Δυνατότητα αναγνώρισης προηχογραφημένης ομιλίας και από αρχεία wav

ΔΙΟΙΚΗΣΗ ΕΡΓΩΝ Ο Ρ Ι Σ Μ Ο Ι Γ Ε Ν Ι Κ Ε Σ Ε Ν Ν Ο Ι Ε Σ. ΡΟΜΠΟΓΙΑΝΝΑΚΗΣ ΙΩΑΝΝΗΣ, PhD.

ΜΥΥ- 402 Αρχιτεκτονική Υπολογιστών Φροντιστήριο: MIPS assembly

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

1 ο ΕΡΓΑΣΤΗΡΙΟ ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

Προγραμματισμός Υπολογιστών & Υπολογιστική Φυσική

2. ΓΕΝΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ (ΠΕΡΙΒΑΛΛΟΝ ΑΝΑΠΤΥΞΗΣ ΚΑΙ ΛΕΙΤΟΥΡΓΙΑΣ)

Προγραμματισμός I (Θ)

ΚΕΦΑΛΑΙΟ 7 ΕΙ Η, ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ

Η. ΠΙΘΑΝΑ ΕΡΩΤΗΜΑΤΑ

Δομές Δεδομένων και Αλγόριθμοι

Τμήμα Λογιστικής. Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές. Μαθήματα 6 και 7 Αναπαράσταση της Πληροφορίας στον Υπολογιστή. 1 Στέργιος Παλαμάς

Β1.1 Αναπαράσταση Δεδομένων και Χωρητικότητα Μονάδων Αποθήκευσης

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Μετάβαση από MS Office / Commercial Programs σε OpenOffice - OpenSource Programs Migration Plan...

Εφαρμογές Πληροφορικής

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ιάλεξη 12

Εισαγωγή στον Προγραμματισμό

Chapter 2. Εντολές : Η γλώσσα του υπολογιστή. (συνέχεια) Η διασύνδεση Υλικού και λογισμικού David A. Patterson και John L.

Πληροφορική 2. Βάσεις Δεδομένων (Databases)

Εισαγωγή στη Fortran. Μάθημα 1 ο. Ελευθερία Λιούκα

Αρχιτεκτονική Λογισμικού

Υποστήριξη Erasmus+ MT+ (Mobility Tool +)

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. Αρχιτεκτονική-Ι. Ενότητα 1: Εισαγωγή στην Αρχιτεκτονική -Ι

Ενότητα εκπαίδευσης και κατάρτισης για τις δεξιότητες ηγεσίας

Οδηγό ς Σχ. Έτόυς

SMPcache. Ένα εργαλείο για προσομοίωση-οπτικοποίηση κρυφής μνήμης (Cache)

Εγχειρίδιο Λεξικού i. Εγχειρίδιο Λεξικού

Α. Ερωτήσεις Ανάπτυξης

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (3)

Στις παρακάτω οδηγίες αναλύεται η διαδικασία εισαγωγής δεδομένων μέσω του εργαλείου FastImport.

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων

(Εικόνα 1) Αφού εγκατασταθεί το λογισμικό κάνουμε κλικ πάνω στο εικονίδιο IP Reporting, το οποίο βρίσκεται στην επιφάνεια εργασίας.

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Transcript:

Δουλεύοντας με messy data cleaning - filtering Ανδρέας Βέγλης καθηγητής

Περιεχόμενο δεδομένων Σπάνια τα δεδομένα που συλλέγουμε μπορούν να χρησιμοποιηθούν άμεσα. Συνήθη προβλήματα Κωδικοποίηση χαρακτήρων Δεκαδικό διαχωριστικό Ορθογραφικά λάθη

Κωδικοποίηση χαρακτήρων Μη σωστή κωδικοποίηση δεν είναι δυνατή η ανάγνωση των δεδομένων Ορίζοντας την κωδικοποίηση χαρακτήρων: Υπολογιστές αναπαριστούν τα πάντα με μηδενικά και μονάδες (αριθμούς και γράμματα). Χαρακτήρας 1 byte με τιμή από το 1 έως το 255 (00000001-11111111). Κάθε γράμμα της αλφαβήτου και τα άλλα σύμβολα αναπαριστούνται με ένα τέτοιο byte. a 97, b 98, c 99 έως το 127 είναι τα αγγλικά Διαφορές στην κωδικοποίηση των χαρακτήρων ανάμεσα σε διαφορετικές χώρες (από το 128 έως το 255): Στα Γαλλικά το character code 201 είναι το É Ενώ στα Ρωσικά ο character code 201 το Щ

Εύρεση της σωστής κωδικοποίησης UTF-8 η στάνταρ κωδικοποίηση που χρησιμοποιείται σήμερα. Χρήση του εργαλείου ανοικτού κώδικα Open Refine.

Open Refine Open source εργαλείο http://openrefine.org Portable εφαρμογή (δεν απαιτεί εγκατάσταση) Προσφέρει πολλές δυνατότητες επίλυσης προβλημάτων messy data

Αλλαγή κωδικοποιήσεων άμεσα

Δεκαδικό διαχωριστικό Άλλες χώρες χρησιμοποιούν το, και άλλες την. Χρήση function μετατροπής στο Open Refine: Replace(value,,,. ) Δήλωση αριθμών στο Refine

Εισαγωγή αρχείου.csv με κωδικοποίηση UTF-8 στο Excel Δεδομένα Λήψη εξωτερικών δεδομένων από κείμενο οδηγός εισαγωγής (καθορισμός παραμέτρων)

Διόρθωση ορθογραφικών λαθών Αποτέλεσμα: Καθαρισμός των δεδομένων Δυνατότητα για συγκρίσεις

Παράδειγμα Data project Slate gun data (Slate) Periscopic Gun deaths in the USA data

Μη σωστές τιμής και διπλοεγγραφές Πως εντοπίζουμε μη σωστές τιμές στα δεδομένα Πως διορθώνουμε τις μη σωστές τιμές καθώς και τις διπλοεγγραφές.

Μη σωστές τιμές Πρόβλημα στη διαδικασία εισαγωγής δεδομένων. Ορθογραφικά λάθη. Παράδειγμα: Mapped: Every Protest on the Planet Since 1979

Διπλοεγγραφές Παράδειγμα, αριθμός μεταλλίων σε Ολυμπιακούς αγώνες. Assessment of Italian schools at risk in case of an earthquake

Προχωρημένες τεχνικές καθαρισμού δεδομένων Χρήστη τεχνικών πληθοπορισμού για τον καθαρισμό δεδομένων. Σωστή οργάνωση των δεδομένων σε μορφή (format) βάσης δεδομένων

Παραδείγματα χρήσης πληθοπορισμού για καθαρισμό δεδομένων Free the Files: Help ProPublica Unlock Political Ad Spending (καλή εφαρμογή) Διαμοιρασμός δεδομένων προς καθαρισμό μέσω google spreasheet (μη καλή εφαρμογή).

Καλή εφαρμογή

Κακή εφαρμογή

Εργαλεία για χρήση πληθοπορισμού για καθαρισμό/διόρθωση δεδομένων Crowdcrafting Open Knowledge Foundation. Υποστηρίζει τη δημιουργία μικρών διεργασιών για το κοινό. Επιτρέπει την αντιγραφή και τη προσαρμογή γνωστών διεργασιών Amazon Mechanical Turk Παρόμοια λογική Υποστηρίζει την αμοιβή των χρηστών που συμμετέχουν.

Crowdcrafting

Συμβουλές Καθορίστε ακριβώς την μέθοδο καθαρισμού των δεδομένων. Δεν είναι σίγουρο ότι οι συμμετέχοντες χρήστες θα βρούνε τις μη σωστές καταχωρήσεις. Μπορεί να χρειαστεί να καθαρίσετε ξανά αυτά που επεξεργάστηκαν οι χρήστες. Ο Πληθοπορισμός είναι ενδιαφέρουσα τεχνική αλλά δεν μπορεί να είναι η στάνταρ μέθοδός σας για καθαρισμό δεδομένων.

Η περίπτωση των Μεγάλων Συνόλων Δεδομένων (Big Data Sets) Ο τρόπος που τα αντιμετωπίζουμε είναι διαφορετικός από την περίπτωση των μικρών σετ δεδομένων. Χωρισμός των δεδομένων σε πολλούς συνδεδεμένους πίνακες. Διευκολύνει το καθαρισμό των δεδομένων.