Μάθηµα 1 ο. Ανάλυση εδοµένων µε τη Γλώσσα R

Σχετικά έγγραφα
ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

ΣΥΛΛΟΓΗ ΚΑΙ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ Ε ΟΜΕΝΩΝ

Εισαγωγή στη Στατιστική

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

Περιγραφική Στατιστική

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΗΝ ΑΠΟΤΙΜΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309

Ενότητα 1: Πληθυσμός και δείγμα Είδη Μεταβλητών - Περιγραφική στατιστική

Περιγραφική Στατιστική. Ακαδ. Έτος ο εξάμηνο. Κ. Πολίτης

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Περιγραφική Στατιστική

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

2) Περιγραφή ιακριτών Ποσοτικών εδοµένων

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Ειδικά Γραφήµατα. Κεφάλαιο Γραφήµατα Trellis

ΚΑΤΑΝΟΜΈΣ. 8.1 Εισαγωγή. 8.2 Κατανομές Συχνοτήτων (Frequency Distributions) ΚΕΦΑΛΑΙΟ

6 / 4 / Βιοστατιστικός, MSc, PhD

Μάθηµα 3 ο. Περιγραφική Στατιστική

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

ν ν = 6. όταν είναι πραγµατικός αριθµός.

ν ν = 6. όταν είναι πραγµατικός αριθµός.

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

ΙΕΡΕΥΝΗΣΗ ΤΗΣ ΑΚΡΙΒΕΙΑΣ ΤΩΝ ΗΜΟΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Α4. Να χαρακτηρίσετε τις προτάσεις που ακολουθούν, γράφοντας στο τετράδιό σας δίπλα στο γράµµα που αντιστοιχεί σε κάθε πρόταση, τη λέξη Σωστό, αν η

15, 11, 10, 10, 14, 16, 19, 18, 13, 17

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Οι δείκτες διασποράς. Ένα παράδειγµα εργασίας

Είδη Μεταβλητών. κλίµακα µέτρησης

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

Μέρος 1ο. Περιγραφική Στατιστική (Descriptive Statistics)

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

SPSS. Βασικά στοιχεία

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

Στατιστική Επιχειρήσεων Ι

2.5. Τα 16 τµήµατα ενός Λυκείου έχουν τους Οι αποστάσεις (σε Km) των Σε ένα κυκλικό διάγραµµα παριστάνονται

Βασικές έννοιες. Παραδείγµατα: Το σύνολο των φοιτητών που είναι εγγεγραµµένοι

ΗΜΟΣΘΕΝΕΙΟ ΓΕΝΙΚΟ ΛΥΚΕΙΟ ΠΑΙΑΝΙΑΣ Γ ΛΥΚΕΙΟΥ ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

ΚΕΦΑΛΑΙΟ. 1. α. Tι ονοµάζεται συνάρτηση από το σύνολο Α στο σύνολο Β; β. Tι ονοµάζεται πραγµατική συνάρτηση πραγµατικής µεταβλητής;

Ποσοτική & Ποιοτική Ανάλυση εδοµένων Βασικές Έννοιες. Παιδαγωγικό Τµήµα ηµοτικής Εκπαίδευσης ηµοκρίτειο Πανεπιστήµιο Θράκης Αλεξανδρούπολη

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

30 / 3 /

Α. Έστω δύο σύνολα Α και Β. Ποιά διαδικασία ονομάζεται συνάρτηση με πεδίο ορισμού το Α και πεδίο τιμών το Β;

2 ο Εξάμηνο του Ακαδημαϊκού Έτους ΟΔ 055 ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΙΣ ΚΟΙΝΩΝΙΚΕΣ ΕΠΙΣΤΗΜΕΣ Διδασκαλία: κάθε Τετάρτη 12:00-15:00 Ώρες διδασκαλίας (3)

Ποσοτική & Ποιοτική Ανάλυση εδομένων Βασικές Έννοιες. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ

ÖÑÏÍÔÉÓÔÇÑÉÏ ÈÅÌÅËÉÏ ÇÑÁÊËÅÉÏ ÊÑÇÔÇÓ

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

ειγµατοληπτική κατανοµή

Στατιστική Εισαγωγικές Έννοιες

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Γνωριμία με τον προγραμματισμό μέσω της γλώσσας R Στοιχεία Περιγραφικής Στατιστικής

Ενότητα 3 η : Περιγραφική Στατιστική Ι. Πίνακες και Γραφικές παραστάσεις. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής

Εργασία στο µάθηµα Ανάλυση εδοµένων

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Ανάλυση ποσοτικών δεδομένων. ΕΡΓΑΣΤΗΡΙΟ 2 ΔΙΟΙΚΗΣΗ & ΚΟΙΝΩΝΙΚΟΣ ΣΧΕΔΙΑΣΜΟΣ ΣΤΗΝ ΤΟΞΙΚΟΕΞΆΡΤΗΣΗ Dr. Ρέμος Αρμάος

στατιστική θεωρεία της δειγµατοληψίας

Τυχαία μεταβλητή (τ.μ.)

Η ψηφιακή τεχνολογία στην ερευνητική δραστηριότητα Θέματα κουίζ. Υψηλάντης Γεώργιος, Βαβούρας Θεόδωρος Τμήμα Ιταλικής Γλώσσας & Φιλολογίας

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

ΦΑΚΕΛΟΣ ΜΑΘΗΜΑΤΟΣ. Μάθημα: Χρήση Νέων Τεχνολογιών στην Κοινωνική Έρευνα. Παραδείγματα Εφαρμογών [Σεμινάριο]

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Σκοπός του μαθήματος

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΧΡΗΣΗ SPSS

ÖÑÏÍÔÉÓÔÇÑÉÏ ÈÅÌÅËÉÏ ÇÑÁÊËÅÉÏ ÊÑÇÔÇÓ

Στατιστική. Βασικές έννοιες

Για το Θέμα 1 στα Μαθηματικά Γενικής Παιδείας Γ Λυκείου

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΥΗΣΕΩΝ ΚΑΙ ΝΕΟΓΝΩΝ

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

3. Κατανομές πιθανότητας

Παράδειγμα. Χρονολογικά δεδομένα. Οι πωλήσεις μιας εταιρείας ανά έτος για το διάστημα (σε χιλιάδες $)

Transcript:

Μάθηµα 1 ο Ανάλυση εδοµένων µε τη Γλώσσα R Στο πρώτο µάθηµα θα ασχοληθούµε µε την καταχώρηση και την προκαταρκτική ανάλυση των στατιστικών δεδοµένων µε τη γλώσσα στατιστικού προγραµµατισµού R. http://compus.uom.gr/inf238/index.php 1

Η γλώσσα R Η γλώσσα R Η γλώσσα R είναι ελεύθερο λογισµικό, δέστε τις ιστοσελίδες http://www.r-project.org/ http://lib.stat.cmu.edu/r/cran/ http://lib.stat.cmu.edu/modules.php?op=mo dload&name=downloads&file=index&req=views download&sid=27 Η δοµή της R είναι πολύ κοντά στης S, βλ. Προγραµµατισµός µε R, Παπαναστασίου.pdf. http://compus.uom.gr/inf238/index.php 2

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Στατιστικά εδοµένα Στατιστικά δεδοµένα προκύπτουν: Από απογραφές, που περιλαµβάνουν τις σχετικές πληροφορίες για ολόκληρο τον πληθυσµό. Αν και στην πράξη καµιά απογραφή δεν είναι τέλεια, θεωρούµε ότι τα στατιστικά µέτρα που προκύπτουν µετρούν το µέγεθος που µας ενδιαφέρει ακριβώς, όσο είναι το αληθινό, χωρίς σφάλµα, και τότε λέγονται παράµετροι του πληθυσµού. http://compus.uom.gr/inf238/index.php 3

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Από δείγµατα, που αντλούν τις ίδιες πληροφορίες από ένα κατάλληλα επιλεγµένο υποσύνολο του πληθυσµού. Μετρούν τα στατιστικά µέτρα που µας ενδιαφέρουν µε σφάλµα λόγω δειγµατοληψίας. Τότε λέµε ότι αποτελούν (δειγµατικές) εκτιµήσεις της παραµέτρου. Ένα βασικό µέρος της στατιστικής θεωρίας ασχολείται µε το µέγεθος των σφαλµάτων σε διάφορα σχήµατα δειγµατοληψίας. http://compus.uom.gr/inf238/index.php 4

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα ιακρίνουµε τα στατιστικά δεδοµένα σε Πρωτογενή, που συλλέγουµε κατευθείαν από τις στατιστικές µονάδες, πχ ερωτηµατολόγια απογραφής, µέτρηση κυκλοφορίας στο δρόµο µε κατάλληλη συσκευή, κλπ. ευτερογενή, που τα έχει συλλέξει και καταχωρήσει σε κάποια µορφή τρίτος, άτοµο ή φορέας, πχ η Ελληνική Στατιστική Αρχή, EuroStat, κλπ, και τα χρησιµοποιούµε για το αντικείµενο που ερευνούµε. http://compus.uom.gr/inf238/index.php 5

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Στατιστικά εδοµένα για το Μάθηµα Στη συνέχεια του µαθήµατος θεωρούµε ότι έχουµε δόκιµα στατιστικά δεδοµένα στη διάθεσή µας και δεν εξετάζουµε πως έχουν συλλεχθεί. Για το µάθηµα συχνά θα χρησιµοποιούµε ως παράδειγµα (µελέτη περίπτωσης) τα δεδοµένα των επιβατικών αυτοκινήτων, Cars.txt. Επίσης, θα χρησιµοποιούµε δεδοµένα από το βιβλίο των Heiberger, R. M. and B. Holland, Statistical Analysis and Data Display, An Intermediate Course with Examples in S- Plus, R, and SAS, Springer, NY, 2004 όπου κάθε φορά θα αναφέρουµε το όνοµα του αρχείου. Τα δεδοµένα του µαθήµατος θα τα βρείτε σε µορφή.txt στο CoMPUs>ΣΤΑΤΙΣΤΙΚΗ II>Έγγραφα >DATA_SETS_txt http://compus.uom.gr/inf238/index.php 6

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Όλα τα δεδοµένα και τον σχετικό R κώδικα από το βιβλίο Heiberger and Holland (2004) µπορείτε να τα κατεβάσετε από http://www.springer.com/statistics/statistical+theory+and+methods/book/978-0-387-40270-3 http://compus.uom.gr/inf238/index.php 7

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Μερικές Περιπτώσεις Στατιστικών εδοµένων Τα δεδοµένα των αυτοκινήτων Τα δεδοµένα των επιβατικών αυτοκινήτων, είναι γνωστά ως ένα καλό σύνολο δεδοµένων για εκπαίδευση στη στατιστική ανάλυση δεδοµένων, µεταξύ άλλων βλ. http://lib.stat.cmu.edu/ datasets/cars.desc. Τα δεδοµένα που περιλαµβάνονται στο αρχείο Cars.txt είναι από τη βάση δεδοµένων που συµπεριλαµβάνεται στο πακέτο SPSS για εκπαιδευτικούς λόγους. Περιλαµβάνει 406 περιπτώσεις επιβατικών αυτοκινήτων, για το κάθε ένα από τα οποία καταγράφονται οι επόµενες οκτώ πληροφορίες-µεταβλητές. http://compus.uom.gr/inf238/index.php 8

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα 1. κατανάλωση βενζίνης, σε µίλια ανά γαλόνι, (MPG) 2. κυβισµός, σε κυβικές ίντσες, (ENGINE) 3. ιπποδύναµη, (HORSE) 4. βάρος, σε λίβρες, (WEIGHT) 5. επιτάχυνση, δευτερόλεπτα για 70 µίλια, (ACCEL) 6. έτος κατασκευής, (YEAR) 7. περιοχή προέλευσης, Αµερική:1, Ευρώπη:2, Ιαπωνία:3, (ORIGIN) 8. αριθµός κυλίνδρων, (CYLINDER) http://compus.uom.gr/inf238/index.php 9

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Ο αντίστοιχος R κώδικας είναι > # Τα δεδοµένα των αυτοκινήτων > # Εισάγουµε δεδοµένα από αρχείο > Cars=read.table("c:\\Cars.txt",header=T) > attach(cars) > names(cars) [1] "MPG" "ENGINE" "HORSE" "WEIGHT" "ACCEL" "YEAR" "ORIGIN" "CYLINDER" > Cars MPG ENGINE HORSE WEIGHT ACCEL YEAR ORIGIN CYLINDER 1 18 307 130 3504 12 70 1 8 2 15 350 165 3693 12 70 1 8 3 18 318 150 3436 11 70 1 8... Περισσότερα για τον κώδικα R θα βρείτε στο αντίστοιχο script αρχείο, CoMPUs>ΣΤΑΤΙΣΤΙΚΗ II>Έγγραφα >ΑΡΧΕΙΑ_ΚΩ ΙΚΑ_R (Lectrure_1_Exploratory Statistics.R). http://compus.uom.gr/inf238/index.php 10

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Τα δεδοµένα προσδόκιµου ζωής Προέρχονται από το βιβλίο των Heiberger, R. M. and B. Holland, (2004), µε το όνοµα tv.dat. Τα δεδοµένα συνίστανται από 40 περιπτώσεις, όπου στην κάθε περίπτωση καταγράφεται, 1. χώρα 2. προσδόκιµο ζωής, (life.exp) 3. αριθµός τηλεοράσεων ανά κάτοικο, (ppl.per.tv) 4. αριθµός γιατρών ανά κάτοικο, (ppl.per.phys) 5. προσδόκιµο ζωής γυναικών, (fem.life.exp) 6. προσδόκιµο ζωής ανδρών, (male.life.exp) Υπάρχουν επίσης στο αρχείο tv.txt, αλλά µε τον επόµενο κώδικα διαβάζονται από τη βάση δεδοµένων που περιλαµβάνεται στο R πακέτο HH, βλ. Παράρτηµα Α: Μερικές Περιπτώσεις Στατιστικών εδοµένων. http://compus.uom.gr/inf238/index.php 11

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα > # Φορτώνουµε τη βιβλιοθήκη HH (ήδη εγκαταστηµένη) > library(hh) Loading required package: lattice > > # Από το c:\ηομε\hh\grap\code\grap.read.le.r, αντιγράφουµε > # τον επόµενο κώδικα για να διαβάσουµε τα δεδοµένα tv.dat > tv <- read.fwf(hh("datasets/tv.dat"),widths=c(22,6,7,7,4,2), +strip.white=true,na.strings="*",row.names=1) > names(tv) <- c("life.exp","ppl.per.tv","ppl.per.phys", + "fem.life.exp","male.life.exp") > tv life.exp ppl.per.tv ppl.per.phys fem.life.exp male.life.exp Argentina 70.5 4.0 370 74 67 Bangladesh 53.5 315.0 6166 53 54 Brazil 65.0 4.0 684 68 62... http://compus.uom.gr/inf238/index.php 12

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Καταχώρηση Καταχώρηση Τα στατιστικά στοιχεία τα φανταζόµαστε σαν ένα πίνακα, όπου γραµµές είναι οι περιπτώσεις (cases) ή παρατηρήσεις και στήλες είναι οι µεταβλητές (variables), ή αποκρίσεις, ή µετρήσεις, πχ δες το αρχείο Cars.txt. Αυτός είναι ο συνήθης τρόπος που καταχωρούνται στοιχεία στο Excel, στο SPSS (IBM SPSS Statistics 19), και άλλα στατιστικά πακέτα, αλλά δεν είναι ο µοναδικός. Όταν βρίσκουµε στοιχεία σε κάποια πηγή, να διαβάζουµε προσεκτικά τις οδηγίες για το πώς είναι καταχωρηµένα. Επίσης να προσέχουµε αν οι στήλες έχουν ονόµατα, πως δηλώνονται οι τιµές που λείπουν (missing values), κλπ. http://compus.uom.gr/inf238/index.php 13

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Καταχώρηση Καθάρισµα εδοµένων Ελέγχουµε αν έχουν µεταφερθεί σωστά τα στοιχεία του αρχείου που διαβάσαµε και η µορφή των στοιχείων (χαρακτήρες, ηµεροµηνίες, κλπ). Επίσης, µε τη βοήθεια κατάλληλων γραφικών, πχ ένα ιστόγραµµα ή ένα θηκόγραµµα, ελέγχουµε αν υπάρχουν εµφανώς λανθασµένες καταχωρήσεις από την αρχή. http://compus.uom.gr/inf238/index.php 14

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Είδη εδοµένων Ένας πρώτος τρόπος διαχωρισµού των δεδοµένων είναι µε βάση τη διάκριση σε διακριτά (discrete) και συνεχή (continuous). Στη συνέχεια θα παρουσιάσουµε το διαχωρισµό των δεδοµένων µε βάση την κλίµακα µέτρησης που µετρώνται. Σε κάθε περίπτωση, ανήκουν σε µια από τις προηγούµενες κατηγορίες. http://compus.uom.gr/inf238/index.php 15

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Είδη εδοµένων: Κλίµακες Μέτρησης, (Scales) υαδικά (count data): Μια δυαδική µεταβλητή παίρνει δυο τιµές, συνήθως καταχωρούµε 1 στην περίπτωση που έχουµε επιτυχία (success) και µε 0 την περίπτωση που έχουµε αποτυχία (failure). Παράδειγµα: Ένδειξη Νοµίσµατος:Κορώνα, Γράµµατα, Φύλο: Άνδρες, Γυναίκες http://compus.uom.gr/inf238/index.php 16

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Κατηγορικά (Categorical) ή Ονοµαστικά (Nominal) ή διακριτά (discrete) ή παράγοντες (factors) ή δεδοµένα σε κλάσεις (class data) ή αγωγές (treatments): Η κατηγορική µεταβλητή παίρνει περισσότερες από δυο διακριτές τιµές, πάντα σχετικά µικρού πλήθους, που τις λέµε κατηγορίες (categories) ή κλάσεις (classes) ή επίπεδα (levels) ή αγωγές (treatments). Στα κατηγορικά δεδοµένα δεν υπάρχει σχέση διάταξης και δεν είναι πάντα αριθµητικά. Παράδειγµα: η µεταβλητή Επάγγελµα παίρνει τις τιµές Εκπαιδευτικός, Αγρότης, Τεχνίτης, κλπ. Για ευκολία, συνήθως καταχωρούµε 1,2, κλπ. http://compus.uom.gr/inf238/index.php 17

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων ιατεταγµένα (Ordinal): Οι τιµές µπορεί να είναι κατηγορικές ή αριθµητικές, αλλά υπάρχει µόνο σχέση διάταξης και δεν ισχύουν οι συνήθεις αριθµητικές πράξεις. Παράδειγµα: Βαθµός Ικανοποίησης: καθόλου, λίγο, αρκετά, πολύ, απόλυτα Στο παράδειγµά µας, το λίγο δεν διαφέρει στην προτίµησή µας από το καθόλου όσο το καθόλου από το αρκετά. http://compus.uom.gr/inf238/index.php 18

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Σχέση ιαστήµατος (Ιnterval): Είναι αριθµητικά, υπάρχει διάταξη και ίση απόσταση µεταξύ των τιµών, αλλά όχι η έννοια του πολλαπλάσιου. Παράδειγµα: θερµοκρασίες σε C 0, χρονολογίες, βαθµοί σε σχολείο. Στο παράδειγµα των βαθµών, το 10 δεν είναι ακριβώς δυο φορές καλύτερο από το 5. Οι χρονολογίες και οι θερµοκρασίες δεν έχουν κάποια σαφή αρχή µέτρησης. http://compus.uom.gr/inf238/index.php 19

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Κλίµακος (Scale): Είναι αριθµητικά και έχουν όλες τις ιδιότητες των πραγµατικών αριθµών. Παράδειγµα: ηλικίες ατόµων, ύψη, εισοδήµατα, κλπ Τα δεδοµένα κλίµακος µπορεί να είναι διακριτά ή συνεχή. Μια διακριτή µεταβλητή έχει, συνήθως, πεπερασµένο και σχετικά µικρό αριθµό αριθµητικών τιµών, µιας συνεχής, θεωρητικά, δέχεται άπειρο αριθµό τιµών. Επειδή στην πράξη τα περισσότερα µεγέθη µετρώνται µε στρογγυλοποίηση, σε αρκετές περιπτώσεις µένει στον αναλυτή να αποφασίσει, αν θα αντιµετωπίσει τα αριθµητικά δεδοµένα του ως διακριτά ή συνεχή. http://compus.uom.gr/inf238/index.php 20

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Ένας Άλλος ιαχωρισµός Όταν σε κάθε περίπτωση µετράµε µόνο µια µεταβλητή, πχ ύψος ενός ατόµου, τα δεδοµένα λέγονται µονοµεταβλητά (univariate). Όταν µετράµε συγχρόνως περισσότερες από µια µεταβλητή σε κάθε περίπτωση, λέγονται πολυµεταβλητά (multivariate) ή διανυσµατικά, πχ για το ίδιο άτοµο παρατηρούµε συγχρόνως το ύψος, το βάρος, την ηλικία και επάγγελµά του. http://compus.uom.gr/inf238/index.php 21

Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Στρογγύλεµα Αριθµών Συλλέγουµε τα στοιχεία και κάνουµε τους βασικούς υπολογισµούς µε τη µεγαλύτερη διαθέσιµη ακρίβεια. Παρουσιάζουµε τα αποτελέσµατα σε πίνακες ή γραφήµατα µε τόσα δεκαδικά όσα είναι αρκετά να φαίνονται ευκρινώς οι διαφορές. Αυτό σηµαίνει ότι παίρνουµε υπόψη το εύρος των τιµών της µεταβλητής που εξετάζουµε. Η R κάνει υπολογισµούς διπλής ακρίβειας (double precision). http://compus.uom.gr/inf238/index.php 22

Μία Μεταβλητή: ιακριτά εδοµένα Ερώτηµα: Για τα δεδοµένα των επιβατικών αυτοκινήτων, ποια είναι η σύνθεση των αυτοκινήτων κατά περιοχή προέλευσης; http://compus.uom.gr/inf238/index.php 23

Σχηµατίζουµε τον πίνακα συχνοτήτων > # πίνακας συχνοτήτων > ORIGIN.freq=table(ORIGIN) > names(origin.freq)=c("american","european","japanese") > ORIGIN.freq American European Japanese 253 73 79 http://compus.uom.gr/inf238/index.php 24

Κατασκευάζουµε το ραβδόγραµµα > barplot(origin.freq,col=gray(seq(0.6,1.0,length=3)), axis.lty=1,main ="barchart για ORIGIN") barchart για ORIGIN 0 50 10 150 20 250 American European Japanese Εικόνα 1: Tο ραβδόγραµµα της περιοχής προέλευσης http://compus.uom.gr/inf238/index.php 25

Κατασκευάζουµε το κυκλικό διάγραµµα > windows(width=30,height=25,rescale="fixed") > pie(origin.freq,col=gray(seq(0.6,1.0,length=3)), + main="κυκλικό ιάγραµµα για ORIGIN",cex=6,cex.main=6) Κυκλικό ιάγραµµα για ORIGIN American Japanese European Εικόνα 2: Tο κυκλικό διάγραµµα της περιοχής προέλευσης http://compus.uom.gr/inf238/index.php 26

Ραβδογράµµατα σε οµάδες, CYLINDERS ως προς ORIGIN Κατά οµάδες, (Clustered) Ραβδόγραµµα Αριθµού Κυλίνδρων ανα Περιοχή Συχνότητα 0 20 40 60 80 100 American European Japanese 3 4 5 6 8 Αριθµός Κυλίνδρων Εικόνα 3: Ραβδογράµµατα κατά οµάδες http://compus.uom.gr/inf238/index.php 27

Κατά στήλες, (Stacked) Ραβδόγραµµα Αριθµού Κυλίνδρω ν ανα Περιοχή Συχνότητα 0 50 100 150 200 American European Japanese 3 4 5 6 8 Αριθµός Κυλίνδρων Εικόνα 4: Ραβδογράµµατα κατά στήλες http://compus.uom.gr/inf238/index.php 28

Μία Μεταβλητή: Συνεχή εδοµένα Ερώτηµα: Κάντε µια αναγνωριστική ανάλυση της κατανάλωσης καυσίµου, MPG, για τα δεδοµένα των επιβατικών αυτοκινήτων. http://compus.uom.gr/inf238/index.php 29

Υπολογίζουµε µερικά περιγραφικά στατιστικά > summary(mpg) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 9.00 18.00 23.00 23.56 29.00 47.00 8.00 > # ποσοστηµόρια > quantile(mpg,probs=seq(0.1,1,0.1),na.rm=t) 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 14.0 16.0 18.0 20.0 23.0 25.0 27.9 31.0 34.0 47.0 http://compus.uom.gr/inf238/index.php 30

> # Ιστόγραµµα > hist(mpg,probability=t,main="ιστόγραµµα για MPG") > rug(jitter(mpg)) Ιστόγραµµα για MPG Density 0.00 0.01 0.02 0.03 0.04 0.05 10 20 30 40 50 MPG Εικόνα 5: Το ιστόγραµµα της κατανάλωσης, MPG http://compus.uom.gr/inf238/index.php 31

> # θηκόγραµµα > boxplot(mpg,main="θηκόγραµµα για MPG",horizontal=FALSE,col="bisque") Θηκόγραµµα για MPG 10 20 30 40 Εικόνα 6: Θηκόγραµµα για την κατανάλωση βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 32

Το θηκόγραµµα παριστά τη διασπορά και την ασυµµετρία. Όταν υπάρχουν έκτοπες τιµές, (outliers), έξω από τα άκρα του, αυτό αποτελεί ένδειξη λεπτόκυρτης ή ασύµµετρης κατανοµής. http://compus.uom.gr/inf238/index.php 33

> # διάγραµµα µίσχου-φύλλων > stem(mpg) The decimal point is at the 8 0 10 000000 12 00000000000000000000000000 14 000000000000000000000000000000000000 16 000000000000000000000000000000 18 00000000000000000000000000000000000000000000000000 20 0000000000000000000000000000000 22 0000000000000000000000000000 24 00000000000000000000000000000000000 26 00000000000000000000000000000000000 28 00000000000000000000000 30 000000000000000000000000 32 0000000000000000000000 34 000000000000000000 36 000000000000000 38 000000000 40 00 42 000 44 000 46 0 Εικόνα 7: ιάγραµµα µίσχου-φύλλων για την κατανάλωση βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 34

Eξοµαλυσµένη καµπύλη (εξοµαλυντής πυρήνων) > plot(density(mpg,adjust=2,na.rm=true),main="καµπύλη Συχνοτήτων για MPG") Καµπύλη Συχνοτήτων για MPG Density 0.00 0.01 0.02 0.03 0.04 0 10 20 30 40 50 60 N = 398 Bandwidth = 4.247 Εικόνα 8: Εξοµαλυσµένη καµπύλη για την κατανάλωση βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 35

> # διάγραµµα κανονικών πιθανοτήτων > qqnorm(mpg,main="normal Q-Q Plot για MPG") > qqline(mpg) Normal Q-Q Plot για MPG Sample Quantiles 10 20 30 40-3 -2-1 0 1 2 3 Theoretical Quantiles Εικόνα 9: ιάγραµµα κανονικών πιθανοτήτων για την κατανάλωση βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 36

Υπολογίζουµε περισσότερα περιγραφικά στατιστικά µε µια δική µας συνάρτηση > stats.d(mpg) ΠΕΡΙΓΡΑΦΙΚΑ ΣΤΑΤΙΣΤΙΚΑ για MPG ΟΝΟΜΑ ΤΙΜΗ ΤΥΠ.ΣΦΑΛΜΑ αριθ. παρατηρήσεων 406 αριθ. τιµών που λείπουν 8 µέσος 23.562814 0.391629 0.05 λειασµένος µέσος 23.286111 διακύµανση 61.042644 3.730961 συν.µεταβλητότητας 0.331789 ελάχιστο 9 µέγιστο 47 διάµεσος 23 Q1 18 Q3 29 εύρος 38 ασυµµετρία 0.452009 0.122782 κύρτωση(διορθωµένη) -0.513182 0.245564 ελ-χος Shapiro-Wilk(p-τιµή) 0 http://compus.uom.gr/inf238/index.php 37

Ιστόγραµµα και Κανονική Καµπύλη ΓΡΑΦΙΚΑ για MPG Εξοµαλυσµένη Πυκνότητα Πυκνότητα 0.00 0.03 Πυκνότητα 0.00 0.02 0.04 10 20 30 40 50 0 10 20 30 40 50 60 Τιµές είγµατος Τιµές είγµατος Τιµές είγµατος 10 20 30 40 Θηκόγραµµα ειγµατικά Ποσοστηµόρια -2 0 1 2 3 qq-plot για Τυπική Κανονική -3-2 -1 0 1 2 3 Θεωρητικά Ποσοστηµόρια είκτης - Τιµή είγµατος Τιµές είγµατος 10 20 30 40 0 100 200 300 400 Εικόνα 10: Γραφική παρουσίαση των δεδοµένων της κατανάλωσης βενζίνης, MPG, σε επιβατικά αυτοκίνητα είκτης http://compus.uom.gr/inf238/index.php 38

ηµιουργούµε πίνακες αποτελεσµάτων, που ακολουθούν κάποιους κανόνες, βλ Πίνακα 1 Πίνακας 1. Περιγραφικά στατιστικά για την κατανάλωση καυσίµου στα δεδοµένα των επιβατικών αυτοκινήτων Στατιστική Τιµή Τυπικό Σφάλµα αριθµός παρατηρήσεων 406 αριθµός τιµών που λείπουν 8 µέσος 23.5628 0.3916 0.05 λειασµένος µέσος 23.2861 διακύµανση 61.0426 2.1349 συν.µεταβλητότητας 0.3318 ελάχιστο 9 µέγιστο 47 διάµεσος 23 Q1 18 Q3 29 εύρος 38 ασυµµετρία 0.452009 0.1228 κύρτωση -.513182 0.2456 Shapiro-Wilk, p-τιµή 0.0000 http://compus.uom.gr/inf238/index.php 39

Παρουσίαση Πολυµεταβλητών εδοµένων Ερώτηµα: Θέλουµε να έχουµε µια συνοπτική εικόνα συγχρόνως για τις µεταβλητές MPG, ENGINE, HORSE, WEIGHT και ACCEL για τις τρείς περιοχές προέλευσης. Υπολογίζουµε τις µέσες τιµές των µεταβλητών ανά περιοχή και τις αποδίδουµε γραφικά. Επειδή στα επόµενα γραφήµατα µε µεγάλο θέλω να παριστώ ένα καλό χαρακτηριστικό, για τις WEIGHT και ACCEL υπολογίζω και παριστώ τις αντίστροφες τιµές τους. http://compus.uom.gr/inf238/index.php 40

> means.by.origin=by(cars[,1:5],origin.f,colmeans,na.rm=true);means.by.origin ORIGIN.F: American MPG ENGINE HORSE WEIGHT ACCEL 20.18952 247.71542 119.60643 3367.32806 15.05138 ----------------------------------------------------------------------------- ORIGIN.F: European MPG ENGINE HORSE WEIGHT ACCEL 27.91429 109.46575 81.00000 2431.49315 17.02740 ----------------------------------------------------------------------------- ORIGIN.F: Japanese MPG ENGINE HORSE WEIGHT ACCEL 30.48101 102.70886 79.83544 2221.22785 16.29114 http://compus.uom.gr/inf238/index.php 41

Αστεροειδές διάγραµµα > stars(means.by.origin,key.loc=c(4.5,2.2),labels=my.labels,mar=c(0,3,0,3) +0.1,col.stars=c("red","blue","yellow")) Αστεροειδές διάγραµµα για τα δεδοµένα των αυτοκινήτων American Average European Average ENGINE HORSE MPG Inv.WEIGHT Japanese Average Inv.ACCEL Εικόνα 11: Αστεροειδές διάγραµµα των δεδοµένων της κατανάλωσης βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 42

> stars(means.by.origin,draw.segments=true,key.loc=c(4.8,2.2),labels=my.labels, + col.segments=grey(seq(0.2,0.8,length=5))) Αστεροειδές διάγραµµα για τα δεδοµένα των αυτοκινήτων American Average European Average ENGINE MPG HORSE Inv.ACC Japanese Average Inv.WEIGHT Εικόνα 12: Αστεροειδές διάγραµµα των δεδοµένων της κατανάλωσης βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 43

Πρόσωπα του Chernoff > library(teachingdemos) > faces2(rbind(mean.american,mean.european,mean.japanese), + labels=c("american average","european average","japanese average"), + scale = ("columns")) American average European average Japanese average Εικόνα 13: Πρόσωπα του Chernoff των δεδοµένων της κατανάλωσης βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 44

> # παράλληλα θηκογράµµατα > boxplot(mpg~origin,col="bisque",names=c("american","european","japanese"), + main="θηκόγραµµα της κατανάλωσης ανα περιοχή",ylab="mpg") θηκόγραµµα της κατανάλωσης ανα περιοχή MPG 10 20 30 40 American European Japanese Εικόνα 14: Παράλληλα θηκογράµµατα, κατανάλωση σε µια περιοχή http://compus.uom.gr/inf238/index.php 45

> # διάγραµµα dotchart > average=by(mpg,origin,mean,na.rm=true) > dotchart(as.numeric(na.omit(mpg[-which(is.na(origin.f))])),groups=na.omit(origin.f[- which(is.na(mpg))]), + gdata=average,gpch=15,gcolor="red",color="blue",cex=0.7,main="dotchart για MPG ανά περιοχή") American dotchart για MPG ανά περιοχή European Japanese 10 20 30 40 Εικόνα 15: ιάγραµµα σηµείων, κατανάλωση ανά περιοχή http://compus.uom.gr/inf238/index.php 46

ιάγραµµα διασποράς: ιππoδύναµη έναντι κατανάλωσης > # Εικόνα 16 > plot(mpg~horse, εδοµένα Επιβατικών Αυτοκινήτων 40 Κατανάλωση, (MPG) 30 20 10 50 100 150 200 Ιπποδύναµη, (HP) Εικόνα 16: ιάγραµµα διασποράς, ιππoδύναµη έναντι κατανάλωσης http://compus.uom.gr/inf238/index.php 47

Πίνακας διαγραµµάτων διασποράς, splom > # Εικόνα 17 > pairs(. εδοµένα επιβατικών αυτοκινήτων 1.0 2.0 3.0 1000 4000 0 200 10 30 MPG ENGINE 0 200 50 150 HORSE WEIGHT 1000 4000 10 20 ACCEL ORIGIN 1.0 2.0 3.0 10 20 50 150 10 30 Εικόνα 17: Πίνακας διαγραµµάτων διασποράς, τα δεδοµένα των αυτοκινήτων http://compus.uom.gr/inf238/index.php 48

Βιβλιογραφία Πρόσθετη Βιβλιογραφία Μαθήµατος [1] Wonnacott, T. H. and Wonnacott, R. J., Introductory Statistics for Business and Economics, Wiley, 1990, New York [2] Chambers, J. M, Cleveland, W. S., Kleiner, B. and Tukey, P. A., Grafical Methods for Data Analysis, Chapman & Hall, 1998, London [3] Venables, W. N. and Ripley, B. D., Modern Applied Statistics with S-Plus, Springer-Verlag 1994, New York [4] Everitt, B. S. and Dunn, G., Applied Multivariate Data Analysis, Edward Arnold, 1991, London [5] Τσάντας, Ν., Μωυσιάδης, Χ., Μπαγιάτης, Κ., και Χατζηπαντελής, Θ., Ανάλυση εδοµένων µε την Βοήθεια Στατιστικών Πακέτων, Εκδόσεις Ζήτη, 1999, Θεσσαλονίκη [6] Chernoff, H. The use of faces to represent statistical association, 1973, JASA, 68, pp 361 368 http://compus.uom.gr/inf238/index.php 49