Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Σχετικά έγγραφα
Εισαγωγή στη Στατιστική

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Γνωριμία με τον προγραμματισμό μέσω της γλώσσας R Στοιχεία Περιγραφικής Στατιστικής

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Γραφήµατα. Κεφάλαιο Απλά Γραφήµατα. > x <- rnorm(50, mean=1, sd=2) > plot(x) > y <- seq(0,20,.1) > z <- exp(-y/10)*cos(2*y)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Μάθηµα 3 ο. Περιγραφική Στατιστική

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Εφαρμοσμένη Στατιστική

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

Περιγραφική Στατιστική

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

R & R- Studio. Πασχάλης Θρήσκος PhD Λάρισα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΤΟΥ ΔΙΔΑΚΤΙΚΟΥ ΕΡΓΟΥ ΤΩΝ ΥΠΟΧΡΕΩΤΙΚΩΝ ΜΑΘΗΜΑΤΩΝ ΧΕΙΜΕΡΙΝΟΥ ΕΞΑΜΗΝΟΥ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Έτος : Διάλεξη 2 η Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική

Βιοστατιστική ΒΙΟ-309

Στατιστική Επιχειρήσεων Ι

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εισαγωγή στη Στατιστική- Κοινωνικές Στατιστικές. Διάλεξη

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Βιοστατιστική ΒΙΟ-309

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

= p 20 1 p p Το σημείο στο οποίο μηδενίζεται η παραπάνω μερική παράγωγος είναι

Περιγραφική Στατιστική

Βιοστατιστική ΒΙΟ-309


1) ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ - ΑΤΑΞΙΝΟΜΗΤΑ ΔΕΔΟΜΕΝΑ

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝ. ΠΑΙΔΕΙΑΣ - Γ ΛΥΚΕΙΟΥ

Μαθηματικά: Αριθμητική και Άλγεβρα. Μάθημα 7 ο, Τμήμα Α

ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΛΥΚΕΙΟΥ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

I2. Αριθμητικά περιγραφικά μέτρα

Κεφάλαιο 5. Οι δείκτες διασποράς

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Σ ΤΑΤ Ι Σ Τ Ι Κ Η Ε Π Ι Χ Ε Ι Ρ Η Σ Ε Ω Ν ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ & ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ

Μέρος 1ο. Περιγραφική Στατιστική (Descriptive Statistics)

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

ΣΗΜΕΙΩΣΕΙΣ ΜΕΛΕΤΗΣ ΙΟΥΝΙΟΥ 2016 (version ) είναι: ( ) f =

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

P(A ) = 1 P(A). Μονάδες 7

Σ Τ Α Τ Ι Σ Τ Ι Κ Η Β Α Σ Ι Κ Ε Σ Ε Ν Ν Ο Ι Ε Σ.

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες

ΚΕΦΑΛΑΙΟ 2 ο : ΣΤΑΤΙΣΤΙΚΗ

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2012 ΕΚΦΩΝΗΣΕΙΣ

Α. Έστω δύο σύνολα Α και Β. Ποιά διαδικασία ονομάζεται συνάρτηση με πεδίο ορισμού το Α και πεδίο τιμών το Β;

Παράδειγμα. Χρονολογικά δεδομένα. Οι πωλήσεις μιας εταιρείας ανά έτος για το διάστημα (σε χιλιάδες $)

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Περιγραφική Στατιστική

Στατιστική: Δειγματοληψία X συλλογή δεδομένων. Περιγραφική στατιστική V πίνακες, γραφήματα, συνοπτικά μέτρα

i Σύνολα w = = = i v v i=

Ποσοτική & Ποιοτική Ανάλυση εδομένων Βασικές Έννοιες. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ. ν 1 + ν ν κ = v (1) Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

ΚΕΦΑΛΑΙΟ 2 ΔΙΕΥΘΥΝΣΗ ΔΕΥΤΕΡΟΒΑΘΜΙΑΣ ΕΚΠΑΙΔΕΥΣΗΣ ΝΟΜΟΥ ΧΑΝΙΩΝ ΣΧΟΛΙΚΟ ΕΤΟΣ ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕ ΑΡΙΘΜΗΤΙΚΕΣ ΚΑΙ ΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΥΣ

Κεφάλαιο 4: Συνοπτική Στατιστική και Οπτικοποίηση

Περιγραφική Στατιστική. Ακαδ. Έτος ο εξάμηνο. Κ. Πολίτης

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

Α. α) ίνεται η συνάρτηση F(x)=f(x)+g(x). Αν οι συναρτήσεις f, g είναι παραγωγίσιµες, να αποδείξετε ότι: F (x)=f (x)+g (x).

Transcript:

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Δημήτρης Φουσκάκης, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο.

Περιεχόμενα Εισαγωγή στη Στατιστική Εισαγωγή στο Στατιστικό Πακέτο R Περιγραφική Στατιστική Προσομοίωση Στατιστική Συμπερασματολογία Ένα Δείγμα Δύο Ανεξάρτητα Δείγματα Δείγματα κατά Ζεύγη Ποσοστά Έλεγχος καλής προσαρμογής Πίνακες Συνάφειας 2 2 Ανάλυση Παλινδρόμησης Ανάλυση Διασποράς Περιγραφική Στατιστική 2 Δημήτρης Φουσκάκης

Εισαγωγή Ας υποθέσουμε ότι έχουμε ένα ερευνητικό ερώτημα που αφορά στο αποτέλεσμα ενός τυχαίου πειράματος, και έχουμε συλλέξει με τυχαίο τρόπο δεδομένα, τα οποία θα μας βοηθήσουν να ποσοτικοποιήσουμε την αβεβαιότητά μας. Μεταφέρουμε τα δεδομένα στον Η/Υ και με τρόπους που αναφέραμε πριν διαβάζουμε αυτά τα δεδομένα στην R. Περιγραφική Στατιστική 3 Δημήτρης Φουσκάκης

Εισαγωγή Τα δεδομένα τις περισσότερες φορές τα αναπαριστούμε με την βοήθεια ενός n p πίνακα, του οποίου οι γραμμές αποτελούν τα αποτελέσματα που προέκυψαν από μια μονάδα του δείγματος και οι στήλες τις μεταβλητές (χαρακτηριστικά του πληθυσμού) για τις οποίες ενδιαφερόμαστε. Άρα έχουμε πληροφορία για p μεταβλητές για n μονάδες του πληθυσμού (δείγμα). Περιγραφική Στατιστική 4 Δημήτρης Φουσκάκης

Κωδικοποίηση Αρκετές φορές κωδικοποιούμε τις μεταβλητές ειδικά αν αυτές είναι κατηγορικές. Πρέπει να είμαστε όμως προσεκτικοί. Ειδικά αν η μεταβλητή είναι ονομαστική, είναι λάθος να αντικαταστήσουμε τις κατηγορίες με αριθμητικές τιμές διότι έτσι οι κατηγορίες αποκτούν προσδιορισμένη σχέση και διάταξη. Αντίθετα δεν υπάρχει τόσο μεγάλο πρόβλημα αν η μεταβλητή είναι διατάξιμη. Το μόνο ερωτηματικό σε τέτοιου είδους κωδικοποιήσεις είναι αν υπάρχει συμφωνία μεταξύ των αποστάσεων των κατηγοριών της διατάξιμης μεταβλητής και της διακριτής μεταβλητής που την αντικαθιστά. Τέλος δεν υπάρχει κανένα πρόβλημα όταν κωδικοποιούμε μια δίτιμη μεταβλητή. Περιγραφική Στατιστική 5 Δημήτρης Φουσκάκης

Ακραίες, Αγνοούμενες και Εσφαλμένες Τιμές Είναι αρκετά σημαντικό προτού ξεκινήσουμε οποιαδήποτε Στατιστική Ανάλυση να ελέγξουμε τα δεδομένα μας για τυχόν λάθη ή παραλήψεις, να κάνουμε δηλαδή διερευνητική ανάλυση δεδομένων (Exploratory Data Analysis). Με την βοήθεια απλών περιγραφικών πινάκων ή γραφημάτων (όπως θα τα δούμε παρακάτω) μπορούμε να εντοπίσουμε προβληματικές τιμές ή και μονάδες του δείγματος. Περιγραφική Στατιστική 6 Δημήτρης Φουσκάκης

Ακραίες, Αγνοούμενες και Εσφαλμένες Τιμές Αρκετά συχνά παρατηρούμε ότι κάποια ή κάποιες τιμές μιας συγκεκριμένης μεταβλητής είναι ακραίες (outliers), απομακρυσμένες δηλαδή από τις υπόλοιπες τιμές της εν λόγω μεταβλητής. Τέτοιες τιμές δεν πρέπει να τις αντιμετωπίζουμε ως λανθασμένες, παρά μόνο αν είμαστε σίγουροι ότι πράγματι είναι. Ένας τρόπος να μειώσουμε την επιρροή αυτών των τιμών στα τελικά μας αποτελέσματα είναι με την χρήση κατάλληλων στατιστικών τεχνικών ή με κάποιον μετασχηματισμό των δεδομένων. Περιγραφική Στατιστική 7 Δημήτρης Φουσκάκης

Ακραίες, Αγνοούμενες και Εσφαλμένες Τιμές Αρκετά συχνά επίσης ερχόμαστε αντιμέτωποι με αγνοούμενες τιμές (missing values), δηλαδή με κάποιες μονάδες του δείγματος που έχουνε ελλιπή πληροφορία μιας και απουσιάζουν οι τιμές κάποιων μεταβλητών. Συχνά προσπαθούμε να εκτιμήσουμε την αγνοούμενη τιμή με την βοήθεια των υπόλοιπων τιμών. Σε μία τέτοια λύση θα πρέπει να καταλήγουμε μόνο αν το δείγμα μας είναι πολύ μικρό και δεν έχουμε την πολυτέλεια να χάσουμε επιπλέον πληροφορία λόγω των αγνοούμενων τιμών. Είναι σημαντικό να χρησιμοποιούμε το ίδιο σύμβολο για όλες τις αγνοούμενες τιμές. Το σύμβολο αυτό πρέπει να συμφωνεί με το σύμβολο που χρησιμοποιεί το πακέτο στο οποίο θα γίνει η ανάλυση. Στην R, π.χ. τοσύμβολοαυτόείναιτονa. Περιγραφική Στατιστική 8 Δημήτρης Φουσκάκης

Ακραίες, Αγνοούμενες και Εσφαλμένες Τιμές Τέλος υπάρχουν περιπτώσεις που με βεβαιότητα αντιλαμβανόμαστε ότι μια τιμή είναι εσφαλμένη. Σε αυτές τις περιπτώσεις πρέπει να ελέγξουμε αν το λάθος προήλθε από την μεταφορά τον δεδομένων στον Η/Υ και ρωτάμε αυτόν που σύλλεξε το δείγμα αν γνωρίζει την σωστή τιμή. Αν δεν μάθουμε την σωστή τιμή αντικαθιστούμε την εσφαλμένη τιμή με μια αγνοούμενη. Συνηθισμένα λάθη που γίνονται κατά την μεταφορά των δεδομένων στον Η/Υ είναι η αντιστροφή ψηφίων, και οι διπλοεγγραφές. Περιγραφική Στατιστική 9 Δημήτρης Φουσκάκης

Περιγραφική Στατιστική Σκοπός της Περιγραφικής Στατιστικής είναι να δώσει μια συνοπτική παρουσίαση του δείγματος, καθώς επίσης και να ελέγξει την ορθότητα των τιμών του. Αποτελείται από διάφορες Αριθμητικές και Γραφικές Μεθόδους. Η επιλογή των κατάλληλων αριθμητικών και γραφικών μεθόδων γίνεται με βάση τον τύπο της μεταβλητής που θέλουμε να παρουσιάσουμε. Περιγραφική Στατιστική 10 Δημήτρης Φουσκάκης

Περιγραφική Στατιστική Περιγραφική Στατιστική Αριθμητικές Μέθοδοι Γραφικές Μέθοδοι Μέτρα Θέσης Μέτρα Μεταβλητότητας Περιγραφική Στατιστική 11 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές A. Αριθμητικές Μέθοδοι. 1. Μέτρα Θέσης: 1. Δειγματικός Μέσος (Mean). Ο Δειγματικός μέσος είναι το συνηθέστερο μέτρο θέσης για παρατηρήσεις από μια ποσοτική μεταβλητή. Έχει το μειονέκτημα όμως ότι επηρεάζεται από ακραίες παρατηρήσεις. n 1 x = x n i = 1 i Περιγραφική Στατιστική 12 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές 2. Δειγματική Διάμεσος (Median). Η μεσαία παρατήρηση από το δείγμα είναι η δειγματική διάμεσος. Αν το μέγεθος του δείγματος είναι n=2m-1 (περιττό) τότε η δειγματική διάμεσος ισούται με y m, όπου y 1,,y n είναι το διατεταγμένο δείγμα. Όταν n=2m (άρτιο) τότε η δειγματική διάμεσος ισούται με (y m + y m+1 )/2. Έχει το πλεονέκτημα ότι δεν επηρεάζεται από ακραίες παρατηρήσεις. 3. Δειγματική Κορυφή (Mode). Η παρατήρηση με την μεγαλύτερη συχνότητα. Ως μέτρο έχει νόημα να υπολογιστεί σε περιπτώσεις όπου έχουμε επαναλήψεις ίδιων τιμών, γεγονός που συνήθως συμβαίνει μόνο για διακριτά δεδομένα. 2. Μέτρα Μεταβλητότητας: 1. Δειγματική Διασπορά Τυπική Απόκλιση (Variance Standard Deviation). Για να εκφράσουμε πόσο μακριά είναι οι παρατηρήσεις από τον δειγματικό μέσο συνήθως υπολογίζουμε την δειγματική διασπορά s 2 ή την θετική τετραγωνική της ρίζα που καλείτε δειγματική τυπική απόκλιση s. Έχει το μειονέκτημα ότι επηρεάζεται από ακραίες παρατηρήσεις. n s = (n 1) (x x) 2 1 2 1 i Περιγραφική Στατιστική 13 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές 2. Εύρος Δείγματος (Range). Η διαφορά μεταξύ της μεγαλύτερης και μικρότερης παρατήρησης. Προφανώς επηρεάζεται από ακραίες παρατηρήσεις. 3. Ενδοτεταρτημοριακό Εύρος (interquartile range - IQR). Η διαφορά του τρίτου από το πρώτο τεταρτημόριο. Το τρίτο τεταρτημόριο (3 rd quartile) είναι η παρατήρηση εκείνη που είναι μεγαλύτερη ή ίση από το 75% ακριβώς των παρατηρήσεων ενώ το πρώτο τεταρτημόριο (1 st quartile) είναι η παρατήρηση εκείνη που είναι μεγαλύτερη ή ίση από το 25% ακριβώς των παρατηρήσεων. Το ενδοτεταρτημοριακό εύρος έχει το πλεονέκτημα ότι δεν επηρεάζεται από ακραίες παρατηρήσεις. Περιγραφική Στατιστική 14 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές Παράδειγμα 1: Τα παρακάτω δεδομένα εκφράζουν την διάρκεια ζωής (σε ώρες) 20 ηλεκτρονικών εξαρτημάτων του αυτού τύπου. 46 104 94 114 35 70 120 29 19 135 200 222 89 100 55 214 15 81 118 193 Περιγραφική Στατιστική 15 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές ΕισάγουμεταδεδομέναστηνR x<-c(46, 104, 94, 114, 35, 70, 120, 29, 19, 135, 200, 222, 89, 100, 55, 214, 15, 81, 118, 193) Εναλλακτικάθαμπορούσαμεταείχαμεδιαβάσειαπόένα αρχείο. Με την εντολή summary παίρνουμε κάποια από τα αριθμητικά μέτρα που συζητήσαμε πριν. > summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. 15.00 52.75 97.00 102.70 123.80 222.00 Περιγραφική Στατιστική 16 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές Εντολή mean(x) min(x) max(x) median(x) var(x) sd(x) quantile(x,p) Σημασία Δειγματικός Μέσος Μικρότερη παρατήρηση Μεγαλύτερη Παρατήρηση Δειγματική Διάμεσος Δειγματική Διασπορά Δειγματική Τυπική Απόκλιση Επιστρέφει το p ποσοστημόριο. Για p=0.25 και p=0.75 έχουμε το 1 ο και 3 ο τεταρτημόριο Περιγραφική Στατιστική 17 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές B. Γραφικές Μέθοδοι. 1. Ιστόγραμμα. Για την κατασκευή ενός ιστογράμματος συχνοτήτων, χρειάζεται να ομαδοποιήσουμε τα δεδομένα μας, και εν συνεχεία να σχηματίσουμε διαδοχικά ορθογώνια των οποίων οι βάσεις είναι τα διαστήματα των κλάσεων που δημιουργήσαμε και το ύψος τους είναι ίσο με την συχνότητα των παρατηρήσεων στην αντίστοιχη κλάση. Στις περισσότερες περιπτώσεις, δημιουργούμε κλάσεις ίδιου εύρους οπότε τα ορθογώνια έχουν τότε εμβαδά ανάλογα των αντίστοιχων συχνοτήτων. Περιγραφική Στατιστική 18 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές > hist(x) Histogram of x Frequency 0 1 2 3 4 5 6 0 50 100 150 200 250 x Περιγραφική Στατιστική 19 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές Αν θέλουμε μπορούμε εμείς να προεπιλέξουμε τον αριθμό των κλάσεων. Η R δεν θα τηρήσει πάντα την επιλογή μας, θα κατασκευάσει το ιστόγραμμα με τον κοντινότερο αριθμό κλάσεων με αυτόν που ζητήσαμε, έτσι ώστε να μπορέσει να διατηρήσει το ίδιο πλάτος στις κλάσεις. > hist(x, nclass=10) Περιγραφική Στατιστική 20 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές Μπορούμε επίσης αν επιθυμούμε να ορίσουμε τα όρια των κλάσεων Frequency 0 1 2 3 4 5 6 Histogram of x > hist(x, breaks=seq(from=0,to=240,by=30)) 0 50 100 150 200 x Περιγραφική Στατιστική 21 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές Τέλος μπορούμε στον yy άξονα αντί για συχνότητες να έχουμε πυκνότητα, και το συνολικό εμβαδόν του ιστογράμματος να ολοκληρώνει στην μονάδα. Έτσι παίρνουμε μια εκτίμηση της κατανομής της μεταβλητής. > hist(x, probability=t) Density 0.000 0.002 0.004 0.006 Histogram of x 0 50 100 150 200 250 x Περιγραφική Στατιστική 22 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές 2. Θηκογράφημα (box plot). Για να παρουσιάσουμε τα κυριότερα χαρακτηριστικά μιας κατανομής συνήθως δημιουργούμε ένα θηκογράφημα. Για την κατασκευή του δημιουργούμε ένα ορθογώνιο με κάτω βάση στο πρώτο και άνω βάση στο τρίτο τεταρτημόριο. Εν συνεχεία παριστάνουμε την διάμεσο με ένα ευθύγραμμο τμήμα μέσα στο ορθογώνιο. Έπειτα φέρουμε ευθύγραμμα τμήματα στις 2 οριακές τιμές που ορίζονται ως το 3 0 (αντίστοιχα 1 ο ) τεταρτημόριο συν (αντίστοιχα μείον) 1.5 φορές το ενδοτεταρτημοριακό εύρος. Αν δεν υπάρχουν παρατηρήσεις τόσο μακριά, οι γραμμές τοποθετούνται πιο κοντά στο 1 ο και 3 ο τεταρτημόριο. Τέλος πιο ακραίες τιμές (αν υπάρχουν) παριστάνονται με μια κουκκίδα. Περιγραφική Στατιστική 23 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές 50 100 150 200 > boxplot(x) Περιγραφική Στατιστική 24 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές Τα θηκογραφήματα είναι χρήσιμα για να συγκρίνουμε δύο δείγματα. Έστω ότι επιπλέον με τα δεδομένα του 1 ου παραδείγματος έχουμε και τις διάρκειες ζωής (σε ώρες) 20 ηλεκτρονικών εξαρτημάτων κάποιου άλλου τύπου. 60 119 100 130 43 227 23 91 128 199 85 125 40 26 141 212 238 94 111 67 Περιγραφική Στατιστική 25 Δημήτρης Φουσκάκης

Ποσοτικές Μεταβλητές > y<-c(60,119,100,130,43,227,23,91,128,199,85,125,40,26,141, 212,238,94,111,67) > boxplot(x,y, names=c( X, Y )) όνομα για κάθε θηκογράφημα 50 100 150 200 X Y Περιγραφική Στατιστική 26 Δημήτρης Φουσκάκης

Κατηγορικές Μεταβλητές A. Αριθμητικές Μέθοδοι. Πίνακες Συχνοτήτων. Παράδειγμα 2. Τα παρακάτω δεδομένα αφορούν τον τρόπο (αυτοκίνητο=c, μετρό=μ, λεωφορείο=β και πόδια=f) όπου επιλέγουν 20 Αθηναίοι για να πάνε κάθε πρωί στην δουλειά τους C C B M M C M M F C F B B M M C C C M C Περιγραφική Στατιστική 27 Δημήτρης Φουσκάκης

Κατηγορικές Μεταβλητές Περνάμε τα δεδομένα στην R > A<-c("C", "C", "B", "M", "M", "C", "M", "M", "F", "C", "F", "B", "B", "M", "M", "C", "C", "C", "M", "C") Με την εντολή table βλέπουμε τις συχνότητες σε κάθε κατηγορία. > table(a) A B C F M 3 8 2 7 Μπορούμε να δούμε και τις σχετικές συχνότητες > prop.table(table(a)) A B C F M 0.15 0.40 0.10 0.35 Περιγραφική Στατιστική 28 Δημήτρης Φουσκάκης

Κατηγορικές Μεταβλητές Έστω ότι στο προηγούμενο παράδειγμα οι 10 πρώτοι ήταν άντρες και οι υπόλοιποι 10 γυναίκες. Έτσι έχουμε και μια άλλη κατηγορική μεταβλητή το φύλο. > Gender<-c(rep("M",10), rep("f", 10)) > Gender [1] "M" "M" "M" "M" "M" "M" "M" "M" "M" "M" "F" "F" "F" "F" "F" "F" "F" "F" "F" "F" Μπορούμε τότε να κατασκευάσουμε το πίνακα συνάφειας (contingency table), όπου απεικονίζει τη διμεταβλητή κατανομή συχνοτήτων για τις δύο κατηγορικές μεταβλητές. Περιγραφική Στατιστική 29 Δημήτρης Φουσκάκης

Κατηγορικές Μεταβλητές > mytable<-table(a,gender) > mytable Gender A F M B 2 1 C 4 4 F 1 1 M 3 4 > margin.table(mytable, 1) A B C F M 3 8 2 7 μέσο > margin.table(mytable, 2) Gender F M 10 10 συχνότητες για το μεταφ. συχνότητες για το φύλο > prop.table(mytable) Gender A F M B 0.10 0.05 C 0.20 0.20 F 0.05 0.05 M 0.15 0.20 > prop.table(mytable, 1) Gender A F M B 0.6666667 0.3333333 C 0.5000000 0.5000000 F 0.5000000 0.5000000 M 0.4285714 0.5714286 > prop.table(mytable, 2) Gender A F M B 0.2 0.1 C 0.4 0.4 F 0.1 0.1 M 0.3 0.4 Σχετικές συχνότητες κελιών Σχετικές συχνότητες γραμμών Σχετικές συχνότητες στηλών Περιγραφική Στατιστική 30 Δημήτρης Φουσκάκης

Κατηγορικές Μεταβλητές B. Γραφικές Μέθοδοι 1. Ραβδόγραμμα. Στο ραβδόγραμμα οι κατηγορίες της μεταβλητής παρουσιάζονται στον ένα άξονα και οι αντίστοιχες συχνότητες τους στον άλλο άξονα, και εν συνεχεία κατασκευάζονται ορθογώνια πάνω από κάθε κατηγορία με ύψος ίσο με την αντίστοιχη συχνότητα της. 2. Τομεόγραμμα. Στο τομεόγραμμα διαιρούμε ένα κύκλο σε κυκλικούς τομείς με εμβαδά ανάλογα προς τις σχετικές συχνότητες των κατηγοριών. Περιγραφική Στατιστική 31 Δημήτρης Φουσκάκης

Κατηγορικές Μεταβλητές > AA<-table(A) > AA A B C F M 3 8 2 7 > barplot(aa) 0 2 4 6 8 B C F M Περιγραφική Στατιστική 32 Δημήτρης Φουσκάκης

Κατηγορικές Μεταβλητές > pie(aa) C B F M Περιγραφική Στατιστική 33 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα Με την εντολή plot, μπορούμε να αναπαραστήσουμε γραφικά τις τιμές ενός διανύσματος. Για τα δεδομένα x του 1 ου παραδείγματος, έχουμε >plot(x) x 50 100 150 200 5 10 15 20 Index Περιγραφική Στατιστική 34 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα Τα δεδομένα που αναπαριστάνουμε μπορούν να απεικονιστούν με διάφορους τρόπους με την βοήθεια του ορίσματος type. Π.χ. x 50 100 150 200 > plot(x, type='l') 5 10 15 20 Index Περιγραφική Στατιστική 35 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα Σύμβολο p l b c ο h s n Σημασία Σημεία Γραμμή Γραμμή και σημεία Γραμμή με κενό στα σημεία Γραμμή και σημεία ενωμένα Κάθετες γραμμές για κάθε σημείο Με βήμα Τίποτα Περιγραφική Στατιστική 36 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα Σε κάθε εντολή δημιουργίας γραφημάτων μπορούν να δοθούν ορίσματα βελτίωσης της εικόνας τους. Με την παράμετρο main δίνουμε τίτλο στο γράφημα. Με την παράμετρο submain δίνουμε υπότιτλο στο γράφημα. Με τις παραμέτρους xlab και ylab δίνουμε τίτλους στους άξονες. Με την παράμετρο xlim και ylim δίνουμε επιθυμητό εύρος τιμών για τους άξονες. Περιγραφική Στατιστική 37 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα Histogram of X > hist(x,main="histogram of X", sub="31/05/2009", xlab="x", ylab="frequency", ylim=c(0,8), xlim=c(0,300)) Frequency 0 2 4 6 8 0 50 100 150 200 250 300 X 31/05/2009 Περιγραφική Στατιστική 38 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα Όλες αυτές οι παράμετροι μπορούν να δοθούν σε ένα ήδη υπάρχον γράφημα με την βοήθεια της εντολής title. > hist(x) > title(main="histogram of X", sub="31/05/2009", xlab="x", ylab="frequency", ylim=c(0,8), xlim=c(0,300)) Περιγραφική Στατιστική 39 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα Μπορούμε στο ίδιο παράθυρο να έχουμε πολλά γραφήματα σε μια διάταξη με γραμμές και στήλες. Περιγραφική Στατιστική 40 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα > par(mfrow=c(2,4)) > plot(x, type="p") > title(main="points") > plot(x, type="l") > title(main="lines") > plot(x, type="b") > title(main="points and Lines") > plot(x, type="c") > title(main="lines Part Alone") > plot(x, type="o") > title(main="lines with Points overstruck") > plot(x, type="h") > title(main="high Density") > plot(x, type="s") > title(main="stairstep") > plot(x, type="n") > title(main="none") Περιγραφική Στατιστική 41 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα Points Lines Points and Lines Lines Part Alone x 50 100 150 200 x 50 100 150 200 x 50 100 150 200 x 50 100 150 200 5 10 15 20 5 10 15 20 5 10 15 20 5 10 15 20 Index Index Index Index Lines with Points overstruck High Density Stairstep None x 50 100 150 200 x 50 100 150 200 x 50 100 150 200 x 50 100 150 200 5 10 15 20 5 10 15 20 5 10 15 20 5 10 15 20 Index Index Index Index Περιγραφική Στατιστική 42 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα Σε ένα γράφημα μπορούμε να προσθέσουμε διάφορες γραμμές οι οποίες μπορούν να είναι διαφορετικού είδους (lty) ή χρώματος (col) για να τις διαφοροποιήσουμε με τις εντολές abline και line. Περιγραφική Στατιστική 43 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα > plot(x, ylim=c(0,250)) > abline(v=10, col=2) > abline(h=150, lty=2) > abline(0,2, lty=3, col=3) > y<-x+20 > lines(y, col=4) Νέα δεδομένα y Ηευθείαx=10 Ηευθείαy=150 Ηευθείαy=0 + 2x Απεικόνιση των y τα οποία είναι ενωμένα με ευθεία. Περιγραφική Στατιστική 44 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα x 0 50 100 150 200 250 5 1 0 1 5 2 0 In d e x Περιγραφική Στατιστική 45 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα Είναι επίσης δυνατόν να προσθέσουμε μια λεζάντα που να επεξηγεί το γράφημα. > plot(x, ylim=c(0,250)) > abline(v=10, col=2) > abline(h=50, lty=2) > legend(1,230, lty=c(2,1), col=1:2,legend=c("y=50", "x=10")) συντεταγμένες λεζάντας Περιγραφική Στατιστική 46 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα x 0 50 100 150 200 250 y=5 0 x=1 0 5 10 15 20 In d e x Περιγραφική Στατιστική 47 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα Τέλος με την εντολή text μπορούμε να εμφανίσουμε χαρακτήρες αντί για σημεία. Για παράδειγμα έστω τα βάρη 5 ανδρών και 5 γυναικών: > weight<-c(72, 83, 79, 90, 88, 60, 55, 70, 72, 74) > gender<-rep(c("m", "F"), each=5) > gender [1] "M" "M" "M" "M" "M" "F" "F" "F" "F" "F" > plot(weight, type='n') > text(weight, label=gender) Περιγραφική Στατιστική 48 Δημήτρης Φουσκάκης

Περισσότερα στα Γραφήματα weight 55 60 65 70 75 80 85 90 M M M M M F F F F F 2 4 6 8 10 Ind e x Περιγραφική Στατιστική 49 Δημήτρης Φουσκάκης