Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R



Σχετικά έγγραφα
Εισαγωγή στη Στατιστική

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Γνωριμία με τον προγραμματισμό μέσω της γλώσσας R Στοιχεία Περιγραφικής Στατιστικής

Μάθηµα 3 ο. Περιγραφική Στατιστική

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Περιγραφική Στατιστική

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Κατανοµές. Η κατανοµή (distribution) µιας µεταβλητής (variable) φαίνεται από το σχήµα του ιστογράµµατος (histogram).

Γραφήµατα. Κεφάλαιο Απλά Γραφήµατα. > x <- rnorm(50, mean=1, sd=2) > plot(x) > y <- seq(0,20,.1) > z <- exp(-y/10)*cos(2*y)

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Εφαρμοσμένη Στατιστική

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

2) Περιγραφή ιακριτών Ποσοτικών εδοµένων

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Οι δείκτες διασποράς. Ένα παράδειγµα εργασίας

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

Κεφάλαιο 5. Οι δείκτες διασποράς

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

R & R- Studio. Πασχάλης Θρήσκος PhD Λάρισα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Περιγραφική Στατιστική

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2012 ΕΚΦΩΝΗΣΕΙΣ

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2010 ΕΚΦΩΝΗΣΕΙΣ

2.3. Ασκήσεις σχ. βιβλίου σελίδας Α ΟΜΑ ΑΣ

Βιοστατιστική ΒΙΟ-309

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Κεφάλαιο 4 Δείκτες Κεντρικής Τάσης

Κεφάλαιο 1 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ. 1.1 Περιγραφή Στατιστικών εδοµένων. p i = f i n. (1.1) F i = f j όπου x j x i για j i. P i =

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

I2. Αριθμητικά περιγραφικά μέτρα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

επ. Κωνσταντίνος Π. Χρήστου

Βιοστατιστική ΒΙΟ-309

ÖÑÏÍÔÉÓÔÇÑÉÏ ÈÅÌÅËÉÏ ÇÑÁÊËÅÉÏ ÊÑÇÔÇÓ

Για το Θέμα 1 στα Μαθηματικά Γενικής Παιδείας Γ Λυκείου

Α. α) ίνεται η συνάρτηση F(x)=f(x)+g(x). Αν οι συναρτήσεις f, g είναι παραγωγίσιµες, να αποδείξετε ότι: F (x)=f (x)+g (x).

ν ν = 6. όταν είναι πραγµατικός αριθµός.

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝ. ΠΑΙΔΕΙΑΣ - Γ ΛΥΚΕΙΟΥ

ν ν = 6. όταν είναι πραγµατικός αριθµός.

ΔΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ. Το σύνολο Α, που λέγεται πεδίο ορισµού της συνάρτησης,

ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΤΟΥ ΔΙΔΑΚΤΙΚΟΥ ΕΡΓΟΥ ΤΩΝ ΥΠΟΧΡΕΩΤΙΚΩΝ ΜΑΘΗΜΑΤΩΝ ΧΕΙΜΕΡΙΝΟΥ ΕΞΑΜΗΝΟΥ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

1991 US Social Survey.sav

Βιοστατιστική ΒΙΟ-309

ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ

= p 20 1 p p Το σημείο στο οποίο μηδενίζεται η παραπάνω μερική παράγωγος είναι

Βασικές έννοιες. Παραδείγµατα: Το σύνολο των φοιτητών που είναι εγγεγραµµένοι

Κεφάλαιο 1 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ. 1.1 Περιγραφή Στατιστικών εδοµένων. p i = f i n. (1.1) F i = f j. P i = p j.

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

2.6 ΟΡΙΑ ΑΝΟΧΗΣ. πληθυσµού µε πιθανότητα τουλάχιστον ίση µε 100(1 α)%. Το. X ονοµάζεται κάτω όριο ανοχής ενώ το πάνω όριο ανοχής.

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΗΝ ΑΠΟΤΙΜΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

Εισαγωγή στη Στατιστική- Κοινωνικές Στατιστικές. Διάλεξη

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Πίνακας κατανοµής συχνοτήτων και αθροιστικών συχνοτήτων. Σχετ.

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β


ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

Ελεγκτικής. ΤΕΙ Ηπείρου (Παράρτηµα Πρέβεζας)

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

Είδη Μεταβλητών. κλίµακα µέτρησης

Παράδειγµα (Risky Business 1)

Στατιστική Εισαγωγικές Έννοιες

Μάθηµα 14. Κεφάλαιο: Στατιστική

Σ ΤΑΤ Ι Σ Τ Ι Κ Η Ε Π Ι Χ Ε Ι Ρ Η Σ Ε Ω Ν ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ & ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες


F είναι ίσος µε ν. i ÏÅÖÅ ( ) h 3,f 3.

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Περιγραφική Στατιστική

Μέρος 1ο. Περιγραφική Στατιστική (Descriptive Statistics)

Ενδεικτικές ασκήσεις ΔΙΠ 50

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Transcript:

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τοµέας Μαθηµατικών, Σχολή Εφαρµοσµένων Μαθηµατικών και Φυσικών Επιστηµών, Εθνικό Μετσόβιο Πολυτεχνείο.

Περιεχόµενα Εισαγωγή στη Στατιστική Εισαγωγή στο Στατιστικό Πακέτο R Περιγραφική Στατιστική Προσοµοίωση Στατιστική Συµπερασµατολογία Ένα Δείγµα Δύο Ανεξάρτητα Δείγµατα Δείγµατα κατά Ζεύγη Ποσοστά Έλεγχος καλής προσαρµογής Πίνακες Συνάφειας 2 2 Ανάλυση Παλινδρόµησης Ανάλυση Διασποράς Περιγραφική Στατιστική 2

Εισαγωγή Ας υποθέσουµε ότι έχουµε ένα ερευνητικό ερώτηµα που αφορά στο αποτέλεσµα ενός τυχαίου πειράµατος, και έχουµε συλλέξει µε τυχαίο τρόπο δεδοµένα, τα οποία θα µας βοηθήσουν να ποσοτικοποιήσουµε την αβεβαιότητά µας. Μεταφέρουµε τα δεδοµένα στον Η/Υ και µε τρόπους που αναφέραµε πριν διαβάζουµε αυτά τα δεδοµένα στην R. Περιγραφική Στατιστική 3

Εισαγωγή Τα δεδοµένα τις περισσότερες φορές τα αναπαριστούµε µε την βοήθεια ενός n p πίνακα, του οποίου οι γραµµές αποτελούν τα αποτελέσµατα που προέκυψαν από µια µονάδα του δείγµατος και οι στήλες τις µεταβλητές (χαρακτηριστικά του πληθυσµού) για τις οποίες ενδιαφερόµαστε. Άρα έχουµε πληροφορία για p µεταβλητές για n µονάδες του πληθυσµού (δείγµα). Περιγραφική Στατιστική 4

Κωδικοποίηση Αρκετές φορές κωδικοποιούµε τις µεταβλητές ειδικά αν αυτές είναι κατηγορικές. Πρέπει να είµαστε όµως προσεκτικοί. Ειδικά αν η µεταβλητή είναι ονοµαστική, είναι λάθος να αντικαταστήσουµε τις κατηγορίες µε αριθµητικές τιµές διότι έτσι οι κατηγορίες αποκτούν προσδιορισµένη σχέση και διάταξη. Αντίθετα δεν υπάρχει τόσο µεγάλο πρόβληµα αν η µεταβλητή είναι διατάξιµη. Το µόνο ερωτηµατικό σε τέτοιου είδους κωδικοποιήσεις είναι αν υπάρχει συµφωνία µεταξύ των αποστάσεων των κατηγοριών της διατάξιµης µεταβλητής και της διακριτής µεταβλητής που την αντικαθιστά. Τέλος δεν υπάρχει κανένα πρόβληµα όταν κωδικοποιούµε µια δίτιµη µεταβλητή. Περιγραφική Στατιστική 5

Ακραίες, Αγνοούµενες και Εσφαλµένες Τιµές Είναι αρκετά σηµαντικό προτού ξεκινήσουµε οποιαδήποτε Στατιστική Ανάλυση να ελέγξουµε τα δεδοµένα µας για λάθη ή παραλήψεις, να κάνουµε δηλαδή µια διερευνητική ανάλυση δεδοµένων (Exploratory Data Analysis). Με την βοήθεια απλών περιγραφικών πινάκων ή γραφηµάτων (όπως θα τα δούµε παρακάτω) µπορούµε να εντοπίσουµε προβληµατικές τιµές ή και µονάδες του δείγµατος. Περιγραφική Στατιστική 6

Ακραίες, Αγνοούµενες και Εσφαλµένες Τιµές Αρκετά συχνά παρατηρούµε ότι κάποια ή κάποιες τιµές µιας συγκεκριµένης µεταβλητής είναι ακραίες (outliers), αποµακρυσµένες δηλαδή από τις υπόλοιπες τιµές της εν λόγω µεταβλητής. Τέτοιες τιµές δεν πρέπει να τις αντιµετωπίζουµε ως λανθασµένες, παρά µόνο αν είµαστε σίγουροι ότι πράγµατι είναι. Ένας τρόπος να µειώσουµε την επιρροή αυτών των τιµών στα τελικά µας αποτελέσµατα είναι µε την χρήση κατάλληλων στατιστικών τεχνικών ή µε κάποιον µετασχηµατισµό των δεδοµένων. Περιγραφική Στατιστική 7

Ακραίες, Αγνοούµενες και Εσφαλµένες Τιµές Αρκετά συχνά επίσης ερχόµαστε αντιµέτωποι µε αγνοούµενες τιµές (missing values), δηλαδή µε κάποιες µονάδες του δείγµατος που περιέχουν ελλιπή πληροφορία µιας και απουσιάζουν οι τιµές κάποιων µεταβλητών. Συχνά προσπαθούµε να εκτιµήσουµε την αγνοούµενη τιµή µε την βοήθεια των υπόλοιπων τιµών. Σε µία τέτοια λύση θα πρέπει να καταλήγουµε µόνο αν το δείγµα µας είναι πολύ µικρό και δεν έχουµε την πολυτέλεια να χάσουµε επιπλέον πληροφορία λόγω των αγνοούµενων τιµών. Είναι σηµαντικό να χρησιµοποιούµε το ίδιο σύµβολο για όλες τις αγνοούµενες τιµές. Το σύµβολο αυτό πρέπει να συµφωνεί µε το σύµβολο που χρησιµοποιεί το πακέτο στο οποίο θα γίνει η ανάλυση. Στην R, π.χ. το σύµβολο αυτό είναι το ΝA. Περιγραφική Στατιστική 8

Ακραίες, Αγνοούµενες και Εσφαλµένες Τιµές Τέλος υπάρχουν περιπτώσεις που µε βεβαιότητα αντιλαµβανόµαστε ότι µια τιµή είναι εσφαλµένη. Σε αυτές τις περιπτώσεις πρέπει να ελέγξουµε αν το λάθος προήλθε από την µεταφορά των δεδοµένων στον Η/Υ και ρωτάµε αυτόν που σύλλεξε το δείγµα αν γνωρίζει την σωστή τιµή. Αν δεν µάθουµε την σωστή τιµή αντικαθιστούµε την εσφαλµένη τιµή µε µια αγνοούµενη. Συνηθισµένα λάθη που γίνονται κατά την µεταφορά των δεδοµένων στον Η/Υ είναι η αντιστροφή ψηφίων, και οι διπλοεγγραφές. Περιγραφική Στατιστική 9

Περιγραφική Στατιστική Σκοπός της Περιγραφικής Στατιστικής είναι να δώσει µια συνοπτική παρουσίαση του δείγµατος, καθώς επίσης και να ελέγξει την ορθότητα των τιµών του. Αποτελείται από διάφορες Αριθµητικές και Γραφικές Μεθόδους. Η επιλογή των κατάλληλων αριθµητικών και γραφικών µεθόδων γίνεται µε βάση τον τύπο της µεταβλητής που θέλουµε να παρουσιάσουµε. Περιγραφική Στατιστική 10

Περιγραφική Στατιστική Περιγραφική Στατιστική Αριθµητικές Μέθοδοι Γραφικές Μέθοδοι Μέτρα Θέσης Μέτρα Μεταβλητότητας Περιγραφική Στατιστική 11

Ποσοτικές Μεταβλητές A. Αριθµητικές Μέθοδοι. 1. Μέτρα Θέσης: 1. Δειγµατικός Μέσος (Mean). Ο Δειγµατικός µέσος είναι το συνηθέστερο µέτρο θέσης για παρατηρήσεις από µια ποσοτική µεταβλητή. Έχει το µειονέκτηµα όµως ότι επηρεάζεται από ακραίες παρατηρήσεις. Περιγραφική Στατιστική 12

Ποσοτικές Μεταβλητές 2. Δειγµατική Διάµεσος (Median). Η µεσαία παρατήρηση από το δείγµα είναι η δειγµατική διάµεσος. Αν το µέγεθος του δείγµατος είναι n=2m-1 (περιττό) τότε η δειγµατική διάµεσος ισούται µε y m, όπου y 1,,y n είναι το διατεταγµένο δείγµα. Όταν n=2m (άρτιο) τότε η δειγµατική διάµεσος ισούται µε (y m + y m+1 )/2. Έχει το πλεονέκτηµα ότι δεν επηρεάζεται από ακραίες παρατηρήσεις. 3. Δειγµατική Κορυφή (Mode). Η παρατήρηση µε την µεγαλύτερη συχνότητα. Ως µέτρο έχει νόηµα να υπολογιστεί σε περιπτώσεις όπου έχουµε επαναλήψεις ίδιων τιµών, γεγονός που συνήθως συµβαίνει µόνο για διακριτά δεδοµένα. 2. Μέτρα Μεταβλητότητας: 1. Δειγµατική Διασπορά Τυπική Απόκλιση (Variance Standard Deviation). Για να εκφράσουµε πόσο µακριά είναι οι παρατηρήσεις από τον δειγµατικό µέσο συνήθως υπολογίζουµε την δειγµατική διασπορά s 2 ή την θετική τετραγωνική της ρίζα που καλείται δειγµατική τυπική απόκλιση s. Έχει το µειονέκτηµα ότι επηρεάζεται από ακραίες παρατηρήσεις. Περιγραφική Στατιστική 13

Ποσοτικές Μεταβλητές 2. Εύρος Δείγµατος (Range). Η διαφορά µεταξύ της µεγαλύτερης και µικρότερης παρατήρησης. Προφανώς επηρεάζεται από ακραίες παρατηρήσεις. 3. Ενδοτεταρτηµοριακό Εύρος (interquartile range - IQR). Η διαφορά του τρίτου από το πρώτο τεταρτηµόριο. Το τρίτο τεταρτηµόριο (3 rd quartile) είναι η παρατήρηση εκείνη που είναι µεγαλύτερη ή ίση από το 75% ακριβώς των παρατηρήσεων ενώ το πρώτο τεταρτηµόριο (1 st quartile) είναι η παρατήρηση εκείνη που είναι µεγαλύτερη ή ίση από το 25% ακριβώς των παρατηρήσεων. Το ενδοτεταρτηµοριακό εύρος έχει το πλεονέκτηµα ότι δεν επηρεάζεται από ακραίες παρατηρήσεις. Περιγραφική Στατιστική 14

Ποσοτικές Μεταβλητές Παράδειγµα 1: Τα παρακάτω δεδοµένα εκφράζουν την διάρκεια ζωής (σε ώρες) 20 ηλεκτρονικών εξαρτηµάτων του αυτού τύπου. 46 104 94 114 35 70 120 29 19 135 200 222 89 100 55 214 15 81 118 193 Περιγραφική Στατιστική 15

Ποσοτικές Μεταβλητές Εισάγουµε τα δεδοµένα στην R x<-c(46, 104, 94, 114, 35, 70, 120, 29, 19, 135, 200, 222, 89, 100, 55, 214, 15, 81, 118, 193) Εναλλακτικά θα µπορούσαµε τα είχαµε διαβάσει από ένα αρχείο. Με την εντολή summary παίρνουµε κάποια από τα αριθµητικά µέτρα που συζητήσαµε πριν. > summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. 15.00 52.75 97.00 102.70 123.80 222.00 Περιγραφική Στατιστική 16

Ποσοτικές Μεταβλητές Εντολή mean(x) min(x) max(x) median(x) var(x) sd(x) quantile(x,p) Σηµασία Δειγµατικός Μέσος Μικρότερη παρατήρηση Μεγαλύτερη Παρατήρηση Δειγµατική Διάµεσος Δειγµατική Διασπορά Δειγµατική Τυπική Απόκλιση Επιστρέφει το p ποσοστηµόριο. Για p=0.25 και p=0.75 έχουµε το 1 ο και 3 ο τεταρτηµόριο Περιγραφική Στατιστική 17

Ποσοτικές Μεταβλητές B. Γραφικές Μέθοδοι. 1. Ιστόγραµµα. Για την κατασκευή ενός ιστογράµµατος συχνοτήτων, χρειάζεται να οµαδοποιήσουµε τα δεδοµένα µας, και εν συνεχεία να σχηµατίσουµε διαδοχικά ορθογώνια των οποίων οι βάσεις είναι τα διαστήµατα των κλάσεων που δηµιουργήσαµε και το ύψος τους είναι ίσο µε την συχνότητα των παρατηρήσεων στην αντίστοιχη κλάση. Στις περισσότερες περιπτώσεις, δηµιουργούµε κλάσεις ίδιου εύρους οπότε τα ορθογώνια έχουν τότε εµβαδά ανάλογα των αντίστοιχων συχνοτήτων. Περιγραφική Στατιστική 18

Ποσοτικές Μεταβλητές > hist(x) Περιγραφική Στατιστική 19

Ποσοτικές Μεταβλητές Αν θέλουµε µπορούµε εµείς να προεπιλέξουµε τον αριθµό των κλάσεων. Η R δεν θα τηρήσει πάντα την επιλογή µας, θα κατασκευάσει το ιστόγραµµα µε τον κοντινότερο αριθµό κλάσεων µε αυτόν που ζητήσαµε, έτσι ώστε να µπορέσει να διατηρήσει το ίδιο πλάτος στις κλάσεις. > hist(x, nclass=10) Περιγραφική Στατιστική 20

Ποσοτικές Μεταβλητές Μπορούµε επίσης αν επιθυµούµε να ορίσουµε τα όρια των κλάσεων > hist(x, breaks=seq(from=0,to=240,by=30)) Περιγραφική Στατιστική 21

Ποσοτικές Μεταβλητές Τέλος µπορούµε στον yy άξονα αντί για συχνότητες να έχουµε πυκνότητα, και το συνολικό εµβαδόν του ιστογράµµατος να ολοκληρώνει στην µονάδα. Έτσι παίρνουµε µια εκτίµηση της κατανοµής της µεταβλητής. > hist(x, probability=t) Περιγραφική Στατιστική 22

Ποσοτικές Μεταβλητές 2. Θηκογράφηµα (box plot). Για να παρουσιάσουµε τα κυριότερα χαρακτηριστικά µιας κατανοµής συνήθως δηµιουργούµε ένα θηκογράφηµα. Για την κατασκευή του δηµιουργούµε ένα ορθογώνιο µε κάτω βάση στο πρώτο και άνω βάση στο τρίτο τεταρτηµόριο. Εν συνεχεία παριστάνουµε την διάµεσο µε ένα ευθύγραµµο τµήµα µέσα στο ορθογώνιο. Έπειτα φέρουµε ευθύγραµµα τµήµατα στις 2 οριακές τιµές που ορίζονται ως το 3 0 (αντίστοιχα 1 ο ) τεταρτηµόριο συν (αντίστοιχα µείον) 1.5 φορές το ενδοτεταρτηµοριακό εύρος. Αν δεν υπάρχουν παρατηρήσεις τόσο µακριά, οι γραµµές τοποθετούνται πιο κοντά στο 1 ο και 3 ο τεταρτηµόριο. Τέλος πιο ακραίες τιµές (αν υπάρχουν) παριστάνονται µε µια κουκκίδα. Περιγραφική Στατιστική 23

Ποσοτικές Μεταβλητές > boxplot(x) Περιγραφική Στατιστική 24

Ποσοτικές Μεταβλητές Τα θηκογραφήµατα είναι χρήσιµα για να συγκρίνουµε δύο δείγµατα. Έστω ότι επιπλέον µε τα δεδοµένα του 1 ου παραδείγµατος έχουµε και τις διάρκειες ζωής (σε ώρες) 20 ηλεκτρονικών εξαρτηµάτων κάποιου άλλου τύπου. 60 119 100 130 43 227 23 91 128 199 85 125 40 26 141 212 238 94 111 67 Περιγραφική Στατιστική 25

Ποσοτικές Μεταβλητές > y<-c(60,119,100,130,43,227,23,91,128,199,85,125,40,26,141, 212,238,94,111,67) > boxplot(x,y, names=c( X, Y )) όνοµα για κάθε θηκογράφηµα Περιγραφική Στατιστική 26

Κατηγορικές Μεταβλητές A. Αριθµητικές Μέθοδοι. Πίνακες Συχνοτήτων. Παράδειγµα 2. Τα παρακάτω δεδοµένα αφορούν τον τρόπο (αυτοκίνητο=c, µετρό=μ, λεωφορείο=β και πόδια=f) όπου επιλέγουν 20 Αθηναίοι για να πάνε κάθε πρωί στην δουλειά τους C C B M M C M M F C F B B M M C C C M C Περιγραφική Στατιστική 27

Κατηγορικές Μεταβλητές Περνάµε τα δεδοµένα στην R > A<-c("C", "C", "B", "M", "M", "C", "M", "M", "F", "C", "F", "B", "B", "M", "M", "C", "C", "C", "M", "C") Με την εντολή table βλέπουµε τις συχνότητες σε κάθε κατηγορία. > table(a) A B C F M 3 8 2 7 Μπορούµε να δούµε και τις σχετικές συχνότητες > prop.table(table(a)) A B C F M 0.15 0.40 0.10 0.35 Περιγραφική Στατιστική 28

Κατηγορικές Μεταβλητές Έστω ότι στο προηγούµενο παράδειγµα οι 10 πρώτοι ήταν άντρες και οι υπόλοιποι 10 γυναίκες. Έτσι έχουµε και µια άλλη κατηγορική µεταβλητή το φύλο. > Gender<-c(rep("M",10), rep("f", 10)) > Gender [1] "M" "M" "M" "M" "M" "M" "M" "M" "M" "M" "F" "F" "F" "F" "F" "F" "F" "F" "F" "F" Μπορούµε τότε να κατασκευάσουµε το πίνακα συνάφειας (contingency table), όπου απεικονίζει τη διµεταβλητή κατανοµή συχνοτήτων για τις δύο κατηγορικές µεταβλητές. Περιγραφική Στατιστική 29

Κατηγορικές Μεταβλητές > mytable<-table(a,gender) > mytable Gender A F M B 2 1 C 4 4 F 1 1 M 3 4 > margin.table(mytable, 1) A B C F M 3 8 2 7 µέσο > margin.table(mytable, 2) Gender F M 10 10 συχνότητες για το µεταφ. συχνότητες για το φύλο > prop.table(mytable) Gender A F M B 0.10 0.05 C 0.20 0.20 F 0.05 0.05 M 0.15 0.20 > prop.table(mytable, 1) Gender A F M B 0.6666667 0.3333333 C 0.5000000 0.5000000 F 0.5000000 0.5000000 M 0.4285714 0.5714286 > prop.table(mytable, 2) Gender A F M B 0.2 0.1 C 0.4 0.4 F 0.1 0.1 M 0.3 0.4 Σχετικές συχνότητες κελιών Σχετικές συχνότητες γραµµών Σχετικές συχνότητες στηλών Περιγραφική Στατιστική 30

Κατηγορικές Μεταβλητές B. Γραφικές Μέθοδοι 1. Ραβδόγραµµα. Στο ραβδόγραµµα οι κατηγορίες της µεταβλητής παρουσιάζονται στον ένα άξονα και οι αντίστοιχες συχνότητες τους στον άλλο άξονα, και εν συνεχεία κατασκευάζονται ορθογώνια πάνω από κάθε κατηγορία µε ύψος ίσο µε την αντίστοιχη συχνότητα της. 2. Τοµεόγραµµα. Στο τοµεόγραµµα διαιρούµε ένα κύκλο σε κυκλικούς τοµείς µε εµβαδά ανάλογα προς τις σχετικές συχνότητες των κατηγοριών. Περιγραφική Στατιστική 31

Κατηγορικές Μεταβλητές > AA<-table(A) > AA A B C F M 3 8 2 7 > barplot(aa) Περιγραφική Στατιστική 32

Κατηγορικές Μεταβλητές > pie(aa) Περιγραφική Στατιστική 33

Ραβδογράµµατα για δύο κατηγορικές µεταβλητές Μπορούµε να παραστήσουµε ταυτόχρονα δύο κατηγορικές µεταβλητές µε τη βοήθεια ραβδογραµµάτων. Π.χ. > x<-c("m","m","f","m","f","f","f","m","f","f","m") > y<-c("a","b","a","c","c","b","a","a","b","a","c") > z<-table(x,y) > z y x A B C F 3 2 1 M 2 1 2 > par(mfrow=c(1,2)) > barplot(z,col=c("darkred","darkblue"), legend=c ("Women","Men")) > barplot(z,col=c("darkred","darkblue"), beside=t, horiz=t) Περιγραφική Στατιστική 34

Ραβδογράµµατα για δύο κατηγορικές µεταβλητές 0 1 2 3 4 5 Men Women A B C A B C 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Περιγραφική Στατιστική 35

Περισσότερα στα Γραφήµατα Με την εντολή plot, µπορούµε να αναπαραστήσουµε γραφικά τις τιµές ενός διανύσµατος. Για τα δεδοµένα x του 1 ου παραδείγµατος, έχουµε >plot(x) Περιγραφική Στατιστική 36

Περισσότερα στα Γραφήµατα Τα δεδοµένα που αναπαριστάνουµε µπορούν να απεικονιστούν µε διάφορους τρόπους µε την βοήθεια του ορίσµατος type. Π.χ. > plot(x, type='l') Περιγραφική Στατιστική 37

Περισσότερα στα Γραφήµατα Σύµβολο p l b c ο h s n Σηµασία Σηµεία Γραµµή Γραµµή και σηµεία Γραµµή µε κενό στα σηµεία Γραµµή και σηµεία ενωµένα Κάθετες γραµµές για κάθε σηµείο Με βήµα Τίποτα Περιγραφική Στατιστική 38

Περισσότερα στα Γραφήµατα Σε κάθε εντολή δηµιουργίας γραφηµάτων µπορούν να δοθούν ορίσµατα βελτίωσης της εικόνας τους. Με την παράµετρο main δίνουµε τίτλο στο γράφηµα. Με την παράµετρο submain δίνουµε υπότιτλο στο γράφηµα. Με τις παραµέτρους xlab και ylab δίνουµε τίτλους στους άξονες. Με την παράµετρο xlim και ylim δίνουµε επιθυµητό εύρος τιµών για τους άξονες. Περιγραφική Στατιστική 39

Περισσότερα στα Γραφήµατα > hist(x,main="histogram of X", sub="31/05/2009", xlab="x", ylab="frequency", ylim=c(0,8), xlim=c(0,300)) Περιγραφική Στατιστική 40

Περισσότερα στα Γραφήµατα Όλες αυτές οι παράµετροι µπορούν να δοθούν σε ένα ήδη υπάρχον γράφηµα µε την βοήθεια της εντολής title. > hist(x) > title(main="histogram of X", sub="31/05/2009", xlab="x", ylab="frequency", ylim=c(0,8), xlim=c(0,300)) Περιγραφική Στατιστική 41

Περισσότερα στα Γραφήµατα Μπορούµε στο ίδιο παράθυρο να έχουµε πολλά γραφήµατα σε µια διάταξη µε γραµµές και στήλες. Περιγραφική Στατιστική 42

Περισσότερα στα Γραφήµατα > par(mfrow=c(2,4)) > plot(x, type="p") > title(main="points") > plot(x, type="l") > title(main="lines") > plot(x, type="b") > title(main="points and Lines") > plot(x, type="c") > title(main="lines Part Alone") > plot(x, type="o") > title(main="lines with Points overstruck") > plot(x, type="h") > title(main="high Density") > plot(x, type="s") > title(main="stairstep") > plot(x, type="n") > title(main="none") Περιγραφική Στατιστική 43

Περισσότερα στα Γραφήµατα Περιγραφική Στατιστική 44

Περισσότερα στα Γραφήµατα Σε ένα γράφηµα µπορούµε να προσθέσουµε διάφορες γραµµές οι οποίες µπορούν να είναι διαφορετικού είδους (lty) ή χρώµατος (col) για να τις διαφοροποιήσουµε µε τις εντολές abline και line. Περιγραφική Στατιστική 45

Περισσότερα στα Γραφήµατα > plot(x, ylim=c(0,250)) > abline(v=10, col=2) > abline(h=150, lty=2) > abline(0,2, lty=3, col=3) > y<-x+20 > lines(y, col=4) Νέα δεδοµένα y Η ευθεία x=10 Η ευθεία y=150 Η ευθεία y=0 + 2x Απεικόνιση των y τα οποία είναι ενωµένα µε ευθεία. Περιγραφική Στατιστική 46

Περισσότερα στα Γραφήµατα Περιγραφική Στατιστική 47

Περισσότερα στα Γραφήµατα Είναι επίσης δυνατόν να προσθέσουµε µια λεζάντα που να επεξηγεί το γράφηµα. > plot(x, ylim=c(0,250)) > abline(v=10, col=2) > abline(h=50, lty=2) > legend(1,230, lty=c(2,1), col=1:2,legend=c("y=50", "x=10")) συντεταγµένες λεζάντας Περιγραφική Στατιστική 48

Περισσότερα στα Γραφήµατα Περιγραφική Στατιστική 49

Περισσότερα στα Γραφήµατα Τέλος µε την εντολή text µπορούµε να εµφανίσουµε χαρακτήρες αντί για σηµεία. Για παράδειγµα έστω τα βάρη 5 ανδρών και 5 γυναικών: > weight<-c(72, 83, 79, 90, 88, 60, 55, 70, 72, 74) > gender<-rep(c("m", "F"), each=5) > gender [1] "M" "M" "M" "M" "M" "F" "F" "F" "F" "F" > plot(weight, type='n') > text(weight, label=gender) Περιγραφική Στατιστική 50

Περισσότερα στα Γραφήµατα Περιγραφική Στατιστική 51