Γνωριμία με τον προγραμματισμό μέσω της γλώσσας R Στοιχεία Περιγραφικής Στατιστικής
Περιγραφική Στατιστική
Ποσοτικές Μεταβλητές (1)
Ποσοτικές Μεταβλητές Αριθμητικές Μέθοδοι (1) 1. Μέτρα Θέσης: 1. Δειγματικός Μέσος (Mean). Ο Δειγματικός μέσος είναι το συνηθέστερο μέτρο θέσης για παρατηρήσεις από μια ποσοτική μεταβλητή. Έχει το μειονέκτημα όμως ότι επηρεάζεται από ακραίες παρατηρήσεις. 2. Δειγματική Διάμεσος (Median). Η μεσαία παρατήρηση από το δείγμα είναι η δειγματική διάμεσος. 3. Δειγματική Κορυφή (Mode). Η παρατήρηση με την μεγαλύτερη συχνότητα. Ως μέτρο έχει νόημα να υπολογιστεί σε περιπτώσεις όπου έχουμε επαναλήψεις ίδιων τιμών, γεγονός που συνήθως συμβαίνει μόνο για διακριτά δεδομένα.
Ποσοτικές Μεταβλητές Αριθμητικές Μέθοδοι (2) 1. Μέτρα Μεταβλητότητας: 1. Δειγματική Διασπορά Τυπική Απόκλιση (Variance Standard Deviation). Για να εκφράσουμε πόσο μακριά είναι οι παρατηρήσεις από τον δειγματικό μέσο συνήθως υπολογίζουμε την δειγματική διασπορά ή την θετική τετραγωνική της ρίζα που καλείται δειγματική τυπική απόκλιση s. Έχει το μειονέκτημα ότι επηρεάζεται από ακραίες παρατηρήσεις. 2. Εύρος Δείγματος (Range). Η διαφορά μεταξύ της μεγαλύτερης και μικρότερης παρατήρησης. Προφανώς επηρεάζεται από ακραίες παρατηρήσεις.
Ποσοτικές Μεταβλητές Γραφικές Μέθοδοι 2. Ραβδόγραμμα. Ραβδόγραμμα. Στο ραβδόγραμμα οι κατηγορίες της μεταβλητής παρουσιάζονται στον ένα άξονα και οι αντίστοιχες συχνότητες τους στον άλλο άξονα, και εν συνεχεία κατασκευάζονται ορθογώνια πάνω από κάθε κατηγορία με ύψος ίσο με την αντίστοιχη συχνότητα της.στις περισσότερες περιπτώσεις, δημιουργούμε κλάσεις ίδιου εύρους οπότε τα ορθογώνια έχουν τότε εμβαδά ανάλογα των αντίστοιχων συχνοτήτων. barplot(x)
Ανάλυση Δεδομένων Μία κατηγορική μεταβλητή Για το συγκεκριμένο παράδειγμα θα χρησιμοποιήσουμε τα δεδομένα που βρίσκονται ηδη αποθηκευμένα στο αρχείο iris. Η μεταβλητή Species είναι κατηγορική μεταβλητή (categorical). Τέτοιου είδους μεταβλητές παρουσιάζονται σε πίνακες ενώ συνηθίζεται και η γραφική παράστασή τους με ραβδογράμματα (barcharts) και διαγράμματα πίτας (pie charts). Oι συχνότητες κάθε τιμής της κατηγορικής μεταβλητής Species βρίσκονται με τη συνάρτηση table. iris attach(iris) table(species)
Ανάλυση Δεδομένων Μία κατηγορική μεταβλητή Η κατασκευή ραβδογράμματος επιτυγχάνεται με τη συνάρτηση barplot. Για παράδειγμα δίνουμε τα ακόλουθα δύο ραβδογράμματα barplot(table(species)) barplot(table(species), ylim=c(0,50), col=c(6,7,5), space=1) Με τις συναρτήσεις pie και dotchart κατασκευάζεται διάγραμμα πίτας και διάγραμμα κουκκίδων, αντίστοιχα. Τα δύο διαγράμματα προκύπτουν και με την εκτέλεση των ακόλουθων εντολών pie(table(species)) dotchart(table(species)
Ποσοτικές Μεταβλητές Γραφικές Μέθοδοι 1. Ιστόγραμμα. 1. Για την κατασκευή ενός ιστογράμματος συχνοτήτων, χρειάζεται να ομαδοποιήσουμε τα δεδομένα μας, και εν συνεχεία να σχηματίσουμε διαδοχικά ορθογώνια των οποίων οι βάσεις είναι τα διαστήματα των κλάσεων που δημιουργήσαμε και το ύψος τους είναι ίσο με την συχνότητα των παρατηρήσεων στην αντίστοιχη κλάση. 2. Στις περισσότερες περιπτώσεις, δημιουργούμε κλάσεις ίδιου εύρους οπότε τα ορθογώνια έχουν τότε εμβαδά ανάλογα των αντίστοιχων συχνοτήτων. hist(x)
Ανάλυση Δεδομένων μια ποσοτική μεταβλητή Η μεταβλητή Sepal.Length του ίδιο αρχείου δηλώνει το ύψος(σε εκατοστά) του λουλουδιού και είναι ποσοτική μεταβλητή (περιέχει δεδομένα μετρήσεων (measure ment data)). Για την κατασκευή ενός ιστoγράμματος συχνοτήτων χρησιμοποιείται η συνάρτηση hist. Για παράδειγμα class(sepal.length) mode(sepal.length) hist(sepal.length) min(sepal.length) max(sepal.length)
Στο ιστόγραμμα συχνοτήτων έχουμε τη δυνατότητα να προσαρμόσουμε μια καμπύλη που αποτελεί εκτίμηση της συνάρτησης πυκνότητας της μεταβλητής Sepal.Length μέσω της συνάρτησης density. Επίσης μπορούμε να δώσουμε γραφική παράσταση και του πολυγώνου συχνοτήτων χρησιμοποιώντας τη συνάρτηση simple.freqpoly του πακέτου UsingR. hist(sepal.length,prob=true) lines(density(sepal.length), lwd=2) Η κατασκευή του ιστογράμματος της μεταβλητής Sepal.Length για το είδος setosa της μεταβλητής Species γίνεται ως ακολούθως: hist(sepal.length[species== virginica"])
Ανάλυση δεδομένων: Περισσότερες μεταβλητές Δύο παράγοντες Για τα ακόλουθο παράδειγμα θα χρησιμοποιηθεί το αρχείο ToothGrowth του R studio dataset. Η μεταβλητή supp δηλώνει το είδος του συμπληρώματος (VC, OJ) Η μεταβλητή dose δηλώνει τα μιλιγκράμ ανά ημέρα Η μεταβλητή len δηλώνει την ανάπτυξη. Ας θεωρήσουμε τις μεταβλητές (παράγοντες) supp (Levels: VC, OJ) και dose(levels: 0.5, 1.0, 2.0 ). Για να κατασκευάσουμε τoν πίνακα συνάφειας των μεταβλητών supp και dose (two-way contingency table) εκτελούμε την εντολή table (απόλυτες τιμές), ή prop.table (σχετικές τιμές).
Παράδειγμα ct <- table(supp, dose); ct prop.table(ct) class(ct) Για να κατασκευαστεί ραβδόγραμμα για κάθε στήλη ενός πίνακα χρησιμοποιούμε τη συνάρτηση barplot(). Για παράδειγμα barplot(ct, legend.text=true) barplot(ct, beside=true, col=rainbow(3), ylim=c(0,25)) labs <- c(" VC", "OJ ") legend(locator(1), labs, fill=rainbow(3))
Περισσότερα παραδείγματα x<-c("m","m","f","m","f","f","f","m","f","f","m") y<-c("a","b","a","c","c","b","a","a","b","a","c") z<-table(x,y);z par(mfrow=c(1,2)) barplot(z,col=c("darkred","darkblue"), legend=c("women","men")) barplot(z,col=c("darkred","darkblue"), beside=t, horiz=t)
Στοιχεία πιθανοτήτων Η παραγωγή τυχαίων αριθμών στο R γίνεται με τη συνάρτηση sample. Για παράδειγμα k1 <- 1:20 sample(k1,size=10,replace=true) sample(k1,size=5,replace=false) Η παράμετρος replace δηλώνει την επανατοποθέτηση ή μη των στοιχείων.
Κατανομές Οι βασικότερες κατανομές και οι παράμετροί τους δίνονται στον ακόλουθο πίνακα.
Κατανομές Βάζοντας τα προθέματα d, p, q και r πριν από το R όνομα (Rname) της κατανομής προκύπτει, αντίστοιχα, η συνάρτηση πυκνότητας ή πιθανότητας (σ.π.), η συνάρτηση κατανομής (σ.κ.), ποσοστιαία σημεία και τυχαίοι αριθμοί της κατανομής. Πιο συγκεκριμένα drname(x,...) - Υπολογισμός της σ.π. στο x prname(q,...) - Υπολογισμός της σ.κ. στο q qrname(p,...) - Υπολογισμός τoυ p-ποσοστιαίου σημείου rrname(n,...) - Παραγωγή n τυχαίων αριθμών
Κανονική κατανομή - Παράδειγμα par(mfrow=c(2,2)) curve(dnorm(x, mean = 10, sd = 2),from=4,to=16, xlab="x", ylab="f(x)", main="density function") curve(pnorm(x, mean = 10, sd = 2),from=4,to=16, xlab="x", ylab="f(x)",main="distribution function") curve(qnorm(x, mean = 10, sd = 2),from=0,to=1, xlab="p",ylab=expression(x[p]), las=2, main="quantiles") y <- rnorm(1000, mean = 10, sd = 2) hist(y, breaks=2.5:17.5, prob=true, ylim=c(0,0.25), xlab="x",ylab="probability", main="random numbers") lines(seq(4,16,0.1),dnorm(seq(4,16,0.1), mean = 10, sd = 2))