R & R- Studio Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr
Εισαγωγή στο R Διαχείριση Δεδομένων R Project Περιγραφή του περιβάλλοντος του GNU προγράμματος R Project for Statistical Analysis Γραφήματα Περιγραφική Στατιστική
Το R είναι ελεύθερα διαθέσιμο στην ιστοσελίδα http://www.r-project.org/ Υπάρχουν δεκάδες βιβλιοθήκες στην ιστοσελίδα http://cran.r-project.org/. Πάνω από 4300!! Διαθέτει γλώσσα προγραμματισμού Διαθέτει πολλά γραφικά περιβάλλοντα Εύκολος χειρισμός στατιστικών μοντέλων Πλούσια βιβλιογραφία (http://www.r-project.org/doc/bib/rbooks.html) De facto εργαλείο στατιστικών αναλύσεων σε ακαδημαϊκό επίπεδο Μεγάλη βάση χρηστών
Μετά την εγκατάσταση R Studio
Διαχείριση πακέτων Διαχείριση κώδικα
Κειμενογράφος Εργαλεία διαχείρισης δεδομένων Εργαλεία διαχείρισης πακέτων Αποτελέσματα
Βασικές έννοιες Συνεδρίες (sessions) Workspace Βοηθήματα Προγραμματισμός (εργαλεία) Βιβλιοθήκες (εγκατάσταση, ενεργοποίηση) Data editor
Εισαγωγή στο R Διαχείριση Δεδομένων Δεδομένα στο R Στην ενότητα αυτή θα αναφερθούμε στους διαφόρους τύπους δεδομένων του R. Επίσης θα δούμε πως διαχειριζόμαστε δεδομένα όπως για παράδειγμα εισαγωγή, ανάγνωση αρχείων, μετατροπή, αποθήκευση Γραφήματα Περιγραφική Στατιστική
Δεδομένα Το R υποστηρίζει τους εξής τύπους δεδομένων : βασικούς τύπους όπως χαρακτήρες, αριθμούς διανύσμα (vector) πίνακες (matrix) πίνακες πολλών διάστασης (array) λίστες (list) διακριτούς (factor) σύνολα δεδομένων (data frame). Το R υποστηρίζει τους εξής τελεστές αριθμητικών πράξεων : Άθροισμα : (+) πχ 1+2 Αφαίρεση : (-) πχ 4.5-2.8 Πολ/σμός : (*) πχ 2*pi Διαίρεση : (/) πχ 3/4 Ανύψωση σε δύναμη πχ pi*r^2
Δεδομένα Το R υποστηρίζει τους εξής λογικούς τελεστές : μικρότερο: < μικρότερο ή ίσο: <= μεγαλύτερο: > μεγαλύτερο ή ίσο: >= ισότητα : = ανισότητα:!= σύζευξη: x y διάδευξη: x&y αληθής πρόταση istrue(x)
Βασικές έντολές read.table Ανάγνωση αρχείων από το σύστημα αρχείων write.table Εγγραφή αρχείων στο σύστημα αρχείων file.choose Επιλογή αρχείου με τη βοήθεια πλαισίου διαλόγου scan Ανάγνωση δεδομένων από την οθόνη data.frame Δημιουργία ενός πλαισίου δεδομένων (data set) fix Αλλαγή μιας μεταβλητής με τη χρήση διεπαφής subset Επιλογή δεδομένων από ένα data frame na.omit Διαγραφή γραμμών σε data.frame, στις οποίες υπάρχουν missing values merge Σύμπτυξη δύο data sets στη βάση κοινού κλειδιού αναφοράς cbind Προσθήκη νέων στηλών σε data.frame rbind Προσθήκη νέων γραμμών σε data.frame cut Μετατροπή μιας συνεχούς μεταβλήτή σε διακριτή sort Ταξινόμηση ενός διανύσματος apply Εφαρμογή υπολογμών σε μέρος δείγματος
Εισαγωγή στο R Διαχείριση Δεδομένων Γραφήματα στο R Στην ενότητα αυτή θα αναφερθούμε στους διαφόρους τύπους γραφημάτων και στις γραφικές δυνατότητες του R Γραφήματα Περιγραφική Στατιστική
Βασικές εντολές plot Γράφημα δύο μεταβλητών hist Ιστόγραμμα pie Κυκλικό γράφημα boxplot Θηκόγραμμα qqnorm Q-Q γράφημα barplot Ραβδόγραμμα contour Περιγραμόγραμμα pairs Γράφημα διάδων legend Μαρκίζα title Τίτλος γραφήματος par Διαχείριση παραμέτρων γραφήματος
Κοινά ορίσματα γραφικών εντολών Ιστοχώρος για επιλογή χρωμάτων: http://research.stowersinstitute.org/efg/r/color/chart/co lorchart.pdf
Πολλά γραφήματα στο ίδιο γραφικό Για να σχεδιάσουμε 6 γραφήματα σε 2 γραμμές x 3 στήλες, κατά γραμμή: par(mfrow=c(2,3)) # Σχεδίαση των έξι γραφημάτων 1 2 3 layout(matrix(data=1:6, nrow=2, ncol=3, byrow=true)) # Σχεδίαση των έξι γραφημάτων 4 5 6
Κοινά ορίσματα γραφικών εντολών lty τύπος γραμμής lwd πάχος γραμμής pch χαρακτήρας γραφήματος font γραμματοσειρά cex μέγεθος γραμματοσειράς las κατεύθυνση (άξονες γραφημάτων) tck Tick mark ( άξονες ) col Χρώμα γραφήματος bg Χρώμα φόντου adj στοίχιση κειμένου par Διαχείριση παραμέτρων γραφήματος
Ιστόγραμμα Το ιστόγραμμα μας δίνει οπτικά πληροφορία για Τη διάμεσο και τη μέση τιμή Τη μεταβλητότητα Την κατανομή Υπάρχουν διάφορες μέθοδοι που προτείνουν τον αριθμό διαστημάτων όπως Sturges Scott Friedman-Diaconis
Ιστόγραμμα hist(x, breaks = "Sturges", freq = NULL, probability =!freq, include.lowest = TRUE, right = TRUE, density = NULL, angle = 45, col = NULL, border = NULL, main = paste("histogram of", xname), xlim = range(breaks), ylim = NULL, xlab = xname, ylab, axes = TRUE, plot = TRUE, labels = FALSE, nclass = NULL, warn.unused = TRUE,...)
Ραβδόγραμμα Με το ραβδόγραμμα δίνουμε οπτική πληροφορία για : Τα τεταρτημόρια Q 1,Q 2,Q 3 Ακραίες τιμές. Βρίσκονται συνήθως σε απόσταση 1.5 φορές μεγαλύτερη του μήκους της διαφοράς IQR=Q 3 -Q 1
Ραβδόγραμμα boxplot(formula, data = NULL,..., subset, na.action = NULL) ## Default S3 method: boxplot(x,..., range = 1.5, width = NULL, varwidth = FALSE, notch = FALSE, outline = TRUE, names, plot = TRUE, border = par("fg"), col = NULL, log = "", pars = list(boxwex = 0.8, staplewex = 0.5, outwex = 0.5), horizontal = FALSE, add = FALSE, at = NULL)
Q-Q γράφημα Γράφημα των ποσοστημορίων ενός δείγματος σε σχέση με τα θεωρητικά ποσοστημόρια της κατανομής του πληθυσμού Αν το δείγμα ακολουθεί τη θεωρητική κατανομή, τότε το γράφημα είναι η διαγώνιος
Q-Q γράφημα boxplot(formula, data = NULL,..., subset, na.action = NULL) ## Default S3 method: boxplot(x,..., range = 1.5, width = NULL, varwidth = FALSE, notch = FALSE, outline = TRUE, names, plot = TRUE, border = par("fg"), col = NULL, log = "", pars = list(boxwex = 0.8, staplewex = 0.5, outwex = 0.5), horizontal = FALSE, add = FALSE, at = NULL)
Εισαγωγή στο R Διαχείριση Δεδομένων Βασικά Μεγέθη Στην ενότητα αυτή θα αναφερθούμε στον υπολογισμό διαφόρων περιγραφικών μεγεθών ενός δείγματος στο R Γραφήματα Περιγραφική Στατιστική
Βασικές εντολές summary υπολογισμός περιγραφικών μεγεθών mean μέση τιμή std τυπική απόκλιση cor συντελεστής συσχέτισης cov συντελεστής συγγραμικότητας stat.desc υπολογισμός διαφόρων περιγραφικών μεγεθών IQR δεκατημόρια min υπολογισμός μικρότερη τιμή max υπολογισμός μεγαλύτερης τιμή table πίνακας συχνοτήτων prop.table πίνακας αναλογιών margin.table υπολογισμός μεγεθών για στήλη/γραμμή πίνακα xtabs πίνακας συχνοτήτων με πολλές δυνατότητες
Ευχαριστώ