Ιωάννης Ντζούφρας Ενότητα 2 ιαγραμματική Απεικόνιση Ανάλυση εδομένων ιαφάνεια 2-1 Περιεχόμενα ιαγραμματική απεικόνιση Μίας Κατηγορικής Μίας Ποσοτικής ύο Κατηγορικών ύο Ποσοτικών Μιας Κατηγορικής και μιας ποσοτικής Τριών Ποσοτικών ύο ποσοτικών και μιας κατηγορικής Πολλών ποσοτικών μεταβλητών ιερευνητική Περιγραφική Ανάλυση εδομένων (exploratory data analysis) Ανάλυση εδομένων ιαφάνεια 2-2
Τύπος γραφήματος Μιας διάστασης (μεταβλητής) Δύο διαστάσεων (μεταβλητών) Πολλών διαστάσεων ή Πολυμεταβλητά Τύπος μεταβλητών Κατηγορική (Ποιοτική) Αριθμητική (Ποσοτική) Δύο ποιοτικές Μια ποσοτική & μια ποιοτική Δύο ποσοτικές Ποσοτικές Διάγραμμα Ραβδόγραμμα (Bar chart) Κυκλικό ή Πίτας (Pie chart) Ιστόγραμμα (Histogram) Διάγραμμα μίσχου-φύλλου (Steam-and-Leaf plot) Διάγραμμα πλαισίου και απολήξεων (Box plot) qqplot/ pplot Ομαδοποιημένα Ραβδόγραμματα (clustered Barcharts) Διάγραμμα πλαισίου και απολήξεων (Box plot) Διάγραμμα σφαλμάτων (Error bars) Διάγραμμα σημείων (Scatter plot) Πίνακας διαγραμμάτων σημείων (scatter plot matrix) Αστεροειδή γραφήματα (Star plot) Τα πρόσωπα του Chernoff (Chernoff faces) Ανάλυση εδομένων ιαφάνεια 2-3 Ραβδοδιάγραμμα (barchart) Εντολή barplot Κυκλικό διάγραμμα ή διάγραμμα πίτας Εντολή pie Ανάλυση εδομένων ιαφάνεια 2-4
ΡΑΒ Ο ΙΑΓΡΑΜΜΑ ΠΑΡΑ ΕΙΓΜΑ: WORLD95 ΜΕΤΑΒΛΗΤΗ: REGION Graphical parameters cex.names=0.9 μέγεθος ονομάτων των ράβδων (90% της default τιμής) cex.axis=1.5 μέγεθος αριθμών στους άξονες (1.5 φορά της default τιμής) cex.lab=1.5 μέγεθος κειμένου στους άξονες εδώ το Frequencies (1.5 φορά της default τιμής) ylab='frequencies' κείμενο που θα προστεθεί στον άξονα y barplot( table(world95$religion) ) barplot(table(world95$religion), cex.names=0.9, ylab='frequencies', cex.axis=1.5, cex.lab=1.5) Ανάλυση εδομένων ιαφάνεια 2-5 ΡΑΒ Ο ΙΑΓΡΑΜΜΑ ΠΑΡΑ ΕΙΓΜΑ: WORLD95 ΜΕΤΑΒΛΗΤΗ: REGION Graphical parameters cex.names=1.2 μέγεθος ονομάτων των ράβδων (+20% της default τιμής) las=2 το κείμενο/νούμερα στους άξονες θα είναι κάθετα στους άξονες barplot(table(world95$religion), cex.names=1.2, ylab='frequencies', cex.axis=1.5, cex.lab=1.5, las=2) Ανάλυση εδομένων ιαφάνεια 2-6
ΡΑΒ Ο ΙΑΓΡΑΜΜΑ Τύπωμα οριζόντιου διαγράμματος με την παράμετρο horiz=t Αλλαγή περιθωρίων με τη γραφική παράμετρο par(mar=c(κ, α, π, δ) > par()$mar [1] 5.1 4.1 4.1 2.1 > tempmar <- par()$mar > mymar <- tempmar > mymar[2] <- 7 > par(mar=mymar) >barplot(table(world95$religion), + cex.names=1.5, + xlab='frequencies', + las=2, horiz=t) > par(mar=tempmar) Ανάλυση εδομένων ιαφάνεια 2-7 ΡΑΒ Ο ΙΑΓΡΑΜΜΑ Αλλαγή χρώματος των ράβδων με την παράμετρο col barplot(, col=2) barplot(, col= green ) barplot(, col=1:10) Ανάλυση εδομένων ιαφάνεια 2-8
ΡΑΒ Ο ΙΑΓΡΑΜΜΑ Αλλαγή χρώματος περιγράμματος των ράβδων με την παράμετρο border Μπορούμε εναλλακτικά να θέσουμε border=0/ white (ίδιο με το φόντο) barplot(, col=2, border=2) barplot(, col= green, border= green ) barplot(, col=1:10, border=1:10) Ανάλυση εδομένων ιαφάνεια 2-9 ΡΑΒ Ο ΙΑΓΡΑΜΜΑ Graphical parameters density=10 ελέγχει την πυκνότητα των οριζόντιων γραμμών στις ράβδους Παίρνει τιμές από 1-25 Default τιμή είναι null δηλαδή να είναι όλο χρωματισμένο angle=45 ελέγχει την κλίση των γραμμών barplot(table(world95$religion),, density=seq(1,20,2)) Ανάλυση εδομένων ιαφάνεια 2-10
ΡΑΒ Ο ΙΑΓΡΑΜΜΑ Χρήση σχετικών συχνοτήτων με την εντολή prop.table props <- prop.table(table(world95$religion)) barplot(props, cex.names=1.2,..., col='lightcoral', border=0) Ανάλυση εδομένων ιαφάνεια 2-11 ΡΑΒ Ο ΙΑΓΡΑΜΜΑ Άλλες εντολές και βιβλιοθήκες Εντολή plotp στη βιβλιοθήκη plotrix Εντολή barchart της βιβλιοθήκης lattice Eντολή qplot της βιβλιοθήκης ggplot2 Χρήση βιβλιοθήκης ggplot2 Ανάλυση εδομένων ιαφάνεια 2-12
ΡΑΒ Ο ΙΑΓΡΑΜΜΑ Άλλες εντολές και βιβλιοθήκες Εντολή plotp στη βιβλιοθήκη plotrix Εντολή barchart της βιβλιοθήκης lattice Eντολή qplot της βιβλιοθήκης ggplot2 Χρήση βιβλιοθήκης ggplot2 Ανάλυση εδομένων ιαφάνεια 2-13 ΚΥΚΛΙΚΟ ΙΑΓΡΑΜΜΑ/ ΙΑΓΡΑΜΜΑ ΠΙΤΑΣ ΠΑΡΑ ΕΙΓΜΑ: WORLD95 ΜΕΤΑΒΛΗΤΗ: REGION pie( table(world95$religion) ) Ανάλυση εδομένων ιαφάνεια 2-14
ΚΥΚΛΙΚΟ ΙΑΓΡΑΜΜΑ/ ΙΑΓΡΑΜΜΑ ΠΙΤΑΣ ΠΑΡΑ ΕΙΓΜΑ: WORLD95 ΜΕΤΑΒΛΗΤΗ: REGION pie( table(world95$religion), col=colors(), border=0) Graphical parameters col=colors() διαλέγει τα πρώτα χρώματα από το διάνυσμα colors border=0 θέτει λευκό περίγραμμα (που εδώ φαίνεται σαν να μην υπάρχει) Ανάλυση εδομένων ιαφάνεια 2-15 ΚΥΚΛΙΚΟ ΙΑΓΡΑΜΜΑ/ ΙΑΓΡΑΜΜΑ ΠΙΤΑΣ Προβολή ποσοστών μεσώ της παραμέτρου labels perc <- round(100*prop.table(table(world95$religion)),1) perc <- paste( '(', perc, sep='' ) perc <- paste( perc, '%)', sep='' ) pielabels <- paste( levels(world95$religion), perc) pie(table(world95$religion), labels=pielabels, border=0) Ανάλυση εδομένων ιαφάνεια 2-16
ΚΥΚΛΙΚΟ ΙΑΓΡΑΜΜΑ/ ΙΑΓΡΑΜΜΑ ΠΙΤΑΣ ΠΑΡΑ ΕΙΓΜΑ: WORLD95 ΜΕΤΑΒΛΗΤΗ: REGION pie(table(world95$religion), labels=perc, border=0, col=colors()) legend('topright', legend=levels(world95$religion), bty='n', fill=colors()) Παράμετροι ελέγχου του legend topright τοποθέτηση στην πάνω δεξιά γωνία legend= κείμενο για κάθε κομμάτι του piechart bty= n χωρίς περίγραμμα fill= χρώματα για κάθε κομμάτι του piechart Ανάλυση εδομένων ιαφάνεια 2-17 ΚΥΚΛΙΚΟ ΙΑΓΡΑΜΜΑ/ ΙΑΓΡΑΜΜΑ ΠΙΤΑΣ Άλλες βιβλιοθήκες Εντολή pie3d στη βιβλιοθήκη plotrix Χρήση βιβλιοθήκης ggplot2 Ανάλυση εδομένων ιαφάνεια 2-18
ΚΥΚΛΙΚΟ ΙΑΓΡΑΜΜΑ/ ΙΑΓΡΑΜΜΑ ΠΙΤΑΣ Άλλες βιβλιοθήκες Εντολή pie3d στη βιβλιοθήκη plotrix Χρήση βιβλιοθήκης ggplot2 Ανάλυση εδομένων ιαφάνεια 2-19 ΚΥΚΛΙΚΟ ΙΑΓΡΑΜΜΑ/ ΙΑΓΡΑΜΜΑ ΠΙΤΑΣ Άλλες βιβλιοθήκες Εντολή pie3d στη βιβλιοθήκη plotrix Χρήση βιβλιοθήκης ggplot2 Ανάλυση εδομένων ιαφάνεια 2-20
ΚΥΚΛΙΚΟ ΙΑΓΡΑΜΜΑ/ ΙΑΓΡΑΜΜΑ ΠΙΤΑΣ Άλλες βιβλιοθήκες Εντολή pie3d στη βιβλιοθήκη plotrix Χρήση βιβλιοθήκης ggplot2 Ανάλυση εδομένων ιαφάνεια 2-21 ΚΥΚΛΙΚΟ ΙΑΓΡΑΜΜΑ/ ΙΑΓΡΑΜΜΑ ΠΙΤΑΣ Άλλες βιβλιοθήκες Εντολή pie3d στη βιβλιοθήκη plotrix Χρήση βιβλιοθήκης ggplot2 Ανάλυση εδομένων ιαφάνεια 2-22
ΚΥΚΛΙΚΟ ΙΑΓΡΑΜΜΑ/ ΙΑΓΡΑΜΜΑ ΠΙΤΑΣ Άλλες βιβλιοθήκες Εντολή pie3d στη βιβλιοθήκη plotrix Χρήση βιβλιοθήκης ggplot2 Ανάλυση εδομένων ιαφάνεια 2-23 Ιστόγραμμα (Histogram) Διάγραμμα πλαισίου και απολήξεων (Box plot) Qqplot ή pplot Ανάλυση εδομένων ιαφάνεια 2-24
ΙΣΤΟΓΡΑΜΜΑ: Παράδειγμα: WORLD95 Μεταβλητή: URBAN hist(x, col=2, border="white", probability=t) m<-mean(x); s<-sd(x) curve( dnorm(x,m,s), col="blue", lwd=1.5, add=t) Παράμετροι ελέγχου του hist probability=t το εμβαδόν του ιστογράμματος ίσο με ένα (για να είναι συγκρίσιμο με σππ) Παράμετροι ελέγχου του curv add=t προσθέτει διάγραμμα στο ήδη υπάρχων device Ανάλυση εδομένων ιαφάνεια 2-25 ΙΣΤΟΓΡΑΜΜΑ: Παράδειγμα: WORLD95 Μεταβλητή: URBAN hist(x, col=colors()[42], border="white", probability=t, ylim=c(0, 0.02)) curve( dnorm(x,m,s), col="red", add=t, lwd=3) Γραφικές παράμετροι ylim όρια του y αξονα (αντίστοιχα και xlim) lwd πάχος γραμμής colors() διάνυσμα χαρακτήρων 657 χρωμάτων Ανάλυση εδομένων ιαφάνεια 2-26
ΙΣΤΟΓΡΑΜΜΑ: Παράδειγμα: WORLD95 Μεταβλητή: URBAN temp <- hist(x, probability=t) names(temp) x0<-seq( min(x), max(x), length.out=100) y0<-dnorm(x0,m,s) hist(x,col=colors()[433],border="white", probability=t, ylim=range( c(y0,temp$density) ) ) lines( x0, y0, col="blue", lwd=3) Ανάλυση εδομένων ιαφάνεια 2-27 ΙΣΤΟΓΡΑΜΜΑ: Παράδειγμα: WORLD95 Μεταβλητή: lifeexpm & lifeexpf par(mfrow=c(2,1)) x1<-world95$lifeexpf x2<-world95$lifeexpm x3<-range(c(x1,x2)) hist(x1, xlim=x3, main= Female life expectancy') hist(x2, xlim=x3, main= Male life expectancy') Ανάλυση εδομένων ιαφάνεια 2-28
ΙΣΤΟΓΡΑΜΜΑ: Παράδειγμα: WORLD95 Μεταβλητή: lifeexpm & lifeexpf x1 <- world95$lifeexpm-world95$lifeexpf hist(x1, main='distribution of Life Expectancy Differences', xlab='life Expectancy Difference (Males-Females)') Ανάλυση εδομένων ιαφάνεια 2-29 ΙΣΤΟΓΡΑΜΜΑ: Παράδειγμα: WORLD95 Μεταβλητή: lifeexpm & lifeexpf x1 <- world95$lifeexpm-world95$lifeexpf mytitle<-'distribution of Life Expectancy Differences' plot(density(x1), main=mytitle) x2<- seq( min(c(0,x1)), max(x1), length.out=100 ) lines( x2, dnorm(x2,mean(x1),sd(x1)), lty=2, col=2) legend( "topright", col=1:2, lty=1:2, legend=c("fitted density", "Normal density"), bty='n' ) Ανάλυση εδομένων ιαφάνεια 2-30
ΙΣΤΟΓΡΑΜΜΑ: Παράδειγμα: WORLD95 Μεταβλητή: lifeexpm & lifeexpf d<-density(x1) plot(d, main=mytitle, col=0) polygon(d,col=colors()[3], border=0) x2<- seq( min(c(0,x1)), max(x1), length.out=100 ) lines( x2, dnorm(x2,mean(x1),sd(x1)), lty=2, col=3, lwd=3) Ανάλυση εδομένων ιαφάνεια 2-31 ΙΑΓΡΑΜΜΑ ΠΛΑΙΣΙΟΥ- ΑΠΟΛΗΞΕΩΝ (BOX-PLOT) o ΑΚΡΑΙΕΣ ΤΙΜΕΣ (outliers) * ΥΠΕΡΒΟΛΙΚΑ ΑΚΡΑΙΕΣ ΤΙΜΕΣ (EXTREME VALUES) 3 2 1 0-1 -2-3 Απόληξη Πλαίσιο Απόληξη Άνω Άνω Φράγμα 3ο 3 ο Τεταρτημόριο Τεταρτηγ (Q 3 ) Διάμεσος 1ο Τεταρτημόριο (Q 1 ) Κάτω Φράγμα -4 N = 100 Ανάλυση εδομένων ιαφάνεια 2-32
ΙΑΓΡΑΜΜΑ ΠΛΑΙΣΙΟΥ- ΑΠΟΛΗΞΕΩΝ (BOX-PLOT) ΠΑΡΑ ΕΙΓΜΑ: WORLD95 ΜΕΤΑΒΛΗΤΗ: URBAN boxplot(world95$urban, main='ποσοστό Αστικοποίησης') Ανάλυση εδομένων ιαφάνεια 2-33 ΙΑΓΡΑΜΜΑ ΠΛΑΙΣΙΟΥ- ΑΠΟΛΗΞΕΩΝ (BOX-PLOT) ΠΑΡΑ ΕΙΓΜΑ: WORLD95 ΜΕΤΑΒΛΗΤΗ: LIFEEXP (ΑΝΑΜΕΝΟΜΕΝΟΣ ΧΡΟΝΟΣ ΖΩΗΣ ΓΥΝΑΙΚΩΝ) boxplot(world95$lifeexpf, main='αναμενόμενοςχρόνοςζωής των Γυναικών') Ακραίες τιμές Ανάλυση εδομένων ιαφάνεια 2-34
ΙΑΓΡΑΜΜΑ ΠΛΑΙΣΙΟΥ- ΑΠΟΛΗΞΕΩΝ (BOX-PLOT) Burgina Faso Haiti Rwanda Tanzania Afganistan Uganda Ανάλυση εδομένων ιαφάνεια 2-35 ΙΑΓΡΑΜΜΑ ΠΛΑΙΣΙΟΥ- ΑΠΟΛΗΞΕΩΝ (BOX-PLOT) boxdata <- boxplot(world95$lifeexpf, main='αναμενόμενος Χρόνος Ζωής των Γυναικών') index <- which(world95$lifeexpf %in% boxdata$out) text(boxdata$group, boxdata$out, world95$country[index],pos=4) Burgina Faso Haiti Rwanda Tanzania Afganistan Uganda Ανάλυση εδομένων ιαφάνεια 2-36
myboxplot(world95$popula) boxplot(world95$popula) ΙΑΓΡΑΜΜΑ ΠΛΑΙΣΙΟΥ- ΑΠΟΛΗΞΕΩΝ (BOX-PLOT) # inner fences Q_1,3 1.5xIQR # outer fences Q_1,3 3 x IQR Ανάλυση εδομένων ιαφάνεια 2-37 Q-QPLOT Χρησιμοποιείται για διαγραμματικό έλεγχο της προσαρμογής των δεδομένων σε διάφορες κατανομές Ανάλυση εδομένων ιαφάνεια 2-38
Q-QPLOT Χρησιμοποιείται για διαγραμματικό έλεγχο της προσαρμογής των δεδομένων σε διάφορες κατανομές Ανάλυση εδομένων ιαφάνεια 2-39 Q-QPLOT Χρησιμοποιείται για διαγραμματικό έλεγχο της προσαρμογής των δεδομένων σε διάφορες κατανομές Ανάλυση εδομένων ιαφάνεια 2-40
Q-QPLOT Χρησιμοποιείται για διαγραμματικό έλεγχο της προσαρμογής των δεδομένων σε διάφορες κατανομές Ανάλυση εδομένων ιαφάνεια 2-41 ιάγραμμα κατανομής για διακριτές μεταβλητές football <- read.csv2('goals.csv') goals <- c(football$goasl1,football$goals2) table(goals) plot(table(goals)) xtabs(~goals) plot(xtabs(~goals) Ανάλυση εδομένων ιαφάνεια 2-42