Μάθηµα 1 ο Ανάλυση εδοµένων µε τη Γλώσσα R Στο πρώτο µάθηµα θα ασχοληθούµε µε την καταχώρηση και την προκαταρκτική ανάλυση των στατιστικών δεδοµένων µε τη γλώσσα στατιστικού προγραµµατισµού R. http://compus.uom.gr/inf238/index.php 1
Η γλώσσα R Η γλώσσα R Η γλώσσα R είναι ελεύθερο λογισµικό, δέστε τις ιστοσελίδες http://www.r-project.org/ http://lib.stat.cmu.edu/r/cran/ http://lib.stat.cmu.edu/modules.php?op=mo dload&name=downloads&file=index&req=views download&sid=27 Η δοµή της R είναι πολύ κοντά στης S, βλ. Προγραµµατισµός µε R, Παπαναστασίου.pdf. http://compus.uom.gr/inf238/index.php 2
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Στατιστικά εδοµένα Στατιστικά δεδοµένα προκύπτουν: Από απογραφές, που περιλαµβάνουν τις σχετικές πληροφορίες για ολόκληρο τον πληθυσµό. Αν και στην πράξη καµιά απογραφή δεν είναι τέλεια, θεωρούµε ότι τα στατιστικά µέτρα που προκύπτουν µετρούν το µέγεθος που µας ενδιαφέρει ακριβώς, όσο είναι το αληθινό, χωρίς σφάλµα, και τότε λέγονται παράµετροι του πληθυσµού. http://compus.uom.gr/inf238/index.php 3
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Από δείγµατα, που αντλούν τις ίδιες πληροφορίες από ένα κατάλληλα επιλεγµένο υποσύνολο του πληθυσµού. Μετρούν τα στατιστικά µέτρα που µας ενδιαφέρουν µε σφάλµα λόγω δειγµατοληψίας. Τότε λέµε ότι αποτελούν (δειγµατικές) εκτιµήσεις της παραµέτρου. Ένα βασικό µέρος της στατιστικής θεωρίας ασχολείται µε το µέγεθος των σφαλµάτων σε διάφορα σχήµατα δειγµατοληψίας. http://compus.uom.gr/inf238/index.php 4
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα ιακρίνουµε τα στατιστικά δεδοµένα σε Πρωτογενή, που συλλέγουµε κατευθείαν από τις στατιστικές µονάδες, πχ ερωτηµατολόγια απογραφής, µέτρηση κυκλοφορίας στο δρόµο µε κατάλληλη συσκευή, κλπ. ευτερογενή, που τα έχει συλλέξει και καταχωρήσει σε κάποια µορφή τρίτος, άτοµο ή φορέας, πχ η Ελληνική Στατιστική Αρχή, EuroStat, κλπ, και τα χρησιµοποιούµε για το αντικείµενο που ερευνούµε. http://compus.uom.gr/inf238/index.php 5
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Στατιστικά εδοµένα για το Μάθηµα Στη συνέχεια του µαθήµατος θεωρούµε ότι έχουµε δόκιµα στατιστικά δεδοµένα στη διάθεσή µας και δεν εξετάζουµε πως έχουν συλλεχθεί. Για το µάθηµα συχνά θα χρησιµοποιούµε ως παράδειγµα (µελέτη περίπτωσης) τα δεδοµένα των επιβατικών αυτοκινήτων, Cars.txt. Επίσης, θα χρησιµοποιούµε δεδοµένα από το βιβλίο των Heiberger, R. M. and B. Holland, Statistical Analysis and Data Display, An Intermediate Course with Examples in S- Plus, R, and SAS, Springer, NY, 2004 όπου κάθε φορά θα αναφέρουµε το όνοµα του αρχείου. Τα δεδοµένα του µαθήµατος θα τα βρείτε σε µορφή.txt στο CoMPUs>ΣΤΑΤΙΣΤΙΚΗ II>Έγγραφα >DATA_SETS_txt http://compus.uom.gr/inf238/index.php 6
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Όλα τα δεδοµένα και τον σχετικό R κώδικα από το βιβλίο Heiberger and Holland (2004) µπορείτε να τα κατεβάσετε από http://www.springer.com/statistics/statistical+theory+and+methods/book/978-0-387-40270-3 http://compus.uom.gr/inf238/index.php 7
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Μερικές Περιπτώσεις Στατιστικών εδοµένων Τα δεδοµένα των αυτοκινήτων Τα δεδοµένα των επιβατικών αυτοκινήτων, είναι γνωστά ως ένα καλό σύνολο δεδοµένων για εκπαίδευση στη στατιστική ανάλυση δεδοµένων, µεταξύ άλλων βλ. http://lib.stat.cmu.edu/ datasets/cars.desc. Τα δεδοµένα που περιλαµβάνονται στο αρχείο Cars.txt είναι από τη βάση δεδοµένων που συµπεριλαµβάνεται στο πακέτο SPSS για εκπαιδευτικούς λόγους. Περιλαµβάνει 406 περιπτώσεις επιβατικών αυτοκινήτων, για το κάθε ένα από τα οποία καταγράφονται οι επόµενες οκτώ πληροφορίες-µεταβλητές. http://compus.uom.gr/inf238/index.php 8
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα 1. κατανάλωση βενζίνης, σε µίλια ανά γαλόνι, (MPG) 2. κυβισµός, σε κυβικές ίντσες, (ENGINE) 3. ιπποδύναµη, (HORSE) 4. βάρος, σε λίβρες, (WEIGHT) 5. επιτάχυνση, δευτερόλεπτα για 70 µίλια, (ACCEL) 6. έτος κατασκευής, (YEAR) 7. περιοχή προέλευσης, Αµερική:1, Ευρώπη:2, Ιαπωνία:3, (ORIGIN) 8. αριθµός κυλίνδρων, (CYLINDER) http://compus.uom.gr/inf238/index.php 9
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Ο αντίστοιχος R κώδικας είναι > # Τα δεδοµένα των αυτοκινήτων > # Εισάγουµε δεδοµένα από αρχείο > Cars=read.table("c:\\Cars.txt",header=T) > attach(cars) > names(cars) [1] "MPG" "ENGINE" "HORSE" "WEIGHT" "ACCEL" "YEAR" "ORIGIN" "CYLINDER" > Cars MPG ENGINE HORSE WEIGHT ACCEL YEAR ORIGIN CYLINDER 1 18 307 130 3504 12 70 1 8 2 15 350 165 3693 12 70 1 8 3 18 318 150 3436 11 70 1 8... Περισσότερα για τον κώδικα R θα βρείτε στο αντίστοιχο script αρχείο, CoMPUs>ΣΤΑΤΙΣΤΙΚΗ II>Έγγραφα >ΑΡΧΕΙΑ_ΚΩ ΙΚΑ_R (Lectrure_1_Exploratory Statistics.R). http://compus.uom.gr/inf238/index.php 10
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα Τα δεδοµένα προσδόκιµου ζωής Προέρχονται από το βιβλίο των Heiberger, R. M. and B. Holland, (2004), µε το όνοµα tv.dat. Τα δεδοµένα συνίστανται από 40 περιπτώσεις, όπου στην κάθε περίπτωση καταγράφεται, 1. χώρα 2. προσδόκιµο ζωής, (life.exp) 3. αριθµός τηλεοράσεων ανά κάτοικο, (ppl.per.tv) 4. αριθµός γιατρών ανά κάτοικο, (ppl.per.phys) 5. προσδόκιµο ζωής γυναικών, (fem.life.exp) 6. προσδόκιµο ζωής ανδρών, (male.life.exp) Υπάρχουν επίσης στο αρχείο tv.txt, αλλά µε τον επόµενο κώδικα διαβάζονται από τη βάση δεδοµένων που περιλαµβάνεται στο R πακέτο HH, βλ. Παράρτηµα Α: Μερικές Περιπτώσεις Στατιστικών εδοµένων. http://compus.uom.gr/inf238/index.php 11
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Στατιστικά εδοµένα > # Φορτώνουµε τη βιβλιοθήκη HH (ήδη εγκαταστηµένη) > library(hh) Loading required package: lattice > > # Από το c:\ηομε\hh\grap\code\grap.read.le.r, αντιγράφουµε > # τον επόµενο κώδικα για να διαβάσουµε τα δεδοµένα tv.dat > tv <- read.fwf(hh("datasets/tv.dat"),widths=c(22,6,7,7,4,2), +strip.white=true,na.strings="*",row.names=1) > names(tv) <- c("life.exp","ppl.per.tv","ppl.per.phys", + "fem.life.exp","male.life.exp") > tv life.exp ppl.per.tv ppl.per.phys fem.life.exp male.life.exp Argentina 70.5 4.0 370 74 67 Bangladesh 53.5 315.0 6166 53 54 Brazil 65.0 4.0 684 68 62... http://compus.uom.gr/inf238/index.php 12
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Καταχώρηση Καταχώρηση Τα στατιστικά στοιχεία τα φανταζόµαστε σαν ένα πίνακα, όπου γραµµές είναι οι περιπτώσεις (cases) ή παρατηρήσεις και στήλες είναι οι µεταβλητές (variables), ή αποκρίσεις, ή µετρήσεις, πχ δες το αρχείο Cars.txt. Αυτός είναι ο συνήθης τρόπος που καταχωρούνται στοιχεία στο Excel, στο SPSS (IBM SPSS Statistics 19), και άλλα στατιστικά πακέτα, αλλά δεν είναι ο µοναδικός. Όταν βρίσκουµε στοιχεία σε κάποια πηγή, να διαβάζουµε προσεκτικά τις οδηγίες για το πώς είναι καταχωρηµένα. Επίσης να προσέχουµε αν οι στήλες έχουν ονόµατα, πως δηλώνονται οι τιµές που λείπουν (missing values), κλπ. http://compus.uom.gr/inf238/index.php 13
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Καταχώρηση Καθάρισµα εδοµένων Ελέγχουµε αν έχουν µεταφερθεί σωστά τα στοιχεία του αρχείου που διαβάσαµε και η µορφή των στοιχείων (χαρακτήρες, ηµεροµηνίες, κλπ). Επίσης, µε τη βοήθεια κατάλληλων γραφικών, πχ ένα ιστόγραµµα ή ένα θηκόγραµµα, ελέγχουµε αν υπάρχουν εµφανώς λανθασµένες καταχωρήσεις από την αρχή. http://compus.uom.gr/inf238/index.php 14
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Είδη εδοµένων Ένας πρώτος τρόπος διαχωρισµού των δεδοµένων είναι µε βάση τη διάκριση σε διακριτά (discrete) και συνεχή (continuous). Στη συνέχεια θα παρουσιάσουµε το διαχωρισµό των δεδοµένων µε βάση την κλίµακα µέτρησης που µετρώνται. Σε κάθε περίπτωση, ανήκουν σε µια από τις προηγούµενες κατηγορίες. http://compus.uom.gr/inf238/index.php 15
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Είδη εδοµένων: Κλίµακες Μέτρησης, (Scales) υαδικά (count data): Μια δυαδική µεταβλητή παίρνει δυο τιµές, συνήθως καταχωρούµε 1 στην περίπτωση που έχουµε επιτυχία (success) και µε 0 την περίπτωση που έχουµε αποτυχία (failure). Παράδειγµα: Ένδειξη Νοµίσµατος:Κορώνα, Γράµµατα, Φύλο: Άνδρες, Γυναίκες http://compus.uom.gr/inf238/index.php 16
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Κατηγορικά (Categorical) ή Ονοµαστικά (Nominal) ή διακριτά (discrete) ή παράγοντες (factors) ή δεδοµένα σε κλάσεις (class data) ή αγωγές (treatments): Η κατηγορική µεταβλητή παίρνει περισσότερες από δυο διακριτές τιµές, πάντα σχετικά µικρού πλήθους, που τις λέµε κατηγορίες (categories) ή κλάσεις (classes) ή επίπεδα (levels) ή αγωγές (treatments). Στα κατηγορικά δεδοµένα δεν υπάρχει σχέση διάταξης και δεν είναι πάντα αριθµητικά. Παράδειγµα: η µεταβλητή Επάγγελµα παίρνει τις τιµές Εκπαιδευτικός, Αγρότης, Τεχνίτης, κλπ. Για ευκολία, συνήθως καταχωρούµε 1,2, κλπ. http://compus.uom.gr/inf238/index.php 17
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων ιατεταγµένα (Ordinal): Οι τιµές µπορεί να είναι κατηγορικές ή αριθµητικές, αλλά υπάρχει µόνο σχέση διάταξης και δεν ισχύουν οι συνήθεις αριθµητικές πράξεις. Παράδειγµα: Βαθµός Ικανοποίησης: καθόλου, λίγο, αρκετά, πολύ, απόλυτα Στο παράδειγµά µας, το λίγο δεν διαφέρει στην προτίµησή µας από το καθόλου όσο το καθόλου από το αρκετά. http://compus.uom.gr/inf238/index.php 18
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Σχέση ιαστήµατος (Ιnterval): Είναι αριθµητικά, υπάρχει διάταξη και ίση απόσταση µεταξύ των τιµών, αλλά όχι η έννοια του πολλαπλάσιου. Παράδειγµα: θερµοκρασίες σε C 0, χρονολογίες, βαθµοί σε σχολείο. Στο παράδειγµα των βαθµών, το 10 δεν είναι ακριβώς δυο φορές καλύτερο από το 5. Οι χρονολογίες και οι θερµοκρασίες δεν έχουν κάποια σαφή αρχή µέτρησης. http://compus.uom.gr/inf238/index.php 19
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Κλίµακος (Scale): Είναι αριθµητικά και έχουν όλες τις ιδιότητες των πραγµατικών αριθµών. Παράδειγµα: ηλικίες ατόµων, ύψη, εισοδήµατα, κλπ Τα δεδοµένα κλίµακος µπορεί να είναι διακριτά ή συνεχή. Μια διακριτή µεταβλητή έχει, συνήθως, πεπερασµένο και σχετικά µικρό αριθµό αριθµητικών τιµών, µιας συνεχής, θεωρητικά, δέχεται άπειρο αριθµό τιµών. Επειδή στην πράξη τα περισσότερα µεγέθη µετρώνται µε στρογγυλοποίηση, σε αρκετές περιπτώσεις µένει στον αναλυτή να αποφασίσει, αν θα αντιµετωπίσει τα αριθµητικά δεδοµένα του ως διακριτά ή συνεχή. http://compus.uom.gr/inf238/index.php 20
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Ένας Άλλος ιαχωρισµός Όταν σε κάθε περίπτωση µετράµε µόνο µια µεταβλητή, πχ ύψος ενός ατόµου, τα δεδοµένα λέγονται µονοµεταβλητά (univariate). Όταν µετράµε συγχρόνως περισσότερες από µια µεταβλητή σε κάθε περίπτωση, λέγονται πολυµεταβλητά (multivariate) ή διανυσµατικά, πχ για το ίδιο άτοµο παρατηρούµε συγχρόνως το ύψος, το βάρος, την ηλικία και επάγγελµά του. http://compus.uom.gr/inf238/index.php 21
Μεθοδολογία Έρευνας: Μάθηµα 1 ο Είδη εδοµένων Στρογγύλεµα Αριθµών Συλλέγουµε τα στοιχεία και κάνουµε τους βασικούς υπολογισµούς µε τη µεγαλύτερη διαθέσιµη ακρίβεια. Παρουσιάζουµε τα αποτελέσµατα σε πίνακες ή γραφήµατα µε τόσα δεκαδικά όσα είναι αρκετά να φαίνονται ευκρινώς οι διαφορές. Αυτό σηµαίνει ότι παίρνουµε υπόψη το εύρος των τιµών της µεταβλητής που εξετάζουµε. Η R κάνει υπολογισµούς διπλής ακρίβειας (double precision). http://compus.uom.gr/inf238/index.php 22
Μία Μεταβλητή: ιακριτά εδοµένα Ερώτηµα: Για τα δεδοµένα των επιβατικών αυτοκινήτων, ποια είναι η σύνθεση των αυτοκινήτων κατά περιοχή προέλευσης; http://compus.uom.gr/inf238/index.php 23
Σχηµατίζουµε τον πίνακα συχνοτήτων > # πίνακας συχνοτήτων > ORIGIN.freq=table(ORIGIN) > names(origin.freq)=c("american","european","japanese") > ORIGIN.freq American European Japanese 253 73 79 http://compus.uom.gr/inf238/index.php 24
Κατασκευάζουµε το ραβδόγραµµα > barplot(origin.freq,col=gray(seq(0.6,1.0,length=3)), axis.lty=1,main ="barchart για ORIGIN") barchart για ORIGIN 0 50 10 150 20 250 American European Japanese Εικόνα 1: Tο ραβδόγραµµα της περιοχής προέλευσης http://compus.uom.gr/inf238/index.php 25
Κατασκευάζουµε το κυκλικό διάγραµµα > windows(width=30,height=25,rescale="fixed") > pie(origin.freq,col=gray(seq(0.6,1.0,length=3)), + main="κυκλικό ιάγραµµα για ORIGIN",cex=6,cex.main=6) Κυκλικό ιάγραµµα για ORIGIN American Japanese European Εικόνα 2: Tο κυκλικό διάγραµµα της περιοχής προέλευσης http://compus.uom.gr/inf238/index.php 26
Ραβδογράµµατα σε οµάδες, CYLINDERS ως προς ORIGIN Κατά οµάδες, (Clustered) Ραβδόγραµµα Αριθµού Κυλίνδρων ανα Περιοχή Συχνότητα 0 20 40 60 80 100 American European Japanese 3 4 5 6 8 Αριθµός Κυλίνδρων Εικόνα 3: Ραβδογράµµατα κατά οµάδες http://compus.uom.gr/inf238/index.php 27
Κατά στήλες, (Stacked) Ραβδόγραµµα Αριθµού Κυλίνδρω ν ανα Περιοχή Συχνότητα 0 50 100 150 200 American European Japanese 3 4 5 6 8 Αριθµός Κυλίνδρων Εικόνα 4: Ραβδογράµµατα κατά στήλες http://compus.uom.gr/inf238/index.php 28
Μία Μεταβλητή: Συνεχή εδοµένα Ερώτηµα: Κάντε µια αναγνωριστική ανάλυση της κατανάλωσης καυσίµου, MPG, για τα δεδοµένα των επιβατικών αυτοκινήτων. http://compus.uom.gr/inf238/index.php 29
Υπολογίζουµε µερικά περιγραφικά στατιστικά > summary(mpg) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 9.00 18.00 23.00 23.56 29.00 47.00 8.00 > # ποσοστηµόρια > quantile(mpg,probs=seq(0.1,1,0.1),na.rm=t) 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 14.0 16.0 18.0 20.0 23.0 25.0 27.9 31.0 34.0 47.0 http://compus.uom.gr/inf238/index.php 30
> # Ιστόγραµµα > hist(mpg,probability=t,main="ιστόγραµµα για MPG") > rug(jitter(mpg)) Ιστόγραµµα για MPG Density 0.00 0.01 0.02 0.03 0.04 0.05 10 20 30 40 50 MPG Εικόνα 5: Το ιστόγραµµα της κατανάλωσης, MPG http://compus.uom.gr/inf238/index.php 31
> # θηκόγραµµα > boxplot(mpg,main="θηκόγραµµα για MPG",horizontal=FALSE,col="bisque") Θηκόγραµµα για MPG 10 20 30 40 Εικόνα 6: Θηκόγραµµα για την κατανάλωση βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 32
Το θηκόγραµµα παριστά τη διασπορά και την ασυµµετρία. Όταν υπάρχουν έκτοπες τιµές, (outliers), έξω από τα άκρα του, αυτό αποτελεί ένδειξη λεπτόκυρτης ή ασύµµετρης κατανοµής. http://compus.uom.gr/inf238/index.php 33
> # διάγραµµα µίσχου-φύλλων > stem(mpg) The decimal point is at the 8 0 10 000000 12 00000000000000000000000000 14 000000000000000000000000000000000000 16 000000000000000000000000000000 18 00000000000000000000000000000000000000000000000000 20 0000000000000000000000000000000 22 0000000000000000000000000000 24 00000000000000000000000000000000000 26 00000000000000000000000000000000000 28 00000000000000000000000 30 000000000000000000000000 32 0000000000000000000000 34 000000000000000000 36 000000000000000 38 000000000 40 00 42 000 44 000 46 0 Εικόνα 7: ιάγραµµα µίσχου-φύλλων για την κατανάλωση βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 34
Eξοµαλυσµένη καµπύλη (εξοµαλυντής πυρήνων) > plot(density(mpg,adjust=2,na.rm=true),main="καµπύλη Συχνοτήτων για MPG") Καµπύλη Συχνοτήτων για MPG Density 0.00 0.01 0.02 0.03 0.04 0 10 20 30 40 50 60 N = 398 Bandwidth = 4.247 Εικόνα 8: Εξοµαλυσµένη καµπύλη για την κατανάλωση βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 35
> # διάγραµµα κανονικών πιθανοτήτων > qqnorm(mpg,main="normal Q-Q Plot για MPG") > qqline(mpg) Normal Q-Q Plot για MPG Sample Quantiles 10 20 30 40-3 -2-1 0 1 2 3 Theoretical Quantiles Εικόνα 9: ιάγραµµα κανονικών πιθανοτήτων για την κατανάλωση βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 36
Υπολογίζουµε περισσότερα περιγραφικά στατιστικά µε µια δική µας συνάρτηση > stats.d(mpg) ΠΕΡΙΓΡΑΦΙΚΑ ΣΤΑΤΙΣΤΙΚΑ για MPG ΟΝΟΜΑ ΤΙΜΗ ΤΥΠ.ΣΦΑΛΜΑ αριθ. παρατηρήσεων 406 αριθ. τιµών που λείπουν 8 µέσος 23.562814 0.391629 0.05 λειασµένος µέσος 23.286111 διακύµανση 61.042644 3.730961 συν.µεταβλητότητας 0.331789 ελάχιστο 9 µέγιστο 47 διάµεσος 23 Q1 18 Q3 29 εύρος 38 ασυµµετρία 0.452009 0.122782 κύρτωση(διορθωµένη) -0.513182 0.245564 ελ-χος Shapiro-Wilk(p-τιµή) 0 http://compus.uom.gr/inf238/index.php 37
Ιστόγραµµα και Κανονική Καµπύλη ΓΡΑΦΙΚΑ για MPG Εξοµαλυσµένη Πυκνότητα Πυκνότητα 0.00 0.03 Πυκνότητα 0.00 0.02 0.04 10 20 30 40 50 0 10 20 30 40 50 60 Τιµές είγµατος Τιµές είγµατος Τιµές είγµατος 10 20 30 40 Θηκόγραµµα ειγµατικά Ποσοστηµόρια -2 0 1 2 3 qq-plot για Τυπική Κανονική -3-2 -1 0 1 2 3 Θεωρητικά Ποσοστηµόρια είκτης - Τιµή είγµατος Τιµές είγµατος 10 20 30 40 0 100 200 300 400 Εικόνα 10: Γραφική παρουσίαση των δεδοµένων της κατανάλωσης βενζίνης, MPG, σε επιβατικά αυτοκίνητα είκτης http://compus.uom.gr/inf238/index.php 38
ηµιουργούµε πίνακες αποτελεσµάτων, που ακολουθούν κάποιους κανόνες, βλ Πίνακα 1 Πίνακας 1. Περιγραφικά στατιστικά για την κατανάλωση καυσίµου στα δεδοµένα των επιβατικών αυτοκινήτων Στατιστική Τιµή Τυπικό Σφάλµα αριθµός παρατηρήσεων 406 αριθµός τιµών που λείπουν 8 µέσος 23.5628 0.3916 0.05 λειασµένος µέσος 23.2861 διακύµανση 61.0426 2.1349 συν.µεταβλητότητας 0.3318 ελάχιστο 9 µέγιστο 47 διάµεσος 23 Q1 18 Q3 29 εύρος 38 ασυµµετρία 0.452009 0.1228 κύρτωση -.513182 0.2456 Shapiro-Wilk, p-τιµή 0.0000 http://compus.uom.gr/inf238/index.php 39
Παρουσίαση Πολυµεταβλητών εδοµένων Ερώτηµα: Θέλουµε να έχουµε µια συνοπτική εικόνα συγχρόνως για τις µεταβλητές MPG, ENGINE, HORSE, WEIGHT και ACCEL για τις τρείς περιοχές προέλευσης. Υπολογίζουµε τις µέσες τιµές των µεταβλητών ανά περιοχή και τις αποδίδουµε γραφικά. Επειδή στα επόµενα γραφήµατα µε µεγάλο θέλω να παριστώ ένα καλό χαρακτηριστικό, για τις WEIGHT και ACCEL υπολογίζω και παριστώ τις αντίστροφες τιµές τους. http://compus.uom.gr/inf238/index.php 40
> means.by.origin=by(cars[,1:5],origin.f,colmeans,na.rm=true);means.by.origin ORIGIN.F: American MPG ENGINE HORSE WEIGHT ACCEL 20.18952 247.71542 119.60643 3367.32806 15.05138 ----------------------------------------------------------------------------- ORIGIN.F: European MPG ENGINE HORSE WEIGHT ACCEL 27.91429 109.46575 81.00000 2431.49315 17.02740 ----------------------------------------------------------------------------- ORIGIN.F: Japanese MPG ENGINE HORSE WEIGHT ACCEL 30.48101 102.70886 79.83544 2221.22785 16.29114 http://compus.uom.gr/inf238/index.php 41
Αστεροειδές διάγραµµα > stars(means.by.origin,key.loc=c(4.5,2.2),labels=my.labels,mar=c(0,3,0,3) +0.1,col.stars=c("red","blue","yellow")) Αστεροειδές διάγραµµα για τα δεδοµένα των αυτοκινήτων American Average European Average ENGINE HORSE MPG Inv.WEIGHT Japanese Average Inv.ACCEL Εικόνα 11: Αστεροειδές διάγραµµα των δεδοµένων της κατανάλωσης βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 42
> stars(means.by.origin,draw.segments=true,key.loc=c(4.8,2.2),labels=my.labels, + col.segments=grey(seq(0.2,0.8,length=5))) Αστεροειδές διάγραµµα για τα δεδοµένα των αυτοκινήτων American Average European Average ENGINE MPG HORSE Inv.ACC Japanese Average Inv.WEIGHT Εικόνα 12: Αστεροειδές διάγραµµα των δεδοµένων της κατανάλωσης βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 43
Πρόσωπα του Chernoff > library(teachingdemos) > faces2(rbind(mean.american,mean.european,mean.japanese), + labels=c("american average","european average","japanese average"), + scale = ("columns")) American average European average Japanese average Εικόνα 13: Πρόσωπα του Chernoff των δεδοµένων της κατανάλωσης βενζίνης σε επιβατικά αυτοκίνητα http://compus.uom.gr/inf238/index.php 44
> # παράλληλα θηκογράµµατα > boxplot(mpg~origin,col="bisque",names=c("american","european","japanese"), + main="θηκόγραµµα της κατανάλωσης ανα περιοχή",ylab="mpg") θηκόγραµµα της κατανάλωσης ανα περιοχή MPG 10 20 30 40 American European Japanese Εικόνα 14: Παράλληλα θηκογράµµατα, κατανάλωση σε µια περιοχή http://compus.uom.gr/inf238/index.php 45
> # διάγραµµα dotchart > average=by(mpg,origin,mean,na.rm=true) > dotchart(as.numeric(na.omit(mpg[-which(is.na(origin.f))])),groups=na.omit(origin.f[- which(is.na(mpg))]), + gdata=average,gpch=15,gcolor="red",color="blue",cex=0.7,main="dotchart για MPG ανά περιοχή") American dotchart για MPG ανά περιοχή European Japanese 10 20 30 40 Εικόνα 15: ιάγραµµα σηµείων, κατανάλωση ανά περιοχή http://compus.uom.gr/inf238/index.php 46
ιάγραµµα διασποράς: ιππoδύναµη έναντι κατανάλωσης > # Εικόνα 16 > plot(mpg~horse, εδοµένα Επιβατικών Αυτοκινήτων 40 Κατανάλωση, (MPG) 30 20 10 50 100 150 200 Ιπποδύναµη, (HP) Εικόνα 16: ιάγραµµα διασποράς, ιππoδύναµη έναντι κατανάλωσης http://compus.uom.gr/inf238/index.php 47
Πίνακας διαγραµµάτων διασποράς, splom > # Εικόνα 17 > pairs(. εδοµένα επιβατικών αυτοκινήτων 1.0 2.0 3.0 1000 4000 0 200 10 30 MPG ENGINE 0 200 50 150 HORSE WEIGHT 1000 4000 10 20 ACCEL ORIGIN 1.0 2.0 3.0 10 20 50 150 10 30 Εικόνα 17: Πίνακας διαγραµµάτων διασποράς, τα δεδοµένα των αυτοκινήτων http://compus.uom.gr/inf238/index.php 48
Βιβλιογραφία Πρόσθετη Βιβλιογραφία Μαθήµατος [1] Wonnacott, T. H. and Wonnacott, R. J., Introductory Statistics for Business and Economics, Wiley, 1990, New York [2] Chambers, J. M, Cleveland, W. S., Kleiner, B. and Tukey, P. A., Grafical Methods for Data Analysis, Chapman & Hall, 1998, London [3] Venables, W. N. and Ripley, B. D., Modern Applied Statistics with S-Plus, Springer-Verlag 1994, New York [4] Everitt, B. S. and Dunn, G., Applied Multivariate Data Analysis, Edward Arnold, 1991, London [5] Τσάντας, Ν., Μωυσιάδης, Χ., Μπαγιάτης, Κ., και Χατζηπαντελής, Θ., Ανάλυση εδοµένων µε την Βοήθεια Στατιστικών Πακέτων, Εκδόσεις Ζήτη, 1999, Θεσσαλονίκη [6] Chernoff, H. The use of faces to represent statistical association, 1973, JASA, 68, pp 361 368 http://compus.uom.gr/inf238/index.php 49