ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ Η/Υ ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ 2o ΜΑΘΗΜΑ Ι ΑΣΚΩΝ: ΒΑΣΙΛΕΙΑ ΗΣ ΓΕΩΡΓΙΟΣ Email: gvasil@math.auth.gr Ιστοσελίδες Μαθήματος: users.auth.gr/gvasil kastoria.teikoz.gr/elearn 1 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ ΓΡΑΦΗΜΑΤΑ ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ 2 1
Περιγραφή στατιστικών δεδομένων Κοιτάζοντας μία λίστα δεδομένων είναι δύσκολο να σχηματίσουμε μια πρώτη εντύπωση για τα χαρακτηριστικά των δεδομένων που μας ενδιαφέρουν. Οι στατιστικοί πίνακες και οι γραφικές παραστάσεις αποτελούν χρήσιμα μέσα για να παρουσιάσουμε τα δεδομένα καθαρά, σύντομα και με σαφήνεια. 3 A/A Χαρακτηριστικά 20 μαθητών Γ Τάξης Λυκείου. ΦΥΛΟ ΑΠΑΣΧΟΛΗΣΗ AΡΙΘΜΟΣ AΔΕΛΦΩΝ ΒAΘΜΟΣ ΜAΘ/KΩΝ ΥΨΟΣ 1 K 4 1 15 170 60 2 A 1 0 17 180 68 ΒAΡΟΣ 3 K 4 2 12 178 62 1= Υπολογιστές 4 K 5 1 18 165 47 2= Αθλητισμός 5 K 5 0 15 170 54 3= Διασκέδαση 6 K 4 3 16 168 56 4= Μουσική 7 K 4 2 15 175 58 5= Τηλεόραση 8 A 4 1 15 175 72 6= Διάβασμα 9 A 2 3 13 173 67 7= Άλλο 10 K 3 1 15 162 50 11 K 4 1 16 160 51 12 A 2 1 11 170 58 13 K 7 3 20 167 50 14 A 1 1 18 177 81 15 A 1 0 17 180 70 16 K 2 2 19 170 63 17 A 2 0 14 182 71 18 A 7 2 17 178 73 19 Α 4 1 14 165 58 20 A 5 1 16 178 74 4 2
1) Περιγραφή Ποιοτικών Δεδομένων Πίνακας ς συχνοτήτων Ραβδόγραμμα, Κυκλικό διάγραμμα 5 Πίνακας συχνοτήτων Μεταβλητή Χ v i f i f i % Κατηγορία 1 v 1 f 1 f 1 % Κατηγορία 2 v 2 f 2 f 2 % Κατηγορία k v k f k f k % Σύνολα v 1 100 Συχνότητα: Συχνότητα μίας κατηγορίας της μεταβλητής Χ λέγεται ο φυσικός αριθμός v i ο οποίος φανερώνει πόσες φορές παρουσιάζεται στο δείγμα η συγκεκριμένη κατηγορία. Σχετική Συχνότητα: Σχετική συχνότητα μίας κατηγορίας της μεταβλητής Χ λέγεται το πηλίκο της διαίρεσης της συχνότητας προς το πλήθος των vi παρατηρήσεων, δηλαδή: f i = v Σχετική Συχνότητα επί τοις εκατό : f i % = 100f i 6 3
Παρατηρήσεις: 1) Το άθροισμα των συχνοτήτων κάθε κατηγορίας δίνει το συνολικό πλήθος παρατηρήσεων k i = 1 v i = v 1 + v 2 + L + v k = v 2) Το άθροισμα των σχετικών συχνοτήτων κάθε κατηγορίας ισούται με τη μονάδα και 0 fi 1. 3) Το άθροισμα των σχετικών συχνοτήτων % κάθε κατηγορίας ισούται 100 και 0 fi% 100. 7 Παράδειγμα: Να γίνει ο πίνακας συχνοτήτων για τη μεταβλητή Απασχόληση Μαθητών Απασχόληση Κωδικός v i f i f i % Υπολογιστές 1 Αθλητισμός 2 Διασκέδαση 3 Μουσική 4 Τηλεόραση 5 Διάβασμα 6 Άλλο 7 ΣΥΝΟΛΑ 8 4
Απασχόληση Κωδικός v i Υπολογιστές 1 3 Αθλητισμός 2 4 Διασκέδαση 3 1 Μουσική 4 5 Τηλεόραση 5 3 Δάβ Διάβασμα 6 2 Άλλο 7 2 ΣΥΝΟΛΑ 20 f i f i % v 3 = = v 20 1 f1 = 4 f 2 = = 20 1 f 3 = = 20 0,20 0,05 0,15 Όμοια υπολογίζουμε και τα υπόλοιπα f i 9 Πίνακας συχνοτήτων της μεταβλητής Απασχόληση Μαθητών Απασχόληση Κωδικός v i f i f i % Υπολογιστές 1 3 015 0,15 15 Αθλητισμός 2 4 0,20 20 Διασκέδαση 3 1 0,05 5 Μουσική 4 5 0,25 25 Τηλεόραση 5 3 0,15 15 Διάβασμα 6 2 0,10 10 Άλλο 7 2 0,10 10 ΣΥΝΟΛΑ 20 1,00 100 10 5
ΡΑΒΔΟΓΡΑΜΜΑ Ραβδόγραμμα Συχνοτήτων Μεταβλητής Απασχόληση Μαθητών 6 5 4 Συχνότητες 3 2 1 0 Υπολογιστές Αθλητισμός ιασκέδαση Μουσική Τηλεόραση ιάβασμα Άλλο Απασχόληση 11 Ραβδόγραμμα Συχνοτήτων Μεταβλητής Απασχόληση Μαθητών Άλλο ιάβασμα Απασχόληση Τηλεόραση Μουσική ιασκέδαση Αθλητισμός Υπολογιστές 0 1 2 3 4 5 6 Συχνότητες 12 6
Ραβδόγραμμα Σχετικών % Συχνοτήτων της Μεταβλητής Απασχόληση Μαθητών 30 25 Σχετικές % Συχνότητες 20 15 10 5 0 Υπολογιστές Αθλητισμός ιασκέδαση Μουσική Τηλεόραση ιάβασμα Άλλο Απασχόληση 13 ΚΥΚΛΙΚΟ ΔΙΑΓΡΑΜΜΑ Κυκλικό ιάγραμμα Συχνοτήτων Μεταβλητής Απασχόληση Μαθητών ιάβασμα Άλλο α 1 o Υπολογιστές α io = 360 o f i Π.χ. α 1o = 360 o f 1 = 360 o 0,15=54 ο Τηλεόραση Αθλητισμός ιασκέδαση Μουσική 14 7
Ταυτόχρονη παρουσίαση δύο ποιοτικών μεταβλητών Γίνεται με τη βοήθεια ενός πίνακα διπλής εισόδου Παράδειγμα: Φύλο - Απασχόληση 15 Υπολογιστές Αθλητισμός ιασκέδαση Μουσική Τηλεόραση ιάβασμα Άλλο Αό Αγόρι 3 3 0 1 1 1 1 Κορίτσι 0 1 1 4 2 1 1 Συχνότητα Κελιού 3 άτομα του δείγματος μας είναι αγόρια και έχουν ως απασχόληση τους υπολογιστές 16 8
Γραφική Παρουσίαση Ομαδοποιημένο Ραβδόγραμμα Απασχόληση Μαθητών ανά Φύλο 4 Συχνότητες 3 2 ΑΓΟΡΙΑ ΚΟΡΙΤΣΙΑ 1 0 Υπολογιστές Αθλητισμός ιασκέδαση Μουσική Τηλεόραση ιάβασμα Άλλο 17 Συσσωρευμένο Ραβδόγραμμα 6 5 4 3 Αγόρι Κορίτσι 2 1 0 Υπ ολογιστές Αθλητισμός ιασκέδαση Μουσική Τηλεόραση ιάβασμα Άλλο 18 9
2) Περιγραφή Διακριτών Ποσοτικών Δεδομένων Για να περιγράψουμε διακριτά ποσοτικά δεδομένα με λίγες τιμές ( σε περίπτωση πολλών τιμών τα θεωρούμε ως συνεχή) κάνουμε: Πίνακας συχνοτήτων Ραβδόγραμμα, Κυκλικό διάγραμμα 19 Παράδειγμα: Να γίνει ο πίνακας συχνοτήτων και τα κατάλληλα γραφήματα για τη μεταβλητή Αριθμός Αδελφών Αριθμός Αδελφών 1 0 2 1 0 3 2 1 3 1 1 1 3 1 0 2 0 2 1 1 1 1 2 1 2 0 1 1 0 1 0 1 2 1 1 1 1 1 0 1 20 10
Σχετική Αθροιστική Συχνότητα επί τοις εκατό : F % = 100 i F i Πίνακας Συχνοτήτων Μεταβλητής Αριθμός Αδελφών Αριθμός Αδελφών xi v i f i f i % 0 8 0,200 20,0 1 22 0,550 55,0 2 7 0,175 17,5 3 3 0,075 7,5 40 1,00 100 N i F i F i % Αθροιστική Συχνότητα Νi: Ονομάζεται το άθροισμα των συχνοτήτων των τιμών που είναι μικρότερες ή ίσες με την τιμή αυτή, δηλαδή: Ni = v1 + v2 + L+ vi = Ni 1 + vi Αθροιστική σχετική συχνότητα F i :Ονομάζεται το άθροισμα των σχετικών συχνοτήτων των τιμών που είναι μικρότερες ή ίσες από αυτή, δηλαδή: Fi = f1 + f2 + L+ fi = Fi 1 + fi 21 Πίνακας Συχνοτήτων Μεταβλητής Αριθμός Αδελφών Αριθμός Αδελφών x i v i f i f i % 0 8 0,200 20,0 1 22 0,550 55,0, 2 7 0,175 17,5 3 3 0,075 7,5 40 1,00 100 N i F i F i % N1 1 = = v 8 = f 0, 200 N 2 2 = N1 + v = 8 + 22 = 30 N 3 3 = N2 + v = 30 + 7 = 37 N 4 4 = N3 + v = 37 + 3 = 40 F1 1 = F 2 F 3 F4 3 4 = 2 = F1 + f = 0,200 + 0,550 = 0, 750 3 = F2 + f = 0, 750 + 0,175 = 0,925 = F + f = 0,925 + 0,075 1,000 22 11
Πίνακας Συχνοτήτων Μεταβλητής Αριθμός Αδελφών Αριθμός Αδελφών x i v i f i f i % N i F i F i % 0 8 0,200 20,0 8 0,200 20,0 1 22 0,550 55,0, 30 0,750 75,0, 2 7 0,175 17,5 37 0,925 92,5 3 3 0,075 7,5 40 1,000 100,0 40 1,00 100 23 ΡΑΒΔΟΓΡΑΜΜΑΤΑ Ραβδόγραμμα Συχνοτήτων μεταβλητής Αριθμός Αδελφών 25 20 Συχνότητες 15 10 5 0 0 1 2 3 Αριθμός Αδελφών 24 12
Όμοια δημιουργούμε και τα ραβδογράμματα Σχετικών συχνοτήτων Αθροιστικών συχνοτήτων Σχετικών αθροιστικών συχνοτήτων 25 ΚΥΚΛΙΚΟ ΔΙΑΓΡΑΜΜΑ Κυκλικό διάγραμμα συχνοτήτων 0 1 2 3 26 13
Άσκηση: Χρησιμοποιώντας τον παρακάτω πίνακα συχνοτήτων, που δίνει την κατανομή του αριθμού των απουσιών των σπουδαστών σε κάποιο εργαστήριο, να βρεθεί ο αριθμός και το ποσοστό των σπουδαστών που πήραν: α) ) τουλάχιστον μία απουσία β) πάνω από δύο απουσίες γ) το πολύ δύο απουσίες Αριθμός Συχνότητα απουσιών 0 30 1 15 2 9 3 6 27 3) Περιγραφή συνεχών Ποσοτικών Δεδομένων Πίνακας συχνοτήτων Γραφήματα Ιστόγραμμα Πολύγωνο συχνοτήτων και αθροιστικών συχνοτήτων Θηκόγραμμα Στατιστικά μέτρα 28 14
Πίνακας συχνοτήτων Στην περίπτωση των συνεχών μεταβλητών είναι δύσκολο να κατασκευαστούν οι πίνακες συχνοτήτων αλλά και τα διαγράμματα συχνοτήτων με τον τρόπο που είδαμε στην περίπτωση των διακριτών μεταβλητών. Για να κατασκευάσουμε τον πίνακα συχνοτήτων κάνουμε ομαδοποίηση παρατηρήσεων σε κλάσεις ίσου πλάτους (διαστήματα) ώστε κάθε τιμή να ανήκει σε μια και μόνο μια κλάση. Τις κλάσεις τις συμβολίζουμε με διαστήματα της μορφής [α,β), δηλ. κλειστό από αριστερά και ανοιχτό από δεξιά. Ταάκρατωνκλάσεωνταονομάζουμεόρια κλάσεων τα όρια. 29 Ομαδοποίηση Παρατηρήσεων Για να κάνουμε ομαδοποίηση παρατηρήσεων σε κλάσεις ίσου πλάτους ακολουθούμε τα παρακάτω βήματα. 1. Βρίσκουμε το πλήθος των κλάσεων χρησιμοποιώντας τον τύπο κ =1+3,2logv 1+32logv ο οποίος όπως παρατηρούμε εξαρτάται από το μέγεθος του δείγματος (Ο αριθμός κλάσεων μπορεί να δίνεται στην εκφώνηση της άσκησης). 2. Από τα δεδομένα της άσκησης βρίσκουμε x max x min = = μεγαλύτερη τιμή, μικρότερη τιμή 3. Βρίσκουμε το εύρος των παρατηρήσεων R = x max x min 30 15
4. Βρίσκουμε το πλάτος c κάθε κλάσης (αν δεν είναι φυσικός αριθμός στρογγυλοποιούμε πάντα προς τα πάνω) c = R κ 5. Γράφουμε τις κλάσεις, ξεκινώντας από το xmin και προσθέτοντας κάθε φορά το πλάτος c, σε διαστήματα της μορφής [α,β). 31 6. Βρίσκουμε τα κέντρα των κλάσεων. Αυτά θα είναι στην περίπτωση των συνεχών μεταβλητών τα γνωστά μας x i. Προφανώς το κέντρο της κλάσης είναι το x i a + β = 2 Αφού βρούμε το πρώτο κέντρο τότε προσθέτοντας κάθε φορά το πλάτος της κλάσης c βρίσκουμε τα επόμενα κέντρα. 32 16
7. Προσέχουμε πάντα ώστε καμία παρατήρηση να μην μείνει έξω από κάποια κλάση και καμία παρατήρηση να μην βρίσκεται σε δύο διαφορετικές κλάσεις. 8. Τέλος βρίσκουμε την συχνότητα της κάθε κλάσης με τον γνωστό τρόπο της διαλογής και κάνουμε τον πίνακα συχνοτήτων με τον τρόπο που έχουμε δει και στην περίπτωση των διακριτών ποσοτικών δεδομένων. 33 Παράδειγμα: Να γίνει ομαδοποίηση των παρατηρήσεων σε κλάσεις ίσου πλάτους για την μεταβλητή Ύψος Μαθητών παρατηρήσεις της οποίας δίνονται στον παρακάτω πίνακα και να σχηματιστεί ο πίνακας συχνοτήτων. 170 180 178 165 170 168 175 175 173 162 Ύψος Μαθητών 160 170 167 177 180 170 182 178 165 178 156 175 172 173 167 187 170 180 178 191 176 169 167 166 179 178 180 164 170 173 34 17
Λύση: Πλήθος δείγματος v = 40 Πλήθος κλάσεων 6, αφού Μέγιστη τιμή Ελάχιστη τιμή Εύρος Πλάτος κλάσης κ = 1 + 3,2logv = 6, 12 x max = 191 x min = 156 R = x x = 191 16 156 max min = R c = = κ 35 6 = 35 5,833 6 35 Έτσι οι κλάσεις θα είναι [156,162) [162,168) [168,174) [174,180) [180,186) [186,192) Τα κέντρα των κλάσεων θα είναι 156 + 162 2 = 159 159 + 6 = 165 171 177 183 189,,,,, 36 18
Πίνακας Συχνοτήτων Μεταβλητής Ύψος Μαθητών κλάσεις κέντρα κλάσεων [156 156,162) 162) 159 [ 162,168) 165 [ 168,174) 171 [ 174,180) 177 [ 180,186) 183 [ 186,192) 189 v i f i % N F % i i 2 500 5,00 2 500 5,00 8 20,00 10 25,00 12 30,00 22 55,00 11 27,50 33 82,50 5 12,50 38 95,00 2 5,00 40 100,00 Σύνολο 40 100,00 37 19