Μάθηµα 3 ο Περιγραφική Στατιστική
ΗΣτατιστικήείναι Μια τυποποιηµένη σειρά αναλυτικών µεθόδων, οι οποίες χρησιµοποιούνται από τον εκάστοτε ερευνητή για την ανάλυση των διαθέσιµων δεδοµένων. Υπάρχουν δύο κύριοι τύποι στατιστικών τεχνικών Ηπεριγραφική στατιστική (descriptive) Ηεπαγωγική στατιστική (inferential)
ΠΕΡΙΓΡΑΦΙΚΗΣΤΑΤΙΣΤΙΚΗ Χρησιµοποιείται για την οργάνωση και παρουσίαση των στατιστικών στοιχείων Πίνακες και γραφήµατα Αριθµητικά περιγραφικά µέτρα Περιγράφονται τα κύρια χαρακτηριστικά των µεµονωµένων µεταβλητών π.χ.,., ουπολογισµός της µέσης ηλικίας ενός δείγµατος ανθρώπων
Πίνακεςκαι καιγραφήµατα Αποτελούν τις πιο αποτελεσµατικές µεθόδους για την οργάνωση και την παρουσίαση των στοιχείων Γρήγορη εποπτική εικόνα των στοιχείων που πρόκειται να αναλυθούν Πίνακες: παρουσιάζονται βασικά στοιχεία, π.χ.,., πλήθος στοιχείων, συχνότητα, αριθµητικά περιγραφικά µέτρα Γραφήµατα: οπτική αναπαράσταση των στοιχείων που περιέχονται στους πίνακες
Πίνακεςσυχνοτήτων Συχνότητα (f):το πλήθος των παρατηρήσεων που έχουν ένα συγκεκριµένο χαρακτηριστικό Εάν x i (i=1, i=1,,ν) οι τιµές του χαρακτηριστικού xγιατανάτοµα του δείγµατος και y j (j=1, j=1,,κ, κ ν) οι κ διαφορετικές τιµές απότα x i τότε: συχνότητα f είναι το πλήθος των x i που είναι ίσαµε y j π.χ.,., σε δείγµα 293 ατόµων, το πλήθος των συµµετεχόντων που είναι άνδρες είναι 108
Σχετική συχνότητα (f i ): το πηλίκο της συχνότητας εµφάνισης ενός χαρακτηριστικού προς το συνολικό αριθµό των µελών του δείγµατος f i =ν i /ν π.χ.,., σε δείγµα 293 ατόµων η σχετική συχνότητα των ανδρών είναι 0,37 (ήτο( 37% του δείγµατος αποτελείται από άνδρες)
Αθροιστική συχνότητα: το πλήθος των παρατηρήσεων πουτο χαρακτηριστικό τους έχει τιµή µικρότερη ή ίση κάποιας συγκεκριµένης τιµής Αθροιστική σχετική συχνότητα: το ποσοστό των παρατηρήσεων πουτο χαρακτηριστικό τους έχει τιµή µικρότερη ή ίση κάποιας συγκεκριµένης τιµής
Προκύπτει από το άθροισµα των δύο προηγούµενων συχνοτήτων (δλδ., 6 άτοµαστηνκλίµακα 1 & 20 άτοµαστηνκλίµακα 2) Παράδειγµα
Παράδειγµα Προκύπτει ως το πηλίκο της συχνότηταςπροςτοσύνολο (δλδ., 6 άτοµαστηνκλίµακα 1/ 293 συµµετέχοντες = 2.05)
Παράδειγµα Προκύπτει ως το πηλίκο της αθροιστικής συχνότηταςπροςτοσύνολο (δλδ., 26 άτοµαστηνκλίµακα 1 & 2/ 293 συµµετέχοντες = 8.87)
Γραφικέςµέθοδοι Προτιµώνται έναντι των πινάκων για την παρουσίαση µεγάλου όγκου πληροφοριών Οι πίνακες προτείνονται για την παρουσίαση αριθµητικών δεδοµένων Τα γραφήµατα προτείνονται για την παρουσίαση πληροφοριών Ανάλογα µετο είδος των δεδοµένων που έχειοκάθε ερευνητής στη διάθεσή του υπάρχουν και διάφοροι γραφικοί τρόποι παρουσίασης των δεδοµένων
ΜΕΤΑΒΛΗΤΕΣ Συνεχείς µεταβλητές Κατηγορικές µεταβλητές ιατάξιµες ή διακριτές µεταβλητές Ιστογράµµατα, θηκογράµµατα Κυκλικά διαγράµµατα (µικρός αριθµός κατηγοριών) Ραβδογράµµατα (µεγάλος αριθµός κατηγοριών) Κυκλικά διαγράµµατα (µικρός αριθµός κατηγοριών) Ραβδογράµµατα (µεγάλος αριθµός κατηγοριών)
Ιστόγραµµασυχνοτήτων συχνοτήτων Χρησιµοποιείται για την παρουσίαση ποσοτικών συνεχών µεταβλητών Αποτελείται από διαδοχικά ορθογώνια, το ύψος των οποίων επιλέγεται έτσι ώστε το εµβαδόν του ορθογωνίου να είναι ίσοµε την αντίστοιχη συχνότητα της τιµής που αναφέρεται Το συνολικό εµβαδό είναι ίσοµε µετο µέγεθος του δείγµατος ν
Κυκλικόδιάγραµµα Τα κυκλικά διαγράµµατα (piecharts) χρησιµοποιούν για την παράσταση των δεδοµένων ένα κύκλο χωρισµένα σε κυκλικά τµήµατα, τόσα όσα καιοι κατηγορίες της µεταβλητής που χρησιµοποιήθηκε Κάθε κυκλικό τµήµα αναφέρεται σεµια κατηγορία και έχει τόξο ανάλογο της αντίστοιχης συχνότητας
Ραβδόγραµµα Στο ραβδόγραµµα (barchart) οι κατηγορίες της µεταβλητής παρίστανται στον οριζόντιο άξονα ως ισοµήκη διαστήµατα (µε κενά µεταξύ τους), ενώ στον κατακόρυφο παρίστανται οι συχνότητες Αποτελείται από ορθογώνια παραλληλεπίπεδα ίσης βάσης µεύψη ίσαµε τις συχνότητες της εκάστοτε κατηγορίας
Αριθµητικάπεριγραφικά περιγραφικάµέτρα Χρησιµοποιούνται γιανα δώσουµε µια συνοπτική εικόνα των διαθέσιµων δεδοµένων χρησιµοποιώντας µικρό πλήθος αριθµητικών στοιχείων Μέτρα κεντρικής τάσης Μέτρα διασποράς Μέτρα µεταβλητότητας
Μέτρακεντρικής κεντρικήςτάσηςτάσης Χρήσιµα για την περιγραφή της θέσης της κατανοµής από όπου προέρχονται τα δεδοµένα Πρόκειται για µεµονωµένες αριθµητικές τιµές οι οποίες θεωρούνται ως αντιπροσωπευτικές του συνόλου των τιµών µιας µεταβλητής Μέση τιµή ιάµεσος Επικρατούσα τιµή
Μέσητιµή (mean) Ορίζεται ωςοµέσος όρος όλων των τιµών της µεταβλητής στο δείγµα Μαθηµατικά είναι το άθροισµα των τιµών των παρατηρήσεων του δείγµατος διαιρεµένο δια του πλήθους των παρατηρήσεων του δείγµατος: x i ν 1 = x ν i = 1 i
Πλεονεκτήµατα Μειονεκτήµατα Ηαναµενόµενη τιµή που έχει κάποιο χαρακτηριστικό (µεταβλητή) στο δείγµα Καθορίζεται µε αριθµητικές διαδικασίες Είναι µόνο µιασε κάθε κατανοµή εν θεωρείται αντιπροσωπευτική όταν τα δεδοµένα ακολουθούν µη συµµετρική κατανοµή Επηρεάζεται από τις ακραίες παρατηρήσεις εν εφαρµόζεται σε ποιοτικές µεταβλητές
ιάµεσος (median) Εκείνη η τιµή µιας µεταβλητής (δ) ηοποία χωρίζει το δείγµα σεδύο ίσα µέρη έτσι ώστεο αριθµός των παρατηρήσεων που είναι µικρότερες ή ίσες από την τιµήδνα είναι ίσος µε τον αριθµό των παρατηρήσεων που είναι µεγαλύτερες ή ίσες από την τιµήδ Αν ν: περιττός τότε δ=κεντρική τιµή σε διατεταγµένα δεδοµένα Ανν: άρτιος τότε δ=ηµιάθροισµα των δύο κεντρικών τιµών σε διατεταγµένα δεδοµένα
Πλεονεκτήµατα Μειονεκτήµατα Σταθερό µέτρο κεντρικής θέσης εν επηρεάζεται από ακραίες παρατηρήσεις Είναι µια για κάθε κατανοµή Χρονοβόρος τρόπος υπολογισµού εν ερµηνεύεται εύκολα όταν υπάρχουν δεδοµένα που έχουν την ίδια τιµή µετη διάµεσο
Επικρατούσατιµή τιµή (mode) Εκείνη ητιµήηοποία εµφανίζεται µετη µεγαλύτερη συχνότητα στο δείγµα Αν όλες οι τιµές είναι διαφορετικές τότε δεν υπάρχει επικρατούσα τιµή Ανδύο ή περισσότερες τιµές εµφανίζονται µε την ίδια συχνότητα τότε υπάρχουν δύοή περισσότερες επικρατούσες τιµές
Πλεονεκτήµατα Μειονεκτήµατα Χρήσιµο για την περιγραφή ποιοτικών στοιχείων, όπουο µέσος και ηδιάµεσος δεν ορίζονται Εύκολος & γρήγορος υπολογισµός εν υπολογίζεται µαθηµατικά εν προσφέρεται σε µαθηµατικούς χειρισµούς Μπορεί ναµην υπάρχειήνα είναι περισσότερες από µια
Μέτραδιασποράς Απαραίτητα για την πλήρη περιγραφή των χαρακτηριστικών ενός πληθυσµού Αντανακλούν τη διαφορά στις τιµές µιας µεταβλητής από άτοµο σε άτοµο Εκφράζουν τις αποκλίσεις των τιµών µιας µεταβλητής γύρω απότα µέτρα κεντρικής θέσης ιακύµανση Τυπική απόκλιση Ενδοτεταρτηµοριακό εύρος Εύρος µεταβολής
ιακύµανση (variance) Πρόκειται γιατο τοπιο διαδεδοµένο µέτρο διασποράς Όταν οι τιµές ενός συνόλου παρατηρήσεων δε διαφέρουν πολύ απότη µέση τιµή τότεη διασπορά είναι µικρή Όταν οι τιµές είναι σκορπισµένες σε µεγάλη απόσταση απότη µέση τιµή τότεη διασπορά µεγαλώνει ν 2 1 2 απότη σχέση: s = ( xi x) 1 Ορίζεται από ν i= 1
Τυπικήαπόκλιση (standard deviation) Ηδιακύµανση ορίζεται σε µονάδα ίσηµε το τετράγωνο της αρχικής µονάδας µέτρησης του χαρακτηριστικού Ητυπική απόκλιση ορίζεται ωςη τετραγωνική ρίζα της διακύµανσης Μέτρο µεταβλητότητας που εκφράζεται στη µονάδα µέτρησης του χαρακτηριστικού
Σηµειώνεταιότι ότι Στο διάστηµα [µ-σ, µ+σ] περιλαµβάνεται περίπου το 68% των παρατηρήσεων Στο διάστηµα [µ-2σ, µ+2σ] περιλαµβάνεται περίπου το 95% των παρατηρήσεων Στο διάστηµα [µ-3σ, µ+3σ] περιλαµβάνεται περίπου το 99% των παρατηρήσεων
Ενδοτεταρτηµοριακόεύρος εύρος (Interquartile range, IQR) Ηδιαφορά του 1 ου (Q1) απότο 3 ο (Q3) τεταρτηµόριο Q1: ητιµή µιας µεταβλητής κάτω από την οποία βρίσκεται το 25% των παρατηρήσεων Q3:ητιµή µιας µεταβλητής κάτω από την οποία βρίσκεται το 75% των παρατηρήσεων Μεταξύ των δύο περιέχεται το 50% των παρατηρήσεων Μικρό διάστηµα µεγάλη συγκέντρωση τιµών µικρή διασπορά των τιµών της µεταβλητής
Γίνεταιφανερό φανερόότι Ηδιακύµανση καιητυπική απόκλιση ενός συνόλου τιµών είναι µέτρα διασποράς γύρω απότο µέσο, ενώη ενδοτεταρτηµοριακή απόσταση είναι µέτρο διασποράς γύρω απότη διάµεσο
Εύροςµεταβολής (range) Ορίζεται ωςηδιαφορά της ελάχιστης τιµής απότη µέγιστη τιµή, των τιµών µιας µεταβλητής R=Xmax Xmax-XminXmin Βασίζεται µόνο στις ακραίες τιµές
Μέτραµεταβλητότητας Συντελεστής µεταβλητότητας (coefficient of variance, CV) Μέτρο σχετικής µεταβλητότητας Εκφράζεται ως ποσοστό: CV=(τυπική απόκλιση/ µέση τιµή) ) * 100% Μπορεί να χρησιµοποιηθεί για συγκρίσεις οµάδων τιµών οι οποίες είτε εκφράζονται σε διαφορετικές µονάδες µέτρησης, είτε έχουν ίδιες µονάδες µέτρησης, αλλά διαφορετικές µέσες τιµές
Πραγµατοποίησηαυτών αυτώνστο SPSS