Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών Σύνοψη Στο κεφάλαιο αυτό παρουσιάζονται δύο κριτήρια απόρριψης απομακρυσμένων από τη μέση τιμή πειραματικών μετρήσεων ενός φυσικού μεγέθους και συγκεκριμένα τα κριτήρια Chauvenet και Peirce. Λόγω παραδοχών που γίνονται καθώς και των αβεβαιοτήτων των δύο μεθόδων, τα κριτήρια αυτά θα πρέπει να χρησιμοποιούνται με επιφύλαξη και μόνον εφόσον αποκλείσουμε την ύπαρξη συστηματικών σφαλμάτων στις μετρήσεις μας ή αδυνατούμε να τις επαναλάβουμε. Προαπαιτούμενη γνώση Μέση τιμή και τυπική απόκλιση μέσης τιμής (κεφ. 3.1), κανονική κατανομή (κεφ. 4.3) 5.1. Γενικά περί κριτηρίων απόρριψης ύποπτων πειραματικών δεδομένων Αρκετές φορές, μία μέτρηση σε ένα σύνολο Ν μετρήσεων μοιάζει να αποκλίνει αισθητά από τις υπόλοιπες, δημιουργώντας την εντύπωση ότι μπορεί να είναι λανθασμένη. Θα πρέπει λοιπόν να αποφασίσουμε αν θα κρατήσουμε ή όχι αυτή την ύποπτη τιμή για τους περαιτέρω υπολογισμούς μας (μέση τιμή και αβεβαιότητα), γιατί προφανώς τα αποτελέσματα σε κάθε περίπτωση θα είναι διαφορετικά (Σχήμα 5.1). Στο σημείο αυτό, οι απόψεις διίστανται και μερικοί επιστήμονες υποστηρίζουν ότι δε θα πρέπει να απορρίπτονται μετρήσεις που μοιάζουν ασυνήθιστες σε σχέση με το αποτέλεσμα που πιθανώς περιμέναμε, τουλάχιστον χωρίς επαρκή αιτιολόγηση. Μάλιστα, η ασυνήθιστη αυτή μέτρηση μπορεί να εμπεριέχει κάποια ιδιάζουσα συμπεριφορά ή κάποιο σημαντικό φαινόμενο για το μέγεθος που μετράμε. Πριν λοιπόν αποφασίσουμε για το αν θα πρέπει να προβούμε σε περαιτέρω έλεγχο για πιθανή απόρριψη κάποιας μέτρησης ή όχι, θα πρέπει να αποκλείσουμε μια σειρά από άλλους παράγοντες που πιθανώς επέδρασαν στιγμιαία και αλλοίωσαν τις μετρήσεις μας. Η καλύτερη λύση στην περίπτωση αυτή (εφόσον βέβαια αυτό είναι εφικτό) είναι να επαναλάβουμε τις μετρήσεις, ώστε να διαπιστώσουμε αν η απομακρυσμένη τιμή εξακολουθεί να εμφανίζεται. Σε ένα σύνολο βέβαια πολλών μετρήσεων, μία και μόνον απόμακρη τιμή δεν αναμένεται να αλλοιώσει ουσιαστικά τη μέση τιμή και την αβεβαιότητα των μετρήσεων. Ωστόσο, δεν είναι πάντα δυνατόν εκ των υστέρων να διαπιστώσουμε πιθανά πειραματικά λάθη που αλλοίωσαν κάποιες μετρήσεις, ενώ είναι πιθανό να μην μπορούμε (ή να μην έχουμε χρόνο) να επαναλάβουμε το πείραμα. Μόνον τότε, θα πρέπει να καταφύγουμε σε κάποιο αντικειμενικό κριτήριο απόρριψης απόμακρων τιμών. Στη συνέχεια παρατίθενται δύο κριτήρια βασισμένα στη θεωρία των πιθανοτήτων, το κριτήριο Chauvenet και το κριτήριο Peirce. Αν και μεταγενέστερο, το κριτήριο Chauvenet έχει επικρατήσει και χρησιμοποιείται ευρύτατα από ερευνητικά κέντρα, πανεπιστήμια, εργαστήρια και τη βιομηχανία (Taylor, 1997). Χρησιμοποιεί ωστόσο όπως θα δούμε, μία αυθαίρετη υπόθεση για την απόρριψη δεδομένων, σε αντίθεση με το κριτήριο Peirce που δεν κάνει τέτοιου είδους παραδοχή. Αξίζει να σημειωθεί, ότι τα δύο αυτά κριτήρια, μπορεί να δώσουν διαφορετικά αποτελέσματα για το ίδιο σύνολο πειραματικών δεδομένων. Σχήμα 5.1 Η απομακρυσμένη πειραματική τιμή (σημειώνεται σε κύκλο) αν δε ληφθεί υπόψη, θα δώσει μικρότερη μέση τιμή και αβεβαιότητα για το μετρούμενο μέγεθος Χ. 59
5.2. Κριτήριο Chauvenet Η διαδικασία με την οποία μπορούμε να απορρίψουμε μία ύποπτη πειραματική τιμή κάνοντας χρήση του κριτηρίου Chauvenet, δίνεται μέσω του παραδείγματος που ακολουθεί. Επισημαίνουμε ότι ο έλεγχος της απόρριψης αφορά στη μέτρηση ενός σταθερού φυσικού μεγέθους για το οποίο λαμβάνουμε αρκετές σε πλήθος πειραματικές μετρήσεις, ακολουθώντας κάθε φορά την ίδια πειραματική διαδικασία. Έστω ότι μετράμε 10 φορές την περίοδο ταλάντωσης ενός εκκρεμούς, όπου κρατώντας σταθερό το μήκος του νήματος, παίρνουμε τα αποτελέσματα που δίνονται στον Πίνακα 5.1. α/α 1 2 3 4 5 6 7 8 9 10 Περίοδος, Τ (s) 2.10 2.08 2.17 1.98 2.04 1.58 1.94 2.03 1.89 1.93 Πίνακας 5.1 Περίοδος ταλάντωσης εκκρεμούς. Ο υπολογισμός της μέσης τιμής και της τυπικής απόκλισης (standard deviation) δίνει τα ακόλουθα αποτελέσματα: 1.97 και 0.16 Από τις μετρήσεις του Πίνακα 5.1 βλέπουμε ότι η 6 η μέτρηση (Τ 6 =1.58) διαφέρει αισθητά από τις υπόλοιπες και θα πρέπει να αποφασίσουμε αν θα την κρατήσουμε ή όχι. Γι αυτόν το λόγο, υπολογίζουμε τη διαφορά της απόμακρης αυτής τιμής από τη μέση τιμή και εκφράζουμε το αποτέλεσμα αυτό ως συνάρτηση της τυπικής απόκλισης: 1.58 1.58 1.97 0.39 0.39 0.16 2.44 Εφόσον έχουμε αποκλείσει ή διορθώσει κάθε είδους συστηματικό σφάλμα στις μετρήσεις μας, τα διαφορετικά αποτελέσματα οφείλονται μόνον σε τυχαία σφάλματα, οπότε θεωρούμε ότι οι μετρήσεις μας ακολουθούν κανονική κατανομή με μέση τιμή και τυπική απόκλιση, 1.97 και 0.16, αντίστοιχα. Η πιθανότητα P επομένως να μετρήσουμε μία τιμή η οποία είναι απομακρυσμένη κατά 2.44 από τη μέση τιμή, σύμφωνα με τα όσα αναφέρθηκαν για την κανονική κατανομή, θα είναι: ό 2.44, 2.44 2.44, 1 2.44, 2.44 1 0.985 0.015 όπου η πιθανότητα το Τ να βρίσκεται σε διάστημα εύρους 2.44 εκατέρωθεν της μέσης τιμής προήλθε από τον Πίνακα 11.4. Πρακτικά, το παραπάνω αποτέλεσμα σημαίνει ότι σε ένα σύνολο Ν=100 μετρήσεων που ακολουθούν την κατανομή Gauss με μέση τιμή 1.97 και τυπική απόκλιση 0.16, περίπου 1.5 2 μετρήσεις θα απέκλιναν από τη μέση τιμή 1.97 κατά όσο αποκλίνει στην περίπτωση μας η ύποπτη τιμή Τ 6 =1.58 s. Όμως, για Ν=10 μετρήσεις, ο αναμενόμενος αριθμός των μετρήσεων που αποκλίνουν κατά 2.44 από τη μέση τιμή θα είναι: (αναμενόμενος αριθμός αποκλίνουσων μετρήσεων) = ό 2.44 10 0.015 0.15 Με άλλα λόγια, περιμένουμε για την περίπτωση μας όπου έχουμε Ν=10 μετρήσεις, ένα ποσοστό 15% από αυτές να αποκλίνουν όσο αποκλίνει και η ύποπτη μας τιμή (το 1.58), πράγμα δηλαδή απίθανο. 60
Το κριτήριο Chauvenet θέτει (αυθαίρετα) το όριο για τον αναμενόμενο αριθμό των μετρήσεων που αποκλίνουν τουλάχιστον όσο και η ύποπτη μέτρηση, στο 1/2. Δηλαδή, αν, η ύποπτη τιμή απορρίπτεται, ενώ αν, η ύποπτη τιμή είναι αποδεκτή Στην περίπτωση που απορρίψουμε βάσει του κριτηρίου κάποια ύποπτη τιμή, θα πρέπει να υπολογίσουμε εκ νέου τη μέση τιμή και την τυπική απόκλιση των υπόλοιπων Ν-1 μετρήσεων μας. Έτσι, στο παράδειγμα μας, θα έχουμε τελικά ότι η νέα μέση τιμή και η τυπική απόκλιση των 9 μετρήσεων, θα είναι: 2.02 και 0.09 Υπάρχει περίπτωση και για τις υπόλοιπες Ν-1 μετρήσεις, κάποια μέτρηση να μοιάζει πάλι απόμακρη. Ωστόσο, το παραπάνω κριτήριο απόρριψης τιμών θα πρέπει να εφαρμόζεται μόνον μία φορά. Εφόσον δηλαδή, εφαρμόσαμε το κριτήριο απόρριψης Chauvenet για τον έλεγχο κάποιας ύποπτης τιμής την οποία τελικά και απορρίψαμε, δε δικαιούμαστε να το εφαρμόσουμε εκ νέου στις υπόλοιπες Ν-1 μετρήσεις. Σε περίπτωση βέβαια που έχουμε παραπάνω από μία απόμακρη μέτρηση, ο έλεγχος μπορεί να εφαρμοστεί και για τις δύο ή για κάθε μία από αυτές τις δύο μετρήσεις. Αν έχουμε για παράδειγμα σε ένα σύνολο Ν μετρήσεων ενός μεγέθους x, δύο ύποπτες τιμές x 1 και x 2 και έστω ότι η x 2 είναι πιο απόμακρη από την x 1, θα εφαρμόσουμε το κριτήριο απόρριψης για τη λιγότερο απόμακρη τιμή, τροποποιημένο ωστόσο, ώστε να συνυπολογίζει και τη 2 η απόμακρη τιμή. Δηλαδή, αν 1 2, τότε θα απορρίψουμε κατευθείαν και τις δύο υποψήφιες τιμές. Αν όμως 1, οι τιμές δεν απορρίπτονται ταυτόχρονα και θα πρέπει να ελέγξουμε την πιο απόμακρη τιμή (δηλαδή τη x 2 ) κατά πόσον πληροί το κριτήριο ( 1 2, ώστε να απορρίψουμε (ή όχι) μόνον αυτή. Θα πρέπει να επισημάνουμε ότι το κριτήριο Chauvenet κάνει μία αυθαίρετη παραδοχή ( 1 2, βάσει της οποίας αποδεχόμαστε ή απορρίπτουμε μία πειραματική τιμή. Επιπλέον, και ίσως και σημαντικότερο, είναι το γεγονός ότι για μικρό αριθμό μετρήσεων, η αβεβαιότητα στον προσδιορισμό της τυπικής απόκλισης είναι μεγάλη. Η αβεβαιότητα της τυπικής απόκλισης μίας μέτρησης ενός μεγέθους σε συνάρτηση του Ν, εκφράζεται για την κανονική κατανομή μέσω της ακόλουθης σχέσης: 1 2 1 Η παραπάνω μεταβολή του ως προς το Ν (σε λογαριθμική κλίμακα) απεικονίζεται στο Σχήμα 5.2. Για την προηγούμενη περίπτωση των Ν=10 μετρήσεων, η αβεβαιότητα αυτή είναι 24%, ενώ για μικρότερο αριθμό μετρήσεων αυξάνεται ακόμα περισσότερο. Πρακτικά, όταν Ν>50, η πιθανότητα γίνεται μικρότερη του 10%. Αυτό οδηγεί σε μεγάλη αβεβαιότητα στον υπολογισμό της αντίστοιχης πιθανότητας ό, όπου, με x υ την ύποπτη τιμή, και κατά συνέπεια σε αμφιβολία για την εφαρμογή ολόκληρης της διαδικασίας. 61
Σχήμα 5.2 Μεταβολή της αβεβαιότητας της τυπικής απόκλισης δσ x, ως συνάρτηση του αριθμού των μετρήσεων, Ν. Προσέξτε ότι ο αριθμός των μετρήσεων στον οριζόντιο άξονα παριστάνεται σε λογαριθμική κλίμακα. 5.3. Κριτήριο Peirce Σε αντίθεση με το κριτήριο Chauvenet, το κριτήριο Peirce δεν κάνει την αυθαίρετη υπόθεση για την απόρριψη δεδομένων και μπορεί να εφαρμοστεί εύκολα για περισσότερες από μία απόμακρες πειραματικές τιμές (Ross, 2003). Η αρχική ωστόσο μέθοδος υπολογισμού από τον Pierce αποδεικνύεται στη χρήση της μαθηματικά περίπλοκη και στην πράξη χρησιμοποιείται με τη βοήθεια κατάλληλων πινάκων βασισμένων στο κριτήριο Peirce, οι οποίοι δημοσιεύτηκαν σε μεταγενέστερο χρόνο από τον Gould. Η διαδικασία που ακολουθούμε αφορά στα ακόλουθα βήματα: 1. Υπολογίζουμε τη μέση τιμή και την τυπική απόκλισή της για το σύνολο των μετρήσεών μας. 2. Από τον πίνακα τιμών της παραμέτρου R (βλ. Πίνακα 11.6), βρίσκουμε την θεωρητική τιμή R θ που αντιστοιχεί στο πλήθος των μετρήσεων μας για την περίπτωση μίας ύποπτης μέτρησης (ακόμα και αν υπάρχουν περισσότερες). Η παράμετρος R δίνεται από τη σχέση: 3. Υπολογίζουμε τη μέγιστη επιτρεπόμενη απόκλιση, 4. Για κάθε ύποπτη τιμή, υπολογίζουμε την ποσότητα 5. Απορρίπτουμε τις ύποπτες τιμές εφόσον: 6. Αν βάσει του προηγούμενου κριτηρίου απορρίφθηκε μία τιμή, υποθέτουμε την περίπτωση δύο απόμακρων τιμών, κρατώντας την αρχική μέση τιμή και τυπική απόκλιση και συνεχίζουμε στο βήμα 8. 7. Αν παραπάνω από μία τιμή απορρίφθηκε στον προηγούμενο έλεγχο, υποθέτουμε την επόμενη μεγαλύτερη τιμή των ύποπτων μετρήσεων στον αντίστοιχο πίνακα. Αν δηλαδή, απορρίφθηκαν 2 τιμές βάσει του κριτηρίου στο βήμα 5, υποθέτουμε την ύπαρξη 3 ύποπτων τιμών, κρατώντας ωστόσο τον αρχικό αριθμό μετρήσεων, μέσης τιμής και τυπικής απόκλισης. 8. Επαναλαμβάνουμε τα βήματα 2 5, αυξάνοντας σταδιακά τον αριθμό των πιθανά ύποπτων τιμών, μέχρι να μην απορρίπτονται πλέον άλλα δεδομένα. 9. Υπολογίζουμε εκ νέου τη μέση τιμή και τυπική απόκλιση, εξαιρώντας τις μετρήσεις που απορρίψαμε. 62
Με τη χρήση κατάλληλου λογισμικού (π.χ. EXCEL, ORIGIN, κ.ά.) μπορούμε να επιταχύνουμε την παραπάνω διαδικασία, ώστε να υπολογίσουμε τις αποκλίσεις όλων των τιμών μας από τη μέση τιμή και σε συνδυασμό με τις τιμές του Πίνακα Peirce, να αποφανθούμε για την πιθανή απόρριψη απόμακρων τιμών. Στο παράδειγμα που ακολουθεί, εφαρμόζεται το παραπάνω κριτήριο σε ένα σύνολο 10 μετρήσεων της πίεσης P σε ένα δοχείο (Σχήμα 5.3). Οι υποψήφιες προς απόρριψη τιμές είναι οι P 2 =90.0 kpa και P 7 =89.0 kpa. Η θεωρητική τιμή του R για Ν=10 και μία ύποπτη τιμή είναι σύμφωνα με τον πίνακα, R θ = 1.878. Στη 2 η στήλη έχουν υπολογιστεί οι τιμές R i για κάθε μία από τις μετρήσεις μας, ενώ δίνονται και οι στατιστικές παράμετροι των μετρήσεων ( 98.6 και 5.02 ). Εύκολα μπορούμε να διαπιστώσουμε ότι, για την τιμή P 7 =89.0 kpa ισχύει 1.912> R θ, ενώ για την τιμή P 2 =90.0 kpa ισχύει 1.713<R θ. Επομένως, σε πρώτη φάση απορρίπτεται η τιμή 89.0, ενώ η τιμή 90.0 είναι αποδεκτή. Θεωρώντας από τον Πίνακα Ν=10 και δύο ύποπτες τιμές, θα έχουμε R θ = 1.570, για την οποία η τιμή που αντιστοιχεί στη μέτρηση 90.0 είναι μεγαλύτερη. Κατά συνέπεια, απορρίπτεται και αυτή η τιμή. Σχήμα 5.3 Πίνακας πειραματικών μετρήσεων της πίεσης P και υπολογισμών σταθεράς R για την εφαρμογή του κριτηρίου Peirce. Θεωρώντας στη συνέχεια τρεις ύποπτες τιμές, θα έχουμε από τον Πίνακα, R θ = 1.380. Για καμία από τις υπόλοιπες μετρήσεις η αντίστοιχη τιμή του R δεν είναι μεγαλύτερη από αυτή την τιμή. Επομένως, καμία άλλη τιμή δεν απορρίπτεται και η διαδικασία τελειώνει στο σημείο αυτό. Μετά την απόρριψη των δύο τιμών, υπολογίζουμε εκ νέου τη νέα μέση τιμή και την αντίστοιχη τυπική απόκλιση, ( 100.9 και 1.66 ). Αξίζει να σημειωθεί, ότι εφαρμόζοντας το κριτήριο Chauvenet, καμία από τις δύο προηγούμενες τιμές (89.0 και 90.0) δεν απορρίπτονται. 5.4. Ασκήσεις 1. Ένας φοιτητής μέτρησε 20 φορές την τάση V σε ένα κύκλωμα και υπολόγισε ότι η μέση τιμή και η τυπική απόκλιση είναι 50 και 3, αντίστοιχα. Παρατήρησε ωστόσο ότι μία από τις μετρούμενες τιμές ήταν 56. Ποια η πιθανότητα να μετρήσει μία τέτοια τιμή; Αν αποφάσιζε να χρησιμοποιήσει το κριτήριο Chauvenet, θα απέρριπτε την ύποπτη αυτή τιμή; 2. Από τις μετρήσεις του ύψους L ενός ορθού κυλίνδρου προέκυψαν τα αποτελέσματα του Πίνακα 5.2. Εξετάστε, κάνοντας χρήση του κριτηρίου Chauvenet, κατά πόσο η τιμή 55.5 mm μπορεί να θεωρηθεί απομακρυσμένη και υπολογίστε στη συνέχεια τη μέση τιμή και την τυπική απόκλιση. 63
α/α 1 2 3 4 5 6 7 8 9 10 ύψος, L (mm) 46.0 47.5 55.5 44.5 43.5 44.0 46.5 45.0 48.0 47.0 Πίνακας 5.2 Μετρήσεις ύψους ορθού κυλίνδρου. 3. Για τις τιμές του Πίνακα 5.2, εφαρμόστε το κριτήριο Peirce για να διαπιστώσετε αν απορρίπτεται ή όχι η ύποπτη τιμή 55.5 mm. Βιβλιογραφία/Αναφορές Ross, S. M. (2003). Peirce s criterion for the elimination of suspect experimental data. Journal of Engineering Technology, Fall 2003, 1-12. Taylor, J. R. (1997). An Introduction to Error Analysis The Study of Uncertainties in Physical Measurements (2 nd Ed). California: University Science Books. 64