Τυχαιοποιηµένοι Πλήρως Σχεδιασµοί κατά Μπλοκ (Randomized Complete Block Design)

Τυχαιοποιηµένοι Πλήρως Σχεδιασµοί κατά Μπλοκ (Randomized Comlete Block Design) Σε κάθε πείραµα, η µεταβλητότητα που προκύπτει από έναν ενοχλητικό παράγοντα (nuisance factor), µπορεί να έχει αντίκτυπο στα αποτελέσµατα. Ορίζουµε σαν nuisance factor έναν παράγοντα που πιθανόν να επηρεάζει την απαντητική µεταβλητή, αλλά δεν ενδιαφερόµαστε γι αυτή κάθε αυτή την επίδραση. ιακρίνουµε τις εξής περιπτώσεις: Ο nuisance factor είναι άγνωστος και µη ελέγξιµος. Στην περίπτωση αυτή χρησιµοποιούµε την AOVA κατά έναν παράγοντα. Ο nuisance factor είναι γνωστός και µη ελέγξιµος. Στην περίπτωση αυτή, και µε την προϋπόθεση ότι µπορεί να µετρηθεί, χρησιµοποιούµε την µέθοδο της Ancova. Ο nuisance factor είναι γνωστός και ελέγξιµος. Στην περίπτωση αυτή, η τεχνική που θα χρησιµοποιήσουµε ονοµάζεται blocking και παρουσιάζεται µε την βοήθεια του ακόλουθου παραδείγµατος. (Σηµ: Στα παραπάνω µε τον χαρακτηρισµό ελέγξιµος εννοούµε ότι µπορούµε να αποµονώσουµε την µεταβλητότητά του και όχι ότι µπορούµε να του δώσουµε µία σταθερή τιµή ώστε να εξαλείψουµε την µεταβλητότητά του) Παράδειγµα Έστω ότι θέλουµε να ελέγξουµε την αντοχή α µηχανών (treatments). Για να το πετύχουµε αυτό πιέζουµε στην κάθε µία µηχανή µεταλλικές ράβδους (couons) και από το µέγεθος της παραµόρφωσης την οποία θα υποστούν οι ράβδοι, µετριέται η αντοχή των µηχανών. Τα δεδοµένα εµφανίζονται στον παρακάτω πίνακα. Mηχανές Ράβδοι (Blocks) (treatments) 3 4 9.3 9.4 9.6 0.0 9.4 9.3 9.8 9.9 3 9. 9.4 9.5 9.7 4 9.7 9.6 0.0 0. Αν χρησιµοποιούσαµε AOVA κατά έναν παράγοντα τότε, όπως γνωρίζουµε, από το σύνολο των ράβδων (couons) που θα ήταν διαθέσιµοι, θα επιλέγαµε τυχαία τη σειρά µε την οποία οι ράβδοι θα δοκιµάζονταν στην κάθε µηχανή (comletely randomized exeriment). Υπάρχει όµως ένα σοβαρό πρόβληµα. Αν οι ράβδοι διαφέρουν έστω και λίγο µεταξύ τους (π.χ. λόγω διαφορετικής θερµοκρασίας κατασκευής), τότε στην µεταβλητότητα που ενδεχοµένως να υπάρχει µεταξύ των µηχανών θα προστεθεί και η µεταβλητότητα ανάµεσα στις ράβδους, αλλοιώνοντας τα αποτελέσµατα και οδηγώντας µας, πιθανόν, σε λάθος απόφαση. Για να αντιµετωπίσουµε την µεταβλητότητα ανάµεσα στις πειραµατικές µονάδες (ράβδους), εισάγουµε τον πλήρη τυχαιοποιηµένο σχεδιασµό κατά blocks (randomized comlete block design) σύµφωνα µε τον οποίο απαιτούµε η κάθε µηχανή i, σε κάθε σειρά δοκιµών,να δοκιµάζεται µε την ίδια ράβδο. Aυτό για

παράδειγµα µπορεί να επιτευχθεί αν κόψουµε την θεωρητικά οµογενή ράβδο σε α, όσες και οι µηχανές, κοµµάτια. Τέλος, η λέξη comlete δηλώνει ότι κάθε block (ράβδος) χρησιµοποιείται τόσες φορές όσα και τα treatments. Η λέξη randomized δηλώνει ότι το ποιο κοµµάτι της ράβδου θα δοκιµαστεί στην i µηχανή, επιλέγεται τυχαία. Στατιστική ανάλυση Έστω ότι έχουµε α treatments τα οποία συγκρίνονται µε b blocks.tο στατιστικό µοντέλο γι αυτόν τον σχεδιασµό είναι: yi = µ + τ i + β + ε i i =,,..., α =,,..., b όπου µ είναι ο συνολικός µέσος, τ i είναι η επίδραση του i treatment, β είναι η επίδραση του block και ε i τα γνωστά ID(0,σ ) τυχαία λάθη. Επιπλέον, δεδοµένου ότι οι επιδράσεις των treatments και των blocks ορίζονται σαν αποκλίσεις από τον συνολικό µέσο µ, ορίζουµε και α τ i= i = 0, β = Η διαδικασία από εδώ και πέρα είναι ακριβώς η ίδια µε της AOVA και της αncova. Έτσι και εδώ θέλουµε να ελέγξουµε την υπόθεση: b = 0. H 0 : τ = τ =... = τa = 0 H : τουλάχιστον ένα τ 0 Για να το επιτύχουµε αυτό σπάµε την συνολική διακύµανση T σε τρία κοµµάτια σύµφωνα µε την σχέση T = Treatments + Blocks + Error.Όσον αφορά τους βαθµούς ελευθερίας, δεδοµένου ότι έχουµε Ν=ab παρατηρήσεις, α treatment και b blocks, T : Ν- β.ε. Treatments : a- β.ε. Blocks : b- β.ε. E : ab--(a-)-(b-)=(a-)(b-) β.ε. Από το θεώρηµα του Cochran, µπορεί να δειχθεί ότι οι ποσότητες Treatments /σ, Blocks /σ, E /σ είναι ανεξάρτητες τυχαίες µεταβλητές που ακολουθούν την Χ κατανοµή. Επίσης µπορεί να δειχθεί ότι : E i= ( MSTreatmments ) = σ + a E( ) = σ MS E b i a τ i

E ( MS ) Blocks = σ b a β = + b Εποµένως, για τον έλεγχο της υπόθεσής µας θα χρησιµοποιήσουµε το στατιστικό F 0 = MS Treatments / MS E και θα απορρίπτουµε την H 0 αν F 0 >F α,a-,(a-)(b-). Ο πίνακας της AOVA για τη διαδικασία αυτή εµφανίζεται παρακάτω: Source of Variation Sum of Squares Degrees of Freedom Mean Square F 0 Treatments Treatments α- Treatments /α- ΜS Treatments / ΜS E Blocks Blocks b- Blocks / b- Error E (α-)(b-) E /(α-)(b-) Total T - Μπορεί επίσης να ενδιαφερόµαστε να συγκρίνουµε τους µέσους των blocks, µια και αν οι µέσοι αυτοί δεν διαφέρουν (στατιστικά) σηµαντικά, η παραπάνω διαδικασία (blocking) δεν θα είναι απαραίτητη σε µελλοντικά πειράµατα. Από τον πίνακα της AOVA φαίνεται ότι η υπόθεση H 0 : β =0 µπορεί να ελεγχθεί εύκολα συγκρίνοντας το στατιστικό ΜS Blocks µε το ΜS Error. Ωστόσο, δεδοµένου ότι έχουµε περιορισµό στην τυχαιοποίηση (η τυχαιοποίηση εφαρµόζεται µόνο µέσα στα blocks) αποφεύγουµε να εφαρµόζουµε την παραπάνω διαδικασία, και µόνο προσεγγιστικά την χρησιµοποιούµε για να ελέγξουµε την επίδραση των blocks στην απαντητική µεταβλητή. Προφανώς, αν θέλουµε να ελέγξουµε µε ακρίβεια την παραπάνω επίδραση θα πρέπει να σχεδιάσουµε από την αρχή το πείραµα αλλάζοντας τη θέση ανάµεσα στα blocks και τα treatments. Παράδειγµα Για τα δεδοµένα του πίνακα όπου εξετάζαµε την αντοχή των διαφόρων µηχανών, έχουµε: ( 0) 4 4 y T = yi = 54.00 = 9.00 6 i= = [() () ( ) ( )] ( 0) 3 + 4 + + 5 4 y Treatments = yi = = b i= 4 6 4 y [( ) ( ) ( ) ( ) ] ( 0) Blocks = y = 4 + 3 + 9 + 8 = a = 4 6 E = T Treatments Blocks = 9.00 38.50 8.50 = 8.00 38.50 8.50 3

Source of Variation Degrees of Sum of Freedom Mean Squares Square F 0 P-Value 38.50 3.83 4.44 0.0009 Treatments (µηχανές) Blocks 8.50 3 7.50 (ράβδοι) Error 8.00 9 0.89 Total 9.00 5 Επιπλέον, για α=0.05 επίπεδο σηµαντικότητας, η κριτική τιµή της F είναι F 0.05,3,9 =3.86. Έτσι, αφού όπως προκύπτει από τον πίνακα της AOVA 4.44>3.86 συµπεραίνουµε ότι υπάρχει στατιστικά σηµαντική διαφορά στην αντοχή ανάµεσα στις τέσσερις µηχανές. (Το ίδιο συµπέρασµα µπορεί να προκύψει και από το γεγονός ότι P-value=0.0009<0.05). Τέλος, οι ράβδοι (blocks) φαίνεται να διαφέρουν σηµαντικά, µια και το MS Blocks είναι µεγάλο σε σχέση µε το MS Error. Εάν σε ένα πείραµα (όπως το παραπάνω) διαπιστώσουµε στατιστικά σηµαντική διαφορά ανάµεσα στους µέσους των treatments και ενδιαφερόµαστε να ανιχνεύσουµε ποιοι µέσοι διαφέρουν, τότε όλα τα τεστ που αναφέρθηκαν στην AOVA κατά ένα παράγοντα µπορούν και εδώ να χρησιµοποιηθούν, αρκεί στους εν λόγω τύπους να αντικαταστήσουµε :. Τον αριθµό n των επαναλήψεων στην AOVA κατά ένα παράγοντα µε τον αριθµό b των Blocks,. Τους βαθµούς ελευθερίας α(n-) µε τους βαθµούς ελευθερίας (α-)(b-) Έλεγχος επάρκειας του µοντέλου Για να κρίνουµε το µοντέλο σαν επαρκές και να µην οδηγηθούµε σε λανθασµένα συµπεράσµατα, θα πρέπει να ελέγξουµε:. Την υπόθεση της κανονικότητας.. Την υπόθεση των ίσων διακυµάνσεων των λαθών κατά treatments. 3. Την υπόθεση των ίσων διακυµάνσεων των λαθών κατά blocks. 4. Tην υπόθεση της µη αλληλεπίδρασης (ανεξαρτησία) ανάµεσα στα treatments και στα blocks. Η υπόθεση της κανονικότητας µπορεί να ελεγχθεί χρησιµοποιώντας το ormal Probability Plot για τα κατάλοιπα, ή εναλλακτικά, σε περίπτωση που ο αριθµός των παρατηρήσεων είναι αρκετά µεγάλος (Ν>00), το γνωστό ιστόγραµµα συχνοτήτων των καταλοίπων. Παρακάτω έχουµε από το SP το ormal Probability Plot για το παράδειγµα µε τις µηχανές, όπου η υπόθεση της κανoνικότητας φαίνεται ότι δεν παραβιάζεται. 4

,00 ormal P-P Plot of Residual for YIJ,75,50 Exected Cum Prob,5 0,00 0,00,5,50,75,00 Observed Cum Prob Παρακάτω εµφανίζονται τα τρία διαγράµµατα (επίσης από το SP) για τον έλεγχο και των τριών επόµενων υποθέσεων όπου επίσης δεν φαίνεται να παραβιάζονται, αφού δεν παρατηρείται κάποια τάση ή σχέδιο (attern) που να αποδεικνύει το αντίθετο.,, 0,0 Residual for YIJ -, -,,5,0,5,0,5 3,0 3,5 4,0 4,5 MACHIES 5

,, 0,0 Residual for YIJ -, -,,5,0,5,0,5 3,0 3,5 4,0 4,5 COUPOS,, 0,0 Residual for YIJ -, -, 9, 9,4 9,6 9,8 0,0 0, 0,4 Predicted Value for YIJ 6

Missing values Σε περίπτωση που για κάποιο λόγο χαθεί µία από τις παρατηρήσεις, µπορούµε να εργαστούµε µε δύο τρόπους: Να την εκτιµήσουµε. Να εφαρµόσουµε unbalanced design δηλαδή έναν πειραµατικό σχεδιασµό όπου εξ αρχής θεωρούµε ότι τα διάφορα blocks έχουν διαφορετικό αριθµό παρατηρήσεων.(ο σχεδιασµός αυτός δεν θα παρουσιαστεί εδώ). Στην περίπτωση της εκτίµησης της άγνωστης παρατήρησης χ, επιλέγεται χ τέτοιο ώστε να ελαχιστοποιείται το E. Αποδεικνύεται ότι ο τύπος που µας δίνει αυτή την ' ' ' ayi + by y ' ' ' εκτίµηση είναι ο χ =, όπου µε y i, y, y συµβολίζουµε τα ( a )( b ) γνωστά αθροίσµατα που υπολογίζονται χωρίς την missing value. Τέλος, θα πρέπει να σηµειωθεί ότι αφού εκτιµήσουµε την χ και την προσθέσουµε στις υπόλοιπες παρατηρήσεις, η διαδικασία της AOVA γίνεται µειώνοντας τους βαθµούς ελευθερίας του λάθους (error) κατά έναν. Λατινικά Τετράγωνα Ας εξετάσουµε τώρα το εξής πρόβληµα: Μελετάµε για παράδειγµα τις επιδράσεις των πέντε διαφορετικών ειδών φόρµουλας (formulation) για προωστήρες που χρησιµοποιούνται στους πυραύλους. Κάθε φορά όµως, η κάθε φόρµουλα είναι φτιαγµένη από διαφορετικές παρτίδες υλικού (batch of raw material), το µέγεθος των οποίων είναι αρκετά µεγάλο για να ελεγχθεί οι πέντε (5) φόρµουλες. Επίσης οι πέντε φόρµουλες έχουν χειριστεί από διαφορετικούς χειριστές (oerator) οι οποίοι µπορεί να έχουν και διαφορετικού επιπέδου ικανότητα και εµπειρία. Σχεδιάζουµε το πείραµα ως εξής: Θέλουµε να ελέγξουµε την κάθε φόρµουλα ακριβώς µια φορά σε κάθε παρτίδα και η κάθε φόρµουλα να επεξεργαστεί µια φορά µόνο από κάθε χειριστή. Το αποτέλεσµα αυτό φαίνεται στον παρακάτω πίνακα και καλείται ο όλος σχεδιασµός ως Λατινικά Τετράφωνα (Latin squares). Latin Squares Παρτίδες Χειριστές Υλικού 3 4 5 A=4 B=0 C=9 D=4 E=4 B=7 C=4 D=30 E=7 A=36 3 C=8 D=38 E=6 A=7 B= 4 D=6 E=3 A=6 B=3 C= 5 E= A=30 B=0 C=9 D=3 7

Σηµείωση: Θα πρέπει να προσέξουµε ότι ο αριθµός των επιπέδων (treatments) να είναι ίσος µε τον αριθµό τον κατασκευαστών έτσι ώστε να έχουµε τετράγωνα π.χ. 5χ5. Το µοντέλο του παραπάνω Λατινικού τετράγωνου είναι: i =,,..., yik = µ + αi + τ + βk + εik =,,..., k =,,... όπου: : Παρατήρηση της i γραµµής, της k στήλης και του επιπέδου y ik α i : Η επίδραση της i γραµµής. τ : Η επίδραση του επιπέδου. β : Η επίδραση της k στήλης. k Τονίζουµε ότι δεν υπάρχει επίδραση µεταξύ των γραµµών, στηλών και επιπέδων. Τώρα ξέρουµε ότι σύνολο θα έχουµε παρατηρήσεις, άρα τα αθροίσµατα τετραγώνων θα είναι: = + + + t Rows Columns treatments E µε βαθµούς ελευθερίας: = ( ) + ( ) + ( ) + ( )( ) Κάνοντας τώρα την υπόθεση ότι: ε ~ ID(0, σ ), προχωράµε και κάνουµε την ίδια διαδικασία που κάναµε και πριν στην ανάλυση Λατινικά Τετράγωνα ik Source variation Treatments Rows Columns Sum of squares Degrees of Freedom y = y - tr i= y rows = yi i= y columns = yi i= - - Mean square F 0 tr rows columns MS treatment MS E Error Total E ( µε την διαφορά ) (-)(-) y t = yik i k E ( )( ) 8

Η σηµασία των καταλοίπων γενικά στην ανάλυση διακύµανσης είναι πάρα πολύ σηµαντική και στο παραπάνω µοντέλο µας έχουµε: ε ik = y yˆ ik ik = yik y yi + y y + y y k + y y y y y y ik i k + = Σηµείωση: Όταν έχουµε στην πρώτη γραµµή και στην πρώτη στήλη τα λατινικά γράµµατα A, B, C, D, E είναι σε αλφαβητική σειρά τότε λέµε ότι έχουµε ένα στάνταρ (standard) λατινικό τετράγωνο. Αν δούµε τον πίνακα για το παράδειγµα µας τότε σίγουρα θα έχουµε: Source variation Sum of squares Degrees of freedom Mean square F 0 -value Treatments 330 4 8,50 7,73 0.005 Rows 68 4 7 Columns 50 4 37,5 Error 8 0,67 Total 676 4 Ελληνο - λατινικά τετράγωνα. Ας υποθέσουµε ότι έχουµε ένα λατινικό τετράγωνο x, και τοποθετούµε ένα επίσης λατινικό τετράγωνο x, στο οποίο τα επίπεδα είναι γραµµένα ελληνικούς χαρακτήρες. Τα τετράγωνα αυτά έχουν την ιδιότητα ότι το κάθε ελληνικό γράµµα εµφανίζεται µια φορά και µόνο µια φορά δίπλα σε ένα λατινικό, και ότι τα δύο τετράγωνα θα πρέπει να είναι ορθογώνια. Έχουµε δηλαδή 3 ενοχλητικούς παράγοντες και ένα παράγοντα που θέλουµε να ελέγξουµε. Το µοντέλο µας έχε ως εξής: όπου: yikl = µ + θ + τ + ω + ψ + ε µε i k l ikl i =,,..., =,,..., k =,,..., l =,,..., y ik : Παρατήρηση της i γραµµής, της l στήλης, για τα λατινικά γράµµατα, και για τα ελληνικά k. θ i : Η επίδραση της i γραµµής. τ : Η επίδραση των λατινικών γραµµάτων. ω : Η επίδραση των ελληνικών γραµµάτων επιπέδων k k 9

ψ : Η επίδραση της l στήλης. l ε ikl = λάθη ~ ID(0, σ ) Ελληνο Λατινικά Τετράγωνα Source variation Latin letters treatments Greek letter treatments Rows ( γραµµές) Columns (στήλες) Degrees Sum of squares of freedom y = y - l = y G = y k k= y rows = yi i= y columns = y l l= - - (-) Error Total E t = i k l y ikl y (-3)(-) Η διαδικασία είναι ίδια όπως και στις άλλες περιπτώσεις. Ανακεφαλαιώνοντας έχουµε τα παρακάτω: Randomize blocks: Πλεονεκτήµατα:. Μειώνει την επίδραση της ενοχλητικής µεταβλητής και έτσι ελαττώνεται το exerimental error.. Μπορεί να χρησιµοποιηθεί οποιοσδήποτε αριθµός επιπέδων (treatment). Μειονεκτήµατα:. Αν χρησιµοποιηθεί µεγάλο αριθµός επίπεδων τότε θα είναι δύσκολο να φτιάξω blocks για όλα τα treatments. 30

Λατινικά Τετράγωνα: Πλεονεκτήµατα:. Μειώνει την επίδραση δύο ενοχλητικών µεταβλητών. Μειονεκτήµατα:. Θα πρέπει τα επίπεδα κάθε ενοχλητικής µεταβλητής να ισούται µε τον αριθµό των treatments.. εν θα πρέπει να υπάρχει αλληλεπίδραση. 3. Τα τετράγωνα 8x8 δεν συναντιούνται αλλά δεν είναι πρακτικά. 3