HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 17-18

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 17-18 Νευρωνικά Δίκτυα(Neural Networks) - συνέχεια

Minimum squared-error procedure for classification 1 ( T T wls = X X) X b= Xb Xw= b Logistic sigmoidal function Softmax function Logistic regression 2 classes T σ ( w x+ w ) = pc ( x) = σ ( a) 0 1 K classes g k T y= g( w x+ w ) T w x 0 0 + w = a= T ( w x ) ( ) + w0 = pck x = j p( x C ) pc ( ) 1 1 ln p ( x C2 ) pc ( 2 ) exp( αk ) exp( α ) j

Generalized logistic regression 2 classes Likelihood Cross-entropy error function ελαχιστοποίηση Επαναληπτικός υπολογισμός του w

Νευρωνικά δίκτυα (Neural networks): Αρχιτεκτονικές που μας προσφέρουν ευελιξία στην αναπαράσταση μη γραμμικών απεικονίσεων σε προβλήματα παλινδρόμησης/ ταξινόμησης της μορφής Δίκτυο πρόσω τροφοδότησης (feed-forward) 2στρωμάτων weights biases y = g( a ) k = 1, 2,..., K k k M D (2) (1) yk = g wkj h wjixi k = 1, 2,..., K j= 0 i= 0

Kolmogorov stheorem neural nets: Οποιαδήποτε συνεχής απεικόνιση y(x),όπου το xέχει διάσταση D μπορεί να αναπαρασταθεί ακριβώς από ένα δίκτυο τριών στρωμάτων με D(2D+1)μονάδες στο πρώτο στρώμα και 2D+1 στο δεύτερο -Universal approximation property of neural networks Επίσης ένα νευρωνικό δίκτυο με τρία στρώματα και συναρτήσεις ενεργοποίησης κατωφλίου ή σιγμοειδείς μπορεί να αναπαραστήσει σύνορα οποιασδήποτε μορφής με αυθαίρετη ακρίβεια Οι τιμές των συντελεστών w που αντιστοιχούν σε μια συγκεκριμένη απεικόνιση δεν είναι μοναδικές Συναρτήσεις ενεργοποίησης 0, a< 0 g( a) = 1, a 0 a a e e tanh( a) = = 2 σ ( a) 1 a a e + e

Συναρτήσεις σφάλματος Συνεχής έξοδος/έξοδοι Μοναδιαία συνάρτηση ενεργοποίησης στην έξοδο g(.) Πιθανοφάνεια Συνάρτηση σφάλματος E E y = a =y t a Ταξινόμηση 2 κλάσεις Συνάρτηση ενεργοποίησης Πιθανοφάνεια Συνάρτηση σφάλματος E a k k k k k k =y k t k N tn p( t x,w) = y( x,w) {1 y( x,w)} n= 1 n N n= 1 n 1 t { } E( w) = t ln y + (1 t )ln(1 y ) n n n n n

Ταξινόμηση Κ κλάσεις Συναρτήσεις ενεργοποίησης Πιθανοφάνεια Συνάρτηση σφάλματος E y = a =y t aa k k k k k N K = n= 1 k= 1 tnk p( T w) y nk

Εκπαίδευση δικτύου Error backpropagation Error backpropagationalgorithm: Πρώτη αναφορά το 1969, όμως εκτεταμένη εφαρμογή μετά το 1986 (Rumelhart, Hinton, Williams) Ο όρος προέρχεται από το ότι έχουμε διάδοση «σφαλμάτων» προς τα πίσω σε ένα δίκτυο σύμφωνα με τον αλγόριθμο Επαναληπτική διαδικασία με τρία βασικά διακριτά στάδια σε κάθε βήμα 1. Οι τιμές όλων των z k, y k του δικτύου υπολογίζονται από τις «τρέχουσες» τιμές των παραμέτρων 2. Οι παράγωγοι της συνάρτησης σφάλματος ως προς τα βάρη wυπολογίζονται με βάση τις «τρέχουσες» τιμές των τελευταίων 3. Οι παράγωγοι αυτές χρησιμοποιούνται για να ενημερωθούν οι τιμές των βαρών w(π.χ. gradient descent) Όπως θα δούμε η «διάδοση» των σφαλμάτων γίνεται στο στάδιο 1

Εκπαίδευση δικτύου Error backpropagation Στη γενική περίπτωση, έστω ότι έχουμε ένα δίκτυο πρόσω τροφοδότησης με (οποιεσδήποτε) συναρτήσεις ενεργοποίησης οι οποίες είναι διαφορίσιμεςκαι με συνάρτηση σφάλματος Ε(w) μπορεί να είναι π.χ. κάποια από αυτές που ήδη είδαμε Ο αλγόριθμος χρησιμοποιεί επανειλημμένα τον κανόνα αλυσίδας (chain rule) f ( nw ( )) f nw ( ) = w n w Σε μια γενική αρχιτεκτονική πρόσω τροφοδότησης, κάθε μονάδα υπολογίζει το γραμμικό συνδυασμό: και στη συνέχεια τον (στη γενική περίπτωση μη γραμμικό) μετασχηματισμό h της παραπάνω: Σημ: αν z 0 =1 περιλαμβάνονται και biases

Error backpropagation Ξεκινάμε από την έξοδο του δικτύου. Η συνάρτηση σφάλματος είναι: Θέλουμε να υπολογίσουμε την παράγωγο του E n ως προς τον συντελεστή w ji (2) (δεύτερο στρώμα). Από τον κανόνα αλυσίδας: (1) Ορίζοντας το σφάλμα δ j ως και επειδή η (1) γράφεται: j Για το στρώμα εξόδου όμως, είδαμε ότι και στις 3 περιπτώσεις συναρτήσεων κόστους(sum-ofsquares, cross-entropy, multi-class entropy) που εξετάσαμε έχουμε: δ j = yj tj οπότε η ποσότητα όντως αντιστοιχεί στο «σφάλμα» μεταξύ πρόβλεψης του δικτύου και παρατηρήσεων και στις 3 περιπτώσεις!

Error backpropagation Πηγαίνουμε ένα στρώμα πίσω. H παράγωγος ως προς τα βάρη του πρώτου στρώματος είναι: όπου ορίζουμε το σφάλμα για το πρώτο στρώμα παρόμοια με πριν, δηλ.: Η παράγωγος και το σφάλμα εξαρτώνται μόνο τις μονάδες του επόμενου στρώματος με τις οποίες υπάρχει σύνδεση. Τελικά: δ δ ak a z k j (2) j k = k h '( aj ) kwkj a δ = = z a δ k j k j j k Διάδοση σφαλμάτων προς τα πίσω (backpropagation) καθώς και Τελικά λοιπόν:

Μάλιστα για το πρώτο στρώμα έχουμε: άρα: Error backpropagation Πηγαίνοντας προς τα πίσω με τον ίδιο τρόπο μπορούμε να φτάσουμε μέχρι το στρώμα εισόδου και να υπολογίσουμε επαναληπτικά όλους τους συντελεστές (αν έχουμε παραπάνω στρώματα)

Error backpropagation Ο αλγόριθμος λοιπόν λειτουργεί ως εξής: 1. Αρχικοποίηση w(συνήθως τυχαίοι αριθμοί κοντά στο μηδέν) 2. Για οποιοδήποτε διάνυσμα εκπαίδευσης x n πηγαίνουμε προς τα μπροστά και υπολογίζουμε όλα τα zκαιaτου δικτύου: Βήμα 2 3. Υπολογίζουμε τα σφάλματα εξόδου από την: 4. Πηγαίνουμε προς τα πίσω και υπολογίζουμε τα σφάλματα δ = h'( a ) δ w j j k kj k 5. Υπολογίζουμε τις παραγώγους και ενημερώνουμε τις τιμές των συντελεστών Βήμα 4 w( k+ 1) = w( k) nk ( ) J ( w) Σημ: Οι συναρτήσεις ενεργοποίησης μπορεί να είναι διαφορετικές σε κάθε στρώμα/μονάδα

Error backpropagation Παράδειγμα: Δίκτυο 2 στρωμάτων, τετραγωνικό σφάλμα,μοναδιαίες συναρτήσεις ενεργοποίησης στην έξοδο (y k =α k ) και συναρτήσεις ενεργοποίησης για τις κρυμμένες μονάδες: Βήμα 2 για την οποία ισχύει: Συνάρτηση σφάλματος: 1. Αρχικοποίηση 2. Forward propagation

Error backpropagation 3. Σφάλμα εξόδου 4. Backpropagation για τις κρυμμένες μονάδες τα σφάλματα είναι: 5. Υπολογισμός παραγώγων και ενημέρωση Βήμα 4

Error backpropagation Και εδώ μπορούμε να έχουμε εκπαίδευση single-sample ή batch Ένα πέρασμα όλων των δεδομένων: epoch Single-sample/stochastic: τυχαία παρουσίαση αρχικοποίηση w(1), n(1), θ επιλογή τυχαίου δείγµατος E wji ( k+ 1) = wji ( k) nk ( ) w µέχρι J ( w) θ Online: παρουσίαση δειγμάτων με τη σειρά Batch k=1, αρχικοποίηση w(1), n(1), θ k=k+1 x n w ji n x n Em m= 1: N, w = w nk ( ), w ( k+ 1) = w ( k) + w w µέχρι J ( w) ji ji ji ji ji ji m x θ

The Jacobian matrix Τα στοιχεία του πίνακα αυτού ορίζονται ως: Μας δίνουν μια ιδέα της «ευαισθησίας» του δικτύου σε (μικρές) μεταβολές κάθε εισόδου x i Και αυτή η παράγωγος μπορεί να υπολογιστεί μεμε τον κανόνα αλυσίδας ως εξής: όπου το jπεριλαμβάνει όλες τις μονάδες με τις οποίες συνδέεται η είσοδος x i Επιπλέον είδαμε ήδη ότι: όπου lόλεςοι μονάδες που συνδέονται με τημονάδα j

Για σιγμοειδείς συναρτήσεις εξόδου: The Jacobian matrix Για συναρτήσεις softmax: δ: Kronecker delta

Hessian matrix Hessian: πίνακας των δεύτερων παραγώγων της συνάρτησης σφάλματος ως προς τις παραμέτρους ενός δικτύου 2 E Hij = wji wlk Επιτάχυνση εκπαίδευσης Κανονικοποίηση Bayesian networks Για Wσυνολικά βάρη και biases Ο(W 2 )υπολογισμοί Σε κάποιες περιπτώσεις απαιτείται η αντιστροφή της Hessian -προσέγγιση με διαγώνιο πίνακα (Bishop 5.4.1). Αν έχουμε Ν δείγματα το συνολικό σφάλμα είναι: N = n= 1 E E n Mπορούμε να υπολογίσουμε την Hessian σε κάθε σημείο και να αθροίσουμε. Για το δίκτυο δύο στρωμάτων, τα στοιχεία του πίνακα μπορούν να υπολογιστούν με τον ίδιο τρόπο που είδαμε για τις πρώτες παραγώγους (backpropagation- chain rule)

Τελικά προκύπτει Βάρη δεύτερου στρώματος Βάρη πρώτου στρώματος Hessian matrix Βάρη πρώτου και δεύτερου στρώματος όπου: και Ι jj τoστοιχείo (j,j )του μοναδιαίου πίνακα Εκτός από την προσέγγιση με διαγώνιο πίνακα, χρησιμοποιούνται και άλλες προσεγγίσεις (outer product approximation Bishop 5.4.2)

Κανονικοποίηση Αριθμός εισόδων/εξόδων: καθορίζεται από το πρόβλημα Αριθμός κρυμμένων μονάδων: καθορίζεται από το χρήστη με τη σειρά του καθορίζει την ικανότητα γενίκευσης του δικτύου Δυσκολία: Ύπαρξη τοπικών ελάχιστων, εξάρτηση από αρχικές συνθήκες

Κανονικοποίηση Όπως και στην παλινδρόμηση μπορούμε να θεωρήσουμε συνάρτηση σφάλματος της μορφής Έστω το δίκτυο 2 στρωμάτων με γραμμικές συναρτήσεις ενεργοποίησης εξόδου. Τι γίνεται αν εφαρμόσουμε γραμμικό μετ/σμό στην είσοδο ή/και στην έξοδο? Αν, μπορούμε να κρατήσουμε την απεικόνιση σταθερή αν

Παρομοίως, αν : Κανονικοποίηση Θα θέλαμε όταν το δίκτυο εκπαιδευτεί με τα αρχικά και τα μετ/σμένα δεδομένα, η απεικόνιση που προκύπτει να είναι συμβατή με τα παραπάνω Η απλή κανονικοποίηση ( ) δεν πληροί αυτή την προϋπόθεση. Όμως η: όπου W 1, W 2 τα σύνολα των βαρών του πρώτου και δεύτερου στρώματος (εκτός των biases)αν οι σταθερές λ 1 και λ 2 μετασχηματιστούν σύμφωνα με: λ a 1/2 1 1 λ c λ λ 1/2 2 2 είναι αμετάβλητη ως προς το γραμμικό μετασχηματισμό (όχι όμως και τη μετατόπιση) - Invariant regularizer under linear transformation

Κανονικοποίηση Η κανονικοποίηση αυτής της μορφής είναι ισοδύναμη με το να χρησιμοποιήσουμε εκ των προτέρων κατανομή για τα βάρη και να πάρουμε εκτίμηση MAP: Σημ: Η προηγούμενη σχέση δεν περιλαμβάνει τους συντελεστές bias, για τους οποίους μπορούμε να διαλέξουμε ξεχωριστές εκ των προτέρων κατανομές.

Τερματισμός εκπαίδευσης Άλλος ένας τρόπος ελέγχου της ισοδύναμης πολυπλοκότητας (effective complexity) ενός δικτύου είναι ο τερματισμός της εκπαίδευσης με βάση ένα σύνολο επικύρωσης (validation set)και η χρήση ενός τρίτου συνόλου (testing set) για τον υπολογισμό της απόδοσης Καμπύλες μάθησης (learning curves) Για τα δεδομένα εκπαίδευσης: μονοτονική μείωση, όχι όμως και για τα δεδομένα επικύρωσης Μάλιστα αν σταματήσουμε μετά από τεπαναλήψεις και η σταθερά μάθησης είναι n, η ποσότητα nτείναι αντιστρόφως ανάλογη με την σταθερά κανονικοποίησης λ

Πρακτικά ζητήματα Συναρτήσεις ενεργοποίησης Μη γραμμικές, συνεχείς hκαι h Για προβλήματα ταξινόμησης, μοντέλα βιολογικών νευρωνικών δικτύων saturated h(πχ σιγμοειδείς) Για προβλήματα παλινδρόμησης μη γραμμικότητες με μεγαλύτερο δυναμικό εύρος (π.χ. πολυωνυμικές ιστοσελίδα) Μονοτονικότηταεπίσης μπορεί να είναι επιθυμητή -καλύτερη συμπεριφορά της συνάρτησης σφάλματος ως προς τοπικά/ολικά ελάχιστα Γραμμικότητα για μικρές τιμές του ορίσματος Η σιγμοειδής σ(α)(ή ισοδύναμα η tanh(α)) πληροί αρκετές από τις παραπάνω και έχει χρησιμοποιηθεί αρκετά Αν οι συναρτήσεις ενεργοποίησης είναι π.χ. σιγμοειδείς ή πολυωνυμικές, κάθε δείγμα xμπορεί να επηρεάσει περισσότερες από μια μονάδες (global representation), αν όμως οι συναρτήσεις είναι τοπικές (π.χ. Γκαουσιανές radial basis function networks), λιγότερες μονάδες θα είναι ενεργέςγια κάθε δείγμα για λίγα δεδομένα εκπαίδευσης πιθανόν καλύτερα αποτελέσματα

Πρακτικά ζητήματα Κανονικοποίηση δεδομένων: Τα χαρακτηριστικά με μεγαλύτερες τιμές θα επηρεάζουν την επαναληπτική διαδικασία πολύ περισσότερο, δηλ. τα αντίστοιχα βάρη θα αλλάζουν πολύ πιο γρήγορα! Συνήθης πρακτική: κανονικοποίηση δεδομένων εισόδουώστε να έχουν μηδενική μέση τιμή και μοναδιαία τυπική απόκλιση (data standardization) Αρχικοποίηση βαρών: Δεν μπορούμε να διαλέξουμε w(0)=0! Γενικά θέλουμε να έχουμε ομοιόμορφη μάθηση, δηλ. όλα τα βάρη να συγκλίνουν περίπου μετά τον ίδιο αριθμό επαναλήψεων. Αν εφαρμόσουμε και κανονικοποίηση, οπότε έχουμε θετικές και αρνητικές τιμές χαρακτηριστικών συνήθως επιλέγουμε αρχικές τιμές μεταξύ -Wκαι W(πχ από μια ομοιόμορφη κατανομή), όπου το Wδεν πρέπει να είναι πολύ μικρό ή μεγάλο (αργή μάθηση/κορεσμός για σιγμοειδείς). Π.χ. αν έχουμε σιγμοειδείς συν. ενεργοποίησης μπορούμε να διαλέξουμε το W ώστε να βρισκόμαστε στη γραμμική περιοχή τους

Πρακτικά ζητήματα Σταθερές μάθησης: Εφόσον η σύγκλιση σε ολικό ελάχιστο δεν είναι εγγυημένη, η επιλογή μπορεί να επηρεάσει την ποιότητα της τελικής λύσης. Είδαμε ότι αν η συνάρτηση κόστους προσεγγιστεί από τετραγωνική μορφή, η βέλτιστη επιλογή είναι η αντίστροφη της Hessian(μέθοδος Newton), δηλ. για κάθε βάρος μπορούμε να χρησιμοποιήσουμε: 1 2 E nopt = 2 ή κάποια προσέγγιση αυτής (π.χ. διαγώνια) w ji Momentum: Επιταχύνει τη μάθηση σε περιοχές με μικρή κλίση της w( k+ 1) = w( k) + (1 α) w ( k) + α w( k 1) E όπου wbp ( k) = nk ( ) w ij bp x k Συνήθως α γύρω στο 0.9. Γενικά πιο ομαλή σύγκλιση Αριθμός στρωμάτων: Τρία στρώματα επιτυγχάνουν καθολική προσέγγιση, άρα στις περισσότερες περιπτώσεις δεν υπάρχει ανάγκη για παραπάνω, εκτός από ειδικές συνθήκες (π.χ. αν θέλουμε αμεταβλητότητα ως προς θέσηστη συνέχεια)

Αμεταβλητότητα (invariance) Σε πολλά προβλήματα αναγνώρισης προτύπων είναι επιθυμητό η πρόβλεψη του δικτύου να παραμένει αμετάβλητη όταν οι μεταβλητές εισόδου (features) μετασχηματίζονται είτε κατά πλάτος ή κατά θέση (scale/translation invariant) Ένας τρόπος είναι να έχουμε μεγάλο πλήθος δεδομένων εκπαίδευσης που καλύπτουν όλες τις περιπτώσεις (όχι πάντα εφικτό) Εναλλακτικά: Μπορούμε να δημιουργήσουμε «τεχνητά» πρότυπα ξεκινώντας από τα αρχικά δεδομένα εκπαίδευσης και εφαρμόζοντας μετασχηματισμούς που αντιστοιχούν στη ζητούμενη αμεταβλητότητα (π.χ. μετατόπιση, περιστροφή)

Αμεταβλητότητα (invariance) Εναλλακτικά: Κανονικοποίηση (tangent propagation 5.5.4 Bishop) Προεπεξεργασίαδεδομένων (pre-processing): Επιλέγουμε χαρακτηριστικά των δεδομένων μας που παραμένουν αμετάβλητα υπό τους μετασχηματισμούς που μας ενδιαφέρουν πχ ροπές, principal component analysis Ενσωμάτωση της αμεταβλητότητας στη δομή του δικτύου π.χ. στην περίπτωση εικόνων, τα γειτονικά pixels είναι περισσότερο συσχετισμένα. Μπορούμε να έχουμε ένα στρώμα που εξάγει τοπικάχαρακτηριστικά (από μικρές περιοχές της αρχικής εικόνας) και τα ενσωματώνει στα επόμενα στρώματα.

Αμεταβλητότητα (invariance) Convolutional neural networks: Οι μονάδες στο στρώμα συνέλιξης λαμβάνουν πληροφορία από μικρές «γειτονιές» της αρχικής εικόνας, π.χ. 5x5 pixels. Όλες οι μονάδες συνδέονται με βάρη ίδιων τιμών με τις γειτονιές αυτές (weight sharing), άρα έχουμε 25 βάρη (+1 bias) και στην ουσία οι μονάδες «ανιχνεύουν» τα ίδια χαρακτηριστικά αλλά από άλλες περιοχές της εικόνας. Αν η εικόνα μετατοπιστεί, το χαρακτηριστικό θα μετατοπιστεί επίσης. Για περισσότερα χαρακτηριστικά περισσότερα στρώματα συνέλιξης. Subsampling layer: περαιτέρω αμεταβλητότητα Παρόμοια εκπαίδευση (backpropagation) Εφαρμογές σε αναγνώριση χειρόγραφων χαρακτήρων, προσώπων κλπ

Εκπαίδευση συναρτήσεων ενεργοποίησης Μέχρι στιγμής εξετάσαμε τον αλγόριθμο backpropagationγια την εκπαίδευση των βαρών μόνο Είδαμε όμως ότι οι αρχιτεκτονικές νευρωνικών δικτύων μπορούν να μας βοηθήσουν στην επιλογή συναρτήσεων βάσης από τα δεδομένα, δηλ. των φ j στον γενικό μετασχηματισμό Μπορούμε να εκπαιδεύσουμε π.χ. και τις συναρτήσεις ενεργοποίησης? Ναι backpropagation. Έστω π.χ. συναρτήσεις ενεργοποίησης με: Μπορούμε να εκπαιδεύσουμε και την παράμετρο λ υπολογίζοντας την ποσότητα: Επίσης μπορούμε να διαλέξουμε διαφορετικές παραμέτρους λ για κάθε κρυμμένη μονάδα ή/και στρώμα

Radial basis function networks Μια δημοφιλής κατηγορία νευρωνικών δικτύων χρησιμοποιεί τοπικές συναρτήσεις ενεργοποίησης - συνήθως Γκαουσιανές π.χ.:

Bayesian neural networks Μέχρι στιγμής χρησιμοποιήσαμε μέγιστη πιθανοφάνεια για την εκπαίδευση ενός δικτύου Κανονικοποίηση: ισοδύναμη με εκτίμηση MAP Μπορούμε να χρησιμοποιήσουμε και την Μπεϋζιανή θεώρηση Στην περίπτωση της γραμμικής παλινδρόμησης με Γκαουσιανόθόρυβο πήραμε αναλυτικά αποτελέσματα για τις εκ των υστέρων κατανομές των συντελεστών w και την προγνωστική κατανομή (predictive distribution) Εδώ δεν μπορεί να γίνει το ίδιο: προσεγγίσεις (variationalinference/laplace approximation) Στην περίπτωση συνεχούς μεταβλητής στόχου t η πιθανοφάνεια είναι: Κανονική εκ των προτέρων κατανομή για τα βάρη: Πιθανοφάνεια για Ν ανεξάρτητες παρατηρήσεις D={t 1,t 2,,t N }:

Εκ των υστέρων κατανομή: Bayesian neural networks Η κατανομή αυτή, λόγω της μη γραμμικής εξάρτησης του y(x,w)ως προς w δεν είναι κανονικήως προς w Ένας τρόπος (Laplace approximation) είναι να προσεγγίσουμε αυτή την κατανομή με κανονική, γύρω από το μέγιστο της εκ των υστέρων κατανομής (δηλ. της εκτίμησης MAP). Αυτό γίνεται ελαχιστοποιώντας την: Ισοδυναμία με κανονικοποίηση οι μερικές παράγωγοι υπολογίζονται με backpropagation. Η κανονική προσέγγιση της posterior δίνεται τότε από(laplace approximation): όπου Η: Hessian Μπορούμε προσεγγιστικά να πάρουμε αποτελέσματα επίσης για την προγνωστική κατανομή και τις υπερπαραμέτρους α,β(generalized likelihood Bishop 5.7.1)

Bayesian neural networks Για δίκτυο ταξινόμησης σε 2 κλάσεις με σιγμοειδή συνάρτηση ενεργοποίησης εξόδου η πιθανοφάνεια είναι: Και πάλι θεωρούμε κανονική εκ των προτέρων κατανομή για τα βάρη με ακρίβεια α. Όπως και στην περίπτωση συνεχούς t υπολογίζουμε το w MAP ελαχιστοποιώντας (backpropagation) την: Κατόπιν, υπολογίζουμε την Hessian και η εκ των υστέρων κατανομή παίρνει και πάλι τη μορφή Το α μπορεί να υπολογιστεί μεγιστοποιώντας την περιθωριακή πιθανοφάνεια