Μελέτη και βελτίωση της ακρίβειας της μεθόδου κατηγοριοποίησης Mahalanobis-Taguchi Strategy με τεχνικές Bootstrap και Bagging

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Μελέτη και βελτίωση της ακρίβειας της μεθόδου κατηγοριοποίησης Mahalanobis-Taguchi Strategy με τεχνικές Bootstrap και Bagging"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΔΙΟΙΚΗΣΗ» ΤΜΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Μελέτη και βελτίωση της ακρίβειας της μεθόδου κατηγοριοποίησης Mahalanobis-Taguchi Strategy με τεχνικές Bootstrap και Bagging Διπλωματική Εργασία της Ευαγγελίας Παντράκη (ΑΕΜ: 415) Εξεταστική Επιτροπή Επιβλέπων: κ. Αγγελής Ελευθέριος Μέλη: κ. Πλακογιαννάκη Εμμανουέλα κ. Σταμέλος Ιωάννης ΘΕΣΣΑΛΟΝΙΚΗ ΜΑΡΤΙΟΣ 2014

2

3 Πρόλογος Η παρούσα διπλωματική εργασία με τίτλο «Μελέτη και βελτίωση της ακρίβειας της μεθόδου κατηγοριοποίησης Mahalanobis-Taguchi Strategy με τεχνικές Bootstrap και Bagging» πραγματοποιήθηκε στα πλαίσια του Διατμηματικού Προγράμματος Μεταπτυχιακών Σπουδών «Πληροφορική και Διοίκηση» των τμημάτων Πληροφορικής και Οικονομικών Επιστημών. Στόχος της εργασίας είναι η διερεύνηση της στρατηγικής Mahalanobis-Taguchi, η οποία αποτελεί μια μέθοδο για την υποβοήθηση της λήψης αποφάσεων σε πολυδιάστατα συστήματα. Ακόμα, η παρούσα διπλωματική εξετάζει την εφαρμογή των μεθόδων Bootstrap και Bagging με στόχο την βελτίωση της προβλεπτικής ικανότητας της στρατηγικής Mahalanobis-Taguchi. Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή κ. Ελευθέριο Αγγελή, Επίκουρο Καθηγητή του Τμήματος Πληροφορικής, για την εμπιστοσύνη που μου έδειξε αναθέτοντάς μου αυτή τη διπλωματική. Επίσης, θα ήθελα να τον ευχαριστήσω για τις πολύτιμες κατευθύνσεις που μου έδωσε για την συγγραφή της διπλωματικής και για την άψογη συνεργασία μας. Ακόμα, θα ήθελα να ευχαριστήσω θερμά τον Υποψήφιο Διδάκτορα της Πληροφορικής, κ. Δημήτριο Λιπαρά, για τη σημαντική βοήθεια και τις συμβουλές που μου παρείχε, καθ όλη τη διάρκεια της συγγραφής της διπλωματικής. Τέλος, θα ήθελα να ευχαριστήσω την οικογένεια μου, του φίλους μου και τους συμφοιτητές μου, για την ηθική συμπαράσταση που μου προσέφεραν όλο αυτό το διάστημα. Ευαγγελία Παντράκη Μάρτιος

4

5 Περιεχόμενα ΠΡΟΛΟΓΟΣ... 3 ΠΕΡΙΕΧΟΜΕΝΑ ΕΙΣΑΓΩΓΗ Η ΣΤΡΑΤΗΓΙΚΗ MAHALANOBIS-TAGUCHI Η απόσταση Mahalanobis ΜΕΘΟΔΟΣ MTGS Διαδικασία ορθογωνοποίησης Gram-Schmidt Υπολογισμός της MD με τη διαδικασία ορθογωνοποίησης Gram- Schmidt Βήματα της μεθόδου MTGS ΕΙΣΑΓΩΓΙΚΑ ΣΤΟΙΧΕΙΑ ΓΙΑ ΤΟΥΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΕΣ ΕΡΕΥΝΗΤΙΚΑ ΕΡΩΤΗΜΑΤΑ ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΟΡΙΣΜΟΣ ΔΙΑΣΤΗΜΑΤΟΣ ΕΜΠΙΣΤΟΣΥΝΗΣ ΜΕΘΟΔΟΣ BOOTSTRAP ΚΑΙ ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ Η μέθοδος Bootstrap Bootstrap διαστήματα εμπιστοσύνης Αριθμός bootstrap δειγμάτων Πλεονεκτήματα και μειονεκτήματα της μεθόδου Bootstrap Εφαρμογές μεθόδου Bootstrap στη βιβλιογραφία Η ΜΕΘΟΔΟΣ BAGGING Η ΜΕΘΟΔΟΣ ΕΜΦΩΛΙΑΣΗΣ BAGGING ΕΝΑΛΛΑΚΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ/ ΕΠΕΚΤΑΣΕΙΣ ΣΤΗ ΜΕΘΟΔΟ BAGGING Τυχαία επιλογή διαχωρισμού Μέθοδος τυχαίου υποχώρου Τυχαίο δάσος

6 4 ΚΑΘΟΡΙΣΜΟΣ ΚΑΤΩΦΛΙΟΥ ΓΙΑΤΙ ΕΙΝΑΙ ΑΠΑΡΑΙΤΗΤΟ ΤΟ ΚΑΤΩΦΛΙ ΜΕΘΟΔΟΙ ΚΑΘΟΡΙΣΜΟΥ ΚΑΤΩΦΛΙΟΥ ΣΤΗ ΜΕΘΟΔΟ MTGS Τετραγωνική συνάρτηση απώλειας Εναλλακτικοί τρόποι καθορισμού του κατωφλίου ΜΕΘΟΔΟΣ ΚΑΘΟΡΙΣΜΟΥ ΚΑΤΩΦΛΙΟΥ ΣΤΗ ΜΕΘΟΔΟ MTGS ΣΤΟ ΠΛΑΙΣΙΟ ΤΗΣ ΔΙΠΛΩΜΑΤΙΚΗΣ Μετρικές απόδοσης κατηγοριοποίησης Καθορισμός κατωφλίου με κριτήριο τη μεγιστοποίηση του δείκτη Youden ΠΕΡΙΓΡΑΦΗ ΠΕΙΡΑΜΑΤΙΚΩΝ ΜΕΘΟΔΩΝ ΠΕΡΙΓΡΑΦΗ ΠΕΙΡΑΜΑΤΙΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΥΠΟΛΟΓΙΣΜΟ ΔΙΑΣΤΗΜΑΤΩΝ ΕΜΠΙΣΤΟΣΥΝΗΣ Βήματα μεθόδου υπολογισμού διαστημάτων εμπιστοσύνης Σύνολο δεδομένων για εκτίμηση διαστημάτων εμπιστοσύνης ΠΕΡΙΓΡΑΦΗ ΠΕΙΡΑΜΑΤΙΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ BAGGING Βήματα μεθόδου Bagging Σύνολα δεδομένων για εφαρμογή μεθόδου Bagging ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΕΙΡΑΜΑΤΙΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΥΠΟΛΟΓΙΣΜΟ ΔΙΑΣΤΗΜΑΤΩΝ ΕΜΠΙΣΤΟΣΥΝΗΣ Αποτελέσματα σε σύνολο δεδομένων Breast Cancer Wisconsin ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΕΙΡΑΜΑΤΙΚΩΝ ΜΕΘΟΔΩΝ ΜΕ ΧΡΗΣΗ ΜΕΘΟΔΟΥ BAGGING Αποτελέσματα σε σύνολο δεδομένων Shuttle Αποτελέσματα σε σύνολο δεδομένων MW Σύγκριση αποτελεσμάτων μεθόδου Bagging στα δύο σύνολα δεδομένων ΣΥΜΠΕΡΑΣΜΑΤΑ ΥΛΟΠΟΙΗΣΗ ΜΕΘΟΔΩΝ ΣΤΟ MATLAB ΥΛΟΠΟΙΗΣΗ ΜΕΘΟΔΟΥ MTGS ΣΤΟ MATLAB

7 8.2 ΥΛΟΠΟΙΗΣΗ ΓΙΑ ΣΥΝΔΥΑΣΜΟ ΜΕΘΟΔΩΝ MTGS ΚΑΙ BOOTSTRAP ΓΙΑ ΥΠΟΛΟΓΙΣΜΟ ΔΙΑΣΤΗΜΑΤΩΝ ΕΜΠΙΣΤΟΣΥΝΗΣ ΥΛΟΠΟΙΗΣΗ ΓΙΑ ΣΥΝΔΥΑΣΜΟ ΜΕΘΟΔΩΝ MTGS, BOOTSTRAP ΚΑΙ BAGGING 144 ΒΙΒΛΙΟΓΡΑΦΙΑ

8

9 1 Εισαγωγή Η διπλωματική αυτή εργασία ασχολείται με την στρατηγική Mahalanobis-Taguchi, η οποία χρησιμοποιείται στην υποβοήθηση της λήψης αποφάσεων σε πολυδιάστατα συστήματα. Αρχικά, θα παραθέσουμε τα βασικά σημεία της στρατηγικής, καθώς και τα ερευνητικά ερωτήματα που μας ενδιαφέρουν και τα οποία θα επιδιώξουμε να αποσαφηνίσουμε μέσα από αυτήν την εργασία. 1.1 Η στρατηγική Mahalanobis-Taguchi Στόχος της στρατηγικής Mahalanobis-Taguchi είναι να βοηθήσει στη λήψη αποφάσεων σε πολυμεταβλητά συστήματα με σκοπό τη διάγνωση ή την αναγνώριση προτύπων. Ένα πολυμεταβλητό σύστημα αποτελείται από πολλές μεταβλητές, οι οποίες παρέχουν πληροφορίες και πρέπει να ληφθούν υπόψη για τη λήψη απόφασης. Η είσοδος ενός πολυμεταβλητού συστήματος είναι οι τιμές των μεταβλητών και η έξοδος είναι η απόφαση που λαμβάνεται και στηρίζεται στις τιμές αυτών των μεταβλητών. Ένα σημείο που χρήζει σημασίας στα πολυμεταβλητά συστήματα είναι οι συσχετίσεις μεταξύ των μεταβλητών, οι οποίες επηρεάζουν τα αποτελέσματα και είναι απαραίτητο να ληφθούν υπόψη για τη λήψη της σωστής απόφασης, δηλαδή για τη σωστή έξοδο του συστήματος. Όταν οι μεταβλητές είναι πολύ συσχετισμένες μεταξύ τους, υπάρχει ο κίνδυνος να λάβουμε λανθασμένη απόφαση εάν τις εξετάζουμε μεμονωμένα. Η στρατηγική Mahalanobis-Taguchi βασίζεται στην απόσταση Mahalanobis για να πραγματοποιήσει τη διάγνωση των άγνωστων παρατηρήσεων στην έξοδο του συστήματος και λαμβάνει υπόψη τις συσχετίσεις μεταξύ των μεταβλητών Η απόσταση Mahalanobis Η απόσταση Mahalanobis (Mahalanobis Distance-MD) είναι ένα μέτρο απόστασης, που χρησιμοποιείται για να δημιουργήσει μια κλίμακα για τα πολυμεταβλητά δεδομένα λαμβάνοντας υπόψη τις συσχετίσεις μεταξύ των μεταβλητών. Η ικανότητα της MD να λαμβάνει υπόψη τις συσχετίσεις μεταξύ των μεταβλητών αποτελεί σημαντικό πλεονέκτημά της έναντι άλλων αποστάσεων, όπως για παράδειγμα η Ευκλείδεια -9-

10 απόσταση. Παραδοσιακά, η MD χρησιμοποιείται για την κατηγοριοποίηση παρατηρήσεων σε διαφορετικές ομάδες. Στην στρατηγική Mahalanobis-Taguchi, χρησιμοποιείται η MD, αλλά τροποποιημένη με την χρήση κατάλληλης κλίμακας. Η τροποποιημένη MD σε ένα σύστημα προκύπτει από τη διαίρεση της αρχικής τιμής της απόστασης Mahalanobis με τον αριθμό των μεταβλητών του συστήματος. Αρχικά, δημιουργείται ένα σημείο αναφοράς για την κλίμακα από τον υπολογισμό της τροποποιημένης MD για μερικές μόνο παρατηρήσεις, που αποτελούν την ομάδα αναφοράς. Μία ιδιότητα της τροποποιημένης MD είναι ότι η μέση τιμή της απόστασης για την ομάδα αναφοράς είναι η μονάδα. Για αυτόν τον λόγο, η ομάδα αναφοράς ονομάζεται και μοναδιαία ομάδα. Επίσης, η ομάδα αναφοράς αναφέρεται και ως χώρος του Mahalanobis (Mahalanobis Space-MS), καθώς περιλαμβάνει την τροποποιημένη υπό κλίμακα MD της ομάδας αναφοράς. Η λήψη απόφασης για τις άγνωστες παρατηρήσεις γίνεται με βάση τον χώρο του Mahalanobis και συγκεκριμένα, με βάση την απόσταση των άγνωστων παρατηρήσεων από το σημείο αναφοράς. Η απόσταση Mahalanobis υπολογίζεται είτε μέσω της διαδικασίας ορθογωνοποίησης Gram-Schmidt είτε με τη χρήση του αντίστροφου πίνακα των συσχετίσεων των μεταβλητών. 1.2 Μέθοδος MTGS Η διαδικασία Mahalanobis-Taguchi-Gram-Schmidt (MTGS) είναι μια μέθοδος υλοποίησης της στρατηγικής Mahalanobis-Taguchi, στην οποία χρησιμοποιείται η μέθοδος ορθογωνοποίησης Gram-Schimdt για τον υπολογισμό των τιμών MD. Ο βασικός στόχος της μεθόδου MTGS είναι να δημιουργήσει μια κλίμακα για τα χαρακτηριστικά εισόδου, με βάση την οποία θα μπορεί να μετρά τον βαθμό της «μη κανονικότητας» ή «ανωμαλίας» (abnormality) των άγνωστων παρατηρήσεων. Για τη δημιουργία της κλίμακας, η τιμή της απόστασης Mahalanobis των μεταβλητών εισόδου διαιρείται με τον αριθμό των μεταβλητών εισόδου. Το πρώτο βήμα της μεθόδου MTGS είναι η δημιουργία του χώρου του Mahalanobis για την ομάδα αναφοράς. Η ομάδα αναφοράς είναι ουσιαστικά οι «κανονικές» ή «υγιείς» παρατηρήσεις του συνόλου δεδομένων. Για αυτήν την ομάδα αναφοράς, υπολογίζεται η κλίμακα με τις MD. Ο χώρος του Mahalanobis για αυτήν την ομάδα αναφοράς έχει την ιδιότητα να έχει μέση τιμή ίση με τη μονάδα. Οι «μη κανονικές» παρατηρήσεις, που δεν λαμβάνονται υπόψη στη δημιουργία του χώρου του -10-

11 Mahalanobis, δεν θεωρούνται ως ξεχωριστή ομάδα, αλλά καθεμία από αυτές θεωρείται ως μια μοναδική περίπτωση, καθώς μπορεί να είναι «μη κανονική» για διαφόρους λόγους, π.χ. ένας ασθενής μπορεί να είναι «μη υγιής» είτε εάν έχει υψηλή χοληστερίνη είτε εάν έχει υψηλό σάκχαρο. Επειδή, ακριβώς, οι «μη υγιείς» παρατηρήσεις δεν αποτελούν ξεχωριστή ομάδα, η κλίμακα των MD για αυτές υπολογίζεται με βάση τoν πίνακα συσχέτισης του χώρου του Mahalanobis. Στο πλαίσιο αυτής της διπλωματικής εργασίας, η κλίμακα των MD θα υπολογίζεται με την διαδικασία ορθογωνοποίησης Gram-Schmidt και όχι με την χρήση του αντίστροφου πίνακα των συσχετίσεων. Συνεπώς, θα εστιάσουμε στη μέθοδο MTGS Διαδικασία ορθογωνοποίησης Gram-Schmidt Στο σημείο αυτό, θα περιγράψουμε τη διαδικασία ορθογωνοποίησης Gram-Schmidt. Αν έχουμε γραμμικά ανεξάρτητα διανύσματα,,,, τότε υπάρχουν αμοιβαία κάθετα διανύσματα,,, με την ίδια γραμμική έκταση. Τα διανύσματα Gram- Schmidt υπολογίζονται ως εξής:,,... όπου η απόστροφος σημαίνει την αντιμετάθεση του διανύσματος. Όταν η MD υπολογίζεται με την μέθοδο ορθογωνοποίησης Gram-Schmidt, χρησιμοποιούνται οι τυποποιημένες τιμές των μεταβλητών, στις οποίες αντιστοιχούν τα διανύσματα,,, των παραπάνω εξισώσεων. Τέλος, είναι σαφές από τις εξισώσεις ότι η διαδικασία ορθογωνοποίησης εξαρτάται σημαντικά από την πρώτη μεταβλητή Υπολογισμός της MD με τη διαδικασία ορθογωνοποίησης Gram-Schmidt Ας υποθέσουμε ότι έχουμε ένα δείγμα μεγέθους παρατηρήσεις με και ότι κάθε δείγμα περιλαμβάνει μεταβλητές. Αφού τυποποιήσουμε τις μεταβλητές, θα έχουμε το ακόλουθο σύνολο τυποποιημένων διανυσμάτων: -11-

12 ... Με τη διαδικασία ορθογωνοποίησης Gram-Schmidt, τα τυποποιημένα διανύσματα μετασχηματίζονται σε ορθογώνια διανύσματα :... Η μέση τιμή των διανυσμάτων,,, εύκολα προκύπτει από τα παραπάνω ότι ισούται με 0. Αν θεωρήσουμε ότι,,, είναι οι τυπικές αποκλίσεις των διανυσμάτων,,, αντίστοιχα, θα έχουμε συνολικά τιμές MD. Η τιμή MD της -οστής παρατήρησης του δείγματος υπολογίζεται από την ακόλουθη εξίσωση (1) ως εξής: (1) Βήματα της μεθόδου MTGS Στην ενότητα αυτή, θα αναφέρουμε τα βασικά βήματα της μεθόδου MTGS, τα οποία είναι τα εξής: 1. Κατασκευή της κλίμακας μέτρησης με τον χώρο του Mahalanobis ως σημείο αναφοράς Στο βήμα αυτό, ορίζουμε ποιες μεταβλητές καθορίζουν την «κανονικότητα» μιας κατάστασης, δηλαδή ποιες μεταβλητές μας ενδιαφέρουν προκειμένου να διαγνώσουμε μια παρατήρηση ως μη υγιή. Για παράδειγμα, η τιμή της πίεσης ενός ατόμου αποτελεί μεταβλητή με την οποία μπορούμε να συμπεράνουμε εάν -12-

13 το άτομο είναι υγιές ή μη υγιές. Το πρώτο βήμα της μεθόδου MTGS είναι η δημιουργία του χώρου του Mahalanobis για την ομάδα αναφοράς. Η ομάδα αναφοράς είναι ουσιαστικά οι «κανονικές» ή «υγιείς» παρατηρήσεις. Σε αυτό το βήμα, συλλέγουμε τα δεδομένα για όλες τις μεταβλητές της υγιούς ομάδας και υπολογίζουμε τις MD για όλες τις παρατηρήσεις χρησιμοποιώντας την διαδικασία ορθογωνοποίησης Gram-Schmidt. Αυτές οι αποστάσεις αποτελούν τον χώρο του Mahalanobis και με βάση αυτές, ορίζουμε το μηδενικό σημείο και τη μοναδιαία απόσταση ως το σημείο αναφοράς ή την βάση για την κλίμακα μέτρησης. 2. Επικύρωση της κλίμακας μέτρησης Στο βήμα αυτό, αναγνωρίζουμε τις «ανώμαλες» ή «μη υγιείς» καταστάσεις, για παράδειγμα σε μια ιατρική διάγνωση τους ασθενείς που πάσχουν από διάφορες ασθένειες. Υπολογίζουμε τις αποστάσεις Mahalanobis για αυτές τις «μη κανονικές» παρατηρήσεις. Οι μεταβλητές των μη υγιών καταστάσεων κανονικοποιούνται χρησιμοποιώντας τις μέσες τιμές και τις τυπικές αποκλίσεις των αντίστοιχων μεταβλητών από τον υγιή πληθυσμό. Επίσης, χρησιμοποιούμε τους συντελεστές Gram-Schmidt που αντιστοιχούν στον υγιή πληθυσμό. Εάν η κλίμακα μέτρησης είναι καλή, οι τιμές MD των μη υγιών παρατηρήσεων είναι υψηλότερες από τις τιμές MD των υγιών παρατηρήσεων και μπορούμε να επικυρώσουμε την κλίμακα μέτρησης. 3. Αναγνώριση των χρήσιμων μεταβλητών Στο βήμα αυτό, εντοπίζουμε το σύνολο των χρήσιμων μεταβλητών χρησιμοποιώντας ορθογώνιους πίνακες και τους λόγους Signal-to-Noise ( ratios). Ο λόγος, ο οποίος υπολογίζεται από τις «ανώμαλες» παρατηρήσεις, χρησιμοποιείται ως απόκριση για κάθε συνδυασμό μεταβλητών του ορθογώνιου πίνακα. Εάν δεν υπάρχουν υψηλές μερικές συσχετίσεις μεταξύ των μεταβλητών, οι λόγοι υπολογίζονται για όλες τις μεταβλητές κατευθείαν από τα ορθογώνια διανύσματα της διαδικασίας Gram-Schmidt. Στην περίπτωση που οι μερικές συσχετίσεις μεταξύ των μεταβλητών είναι ισχυρές, χρησιμοποιούμε την μέθοδο των ορθογωνίων πινάκων για να βρούμε τις χρήσιμες μεταβλητές. Ωστόσο προτείνεται να χρησιμοποιούνται οι ορθογώνιοι πίνακες σε κάθε περίπτωση, ώστε να μην απαιτείται ο έλεγχος των μερικών συσχετίσεων. Στο πλαίσιο αυτής της διπλωματικής εργασίας, θα χρησιμοποιούμε ορθογώνιους -13-

14 πίνακες για τον υπολογισμό των λόγων και την αναγνώριση του υποσυνόλου των χρήσιμων μεταβλητών. 4. Ανακατασκευή της κλίμακας με βάση τις χρήσιμες μεταβλητές και μελλοντική διάγνωση Στο τελευταίο βήμα, ανακατασκευάζουμε την κλίμακα μέτρησης χρησιμοποιώντας μόνο το σύνολο των χρήσιμων μεταβλητών. Αυτή η κλίμακα μέτρησης χρησιμοποιείται για μελλοντική διάγνωση και λήψη αποφάσεων. Δηλαδή, με βάση αυτήν την κλίμακα, μπορούμε να κάνουμε διάγνωση σε άγνωστες παρατηρήσεις και να τις αναγνωρίσουμε ως υγιείς ή μη υγιείς. Ιδιαίτερα σημαντική είναι και η τιμή του κατωφλίου που θα ορίσουμε, δηλαδή η τιμή της κλίμακας μέτρησης, πάνω από την οποία θα αναγνωρίζουμε μια παρατήρηση ως μη υγιή. Η τιμή του κατωφλίου είναι πολύ σημαντική, καθώς επηρεάζει την ορθότητα της λήψης απόφασης [1]. 1.3 Εισαγωγικά στοιχεία για τους κατηγοριοποιητές Η μέθοδος MTGS είναι μια μέθοδος κατηγοριοποίησης. Στην ενότητα αυτή, θα αναφέρουμε συνοπτικά κάποια εισαγωγικά στοιχεία για την κατηγοριοποίηση και τους κατηγοριοποιητές. Ο όρος κατηγοριοποίηση (classification) αναφέρεται στην πρόβλεψη κατηγορικών ετικετών κλάσης. Ο κατηγοριοποιητής (classifier) κατηγοριοποιεί τα δεδομένα, δηλαδή κατασκευάζει ένα μοντέλο, χρησιμοποιώντας το σύνολο εκπαίδευσης και τις τιμές (ετικέτες κλάσης) του προς κατηγοριοποίηση χαρακτηριστικού. Στη συνέχεια, με βάση το μοντέλο που έχει δημιουργήσει, κατηγοριοποιεί άγνωστα δεδομένα. Στο πλαίσιο αυτής της διπλωματικής εργασίας, θα ασχοληθούμε με τη μέθοδο κατηγοριοποίησης MTGS η οποία προβαίνει σε δυαδική κατηγοριοποίηση (binary classification). Στην δυαδική κατηγοριοποίηση, το προς κατηγοριοποίηση χαρακτηριστικό, δηλαδή η ετικέτα κλάσης, έχει δύο δυνατές τιμές. Το μοντέλο κατασκευάζεται από το σύνολο εκπαίδευσης (training set) και κάθε παρατήρηση του συνόλου εκπαίδευσης θεωρείται ότι ανήκει σε μια προκαθορισμένη κλάση ανάλογα με την τιμή που έχει στο προς κατηγοριοποίηση χαρακτηριστικό. Επειδή γνωρίζουμε τις ετικέτες του συνόλου εκπαίδευσης, η κατηγοριοποίηση ανήκει στην επιβλεπόμενη μάθηση (supervised learning). -14-

15 Στη συνέχεια, το μοντέλο εφαρμόζεται για την κατηγοριοποίηση νέων αντικειμένων και η απόδοσή του αξιολογείται χρησιμοποιώντας ένα σύνολο ελέγχου (test set). Συγκρίνουμε την γνωστή κλάση του συνόλου ελέγχου με το αποτέλεσμα της κατηγοριοποίησης και υπολογίζουμε μετρικές απόδοσης για το μοντέλο. Ιδιαίτερα μας ενδιαφέρει η ακρίβεια (accuracy), η οποία αντιστοιχεί στο ποσοστό των δειγμάτων ελέγχου που κατηγοριοποιήθηκαν σωστά από το μοντέλο. Το σύνολο ελέγχου πρέπει πάντα να είναι ανεξάρτητο από το σύνολο εκπαίδευσης, ώστε να αποφεύγεται η υπερπροσαρμογή (over-fitting) του μοντέλου. Το πρόβλημα της υπερ-προσαρμογής προκύπτει όταν το μοντέλο προσαρμόζεται υπερβολικά στα δεδομένα εκπαίδευσης και δεν μπορεί να γενικευτεί σε άγνωστα δεδομένα. 1.4 Ερευνητικά ερωτήματα Στην ενότητα αυτή, θα περιγράψουμε τα ερευνητικά ερωτήματα που θα εξεταστούν μέσα από την παρούσα διπλωματική εργασία. O κύριος στόχος της εργασίας είναι να διερευνηθεί η στρατηγική Mahalanobis-Taguchi και ειδικότερα, η μέθοδος MTGS και να γίνει προσπάθεια βελτίωσης της προβλεπτικής της ικανότητας. Ειδικότερα, η διπλωματική αυτή εργασία θα εξετάσει τον συνδυασμό της μεθόδου MTGS με τη μέθοδο δειγματοληψίας Bootstrap. Βασική ιδέα της μεθόδου Bootstrap είναι η επαναληπτική δειγματοληψία με επανατοποθέτηση από το αρχικό σύνολο δεδομένων και η επαναληπτική εφαρμογή ενός κατηγοριοποιητή σε κάθε δείγμα. Στόχος της μεθόδου Bootstrap είναι η βελτίωση της απόδοσης του κατηγοριοποιητή μέσα από τα επαναλαμβανόμενα πειράματα σε κάθε δείγμα. Εμείς θα εξετάσουμε εάν η μέθοδος Bootstrap μπορεί να βελτιώσει την απόδοση της κατηγοριοποίησης που επιτυγχάνει η μέθοδος MTGS. Η μέθοδος Bootstrap θα αναλυθεί λεπτομερώς στην Ενότητα της παρούσας διπλωματικής. Από τον συνδυασμό της μεθόδου MTGS με τη μέθοδο Bootstrap, προκύπτουν δύο σημαντικά ερευνητικά ερωτήματα, τα οποία αποτελούν και τους ερευνητικούς στόχους αυτής της διπλωματικής εργασίας. Το πρώτο ερώτημα αφορά τον υπολογισμό διαστημάτων εμπιστοσύνης για την κλίμακα των τιμών MD των υγιών παρατηρήσεων εκπαίδευσης, που υπολογίζεται με την μέθοδο MTGS. Ακόμα, ιδιαίτερο ενδιαφέρον παρουσιάζει η εκτίμηση διαστημάτων εμπιστοσύνης για τις μετρικές απόδοσης της μεθόδου MTGS, δηλαδή η εκτίμηση της αναμενόμενης απόδοσης της μεθόδου στο συγκεκριμένο σύνολο δεδομένων στο οποίο εφαρμόζεται. Στο πλαίσιο αυτής της διπλωματικής εργασίας, η εκτίμηση των -15-

16 διαστημάτων εμπιστοσύνης θα βασιστεί στη μέθοδο Bootstrap και θα αφορά μόνο τις υγιείς παρατηρήσεις, καθώς αυτές αποτελούν την ομάδα αναφοράς και με βάση αυτές «μετράμε» την «μη κανονικότητα» των μη υγιών παρατηρήσεων. Ο υπολογισμός των διαστημάτων εμπιστοσύνης για την κλίμακα των τιμών MD των υγιών παρατηρήσεων ενός συνόλου δεδομένων, μας δίνει σημαντικές πληροφορίες για το σύνολο δεδομένων. Αφενός οι πληροφορίες αφορούν τα πιθανά όρια της κλίμακας των τιμών MD των υγιών παρατηρήσεων, αλλά και την κατανομή των τιμών MD της υγιούς κλίμακας. Επίσης, με τον υπολογισμό διαστημάτων εμπιστοσύνης για διάφορες μετρικές απόδοσης για την πρόβλεψη άγνωστων παρατηρήσεων από τη μέθοδο MTGS, μπορούμε να διερευνήσουμε την ακρίβεια της μεθόδου σε συγκεκριμένα σύνολα δεδομένων. Το δεύτερο ερευνητικό ερώτημα που θα εξεταστεί στο πλαίσιο αυτής της διπλωματικής εργασίας είναι η εφαρμογή της μεθόδου εμφωλίασης Bagging και η διερεύνηση εάν και κατά πόσο μπορεί να βελτιώσει την ακρίβεια της κατηγοριοποίησης που επιτυγχάνει η μέθοδος MTGS. Η μέθοδος Bagging θα υλοποιηθεί με χρήση της μεθόδου Bootstrap. Συγκεκριμένα, θα εστιάσουμε στη δημιουργία δειγμάτων από τα αρχικά δεδομένα εκπαίδευσης και σε κάθε δείγμα θα εφαρμόζεται η μέθοδος MTGS. Η εφαρμογή της μεθόδου MTGS θα οδηγήσει στη δημιουργία κλίμακας μέτρησης των τιμών MD και στη μείωση του αριθμού των μεταβλητών. Στη συνέχεια, μετά την εφαρμογή της μεθόδου MTGS σε κάθε δείγμα, θα γίνει εφαρμογή της μεθόδου Bagging, η οποία αποτελεί μια μέθοδο συνένωσης και στην οποία η απόφαση ενός μοντέλου για την κατηγοριοποίηση των άγνωστων παρατηρήσεων γίνεται εξετάζοντας την πλειοψηφία των κατηγοριοποιήσεων πολλών επιμέρους μοντέλων. Ουσιαστικά, θα εξετάσουμε πως κατηγοριοποιούνται οι παρατηρήσεις του συνόλου ελέγχου από κάθε δείγμα και η τελική απόφαση για την κατηγοριοποίηση κάθε παρατήρησης ελέγχου θα ληφθεί με βάση την πλειοψηφία. Η παραπάνω διαδικασία αποτελεί την μεθοδολογία της μεθόδου εμφωλίασης Bagging, η οποία βασίζεται για την υλοποίησή της στα δείγματα που δημιουργούνται από την μέθοδο Bootstrap. Η μέθοδος Bagging θα αναλυθεί στο Κεφάλαιο 3 της παρούσας διπλωματικής. Στόχος της εφαρμογής της μεθόδου Bagging είναι να διερευνήσουμε εάν τα αποτελέσματα της πλειοψηφικής κατηγοριοποίησης θα είναι πιο ακριβή σε σχέση με την εφαρμογή της μεθόδου MTGS στα αρχικά δεδομένα. -16-

17 Στο πλαίσιο της διπλωματικής εργασίας, η μέθοδος Bagging θα εφαρμοστεί σε μη ισορροπημένα (imbalanced) σύνολα δεδομένων και ειδικότερα, σε σύνολα δεδομένων όπου οι υγιείς παρατηρήσεις είναι πολύ περισσότερες σε σχέση με τις μη υγιείς παρατηρήσεις. Μέσα από την εφαρμογή σε μη ισορροπημένα σύνολα δεδομένων επιδιώκουμε να μελετήσουμε την ευστάθεια της μεθόδου MTGS, κατά πόσο δηλαδή μπορεί να προβλέπει σωστά την κλάση μειοψηφίας (με τις λίγες παρατηρήσεις στο σύνολο εκπαίδευσης) παρόλο που το σύνολο των παρατηρήσεων εκπαίδευσης απαρτίζεται κυρίως από παρατηρήσεις της κλάσης πλειοψηφίας. Είναι σημαντικό για μια μέθοδο κατηγοριοποίησης να μην «μεροληπτεί» υπέρ μιας κλάσης, αλλά να προβλέπει με ακρίβεια όλες τις κλάσεις των δεδομένων. Επειδή η σωστή κατασκευή του χώρου του Mahalanobis είναι ιδιαίτερα σημαντική στη μέθοδο MTGS, θα εστιάσουμε σε μη ισορροπημένα σύνολα δεδομένων στα οποία οι υγιείς παρατηρήσεις είναι κατά πολύ περισσότερες από τις μη υγιείς παρατηρήσεις. Τέλος, ιδιαίτερα σημαντικό βήμα στη μέθοδο MTGS είναι ο καθορισμός του κατωφλίου, δηλαδή της τιμής που αποτελεί το όριο διαχωρισμού των υγιών και των μη υγιών παρατηρήσεων. Όπως έχει ήδη αναφερθεί, η κλίμακα των τιμών MD των υγιών παρατηρήσεων πρέπει να είναι μικρότερη από αυτή των μη υγιών παρατηρήσεων, ώστε να επικυρωθεί η δυνατότητα χρησιμοποίησης της κλίμακας για την πρόβλεψη άγνωστων παρατηρήσεων. Ένα ερευνητικό ερώτημα αποτελεί το κριτήριο επιλογής του κατωφλίου της μεθόδου MTGS. Στην παρούσα διπλωματική εργασία, θα διερευνήσουμε την απόδοση της μεθόδου MTGS, επιλέγοντας το κατώφλι με κριτήριο τη μεγιστοποίηση του δείκτη Youden (Youden Index). Ο δείκτης Youden, όπως και οι τρόποι καθορισμού του κατωφλίου στην μέθοδο MTGS, αναλύονται στο Κεφάλαιο 4 αυτής της διπλωματικής. -17-

18

19 2 Διαστήματα εμπιστοσύνης Στο κεφάλαιο αυτό, θα ασχοληθούμε με τα διαστήματα εμπιστοσύνης και θα διερευνήσουμε πως αυτά έχουν χρησιμοποιηθεί στη βιβλιογραφία, καθώς και τους πιθανούς τρόπους υπολογισμού τους. 2.1 Ορισμός διαστήματος εμπιστοσύνης Αρχικά, θα επιχειρήσουμε να αποσαφηνίσουμε τον όρο του διαστήματος εμπιστοσύνης. Η εκτίμηση ενός διαστήματος εμπιστοσύνης αποτελεί κομμάτι της στατιστικής συμπερασματολογίας (statistical inference). Η στατιστική συμπερασματολογία είναι ένα σύνολο από διαδικασίες με τις οποίες προσπαθούμε να εκτιμήσουμε παραμέτρους του πληθυσμού χρησιμοποιώντας το μέγεθος του δείγματος και στατιστικά μέτρα που υπολογίζονται από το δείγμα. Η διαφορά, λοιπόν, των στατιστικών μέτρων (statistics) από τις παραμέτρους (parameters) είναι ότι τα πρώτα υπολογίζονται από το δείγμα, ενώ οι δεύτερες υπολογίζονται από τον πληθυσμό. Για να μπορέσουμε να βγάλουμε συμπεράσματα για τον πληθυσμό, βασιζόμαστε στα στατιστικά μέτρα προκειμένου να εκτιμήσουμε τις παραμέτρους του πληθυσμού που μας ενδιαφέρουν. Για παράδειγμα, αν θέλουμε να μάθουμε το μέσο εισόδημα των Ελλήνων, για να υπολογίσουμε το μέσο εισόδημα του πληθυσμού πρέπει να ρωτήσουμε και να συλλέξουμε δεδομένα για το εισόδημα όλου του πληθυσμού. Ωστόσο για να εκτιμήσουμε το μέσο εισόδημα των Ελλήνων, αρκεί να διαλέξουμε ένα αντιπροσωπευτικό δείγμα του πληθυσμού και με βάση το μέσο εισόδημα του δείγματος να συμπεράνουμε σχετικά με το μέσο εισόδημα όλων των Ελλήνων. Όταν εκτιμούμε μια παράμετρο του πληθυσμού, προβαίνουμε είτε σε σημειακές εκτιμήσεις (point estimation) είτε σε εκτιμήσεις διαστημάτων εμπιστοσύνης (confidence interval estimation). Στην πρώτη περίπτωση αναφερόμαστε στην εκτίμηση μιας μόνο τιμής, δηλαδή στην τιμή που εκτιμάται ότι αποτελεί την καλύτερη πρόβλεψη για την παράμετρο του πληθυσμού. Στην δεύτερη περίπτωση, αναφερόμαστε σε εκτίμηση του εύρους τιμών μιας παραμέτρου του πληθυσμού. Συνήθως τα διαστήματα εμπιστοσύνης έχουν δύο άκρα, τα οποία αναφέρονται ως κάτω και άνω όριο εμπιστοσύνης. Υπάρχουν -19-

20 τα διαστήματα εμπιστοσύνης με ένα άκρο, τα οποία είναι χρήσιμα όταν μας ενδιαφέρει το ποσοστό των δειγμάτων για τα οποία η τιμή της παραμέτρου είναι μικρότερη ή μεγαλύτερη από το άκρο. Ωστόσο τα διαστήματα εμπιστοσύνης με ένα άκρο δεν χρησιμοποιούνται πολύ και πιο διαδεδομένα είναι τα διαστήματα εμπιστοσύνης με δύο άκρα. Μια εκτίμηση διαστήματος είναι συχνά πιο χρήσιμη από την σημειακή εκτίμηση. Και τα δύο μαζί, η εκτίμηση διαστήματος εμπιστοσύνης και η σημειακή εκτίμηση, μας υποδεικνύουν ποια είναι η καλύτερη πρόβλεψη για την τιμή μιας παραμέτρου, καθώς και πόσο μεγάλο μπορεί να είναι το λάθος αυτής της πρόβλεψης [2]. Ουσιαστικά, με την εκτίμηση διαστήματος για μια παράμετρο του πληθυσμού, υπολογίζουμε ένα διάστημα που περιγράφει το εύρος των τιμών που μπορεί να πάρει η παράμετρος με κάποια πιθανότητα. Το διάστημα εμπιστοσύνης (confidence interval) ορίζεται ως ένα εύρος τιμών μέσα στο οποίο έχουμε εμπιστοσύνη ότι θα «πέσει» η άγνωστη παράμετρος. Η εμπιστοσύνη εκφράζεται με μια πιθανότητα, συνήθως 90%, 95% ή 99%. Για παράδειγμα, διάστημα εμπιστοσύνης 99% σημαίνει ότι είμαστε 99% σίγουροι ότι η πραγματική τιμή της παραμέτρου θα βρίσκεται εντός του διαστήματος εμπιστοσύνης. Εναλλακτικά, είναι σαν να λέμε ότι το 99% των παρατηρούμενων διαστημάτων εμπιστοσύνης θα έχουν την πραγματική τιμή της παραμέτρου. Το διάστημα εμπιστοσύνης είναι παρατηρούμενο διάστημα, δηλαδή υπολογίζεται από τις παρατηρήσεις του δείγματος και μπορεί να διαφέρει από δείγμα σε δείγμα. Το επίπεδο εμπιστοσύνης καθορίζει πόσο συχνά το παρατηρούμενο διάστημα περιλαμβάνει την παράμετρο ενδιαφέροντος. Συγκεκριμένα, το επίπεδο εμπιστοσύνης σημαίνει ότι, εάν τα διαστήματα εμπιστοσύνης υπολογίζονται για πολλές διαφορετικές αναλύσεις δεδομένων από επαναλαμβανόμενα (και πιθανώς διαφορετικά) πειράματα, το ποσοστό των διαστημάτων που θα περιλαμβάνουν την πραγματική τιμή της παραμέτρου θα ταιριάζει με το επίπεδο εμπιστοσύνης. Το επίπεδο εμπιστοσύνης ορίζεται από τον ερευνητή. Αν πραγματοποιηθεί ο αντίστοιχος έλεγχος υπόθεσης, το επίπεδο εμπιστοσύνης είναι το συμπλήρωμα του αντίστοιχου επιπέδου σημαντικότητας, δηλαδή ένα 95% διάστημα εμπιστοσύνης συνεπάγεται επίπεδο σημαντικότητας. Στην πράξη, συνήθως τα διαστήματα εμπιστοσύνης αναφέρονται σε 95% επίπεδο εμπιστοσύνης. Τα διαστήματα εμπιστοσύνης σχετίζονται σημαντικά με τους στατιστικούς ελέγχους υποθέσεων. Για παράδειγμα, για την εκτίμηση μιας παραμέτρου μπορούμε να ελέγξουμε την μηδενική υπόθεση ελέγχοντας εάν το διάστημα εμπιστοσύνης -20-

21 περιλαμβάνει το 0. Εάν το διάστημα εμπιστοσύνης περιλαμβάνει το 0, η μηδενική υπόθεση μπορεί να γίνει δεκτή και απορρίπτεται η εναλλακτική υπόθεση. Συνεπώς, θέτοντας τιμή ελέγχου 0 και ορίζοντας το επίπεδο εμπιστοσύνης, παίρνουμε το αντίστοιχο διάστημα εμπιστοσύνης για την τιμή της παραμέτρου. Προφανώς, το εύρος των διαστημάτων εμπιστοσύνης αυξάνει, όσο αυξάνει το επίπεδο εμπιστοσύνης, καθώς όσο πιο σίγουροι θέλουμε να είμαστε για την εκτίμηση μιας παραμέτρου τόσο αναμένουμε να αυξηθεί το εύρος του διαστήματος εμπιστοσύνης. 2.2 Μέθοδος Bootstrap και διαστήματα εμπιστοσύνης Η μέθοδος Bootstrap είναι μια μέθοδος δειγματοληψίας (resampling method), που δημιουργήθηκε το 1979 από τον Efron [3]. Οι μέθοδοι δειγματοληψίας υπολογίζουν την ακρίβεια στατιστικών μέτρων του δείγματος, προκειμένου να παρέχουν εκτιμήσεις για την πραγματική τιμή μιας παραμέτρου του πληθυσμού. Η μέθοδος Bootstrap βασίστηκε στη μέθοδο Jackknife, η οποία είναι και αυτή μια μέθοδος δειγματοληψίας. Η μέθοδος Jackknife ονομάστηκε έτσι από τον Tukey (1958) και χρησιμοποιείται κυρίως για την εκτίμηση της διασποράς και της μεροληψίας σε ένα σύνολο δεδομένων. Η μέθοδος Jackknife προβαίνει στην εκτίμηση μιας παραμέτρου ενός συνόλου δεδομένων μεγέθους στατιστικού μέτρου από δείγματα μεγέθους υπολογίζοντας την τιμή του αντίστοιχου, στα οποία κρατάει όλες τις παρατηρήσεις του αρχικού συνόλου δεδομένων αφήνοντας εκτός κάθε φορά μία διαφορετική παρατήρηση. Αφού υπολογίσει τα στατιστικά μέτρα για τα δείγματα, υπολογίζει τον μέσο όρο, ο οποίος αποτελεί και την τελική εκτίμηση της μεθόδου για την παράμετρο. Η μέθοδος Jackknife αποτελεί μια γραμμική προσέγγιση της μεθόδου Bootstrap. Αντίστοιχα με την Jackknife, η μέθοδος Bootstrap χρησιμοποιείται για να αποδώσει μέτρα απόδοσης, όπως η μεροληψία, η διασπορά, διαστήματα εμπιστοσύνης, σφάλμα πρόβλεψης κ.α., σε εκτιμήσεις δειγμάτων. Δηλαδή, παρέχει εκτιμήσεις για διάφορες παραμέτρους ενός συνόλου δεδομένων, υπολογίζοντας τις τιμές των στατιστικών μέτρων από τα δείγματα που δημιουργεί. Ωστόσο η δειγματοληψία στη μέθοδο Bootstrap γίνεται με διαφορετικό τρόπο από τη μέθοδο Jackknife. Ο τρόπος με τον οποίο γίνεται η δειγματοληψία στη μέθοδο Bootstrap θα παρουσιαστεί εκτενώς στην συνέχεια του κεφαλαίου. -21-

22 Στη συνέχεια, αφού παρουσιάσουμε τα βασικά χαρακτηριστικά της μεθόδου Bootstrap, θα εστιάσουμε στον τρόπο με τον οποίο μας βοηθά να υπολογίζουμε διαστήματα εμπιστοσύνης για παραμέτρους του πληθυσμού που μας ενδιαφέρουν Η μέθοδος Bootstrap Βασική έννοια της μεθόδου Bootstrap αποτελεί το bootstrap δείγμα (bootstrap sample). Έστω η εμπειρική κατανομή, στην οποία θεωρούμε ότι οι παρατηρούμενες τιμές, έχουν την ίδια πιθανότητα. Ένα bootstrap δείγμα ορίζεται ως ένα τυχαίο δείγμα μεγέθους που συλλέγεται από την κατανομή και αποτελείται από τις παρατηρήσεις. Η επισήμανση με σημαίνει ότι το έχει προκύψει με δειγματοληψία (resampling) και δεν αποτελεί το πραγματικό σύνολο δεδομένων. Σχηματικά, ισχύει: (2) Εναλλακτικά, μπορούμε να πούμε ότι οι παρατηρήσεις αποτελούν ένα τυχαίο δείγμα μεγέθους που προέκυψε με επανατοποθέτηση (replacement) από τον πληθυσμό των αντικειμένων. Αυτό σημαίνει ότι οι παρατηρήσεις του bootstrap δείγματος δεν αντιστοιχούν απαραίτητα στις αντίστοιχες παρατηρήσεις του πληθυσμού, για παράδειγμα η παρατήρηση μπορεί να αντιστοιχεί σε οποιαδήποτε από τις παρατηρήσεις του πληθυσμού. Για παράδειγμα, μπορεί να ισχύει,,,,. Συνεπώς, το bootstrap σύνολο δεδομένων αποτελείται από τις παρατηρήσεις του αρχικού συνόλου δεδομένων, ωστόσο οι αρχικές παρατηρήσεις μπορούν να συμμετέχουν στο bootstrap σύνολο δεδομένων μία, δύο ή περισσότερες φορές ή και να μην συμμετέχουν καθόλου σε αυτό [2]. Ας εξετάσουμε αρχικά την περίπτωση όπου θέλουμε να πάρουμε ένα μόνο δείγμα από τα δεδομένα. Έστω ότι το ζητούμενο είναι να πάρουμε ένα δείγμα μεγέθους από μια τελείως απροσδιόριστη κατανομή πιθανοτήτων : (3) Έστω ως συμβολίζουμε το τυχαίο δείγμα και ως τις παρατηρούμενες τιμές κάθε παρατήρησης. Το πρόβλημα το οποίο θέλουμε να επιλύσουμε είναι το ακόλουθο. Δοθείσης μίας τυχαίας μεταβλητής, η οποία πιθανώς εξαρτάται τόσο από το όσο και από την άγνωστη κατανομή, θέλουμε να υπολογίσουμε την κατανομή δειγματοληψίας (sampling distribution) για -22-

23 την με βάση τις παρατηρούμενες τιμές των. Ο όρος κατανομή δειγματοληψίας αναφέρεται στην κατανομή πιθανοτήτων ενός συγκεκριμένου στατιστικού μέτρου που βασίζεται σε ένα τυχαίο δείγμα. Οι κατανομές δειγματοληψίας είναι πολύ σημαντικές στη στατιστική συμπερασματολογία, καθώς μας επιτρέπουν να προβαίνουμε σε αναλύσεις βασισμένοι στην κατανομή δειγματοληψίας ενός συγκεκριμένου στατιστικού μέτρου και όχι στην από κοινού κατανομή πιθανοτήτων για όλες τις επιμέρους τιμές του δείγματος. Τα βήματα της μεθόδου Bootstrap για την επίλυση του παραπάνω προβλήματος είναι τα εξής: 1. Κατασκευάζουμε την κατανομή πιθανοτήτων του δείγματος, θεωρώντας πιθανότητα για κάθε σημείο. 2. Αφού έχει δημιουργηθεί η, κληρώνουμε ένα τυχαίο δείγμα μεγέθους από την. Έστω: (4) Το παραπάνω αποτελεί το bootstrap δείγμα με παρατηρούμενες τιμές. Όπως έχουμε αναφέρει και νωρίτερα, οι τιμές του επιλέγονται με επανατοποθέτηση από το σύνολο { }. 3. Προσεγγίζουμε την κατανομή δειγματοληψίας για τη μεταβλητή χρησιμοποιώντας την bootstrap κατανομή ( ), δηλαδή από την κατανομή για την που προκύπτει από τον τυχαίο μηχανισμό που παρουσιάζεται στην Εξίσωση (4), όπου το διατηρείται σταθερό και ίσο με τις παρατηρούμενες τιμές του. Το θέμα, λοιπόν, είναι η κατανομή, η οποία υπολογίζεται από τα παρατηρούμενα, να ισούται με την επιθυμητή κατανομή, όταν. Η bootstrap κατανομή θέλουμε να προσεγγίζει την κατανομή δειγματοληψίας. Ουσιαστικά, η κατανομή δειγματοληψίας είναι ο τυχαίος τρόπος επιλογής των παρατηρήσεων του δείγματος και στον οποίο κάθε παρατήρηση έχει την ίδια πιθανότητα συμμετοχής στο δείγμα. Το ζητούμενο είναι να είναι πολύ κοντά οι τιμές τους, καθώς η κατανομή αποτελεί το κεντρικό σημείο των διάφορων πιθανών. Υπάρχουν τρεις μέθοδοι για τον υπολογισμό της bootstrap κατανομής: 1. Απευθείας θεωρητικός υπολογισμός. -23-

24 2. Προσέγγιση Monte Carlo της bootstrap κατανομής. Παράγονται επαναλαμβανόμενες παρατηρούμενες τιμές των παίρνοντας τυχαία δείγματα μεγέθους από την, έστω, και το ιστόγραμμα των αντίστοιχων τιμών, θεωρείται ως η προσέγγιση της πραγματικής bootstrap κατανομής. 3. Μέθοδοι επέκτασης σειρών Taylor, οι οποίες χρησιμοποιούνται για να βρούμε τη μέση τιμή και τη διασπορά της bootstrap κατανομής [3]. Παρατηρούμε ότι με τη μέθοδο Bootstrap ουσιαστικά «ανακυκλώνουμε» τα αρχικά δεδομένα μας. Αποτελεί, συνεπώς, μια αυτοσυντηρούμενη διαδικασία που εκτελείται χωρίς εξωτερική βοήθεια, αφού για να την εκτελέσουμε στηριζόμαστε μόνο στα αρχικά δεδομένα. Ο όρος bootstrap αντιστοιχεί στην λαβή που έχουν οι ψηλές μπότες, τις οποίες χρησιμοποιούμε για να τραβήξουμε τις μπότες προς τα πάνω και να τις φορέσουμε πιο εύκολα. Μεταφορικά, αναφέρεται στην προσπάθεια βελτίωσης του ατόμου, η οποία βασίζεται μόνο στις δικές του δυνάμεις. Αντίστοιχα, στην στατιστική ο όρος bootstrap σημαίνει πως βασιζόμαστε μόνο στα δεδομένα και όχι για παράδειγμα, σε κάποια μαθηματική θεωρία πιθανοτήτων. Ο λόγος για τον οποίο η μέθοδος Bootstrap λειτουργεί, είναι επειδή η δειγματοληψία με επανατοποθέτηση προσομοιάζει τον τρόπο με τον οποίο παίρνουμε δείγματα από έναν πληθυσμό. Έτσι, η μέθοδος παρέχει σημαντικές πληροφορίες για την διακύμανση των δειγμάτων και για το δειγματοληπτικό σφάλμα [4] Bootstrap διαστήματα εμπιστοσύνης Πολλές από τις αρχικές βιβλιογραφικές αναφορές στη μέθοδο Bootstrap, μελέτησαν την δεύτερη τάξη ακρίβειας των εκτιμήσεών της. Η τάξη ακρίβειας μιας μεθόδου αναφέρεται στην ακρίβεια με την οποία προσεγγίζονται οι άγνωστες παρατηρήσεις. Για παράδειγμα, εάν ένας όρος μιας μεθόδου προσεγγίζεται σωστά, έχει επιτευχθεί ακρίβεια πρώτης τάξης. Εάν και ο δεύτερος όρος της προσεγγίζεται σωστά, τότε έχει επιτευχθεί ακρίβεια δεύτερης τάξης κ. ο. κ. Η διερεύνηση της ακρίβειας δεύτερης τάξης των εκτιμήσεων της μεθόδου Bootstrap έδειξε ότι η μέθοδος μπορούσε να παρέχει καλά προσεγγιστικά διαστήματα εμπιστοσύνης [5]. Ας δούμε πως γίνεται ο υπολογισμός των διαστημάτων εμπιστοσύνης με χρήση της μεθόδου Bootstrap. Στο σημείο αυτό σημειώνουμε πως τα διαστήματα εμπιστοσύνης που υπολογίζονται με τη μέθοδο Bootstrap είναι προσεγγιστικά διαστήματα -24-

25 εμπιστοσύνης και όχι ακριβή διαστήματα εμπιστοσύνης [6]. Τα ακριβή διαστήματα εμπιστοσύνης υπολογίζονται όταν τα δεδομένα ακολουθούν την κανονική κατανομή, ενώ τα προσεγγιστικά όταν υποθέτουμε ότι ακολουθούν κανονική κατανομή. Έστω ότι έχουμε ένα τυχαίο δείγμα από μια άγνωστη κατανομή πιθανοτήτων για το οποίο θέλουμε να υπολογίσουμε μια παράμετρο ενδιαφέροντος για τα. Για αυτόν τον λόγο, υπολογίζουμε έναν εκτιμητή από τα, που ανήκουν στα bootstrap δείγματα. Η εκτίμηση διαστήματος είναι πιο κατατοπιστική από τη σημειακή εκτίμηση, οπότε στόχος μας είναι ο υπολογισμός ενός διαστήματος εμπιστοσύνης για την παράμετρο. Ένας τρόπος για να αποδοθεί ένα προσεγγιστικό διάστημα εμπιστοσύνης σε μια παράμετρο ενδιαφέροντος είναι χρησιμοποιώντας τα τυπικά σφάλματα. Με τον όρο τυπικό σφάλμα (standard error) αναφερόμαστε στην τυπική απόκλιση της κατανομής δειγματοληψίας ενός στατιστικού στοιχείου. Τα τυπικά σφάλματα χρησιμοποιούνται συχνά για τον προσδιορισμό της στατιστικής ακρίβειας. Εάν υπολογίσουμε από τα δείγματα τον εκτιμητή του στατιστικού μέτρου που μας ενδιαφέρει και τον εκτιμητή του τυπικού σφάλματος, μπορούμε να βρούμε το διάστημα εμπιστοσύνης για την παράμετρο υποθέτοντας κανονική κατανομή. Υποθέτουμε κανονική κατανομή, καθώς στις περισσότερες περιπτώσεις όταν το μέγεθος του δείγματος αυξάνει, η κατανομή του εκτιμητή γίνεται όλο και πιο κανονική, με μέση τιμή κοντά στο και διασπορά κοντά στο, η οποία παριστάνεται ως ή ισοδύναμα: (5) Ο τρόπος υπολογισμού του διαστήματος εμπιστοσύνης με βάση τους εκτιμητές και και με υπόθεση κανονικής κατανομής φαίνεται στην Εξίσωση (6), η οποία είναι συνήθως σωστή για γενικά μοντέλα πιθανοτήτων, καθώς αυξάνεται το μέγεθος των δεδομένων: (6) όπου ο αριθμός προκύπτει από τον πίνακα τυπικής κανονικής κατανομής για το αντίστοιχο επίπεδο σημαντικότητας (significance level) [2]. Το επίπεδο σημαντικότητας μετράει πόσο συχνά η τιμή της παραμέτρου δεν θα περιλαμβάνεται στο διάστημα εμπιστοσύνης. Για παράδειγμα, ένα 5% επίπεδο σημαντικότητας σημαίνει ότι η τιμή που εκτιμούμε για την παράμετρο δεν θα είναι σωστή στο 5% των περιπτώσεων. Το επίπεδο εμπιστοσύνης (confidence level) είναι το ποσοστό των φορών -25-

26 που η εκτίμηση είναι σωστή. Για παράδειγμα, ένα επίπεδο εμπιστοσύνης της τάξης του 95% σημαίνει ότι στο 95% των περιπτώσεων το διάστημα εμπιστοσύνης που θα δημιουργηθεί θα περιλαμβάνει την πραγματική τιμή της παραμέτρου. Τέλος, η πιθανότητα κάλυψης (coverage probability) ενός διαστήματος εμπιστοσύνης ισούται με, δηλαδή εκφράζει ό,τι και το επίπεδο εμπιστοσύνης αλλά εκφρασμένο σε πιθανότητα. Η μέθοδος Bootstrap χρησιμοποιείται για να αποδώσει καλύτερα διαστήματα εμπιστοσύνης από αυτά που προκύπτουν από την υπόθεση κανονικής κατανομής. Για να υπολογίσουμε τα bootstrap διαστήματα εμπιστοσύνης, υπολογίζουμε το στατιστικό μέτρο που μας ενδιαφέρει, για παράδειγμα την συσχέτιση μεταξύ δύο συγκεκριμένων μεταβλητών, για όλα τα bootstrap δείγματα. Στη συνέχεια, για τον υπολογισμό του διαστήματος εμπιστοσύνης για την αντίστοιχη παράμετρο του πληθυσμού, χρησιμοποιούμε την έννοια του εκατοστημορίου ή εκατοστιαίου σημείου (percentile). Το -οστό εκατοστημόριο ενός συνόλου είναι εκείνη η τιμή η οποία, όταν οι τιμές διαταχθούν σε αύξουσα σειρά, έχει από αριστερά της το % των παρατηρήσεων και από δεξιά της το υπόλοιπο % των παρατηρήσεων. Αφού έχουμε υπολογίσει τις τιμές του στατιστικού μέτρου που μας ενδιαφέρει για όλα τα δείγματα της μεθόδου Bootstrap, στη συνέχεια υπολογίζουμε το 2,5 και το 97,5 εκατοστημόριο. Η τιμή του 2,5 εκατοστημορίου μας δίνει την τιμή, από την οποία είναι μικρότερες το 2,5% των παρατηρήσεων και αντίστοιχα, το 97,5 εκατοστημόριο την τιμή, κάτω από την οποία βρίσκεται το 97,5% των παρατηρήσεων. Συνεπώς, το διάστημα με κάτω άκρο την τιμή του 2,5 εκατοστημορίου και άνω άκρο την τιμή του 97,5 εκατοστημορίου αντιστοιχεί στο διάστημα μέσα στο οποίο βρίσκεται η τιμή της παραμέτρου για το 95% των παρατηρήσεων, δηλαδή για το 95% των bootstrap δειγμάτων. Το διάστημα αυτό αποτελεί το 95% bootstrap διάστημα εμπιστοσύνης για την παράμετρο που μας ενδιαφέρει και ακολουθεί τα εκατοστημόρια της κατανομής δειγματοληψίας [4] Αριθμός bootstrap δειγμάτων Μία σημαντική παράμετρος της μεθόδου Bootstrap είναι ο αριθμός των δειγμάτων που απαιτούνται προκειμένου να υπολογίσουμε τον εκτιμητή του στατιστικού μέτρου που μας ενδιαφέρει και στη συνέχεια, να υπολογίσουμε σωστά το διάστημα εμπιστοσύνης για την παράμετρο του αρχικού συνόλου δεδομένων. Στην ενότητα αυτή, θα διερευνήσουμε αυτό ακριβώς το θέμα εξετάζοντας την αντίστοιχη βιβλιογραφία. -26-

27 Έστω είναι ο αριθμός των επαναλήψεων της μεθόδου Bootstrap, δηλαδή ο αριθμός των δειγμάτων που επιλέγουμε τυχαία με επανατοποθέτηση από το αρχικό σύνολο δεδομένων, και το ζητούμενο είναι να υπολογίσουμε το τυπικό σφάλμα. Ο ιδανικός bootstrap εκτιμητής (ideal bootstrap estimate) προκύπτει όταν, οπότε και ο εκτιμητής ισούται με τον εκτιμητή που προκύπτει από τα παρατηρούμενα δεδομένα της εμπειρικής κατανομής. Ο απαιτούμενος υπολογιστικός χρόνος εξαρτάται, κυρίως, από τον χρόνο που απαιτείται προκειμένου να δημιουργηθούν οι επαναλήψεις της μεθόδου Bootstrap και αυξάνεται γραμμικά με την αύξηση του. Όμως, όταν οι επαναλήψεις της μεθόδου Bootstrap γίνονται με βάση την μέθοδο Monte Carlo, δηλαδή με τυχαία επιλογή των παρατηρήσεων από το αρχικό σύνολο δεδομένων με επανατοποθέτηση, ο αριθμός των επαναλήψεων πρέπει να είναι πεπερασμένος και συνήθως, όσο μικρότερος είναι τόσο καλύτερα από άποψη κόστους [7]. Ο πεπερασμένος αριθμός των δειγμάτων της μεθόδου Bootstrap συνεπάγεται δύο ανεπιθύμητες συνέπειες. Η πρώτη είναι ότι το αποτέλεσμα μπορεί να επηρεαστεί από την ακολουθία τυχαίων αριθμών με την οποία δημιουργούνται τα δείγματα. Η δεύτερη είναι ότι, όταν ισχύει, πάντα θα έχουμε κάποια απώλεια δύναμης, όπως αποδεικνύουν οι Hall και Titterington [8], που εξέτασαν την επίδραση του αριθμού των επαναλήψεων στην δύναμη των ελέγχων Monte Carlo. Η μέθοδος Monte Carlo χρησιμοποιείται, όπως είδαμε, για την κατασκευή των τυχαίων δειγμάτων της μεθόδου Bootstrap, οπότε αυτές οι ανεπιθύμητες συνέπειες πρέπει να λαμβάνονται υπόψη στην επιλογή του αριθμού των bootstrap δειγμάτων. Οι Davidson και MacKinnon [9] προτείνουν μια διαδικασία ενδογενούς προελέγχου για τον προσδιορισμό του αριθμού των επαναλήψεων, η οποία βασίζεται μόνο στα δεδομένα. Συνοψίζοντας, το ερώτημα είναι ποιος είναι ο ελάχιστος αριθμός επαναλήψεων της μεθόδου Bootstrap, ώστε να μας παρέχει ικανοποιητικές εκτιμήσεις. Η απάντηση, σύμφωνα με τους Efron και Tibshirani [2], εξαρτάται σημαντικά από την παράμετρο που θέλουμε να εκτιμήσουμε. Για την εκτίμηση του τυπικού σφάλματος έχουν καταλήξει σε δύο συμπεράσματα: 1. Ακόμα και ένας μικρός αριθμός επαναλήψεων, όπως, είναι συνήθως αρκετά κατατοπιστικός. Για να υπολογίσουμε έναν καλό εκτιμητή αριθμός επαναλήψεων είναι συνήθως αρκετός., ένας -27-

28 2. Πολύ σπάνια απαιτείται αριθμός πειραμάτων μεγαλύτερος από για την εκτίμηση του τυπικού σφάλματος. Ωστόσο, τα παραπάνω αφορούν την εκτίμηση του τυπικού σφάλματος με τη μέθοδο Bootstrap. Στην εκτίμηση του τυπικού σφάλματος παρατηρείται μικρή μεροληψία (bias) και μικρή τυπική απόκλιση. Όταν το ζητούμενο είναι η εκτίμηση διαστημάτων εμπιστοσύνης, απαιτούνται πολύ υψηλότερες τιμές για τον αριθμό των επαναλήψεων [2]. Στην περίπτωση της μεθόδου Bootstrap με Monte Carlo δειγματοληψία, εξετάζουμε την επίδραση του αριθμού των επαναλήψεων στην ακρίβεια των διαστημάτων εμπιστοσύνης με την ακόλουθη μεθοδολογία. Αρχικά, εκτελούμε τη μέθοδο Bootstrap για έναν συγκεκριμένο αριθμό επαναλήψεων και υπολογίζουμε τη συνάρτηση αθροιστικής κατανομής από τα bootstrap δείγματα. Έστω: { } (7) Καθώς το, τότε και έχουμε την ιδανική συνάρτηση κατανομής. Έστω ότι είναι το άκρο του διαστήματος εμπιστοσύνης που προέκυψε από την σε επίπεδο σημαντικότητας. Ο συντελεστής μεταβλητότητας αποτελεί κανονικοποιημένο μέτρο της διασποράς μιας κατανομής συχνοτήτων. Ο ακόλουθος τύπος για τον υπό συνθήκη συντελεστή μεταβλητότητας (Coefficient of variation-cv) για το υποθέτει ότι η κατανομή είναι περίπου κανονική και ότι τα και είναι γνωστά: { } { } (8) όπου το αντιστοιχεί στον αριθμό των επαναλήψεων, το στο επίπεδο σημαντικότητας, οι κανονικοποιημένες τιμές προκύπτουν από τον πίνακα τυπικής κανονικής κατανομής και ισχύει ( ). Παρατηρούμε πως εφόσον η συνθήκη αφορά μόνο το, δηλαδή τα αρχικά δεδομένα, η μοναδική τυχαία ποσότητα στο αριστερό μέρος της Εξίσωσης (8) είναι το. Η Εξίσωση (8) μετράει την μεταβλητότητα του εξαιτίας του γεγονότος ότι εκτελούμε επαναλήψεις της μεθόδου Bootstrap και όχι άπειρο αριθμό επαναλήψεων. Όταν αυξάνεται ο αριθμός των επαναλήψεων, μειώνεται ο παραπάνω συντελεστής μεταβλητότητας και έχουμε πιο αξιόπιστες εκτιμήσεις της παραμέτρου [7]. -28-

29 2.2.4 Πλεονεκτήματα και μειονεκτήματα της μεθόδου Bootstrap Έχει, ήδη, αναφερθεί ότι η μέθοδος Bootstrap βασίστηκε στην μέθοδο Jackknife. Μεγάλο ερευνητικό ενδιαφέρον έχει εστιαστεί στην σύγκριση των δύο μεθόδων. Ο Wu [10] εξέτασε τις δύο μεθόδους στο πλαίσιο των μοντέλων παλινδρόμησης. Εφάρμοσε τις μεθόδους σε σύνολα ανεξάρτητων και ταυτόσημα κατανεμημένων (independent and identically distributed (i.i.d.)) μεταβλητών και κατέληξε στο συμπέρασμα πως οι μέθοδοι είναι ισότιμες όσον αφορά τη μείωση της μεροληψίας και την εκτίμηση της διασποράς. Ωστόσο στην εκτίμηση διαστημάτων με βάση ιστογράμματα, η μέθοδος Bootstrap ήταν ξεκάθαρα καλύτερη από την Jackknife. Αντίστοιχα, ο Efron [3] εκτελώντας κάποια παραδείγματα διαπίστωσε ότι η μέθοδος Bootstrap υπερέχει έναντι της προσέγγισης ελέγχου διασταύρωσης (cross validation) ή αλλιώς «leave-one-out». Οι Efron και Tibshirani [11] αναφέρουν πως η εκτίμηση της μεθόδου Jackknife για στατιστικά μέτρα, όπως η διάμεσος των δειγμάτων, που είναι δύσκολο να προσεγγιστούν γραμμικά, είναι σημαντικά υποδεέστερη σε σχέση με την εκτίμηση που παρέχει η μέθοδος Bootstrap. Στα πλεονεκτήματα της μεθόδου Bootstrap συγκαταλέγεται το γεγονός ότι ο υπολογισμός της bootstrap κατανομής υλοποιείται εύκολα σε υπολογιστή. Όσα είναι τα δείγματα που θα πάρουμε, τόσες φορές μεγαλύτερος θα είναι ο υπολογιστικός χρόνος που θα χρειαστεί σε σχέση με τον χρόνο για τον υπολογισμό για το αρχικό σύνολο δεδομένων. Ακόμα, η μέθοδος Bootstrap επιτρέπει μετασχηματισμούς των δεδομένων, οι οποίοι βοηθούν τη μέθοδο να δίνει πιο χρήσιμα αποτελέσματα, αν όχι πιο ακριβή. Επιπρόσθετα, ένα σημαντικό πλεονέκτημα της μεθόδου είναι ότι μπορεί να χρησιμοποιηθεί για οποιονδήποτε εκτιμητή, ανεξαρτήτως πολυπλοκότητας [3]. Αυτή η ευελιξία της μεθόδου αποτελεί σημαντικό πλεονέκτημα, καθώς σημαίνει ότι ακόμα και σε περιπτώσεις όπου δεν μπορεί να εφαρμοστεί καμία προσέγγιση βασισμένη σε θεωρία πιθανοτήτων, η μέθοδος Bootstrap μας δίνει τη δυνατότητα να υπολογίσουμε διαστήματα εμπιστοσύνης [4]. Επιπλέον, η μέθοδος δεν βασίζεται σε ασυμπτωτικά αποτελέσματα, δεν προβαίνει δηλαδή σε εκτιμήσεις θεωρώντας ότι το μέγεθος του δείγματος αυξάνεται απεριόριστα, τείνει δηλαδή στο άπειρο, ώστε να μπορούμε να υποθέσουμε κανονική κατανομή. Το γεγονός ότι η μέθοδος Bootstrap δεν βασίζεται στην υπόθεση κανονικής κατανομής των αρχικών δεδομένων αποτελεί σημαντικό πλεονέκτημα. Επίσης δεν προβαίνει σε θεωρητικούς υπολογισμούς, όπως το κεντρικό οριακό θεώρημα (central -29-

30 limit theorem), σε υπολογισμούς τυπικών αποκλίσεων κ.α. Συνεπώς, στα πλεονεκτήματα της μεθόδου μπορούμε να συμπεριλάβουμε ότι μπορεί να χρησιμοποιηθεί και από άτομα που δεν έχουν μαθηματικές γνώσεις, καθώς βασίζεται σε απλά βήματα και δεν χρειάζεται ειδικές γνώσεις προκειμένου να γίνει κατανοητή [4]. Επιπρόσθετα, ο Wood [4] συγκρίνει τα διαστήματα εμπιστοσύνης που παρέχει η μέθοδος Bootstrap με τον έλεγχο μηδενικής υπόθεσης. Ο έλεγχος μηδενικής υπόθεσης παρέχει πληροφορία για την σημαντικότητα της συσχέτισης και όχι ένα διάστημα εμπιστοσύνης για την συσχέτιση. Θα δείξει, δηλαδή εάν υπάρχει ή δεν υπάρχει σημαντική συσχέτιση και εάν είναι θετική ή αρνητική, αλλά δεν θα μας δώσει κάποια πληροφορία σχετικά με το πόσο μεγάλη είναι η συσχέτιση όπως μας δίνει το bootstrap διάστημα εμπιστοσύνης. Ο Efron [3] υποστηρίζει ότι η μοναδικότητα της μεθόδου Bootstrap να υπολογίζει την κατανομή δειγματοληψίας από τις παρατηρούμενες τιμές των δειγμάτων για να εκτιμήσει την πραγματική κατανομή ίσως έχει ως αποτέλεσμα η μέθοδος να παρέχει καλύτερη απόδοση σε μικρού μεγέθους δείγματα, καθώς η ομοιότητα των κατανομών (δειγματοληψίας και πραγματικής) αποτελεί ισχυρότερη ιδιότητα έναντι της ασυμπτωτικής ισοδυναμίας. Επίσης, ίσως έχει καλύτερη απόδοση, γιατί τα δείγματα που δημιουργεί έχουν το ίδιο μέγεθος με το αρχικό σύνολο δεδομένων. Ο Singh [12] εξέτασε την σύγκλιση (convergence) των προσεγγιστικών εκτιμήσεων της μεθόδου Bootstrap. Έδειξε πως η προσέγγιση με υπόθεση κανονικής κατανομής είναι καλύτερη από την αντίστοιχη προσέγγιση της μεθόδου Bootstrap, όταν είναι γνωστή η εμπειρική κατανομή, δηλαδή η κατανομή των δεδομένων. Ωστόσο στην πράξη είναι πολύ σπάνιο να γνωρίζουμε την κατανομή που ακολουθούν τα δεδομένα. Στην περίπτωση που δεν γνωρίζουμε την εμπειρική κατανομή και υποθέτουμε ότι ισούται με την κατανομή των δειγμάτων, η προσέγγιση της μεθόδου Bootstrap είναι εξίσου καλή με την προσέγγιση κανονικής κατανομής. Ως μειονέκτημα της μεθόδου μπορούμε να αναφέρουμε ότι δεν ενδείκνυται για μικρά δείγματα ή για δείγματα στα οποία η συσχέτιση είναι κοντά στη μονάδα. Για παράδειγμα, αν ο πληθυσμός είναι πολύ μικρός, 5 άτομα αντί για 100, δεν είναι λογικό να προβούμε σε δημιουργία δειγμάτων με σκοπό να εκτιμήσουμε τον αρχικό πληθυσμό. Επίσης, η μέθοδος δεν ενδείκνυται για περιπτώσεις όπου μας ενδιαφέρει να εκτιμήσουμε την καλύτερη τιμή μιας παραμέτρου (έστω στο παράδειγμά μας η καλύτερη τιμή σημαίνει η μικρότερη τιμή). Το πρόβλημα στη συγκεκριμένη περίπτωση -30-

31 είναι ότι η μικρότερη τιμή του πληθυσμού πρέπει να είναι μικρότερη ή ίση με την ελάχιστη τιμή των δειγμάτων, συνεπώς δεν θα μας ήταν χρήσιμο ένα συμμετρικό διάστημα εμπιστοσύνης για την ελάχιστη τιμή του στατιστικού μέτρου των δειγμάτων [4] Εφαρμογές μεθόδου Bootstrap στη βιβλιογραφία Έχουν πραγματοποιηθεί πολλές ερευνητικές προσεγγίσεις της μεθόδου Bootstrap για τον υπολογισμό διαστημάτων εμπιστοσύνης σε διάφορους επιστημονικούς κλάδους. Στην ενότητα αυτή, θα αναφέρουμε μερικές τέτοιες προσεγγίσεις, με έμφαση στις πιο πρόσφατες. Η μέθοδος Bootstrap έχει χρησιμοποιηθεί συχνά στη βιβλιογραφία για τον υπολογισμό διαστημάτων εμπιστοσύνης και την κατασκευή περιοχών εμπιστοσύνης (confidence regions). Οι περιοχές εμπιστοσύνης αποτελούν μια πολυδιάστατη γενίκευση των διαστημάτων εμπιστοσύνης. Είναι ένα σύνολο σημείων σε έναν χώρο πολλών διαστάσεων, τα οποία συχνά παριστάνονται ως ελλείψεις γύρω από ένα σημείο που αποτελεί την εκτίμηση της λύσης ενός προβλήματος. Μια από τις πιο πρόσφατες έρευνες που χρησιμοποιούν τη μέθοδο Bootstrap για κατασκευή περιοχών εμπιστοσύνης δημοσιεύτηκε το 2014 από τους Jacoby και Armstrong [13], οι οποίοι εφάρμοσαν τη μέθοδο Bootstrap στην πολυδιάστατη κλιμάκωση (multidimensional scaling) αναπτύσσοντας, όμως, τη δικιά τους στρατηγική δειγματοληψίας. Η πολυδιάστατη κλιμάκωση αποτελεί μέθοδο για την απεικόνιση του επιπέδου της ομοιότητας διαφορετικών παρατηρήσεων ενός συνόλου δεδομένων και στόχος της είναι να δημιουργηθεί ένα γεωμετρικό μοντέλο για τα δεδομένα. Πεδίο εφαρμογής της πολυδιάστατης κλιμάκωσης είναι πολύ συχνά η πολιτική ανάλυση, με την οποία ασχολήθηκαν και οι Jacoby και Armstrong, εξετάζοντας την άποψη πολιτών για 13 πολιτικές προσωπικότητες της Αμερικής. Συγκεκριμένα, καθένας από τους 13 πολιτικούς παριστάνεται από ένα σημείο σε έναν χώρο διαστάσεων. Οι διαστάσεις δεν είναι γνωστές εκ των προτέρων, αλλά αντιστοιχούν στα διαφορετικά κριτήρια αξιολόγησης των πολιτικών που θα αναφέρουν οι συμμετέχοντες στην έρευνα. Όσο πιο μακριά βρίσκονται δύο σημεία στον χώρο, τόσο λιγότερο όμοιοι μπορούν να θεωρηθούν οι πολιτικοί στους οποίους αντιστοιχούν. Εξετάζοντας την κλίμακα των αποστάσεων μεταξύ των πολιτικών μπορεί να διαπιστωθεί εάν η σχετική θέση των πολιτικών στον χώρο δίνει κάποια πληροφορία σχετικά με τα κριτήρια των πολιτών. -31-

32 Στην πολυδιάστατη κλιμάκωση χρησιμοποιείται συχνά η μέθοδος Bootstrap για δειγματοληψία. Συγκεκριμένα, γίνεται δειγματοληψία από τα αρχικά πολυμεταβλητά δεδομένα, εκτελείται πολυδιάστατη κλιμάκωση σε κάθε δείγμα και τα αποτελέσματα κάθε δείγματος συγκρίνονται με τα αποτελέσματα των αρχικών δεδομένων σε ότι αφορά τις διαφορές (dissimilarities) μεταξύ τους, προκειμένου να διαπιστωθεί η ευστάθεια του γεωμετρικού μοντέλου. Ωστόσο, συχνά τα αντικείμενα είναι συγκεκριμένα (στο παράδειγμα οι 13 πολιτικοί), όπως και οι πηγές των δεδομένων (στο παράδειγμα οι πολίτες που συμμετέχουν στην έρευνα). Συνεπώς, με τη χρήση της μεθόδου Bootstrap υπάρχει ο κίνδυνος τα δείγματα να έχουν πολύ μικρές διαφορές μεταξύ τους. Οι Jacoby και Armstrong πρότειναν μια διαφορετική προσέγγιση στη δειγματοληψία της μεθόδου Bootstrap, σύμφωνα με την οποία πρώτο βήμα είναι η δειγματοληψία από τα αρχικά πολυδιάστατα δεδομένα και έστω είναι τα δεδομένα που συμμετέχουν στο πρώτο δείγμα. Για το πρώτο δείγμα υπολογίζονται οι διαφορές, δηλαδή οι αποστάσεις των θέσεων των αντικειμένων (εδώ των πολιτικών) στον χώρο. Στη συνέχεια, εφαρμόζεται πολυδιάστατη κλιμάκωση στο για να βρεθούν οι συντεταγμένες των σημείων που αντιστοιχούν στο πρώτο δείγμα. Εάν η παραπάνω διαδικασία επαναληφθεί φορές, θα προκύψουν λύσεις πολυδιάστατης κλιμάκωσης, με βάση τις οποίες δημιουργούνται περιοχές εμπιστοσύνης για την θέση (σημείο), που θα έχει τελικά κάθε αντικείμενο (πολιτικός) στον χώρο. Ένα ακόμα ερευνητικό πεδίο στο οποίο έχει χρησιμοποιηθεί η μέθοδος Bootstrap για τον υπολογισμό διαστημάτων εμπιστοσύνης είναι η ανάλυση ευαισθησίας (sensitivity analysis). Η ανάλυση ευαισθησίας μελετά πως η αβεβαιότητα της εξόδου ενός αριθμητικού μοντέλου μπορεί να κατανεμηθεί και να ποσοτικοποιηθεί σε καθεμία από τις εισόδους του. Οι Dubreuil et al. [14] χρησιμοποίησαν τη μέθοδο δειγματοληψίας Bootstrap σε δείκτες ευαισθησίας (sensitivity indices), οι οποίοι δημιουργούνται με τη μέθοδο Polynomial Chaos Expansion (PCE). Η μέθοδος PCE είναι μία μη δειγματοληπτική μέθοδος για την εξέταση της αβεβαιότητας ενός συστήματος. Στην εν λόγω έρευνα, η μέθοδος PCE χρησιμοποιείται για τον υπολογισμό δεικτών ευαισθησίας από την ανάλυση διασποράς ANOVA, οι οποίοι μπορούν να ποσοτικοποιήσουν την επίδραση μιας μεταβλητής ή μιας ομάδας μεταβλητών στην έξοδο του συστήματος. Ωστόσο απαιτείται ο υπολογισμός των μερικών συσχετίσεων των μεταβλητών, ο οποίος σε μερικά συστήματα δεν είναι εφικτός. Στην περίπτωση αυτή, χρησιμοποιούνται τρόποι για την προσεγγιστική εκτίμηση αυτών των μερικών -32-

33 συσχετίσεων. Οι ερευνητές χρησιμοποίησαν τη μέθοδο Bootstrap για να πάρουν δείγματα από τους δείκτες ευαισθησίας και υπολόγισαν διαστήματα εμπιστοσύνης για τη μέση τιμή και τη διασπορά τους με τη μέθοδο των εκατοστημορίων (percentiles). Στη συνέχεια, ανέπτυξαν συγκεκριμένη στρατηγική στον σχεδιασμό πειραμάτων, ώστε οι δείκτες ευαισθησίας να υπολογίζονται με συγκεκριμένη ακρίβεια και μετά από εξέταση της επίδρασης του αριθμού των bootstrap δειγμάτων στα άκρα του διαστήματος εμπιστοσύνης, επέλεξαν να πραγματοποιηθούν 700 εκτελέσεις της μεθόδου Bootstrap. Όσον αφορά μελλοντικές ερευνητικές κατευθύνσεις για τη μέθοδο Bootstrap, ο Efron [5], ο δημιουργός της μεθόδου, θεωρεί ότι πεδίο ενδιαφέροντος αποτελεί ο συνδυασμός της Μπεϋζιανής (Bayesian) μεθοδολογίας με τη μεθοδολογία της συχνολογικής συμπερασματολογίας (frequentist inference) με στόχο την αποτελεσματική διαχείριση μεγάλου όγκου δεδομένων ή ιδιαίτερα πολύπλοκων προβλημάτων, καθώς αυξάνει συνεχώς η πολυπλοκότητα των προβλημάτων που καλούνται να διερευνήσουν οι ερευνητές. Ο συνδυασμός αυτός θα καταστεί δυνατός από μεθόδους που μπορούν να υλοποιηθούν μόνο με χρήση εκτεταμένων υπολογιστικών πόρων (computer intensive methods), όπως η μέθοδος Bootstrap. -33-

34

35 3 Η μέθοδος Bagging Στο κεφάλαιο αυτό, θα γίνει αναφορά στη μέθοδο εμφωλίασης Bagging. Στη συνέχεια, θα αναλυθούν οι εμφωλιασμένοι κατηγοριοποιητές (bagging classifiers) και ο τρόπος με τον οποίο χρησιμοποιούνται σε συνδυασμό με τη μέθοδο Bootstrap. 3.1 Η μέθοδος εμφωλίασης Bagging Η μέθοδος εμφωλίασης (bagging method) αποτελεί μια μέθοδο συνένωσης (ensemble method). Οι μέθοδοι συνένωσης χρησιμοποιούν έναν συνδυασμό από μοντέλα με στόχο την αύξηση της ακρίβειας. Η μέθοδος Bagging αποτελεί μια μέθοδο συνένωσης, η οποία εφαρμόζει ψηφοφορία (voting) πάνω στην πλειοψηφία των κατηγοριοποιήσεων μιας συλλογής εκπαιδευμένων μοντέλων ενός κατηγοριοποιητή,. Η πλειοψηφία των ψήφων, δηλαδή της κατηγοριοποίησης των επιμέρους μοντέλων, αντιστοιχεί στην τελική κατηγοριοποίηση του βελτιωμένου μοντέλου. Συνεπώς, η μέθοδος Bagging χρησιμοποιείται μετά την εφαρμογή αλγορίθμων μηχανικής μάθησης για κατηγοριοποίηση και παλινδρόμηση, με στόχο να βελτιώσει την ακρίβεια και την ευστάθεια αυτών των αλγορίθμων. Η μέθοδος εμφωλίασης Bagging χρησιμοποιείται συχνά σε συνδυασμό με τη μέθοδο Bootstrap. Ο όρος Bagging προέκυψε από τον όρο Bootstrap aggregating (συνάθροιση bootstrap). Όπως αναφέραμε, η μεθοδολογία στην οποία βασίζεται η μέθοδος Bagging είναι η λήψη απόφασης με βάση την πλειοψηφία. Αρχικά, με τη μέθοδο Bootstrap δημιουργούνται δείγματα από το σύνολο εκπαίδευσης, στα οποία οι συμμετέχουσες παρατηρήσεις επιλέγονται τυχαία με επανατοποθέτηση. Στη συνέχεια, για κάθε δείγμα εκπαιδεύεται ένα μοντέλο κατηγοριοποιητή. Έπειτα, σε κάθε μοντέλο εφαρμόζονται τα δεδομένα του συνόλου ελέγχου. Κάθε μοντέλο δίνει μια πρόβλεψη για την κλάση κάθε παρατήρησης του συνόλου ελέγχου. Ο εμφωλιασμένος κατηγοριοποιητής (bagged classifier) μετρά τις ψήφους των μοντέλων που έχουν δημιουργηθεί από τα δείγματα και αναθέτει σε κάθε παρατήρηση του συνόλου ελέγχου την κλάση που πλειοψηφεί (majority class). Ο εμφωλιασμένος κατηγοριοποιητής έχει -35-

36 συχνά καλύτερη ακρίβεια σε σχέση με τον κατηγοριοποιητή που δημιουργείται από το αρχικό σύνολο εκπαίδευσης. Από τους πρώτους που ασχολήθηκαν με τη μέθοδο Bagging ήταν ο Breiman [15]. Εφάρμοσε τη μέθοδο Bagging σε δένδρα κατηγοριοποίησης (classification trees) και δένδρα παλινδρόμησης (regression trees) εκτελώντας πειράματα σε διάφορα σύνολα δεδομένων. Κάνοντας μια μικρή παρένθεση, θα εξηγήσουμε τους παραπάνω όρους, καθώς υπάρχει μεγάλη συσχέτιση της μεθόδου Bagging με τα δένδρα απόφασης (decision trees). Τα δένδρα κατηγοριοποίησης και τα δένδρα παλινδρόμησης συγκαταλέγονται στα δένδρα απόφασης. Κάθε εσωτερικός κόμβος του δένδρου αντιστοιχεί σε μία από τις μεταβλητές εισόδου και από κάθε κόμβο υπάρχουν ακμές προς τα παιδιά του, που αντιστοιχούν στις πιθανές τιμές της μεταβλητής εισόδου. Κάθε φύλλο του δένδρου αντιπροσωπεύει την τιμή της μεταβλητής κατηγοριοποίησης, δηλαδή την ετικέτα της κλάσης. Η τιμή αυτή προκύπτει με βάση τις τιμές των μεταβλητών εισόδου που υπάρχουν στο μονοπάτι που συνδέει τη ρίζα με το φύλλο, δηλαδή τα κλαδιά αναπαριστούν τις συζεύξεις χαρακτηριστικών που οδηγούν στις ετικέτες κλάσης. Τα δένδρα κατηγοριοποίησης χρησιμοποιούνται για την πρόβλεψη της ετικέτας κλάσης των δεδομένων, δηλαδή για την κατηγοριοποίηση των δεδομένων, ενώ τα δένδρα παλινδρόμησης για την πρόβλεψη μιας αριθμητικής τιμής, όπως το εισόδημα. Ο Breiman [15], λοιπόν, εφάρμοσε τη μέθοδο Bagging σε δένδρα απόφασης. Επέλεξε έναν αριθμό 50 επαναλήψεων της μεθόδου Bootstrap (χωρίς επανατοποθέτηση στη συγκεκριμένη περίπτωση) για τα δένδρα κατηγοριοποίησης και 25 για τα δένδρα παλινδρόμησης, καθώς θεώρησε πως η κατηγοριοποίηση απαιτεί περισσότερες επαναλήψεις, ειδικά όταν αυξάνουν οι κλάσεις του χαρακτηριστικού κατηγοριοποίησης. Επίσης, εφάρμοσε τη μέθοδο Bagging και στον αλγόριθμο κατηγοριοποίησης των k-πλησιέστερων Γειτόνων (k-nearest Neighbor). Τα αποτελέσματα των πειραμάτων έδειξαν πως η χρήση της μεθόδου Bagging αύξησε την ακρίβεια των κατηγοριοποιητών, ενώ παράλληλα η εφαρμογή της είναι πολύ απλή. Στην περίπτωση των δένδρων απόφασης, ένα μειονέκτημα αποτελεί το γεγονός πως τα δένδρα απόφασης που δημιουργούνται είναι αρκετά πολύπλοκα και δεν ερμηνεύονται εύκολα. Επιπρόσθετα, ο Breiman αναγνώρισε την αστάθεια (instability) της μεθόδου κατηγοριοποίησης ως παράγοντα που επηρεάζει σημαντικά τα αποτελέσματα της μεθόδου Bagging. Συγκεκριμένα, όταν μικρές αλλαγές στα δεδομένα -36-

37 εκπαίδευσης μπορούν να προκαλέσουν σημαντικές αλλαγές στο μοντέλο που δημιουργείται, δηλαδή όταν η μέθοδος κατηγοριοποίησης είναι ασταθής, η μέθοδος Bagging μπορεί να αυξήσει την ακρίβεια της κατηγοριοποίησης [15]. Οι ασταθείς μέθοδοι δυσκολεύουν την λήψη απόφασης για κατηγοριοποίηση, αλλά η μέθοδος Bagging έχει τη δυνατότητα να «λειαίνει» τις δύσκολες αποφάσεις μειώνοντας την διασπορά και το μέσο τετραγωνικό σφάλμα [16]. Στο πλαίσιο αυτής της διπλωματικής εργασίας, θα γίνει εφαρμογή της μεθόδου Bagging στην μέθοδο κατηγοριοποίησης MTGS, η οποία υλοποιεί την στρατηγική Mahalanobis-Taguchi. Όπως έχουμε ήδη αναφέρει, βασική ιδέα για την στρατηγική Mahalanobis-Taguchi είναι η απόσταση Mahalanobis (Mahalanobis Distance-MD). Η MD λαμβάνει υπόψη τις συσχετίσεις μεταξύ των μεταβλητών σε ένα πολυδιάστατο σύστημα, δεν επηρεάζεται από τον αριθμό των διαστάσεων του συστήματος και είναι ιδιαίτερα ευαίσθητη στις αλλαγές που συντελούνται στην ομάδα αναφοράς [17]. Η ευαισθησία αυτή της μεθόδου MTGS στις αλλαγές της ομάδας αναφοράς καθιστά τη μέθοδο αρκετά ασταθή, συνεπώς η μέθοδος Bagging αναμένουμε να αυξήσει την ακρίβεια της κατηγοριοποίησης σε σύνδεση με τα παραπάνω. 3.2 Εναλλακτικές προσεγγίσεις/ επεκτάσεις στη μέθοδο Bagging Σε αυτήν την ενότητα, θα αναφερθούμε σε εναλλακτικές προσεγγίσεις της μεθόδου Bagging, η οποία παρουσιάζει μεγάλο ερευνητικό ενδιαφέρον. Διάφορες παραλλαγές και επεκτάσεις της μεθόδου έχουν εμφανιστεί στην ερευνητική βιβλιογραφία και θα συνοψίσουμε κάποιες από τις πιο σημαντικές Τυχαία επιλογή διαχωρισμού Μια εναλλακτική προσέγγιση συνένωσης δένδρων απόφασης και κατηγοριοποίησης που βασίζεται στην πλειοψηφία των ψήφων είναι η τυχαία επιλογή διαχωρισμού (random split selection ή randomizing). Ουσιαστικά, με τη μέθοδο αυτή, οι εσωτερικές αποφάσεις του αλγορίθμου μάθησης λαμβάνονται τυχαία. Σε κάθε κόμβο του δένδρου υπολογίζεται ένα σύνολο με τους καλύτερους τρόπους διαχωρισμού (με βάση το κέρδος της παρεχόμενης πληροφορίας) και ο αλγόριθμος επιλέγει τυχαία έναν από αυτούς. Η μέθοδος αυτή δίνει παρόμοια και πιθανώς ελαφρώς καλύτερα αποτελέσματα από τη -37-

38 μέθοδο Bagging σε δεδομένα με μικρό θόρυβο. Ωστόσο σε δεδομένα με θόρυβο, η μέθοδος Bagging υπερτερεί στην κατηγοριοποίηση [18] Μέθοδος τυχαίου υποχώρου Το 1995, η Ho [19] πρότεινε μια μέθοδο βελτίωσης των δένδρων απόφασης, η οποία αποτέλεσε προπομπό για τη δημιουργία της μεθόδου Bagging. Αρχικά, αναγνώρισε ως περιορισμό των δένδρων απόφασης το γεγονός ότι δεν μπορούν να επεκταθούν σε αυθαίρετο βαθμό πολυπλοκότητας, καθώς κινδυνεύουν να υπερ-προσαρμοστούν στα δεδομένα εκπαίδευσης και να μειωθεί η ικανότητα γενίκευσης της κατηγοριοποίησής τους σε άγνωστα δεδομένα. Συνεπώς, η αυθαίρετη πολυπλοκότητα της επέκτασής τους περιορίζεται, προκειμένου να έχουν ικανότητα γενίκευσης στον πληθυσμό. Για να μπορέσουν τα δένδρα απόφασης να επεκταθούν σε αυθαίρετη πολυπλοκότητα και με αυτόν τον τρόπο να επιτευχθεί καλύτερη εκπαίδευση στα δεδομένα εκπαίδευσης, η Ho πρότεινε μια εναλλακτική μέθοδο κατασκευής τους. Συγκεκριμένα, πρότεινε τη δημιουργία πολλαπλών δένδρων σε τυχαία επιλεγμένους υποχώρους (random subspace) του χώρου των χαρακτηριστικών (feature space). Ο χώρος των χαρακτηριστικών, προφανώς, αναφέρεται στο σύνολο των μεταβλητών του συνόλου δεδομένων. Τα δένδρα κατηγοριοποίησης σε διαφορετικούς υποχώρους χαρακτηριστικών λειτουργούν συμπληρωματικά. Ο συνδυασμός των προβλέψεών τους αυξάνει την ακρίβεια της κατηγοριοποίησης στα δεδομένα εκπαίδευσης, ενώ ιδιαίτερα σημαντικό πλεονέκτημα της μεθόδου αποτελεί το γεγονός ότι ταυτόχρονα αυξάνεται και η ακρίβεια σε άγνωστα δεδομένα. Η Ho [20] συνέχισε τη διερεύνηση της μεθόδου τυχαίου υποχώρου για την κατασκευή δένδρων απόφασης και πρότεινε μια συστηματική διαδικασία για τον σχηματισμό δασών απόφασης (decision forest), των οποίων την απόδοση σύγκρινε με τα απλά δένδρα απόφασης και με άλλες τεχνικές δημιουργίας δασών. Οι αποφάσεις των δένδρων συνδυάζονται με τον υπολογισμό του μέσου όρου των εκτιμήσεων των εκ των υστέρων πιθανοτήτων στα φύλλα. Η κατασκευή δασών απόφασης με τη μέθοδο του τυχαία επιλεγμένου υποχώρου των χαρακτηριστικών οδήγησε σε δάση μεγαλύτερης πολυπλοκότητας (άρα και μεγαλύτερης ακρίβειας στα δεδομένα εκπαίδευσης), χωρίς να μειωθεί η ικανότητα γενίκευσης. Επίσης, η εξέταση της επίδρασης του αριθμού των τυχαίων χαρακτηριστικών που επιλέγονται έδειξε ότι η μέθοδος πιθανώς να είναι καλή στην μείωση του χώρου των μεταβλητών και την αναγνώριση περιττών μεταβλητών. -38-

39 3.2.3 Τυχαίο δάσος Το 2001, ο Breiman [21] πρότεινε το τυχαίο δάσος (random forest), τo οποίο εισάγει ακόμα μεγαλύτερη τυχαιότητα στη μέθοδο Bagging. Στο τυχαίο δάσος αλλάζει ο τρόπος με τον οποίο δημιουργούνται τα δένδρα κατηγοριοποίησης και παλινδρόμησης. Ενώ στα απλά δένδρα κάθε κόμβος χωρίζεται με βάση τον καλύτερο διαχωρισμό μεταξύ όλων των μεταβλητών, στο τυχαίο δάσος οι κόμβοι χωρίζονται με βάση το καλύτερο από τα υποσύνολα των κατηγοριοποιητών που επιλέγονται τυχαία σε κάθε κόμβο [22]. Το τυχαίο δάσος αποτελεί μια συλλογή δένδρων, έτσι ώστε κάθε δένδρο να εξαρτάται από τις τιμές ενός τυχαίου διανύσματος, η δειγματοληψία του οποίου είναι ανεξάρτητη και ακολουθεί την ίδια κατανομή για όλα τα δένδρα του δάσους. Αφού δημιουργηθεί ένας μεγάλος αριθμός δένδρων, στη συνέχεια ψηφίζουν για την πιο δημοφιλή κλάση, η οποία αποτελεί και την πρόβλεψη του δάσους. Η ακρίβεια της κατηγοριοποίησης του τυχαίου δάσους εξαρτάται σημαντικά από τη δύναμη των μεμονωμένων δένδρων κατηγοριοποίησης και τις μεταξύ τους συσχετίσεις [21]. -39-

40

41 4 Καθορισμός κατωφλίου Στο κεφάλαιο αυτό, θα ασχοληθούμε με τον καθορισμό του κατωφλίου, που αποτελεί σημαντικό βήμα της μεθόδου MTGS. Αρχικά, θα αναφερθούμε στους λόγους που καθιστούν απαραίτητο τον καθορισμό κατωφλίου στην κατηγοριοποίηση πολυμεταβλητών συστημάτων και ειδικότερα, στη μέθοδο MTGS. Στη συνέχεια, θα αναφέρουμε διάφορους τρόπους υπολογισμού κατωφλίων οι οποίοι βασίζονται σε διαφορετικά κριτήρια και τέλος, θα εστιάσουμε στο κριτήριο επιλογής κατωφλίου, το οποίο θα χρησιμοποιήσουμε στο πλαίσιο αυτής της εργασίας. 4.1 Γιατί είναι απαραίτητο το κατώφλι Στα πολυμεταβλητά συστήματα, η αποδοτικότητα της πρόβλεψης που επιτυγχάνει ένας κατηγοριοποιητής επηρεάζεται σημαντικά από τον καθορισμό του κατωφλίου. Το κατώφλι μπορεί να θεωρηθεί ως ένα «όριο ασφαλείας», κάτω από το οποίο ένας ασθενής θεωρείται υγιής ή ένα βιομηχανικό προϊόν θεωρείται μη ελαττωματικό. Στην μέθοδο MTGS, τα βήματα για την κατηγοριοποίηση πολυμεταβλητών συστημάτων, όπως είδαμε στην Ενότητα είναι τα ακόλουθα: 1. Κατασκευή της κλίμακας μέτρησης με τον χώρο του Mahalanobis (μοναδιαίο χώρο) ως σημείο αναφοράς 2. Επικύρωση της κλίμακας (η κλίμακα των μη υγιών παρατηρήσεων πρέπει να είναι μεγαλύτερη από την κλίμακα των υγιών παρατηρήσεων) 3. Αναγνώριση χρήσιμων μεταβλητών 4. Ανακατασκευή της κλίμακας με βάση τις χρήσιμες μεταβλητές και μελλοντική διάγνωση Το κατώφλι είναι σημαντικό στο τέταρτο στάδιο της στρατηγικής, δηλαδή στη φάση της διάγνωσης. Στο στάδιο αυτό, ο γιατρός ή ο ελεγκτής θα πρέπει με βάση ένα κατώφλι να διαγνώσει τους ασθενείς ή τις παρατηρήσεις ενός συνόλου δεδομένων σε υγιείς ή μη υγιείς. Εάν εξετάζουμε εάν ένας ασθενής πάσχει από μια ασθένεια, πρέπει να καθορίσουμε το κατώφλι κάτω από το οποίο ο ασθενής θεωρείται υγιής. Εάν στόχος μας είναι να εξετάσουμε εάν ο ασθενής πάσχει από διάφορες ασθένειες, προφανώς θα -41-

42 πρέπει να προσδιορίσουμε ένα κατώφλι για κάθε ασθένεια. Αντίστοιχα, για τον έλεγχο ενός βιομηχανικού προϊόντος πρέπει να θέσουμε ένα κατώφλι για κάθε ελάττωμα που μπορεί να έχει το προϊόν. Σύμφωνα με τους Taguchi και Jugulum [1], στη μέθοδο MTGS υπάρχουν δύο είδη κατωφλίων: 1. Γενικό κατώφλι Το γενικό κατώφλι καθορίζει εάν ένας ασθενής χρειάζεται περαιτέρω εξέταση για μια συγκεκριμένη ασθένεια, δηλαδή αποτελεί έναν δείκτη για τη γενικότερη υγεία του ατόμου, με βάση τον οποίο αποφασίζουμε εάν το άτομο είναι υγιές ή υπάρχουν ενδείξεις ότι πάσχει από κάποια ασθένεια. Στην περίπτωση των βιομηχανικών προϊόντων, το γενικό κατώφλι ορίζει εάν ένα προϊόν είναι ή όχι ελαττωματικό, δηλαδή αν μπορεί να γίνει αποδεκτό στο τέλος της διαδικασίας παραγωγής. 2. Ειδικό κατώφλι Εάν ένα άτομο διαγνωστεί ως μη υγιές με βάση το γενικό κατώφλι, στη συνέχεια, θα πρέπει να εξετάσουμε από ποια ασθένεια πάσχει βασιζόμενοι στα ειδικά κατώφλια κάθε ασθένειας. Αντίστοιχα, το ειδικό κατώφλι στα βιομηχανικά προϊόντα εξετάζει εάν το προϊόν μπορεί να περάσει από το ένα στάδιο ελέγχου της παραγωγής στο άλλο, δηλαδή δείχνει σε ποιο στάδιο της παραγωγής διαγνώστηκε μια συγκεκριμένη ατέλεια στο προϊόν που οδήγησε στη διάγνωσή του ως ελαττωματικό. Ο καθορισμός του κατωφλίου είναι πολύ σημαντικός στη μέθοδο MTGS, καθώς ένα μη σωστά καθορισμένο κατώφλι μπορεί να οδηγήσει σε λανθασμένες προβλέψεις, γεγονός που συνεπάγεται απώλεια ακρίβειας. Όπως έχει ήδη αναφερθεί, στη μέθοδο MTGS η κλίμακα των υγιών παρατηρήσεων είναι επιθυμητό να έχει μικρότερες τιμές σε σχέση με την κλίμακα των μη υγιών παρατηρήσεων προκειμένου να γίνεται σωστός διαχωρισμός των παρατηρήσεων σε υγιείς και μη υγιείς. Ένα λανθασμένα μικρό κατώφλι μπορεί να οδηγήσει στην διάγνωση των υγιών παρατηρήσεων ως μη υγιείς (false positives), ενώ ένα λανθασμένα μεγάλο κατώφλι στην διάγνωση των μη υγιών παρατηρήσεων ως υγιείς (false negatives). 4.2 Μέθοδοι καθορισμού κατωφλίου στη μέθοδο MTGS Στην ενότητα αυτή, θα αναφέρουμε διάφορους τρόπους καθορισμού του κατωφλίου που έχουν εφαρμοστεί στη βιβλιογραφία για τη μέθοδο MTGS. -42-

43 4.2.1 Τετραγωνική συνάρτηση απώλειας Οι Taguchi και Jugulum [1] προτείνουν την τετραγωνική συνάρτηση απώλειας (Quadratic Loss Function-QLF) για τον καθορισμό του κατωφλίου της μεθόδου MTGS. Η συνάρτηση QLF μπορεί να χρησιμοποιηθεί στις τρεις ακόλουθες περιπτώσεις: 1. Κατηγορικό-το καλύτερο (Nominal-the-best) χαρακτηριστικό Σε αυτήν την περίπτωση, όπως φαίνεται στην Εικόνα 1, η απώλεια που προκύπτει από την απόκλιση της πραγματικής τιμής από την επιθυμητή τιμή υπολογίζεται από την Εξίσωση (9). Όταν η τιμή ισούται με την τιμή, έχουμε τη μικρότερη απώλεια. Η εξίσωση για την συνάρτηση απώλειας είναι η ακόλουθη: (9) Εικόνα 1: Η τετραγωνική συνάρτηση απώλειας (QLF) για κατηγορικό-το καλύτερο χαρακτηριστικό Χρησιμοποιώντας μία επέκταση των σειρών Taylor έχουμε: ( ) ( ) Γενικά ισχύει. Αφού η ελάχιστη δυνατή απόσταση είναι όταν,. Συνεπώς, μετά την απόρριψη των παραγώγων μεγαλύτερης τάξης, η εξίσωση μπορεί να μετασχηματιστεί ως εξής: (10) Η σταθερά αναλογικότητας στην Εξίσωση (10) μπορεί να υπολογιστεί ως εξής: εάν η απώλεια από την απόκλιση του από το κατά είναι, τότε. Συνεπώς, η QLF, που παρουσιάζεται στην Εξίσωση (10), μπορεί να γραφεί ως εξής: (11) -43-

44 2. «Όσο μεγαλύτερο-τόσο καλύτερο» (Larger-the-better) χαρακτηριστικό Για τα χαρακτηριστικά για τα οποία ισχύει «όσο μεγαλύτερο-τόσο καλύτερο», όπου ο στόχος είναι το άπειρο, η συνάρτηση απώλειας QLF είναι η εξής: ( ) (12) όπου, είναι η απώλεια του πελάτη και η ανοχή (το επίπεδο ανεκτικότητας) του πελάτη. 3. «Όσο μικρότερο-τόσο καλύτερο» (Smaller-the-better) χαρακτηριστικό Για τα χαρακτηριστικά για τα οποία ισχύει «όσο μικρότερο-τόσο καλύτερο», όπου ο στόχος είναι το μηδέν, η συνάρτηση απώλειας QLF είναι η εξής: (13) όπου, είναι η απώλεια του πελάτη και η ανοχή (το επίπεδο ανεκτικότητας) του πελάτη Η QLF για τη μέθοδο MTGS Σε αυτήν την ενότητα, θα εξηγηθεί η χρησιμότητα της τετραγωνικής συνάρτησης απώλειας QLF στη μέθοδο MTGS. Ο στόχος της μεθόδου MTGS είναι η δημιουργία μιας κλίμακας μέτρησης για ένα πολυδιάστατο σύστημα. Οποιοδήποτε λάθος στα αποτελέσματα της κλίμακας, οδηγεί σε λανθασμένη πρόβλεψη και διάγνωση. Τα λάθος ορισμένα κατώφλια μπορεί να οδηγήσουν σε λάθη στη διάγνωση. Για παράδειγμα, ένας ασθενής που δεν χρειάζεται θεραπεία μπορεί να λάβει θεραπευτική αγωγή ή αντίστροφα, ένας ασθενής που χρειάζεται θεραπεία μπορεί να θεωρηθεί υγιής και να μην τη λάβει. Τέτοια λάθη στοιχίζουν πολύ και μπορούν να οδηγήσουν σε σημαντικές απώλειες. Για να γίνει σωστά η διάγνωση, πρέπει η απόφαση για τον καθορισμό του κατωφλίου να είναι συνετή. Σε ένα σύστημα εισαγωγής φοιτητών σε ένα πρόγραμμα σπουδών, το κατώφλι είναι το σημείο ισορροπίας μεταξύ του κόστους της εισαγωγής του φοιτητή από το κόστος της μη εισαγωγής του. Σε ιατρικές εφαρμογές, το κατώφλι είναι το σημείο ισορροπίας μεταξύ του κόστους της θεραπείας ενός ασθενή και του κόστους από τη μη θεραπεία του ασθενή. Όταν ένας ασθενής έχει την τιμή του κατωφλίου, μπορεί να θεωρηθεί είτε υγιής είτε μη υγιής, που σημαίνει ότι το 50% των ασθενών που έχουν αυτήν τη τιμή είναι υγιείς και το υπόλοιπο 50% είναι μη υγιείς. Αυτή η τιμή μπορεί να υπολογιστεί μέσω της συνάρτησης QLF. Η καμπύλη της συνάρτησης απώλειας μπορεί να σχηματιστεί από την απεικόνιση της τετραγωνικής -44-

45 ρίζας των τιμών MD ως προς τις αντίστοιχες απώλειες. Στη μέθοδο MTGS, η QLF μπορεί να εφαρμοστεί για την περίπτωση των «όσο μικρότερων-τόσο καλύτερων» χαρακτηριστικών, αφού η τιμή στόχος των τιμών MD είναι το μηδέν. Το σχήμα αυτής της καμπύλης της συνάρτησης QLF για τη μέθοδο MTGS, απεικονίζεται στην Εικόνα 2. Εικόνα 2: Καμπύλη συνάρτησης QLF για τη μέθοδο MTGS (πηγή: [1]) Έστω το λειτουργικό όριο. Αυτή η τιμή αντιστοιχεί στην απόσταση όταν ένας ασθενής πεθάνει ή όταν ένα προϊόν έχει κάποια δυσλειτουργία. Εάν είναι η απώλεια που σχετίζεται με το, τότε η σταθερά αναλογικότητας ισούται με και η αντίστοιχη απώλεια δίνεται από τον τύπο: (14) Καθορισμός του κατωφλίου Στο σημείο αυτό, θα αναφέρουμε τη διαδικασία με την οποία γίνεται ο καθορισμός του κατωφλίου στη μέθοδο MTGS. Υπάρχουν δύο τρόποι καθορισμού του κατωφλίου, οι οποίοι και θα αναλυθούν στη συνέχεια. Διαδικασία 1 Στο παράδειγμα της ιατρικής διάγνωσης, εάν ο γιατρός γνωρίζει το σύνολο των ασθενών που χρειάζονται θεραπεία, τότε η μέση τετραγωνική απόσταση, που αντιστοιχεί σε αυτούς τους ασθενείς, μπορεί να θεωρηθεί ως κατώφλι, δηλαδή. Αυτό σημαίνει πως η τιμή του κατωφλίου βασίζεται αποκλειστικά στην κρίση των γιατρών. Αυτή η λογική μπορεί να επεκταθεί και σε άλλα παραδείγματα εκτός της ιατρικής διάγνωσης, όπου η τιμή του κατωφλίου καθορίζεται από την γνώμη των ειδικών. -45-

46 Διαδικασία 2 Έστω το λειτουργικό όριο, που αντιστοιχεί στην κρίσιμη απόσταση. Στο παράδειγμα της ιατρικής διάγνωσης, το λειτουργικό όριο αντιστοιχεί στην απόσταση στην οποία ένας ασθενής πεθαίνει από μια ασθένεια. Αντίστοιχα, στο παράδειγμα του συστήματος εγγραφής φοιτητών, αντιστοιχεί στην απόσταση ενός φοιτητή ο οποίος δεν έχει ακόμα αποφοιτήσει. Έστω η απώλεια που σχετίζεται με το λειτουργικό όριο. Τότε η εξίσωση της συνάρτησης απώλειας είναι η εξής:. Ας υποθέσουμε ότι το κόστος της περαιτέρω διάγνωσης ενός ασθενή είναι. Για το σύστημα εγγραφής φοιτητών, είναι το κόστος που σχετίζεται με την παροχή πρόσθετης εκπαίδευσης σε έναν φοιτητή, ο οποίος δεν έχει αποφοιτήσει. Έστω η απόσταση που αντιστοιχεί στο κόστος. Τότε η απόσταση μπορεί να υπολογιστεί από την εξίσωση: (15) Συνεπώς, εάν είναι το κατώφλι, η Εξίσωση (15) μπορούμε να γραφεί: (16) Ή (17) Για την περίπτωση της ιατρικής διάγνωσης, χρησιμοποιώντας το κατώφλι κανόνας απόφασης μπορεί να διατυπωθεί ως εξής:, ο Εάν η τιμή της MD είναι ίση με την τιμή του κατωφλίου, τότε το άτομο είναι είτε υγιές είτε μη υγιές. Εάν η τιμή της MD είναι μικρότερη από την τιμή του κατωφλίου, τότε το άτομο είναι υγιές. Αντίστοιχα, εάν η τιμή της MD του ατόμου είναι μεγαλύτερη από την τιμή του, τότε το άτομο είναι ασθενές. Συμπερασματικά, η τετραγωνική συνάρτηση απώλειας (QLF) μπορεί να χρησιμοποιηθεί στον καθορισμό του κατωφλίου, ώστε να γίνεται με μεγαλύτερη ακρίβεια η διάγνωση. Τα κατώφλια που δημιουργούνται με τη βοήθεια της συνάρτησης QLF μπορούν να συμβάλλουν στην ελαχιστοποίηση των λανθασμένων συναγερμών (false alarm), όπου γίνεται λάθος πρόβλεψη των παρατηρήσεων [1]. -46-

47 4.2.2 Εναλλακτικοί τρόποι καθορισμού του κατωφλίου Στην ενότητα αυτή, θα αναφέρουμε εναλλακτικούς τρόπους καθορισμού του κατωφλίου στη μέθοδο MTGS εξετάζοντας την αντίστοιχη βιβλιογραφία. Οι Hirohisa et al. [23] εφάρμοσαν την στρατηγική Mahalanobis-Taguchi για την αναγνώριση των μονάδων κώδικα (κλάσεις) με υψηλό κόστος συντήρησης, στο πλαίσιο της εξέτασης του κόστους ανάπτυξης αντικειμενοστραφούς λογισμικού. Για το σύνολο των «υγιών» μονάδων κώδικα, δηλαδή των ποιοτικών μονάδων κώδικα που δεν εισάγουν υψηλό κόστος συντήρησης, υπολόγισαν για κάθε μονάδα κώδικα συγκεκριμένες μετρικές. Ουσιαστικά, αντιστοίχισαν σε κάθε μονάδα κώδικα ένα διάνυσμα με τις τιμές των μετρικών για αυτήν την μονάδα κώδικα. Μετά, κανονικοποίησαν το διάνυσμα με τις μετρικές κάθε μονάδας κώδικα με βάση τη μέση τιμή και τη μέση τυπική απόκλιση κάθε μετρικής. Στη συνέχεια, υπολόγισαν για κάθε μονάδα κώδικα την τιμή MD με βάση το μέσο σημείο της υγιούς ομάδας των μονάδων κώδικα. Ακολούθως, χρησιμοποίησαν αυτές τις τιμές MD για να διακρίνουν τις άγνωστες μονάδες κώδικα σε δύο κατηγορίες: μονάδες κώδικα καλής ποιότητας και μονάδες που εισάγουν κόστος στον κώδικα. Για να γίνει η διάκριση των μονάδων κώδικα, όρισαν ένα κατώφλι, έτσι ώστε όταν η τιμή MD της άγνωστης μονάδας κώδικα είναι μεγαλύτερη από την τιμή του κατωφλίου, η μονάδα κώδικα να θεωρείται ότι εισάγει κόστος. Αντίθετα, όταν η τιμή είναι μικρότερη του κατωφλίου, η μονάδα κώδικα θεωρείται υγιής, δηλαδή ότι δεν εισάγει υψηλό κόστος συντήρησης στον κώδικα. Αρχικά θέσανε το κατώφλι ίσο με, όπου είναι η τυπική απόκλιση των τιμών MD για τις υγιείς μονάδες κώδικα, καθώς οι υγιείς μονάδες κώδικα έχουν τιμές MD μικρότερες ή ίσες με την τιμή. Ωστόσο επειδή η διαφορά μεταξύ και για το διαχωρισμό των μονάδων κώδικα, είναι αρκετά εμπειρική, πρότειναν έναν πιο εμπεριστατωμένο τρόπο καθορισμού του κατωφλίου. Η διαδικασία που ακολουθείται για τον καθορισμό του κατωφλίου είναι η εξής: δοθέντος ενός αντικειμενοστραφούς λογισμικού με μονάδες κώδικα, υπολογίζονται οι τιμές MD, έστω { }, για όλες τις μονάδες κώδικα με τον τρόπο που αναφέρθηκε παραπάνω. Στη συνέχεια, οι μονάδες κώδικα διακρίνονται σε δύο κατηγορίες: στις μονάδες κώδικα που είναι υψηλού κόστους και σε αυτές που δεν είναι, με βάση κάποιες μετρικές, π.χ. τον αριθμό των γραμμών κώδικα (Lines Of Code-LOC) που μετασχηματίζονται κατά την αναβάθμιση του λογισμικού. Για κάθε τιμή κατωφλίου, -47-

48 οι μονάδες κώδικα διακρίνονται σε τέσσερεις συνολικά κατηγορίες ως εξής: έστω οι συνολικές «μη υγιείς» μονάδες κώδικα, δηλαδή οι μονάδες κώδικα υψηλού κόστους και οι συνολικές «υγιείς» μονάδες κώδικα. Με βάση το κατώφλι, οι «μη υγιείς» μονάδες κώδικα διαχωρίζονται σε όσες έχουν τιμή μεγαλύτερη ή ίση από το κατώφλι και διακρίνονται σωστά ως «μη υγιείς», έστω συνολικά, και σε όσες έχουν τιμή μικρότερη από το κατώφλι και διακρίνονται ως «υγιείς» ενώ είναι «μη υγιείς», έστω συνολικά. Αντίστοιχα, με βάση το κατώφλι, οι «υγιείς» μονάδες κώδικα διαχωρίζονται σε όσες έχουν τιμή μεγαλύτερη ή ίση από το κατώφλι και διακρίνονται λανθασμένα ως «μη υγιείς», έστω συνολικά, και σε όσες έχουν τιμή μικρότερη από το κατώφλι και διακρίνονται σωστά ως «υγιείς», έστω συνολικά. Είναι προφανές ότι, και. Οι Hirohisa et al. [23] ορίζουν το κατώφλι, έτσι ώστε [ ( )], δηλαδή το έχει τη μικρότερη τιμή όταν, όπου είναι το άθροισμα των λάθος αναγνωρίσεων που υπολογίζονται από την ακόλουθη εξίσωση: (18) Εάν η προϋπόθεση [ ( )] ισχύει για δύο ή περισσότερες αποστάσεις, τότε ορίζεται η μικρότερη από αυτές τις αποστάσεις ως κατώφλι. Η ιδέα πάνω στην οποία βασίζεται ο παραπάνω τρόπος καθορισμού του κατωφλίου είναι ότι η καλύτερη τιμή για το κατώφλι είναι αυτή που έχει το μικρότερο λάθος στην διάκριση των δεδομένων. Ένας διαφορετικός τρόπος καθορισμού του κατωφλίου προτάθηκε από τους Das και Datta [24] με χρήση διαγραμμάτων ελέγχου (control charts). Η ανάλυση ενός διαγράμματος ελέγχου δείχνει εάν μια διαδικασία είναι υπό έλεγχο, είναι δηλαδή σταθερή και οποιαδήποτε μεταβολή σε αυτήν προκύπτει από πηγές που είναι εσωτερικές της διαδικασίας. Ωστόσο το διάγραμμα ελέγχου μπορεί να δείξει ότι η παρακολουθούμενη διαδικασία είναι σταθερή, αλλά βρίσκεται εκτός των επιθυμητών ορίων, για παράδειγμα το ποσοστό των θραυσμάτων μπορεί να βρίσκεται υπό στατιστικό έλεγχο αλλά να βρίσκεται πάνω από τα επιθυμητά επίπεδα. Στην προκειμένη περίπτωση γίνεται ανάλυση της διαδικασίας προκειμένου να μπορέσει, στη συνέχεια, να βελτιωθεί. Οι Das και Datta [24] θεώρησαν ότι η στρατηγική Mahalanobis-Taguchi μπορεί να συνδυαστεί με τα διαγράμματα ελέγχου βασιζόμενοι στο γεγονός πως η κλίμακα των -48-

49 αποστάσεων Mahalanobis των υγιών παρατηρήσεων έχει μέση τιμή ίση με τη μονάδα. Αυτή η προσεγγιστική μέση τιμή μπορεί να βασιστεί στην κατανομή με βαθμούς ελευθερίας. Αυτή είναι η κατανομή πιθανοτήτων των αποστάσεων κάθε παρατήρησης, με δεδομένο ότι η δειγματοληψία γίνεται από πολυμεταβλητή κανονική κατανομή με γνωστή μέση τιμή και πίνακα διασπορών. Επίσης, η οριακή κατανομή των τιμών σχετίζεται με την κατανομή και έχει μέση τιμή, και όχι τη μονάδα, όπου είναι ο αριθμός των υγιών παρατηρήσεων. Συνεπώς, ως κατώφλια μπορούν να τεθούν τα ανώτατα όρια ελέγχου (Upper Control Limit-UCL) που βασίζονται είτε στην είτε στην κατανομή, εάν η «υγιής» ομάδα των παρατηρήσεων ακολουθεί προσεγγιστικά πολυμεταβλητή κανονική κατανομή. Τα αποτελέσματα με αυτόν τον τρόπο καθορισμού του κατωφλίου είναι αρκετά ικανοποιητικά συγκρινόμενα με τα κατώφλια που έχουν καθοριστεί από τη συνάρτηση απώλειας QLF. Ένας ακόμα πολύ διαδεδομένος τρόπος καθορισμού του κατωφλίου είναι με τη χρήση γενετικών αλγορίθμων (genetic algorithms). Οι γενετικοί αλγόριθμοι ονομάστηκαν έτσι, καθώς ο τρόπος λειτουργίας τους είναι εμπνευσμένος από τη βιολογία και την ιδέα της εξέλιξης ως αποτέλεσμα γενετικών μεταλλάξεων, φυσικής επιλογής και διασταυρώσεων. Ο γενετικός αλγόριθμος ξεκινά με ένα σύνολο λύσεων, που ονομάζονται «γονιδιώματα», δανειζόμενες το όνομά τους από τη βιολογία, οι οποίες αποτελούν τον «πληθυσμό». Στη συνέχεια, μετά από μια σειρά τυχαίων συνδυασμών και μεταλλάξεων των «γονιδιωμάτων», οι πιο ικανές λύσεις για το συγκεκριμένο πρόβλημα συνεχίζουν να εξελίσσονται μέχρις ότου «επιβιώσουν» οι καλύτερες. Συνήθως, όσο περισσότερες γενιές περνούν τόσο καλύτερες λύσεις βρίσκονται, εκτός και εάν ο αλγόριθμος βρεθεί σε σημείο όπου δεν μπορεί να προχωρήσει καθώς έχει βρεθεί σε τοπικό μέγιστο. Οι γενετικοί αλγόριθμοι μπορούν να χρησιμοποιηθούν για τη βελτιστοποίηση της κατηγοριοποίησης. Ειδικότερα, θα αναφερθούμε στη χρήση των γενετικών αλγορίθμων στη δυαδική κατηγοριοποίηση, όπου οι κλάσεις των παρατηρήσεων είναι δύο, καθώς και η μέθοδος MTGS διακρίνει δύο κατηγορίες παρατηρήσεων: τις υγιείς και τις μη υγιείς. Η πιο απλή προσέγγιση των γενετικών αλγορίθμων για τον καθορισμό του κατωφλίου στη δυαδική κατηγοριοποίηση είναι η ανάπτυξη ενός πληθυσμού από συναρτήσεις κατωφλίων. Από αυτόν τον πληθυσμό γίνεται η επιλογή του βέλτιστου κατωφλίου με τη χρήση μιας συνάρτησης ικανότητας (fitness function). Η συνάρτηση ικανότητας δοκιμάζει κάθε -49-

50 λύση που δίνει ο γενετικός αλγόριθμος, προκειμένου να δώσει την λύση η οποία φέρνει την αντίδραση του συστήματος πιο κοντά στην επιθυμητή. Στην περίπτωση της δυαδικής κατηγοριοποίησης, η συνάρτηση ικανότητας είναι η ακρίβεια της κατηγοριοποίησης και επιλέγεται το κατώφλι που τη μεγιστοποιεί. Υπάρχουν πολλές προσεγγίσεις για τη μέτρηση της ακρίβειας της λύσης που δίνει ο γενετικός αλγόριθμος. Στη συνάρτηση ικανότητας μπορεί να τεθεί ως στόχος η βελτιστοποίηση ενός μόνο κριτηρίου, όπως για παράδειγμα η ελαχιστοποίηση του ποσοστού της λανθασμένης κατηγοριοποίησης των υγιών παρατηρήσεων ως μη υγιείς (False Positive Rate-FPR). Μια εναλλακτική προσέγγιση είναι η πολυκριτηριακή βελτιστοποίηση (Multiobjective Optimization-MO), όπου ο στόχος είναι η ταυτόχρονη επίτευξη πολλαπλών στόχων, όπως για παράδειγμα η ακρίβεια κατηγοριοποίησης ταυτόχρονα με την εκ των υστέρων εντροπία της κατανομής των κλάσεων [25]. 4.3 Μέθοδος καθορισμού κατωφλίου στη μέθοδο MTGS στο πλαίσιο της διπλωματικής Στην ενότητα αυτή, θα αναφερθούμε στη μέθοδο καθορισμού του κατωφλίου της μεθόδου MTGS, που θα χρησιμοποιηθεί στο πλαίσιο αυτής της διπλωματικής εργασίας. Αρχικά, θα γίνει μια συνοπτική αναφορά στις μετρικές με τις οποίες μετράμε την απόδοση μιας μεθόδου κατηγοριοποίησης. Στη συνέχεια, αφού αποσαφηνιστούν οι διάφορες μετρικές απόδοσης, θα αναφερθούμε στο κριτήριο που επιλέχθηκε για τον καθορισμό του κατωφλίου στο πλαίσιο της διπλωματικής Μετρικές απόδοσης κατηγοριοποίησης Στο σημείο αυτό, θα αναφερθούμε στην αξιολόγηση της απόδοσης των κατηγοριοποιητών. Η μέθοδος MTGS αποτελεί έναν δυαδικό κατηγοριοποιητή, καθώς κατηγοριοποιεί τις παρατηρήσεις σε δύο κλάσεις: την κλάση των υγιών παρατηρήσεων και την κλάση των μη υγιών παρατηρήσεων. Η μέτρηση της απόδοσης μιας μεθόδου κατηγοριοποίησης γίνεται με βάση την απόδοσή της σε άγνωστες παρατηρήσεις, δηλαδή στα δεδομένα του συνόλου ελέγχου. Η απόδοση ενός κατηγοριοποιητή μετράται με διάφορες μετρικές απόδοσης, τις οποίες θα αναφέρουμε στη συνέχεια. Η ακρίβεια (accuracy) αποτελεί ένα στατιστικό μέτρο του πόσο καλά ένας κατηγοριοποιητής προβλέπει σωστά την κλάση των παρατηρήσεων του συνόλου ελέγχου. Είναι ο αριθμός των παρατηρήσεων του συνόλου ελέγχου που προβλέφθηκαν -50-

51 σωστά προς το σύνολο των παρατηρήσεων του συνόλου ελέγχου. Οι υγιείς παρατηρήσεις του συνόλου ελέγχου που προβλέφθηκαν σωστά ως υγιείς αναφέρονται ως true negatives (TN), ενώ οι μη υγιείς παρατηρήσεις του συνόλου ελέγχου που προβλέφθηκαν σωστά ως μη υγιείς αναφέρονται ως true positives (TP). Ο όρος negative προκύπτει από το γεγονός ότι μια υγιής παρατήρηση είναι αρνητική στην ασθένεια, άρα το άτομο δεν είναι ασθενής. Αντίστοιχα, μια μη υγιής παρατήρηση αναφέρεται ως positive, καθώς το άτομο είναι θετικό σε κάποια ασθένεια. Ασφαλώς η ίδια αιτιολόγηση ισχύει για κάθε χαρακτηριστικό κατηγοριοποίησης, δηλαδή η «φυσιολογική» τιμή του χαρακτηριστικού κατηγοριοποίησης αποτελεί την negative κλάση, ενώ η «μη φυσιολογική» τιμή την positive κλάση. Με την ίδια λογική, οι υγιείς παρατηρήσεις του συνόλου ελέγχου που προβλέφθηκαν λανθασμένα ως μη υγιείς αναφέρονται ως false positives (FP), ενώ οι μη υγιείς παρατηρήσεις του συνόλου ελέγχου που κατηγοριοποιήθηκαν λανθασμένα ως υγιείς, δηλαδή ως negatives, αναφέρονται ως false negatives (FN). Συνεπώς, η ακρίβεια μετράται ως εξής: (19) όπου: TP: ο αριθμός των μη υγιών παρατηρήσεων του συνόλου ελέγχου που προβλέφθηκαν σωστά TN: ο αριθμός των υγιών παρατηρήσεων του συνόλου ελέγχου που προβλέφθηκαν σωστά FP: ο αριθμός των υγιών παρατηρήσεων του συνόλου ελέγχου που προβλέφθηκαν λανθασμένα ως μη υγιείς FN: ο αριθμός των μη υγιών παρατηρήσεων του συνόλου ελέγχου που προβλέφθηκαν λανθασμένα ως υγιείς P: ο αριθμός των μη υγιών παρατηρήσεων του συνόλου ελέγχου N: ο αριθμός των υγιών παρατηρήσεων του συνόλου ελέγχου Το ποσοστό λανθασμένης κατηγοριοποίησης (misclassification rate) είναι η αναλογία των παρατηρήσεων, που προβλέφθηκαν σε λάθος κλάση από την πραγματική τους, προς το σύνολο των παρατηρήσεων του συνόλου ελέγχου. Αποτελεί συμπληρωματικό μέτρο απόδοσης με την ακρίβεια, καθώς το άθροισμά τους δίνει τη μονάδα. Η μαθηματική έκφραση υπολογισμού του ποσοστού λανθασμένης κατηγοριοποίησης είναι η ακόλουθη: -51-

52 (20) Η ευαισθησία (sensitivity) είναι μια μετρική απόδοσης για την ικανότητα του κατηγοριοποιητή να αναγνωρίζει τις μη υγιείς παρατηρήσεις. Είναι η αναλογία των ασθενών που αναγνωρίζονται σωστά προς το σύνολο των ασθενών, για αυτό ονομάζεται, επίσης, true positive rate (TPR). Η μαθηματική έκφραση υπολογισμού της ευαισθησίας ενός κατηγοριοποιητή είναι η ακόλουθη: (21) Η εξειδίκευση (specificity) είναι μια μετρική απόδοσης για την ικανότητα του κατηγοριοποιητή να αναγνωρίζει τις υγιείς παρατηρήσεις. Είναι η αναλογία των υγιών παρατηρήσεων που προβλέφθηκαν ως υγιείς προς το σύνολο των υγιών παρατηρήσεων του συνόλου ελέγχου, για αυτό ονομάζεται, επίσης, true negative rate (TNR). Για παράδειγμα, δείχνει πόσοι πραγματικά υγιείς, που δεν έχουν την ασθένεια, βγαίνουν αρνητικοί στην ασθένεια μετά τον έλεγχο. Η μαθηματική έκφραση υπολογισμού της εξειδίκευσης ενός κατηγοριοποιητή είναι η ακόλουθη: (22) Ακόμη μια μετρική απόδοσης είναι το ποσοστό λανθασμένης κατηγοριοποίησης των υγιών παρατηρήσεων ως μη υγιείς (fall out ή false positive rate-fpr). Η μαθηματική έκφραση υπολογισμού αυτής της μετρικής απόδοσης είναι η ακόλουθη: (23) Η μετρική απόδοσης F-Measure ή F- score ή score αποτελεί το ζυγισμένο μέσο όρο δύο άλλων μετρικών απόδοσης: της ακρίβειας (precision) και της ανάκλησης (recall). Η ακρίβεια (precision) ισούται με τον αριθμό των μη υγιών παρατηρήσεων του συνόλου ελέγχου που προβλέφθηκαν σωστά ως μη υγιείς προς το σύνολο των παρατηρήσεων που προβλέφθηκαν ως μη υγιείς. Η ανάκληση (recall) ισούται με τον αριθμό των μη υγιών παρατηρήσεων του συνόλου ελέγχου που προβλέφθηκαν σωστά ως μη υγιείς προς τον συνολικό αριθμό των πραγματικών μη υγιών παρατηρήσεων του συνόλου ελέγχου. Το F-Measure λαμβάνει υπόψη την ακρίβεια (precision) και την ανάκληση και αποτελεί ουσιαστικά τον αρμονικό μέσο τους. Οι μαθηματικές εκφράσεις υπολογισμού αυτών των μετρικών απόδοσης είναι οι ακόλουθες: -52-

53 (24) (25) (26) Τέλος, μια ακόμα μετρική απόδοσης είναι ο δείκτης Youden (Youden index), ο οποίος λαμβάνει υπόψη την ευαισθησία και την εξειδίκευση μιας μεθόδου και μας δείχνει την πιθανότητα να λάβουμε μια ενημερωμένη απόφαση (σε αντίθεση με το να μαντεύαμε τυχαία την κλάση μιας παρατήρησης). Η μετρική αυτή αξιολογεί την ικανότητα του αλγορίθμου κατηγοριοποίησης να αποφεύγει την αποτυχημένη κατηγοριοποίηση και ζυγίζει εξίσου την απόδοση της κατηγοριοποίησης του αλγορίθμου στις υγιείς και μη υγιείς παρατηρήσεις [26]. Η μαθηματική έκφραση υπολογισμού του δείκτη Youden είναι η ακόλουθη: (27) Καθορισμός κατωφλίου με κριτήριο τη μεγιστοποίηση του δείκτη Youden Στο πλαίσιο αυτής της διπλωματικής εργασίας, θα συνδυάσουμε τη μέθοδο MTGS με τις μεθόδους Bootstrap και Bagging. Σε κάθε δείγμα, που θα προκύπτει μέσω της μεθόδου Bootstrap από το αρχικό σύνολο δεδομένων εκπαίδευσης, θα εφαρμόζουμε τη μέθοδο MTGS, συνεπώς είναι απαραίτητο να καθορίζουμε ένα κατώφλι για κάθε δείγμα. Ασφαλώς, ο καθορισμός του κατωφλίου σε όλα τα δείγματα, θα γίνεται με βάση το ίδιο κριτήριο. Το κριτήριο με βάση το οποίο θα επιλέγεται το βέλτιστο κατώφλι κάθε δείγματος, στο πλαίσιο αυτής της διπλωματικής εργασίας, είναι η μεγιστοποίηση του δείκτη Youden (Youden Index). Όπως είδαμε στην προηγούμενη ενότητα, ο δείκτης Youden αποτελεί μια μετρική για την απόδοση μιας μεθόδου κατηγοριοποίησης, που λαμβάνει υπόψη τις μετρικές απόδοσης ευαισθησία (sensitivity) και εξειδίκευση (specificity). Ο δείκτης πήρε το όνομά του από τον δημιουργό του, τον Youden [27], που τον πρότεινε το Ο τρόπος υπολογισμού του δείκτη Youden έχει παρατεθεί στην Εξίσωση

54 Το μέγιστο του δείκτη Youden αποτελεί ένα από τα πιο διαδεδομένα κριτήρια βελτιστοποίησης για την επιλογή σημείου αποκοπής (cut-off point) στο πλαίσιο της ανάλυσης της ROC καμπύλης της απόδοσης μιας μεθόδου [28]. Η καμπύλη ROC (Receiver Operating Characteristic-ROC) είναι μια γραφική παράσταση που απεικονίζει την απόδοση ενός δυαδικού κατηγοριοποιητή, καθώς ποικίλει το κατώφλι διάκρισης μεταξύ των κλάσεων. Δημιουργείται από την απεικόνιση του κλάσματος των μη υγιών παρατηρήσεων που συνόλου ελέγχου που προβλέφθηκαν σωστά ως μη υγιείς (True Positive Rate-TPR) σε σχέση με το κλάσμα των λανθασμένων κατηγοριοποιήσεων των υγιών παρατηρήσεων του συνόλου ελέγχου ως μη υγιείς (Fall out ή False Positive Rate- FPR). Πιο αναλυτικά, ο σχεδιασμός της καμπύλης ROC γίνεται με την ακόλουθη διαδικασία. Για έναν δυαδικό κατηγοριοποιητή με συνεχή κλίμακα μέτρησης, όπως η μέθοδος MTGS, όπου στόχος είναι να γίνει διάκριση μεταξύ των υγιών και των μη υγιών παρατηρήσεων, έστω ότι είναι η κλίμακα για τις υγιείς παρατηρήσεις και είναι η κλίμακα για τις μη υγιείς παρατηρήσεις. Υποθέτουμε πως μεγαλύτερες τιμές στην κλίμακα υποδεικνύουν την ύπαρξη ασθένειας. Χρησιμοποιώντας ένα σημείο αποκοπής, δηλαδή το σημείο ως κατώφλι, με βάση το οποίο θα γίνεται η διάκριση ανάμεσα στις υγιείς και μη υγιείς παρατηρήσεις, η εξειδίκευση της μεθόδου είναι και η ευαισθησία της μεθόδου είναι. Η καμπύλη ROC κατασκευάζεται από την απεικόνιση των σημείων ( ) στον χώρο της καμπύλης ROC. Ο χώρος της καμπύλης ROC αντιστοιχεί στο μοναδιαίο τετράγωνο (τιμή 1 στον άξονα των και ). Μια πολύ καλή απόδοση της μεθόδου κατηγοριοποίησης στα δεδομένα ελέγχου θα δημιουργήσει τη καμπύλη ROC κοντά στο σημείο με συντεταγμένες στο μοναδιαίο τετράγωνο. Μια ισοδύναμη κατασκευή της ROC καμπύλης μπορεί να κατασκευαστεί μέσα από την απεικόνιση των ( ) στο μοναδιαίο τετράγωνο. Το Εμβαδό Κάτω από την Καμπύλη (Area Under the Curve- AUC) ισούται με και αποτελεί κριτήριο για την απόδοση του κατηγοριοποιητή με βάση το συγκεκριμένο κατώφλι [28]. Ένα μεγάλο και αξιόπιστο Εμβαδό Κάτω από την Καμπύλη (AUC) μπορεί να ερμηνευτεί ως η πιθανότητα του κατηγοριοποιητή να αποδώσει μεγαλύτερη τιμή σε μια τυχαία επιλεγμένη μη υγιή παρατήρηση από ότι σε μια τυχαία επιλεγμένη υγιή παρατήρηση. -54-

55 Όταν η επιλογή του κατωφλίου γίνεται με στόχο την μεγιστοποίηση του δείκτη Youden, τότε επιζητούμε το μέγιστο της μαθηματικής έκφρασης: { } { }. Το αντιστοιχεί στην μέγιστη απόσταση της καμπύλης ROC από τη βασική διαγώνιο. Η επιλογή του κατωφλίου με κριτήριο τη μεγιστοποίηση του δείκτη Youden έχει το πλεονέκτημα ότι δίνει το ζευγάρι της ευαισθησίας και της εξειδίκευσης που αντιστοιχούν στο βέλτιστο κατώφλι. Επίσης, είναι πολύ σημαντικό ότι ζυγίζει εξίσου την ικανότητα πρόβλεψης της μεθόδου κατηγοριοποίησης στις υγιείς και στις μη υγιείς παρατηρήσεις του συνόλου ελέγχου [26]. Ο δείκτης Youden μηδενίζεται, όταν η μέθοδος έχει την ίδια αναλογία σωστής αναγνώρισης των μη υγιών παρατηρήσεων (TPR) και λάθος αναγνώρισης των υγιών παρατηρήσεων ως μη υγιείς (FPR) στο σύνολο ελέγχου, καθώς. Η τιμή του δείκτη Youden ισούται με τη μονάδα όταν και μόνο όταν δεν υπάρχει καμία λάθος κατηγοριοποίηση σε καμία υγιή και μη υγιή παρατήρηση του συνόλου ελέγχου [27]. Η επιλογή του κατωφλίου με βάση τη καμπύλη ROC φαίνεται σχηματικά στην Εικόνα 3, όπου οι μετρικές της ευαισθησίας και της εξειδίκευσης σε ένα σύνολο ελέγχου απεικονίζονται με δύο κανονικές κατανομές με διακύμανση ίση με 1: οι υγιείς παρατηρήσεις έχουν μέση τιμή 0 και οι μη υγιείς παρατηρήσεις μέση τιμή 2. Στην περίπτωση αυτή, εάν επιλεγεί το κατώφλι να ισούται με το 0, παρατηρούμε πως υπάρχει μία αντίστροφη αναλογία (trade-off) μεταξύ της τιμής της ευαισθησίας και της εξειδίκευσης. Εάν το κατώφλι μετατοπιστεί προς τα δεξιά, μειώνεται η ευαισθησία και αυξάνεται η εξειδίκευση. Αντίθετα, εάν το κατώφλι μετατοπιστεί προς τα αριστερά, μειώνεται η εξειδίκευση και αυξάνεται η ευαισθησία. Το γεγονός αυτό υποδηλώνει πως στην περίπτωση αυτή, μπορεί να έχουμε πολύ διαφορετικές τιμές ευαισθησίας και εξειδίκευσης για την ίδια μέθοδο στο ίδιο σύνολο ελέγχου, εάν επιλεχθούν διαφορετικά κατώφλια. Εάν δεν είναι επαληθεύσιμο ότι έχει χρησιμοποιηθεί κοινό κατώφλι, μια μετα-ανάλυση της ευαισθησίας και της εξειδίκευσης μπορεί να οδηγήσει σε μεροληπτικά (biased) αποτελέσματα [29]. -55-

56 Εικόνα 3: Αποτελέσματα διάγνωσης απεικονιζόμενα με δύο κανονικές κατανομές με διακύμανση ίση με 1: η κανονική κατανομή του υγιούς πληθυσμού έχει μέση τιμή 0 και του μη υγιούς πληθυσμού μέση τιμή 2 (Πηγή: [29]) Στο σημείο αυτό και με βάση το ίδιο παράδειγμα με τις κανονικές κατανομές ευαισθησίας και εξειδίκευσης, θα εξηγήσουμε το κίνητρο για την χρησιμοποίηση του δείκτη Youden ως κριτήριο εύρεσης του βέλτιστου κατωφλίου. Η καλύτερη τιμή αποκοπής (με την έννοια της μεγιστοποίησης του αθροίσματος της ευαισθησίας και της εξειδίκευσης) είναι γνωστό ότι βρίσκεται ως ένα από τα σημεία τομής των δύο καμπυλών κανονικής κατανομής που περιγράφουν τον υγιή και τον μη υγιή πληθυσμό. Εάν οι κανονικές κατανομές έχουν την ίδια διακύμανση, το σημείο αποκοπής είναι απλά ο αριθμητικός μέσος των δύο κανονικών κατανομών, διαφορετικά είναι ένας ζυγισμένος μέσος των δύο μέσων τιμών. Εάν εξετάσουμε τις αλλαγές στην ευαισθησία, την εξειδίκευση και το άθροισμά τους, όπως απεικονίζονται στην Εικόνα 4, παρατηρούμε ότι το άθροισμα μένει σχεδόν σταθερό, ενώ οι επιμέρους μετρικές (ευαισθησία και εξειδίκευση) υφίστανται σημαντικές αλλαγές. Συνεπώς, μπορούμε να αναμένουμε ότι οι πολλές διακυμάνσεις των τιμών της ευαισθησίας και της εξειδίκευσης, εξαιτίας της μεταβολής της τιμής του κατωφλίου, μειώνονται, εάν χρησιμοποιήσουμε το άθροισμά τους, δηλαδή τον δείκτη Youden [29]. -56-

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΗ 07 & ΔΙΑΛΕΞΗ 08 ΣΗΜΠΕΡΑΣΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Βόλος, 016-017 ΕΙΣΑΓΩΓΗ ΣΤΗΝ

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 8: Επαγωγική Στατιστική. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 8: Επαγωγική Στατιστική. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 8: Επαγωγική Στατιστική. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό

Διαβάστε περισσότερα

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων 6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων 6.1 Το Πρόβλημα του Ελέγχου Υποθέσεων Ενός υποθέσουμε ότι μία φαρμακευτική εταιρεία πειραματίζεται πάνω σε ένα νέο φάρμακο για κάποια ασθένεια έχοντας ως στόχο, τα πρώτα θετικά

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας Δειγματοληψία στην εκπαιδευτική έρευνα Είδη δειγματοληψίας Γνωρίζουμε ότι: Με τη στατιστική τα δεδομένα γίνονται πληροφορίες Στατιστική Δεδομένα Πληροφορία Αλλά από πού προέρχονται τα δεδομένα; Πώς τα

Διαβάστε περισσότερα

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ .5. ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ Η μέθοδος κατασκευής διαστήματος εμπιστοσύνης για την πιθανότητα που περιγράφεται στην προηγούμενη ενότητα μπορεί να χρησιμοποιηθεί για την κατασκευή διαστημάτων

Διαβάστε περισσότερα

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n.. Μέτρα Κινδύνου για Δίτιμα Κατηγορικά Δεδομένα Σε αυτή την ενότητα θα ορίσουμε δείκτες μέτρησης του κινδύνου εμφάνισης μίας νόσου όταν έχουμε δίτιμες κατηγορικές μεταβλητές. Στην πιο απλή περίπτωση μας

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 2 Γιατί ανάλυση διακύμανσης; (1) Ας θεωρήσουμε k πληθυσμούς με μέσες τιμές μ 1, μ 2,, μ k, αντίστοιχα Πως μπορούμε να συγκρίνουμε τις μέσες τιμές k πληθυσμών

Διαβάστε περισσότερα

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΣΤΑΤΙΣΤΙΚΕΣ ΕΚΤΙΜΗΣΕΙΣ Οι συναρτήσεις πιθανότητας ή πυκνότητας πιθανότητας των διαφόρων τυχαίων μεταβλητών χαρακτηρίζονται από κάποιες

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρμοσμένες Επιστήμες Στατιστικός Πληθυσμός και Δείγμα Το στατιστικό

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ ΚΕΦΑΛΑΙΟ ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ Ως γνωστό δείγμα είναι ένα σύνολο παρατηρήσεων από ένα πληθυσμό. Αν ο πληθυσμός αυτός θεωρηθεί μονοδιάστατος τότε μπορεί να εκφρασθεί με τη συνάρτηση

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 22 Μαΐου 2017 1/32 Εισαγωγή: Τυπικό παράδειγμα στατιστικού ελέγχου υποθέσεων. Ενας νέος τύπος

Διαβάστε περισσότερα

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική Ενότητα 3: Έλεγχοι υποθέσεων - Διαστήματα εμπιστοσύνης Δρ.Ευσταθία Παπαγεωργίου, Αναπληρώτρια Καθηγήτρια Οι ερευνητικές υποθέσεις Στην έρευνα ελέγχουμε

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test 1 Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου One-Sample t-test 2 Μια σύντομη αναδρομή Στα τέλη του 19 ου αιώνα μια μεγάλη αλλαγή για την επιστήμη ζυμώνονταν στην ζυθοποιία Guinness. Ο William Gosset

Διαβάστε περισσότερα

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017 Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017 2 Η γενική ιδέα της διαδικασίας στατιστικού ελέγχου υποθέσεων Πρόκειται για μια διαδικασία απόφασης μεταξύ δύο υποθέσεων Η μια υπόθεση ονομάζεται μηδενική

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Είδη μεταβλητών Ποσοτικά δεδομένα (π.χ. ηλικία, ύψος, αιμοσφαιρίνη) Ποιοτικά δεδομένα (π.χ. άνδρας/γυναίκα, ναι/όχι) Διατεταγμένα (π.χ. καλό/μέτριο/κακό) 2 Περιγραφή ποσοτικών

Διαβάστε περισσότερα

Είδη Μεταβλητών. κλίµακα µέτρησης

Είδη Μεταβλητών. κλίµακα µέτρησης ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρµοσµένες Επιστήµες Στατιστικός Πληθυσµός και Δείγµα Το στατιστικό

Διαβάστε περισσότερα

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n.. Μέτρα Κινδύνου για Δίτιμα Κατηγορικά Δεδομένα Σε αυτή την ενότητα θα ορίσουμε δείκτες μέτρησης του κινδύνου εμφάνισης μίας νόσου όταν έχουμε δίτιμες κατηγορικές μεταβλητές. Στην πιο απλή περίπτωση μας

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης ΕΘΝΙΚΟ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΙΑΤΡΙΚΗ ΣΧΟΛΗ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΕΦΑΡΜΟΣΜΕΝΗ ΝΕΥΡΟΑΝΑΤΟΜΙΑ» «Βιοστατιστική, Μεθοδολογία και Συγγραφή Επιστημονικής Μελέτης» Ενότητα 2: Έλεγχοι Υποθέσεων

Διαβάστε περισσότερα

Εισαγωγή στην Εκτιμητική

Εισαγωγή στην Εκτιμητική Εισαγωγή στην Εκτιμητική Πληθυσμός Εκτίμηση παραμέτρου πληθυσμού μ, σ 2, σ, p Δείγμα Υπολογισμός στατιστικού Ερώτηματα: Πόσο κοντά στην πραγματική τιμή της παραμέτρου του πληθυσμού βρίσκεται η εκτίμηση

Διαβάστε περισσότερα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα Ανάλυση Διασποράς Έστω ότι μας δίνονται δείγματα που προέρχονται από άγνωστους πληθυσμούς. Πόσο διαφέρουν οι μέσες τιμές τους; Με άλλα λόγια: πόσο πιθανό είναι να προέρχονται από πληθυσμούς με την ίδια

Διαβάστε περισσότερα

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17 ΚΕΦΑΛΑΙΟ 17 ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ Στο κεφάλαιο αυτό θα αναφερθούμε σε ένα άλλο πρόβλημα της Στατιστικής που έχει κυρίως (αλλά όχι μόνο) σχέση με τις παραμέτρους ενός πληθυσμού (τις παραμέτρους της κατανομής

Διαβάστε περισσότερα

Διαστήματα εμπιστοσύνης. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Διαστήματα εμπιστοσύνης. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς Διαστήματα εμπιστοσύνης Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς Διαστήματα εμπιστοσύνης Το διάστημα εμπιστοσύνης είναι ένα διάστημα αριθμών

Διαβάστε περισσότερα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : , Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η :1-0-017, 3-0-017 Διδάσκουσα: Κοντογιάννη Αριστούλα Σκοπός του μαθήματος Η παρουσίαση

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Εισήγηση 4A: Έλεγχοι Υποθέσεων και Διαστήματα Εμπιστοσύνης Διδάσκων: Δαφέρμος Βασίλειος ΤΜΗΜΑ ΠΟΛΙΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΣΧΟΛΗΣ ΚΟΙΝΩΝΙΚΩΝ

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης

Διαβάστε περισσότερα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις

Διαβάστε περισσότερα

Στατιστική Επιχειρήσεων ΙΙ

Στατιστική Επιχειρήσεων ΙΙ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Στατιστική Επιχειρήσεων ΙΙ Ενότητα #4: Έλεγχος Υποθέσεων Μιλτιάδης Χαλικιάς Τμήμα Διοίκησης Επιχειρήσεων Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή: Δειγματοληψία Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ συμβολίζουμε την μέση τιμή: Επομένως στην δειγματοληψία πινάκων συνάφειας αναφερόμαστε στον

Διαβάστε περισσότερα

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40]

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40] Εργαστήριο Μαθηματικών & Στατιστικής η Πρόοδος στο Μάθημα Στατιστική 8// (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) ο Θέμα [4] Τα τελευταία χρόνια παρατηρείται συνεχώς αυξανόμενο ενδιαφέρον για τη μελέτη της συγκέντρωσης

Διαβάστε περισσότερα

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς Η μηδενική υπόθεση είναι ένας ισχυρισμός σχετικά με την τιμή μιας πληθυσμιακής παραμέτρου. Είναι

Διαβάστε περισσότερα

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες Ορισμός Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες αβεβαιότητας. Βασικές έννοιες Η μελέτη ενός πληθυσμού

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 6-7 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

Διάλεξη 1 Βασικές έννοιες

Διάλεξη 1 Βασικές έννοιες Εργαστήριο SPSS Ψ-4201 (ΕΡΓ) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com Διαλέξεις αναρτημένες στο: Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ Διάλεξη

Διαβάστε περισσότερα

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Εκεί που είμαστε Κεφάλαια 7 και 8: Οι διωνυμικές,κανονικές, εκθετικές κατανομές και κατανομές Poisson μας επιτρέπουν να κάνουμε διατυπώσεις πιθανοτήτων γύρω από το Χ

Διαβάστε περισσότερα

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309 Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2017-2018 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 7-8 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 2 Μαΐου 2017 1/23 Ανάλυση Διακύμανσης. Η ανάλυση παλινδρόμησης μελετά τη στατιστική σχέση ανάμεσα

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

Αναλυτική Στατιστική

Αναλυτική Στατιστική Αναλυτική Στατιστική Συμπερασματολογία Στόχος: εξαγωγή συμπερασμάτων για το σύνολο ενός πληθυσμού, αντλώντας πληροφορίες από ένα μικρό υποσύνολο αυτού Ορισμοί Πληθυσμός: σύνολο όλων των υπό εξέταση μονάδων

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας. 7 ο ΜΑΘΗΜΑ ΚΕΦΑΛΑΙΟ 2 ΣΤΑΤΙΣΤΙΚΗ Σκοπός Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας. Προσδοκώμενα αποτελέσματα Όταν θα έχετε ολοκληρώσει τη μελέτη αυτού του κεφαλαίου

Διαβάστε περισσότερα

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής Υποθέσεις του Απλού γραμμικού υποδείγματος της Παλινδρόμησης Η μεταβλητή ε t (διαταρακτικός όρος) είναι τυχαία μεταβλητή με μέσο όρο

Διαβάστε περισσότερα

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ Το ενδιαφέρον επικεντρώνεται πάντα στον πληθυσμό Το δείγμα χρησιμεύει για εξαγωγή συμπερασμάτων για τον πληθυσμό π.χ. το ετήσιο εισόδημα των κατοίκων μιας περιοχής Τα στατιστικά

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium Iii Η Κανονική Κατανομή Λέμε ότι μία τυχαία μεταβλητή X, ακολουθεί την Κανονική Κατανομή με παραμέτρους και και συμβολίζουμε X N, αν έχει συνάρτηση πυκνότητας

Διαβάστε περισσότερα

Περιεχόμενα της Ενότητας. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς Κατανομές Πιθανότητας. Συνεχείς Κατανομές Πιθανότητας.

Περιεχόμενα της Ενότητας. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς Κατανομές Πιθανότητας. Συνεχείς Κατανομές Πιθανότητας. Περιεχόμενα της Ενότητας Στατιστική Ι Ενότητα 5: Συνεχείς Κατανομές Πιθανότητας Δρ. Χρήστος Εμμανουηλίδης Επίκουρος Καθηγητής Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς

Διαβάστε περισσότερα

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου Στατιστική Συμπερασματολογία Εκτιμητική Έλεγχος Στατιστικών Υποθέσεων εκτιμήτρια συνάρτηση, ˆ θ σημειακή εκτίμηση εκτίμηση με διάστημα εμπιστοσύνης

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 3: Ανάλυση γραμμικού υποδείγματος Απλή παλινδρόμηση (2 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Γ. Πειραματισμός - Βιομετρία

Γ. Πειραματισμός - Βιομετρία Γ. Πειραματισμός - Βιομετρία Πληθυσμοί και δείγματα Πληθυσμός Περιλαμβάνει όλες τις πιθανές τιμές μιας μεταβλητής, δηλαδή αναφέρεται σε μια παρατήρηση σε όλα τα άτομα του πληθυσμού Ο πληθυσμός προσδιορίζεται

Διαβάστε περισσότερα

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς Στατιστική Ανάλυση ιασποράς με ένα Παράγοντα One-Way Anova Χατζόπουλος Σταύρος Κεφάλαιο 8ο. Ανάλυση ιασποράς 8.1 Εισαγωγή 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς 8.3 Ανάλυση ιασποράς με

Διαβάστε περισσότερα

Εισαγωγή στη Στατιστική

Εισαγωγή στη Στατιστική Εισαγωγή στη Στατιστική Μετεκπαιδευτικό Σεμινάριο στην ΨΥΧΟΚΟΙΝΩΝΙΚΗ ΑΠΟΚΑΤΑΣΤΑΣΗ ΨΥΧΟΚΟΙΝΩΝΙΚΕΣ ΘΕΡΑΠΕΥΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ Δημήτρης Φουσκάκης, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων

Διαβάστε περισσότερα

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ Συσχέτιση (Correlation) - Copulas Σημασία της μέτρησης της συσχέτισης Έστω μία εταιρεία που είναι εκτεθειμένη σε δύο μεταβλητές της αγοράς. Πιθανή αύξηση των 2 μεταβλητών

Διαβάστε περισσότερα

Χημική Τεχνολογία. Ενότητα 1: Στατιστική Επεξεργασία Μετρήσεων. Ευάγγελος Φουντουκίδης Τμήμα Μηχανολόγων Μηχανικών Τ.Ε.

Χημική Τεχνολογία. Ενότητα 1: Στατιστική Επεξεργασία Μετρήσεων. Ευάγγελος Φουντουκίδης Τμήμα Μηχανολόγων Μηχανικών Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Χημική Τεχνολογία Ενότητα 1: Στατιστική Επεξεργασία Μετρήσεων Ευάγγελος Φουντουκίδης Τμήμα Μηχανολόγων Μηχανικών Τ.Ε. Άδειες Χρήσης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 5-6 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ 9/10/009 ΤΕΙ ΥΤΙΚΗΣ ΜΑΚΕ ΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ Η/Υ ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ 3o ΜΑΘΗΜΑ Ι ΑΣΚΩΝ ΒΑΣΙΛΕΙΑ ΗΣ ΓΕΩΡΓΙΟΣ Emal: gasl@math.auth.gr Ιστοσελίδα Μαθήματος: users.auth.gr/gasl

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ. Καθ. Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 2015 Πληθυσμός: Εισαγωγή Ονομάζεται το σύνολο των χαρακτηριστικών που

Διαβάστε περισσότερα

Περιεχόμενα της Ενότητας. Δειγματοληψία. Δειγματοληψίας. Δειγματοληψία. Τυχαία Δειγματοληψία. Χ. Εμμανουηλίδης, 1.

Περιεχόμενα της Ενότητας. Δειγματοληψία. Δειγματοληψίας. Δειγματοληψία. Τυχαία Δειγματοληψία. Χ. Εμμανουηλίδης, 1. Περιεχόμενα της Ενότητας Στατιστική ΙI Ενότητα 1: Δειγματοληψία και Κατανομές Δειγματοληψίας Δρ. Χρήστος Εμμανουηλίδης Επίκουρος Καθηγητής Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 1. ειγµατοληψία Πιθανοτικές

Διαβάστε περισσότερα

3. ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratified Random Sampling)

3. ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratified Random Sampling) 3 ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratfed Radom Samplg) Είναι προφανές από τα τυπικά σφάλματα των εκτιμητριών των προηγούμενων παραγράφων, ότι ένας τρόπος να αυξηθεί η ακρίβεια τους είναι να αυξηθεί

Διαβάστε περισσότερα

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 2 Η γενική ιδέα της διαδικασίας στατιστικού ελέγχου υποθέσεων Πρόκειται για μια διαδικασία απόφασης μεταξύ δύο υποθέσεων Η μια υπόθεση ονομάζεται μηδενική (Η

Διαβάστε περισσότερα

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309 Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2015-2016 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό

Διαβάστε περισσότερα

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη MSc Τραπεζική & Χρηματοοικονομική Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΕΝΟΤΗΤΕΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ (One-Way Analyss of Varance) Η ανάλυση

Διαβάστε περισσότερα

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για 2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για τον καθορισμό του καλύτερου υποσυνόλου από ένα σύνολο

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΕΙΣ 09-10 ΣΗΜΠΕΡΑΣΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Έλεγχοι υποθέσεων Βόλος, 2016-2017

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 7: Κανονική Κατανομή. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 7: Κανονική Κατανομή. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 7: Κανονική Κατανομή Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Συσχέτιση μεταξύ δύο συνόλων δεδομένων Διαγράμματα διασποράς (scattergrams) Συσχέτιση μεταξύ δύο συνόλων δεδομένων Η οπτική απεικόνιση δύο συνόλων δεδομένων μπορεί να αποκαλύψει με παραστατικό τρόπο πιθανές τάσεις και μεταξύ τους συσχετίσεις,

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΑΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ Συντελεστής συσχέτισης (εκτιμητής Person: r, Y ( ( Y Y xy ( ( Y Y x y, όπου r, Y (ισχυρή θετική γραμμική συσχέτιση όταν, ισχυρή αρνητική

Διαβάστε περισσότερα

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Περιγραφική Ανάλυση ποσοτικών μεταβλητών Περιγραφική Ανάλυση ποσοτικών μεταβλητών Στο data file Worldsales.sav (αρχείο υποθετικών πωλήσεων ανά ήπειρο και προϊόν) Analyze Descriptive Statistics Frequencies Επιλογή μεταβλητής Revenue Πατάμε στο

Διαβάστε περισσότερα

Εισαγωγή στην Ανάλυση Δεδομένων

Εισαγωγή στην Ανάλυση Δεδομένων ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΛΕΞΗ 09-10-2015 Εισαγωγή στην Ανάλυση Δεδομένων Βασικές έννοιες Αν. Καθ. Μαρί-Νοέλ Ντυκέν ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΛΕΞΗ 30-10-2015 1. Στατιστικοί παράμετροι - Διάστημα εμπιστοσύνης Υπολογισμός

Διαβάστε περισσότερα

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης Γραμμική Παλινδρόμηση και Συσχέτιση Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών Εξίσωση παλινδρόμησης Πρόβλεψη εξέλιξης Διμεταβλητές συσχετίσεις Πολλές φορές χρειάζεται να

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x Εργαστήριο Μαθηματικών & Στατιστικής η Πρόοδος στο Μάθημα Στατιστική // (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) ο Θέμα [] Επιλέξαμε φακελάκια (της μισής ουγκιάς) που περιέχουν σταφίδες από την παραγωγή μιας εταιρείας

Διαβάστε περισσότερα

5.1 Ο ΕΛΕΓΧΟΣ SMIRNOV

5.1 Ο ΕΛΕΓΧΟΣ SMIRNOV 5. Ο ΕΛΕΓΧΟΣ SMIRNOV Έστω δύο ανεξάρτητα τυχαία δείγματα, 2,..., n και, 2,..., m n και m παρατηρήσεων πάνω στις τυχαίες μεταβλητές και, αντίστοιχα. Έστω, επίσης, ότι F (), (, ) και F (y), y (, ) είναι

Διαβάστε περισσότερα

ΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ. Γρηγόρης Χλουβεράκης, Ph.D. Αναπληρωτής Καθηγητής Πανεπιστήμιο Κρήτης

ΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ. Γρηγόρης Χλουβεράκης, Ph.D. Αναπληρωτής Καθηγητής Πανεπιστήμιο Κρήτης ΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ Γρηγόρης Χλουβεράκης, Ph.D. Αναπληρωτής Καθηγητής Πανεπιστήμιο Κρήτης Από την περασμένη φορά... Πληθυσμός (population): ένα σύνολο ατόμων Παράμετρος (parameter): χαρακτηριστικό του

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 7. Στατιστικός έλεγχος υποθέσεων

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 7. Στατιστικός έλεγχος υποθέσεων (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ Διάλεξη 7 Στατιστικός έλεγχος υποθέσεων ΠΑΝΕΠΙΣΤΗΜΙΟ

Διαβάστε περισσότερα

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Με τον όρο μη γραμμικές εξισώσεις εννοούμε εξισώσεις της μορφής: f( ) 0 που προέρχονται από συναρτήσεις f () που είναι μη γραμμικές ως προς. Περιέχουν δηλαδή

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 14 Μαρτίου 018 1/34 Διαστήματα Εμπιστοσύνης. Εχουμε δει εκτενώς μέχρι τώρα τρόπους εκτίμησης

Διαβάστε περισσότερα

X = = 81 9 = 9

X = = 81 9 = 9 Πιθανότητες και Αρχές Στατιστικής (11η Διάλεξη) Σωτήρης Νικολετσέας, καθηγητής Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Πανεπιστήμιο Πατρών Ακαδημαϊκό Ετος 2018-2019 Σωτήρης Νικολετσέας, καθηγητής 1 / 35 Σύνοψη

Διαβάστε περισσότερα

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ Έστω τυχαίο δείγμα παρατηρήσεων από πληθυσμό του οποίου η κατανομή εξαρτάται από μία ή περισσότερες παραμέτρους, π.χ. μ. Επειδή σε κάθε δείγμα αναμένεται διαφορετική τιμή του μ, είναι προτιμότερο να επιδιώκεται

Διαβάστε περισσότερα

Περιπτώσεις που η στατιστική συνάρτηση ελέγχου είναι η Ζ: 1. Η σ είναι γνωστή και ο πληθυσμός κανονικός.

Περιπτώσεις που η στατιστική συνάρτηση ελέγχου είναι η Ζ: 1. Η σ είναι γνωστή και ο πληθυσμός κανονικός. ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ: ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ (Πάτρας) Διεύθυνση: Μεγάλου Αλεξάνδρου 1, 263 34 ΠΑΤΡΑ Τηλ.: 2610 369051, Φαξ: 2610 396184, email: mitro@teipat.gr Καθ η γη

Διαβάστε περισσότερα

2.4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ

2.4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ .4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ Η μέθοδος για τον προσδιορισμό ενός διαστήματος εμπιστοσύνης για την άγνωστη πιθανότητα =P(A) ενός ενδεχομένου A συνδέεται στενά με τον διωνυμικό έλεγχο. Ένα

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 13: Επανάληψη Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana 1 Γιατί μελετούμε την Οικονομετρία;

Διαβάστε περισσότερα