Τμήμα Μαθηματικό & Τμήμα Μηχανικών Η/Υ & Πληροφορικής ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ. «Τα Μαθηματικά των Υπολογιστών και των Αποφάσεων»

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Τμήμα Μαθηματικό & Τμήμα Μηχανικών Η/Υ & Πληροφορικής ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ. «Τα Μαθηματικά των Υπολογιστών και των Αποφάσεων»"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ Τμήμα Μαθηματικό & Τμήμα Μηχανικών Η/Υ & Πληροφορικής ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «Τα Μαθηματικά των Υπολογιστών και των Αποφάσεων» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Διαχωριστική Ανάλυση, Ταξινόμηση & Ομαδοποίηση Δεδομένων με Εφαρμογές στο SPSS Βίκυ Λουκίνα Αριθμός Μητρώου: 80 Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Ακαδημαϊκό Έτος: 0/0

2 Οι απόψεις και τα συμπεράσματα που διατυπώνονται σε αυτή τη διπλωματική εργασία εκφράζουν τον συγγραφέα και δεν πρέπει να ερμηνευτεί ότι αντιπροσωπεύουν τις επίσημες θέσεις του Πανεπιστημίου Πατρών.

3 Πρόλογος Η σημερινή ποσότητα των δεδομένων (στα αρχεία ή στις βάσεις δεδομένων) αυξάνεται συνεχώς με έναν εκπληκτικό ρυθμό ενώ ταυτόχρονα απαιτείται πιο εξειδικευμένη ανάλυση της πληροφορίας, η Πολυδιάστατη Ανάλυση Δεδομένων. Με την εφαρμογή των υπολογιστών συστημάτων δημιουργούνται αποδοτικές στατιστικές τεχνικές ώστε να επεξεργάζονται αποτελεσματικά μεγάλες ποσότητες δεδομένων, εξάγοντας χρήσιμη πληροφορία. Περίληψη Αρχικά, στο πρώτο μέρος της διπλωματικής εργασίας μελετώνται οι πολυδιάστατες στατιστικές τεχνικές της Διαχωριστικής Ανάλυσης και της Ταξινόμησης δεδομένων, με σκοπό το διαχωρισμό διαφορετικών ομάδων αντικειμένων και τη κατάταξη νέων αντικειμένων σε προκαθορισμένο σύνολο ομάδων με τη χρήση ενός κανόνα, αντίστοιχα. Η διαδικασία κατασκευής και αξιολόγησης των κανόνων Ταξινόμησης βασίζεται στη κανονικότητα των δεδομένων. Ενώ ο σχηματισμός των γραμμικών συναρτήσεων Fsher για το διαχωρισμό των δεδομένων, υποθέτει ίσους πίνακες διασποράς. Στη συνέχεια παρατίθεται παράδειγμα εφαρμογής των δύο παραπάνω στατιστικών τεχνικών μέσω του στατιστικού πακέτου SPSS. Στο δεύτερο μέρος, εξετάζεται η διερευνητική τεχνική της Ομαδοποίησης δεδομένων, όπου στοχεύει στην οργάνωση των τιμών των αντικειμένων σε συστάδες. Έτσι ώστε να επιτυγχάνεται η μέγιστη ομοιότητα μεταξύ των παρατηρήσεων μέσα σε κάθε ομάδα και η μέγιστη ανομοιότητα μεταξύ των συστάδων, όπου αρχικά θεωρούνται άγνωστες σε αντίθεση με τη Διαχωριστικής Ανάλυση και της Ταξινόμηση όπου θεωρούνται γνωστές. Ο πιο δημοφιλής τρόπος για τον υπολογισμό της ομοιότητας είναι η απόσταση, όμως η εφαρμογή των αλγορίθμων συσταδοποίησης είναι πιο αποδοτικοί για την ομαδοποίηση των δεδομένων. Τέλος, εφόσον οι αλγόριθμοι ομαδοποίησης χωριστούν σε δυο κατηγορίες επιδιώκεται η σύγκριση μεταξύ τους, ως προς την αποτελεσματικότητα τους, με τη χρήση του στατιστικού πακέτου SPSS. Λέξεις κλειδιά: Διαχωρισμός, Ταξινόμηση, Κανόνες Κατάταξης, ρυθμός σφάλματος, Συνάρτηση Fsher, απόσταση, Αλγόριθμοι Ομαδοποίησης, Ιεραρχικοί αλγόριθμοι, Διαμεριστικοί Αλγόριθμοι.

4 Θέλω να ευχαριστήσω όλη την οικογένεια μου για την ηθική υποστήριξη της και το μοναδικό μου Αντρέα που ήταν συνεχώς δίπλα μου με πολύτιμες συμβουλές αλλά κυρίως για την ατελείωτη θετική του σκέψη κατά τη διάρκεια εκπόνησης της διπλωματικής μου εργασίας!

5 ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος... Περίληψη... Ευχαριστίες... Περιεχόμενα..v. ΔΙΑΧΩΡΙΣΜΟΣ & ΤΑΞΙΝΟΜΗΣΗ ΔΕΔΟΜΕΝΩΝ (Dscrmnaton & Classfcaton).. Ορισμοί..... Εφαρμογές... ΤΑΞΙΝΟΜΗΣΗ ΔΕΔΟΜΕΝΩΝ ΓΙΑ ΔΥΟ ΠΛΗΘΥΣΜΟΥΣ... Εισαγωγή Προβλήματα Ταξινόμησης Κανόνες Ταξινόμησης Κανόνας Μέγιστης Πιθανοφάνειας Κανόνας του Bayes Ελαχιστοποίηση της Συνολικής Πιθανότητας Λανθασμένης Κατάταξης Δεσμευμένες Πιθανότητες Οι Συνολικές Πιθανότητες Ελαχιστοποίηση του Κόστους Λανθασμένης Κατάταξης ΤΑΞΙΝΟΜΗΣΗ ΔΥΟ ΠΛΗΘΥΣΜΩΝ ΚΑΝΟΝΙΚΗΣ ΚΑΤΑΝΟΜΗΣ.3.. Εισαγωγή η Περίπτωση: Σ =Σ =Σ η Περίπτωση: ΑΞΙΟΛΟΓΗΣΗ ΣΥΝΑΡΤΗΣΕΩΝ ΚΑΤΑΤΑΞΗΣ ΓΙΑ ΔΥΟ ΠΛΗΘΥΣΜΟΥΣ.4.. Εισαγωγή Τρόποι αξιολόγησης Ρυθμός σφάλματος η Περίπτωση TPM η Περίπτωση AER η Περίπτωση APER 6 v

6 η Περίπτωση Ο Αλγόριθμος της Lanchenbruch s holdout διαδικασίας ΔΙΑΧΩΡΙΣΤΙΚΗ ΣΥΝΑΡΤΗΣΗ FISHER 30.6.ΤΑΞΙΝΟΜΗΣΗ ΠΑΡΑΤΗΡΗΣΕΩΝ ΓΙΑ ΠΕΡΙΣΣΟΤΕΡΟΥΣ ΑΠΟ ΔΥΟ ΠΛΗΘΥΣΜΟΥΣ (g>).6.. Κανόνες κατάταξης για g> ομάδες Ελαχιστοποίηση του Συνολικού Κόστους Λανθασμένης Κατάταξης Ελαχιστοποίηση της Συνολικής Πιθανότητας Λανθασμένης Κατάταξης Κανόνας του Bayes Ταξινόμηση (g>) Κανονικών Πληθυσμών Άνισοι Πίνακες Διασποράς Σ Ισοι Πίνακες Διασποράς Σ=Σ, =,, g ΔΙΑΧΩΡΙΣΤΙΚΗ ΑΝΑΛΥΣΗ FISHER για g-πληθυσμούς.7.. Οι Δειγματικοί Γραμμικοί Διαχωριστές του Fsher Οι Διαχωριστές Fsher στη Ταξινόμηση.47 Παράδειγμα.. ( Διαχωριστής Ανάλυσης και Ταξινόμησης) ΆΛΛΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ ΓΙΑ ΤΗ ΤΑΞΙΝΟΜΗΣΗ ΔΕΔΟΜΕΝΩΝ.8.. Λογιστική Παλινδρόμηση Δέντρα Απόφασης..60. Η ΤΕΧΝΙΚΗ ΤΗΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΔΕΔΟΜΕΝΩΝ (Clusterng).. Εισαγωγή και Ορισμός της Ομαδοποίησης Εφαρμογές.64.. ΜΕΤΡΑ ΟΜΟΙΟΤΗΤΑΣ...Εισαγωγή και Ορισμοί Μέτρα Απόστασης και Συντελεστές Ομοιότητας για τα ζεύγη των αντικειμένων Μέτρα ομοιότητας των αντικειμένων για δυαδικές μεταβλητές Παράδειγμα δυαδικών μεταβλητών 70 v

7 .3. ΑΛΓΟΡΙΘΜΟΙ ΟΜΑΔΟΠΟΙΗΣΗΣ.3.. Στάδια Ομαδοποίησης ΙΕΡΑΡΧΙΚΟΙ ΜΕΘΟΔΟΙ ΟΜΑΔΟΠΟΙΗΣΗΣ.3... Συσσωρευτικοί & Διαιρετικοί Μέθοδοι Σύνδεσμοι Αποστάσεων των Συσσωρευτικών Αλγορίθμων Απόσταση Απλού Συνδέσμου..75. Παράδειγμα Απλού Συνδέσμου Απόσταση Πλήρους Συνδέσμου Παράδειγμα Πλήρους Συνδέσμου Μέση Απόσταση..8.4 Παράδειγμα Μέσου Συνδέσμου Παράδειγμα των τριών Ιεραρχικών Συνδέσμων.84.6 Παράδειγμα των τριών Ιεραρχικών Συνδέσμων Σύγκριση των Συσσωρευτικών αλγορίθμων ΜΗ ΙΕΡΑΡΧΙΚΟΙ (ή ΔΙΑΜΕΡΙΣΤΙΚΟΙ) ΜΕΘΟΔΟΙ ΣΥΣΤΑΔΟΠΟΙΗΣΗΣ Εισαγωγή Αλγόριθμος k-means..9.5 Παράδειγμα Αλγορίθμου k-means Σύγκριση Ιεραρχικών και μη-ιεραρχικών αλγορίθμων.95 Βιβλιογραφία...96 v

8 v

9 . ΔΙΑΧΩΡΙΣΜΟΣ & ΤΑΞΙΝΟΜΗΣΗ ΔΕΔΟΜΕΝΩΝ (Dscrmnaton & Classfcaton).. Ορισμοί Ο Διαχωρισμός και η Ταξινόμηση είναι πολυδιάστατες αναλυτικές τεχνικές, όπου η μεν διαχωριστική ανάλυση ασχολείται με το διαχωρισμό διαφορετικών ομάδων αντικειμένων (παρατηρήσεων ή αλλιώς στιγμιότυπων), ενώ η Ταξινόμηση είναι η διαδικασία με την οποία γίνεται η κατάταξη νέων αντικειμένων σε προκαθορισμένο σύνολο ομάδων με τη χρήση ενός κανόνα. Εν συνεχεία, παρουσιάζονται οι στόχοι των παραπάνω τεχνικών, αρχικά για την Διαχωριστική Ανάλυση και μετέπειτα για την Ταξινόμηση. Η περιγραφή των διαφορετικών χαρακτηριστικών των αντικειμένων από ένα σύνολο γνωστών ομάδων (ή πληθυσμών) με αλγεβρικό ή γραφικό τρόπο, ώστε να προκύπτει ένας ευδιάκριτος διαχωρισμός των τιμών των παρατηρήσεων των διαφορετικών ομάδων. Ο σχηματισμός ενός βέλτιστου κανόνα ο οποίος θα προβλέπει και θα κατατάσσει σωστά όσο το δυνατόν περισσότερα αντικείμενα σε προκαθορισμένες ομάδες. Παρατήρηση Η διαχωριστική συνάρτηση όμως κάποιες φορές εξυπηρετεί ρόλο ταξινομητή παρατηρήσεων σε γνωστές ομάδες και αντίστροφα οι κανόνες κατάταξης μπορεί να προσδιορίζουν μια διαχωριστική διαδικασία. Άρα στη πράξη οι δύο πολυδιάστατες αναλυτικές τεχνικές κάποιες φορές ταυτίζονται γιατί οι στόχοι τους συγχέονται και συνεπώς καθίσταται δύσκολη η διάκριση μεταξύ τους. Σε αυτή τη διπλωματική εργασία γίνεται διάκριση των δύο αυτών τεχνικών, Διαχωριστικής Ανάλυσης και Ταξινόμησης, και μελετώνται ξεχωριστά. - -

10 ... Εφαρμογές Οι έννοιες της Διαχωριστικής Ανάλυσης και της Ταξινόμησης γίνονται πιο κατανοητές με την περιγραφή παραδειγμάτων των εφαρμογών τους. Αρχικά, αναφέρεται ένα παράδειγμα εφαρμογής της Διαχωριστικής Ανάλυσης. Στο χώρο του Marketng ζητείται ο διαχωρισμός επιτυχημένων και αποτυχημένων αγορών ή διαφημιστικών εκστρατειών. Στην πρώτη περίπτωση μια εταιρεία αποφασίζει αν θα μπει σε μια αγορά ή όχι, ενώ στην δεύτερη περίπτωση ποια διαφημιστική εκστρατεία ταιριάζει σε κάθε περίπτωση. Στη συνέχεια αναφέρονται συστήματα ταξινόμησης τα οποία χρησιμοποιούνται από πολλές εταιρείες του ιδιωτικού και του δημόσιου τομέα με σκοπό την έγκριση δανείων και πιστωτικών καρτών, την ιατρική διάγνωση, την ανίχνευση λαθών σε βιομηχανικές εφαρμογές κ.α. Κάποια από αυτά τα παραδείγματα πιο καλά ορισμένα παρουσιάζονται παρακάτω. Το χρηματοοικονομικό τμήμα των τραπεζών ενδιαφέρεται να εντοπίσει «ΚΑΛΟΥΣ» και «ΚΑΚΟΥΣ» πελάτες πριν τη χορήγηση ενός δανείου ή μιας πιστωτικής κάρτας. Ως «ΚΑΛΟΙ» πελάτες θεωρούνται αυτοί που πληρώνουν κανονικά τις δόσεις τους και ως «ΚΑΚΟΙ» πελάτες αυτοί που δεν πληρώνουν. Άρα απαιτείται η ανάγκη δημιουργίας κανόνων, ώστε να κατατάσσει κάθε καινούργιο πελάτη σε μια από τις δύο κατηγορίες και εν συνεχεία να πραγματοποιείται έγκριση ή μη έγκριση του δανείου με όρους σύμφωνους ανάλογα με το επίπεδο κινδύνου που έχει διαγνώσει για το νέο πελάτη. Στην Ιατρική συνήθως το ενδιαφέρον είναι η διάγνωση της ασθένειας κάποιου ασθενή με βάση τα συμπτώματα του. Δεδομένου πως για κάθε ασθένεια είναι γνωστά τα συμπτώματα της, επιδιώκεται η κατασκευή ενός κανόνα που να κάνει διάγνωση για κάθε καινούργιο ασθενή λαμβάνοντας υπόψη τα συμπτώματα του. Τα παραδείγματα προφανώς δεν εξαντλούνται σε αυτά που μόλις αναφέρθηκαν αλλά δείχνουν την ποικιλία εφαρμογών των πολυδιάστατων τεχνικών. Κατά την αναλυτική περιγραφή των δύο παραπάνω παραδειγμάτων παρατηρείται ότι η κατάταξη γίνεται είτε σε δύο ομάδες (παράδειγμα τράπεζας) είτε σε περισσότερες ομάδες (παραδείγματα ιατρικής διάγνωσης). - -

11 .. ΤΑΞΙΝΟΜΗΣΗ ΔΕΔΟΜΕΝΩΝ ΓΙΑ ΔΥΟ ΠΛΗΘΥΣΜΟΥΣ (Κανόνες κατάταξης δυο πληθυσμών/ομάδων) Αρχικά περιγράφεται η πιο απλή περίπτωση ταξινόμησης παρατηρήσεων σε δύο ομάδες, με σκοπό τον σχηματισμό ενός βέλτιστου κανόνα που θα κατατάσσει κάθε καινούργιο αντικείμενο σε μια από τις δύο κατηγορίες ή ομάδες.... Εισαγωγή Οι κανόνες κατάταξης συνήθως δημιουργούνται από τα δεδομένα που υπάρχουν στη διάθεσή μας. Η κάθε πολυδιάστατη παρατήρηση μπορεί να πάρει τη μορφή διανύσματος x x x x, διάστασης px, όπου x, x,... xp οι τιμές των p τυχαίων μεταβλητών. Οι,,... p τιμές των χαρακτηριστικών των τυχαίων μεταβλητών των αντικειμένων που συλλέχθηκαν ξεχωριστά από τις δύο ομάδες εξετάζονται για διαφορές έτσι ώστε να κατασκευαστεί ο κανόνας ταξινόμησης. Οι ομάδες,οι οποίες χαρακτηρίζονται και ως πληθυσμοί συμβολίζονται συνήθως ως π και π, περιγράφονται από τις αντίστοιχες συναρτήσεις πυκνότητας πιθανότητας f x και f x. Το σύνολο όλων των παρατηρήσεων χαρακτηρίζεται ως δειγματικός χώρος, όπου συμβολίζεται με το γράμμα Ω, διαιρείται από το κανόνα κατάταξης σε δύο περιοχές R και Rτέτοιες ώστε αν μια παρατήρηση ανήκει στη περιοχή R τότε κατατάσσεται στον πληθυσμό π και ομοίως αν ανήκει στη περιοχή R τότε η παρατήρηση κατατάσσεται στον πληθυσμό π. Δεδομένου πως κάθε αντικείμενο πρέπει να προσδιοριστεί σε έναν μόνο από τους δύο πληθυσμούς, οι περιοχές R και R θα πρέπει να είναι αμοιβαίως αποκλειόμενες, με άλλα λόγια ξένες μεταξύ τους. Επομένως ισχύει η σχέση R R. Παρουσιάζονται κάποια παραδείγματα ταξινόμησης δύο πληθυσμών. Πληθυσμοί π και π Μεταβλητές Χ. Αγοραστές ή μη ενός νέου προϊόν εισόδημα, μέγεθος οικογένειας,ποσό προηγούμενων αγορών. Καλοί και μη χειριστές πιστωτικών καρτών εισόδημα, ηλικία, αριθμός καρτών - 3 -

12 ... Προβλήματα Ταξινόμησης Βέβαια, δεν είναι πάντα εφικτή η εύρεση του πληθυσμού στον οποίο ανήκει η παρατήρηση που επιδιώκεται να προσδιοριστεί και αυτό επιβεβαιώνεται από τα παρακάτω παραδείγματα. Ελλιπή γνώση της μελλοντικής κατάστασης (Παράδειγμα) Οι υπάλληλοι μιας ιατρικής σχολής επιθυμούν να ταξινομήσουν τους πρωτοετείς φοιτητές σε δύο κατηγορίες, είτε ότι μπορούν να αποφοιτήσουν είτε ότι δεν μπορούν να αποφοιτήσουν. Αυτό όμως μπορεί να γίνει με βάση τις βαθμολογίες των τεστ, τα αποτελέσματα των εργαστηρίων ή και άλλων τρόπων αξιολόγησης των φοιτητών κατά τη διάρκεια φοίτησης τους μέσα στο κολέγιο. Οπότε, ο ακριβής διαχωρισμός των φοιτητών θα μπορέσει να πραγματοποιηθεί μετά από μερικά χρόνια εκπαίδευσης. Τέλεια ή ακριβή πληροφόρηση απαιτεί καταστροφή του αντικειμένου (Παράδειγμα) Αδυναμία ταξινόμησης των μπαταριών ως προς το χρόνο ζωής τους αλλά και ως προς την ποιότητα του προϊόντος, αν δηλαδή είναι καλό ή χαλασμένο, γιατί αυτό απαιτεί την χρήση τους. Μη διαθέσιμη ή ακριβή πληροφορία (Παράδειγμα) Ας υποτεθεί ότι υπάρχουν κάποια συγκεκριμένα ανυπόγραφα papers τα οποία έχουν γραφτεί από δύο γνωστούς καθηγητές Πανεπιστημίου. Σκοπός είναι να καθοριστεί ποιος από τους δύο καθηγητές έγραψε τα ανυπόγραφα papers. Σαφώς δεν μπορούν να ερωτηθούν οι ίδιοι οι καθηγητές, οπότε η ταξινόμηση των papers μπορεί να γίνει από τη συχνότητα των λέξεων ή από τα μήκη των προτάσεων. Σύμφωνα με τα παραπάνω, γίνεται σαφές ότι η μέθοδος ταξινόμησης δεν μπορεί να παρέχει ένα κανόνα κατάταξης χωρίς κάποιο σφάλμα (ανάθεσης). Αυτό οφείλεται στη μη καθαρή διάκριση ανάμεσα στα παρατηρούμενα χαρακτηριστικά του κάθε πληθυσμού, λόγω επικάλυψης των ομάδων. Δηλαδή είναι πιθανό να ταξινομηθεί λανθασμένα μια παρατήρηση στο πληθυσμό π ενώ στη πραγματικότητα ανήκει στο πληθυσμό π ή αντίστοιχα μια παρατήρηση να τοποθετηθεί στο πληθυσμό π δεδομένου πως προέρχεται από το πληθυσμό π

13 Συνεπώς, θα πρέπει να κατασκευαστεί ένας κανόνας κατάταξης ο οποίος να ελαχιστοποιεί την πιθανότητα των λανθασμένων ταξινομήσεων...3. ΚΑΝΟΝΕΣ ΤΑΞΙΝΟΜΗΣΗΣ..3.. Κανόνας Μέγιστης Πιθανοφάνειας Ο κανόνας της μέγιστης πιθανοφάνειας αποτελεί το πιο απλό κανόνα κατάταξης αντικειμένων και στηρίζεται στην ιδέα της πιθανοφάνειας γιατί κατατάσσει κάθε πολυμεταβλητή παρατήρηση στο πληθυσμό από τον οποίο είναι πιο πιθανό να προέλθει. Όπου f x και f x οι πολυδιάστατες συναρτήσεις πυκνότητας πιθανότητας ή αλλιώς πιθανοφάνειες των πληθυσμών π και π αντίστοιχα. Έστω παρατήρηση με μορφή διανύσματος. x o η καινούργια πολυμεταβλητή Ο κανόνας της μέγιστης πιθανοφάνειας γίνεται ως εξής: Αν f( xo) f( xo) τότε η παρατήρηση x o κατατάσσεται στο πληθυσμό π. (-) Αν f( xo) f( xo) τότε η παρατήρηση x o κατατάσσεται στο πληθυσμό π. (-) Στη περίπτωση των δύο πληθυσμών ο κανόνας αυτός ορίζει τις περιοχές R και R σύμφωνα με τις σχέσεις (-3), (-4) αντίστοιχα. f( x ) Για την περιοχή R ισχύει: (-3) f ( x ) f( x) Ενώ για την περιοχή R ισχύει: (-4) f ( x )..3.. Κανόνας του Bayes Ο κανόνας του Bayes, σε αντίθεση με το κανόνα της μέγιστης πιθανοφάνειας, λαμβάνει υπόψη του τη πιθανότητα να παρθεί παρατήρηση από κάθε πληθυσμό. Δηλαδή λαμβάνει υπόψη του το διαφορετικό μέγεθος των δύο πληθυσμών, το οποίο θεωρείτο απαραίτητο για το σχηματισμό βέλτιστης ταξινόμησης. Αξίζει να σημειωθεί ότι με τη χρήση του κανόνα Bayes επιτυγχάνεται βέλτιστη απόδοση γιατί με αυτή τη μέθοδο ελαχιστοποιείται η συνολική πιθανότητα λάνθασμένης κατάταξης

14 Έστω p είναι η εκ των προτέρων πιθανότητα του πληθυσμού π και p είναι η εκ των προτέρων πιθανότητα του πληθυσμού π, οι οποίες ικανοποιούν τη σχέση p + p =. Ο κανόνας του Βayes χρησιμοποιεί για την κατάταξη των παρατηρήσεων την εκ των υστέρων πιθανότητα. Οι τύποι των εκ των υστέρων πιθανοτήτων είναι οι παρακάτω: ( ) P P(, x) P x f( x) p P( x) P( x) P( x ) P P( x ) P f ( x) p f ( x) p (-5) f ( x) p P( x) P( x) f( x) p f( x) p (-6) Σημείωση: Το γινόμενο της πιθανοφάνειας και της εκ των προτέρων πιθανότητας είναι αυτό που καθορίζει τη τιμή της εκ των υστέρων πιθανότητας. Ο παράγοντας P x μπορεί να θεωρηθεί περισσότερο ως ένας παράγοντας κανονικοποίησης που εγγυάται ότι το άθροισμα των εκ των υστέρων πιθανοτήτων θα ισούται με τη μονάδα. Έστω x o η καινούργια παρατήρηση η οποία κατατάσσεται στον πληθυσμό με τη μεγαλύτερη εκ των υστέρων πιθανότητα. Δηλαδή ο κανόνας έχει τη μορφή: Αν P( xo) P( xo) τότε κατέταξε το x o στον πληθυσμό π. (-7) Αλλιώς αν P( xo) P( xo) τότε κατέταξε το x o στον πληθυσμό π. (-8) f( xo) p f( xo) p Όμως, P( xo) P( xo) f ( x ) p f ( x ) p f ( x ) p f ( x ) p o o o o f ( x ) p f( xo) p f( xo) o p f ( x ) p o Οπότε, στη περίπτωση των δύο πληθυσμών ο κανόνας του Bayes ορίζει τις περιοχές R και R σύμφωνα με τις ακόλουθες σχέσεις: f ( x ) p f( x ) p και R : (-9),(-0) f ( x ) p R : f ( x ) p - 6 -

15 Ελαχιστοποίηση της Συνολικής Πιθανότητας Λανθασμένης Κατάταξης (Ορισμοί) Δεσμευμένες Πιθανότητες Η δεσμευμένη πιθανότητα P(/), της κατάταξης μιας παρατήρησης στον πληθυσμό π ενώ στη πραγματικότητα προέρχεται από τον πληθυσμό π, είναι το ολοκλήρωμα της συνάρτησης πυκνότητας πιθανότητας που συμβολίζει τον όγκο της πάνω στη περιοχή R και δίνεται από το τύπο (-): P \ P x R \ f ( x) dx (-) R Ομοίως, η δεσμευμένη πιθανότητα P(/), της κατάταξης μιας παρατήρησης στο πληθυσμό π ενώ στη πραγματικότητα προέρχεται από το πληθυσμό π, είναι το ολοκλήρωμα της συνάρτησης πυκνότητας πιθανότητας που συμβολίζει τον όγκο της πάνω στη περιοχή R και δίνεται από το τύπο (-): P \ P x R \ f ( x) dx (-) R Οι δεσμευμένες πιθανότητες P(/), P(/) απεικονίζονται στο παρακάτω σχήμα για συγκεκριμένες συναρτήσεις πυκνότητας πιθανότητα f x, f x στην μονοδιάστατη περίπτωση (p=). Σχήμα. H απεικόνιση των δεσμευμένων πιθανοτήτων P(/) και P(/) - 7 -

16 Επιπλέον, η δεσμευμένη πιθανότητα κατάταξης μιας παρατήρησης στο πληθυσμό π όταν στη πραγματικότητα ανήκει στο πληθυσμό π είναι: \ \ P P x R f x dx (-3) R Ενώ η δεσμευμένη πιθανότητα κατάταξης μιας παρατήρησης στο πληθυσμό π όταν στη πραγματικότητα ανήκει στο πληθυσμό π είναι: \ \ P P x R f x dx (-4) R Οι Συνολικές Πιθανότητες Οι συνολικές πιθανότητες σωστής κατάταξης προκύπτουν από το γινόμενο των εκ των προτέρων πιθανοτήτων p και p με τις αντίστοιχες δεσμευμένες πιθανότητες κατάταξης P(\), P(\). Ομοίως, οι συνολικές πιθανότητες λανθασμένης κατάταξης προκύπτουν από το γινόμενο των εκ των προτέρων πιθανοτήτων p και p με τις αντίστοιχες δεσμευμένες πιθανότητες κατάταξης P(\), P(\).. P (σωστά κατατάσσεται στο π ) = P (η παρατήρηση προέρχεται από το π και σωστά κατατάσσεται στο π ) = \ \ P x R P P p. P (λανθασμένα κατατάσσεται στο π ) = P (η παρατήρηση προέρχεται από το π και λανθασμένα κατατάσσεται στο π ) = \ \ P xr P P p (-5) \ 3. P (σωστά κατατάσσεται στο π ) = P p 4. P (λανθασμένα κατατάσσεται στο π ) = P \ p (-6) Υπάρχουν περιπτώσεις όπου οι κανόνες κατάταξης δύο πληθυσμών κατατάσσουν τις παρατηρήσεις ανάλογα με τις πιθανότητες λανθασμένης κατάταξης. Σκοπός είναι η ελαχιστοποίηση της συνολικής πιθανότητας λανθασμένων κατατάξεων όπου συμβολίζεται με ΤPM και ορίζεται ως εξής: \ \ TPM p P p P p f x dx p f x dx R R (-7) - 8 -

17 Από την ελαχιστοποίηση της συνολικής πιθανότητας λανθασμένης κατάταξης, ΤPM προκύπτει ο κανόνας κατάταξης Bayes. Απόδειξη (της παραπάνω πρότασης) Η συνολική πιθανότητα λανθασμένων κατατάξεων που δίνεται από την σχέση (-7) είναι η εξής: \ \ TPM p P p P p f x dx p f x dx R R Επειδή ισχύει η σχέση R R τότε η συνολική πιθανότητα είναι: f x dx f x dx f x dx R R R R f x dx f x dx Αν αντικατασταθεί το ολοκλήρωμα της προκύπτει: f x στο τύπο TPM από τη παραπάνω σχέση TPM p f xdx p f xdx R R R R p p f x dx p f x dx R p p f x p f x dx Επειδή όμως οι εκ των προτέρων πιθανότητες p και p επιπλέον οι συναρτήσεις πυκνότητας πιθανότητας f x και f x είναι μη αρνητικές ποσότητες το TPM ελαχιστοποιείται εάν το παραπάνω ολοκλήρωμα γίνει μικρότερο ή ίσο του μηδενός. Δηλαδή: p f x p f xdx 0 p f x p f x R 0 p f x p f x f x p f x p - 9 -

18 Ελαχιστοποίηση του Κόστους Λανθασμένης Κατάταξης (Εισαγωγή για τη προσθήκη του κόστους) Όπως αναφέρθηκε προηγουμένως ένας κανόνας κατάταξης ενδέχεται να κατατάξει λανθασμένα μερικές παρατηρήσεις μέσα στους δύο πληθυσμούς. Σε αυτή λοιπόν τη περίπτωση ενδέχεται η κατάταξη μιας παρατήρησης π στο πληθυσμό π να παριστάνει ένα πιο σοβαρό σφάλμα από ότι η κατάταξη μιας παρατήρησης π στο πληθυσμό π. Επομένως, ένας βέλτιστος κανόνας κατάταξης θα πρέπει να λαμβάνει υπόψη του τα κόστη που σχετίζονται με τις λανθασμένες κατατάξεις. Παρατήρηση Όταν οι κανόνες κατάταξης σχηματίζονται μόνο με βάση τις λανθασμένες πιθανότητες κατάταξης χωρίς να λαμβάνονται υπόψη τα κόστη λανθασμένης κατάταξης τότε είναι πολύ πιθανό να δημιουργηθούν προβλήματα στη ταξινόμηση. Για παράδειγμα, ακόμη και μια μικρή φαινομενικά δεσμευμένη πιθανότητα όπως P(\)=0.07 ίσως να είναι αρκετά μεγάλη ένα το κόστος της λανθασμένης ταξινόμησης στο πληθυσμό π (ενώ ανήκει στο πληθυσμό π ) είναι αρκετά υψηλό. Στο πίνακα. καθορίζονται τα κόστη των λανθασμένων κατατάξεων: Κατατάσσεται ως: Πίνακας. π π Πραγματικός πληθυσμός: π 0 c (\) π c (\) 0 Παρατηρήσεις του πίνακα. Ο πίνακας κόστους είναι ένας τετραγωνικός πίνακας (nxn),όπου το n συμβολίζει το σύνολο των πληθυσμών και στη συγκεκριμένη περίπτωση επειδή το n= ο πίνακας είναι (x). Στη κύρια διαγώνιο του πίνακα το κόστος είναι μηδέν γιατί πρόκειται για σωστή κατάταξη ενώ το c(\) συμβολίζει το κόστος της λανθασμένης ταξινόμησης στο πληθυσμό π ενώ στη - 0 -

19 πραγματικότητα ανήκει στο πληθυσμό π. Αντίστοιχα, το c(\) συμβολίζει το κόστος της λανθασμένης ταξινόμησης στο πληθυσμό π στη πραγματικότητα ανήκει στο πληθυσμό π. Στη περίπτωση των δύο πληθυσμών το μέσο ή αναμενόμενο κόστος λανθασμένης ταξινόμησης του κανόνα κατάταξης, το οποίο συμβολίζεται ως ECM, ορίζεται από τη σχέση: \ \ \ \ ECM c P p c P p (-8) Σημείωση: Ένας κανόνας κατάταξης πρέπει να έχει όσο το δυνατόν μικρότερο ECM. Οπότε, προκύπτει το παρακάτω θεώρημα ως γενίκευση του κανόνα Bayes (προσθήκη κόστους) με το ελάχιστο αναμενόμενο κόστος λανθασμένης ταξινόμησης. ΘΕΩΡΗΜΑ Οι ανισότητες (-9), (-0) ορίζουν τις βέλτιστες περιοχές R και R με τέτοιο τρόπο έτσι ώστε να επιτυγχάνεται το ελάχιστο αναμενόμενο κόστος ECM : Για τη περιοχή R ισχύει: f x c \ p (-9) f x c \ p Για τη περιοχή R ισχύει: ΑΠΟΔΕΙΞΗ f x c \ p (-0) f x c \ p Γνωρίζουμε ότι: ECM ECM ECM \ \ \ \ ECM c P p c P p Όμως : P \ P x R \ f ( x) dx R P \ P x R \ f ( x) dx R ECM c \ f ( x) dx p c \ f ( x) dx p Άρα η παραπάνω σχέση γίνεται: R R - -

20 Επειδή ισχύει η σχέση R R τότε η συνολική πιθανότητα είναι: f x dx f x dx f x dx R R R R f x dx f x dx Αν αντικατασταθεί το ολοκλήρωμα της προκύπτει: f x στο τύπο ECM από τη παραπάνω σχέση ECM c \ p f xdx c\ p f xdx R R \ \ \ c p c p f x dx c p f x dx R R \ \ \ c p c p f x dx c p f x dx R R \ \ \ c p c p f x c p f x dx R Όμως, οι εκ των προτέρων πιθανότητες p, p επιπλέον τα κόστη c(\), c(\) είναι μη αρνητικές ποσότητες. Επίσης, οι συναρτήσεις πυκνότητας πιθανότητας f x, f x είναι θετικές ή μηδενικές για κάθε τιμή του διανύσματος x άρα και οι μοναδικές ποσότητες στο ECM που εξαρτώνται από το x. Συνεπώς το ECM ελαχιστοποιείται αν η περιοχή πάρει εκείνες τις τιμές του διανύσματος x για τις οποίες το παραπάνω ολοκλήρωμα γίνει μικρότερο ή ίσο του μηδενός. Δηλαδή: R c \ p f x c \ p f x dx 0 c \ p f x c \ p f x 0 \ \ c p f x c p f x f x \ c p f x c \ p - -

21 Παρατηρήσεις του Θεωρήματος Από το θεώρημα προκύπτει ότι το βέλτιστο αναμενόμενο κόστος, ECM, (ή αντίστοιχα οι βέλτιστες περιοχές) απαιτεί το σχηματισμό του λόγου των συναρτήσεων πυκνότητας πιθανότητας όπου προσδιορίζεται από τη καινούργια παρατήρηση x o, το λόγο των κοστών και το λόγο των εκ των προτέρων πιθανοτήτων. Η εμφάνιση των λόγων στο θεώρημα για τον προσδιορισμό των βέλτιστων περιοχών κατάταξης είναι σημαντικός λόγω ευκολίας υπολογισμού σε σχέση με τα ξεχωριστά μέρη/συνιστώσες του λόγου. Ειδικές Περιπτώσεις του Θεωρήματος p (α) Αν p (Δηλαδή ίσες οι εκ των προτέρων πιθανότητες.) Τότε f x c R f x c \ :, \ f x c R : f x c \ \ (β) Αν c c \ \ (Δηλαδή ίσα κόστη λανθασμένης κατάταξης.) Τότε R f x p f x p :, R f x p : f x p (γ) Αν p p c \ (Δηλαδή ίσες οι εκ των προτέρων πιθανότητες & ίσα κόστη) c \ Τότε x f R f x :, x f R f x : Σχόλια των Ειδικών Περιπτώσεων (α) Όταν οι εκ των προτέρων πιθανότητες είναι άγνωστες, αυτές λαμβάνονται να είναι ίσες και τότε ο κανόνας κατάταξης περιλαμβάνει σύγκριση του λόγου των συναρτήσεων πυκνότητας πιθανότητας των πληθυσμών με το λόγο των λανθασμένων κοστών κατάταξης. (β) Όταν ο λόγος των κοστών των λανθασμένων κατατάξεων είναι άγνωστος, αυτός λαμβάνεται να είναι η μονάδα και τότε ο λόγος των συναρτήσεων πυκνότητας πιθανότητας - 3 -

22 των πληθυσμών συγκρίνεται με το λόγο των εκ των προτέρων πιθανοτήτων. Οπότε σε αυτήν τη περίπτωση ο κανόνας κατάταξης παίρνει τη μορφή του κανόνα κατάταξης Bayes. (γ) Όταν ο λόγος των κοστών των λανθασμένων κατατάξεων και επίσης ο λόγος των εκ των προτέρων πιθανοτήτων είναι η μονάδα ή ο ένας λόγος είναι αντίστροφος του άλλου τότε οι περιοχές βέλτιστης κατάταξης καθορίζονται από τη σύγκριση των τιμών των συναρτήσεων πυκνότητας πιθανότητας. Παρατηρείται λοιπόν ότι ο κανόνας της ειδικής περίπτωσης (γ) ταυτίζεται με τον απλό κανόνα κατάταξης της πιθανοφάνειας. Γενικά σχόλια: Οι κανόνες κατάταξης που παρουσιάστηκαν εμφανίζουν μια κλιμάκωση όσο αναφορά το τι λαμβάνουμε υπόψη μας για να κατατάξουμε τις παρατηρήσεις. Ο κανόνας της πιθανοφάνειας είναι ο πιο απλός γιατί στηρίζεται μόνο στο τι φαίνεται πιο πιθανό να συμβεί. Στη συνέχεια, ο κανόνας του Bayes λαμβάνει υπόψη του μαζί με τις πιθανοφάνειες των πληθυσμών και τις εκ των προτέρων πιθανότητες κάθε ομάδας, ενώ ο τελευταίος κανόνας θεωρείτο μια γενικευμένη μορφή του κανόνα Bayes διότι υπολογίζεται και το κόστος λανθασμένης κατάταξης. Συνεπώς, όλα τα κριτήρια είναι της μορφής f x f x c όπου c είναι μια σταθερά η οποία διαφοροποιείται ανάλογα με το κανόνα κατάταξης..3. ΤΑΞΙΝΟΜΗΣΗ ΔΥΟ ΠΛΗΘΥΣΜΩΝ ΚΑΝΟΝΙΚΗΣ ΚΑΤΑΝΟΜΗΣ.3.. Εισαγωγή Σε αυτήν την ενότητα θα κατασκευαστεί (συνάρτηση ή κανόνας) ταξινόμησης υποθέτοντας κανονικότητα των πληθυσμών. Η πολυδιάστατη κανονική κατανομή είναι η πιο συχνή επιλογή για τη κατανομή των δεδομένων μέσα σε κάθε ομάδα γιατί υπερισχύει στην εφαρμογή των στατιστικών μεθόδων λόγω της απλότητας και της εύλογα υψηλής αποδοτικότητας τους μέσα από μια μεγάλη ποικιλία πληθυσμιακών μοντέλων. Έστω ότι με,,... p συμβολίζεται το σύνολο των τυχαίων μεταβλητών και με x x, x,..., x p συμβολίζεται η τυχαία πολυδιάστατη παρατήρηση. Τότε στη περίπτωση των δύο πληθυσμών ισχύει: Για τον πληθυσμό π : - 4 -

23 όπου οι παράμετροι και Σ προσδιορίζουν την κανονική συνάρτηση πυκνότητας πιθανότητας f ( x ). Αντίστοιχα, για τον πληθυσμό π : Όπου οι παράμετροι και Σ προσδιορίζουν την κανονική συνάρτηση πυκνότητας πιθανότητας f ( x ). Τα και είναι τα διανύσματα μέσων (διάστασης px) και είναι της μορφής: Για το πληθυσμό π : Ενώ για το πληθυσμό π : p p p p Επιπλέον, Σ και Σ είναι πίνακες συνδιασποράς διαστάσεων pxp για τους πληθυσμούς π και π αντίστοιχα της παρακάτω μορφής: Var( ) Cov(, )... Cov(, ) Cov Var Cov Cov Cov(, p) Cov(, p)... Var( p) p (, ) ( )... ( p, ),, Η ειδική περίπτωση των ίσων πινάκων συνδιακύμανσης οδηγεί σε μια ιδιαίτερα απλή γραμμική στατιστική ταξινόμησης..3.. η Περίπτωση: Σ =Σ =Σ Στη πρώτη περίπτωση γίνεται η υπόθεση ότι οι δύο πληθυσμοί έχουν ίσους πίνακες διασποράς, δηλαδή Σ =Σ =Σ και επιπλέον ότι οι πληθυσμιακές παράμετροι, και Σ - 5 -

24 είναι γνωστές. Οι πολυδιάστατοι πληθυσμοί π και π περιγράφονται από τις παρακάτω κανονικές συναρτήσεις πυκνότητας πιθανότητας. Για το πληθυσμό π η κανονική σ.π.π. δίνεται από τη σχέση (-): f ( x) exp x x p (-) Ενώ για το πληθυσμό π η κανονική σ.π.π. δίνεται από τη σχέση (-): f ( x) exp x x p (-) Παρατήρηση: Η ποσότητα x x,, ορίζει ένα τετραγωνικό μέτρο απόστασης της παρατήρησης x από το μέσο του πληθυσμού, γνωστή ως απόσταση Mahalanobs x x. Σκοπός είναι να κατασκευαστεί ένας κανόνας κατάταξης που να ελαχιστοποιεί το αναμενόμενο σφάλμα λανθασμένης κατάταξης, ECM. Οι παρακάτω ανισότητες ορίζουν τις βέλτιστες περιοχές R και R σύμφωνα με το θεώρημα, με τέτοιο τρόπο έτσι ώστε να επιτυγχάνεται το ελάχιστο μέσο κόστος. Για τη περιοχή R ισχύει η σχέση: Για τη περιοχή R ισχύει η σχέση: f x c \ p (-9) f x c \ p f x c \ p (-0) f x c \ p Αν οι παραπάνω συναρτήσεις πυκνότητας πιθανότητας αντικατασταθούν από τη κανονική τους μορφή που δίνονται από τους τύπους (-) και (-) τότε προκύπτει η εξής σχέση (- 3): x x x x c(/ ) p exp c( /) p (-3) Στη συνέχεια σχηματίζονται οι περιοχές κατάταξης για τους πληθυσμούς π και π από τους ακόλουθους τύπους

25 c(/ ) p R : exp x x x x c( /) p c(/ ) p R : exp x x x x c( /) p Δοθέντος των περιοχών R και R μπορεί να κατασκευαστεί ο ακόλουθος κανόνας κατάταξης. ΘΕΩΡΗΜΑ Έστω οι πληθυσμοί π και π οι οποίοι περιγράφονται από τις σ.π.π των τύπων (-) και (.) τότε ο κανόνας κατάταξης που ελαχιστοποιεί το ECM δίνεται από τις σχέσεις (-4)& (-5): c(/ ) p Αν xo ln c( /) p (-4) τότε κατέταξε τη παρατήρηση xo στο πληθυσμό π. c(/ ) p Αλλιώς, αν xo ln c( /) p (-5) τότε κατέταξε τη παρατήρηση x o στο πληθυσμό π. ΑΠΟΔΕΙΞΗ Μια παρατήρηση κατατάσσεται στη περιοχή R αν: x x x x c(/ ) p exp c( /) p x x x x c(/ ) p ln exp ln c( /) p x x x x c(/ ) p ln c( /) p Όμως το πρώτο μέλος της παραπάνω ανίσωσης μετά από την ακόλουθη διαδικασία πράξεων: x x x x - 7 -

26 x x x x x x x x x x x x x x x x x x Καταλήγει στη μορφή (-6): x. (-6) Άρα προκύπτει η ισότητα: x x x x x Οπότε, οι βέλτιστες περιοχές R και R δίνονται από τις παρακάτω σχέσεις: c(/ ) p R : x ln c( /) p (-7) c(/ ) p R : x ln. (-8) c( /) p Στη πράξη όμως οι πληθυσμιακές παράμετροι, και Σ είναι άγνωστες για το λόγο αυτό εκτιμούνται από τις δειγματικές ποσότητες. Έστω, ένα δείγμα n παρατηρήσεων για το πληθυσμό π και ένα δείγμα n παρατηρήσεων για το πληθυσμό π. Οι αντίστοιχοι πίνακες δεδομένων για το διάνυσμα,,..., p,διάστασης px, είναι: x x x x Για το πληθυσμό π : - 8 -

27 x, x, x3,..., x n x, x, x3,..., x n,, 3,..., pxn x x x x n... x p, x p, x3 p,..., x n p,διάστασης (pxn ) (-9) Όπου το xσυμβολίζει το πρώτο διάνυσμα στήλης του πίνακα δεδομένων του πληθυσμού π και εκφράζει τη πρώτη πολυμεταβλητή παρατήρηση διάστασης p, ομοίως το x συμβολίζει τη δεύτερη πολυδιάστατη παρατήρηση διάστασης p του πληθυσμού π κ.ο.κ. Για το πληθυσμό π : x, x, x3,..., xn x, x, x3,..., xn,, 3,..., pxn x x x x n...,διάστασης (pxn ) (-30) x p, x p, x3 p,..., xn p Όπου το x συμβολίζει το πρώτο διάνυσμα στήλης του πίνακα δεδομένων του πληθυσμού π και εκφράζει τη πρώτη πολυδιάστατη παρατήρηση διάστασης p, ομοίως το x συμβολίζει το τη δεύτερη πολυδιάστατη παρατήρηση του πληθυσμού π κ.ο.κ. Επιπλέον, θα πρέπει να ισχύει η σχέση n n p, δηλαδή το άθροισμα των παρατηρήσεων του πληθυσμού π και του πληθυσμού π μειωμένο κατά δύο μονάδες θα πρέπει να ισούται ή να υπερβαίνει το σύνολο των μεταβλητών. Οι πληθυσμιακοί μέσοι και εκτιμούνται από τις δειγματικές μέσες τιμές x και x αντίστοιχα, τα οποία είναι διανύσματα μέσων τιμών διαστάσεων px και ορίζονται ως: p n xj n j n n j j x n x x j j x x n p j x x pj και x p n xj n j n n j j x n x x j j x n p j x x pj - 9 -

28 Ακόμα, οι πίνακες συνδιασποράς Σ και Σ εκτιμούνται από τους δειγματικούς πίνακες συνδιασποράς S και S αντίστοιχα, οι οποίοι είναι πίνακες διαστάσεων pxp και ορίζονται ως εξής: n S x x x x p p j j και S xj x xj x n j n n j Επειδή όμως οι πληθυσμοί π και π έχουν τον ίδιο πίνακα πληθυσμιακής διασποράς Σ =Σ =Σ απαιτείται ο συνδυασμός και των δύο δειγματικών πινάκων διασποράς S και S, δίνοντας επιπλέον την αντίστοιχη βαρύτητα σε κάθε μία από τις δειγματικές διασπορές ανάλογα με το μέγεθος τους. Οπότε η σταθμισμένη διασπορά δίνεται από τον τύπο (-3): n n n S n S S pooled S S n n n n n n (-3) Σημείωση: Ο σταθμισμένος μέσος ή σταθμική εκτιμήτρια S p της κοινής διασποράς Σ είναι αμερόληπτη εκτιμήτρια του Σ. Άρα αν στο Θεώρημα αντικατασταθούν οι πληθυσμιακές ποσότητες (,, Σ) με τις αντίστοιχες δειγματικές τους εκτιμήτριες ( x, x,s P ) τότε προκύπτει: (εκτιμώμενο αναμενόμενο ελάχιστο κόστος) c(/ ) p ln Αν x x S x x x S x x pooled o pooled c( /) p (-3) τότε κατέταξε τη παρατήρηση xo στο πληθυσμό π. c(/ ) p ln Αλλιώς αν x x S x x x S x x pooled o pooled c( /) p (-33) τότε κατέταξε τη παρατήρηση x o στο πληθυσμό π. Οπότε οι βέλτιστες περιοχές R και R προσδιορίζονται από τις σχέσεις (-34) και (-35), αντίστοιχα: ˆ (/ ) : c p R x x S pooled x x x S pooled x x ln c( /) p (-34) - 0 -

29 ˆ (/ ) : c p R x x S pooled x x x S pooled x x ln c( /) p (-35) c(/ ) p Παρατήρηση: Αν στις ανισότητες (-34) και (-35) υποτεθεί ότι = τότε c( /) p ln 0, οπότε τροποποιείται η μορφή του κανόνα, όπως φαίνεται από τη παρακάτω διαδικασία: 0 x x S x x x S x x pooled o pooled x x S x x x S x x pooled o pooled x x S pooled xo x x S pooled x x x S pooled x x x S ˆ τότε η παραπάνω σχέση γίνεται: Αν όπου pooled ˆ xo l x l x ˆ x ˆ ˆ o x x Αν όπου ˆ xo y y y y, ˆ x y και ˆ x y τότε: Οπότε αν ισχύει ότι και y y m y x x S x ˆ x (-36) pooled (-37) Τότε ο κανόνας παίρνει τη τελική του μορφή: Αν y m τότε κατέταξε τη παρατήρηση x o στο πληθυσμό π. Αλλιώς αν y m τότε κατέταξε τη παρατήρηση x o στο πληθυσμό π. - -

30 Ερμηνεία του παραπάνω κανόνα Στη περίπτωση των δύο κανονικών πληθυσμών, ο παραπάνω κανόνας (-3)&(-33) θεωρείται εκτιμητής του (βέλτιστου) κανόνα κατάταξης (-4)&(-5) της παρατήρησης στο πληθυσμό με το ελάχιστο δυνατό αναμενόμενο κόστος διότι χρησιμοποιούνται δειγματικές παράμετροι για την εκτίμηση των πληθυσμιακών ποσοτήτων, οι οποίες θεωρούνται άγνωστες. Το θεώρημα για το εκτιμώμενο αναμενόμενο κόστος της πολυμεταβλητής x o μπορεί να χαρακτηριστεί ισοδύναμο με τη δημιουργία δύο μονοδιάστατων κανονικών πληθυσμών π και π, δηλαδή με τη δημιουργία μιας καινούργιας μονοδιάστατης μεταβλητής y. Η νέα μεταβλητή y κατασκευάζεται από ένα κατάλληλο γραμμικό συνδυασμό των παρατηρήσεων των δύο πληθυσμών ή με άλλα λόγια θεωρείται ένας γραμμικός μετασχηματισμός, y ˆ x,της πολυδιάστατης μεταβλητής x. Εν συνεχεία ανατίθεται η παρατήρηση xo στο πληθυσμό π ι ή π ανάλογα με τη θέση της σχέσης (-36). Δηλαδή αν η μεταβλητή y βρίσκεται δεξιά y mαπό το μέσο των δύο μονοδιάστατων μέσων y και y τότε κατατάσσεται στο πληθυσμό π ι, αλλιώς αν βρίσκεται αριστερά y m τότε κατατάσσεται στο πληθυσμό π η Περίπτωση: Στη δεύτερη περίπτωση οι πίνακες διασποράς Σ και Σ είναι διαφορετικοί μεταξύ τους συνεπώς προκύπτουν και πιο σύνθετοι κανόνες ταξινόμησης σε σχέση με τη πρώτη περίπτωση, όπου οι πίνακες διασποράς Σ και Σ είναι ίσοι. Δηλαδή η κοινή διασπορά Σ αντικαθίσταται στις πολυδιάστατες κανονικές συναρτήσεις πυκνότητας πιθανότητας από τους πίνακες διασποράς Σ και Σ των πληθυσμών π ι και π αντίστοιχα. Οπότε δημιουργείται ο λόγος των κανονικών σ.π.π. f x f x στον οποίο δεν απλοποιείται ο όρος x o, σε αντίθεση με τη πρώτη περίπτωση, επιπλέον σχηματίζεται μια τετραγωνική μορφή στους εκθέτες των συναρτήσεων f x, f x οι οποίες όμως δεν μπορούν να συνδυαστούν με τέτοιο τρόπο ώστε το αποτέλεσμα να είναι σε απλή μορφή όπως η σχέση (-36) που σχηματίζεται για τη πρώτη περίπτωση όπου οι πίνακες διασποράς είναι ίσοι. Σκοπός είναι η κατασκευή ενός κανόνα κατάταξης με το ελάχιστο δυνατό μέσο ή αναμενόμενο κόστος λανθασμένης ταξινόμησης. - -

31 ΘΕΩΡΗΜΑ 3 Έστω π και π οι πληθυσμοί, οι οποίοι περιγράφονται από τις κανονικές συναρτήσεις πυκνότητας πιθανότητας ( f x και f πίνακες διασποράς, Σ και, Σ αντίστοιχα. x αντίστοιχα) με διανύσματα μέσης τιμής και Τότε προκύπτει ο τετραγωνικός κανόνας κατάταξης: c \ p xo xo xo k ln c \ p Αν (-38) τότε κατέταξε τη παρατήρηση x o στο πληθυσμό π. c \ p xo xo xo k ln c \ p Αλλιώς, αν (-39) τότε κατέταξε τη παρατήρηση x o στο πληθυσμό π. Όπου: k ln ΑΠΟΔΕΙΞΗ (-40) f x \ c p f x c \ p x x exp c( /) p exp p x x p c(/ ) p x x exp c(/ ) p c( /) p exp x x x x exp c(/ ) p c( /) p exp x x - 3 -

32 c(/ ) p exp x x x x c( /) p c(/ ) p x x x x ln ln c( /) p x x x x x x x c(/ ) p x ln ln c( /) p c(/ ) p x x x x x x ln ln c( /) p c(/ ) p x x x ln ln c( /) p c(/ ) p x x x k ln c( /) p Όπου: k ln Οπότε οι βέλτιστες περιοχές R και R προσδιορίζονται από τις σχέσεις (-4) και (- 4),αντίστοιχα: c \ p R : x x x k ln c \ p c \ p R : x x x k ln c \ p (-4) (-4) Παρατήρηση Οι περιοχές ταξινόμησης ορίζονται από τετραγωνικές μορφές του διανύσματος x. Στη περίπτωση όπου Σ = Σ η τετραγωνική μορφή περιοχές ορίζονται από τις σχέσεις (-4)-(-5) x x εξαφανίζεται και οι

33 Στη πράξη όμως ο κανόνας του Θεωρήματος 3 γίνεται εφαρμόσιμος αν αντικατασταθούν οι άγνωστες πληθυσμιακές παράμετροι,, Σ και Σ από τις δειγματικές παραμέτρους x, x, S και S αντίστοιχα. Δηλαδή ισχύει: Τετραγωνικός κανόνας κατάταξης (για κανονικούς πληθυσμούς με άνισους πίνακες διασποράς) c \ p xo S S xo x S x S xo k ln c \ p Αν τότε κατέταξε τη παρατήρηση x o στο πληθυσμό π. c \ p xo S S xo x S x S xo k ln c \ p Αν (-43) (-44) τότε κατέταξε τη παρατήρηση x o στο πληθυσμό π. Παρατήρηση (Τετραγωνικού Κανόνα Κατάταξης) Η ταξινόμηση με την εφαρμογή των τετραγωνικών κανόνων κατάταξης γίνεται ακόμα πιο σύνθετη σε περισσότερες από δύο διαστάσεις και συμβαίνει κυρίως όταν οι παρατηρήσεις δεν ακολουθούν την πολυδιάστατη κανονική κατανομή. Οπότε, το βασικό μειονέκτημα του τετραγωνικού κανόνα είναι ότι δεν εφαρμόζεται σωστά σε μη κανονικά δεδομένα με αποτέλεσμα το σχηματισμό μεγάλου ρυθμού σφάλματος..4. ΑΞΙΟΛΟΓΗΣΗ ΣΥΝΑΡΤΗΣΕΩΝ ΚΑΤΑΤΑΞΗΣ ΓΙΑ ΔΥΟ ΚΑΝΟΝΙΚΟΥΣ ΠΛΗΘΥΣΜΟΥΣ.4.. Εισαγωγή Αφού λοιπόν κατασκευάστηκαν οι συναρτήσεις κατάταξης απαραίτητη κρίνεται η αξιολόγηση τους, διότι με τον τρόπο αυτό ελέγχεται κατά πόσο οι καινούργιες παρατηρήσεις κατατάσσονται σωστά στους πληθυσμούς π και π Τρόποι αξιολόγησης.4... Ρυθμός σφάλματος Ένας σημαντικός τρόπος αξιολόγησης των συναρτήσεων κατάταξης είναι ο υπολογισμός του ρυθμού σφάλματος

34 .4... η Περίπτωση Όταν οι πληθυσμοί π και π είναι γνωστοί και κατά συνέπεια είναι γνωστές οι αντίστοιχες συναρτήσεις πυκνότητας πιθανότητας τότε μπορεί να υπολογιστεί η συνολική πιθανότητα λανθασμένης κατάταξης (TPM). Η ελάχιστη τιμή που μπορεί να πάρει η συνολική πιθανότητα λανθασμένης κατάταξης (TPM) αποτελεί το βέλτιστο ρυθμό σφάλματος (optmum error rate), συμβολίζεται με OER και δίνεται από τη σχέση (-45): OER mntpm mn p f xdx p f xdx R R (-45) Όπου οι βέλτιστες περιοχές R και R προσδιορίζονται από τις σχέσεις (-7)&(-8), αντίστοιχα η Περίπτωση Όταν οι πληθυσμοί π και π είναι άγνωστοι τότε χρησιμοποιούνται δειγματικές ποσότητες,για να εκτιμήσουν τις πληθυσμιακές παραμέτρους, οπότε σχηματίζονται οι δειγματικές συναρτήσεις κατάταξης. Αυτές οι συναρτήσεις αξιολογούνται από το πραγματικό ρυθμό σφάλματος (actual error rate) όπου συμβολίζεται με AER και δίνεται από τη σχέση (-46): Rˆ ˆ R (-46) AER p f x dx p f x dx Όπου ˆR και ˆR συμβολίζουν περιοχές βέλτιστης κατάταξης οι οποίες καθορίζονται από τα δύο δείγματα μεγέθους n και n με τα αντίστοιχα δειγματικά χαρακτηριστικά για να εκτιμηθούν οι πληθυσμιακές παράμετροι των πληθυσμών π και π. Οπότε: ˆ (/ ) : c p R x x S pooled xo x x S pooled x x ln c( /) p ˆ (/ ) : c p R x x S pooled xo x x S pooled x x ln c( /) p (-34) (-35) η Περίπτωση Στη πράξη όμως δεν μπορεί να υπολογιστεί ο πραγματικός ρυθμός σφάλματος, όπως και ο βέλτιστος ρυθμός σφάλματος, διότι εξαρτάται από τις άγνωστες συναρτήσεις πυκνότητας - 6 -

35 πιθανότητας f (x) και f (x). Για το λόγο αυτό χρησιμοποιείται ένα άλλο μέτρο αξιολόγησης που δεν εξαρτάται από μορφή των αρχικών πληθυσμών (δηλαδή από τις πληθυσμιακές συναρτήσεις πυκνότητας πιθανότητας). Αυτό το μέτρο ονομάζεται φαινομενικός ρυθμός σφάλματος (apparent error rate), συμβολίζεται με APER και ορίζεται από το κλάσμα των παρατηρήσεων που λανθασμένα ταξινομούνται σύμφωνα με τη δειγματική συνάρτηση κατάταξης προς το σύνολο των παρατηρήσεων του εκπαιδευόμενου δείγματος. Ο φαινομενικός ρυθμός σφάλματος μπορεί εύκολα να υπολογιστεί από το πίνακα σύγχυσης (confuson matrx), όπου προσδιορίζεται η σχέση των πραγματικών και προβλεπόμενων παρατηρήσεων των πληθυσμών. Οπότε για n παρατηρήσεις του πληθυσμού π και n παρατηρήσεις του πληθυσμού π ο πίνακας σύγχυσης έχει τη παρακάτω μορφή: Πίνακας. Προβλεπόμενοι πληθυσμοί: Πραγματικοί πληθυσμοί: π π π n c n M= n - n c n π n M= n - n c n c n n = ο αριθμός παρατηρήσεων του πληθυσμού π n = ο αριθμός παρατηρήσεων του πληθυσμού π n c = ο αριθμός των π παρατηρήσεων που σωστά κατατάσσονται στο πληθυσμού π n Μ = ο αριθμός των π παρατηρήσεων που λανθασμένα κατατάσσονται στο πληθυσμού π n c = ο αριθμός των π παρατηρήσεων που σωστά κατατάσσονται στο πληθυσμού π n Μ = ο αριθμός των π παρατηρήσεων που λανθασμένα κατατάσσονται στο πληθυσμού π Ο φαινομενικός ρυθμός σφάλματος συμβολίζει το ποσοστό των λανθασμένων ταξινομήσεων του δείγματος και ορίζεται ως εξής: n n APER n n M M (-47) - 7 -

36 Παρατήρηση (του πίνακα σύγχυσης) Ο πίνακας σύγχυσης επιδεικνύει την ακρίβεια της λύσης σε ένα πρόβλημα ταξινόμησης. Με δεδομένες m-ομάδες μια μήτρα σύγχυσης είναι ένας mxm πίνακας, όπου οι καλύτερες λύσεις θα έχουν μόνο μηδενικές τιμές έξω από τη κύρια διαγώνιο. Σχόλιο (του φαινομενικού ρυθμού σφάλματος) Ο APER είναι εύκολα υπολογίσιμος αλλά για να δώσει καλά αποτελέσματα απαιτεί αρκετά μεγάλα δειγματικά μεγέθη n και n αλλιώς δεν μπορεί να εκτιμήσει σωστά το AER. Αυτό συμβαίνει γιατί τα δεδομένα που χρησιμοποιούνται για τη κατασκευή της συνάρτησης κατάταξης είναι τα ίδια που χρησιμοποιούνται και για την αξιολόγηση της η Περίπτωση Μια άλλη μέθοδος αξιολόγησης της συνάρτησης κατάταξης που εφαρμόζεται είναι ο χωρισμός του αρχικού δείγματος σε δύο μέρη, το δείγμα εκπαίδευσης/εκπαιδευόμενο δείγμα (tranng sample) και το δείγμα επικύρωσης ή ελέγχου (valdaton or test sample). Το δείγμα εκπαίδευσης χρησιμοποιείται για την κατασκευή της συνάρτησης ενώ το δείγμα επικύρωσης χρησιμοποιείται για την αξιολόγηση αυτής. Σε αυτή τη μέθοδο ο ρυθμός σφάλματος καθορίζεται από την αναλογία των λανθασμένων κατατάξεων στο δείγμα επικύρωσης ή ελέγχου. Παρόλο που με τη διαδικασία αυτή υπερνικάτε το πρόβλημα που παρατηρείται στις προηγούμενες μεθόδους με τη χρησιμοποίηση διαφορετικών δεδομένων για τη κατασκευή και την αξιολόγηση της συνάρτησης κατάταξης, εμφανίζονται σε αυτή τη μεθοδολογία δύο σημαντικά μειονεκτήματα. ο μειονέκτημα: Απαιτεί μεγάλα δείγματα. ο μειονέκτημα: Η συνάρτηση που αξιολογείται δεν είναι η συνάρτηση κατάταξης διότι δεν χρησιμοποιούνται όλα τα δεδομένα του αρχικού δείγματος για τη κατασκευή της συνάρτησης κατάταξης αλλά μόνο το δείγμα εκπαίδευσης και αυτό έχει σαν αποτέλεσμα τη πιθανή απώλεια απαραίτητης/χρήσιμης πληροφορίας Ο Αλγόριθμος της Lanchenbruch s holdout διαδικασίας Μια άλλη προσέγγιση για την αξιολόγηση της συνάρτησης κατάταξης είναι ο αλγόριθμος της Lanchenbruch s holdout διαδικασίας ή αλλιώς σταυρωτή επικύρωση (cross-valdaton). Ακολουθεί η περιγραφή της μεθόδου (αλγόριθμου): - 8 -

37 o Βήμα: Ξεκινά η διαδικασία με τις παρατηρήσεις του π πληθυσμού. Αφού λοιπόν παραλείπεται μια παρατήρηση του πληθυσμού π κατασκευάζεται η συνάρτηση κατάταξης στηριζόμενη στις υπόλοιπες παρατηρήσεις του π, π -, και στις παρατηρήσεις του πληθυσμού π. o Βήμα: Ταξινόμηση της holdout παρατήρησης εφαρμόζοντας τη συνάρτηση που κατασκευάστηκε στο βήμα. 3 o Βήμα: Επανάληψη των βημάτων και μέχρι όλες οι παρατηρήσεις του πληθυσμού π (H) να καταταχθούν. Έστω n M ο αριθμός των holdout παρατηρήσεων όπου ανήκουν στο πληθυσμό π και λανθασμένα κατατάσσονται στο πληθυσμό π. 4 o Βήμα: Επανάληψη των βημάτων, και 3 μέχρι όλες οι παρατηρήσεις του πληθυσμού (H) π να καταταχθούν. Έστω n M ο αριθμός των holdout παρατηρήσεων όπου προέρχονται από το πληθυσμό π και λανθασμένα κατατάσσονται στο πληθυσμό π. Οι εκτιμήσεις των δεσμευμένων πιθανοτήτων λανθασμένης κατάταξης, P(\) και P(\), συμβολίζονται με P ˆ( \) και P ˆ(\ ) αντίστοιχα και ορίζονται ως εξής: ( ) ˆ( \) HM P n (-48) n ( ) ˆ(\ ) HM P n (-49) n Επιπλέον, το συνολικό ποσοστό λανθασμένης κατάταξης, ( H) ( H) n n n n M M εκτίμηση του αναμενομένου/μέσου πραγματικού ρυθμού σφάλματος, Ε(AER):, είναι μια αμερόληπτη ( ) ( ) H H n n Eˆ( AER ) n n M M (-50) Σχόλια. Ο αλγόριθμος της Lanchenbruch s holdout διαδικασίας ή αλλιώς σταυρωτή επικύρωση (cross-valdaton) είναι υπολογιστικά εφαρμόσιμος/εφικτός όταν μπορεί να συνδυαστεί με γραμμικές στατιστικές συναρτήσεις κατάταξης της μορφής (-3)-(-6)

38 . Μια καλή/ακριβή ταξινόμηση, δηλαδή χαμηλός ρυθμός σφάλματος, εξαρτάται από το διαχωρισμό των πληθυσμών. Όσο λοιπόν πιο απομακρυσμένοι οι πληθυσμοί τόσο καλύτερος διαχωρισμός επιτυγχάνεται και άρα καλύτερος κανόνας κατάταξης..5. ΔΙΑΧΩΡΙΣΤΙΚΗ ΣΥΝΑΡΤΗΣΗ FISHER Ο διαχωριστικός κανόνας του Fsher βασίζεται στη μείωση της διαστατικότητας του χώρου των χαρακτηριστικών των δεδομένων με σκοπό το σχηματισμό ενός πιο εύχρηστου και αποδοτικού συστήματος συντεταγμένων για τη περεταίρω επεξεργασία των δεδομένων. Επιδιώκεται μείωση της διαστατικότητας από τις p-διαστάσεις του αρχικού χώρου σε μία διάσταση (όταν το πλήθος των ομάδων είναι δύο) με τη προβολή των δεδομένων των p- διαστάσεων επάνω σε μια γραμμή, η οποία σχηματίζεται από ένα γραμμικό συνδυασμό των χαρακτηριστικών του διανύσματος x. Η μετατροπή/μετασχηματισμός του πολυδιάστατου διανύσματος x σε μονοδιάστατη μεταβλητή y γίνεται μέσω μιας γραμμικής στατιστικής συνάρτησης που ονομάζεται διαχωριστή συνάρτηση Fsher και δίνεται από τη σχέση (-5): y x x S x ˆ x (-5) pooled Η παραπάνω διαδικασία απεικονίζεται στο σχήμα., όπου ο αρχικός διδιάστατος χώρος των δεδομένων των δύο πληθυσμών π και π μετασχηματίζεται σε μονοδιάστατος χώρος μέσω της διαχωριστικής συνάρτησης (-5). Επιπλέον, παρουσιάζεται η προβολή των αρχικών παρατηρήσεων πάνω στη Διαχωριστή Συνάρτηση Fsher (-5) με συντελεστή διεύθυνσης, ˆ, ο οποίος ποικίλει μέχρι να εντοπιστεί ο καλύτερος διαχωρισμός των προβαλλομένων δεδομένων. Σχήμα. Προβολή των αρχικών παρατηρήσεων στη Διαχωριστική Συνάρτηση Fsher y ˆ x

39 Επιπλέον, η προσέγγιση Fsher δεν υποθέτει ότι οι πληθυσμοί ανήκουν στη κανονική κατανομή, υποθέτει όμως ότι οι πίνακες συνδιακύμανσης των δύο πληθυσμών είναι ίσοι. Αξίζει να σημειωθεί ότι αν οι αρχικές κατανομές είναι πολύμορφες και επικαλυπτόμενες ακόμη και ο καλύτερος συντελεστής διεύθυνσης της συνάρτησης, ˆ, είναι πιθανό να μην παρέχει επαρκή διαχώριση οπότε η μέθοδος αυτή θα παρέχει μικρή χρησιμότητα. Σκοπός είναι να βρεθεί ο κατάλληλος συντελεστής διεύθυνσης της συνάρτησης διαχωρισμού, ˆ, ώστε τα προβαλλόμενα δεδομένα να είναι καλά χωρισμένα. Δηλαδή οι προβαλλόμενοι μέσοι των δύο πληθυσμών θα πρέπει να είναι όσο το δυνατόν πιο απομακρυσμένοι έτσι ώστε να επιτυγχάνεται ακριβής διαχωρισμός. Επιδιώκεται η εύρεση του καλύτερου συντελεστή διεύθυνσης. Για το σκοπό αυτό χρησιμοποιείται ως μέτρο διαχωρισμού (μεταξύ) των προβαλλόμενων παρατηρήσεων η απόσταση των μέσων τιμών των παρατηρήσεων σε απόλυτη τιμή διαιρούμενη από τη κοινή τυπική απόκλιση έτσι ώστε να απαλλαγεί από τις μονάδες μέτρησης. Στο σχήμα.3 που ακολουθεί παρουσιάζεται η προβολή των δειγμάτων δύο πληθυσμών πάνω σε δύο διαφορετικές γραμμές, διαφορετικά διανύσματα συντελεστών ˆ του διανύσματος x. Παρατηρείται λοιπόν στο δεξιό γράφημα καλύτερος διαχωρισμός μεταξύ των μαύρων και κόκκινων προβαλλόμενων σημείων. Σχήμα.3 Δύο διαφορετικές προβολές του ίδιου δείγματος Έστω ότι οι προβαλλόμενες παρατηρήσεις για το πληθυσμό π είναι y, y,..., y n ενώ για το πληθυσμό π είναι y, y,..., y n. Οπότε η απόσταση D δίνεται από τη σχέση (-5): - 3 -

40 D y y separaton, (-5) s y Όπου με s y n n y j y y j y j j nn (-53) συμβολίζεται η συνδυασμένη κοινή εκτίμηση των συνδιακυμάσεων των δύο πληθυσμών. Σκοπός είναι η εύρεση της γραμμικής συνάρτησης y ˆ x και πιο συγκεκριμένα του διανύσματος που μεγιστοποιεί την κανονικοποιημένη τετραγωνική απόσταση μεταξύ των δύο ομάδων. ΘΕΩΡΗΜΑ 4 Η απόσταση D μεγιστοποιείται για D x x S x x ΑΠΟΔΕΙΞΗ Η απόσταση D δίνεται από το τύπο:. pooled sy sy sy sy l S pooledl l x l x l x x y y y y y y D D D D D Από την ανισότητα Cauchy-Schwarz κάθε διάνυσμα a και b διάστασης px ισχύει ότι : a b a abb Εφόσον ο πίνακας συνδιακυμάνσεων είναι θετικά ορισμένος: P a S l και b SP x x όπου: Sp Spooled Άρα η προηγούμενη ανισότητα γίνεται: p p p p p p S l S x x S l S l S x x S x x - 3 -

41 l S p S p x x l S p S pl x x S p S p x x l x x l S pl x x S p x x l x x l S pl x x S p x x l S pl l S pl l x x p l S pl x x S x x D x x S x x p Επομένως, το κριτήριο ή η απόσταση D μεγιστοποιείται για D x x S x x, p όπου συμβολίζει τη δειγματική τετραγωνική απόσταση των δύο μέσων των αρχικών πληθυσμών π και π. Επιπλέον, για αυτή τη τιμή έχουμε τη μέγιστη απόσταση μεταξύ των μέσων των δύο πληθυσμών και κατά συνέπεια το καλύτερο διαχωρισμό. Η διαχωριστική συνάρτηση Fsher μπορεί να χρησιμοποιηθεί και ως κανόνας ταξινόμησης αφού όμως πρώτα οριστεί η κρίσιμη τιμή m η οποία είναι η μέση τιμή των y και y. Δηλαδή: x x S p x x l x x y y l x l x m Έτσι ο κανόνας κατάταξης βασισμένος στη διαχωριστική συνάρτηση,η οποία δημιουργήθηκε με την υπόθεση της κοινής διασποράς, έχει την ακόλουθη μορφή: Αν ισχύει ότι y ( x x ) S ˆ x l x m x x S x x ή yo o pooled pooled m τότε κατέταξε τη καινούργια παρατήρηση xo στο πληθυσμό π

42 Αλλιώς, αν ισχύει η σχέση yo πληθυσμό π. m τότε κατέταξε τη καινούργια παρατήρηση x o στο Παρατηρήσεις: ) Στη περίπτωση που οι εκ των προτέρων πιθανότητες και τα κόστη είναι ίσα τότε ο διαχωριστικός κανόνας του Fsher ταυτίζεται με το κανόνα κατάταξης (-3) με το ελάχιστο κόστος λανθασμένης ταξινόμησης δύο κανονικών πληθυσμών, παρόλο οι δύο αυτοί κανόνες που προκύπτουν από διαφορετική λογική. ) Το κριτήριο ή η απόσταση D χρησιμοποιείται για τον έλεγχο των πληθυσμιακών μέσων μ μ, δηλαδή κατά πόσο διαφέρουν οι δυο αυτοί πληθυσμιακοί μέσοι μεταξύ τους. Συνεπώς, ένας έλεγχος για τις διαφορές των μέσων μπορεί να απεικονιστεί ως έλεγχος για την σπουδαιότητα του διαχωρισμού η οποία επιτεύχθηκε. Αν υποτεθεί ότι οι δύο πληθυσμοί ακολουθούν τη κανονική κατανομή τότε ένας έλεγχος της μορφής H 0 : μ =μ έναντι της H μπορεί να πραγματοποιηθεί. Αν η υπόθεση H 0 απορριφθεί τότε ο διαχωρισμός ανάμεσα στους πληθυσμούς π και π είναι σημαντικός. 3) Ένας καλός διαχωρισμός δεν συνεπάγεται απαραίτητα και μια ακριβή/σωστή ταξινόμηση. Όμως αν ο σχηματισμός ενός διαχωρισμού δεν είναι σημαντικός, τότε μπορεί να θεωρηθεί άσκοπη η αναζήτηση ενός καλού κανόνα ταξινόμησης. Επίσης, μπορεί να προσδιοριστεί μια αποτελεσματική διαδικασία ταξινόμησης ανεξάρτητα από ένα διαχωρισμό..6. ΤΑΞΙΝΟΜΗΣΗ ΠΑΡΑΤΗΡΗΣΕΩΝ ΓΙΑ ΠΕΡΙΣΣΟΤΕΡΟΥΣ ΑΠΟ ΔΥΟ ΠΛΗΘΥΣΜΟΥΣ (g>).6.. Κανόνες κατάταξης για g> ομάδες Στη θεωρία, η γενίκευση της διαδικασίας της ταξινόμησης για περισσότερους από δύο πληθυσμούς είναι απλή, όμως στη πράξη θεωρούνται άγνωστες οι περισσότερες ιδιότητες των συναρτήσεων ταξινόμησης για περισσότερους από δύο πληθυσμούς. Επιπλέον, δεν έχουν πλήρως διερευνηθεί οι ρυθμοί σφάλματος για την αξιολόγηση αυτών των συναρτήσεων κατάταξης. Εφόσον έγινε προηγουμένως η περιγραφή των κανόνων κατάταξης για δύο πληθυσμούς, σε αυτή την ενότητα παρουσιάζεται η γενίκευση της ταξινόμησης για περισσότερους από δύο πληθυσμούς. Οπότε αναφέρονται οι αντίστοιχες σχέσεις για τους g> πληθυσμούς που απαιτούνται για το σχηματισμό του κανόνα του αναμενόμενου κόστους λανθασμένης

43 κατάταξης ( ECM ), του κανόνα της συνολικής πιθανότητας λανθασμένης κατάταξης και του κανόνα του Bayes. Οι συμβολισμοί για τους g> πληθυσμούς είναι οι εξής: f ( x ): η συνάρτηση πυκνότητας πιθανότητας του πληθυσμού π, =,,,g p : η εκ των προτέρων πιθανότητα του πληθυσμού π, =,,,g c(k\): το κόστος κατάταξης ενός αντικειμένου στο πληθυσμό π κ ενώ στη πραγματικότητα ανήκει στο πληθυσμό π. Σχόλιο: Το κόστος κατάταξης ενός αντικειμένου στο πληθυσμό π ενώ στη πραγματικότητα ανήκει στο πληθυσμό π είναι c(\)=0. R : η περιοχή στην οποία κατατάσσονται οι παρατηρήσεις που ανήκουν στο πληθυσμό π, =,,,g P( k \ ) f( x) dx : η δεσμευμένη πιθανότητα κατάταξης ενός αντικειμένου στο πληθυσμό π κ Rk ενώ στη πραγματικότητα ανήκει στο πληθυσμό π. g \ \ για k,,,... Σημείωση: P Pk k k.6... Ελαχιστοποίηση του Συνολικού Κόστους Λανθασμένης Κατάταξης (Διαδικασία κατασκευής του συνολικού κόστους λανθασμένης κατάταξης) Αρχικά, ορίζεται το δεσμευμένο αναμενόμενο κόστος της λανθασμένης κατάταξης ενός αντικειμένου που ανήκει στο πληθυσμό π ενώ κατατάσσεται στο πληθυσμό π, ή στο πληθυσμό π 3,, ή στο πληθυσμό π g. Έστω : ECM () P(\) c(\) P( \) c( \)... P( g \) c( g \) Αφού όμως ισχύει ότι c(\) 0 P(\) c(\) 0 τότε η παραπάνω σχέση γίνεται: ECM () P( \) c( \)... P( g \) c( g \) g g ECM () P( k \) c( k \) k

44 Εν συνεχεία, το δεσμευμένο αναμενόμενο κόστος ECM () πολλαπλασιάζεται με τη εκ των προτέρων πιθανότητα του πληθυσμού π, p. Ομοίως, σχηματίζονται και τα υπόλοιπα αναμενόμενα κόστη ECM (), ECM (3),, ECM (g) και στη συνέχεια πολλαπλασιάζεται το καθένα από αυτά με την αντίστοιχη εκ των προτέρων πιθανότητα του και εφόσον προστεθούν όλα μαζί σχηματίζεται το συνολικό αναμενόμενο κόστος λανθασμένης κατάταξης ECM, το οποίο δίνεται από το παρακάτω τύπο:... ECM p ECM p ECM p ECM g p P k c k p P k c k p P k g c k g g g g ( \) ( \) ( \ ) ( \ )... g ( \ ) ( \ ) k k k k g p g k k P( k \ ) c( k \ ) g (-54) Οπότε για την επίτευξη της βέλτιστης ταξινόμησης απαιτείται ο κατάλληλος προσδιορισμός των περιοχών R, R,,R g έτσι ώστε να ελαχιστοποιείται το συνολικό κόστος λανθασμένης κατάταξης (-44). ΘΕΩΡΗΜΑ 5 Οι περιοχές ταξινόμησης που ελαχιστοποιούν το ECM είναι: Κατέταξε την πολυδιάστατη παρατήρηση x στο πληθυσμό π k, όπου k=,,3,,g, για τον οποίο ισχύει η μικρότερη σχέση p f xck \ g. (-55) k.6... Ελαχιστοποίηση της Συνολικής Πιθανότητας Λανθασμένης Κατάταξης Στη περίπτωση που τα κόστη λανθασμένης κατάταξης είναι ίσα τότε ο κανόνας της ελάχιστης συνολικής πιθανότητας λανθασμένης κατάταξης,tpm, είναι ίδιος με το κανόνα ελάχιστου αναμενόμενου κόστους λανθασμένης κατάταξης,ecm. Τα κόστη λανθασμένης κατάταξης θεωρούνται ίσα με τη μονάδα, χωρίς απώλεια της γενικότητας. Ο ισχυρισμός του θεωρήματος 5 χρησιμοποιείται για τη ανάθεση της πολυδιάστατης παρατήρησης x στο πληθυσμό π k, k=,,3, g, με τη μικρότερη συνολική πιθανότητα λανθασμένης κατάταξης: g k p f x (-56)

45 Αυτό συμβαίνει όταν ο παραλειπόμενος όρος p f ( ) k k x είναι ο μεγαλύτερος όρος. Συνεπώς, ο κανόνας κατάταξης με την ελάχιστη συνολική πιθανότητα λανθασμένης κατάταξης έχει την εξής μορφή: Αν ισχύει p f x p f x k k για k (-57) τότε κατέταξε τη πολυδιάστατη παρατήρηση x στο πληθυσμό π k. ή ισοδύναμα Αν ln p f ( x) ln p f ( x) για k (-58) k k τότε κατέταξε τη πολυδιάστατη παρατήρηση x στο πληθυσμό π k Κανόνας του Bayes Ο κανόνας του Bayes κατατάσσει τη παρατήρηση στο πληθυσμό που έχει τη μεγαλύτερη εκ των υστέρων πιθανότητα, P( \ x), και είναι ισοδύναμος με το παραπάνω κανόνα κατάταξης k (-59) με την ελάχιστη συνολική πιθανότητα λανθασμένης κατάταξης. Όπου η παρακάτω εκ των υστέρων πιθανότητα αποτελεί τη γενίκευση του τύπου (-3),(-4) και δίνεται από το παρακάτω τύπο: k P \ x \... \ P k, x P x \ k P k P x P x P P x P k k Px \ k pk \... \ P x p P x p g p f k k p f x x k k (-59).6.. Ταξινόμηση (g>) Κανονικών Πληθυσμών Μια σημαντική ειδική περίπτωση είναι οι πολυδιάστατες παρατηρήσεις να ακολουθούν τη κανονική πολυδιάστατη κατανομή, τότε η συνάρτηση πυκνότητας πιθανότητας είναι της μορφής: p f x exp x x,,,3,..., g (-60)

46 Όπου το μ συμβολίζει το διάνυσμα μέσου (διάστασης px) και το Σ συμβολίζει το πίνακα συνδιασποράς (διάστασης pxp) Άνισοι Πίνακες Διασποράς Σ Έστω ότι η συνάρτηση πυκνότητας πιθανότητας έχει τη κανονική μορφή, επιπλέον τα κόστη λανθασμένης κατάταξης είναι ίσα μεταξύ τους τότε ο κανόνας κατάταξης με την ελάχιστη συνολική πιθανότητα είναι της ακόλουθης μορφής. Ο κανόνας κατάταξης με το ελάχιστο ECM και τα ίσα κόστη λανθασμένης ταξινόμησης είναι: Αν ln p f x ln p f x για κάθε k,,,..., g τότε κατέταξε το x στο πληθυσμό k k π k. Με την αντικατάσταση της κανονικής σ.π.π. παίρνει την εξής μορφή: Αν ln p f x ln p ln f x ln p ln exp x x p k k k k k p ln pk fk x ln pk ln ln x x max ln p f x (-6) όπου,..., g επιπλέον k τότε κατέταξε το x στο πληθυσμό π k. p Όμως ο σταθερός όρος ln μπορεί να αγνοηθεί από τη (-6) διότι είναι ίδιος για όλους τους πληθυσμούς, όπου,,3,..., g. Οπότε ορίζεται ως τετραγωνική διαχωριστική συνάρτηση/σκορ για τον πληθυσμό η παρακάτω ποσότητα με τη σχέση (-6): Q d x ln pk fk x ln pk ln x x,,,..., g (-6) Συνεπώς, ο κανόνας κατάταξης με την ελάχιστη συνολική πιθανότητα λανθασμένης κατάταξης των κανονικών πληθυσμών για ανόμοιους πίνακες συνδιασποράς είναι ο εξής:

47 Q Αν το τετραγωνικό σκορ/ συνάρτηση d Σχόλια,,..., Q Q Q g k x είναι το/η μεγαλύτερο/η από τα d x d x d x τότε κατέταξε τη πολυδιάστατη παρατήρηση x στο πληθυσμό π k. (-63) Όπου το Q d x δίνεται από τη σχέση (-6).. Το τετραγωνικό σκόρ/συνάρτηση εξαρτάται από τη γενικευμένη διασπορά,την εκ των προτέρων πιθανότητα p και τη τετραγωνική απόσταση του x από το πληθυσμιακό μέσο μ. Οπότε για να ταξινομηθεί μια παρατήρηση απαιτείται να υπολογιστούν οι g παραπάνω ποσότητες και εν συνεχεία να συγκριθούν μεταξύ τους έτσι ώστε να εντοπιστεί η μεγαλύτερη ποσότητα και η πολυδιάστατη παρατήρηση να κατανεμηθεί στο πληθυσμό αυτό.. Στη πράξη οι πληθυσμιακές παράμετροι, και Σ είναι άγνωστες για το λόγο αυτό εκτιμούνται από τις δειγματικές ποσότητες, το μέγεθος του δείγματος του πληθυσμού. x και S αντίστοιχα. Επίσης με n συμβολίζεται x p n n j x j p n S x x x x (διάστασης pxp) (διάστασης px) και j j n j Τότε η εκτίμηση του τετραγωνικού διαχωριστικού σκορ/συνάρτησης είναι : ˆQ d x ln S x x S x x ln p,,,..., g (-64) Προκύπτει λοιπόν ο ακόλουθος κανόνας κατάταξης με την ελάχιστη συνολική πιθανότητα λανθασμένης κατάταξης των g-κανονικών πληθυσμών για ανόμοιους πίνακες διασποράς: Αν το τετραγωνικό σκορ d ˆQ σκορ ˆ Q, ˆ Q,..., ˆ Q g k x είναι μεγαλύτερο από όλα τα υπόλοιπα τετραγωνικά d x d x d x τότε κατέταξε τη πολυδιάστατη παρατήρηση x στο πληθυσμό π k. (-65) Όπου το d x δίνεται από τη σχέση (-64). ˆQ

48 .6... Ισοι Πίνακες Διασποράς Σ=Σ, =,, g Σε αυτή τη περίπτωση, των ίσων πινάκων συνδιασποράς, η διαχωριστική τετραγωνική συνάρτηση (-5) γίνεται: ln Q d x x x ln p,,,..., g ln d x x x x ln p Q Q d x ln x x x x ln p Q d x ln x x x x ln p Q d x ln x x x ln p Επειδή στη παραπάνω σχέση οι δύο πρώτοι όροι είναι σταθεροί όροι για όλες τις διαχωριστικές τετραγωνικές συναρτήσεις μπορούν να αγνοηθούν. Οπότε, η υπολειπόμενη ποσότητα x ln p αποτελείται από μια σταθερά ln p και από ένα γραμμικό συνδυασμό του διανύσματος x, x. Συνεπώς, ορίζεται η γραμμική διαχωριστική συνάρτηση (-66): d x x ln p,,,..., g (-66) Η εκτίμηση του γραμμικού διαχωριστικού σκορ δίνεται από τη σχέση (-67): ˆ d x xs pooled x xs pooled x ln p,,,..., g (-67) όπου S pooled... g n S n S n S n n... n g g g Οπότε ο κανόνας της ελάχιστης συνολικής πιθανότητας των κανονικών πληθυσμών για ίσους πίνακες συνδιασποράς γίνεται:

49 Αν το γραμμικό διαχωριστικό σκορ d ˆQ γραμμικά σκορ ˆ Q, ˆ Q,..., ˆ Q g k x είναι μεγαλύτερο από όλα τα υπόλοιπα d x d x d x τότε κατέταξε τη πολυδιάστατη παρατήρηση x στο πληθυσμό π k. (-68) Όπου το d ˆ ( x ) δίνεται από τη σχέση (-67). Παρατήρηση Ένας ισοδύναμος ταξινομητής της σχέσης (.66) μπορεί να σχηματιστεί εάν αφαιρέσουμε από το τετραγωνικό της σχέσης (.6) το σταθερό όρο ln παρατήρηση x κατατάσσεται στο πληθυσμό π για τον οποίο η ποσότητα είναι η μεγαλύτερη. Όπου D x x x S x x από το δειγματικό μέσο x pooled. Τότε η πολυδιάστατη D x ln p η τετραγωνική απόσταση του x.7. ΔΙΑΧΩΡΙΣΤΙΚΗ ΑΝΑΛΥΣΗ FISHER για g-πληθυσμούς. Η διαχωριστική μέθοδος του Fsher για δύο πληθυσμούς επεκτείνεται και για περισσότερους από δύο πληθυσμούς, οπότε προκύπτει η γενίκευση της διαχωριστικής ανάλυσης Fsher για g-πληθυσμούς. Η προσέγγιση του Fsher έχει σα κύριο σκοπό τον διαχωρισμό των g- πληθυσμών, ο οποίος χρησιμοποιείται για οπτικοποιήση των δεδομένων των πληθυσμών ή για γραφικούς διαχωριστικούς σκοπούς. Ακολουθεί η περιγραφή της διαδικασίας υλοποίησης της μεθόδου Fsher. ο Βήμα Η εύρεση κατάλληλων γραμμικών συνδυασμών των αρχικών μεταβλητών με σκοπό το σχηματισμό καλύτερης αναπαράστασης των g-πληθυσμών σε ένα καινούργιο σύστημα συντεταγμένων χαμηλότερης διστακτικότητας. Με τη τεχνική μείωσης της διάστασης του νέου συστήματος υπάρχει μεν απώλεια της αρχικής πληροφορίας αλλά και κέρδος σε χώρο και χρόνο καθώς μπορεί να πραγματοποιηθεί οπτικοποιήση των δεδομένων επιπλέον γρηγορότερη αποθήκευση και επεξεργασία συνεπώς αποδοτικότερη μέθοδος διαχωριστικής ανάλυσης δεδομένων

50 ο Βήμα Η σχεδίαση σε καρτεσιανές συντεταγμένες των τιμών των δειγματικών παρατηρήσεων των διαχωριστών υποδεικνύει/ανιχνεύει τις ακραίες τιμές ή άλλες ανωμαλίες των δεδομένων. 3 ο Βήμα Σχεδιασμός των μέσων των νέων μεταβλητών που χαρακτηρίζονται ως διαχωριστές με σκοπό την ερμηνεία σχέσεων ανάμεσα στα δεδομένα αλλά και την παρατήρηση πιθανών ομαδοποιήσεων των πληθυσμών. Στη διαχωριστική ανάλυση Fsher δεν είναι απαραίτητη η υπόθεση της κανονικότητας των πληθυσμών όμως απαιτείται η υπόθεση της ισότητας των πληθυσμιακών πινάκων συνδιασποράς, δηλαδή... g διάστασης pxp. ισχύει:,... P Για τις αρχικές τυχαίες μεταβλητές Έστω ότι με συμβολίζεται ο πληθυσμιακός μέσος του π πληθυσμού για =,,3.g και με συμβολίζεται η συνολική/ολική μέση τιμή των πληθυσμών των αρχικών μεταβλητών και δίνονται από τους εξής τύπους: N j και N j g (-69), (-70) g Επιπλέον, με Β ο συμβολίζεται το άθροισμα των τετραγωνικών αποστάσεων των πληθυσμιακών μέσων των g-πληθυσμών από το συνολικό πληθυσμιακό μέσο όλων των πληθυσμών και δίνεται από το τύπο (ή πίνακα) (-7) : g B (-7) o Οι καινούργιες μεταβλητές,... P Y Y, Y,..., Y, s p προκύπτουν από τις αρχικές σύμφωνα με το γραμμικό μετασχηματισμό (-7): s Y (-7) Η μέση τιμή του Υ για τον πληθυσμό π είναι: E Y E E - 4 -

51 Η διασπορά για όλους τους πληθυσμούς είναι: Var Y Var Var Y Y, Y,..., Y, s p είναι: Επίσης, η ολική μέση τιμή για τις νέες μεταβλητές s g g g Y Y g g g (-73) Ακριβής διαχωρισμός μεταξύ των πληθυσμών σημαίνει ότι οι πληθυσμιακοί μέσοι θα πρέπει να είναι όσο το δυνατόν πιο απομακρυσμένοι σε σχέση με την ολική μέση τιμή των πληθυσμών. Οπότε η εύρεση του καλύτερου διαχωρισμού (δηλαδή εύρεση του κατάλληλου που μεγιστοποιεί το παρακάτω λόγο) των g-πληθυσμών επιτυγχάνεται με τη μεγιστοποίηση του λόγου της σχέσης (-74), ο οποίος χαρακτηρίζεται ως διαχωριστικό μέτρο. g g g Y Y Y (-74) Ο λόγος αυτός αποτελεί ένα μέτρο μεταβλητότητας ανάμεσα στους πληθυσμούς των Υ τιμών σε σχέση με τη κοινή μεταβλητότητα των ομάδων. Στη πράξη όμως οι πληθυσμιακές ποσότητες εκτιμούνται από τις δειγματικές παραμέτρους και Σ είναι άγνωστες, για το λόγο αυτό x και S pooled αντίστοιχα. Έστω ότι για κάθε πληθυσμό π αντιστοιχεί ένα δείγμα μεγέθους n με =,, g. Η δειγματική μέση τιμή για τον πληθυσμό π είναι: x n xj (-75) n j Η ολική δειγματική μέση τιμή,διάστασης px, των πληθυσμών των αρχικών μεταβλητών,... P είναι: x g g nx n g n j g n x j (-76)

52 Ο πληθυσμιακός πίνακας Β ο εκτιμάται από το δειγματικό πίνακα: g x x x x (-77) ˆ o Οι πληθυσμοί π, όπου =,.g έχουν τον ίδιο πίνακα πληθυσμιακής διασποράς δηλαδή... g οπότε απαιτείται ο συνδυασμός των δειγματικών διασπορών S, S,..., Sg ώστε να κατασκευαστεί η σταθμισμένη κοινή δειγματική διασπορά S pooled η οποία είναι αμερόληπτη εκτιμήτρια της κοινής πληθυσμιακής διασποράς Σ. S pooled S S pooled pooled... g n S n S n S g g xj x xj x j n n... n g n S n n... n g n n n n... n g g Αν W xj x xj x j g g g g (-78) τότε S pooled W n n... ng g g... W n n n g S n S g pooled Συνεπώς, ο πίνακας W είναι μια εκτίμηση του κοινού πίνακα πληθυσμιακής διασποράς Σ. Άρα η εκτίμηση του λόγου (-74) που συμβολίζει ένα μέτρο μεταβλητότητας είναι η εξής: ˆ ˆ ˆ S ˆ pooled ισοδύναμα ο λόγος μπορεί να συμβολιστεί ως ˆ ˆ ˆW ˆ

53 Επομένως, το διάνυσμα ˆ που μεγιστοποιεί το λόγο ˆ ˆ ˆ S ˆ pooled επιπλέον μεγιστοποιεί και το κλάσμα ˆ ˆ. Το βέλτιστο διάνυσμα ˆ (δηλαδή το διάνυσμα ˆ που μεγιστοποιεί τη συνθήκη ˆW ˆ ˆ ˆ ˆW ˆ ) μπορεί να χαρακτηριστεί ως ιδιοδιάνυσμα, e ˆ του πίνακα.7.. Οι Δειγματικοί Γραμμικοί Διαχωριστές του Fsher W. ΘΕΩΡΗΜΑ 6 Έστω ότι ˆ ˆ ˆ,,..., g 0 είναι οι μη μηδενικές ιδιοτιμές του πίνακα ικανοποιεί τη σχέση s mn g, p W όπου το s τότε τα eˆ ˆ ˆ, e,..., e s είναι τα αντίστοιχα ιδιοδιανύσματα έτσι ώστε να ισχύει eˆ S eˆ. Τότε το διάνυσμα των συντελεστών ˆ που μεγιστοποιεί το λόγο: pooled g x x x x ˆ ˆ ˆ ˆ ˆ ˆ n W ˆ ˆ g xj x xj x j (-79) δίνεται από τη σχέση ˆ ê και ο γραμμικός συνδυασμός που σχηματίζεται ˆ x καλείται πρώτος δειγματικός διαχωριστής. Η επιλογή ˆ ê παράγει το δεύτερο δειγματικό διαχωριστή ˆ x υπό την υπόθεση ˆ ˆ Cov x, x 0. Συνεχίζοντας, το ˆ k x eˆ x είναι ο κ-οστός δειγματικός διαχωριστής με k υπό την υπόθεση Cov ˆ, ˆ k x x 0, k. Επιπλέον ισχύει ότι η διασπορά του κάθε διαχωριστή ισούται με τη μονάδα, Var x,,,... s. ΑΠΟΔΕΙΞΗ (σκοπός είναι η μετατροπή του παραπάνω προβλήματος μεγιστοποίησης σε ένα γνωστό πρόβλημα μεγιστοποίησης) Η φασματική ανάλυση του πίνακα διασποράς είναι P P,όπου Λ είναι ο θετικός διαγώνιος πίνακας ιδιοτιμών και P είναι ο ορθογώνιος πίνακας των ιδιοδιανυσμάτων. Έστω k

54 ότι με συμβολίζουμε τη τετραγωνική ρίζα του διαγώνιου πίνακα με τα διαγώνια στοιχεία του. Άρα η τετραγωνική ρίζα του πίνακα Σ ορίζεται ως εξής: P P και ο αντίστροφος του είναι P P Συνεπώς ισχύουν οι παρακάτω σχέσεις:,, Αν a τότε aa a a Άρα το πρόβλημα μεγιστοποίησης του μετατρέπεται ισοδύναμα στην εύρεση του διανύσματος a που μεγιστοποιεί το λόγο a aa a. Αποδεικνύεται ότι το μέγιστο του λόγου είναι λ, a max aa a, όπου λ είναι η μεγαλύτερη ιδιοτιμή του πίνακα και η μεγιστοποίηση επιτυγχάνεται όταν a e που είναι το κανονικοποιημένο ιδιοδιάνυσμα που συνδέεται με την αντίστοιχη ιδιοτιμή λ. Επειδή e a e τότε Var X e e e e e e Αν το a e τότε μεγιστοποιείται ο παραπάνω λόγος για a e όπου είναι το κανονικοποιημένο ιδιοδιάνυσμα που αντιστοιχεί στην ιδιοτιμή λ. Ομοίως: e a e και

55 Cov x, x e e e e 0 αφού e το είναι κάθετο στο e. Var x e e Η ίδια διαδικασία συνεχίζεται και για τους υπόλοιπους διαχωριστές..7.. Οι Διαχωριστές Fsher στη Ταξινόμηση Παρόλο που οι διαχωριστές Fsher παράγονται κυρίως για διαχωριστικούς σκοπούς, χρησιμοποιούνται και για κανόνες ταξινόμησης. Ο διαχωριστής Fsher είναι της μορφής: X,,,..., s όπου s p Άρα το σύνολο των διαχωριστών συμβολίζεται με το οποίο ισούται με:... S, διάστασης sx Το σύνολο των αρχικών μεταβλητών,,., p έχει μέση τιμή,,..., X X X P για κάθε πληθυσμό π και η ολική μέση τιμή δίνεται από το τύπο g g. Συνεπώς η μέση τιμή για το είναι: Y Y Y YS για το πληθυσμό π Η ολική μέση τιμή για το είναι: Y... S

56 Και η ολική διασπορά για το σύνολο των πληθυσμών είναι ο μοναδιαίος πίνακα, όπου οι συνιστώσες του έχουν διασπορές τις μονάδες και συνδιασπορές μηδέν άρα: Cov Ορίζεται η τετραγωνική απόσταση του yαπό τη μέση τιμή Y : s y Y y Y y Y y Y y j (-80) j Ένας πιθανός κανόνας κατάταξης θα ήταν η τοποθέτηση/ανάθεση του διανύσματος y στο πληθυσμό π k εάν η τετραγωνική του απόσταση από το Y μέσο του πληθυσμού π k είναι μικρότερη από τη τετραγωνική απόσταση του διανύσματος y από το για κάθε k. Αν μόνο r από τους s διαχωριστές χρησιμοποιούνται για τη κατάταξη τότε ο κανόνας γίνεται: Κανόνας κατάταξης r r r Αν ισχύει ότι j k j j k j y x x k (-8) j j j τότε κατέταξε το διάνυσμα x στο πληθυσμό π k. Y Παρατήρηση Το s συμβολίζει τον αριθμό των διαχωριστών και ισοδύναμα ταυτίζεται με τον αριθμό των μη-μηδενικών ιδιοτιμών του πίνακα περιορισμός s mn g, p ή για τον οποίο ισχύει ο ακόλουθος ο οποίος καθορίζει το πλήθος των διαχωριστών όπως φαίνεται στο πίνακα χωρίς να υπάρξει απώλεια της πληροφορίας. Πίνακας.3 Μέγιστος αριθμός των διαχωριστών Αριθμός των μεταβλητών Αριθμός των πληθυσμών Μέγιστος αριθμός των διαχωριστών (Υ) p g= p g=3 p = g

57 Στο Θεώρημα 6 παρουσιάζεται μια σημαντική σχέση ανάμεσα στο κανόνα κατάταξης του Fsher και στο κανόνα κατάταξης με τη χρήση του γραμμικού διαχωριστικού σκορ ή της γραμμικής διαχωριστικής συνάρτησης για τη ταξινόμηση κανονικών πληθυσμών με ίσους πίνακες συνδιασποράς. Το γραμμικό διαχωριστικό σκορ είναι: d x x ln p Αφαιρώ και από τα δύο μέλη της ισότητας τον τετραγωνικό όρο x x οπότε: d x x x x ln p x x d x x x x x ln p x x d x x x x x ln p x x d x x x p (-8) ln ΘΕΩΡΗΜΑ 7 Έστω y j x όπου j j e j και το e j είναι ένα ιδιοδιάνυσμα του πίνακα. Τότε p j p y j Y j x x x d x x x ln p j j Αν... s 0 s... p, το πληθυσμούς,,... g p js y j Yj είναι σταθερό για όλους τους s y j, Yj j, άρα μόνο οι πρώτοι s διαχωριστές y j, ή το,,... gσυνεισφέρει στη κατάταξη. ΑΠΟΔΕΙΞΗ

58 Η τετραγωνική απόσταση του x από το μέσο, x x, μπορεί ισοδύναμα να γραφτεί και ως εξής: x x x x x x Όπου το Ε συμβολίζει έναν ορθογώνιο τετραγωνικό πίνακα με στήλες τα ιδιοδιανύσματα του πίνακα, e, e,..., e p, για τον οποίο ισχύει η σχέση. Επειδή όμως e e τότε ισχύει: e x x x e x x p x ep x Οπότε x x x j j p Στη συνέχεια κάθε διάνυσμα j e όπου j s είναι ιδιοδιάνυσμα του πίνακα j που αντιστοιχεί σε μηδενική ιδιοτιμή. Αυτά τα ιδιοδιανύσματα j είναι κάθετα σε οποιοδήποτε διάνυσμα άρα είναι κάθετα στο k k, k,,... g. Η συνθήκη 0 j k kyj Yj συνεπάγεται ότι y y έτσι το y είναι σταθερό για όλα τα j kyj j Yj p js j kyj,,... g. Επομένως μόνο οι πρώτοι s διαχωριστές χρειάζονται για τη ταξινόμηση. Όταν οι πληθυσμιακοί παράμετροι είναι άγνωστοι, αυτοί εκτιμούνται από τις δειγματικές ποσότητες και η διαδικασία της ταξινόμησης του Fsher όπου βασίζεται στους δειγματικούς διαχωριστές είναι η εξής: r r r Εάν ισχύει ότι ˆ ˆ yˆ j ykj j x xk j x x j j j για κάθε k (-83)

59 τότε κατέταξε το διάνυσμα x στο πληθυσμό π k. Σημείωση: Όταν οι εκ των προτέρων πιθανότητες είναι ίσες με /g δηλαδή ισχύει και r s τότε ο παραπάνω κανόνας είναι ισοδύναμος με τον (-58). p p... pg / g Aν όμως το πλήθος των διαχωριστών που χρησιμοποιούνται για τη ταξινόμηση είναι r s p j x x για κάθε jr τότε υπάρχει απώλεια της τετραγωνικής απόστασης ή του σκορ ˆ πληθυσμό π όπου το ˆ s jr j x x είναι το απαραίτητο/χρήσιμο κομμάτι για τη ταξινόμηση. Η σημαντικότητα των πρώτων διαχωριστών σε σχέση με τους τελευταίους γίνεται εμφανής από τη συμβολή τους στη συγκεντρωτικότητα των μέσων των διαχωριστών γύρω από ένα κεντροειδή όλων των πληθυσμών χρησιμοποιώντας το παρακάτω αριθμητικό διαχωριστικό μέτρο. g s (-84) Όπου ο όρος g g είναι ο κεντροειδής και η ποσότητα συμβολίζει τη τετραγωνική απόσταση του πληθυσμιακού μέσου από το κεντροειδή. Όμως το διαχωριστικό μέτρο συμβολίζεται ως όπου τα s p s... είναι οι μη μηδενικές ιδιοτιμές του s ή του και τα,..., s p είναι οι μηδενικές ιδιοτιμές. Απόδειξη - 5 -

60 e e Έστω P... e p ο ορθογώνιος πίνακας διάστασης pxp που έχει ως στοιχεία τα ιδιοδιανύσματα του πίνακα, τα οποία αντιστοιχούν στις αντίστοιχες ιδιοτιμές του πίνακα. Το διάνυσμα των διαχωριστών είναι Y px Y e x Y e x P Yp ep x x Ακόμα Y P και P Y Επομένως: PP Οπότε: g g s Y Y Y Y Χρησιμοποιώντας το διαχωριστή Υ : g g Y Y Y Y Y Y g e e g e e - 5 -

61 g e e e e g Ομοίως, για το διαχωριστή Υ ισχύει: Y Y g Και για το διαχωριστή Υ p ισχύει : p p g Άρα s Y Y Y Y e e Y Y ep ep p Y... Y Y Y Y p Yp g g g γιατί... 0 p s s s p Επομένως, αν μόνο οι πρώτοι r διαχωριστές χρησιμοποιούνται για τη ταξινόμηση τότε η συνεισφορά τους στο είναι... r. Όπου με το λ συμβολίζεται η συνεισφορά s του πρώτου διαχωριστή στη ταξινόμηση, με το λ συμβολίζεται η συνεισφορά του δεύτερου διαχωριστή στη ταξινόμηση και η ίδια διαδικασία επαναλαμβάνεται μέχρι την ιδιοτιμή λ r. Αν για τις επόμενες ιδιοτιμές s-r το άθροισμα των ιδιοτιμών... είναι πολύ μισε r r s σχέση με το άθροισμα... r τότε μπορούν να αγνοηθούν οι διαχωριστές Y, r,..., s

62 Παράδειγμα.. Ετήσια οικονομικά δεδομένα συλλέχθηκαν συνολικά για 46 επιχειρήσεις περίπου το ίδιο χρονικό διάστημα. Μετά από δύο χρόνια, επιχειρήσεων χρεοκόπησαν ενώ οι υπόλοιπες 5 επιχειρήσεις χαρακτηρίστηκαν ως υγιείς γιατί δεν επηρεάστηκαν από τη κρίση. Τα δεδομένα/τιμές των 4 μεταβλητών (Χ=CF/TD, X=NI/TA, X3=CA/CL, X4=CA/NS) φαίνονται στο πίνακα.4. Σκοπός του παραδείγματος είναι η εύρεση: ) Των Διαχωριστικών Συναρτήσεων Fsher ) Του Κανόνα Κατάταξης 3) Αξιολόγηση του κανόνα κατάταξης Ακολουθεί ο πίνακας των τιμών των τεσσάρων μεταβλητών όπου η εξαρτημένη μεταβλητή frm αντιπροσωπεύει τους δυο πληθυσμούς π και π με τους συμβολισμούς και αντίστοιχα. Ενώ οι μεταβλητές Χ,Χ,Χ 3 και Χ 4 είναι ανεξάρτητες μεταξύ τους. Πίνακας.4 Οι τιμές των τεσσάρων μεταβλητών Πριν όμως ξεκινήσει η διαδικασία για την επεξεργασία των τιμών των τεσσάρων μεταβλητών Χ, Χ, Χ 3 και Χ 4 απαραίτητος είναι ο έλεγχος των προϋποθέσεων υλοποίησης της Ταξινόμησης και της Διαχωριστικής Ανάλυσης. α) Της κανονικότητας των ανεξάρτητων μεταβλητών (Χ, Χ, Χ 3 και Χ 4 ). β) Της ομοιογένειας των πινάκων διακυμάνσης-συνδιακύμανσης. Για τον έλεγχο της κανονικότητας των κατανομών των τιμών του συνόλου των ανεξάρτητων μεταβλητών δημιουργείται ο έλεγχος κανονικότητας όπως φαίνεται στο πίνακα

63 Πίνακας.5 Tests of Normalty Frm Kolmogorov-Smrnov a Shapro-Wlk Statstc df Sg. Statstc df Sg. X,00,8,00 *,957,463,00,38 5,00 *,94 5,6 X,00,6,00 *,953,386,00,88 5,00 *,949 5,33 X3,00,6,00 *,959,506,00,36 5,00 *,96 5,43 X4,00,7,00 *,939,04,00,6 5,00 *,960 5,4 Για τον έλεγχο της κανονικότητας των δεδομένων χρησιμοποιείται ο έλεγχος Shapro-Wlk επειδή είναι μικρό το δείγμα. Εφόσον, τα p-value του Shapro-Wlk για τις τέσσερεις μεταβλητές και των δυο πληθυσμών είναι μεγαλύτερα του επιπέδου στατιστικής σημαντικότητας α=0,05 τότε ισχύει η μηδενική υπόθεση για την κανονικότητα των δεδομένων των πληθυσμών π, π και π 3. Επιπλέον, κατασκευάζεται ένα διάγραμμα Q-Q για κάθε μία από τις ανεξάρτητες μεταβλητές. Το διάγραμμα εμφανίζει στον οριζόντιο άξονα τις πραγματικές τιμές της μεταβλητής και στο κάθετο άξονα τις αναμενόμενες τιμές που προκύπτουν από τη τυπική κανονική κατανομή. Όσο οι κύκλοι του διαγράμματος Q-Q διατάσσονται σε γραμμική μορφή τόσο πιο πολύ ενισχύεται η άποψη της κανονικότητας. Στο σχήμα.5 παρουσιάζονται τα διαγράμματα κανονικότητας της μεταβλητής Χ για τους πληθυσμούς π και π, στο σχήμα.6 τα διαγράμματα κανονικότητας της μεταβλητής Χ για τους πληθυσμούς π και π, στο σχήμα.7 τα διαγράμματα κανονικότητας της μεταβλητής Χ για τους πληθυσμούς π και π και στο σχήμα.8 τα διαγράμματα κανονικότητας της μεταβλητής Χ για τους πληθυσμούς π και π Σχήμα.5 Τα διαγράμματα κανονικότητας της μεταβλητής Χ για τους πληθυσμούς π και π

64 Σχήμα.6 Τα διαγράμματα κανονικότητας της μεταβλητής Χ για τους πληθυσμούς π και π. Σχήμα.7 Τα διαγράμματα κανονικότητας της μεταβλητής Χ3 για τους πληθυσμούς π και π. Σχήμα.8 Τα διαγράμματα κανονικότητας της μεταβλητής Χ4 για τους πληθυσμούς π και π. Για τον έλεγχο ομοιότητας των δυο πινάκων διακυμάνσης-συνδιακύμανσης (επειδή δυο είναι και οι πληθυσμοί αυτού του παραδείγματος) χρησιμοποιείται το στατιστικό Μ του Box. Το αποτέλεσμα είναι το εξής:

65 Πίνακας.6 Έλεγχος αποτελεσμάτων Boxs M 3,605 F Approx. 3,55 df df 568,053 Sg.,060 Από το πίνακα.6 φαίνεται ότι η αρχική υπόθεση (H 0 : Σ =Σ ) σε στάθμη σημαντικότητας α=0.05 δεν απορρίπτεται εφόσον το p-value είναι 0.060>0.05 και ισχύει η ισότητα των διασπορών-συνδιασπορών. Οπότε, αφού πληρούνται και οι δύο υποθέσεις/προϋποθέσεις, τα δεδομένα είναι κατάλληλα για την εφαρμογή της Ταξινόμησης και της Διαχωριστικής Ανάλυσης. Ανάλυση των δεδομένων μέσω του μέσω του στατιστικού πακέτου IMB SPSS statstcs 9. Στο πίνακα.7 παρουσιάζονται οι περιγραφικοί στατιστικοί δείκτες για τους δυο πληθυσμούς ξεχωριστά αλλά και για το σύνολο των δεδομένων. Πίνακας.7 Τα στατιστικά των ομάδων Vald N (lstwse) Frm Mean Std. Devaton Unweghted Weghted,00 X -,0680,0999,000 X -,078,0056,000 X3,36667,405343,000 X4,457,9509,000,00 X,350,69 5 5,000 X,0580, ,000 X3,4330, ,000 X4,470, ,000 Total X,09674, ,000 X,0600, ,000 X3,94630, ,000 X4,465, ,

66 ) Εύρεση των Διαχωριστικών Συναρτήσεων Fsher Εφόσον στο παράδειγμα υπάρχουν δύο πληθυσμοί σύμφωνα με το πίνακα.3 σχηματίζεται μια γραμμική διαχωριστική συνάρτηση Fsher χωρίς την απώλεια σημαντικής πληροφορίας. Ο συντελεστής της συνάρτησης είναι η μονάδα και φαίνονται στο πίνακα.8. Πίνακας.8 Standardzed Canoncal Dscrmnant Functon Coeffcents Functon X3,000 Οπότε, η γραμμική Διαχωριστική Συνάρτηση Fsher είναι της μορφής: Functon : Ο άξονας της μεταβλητής Χ3 Ο διαχωρισμός των δυο πληθυσμών παρουσιάζεται/ερμηνεύεται στο μονοδιάστατο χώρο μιας γραμμικής διαχωριστικής συνάρτησης (Functon ) στο σχήμα.7. Σχήμα.7 Μονοδιάστατη αναπαράσταση των δεδομένων ) Εύρεση του Κανόνα Κατάταξης Ο κανόνας ταξινόμησης νέων εταιρειών σε χρεοκοπημένες ή μη-χρεοκοπημένες ανάλογα με τις τιμές των μεταβλητών Χ, Χ, Χ 3 και Χ 4 σύμφωνα με τις τιμές των 46 εταιρειών είναι της παρακάτω μορφής:

67 Πίνακας.9 Classfcaton Functon Coeffcents Frm,00,00 Zscore(X3) -3,06,693 (Constant) -,6 -,79 Εφόσον υπάρχουν δύο πληθυσμοί τότε θα υπάρχουν και δύο γραμμικές συναρτήσεις ταξινόμησης: Η γραμμική διαχωριστική συνάρτηση του πληθυσμού π είναι: w ( x ),6 3,06 z 3 Η γραμμική διαχωριστική συνάρτηση του πληθυσμού π είναι: w ( x ),79,693 z 3 Κάθε νέα παρατήρηση x ( x, x) κατατάσσεται στην ομάδα/πληθυσμό με τη μεγαλύτερη τιμή συνάρτησης. Αν ισχύει η ανισότητα w( x) w( x) τότε η παρατήρηση x κατατάσσεται στο πληθυσμό π, αλλιώς αν ισχύει η αντίστροφη ανισότητα w( x) w( x) τότε η παρατήρηση x κατατάσσεται στο πληθυσμό π. Τέλος, από το πίνακα σύγχυσης μπορεί να αξιολογηθεί η παραπάνω διαδικασία με τον υπολογισμό της επιτυχίας της ταξινόμησης. Φαίνεται ότι το ποσοστό της σωστής ταξινόμησης/διαχωρισμού είναι 95.7% (90,5% για το πληθυσμό π, 00% για το πληθυσμό π ). Με τη μέθοδο Cross-Valdaton υπολογίζεται το ίδιο ποσοστό σωστής ταξινόμησης 95,7 % και ολοκληρώνεται η διαδικασία. Τα αποτελέσματα της ταξινόμησης φαίνονται στο πίνακα.0 Πίνακας.0 Classfcaton Results b,c Predcted Group Membershp Frm,00,00 Total Orgnal Count,00 9, %,00 90,5 9,5 00,0,00,0 00,0 00,0 Cross-valdated a Count,00 9, %,00 90,5 9,5 00,0,00,0 00,0 00,0 b. 95,7% of orgnal grouped cases correctly classfed. c. 95,7% of cross-valdated grouped cases correctly classfed

68 .8. ΆΛΛΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ ΓΙΑ ΤΗ ΤΑΞΙΝΟΜΗΣΗ ΔΕΔΟΜΕΝΩΝ.8.. Λογιστική Παλινδρόμηση (Ποιοτικές/Κατηγορικές μεταβλητές) Ο διαχωρισμός δύο ή περισσότερων πληθυσμών και η ταξινόμηση δεδομένων χρησιμοποιούν ποσοτικές μεταβλητές. Όμως σε αρκετές εφαρμογές δεν αρκούν μόνο οι ποσοτικές μεταβλητές για το διαχωρισμό πληθυσμών και τη κατάταξη καινούργιων μεταβλητών αλλά απαραίτητες είναι και οι ποιοτικές ή κατηγορικές μεταβλητές, των οποίων οι τιμές τους δεν είναι αριθμοί. Για παράδειγμα η παρουσία ή η απουσία ενός χαρακτηριστικού ίσως αποτελεί ένα σημαντικό διαχωριστή. Για την αντιμετώπιση αυτής της κατάστασης δημιουργείται μια καινούργια μεταβλητή y, η οποία παίρνει τη τιμή εάν το αντικείμενο έχει το χαρακτηριστικό και τη τιμή 0 αν το αντικείμενο δεν έχει το χαρακτηριστικό. Οπότε όταν οι μεταβλητές είναι δίτιμες της μορφής 0 ή, με άλλα λόγια η πρόβλεψη είναι το αποτέλεσμα μιας διαδικασίας Bernoull όπως επιτυχία ή αποτυχία, χρησιμοποιείται μια εναλλακτική προσέγγιση της διαχωριστικής ανάλυσης η οποία ονομάζεται λογιστική παλινδρόμηση ή καμπύλη. Για ένα πρόβλημα δύο πληθυσμών η πιθανότητα συμμετοχής των παρατηρήσεων στη πρώτη ομάδα (y=), p x,μοντελοποιείται ως εξής: p x ab x e e ab x Και στη δεύτερη ομάδα (y=0) η πιθανότητα συμμετοχής των παρατηρήσεων ορίζεται ως εξής: p x p x. Όπου με το διάνυσμα x συμβολίζεται το σύνολο των μεταβλητών παλινδρόμησης. Παράδειγμα: Σε μια μελέτη έρευνας της εργασίας των γυναικών η οποία θεωρείτο συνάρτηση της ηλικίας των γυναικών, του αριθμού των παιδιών και του εισοδήματος του συζύγου η μεταβλητή Y ορίστηκε ως δίτιμη λόγω των δύο πιθανών αποτελεσμάτων: γυναίκες που εργάζονται (Υ=) και γυναίκες που δεν εργάζονται (Υ=0)..8.. Δέντρα Απόφασης Τα δέντρα απόφασης ή δέντρα ταξινόμησης (decson or classfcaton trees) αποτελούν μια τεχνική μοντελοποίησης της διαδικασίας της ταξινόμησης και είναι μια από τις από τις πιο διαδεδομένες τεχνικές ταξινόμησης για το λόγο ότι προσφέρει σαφή και κατανοητά αποτελέσματα μέσα σε λίγο χρόνο. Σε αυτή τη τεχνική υπάρχουν δύο βασικά βήματα: η κατασκευή του δέντρου και στη συνέχεια η εφαρμογή του στο σύνολο των δεδομένων (βάση δεδομένων)

69 Για τη κατασκευή δέντρων απόφασης σε μια μορφή από πάνω προς τα κάτω χρησιμοποιείται επαναληπτικά η μέθοδος «Διαιρεί και Βασίλευε». Η προσέγγιση των αποφάσεων για τη ταξινόμηση βασίζεται δηλαδή στη διαίρεση των δεδομένων σε υποσύνολα με βάση κάποιο χαρακτηριστικό και με κριτήριο το κέρδος πληροφορίας. Με αυτό τον τρόπο εξασφαλίζεται ότι τα στοιχεία του κάθε υποσυνόλου θα έχουν κατά το δυνατόν την ίδια τιμή σε αυτό το χαρακτηριστικό, πραγματοποιείται δηλαδή η λεγόμενη ομοιογένεια των υποσυνόλων. Αυτή η διαδικασία, χρησιμοποιώντας κόμβους και διακλαδώσεις, ξεκινώντας από ένα κόμβο-ρίζα οδηγεί στην απεικόνιση που λέγεται δέντρο απόφασης. Για τη ταξινόμηση ενός άγνωστου στοιχείου ακολουθείται η πορεία από τη ρίζα προς τους κόμβους, εξετάζοντας τις τιμές των χαρακτηριστικών του σε κάθε έναν από αυτούς τους κόμβους, μέχρι να καταλήξει σε ένα φύλλο οπότε ταξινομείται σύμφωνα με τη κατηγορία αυτού του φύλλου. Το δέντρο που κατασκευάστηκε/χτίστηκε για να είναι αποδοτικό θα πρέπει να είναι όσο το δυνατόν πιο μικρό με λίγα επίπεδα και ισοζυγισμένο. Επιπλέον να λαμβάνεται από κάθε βήμα το μέγιστο κέρδος πληροφορίας, το οποίο αυξάνεται με την αύξηση της μέσης ομοιογένειας των υποσυνόλων. Οπότε για την επιλογή του χαρακτηριστικού στη ρίζα του δέντρου θα πρέπει να βρεθεί το χαρακτηριστικό εκείνο που δημιουργεί τα περισσότερο ομοιογενή υποσύνολα κλάδων και άρα εξασφαλίζει το μέγιστο κέρδος πληροφορίας κ.ο.κ. Για να μετρηθεί το κέρδος της πληροφορίας χρησιμοποιείται η έννοια της εντροπίας. Υπάρχουν και άλλες συναρτήσεις που μπορούν να χρησιμοποιηθούν σα κριτήρια διάσπασης όπως το λόγο κέρδους πληροφορίας, gan rato, ή το δείκτη Gn. Υπάρχουν αρκετά πλεονεκτήματα από τη χρήση των δέντρων απόφασης για τη ταξινόμηση. Αρχικά είναι εύκολα στη χρήση και αποτελεσματικά. Επιπλέον οι κανόνες που σχηματίζονται είναι εύκολο στο να κατανοηθούν και να ερμηνευτούν. Τέλος μπορούν να κατασκευαστούν δέντρα για δεδομένα με πολλά γνωρίσματα. Από την άλλη μεριά όμως, υπάρχουν και μειονεκτήματα των αλγορίθμων των δέντρων απόφασης. Όπως ότι δεν μπορούν να χειριστούν καλά συνεχή δεδομένα αλλά ούτε και τα ελλιπή δεδομένα γιατί δεν είναι εύκολο να βρεθούν οι σωστές διακλαδώσεις του δέντρου. Αλγόριθμοι ταξινόμησης: d3,c4.5,c5.0,cart

70 . Η ΤΕΧΝΙΚΗ ΤΗΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΔΕΔΟΜΕΝΩΝ (Clusterng).. Εισαγωγή και Ορισμός της Ομαδοποίησης Η ομαδοποίηση ή αλλιώς συσταδοποιήση θεωρείται μια διερευνητική διαδικασία/τεχνική ανάλυσης δεδομένων, η οποία στοχεύει στην οργάνωση των τιμών των αντικειμένων σε ομάδες (ή συστάδες) έτσι ώστε να επιτυγχάνεται η μέγιστη ομοιότητα μεταξύ των παρατηρήσεων μέσα σε κάθε ομάδα και η μέγιστη ανομοιότητα μεταξύ των συστάδων, όπου αρχικά θεωρούνται άγνωστες. Γεωμετρικά αυτό σηµαίνει ότι δύο όµοιες παρατηρήσεις θα βρίσκονται σε γειτονικά σηµεία, ενώ δύο ανόµοιες σε απομακρυσμένα σηµεία. Αυτή η διαδικασία κατασκευάζεται μόνο από τη δομή και τους συσχετισμούς των δεδομένων που μπορεί να είναι είτε σε οπτικοποιημένη μορφή είτε όχι, (απουσία εκ των προτέρων γνώσης για την ομαδοποίηση) με σκοπό την ερμηνεία των πολύπλοκων φυσικών σχέσεων μεταξύ των πολυδιάστατων παρατηρήσεων. Η διαδικασία της συσταδοποίησης, μπορεί να εκφραστεί μαθηματικά ως εξής: Δοθείσας μιας βάσης δεδομένων D x x x,,..., n που αποτελείται από στοιχεία και μιας ακέραιας τιμής k, το πρόβλημα της συσταδοποίησης είναι να οριστεί μια αντιστοίχιση f : D,,... k όπου κάθε x ανατίθεται σε μια συστάδα K j, j k. Μια συστάδα K j περιέχει μόνο τα στοιχεία που της ανατέθηκαν, δηλαδή K x f x K, n, x D. j j Το αποτέλεσμα της επίλυσης ενός προβλήματος συσταδοποίησης είναι η δημιουργία ενός συνόλου συστάδων K K, K,..., Kk. Η αποδοτικότητα του αποτελέσματος της ομαδοποίησης σχετίζεται άμεσα με το είδος των δεδομένων που θα χρησιμοποιηθούν καθώς επίσης και με τα κριτήρια ομοιογένειας ή ανομοιογένειας που θα επιλεγούν. Βέβαια, σε αρκετές εφαρμογές δεν είναι εύκολο να προσδιοριστεί ο κατάλληλος χωρισμός των δεδομένων σε συστάδες γιατί αρχικά πρέπει να οριστεί η έννοια της συστάδας, δηλαδή η ομοιότητα των παρατηρήσεων μέσα στη κάθε ομάδα. Η απεικόνιση της δυσκολίας της ομαδοποίησης εμφανίζεται στο σχήμα. όπου υπάρχουν είκοσι σημεία προς ομαδοποίηση. Σε αυτή τη περίπτωση υπάρχει ένας τρόπος για να σχηματιστούν 0 συστάδες, τρόποι για να χωριστούν τα 0 σημεία σε δύο συστάδες, διαφορετικοί τρόποι για να ταξινομηθούν τα 0 σημεία σε τρείς συστάδες κ.ο.κ

71 Οπότε θεωρείται αδύνατο/ασύμφορο να σχηματιστούν όλες οι πιθανές ομαδοποιήσεις και από αυτές να επιλεγούν οι βέλτιστες γιατί αποτελεί μια χρονοβόρα διαδικασία ακόμα και μέσω σύγχρονων συστημάτων πληροφορικής. Άρα στόχος της συσταδοποίησης είναι να ανακαλυφτούν φυσικές ομάδες των αντικειμένων όπως φαίνεται στο σχήμα. (β), (γ) και (δ). Στις εικόνες (β) και (δ) που ακολουθούν χωρίζονται τα δεδομένα με βάση τις φυσικές τους ιδιότητες σε δύο και έξη ομάδες, αντίστοιχα. Επιπλέον, ο διαχωρισμός της κάθε μία από τις δύο μεγάλες συστάδες σε τρείς υποσυστάδες εικόνα (δ) μπορεί να θεωρηθεί λογικός από το ανθρώπινο οπτικό σύστημα. Όπως επίσης μπορεί να θεωρηθεί πιθανός και ο χωρισμός σε τέσσερις υποσυστάδες (γ). Σημείωση: Ο αριθμός των διαφορετικών τρόπων που μπορούν να ταξινομηθούν n αντικείμενα σε k,μη κενές ομάδες υπολογίζεται από τον αριθμό Strlng (δεύτερου είδους) και δίνεται από το k n k j k j n k, n>k. k! j0 j τύπο Σχήμα. Τρείς διαφορετικοί τρόποι ομαδοποίησης 0 σημείων

72 ... Εφαρμογές Οι εφαρμογές της ομαδοποίησης εμφανίζονται σε ένα ευρύ φάσμα επιστημονικών πεδίων, συμπεριλαμβανομένων της βιολογίας, του μάρκετινγκ, της ανθρωπολογίας, της οικονομίας και της ιατρικής. Από αυτές τις εφαρμογές κάποιες αναλύονται περεταίρω στα ακόλουθα παραδείγματα: Βιολογία: Ένα από τα πρώτα πεδία στα οποία χρησιμοποιήθηκε η συσταδοποιήση ήταν η βιολογική ταξινομία για την ομαδοποίηση για την ανάλυση μεγάλων ποσοτήτων γενετικής πληροφορίας με σκοπό την εύρεση ομάδων με όμοιες γονιδιακές λειτουργίες. Μάρκετινγκ: Σημαντικές εφαρμογές εντοπίζονται στο χώρο του μάρκετινγκ, όπου είναι δυνατόν να ανακαλυφτούν ομάδες πελατών με παρόμοια συμπεριφορά, μέσω μιας μεγάλης βάσης δεδομένων που έχει καταχωρημένα πολλά δεδομένα σχετικά με τα χαρακτηριστικά της αγοραστικής συμπεριφοράς των πελατών. Ο σκοπός είναι η περεταίρω ανάλυση και επεξεργασία των στοιχείων για τις καταναλωτικές συνήθειες του ενεργού καταναλωτικού κοινού. Ανάκτηση πληροφοριών: Το μέγεθος του παγκόσμιου ιστού αποτελείται από δισεκατομμύριες σελίδες και το αποτέλεσμα μιας αναζήτησης μπορεί να εμφανίσει χιλιάδες σελίδες. Η ομαδοποίηση χρησιμοποιείται για την ομαδοποίηση αυτών των αποτελεσμάτων σε ένα μικρό αριθμό συστάδων, όπου κάθε συστάδα αντιπροσωπεύει μια διαφορετική κατηγορία. Επιπλέον, κάθε συστάδα μπορεί να διαιρεθεί σε υποσυστάδες με στόχο την γρηγορότερη αναζήτηση. Ψυχολογία και ιατρική: Μια αρρώστια ή μια κατάσταση έχει συχνά έναν αριθμό παραλλαγών και η ομαδοποίηση καλείται να εντοπίσει αυτές τις διαφορετικές υποκατηγορίες. Όπως για παράδειγμα, η ομαδοποίηση χρησιμοποιείται για το προσδιορισμό των διαφορετικών τύπων/ειδών κατάθλιψης

73 .. ΜΕΤΡΑ ΟΜΟΙΟΤΗΤΑΣ... Εισαγωγή και Ορισμοί Η μέθοδος της ομαδοποίησης επιδιώκει το διαχωρισμό του συνόλου των παρατηρήσεων σε ομοιογενείς ομάδες. Για την επίτευξη αυτής της διαδικασίας απαιτείται ο σχηματισμός ενός μέτρου ομοιότητας ή εγγύτητας που υπολογίζει τη σχέση μεταξύ των δεδομένων. Σημαντικό κομμάτι κατασκευής της ομαδοποίησης αποτελούν οι διαφορετικοί τύποι των χαρακτηριστικών ή μεταβλητών των αντικειμένων. Ποσοτικά χαρακτηριστικά: α) Συνεχών τιμών (π.χ. εισόδημα, βάρος) β) Διακριτών τιμών (π.χ. αριθμός ατόμων, αριθμός πόλεων) γ) Τιμών διαστημάτων (π.χ. διάρκεια χρόνο κάποιου φαινομένου ή κατάστασης) Ποιοτικά χαρακτηριστικά: α) Ονομαστικά, μη ταξινομήσιμα (π.χ. χρώμα) β) Ταξινομήσιμα (π.χ. βαθμολογία σε τεστ- κακή, μέτρια, καλή, πολύ καλή, άριστη-) Τις περισσότερες φορές είναι χρήσιμο να απομονώνονται εκείνα τα χαρακτηριστικά που διακρίνονται να είναι πιο σημαντικά και πιο περιγραφικά. Η διαδικασία επιλογής χαρακτηριστικών έχει σα στόχο την εύρεση ενός σημαντικού υποσυνόλου χαρακτηριστικών σε αντίθεση με τη διαδικασία παραγωγής χαρακτηριστικών που στοχεύει στη δημιουργία νέων από τα υπάρχοντα χαρακτηριστικά. Και οι δύο τεχνικές αποσκοπούν στη βελτίωση της ομαδοποίησης και την καλύτερη υπολογιστική απόδοση. Ορισμός. (Παρατήρηση ή Διάνυσμα Χαρακτηριστικών ή Σημείο) Παρατήρηση ή διάνυσμα χαρακτηριστικών ή σημείο καλείται ένα στοιχείο της βάσης δεδομένων, της οποίας τα στοιχεία θα ομαδοποιηθούν. Ορισμός. (Χαρακτηριστικό ή Μεταβλητή) Οι συντεταγμένες μιας παρατήρησης καλούνται χαρακτηριστικά ή μεταβλητές. Ορισμός.3 (Διάσταση) Διάσταση μιας βάσης δεδομένων ή ενός προβλήματος ομαδοποίησης καλείται η διάσταση των διανυσμάτων των χαρακτηριστικών μιας παρατήρησης

74 Η συνήθης αναπαράσταση μιας παρατήρησης σε ένα μετρικό χώρο, είναι ένα διάνυσμα της μορφής x x x,..., n στο χώρο n R διάστασης n, όπου οι συνιστώσες του συμβολίζουν τις τιμές των μεταβλητών ή χαρακτηριστικών που προσδιορίζουν τη παρατήρηση. Το πλήθος των χαρακτηριστικών καλείται διάσταση του προβλήματος.... Μέτρα Απόστασης και Συντελεστές Ομοιότητας για τα ζεύγη των αντικειμένων Το μέτρο της απόστασης είναι ένα μέτρο ορισμένο στο χώρο των χαρακτηριστικών και αποκαλύπτει πόσο όμοια ή διαφορετικά είναι δύο στοιχεία μεταξύ τους. Οπότε, σημαντικό βήμα σε κάθε συσταδοποίηση είναι η επιλογή του καταλληλότερου μέτρου απόστασης καθώς είναι αυτό που προσδιορίζει πως υπολογίζεται η ομοιότητα μεταξύ δύο στοιχείων. Φυσικά, το μέτρο απόστασης είναι αυτό που επηρεάζει και το μέγεθος των συστάδων, καθώς μερικά στοιχεία μπορεί να βρίσκονται κοντά το ένα με το άλλο σύμφωνα με ένα μέτρο απόστασης και αρκετά μακριά σύμφωνα με κάποιο άλλο. Με x x x, y y y και z z z χώρου,..., n,..., n,..., n συμβολίζονται τα διανύσματα του n R, διάστασης n. Το μέτρο ομοιότητας ή αλλιώς μέτρο απόστασης συμβολίζεται με d και ικανοποιεί τις παρακάτω ιδιότητες: d x, y 0( μη αρνητική) d x, y d y, x (συμμετρία) d x, y 0 αν και μόνο αν x y (ταυτοποίηση) d x, y d x, z d z, y ( τριγωνική ανισότητα) Το πιο συνηθισμένο μέτρο απόστασης δύο σημείων θεωρείται η ευκλείδεια απόσταση όπου αποτελεί μια ειδική περίπτωση της μετρικής απόστασης Mnkowsk όπου ορίζεται ως εξής: / m p m d x, y x y, m,,..., (-) Όταν το m= τότε η απόσταση ονομάζεται Manhattan (ή cty-block ή Hammng dstance) και συμβολίζεται με L. Για δύο σημεία/διανύσματα σε p-διαστάσεις στον Ευκλείδειο χώρο ορίζεται με τη παρακάτω μορφή:

75 p d x, y x y (-) Όταν το m= τότε γίνεται η ευκλείδεια απόσταση μεταξύ δύο διανυσμάτων x x,..., xn και y y y που ανήκουν στον Ευκλείδειο χώρο, συμβολίζεται με L και ορίζεται,..., n από την ακόλουθη σχέση: p,... p p d x y x y x y x y x y (-3) Όταν το m τότε η απόσταση καλείται νόρμα μεγίστου ή μέγιστη απόσταση, συμβολίζεται με L και περιγράφει τη μέγιστη διαφορά μεταξύ όλων των συνιστωσών των διανυσμάτων., max,,..., p p d x y x y x y x y (-4) Η απόσταση Mahalapols είναι μια στατιστική απόσταση μεταξύ δύο τυχαίων διανυσμάτων x x,..., xn και y y, y,..., y p που ανήκουν στην ίδια κατανομή και με πίνακα συνδιακύμανσης S τότε ισχύει:, d x y x y S x y (-5) Παρατηρήσεις (Ευκλείδειας Απόστασης) Η ευκλείδεια απόσταση χρησιμοποιείται ευρέως σε περιπτώσεις λίγων διαστάσεων και έχει καλά αποτελέσματα όταν τα δεδομένα κατηγοριοποιούνται σε συμπαγή και αρκετά απομονωμένες συστάδες. Όμως το πρόβλημα της απόστασης αυτής εμφανίζεται στις πολλές διαστάσεις, όταν ένα χαρακτηριστικό παρουσιάζει μεγαλύτερη διαφοροποίηση από τα άλλα κυριαρχεί και αποπροσανατολίζει το τελικό αποτέλεσμα. Παρατηρήσεις (Mahalapols). Αν ο πίνακας συνδιακύμανσης είναι ο μοναδιαίος, δηλαδή τα χαρακτηριστικά είναι ανεξάρτητα τότε η απόσταση Mahalapols ταυτίζεται με την ευκλείδεια απόσταση.. Για τον σχηματισμό της απόστασης Mahalapols απαιτείται η εκ των προτέρων γνώση για τις συστάδες αλλιώς θα είναι αδύνατο να υπολογιστεί. Οπότε για αυτό το λόγο χρησιμοποιείται περισσότερο η ευκλείδεια απόσταση

76 Πίνακες Απόστασης (Εγγύτητας ή ομοιότητας) Οι πίνακες απόστασης χρησιμοποιούνται συχνά στην ομαδοποίηση, είναι τετραγωνικοί και συμμετρικοί πίνακες με τη κύρια διαγώνιο να αποτελείται από μηδενικά, και συμβολίζουν όλα τα ζεύγη ομοιοτήτων-ανομοιοτήτων μεταξύ των σημείων. Παρουσιάζονται οι πίνακες απόστασης των αντικειμένων P, P, P 3, P 4 για τις νόρμες (L, L, L ) αντίστοιχα: Πίνακας. Δεδομένα Σημείο x y P 0 P 0 P3 3 P4 5 Πίνακας. Οι αποστάσεις των δεδομένων σύμφωνα με την απόσταση Manhattan L p p p 3 p 4 p p p p Πίνακας.3 Οι αποστάσεις των δεδομένων σύμφωνα με την Ευκλείδεια απόσταση L p p p 3 p 4 p p p p Πίνακας.4 Οι αποστάσεις των δεδομένων σύμφωνα με την μέγιστη απόσταση L p p p 3 p 4 p p p p

77 ... Μέτρα ομοιότητας των αντικειμένων για δυαδικές μεταβλητές Υπάρχουν διάφορα μέτρα ομοιότητας μεταξύ των δυαδικών μεταβλητών, αυτά τα μέτρα ονομάζονται συντελεστές ομοιότητας των αντικειμένων που ομαδοποιούνται, και οι τιμές τους κυμαίνονται από μηδέν μέχρι ένα. Η τιμή ένα υποδεικνύει ότι οι δύο παρατηρήσεις είναι όμοιες για το τυχαίο χαρακτηριστικό ενώ η τιμή μηδέν υποδηλώνει την ανομοιότητα τους. Η σύγκριση των δύο δυαδικών παρατηρήσεων και k οδηγούν στις ακόλουθες τέσσερεις ποσότητες: a= ο αριθμός των περιπτώσεων όπου το είναι και το k είναι b= ο αριθμός των περιπτώσεων όπου το είναι και το k είναι 0 c= ο αριθμός των περιπτώσεων όπου το είναι 0 και το k είναι d= ο αριθμός των περιπτώσεων όπου το είναι 0 και το k είναι 0 Επιπλέον, ισχύει ότι α+b+c+d=p,όπου το p συμβολίζει το πλήθος των χαρακτηριστικών. Οπότε κατασκευάζεται ο πίνακας των συχνοτήτων των αντιστοιχιών (-),(0-0),(-0) και (0-) για τα αντικείμενα k και. Πίνακας.5 Των συχνοτήτων των αντιστοιχιών Μεταβλητή k 0 Συνολικά a b a+b Μεταβλητή 0 c d c+d Συνολικά a+c b+d p= a+b+ c+d Συντελεστής ομοιότητας Ο πιο απλός συντελεστής ομοιότητας, που σχηματίζεται από τις συχνότητες του πίνακα.5, ονομάζεται απλός συντελεστής αντιστοίχισης και είναι της μορφής: SMC=(a+d)/a+b+c+d=(a+d)/p (-6) Ένας άλλος συντελεστής που επίσης χρησιμοποιείται συχνά είναι ο συντελεστής Jaccard και δίνεται από τον εξής τύπο: J=a/a+b+c (-7)

78 . Παράδειγμα δυαδικών μεταβλητών Έστω η ύπαρξη 5 ατόμων με τα ακόλουθα 6 χαρακτηριστικά: Πίνακας.6 Δεδομένα X = Ύψος X =Βάρος X 3 =Χρώμα ματιών X 4 = Χρώμα μαλλιών X 5 = Πλευρικότητα X 6 = Φύλο Άτομο πράσινα ξανθά δεξιόχειρας γυναίκα Άτομο καφέ καστανά δεξιόχειρας άνδρας Άτομο γαλανά ξανθά δεξιόχειρας άνδρας Άτομο καφέ καστανά δεξιόχειρας γυναίκα Άτομο καφέ καστανά αριστ/χειρας άνδρας Μετασχηματίζονται οι παραπάνω μεταβλητές Χ, Χ, Χ 3, Χ 4, Χ 5 και Χ 6 σε δυαδικές ως εξής: ύ 7 0 ύ 7 ά 50 0 ά 50 3 έά 0 ά άά 4 0 ά 5 ό 0 ό 6 ί 0 ά Οπότε για τα δύο πρώτα άτομα οι p=6 δυαδικές μεταβλητές είναι: Χ Χ Χ 3 Χ 4 Χ 5 Χ 6 Άτομο Άτομο 0 0 (-8) Ο συντελεστής ομοιότητας για τα δύο άτομα είναι: SMC=(+0)/6=/6 Δηλαδή μόνο μία μεταβλητή (Χ 5 ) είναι όμοια μεταξύ τους από τα συνολικά 6 χαρακτηριστικά. Συνεχίζοντας την ίδια διαδικασία για όλα τα ζευγάρια ατόμων σχηματίζεται ο ακόλουθος τετραγωνικός (5x5) και συμμετρικός πίνακας ομοιότητας:

79 Πίνακας.7 Άτομα [ ] / 6 34 / 6 3 / 6 44 / 6 3 / 6 / / 6 / 6 / 6 Παρατηρήσεις του πίνακα.7 Με βάση τα παραπάνω μεγέθη των συντελεστών ομοιότητας συμπεραίνεται ότι τα άτομα και 5 έχουν τα περισσότερο όμοια χαρακτηριστικά ενώ τα άτομα και 5 είναι τα λιγότερο όμοια μεταξύ τους. Τα μεγέθη των υπόλοιπων ζευγαριών κυμαίνονται μεταξύ αυτών των δύο ακραίων τιμών. Σύμφωνα με αυτά τα στοιχεία ένας πιθανός διαχωρισμός σε δύο υποομάδες θα ήταν οι υποσυστάδες με τα άτομα (,3,4) και (,5) αντίστοιχα. Τελικά σχόλια Συνοψίζοντας, υπάρχουν διάφοροι τρόποι για τον υπολογισμό της ομοιότητας μεταξύ των ζευγαριών των αντικειμένων. Όμως οι περισσότερο δημοφιλής/πρακτικοί θεωρούνται οι αποστάσεις ή οι συντελεστές ομοιότητας για την ομαδοποίηση αντικειμένων. Παρόλα αυτά η χρήση/εφαρμογή των αλγορίθμων συσταδοποίησης συχνά φέρνουν πιο απλά και επιθυμητά αποτελέσματα..3. ΑΛΓΟΡΙΘΜΟΙ ΟΜΑΔΟΠΟΙΗΣΗΣ.3.. Στάδια Ομαδοποίησης Αν και οι αλγόριθμοι ομαδοποίησης των δεδομένων διαφοροποιούνται αρκετά μεταξύ τους, σχεδόν όλες οι προσεγγίσεις χαρακτηρίζονται από την ακόλουθη ακολουθία βημάτων: Αναπαράσταση δεδομένων (εξαγωγή ή επιλογή χαρακτηριστικών) Τεχνική ομαδοποίησης των δεδομένων Καθορισμός μιας μετρικής, ενδεικτικής της γειτνίασης των δεδομένων, ανάλογα με το τύπο των δεδομένων Αφαίρεση δεδομένων (αν χρειάζεται) Αξιολόγηση του τελικού αποτελέσματος Αναλυτικότερα, η διαδικασία περιγράφεται ως εξής: - 7 -

80 Η αναπαράσταση των δεδομένων αναφέρεται στο πλήθος των κλάσεων και των διαθέσιμων προτύπων επιπλέον το τύπο και τη κλίμακα των χαρακτηριστικών που είναι διαθέσιμα στο συγκεκριμένο αλγόριθμο ομαδοποίησης. Ενδιαφέρον παρουσιάζει η διαδικασία επιλογήςχαρακτηριστικών κατά την οποία επιλέγονται τα πιο σημαντικά χαρακτηριστικά των στοιχείων τα οποία θα χρησιμοποιηθούν για την ομαδοποίηση. Επίσης, η διαδικασία εξαγωγής-χαρακτηριστικών χρησιμοποιεί μετασχηματισμούς των χαρακτηριστικών εισόδου για την παραγωγή νέων, τα οποία πιθανόν να είναι πιο χρήσιμα και κατάλληλα για την αναπαράσταση των στοιχείων που προορίζονται για ομαδοποίηση. Το στάδιο της ομαδοποίησης αποτελεί το κυρίως μέρος αυτής της διαδικασίας και μπορεί να πραγματοποιηθεί με διάφορους τρόπους, όπου ο κάθε τρόπος αντιστοιχεί και σε ένα διαφορετικό αλγόριθμο ομαδοποίησης. Σε αυτό το σημείο γίνεται η επιλογή του κατάλληλου αλγορίθμου ανάλογα με τη μορφή των δεδομένων. Οι σημαντικότερες κατηγορίες των αλγορίθμων ομαδοποίησης είναι οι ιεραρχικές και οι διαμεριστικές και αναλύονται στη παρακάτω ενότητα. Η γειτνίαση των προτύπων συνήθως μετριέται με βάση μια συνάρτηση απόστασης που ορίζεται για τα ζεύγη προτύπων και επιλέγεται ως το μέτρο ομοιότητας τους. Η πιο συνηθισμένη συνάρτηση απόστασης είναι η Ευκλείδεια. Το πόσο επιτυχημένο θεωρείται το αποτέλεσμα της ομαδοποίησης δεδομένων εξαρτάται και από το κριτήριο που θα χρησιμοποιηθεί για το διαχωρισμό των στοιχείων σε ομάδες. Η αφαίρεση των δεδομένων είναι η οποία έχει σαν αποτέλεσμα μια απλή και συμπαγή αναπαράσταση του συνόλου των δεδομένων. Τέλος στο στάδιο της αξιολόγησης του αποτελέσματος εξετάζεται η εγκυρότητα των ομάδων με τον έλεγχο του αποτελέσματος του αλγορίθμου. Πρακτικά ελέγχεται αν οι ομάδες είναι αντιπροσωπευτικές σε σχέση με τα σημεία που έπρεπε να ομαδοποιηθούν. Στις περισσότερες περιπτώσεις η διαδικασία αυτή είναι επαναληπτική. Αυτό οφείλεται τόσο στο ίδιο το αλγοριθμικό σχήμα, όσο και στο γεγονός ότι η αξιολόγηση του αλγορίθμου μπορεί να παρέχει πληροφορίες για τη ρύθμιση των ρύθμιση των παραμέτρων του αλγορίθμου και συνεπώς η επανεκτέλεσή του να βελτιώσει την απόδοση του. Στο σχήμα. παρουσιάζεται μια κατηγοριοποίηση των διαφορετικών αλγορίθμων συσταδοποίησης

81 Τεχνικές μέθοδοι συσταδοποίησης Ιεραρχικοί Διαμεριστικοί Διαιρετικοί Συσσωρευτικοί Αλγόριθμος k-means Τεχνική απλού συνδέσμου Τεχνική πλήρους συνδέσμου Τεχνική μέσης απόστασης Σχήμα. Κατηγοριοποίηση των διαφορετικών αλγορίθμων συσταδοποίησης.3.. ΙΕΡΑΡΧΙΚΟΙ ΜΕΘΟΔΟΙ ΟΜΑΔΟΠΟΙΗΣΗΣ Η εύρεση όλων των πιθανών ομαδοποιήσεων για ένα πρόβλημα συσταδοποίησης είναι αδύνατη, παρόλο την ύπαρξη γρήγορων υπολογιστικών συστημάτων. Εξαιτίας αυτού του προβλήματος έχουν κατασκευαστεί αλγόριθμοι συσταδοποίησης όπου παρουσιάζουν αρκετά επιθυμητά/λογικά αποτελέσματα. Η ιεραρχική ομαδοποίηση είναι μια στατιστική μέθοδος με σκοπό την εύρεση ομοιογενών ομάδων, αυτή η διαδικασία επιτυγχάνεται με τη δημιουργία ενός εμφωλευμένου συνόλου από συστάδες. Η ιεραρχία των ομάδων δημιουργείται από την ιεραρχική ομαδοποίηση και κάθε επίπεδο της (ιεραρχίας) έχει νέα σύνολα συστάδων, τα οποία εξαρτώνται από τον τρόπο υπολογισμού της απόστασης μεταξύ των ομάδων (π.χ. απόσταση απλού ή ελάχιστου συνδέσμου, απόσταση πλήρους ή μεγίστου συνδέσμου και μέση απόσταση). Η συνήθης αναπαράσταση της ιεραρχίας ομάδων γίνεται με μια δεντρική δομή των δεδομένων, γνωστή ως δενδρόγραμμα. Στη κορυφή του δενδρογράμματος βρίσκεται η ρίζα όπου υπάρχει μια συστάδα με όλες τις παρατηρήσεις/συστάδες ενώ τα φύλλα του συμβολίζουν τις ατομικές συστάδες. Οι εσωτερικοί κόμβοι του δενδρογράμματος αναπαριστούν νέες συστάδες οι οποίες προκύπτουν από τη συνένωση των συστάδων που

82 εμφανίζονται ως παιδιά τους στο δενδρόγραμμα σύμφωνα με κάποιο μέτρο απόστασης των συστάδων. Οι ιεραρχικές μέθοδοι συσταδοποίησης χρησιμοποιούν το πίνακα ομοιότητας των παρατηρήσεων για το προσδιορισμό των μεταξύ τους αποστάσεων. Έστω ότι το πλήθος των δεδομένων είναι n, τότε απαιτείται ο υπολογισμός και η αποθήκευση των n αποστάσεων/ομοιοτήτων. Άρα η πολυπλοκότητα χώρου και του χρόνου είναι Ο(n ) Συσσωρευτικοί & Διαιρετικοί Μέθοδοι Υπάρχουν δύο βασικές προσεγγίσεις για τη δημιουργία μιας ιεραρχικής ομαδοποίησης. α) Συσσωρευτικοί ιεραρχικοί μέθοδοι Η έναρξη της ομαδοποίησης γίνεται με τα σημεία να αποτελούν ατομικές συστάδες και επαναληπτικά συγχωνεύονται μέχρι όλες οι συστάδες να ανήκουν στην ίδια συστάδα. β) Διαιρετικοί ιεραρχικοί μέθοδοι Αρχικά όλα τα δεδομένα τοποθετούνται σε μια συστάδα, στη συνέχεια κάθε συστάδα διασπάται σε δύο επιμέρους συστάδες. Η διαδικασία επαναλαμβάνεται έως ότου κάθε σημείο να ανήκει στη δική του συστάδα. Βασική ιδέα είναι μια συστάδα διασπάται όταν κάποια από τα σημεία της δεν βρίσκονται αρκετά κοντά στα υπόλοιπα σημεία της ίδιας συστάδας. Αξίζει να σημειωθεί ότι συγκριτικά με τους συσσωρευτικούς αλγόριθμους είναι λιγότερο αποδοτικοί καθώς παρουσιάζονται υπολογιστικές δυσκολίες λόγω της θεώρησης ότι το σύνολο δεδομένων κάθε φορά διαιρείται σε δύο ομάδες. Τα αποτελέσματα των δύο παραπάνω μεθόδων εμφανίζονται σε ένα διάγραμμα δύο διαστάσεων, το δενδρόγραμμα. Σε αυτό το δενδρόγραμμα απεικονίζονται οι επαναληπτικές συγχωνεύσεις των ομάδων (από κάτω προς τα πάνω) που καθορίζουν τις συσσωρευτικές μεθόδους επιπλέον οι επαναληπτικές διαιρέσεις των συστάδων (από πάνω προς τα κάτω) όπου προσδιορίζουν τις διαιρετικές μεθόδους. Ο Γενικός (βασικός) Συσσωρευτικός Αλγόριθμος ο Βήμα: Δημιουργία n ατομικών συστάδων από τα n αντικείμενα και κατασκευή ενός συμμετρικού πίνακα D={d j } των αποστάσεων των αντικειμένων,διάστασης nxn

83 ο Βήμα: Εύρεση της μικρότερης απόστασης μεταξύ όλων των ζευγαριών αντικειμένων (συστάδων) από το πίνακα D. Έστω ότι η μικρότερη απόσταση είναι μεταξύ των συστάδων U και V και συμβολίζεται με d UV. 3 ο Βήμα: Συγχώνευση των δύο συστάδων U,V σε μία συστάδα με το συμβολισμό (UV). Στη συνέχεια ενημερώνεται ο πίνακας με τη διαγραφή των γραμμών και στηλών που αντιστοιχούν στις συστάδες U και V και με την εισαγωγή μιας καινούργιας γραμμής και στήλης δίνοντας τις αποστάσεις μεταξύ της συστάδας (UV) και των υπόλοιπων συστάδων. 4 ο Βήμα: Επανάληψη n- φορές των βημάτων και 3. Όταν ο αλγόριθμος τερματίσει τότε όλα τα αντικείμενα θα βρίσκονται μέσα σε μία συστάδα. (-9).3... Σύνδεσμοι Αποστάσεων των Συσσωρευτικών Αλγορίθμων Οι συσσωρευτικοί αλγόριθμοι απαιτούν τον ορισμό της απόστασης μεταξύ των συστάδων αντί της απόστασης μεταξύ των σημείων εντός των συστάδων. Υπάρχουν πολλοί εναλλακτικοί τρόποι υπολογισμού αυτής της απόστασης, οι πιο βασικοί παρουσιάζονται παρακάτω: (το 3 ο βήμα του αλγορίθμου μπορεί να πραγματοποιηθεί με διαφορετικούς τρόπους).3... Απόσταση Απλού Συνδέσμου (Ομαδοποίηση με βάση τα κοντινότερα σημεία) Η τεχνική του απλού συνδέσμου ή αλλιώς τεχνική συσταδοποίησης του πλησιέστερου γείτονα βασίζεται στην ιδέα εύρεσης μέγιστων ομοιοτήτων εντός των συστάδων. Η ομαδοποίηση σχηματίζεται από τις ατομικές συστάδες με τη συγχώνευση των κοντινότερων/πλησιέστερων γειτόνων, δηλαδή ο πλησιέστερος γείτονας υποδηλώνει τη μικρότερη απόσταση ή την μεγαλύτερη ομοιότητα των αντικειμένων/συστάδων. Αρχικά, μέσω του πίνακα αποστάσεων, D, των αντικειμένων/συστάδων εντοπίζεται η μικρότερη απόσταση (έστω μεταξύ της U και V) και στη συνέχεια συγχωνεύονται σε μια συστάδα (UV). Σύμφωνα με αυτή τη τεχνική το 3 ο βήμα του αλγόριθμου (-) υπολογίζεται από τη σχέση: d (UV)W = mn {d UW, d VW } (-0) Τα αποτελέσματα της ομαδοποίησης με τη τεχνική του απλού συνδέσμου μπορούν να εμφανιστούν/περιγραφτούν από ένα δενδρόγραμμα

84 Παράδειγμα. (Εφαρμογή του Απλού Συνδέσμου στο SPSS για ομαδοποίηση δεδομένων) Έστω ο πίνακας δεδομένων. Πίνακας.8 Δεδομένα Σημεία Χ Χ P 0,40 0,53 P 0, 0,38 P3 0,35 0,3 P4 0,6 0,9 P5 0,45 0,30 Υπολογισμός της ευκλείδειας απόστασης μεταξύ των παραπάνω σημείων και στη συνέχεια κατασκευάζεται ο τετραγωνικός (5x5) και συμμετρικός πίνακας απόστασης των σημείων αυτών. Πίνακας.9 Ομοιότητα των δεδομένων Σημεία Ευκλείδεια Απόσταση :P :P 3:P3 4:P4 5:P5 :P,000,34,6,368,35 :P,34,000,43,94,44 3:P3,6,43,000,58,0 4:P4,368,94,58,000,0 5:P5,35,44,0,0,000 Θεωρώντας το κάθε σημείο σαν μια συστάδα, η ομαδοποίηση ξεκινά με τη συγχώνευση των δύο κοντινότερων συστάδων. Αφού λοιπόν ισχύει ότι dk d mn 0,0 τότε οι πλησιέστερες συστάδες είναι (3,5) και η καινούργια ομάδα συμβολίζεται ως (35). Το επόμενο βήμα του γενικού αλγορίθμου είναι ο υπολογισμός των αποστάσεων μεταξύ της νέας συστάδας (35) και των υπόλοιπων συστάδων,, και 4. d mn d, d mn 0, 6,0, 35 0, d mn d, d mn 0,43,0, 44 0, d mn d, d mn 0,58,0, 0 0, Διαγράφοντας τις γραμμές και τις στήλες των συστάδων (3,5) από το πίνακα.7 και προσθέτοντας τη γραμμή και στήλη των αποστάσεων για τη συστάδα (35) σχηματίζεται ο νέος πίνακας απόστασης (.0): k

85 Πίνακας.0 Ομοιότητα των δεδομένων Σημεία Ευκλείδεια Απόσταση ,000, 6, 43, 58,6,000, 34, 368,43,34,000, 94 4,58,368,94,000 Άρα δημιουργείται η νέα συστάδα (35) από τη συγχώνευση των συστάδων (35) και αφού ισχύει ότι dk d35 mn 0,43 και παρακάτω υπολογίζεται η απόσταση της από τις k υπόλοιπες συστάδες: d d d Οπότε ο νέος πίνακας απόστασης γίνεται: mn 35, 35 mn 0, 34,0, 6 0, 6 d mn d, d mn 0,94,0,58 0, Πίνακας. Ομοιότητα των δεδομένων Σημεία Ευκλείδεια Απόσταση ,000, 6, 58,6,000, 368 4,58,368,000 Συνεπώς, οι συστάδες (35) και (4) συγχωνεύονται σε μία συστάδα (345) αφού ισχύει ότι dk d345 mn 0,58 και υπολογίζεται η απόσταση της από τη συστάδα. k d mn d, d mn 0, 6,0,368 0, Ο τελικός πίνακας απόστασης των συστάδων παίρνει την εξής μορφή: Πίνακας. Ομοιότητα των δεδομένων Ευκλείδεια Απόσταση Σημεία ,000,6,6,000 Άρα οι συστάδες και 345 συγχωνεύονται σε μια (345) εφόσον ισχύει ότι dk d345 mn 0, 6 και τερματίζει ο αλγόριθμος. k

86 Η περιγραφή της ιεραρχικής διαδικασίας απλού συνδέσμου ξεκινά με το ο στάδιο όπου συγχωνεύονται τα σημεία 3 και 5, (3,5), στο ο στάδιο συγχωνεύεται το σημείο με τη συστάδα (3,5), (3,5,), στο 3 ο στάδιο συγχωνεύεται το σημείο 4 με τη συστάδα (3,5,), (3,5,,4) και στο τελευταίο στάδιο συγχωνεύεται το σημείο με τη συστάδα (3,5,,4) και ολοκληρώνεται η ομαδοποίηση με τη δημιουργία της μιας συστάδας (3,5,,4,) που περιλαμβάνει όλα τα σημεία. Όλη η διαδικασία ομαδοποίησης του αλγορίθμου απλού συνδέσμου απεικονίζεται/εμφανίζεται στο πίνακα.3 και στο δενδρόγραμμα του σχήματος.3. Πίνακας.3 Η συσσωρευτική δομή (του αλγορίθμου) του απλού συνδέσμου Συνδυασμός Ομάδων Ελάχιστες Stage Cluster Frst Appears Επόμενο Στάδιο Ομάδα Ομάδα αποστάσεις Ομάδα Ομάδα στάδιο 3 5, , , , Σχήμα.3 Δενδρόγραμμα του απλού συνδέσμου

87 .3... Απόσταση Πλήρους Συνδέσμου (Ομαδοποίηση σύμφωνα με τη μεγαλύτερη απόσταση) Ο αλγόριθμος πλήρους συνδέσμου ή απώτερου γείτονα ενώ ομαδοποιεί τις συστάδες με παρόμοιο τρόπο όπως ο αλγόριθμος απλού συνδέσμου υπάρχει μια σημαντική διαφορά μεταξύ τους. Σε κάθε στάδιο του αλγορίθμου η απόσταση μεταξύ των συστάδων ορίζεται ως η μέγιστη απόσταση μεταξύ των δύο σημείων που ανήκουν σε διαφορετικές ομάδες. Οπότε με αυτή τη διαδικασία δύο συστάδες συγχωνεύονται με βάση τη μικρότερη από τις μέγιστες αποστάσεις. Με αυτή τη τεχνική εξασφαλίζεται ότι όλα τα σημεία μέσα σε μια ομάδα θα βρίσκονται μεταξύ μέγιστων σημείων. Ο γενικός συσσωρευτικός αλγόριθμος ξεκινά βρίσκοντας τη ελάχιστη απόσταση του πίνακα D έστω των (U,V) και συγχωνεύοντας αυτές στη νέα συστάδα (UV). Στο 3 ο βήμα του αλγορίθμου οι αποστάσεις πλήρους συνδέσμου της συστάδας (UV) από τις υπόλοιπες συστάδες υπολογίζεται από τη σχέση: d (UV)W = max {d UW, d VW } (-) Παράδειγμα.3 (Εφαρμογή του Πλήρους Συνδέσμου στο SPSS για ομαδοποίηση δεδομένων) Έστω ο παρακάτω πίνακας δεδομένων. Πίνακας.8 Δεδομένα Σημεία Χ Χ P 0,40 0,53 P 0, 0,38 P3 0,35 0,3 P4 0,6 0,9 P5 0,45 0,30 Υπολογισμός της ευκλείδειας απόστασης μεταξύ των σημείων του πίνακα.8 και στη συνέχεια κατασκευάζεται ο τετραγωνικός (5x5) και συμμετρικός πίνακας απόστασης των παραπάνω σημείων

88 Πίνακας.4 Ομοιότητα δεδομένων Ευκλείδεια Απόσταση Σημεία :P :P 3:P3 4:P4 5:P5 :P,000,34,6,368,35 :P,34,000,43,94,44 3:P3,6,43,000,58,0 4:P4,368,94,58,000,0 5:P5,35,44,0,0,000 Θεωρώντας το κάθε σημείο σαν μια συστάδα, η ομαδοποίηση ξεκινά με τη συγχώνευση των δύο κοντινότερων συστάδων. Αφού λοιπόν ισχύει ότι dk d35 mn 0,0 τότε οι πλησιέστερες συστάδες είναι (3,5) και η καινούργια συστάδα συμβολίζεται ως (35). Το επόμενο βήμα του γενικού αλγορίθμου είναι ο υπολογισμός των αποστάσεων μεταξύ της καινούργιας συστάδας και των υπόλοιπων συστάδων,, και 4. d max d, d max 0, 6,0, 35 0, d max d, d max 0,43,0, 44 0, d max d, d max 0,58,0, 0 0, Διαγράφοντας τις γραμμές και τις στήλες των συστάδων (3,5) του πίνακα. και προσθέτοντας τη γραμμή και στήλη των αποστάσεων για τη συστάδα (35) σχηματίζεται ο νέος πίνακας απόστασης (.5). Πίνακας.5 Ομοιότητα δεδομένων Ευκλείδεια Απόσταση Σημεία ,000, 35, 44,0,35,000, 34, 368,44,34,000, 94 4,0,368,94,000 k

89 Άρα δημιουργείται η συστάδα (4) από τη συγχώνευση των συστάδων και 4 αφού ισχύει ότι dk d4 mn 0,94 και παρακάτω υπολογίζεται η απόσταση της από τις υπόλοιπες k συστάδες: d d d max 4, 4 max 0, 34, 0,368 0,368 d max d, d max 0, 44,0, 0 0, Οπότε ο νέος πίνακας απόστασης γίνεται: Πίνακας.6 Ομοιότητα δεδομένων Σημεία Ευκλείδεια Απόσταση ,000, 44, 35 4,44,000, 368,35,368,000 Συνεπώς, οι συστάδες (35) και () συγχωνεύονται σε μία συστάδα (35) αφού ισχύει ότι dk d35 mn 0, 35 και παρακάτω υπολογίζεται η απόσταση της από τη συστάδα (4): k d max d, d max 0,368,0, 44 0, Ο τελικός πίνακας απόστασης των συστάδων παίρνει τη μορφή: Πίνακας.7 Ομοιότητα δεδομένων Ευκλείδεια Απόσταση Σημεία ,000,368 4,368,000 Άρα οι συστάδες 35 και 4,εφόσον ισχύει ότι dk d345 mn 0,368 συγχωνεύονται σε μια (345) και τερματίζει ο αλγόριθμος. Η περιγραφή της ιεραρχικής διαδικασίας πλήρους συνδέσμου ξεκινά με το ο στάδιο όπου συγχωνεύονται τα σημεία 3 και 5, (3,5), στο ο στάδιο συγχωνεύονται τα σημεία και 4, (,4), στο 3 ο στάδιο συγχωνεύεται το σημείο με τη συστάδα (3,5), (3,5,) και στο τελευταίο στάδιο συγχωνεύονται οι συστάδες (3,5,) και (,4) και ολοκληρώνεται η ομαδοποίηση με τη δημιουργία της συστάδας (3,5,,,4) που περιλαμβάνει όλα τα σημεία. Όλη η διαδικασία k - 8 -

90 ομαδοποίησης του αλγορίθμου πλήρους συνδέσμου απεικονίζεται/εμφανίζεται στο πίνακα.8 και στο δενδρόγραμμα του σχήματος.4. Πίνακας.8 Η συσσωρευτική δομή (του αλγορίθμου) του πλήρους συνδέσμου Συνδυασμός Ομάδων Ελάχιστες Stage Cluster Frst Appears Επόμενο Στάδιο Ομάδα Ομάδα αποστάσεις Ομάδα Ομάδα Στάδιο 3 5, , , , Σχήμα.4 Δενδρόγραμμα του πλήρη συνδέσμου Μέση Απόσταση Ο αλγόριθμος μέσου συνδέσμου χρησιμοποιείται για την ομαδοποίηση αντικειμένων ή μεταβλητών. Η μέθοδος αυτή, διαχειρίζεται την απόσταση ανάμεσα στις συστάδες ως τη μέση απόσταση μεταξύ όλων των ζευγαριών των συστάδων, όπου σε κάθε ζευγάρι το ένα σημείο ανήκει στη μία συστάδα και το άλλο σημείο σε διαφορετική συστάδα. Εφαρμόζοντας το γενικό αλγόριθμο, η διαδικασία ξεκινά με την εύρεση των πλησιέστερων συστάδων (U,V) από το πίνακα απόστασης και γίνεται η συγχώνευσή τους (UV). Στο επόμενο στάδιο που είναι το βήμα 3 του αλγορίθμου ορίζεται η απόσταση της συστάδας (UV) από τις υπόλοιπες: d UV W N k UV d N k W (.) - 8 -

91 Όπου το d k συμβολίζει την απόσταση μεταξύ του αντικειμένου στην ομάδα (UV) και του αντικείμενου k της ομάδας W. Επιπλέον, το N (UV) και το N W σημείων/αντικειμένων στις ομάδες (UV) και W,αντίστοιχα. εκφράζουν τον αριθμό των Παράδειγμα.4 (Εφαρμογή του Μέσου Συνδέσμου στο SPSS για ομαδοποίηση δεδομένων) Έστω ο πίνακας δεδομένων.8. Η περιγραφή της ιεραρχικής διαδικασίας μέσου συνδέσμου ξεκινά με το ο στάδιο όπου συγχωνεύονται τα σημεία 3 και 5, (3,5), στο ο στάδιο συγχωνεύεται το σημείο 4 με τη συστάδα (3,5), (3,5,4), στο 3 ο στάδιο συγχωνεύεται το σημείο με τη συστάδα (3,5,4), (3,5,4,) και στο τελευταίο στάδιο συγχωνεύεται το σημείο με τη συστάδα (3,5,4,) και ολοκληρώνεται η ομαδοποίηση με τη δημιουργία της συστάδας (3,5,4,,) που περιλαμβάνει όλα τα σημεία. Όλη η διαδικασία ομαδοποίησης του αλγορίθμου μέσου συνδέσμου απεικονίζεται/εμφανίζεται στο πίνακα.9 και στο δενδρόγραμμα του σχήματος.5. Πίνακας.9 Η συσσωρευτικής δομή (του αλγορίθμου) του μέσου συνδέσμου Συνδυασμός Ομάδων Ελάχιστες Stage Cluster Frst Appears Επόμενο Στάδιο Ομάδα Ομάδα αποστάσεις Ομάδα Ομάδα Στάδιο 3 5, , , , Σχήμα.5 Δενδρόγραμμα του μέσου συνδέσμου

92 Παράδειγμα.5 (Εφαρμογή και των τριών ιεραρχικών συνδέσμων στο SPSS) Τα σημεία του παρακάτω σχήματος.6 ομαδοποιούνται με τους τρείς ιεραρχικούς συνδέσμους (Απλό-Σύνδεσμο, Πλήρη-Σύνδεσμο, Μέσο-Σύνδεσμο). Σχήμα.6 Αναπαράσταση των εννιά σημείων σε χώρο δυο διαστάσεων Α) Ομαδοποίηση των σημείων του σχήματος.6 σύμφωνα με τον Απλό-Σύνδεσμο. Πίνακας.0 Η συσσωρευτική δομή (του αλγορίθμου) του απλού συνδέσμου Cluster Combned Stage Cluster Frst Appears Stage Cluster Cluster Coeffcents Cluster Cluster Next Stage 6 8, , , , , , , ,

93 Σχήμα.7 Δενδρόγραμμα του απλού συνδέσμου Β) Ομαδοποίηση των σημείων του σχήματος.6 σύμφωνα με τον Πλήρη-Σύνδεσμο. Πίνακας. Η συσσωρευτική δομή (του αλγορίθμου) του πλήρους συνδέσμου Cluster Combned Stage Cluster Frst Appears Stage Cluster Cluster Coeffcents Cluster Cluster Next Stage 6 8, , , , , , , , Σχήμα.8 Δενδρόγραμμα του πλήρους συνδέσμου

94 Γ) Ομαδοποίηση των σημείων του σχήματος.6 σύμφωνα με τον Μέσο-Σύνδεσμο. Πίνακας. Η συσσωρευτική δομή (του αλγορίθμου) του μέσου συνδέσμου Cluster Combned Stage Cluster Frst Appears Stage Cluster Cluster Coeffcents Cluster Cluster Next Stage 6 8, , , , , , , , Σχήμα.9 Δενδρόγραμμα του μέσου συνδέσμου Παράδειγμα.6 (Εφαρμογή και των τριών ιεραρχικών συνδέσμων στο SPSS ) (Απομάκρυνση του σημείου P 9 σε σχέση με το παρ..5) Τα σημεία του παρακάτω σχήματος.0 ομαδοποιούνται μέσω του SPSS ως προς τους τρείς ιεραρχικούς συνδέσμους (Απλό-Σύνδεσμο, Πλήρη-Σύνδεσμο, Μέσο-Σύνδεσμο)

95 Σχήμα.0 Αναπαράσταση σημείων σε χώρο δυο διαστάσεων Α) Ομαδοποίηση των σημείων του σχήματος.0 σύμφωνα με τον Απλό-Σύνδεσμο. Πίνακας.3 Η συσσωρευτική δομή (του αλγορίθμου) του απλού συνδέσμου Cluster Combned Stage Cluster Frst Appears Stage Cluster Cluster Coeffcents Cluster Cluster Next Stage 6 8, , , , , , , , Σχήμα. Δενδρόγραμμα του απλού συνδέσμου

96 Β) Ομαδοποίηση των σημείων του σχήματος.0 σύμφωνα με τον Πλήρη-Σύνδεσμο. Πίνακας.4 Η συσσωρευτική δομή (του αλγορίθμου) του πλήρους συνδέσμου Cluster Combned Stage Cluster Frst Appears Stage Cluster Cluster Coeffcents Cluster Cluster Next Stage 6 8, , , , , , , , Σχήμα. Δενδρόγραμμα του πλήρους συνδέσμου Γ) Ομαδοποίηση των σημείων του σχήματος.0 σύμφωνα με τον Μέσο-Σύνδεσμο. Πίνακας.5 Η συσσωρευτική δομή (του αλγορίθμου) του μέσου συνδέσμου Cluster Combned Stage Cluster Frst Appears Stage Cluster Cluster Coeffcents Cluster Cluster Next Stage 6 8, , , , , , , ,

97 Σχήμα.3 Δενδρόγραμμα του μέσου συνδέσμου Παρατηρήσεις μεταξύ των Ιεραρχικών Μεθόδων (των παραδειγμάτων.5 &.6). Η διαφορά μεταξύ των τεχνικών αυτών έχει να κάνει με τον τρόπο με τον οποίο ορίζουν την ομοιότητα μεταξύ των σημείων και κατά συνέπεια των συστάδων πριν την συγχώνευσή τους. Η διαδικασία της κάθε μεθόδου εξαρτάται από τα δεδομένα και τον τρόπο που αυτά είναι τοποθετημένα στο πολυδιάστατο χώρο επιπλέον από την ύπαρξη ακραίων σημείων. Η περίπτωση του αλγορίθμου του απλού συνδέσμου ενώ θεωρείται μια αρκετά απλή τεχνική αντιμετωπίζει αρκετά μειονεκτήματα. Η χρήση αυτής της μεθόδου δημιουργεί το φαινόμενο της αλυσίδας (στον απλό σύνδεσμο του παραδείγματος.6), καθώς μπορεί να επιβάλλεται η συγχώνευση δυο συστάδων λόγω της ύπαρξης σημείων που είναι αρκετά κοντά το ένα στο άλλο χωρίς όμως να ασχολείται με τις θέσεις των άλλων σημείων μέσα στη συστάδα. Άρα οι συστάδες που παράγονται είναι συνήθως ακαθόριστες και επιμήκεις. Από την άλλη μεριά, ο αλγόριθμος του πλήρους συνδέσμου τείνει να σχηματίζει πιο συμπαγείς και περισσότερο ομοιογενείς συστάδες σε σχέση με αυτές που προκύπτουν από τη τεχνική του απλού συνδέσμου. Ο αλγόριθμος απλού συνδέσμου είναι όμως πιο ευέλικτος από τον αλγόριθμο πλήρους συνδέσμου. Για παράδειγμα, ο αλγόριθμος απλού συνδέσμου μπορεί να παράγει ομόκεντρες συστάδες σε σχέση με τον αλγόριθμο πλήρους συνδέσμου που δεν μπορεί. Μια προσέγγιση αυτών των δύο τεχνικών είναι η τεχνική του μέσου συνδέσμου, καθώς υπολογίζει τη μέση απόσταση μεταξύ όλων των πιθανών ζευγών στοιχείων από τις δύο συστάδες που διερευνούνται. Αρκετά σημαντικό είναι ότι η χρήση της δεν δημιουργεί το φαινόμενο της αλυσίδας ενώ τα απομακρυσμένα σημεία δεν χρίζουν ιδιαίτερης εύνοιας κατά

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ Είναι τεχνικές που έχουν σκοπό: τον εντοπισμό χαρακτηριστικών των οποίων οι αριθμητικές τιμές επιτυγχάνουν

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΑΠΟΦΑΣΕΩΝ. Διαχωριστική Ανάλυση Λογιστική Παλινδρόμηση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΑΠΟΦΑΣΕΩΝ. Διαχωριστική Ανάλυση Λογιστική Παλινδρόμηση ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΑΠΟΦΑΣΕΩΝ Διαχωριστική Ανάλυση Λογιστική Παλινδρόμηση Χουντής Βασίλειος Επιβλέπων : Αλεβίζος Φίλιππος, Επίκουρος

Διαβάστε περισσότερα

Στατιστική Συμπερασματολογία

Στατιστική Συμπερασματολογία Στατιστική Συμπερασματολογία Διαφάνειες 1 ου κεφαλαίου Βιβλίο: Κολυβά Μαχαίρα, Φ. & Χατζόπουλος Στ. Α. (2016). Μαθηματική Στατιστική, Έλεγχοι Υποθέσεων. [ηλεκτρ. βιβλ.] Αθήνα: Σύνδεσμος Ελληνικών Ακαδημαϊκών

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Στατιστική. Εκτιμητική

Στατιστική. Εκτιμητική Στατιστική Εκτιμητική Χατζόπουλος Σταύρος 28/2/2018 και 01 /03/2018 Εισαγωγή Το αντικείμενο της Στατιστικής είναι η εξαγωγή συμπερασμάτων που αφορούν τον πληθυσμό ή το φαινόμενο που μελετάμε, με τη βοήθεια

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ. Καθ. Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 2015 Πληθυσμός: Εισαγωγή Ονομάζεται το σύνολο των χαρακτηριστικών που

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Y Y ... y nx1. nx1

Y Y ... y nx1. nx1 6 ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ ΤΗ ΧΡΗΣΗ ΠΙΚΑΚΩΝ Η χρησιμοποίηση και ο συμβολισμός πινάκων απλοποιεί σημαντικά τα αποτελέσματα της γραμμικής παλινδρόμησης, ιδίως στην περίπτωση της πολλαπλής παλινδρόμησης Γενικά,

Διαβάστε περισσότερα

Θεωρία Λήψης Αποφάσεων

Θεωρία Λήψης Αποφάσεων Θεωρία Λήψης Αποφάσεων Ενότητα 2: Θεωρία Απόφασης του Bayes Μπεληγιάννης Γρηγόριος Σχολή Οργάνωσης και Διοίκησης Επιχειρήσεων Τμήμα Διοίκησης Επιχειρήσεων Αγροτικών Προϊόντων & Τροφίμων (Δ.Ε.Α.Π.Τ.) Θεωρία

Διαβάστε περισσότερα

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΣΤΑΤΙΣΤΙΚΕΣ ΕΚΤΙΜΗΣΕΙΣ Οι συναρτήσεις πιθανότητας ή πυκνότητας πιθανότητας των διαφόρων τυχαίων μεταβλητών χαρακτηρίζονται από κάποιες

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 1 M = 1 N = N prob k N k { k n ω wrongly classfed} = (1 ) N k 2 Η συνάρτηση πιθανοφάνειας L(p) μεγιστοποιείται όταν =k/n. 3 Αφού τα s είναι άγνωστα,

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium Iii Η Κανονική Κατανομή Λέμε ότι μία τυχαία μεταβλητή X, ακολουθεί την Κανονική Κατανομή με παραμέτρους και και συμβολίζουμε X N, αν έχει συνάρτηση πυκνότητας

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13 ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 20 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 20 2.1.1 Αβεβαιότητα

Διαβάστε περισσότερα

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες Ορισμός Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες αβεβαιότητας. Βασικές έννοιες Η μελέτη ενός πληθυσμού

Διαβάστε περισσότερα

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς Η μηδενική υπόθεση είναι ένας ισχυρισμός σχετικά με την τιμή μιας πληθυσμιακής παραμέτρου. Είναι

Διαβάστε περισσότερα

X = = 81 9 = 9

X = = 81 9 = 9 Πιθανότητες και Αρχές Στατιστικής (11η Διάλεξη) Σωτήρης Νικολετσέας, καθηγητής Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Πανεπιστήμιο Πατρών Ακαδημαϊκό Ετος 2018-2019 Σωτήρης Νικολετσέας, καθηγητής 1 / 35 Σύνοψη

Διαβάστε περισσότερα

Λογιστική Παλινδρόμηση & Διαχωριστική Ανάλυση

Λογιστική Παλινδρόμηση & Διαχωριστική Ανάλυση ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ» Λογιστική Παλινδρόμηση & Διαχωριστική Ανάλυση ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Διαβάστε περισσότερα

ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ

ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ ΚΩΝΣΤΑΝΤΙΝΟΣ Γ. ΑΓΓΕΛΟΥ ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΜΑΘΗΜΑΤΙΚΑ

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ ΑΣΚΗΣΗ Σύμφωνα με στοιχεία από το Πανεπιστήμιο της Οξφόρδης η πιθανότητα ένας φοιτητής να αποφοιτήσει μέσα σε 5 χρόνια από την ημέρα εγγραφής του στο

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΕΝΟΤΗΤΕΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ (One-Way Analyss of Varance) Η ανάλυση

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 2 Μαΐου 2017 1/23 Ανάλυση Διακύμανσης. Η ανάλυση παλινδρόμησης μελετά τη στατιστική σχέση ανάμεσα

Διαβάστε περισσότερα

Απλή Παλινδρόμηση και Συσχέτιση

Απλή Παλινδρόμηση και Συσχέτιση Απλή Παλινδρόμηση και Συσχέτιση Πωλήσεις, Δαπάνες Διαφήμισης και Αριθμός Πωλητών Έτος Πωλήσεις (χιλ ) Διαφήμιση (χιλ ) Πωλητές (Άτομα) Έτος Πωλήσεις (χιλ ) Διαφήμιση (χιλ ) Πωλητές (Άτομα) 98 050 6 3 989

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΑΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ Συντελεστής συσχέτισης (εκτιμητής Person: r, Y ( ( Y Y xy ( ( Y Y x y, όπου r, Y (ισχυρή θετική γραμμική συσχέτιση όταν, ισχυρή αρνητική

Διαβάστε περισσότερα

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή: Δειγματοληψία Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ συμβολίζουμε την μέση τιμή: Επομένως στην δειγματοληψία πινάκων συνάφειας αναφερόμαστε στον

Διαβάστε περισσότερα

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 2 Γιατί ανάλυση διακύμανσης; (1) Ας θεωρήσουμε k πληθυσμούς με μέσες τιμές μ 1, μ 2,, μ k, αντίστοιχα Πως μπορούμε να συγκρίνουμε τις μέσες τιμές k πληθυσμών

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 14 Μαρτίου 018 1/34 Διαστήματα Εμπιστοσύνης. Εχουμε δει εκτενώς μέχρι τώρα τρόπους εκτίμησης

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 10: Οικονομετρικά προβλήματα: Παραβίαση των υποθέσεων Β μέρος: Ετεροσκεδαστικότητα Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr

Διαβάστε περισσότερα

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Εκεί που είμαστε Κεφάλαια 7 και 8: Οι διωνυμικές,κανονικές, εκθετικές κατανομές και κατανομές Poisson μας επιτρέπουν να κάνουμε διατυπώσεις πιθανοτήτων γύρω από το Χ

Διαβάστε περισσότερα

Στατιστική Συμπερασματολογία

Στατιστική Συμπερασματολογία Στατιστική Συμπερασματολογία Διαφάνειες 5 ου κεφαλαίου Ελεγχοσυναρτήσεις για τις Παραμέτρους της Κανονικής Κατανομής Σταύρος Χατζόπουλος 08/05/207, 5/05/207 Εισαγωγή Στις παραγράφους που ακολουθούν παρουσιάζονται

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 6-7 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης Αναγνώριση Προτύπων (Pattern Recognton Μπεϋζιανή Θεωρία Αποφάσεων (Bayesan Decson Theory Π. Τσακαλίδης ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ Μπεϋζιανή Θεωρία Αποφάσεων (Bayes Decson theory Στατιστικά

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71 ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 13 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 21 2.1.1 Αβεβαιότητα και Τυχαίο Πείραμα

Διαβάστε περισσότερα

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ Βασίλης Δ. Ανδριτσάνος Δρ. Αγρονόμος - Τοπογράφος Μηχανικός ΑΠΘ Επίκουρος Καθηγητής ΤΕΙ Αθήνας 3ο εξάμηνο http://eclass.teiath.gr Παρουσιάσεις,

Διαβάστε περισσότερα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα Ανάλυση Διασποράς Έστω ότι μας δίνονται δείγματα που προέρχονται από άγνωστους πληθυσμούς. Πόσο διαφέρουν οι μέσες τιμές τους; Με άλλα λόγια: πόσο πιθανό είναι να προέρχονται από πληθυσμούς με την ίδια

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για

Διαβάστε περισσότερα

Στατιστική Επιχειρήσεων Ι

Στατιστική Επιχειρήσεων Ι ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Στατιστική Επιχειρήσεων Ι Ενότητα 5: Παλινδρόμηση Συσχέτιση θεωρητική προσέγγιση Μιλτιάδης Χαλικιάς, Επίκουρος Καθηγητής Τμήμα Διοίκησης Επιχειρήσεων

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ... ΚΕΦΑΛΑΙΟ 0 Ένα Πρόβλημα Δεδομένα.6 3. 3.8 4. 4.4 5.8 6.0 6.7 7. 7.8 5.6 7.9 8.0 8. 8. 9. 9.5 9.4 9.6 9.9 Απλή Γραμμική Παλινδρόμηση Μωυσιάδης Χρόνης 6 o Εξάμηνο Μαθηματικών Έχει σχέση το με το ; Ειδικότερα

Διαβάστε περισσότερα

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7o Μάθημα: Απλή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ. Καθ. Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 015 Ανάλυση Διακύμανσης Η Ανάλυση Διακύμανσης είναι μία τεχνική που

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 7-8 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων Θεωρία Αποφάσεων ο Φροντιστήριο Λύσεις των Ασκήσεων Άσκηση Έστω ένα πρόβλημα ταξινόμησης μιας διάστασης με δύο κατηγορίες, όπου για κάθε κατηγορία έχουν συλλεχθεί τα παρακάτω δεδομένα: D = {, 2,,,,7 }

Διαβάστε περισσότερα

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ Αναγνώριση Προτύπων Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ Χριστόδουλος Χαμζάς Τα περιεχόμενο της παρουσίασης βασίζεται στο βιβλίο: Introduction to Pattern Recognition A Matlab Approach, S. Theodoridis,

Διαβάστε περισσότερα

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7ο μάθημα: Πολυμεταβλητή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Στατιστική Συμπερασματολογία

Στατιστική Συμπερασματολογία Στατιστική Συμπερασματολογία Διαφάνειες 4 ου κεφαλαίου Ελεγχοσυναρτήσεις Γενικευμένου Λόγου Πιθανοφανειών Σταύρος Χατζόπουλος 27/03/2017, 03/04/2017, 24/04/2017 1 Εισαγωγή Έστω το τ.δ. X,,, από την κατανομή

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 5-6 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

E[ (x- ) ]= trace[(x-x)(x- ) ]

E[ (x- ) ]= trace[(x-x)(x- ) ] 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

9. Παλινδρόμηση και Συσχέτιση

9. Παλινδρόμηση και Συσχέτιση 9. Παλινδρόμηση και Συσχέτιση Παλινδρόμηση και Συσχέτιση Υπάρχει σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές; Αν ναι, ποια είναι αυτή η σχέση; Πως μπορεί αυτή η σχέση να χρησιμοποιηθεί για να προβλέψουμε

Διαβάστε περισσότερα

3. Κατανομές πιθανότητας

3. Κατανομές πιθανότητας 3. Κατανομές πιθανότητας Τυχαία Μεταβλητή Τυχαία μεταβλητή (τ.μ.) (X) είναι μια συνάρτηση που σε κάθε σημείο (ω) ενός δειγματικού χώρου (Ω) αντιστοιχεί έναν πραγματικό αριθμό. Ω ω X (ω ) R Διακριτή τ.μ.

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΗ 07 & ΔΙΑΛΕΞΗ 08 ΣΗΜΠΕΡΑΣΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Βόλος, 016-017 ΕΙΣΑΓΩΓΗ ΣΤΗΝ

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 2 Επισκόπηση θεωρίας πιθανοτήτων Τυχαίες μεταβλητές: Βασικές έννοιες Τυχαία μεταβλητή: Μεταβλητή της οποίας δε γνωρίζουμε με βεβαιότητα την τιμή (σε αντίθεση με τις

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Παραμέτρων

Διαβάστε περισσότερα

Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα

Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα Ορισμός τυχαίας μεταβλητής Τυχαία μεταβλητή λέγεται η συνάρτηση

Διαβάστε περισσότερα

Στατιστική Επιχειρήσεων ΙΙ

Στατιστική Επιχειρήσεων ΙΙ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Στατιστική Επιχειρήσεων ΙΙ Ενότητα #4: Έλεγχος Υποθέσεων Μιλτιάδης Χαλικιάς Τμήμα Διοίκησης Επιχειρήσεων Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

ΜΕΤΡΑ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ

ΜΕΤΡΑ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ Μέτρα Περιγραφικής Στατιστικής Πληθυσμιακοί παράμετροι: τα αριθμητικά μεγέθη που εκφράζουν τις στατιστικές ιδιότητες ενός πληθυσμού (που προσδιορίζουν / περιγράφουν τη φυσιογνωμία και τη δομή του) Στατιστικά

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19 ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 21 2.1.1 Αβεβαιότητα και Τυχαίο Πείραμα

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 2017-2018 Παρεμβολή και Παρεκβολή Εισαγωγή Ορισμός 6.1 Αν έχουμε στη διάθεσή μας τιμές μιας συνάρτησης

Διαβάστε περισσότερα

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων 6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων 6.1 Το Πρόβλημα του Ελέγχου Υποθέσεων Ενός υποθέσουμε ότι μία φαρμακευτική εταιρεία πειραματίζεται πάνω σε ένα νέο φάρμακο για κάποια ασθένεια έχοντας ως στόχο, τα πρώτα θετικά

Διαβάστε περισσότερα

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ Το ενδιαφέρον επικεντρώνεται πάντα στον πληθυσμό Το δείγμα χρησιμεύει για εξαγωγή συμπερασμάτων για τον πληθυσμό π.χ. το ετήσιο εισόδημα των κατοίκων μιας περιοχής Τα στατιστικά

Διαβάστε περισσότερα

Κεφάλαιο 2: Θεωρία Απόφασης του Bayes 2.1 Εισαγωγή

Κεφάλαιο 2: Θεωρία Απόφασης του Bayes 2.1 Εισαγωγή Κεφάλαιο : Θεωρία Απόφασης του Bayes. Εισαγωγή Η θεωρία απόφασης του Bayes αποτελεί μια από τις σημαντικότερες στατιστικές προσεγγίσεις για το πρόβλημα της ταξινόμησης προτύπων. Βασίζεται στη σύγκριση

Διαβάστε περισσότερα

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Γραμμικός Προγραμματισμός Μέθοδος Simplex ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Επιχειρησιακή Έρευνα Γραμμικός Προγραμματισμός Μέθοδος Simplex Η παρουσίαση προετοιμάστηκε από τον Ν.Α. Παναγιώτου Περιεχόμενα Παρουσίασης 1. Πρότυπη Μορφή ΓΠ 2. Πινακοποίηση

Διαβάστε περισσότερα

CRAMER-RAO ΚΑΤΩ ΦΡΑΓΜΑ - ΑΠΟ ΟΤΙΚΟΙ ΕΚΤΙΜΗΤΕΣ

CRAMER-RAO ΚΑΤΩ ΦΡΑΓΜΑ - ΑΠΟ ΟΤΙΚΟΙ ΕΚΤΙΜΗΤΕΣ CRAMER-RAO ΚΑΤΩ ΦΡΑΓΜΑ - ΑΠΟ ΟΤΙΚΟΙ ΕΚΤΙΜΗΤΕΣ Τµήµα Μαθηµατικών, Πανεπιστήµιο Πατρών Θεώρηµα Cramer-Rao Θεώρηµα Cramer-Rao Εστω X = (X 1, X,...,X n ) ένα δείγµα µε από κοινού πυκνότητα πιθανότητας f X

Διαβάστε περισσότερα

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου 4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου Για την εκτίμηση των παραμέτρων ενός πληθυσμού (όπως η μέση τιμή ή η διασπορά), χρησιμοποιούνται συνήθως δύο μέθοδοι εκτίμησης. Η πρώτη ονομάζεται σημειακή εκτίμηση.

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 22 Μαΐου 2017 1/32 Εισαγωγή: Τυπικό παράδειγμα στατιστικού ελέγχου υποθέσεων. Ενας νέος τύπος

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ Καθ Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 5 Έστω για την σύγκριση δειγμάτων συλλέγουμε παρατηρήσεις Υ =,,, από

Διαβάστε περισσότερα

3. ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratified Random Sampling)

3. ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratified Random Sampling) 3 ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratfed Radom Samplg) Είναι προφανές από τα τυπικά σφάλματα των εκτιμητριών των προηγούμενων παραγράφων, ότι ένας τρόπος να αυξηθεί η ακρίβεια τους είναι να αυξηθεί

Διαβάστε περισσότερα

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis) Μέρος V. Ανάλυση Παλινδρόμηση (Regresso Aalss) Βασικές έννοιες Απλή Γραμμική Παλινδρόμηση Πολλαπλή Παλινδρόμηση Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας () Βασικές έννοιες Έστω τ.μ. Χ,Υ όπου υπάρχει

Διαβάστε περισσότερα

z = c 1 x 1 + c 2 x c n x n

z = c 1 x 1 + c 2 x c n x n Τεχνολογικό Εκπαιδευτικό Ιδρυμα Κεντρικής Μακεδονίας - Σέρρες Τμήμα Μηχανικών Πληροφορικής Γραμμικός Προγραμματισμός & Βελτιστοποίηση Δρ. Δημήτρης Βαρσάμης Καθηγητής Εφαρμογών Δρ. Δημήτρης Βαρσάμης Μάρτιος

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες Πινάκες συνάφειας εξερεύνηση σχέσεων μεταξύ τυχαίων μεταβλητών. Είναι λογικό λοιπόν, στην ανάλυση των κατηγορικών δεδομένων να μας ενδιαφέρει η σχέση μεταξύ δύο ή περισσότερων κατηγορικών μεταβλητών. Έστω

Διαβάστε περισσότερα

7.1.1 Η Μέθοδος των Ελαχίστων Τετραγώνων

7.1.1 Η Μέθοδος των Ελαχίστων Τετραγώνων 7.. Η Μέθοδος των Ελαχίστων Τετραγώνων Όπως ήδη αναφέρθηκε, μία ευρύτατα διαδεδομένη μέθοδος για την εκτίμηση των σταθερών α και β είναι η μέθοδος των ελαχίστων τετραγώνων. Η μέθοδος αυτή επιλέγει εκτιμήτριες

Διαβάστε περισσότερα

Διαστήματα Εμπιστοσύνης

Διαστήματα Εμπιστοσύνης Διαστήματα Εμπιστοσύνης 00 % Διαστήματα Εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού Κατανομή Διασπορά Μέγεθος δείγματος Διάστημα Εμπιστοσύνης Κανονική Γνωστή Οποιοδήποτε Οποιαδήποτε Γνωστή Μεγάλο 30 Z

Διαβάστε περισσότερα

(p 1) (p m) (m 1) (p 1)

(p 1) (p m) (m 1) (p 1) ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ Σκοπός της παραγοντικής ανάλυσης είναι να περιγράψει την συνδιασπορά μεταξύ των μεταβλητών με την βοήθεια τυχαίων άγνωστων ποσοτήτων που ονομάζονται παράγοντες. Το μοντέλο είναι το

Διαβάστε περισσότερα

Στατιστική Συμπερασματολογία

Στατιστική Συμπερασματολογία 4. Εκτιμητική Στατιστική Συμπερασματολογία εκτιμήσεις των αγνώστων παραμέτρων μιας γνωστής από άποψη είδους κατανομής έλεγχο των υποθέσεων που γίνονται σε σχέση με τις παραμέτρους μιας κατανομής και σε

Διαβάστε περισσότερα

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο Εφαρμογές Ανάλυσης Σήματος στη Γεωδαισία Παρουσίαση η : Αρχές εκτίμησης παραμέτρων Μέρος ο Βασίλειος Δ. Ανδριτσάνος Αναπληρωτής Καθηγητής Γεώργιος Χλούπης Επίκουρος Καθηγητής Τμήμα Μηχανικών Τοπογραφίας

Διαβάστε περισσότερα

Συνολοκλήρωση και μηχανισμός διόρθωσης σφάλματος

Συνολοκλήρωση και μηχανισμός διόρθωσης σφάλματος ΜΑΘΗΜΑ 10 ο Συνολοκλήρωση και μηχανισμός διόρθωσης σφάλματος Η μέθοδος της συνολοκλήρωσης είναι ένας τρόπος με τον οποίο μπορούμε να εκτιμήσουμε τη μακροχρόνια σχέση ισορροπίας που υπάρχει μεταξύ δύο ή

Διαβάστε περισσότερα

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου 4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου Για την εκτίμηση των παραμέτρων ενός πληθυσμού (όπως η μέση τιμή ή η διασπορά), χρησιμοποιούνται συνήθως δύο μέθοδοι εκτίμησης. Η πρώτη ονομάζεται σημειακή εκτίμηση.

Διαβάστε περισσότερα

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου Στατιστική Συμπερασματολογία Εκτιμητική Έλεγχος Στατιστικών Υποθέσεων εκτιμήτρια συνάρτηση, ˆ θ σημειακή εκτίμηση εκτίμηση με διάστημα εμπιστοσύνης

Διαβάστε περισσότερα

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις ΔΕΟ - Επαναληπτικές Εξετάσεις Λύσεις ΘΕΜΑ () Το Διάγραμμα Διασποράς εμφανίζεται στο επόμενο σχήμα. Από αυτό προκύπτει καταρχήν μία θετική σχέση μεταξύ των δύο μεταβλητών. Επίσης, από το διάγραμμα φαίνεται

Διαβάστε περισσότερα

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη Σημειακή εκτίμηση και εκτίμηση με διάστημα 11 η Διάλεξη Εκτιμήτρια Κάθε στατιστική συνάρτηση που χρησιμοποιείται για την εκτίμηση μιας παραμέτρου ενός πληθυσμού (π.χ. ο δειγματικός μέσος) Σημειακή εκτίμηση

Διαβάστε περισσότερα

5. ΣΥΣΤΗΜΑΤΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Systematic Sampling)

5. ΣΥΣΤΗΜΑΤΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Systematic Sampling) 5. ΣΥΣΤΗΜΑΤΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Systematic Sampling) Συχνά, είναι ταχύτερη και ευκολότερη η επιλογή των μονάδων του πληθυσμού, αν αυτή γίνεται από κάποιο κατάλογο ξεκινώντας από κάποιο τυχαίο αρχικό σημείο

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 5: Ανάλυση γραμμικού υποδείγματος Πολυμεταβλητή παλινδρόμηση (1 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: ageliki.papaa@gmail.com, agpapaa@auth.gr Webpage: http://users.auth.gr/agpapaa

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson Σχεδιαζόντας ταξινομητές: Τα δεδομένα Στην πράξη η γνώση σχετικά διαδικασία γέννεσης των δεδομένων είναι πολύ σπάνια γνωστή. Το μόνο που έχουμε στη διάθεσή

Διαβάστε περισσότερα

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρμοσμένες Επιστήμες Στατιστικός Πληθυσμός και Δείγμα Το στατιστικό

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη MSc Τραπεζική & Χρηματοοικονομική Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR

Διαβάστε περισσότερα