Ανάλυση σε Κύριες Συνιστώσες και ιαχωριστική Ανάλυση

Σχετικά έγγραφα
Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

ÖÑÏÍÔÉÓÔÇÑÉÏ ÈÅÌÅËÉÏ ÇÑÁÊËÅÉÏ ÊÑÇÔÇÓ

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

Μη Παραµετρική Παλινδρόµηση

ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ Α.Κ.Σ.

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΜΕΘΟ ΟΛΟΓΙΑ ΕΚΠΑΙ ΕΥΤΙΚΗΣ ΕΡΕΥΝΑΣ

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Μέρος 1ο. Περιγραφική Στατιστική (Descriptive Statistics)

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ FACTOR ANALYSIS

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Περιεχόμενα. Πρόλογος... 15

Είδη Μεταβλητών. κλίµακα µέτρησης

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2012 ΕΚΦΩΝΗΣΕΙΣ

Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

F x h F x f x h f x g x h g x h h h. lim lim lim f x

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

ΤΗΛΕΠΙΣΚΟΠΗΣΗ. Γραµµικοί Μετασχηµατισµοί (Linear Transformations) Τονισµός χαρακτηριστικών εικόνας (image enhancement)

Ανάλυση της ιακύµανσης

ΠΡΟΒΛΗΜΑ ΣΥΓΓΡΑΜΜΙΚΟΤΗΤΑΣ

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ: ΑΣΚΗΣΕΙΣ

Στατιστική Επιχειρήσεων Ι

ΚΕΦΑΛΑΙΟ 3 ΜΕΛΕΤΗ ΑΠΟ ΟΣΗΣ ΚΑΙ ΕΠΙΤΥΧΙΑΣ ΗΜΕΡΗΣΙΩΝ ΗΜΟΣΙΩΝ ΚΑΙ Ι ΙΩΤΙΚΩΝ ΛΥΚΕΙΩΝ ΕΙΣΑΓΩΓΗ

Η έννοια της απόστασης

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ

Ιωάννης Τσαούσης, Πανεπιστήμιο Κρήτης Τμήμα Ψυχολογίας

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

9. Παλινδρόμηση και Συσχέτιση

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Εφαρμοσμένη Στατιστική

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝ. ΠΑΙΔΕΙΑΣ - Γ ΛΥΚΕΙΟΥ

Απλή Γραμμική Παλινδρόμηση II

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

Α. Έστω δύο σύνολα Α και Β. Ποιά διαδικασία ονομάζεται συνάρτηση με πεδίο ορισμού το Α και πεδίο τιμών το Β;

ΚΕΦΑΛΑΙΟ 1 ο ΒΑΣΙΚΕΣ ΤΕΧΝΙΚΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ ΚΑΙ ΑΝΑΛΥΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΩΝ ΜΕ ΧΡΗΣΗ ΕΛΕΓΧΩΝ (STUDENT S T).. 21

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

Μηχανική ΙI. Μετασχηµατισµοί Legendre. της : (η γραφική της παράσταση δίνεται στο ακόλουθο σχήµα). Εάν

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

Στατιστική Ι. Ανάλυση Παλινδρόμησης


Εισόδημα Κατανάλωση

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Θέμα: Ενδεικτικό Θέμα εξετάσεων: Μέτρα θέσης Παλινδρόμηση

ΚΕΦΑΛΑΙΟ 6 ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ ΤΩΝ ΒΑΘΜΟΛΟΓΙΩΝ ΟΙ ΣΥΝΙΣΤΩΣΕΣ ΤΗΣ ΜΑΘΗΤΙΚΗΣ ΕΠΙ ΟΣΗΣ

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

Παράδειγμα. Χρονολογικά δεδομένα. Οι πωλήσεις μιας εταιρείας ανά έτος για το διάστημα (σε χιλιάδες $)

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα

2. Στοιχεία Πολυδιάστατων Κατανοµών

Μ Ε Τ Ρ Α Δ Ι Α Σ Π Ο Ρ Α Σ.

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

3η Ενότητα Προβλέψεις

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.

Οι δείκτες διασποράς. Ένα παράδειγµα εργασίας

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

Έτος : Διάλεξη 2 η Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Οµάδα (I): Οµάδα (II): Οµάδα (III):

ΤΕΙ ΠΕΙΡΑΙΑ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΜΕ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Εργαστήριο Οικονομετρίας Προαιρετική Εργασία 2016 Χειμερινό Εξάμηνο

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Εφαρμοσμένη Στατιστική

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

Το στατιστικό κριτήριο που μας επιτρέπει να. μιας ή πολλών άλλων γνωστών μεταβλητών. Η σχέση ανάμεσα στις μεταβλητές που μελετώνται

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Στατιστική ανάλυση αποτελεσμάτων

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA

1 x-μ - 2 σ. e σ 2π. f(x) =

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

ΚΕΦΑΛΑΙΟ. 1. α. Tι ονοµάζεται συνάρτηση από το σύνολο Α στο σύνολο Β; β. Tι ονοµάζεται πραγµατική συνάρτηση πραγµατικής µεταβλητής;

ΕΡΓΑΣΤΗΡΙΟ ΙV. ΤΜΗΜΑ ΙΕΘΝΟΥΣ ΕΜΠΟΡΙΟΥ ΜΑΘΗΜΑΤΙΚΑ ΟΙΚΟΝΟΜΙΚΗΣ ΑΝΑΛΥΣΗΣ Ι Μονοβασίλης Θεόδωρος

Transcript:

Κεφάλαιο 0 Ανάλυση σε Κύριες Συνιστώσες και ιαχωριστική Ανάλυση 0. Ανάλυση σε Κύριες Συνιστώσες Η µέθοδος των Κυρίων Συνιστωσών είναι µία τεχνική ανάλυσης δεδοµένων µε σκοπό τη δηµιουργία καινούργιων µεταβλητών, οι οποίες είναι γραµµικοί συνδυασµοί των αρχικών µεταβλητών, έτσι ώστε να είναι ασυσχέτιστες µεταξύ τους και να περιέχουν όσο το δυνατόν µεγαλύτερο µέρος της διακύµανσης των αρχικών µεταβλητών. Οι νέες µεταβλητές που παράγονται ονοµάζονται Κύριες Συνιστώσες. Το τι επιτυγχάνεται από τη µέθοδο αυτή είναι ότι από ένα σύνολο συσχετισµένων µεταβλητών καταλήγουµε σε ένα σύνολο ασυσχέτιστων µεταβλητών, το οποίο είναι χρήσιµο για αρκετές στατιστικές µεθόδους. Επίσης, οι κύριες συνιστώσες που προκύπτουν µπορούν να ερµηνεύσουν το µεγαλύτερο ποσοστό της διακύµανσης, που σηµαίνει πως καταλήγουµε σε ένα πιο µικρό αριθµό µεταβλητών από ότι είχαµε αρχικά, µε κόστος ότι χάνουµε ένα µικρό ποσοστό της συνολικής µεταβλητότητας. Αυτό είναι πολύ σηµαντικό ιδιαίτερα στις περιπτώσεις που έχουµε λίγες παρατηρήσεις και πολλές µεταβλητές. Συνεπώς, αν σε µια τέτοια περίπτωση ϑέλαµε να εφαρµόσου- µε ένα (γενικευµένο) γραµµικό µοντέλο, η υπερπαραµετροποίηση του µοντέλου µπόρει να ξεπεραστεί χρησιµοποιώντας την παραπάνω µέθοδο. Για να δούµε πως εφαρµόζεται η µέθοδος αυτή στην R, ϑα χρησιµοποιήσουµε 9

το πλαίσιο δεδοµένων possum το οποίο ϐρίσκεται στη ϐιβλιοθήκη DAAG και αναφέ- ϱεται σε εννέα µορφοµετρικές µετρήσεις για 0 οπόσσουµ (δενδρόβιο µαρσιπο- ϕόρο Ϲώο). Στην R υπάρχουν δύο εντολές οι οποίες µπορούν να εφαρµόσουν την ανάλυση σε κύριες συνιστώσες. Προτιµητέα είναι η εντολή prcomp() µε την οποία ο υπολογισµός γίνεται µε την διάσπαση ιδιάζουσας τιµής του πίνακα δεδοµένων (πιθανώς κανονικοποιηµένος) και όχι υπολογίζοντας τις ιδιοτιµές µε ϕασµατική διάσπαση του πίνακα συνδιακύµανσης (ή συσχετίσεων) όπως γίνεται εφαρµόζοντας την εντολή princomp(). Το πρώτο ϐήµα είναι να ελέγξουµε τη µεταβλητότητα των µορφοµετρικών µεταβλητών µε τη ϐοήθεια του πίνακα συνδιακύµανσης, ο οποίος υπολογίζεται µε την εντολή cov(). > library(daag) > possum.dat<-na.omit(possum[,:]) > cov(possum.dat) hdlngth skullw totlngth taill footlgth earconch hdlngth.9.99090 0.98.0.88.880 skullw.990 9.8890.8.8.8 0.00080 totlngth 0.98.8 8.9.8099 8.9.0 taill.0.80.80998.888 -.090 -.8 footlgth.8.8 8.0 -.09 9.8.98 earconch.88 0.00080. -.8.98.9 eye.9.08. 0.098 0.008-0.90 chest..00000000.88 0.08.008.9 belly.09.990.089.9899.808808 0.00 eye chest belly hdlngth.8..08 skullw.08.000000.990 totlngth.88.88.089 taill 0.098 0.08.9899 footlgth 0.008.008.8088 earconch -0.9.9 0.00 eye.0889 0.09 0.08 chest 0.09.90.8 belly 0.08.8.00 > diag(cov(possum.dat)) hdlngth skullw totlngth taill footlgth earconch eye chest.9 9.889 8.9.88 9.8..088.90 0

belly.00 Η διαγώνιος του πίνακα συνδιακύµανσης παρουσιάζει τη διασπορά και όπως είναι ϕανερό, οι µεταβλητές έχουν διαφορετική µεταβλητότητα. Ο λόγος είναι ότι το κάθε µέρος του µαρσιποφόρου Ϲώου το οποίο µετρήθηκε έχει διαφορετικό µέγεθος. Συνεπώς, για να δοθεί η ίδια ϐαρύτητα στις µεταβλητές, αυτές πρέπει να κανονικοποιηθούν. Αυτό γίνεται χρησιµοποιώντας τον πίνακα συσχετίσεων στην ανάλυση κυρίων συνιστωσών, αφού στη διαγώνιό του υπάρχουν µόνο µονάδες. Στην R αυτό γίνεται προσθέτοντας το όρισµα scale=t στην prcomp(). > cor(possum.dat) hdlngth skullw totlngth taill footlgth earconch hdlngth.0000000 0.0 0.889 0.8 0.90 0.000 skullw 0.0.0000000000 0.909 0.0 0.099 0.00099 totlngth 0.889 0.9099.0000000 0.9 0.8 0.9880 taill 0.8 0.0 0.9.0000000-0. -0.9800 footlgth 0.90 0.099 0.88-0.8.000000000 0.809880 earconch 0.000 0.00099 0.988-0.98 0.80988.0000000000 eye 0.08 0.8 0. 0.009 0.00-0.9 chest 0.8 0.98 0.80 0.0 0.0908 0.089 belly 0.9 0.8 0. 0.98 0.080 0.0 eye chest belly hdlngth 0.08 0.8 0.9 skullw 0.8 0.9 0.8 totlngth 0. 0.80 0. taill 0.009 0.0 0.980 footlgth 0.00 0.090 0.08 earconch -0. 0.080 0.0 eye.000000000 0.980 0.00 chest 0.9899.0000000 0.08 belly 0.000 0.08.00000000 > possum.prc<-prcomp(possum.dat,scale=t) > summary(possum.prc) Importance of components: PC PC PC PC PC PC PC PC8 PC9 Standard deviation.98.0 0.9 0.89 0.08 0. 0. 0.08 0.80

Proportion of Variance 0.8 0.0 0.099 0.08 0.0 0.0 0.09 0.08 0.0 Cumulative Proportion 0.8 0.8 0. 0.89 0.908 0.9 0.98 0.980.000 Η εντολή summary(), µε όρισµα το αντικείµενο της ανάλυσης σε κύριες συνιστώσες, δίνει τις ιδιοτιµές για κάθε κύρια συνιστώσα οι οποίες αντιστοιχούν στις τυπικές αποκλίσεις τους. Αυτές δίνονται σε αύξουσα σειρά. Συνεπώς, στην πρώτη κύρια συνιστώσα (PC) αντιστοιχεί η µεγαλύτερη ιδιοτιµή, στην δεύτερη (PC) η δεύτερη µεγαλύτερη κ.ο.κ. Επίσης, στη δεύτερη γραµµή παρουσιάζεται το ποσοστό της µεταβλητότητας που εξηγείται από κάθε κύρια συνιστώσα, ενώ στην τρίτη γραµµή παρουσιάζεται το αθροιστικό ποσοστό µεταβλητότητας. Στη συνέχεια, επιλέγουµε τις k πρώτες κύριες συνιστώσες που εξηγούν ένα ση- µαντικό ποσοστό της ολικής µεταβλητότητας. Στη ϐιβλιογραφία υπάρχουν πολλά κριτήρια τα οποία χρησιµοποιούνται για τον σκοπό αυτό. Πιο κάτω αναφέρονται τα τρία πιο δηµοφιλή :. Ποσοστό συνολικής διακύµανσης που εξηγούν οι κύριες συνιστώσες. Κριτήριο του Kaiser. Τεχνική του αγκώνα - scree plot. Σύµφωνα µε το πρώτο κριτήριο, διαλέγουµε τόσες συνιστώσες ώστε αθροιστικά να εξηγούν µεγαλύτερο ποσοστό µεταβλητότητας από τον στόχο που ϑέσαµε στην αρχή (συνήθως µεγαλύτερο του 80%). Άρα, στο παραπάνω παράδειγµα ε- πιλέγονται οι πρώτες τέσσερις συνιστώσες που εξηγούν αθροιστικά το 8.9% της συνολικής µεταβλητότητας των δεδοµένων. Το κριτήριο του Kaiser λέει, αν χρησι- µοποιείται ο πίνακας συνδιακύµανσης, να ϑεωρήσουµε τόσες συνιστώσες όσες η ιδιοτιµή τους είναι µεγαλύτερη από από τη µέση τους τιµή, ενώ αν χρησιµοποιείται ο πίνακας συσχετίσεων, τόσες όσες έχουν ιδιοτιµή µεγαλύτερη του (γιατί ;). Συνεπώς, στο παράδειγµα επιλέγονται οι δύο πρώτες κύριες συνιστώσες. Τέλος, η τεχνική του αγκώνα είναι µια γραφική µέθοδος για την επιλογή του αριθµού των κυρίων συνιστωσών. Το γράφηµα αυτό έχει στον οριζόντιο άξονα των x τη σειρά και στον κάθετο άξονα των y την τιµή κάθε ιδιοτιµής. Προτείνεται να επιλεγούν τόσες συνιστώσες µέχρι το γράφηµα αρχίζει να δηµιουργεί «αγκώνα», δηλαδή να αλλάζει κλίση. Το scree plot του παραδείγµατος παρουσιάζεται στο Σχήµα 0.. Το πρώτο παρουσιάζεται ως ϱαβδόγραµµα, ενώ το δεύτερο ως πολύγωνο, αφού προσθέσαµε το όρισµα type="line". Είναι ϕανερό ότι η κλίση αλλάζει από την τρίτη ιδιοτιµή και µετά, και άρα επιλέγονται οι δύο πρώτες συνιστώσες. Συµπερασµατικά, για

το παραπάνω παράδειγµα είναι κατάλληλη η επιλογή των δύο πρώτων κυρίων συνιστωσών PC και PC. Το πιο δύσκολο κοµµάτι της ανάλυσης σε κύριες συνιστώσες είναι ίσως η ερ- µηνεία τους. Αυτή ϐασίζεται στους συντελεστές των κυρίων συνιστωσών (principal component loadings) που συνιστούν το γραµµικό συνδυασµό των αρχικών µετα- ϐλητών. Οι συντελεστές αυτοί αντιστοιχούν στα στοιχεία των ιδιοδιανυσµάτων των ιδιοτιµών των συνιστωσών. Αυτοί δίνονται στην R µαζί µε τις αντίστοιχες ιδιοτιµές καλώντας το αντικείµενο της ανάλυσης σε κύριες συνιστώσες που δηµιουργήθηκε χρησιµοποιώντας την εντολή prcomp(). Θα δοθεί η ερµηνεία για τις πρώτες δύο συνιστώσες αφού αυτές επιλέγηκαν µε ϐάση τα πιο πάνω κριτήρια. Η πρώτη κύρια συνιστώσα µπορεί να ερµηνευθεί ως ένας σταθµισµένος µέσος όρος των µεταβλητών, αφού όλοι οι συντελεστές τους έχουν το ίδιο πρόσηµο. Η δεύτερη κύρια συνιστώσα κάνει σύγκριση του µήκους της ουράς (taill) και του µεγέθους του µατιού (eye) µε το µήκος του ποδιού (footlgth) και της κόγχης του αυτιού (earconch) των οπόσσουµ.

> par(mfrow=c(,)) > screeplot(possum.prc) > screeplot(possum.prc,type="line") possum.prc possum.prc Variances 0 Variances 0 8 9 Σχήµα 0.: Scree plot. > possum.prc Standard deviations: [].9889.08 0.9990 0.89 0.080 0.8 0.8 [8] 0.089 0.900 Rotation: PC PC PC PC PC hdlngth -0.8008-0.098 0.800-0.09 0.8 skullw -0.90-0.098900 0.888-0. 0.08 totlngth -0.08-0.00-0.0 0.9 0.00988 taill -0.099-0.00-0.99 0.8 0.00900 footlgth -0.9 0.800-0.0 0.88 0.008 earconch -0.09 0.9-0.0089 0.9-0.09 eye -0.909-0.9 0.809 0.9889-0.900 chest -0.089 0.0880-0.0-0.00-0.0809 belly -0.990-0.000-0.09-0. -0.90

PC PC PC8 PC9 hdlngth -0.9809 0. -0.90 0.09989 skullw -0.0809-0.00 0.89 0.080 totlngth -0.00988 0.9000800 0.9-0.0 taill 0.9-0.09-0.98 0.80 footlgth 0.0-0.08-0.98808-0.8 earconch 0.00098-0. -0.080 0.9890 eye 0.808 0.009-0.0098 0.098 chest 0.088 0.90090-0.09 0.099 belly -0.999-0.8 0.099 0.0990 Οπως έχει αναφερθεί στην αρχή του κεφαλαίου, αφού έγινε η επιλογή των κυρίων συνιστωσών µε τις οποίες χάνεται κάποια πληροφορία, αυτές µπορούν να χρησιµοποιηθούν στη συνέχεια σε ένα (γενικευµένο) γραµµικό µοντέλο. Σε αυτό το µοντέλο ϑα χρησιµοποιηθούν οι τιµές των κυρίων συνιστωσών, οι οποίες υπολογίζονται για κάθε γραµµή των δεδοµένων από τον γραµµικό συνδυασµό των τιµών των αρχικών µεταβλητών, µε συντελεστές τους συντελεστές από τις κύριες συνιστώσες (principal components loadings). Αυτές οι τιµές ονοµάζονται principal components scores και στην R υπολογίζονται από την εντολή predict() µε όρισµα το αντικείµενο της ανάλυσης σε κύριες συνιστώσες. Ετσι, οι τιµές των πρώτων δύο κυρίων συνιστωσών στο πιο πάνω παράδειγµα δίνονται από : > predict(possum.prc)[,:] PC PC C -.90.0 C -. 0.80 C0 -.990 0.99 C -.8.00 C -0..8......... BTP.888-0. BTP.889-0.0 BTP9.99-0. BTP0.088-0.80 BTP -.8 -.8

Τέλος, ένα χρήσιµο γράφηµα που χρησιµοποιείται στην ανάλυση σε κύριες συνιστώσες είναι το biplot. Είναι η γραφική παράσταση των τιµών των κυρίων συνιστωσών (principal components scores) και των συντελεστών (principal components loadings) ταυτόχρονα στο ίδιο γράφηµα. Οι µεταβλητές παριστάνονται µε ϐέλη που ξεκινούν από την αρχή των αξόνων. Αν τα ϐέλη είναι κάθετα µεταξύ τους τότε οι αντίστοιχες µεταβλητές δε συσχετίζονται µεταξύ τους, ενώ αντίθετα, αν τα ϐέλη δείχνουν προς την ίδια (ή αντίθετη) κατεύθυνση τότε οι µεταβλητές συσχετίζονται ισχυρά ϑετικά (ή αρνητικά). Η αντίστοιχη εντολή στην R είναι η biplot() και στο Σχήµα 0. παρουσιάζεται το γράφηµα για το πιο πάνω παράδειγµα. 0 earconch PC 0. 0. 0.0 0. 0. footlgth BB0 BB CC9 BB C C C8CA C0 BB CC BB BB BB C A CC8C C C C0 BB BB BB BB8 C C C9 C C8C C C0 C0 A A AD chest C BB C hdlngth BTP BTP totlngth belly BTP9 BTP BTP skullw BSF WW WW BTP BTP WW BR BR BTP CD0 WW BTP9 BTPBTP8CD CD BR BR CD9 BTP0BTP BTP0 BSF0 CD WW BR CD CD CD BSF BSF BTPeye BTPBTP BSF BR BSFCD BTP BSF BSF BSF BSF9 WWWW CD CD8 BSF BR CD BSF8 CD taill BSF 0 0. 0. 0.0 0. 0. PC Σχήµα 0.: Biplot.

0. ιαχωριστική Ανάλυση Η ϐασική ιδέα της διαχωριστικής ανάλυσης (discriminant analysis) είναι να κατατάξει παρατηρήσεις (συνήθως πολυδιάστατες) σε γνωστούς πληθυσµούς µε γνωστές κατανοµές για κάθε πληθυσµό. Η διαχωριστική ανάλυση αποτελεί µια µέθοδο µε πλήθος εφαρµογών σε πολλές επιστήµες. Εστω ότι υπάρχουν k υπο-πληθυσµοί (οµάδες), Π, Π,..., Π k µε k. Για τον κάθε υπο-πλυθυσµό Π k υπάρχει και µία κατανοµή, f k. Η διαχωριστική ανάλυση έχει στόχους :. Τη διαχώριση ενός πληθυσµού σε ευδιάκριτα σύνολα (υπο-πληθυσµούς) και. Την ταξινόµηση παρατηρήσεων στους προηγούµενους γνωστούς πληθυσµούς µε γνωστές κατανοµές για κάθε πληθυσµό, µε τη ϐοήθεια ενός κανόνα. Αυτό που ϑα εξεταστεί εδώ είναι το πως οι επεξηγηµατικές µεταβλητές συνεισφέρουν στην σωστή ταξινόµηση των ατόµων, των οποίων η ιδιότητα είναι ήδη γνωστή (supervised classification). Για τη διαχώριση σε k οµάδες χρειάζονται k διαχωριστές (descriminators). Οι συναρτήσεις που χρειάζονται για τη διαχωριστική ανάλυση ϐρίσκονται στη ϐιβλιοθήκη MASS. Ως παράδειγµα ϑα αναπτυχθεί η διαχωριστική ανάλυση στο πλαίσιο δεδοµένων possum, το οποίο χρησιµοποιήθηκε και στην πιο πάνω ανάλυση σε κύριες συνιστώσες. Αυτό που ϑα εξεταστεί είναι το αν είναι δυνατόν, ϐάσει των µορφοµετρικών µετρήσεων, να διακριθούν τα Ϲώα από διάφορες περιοχές (sites). Αυτό γίνεται χρησιµοποιώντας την εντολή lda όπως πιο κάτω. > library(mass) > here <-!is.na(possum$footlgth) > possum.lda <- lda(site ~ hdlngth+skullw+totlngth+ taill+footlgth+ + earconch+eye+chest+belly, data=possum, subset=here) > possum.lda Call: lda(site ~ hdlngth + skullw + totlngth + taill + footlgth + earconch + eye + chest + belly, data = possum, subset = here) Prior probabilities of groups: 0.09 0.0 0.09 0.09 0. 0. 0.

Group means: hdlngth skullw totlngth taill footlgth earconch eye chest belly 9..0 89..8.00.8.0.88. 89.8. 8.. 0....9. 9. 8.90 88.0..0..0..8 9..9 9. 9. 8.9.8. 9.. 9.8. 8.9...8.8..0 89..9 8...0.9...0 9.. 8.9.9..8...9 Coefficients of linear discriminants: LD LD LD LD LD LD hdlngth -0.0 0.08-0.9-0.08-0.089-0.8 skullw -0.00 0.098-0.9 0.8-0.8 0.8 totlngth 0.09 0.9 0.09-0.89-0.90-0.0898 taill -0.0-0.0890-0.9-0.0 0. 0.90 footlgth 0.090-0.00-0.0909 0.08 0.90-0.0 earconch 0.80-0.0-0.00-0.0889-0.0 0.80 eye -0.0 0.089 0.8 0.9 0.88 0.9 chest 0.0900 0.08 0.098 0.9 0. -0.08 belly 0.0099-0.0 0.098 0. -0.90 0.99 Proportion of trace: LD LD LD LD LD LD 0.89 0.0 0.0 0.008 0.00 0.00 > options(digits=) > possum.lda$svd # Examine the singular values [].8.9.80.08.0 0. Το αντικείµενο της διαχωριστικής ανάλυσης (στο παράδειγµα, possum.lda) περιέχει τις αρχικές αναλογίες (prior probabilities) των επιπέδων της εξαρτηµένης µεταβλητής, τις µέσες τιµές κάθε επεξηγηµατικής µεταβλητής για κάθε επίπεδο της εξαρτηµένης µεταβλητής, τους συντελεστές των διαχωριστών και την αναλογία του ίχνους κάθε διαχωριστή. Οι διαχωριστές ταξινοµούνται σε σειρά, από αυτόν µε το µεγαλύτερο ίχνος σε αυτόν µε το µικρότερο ίχνος. Από την αναλογία του ίχνους κάθε διαχωριστή παρατηρείται ότι οι τελευταίοι τρεις έχουν πολύ µικρή 8

διαχωριστική ικανότητα. Οι µεταβλητές που ϕαίνονται πιο σηµαντικές είναι οι hdlngth και tail, συγκρινόµενες µε τις totlngth και footlngth. Το συµπέ- ϱασµα αυτό ϐγαίνει από τις τιµές των συντελεστών των διαχωριστών. Η τελευταία εντολή δίνει τις ιδιάζουσες τιµές, οι οποίες είναι ο λόγος του µεταξύ (between) προς του ανάµεσα (within) αθροίσµατος τετραγώνων, για όλους τις κανονικές µεταβλητές (canonical variates) σε σειρά, από αυτήν µε την µεγαλύτερη σε αυτήν µε τη µικρότερη ιδιάζουσα τιµή. Είναι ϕανερό και πάλι ότι οι κανονικές µεταβλητές µετά την τρίτη ϑα έχουν λίγη ή σχεδόν καθόλου διαχωριστική δύναµη. Στη συνέχεια δίνεται ο πίνακας διαγραµµάτων διασποράς για τις τιµές (scores) των τριών πρώτων κανονικών µετβλητών (Σχήµα 0.). > plot(possum.lda, dimen=) Με την εντολή predict και όρισµα το αντικείµενο της διαχωριστικής ανάλυσης παρουσιάζεται η εκτίµησης της ταξινόµησης της εξαρτηµένης µεταβλητής (class), και οι τιµές (scores) των κανονικών µεταβλητών. Πιο κάτω παρουσιάζεται µόνο η εκτίµηση της ταξινόµησης. > predict(possum.lda)$class [] [8] [] Levels: Τέλος, για να ελεγχθεί η ακρίβεια της πρόβλεψης της ταξινόµησης από τη διαχωριστική ανάλυση, κατασκευάζεται ο πίνακας συνάφειας µε την αρχική ταξινόµηση των δεδοµένων και στη συνέχεια υπολογίζεται το ποσοστό της σωστής ως προς τη λανθασµένη ταξινόµηση. Στο παράδειγµα, η ακρίβεια της εκτίµησης υπολογίστηκε ίση µε 8.%. 9

LD 0 0 8 0 LD 0 8 0 0 LD Σχήµα 0.: ιάγραµµα διασπορών των τιµών των τριών πρώτων κανονικών µετα- ϐλητών. 0

> tab<-table(possum[here,]$site,predict(possum.lda)$class) > tab 0 0 0 0 0 0 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 9 0 0 0 0 0 > sum(diag(tab))/sum(tab) [] 0.8 Ενας τρόπος για να γίνει σταυρωτή-επικύρωση (cross-validation) είναι να α- ϕαιρούνται παρατηρήσεις, µία κάθε ϕορά, και µετά χρησιµοποιώντας τα εναπο- µείναντα δεδοµένα να γίνει εκτίµηση για την παρατήρηση που αφαιρέθηκε. Για να εκτελεστεί αυτή η µέθοδος, είναι αρκετό να προστεθεί το όρισµα CV=T στην ε- ντολή της διαχωριστικής ανάλυσης. Πρέπει να αναφερθεί ότι τώρα η πρόβλεψη της ταξινόµησης δίνεται απ ευθείας από το αντικείµενο της διαχωριστικής ανάλυσης. > possum.lda.cv <- lda(site ~ hdlngth+skullw+totlngth+ taill+footlgth+ + earconch+eye+chest+belly, data=possum, subset=here, CV=T) > tab.cv<-table(possum[here,]$site,possum.lda.cv$class) > tab.cv 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 > sum(diag(tab.cv))/sum(tab.cv) [] 0.0