Πολυμεταβλητή Στατιστική Ανάλυση Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς
Στην πρα ξη τα δεδομένα ενο ς ερευνητη ει ναι απο τη φυ ση τους πολυμεταβλητά Σπα νια μια μεταβλητη μελετάται ανεξα ρτητα και. απομονωμε να απο τις υπο λοιπες Η στατιστική συμπερασματολογι α με τη χρήση πολλών μεταβλητών ονομα ζεται πολυμεταβλητη στατιστικη ανα λυση
Διαδεδομε νες πολυμεταβλητε ς με θοδοι: Η πολλαπλή γραμμική παλινδρόμηση (και επομε νως και το γενικο γραμμικο μοντε λο - linear regression model) στοχευ ει στη μελε τη πολλω ν μεταβλητω ν συγχρο νως. Ανάλυση διακύμανσης (Multivariate Analysis Of Variance - ANOVA)
Ει ναι χρη σιμη διο τι: Ε χουμε περισσότερη πληροφορι α (περισσο τερες μεταβλητε ς ερμηνευ ουν καλυ τερα το φαινο μενο) Περιορι ζεται η αβεβαιο τητα Εξα γει συμπερα σματα με μεγαλυ τερη βαρυ τητα Μελετα με συσχετισμούς (μεταξυ μεταβλητω ν και μεταξυ οντοτήτων/υποκειμε νων). Η ανακα λυψη συσχετη σεων και συνδιακυμα νσεων μεταξυ των μεταβλητω ν απλοποιει την ανα λυση και την εξαγωγη συμπερασμα των
Χρησιμοποιει ται για: Την εύρεση και ερμηνει α συσχετι σεων μεταξύ των μεταβλητών. Τη δημιουργι α ομάδων ει τε απο παρατηρη σεις ει τε απο μεταβλητε ς συ μφωνα με κα ποια χαρακτηριστικα Ομαδοποι ηση (clustering) Τη μει ωση των διαστάσεων του προβλη ματος συμπυ κνωση της πληροφορι ας σε λιγο τερες μεταβλητε ς Την πρόβλεψη νέων τιμών εκτίμηση τιμών σε χαμε νες παρατηρη σεις (missing observations). κατασκευ α ζουμε κανο νες ω στε να μπορου με να κατατα σσουμε νε ες παρατηρη σεις σε ομα δες
Χρησιμοποιει ται για: Μοντελοποι ηση σε πολλές διαστάσεις Στη γραμμικη παλινδρο μηση υπα ρχει μια εξαρτημε νη και πολλε ς ανεξα ρτητες ματαβλητε ς Υπα ρχουν μοντε λα πολυμεταβλητη ς παλινδρο μησης με περισσο τερες εξαρτημε νες μεταβλητε ς Ποσοτικοποι ηση μη παρατηρήσιμων ποσοτήτων Αφηρημε νες και μη μετρη σιμες ε ννοιες (π.χ. ευφυι α, αλληλεγγυ η) Ο συνδυασμο ς α λλων μετρη σιμων μεταβλητω ν οδηγου ν στην ποσοτικοποι ηση τε τοιων εννοιω ν (εμπεριε χεται ο μως κα ποιος βαθμο ις αυθαιρεσι ας και επισφα λειας)
Κυ ριες πολυμεταβλητε ς τεχνικε ς: Ανάλυση σε κύριες συνιστώσες (Principal Components Analysis) ερμηνεύει συσχετι σεις ανα μεσα στις αρχικε ς μεταβλητε ς, μειω νει τις διαστα σεις του προβλη ματος (συνιστω σες) στην πρα ξη ει ναι απλα ε νας μαθηματικο ς μετασχηματισμο ς των δεδομε νων, ο που βρίσκει γραμμικούς συνδυασμούς των αρχικω ν δεδομε νων ε τσι ω στε η πληροφορι α να μη χα νεται α λλα οι νε ες μεταβλητε ς, οι συνιστω σες, ει ναι ασυσχε τιστες μεταξυ τους
Κυ ριες πολυμεταβλητε ς τεχνικε ς: Παραγοντική ανάλυση (Factor Analysis) ευ ρεση και ερμηνει α παραγο ντων που δεν ει ναι μετρη σιμοι, αλλα υπα ρχουν και προκαλου ν τη συσχε τιση μεταξυ των παρατηρου μενων μεταβλητω ν. σε αντι θεση με την ανα λυση σε κυ ριες συνιστω σες, ε χει ε να ισχυρο θεωρητικο υπο βαθρο και επομε νως επιτρε πει τη στατιστικη εξε ταση δια φορων υποθε σεων σχετικα με το υπο μελε τη φαινο μενο.
Κυ ριες πολυμεταβλητε ς τεχνικε ς: Ανάλυση σε ομάδες (Cluster Analysis) δημιουργι α ομα δων (clusters) απο παρατηρη σεις για τις οποι ες τα δεδομε να δει χνουν πως ε χουν παρο μοια χαρακτηριστικα. είναι γνωστή ως Ταξινο μηση (Taxonomy), Κατηγοριοποι ηση (Classification) αλλα και ως Segmentation Η ταξινο μηση γι νεται με δια φορες μεθο δους: εμπειρικε ς, δηλαδη χωρι ς σημαντικο θεωρητικο υπο βαθρο, και βασι ζονται στην ε ννοια της απο στασης βασισμ ε νες σε μοντε λα (model-based clustering), οι οποι ες αφενο ς ε χουν ε να σημαντικο θεωρητικο υπο βαθρο, αφετε ρου προσφε ρουν μια σειρα απο μεθοδολογικα εργαλει α, για να μπορει κανει ς να αξιολογη σει τα αποτελε σματα.
Κυ ριες πολυμεταβλητε ς τεχνικε ς: Ανάλυση σε ομάδες (Cluster Analysis) Με Ιεραρχικου ς Αλγορι θμους διαμελι ζουμε ε ναν πληθυσμο παρατηρη σεων σε ε ναν αριθμο ομα δων, που ει ναι ομοιογενει ς Στο χος της μεθο δου να δημιουργη σει ο σο δυνατο ν πιο εσωτερικα συμπαγει ς ομα δες και ταυτο χρονα ανομοιογενει ς μεταξυ τους ομα δες Το δενδρο γραμμα δημιουργει ται με τις διαδοχικε ς συνενω σεις, αρχικα 2 πιο ο μοιων παρατηρη σεων και στη συνε χεια των ομα δων, με χρι να φθα σουμε στον αρχικο κο μβο, δηλαδη τη με ση παρατη ρηση του πληθυσμου που περιλαμβα νει το συ νολο των αρχικω ν παρατηρη σεων
Δενδρόγραμμα
Κυ ριες πολυμεταβλητε ς τεχνικε ς: Διακριτική ανάλυση (Discriminant Analysis) δημιουργη σει κανο νες απο η δη υπα ρχοντα δεδομε να, ω στε να ει ναι σε θε ση κανει ς να κατατα ξει μελλοντικε ς παρατηρη σεις σε ε ναν απο τους υπο εξε ταση πληθυσμου ς. είναι γνωστή ως Αναγνω ριση Προτυ πων (Pattern Recognition) και αποσκοπει να δημιουργη σει κανο νες που θα μπορου ν να ξεχωρι ζουν συγκεκριμε να προ τυπα (π.χ. κει μενα, εικο νες κ.λπ.) απο ε να μεγα λο ο γκο πληροφορι ας.
Κυ ριες πολυμεταβλητε ς τεχνικε ς: Ανάλυση αντιστοιχιών (Correspondence Analysis) με θοδος συγγενη ς της ανα λυσης σε κυ ριες συνιστω σες η συλλογη των στοιχει ων γι νεται με τη χρη ση ερωτηματολογι ου και α ρα τα δεδομε να ει ναι απο τη φυ ση τους κατηγορικα. Στόχος είναι να δημιουργηθου ν α ξονες πα νω στους οποι ους προβα λλει κανει ς τις παρατηρη σεις αλλα και τις μεταβλητε ς και επομε νως μπορει να δει και να ερμηνευ σει πω ς σχετι ζονται μεταξυ τους οι μεταβλητε ς.
Κυ ριες πολυμεταβλητε ς τεχνικε ς: Ανάλυση κανονικών συσχετι σεων (Canonical Correlation Analysis) παρόμοια με την ανα λυση σε κυ ριες συνιστω σες η διαφορα είναι ο τι οι συνιστω σες που προκυ πτουν ε χουν μεταξυ τους κα ποια ελεγχο μενη συσχε τιση. με αυτο τον τρο πο επιτυγχα νουμε μια πιο ρεαλιστικη περιγραφη των δεδομε νων.
Κυ ριες πολυμεταβλητε ς τεχνικε ς: Πολυδιάστατη κλιμακοποι ηση (Multidimensional Scaling) μαθηματικη με θοδος που σκοπο ε χει να προβα λλει τις διαστα σεις του προβλη ματος στο χω ρο των δυ ο (συνη θως) η περισσο τερων διαστα σεων. ει ναι πολυ πιο ευ κολο να μελετη σουμε ε να δια γραμμα λι γων διαστα σεων σε σχε ση με δεδομε να πολλω ν διαστα σεων χωρι ς ουσιαστικα κανε να εργαλει ο απεικο νιση ς τους καταφ ε ρνει να δημιουργη σει δει κτες βασισμε νους σε ο λα τα δεδομε να οι οποι οι ει ναι πιο ευ κολα κατανοητοι.
Κυ ριες πολυμεταβλητε ς τεχνικε ς: Πολυμεταβλητό Γραμμικό Μοντέλο (Multivariate Linear Model) περιλαμβα νει την παλινδρο μηση και την ανα λυση διακυ μανσης ως ειδικε ς περιπτω σεις υπα ρχει μια εξαρτημε νη μεταβλητη και πολλε ς συνη θως ανεξα ρτητες, οι οποι ες στην περι πτωση της ανα λυσης διακυ μανσης ει ναι κατηγορικε ς. το μοντε λο αυτο αν γενικευτει στις πολλε ς διαστα σεις, υπα ρχουν πολλε ς εξαρτημε νες μεταβλητε ς, οι οποίες μπορεί να ε χουν και μεταξυ τους κα ποια συσχε τιση. έτσι προκυ πτει η με θοδος της πολυμεταβλητη ς παλινδρο μησης (Multivariate Regression) και η με θοδος της πολυμεταβλητη ς ανα λυσης διακυ μανσης (MANOVA)
Κυ ριες πολυμεταβλητε ς τεχνικε ς: Mέθοδοι για δεδομένα διεύθυνσης (Directional data) πολλές παρατηρη σεις σχετι ζονται με την ε ννοια της διευ θυνσης (π.χ. ανεμολογικα δεδομε να) ο ταν η διευ θυνση ει ναι μια μεταβλητη, υπα ρχουν και δια φορες α λλες μεταβλητές που περιγρα φουν το φαινο μενο (π.χ. ε νταση ανε μου, γεωγραφικε ς διαστα σεις, υ ψος). υπα ρχουν ειδικε ς με θοδοι για τε τοιου ει δους πολυμεταβλητα δεδομε να
Συμπεράσματα Τα περισσο τερα δεδομένα που χρησιμοποιει ε νας ερευνητη ς ει ναι πολυμεταβλητά Για την καλύτερη αξιοποι ηση των δεδομένων, ει ναι πολυ χρη σιμη: η ευ ρεση και ερμηνει α των συσχετι σεων μεταξυ των μεταβλητω ν η ομαδοποι ηση των παρατηρη σεων η μει ωση των διαστα σεων του προβλη ματος η προ βλεψη νε ων τιμω ν (τιμε ς για αυτε ς που λει πουν η για τις ομα δες που πιθανο ν να ανη κουν) η μοντελοποι ηση σε πολλε ς διαστα σειες (πολλε ς εξαρτημε νες μεταβλητε ς) η ποσοτικοποι ηση μη παρατηρη σιμων ποσοτη των
Συμπεράσματα Κύριες μέθοδοι πολυμεταβλητής ανάλυσης: Ανα λυση σε κυ ριες συνιστω σες (Principal Components Analysis) Παραγοντικη ανα λυση (Factor Analysis) Ανα λυση σε ομα δες (Cluster Analysis) Διακριτικη ανα λυση (Discriminant Analysis) Ανα λυση αντιστοιχιω ν (Correspondence Analysis) Ανα λυση κανονικω ν συσχετι σεων (Canonical Correlation Analysis) Πολυδια στατη κλιμακοποι ηση (Multidimensional Scaling) Πολυμεταβλητο Γραμμικο Μοντε λο (Multivariate Linear Model) Mε θοδοι για δεδομε να διευ θυνσης (Directional data)
Συμπεράσματα Οι με θοδοι πολυμεταβλητη ς ανα λυσης κατηγοριοποιου νται σε 2 γενικές κατηγορι ες: Μέθοδοι Ποσοτικοποι ησης & Μέθοδοι Ταξινόμησης