ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

Σχετικά έγγραφα
ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

Οι θεµελιώδεις έννοιες που απαιτούνται στη Επαγωγική Στατιστική (Εκτιµητική, ιαστήµατα Εµπιστοσύνης και Έλεγχοι Υποθέσεων) είναι:

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

ειγµατοληπτική κατανοµή

Κεφάλαιο 9 ο Κ 5, 4 4, 5 0, 0 0,0 5, 4 4, 5. Όπως βλέπουµε το παίγνιο δεν έχει καµιά ισορροπία κατά Nash σε αµιγείς στρατηγικές διότι: (ΙΙ) Α Κ

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

Το θεώρηµα πεπλεγµένων συναρτήσεων

ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ

Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 3.1 Συσχέτιση δύο τ.µ.

Ανάλυση κατά Συστάδες. Cluster analysis

1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος

Κεφάλαιο 4 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 4.1 Συσχέτιση δύο τ.µ.

11ο Πανελλήνιο Συνέδριο της ΕΕΦ, Λάρισα 30-31/03, 1-2/04/2006. Πρακτικά Συνεδρίου

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Μεθοδολογίες παρεµβολής σε DTM.

P (A) = 1/2, P (B) = 1/2, P (C) = 1/9

ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΜΕΣΟΛΟΓΓΙΟΥ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ & ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ

ιαστήµατα Εµπιστοσύνης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Κεφάλαιο 6 Παράγωγος

Η έννοια της απόστασης

Δυναμική ενέργεια στο βαρυτικό πεδίο. Θετική ή αρνητική;


Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Στατιστική ανάλυση αποτελεσμάτων

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

2. Στοιχεία Πολυδιάστατων Κατανοµών

2.6 ΟΡΙΑ ΑΝΟΧΗΣ. πληθυσµού µε πιθανότητα τουλάχιστον ίση µε 100(1 α)%. Το. X ονοµάζεται κάτω όριο ανοχής ενώ το πάνω όριο ανοχής.

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

οµή δικτύου ΣΧΗΜΑ 8.1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008

Συλλογή,, αποθήκευση, ανανέωση και παρουσίαση στατιστικών δεδοµένων

11, 12, 13, 14, 21, 22, 23, 24, 31, 32, 33, 34, 41, 42, 43, 44.

2. Η ΟΡΓΑΝΩΣΗ ΤΗΣ ΕΙΓΜΑΤΟΛΗΨΙΑΣ

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)


Εισόδημα Κατανάλωση


< 1 για κάθε k N, τότε η σειρά a k συγκλίνει. +, τότε η η σειρά a k αποκλίνει.

Kεφάλαιο 10. Πόσα υποπαίγνια υπάρχουν εδώ πέρα; 2 υποπαίγνια.

Κεφάλαιο 1 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ. 1.1 Περιγραφή Στατιστικών εδοµένων. p i = f i n. (1.1) F i = f j όπου x j x i για j i. P i =

Παλαιότερες ασκήσεις

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

ΣΤΑΤΙΣΤΙΚΗ ΕΞΕΙ ΙΚΕΥΣΗ ΕΝΟΣ ΣΧΗΜΑΤΟΣ. ΑΛΛΗΛΕΞΑΡΤΗΣΕΩΝ. ( Παλινδρόµηση στον Πληθυσµό και Παλινδρόµηση στο είγµα).

Ασαφής Λογική Παράδειγµα. Νίκος Καραδήµας

Σηµειώσεις στις συναρτήσεις

Στατιστική Ι. Ανάλυση Παλινδρόμησης

2) Περιγραφή ιακριτών Ποσοτικών εδοµένων

2. Missing Data mechanisms

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΣΕΙΡΕΣ TAYLOR. Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων. Πολυώνυµο είναι κάθε συνάρτηση της µορφής:

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

3.9 Πίνακας συνδιακύμανσης των παραμέτρων

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

τη µέθοδο της µαθηµατικής επαγωγής για να αποδείξουµε τη Ϲητούµενη ισότητα.

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Είδαµε στο προηγούµενο κεφάλαιο ότι, όταν τα δεδοµένα που χρησιµοποιούνται σε ένα υπόδειγµα, δεν προέρχονται από στάσιµες χρονικές σειρές έχουµε το

Είδη Μεταβλητών. κλίµακα µέτρησης

Η έννοια του συναρτησιακού (functional).

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

(1) 98! 25! = 4 100! 23! = 4

Σηµειώσεις στις σειρές

ONE WAY ANOVA. .Π.Μ.Σ. Μαθηµατικά των Υπολογιστών & των αποφάσεων. Πάτρα, 11 Ιανουαρίου 2011

Θεώρηµα: Z ( Απόδειξη: Περ. #1: Περ. #2: *1, *2: αποδεικνύονται εύκολα, διερευνώντας τις περιπτώσεις ο k να είναι άρτιος ή περιττός

Παράρτηµα 3 Εξισώσεις Διαφορών και Στοχαστικές Διαδικασίες

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

4. Αναδροµικός τύπος Είναι ο τύπος που συσχετίζει δύο ή περισσότερους γενικούς όρους µιας ακολουθίας

Στατιστική για Χημικούς Μηχανικούς Έλεγχος στατιστικών υποθέσεων. Κουγιουμτζής Δημήτριος Τμήμα Χημικών Μηχανικών

ΣΤΑΤΙΣΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ

Περιεχόμενα. Πρόλογος... 15

EΦΑΡΜΟΓΕΣ ΤΗΣ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ Γραµµική Εκτίµηση Τυχαίων Σηµάτων Φίλτρο Kalman

Η ΤΕΧΝΗ ΤΟΥ ΙΑΒΑΣΜΑΤΟΣ ΜΕΤΑΞΥ ΤΩΝ ΑΡΙΘΜΩΝ (ΠΑΡΕΜΒΟΛΗ ΚΑΙ ΠΡΟΣΕΓΓΙΣΗ)

Θεωρήµατα Ιεραρχίας Ειδικά Θέµατα Υπολογισµού και Πολυπλοκότητας, Μάθηµα Βασικής Επιλογής Εαρινού Εξαµήνου Τοµέας Εφαρµογών και Θεµελιώσεων

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

4.ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ

ΘΕΑΝΩ ΕΡΙΦΥΛΗ ΜΟΣΧΟΝΑ ΣΥΜΠΛΗΡΩΜΑΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ

Στατιστική για Χημικούς Μηχανικούς Συσχέτιση και Γραμμική Παλινδρόμηση. Κουγιουμτζής Δημήτριος Τμήμα Χημικών Μηχανικών

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

HY118- ιακριτά Μαθηµατικά. Παράδειγµα. Από τα συµπεράσµατα στις υποθέσεις Αποδείξεις - Θεωρία συνόλων. Από τις υποθέσεις στα συµπεράσµατα...

Κεφάλαιο 6. Πεπερασµένα παραγόµενες αβελιανές οµάδες. Z 4 = 1 και Z 2 Z 2.

( ) = inf { (, Ρ) : Ρ διαµέριση του [, ]}

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

1.4 Λύσεις αντιστρόφων προβλημάτων.

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

ΜΙΓΑ ΙΚΟΣ ΛΟΓΙΣΜΟΣ ΚΑΙ ΟΛΟΚΛ. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΙ ΓΡΑΠΤΕΣ ΕΞΕΤΑΣΕΙΣ ΙΑΝΟΥΑΡΙΟΥ 2010 ΛΥΣΕΙΣ ΤΩΝ ΘΕΜΑΤΩΝ. =. Οι πρώτες µερικές u x y

7. Ταλαντώσεις σε συστήµατα µε πολλούς βαθµούς ελευθερίας

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

Transcript:

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2004 Μάθηµα Βραχείας ιάρκειας: Η Στατιστική στον 2 ο αιώνα ιδάσκων: Ιωάννης Πανάρετος Καθηγητής Οικονοµικού Πανεπιστηµίου Αθηνών K- Nearest Neighbors (Μέθοδος Κ-Κοντινότερων Γειτόνων) Φοιτήτρια: Ονοµατεπώνυµο: Ελένη Μπακρά Α.Μ.: 600060 Αθήνα 2004

ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ...2 ΠΡΟΛΟΓΟΣ...3 Classification (Κατάταξη)...5 Regression (Παλινδρόµηση)...6 Τεχνικές Λεπτοµέρειες (Technical Details)...7 Cross-Validation...8 Απόσταση (Distance)...9 Πρόβλεψη για τις k κοντινότερες παρατηρήσεις (k-nearest Neighbors Prediction)... Σταθµισµένη Απόσταση (Distance Weighting)...2 ΕΠΙΛΟΓΟΣ...4 ΒΙΒΛΙΟΓΡΑΦΙΑ...5 Ελληνική:...5 Ξενόγλωσση:...5 2

ΠΡΟΛΟΓΟΣ Η µέθοδος του κοντινότερου γείτονα είναι µια γενική µέθοδος µε εφαρµογές στην κατασκευή µοντέλων πρόβλεψης νέων τιµών που µπορεί να χρησιµοποιηθούν και για την κατάταξη παρατηρήσεων. Η βασική ιδέα είναι πως αν θέλουµε να προβλέψουµε την τιµή µιας καινούριας παρατήρησης x χρησιµοποιώντας το ήδη υπάρχων δείγµα για να προβλέψουµε µια άλλη µεταβλητή y, τότε χρησιµοποιούµε για την πρόβλεψη µας την πληροφορία που περιέχουν οι τιµές του δείγµατος που µοιάζουν περισσότερο µε τη νέα παρατήρηση για την οποία θέλουµε να κάνουµε πρόβλεψη. Η εκτίµηση αυτή δίνεται ως: y = K xi Nk όπου N k ( x) είναι το σύνολο που περιέχει τις k πιο κοντινές παρατηρήσεις στο x για το οποίο θέλουµε να κάνουµε πρόβλεψη. ηλαδή βρίσκουµε ποιες παρατηρήσεις είναι πιο κοντά στην τιµή που θέλουµε να κάνουµε πρόβλεψη και προβλέπουµε παίρνοντας το µέσο όρο των τιµών των κοντινότερων παρατηρήσεων. Η παραπάνω ιδέα έχει ως παραµέτρους αφενός τη τιµή του k, δηλαδή του αριθµού των πιο κοντινών µε το x παρατηρήσεων και αφετέρου κάποια απόσταση την οποία χρησιµοποιούµε για να βρούµε τις κοντινότερες παρατηρήσεις. Και για τα δύο αυτά χαρακτηριστικά τίθεται το θέµα της επιλογής τους. Υπάρχουν τρόποι να διαλέξουµε το βέλτιστο k, η απόσταση που θα χρησιµοποιήσουµε εξαρτάται από τη φύση του προβλήµατος. Σε όλες τις κοντινές παρατηρήσεις ουσιαστικά δίνουµε το ίδιο βάρος. Μια παραλλαγή της µεθόδου είναι να σταθµίσουµε µε την απόσταση, δηλαδή πιο όµοιες παρατηρήσεις µε µικρή απόσταση να λαµβάνονται περισσότερο υπόψη. Σε περιπτώσεις που χρησιµοποιούµε τη µέθοδο του κοντινότερου γείτονα µε σκοπό να κατατάξουµε κάποιες παρατηρήσεις τότε δεν µπορούµε να χρησιµοποιήσουµε το µέσο όρο. Συνήθως αυτό που χρησιµοποιούµε ως πρόβλεψη είναι την τιµή µε τη µεγαλύτερη συχνότητα στις κοντινότερες παρατηρήσεις. ηλαδή βρίσκουµε σε ποιες οµάδες ανήκουν οι κοντινότερες παρατηρήσεις και κατατάσσουµε την παρατήρηση µας στην οµάδα στην οποία ανήκουν οι περισσότερες. Εναλλακτικά καθώς έχουµε συχνότητες για κάθε οµάδα µπορούµε να κατατάξουµε µε πιθανότητα ανάλογη της σχετικής συχνότητας που βρήκαµε από τις y i ( x) 3

κοντινότερες. Οι κανόνες κατάταξης δεν έχουν κάποια συγκεκριµένη συναρτησιακή µορφή (για παράδειγµα γραµµική, τετραγωνική κλπ). Επίσης µε την µέθοδο αυτή µπορεί να φτιάξουµε κανόνα όπου η οµάδα δεν είναι συνεχής, δηλαδή παρεµβάλλεται κάποια άλλη. Τέλος η µέθοδος έχει πολλές οµοιότητες µε τη µέθοδο της µη παραµετρικής παλινδρόµησης µε τη χρήση των Kernels και απαιτεί σηµαντικό υπολογιστικό φόρτο και για αυτό έχουν σχεδιαστεί αλγόριθµοι που εκτελούν τους υπολογισµούς µε έξυπνο τρόπο και κατά συνέπεια γρηγορότερα. 4

Classification (Κατάταξη) Προκειµένου να περιγράψουµε την µέθοδο των k-κοντινότερων γειτόνων (knearest neighbors) ας σκεφτούµε πως ανάµεσα σε ένα πλήθος από γνωστές παρατηρήσεις, τις οποίες και έχουµε χωρίσει σε δύο οµάδες θέλουµε να κατατάξουµε µια παρατήρηση. Για να γίνει πιο κατανοητό αναφέρουµε ένα παράδειγµα. Ας υποθέσουµε λοιπόν πως υπάρχουν δύο πληθυσµοί παρατηρήσεων και µια άγνωστη παρατήρηση µέσα σε αυτούς την οποία και επιθυµούµε να κατατάξουµε. Όλα τα παραπάνω απεικονίζονται στο παρακάτω σχήµα, συµβολίζουµε µε "συν" την µια οµάδα, µε "πλην" την άλλη και µε κύκλο την άγνωστη παρατήρηση την οποία και επιθυµούµε να κατατάξουµε στον ένα από τους δύο πληθυσµούς. Σκοπός µας λοιπόν είναι να κατατάξουµε την άγνωστη παρατήρηση σε έναν από τους δύο πληθυσµούς βασιζόµενοι σε έναν επιλεγµένο αριθµό παρατηρήσεων που βρίσκεται πιο κοντά στην άγνωστη για µας παρατήρηση. Με άλλα λόγια ενδιαφερόµαστε να µάθουµε πότε αυτό το άγνωστο σηµείο µπορεί να ταξινοµηθεί σαν συν και πότε σαν πλην. Σχήµα : Ταξινόµηση άγνωστης παρατήρησης. Πριν συνεχίσουµε ας σκεφτούµε πρώτα το αποτέλεσµα που προκύπτει όταν βασιστούµε σε έναν κοντινότερο γείτονα (-nearest neighbor). Είναι προφανές πως σε αυτή την περίπτωση η µέθοδος του κοντινότερου γείτονα θα κατατάξει το άγνωστο σηµείο σαν "συν" (µιας και το κοντινότερο σηµείο όπως φαίνεται στο σχήµα ανήκει στην οµάδα των συν). Ας αυξήσουµε τώρα τον αριθµό των κοντινότερων γειτόνων από έναν σε δύο (2-nearest neighbors). Σε αυτή την περίπτωση η µέθοδος των 5

κοντινότερων γειτόνων δεν µπορεί να κατατάξει την άγνωστη παρατήρηση ούτε ως πλην ούτε ως συν και αυτό γιατί οι δύο πιο κοντινές παρατηρήσεις στο άγνωστο σηµείο είναι η µία συν και η άλλη πλην κατά συνέπεια λοιπόν τόσο τα πλην όσο και τα συν έχουν το ίδιο σκορ (ίδιο αριθµό ψήφων). Στη συνέχεια αυξάνουµε τον αριθµό των κοντινότερων γειτόνων σε 5 (5-nearest neighbors). Τώρα καθορίζουµε µια κοντινή γειτονική περιοχή, η οποία και απεικονίζεται στο σχήµα µε έναν κύκλο. Από τη στιγµή που σε αυτή την περιοχή (κύκλο) υπάρχουν τα εξής 5 σηµεία: 2 συν και 3 πλην αντίστοιχα, τότε το άγνωστο σηµείο χαρακτηρίζεται ως πλην. Regression (Παλινδρόµηση) Σχήµα 2: Παράδειγµα τρόπου µε τον οποίο η µέθοδος των κοντινότερων γειτόνων κάνει πρόβλεψη στην παλινδρόµηση. Σε αυτό το σηµείο θα γενικεύσουµε την έννοια των k- κοντινότερων γειτόνων προκειµένου να συµπεριλάβουµε προβλήµατα παλινδρόµησης. Τα προβλήµατα παλινδρόµησης αφορούν την πρόβλεψη του αποτελέσµατος από εξαρτηµένες παρατηρήσεις δοθέντος ενός συνόλου από ανεξάρτητες παρατηρήσεις. Προκειµένου να εξηγήσουµε τι εννοούµε ας θεωρήσουµε το παραπάνω σχήµα, όπου ένα σύνολο από σηµεία (πράσινα τετράγωνα) σκιαγραφούνται από την σχέση που συνδέει την ανεξάρτητη µεταβλητή x µε την εξαρτηµένη µεταβλητή y (κόκκινη καµπύλη). 6

οθέντος του συνόλου (των σηµείων) που αποτελείται από τα πράσινα τετράγωνα θα χρησιµοποιήσουµε τη µέθοδο των κοντινότερων γειτόνων για να προβλέψουµε το αποτέλεσµα που θα έχουµε από το σηµείο Χ (επίσης γνωστό και ως άγνωστο σηµείο x). Αρχικά ας θεωρήσουµε την µέθοδο του -κοντινοτέρου γείτονα σαν παράδειγµα. Σε αυτή την περίπτωση εντοπίζουµε το σύνολο των σηµείων (πράσινα τετράγωνα) που είναι πιο κοντά στο άγνωστο σηµείο Χ. Στο συγκεκριµένο παράδειγµα το σηµείο που είναι πιο κοντά είναι το x 4. Το αποτέλεσµα του x 4 (y 4 ) µπορεί λοιπόν να θεωρηθεί πως είναι η απάντηση του αποτελέσµατος Χ (το Y). Άρα για τον -κοντινότερο γείτονα µπορούµε να γράψουµε: Στη συνέχεια, ας εξετάσουµε την µέθοδο των 2-κοντινότερων γειτόνων. Σε αυτή την περίπτωση εντοπίζουµε τα δύο πιο κοντινά σηµεία στο Χ, τα οποία τυχαίνει να είναι τα y 3 και y 4. Παίρνοντας λοιπόν, τον µέσο αυτών των δύο αποτελεσµάτων καταλήγουµε πως η λύση για το Y δίνεται από τον εξής τύπο: Y = y 4 impurity( t) = p i j ( i / t) p( j / t) Η παραπάνω συζήτηση µπορεί να επεκταθεί σε έναν σε έναν αυθαίρετο αριθµό από κοντινούς γείτονες k. Συνοψίζοντας, στη µέθοδο των k-κοντινότερων γειτόνων το αποτέλεσµα Y για το άγνωστο σηµείο Χ υπολογίζεται ως ο µέσος όρος των αποτελεσµάτων των k κοντινότερων γειτόνων. Τεχνικές Λεπτοµέρειες (Technical Details) Οι k-κοντινότεροι γείτονες είναι ένα µοντέλο το οποίο καθορίζεται από ένα σύνολο δεδοµένων των οποίων το αποτέλεσµα είναι γνωστό. Κάθε παράδειγµα περιλαµβάνει περιπτώσεις δεδοµένων για τα οποία το σύνολο των ανεξάρτητων τιµών χαρακτηρίζεται από ένα σύνολο εξαρτηµένων αποτελεσµάτων. Τόσο οι ανεξάρτητες όσο και οι εξαρτηµένες µεταβλητές µπορούν να χαρακτηριστούν είτε ως συνεχείς είτε ως κατηγορικές. Για συνεχείς εξαρτηµένες µεταβλητές η µέθοδος που χρησιµοποιούµε είναι παλινδρόµηση διαφορετικά είναι κατάταξη. Η µέθοδος λοιπόν 7

των k-κοντινότερων γειτονιών µπορεί να δουλέψει τόσο στην παλινδρόµηση όσο και στην κατάταξη. Ας θεωρήσουµε µια νέα περίπτωση από εξαρτηµένες µεταβλητές, για τις οποίες και θέλουµε να υπολογίσουµε το αποτέλεσµα που προκύπτει µε τη µέθοδο των k-κοντινότερων γειτόνων. Η µέθοδος των k-κοντινότερων γειτόνων µπορεί να εκτιµήσει το άγνωστο σηµείο βρίσκοντας τις k πιο κοντινές παρατηρήσεις σε αυτό, από κει λοιπόν προκύπτει το όνοµα k-κοντινότεροι γείτονες (k-nearest Neighbors). Για προβλήµατα παλινδρόµησης οι προβλέψεις της παραπάνω µεθόδου βασίζονται στο µέσο όρο των αποτελεσµάτων των k κοντινότερων γειτόνων. Σε προβλήµατα κατάταξης χρησιµοποιείται η πλειοψηφία των "ψήφων". Η επιλογή του k είναι σηµαντική για τον τρόπο λειτουργίας της µεθόδου των k-κοντινότερων γειτονιών. Στην πραγµατικότητα, η επιλογή του k µπορεί να θεωρηθεί ως ένας από τους πιο σηµαντικούς παράγοντες του µοντέλου ο οποίος µπορεί να επηρεάσει τόσο πολύ την ποιότητα των προβλέψεων. Ένας κατάλληλος τρόπος για να "δούµε" τον αριθµό των κοντινότερων γειτονιών k είναι να σκεφτούµε τον αριθµό αυτό σαν µια παράµετρο οµαλότητας (smoothing parameter). Σε κάθε πρόβληµα µικρή τιµή για το k οδηγεί σε πολύ µεγάλη διακύµανση όσον αφορά τις προβλέψεις. Αντίθετα αν δώσουµε στο k µεγάλη τιµή τότε οδηγούµαστε σε ένα µοντέλο µε µεγάλη µεροληψία. Από τα παραπάνω προκύπτει πως το k θα πρέπει να είναι αρκετά µεγάλο ώστε να ελαχιστοποιήσει την πιθανότητα λάθους κατάταξης αλλά και αρκετά µικρό (µε σεβασµό πάντα στον αριθµό των παρατηρήσεων που περιλαµβάνει το δείγµα) ώστε οι k κοντινές παρατηρήσεις να είναι αρκετά κοντά στο άγνωστο σηµείο. Έτσι λοιπόν και όπως µε κάθε παράµετρο οµαλότητας (smoothing parameter) υπάρχει µια βέλτιστη τιµή για το k η οποία καταφέρνει να φέρει την ισορροπία µεταξύ µεροληψίας και διακύµανσης στο µοντέλο. Η τιµή του k µπορεί να καθοριστεί µε την βοήθεια ενός αλγόριθµου γνωστός ως Cross-Validation. Cross-Validation Η µέθοδος Cross-Validation είναι µια τεχνική η οποία µπορεί να εκτιµάει τις άγνωστες τιµές του µοντέλου. Σε αυτό το σηµείο θα αναφερθούµε στην ικανότητα αυτής της µεθόδου να εκτιµήσει το k. Η γενική ιδέα αυτής της µεθόδου είναι πως έχουµε ν παρατηρήσεις και κάθε φορά αφήνει έξω µια παρατήρηση χρησιµοποιώντας 8

τις υπόλοιπες ν- παρατηρήσεις. Η µέθοδος αυτή δουλεύει ως εξής: για µια καθορισµένη τιµή του k εφαρµόζουµε το µοντέλο των k πιο κοντινών παρατηρήσεων και κάνουµε πρόβλεψη για την ν-ιοστή παρατήρηση (έχοντας χρησιµοποιήσει τις ν- παρατηρήσεις του δείγµατος) υπολογίζουµε κάθε φορά το λάθος. Η πιο συνήθης επιλογή λάθους για την περίπτωση της παλινδρόµησης είναι το άθροισµα τετραγώνων και για την περίπτωση της κατάταξης είναι πιο βολικό να ορίσουµε την ακρίβεια (το ποσοστό των σωστά ταξινοµηµένων περιπτώσεων). Αυτή λοιπόν η διαδικασία εφαρµόζεται σε όλες τις πιθανές επιλογές των ν παρατηρήσεων. Αφού επαναλάβουµε την παραπάνω διαδικασία και για τις ν παρατηρήσεις, υπολογίζουµε το µέσο όρο των λαθών ο οποίος αποτελεί ένα µέτρο για την σταθερότητα του µοντέλου (του πόσο καλά το µοντέλο προβλέπει τα άγνωστα σηµεία). Τα παραπάνω βήµατα υπολογίζονται για διάφορες τιµές του k. Η τελική επιλογή του k γίνεται για την τιµή η οποία επιτυγχάνει τη χαµηλότερη τιµή λάθους (µεγαλύτερη ακρίβεια ταξινόµησης) σε αυτή την περίπτωση το k λαµβάνει τη καλύτερη δυνατή τιµή που θα µπορούσαµε να δώσουµε (βέλτιστη µε την έννοια της µεθόδου Cross-Validation). Ας σηµειώσουµε πως η Cross-Validation µέθοδος είναι καθαρά υπολογιστική µέθοδος. Εναλλακτικά µπορούµε να καθορίσουµε την τιµή του k από µόνοι µας. Κάτι τέτοιο θα µπορούσε να είναι λογικό εάν για παράδειγµα γνωρίζουµε την τιµή του k από προηγούµενες αναλύσεις που έχουν γίνει σε παρόµοια δεδοµένα µε την µέθοδο των k-κοντινότερων γειτονιών. Απόσταση (Distance) Όπως έχουµε προαναφέρει, δοθέντος ενός αγνώστου σηµείου η µέθοδος των k-κοντινότερων γειτόνων βασίζει τις προβλέψεις της στις k πιο κοντινές παρατηρήσεις. Για αυτό το λόγο για να κάνουµε πρόβλεψη θα πρέπει καθορίσουµε ένα µέτρο που να υπολογίζει την απόσταση ανάµεσα στο άγνωστο σηµείο και στις παρατηρήσεις του δείγµατος. Το πιο σύνηθες µέτρο που χρησιµοποιούµε για να µετρήσουµε αυτή την απόσταση είναι η ευκλείδεια απόσταση. Υπάρχουν όµως και άλλα µέτρα για να µετρήσουµε αυτή την απόσταση όπως το τετράγωνο της ευκλείδειας απόστασης, City block (Manhattan) distance και Chebychev distance. 9

Ευκλείδεια απόσταση: Η ευκλείδεια απόσταση αποτελεί την πιο απλή και την πιο γνωστή περίπτωση ανάµεσα σε συνεχή δεδοµένα. Μερικές χρήσιµες ιδιότητες είναι πως εξαρτάται από την κλίµακα µέτρησης κι εποµένως αλλάζοντας την κλίµακα µπορούµε να πάρουµε ολότελα διαφορετικές αποστάσεις. Επίσης µεταβλητές µε µεγάλες απόλυτες τιµές έχουν πολύ µεγαλύτερο βάρος και σχεδόν καθορίζουν την απόσταση ανάµεσα σε παρατηρήσεις. Η ερµηνεία της απόστασης είναι πολύ εύκολο να αποδοθεί γεωµετρικά. Στην πραγµατικότητα η απόσταση αγνοεί τις στατιστικές ιδιότητες των παρατηρήσεων όπως για παράδειγµα τη µεταβλητότητα κάθε µεταβλητής. εδοµένου ότι παίρνουµε τετραγωνικές αποκλίσεις outliers έχουν µεγάλη επίδραση στον υπολογισµό της απόστασης. d ( x, y) = ( ) p i= x i y i 2 City block (Manhattan) distance: Η απόσταση Manhattan µοιάζει πολύ µε την ευκλείδεια απόσταση µε τη διαφορά ότι αντί για τετραγωνικές αποκλίσεις χρησιµοποιούµε απόλυτες αποκλίσεις. Συνήθως λόγω της οµοιότητας µε την ευκλείδεια απόσταση δίνει περίπου ίδια αποτελέσµατα εκτός από την περίπτωση που υπάρχουν outliers όπου επειδή τους δίνει µικρότερο βάρος (εξαιτίας απόλυτης τιµής) µπορεί να οδηγήσει σε πιο ανθεκτικά αποτελέσµατα. Και αυτή η απόσταση αγνοεί τις στατιστικές ιδιότητες των δεδοµένων. d p ( x, y) = i= x i y i Chebychev distance: Η απόσταση Chebychev σε αντίθεση µε τις υπόλοιπες αποστάσεις που είδαµε δεν χρησιµοποιεί όλες τις αποκλίσεις αλλά µόνο τη µεγαλύτερη εξ αυτών. Η απόσταση αυτή είναι χρήσιµη όταν κανείς θέλει να θεωρήσει δύο διαφορετικές παρατηρήσεις αν έχουν διαφορές τουλάχιστον σε µια µεταβλητή. Επειδή η απόσταση χρησιµοποιεί µόνο τη µεγαλύτερη απόκλιση εξαρτάται πολύ από τις διαφορές στην κλίµακα των µεταβλητών 0

και εποµένως αν οι κλίµακες είναι διαφορετικές ουσιαστικά θα αντικατροπτίζει τη διαφορά στη µεταβλητή µε την µεγαλύτερη κλίµακα. d ( x, y) max{ x i y, i =,..., p} = i Όλες οι παραπάνω αποστάσεις έχουν το µειονέκτηµα ότι δεν λαµβάνουν υπόψη τους τις όποιες διαφορές στην κλίµακα των µεταβλητών όπως επίσης και τις διαφορές στις διακυµάνσεις τους. Επίσης τυχόν συσχετίσεις ανάµεσα στις µεταβλητές δεν λαµβάνονται υπόψη και έτσι κατά κάποιον τρόπο αν υπάρχουν συσχετισµένες µεταβλητές η απόσταση ανάµεσα σε δύο παρατηρήσεις µπορεί να είναι πλασµατική. Ένα µέτρο απόστασης που εκ κατασκευής βασίζεται σε στατιστικές έννοιες και λαµβάνει υπόψη διακυµάνσεις και συνδιακυµάνσεις είναι η απόσταση Mahalanobis. Πρόβλεψη για τις k κοντινότερες παρατηρήσεις (k-nearest Neighbors Prediction) Αφού αποφασίσουµε την τιµή του k, µπορούµε να κάνουµε πρόβλεψη βασιζόµενοι στα παραδείγµατα των k-κοντινότερων γειτονιών. Το αποτέλεσµα της πρόβλεψης σε προβλήµατα παλινδρόµησης µε την µέθοδο των k-κοντινότερων γειτονιών είναι ο µέσος όρος των k αυτών γειτόνων. y = K k y i i= όπου y i είναι η iστη παρατήρηση και y είναι η πρόβλεψη (αποτέλεσµα) της άγνωστης παρατήρησης. Σε αντίθεση µε την παλινδρόµηση σε προβλήµατα κατάταξης, η µέθοδος των k-κοντινότερων γειτονιών βασίζεται σε ένα σχήµα "ψηφίσµατος" όπου ο νικητής ονοµάζει το άγνωστο σηµείο. Θα πρέπει να σηµειωθεί πως για δυαδική κατάταξη, οι τιµές της y =,3,5 είναι οι τιµές που χρησιµοποιούµε για να αποφευχθούν ισοπαλίες, δηλαδή οι δύο οµάδες να είναι ισόπαλες. 2 d ( x y) = ( x y) S ( x y),, όπου S ο δειγµατικός πίνακας διακυµάνσεων.

Μέχρι στιγµής έχουµε συζητήσει την µέθοδο των k-κοντινότερων γειτονιών χωρίς να έχουµε δώσει ιδιαίτερη βαρύτητα στην απόσταση των k κοντινότερων παρατηρήσεων από το άγνωστο σηµείο. Με άλλα λόγια επιτρέπουµε στις k κοντινότερες παρατηρήσεις να έχουν την ίδια επίδραση πάνω στο άγνωστο σηµείο χωρίς να υπολογίζουµε καθόλου την απόστασή τους από αυτό. Μια εναλλακτική λύση είναι να δώσουµε αυθαίρετα µεγάλη τιµή στο k (µεγάλη σε σχέση µε το µέγεθος του δείγµατος) δίνοντας µεγαλύτερη βαρύτητα στις παρατηρήσεις που βρίσκονται πιο κοντά στο σηµείο που θέλουµε να εκτιµήσουµε. Αυτή η τακτική είναι η επονοµαζόµενη σταθµισµένη απόσταση. Σταθµισµένη Απόσταση (Distance Weighting) Από την στιγµή που η µέθοδος των k-κοντινότερων γειτόνων στηρίζει τις προβλέψεις της στην διαισθητική υπόθεση πως οι παρατηρήσεις µεταξύ κοντινών αποστάσεων είναι ενδεχοµένως οι ίδιες, επιθυµητό είναι να µπορούµε να διακρίνουµε τις k πιο κοντινές γειτονιές όταν κάνουµε προβλέψεις. Μπορούµε λοιπόν να δώσουµε περισσότερη βαρύτητα στις τιµές που βρίσκονται πιο κοντά στην άγνωστη παρατήρηση. Η παραπάνω σκέψη µπορεί να επιτευχθεί αν δώσουµε βάρος W στις παρατηρήσεις που βρίσκονται πιο κοντά στην γειτονιά της άγνωστης παρατήρησης, που θα καθορίζεται από τις σχετικές οµοιότητες µεταξύ των γειτονιών, µε σεβασµό όµως πάντα στο άγνωστο σηµείο. W ( x, p ) i = k i= exp ( D( x, p )) exp ( D( x, p )) i i όπου D(x,p i ) είναι η απόσταση µεταξύ του άγνωστου σηµείου x και της i-στης παρατήρησης p i του δείγµατος. Είναι προφανές ότι τα βάρη που καθορίσαµε παραπάνω θα ικανοποιούν την εξής σχέση: k i= W ( x, ) 0 = x i 2

Σε προβλήµατα παλινδρόµησης ισχύει πως: y = k i= W ( x ) 0, x i y i Σε προβλήµατα κατάταξης παίρνουµε το µέγιστο της παραπάνω εξίσωσης για κάθε µεταβλητή. Είναι προφανές από τα παραπάνω πως όταν k> µία περίπτωση µπορεί να προσδιορίσει την τυπική απόκλιση για πρόβλεψη σε θέµατα παλινδρόµησης χρησιµοποιώντας: error bar = K - k ( y y i ) i= 2 3

ΕΠΙΛΟΓΟΣ Η µέθοδος των k-κοντινότερων γειτονιών έχει βρει αρκετές εφαρµογές τα τελευταία χρόνια λόγω της µεγάλης ανάπτυξης των υπολογιστών. Η µέθοδος που παρουσιάσαµε εν συντοµία στις παραπάνω σελίδες δεν στηρίζεται σε κάποιο ισχυρό πιθανοθεωρητικό µοντέλο, αλλά στηρίζεται κυρίως σε µαθηµατικές προσεγγίσεις και στην διαίσθηση του ερευνητή µε αποτέλεσµα σε κανένα σηµείο να µην λαµβάνεται σοβαρά υπόψη η µεταβλητότητα που ίσως έχει σοβαρό ρόλο στα αποτελέσµατα. Από τη µια πλευρά αυτή η έλλειψη πιθανοθεωρητικού µοντέλου είναι που δεν µας επιτρέπει να κάνουµε στατιστική συµπερασµατολογία, από την άλλη µεριά όµως αφήνουµε τα δεδοµένα να "µιλήσουν" σε µας και από εκεί να βγάλουµε τα συµπεράσµατά µας χωρίς να προσαρµόζουµε ένα µοντέλο που είναι πολύ πιθανόν να είναι λάθος. Στην πράξη τα αποτελέσµατα στα οποία καταλήγει η µέθοδος είναι αρκετά ικανοποιητικά. 4

ΒΙΒΛΙΟΓΡΑΦΙΑ Ελληνική:.. Καρλής, (2004),Πολυµεταβλητή Στατιστική Ανάλυση, Αθήνα. 2.. Καρλής, (2002), Ειδικά θέµατα Στατιστικής- Υπολογιστική Στατιστική (Σηµειώσεις), Αθήνα. 3. Ι. Πανάρετος & Ε. Ξεκαλάκη, (2000), Εισαγωγή στην Στατιστική Σκέψη τόµος Ι, Αθήνα. 4. Ι. Πανάρετος & Ε. Ξεκαλάκη, (2000), Εισαγωγή στην Στατιστική Σκέψη τόµος ΙΙ, Αθήνα. 5. Ι. Πανάρετος & Ε. Ξεκαλάκη, (2000). Εισαγωγή στην στατιστική σκέψη (Συµπλήρωµα). Αθήνα. 6. Ε. Ξεκαλάκη, (995). Τεχνικές ειγµατοληψίας. Αθήνα. 7. Π. Θ. Τζωρτζόπουλος, (200). Οργάνωση και διεξαγωγή δειγµατοληπτικών ερευνών. Εκδόσεις Οικονοµικού Πανεπιστηµίου Αθηνών. Αθήνα. Ξενόγλωσση:. Trevor Hastie & Robert Tibshirani & Jerome Friedman, The elements of Statistical Learning. 2. Anderson T.W. & Finn J.D. (996). The New Statistical Analysis of Data. 3. Mendenhall, W. & Beaver, R. G. & Beaver, B. M. Introduction to Probability and Statistics. Duxbury Press. 4. Montgomery, Douglas C. (200). Design and analysis of experiments. Library of Congress Cataloging- in- Publication Data 5