ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2004 Μάθηµα Βραχείας ιάρκειας: Η Στατιστική στον 2 ο αιώνα ιδάσκων: Ιωάννης Πανάρετος Καθηγητής Οικονοµικού Πανεπιστηµίου Αθηνών K- Nearest Neighbors (Μέθοδος Κ-Κοντινότερων Γειτόνων) Φοιτήτρια: Ονοµατεπώνυµο: Ελένη Μπακρά Α.Μ.: 600060 Αθήνα 2004
ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ...2 ΠΡΟΛΟΓΟΣ...3 Classification (Κατάταξη)...5 Regression (Παλινδρόµηση)...6 Τεχνικές Λεπτοµέρειες (Technical Details)...7 Cross-Validation...8 Απόσταση (Distance)...9 Πρόβλεψη για τις k κοντινότερες παρατηρήσεις (k-nearest Neighbors Prediction)... Σταθµισµένη Απόσταση (Distance Weighting)...2 ΕΠΙΛΟΓΟΣ...4 ΒΙΒΛΙΟΓΡΑΦΙΑ...5 Ελληνική:...5 Ξενόγλωσση:...5 2
ΠΡΟΛΟΓΟΣ Η µέθοδος του κοντινότερου γείτονα είναι µια γενική µέθοδος µε εφαρµογές στην κατασκευή µοντέλων πρόβλεψης νέων τιµών που µπορεί να χρησιµοποιηθούν και για την κατάταξη παρατηρήσεων. Η βασική ιδέα είναι πως αν θέλουµε να προβλέψουµε την τιµή µιας καινούριας παρατήρησης x χρησιµοποιώντας το ήδη υπάρχων δείγµα για να προβλέψουµε µια άλλη µεταβλητή y, τότε χρησιµοποιούµε για την πρόβλεψη µας την πληροφορία που περιέχουν οι τιµές του δείγµατος που µοιάζουν περισσότερο µε τη νέα παρατήρηση για την οποία θέλουµε να κάνουµε πρόβλεψη. Η εκτίµηση αυτή δίνεται ως: y = K xi Nk όπου N k ( x) είναι το σύνολο που περιέχει τις k πιο κοντινές παρατηρήσεις στο x για το οποίο θέλουµε να κάνουµε πρόβλεψη. ηλαδή βρίσκουµε ποιες παρατηρήσεις είναι πιο κοντά στην τιµή που θέλουµε να κάνουµε πρόβλεψη και προβλέπουµε παίρνοντας το µέσο όρο των τιµών των κοντινότερων παρατηρήσεων. Η παραπάνω ιδέα έχει ως παραµέτρους αφενός τη τιµή του k, δηλαδή του αριθµού των πιο κοντινών µε το x παρατηρήσεων και αφετέρου κάποια απόσταση την οποία χρησιµοποιούµε για να βρούµε τις κοντινότερες παρατηρήσεις. Και για τα δύο αυτά χαρακτηριστικά τίθεται το θέµα της επιλογής τους. Υπάρχουν τρόποι να διαλέξουµε το βέλτιστο k, η απόσταση που θα χρησιµοποιήσουµε εξαρτάται από τη φύση του προβλήµατος. Σε όλες τις κοντινές παρατηρήσεις ουσιαστικά δίνουµε το ίδιο βάρος. Μια παραλλαγή της µεθόδου είναι να σταθµίσουµε µε την απόσταση, δηλαδή πιο όµοιες παρατηρήσεις µε µικρή απόσταση να λαµβάνονται περισσότερο υπόψη. Σε περιπτώσεις που χρησιµοποιούµε τη µέθοδο του κοντινότερου γείτονα µε σκοπό να κατατάξουµε κάποιες παρατηρήσεις τότε δεν µπορούµε να χρησιµοποιήσουµε το µέσο όρο. Συνήθως αυτό που χρησιµοποιούµε ως πρόβλεψη είναι την τιµή µε τη µεγαλύτερη συχνότητα στις κοντινότερες παρατηρήσεις. ηλαδή βρίσκουµε σε ποιες οµάδες ανήκουν οι κοντινότερες παρατηρήσεις και κατατάσσουµε την παρατήρηση µας στην οµάδα στην οποία ανήκουν οι περισσότερες. Εναλλακτικά καθώς έχουµε συχνότητες για κάθε οµάδα µπορούµε να κατατάξουµε µε πιθανότητα ανάλογη της σχετικής συχνότητας που βρήκαµε από τις y i ( x) 3
κοντινότερες. Οι κανόνες κατάταξης δεν έχουν κάποια συγκεκριµένη συναρτησιακή µορφή (για παράδειγµα γραµµική, τετραγωνική κλπ). Επίσης µε την µέθοδο αυτή µπορεί να φτιάξουµε κανόνα όπου η οµάδα δεν είναι συνεχής, δηλαδή παρεµβάλλεται κάποια άλλη. Τέλος η µέθοδος έχει πολλές οµοιότητες µε τη µέθοδο της µη παραµετρικής παλινδρόµησης µε τη χρήση των Kernels και απαιτεί σηµαντικό υπολογιστικό φόρτο και για αυτό έχουν σχεδιαστεί αλγόριθµοι που εκτελούν τους υπολογισµούς µε έξυπνο τρόπο και κατά συνέπεια γρηγορότερα. 4
Classification (Κατάταξη) Προκειµένου να περιγράψουµε την µέθοδο των k-κοντινότερων γειτόνων (knearest neighbors) ας σκεφτούµε πως ανάµεσα σε ένα πλήθος από γνωστές παρατηρήσεις, τις οποίες και έχουµε χωρίσει σε δύο οµάδες θέλουµε να κατατάξουµε µια παρατήρηση. Για να γίνει πιο κατανοητό αναφέρουµε ένα παράδειγµα. Ας υποθέσουµε λοιπόν πως υπάρχουν δύο πληθυσµοί παρατηρήσεων και µια άγνωστη παρατήρηση µέσα σε αυτούς την οποία και επιθυµούµε να κατατάξουµε. Όλα τα παραπάνω απεικονίζονται στο παρακάτω σχήµα, συµβολίζουµε µε "συν" την µια οµάδα, µε "πλην" την άλλη και µε κύκλο την άγνωστη παρατήρηση την οποία και επιθυµούµε να κατατάξουµε στον ένα από τους δύο πληθυσµούς. Σκοπός µας λοιπόν είναι να κατατάξουµε την άγνωστη παρατήρηση σε έναν από τους δύο πληθυσµούς βασιζόµενοι σε έναν επιλεγµένο αριθµό παρατηρήσεων που βρίσκεται πιο κοντά στην άγνωστη για µας παρατήρηση. Με άλλα λόγια ενδιαφερόµαστε να µάθουµε πότε αυτό το άγνωστο σηµείο µπορεί να ταξινοµηθεί σαν συν και πότε σαν πλην. Σχήµα : Ταξινόµηση άγνωστης παρατήρησης. Πριν συνεχίσουµε ας σκεφτούµε πρώτα το αποτέλεσµα που προκύπτει όταν βασιστούµε σε έναν κοντινότερο γείτονα (-nearest neighbor). Είναι προφανές πως σε αυτή την περίπτωση η µέθοδος του κοντινότερου γείτονα θα κατατάξει το άγνωστο σηµείο σαν "συν" (µιας και το κοντινότερο σηµείο όπως φαίνεται στο σχήµα ανήκει στην οµάδα των συν). Ας αυξήσουµε τώρα τον αριθµό των κοντινότερων γειτόνων από έναν σε δύο (2-nearest neighbors). Σε αυτή την περίπτωση η µέθοδος των 5
κοντινότερων γειτόνων δεν µπορεί να κατατάξει την άγνωστη παρατήρηση ούτε ως πλην ούτε ως συν και αυτό γιατί οι δύο πιο κοντινές παρατηρήσεις στο άγνωστο σηµείο είναι η µία συν και η άλλη πλην κατά συνέπεια λοιπόν τόσο τα πλην όσο και τα συν έχουν το ίδιο σκορ (ίδιο αριθµό ψήφων). Στη συνέχεια αυξάνουµε τον αριθµό των κοντινότερων γειτόνων σε 5 (5-nearest neighbors). Τώρα καθορίζουµε µια κοντινή γειτονική περιοχή, η οποία και απεικονίζεται στο σχήµα µε έναν κύκλο. Από τη στιγµή που σε αυτή την περιοχή (κύκλο) υπάρχουν τα εξής 5 σηµεία: 2 συν και 3 πλην αντίστοιχα, τότε το άγνωστο σηµείο χαρακτηρίζεται ως πλην. Regression (Παλινδρόµηση) Σχήµα 2: Παράδειγµα τρόπου µε τον οποίο η µέθοδος των κοντινότερων γειτόνων κάνει πρόβλεψη στην παλινδρόµηση. Σε αυτό το σηµείο θα γενικεύσουµε την έννοια των k- κοντινότερων γειτόνων προκειµένου να συµπεριλάβουµε προβλήµατα παλινδρόµησης. Τα προβλήµατα παλινδρόµησης αφορούν την πρόβλεψη του αποτελέσµατος από εξαρτηµένες παρατηρήσεις δοθέντος ενός συνόλου από ανεξάρτητες παρατηρήσεις. Προκειµένου να εξηγήσουµε τι εννοούµε ας θεωρήσουµε το παραπάνω σχήµα, όπου ένα σύνολο από σηµεία (πράσινα τετράγωνα) σκιαγραφούνται από την σχέση που συνδέει την ανεξάρτητη µεταβλητή x µε την εξαρτηµένη µεταβλητή y (κόκκινη καµπύλη). 6
οθέντος του συνόλου (των σηµείων) που αποτελείται από τα πράσινα τετράγωνα θα χρησιµοποιήσουµε τη µέθοδο των κοντινότερων γειτόνων για να προβλέψουµε το αποτέλεσµα που θα έχουµε από το σηµείο Χ (επίσης γνωστό και ως άγνωστο σηµείο x). Αρχικά ας θεωρήσουµε την µέθοδο του -κοντινοτέρου γείτονα σαν παράδειγµα. Σε αυτή την περίπτωση εντοπίζουµε το σύνολο των σηµείων (πράσινα τετράγωνα) που είναι πιο κοντά στο άγνωστο σηµείο Χ. Στο συγκεκριµένο παράδειγµα το σηµείο που είναι πιο κοντά είναι το x 4. Το αποτέλεσµα του x 4 (y 4 ) µπορεί λοιπόν να θεωρηθεί πως είναι η απάντηση του αποτελέσµατος Χ (το Y). Άρα για τον -κοντινότερο γείτονα µπορούµε να γράψουµε: Στη συνέχεια, ας εξετάσουµε την µέθοδο των 2-κοντινότερων γειτόνων. Σε αυτή την περίπτωση εντοπίζουµε τα δύο πιο κοντινά σηµεία στο Χ, τα οποία τυχαίνει να είναι τα y 3 και y 4. Παίρνοντας λοιπόν, τον µέσο αυτών των δύο αποτελεσµάτων καταλήγουµε πως η λύση για το Y δίνεται από τον εξής τύπο: Y = y 4 impurity( t) = p i j ( i / t) p( j / t) Η παραπάνω συζήτηση µπορεί να επεκταθεί σε έναν σε έναν αυθαίρετο αριθµό από κοντινούς γείτονες k. Συνοψίζοντας, στη µέθοδο των k-κοντινότερων γειτόνων το αποτέλεσµα Y για το άγνωστο σηµείο Χ υπολογίζεται ως ο µέσος όρος των αποτελεσµάτων των k κοντινότερων γειτόνων. Τεχνικές Λεπτοµέρειες (Technical Details) Οι k-κοντινότεροι γείτονες είναι ένα µοντέλο το οποίο καθορίζεται από ένα σύνολο δεδοµένων των οποίων το αποτέλεσµα είναι γνωστό. Κάθε παράδειγµα περιλαµβάνει περιπτώσεις δεδοµένων για τα οποία το σύνολο των ανεξάρτητων τιµών χαρακτηρίζεται από ένα σύνολο εξαρτηµένων αποτελεσµάτων. Τόσο οι ανεξάρτητες όσο και οι εξαρτηµένες µεταβλητές µπορούν να χαρακτηριστούν είτε ως συνεχείς είτε ως κατηγορικές. Για συνεχείς εξαρτηµένες µεταβλητές η µέθοδος που χρησιµοποιούµε είναι παλινδρόµηση διαφορετικά είναι κατάταξη. Η µέθοδος λοιπόν 7
των k-κοντινότερων γειτονιών µπορεί να δουλέψει τόσο στην παλινδρόµηση όσο και στην κατάταξη. Ας θεωρήσουµε µια νέα περίπτωση από εξαρτηµένες µεταβλητές, για τις οποίες και θέλουµε να υπολογίσουµε το αποτέλεσµα που προκύπτει µε τη µέθοδο των k-κοντινότερων γειτόνων. Η µέθοδος των k-κοντινότερων γειτόνων µπορεί να εκτιµήσει το άγνωστο σηµείο βρίσκοντας τις k πιο κοντινές παρατηρήσεις σε αυτό, από κει λοιπόν προκύπτει το όνοµα k-κοντινότεροι γείτονες (k-nearest Neighbors). Για προβλήµατα παλινδρόµησης οι προβλέψεις της παραπάνω µεθόδου βασίζονται στο µέσο όρο των αποτελεσµάτων των k κοντινότερων γειτόνων. Σε προβλήµατα κατάταξης χρησιµοποιείται η πλειοψηφία των "ψήφων". Η επιλογή του k είναι σηµαντική για τον τρόπο λειτουργίας της µεθόδου των k-κοντινότερων γειτονιών. Στην πραγµατικότητα, η επιλογή του k µπορεί να θεωρηθεί ως ένας από τους πιο σηµαντικούς παράγοντες του µοντέλου ο οποίος µπορεί να επηρεάσει τόσο πολύ την ποιότητα των προβλέψεων. Ένας κατάλληλος τρόπος για να "δούµε" τον αριθµό των κοντινότερων γειτονιών k είναι να σκεφτούµε τον αριθµό αυτό σαν µια παράµετρο οµαλότητας (smoothing parameter). Σε κάθε πρόβληµα µικρή τιµή για το k οδηγεί σε πολύ µεγάλη διακύµανση όσον αφορά τις προβλέψεις. Αντίθετα αν δώσουµε στο k µεγάλη τιµή τότε οδηγούµαστε σε ένα µοντέλο µε µεγάλη µεροληψία. Από τα παραπάνω προκύπτει πως το k θα πρέπει να είναι αρκετά µεγάλο ώστε να ελαχιστοποιήσει την πιθανότητα λάθους κατάταξης αλλά και αρκετά µικρό (µε σεβασµό πάντα στον αριθµό των παρατηρήσεων που περιλαµβάνει το δείγµα) ώστε οι k κοντινές παρατηρήσεις να είναι αρκετά κοντά στο άγνωστο σηµείο. Έτσι λοιπόν και όπως µε κάθε παράµετρο οµαλότητας (smoothing parameter) υπάρχει µια βέλτιστη τιµή για το k η οποία καταφέρνει να φέρει την ισορροπία µεταξύ µεροληψίας και διακύµανσης στο µοντέλο. Η τιµή του k µπορεί να καθοριστεί µε την βοήθεια ενός αλγόριθµου γνωστός ως Cross-Validation. Cross-Validation Η µέθοδος Cross-Validation είναι µια τεχνική η οποία µπορεί να εκτιµάει τις άγνωστες τιµές του µοντέλου. Σε αυτό το σηµείο θα αναφερθούµε στην ικανότητα αυτής της µεθόδου να εκτιµήσει το k. Η γενική ιδέα αυτής της µεθόδου είναι πως έχουµε ν παρατηρήσεις και κάθε φορά αφήνει έξω µια παρατήρηση χρησιµοποιώντας 8
τις υπόλοιπες ν- παρατηρήσεις. Η µέθοδος αυτή δουλεύει ως εξής: για µια καθορισµένη τιµή του k εφαρµόζουµε το µοντέλο των k πιο κοντινών παρατηρήσεων και κάνουµε πρόβλεψη για την ν-ιοστή παρατήρηση (έχοντας χρησιµοποιήσει τις ν- παρατηρήσεις του δείγµατος) υπολογίζουµε κάθε φορά το λάθος. Η πιο συνήθης επιλογή λάθους για την περίπτωση της παλινδρόµησης είναι το άθροισµα τετραγώνων και για την περίπτωση της κατάταξης είναι πιο βολικό να ορίσουµε την ακρίβεια (το ποσοστό των σωστά ταξινοµηµένων περιπτώσεων). Αυτή λοιπόν η διαδικασία εφαρµόζεται σε όλες τις πιθανές επιλογές των ν παρατηρήσεων. Αφού επαναλάβουµε την παραπάνω διαδικασία και για τις ν παρατηρήσεις, υπολογίζουµε το µέσο όρο των λαθών ο οποίος αποτελεί ένα µέτρο για την σταθερότητα του µοντέλου (του πόσο καλά το µοντέλο προβλέπει τα άγνωστα σηµεία). Τα παραπάνω βήµατα υπολογίζονται για διάφορες τιµές του k. Η τελική επιλογή του k γίνεται για την τιµή η οποία επιτυγχάνει τη χαµηλότερη τιµή λάθους (µεγαλύτερη ακρίβεια ταξινόµησης) σε αυτή την περίπτωση το k λαµβάνει τη καλύτερη δυνατή τιµή που θα µπορούσαµε να δώσουµε (βέλτιστη µε την έννοια της µεθόδου Cross-Validation). Ας σηµειώσουµε πως η Cross-Validation µέθοδος είναι καθαρά υπολογιστική µέθοδος. Εναλλακτικά µπορούµε να καθορίσουµε την τιµή του k από µόνοι µας. Κάτι τέτοιο θα µπορούσε να είναι λογικό εάν για παράδειγµα γνωρίζουµε την τιµή του k από προηγούµενες αναλύσεις που έχουν γίνει σε παρόµοια δεδοµένα µε την µέθοδο των k-κοντινότερων γειτονιών. Απόσταση (Distance) Όπως έχουµε προαναφέρει, δοθέντος ενός αγνώστου σηµείου η µέθοδος των k-κοντινότερων γειτόνων βασίζει τις προβλέψεις της στις k πιο κοντινές παρατηρήσεις. Για αυτό το λόγο για να κάνουµε πρόβλεψη θα πρέπει καθορίσουµε ένα µέτρο που να υπολογίζει την απόσταση ανάµεσα στο άγνωστο σηµείο και στις παρατηρήσεις του δείγµατος. Το πιο σύνηθες µέτρο που χρησιµοποιούµε για να µετρήσουµε αυτή την απόσταση είναι η ευκλείδεια απόσταση. Υπάρχουν όµως και άλλα µέτρα για να µετρήσουµε αυτή την απόσταση όπως το τετράγωνο της ευκλείδειας απόστασης, City block (Manhattan) distance και Chebychev distance. 9
Ευκλείδεια απόσταση: Η ευκλείδεια απόσταση αποτελεί την πιο απλή και την πιο γνωστή περίπτωση ανάµεσα σε συνεχή δεδοµένα. Μερικές χρήσιµες ιδιότητες είναι πως εξαρτάται από την κλίµακα µέτρησης κι εποµένως αλλάζοντας την κλίµακα µπορούµε να πάρουµε ολότελα διαφορετικές αποστάσεις. Επίσης µεταβλητές µε µεγάλες απόλυτες τιµές έχουν πολύ µεγαλύτερο βάρος και σχεδόν καθορίζουν την απόσταση ανάµεσα σε παρατηρήσεις. Η ερµηνεία της απόστασης είναι πολύ εύκολο να αποδοθεί γεωµετρικά. Στην πραγµατικότητα η απόσταση αγνοεί τις στατιστικές ιδιότητες των παρατηρήσεων όπως για παράδειγµα τη µεταβλητότητα κάθε µεταβλητής. εδοµένου ότι παίρνουµε τετραγωνικές αποκλίσεις outliers έχουν µεγάλη επίδραση στον υπολογισµό της απόστασης. d ( x, y) = ( ) p i= x i y i 2 City block (Manhattan) distance: Η απόσταση Manhattan µοιάζει πολύ µε την ευκλείδεια απόσταση µε τη διαφορά ότι αντί για τετραγωνικές αποκλίσεις χρησιµοποιούµε απόλυτες αποκλίσεις. Συνήθως λόγω της οµοιότητας µε την ευκλείδεια απόσταση δίνει περίπου ίδια αποτελέσµατα εκτός από την περίπτωση που υπάρχουν outliers όπου επειδή τους δίνει µικρότερο βάρος (εξαιτίας απόλυτης τιµής) µπορεί να οδηγήσει σε πιο ανθεκτικά αποτελέσµατα. Και αυτή η απόσταση αγνοεί τις στατιστικές ιδιότητες των δεδοµένων. d p ( x, y) = i= x i y i Chebychev distance: Η απόσταση Chebychev σε αντίθεση µε τις υπόλοιπες αποστάσεις που είδαµε δεν χρησιµοποιεί όλες τις αποκλίσεις αλλά µόνο τη µεγαλύτερη εξ αυτών. Η απόσταση αυτή είναι χρήσιµη όταν κανείς θέλει να θεωρήσει δύο διαφορετικές παρατηρήσεις αν έχουν διαφορές τουλάχιστον σε µια µεταβλητή. Επειδή η απόσταση χρησιµοποιεί µόνο τη µεγαλύτερη απόκλιση εξαρτάται πολύ από τις διαφορές στην κλίµακα των µεταβλητών 0
και εποµένως αν οι κλίµακες είναι διαφορετικές ουσιαστικά θα αντικατροπτίζει τη διαφορά στη µεταβλητή µε την µεγαλύτερη κλίµακα. d ( x, y) max{ x i y, i =,..., p} = i Όλες οι παραπάνω αποστάσεις έχουν το µειονέκτηµα ότι δεν λαµβάνουν υπόψη τους τις όποιες διαφορές στην κλίµακα των µεταβλητών όπως επίσης και τις διαφορές στις διακυµάνσεις τους. Επίσης τυχόν συσχετίσεις ανάµεσα στις µεταβλητές δεν λαµβάνονται υπόψη και έτσι κατά κάποιον τρόπο αν υπάρχουν συσχετισµένες µεταβλητές η απόσταση ανάµεσα σε δύο παρατηρήσεις µπορεί να είναι πλασµατική. Ένα µέτρο απόστασης που εκ κατασκευής βασίζεται σε στατιστικές έννοιες και λαµβάνει υπόψη διακυµάνσεις και συνδιακυµάνσεις είναι η απόσταση Mahalanobis. Πρόβλεψη για τις k κοντινότερες παρατηρήσεις (k-nearest Neighbors Prediction) Αφού αποφασίσουµε την τιµή του k, µπορούµε να κάνουµε πρόβλεψη βασιζόµενοι στα παραδείγµατα των k-κοντινότερων γειτονιών. Το αποτέλεσµα της πρόβλεψης σε προβλήµατα παλινδρόµησης µε την µέθοδο των k-κοντινότερων γειτονιών είναι ο µέσος όρος των k αυτών γειτόνων. y = K k y i i= όπου y i είναι η iστη παρατήρηση και y είναι η πρόβλεψη (αποτέλεσµα) της άγνωστης παρατήρησης. Σε αντίθεση µε την παλινδρόµηση σε προβλήµατα κατάταξης, η µέθοδος των k-κοντινότερων γειτονιών βασίζεται σε ένα σχήµα "ψηφίσµατος" όπου ο νικητής ονοµάζει το άγνωστο σηµείο. Θα πρέπει να σηµειωθεί πως για δυαδική κατάταξη, οι τιµές της y =,3,5 είναι οι τιµές που χρησιµοποιούµε για να αποφευχθούν ισοπαλίες, δηλαδή οι δύο οµάδες να είναι ισόπαλες. 2 d ( x y) = ( x y) S ( x y),, όπου S ο δειγµατικός πίνακας διακυµάνσεων.
Μέχρι στιγµής έχουµε συζητήσει την µέθοδο των k-κοντινότερων γειτονιών χωρίς να έχουµε δώσει ιδιαίτερη βαρύτητα στην απόσταση των k κοντινότερων παρατηρήσεων από το άγνωστο σηµείο. Με άλλα λόγια επιτρέπουµε στις k κοντινότερες παρατηρήσεις να έχουν την ίδια επίδραση πάνω στο άγνωστο σηµείο χωρίς να υπολογίζουµε καθόλου την απόστασή τους από αυτό. Μια εναλλακτική λύση είναι να δώσουµε αυθαίρετα µεγάλη τιµή στο k (µεγάλη σε σχέση µε το µέγεθος του δείγµατος) δίνοντας µεγαλύτερη βαρύτητα στις παρατηρήσεις που βρίσκονται πιο κοντά στο σηµείο που θέλουµε να εκτιµήσουµε. Αυτή η τακτική είναι η επονοµαζόµενη σταθµισµένη απόσταση. Σταθµισµένη Απόσταση (Distance Weighting) Από την στιγµή που η µέθοδος των k-κοντινότερων γειτόνων στηρίζει τις προβλέψεις της στην διαισθητική υπόθεση πως οι παρατηρήσεις µεταξύ κοντινών αποστάσεων είναι ενδεχοµένως οι ίδιες, επιθυµητό είναι να µπορούµε να διακρίνουµε τις k πιο κοντινές γειτονιές όταν κάνουµε προβλέψεις. Μπορούµε λοιπόν να δώσουµε περισσότερη βαρύτητα στις τιµές που βρίσκονται πιο κοντά στην άγνωστη παρατήρηση. Η παραπάνω σκέψη µπορεί να επιτευχθεί αν δώσουµε βάρος W στις παρατηρήσεις που βρίσκονται πιο κοντά στην γειτονιά της άγνωστης παρατήρησης, που θα καθορίζεται από τις σχετικές οµοιότητες µεταξύ των γειτονιών, µε σεβασµό όµως πάντα στο άγνωστο σηµείο. W ( x, p ) i = k i= exp ( D( x, p )) exp ( D( x, p )) i i όπου D(x,p i ) είναι η απόσταση µεταξύ του άγνωστου σηµείου x και της i-στης παρατήρησης p i του δείγµατος. Είναι προφανές ότι τα βάρη που καθορίσαµε παραπάνω θα ικανοποιούν την εξής σχέση: k i= W ( x, ) 0 = x i 2
Σε προβλήµατα παλινδρόµησης ισχύει πως: y = k i= W ( x ) 0, x i y i Σε προβλήµατα κατάταξης παίρνουµε το µέγιστο της παραπάνω εξίσωσης για κάθε µεταβλητή. Είναι προφανές από τα παραπάνω πως όταν k> µία περίπτωση µπορεί να προσδιορίσει την τυπική απόκλιση για πρόβλεψη σε θέµατα παλινδρόµησης χρησιµοποιώντας: error bar = K - k ( y y i ) i= 2 3
ΕΠΙΛΟΓΟΣ Η µέθοδος των k-κοντινότερων γειτονιών έχει βρει αρκετές εφαρµογές τα τελευταία χρόνια λόγω της µεγάλης ανάπτυξης των υπολογιστών. Η µέθοδος που παρουσιάσαµε εν συντοµία στις παραπάνω σελίδες δεν στηρίζεται σε κάποιο ισχυρό πιθανοθεωρητικό µοντέλο, αλλά στηρίζεται κυρίως σε µαθηµατικές προσεγγίσεις και στην διαίσθηση του ερευνητή µε αποτέλεσµα σε κανένα σηµείο να µην λαµβάνεται σοβαρά υπόψη η µεταβλητότητα που ίσως έχει σοβαρό ρόλο στα αποτελέσµατα. Από τη µια πλευρά αυτή η έλλειψη πιθανοθεωρητικού µοντέλου είναι που δεν µας επιτρέπει να κάνουµε στατιστική συµπερασµατολογία, από την άλλη µεριά όµως αφήνουµε τα δεδοµένα να "µιλήσουν" σε µας και από εκεί να βγάλουµε τα συµπεράσµατά µας χωρίς να προσαρµόζουµε ένα µοντέλο που είναι πολύ πιθανόν να είναι λάθος. Στην πράξη τα αποτελέσµατα στα οποία καταλήγει η µέθοδος είναι αρκετά ικανοποιητικά. 4
ΒΙΒΛΙΟΓΡΑΦΙΑ Ελληνική:.. Καρλής, (2004),Πολυµεταβλητή Στατιστική Ανάλυση, Αθήνα. 2.. Καρλής, (2002), Ειδικά θέµατα Στατιστικής- Υπολογιστική Στατιστική (Σηµειώσεις), Αθήνα. 3. Ι. Πανάρετος & Ε. Ξεκαλάκη, (2000), Εισαγωγή στην Στατιστική Σκέψη τόµος Ι, Αθήνα. 4. Ι. Πανάρετος & Ε. Ξεκαλάκη, (2000), Εισαγωγή στην Στατιστική Σκέψη τόµος ΙΙ, Αθήνα. 5. Ι. Πανάρετος & Ε. Ξεκαλάκη, (2000). Εισαγωγή στην στατιστική σκέψη (Συµπλήρωµα). Αθήνα. 6. Ε. Ξεκαλάκη, (995). Τεχνικές ειγµατοληψίας. Αθήνα. 7. Π. Θ. Τζωρτζόπουλος, (200). Οργάνωση και διεξαγωγή δειγµατοληπτικών ερευνών. Εκδόσεις Οικονοµικού Πανεπιστηµίου Αθηνών. Αθήνα. Ξενόγλωσση:. Trevor Hastie & Robert Tibshirani & Jerome Friedman, The elements of Statistical Learning. 2. Anderson T.W. & Finn J.D. (996). The New Statistical Analysis of Data. 3. Mendenhall, W. & Beaver, R. G. & Beaver, B. M. Introduction to Probability and Statistics. Duxbury Press. 4. Montgomery, Douglas C. (200). Design and analysis of experiments. Library of Congress Cataloging- in- Publication Data 5