Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων
Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New York University
Πολυπλοκότητα των δένδρων και Over-fitting
Διάφορες µορφές δένδρων και σχέση µε το Churn
Κλάδεµα Το κλάδεµα απλοποιεί το δένδρο αποφάσεων και αποτρέπει την εµφάνιση του over-fitting Μετά-κλάδεµα: Παίρνει ένα πλήρως ανεπτυγµένο δένδρο και απορρίπτει τα αναξιόπιστα τµήµατα του. Προ-κλάδεµα: Σταµατάει την ανάπτυξη του δένδρου όταν η πληροφορία γίνει αναξιόπιστη. Το Μετά-κλάδεµα συνήθως προτιµάται στην πράξη.
Μετά-κλάδεµα ενός δένδρου
Όρια αποφάσεων
Χώρος παραδείγµατος (instance)
Γραµµικός διαχωριστής τάξεων
Παράδειγµα συνάρτησης διαχωρισµού τάξεων Linear discriminant: class(x)={ + if 1.0 Age 1.5 Balance+60>0 if 1.0 Age 1.5 Balance+60 0 Η διάκριση µεταξύ του διαχωρισµού και της παλινδρόµησης έγκειται στο We εάν now η µεταβλητή have a parameterized στόχος είναι model: κατηγορηµατική the weights ή of αριθµητική. the linear function are the parameters Για τη λογιστική παλινδρόµηση, το µοντέλο παράγει µια αριθµητική εκτίµηση. The weights are often loosely interpreted as importance indicators of the features Ωστόσο, οι τιµές της µεταβλητής στόχου στα δεδοµένα είναι κατηγορηµατικές. A different sort of multivariate supervised segmentation The difference from DTs is that the method for taking multiple attributes Λογιστική into account παλινδρόµηση is to create είναι a mathematical η εκτίµηση της function πιθανότητας of them να είναι κάποιο δεδοµένο µέλος µιας τάξης (µια αριθµητική ποσότητα). η.
Παράδειγµα συνάρτησης διαχωρισµού τάξεων Έχουµε ένα παραµετροποιηµένο µοντέλο: τα βάρη της γραµµικής συνάρτησης είναι οι παράµετροι Τα βάρη κάποιες φορές χαλαρά ερµηνεύονται ως δείκτες σπουδαιότητας των χαρακτηριστικών. Μια διαφορετική ταξινόµηση του πολυκριτήριου επιτηρούµενου διαχωρισµού. Η διαφορά από δένδρα αποφάσεων είναι η µέθοδος για τη λήψη πολλών ιδιοτήτων για τη δηµιουργία µιας µαθηµατικής τους συνάρτησης.
Επιλέγοντας την «καλύτερη» γραµµή
Αντικειµενικές συναρτήσεις Η «καλύτερη» γραµµή εξαρτάται από την αντικειµενική συνάρτηση απώλειας. Η αντικειµενική συνάρτηση αντιπροσωπεύει το στόχο µας. Μια συνάρτηση απώλειας καθορίζει πόσο πέναλτι θα πρέπει να αποδοθεί σε µια περίπτωση βασιζόµενη στο λάθος του µοντέλου πρόβλεψης. Γραµµική παλινδρόµηση, λογιστική παλινδρόµηση και support vector machines είναι παραλλαγές της βασικής τεχνικής: Η κύρια διαφορά είναι ότι η καθεµιά χρησιµοποιεί διαφορετική αντικειµενική συνάρτηση.
Λογιστική παλινδρόµηση είναι ένα εσφαλµένο όνοµα Η διάκριση µεταξύ του διαχωρισµού και της παλινδρόµησης έγκειται στο εάν η µεταβλητή στόχος είναι κατηγορηµατική ή αριθµητική. Για τη λογιστική παλινδρόµηση, το µοντέλο παράγει µια αριθµητική εκτίµηση. Ωστόσο, οι τιµές της µεταβλητής στόχου στα δεδοµένα είναι κατηγορηµατικές. Λογιστική παλινδρόµηση είναι η εκτίµηση της πιθανότητας να είναι κάποιο δεδοµένο µέλος µιας τάξης (µια αριθµητική ποσότητα). Η λογιστική παλινδρόµηση είναι µοντέλο εκτίµησης της πιθανότητας µιας τάξης και όχι µια τυπική παλινδρόµηση.
Λογιστική παλινδρόµηση ( sigmoid ) καµπύλη
Άνθη- Διάκριση τάξεων
Επιλέγοντας την «καλύτερη» γραµµή
Support Vector Machines (SVMs)- Μια ιδιαίτερη περίπτωση
Support Vector Machines (SVMs) Γραµµική διακριτική µέθοδος Αποτελεσµατική Χρησιµοποιεί απώλεια άρθρωσης Επίσης, υπάρχουν µη γραµµικές SVMs
Συναρτήσεις Απώλειας Άρθρωσης Support vector machines χρησιµοποιούν την απώλεια άρθρωσης Η απώλεια άρθρωσης δεν επισύρει πέναλτι που δεν είναι στη λάθος πλευρά του περιθωρίου. Η απώλεια άρθρωσης γίνεται θετική µόνο όταν ένα παράδειγµα είναι στη λάθος πλευρά και πέρα από το περιθώριο. Η απώλεια τότε αυξάνει γραµµικά µε την απόσταση του παραδείγµατος από το περιθώριο. Επισύρει υψηλότερο πέναλτι για όσα σηµεία απέχουν περισσότερο από το όριο.
Συναρτήσεις απώλειας Η µηδέν-ένα απώλεια δίνει µια απώλεια ίση µε το µηδέν σε µια ορθή απόφαση και ένα σε µια λανθασµένη απόφαση. Το τετραγωνικό λάθος προδιαγράφει µια απώλεια αναλογική µε το τετράγωνο της απόστασης από το όριο. Η απώλεια τετραγωνικού λάθους συνήθως χρησιµοποιείται για πρόβλεψη αριθµητικών τιµών (παλινδρόµηση), παρά για διαχωρισµό. Ο τετραγωνισµός του λάθους έχει ως αποτέλεσµα την αύξηση του πέναλτι όταν η πρόβλεψη είναι πολύ λάθος.
Διάταξη περιπτώσεων και Εκτίµηση της πιθανότητας µιας τάξης Σε πολλές εφαρµογές, δεν θέλουµε απλά ένα ΝΑΙ ή ένα ΟΧΙ, αλλά θέλουµε να βρούµε ποια δεδοµένα είναι πιο πιθανό να ανήκουν σε µια τάξη λιγότερο ή περισσότερο Ποιοι πελάτες θα ανταποκριθούν περισσότερο σε µια προσφορά; Ποιοι πελάτες είναι πιο πιθανό να φύγουν όταν λήξει το συµβόλαιο τους; Διάταξη Επαγωγικά δένδρα Γραµµικές διακριτικές συναρτήσεις (π.χ., γραµµική παλινδρόµηση, λογιστική παλινδρόµηση, SVMs) Η διάταξη είναι ελεύθερη Εκτίµηση της πιθανότητας της τάξης Επαγωγικά δένδρα Λογιστική παλινδρόµηση
Οι πολλές πλευρές του διαχωρισµού: Classification / Probability Estimation / Ranking Αυξανόµενη δυσκολία Classification Διάταξη Πιθανότητα Διάταξη: Το αντικείµενο της εργασίας καθορίζει τον αριθµό των τάξεων ( how far down the list ) Πιθανότητα: Μπορείς να βάζεις σε σειρά/ classify αν έχεις πιθανότητες!
Διάταξη: Παραδείγµατα Μηχανές αναζήτησης Πότε ένα έγγραφο είναι σχετικό µε ένα θέµα/ ερώτηµα
Εκτίµηση πιθανότητας τάξης: Παραδείγµατα MegaTelCo Διάταξη έναντι Εκτίµησης πιθανότητας τάξης Αναγνώριση λογαριασµών και κινήσεων που είναι απάτη Ο υπεύθυνος του ελέγχου απάτης µπορεί να θέλει από τους αναλυτές να εστιάζουν όχι µόνο στον εντοπισµό της απάτης αλλά να εκτιµούν την αναµενόµενη οικονοµική απώλεια
Εφαρµογή της Λογιστικής Παλινδρόµησης Τα Wisconsin δεδοµένα για την πρόβλεψη του καρκίνου του στήθους
Wisconsin δεδοµένα για την πρόβλεψη του καρκίνου του στήθους Για καθένα από αυτά τα κύρια χαρακτηριστικά, υπολογίστηκαν 3 τιµές: ο µέσος όρος (_mean), τυπικό λάθος (_SE), και η χειρότερη ή µεγαλύτερη τιµή.
Wisconsin δεδοµένα για την πρόβλεψη του καρκίνου του στήθους
Μη γραµµικές συναρτήσεις Οι µη γραµµικές συναρτήσεις µπορούν πραγµατικά να αντιπροσωπεύουν µη γραµµικά µοντέλα, αν συµπεριλάβουµε πιο πολλά χαρακτηριστικά στις συναρτήσεις.
Μη γραµµικές συναρτήσεις Χρησιµοποιώντας υψηλής διάταξης χαρακτηριστικά είναι απλώς ένα κόλπο. Κοινές τεχνικές που βασίζονται στο ταίριασµα των παραµέτρων πολύπλοκων, µη γραµµικών συναρτήσεων: Η µη γραµµικότητα υποστηρίζεται από τα vector machines και τα neural networks Μη γραµµική support vector machine µε πολυωνυµικό πυρήνα χρησιµοποιεί υψηλής διάταξης συνδυασµούς των χαρακτηριστικών Τετράγωνα, γινόµενα, κλπ. Το νευρωνικό δίκτυο είναι µια στοίβα µοντέλων Στον πάτο της στοίβας είναι τα αρχικά χαρακτηριστικά Κάθε επίπεδο της στοίβας είναι ένα απλό µοντέλο που δέχεται τις εξόδους του προηγούµενου.
Τυπικό νευρωνικό δίκτυο
Γραµµικά µοντέλα έναντι Επαγωγικών Δένδρων Γιατί είναι πιο κατανοητά στους stakeholders; Κανόνες ή αριθµητική συνάρτηση; Πόσο οµαλό είναι το φαινόµενο που µοντελοποιείται; Τα δένδρα χρειάζονται πολλά δεδοµένα για να προσεγγίσουν τα καµπυλωτά όρια. Πόσο µη γραµµικό είναι το φαινόµενο που µοντελοποιείται; Αν είναι πολύ, πόσο data engineering χρειάζεται για να προσεγγιστεί γραµµικά; Πόσα δεδοµένα έχεις;;!! Υπάρχει ένα tradeoff µεταξύ της πολυπλοκότητας που µπορεί να µοντελοποιηθεί και της ποσότητας των training data που είναι διαθέσιµα. Ποια τα χαρακτηριστικά τους: τιµές που λείπουν, τύποι µεταβλητών, σχέσεις µεταξύ τους, πόσα είναι άσχετα, κλπ. Τα δένδρα είναι σχετικά ασφαλή σε σχέση µε αυτά τα θέµατα.
Η διεργασία της εξόρυξης δεδοµένων
Η σύγκριση καµπυλών µάθησης είναι ουσιώδης δουλειά
Η σύγκριση καµπυλών µάθησης είναι ουσιώδης δουλειά
Η επιλογή του αλγορίθµου δεν είναι εύκολη δουλειά!