Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σχετικά έγγραφα
Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μέρος IV. Πολυδιάστατες τυχαίες μεταβλητές. Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ15 ( 1 )

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Στατιστική Συμπερασματολογία

Στατιστική. Εκτιμητική

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Εφαρμοσμένα Μαθηματικά ΙΙ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ» ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΠΑΝΑΛΗΠΤΙΚΗ ΤΕΛΙΚΗ ΕΞΕΤΑΣΗ 5 Ιουλίου 2009

Αναγνώριση Προτύπων Ι

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ορίζουμε την τυπική πολυδιάστατη κανονική, σαν την κατανομή του τυχαίου (,, T ( ) μεταξύ τους ανεξάρτητα. Τότε

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Κεφάλαιο 5 ΔΙΔΙΑΣΤΑΤΑ ΓΡΑΜΜΙΚΑ ΣΥΣΤΗΜΑΤΑ. Ενα αυτόνομο δυναμικό σύστημα δύο διαστάσεων περιγράφεται από τις εξισώσεις

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Εφαρμοσμένα Μαθηματικά ΙΙ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Βασικά μαθηματικά εργαλεία

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 3, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 1

Μέρος ΙΙ. Τυχαίες Μεταβλητές

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

HY213. ΑΡΙΘΜΗΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΑΧΙΣΤΑ ΤΕΤΡΑΓΩΝΑ AΝΑΛΥΣΗ ΙΔΙΑΖΟΥΣΩΝ ΤΙΜΩΝ

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

3. Κατανομές πιθανότητας

Απλή Γραμμική Παλινδρόμηση II

Κεφάλαιο 2: Θεωρία Απόφασης του Bayes 2.1 Εισαγωγή

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Αναγνώριση Προτύπων Ι

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

HMY 795: Αναγνώριση Προτύπων

Εισαγωγικές έννοιες. Κατηγορίες προβλημάτων (σε μια διάσταση) Προβλήματα εύρεσης μεγίστου. Συμβολισμοί

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Λήψη αποφάσεων κατά Bayes

HMY 795: Αναγνώριση Προτύπων

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

Μέρος 1ο. Περιγραφική Στατιστική (Descriptive Statistics)

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ταξινόμηση. Τηλεπισκόπηση Η ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Ταξινομητέ ς. Επιβλεπόμενοι Μη επιβλεπόμενοι

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Εφαρμοσμένη Στατιστική

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Πρόγραμμα Διδακτορικών Σπουδών ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

Θεματολογία. Δεδομένα και αβεβαιότητα. Αντικείμενο της Στατιστικής. Βασικές έννοιες. Δεδομένα και αβεβαιότητα. Στατιστική Ι

Επισκόπηση ύλης Πιθανοτήτων: Μέρος ΙΙ. M. Kούτρας

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Ορίζουμε την τυπική πολυδιάστατη κανονική, σαν την κατανομή του τυχαίου (,, T ( ) μεταξύ τους ανεξάρτητα. Τότε

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ στη Ναυτιλία και τις Μεταφορές

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Θεωρητικές Κατανομές Πιθανότητας

Στατιστική Συμπερασματολογία

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ -ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ. Λύσεις των Θεμάτων της Εξέτασης Σεπτεμβρίου 2010 στο μάθημα: «Γραμμική Άλγεβρα» (ΗΥ119)

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ιατρικά απεικονιστικά συστήματα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Τυχαία μεταβλητή (τ.μ.)

Ιδιάζουσες τιμές πίνακα. y έχουμε αντίστοιχα τις σχέσεις : Αυτές οι παρατηρήσεις συμβάλλουν στην παραγοντοποίηση ενός πίνακα

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ -ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ. Λύσεις των Θεμάτων της Εξέτασης Ιανουαρίου 2010 στο μάθημα: «Γραμμική Άλγεβρα» (ΗΥ119)

Πιθανότητες & Στατιστική (ΜΥΥ 304)

ΚΕΦ.6:ΤΕΤΡΑΓΩΝΙΚΕΣ ΜΟΡΦΕΣ. ΣΥΜΜΕΤΡΙΚΟΙ ΠΙΝΑΚΕΣ

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Πιθανότητες. Συναρτήσεις πολλών μεταβλητών Διδάσκων: Επίκουρος Καθηγητής Κωνσταντίνος Μπλέκας

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Κεφάλαιο 1. Εισαγωγή: Βασικά Στοιχεία Θεωρίας Πιθανοτήτων και Εκτιμητικής

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

1 Επανάληψη εννοιών από τον Απειροστικό Λογισμό

Παραδείγματα Ιδιοτιμές Ιδιοδιανύσματα

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Αν Α και Β είναι δύο ενδεχόμενα ενός δειγματικού χώρου να αποδείξετε ότι: Αν Α Β τότε Ρ(Α) Ρ(Β)

ΕΞΕΤΑΣΕΙΣ στο τέλος του εξαμήνου με ΑΝΟΙΧΤΑ βιβλία ΕΞΕΤΑΣΕΙΣ ο καθένας θα πρέπει να έχει το ΔΙΚΟ του βιβλίο ΔΕΝ θα μπορείτε να ανταλλάσετε βιβλία ή να

Transcript:

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1

ΔΕΔΟΜΕΝΑ Δεδομένα μπορούν να αποκτηθούν στα πλαίσια διαφόρων εφαρμογών, χρησιμοποιώντας, όπου είναι απαραίτητο, κατάλληλο εξοπλισμό. Μερικά παραδείγματα είναι: (A) Εικόνες (εικόνες κλίμακας του γκρι (grayscale), πολυφασματικές (multispectral), υπερφασματικές (hyperspectral)) που λαμβάνονται από κατάλληλα συστήματα απεικόνισης (imagers).

(B) Ανθρώπινα γαστρικά κύτταρα. ΔΕΔΟΜΕΝΑ

ΔΕΔΟΜΕΝΑ (C) Χρονοσειρές (Time series). 30 25 20 15 10 5 0-5 0 2000 4000 6000 8000 10000 12000

(D) Κείμενο ΔΕΔΟΜΕΝΑ

ΔΕΔΟΜΕΝΑ (E) Ζεύγη τιμών σχετιζόμενων ποσοστήτων (κάθε σημείο αντιστοιχεί σ ένα ζεύγος)

ΕΞΑΓΩΓΗ ΓΝΩΣΗΣ (KNOWLEDGE EXTRACTION) Στόχος επεξεργασίας δεδομένων: Εξαγωγή γνώσης (knowledge extraction) από τα δεδομένα. ΣΗΜ: Στη συνέχεια θεωρούμε μόνο αριθμητικά δεδομένα (numerical data). Στο τρέχον πλαίσιο ο όρος «γνώση» ( knowledge ) είναι η απάντηση σε τουλάχιστον ένα από τα ακόλουθα ερωτήματα: - (a) Ποιο είναι το μοντέλο που γεννά τα δεδομένα; - (b) Πώς μπορούμε να χρησιμοποιήσουμε τα γνωστά δεδομένα προκειμένου να κάνουμε εκτιμήσεις (estimations) για άγνωστα δεδομένα; - (c) Ποιο είναι το γενικό μοτίβο εξάπλωσης (spread pattern) των δεδομένων στο χώρο;

ΤΑ ΠΡΟΒΛΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ Παλινδρόμηση (Regression): Ένα σύνολο ανεξάρτητων μεταβλητών x σχετίζονται με ένα σύνολο εξαρτημένων μεταβλητών y μέσω μιας συνάρτησης της μορφής y=f(x)+e, όπου e είναι η αβεβαιότητα. Στόχος: Δοθείσης μιας τιμής για το x εκτίμησε την αντίστοιχη τιμή για το y. Ταξινόμηση (Classification): Ένας αριθμός κατηγοριών (κλάσεων) ω 1, ω M στις οποίες θα πρέπει να ταξινομηθούν τα στοιχεία ενός συνόλου οντοτήτων. Στόχος: Δοθείσης μιας οντότητας καταχώρησέ την στην πιο κατάλληλη κατηγορία. Ομαδοποίηση (Clustering): Διατίθεται ένα σύνολο οντοτήτων. Στόχος: Ομαδοποίησε (a) όμοιες οντότητες στην ίδια ομάδα και (b) λιγότερο όμοιες ποσότητες σε διαφορετικές ομάδες. Στη συνέχεια ασχολούμαστε μόνο με ταξινόμηση και ομαδοποίηση.

ΕΞΑΓΩΓΗ ΓΝΩΣΗΣ (a) Ποιο είναι το μοντέλο που γεννά τα δεδομένα; (παλινδρόμηση) Η γραμμή y=ax+b Αναπαριστά τη γνώση που συσχετίζει τις δύο ποσότητες

ΕΞΑΓΩΓΗ ΓΝΩΣΗΣ (a) Ποιο είναι το μοντέλο που γεννά τα δεδομένα; (ταξινόμηση) Τα σημεία m 1, m 2 Αναπαριστούν τη γνώση (σημεία γύρω από τα οποία συγκεντρώνονται τα σημεία των δύο κλάσεων) m 1 m 2 1 2 1 2

ΕΞΑΓΩΓΗ ΓΝΩΣΗΣ (b) Πώς μπορούμε να χρησιμοποιήσουμε τα γνωστά δεδομένα προκειμένου να κάνουμε εκτιμήσεις (estimations) για άγνωστα δεδομένα; (παλινδρόμηση) Παραμετρική εκτίμηση Μοντέλο: γραμμή y=ax+b Παράμετροι μοντέλου: a, b

ΕΞΑΓΩΓΗ ΓΝΩΣΗΣ (b) Πώς μπορούμε να χρησιμοποιήσουμε τα γνωστά δεδομένα προκειμένου να κάνουμε εκτιμήσεις (estimations) για άγνωστα δεδομένα; Μη παραμετρική ταξινόμηση

ΕΞΑΓΩΓΗ ΓΝΩΣΗΣ (b) Πώς μπορούμε να χρησιμοποιήσουμε τα γνωστά δεδομένα προκειμένου να κάνουμε εκτιμήσεις (estimations) για άγνωστα δεδομένα; (ταξινόμηση) Παραμετρική εκτίμηση Παράμετροι: m 1, m 2

ΕΞΑΓΩΓΗ ΓΝΩΣΗΣ (b) Πώς μπορούμε να χρησιμοποιήσουμε τα γνωστά δεδομένα προκειμένου να κάνουμε εκτιμήσεις (estimations) για άγνωστα δεδομένα; (ταξινόμηση) Μη παραμετρική εκτίμηση

ΕΞΑΓΩΓΗ ΓΝΩΣΗΣ (c) Ποιο είναι το γενικό μοτίβο εξάπλωσης (spread pattern) των δεδομένων στο χώρο; (ταξινόμηση) Η κατηγορία 1 συγκεντρώνεται γύρω από τα m 1 και m 2 Η κατηγορία 2 συγκεντρώνεται γύρω από τα m 3 και m 4

ΕΞΑΓΩΓΗ ΓΝΩΣΗΣ (c) Ποιο είναι το γενικό μοτίβο εξάπλωσης (spread pattern) των δεδομένων στο χώρο; (ομαδοποίηση)

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ (PATTERN RECOGNITION) Τυπικές περιοχές εφαρμογής Μηχανική όραση (Machine vision) Αναγνώριση χαρακτήρων (Character recognition (OCR)) Ιατρική διάγνωση υποβοηθούμενη από Η/Υ( Computer aided medical diagnosis) Αναγνώριση ομιλίας (Speech recognition) Αναγνώριση προσώπου (Face recognition) Βιομετρία (Biometrics) Ανάσυρση εικόνων από Βάσεις Δεδομένων (Image Data Base retrieval) Εξόρυξη δεδομένων (Data mining) Βιοπληροφορική (Bionformatics) Το πρόβλημα: Καταχώρηση άγνωστων αντικειμένων προτύπων στη σωστή κατηγορία (κλάση). Το πρόβλημα είναι γνωστό ως ταξινόμηση (classification). 17

Αναγνώριση προτύπων με επίβλεψη (supervised) χωρίς επίβλεψη (unsupervised): Με επίβλεψη: Γνωστός αριθμός κλάσεων (κατηγοριών) Διαθέσιμα αντικείμενα για τα οποία είναι γνωστή η κλάση στην οποία ανήκουν. Χωρίς επίβλεψη: Άγνωστος αριθμός κλάσεων (γενικά). Διαθέσιμα αντικείμενα για τα οποία δεν είναι γνωστή οποιαδήποτε πληροφορία σχετική με κλάση. 18

Παραδείγματα: Εφαρμογή στην κυτταρολογία. Αντικείμενα: πυρήνες κυττάρων Κατηγορίες: καλοήθη, κακοήθη Εφαρμογή σε αλυσίδα παραγωγής στη βιομηχανία. Αντικείμενα: Π.χ. βίδες Κατηγορίες: Ελαττωματική, μη ελαττωματική Εφαρμογή στην αναγνώριση χαρακτήρων κειμένου Αντικείμενα: Αλφαριθμητικοί χαρακτήρες, σημεία στίξης Κατηγορίες: 26 κατηγορίες πεζών+26 κατ. κεφαλαίων+10 κατ. ψηφίων +κατηγορίες σημείων στίξης.

Εφαρμογή σε ταξινόμηση υπερφασματικών εικόνων Αντικείμενα: εικονοστοιχεία Κατηγορίες: τύποι εδάφους (π.χ., γυμνό έδαφο, νερό, βλάστηση κλπ.).

Χαρακτηριστικά (Features): Πρόκειται για μετρήσιμες ποσότητες που λαμβάνονται από τα προς ταξινόμηση αντικείμενα. Η διαδικασία της ταξινόμησης βασίζεται στις αντίστοιχες τιμές τους. Διανύσματα χαρακτηριστικών (Feature vectors): Ένας αριθμός χαρακτηριστικών x,..., x 1 l συνιστούν το διάνυσμα χαρακτηριστικών x Τα διανύσματα χαρακτηριστικών θεωρούνται ως τυχαίες μεταβλητές (random vectors)., [ ] T l x x l R =,..., 1 21

Παραδείγματα: Σύνολο αθλητών: Χαρακτηριστικά βάρος, ύψος, χρώμα ματιών Σύνολο εικονοστοιχείων σε υπερφασματικές εικόνες: Χαρακτηριστικά φασματικές μετρήσεις

Αναπαράσταση αντικειμένων σε σύστημα αναγνώρισης προτύπων: Αντικείμενο === Διάνυσμα χαρακτηριστικών μετρήσεων (feature vector) Αντικείμενο = Σημείο στο χώρο Τυπική δομή ενός συστήματος ταξινόμησης προτύπων αντικείμενο Αισθητήρας Γέννηση/Επιλογ. χαρακτηριστικών Ταξινομητής Αξιολόγηση συστήματος Πώς δουλεύει χαρακτ. 1 χαρακτ. 1 αντικείμενο χαρακτ. 2 χαρακτ. 2...... χαρακτ. q χαρακτ. l Διάνυσμα χαρακτηριστικών

Ο ταξινομητής (classifier) αποτελείται από ένα σύνολο συναρτήσεων, των οποίων οι τιμές, υπολογισμένες στο, καθορίζουν την κλάση στην οποία το αντίστοιχο πρότυπο θα καταχωρηθεί. x 24

Παράδειγμα: Να σχεδιασθεί ταξινομητής που να αναγνωρίζει αν ένα αντικείμενο είναι ντομάτα ή αγγούρι. Αντικείμενα: ντομάτες, αγγούρια Κλάσεις: «ντομάτα», «αγγούρι» Σχεδιασμός: Αισθητήρας: Π.χ. μια φωτογραφική μηχανή. Κάθε αντικείμενο ταυτοποιείται από τη RGB φωτογραφία του. Γέννηση χαρακτηριστικών: Π.χ. (α) χρώμα (η τιμή στο R (red) κανάλι) και (β) σχήμα (λ= λόγος κύριου προς δευτερεύοντα άξονα της έλλειψης που προσεγγίζει το σχήμα του αντικειμένου στη φωτογραφία κυκλικό (λ 1), ελλειψοειδές (λ>>1)). (Αντιπροσώπευση του αρχικού αντικειμένου διάνυσμα δύο αριθμών [R, λ]) Ταξινόμηση: Ταξινόμηση αντικειμένου βάσει του αντίστοιχου διανύσματος [R, λ], με βάση τον κανόνα: Αν R>> ΚΑΙ λ 1 τότε «ντομάτα», διαφορετικά «αγγούρι». 25

Σημαντικές παρατηρήσεις: Στην πράξη, είναι απαραίτητη η ύπαρξη ενός αντιπροσωπευτικού δείγματος προτύπων από κάθε κατηγορία (συνήθως, όσο περισσότερα είναι διαθέσιμα, τόσο καλύτερη εικόνα έχουμε για τη στατιστική των κλάσεων). Στη συνέχεια ακολουθεί μελέτη των προτύπων ώστε να προσδιορίσουμε τα χαρακτηριστικά που διαφοροποιούν πιο πολύ τα πρότυπα των δύο κλάσεων. 26

Προβλήματα: (Α) Ποια χαρακτηριστικά θα επιλέξω; (Β) Πώς ο ταξινομητής διαχωρίζει τις κλάσεις; Παράδειγμα: Να δημιουργηθεί ένα σύστημα ταξινόμησης προτύπων που θα διαχωρίζει καλαθοσφαιριστές (Β) από χορευτές (D). Αντικείμενα: Αθλητές (καλαθοσφαιριστές, χορευτές) Κατηγορίες: Καλαθοσφαιριστές (Β), χορευτές (D). Σύστημα ταξινόμησης προτύπων?

(Α) Χαρακτηριστικά ύψος, βάρος. Περιμένουμε ότι D B Βάρος μικρό μεγάλο Ύψος μικρό μεγάλο Πώς καθορίζεται ποσοτικά όμως το «μεγάλο» και το «μικρό»; Βάσει ενός αντιπροσωπευτικού δείγματος που περιλαμβάνει αντικείμενα από τις δύο κλάσεις Όσο πιο πλούσιο είναι το δείγμα, τόσο πιο ακριβές είναι το νόημα που αποκτούν οι παραπάνω χαρακτηρισμοί.

(Β) Ταξινομητής Σύνολο συναρτήσεων/κανόνων βάσει των οποίων γίνεται η ταξινόμηση. D B ύψος + - x (ε) Παράδειγμα 1: βάρος Δοθέντος ενός χαρακτηριστικού διανύσματος, ο ταξινομητής εξετάζει αν αυτό βρίσκεται (α) στην αρνητική πλευρά της (ε), οπότε το κατατάσσει στην κατηγορία D (β) στη θετική πλευρά της (ε), οπότε το κατατάσσει στην κατηγορία Β

ύψος x βάρος Παράδειγμα 2: Δοθέντος ενός χαρακτηριστικού διανύσματος, ο ταξινομητής προσδιορίζει το πλησιέστερο μέσο διάνυσμα και ταξινομεί το διάνυσμα στην αντίστοιχη κατηγορία.

Χαρακτηριστικά (ξανά) απόχρωση μαλλιών, απόχρωση ματιών Απόχρωση μαλλιών D B Απόχρωση ματιών

Χαρακτηριστικά (ξανά) απόχρωση μαλλιών, ύψος Απόχρωση μαλλιών D B ύψος Χαρακτηριστικά (ξανά) ύψος

Η επιλογή χαρακτηριστικών είναι ζωτικής σημασίας για την απόδοση του συστήματος. Γενικά είναι επιθυμητή η χρήση χαρακτηριστικών που διαχωρίζουν καλά τις κατηγορίες. Αυτό (συνήθως) σημαίνει Οι μέσες τιμές του χαρακτηριστικού να διαφέρουν σημαντικά μεταξύ τους από κατηγορία σε κατηγορία. Οι διασπορές γύρω από τις παραπάνω μέσες τιμές να είναι μικρές. Ερώτηση: Αφού με τα παραπάνω μπορούμε να δημιουργήσουμε ένα σύστημα ταξινόμησης χρειάζεται περαιτέρω ανάπτυξη θεωριών; Αν ναι γιατί; Απάντηση: Πρόβλημα διάστασης Πολυπλοκότητα προβλήματος

Μερικά προκαταρτικά Έστω, Μ ενδεχόμενα έτσι ώστε Η πιθανότητα για ένα αυθαίρετο ενδεχόμενο είναι Όπου η υπό συνθήκη πιθανότητα του δοθέντος του : Και η από κοινού πιθανότητα των και Θεώρημα συνολικής πιθανότητας Ακόμη είναι: 34

Μερικά προκαταρτικά (συν.) Τυχαία μεταβλητή (random variable) x ονομάζεται μια μεταβλητή που η τιμή της είναι το αποτέλεσμα ενός στατιστικού πειράματος. Με άλλα λόγια, η x μοντελοποιεί το αποτέλεσμα ενός στατιστικού πειράματος. Τυχαίο διανυσμα (random vector) x είναι ένα διάνυσμα τυχ. μεταβλητών. Ένα συνεχές (continuous) τυχαίο διάνυσμα x παίρνει τιμές σε ένα υποσύνολο S του R l. Η συνάρτηση πυκνότητας πιθανότητας (probability density function - pdf) του τυχαίου διανύσματος x, p(x), είναι μια μη αρνητική συνάρτηση πάνω στο S, με το ολοκλήρωμά της πάνω στο S ναι είναι μονάδα. Η p(x) παρουσιάζει ``μεγάλες τιμές σε περιοχές του S που αντιστοιχούν στα πιο πιθανά ενδεχόμενα για το υπό μελέτη πείραμα. Στο πλαίσιο της ταξινόμησης: Ένα τυχαίο διάνυσμα x μοντελοποιεί την κατανομή των διανυσμάτων αντιπροσώπευσης των αντικειμένων στο 35 χώρο.

Μερικά προκαταρτικά (συν.) Παραδείγματα συναρτήσεων πυκνότητας πιθανότητας (pdf) Μονοδιάστατες pdf Δισδιάστατες pdf 36

Μερικά προκαταρτικά (συν.) Για τυχαίες μεταβλητές ή διανύσματα τυχαίων μεταβλητών που περιγράφονται από συναρτήσεις πυκνότητας πιθανότητας είναι A posteriori (εκ των υστέρων) πιθανότητα 37

Μερικά προκαταρτικά (συν.) Αν τότε Αν ο Α είναι συμμετρικός τότε Αν ο Α είναι διαγώνιος τότε 38

Μερικά προκαταρτικά (συν.) Αν Ο Α είναι οριστικά θετικός (μη αρνητικός) ανν O αντίστροφος του Α (αν υπάρχει) συμβολίζεται με A -1 και είναι A A -1 = A -1 A = I Αν ο A είναι οριστικά θετικός τότε είναι αντιστρέψιμος. Αν ο A είναι διαγώνιος με α ii 0, υπάρχει ο αντίστροφός του, ο οποίος είναι επίσης διαγώνιος με το (i,i) στοιχείο του να ισούται με 1/a ii. 39

Μερικά προκαταρτικά (συν.) Αν Το ίχνος (trace) του Α είναι Είναι, και 40

Μερικά προκαταρτικά (συν.) Έστω Α ένας lxl πίνακας. Οι l αριθμοί λ και τα αντίστοιχα διανύσματα x που ικανοποιούν την εξίσωση Αx=λx ονομάζονται αντίστοιχα ιδιοτιμές και ιδιοδιανύσματα του πίνακα Α. -> Ο Α είναι οριστικά θετικός, τότε και μόνον τότε όταν έχει θετικές ιδιοτιμές. -> Αν ο Α είναι συμμετρικός τότε τα ιδιοδιανύσματά του είναι ορθογώνια (κάθετα) μεταξύ τους. 41

Μερικά προκαταρτικά (συν.) Μονοδιάστατη Gaussian/κανονική κατανομή Πολυδιάστατη Gaussian/κανονική κατανομή όπου Σ, Σ -1 είναι θετικά (ήμι) ορισμένοι. 42

Μερικά προκαταρτικά (συν.) -> Το ιδιοδιάνυσμα που αντιστοιχεί στη μεγαλύτερη ιδιοτιμή του πίνακα συνδιασποράς, ορίζει την κατεύθυνση κατά την οποία το σύνολο δεδομένων παρουσιάζει τη μέγιστη διασπορά, το ιδιοδιάνυσμα που αντιστοιχεί στην αμέσως επόμενη ιδιοτιμή είναι κάθετο στην πρώτη και αντιστοιχεί στη διεύθυνση κατά την οποία το σύνολο δεδομένων παρουσιάζει την αμέσως επόμενη μέγιστη διασπορά κλπ. 43

Σ: διαγώνιος με ίσα διαγώνια στοιχεία Σ: διαγώνιος με σ 12 >>σ 2 2 44

Σ: διαγώνιος με σ 12 <<σ 2 2 Σ: μη διαγώνιος 45

Σ= σ 1 2 σ 12 σ 12 σ 2 2 (α) σ 1 2 =σ 2 2 =1, σ 12 =0 (β) σ 1 2 =σ 2 2 =0.2, σ 12 =0 (γ) σ 1 2 =σ 2 2 =2, σ 12 =0 (δ) σ 1 2 =0.2, σ 2 2 =2, σ 12 =0 (ε) σ 1 2 =2, σ 2 2 =0.2, σ 12 =0 (στ) σ 1 2 =σ 2 2 =1, σ 12 =0.5 (ζ) σ 1 2 =0.3, σ 2 2 =2, σ 12 =0.5 (η) σ 1 2 =0.3, σ 2 2 =2, σ 12 =-0.5 46

Μερικά προκαταρτικά (συν.) Αν τα είναι ανά δύο στατιστικά ανεξάρτητες τυχ. μεταβλητές, τότε ο πίνακας Σ είναι διαγώνιος Στην περίπτωση της πολυδιάστατης κανονικής κατανομής ισχύει: Σ διαγώνιος οι συνιστώσες του x είναι στατιστικά ανεξάρτητες 47

Μερικά προκαταρτικά (συν.) Έστω x = [ x 1, K, ] x l T b = [ b 1, K, ] b l T A = a11 a21 M al1 a a a 12 22 M l 2 K L O L a1 l a 2l M all συμμετρικός, c βαθμωτό μέγεθος T T Η εξίσωση x Ax + b x + c = 0 Παριστάνει μια υπερεπιφάνεια (hypersurface) στο χώρο R l (υπερ-έλλειψη, υπερ-υπερβολή, υπέρ-παραβολή, ζεύγος υπερεπιπέδων). -> Αν A είναι οριστικά θετικός, η υπερεπιφάνεια είναι υπερέλλειψη. -> Αν A=O, η υπερεπιφάνεια είναι υπερεπίπεδο. 48

Μερικά προκαταρτικά (συν.) 49

Μερικά προκαταρτικά (συν.) Ισχύουν τα παρακάτω: x x x ( T ) T c x = c ( T ) T T x Ax = x ( A + A) ( T ) T x Ax = 2x A, αν A είναι συµµετρικός 50