Ευφυής Προγραμματισμός

Σχετικά έγγραφα
Εισαγωγή στους Αλγορίθμους

Εισαγωγή στους Αλγορίθμους

Ευφυής Προγραμματισμός

Εισαγωγή στους Αλγορίθμους

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Διοικητική Λογιστική

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

Κβαντική Επεξεργασία Πληροφορίας

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

Βέλτιστος Έλεγχος Συστημάτων

Ενδεικτικές λύσεις ασκήσεων διαχείρισης έργου υπό συνθήκες αβεβαιότητας

Κβαντική Επεξεργασία Πληροφορίας

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Kruskal

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Prim

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Διοικητική Λογιστική

Εισαγωγή στους Υπολογιστές

Κβαντική Επεξεργασία Πληροφορίας

Μηχανολογικό Σχέδιο Ι

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Ευφυής Προγραμματισμός

Διδακτική των εικαστικών τεχνών Ενότητα 3

Εφαρμογές των Τεχνολογιών της Πληροφορίας και των Επικοινωνιών στη διδασκαλία και τη μάθηση

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Βάσεις Περιβαλλοντικών Δεδομένων

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Αερισμός. Ενότητα 1: Αερισμός και αιμάτωση. Κωνσταντίνος Σπυρόπουλος, Καθηγητής Σχολή Επιστημών Υγείας Τμήμα Ιατρικής

Ψηφιακή Επεξεργασία Εικόνων

Διδακτική των εικαστικών τεχνών Ενότητα 2

Διδακτική των εικαστικών τεχνών Ενότητα 2

Αριθμητική Ανάλυση. Ενότητα 1: Εισαγωγή Βασικές Έννοιες. Φραγκίσκος Κουτελιέρης Πολυτεχνική Σχολή Τμήμα Χημικών Μηχανικών

Διδακτική των εικαστικών τεχνών Ενότητα 2

Διδακτική των εικαστικών τεχνών Ενότητα 2

Διδακτική Πληροφορικής

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 10 η : Ανάλυση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 1: Εκτιμητές και Ιδιότητες. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Κβαντική Επεξεργασία Πληροφορίας

Δομές Δεδομένων Ενότητα 1

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Διδακτική των εικαστικών τεχνών Ενότητα 2

Φιλοσοφία της Ιστορίας και του Πολιτισμού

Διοίκηση Εξωτερικής Εμπορικής Δραστηριότητας

Διδακτική των εικαστικών τεχνών Ενότητα 1

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

Γενικά Μαθηματικά Ι. Ενότητα 12: Κριτήρια Σύγκλισης Σειρών. Λουκάς Βλάχος Τμήμα Φυσικής ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Ιστορία της μετάφρασης

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 4

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

Βέλτιστος Έλεγχος Συστημάτων

Δυναμική και Έλεγχος E-L Ηλεκτρομηχανικών Συστημάτων

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

Εισαγωγή στους Αλγορίθμους Ενότητα 11η Άσκηση - Σταθμισμένος Χρονοπρογραμματισμός Διαστημάτων

Προγραμματισμός Η/Υ. Βασικές Προγραμματιστικές Δομές. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Βάσεις Περιβαλλοντικών Δεδομένων

Διοίκηση Επιχειρήσεων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Γενική Φυσική Ενότητα: Εισαγωγή στην Ειδική Θεωρία της Σχετικότητας

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Ενδεικτικές λύσεις ασκήσεων διαγραμμάτων περίπτωσης χρήσης (1ο Μέρος)

Ψηφιακή Επεξεργασία Εικόνων

Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 4: ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ - ΔΕΝΤΡΑ

Διοικητική Λογιστική

Η ΓΝΩΣΗ ΚΑΙ ΤΟ ΠΡΑΓΜΑΤΙΚΟ ΣΤΟΝ ΠΛΑΤΩΝΑ ΚΑΙ ΤΟΝ ΑΡΙΣΤΟΤΕΛΗ

Εφαρμογές των Τεχνολογιών της Πληροφορίας και των Επικοινωνιών στη διδασκαλία και τη μάθηση

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

Χωρικές σχέσεις και Γεωμετρικές Έννοιες στην Προσχολική Εκπαίδευση

Εισαγωγή στους Υπολογιστές

Διοικητική Λογιστική

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Τεχνικό Σχέδιο - CAD

Δυναμική και Έλεγχος E-L Ηλεκτρομηχανικών Συστημάτων

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Διδακτική Πληροφορικής

Διδακτική των εικαστικών τεχνών Ενότητα 2

Τεχνικό Σχέδιο - CAD. Τόξο Κύκλου. Τόξο Κύκλου - Έλλειψη. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Βέλτιστος Έλεγχος Συστημάτων

Αρχιτεκτονική και Οπτική Επικοινωνία 1 - Αναπαραστάσεις

Διδακτική Πληροφορικής

Οικονομετρία Ι. Ενότητα 5: Ανάλυση της Διακύμανσης. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Τεχνικό Σχέδιο - CAD

Διαχείριση Πολιτισμικών Δεδομένων

Transcript:

Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής

Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων

Σύνολο Δεδομένων (1) Το σύνολο δεδομένων D αναφέρεται στο γνωστικό πεδίο του προβλήματος που θέλουμε να επιλύσουμε. Αποτελείται από ένα (μεγάλο) αριθμό στοιχείων: D = {t 1, t 2,., t n } που τα ονομάζουμε παραδείγματα. Κάθε παράδειγμα t i αποτελείται από p τιμές, που αντιστοιχούν σε p χαρακτηριστικά (ή παραμέτρους): t i = <t i1, t i2,, t ip > 3

Σύνολο Δεδομένων (2) Τα χαρακτηριστικά-παράμετροι σχετίζονται με την επίλυση του προβλήματος. Το τελευταίο χαρακτηριστικό συνήθως είναι το χαρακτηριστικό-στόχος. Τα χαρακτηριστικά παίρνουν τιμές διαφόρων τύπων: πραγματικές-ακέραιες, συνεχείς-διακριτές κλπ. Οι τιμές του χαρακτηριστικού-στόχου είναι συνήθως διακριτές, αποτελούν όλες τις δυνατές απαντήσεις στο πρόβλημα και συνιστούν κλάσεις. Επομένως, το σύνολο δεδομένων περιέχει αντιστοιχίες μεταξύ συνδυασμών τιμών των χαρακτηριστικών και των κλάσεων. 4

Παράδειγμα Χαρακτηριστικά Χαρακτηριστικό-Στόχος No Outlook Temp. Humid. Wind PlayTennis 1 2 3 4 5 6 7 8 9 10... Sunny Sunny Overcast Rain Rain Rain Overcast Sunny Sunny Rain... 30 ο C 29 ο C 27 ο C 20 ο C 13 ο C 15 ο C 12 ο C 18 ο C 10 ο C 22 ο C... High High High High Normal Normal Normal High Normal Normal... Weak Strong Weak Weak Weak Strong Strong Weak Weak Weak... No No Yes Yes Yes No Yes No Yes Yes... 5

Ποιο είναι το Ζητούμενο; Η δημιουργία ενός συστήματος βασισμένου σε κανόνες που θα επιλύει ένα πρόβλημα, που αναφέρεται σ ένα (σχετικά στενό) γνωστικό πεδίο (π.χ. το πρόβλημα της διάγνωσης ασθενειών των οστών). Οι κανόνες εξάγονται από ένα σύνολο πραγματικών δεδομένων σχετικών με το πρόβλημα. 6

Διαδικασία Δημιουργίας Βάσης Κανόνων Προεπεξεργασία συνόλου δεδομένων. Εφαρμογή μεθόδου εξαγωγής κανόνων. Έλεγχος ακρίβειας κανόνων και πιθανές διορθώσεις. 7

Προεπεξεργασία Συνόλου Δεδομένων Επιλογή Χαρακτηριστικών (Feature Selection) Διακριτοποίηση (Discretization) Διαχείριση Ελλιπών Τιμών (Missing Values Handling) 8

Επιλογή Χαρακτηριστικών Ο προσδιορισμός των πιο σημαντικών χαρακτηριστικών για την δημιουργία του συνόλου δεδομένων για την εξαγωγή ενός συνόλου κανόνων παίζει καθοριστικό ρόλο στην απόδοση του παραγόμενου μοντέλου ταξινόμησης, ιδιαίτερα σε προβλήματα με πολύ μεγάλο αριθμό χαρακτηριστικών. Η επιλογή χαρακτηριστικών αναφέρεται στον εντοπισμό και στην απομάκρυνση άσχετων (irrelevant) και πλεοναζόντων (redundant) χαρακτηριστικών σε σχέση με το χαρακτηριστικόστόχο. 9

Μέθοδοι Επιλογής Χαρακτηριστικών (Ενδεικτικά) Χρήση Μεθόδου ικανότητά τους να διαχωρίζουν τις κλάσεις του χαρακτηριστικού-στόχου. Η ικανότητα αυτή εκτιμάται με βάση κάποια μετρική όπως η συσχέτιση (correlation), η εντροπία (entropy) κ.ά. Υπολογιστικά αποδοτική. Χρήση Μεθόδου Περιτυλίγματος (Wrapper) Εκτιμάται η διαχωριστική ικανότητα υποσυνόλων χαρακτηριστικών με βάση κάποιο αλγόριθμο ταξινόμησης. Υπολογιστικά απαιτητική. 10

Διακριτοποίηση (1) Αρκετοί αλγόριθμοι εξαγωγής κανόνων απαιτούν τα χαρακτηριστικά να έχουν διακριτές τιμές. Το σύνολο δεδομένων όμως συνήθως περιέχει και χαρακτηριστικά με συνεχείς τιμές. Η διακριτοποίηση συνίσταται στη μετατροπή των τιμών ενός χαρακτηριστικού συνεχούς τιμής σε διακριτές τιμές. Κάποια ορολογία: Σημείο διάσπασης (split point): χωρίζει μια συνεχή περιοχή σε δύο (διακριτά) διαστήματα Τάξη διάσπασης (arity): ο αριθμός των ζητούμενων διακριτών τιμών-περιοχών ενός συνεχούς χαρακτηριστικού 11

Διακριτοποίηση (2) Μεγαλύτερη τάξη διάσπασης σημαίνει μεγαλύτερη ακρίβεια αναπαράστασης. Υπάρχει μια διελκυστίνδα μεταξύ τάξης διάσπασης (έστω k) και πολυπλοκότητας αναπαράστασης: όσο μεγαλύτερο το k τόσο μεγαλύτερη η ακρίβεια αναπαράστασης, τόσο μεγαλύτερη η πολυπλοκότητα αναπαράστασης, δηλ. τόσο μικρότερη η κατανοησιμότητά της και αντίστροφα. 12

Γενική Διαδικασία Διακριτοποίησης 1. Διάταξη των τιμών του προς διακριτοποίηση συνεχούς χαρακτηριστικού 2. Αξιολόγηση υποψήφιου σημείου διάσπασης ή γειτονικών περιοχών για συγχώνευση. 3. Διάσπαση περιοχής ή συγχώνευση περιοχών συνεχών τιμών με βάση κάποιο κριτήριο. 4. Τερματισμός με βάση το κριτήριο τερματισμού, αλλιώς πήγαινε στο 2. (Παραλλαγή από Kotsiantis and Kanellopoulos, 2006) 13

Μέθοδοι Διακριτοποίησης (1) Δύο βασικοί μέθοδοι προσδιορισμού των (υποψήφιων) σημείων διακριτοποίησης είναι: top-down: ξεκινά με ένα κενό σύνολο σημείων και διασπά διαστήματα. bottom-up: ξεκινά με ένα σύνολο που έχει σαν σημεία όλες τις τιμές και συγχωνεύει διαστήματα. Στην προσπάθεια διακριτοποίησης απαιτείται ένας συμβιβασμός μεταξύ ποιότητας της πληροφορίας (ομοιογενή διαστήματα σε σχέση με το χαρακτηριστικόστόχο) και στατιστικής ποιότητας (ικανό μέγεθος δείγματος παραδειγμάτων σε κάθε διάστημα για εξασφάλιση γενίκευσης). 14

Μέθοδοι Διακριτοποίησης (2) Δύο βασικά κριτήρια διάσπασης ή συγχώνευσης διαστημάτων είναι: Στατιστική ομοιότητα: Π.χ. ένα διάστημα διασπάται αν ένα σημείο το χωρίζει σε δύο υποδιαστήματα που στατιστικά διαφέρουν σημαντικά ως προς την σχέση των τιμών με τις κλάσεις (υπάρχουν διάφορα κριτήρια-π.χ. χ 2 ). Αντίστοιχα, δύο διαστήματα συγχωνεύονται αν είναι στατιστικά όμοια. Ομοιογένεια πληροφορίας: Η εντροπία της πληροφορίας κλάσης των διαστημάτων χρησιμοποιείται ως κριτήριο για τη συγχώνευσή τους ή τη διάσπασή τους 15

Μη Επιβλεπόμενοι Μέθοδοι Διακριτοποίηση ίσου εύρους Διακριτοποίησης 1. Προσδιορισμός ελάχιστης και μέγιστης τιμής του χαρακτηριστικού 2. Διαχωρισμός του προκύπτοντος διαστήματος σε τόσα ίσα υποδιαστήματα όσα ορίζονται από τον χρήστη Διακριτοποίηση ίσης συχνότητας 1. Προσδιορισμός ελάχιστης και μέγιστης τιμής του χαρακτηριστικού 2. Ταξινόμηση των τιμών του χαρακτηριστικού κατά αύξουσα σειρά 3. Διαίρεση του προκύπτοντος διαστήματος σε τόσα διαστήματα όσα ορίζονται από τον χρήστη, ώστε κάθε διάστημα να περιέχει τον ίδιο αριθμό διατεταγμένων τιμών (πιθανόν και διπλότυπων) 16

Διαχείριση Ελλιπών Τιμών Μπορεί να λείπουν τιμές σε ορισμένα παραδείγματα για κάποιο ή κάποια χαρακτηριστικά. Συνήθως εκτιμούμε τις τιμές που λείπουν με βάση τις υπάρχουσες σε άλλα παραδείγματα. Στρατηγικές Διαγραφή των παραδειγμάτων με ελλιπείς τιμές. Δίνουμε την τιμή που είναι πιο κοινή σε όλα τα παραδείγματα του συνόλου. Δίνουμε την τιμή που είναι πιο κοινή στα παραδείγματα που έχουν τιμή χαρακτηριστικού-στόχου ίδια με το υπό εξέταση παράδειγμα. Δίνουμε τη μέση τιμή των τιμών στα υπόλοιπα παραδείγματα του συνόλου. Χρήση regression analysis για πρόβλεψη των ελλιπών τιμών. 17

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 18

Σημείωμα Ιστορικού Εκδόσεων Έργου Το παρόν έργο αποτελεί την έκδοση 1.0. 19

Σημείωμα Αναφοράς Copyright Πανεπιστήμιο Πατρών, Ιωάννης Χατζηλυγερούδης 2015. «Ευφυής Προγραμματισμός». Έκδοση: 1.0. Πάτρα 2015. Διαθέσιμο από τη δικτυακή διεύθυνση: https://eclass.upatras.gr/courses/ceid1095/ 20

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by-nc-sa/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. 21

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους. 22