ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ &ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ (ΕΠΥ) Προηγμένες Μέθοδοι Ταξινόμησης για την Πρόβλεψη και την Ανίχνευση Μοτίβων σε Δεδομένα Ωοπαραγωγής ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ του Δημήτριου B. Κωτσόπουλου Α.Ε.Μ: 5973 Επιβλέπων Καθ. Περικλής Α. Μήτκας ΘΕΣΣΑΛΟΝΙΚΗ, ΑΠΡΙΛΙΟΣ

2

3 Διπλωματική Εργασία Προηγμένες μέθοδοι ταξινόμησης για την πρόβλεψη και την ανίχνευση μοτίβων σε δεδομένα ωοπαραγωγής Περίληψη Η συνεχής παρακολούθηση της ωοπαραγωγής σε μεγάλες πτηνοτροφικές μονάδες είναι πολύ σημαντική, τόσο από πλευράς διαχείρισης, όσο και από πλευράς γενετικής βελτίωσης. Έτσι, πολλές αναπαραγωγικές μονάδες, μέσα από τα αντίστοιχα τμήματα ερευνών τους, προσπαθούν να συγκεντρώσουν τα κατάλληλα δεδομένα και να εξάγουν από αυτά χρήσιμες πληροφορίες, ώστε να βελτιστοποιήσουν την αποτελεσματικότητα των αντίστοιχων διαδικασιών. Πληροφορίες όπως η μερική ωοπαραγωγή, η ημερομηνία γέννησης, η διάρκεια ζωής ή η διαφορά μεταξύ των ημερών γέννησης και μη-γέννησης αυγών μπορούν να χρησιμοποιηθούν για την ακριβέστερη πρόβλεψη της συνολικής παραγωγής μιας όρνιθας. Αντλώντας τέτοιου είδους γνώση μπορούμε να κάνουμε ρυθμίσεις στη διατροφή, στην αντιμετώπιση των ορνίθων χαμηλής ή υψηλής παραγωγικότητας και στη διαχείριση της μονάδας γενικότερα, οι οποίες, φυσικά, έχουν σημαντικές επιπτώσεις στα οικονομικά της επιχείρησης. Από την πλευρά της επιστήμης της γενετικής, αν η απόδοση μιας όρνιθας μπορεί να προβλεφθεί με ακρίβεια, μπορούμε να χρησιμοποιήσουμε την πληροφορία αυτή για την επιλογή κατάλληλων απογόνων, δηλαδή απογόνων με μεγάλη πιθανότητα υψηλής ωοπαραγωγής. Με άλλα λόγια, η ακριβής εκτίμηση παραμέτρων ενδιαφέροντος μπορεί να βοηθήσει στην ενίσχυση και βελτίωση του γενετικού υλικού των ορνίθων σε μια αναπαραγωγική μονάδα και έχει ως επακόλουθο την παραγωγική και οικονομική ενίσχυση των πτηνοτροφικών μονάδων πάχυνσης που συνεργάζονται με τις αντίστοιχες αναπαραγωγικές μονάδες. Για την εξεύρεση και εκτίμηση χρήσιμων πληροφοριών είναι απαραίτητο, όμως, να εντοπιστούν και να χρησιμοποιηθούν τα κατάλληλα εργαλεία. Οι αλγόριθμοι μηχανικής μάθησης γενικότερα, και κατηγοριοποίησης πιο συγκεκριμένα, είναι ιδιαίτερα κατάλληλοι στην περίπτωση αυτή, αφού επιτρέπουν την εξόρυξη και παραγωγή γνώσης από μεγάλους όγκους δεδομένων. Στην παρούσα διπλωματική εργασία χρησιμοποιούνται οι μέθοδοι αυτές για την αναζήτηση εκμεταλλεύσιμων μοτίβων και πληροφοριών στην ωοπαραγωγή ορνίθων, με απώτερο στόχο την ακριβή πρόβλεψή της. Η προσπάθεια αυτή περιλαμβάνει τη συνολική αντιμετώπιση του προβλήματος, από την προεπεξεργασία των δεδομένων μέχρι την ανάπτυξη μοντέλων πρόβλεψης, και καταλήγει σε αποτελεσματικά μοντέλα πρόβλεψης της ωοπαραγωγής ορνίθων με χρήση αλγορίθμων κατηγοριοποίησης. Οι 3

4 μέθοδοι εφαρμόστηκαν σε σύνολα δεδομένων ωοπαραγωγής που έθεσε στην διάθεσή μας η εταιρεία Aviagen. Κωτσόπουλος Δημήτριος Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Απρίλιος

5 Diploma thesis Advanced classification methods for pattern detection and prediction in egg production data Abstract Continuous monitoring of laying hens in large poultry farms is very important, both in terms of management and genetic improvement of the population. Thus, many breeding poultry units, through their research departments, gather egg-laying and other suitable data and process them to extract useful information and optimize the efficiency of the respective processes. Information such as the partial egg production of hens, their date of birth, length of life, or the difference between their days of production and unproductive days can be used for the accurate prediction of a hen s total production. Based on this kind of extracted knowledge, we can adjust the diet and treatment of low- or high-producing hens, as well as improve the farm s management and, thus its productivity, in general. From a genetic science point of view, the accurate prediction of a hen s performance can be used for the selection of fit offspring, i.e., offspring that have a high probability of large egg production. In other words, the accurate assessment of parameters of interest may promote the strengthening and improvement of the genetic material of hens in a breeding poultry unit and as a consequence, of the productive and financial assistance for poultry fattening farms which cooperate with their relevant reproductive units. In order to discover and assess useful information, though, it is necessary to track and use suitable tools. Machine learning algorithms, in general, and classification algorithms more specifically, are especially suited in this case, as they are capable of mining and producing knowledge from large volumes of data. In the current thesis such methods are employed, in order to discover exploitable patterns and information in time-series data of egg production, with the ultimate goal of accurately predicting it. The thesis involves a complete approach of the problem, from data pre-processing to model development. Our approach produces effective prediction models for the egg production of hens, using classification algorithms. The methodology has been applied on egg production data sets kindly provided by Aviagen. Keywords Data mining, hens production, data classification 5

6 Kotsopoulos Dimitrios Department of Electrical and Computing Engineering Aristotle University of Thessaloniki April

7 Ευχαριστίες Θα ήθελα να ευχαριστήσω τον Καθηγητή Περικλή Α. Μήτκα για την εμπιστοσύνη, την καθοδήγησή του και τη συνολική επίβλεψή του κατά τη διάρκεια εκπόνησης της διπλωματικής εργασίας μου. Τη Δρ. Φανή Τζήμα, γιατί συνέβαλε στο μέγιστο βαθμό, με την πολύτιμη βοήθεια, την μεγάλη υπομονή της και τις χρήσιμες γνώσεις που προσέφερε, σε κάθε βήμα εξέλιξης της παρούσας διπλωματικής εργασίας. Την εταιρεία Aviagen για την παραχώρηση των υπό μελέτη δεδομένων και τον Δρ. Ανδρέα Κράνη για τη συμβολή του στην κατανόηση του προβλήματος-στόχου, αλλά και στο σχεδιασμό του πειραματικού μέρους της εργασίας. Τέλος, θα ήθελα να ευχαριστήσω την οικογένειά μου και τους φίλους μου, που με την αμέριστη αγάπη και συμπαράστασή τους σε κάθε βήμα της ζωής μου, μου δίνουν δύναμη να συνεχίζω ψηλά. Κωτσόπουλος Δημήτριος 7

8

9 Περιεχόμενα Περίληψη... 3 Abstract... 5 Ευχαριστίες... 7 Κατάλογος Σχημάτων Κατάλογος Πινάκων Κεφάλαιο 1. Εισαγωγή Πρόλογος Εξόρυξη δεδομένων - State of the art Μοντέλα και Διεργασίες Εξόρυξης δεδομένων Κατηγοριοποίηση Classification Σκοπός της εργασίας Διάρθρωση εργασίας Κεφάλαιο 2. Θεωρητικό υπόβαθρο Λίγα λόγια για τις όρνιθες Αναζήτηση του βέλτιστου αλγορίθμου Ταξινομητές Δένδρων Απόφασης Meta-algorithm και Function Classifiers Μέθοδοι και μετρικές αξιολόγησης Αλγόριθμοι Ομαδοποίησης Κεφάλαιο 3. Πρόβλεψη ωοπαραγωγής: μια πρώτη προσπάθεια Εισαγωγικά Μια πρώτη προσπάθεια Στατιστική ανάλυση του πλήρους σετ δεδομένων Στατιστική ανάλυση του μειωμένου σετ δεδομένων Δημιουργία γνωρισμάτων πρόβλεψης Κεφάλαιο 4. Μοντέλα Πρόβλεψης Ωοπαραγωγής Μια πρώτη προσπάθεια Εναλλακτικοί ορισμοί των κλάσεων Συσχέτιση πραγματικής με την προβλεπόμενη κλάση Συσχέτιση συνολικής ωοπαραγωγής των ορνίθων με την παραγωγή στις πρώτες 30, 45, 60 μέρες Ορισμός κλάσεων με βάση το 10% των percentiles Αξιοποιώντας την πληροφορία της συνολικής χρονοσειράς ωοπαραγωγής

10 Κεφάλαιο 5. Τελικά μοντέλα πρόβλεψης ωοπαραγωγής Βασικές αλλαγές στην πειραματική διαδικασία Γνωρίσματα, κλάσεις πρόβλεψης και ανάλυση του τελικού συνόλου δεδομένων Πειραματικά αποτελέσματα μοντέλων κατηγοριοποίησης Πειραματικά αποτελέσματα μοντέλων παλινδρόμησης Σύγκριση των δυο μεθόδων Κεφάλαιο 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις Σύνοψη Συμπεράσματα Μελλοντικές Επεκτάσεις Παράρτημα Α Τι είναι το WEKA Αρχεία ARFF References

11 Κατάλογος Σχημάτων Σχήμα 1-1 Ο κατακλυσμός δεδομένων στην σημερινή εποχή Σχήμα 1-2 Τα στάδια της εξόρυξης δεδομένων Σχήμα 1-3 Κατηγοριοποίηση της τιμής εισόδου x από ένα σετ δεδομένων σε μια κλάση y ως έξοδο Σχήμα 2-1 Ένα παράδειγμα μεγάλης πτηνοτροφικής μονάδας πάχυνσης ορνίθων (broilers) Σχήμα 2-2 Η αλυσίδα εφοδιασμού του τομέα των πουλερικών. Ένα αρσενικό στη κορυφή αντιστοιχεί σε 75,000 τόννους κρέατος στο τελικό στάδιο Σχήμα 2-3 Συσχέτιση ωοπαραγωγής με διάρκεια ζωής μιας όρνιθας Σχήμα 2-4 Μια Απλή Ομαδοποίηση Σχήμα 2-5 Αποκλειστική Ομαδοποίηση Σχήμα 2-6 Πριν και μετά την κλιμάκωση Σχήμα 3-1 Συνολική ωοπαραγωγή για όλες τις όρνιθες του σετ δεδομένων Σχήμα 3-2 Κατανομή όλων των ορνίθων του σετ δεδομένων στις κλάσεις που ορίζονται στη συνολική ωοπαραγωγή τους, σύμφωνα με τα διαστήματα (0,90) [90, 95) [95, 100) [145, 150) [150, ) Σχήμα 3-3 Ωοπαραγωγή «30 ημερών από το 1ο αυγό» για όλες τις όρνιθες του σετ δεδομένων Σχήμα 3-4 Συνολική ωοπαραγωγή για τις (ταξινομημένες) όρνιθες του μειωμένου σετ δεδομένων Σχήμα 3-5 Κατανομή των ορνίθων του μειωμένου σετ δεδομένων στις κλάσεις που oρίζονται στη συνολική ωοπαραγωγή, σύμφωνα με τα διαστήματα (0,90) [90, 95) [95, 100) [145, 150) [150, ) Σχήμα 3-6 Ωοπαραγωγή «30 ημερών από το 1ο αυγό» για τις όρνιθες του μειωμένου σετ Σχήμα 4-1 Κατανομή των ορνίθων του σετ δεδομένων στο πείραμα Exp 1. Οι κλάσεις ορίζονται με βάση τη συνολική ωοπαραγωγή των ορνίθων και σύμφωνα με τα διαστήματα (0,90) [90, 95) [95, 100) [175,180) [180, ) Σχήμα 4-2 Κατανομή των ορνίθων του σετ δεδομένων στο πείραμα Exp 2. Οι κλάσεις ορίζονται, σύμφωνα με τα διαστήματα συνολικής ωοπαραγωγής (40,90) [90, 95) [95, 100) [175,180) [180, ) Σχήμα 4-3 Κατανομή των ορνίθων του σετ δεδομένων στο πείραμα Exp 3. Οι κλάσεις ορίζονται, σύμφωνα με τα διαστήματα (40,90)., [ ), [ ),.., [150, ) Σχήμα 4-4 Κατανομή των ορνίθων του σετ δεδομένων στο πείραμα Exp 4. Οι κλάσεις ορίζονται, σύμφωνα με τα διαστήματα (40,90), [90-110),., [150, ) Σχήμα 4-5 Κατανομή των ορνίθων του σετ δεδομένων στο πείραμα Exp 5. Οι κλάσεις ορίζονται, σύμφωνα με τα διαστήματα (40,90), [90-110),., [180, ) Σχήμα 4-6 Κατανομή των ορνίθων του σετ δεδομένων στο πείραμα Exp 6. Οι κλάσεις ορίζονται, σύμφωνα με τα διαστήματα (40,90), [90-110),., [ ), [ ), [180, ) Σχήμα 4-7 Κατηγοριοποίηση με 8 κλάσεις με τη μέθοδο DecisionTable Σχήμα 4-8 Κατηγοριοποίηση με 8 κλάσεις με την μέθοδο DTNB Σχήμα 4-9 Κατηγοριοποίηση με 8 κλάσεις με την μέθοδο MultilayerPerceptron

12 Σχήμα 4-10 Κατηγοριοποίηση με 8 κλάσεις με την μέθοδο DecisionTable Σχήμα 4-11 Κατηγοριοποίηση με 8 κλάσεις με την μέθοδο DΤΝΒ για το πείραμα χωρίς τις όρνιθες με παραγωγή κάτω από 40 αυγά Σχήμα 4-12 Κατηγοριοποίηση με 8 κλάσεις με την μέθοδο ΜultilayerPerceptron για το πείραμα χωρίς τις όρνιθες με παραγωγή κάτω από 40 αυγά Σχήμα 4-13 Κατηγοριοποίηση με 7 κλάσεις με την μέθοδο DecisionTable για το πείραμα χωρίς τις όρνιθες με παραγωγή κάτω από 40 αυγά Σχήμα 4-14 Κατηγοριοποίηση με 7 κλάσεις με την μέθοδο DΤΝΒ για το πείραμα χωρίς τις όρνιθες με παραγωγή κάτω από 40 αυγά Σχήμα 4-15 Κατηγοριοποίηση με 7 κλάσεις με την μέθοδο MultilayerPerceptron για το πείραμα χωρίς τις όρνιθες με παραγωγή κάτω από 40 αυγά Σχήμα 4-16 Συνολική Ωοπαραγωγή σε σχέση με τις πρώτες 30 ημέρες παραγωγής Σχήμα 4-17 Συνολική Ωοπαραγωγή σε σχέση με τις πρώτες 45 ημέρες παραγωγής Σχήμα 4-18 Συνολική Ωοπαραγωγή σε σχέση με τις πρώτες 60 ημέρες παραγωγής Σχήμα 4-19 Κατανομή των ορνίθων του σετ δεδομένων στις κλάσεις που ορίζονται στη συνολική ωοπαραγωγή τους, σύμφωνα με τα διαστήματα [196,150], [149,143],., [102,78], [77,41] Σχήμα 4-20 Ποσοστά (%) επιτυχούς πρόβλεψης του αλγορίθμου MultilayerPercetron (άξονας y) σε σχέση με τις ημέρες της παραγωγής στις οποίες εφαρμόζεται η πρόβλεψη (άξονας x) Σχήμα 5-1 Συνολική ωοπαραγωγή για τις (ταξινομημένες) όρνιθες του μειωμένου σετ δεδομένων Σχήμα 5-2 Κατανομή των ορνίθων του σετ δεδομένων στις κλάσεις που ορίζονται στη συνολική ωοπαραγωγή τους, σύμφωνα με τα διαστήματα (40,90) [90, 110) [110, 120) [ ) [150, ) Σχήμα 5-3 Ποσοστά (%) επιτυχούς πρόβλεψης του αλγορίθμου DecisionTable (άξονας y) σε σχέση με τις ημέρες της παραγωγής στις οποίες εφαρμόζεται η πρόβλεψη (άξονας x).. 82 Σχήμα Α-7-1 Τυπικό παράδειγμα σχόλιων στο αρχείο δεδομένων της διπλωματικής εργασίας Σχήμα Α-7-2 Τυπικό παράδειγμα relation και attributes στο αρχείο δεδομένων της διπλωματικής εργασίας Σχήμα Α-7-3 Τυπικό παράδειγμα data στο αρχείο δεδομένων της διπλωματικής εργασίας

13 Κατάλογος Πινάκων Πίνακας 1 Πραγματικά αποτελέσματα για την πρόβλεψη ενός προβλήματος τριών κλάσεων Πίνακας 2 Αναμενόμενα αποτελέσματα για την πρόβλεψη ενός προβλήματος τριών κλάσεων Πίνακας 3 Συσχέτιση Κλάσεων με Διαστήματα Ωοπαραγωγής Πίνακας 4 Ποσοστά επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής στις τρεις αρχικές σειρές πειραμάτων. Το καλύτερο αποτέλεσμα ανά στήλη σημειώνεται με έντονη γραμματοσειρά. CCI: Correctly classified instances, CC (%) = Percentage of correct classifications Πίνακας 5 Ποσοστά επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής. Το καλύτερο αποτέλεσμα ανά στήλη σημειώνεται με έντονη γραμματοσειρά. CCI: Correctly classified instances, CC (%) = Percentage of correct classifications Πίνακας 6 Confusion Matrix για την μέθοδο DecisionTable Πίνακας 7 Confusion Matrix για την μέθοδο DTNB Πίνακας 8 Confusion Matrix για την μέθοδο MultilayerPerceptron Πίνακας 9 Confusion Matrix για την μέθοδο DecisionTable Πίνακας 10 Confusion Matrix για την μέθοδο DTNB Πίνακας 11 Confusion Matrix για την μέθοδο Perceptron Πίνακας 12 Confusion Matrix για την μέθοδο DecisionTable Πίνακας 13 Confusion Matrix για την μέθοδο DTNB Πίνακας 14 Confusion Matrix για την μέθοδο MultilayerPerceptron Πίνακας 15 Ποσοστά επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής. CC (%) = Percentage of correct classifications Πίνακας 16 Ποσοστά επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής Το καλύτερο αποτέλεσμα ανά στήλη σημειώνεται με έντονη γραμματοσειρά. CCI: Correctly classified instances, CC (%) = Percentage of correct classifications Πίνακας 17 Ποσοστά επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής Το καλύτερο αποτέλεσμα ανά στήλη σημειώνεται με έντονη γραμματοσειρά. CCI: Correctly classified instances, CC (%) = Percentage of correct classifications Πίνακας 18 Αλγόριθμοι παλινδρόμησης και αντίστοιχα αποτελέσματα πειραμάτων (απόλυτα μέσα σφάλματα) για πρόβλεψη ωοπαραγωγής των 160 ημερών, με βάση τις πρώτες 120 ημέρες παραγωγής Πίνακας 19 Αλγόριθμοι παλινδρόμησης και αντίστοιχα αποτελέσματα πειραμάτων (απόλυτα μέσα σφάλματα) για πρόβλεψη ωοπαραγωγής των 160 ημερών με βάση τις πρώτες 160 ημέρες παραγωγής Πίνακας 20 Αποτελέσματα του αλγόριθμου Μ5Rule για τις συγκεκριμένες ημέρες ωοπαραγωγής Πίνακας 21 Confusion Matrix για παραγωγή στις 30 πρώτες ημέρες Πίνακας 22 Confusion Matrix για παραγωγή στις 45 πρώτες ημέρες Πίνακας 23 Confusion Matrix για παραγωγή στις 60 πρώτες ημέρες Πίνακας 24 Confusion Matrix για παραγωγή στις 75 πρώτες ημέρες Πίνακας 25 Confusion Matrix για παραγωγή στις 90 πρώτες ημέρες Πίνακας 26 Confusion Matrix για παραγωγή στις 105 πρώτες ημέρες

14 Πίνακας 27 Confusion Matrix για παραγωγή στις 120 πρώτες ημέρες Πίνακας 28 Confusion Matrix για παραγωγή στις 135 πρώτες ημέρες Πίνακας 29 Confusion Matrix για παραγωγή στις 160 ημέρες Πίνακας 30 Ποσοστά επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής για την περίπτωση της παλινδρόμησης. CC (%) = Percentage of correct classifications Πίνακας 31 Σύγκριση Ποσοστών επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής για τις δυο μεθόδους. Το καλύτερο αποτέλεσμα ανά στήλη σημειώνεται με έντονη γραμματοσειρά. CC (%) = Percentage of correct classifications

15 Κεφάλαιο 1. Εισαγωγή 1.1 Πρόλογος Στη σημερινή εποχή όπου κατακλυζόμαστε από πληθώρα δεδομένων και πληροφοριών, ο άνθρωπος πρέπει να είναι σε θέση να φιλτράρει κάθε είδους πληροφορία προς όφελος του. Οι δυνατότητες που ξετυλίγονται στη νέα εποχή που ζούμε, την εποχή της πληροφορίας, είναι άκρως γοητευτικές και ανοίγουν νέους ορίζοντες όσον αφορά το κοινωνικό και οικονομικό γίγνεσθαι. Η κατοχή μια πληροφορίας, όμως, ήταν και παραμένει σημαντική. Στο πλαίσιο αυτό, ένα από τα σημαντικότερα ζητήματα που τίθενται είναι η ανίχνευση και η ανάδειξη της κατάλληλης πληροφορίας σε προκαθορισμένο χρόνο και χώρο. Για παράδειγμα, το γεγονός ότι μπορούμε να γνωρίζουμε την αυριανή πορεία μιας μετοχής σήμερα βοηθά στην καλύτερη διαχείρισή της στο χρηματιστήριο. Αντίθετα, αυτή η πληροφορία θα ήταν εντελώς αχρείαστη αν την μαθαίναμε μετά από κάποιες μέρες καθυστέρησης. Σχήμα 1-1 Ο κατακλυσμός δεδομένων στην σημερινή εποχή Στην προσπάθεια αυτή αρωγός υπήρξε η ανάπτυξη της τεχνολογίας που βοήθησε με κατάλληλα μέσα την εξόρυξη των δεδομένων. Το δύσκολο έργο της συλλογής δεδομένων έγινε εύκολο λόγω των τεράστιων βάσεων δεδομένων που δημιουργήθηκαν σχεδόν με μηδενικό κόστος. Η νέα πρόκληση πλέον ήταν να υλοποιηθεί μια λύση που θα έκανε την 15

16 εξόρυξη γρηγορότερη και αποτελεσματικότερη. Η προσπάθεια αυτή είχε αποτέλεσμα την ανάπτυξη της Τεχνητής Νοημοσύνης (Artificial Intelligence). Τεχνητή νοημοσύνη: Είναι ο τομέας της επιστήμης των υπολογιστών που ασχολείται με τη σχεδίαση ευφυών (νοημόνων) υπολογιστικών συστημάτων, δηλαδή συστημάτων που επιδεικνύουν γνωρίσματα που σχετίζουμε με τη νοημοσύνη στην ανθρωπινή συμπεριφορά [BF81]. Σήμερα, ο άνθρωπος έχει καταφέρει να υλοποιήσει υπολογιστικά συστήματα, τα όποια μέσω της Μηχανικής Μάθησης (Machine learning), καθιστούν ευκολότερη τη διαχείριση βάσεων δεδομένων. Μηχανική μάθηση: Είναι μια περιοχή της τεχνητής νοημοσύνης η οποία αφορά αλγορίθμους και μεθόδους που επιτρέπουν στους υπολογιστές να «μαθαίνουν». Για τους σκοπούς της Εξόρυξης Γνώσης, η μηχανική μάθηση χρησιμοποιείται συχνά για πρόβλεψη και κατηγοριοποίηση δεδομένων. Με τη μηχανική μάθηση ο υπολογιστής κάνει μια πρόβλεψη και κατόπιν, βασιζόμενος σε ανάδραση περί της ορθότητας της πρόβλεψης, μαθαίνει από την ανάδραση αυτή. Μαθαίνει, δηλαδή, χρησιμοποιώντας παραδείγματα, γνώση του πεδίου εφαρμογής και ανάδραση από το περιβάλλον του [Dun04]. 1.2 Εξόρυξη δεδομένων - State of the art Εξόρυξη Δεδομένων: Καλείται η εξερευνητική ανάλυση δεδομένων, ή, με άλλα λόγια, η ανακάλυψη καθοδηγούμενη από δεδομένα και η συμπερασματική μάθηση [Dun04]. Τα τρία βασικά σταδία της εξόρυξης δεδομένων είναι τα ακόλουθα: 1. Προεπεξεργασία Δεδομένων: Τα δεδομένα που βρίσκονται σε οποιαδήποτε βάση δεδομένων ενδέχεται να μην είναι κατάλληλα προς επεξεργασία. Ίσως υπάρχουν ανώμαλα σημεία, θόρυβος, ελλιπείς τιμές κ.τ.λ. που ενδέχεται να επηρεάσουν σε μεγάλο βαθμό το αποτέλεσμα. Οι παράγοντες αυτοί πρέπει να μειωθούν όσο το δυνατόν περισσότερο. 2. Εξόρυξη Δεδομένων: Η εφαρμογή αλγορίθμων στα τροποποιημένα δεδομένα για την ανακάλυψη της πληροφορίας. 3. Παρουσίαση Δεδομένων: Το κομμάτι αυτό είναι εξίσου σημαντικό με τα άλλα δυο, διότι είναι απαραίτητο τα αποτελέσματα να παρουσιαστούν με ευανάγνωστο και κατανοητό τρόπο. Η χρησιμότητα των αποτελεσμάτων εξαρτάται ως ένα βαθμό από την παρουσίασή τους. 16

17 Σχήμα 1-2 Τα στάδια της εξόρυξης δεδομένων 1.3 Μοντέλα και Διεργασίες Εξόρυξης δεδομένων Υπάρχουν δύο τύποι μοντέλων Εξόρυξης Δεδομένων με καθένα από αυτά να αποτελείται από διαφορετικές διεργασίες. Παρακάτω παρουσιάζονται οι διεργασίες αυτές, στα πλαίσια των μοντέλων στα όποια ανήκουν: Α) Προβλεπτικό Μοντέλο (Predictive Model). Ένα προβλεπτικό μοντέλο παρέχει προβλέψεις για τις τιμές των δεδομένων, χρησιμοποιώντας γνωστά αποτελέσματα που έχει ανακαλύψει με βάση άλλα δεδομένα. Η μοντελοποίηση της πρόβλεψης μπορεί να γίνει με χρήση ιστορικών δεδομένων. Η πρόβλεψη μπορεί να χρησιμοποιηθεί, επίσης, για να υποδηλώσει ένα συγκεκριμένο τύπο λειτουργίας εξόρυξης γνώσης από δεδομένα. Προκειμένου να καταστεί σαφής η έννοια του προβλεπτικού μοντέλου, παρατίθεται το εξής παράδειγμα: Η πρόβλεψη μιας πλημμύρας είναι δύσκολο πρόβλημα. Μία προσέγγιση περιλαμβάνει την χρήση οργάνων παρακολούθησης και ελέγχου που έχουν τοποθετηθεί σε διάφορα σημεία του ποταμού. Αυτά τα όργανα συλλέγουν δεδομένα σχετικά με την πρόβλεψη της πλημμύρας: ύψος της στάθμης του νερού, ποσότητα βροχής, χρόνος, υγρασία, κοκ. Στη συνέχεια μπορεί να προβλεφθεί το ύψος της στάθμης του νερού σε ένα σημείο του ποταμού στο οποίο είναι πιθανό να δημιουργηθεί πλημμύρα, βάσει των δεδομένων που συλλέχθηκαν από αισθητήρες που βρίσκονται στον ποταμό πάνω από το σημείο αυτό. Η πρόβλεψη γίνεται σε σχέση με το χρόνο που συλλέχθηκαν τα δεδομένα. 17

18 Οι πιο συνηθισμένες εργασίες εξόρυξης γνώσης από δεδομένα που χρησιμοποιούν αυτό το είδος μοντέλου, είναι η κατηγοριοποίηση, η παλινδρόμηση, η ανάλυση χρονοσειρών και η πρόβλεψη. Κατηγοριοποίηση (Classification): Απεικονίζει τα δεδομένα σε προκαθορισμένες ομάδες ή κατηγορίες κλάσεις (classes). Αναφέρεται συχνά σαν εποπτευόμενη μάθηση, επειδή οι κατηγορίες κλάσεις καθορίζονται πριν ακόμη εξεταστούν τα δεδομένα. Η αναγνώριση προτύπων (pattern recognition) αποτελεί ένα είδος κατηγοριοποίησης, όπου ένα πρότυπο εισόδου κατηγοριοποιείται σε μία από διάφορες κατηγορίες, με βάση την εγγύτητά του ως προς αυτές τις προκαθορισμένες κατηγορίες. Παλινδρόμηση (Regression): Χρησιμοποιείται για να απεικονιστεί ένα στοιχειώδες δεδομένο σε μία πραγματική μεταβλητή πρόβλεψης και περιλαμβάνει την εκμάθηση της συνάρτησης που κάνει αυτή την απεικόνιση. Η παλινδρόμηση προϋποθέτει ότι τα σχετικά δεδομένα «ταιριάζουν» με κάποια γνωστά είδη συναρτήσεων και στοχεύει στον καθορισμό της καλύτερης συνάρτησης που μοντελοποιεί τα υπό μελέτη δεδομένα. Κάποιου είδους ανάλυση σφάλματος χρησιμοποιείται για να καθορίσει ποια συνάρτηση είναι η βέλτιστη. Ανάλυση Χρονοσειρών (Time Series Analysis): Μελετάται η τιμή ενός γνωρίσματος καθώς μεταβάλλεται στο χρόνο. Οι τιμές συνήθως λαμβάνονται σε ίσα χρονικά διαστήματα (ημερήσια, εβδομαδιαία, ωριαία, κοκ). Για να παρασταθούν οπτικά οι χρονοσειρές, χρησιμοποιείται ένα διάγραμμα χρονοσειρών. Τρεις βασικές μέθοδοι χρησιμοποιούνται στην ανάλυση χρονοσειρών: στη μία περίπτωση χρησιμοποιούνται μετρικές απόστασης για να καθορίσουν την ομοιότητα ανάμεσα σε διαφορετικές χρονοσειρές, στη δεύτερη εξετάζεται η δομή της χρονοσειράς για να καθοριστεί (και ίσως να κατηγοριοποιηθεί) η συμπεριφορά της και στην τρίτη χρησιμοποιούνται διαγράμματα χρονοσειρών για την πρόβλεψη μελλοντικών τιμών. Πρόβλεψη (Prediction): Αυτή η εργασία εξόρυξης γνώσης είναι διαφορετική από το μοντέλο πρόβλεψης, παρόλο που η διαδικασία πρόβλεψης αποτελεί έναν τύπο μοντέλου πρόβλεψης. Η διαφορά είναι ότι ως πρόβλεψη θεωρείται η απόδοση τιμής σε μία μελλοντική (και όχι σε μία τρέχουσα) κατάσταση. Επίσης, στην περίπτωση αυτή γίνεται αναφορά σε ένα είδος εφαρμογής, παρά σε μία προσέγγιση μοντελοποίησης. Οι εφαρμογές πρόβλεψης περιλαμβάνουν πρόγνωση πλημμύρων, αναγνώριση ομιλίας, μηχανική μάθηση και αναγνώριση προτύπων. Αν και οι μελλοντικές τιμές μπορούν να προβλεφθούν με τεχνικές κατηγοριοποίησης, ανάλυσης χρονοσειρών ή παλινδρόμησης, μπορούν να χρησιμοποιηθούν και άλλες προσεγγίσεις. Β) Περιγραφικό Μοντέλο (Descriptive Model): Ένα περιγραφικό μοντέλο αναγνωρίζει πρότυπα ή συσχετίσεις στα δεδομένα. Σε αντίθεση με το προβλεπτικό μοντέλο, λειτουργεί ως ένα μέσο που διερευνά τις ιδιότητες των δεδομένων που εξετάζονται και όχι για να προβλέπει νέες ιδιότητες. Ένα παράδειγμα περιγραφικού μοντέλου είναι το εξής: Μία αλυσίδα πολυκαταστημάτων δημιουργεί ειδικούς καταλόγους, που στοχεύουν σε διάφορες 18

19 δημογραφικές ομάδες, με βάση γνωρίσματα όπως το εισόδημα, ο τόπος διαμονής και τα φυσικά γνωρίσματα των δυνητικών πελατών (ηλικία, ύψος, βάρος κλπ). Προκειμένου να καθορίσει σε ποιους από τους πελάτες των διαφόρων καταλόγων θα σταλεί ταχυδρομικά διαφημιστικό υλικό και προκειμένου να δημιουργηθούν καινούργιοι και πιο συγκεκριμένοι κατάλογοι, η εταιρεία κάνει ομαδοποίηση των πιθανών πελατών βασιζόμενη στις προκαθορισμένες τιμές γνωρισμάτων. Τα αποτελέσματα της ομαδοποίησης χρησιμοποιούνται στη συνέχεια από τη διεύθυνση προκειμένου να δημιουργηθούν ειδικοί κατάλογοι που θα διανεμηθούν στο πιο κατάλληλο τμήμα του πληθυσμού, βάσει της ομάδας που αντιστοιχεί σε αυτόν τον κατάλογο. Οι πιο συνηθισμένες εργασίες εξόρυξης γνώσης από δεδομένα που χρησιμοποιούν το περιγραφικό μοντέλο, είναι η ομαδοποίηση, η παρουσίαση συνόψεων, η επαγωγή κανόνων συσχετίσεων και η ανακάλυψη ακολουθιών. Ομαδοποίηση (Clustering): Είναι παρόμοια με την κατηγοριοποίηση, εκτός από το ότι οι συστάδες (ή ομάδες) δεδομένων δεν είναι προκαθορισμένες, αλλά ορίζονται από τα ίδια δεδομένα. Η ομαδοποίηση αναφέρεται εναλλακτικά και σαν μη εποπτευόμενη μάθηση, ή τμηματοποίηση. Μπορεί να θεωρηθεί ως μια διαμέριση ή τμηματοποίηση των δεδομένων σε ομάδες, που μπορεί να είναι ή να μην είναι διακριτές μεταξύ τους. Συνήθως επιτυγχάνεται με τον καθορισμό της ομοιότητας, ως προς προκαθορισμένα γνωρίσματα, ανάμεσα στα δεδομένα. Τα πιο σχετικά δεδομένα κατατάσσονται στις ίδιες ομάδες. Εάν οι ομάδες δεν είναι προκαθορισμένες, χρειάζεται ένας ειδικός του πεδίου για να ερμηνεύσει τη σημασία των ομάδων που δημιουργούνται. Μια ειδική κατηγορία ομαδοποίησης ονομάζεται κατάτμηση (segmentation). Με την κατάτμηση, μια βάση δεδομένων χωρίζεται σε διακριτές ομάδες παρόμοιων εγγραφών που ονομάζονται τμήματα (segments). Η κατάτμηση συχνά θεωρείται πανομοιότυπη με τη ομαδοποίηση. Κατά άλλους, η κατάτμηση θεωρείται σαν ειδικός τύπος ομαδοποίησης. Παρουσίαση Συνόψεων (Summarization): Απεικονίζει τα δεδομένα σε υποσύνολά τους με απλές συνοδευτικές περιγραφές. Η σύνοψη των δεδομένων ονομάζεται επίσης και χαρακτηρισμός (characterization) ή γενίκευση (generalization). Εξάγει ή παράγει αντιπροσωπευτικές πληροφορίες σχετικά με τα δεδομένα, ανακτώντας, στην πραγματικότητα, τμήματά τους. Εναλλακτικά, μπορούν να εξαχθούν από τα δεδομένα συνοπτικές πληροφορίες (όπως είναι ο μέσος όρος κάποιου αριθμητικού γνωρίσματος). Εν ολίγοις, η παρουσίαση συνόψεων χαρακτηρίζει τα περιεχόμενα μίας βάσης δεδομένων. Κανόνες Συσχετίσεων (Association Rules): Η ανάλυση συνδέσμων (link analysis), που εναλλακτικά αναφέρεται και σαν ανάλυση συγγένειας (affinity analysis) ή συσχέτιση (association), αναφέρεται στη διαδικασία εκείνη της εξόρυξης γνώσης που αποκαλύπτει συσχετίσεις μεταξύ των δεδομένων. Ένας κανόνας συσχέτισης (association rule) είναι ένα μοντέλο που αναγνωρίζει ειδικούς τύπους συσχέτισης μεταξύ των δεδομένων. Η πιο διαδεδομένη προσέγγιση για την εύρεση κανόνων συσχετίσεων χρησιμοποιεί τα συχνά στοιχειοσύνολα (frequent itemsets), τα οποία ορίζονται ως τα στοιχειοσύνολα εκείνα των οποίων ο αριθμός των εμφανίσεων είναι πάνω από ένα κατώφλι s. Η προσέγγιση των συχνών στοιχειοσυνόλων (α) εντοπίζει 19

20 τα συχνά στοιχειοσύνολα βάσει του ορισμού τους και (β) δημιουργεί κανόνες από τα ανακαλυφθέντα συχνά στοιχειοσύνολα. Οι συσχετίσεις χρησιμοποιούνται, για παράδειγμα, στις λιανικές πωλήσεις για να αναγνωρισθούν προϊόντα που αγοράζονται συχνά μαζί. Συσχετίσεις χρησιμοποιούνται, επίσης, σε πολλές άλλες εφαρμογές. Η χρήση των κανόνων συσχετίσεων σε διαδικασίες λήψης αποφάσεων πρέπει να γίνεται πολύ προσεκτικά, επειδή υπάρχει ο κίνδυνος αυτές οι συσχετίσεις να είναι τυχαίες. Με άλλα λόγια, οι συσχετίσεις μπορεί να μην αντιπροσωπεύουν καμία έμφυτη σχέση ανάμεσα στα δεδομένα (κάτι που ισχύει για παράδειγμα στις συναρτησιακές εξαρτήσεις). Ανακάλυψη Ακολουθιών: Η ακολουθιακή ανάλυση (sequential analysis) ή αλλιώς ανακάλυψη ακολουθιών (sequence discovery) χρησιμοποιείται για να καθορισθούν σειριακά πρότυπα στα δεδομένα. Αυτά τα πρότυπα βασίζονται σε μία χρονική ακολουθία ενεργειών και είναι παρόμοια με τις συσχετίσεις, από την άποψη ότι τα δεδομένα που εξάγονται συσχετίζονται, με τη διαφορά ότι η συσχέτισή τους αυτή βασίζεται στο χρόνο [Dun02]. Στην παρούσα διπλωματική θα ασχοληθούμε με την επαγωγή κανόνων κατηγοριοποίησης, ενώ θα χρησιμοποιήσουμε και τεχνικές ομαδοποίησης για τη δημιουργία γνωρισμάτων πρόβλεψης. Στο τελευταίο τμήμα της εργασίας θα αναφερθούμε σύντομα και σε τεχνικές παλινδρόμησης. 1.4 Κατηγοριοποίηση Classification Η κατηγοριοποίηση είναι η διεργασία κατά την όποια γίνεται ανάθεση ενός αντικειμένου σε μια από τις πολλές προκαθορισμένες κατηγορίες σε ένα διαδεδομένο πρόβλημα. [TSK06] Σχήμα 1-3 Κατηγοριοποίηση της τιμής εισόδου x από ένα σετ δεδομένων σε μια κλάση y ως έξοδο Στην κατηγοριοποίηση γνωρίζουμε a priori τις κατηγορίες που θέλουμε να επεξεργαστούμε, είτε μέσω κάποιου αλγορίθμου, είτε μέσω κάποιου ειδικού πάνω στο ζήτημα. Αρχικά, επεξεργαζόμαστε τα δεδομένα και τα χωρίζουμε σε δεδομένα εκπαίδευσης και δεδομένα δοκιμής. Εισάγουμε τα δεδομένα αυτά στον αντίστοιχο αλγόριθμο κατηγοριοποίησης, στο σχήμα μας το λεγόμενο classification model, για την αντιστοίχιση των κλάσεων. Οι κλάσεις είναι οι ομάδες κατηγοριοποίησης που είναι ήδη γνωστές, στο σχήμα μας class label (y). Έπειτα ασχολούμαστε με τα δεδομένα δοκιμής, ώστε να επιβεβαιώσουμε τη σωστή λειτουργία της κατηγοριοποίησης ή να κάνουμε τις απαραίτητες αλλαγές ώστε ο αλγόριθμος να είναι έτοιμος για την εισαγωγή των άγνωστων δεδομένων. 20

21 Οι μέθοδοι που μπορούν να χρησιμοποιηθούν για την αντιμετώπιση προβλημάτων κατηγοριοποίησης ποικίλλουν. Ενδεικτικά, αναφέρονται οι παρακάτω: Στατιστικές-Πιθανοτικές μέθοδοι (Regression, Bayesian) Μέθοδοι βασισμένες σε Μετρικές Απόστασης (k-nn) ένδρα Απόφασης (ID3, C4.5) Νευρωνικά ίκτυα (Perceptron, BP) Μέθοδοι κατηγοριοποίησης μέσω κανόνων. 1.5 Σκοπός της εργασίας Σκοπός της εργασίας είναι μέσα από ένα σύνολο δεδομένων τα όποια θα υποστούν την κατάλληλη επεξεργασία να αναδειχθούν γνωρίσματα και μοτίβα που διέπουν την ωοπαραγωγική διαδικασία των ορνίθων ώστε να βελτιστοποιήσουν την αποτελεσματικότητα των αντίστοιχων διαδικασιών. Τα αποτελεσμάτων που θα εξαχθούν φιλοδοξούμε να διαδραματίσουν σημαντικό ρόλο στη διαχείριση μιας μονάδας καθώς και στα οικονομικά μεγέθη της. Πληροφορίες όπως η μερική ωοπαραγωγή, η ημερομηνία γέννησης, η διάρκεια ζωής ή η διαφορά μεταξύ των ημερών γέννησης και μη-γέννησης αυγών μπορούν να χρησιμοποιηθούν για την ακριβή πρόβλεψη της συνολικής παραγωγής μιας όρνιθας. Αντλώντας τέτοιου είδους γνώση μπορούμε να κάνουμε ρυθμίσεις στη διατροφή, στην αντιμετώπιση των ορνίθων χαμηλής ή υψηλής παραγωγικότητας και στη διαχείριση της μονάδας γενικότερα, οι οποίες, φυσικά, έχουν σημαντικές επιπτώσεις στα οικονομικά της επιχείρησης. Η δημιουργία τέτοιων μοτίβων θα βοηθήσει και στην μετέπειτα χρησιμοποίηση των αποτελεσμάτων από την επιστήμη της γενετικής. Η γενετική βελτίωση είναι δυνατή μόνο σε επίπεδο μεγάλων πληθυσμών ή παρέχεται από εταιρείες που έχουν πρόσβαση σε ελίτ γενετικό υλικό,. Η Aviagen 1 είναι μια τέτοια εταιρεία. Τα οφέλη από γενετικής πλευράς συνοψίζονται στο εξής: αν έχουμε μια ακριβή πρόβλεψη της συνολικής ωοπαραγωγής πριν την ολοκλήρωση της παραγωγικής περιόδου, μπορούμε να χρησιμοποιήσουμε τις προβλέψεις, αντί του τελικού φαινοτύπου ώστε να εκτιμήσουμε κληροδοτικές τιμές με συγκρίσιμη ακρίβεια, αλλά με το όφελος ότι το επιτυγχάνουμε γρηγορότερα, επιταχύνοντας τη γενετική πρόοδο ανά γενιά. Η αναπαραγωγική μονάδα με αυτό το τρόπο θα βελτιστοποιήσει την ποιότητα των ορνίθων με αποτέλεσμα να βελτιωθεί η παραγωγική διαδικασία και στις πτηνοτροφικές μονάδες, διότι κάθε γενιά απογόνων θα αναβαθμίζεται σε σχέση με την προηγούμενη. Συνολικά, η ακριβής εκτίμηση παραμέτρων ενδιαφέροντος μπορεί να βοηθήσει στην ενίσχυση και βελτίωση του γενετικού υλικού των ορνίθων σε μια αναπαραγωγική μονάδα. Με άλλα λόγια, ο στόχος της μονάδας είναι όλες οι όρνιθες να έχουν ένα ισχυρό γενετικό υλικό, γεγονός που μεταφράζεται σε υψηλή συνολική παραγωγή αυγών. Στα πλαίσια της

22 παρούσας διπλωματικής εργασίας, επομένως, χρησιμοποιώντας κατάλληλους αλγόριθμους ταξινόμησης (classification) και παλινδρόμησης (regression) επιδιώκουμε να αναπτυχθεί ένα σύστημα πρόβλεψης της συνολικής ατομικής ωοπαραγωγής των ορνίθων, χρησιμοποιώντας τη μερική παραγωγή των Χ πρώτων ημερών (το βέλτιστο Χ θα εκτιμηθεί από τα δεδομένα με βάση τα πειραματικά μοντέλα). Αν η ακρίβεια είναι υψηλή και οι πρώτες μέρες Χ που απαιτούνται ικανοποιητικά λίγες τότε επιταχύνεται η γενετική πρόοδος ανά γενιά. Η εργασία περιλαμβάνει τη συνολική αντιμετώπιση του προβλήματος, από την προεπεξεργασία των δεδομένων μέχρι την ανάπτυξη μοντέλων πρόβλεψης, με απώτερο στόχο την ανάπτυξη αποτελεσματικών μοντέλων πρόβλεψης της ωοπαραγωγής ορνίθων με χρήση αλγορίθμων κατηγοριοποίησης και παλινδρόμησης. Αξίζει να σημειωθεί σε αυτό το σημείο, ότι τα δεδομένα στα οποία βασίζεται η ανάλυσή μας παραχωρήθηκαν από την εταιρεία Aviagen, ενώ και ο πειραματικός σχεδιασμός προέκυψε σε συνεργασία με την εταιρεία, μέσα από μία επαναληπτική διαδικασία επανακαθορισμού στόχων με βάση τα αποτελέσματα κάθε φάσης της πραγματοποιηθείσας μελέτης. 1.6 Διάρθρωση εργασίας Στο Κεφάλαιο 2 παρουσιάζονται σύντομα οι αλγόριθμοι κατηγοριοποίησης, ομαδοποίησης και παλινδρόμησης (μεταξύ άλλων τα δέντρα ταξινόμησης, οι ταξινομητές βασισμένοι σε κανόνες, τα νευρωνικά δίκτυα και οι αλγόριθμοι κοντινότερου γείτονα) που χρησιμοποιούνται στην παρούσα εργασία. Επιπλέον, παρατίθενται σύντομα και κάποια στοιχεία σχετικά με τις μετρικές και μεθόδους που χρησιμοποιούνται για την αξιολόγηση των παραγόμενων μοντέλων. Στο Κεφάλαιο 3 παρατίθενται οι διαδικασίες προεπεξεργασίας δεδομένων που χρησιμοποιήθηκαν, καθώς και τα γνωρίσματα πρόβλεψης που προέκυψαν με βάση αυτές από τα ακατέργαστα δεδομένα. Επιπλέον, παρουσιάζονται μία σύντομη στατιστική ανάλυση του υπό μελέτη συνόλου δεδομένων και τα μοντέλα πρόβλεψης ωοπαραγωγής που αναπτύχθηκαν στη πρώτη φάση μελέτης του προβλήματος. Στο Κεφάλαιο 4 παρατίθεται η διαδικασία αντιμετώπισης των προβλημάτων της αρχικής μας ανάλυσης, η οποία περιλαμβάνει μεταξύ άλλων και τη δημιουργία επιπλέον γνωρισμάτων πρόβλεψης, με βάση την ομαδοποίηση των διαθέσιμων χρονοσειρών ωοπαραγωγής Στο Κεφάλαιο 5 παρουσιάζονται, συγκρίνονται και αξιολογούνται τα τελικά μοντέλα πρόβλεψης ωοπαραγωγής, με βάση μεθόδους κατηγοριοποίησης και παλινδρόμησης, που προέκυψαν από την παρούσα εργασία. Στο Κεφάλαιο 6 παρατίθενται τα συμπεράσματα της διπλωματικής εργασίας, καθώς και οι μελλοντικοί μας στόχοι που αφορούν τόσο την περαιτέρω ανάλυση των υπό μελέτη δεδομένων, όσο και τη χρήση των αποτελεσμάτων στη γενετική έρευνα. 22

23 Κεφάλαιο 2. Θεωρητικό υπόβαθρο 2.1 Λίγα λόγια για τις όρνιθες Τα κοτόπουλα που εκτρέφονται για την παραγωγή κρέατος ονομάζονται κοτόπουλα πάχυνσης (broilers). Αποτελούν το μεγαλύτερο αριθμό εκτρεφόμενων ζώων στην Ευρωπαϊκή Ένωση (ΕΕ), αφού εκτρέφονται εκατομμύρια ετησίως. Υπάρχουν διαφορετικά συστήματα εκτροφής για τα κοτόπουλα πάχυνσης. Τα περισσότερα κοτόπουλα πάχυνσης εκτρέφονται συμβατικά σε εσωτερικούς χώρους μεγάλων πτηνοτροφείων, πάνω σε μια στρωμνή από ψιλοκομμένο σανό ή ροκανίδια, η οποία ονομάζεται αχυρόστρωμα. Τα λεγόμενα κοτόπουλα διευρυμένων χώρων εκτρέφονται, επίσης, σε εσωτερικούς χώρους, όμως έχουν στη διάθεσή τους περισσότερο χώρο από αυτόν των συμβατικών συστημάτων. Τα κοτόπουλα αυτά αναπτύσσονται πιο αργά και απαιτούνται τουλάχιστον οκτώ εβδομάδες για να φθάσουν στο βάρος αγοράς. Άλλοι τύποι εκτροφής παρέχουν μεγαλύτερο χώρο στο εσωτερικό των εγκαταστάσεων ή επιτρέπουν στα πουλιά να βγαίνουν έξω. Αυτοί οι εναλλακτικοί τύποι εκτροφής ορίζονται στους κανονισμούς εμπορίας της ΕΕ και δηλώνονται στις ετικέτες των προϊόντων πτηνοτροφίας στα σουπερμάρκετ ως εξής: Τα κοτόπουλα πάχυνσης «ελεύθερης βοσκής» προέρχονται από συστήματα τα οποία επιτρέπουν την πρόσβαση των πτηνών στην ύπαιθρο. Διατυπώνονται ελαφρώς διαφορετικές συνθήκες για διαφορετικές ετικέτες ελεύθερης βοσκής, αλλά στη γενική περίπτωση τα κοτόπουλα πάχυνσης «ελεύθερης βοσκής» έχουν συνεχή ημερήσια πρόσβαση στην ύπαιθρο, που καλύπτεται κυρίως από βλάστηση, για τουλάχιστον τη μισή ζωή τους. Εκτρέφονται επί οκτώ εβδομάδες μέχρι να φθάσουν σε βάρος αγοράς. Τα κοτόπουλα πάχυνσης που προέρχονται από «παραδοσιακά πτηνοτροφεία ελεύθερης βοσκής» εκτρέφονται σε μικρά κοπάδια. Σε κάθε κοτόπουλο αντιστοιχεί διπλάσιος υπαίθριος χώρος σε σύγκριση με τα κοτόπουλα «ελεύθερης βοσκής». Από ηλικία τουλάχιστον έξι εβδομάδων, τα κοτόπουλα έχουν συνεχή ημερήσια πρόσβαση σε υπαίθριους χώρους. Αναπτύσσονται πιο αργά και απαιτούνται περισσότερες από έντεκα εβδομάδες για να φθάσουν σε βάρος αγοράς. Τα κοτόπουλα πάχυνσης «απεριόριστης ελεύθερης βοσκής» εκτρέφονται με τον ίδιο τρόπο όπως τα κοτόπουλα πάχυνσης στην «παραδοσιακά ελεύθερη βοσκή», όμως έχουν πρόσβαση σε υπαίθριους χώρους χωρίς περίφραξη. 23

24 Τα «οργανικά» κοτόπουλα διατηρούνται σε ένα σύστημα παρόμοιο με την «παραδοσιακά ελεύθερη βοσκή», όμως επιπλέον τρέφονται με προϊόντα οργανικής καλλιέργειας. Στα συμβατικά συστήματα εκτροφής σε εσωτερικούς χώρους παρέχεται στα κοτόπουλα θρεπτική τροφή και καθαρό νερό, καθώς και εξαερισμός με ανεμιστήρα για παροχή καθαρού αέρα. Κατ αυτό τον τρόπο, οι σύγχρονες φυλές ορνίθων αναπτύσσονται πιο γρήγορα και οι περισσότερες φθάνουν τα 2 κιλά, που είναι το βάρος αγοράς, σε λιγότερο από έξι εβδομάδες. Η γρήγορη ανάπτυξη ορισμένες φορές δημιουργεί προβλήματα στην υγεία και την καλή διαβίωση των ζώων, όπως παραμόρφωση οστών και χαμηλή αντοχή σε ασθένειες. Για αυτόν το λόγο, οι έμπειροι πτηνοτρόφοι εκπαιδεύονται, ώστε να αποφεύγουν αυτά τα προβλήματα και να παρέχουν κατάλληλους χώρους διαβίωσης και διευκολύνσεις στα κοτόπουλα. Ο αριθμός των κοτόπουλων σε κάθε μονάδα εξαρτάται από την επιφάνεια δαπέδου και τη δυνατότητα εξαερισμού, καθώς και από τις εγκαταστάσεις ταΐσματος και ποτίσματος που διαθέτει η μονάδα. Οι περισσότερες συμβατικές μονάδες περιλαμβάνουν περίπου κοτόπουλα, όμως ορισμένες πολύ μεγάλες μονάδες στεγάζουν κοπάδια πτηνών. Συνήθως, τα κτίρια αυτά έχουν φωτισμό αντί για παράθυρα και διαθέτουν θέρμανση για το χειμώνα. Τα κοτόπουλα είναι γενικά ανθεκτικά όντα, ωστόσο η υγεία και η καλή διαβίωσή τους πρέπει να λαμβάνεται υπόψη και να προστατεύεται σε όλα τα συστήματα εκτροφής. Σχήμα 2-1 Ένα παράδειγμα μεγάλης πτηνοτροφικής μονάδας πάχυνσης ορνίθων (broilers) Εξαιτίας των μεγάλων δεδομένων που υπάρχουν στις πτηνοτροφικές μονάδες απαιτείται μια ιδιαίτερη μεταχείριση για οποιοδήποτε πρόβλημα αντιληφθεί η διαχείριση της μονάδας. Με την τελευταία ομάδα εκτροφής, όρνιθες που βρίσκονται στα συμβατικά συστήματα εκτροφής σε εσωτερικούς χώρους, θα ασχοληθούμε στην παρούσα διπλωματική. Από την παραγωγή έως την πώληση όμως υπάρχουν κάποιες ενδιάμεσες διεργασίες που θα τις δούμε παρακάτω. 24

25 Η αλυσίδα του εφοδιασμού του τομέα των πουλερικών αποτελείται από τους βασικούς πτηνοτρόφους, τους πολλαπλασιαστές, τους παραγωγούς, τους μεταποιητές κρεάτων και τους λιανέμπορους ή χονδρέμπορους (Σχήμα 2-2). Μόνο ένας περιορισμένος αριθμός των αναπαραγωγικών μονάδων, μια από αυτές τις εταιρείες είναι και η Aviagen, κατέχει το αποθεματικό των γονέων και εκτελεί τη γενετική βελτίωση. Ο αντίκτυπος της επιλογής από τις γραμμές των καθαρόαιμων ζωών είναι αξιοπρόσεκτος δεδομένου ότι μια όρνιθα μπορεί να παράγει 75,000 τόνους κρέατος στο εμπορικό επίπεδο. Οι αναπαραγωγικές εταιρείες πωλούν τους νεοσσούς στους πολλαπλασιαστές, οι όποιοι πωλούν στην συνέχεια τα τελικά υβρίδια στους παραγωγούς. Η αλυσίδα του εφοδιασμού πουλερικών χαρακτηρίζεται από τις πολυάριθμες μεγάλες κάθετες ενσωματωμένες επιχειρήσεις που αγοράζουν τις όρνιθες άμεσα από τους παραγωγούς ή τους πολλαπλασιαστές και πωλούν το επεξεργασμένο κρέας των ορνίθων στην αγορά. Αυτοί οι παίχτες-κλειδιά έχουν καθιερώσει την άμεση επικοινωνία με τις αναπαραγωγικές επιχειρήσεις και έτσι οι τάσεις της αγοράς μεταφέρονται αποτελεσματικά στις αναπαραγωγικές επιχειρήσεις οι οποίες προσαρμόζουν τους στόχους αναλόγως [Kra08]. Σχήμα 2-2 Η αλυσίδα εφοδιασμού του τομέα των πουλερικών. Ένα αρσενικό στη κορυφή αντιστοιχεί σε 75,000 τόννους κρέατος στο τελικό στάδιο Στο Σχήμα 2-3 απεικονίζεται η καμπύλη της (κανονικοποιημένης ως προς τον αριθμό των ορνίθων) ημερήσιας ωοπαραγωγής σε ένα πληθυσμό ορνίθων, σαν ένα παράδειγμα των δεδομένων που βρίσκονται υπό μελέτη. Διακρίνονται τρεις φάσεις, (α) μια αυξητική στην οποία όλο και περισσότερες όρνιθες παράγουν ένα αυγό την ημέρα, (β) μια μημεταβαλλόμενη φάση, κατά την οποία η ημερήσια ωοπαραγωγή σταθεροποιείται και (γ) μια φθίνουσα, κατά την οποία η ωοπαραγωγή μειώνεται. Η διάρκεια της ωοπαραγωγής ποικίλει, ανάλογα με το παραγωγικό σύστημα και το γενετικό υλικό, αλλά το σχήμα της καμπύλης είναι παρόμοιο [Kra08]. 25

26 Σχήμα 2-3 Συσχέτιση ωοπαραγωγής με διάρκεια ζωής μιας όρνιθας. 2.2 Αναζήτηση του βέλτιστου αλγορίθμου Κάθε διαδικασία εξόρυξης και ανάλυσης δεδομένων διαφέρει στον τρόπο εξαγωγής και στην παρουσίαση των αποτελεσμάτων. Υπάρχει ένα τεράστιο εύρος αλγορίθμων κατάλληλο για συγκεκριμένες αναλύσεις. Ο αναλυτής πρέπει κάθε φορά με κατάλληλη προσπάθεια και πειράματα να βρει τον αποδοτικότερο αλγόριθμο για το αντίστοιχο πρόβλημα. Στην κατεύθυνση αυτή, στην παρούσα εργασία δοκιμάσαμε 14 διαφορετικούς αλγορίθμους από 4 διαφορετικές κατηγορίες, ώστε να βρούμε τους επικρατέστερους για την ορθή αντιμετώπιση του υπό μελέτη προβλήματος. Το εργαλείο που είχαμε στη διάθεση μας ήταν η πλατφόρμα Weka. Θεωρώντας ότι, στα πλαίσια της διπλωματικής εργασίας, μπορούμε να αρκεστούμε σε ενδεικτικές υλοποιήσεις από γνωστές κλάσεις αλγορίθμων, δουλέψαμε με πέντε βασισμένους-σε-κανόνες (rule-based) αλγορίθμους, τέσσερις ταξινομητές δένδρων απόφασης (decision tree classifiers), δύο μετά-αλγόριθμους (meta-algorithm) και τρείς ταξινομητές από την κατηγορία των function classifiers Rule-based Αλγόριθμοι DecisionTable Τα μοντέλα που αναπτύσσονται από τον αλγόριθμο DecisionTable αποτελούνται από έναν πίνακα απόφασης με έναν προεπιλεγμένο κανόνα χαρτογράφησης στην πλειοψηφούσα κλάση. Ο πίνακας απόφασης έχει δυο συνιστώσες: το σχήμα, το οποίο είναι ένα σύνολο γνωρισμάτων που περιλαμβάνονται στον πίνακα, και το σώμα που αποτελείται από επισημασμένα στιγμιότυπα στο χώρο που ορίζεται από τα γνωρίσματα του σχήματος. Δεδομένου ενός στιγμιότυπου χωρίς ετικέτα για παράδειγμα Α, ο ταξινομητής DTM θα υπολογίζει αυτή την ετικέτα ως εξής: Έστω ότι L είναι το σύνολο των επισημασμένων 26

27 στιγμιότυπων που αντιστοιχίζονται επακριβώς στον DTM με το στιγμιότυπο Α, όπου μόνο τα γνωρίσματα του σχήματος χρησιμοποιούνται για την αντιστοίχιση και όλα τα άλλα αγνοούνται. Αν L=Ø, επιστρέφεται η κλάση πλειοψηφίας του DTM, αλλιώς η κλάση πλειοψηφίας του L. Οι άγνωστες τιμές αντιμετωπίζονται ως ξεχωριστές τιμές στην διαδικασία αντιστοίχισης. Για να κατασκευαστεί ένας τέτοιος πίνακας απόφασης, ο αλγόριθμος επαγωγής πρέπει να αποφασίσει ποια γνωρίσματα πρέπει να συμπεριλάβει στο σχήμα και ποια στιγμιότυπα να αποθηκεύσει στο σώμα [Koh95]. Οι παράμετροι του αλγορίθμου, στην υλοποίηση που είναι διαθέσιμη στο WEKA, είναι: CrossVal: Θέτει τον αριθμό των επαναλήψεων για την διαδικασία του cross validation. Debug: Εάν η τιμή είναι αληθής (true), ο ταξινομητής μπορεί να προσθέσει επιπλέον πληροφορίες στην οθόνη. DisplayRules: Ορίζει εάν οι κανόνες θα εκτυπώνονται στην οθόνη. EvaluationMeasure: Η μετρική που χρησιμοποιείται για να «κοστολογήσει» την επίδοση των συνδυασμένων γνωρισμάτων που βρίσκονται στον πινάκα απόφασης (decision table). Search: Η μέθοδος με την οποία αναζητείται ο βέλτιστος συνδυασμός γνωρισμάτων για τον πίνακα απόφασης (decision table). UseIBk: Εάν η τιμή είναι αληθής (true), χρησιμοποιείται ο IBk, είδος αλγόριθμου των κ-πλησιέστερων γειτόνων, έναντι της βέλτιστης κλάσης DTNB Είναι ένας αλγόριθμος που δημιουργεί και χρησιμοποίει έναν πίνακα απόφασης ή έναν ασαφή υβριδικό Bayes ταξινομητή. Σε κάθε σημείο της αναζήτησης, ο αλγόριθμος αξιολογεί την αξία της διαίρεσης των τιμών σε 2 ξεχωριστά υποσύνολα, ένα για τον πίνακα απόφασης και το άλλο για το υβριδικό μοντέλο του Bayes. Χρησιμοποιείται μια μέθοδος αναζήτησης, όπου, σε κάθε βήμα, επιλέγονται κάποιες τιμές και μοντελοποιούνται με την μέθοδο του naïve bayes και οι εναπομείνασες τιμές μοντελοποιούνται με τη μέθοδο του πίνακα απόφασης. Στο τέλος, όλες οι τιμές μοντελοποιούνται από τον πίνακα απόφασης. Σε κάθε βήμα, ο αλγόριθμος μπορεί να διαγράψει ένα χαρακτηριστικό από το μοντέλο [HF08]. Οι παράμετροι του αλγορίθμου είναι: CrossVal: Θέτει τον αριθμό των επαναλήψεων για την διαδικασία του cross validation. Debug: Εάν η τιμή είναι αληθής (true), ο ταξινομητής μπορεί να προσθέσει επιπλέον πληροφορίες στην οθόνη. 27

28 OneR Στην περίπτωση αυτή η κατηγοριοποίηση βασίζεται στη δημιουργία και χρήση ενός ταξινομητή «ενός κανόνα» (1R). O αλγόριθμος OneR δημιουργεί έναν κανόνα για κάθε χαρακτηριστικό στα δεδομένα εκπαίδευσης και στη συνέχεια επιλέγει τον κανόνα με το μικρότερο ποσοστό σφάλματος ως «ένας κανόνας» του. Για να δημιουργηθεί ένας κανόνας για ένα χαρακτηριστικό, πρέπει να προσδιορίζεται η πιο συχνή κλάση για κάθε τιμή ενός χαρακτηριστικού. Η πιο συχνή κλάση είναι απλά η κλάση που εμφανίζεται πιο συχνά για την τιμή του χαρακτηριστικού. Ένας κανόνας είναι απλά ένα σύνολο γνωρισμάτων που δεσμεύονται στην πλειοψηφούσα κατηγορία τους. Ο OneR επιλέγει τον κανόνα με το χαμηλότερο ποσοστό σφάλματος. Σε περίπτωση που δύο ή περισσότεροι κανόνες έχουν το ίδιο ποσοστό λάθους, ο κανόνας θα επιλέξει τυχαία έναν από αυτούς [Hol93]. Οι παράμετροι του αλγορίθμου είναι: Debug: Εάν η τιμή είναι αληθής (true), ο ταξινομητής μπορεί να προσθέσει επιπλέον πληροφορίες στην οθόνη. MinBucketSize: Το ελάχιστο μέγεθος του «κάδου» που χρησιμοποιείται για τη διακριτοποίηση των αριθμητικών γνωρισμάτων PART Ο αλγόριθμος PART παράγει μια λίστα αποφάσεων, χρησιμοποιώντας τη μέθοδο «Διαίρει και βασίλευε». Σε κάθε επανάληψη κατασκευάζεται ένα μερικό δένδρο απόφασης με βάση τον αλγόριθμο C4.5 και το «καλύτερο» φύλλο μετατρέπεται σε κανόνα [FW98]. Οι παράμετροι του αλγορίθμου είναι: BinarySplits: Χρήση ή όχι δυαδικού διαχωρισμού στα ονομαστικά γνωρίσματα κατά την κατασκευή των μερικών δένδρων. ConfidenceFactor: Ο συντελεστής εμπιστοσύνης που χρησιμοποιείται για το κλάδεμα (pruning). Μικρές τιμές ευνοούν περισσότερο το κλάδεμα (pruning). Debug: Εάν η τιμή είναι αληθής (true), ο ταξινομητής μπορεί να προσθέσει επιπλέον πληροφορίες στην οθόνη. MinNumObj: O ελάχιστος αριθμός των στιγμιότυπων ανά κανόνα. NumFolds: Καθορίζει το ποσοστό των δεδομένων που χρησιμοποιούνται στην τεχνική κλαδέματος μειωμένου-σφάλματος (reduced-error pruning). Η μια πτυχή (fold) χρησιμοποιείται για pruning και οι υπόλοιπες για την ανάπτυξη των κανόνων. ReducedErrorPruning: Χρήση ή όχι της τεχνικής reduced-error pruning, έναντι του C4.5 pruning. Seed: O «σπόρος» που χρησιμοποιείται για να δημιουργήσει τυχαία τα δεδομένα όταν το reduced-error pruning είναι σε εξέλιξη. Unpruned: Χρήση ή όχι κλαδέματος (pruning). 28

29 M5Rule Η μέθοδος για τη δημιουργία κανόνων από τα πρότυπα δέντρα, που καλούμε M5Rule, είναι απλή και λειτουργεί ως εξής: ένας αλγόριθμος εκμάθησης δένδρων εφαρμόζεται στο πλήρες σύνολο δεδομένων δημιουργώντας ένα κλαδεμένο (pruned) δέντρο. Έπειτα, το «καλύτερο» φύλλο (σύμφωνα με κάποιον ευριστικό κανόνα) μετατρέπεται σε έναν κανόνα και το δέντρο απορρίπτεται. Όλες οι περιπτώσεις (δείγματα) που καλύπτονται από τον κανόνα αφαιρούνται από το σύνολο δεδομένων. Η διαδικασία εφαρμόζεται κατ' επανάληψη στις υπόλοιπες περιπτώσεις και ολοκληρώνεται όταν καλυφθούν όλες οι περιπτώσεις από έναν ή περισσότερους κανόνες. Αυτή είναι η βασική στρατηγική «Διαίρει και βασίλευε» για την εκμάθηση κανόνων. Εντούτοις, στην περίπτωση του M5Rule, αντί της οικοδόμησης ενός ενιαίου κανόνα, όπως γίνεται συνήθως, χτίζεται ένα πλήρες πρότυπο δέντρο σε κάθε στάδιο, και μετατρέπεται το «καλύτερο» φύλλο του σε κανόνα. Με αυτόν τον τρόπο, αποφεύγεται η πιθανότητα για υπέρ-κλάδεμα (over-pruning), το οποίο είναι γνωστό και ως «βιαστική γενίκευση». Τέλος, αξίζει να αναφερθεί ότι ο M5Rule χτίζει πλήρη και όχι μερικώς εξερευνημένα δέντρα [HHF99]. Οι παράμετροι του αλγορίθμου είναι: buildregressiontree: Παραγωγή ή όχι ενός δέντρου/κανόνα παλινδρόμησης αντί για ένα μοντέλο δέντρου/κανόνα. Debug: Εάν είναι αληθής, ο ταξινομητής μπορεί να προσθέσει επιπλέον πληροφορίες στην οθόνη. minnuminstances: Ο ελάχιστος αριθμός στιγμιότυπων που επιτρέπονται σε ένα κόμβο φύλλου. Unpruned: Παραγωγή ή όχι unpruned δέντρων/κανόνων. useunsmoothed Χρήση ή όχι μη-ομαλοποιημένων προβλέψεων Ταξινομητές Δένδρων Απόφασης J48graft Αλγόριθμος για τη δημιουργία ενός grafted (κλαδεμένου ή όχι) δένδρου απόφασης τύπου C4.5 [Web99]. Οι παράμετροι του αλγορίθμου είναι: BinarySplits: Χρήση ή όχι δυαδικού διαχωρισμού στα ονομαστικά γνωρίσματα κατά την κατασκευή των δένδρων. ConfidenceFactor: Ο συντελεστής εμπιστοσύνης που χρησιμοποιείται για το κλάδεμα (pruning). Μικρές τιμές ευνοούν περισσότερο το κλάδεμα (pruning). Debug: Εάν η τιμή είναι αληθής (true), ο ταξινομητής μπορεί να προσθέσει επιπλέον πληροφορίες στην οθόνη. 29

30 minnumobj: Ο ελάχιστος αριθμός των στιγμιότυπων ανά φύλλο. Relabel: Εάν επιτρέπεται η μετονομασία κατά τη διάρκεια της προσθήκης κόμβων στα συναθροισμένα δένδρα απόφασης (grafting). SaveInstanceData: Αποθήκευση ή όχι των δεδομένων εκπαίδευσης για μετέπειτα οπτικοποίηση. SubtreeRaising: Εάν θα λαμβάνεται υπόψη η διαδικασία αύξησης των υποδένδρων κατά το κλάδεμα (pruning). Unpruned: Χρήση ή όχι κλαδέματος (pruning). uselaplace: Εάν τα αθροίσματα (πλήθος δειγμάτων) στα φύλλα εξομαλύνονται μέσω της διαδικασίας Laplace LADTree Αλγόριθμος για την παράγωγη ενός multi-class εναλλασσόμενου (alternating) δένδρου απόφασης χρησιμοποιώντας την στρατηγική LogitBoost [HPK+01]. Οι παράμετροι του αλγορίθμου είναι: Debug: Εάν η τιμή είναι αληθής (true), ο ταξινομητής μπορεί να προσθέσει επιπλέον πληροφορίες στην οθόνη. NumOfBoostingIterations: Ο αριθμός των επαναλήψεων boosting που χρησιμοποιούνται, ο όποιος καθορίζει το μέγεθος του δέντρου NBTree Αλγόριθμος για την παράγωγη ενός δένδρου απόφασης με naive Bayes ταξινομητές στα φύλλα [Koh96]. Οι παράμετροι του αλγορίθμου είναι: Debug: Εάν η τιμή είναι αληθής (true), ο ταξινομητής μπορεί να προσθέσει επιπλέον πληροφορίες στην οθόνη REPTree Πρόκειται για έναν γρήγορο αλγόριθμο εκμάθησης δένδρων. Δημιουργεί ένα δένδρο απόφασης ή παλινδρόμησης χρησιμοποιώντας την έννοια του κέρδους (ή της διακύμανσης) πληροφορίας και το κλαδεύει (αφαιρεί μέρη του δένδρου) με την τεχνική μειωμένουσφάλματος (με backfitting). Τα αριθμητικά γνωρίσματα ταξινομούνται μόνο μία φορά, ενώ οι ελλείπουσες τιμές αντιμετωπίζονται με το διαχωρισμό των αντίστοιχων στιγμιότυπων σε κομμάτια όπως και στον C4.5. Οι παράμετροι του αλγορίθμου είναι: 30

31 Debug: Εάν οριστεί αληθής, ο ταξινομητής μπορεί να βγάλει επιπλέον πληροφορίες στην κονσόλα. MaxDepth: Το μέγιστο βάθος του δένδρου (-1 για κανέναν περιορισμό). MinNum: Το ελάχιστο συνολικό βάρος των στιγμιότυπων σε ένα φύλλο. MinVarianceProp: Το ελάχιστο ποσοστό διασποράς σε όλα τα δεδομένα που πρέπει να εμφανίζεται σε έναν κόμβο προκειμένου να εκτελεστεί ο διαχωρισμός (splitting) σε δέντρα παλινδρόμησης (regression trees). NoPruning: Χρήση ή όχι κλαδέματος. NumFolds: Καθορίζει το ποσοστό των δεδομένων που χρησιμοποιούνται στο κλάδεμα (pruning). Ένα μέρος (fold) χρησιμοποιείται για το pruning και τα υπόλοιπα δεδομένα χρησιμοποιούνται για την ανάπτυξη των κανόνων. Seed: Ο «σπόρος» που χρησιμοποιείται για την τυχαιοποίηση των δεδομένων Meta-algorithm και Function Classifiers Meta-algorithm Bagging Αλγόριθμος για την «ενσάκιση» (bagging) ενός ταξινομητή-βάσης με στόχο τη μείωση της διακύμανσης. Μπορεί να χρησιμοποιηθεί τόσο για κατηγοριοποίηση, όσο και για παλινδρόμηση, ανάλογα με τον αλγόριθμο βάσης [Bre96]. Οι παράμετροι του αλγορίθμου είναι: BagSizePercent: Το μέγεθος κάθε σάκου ως ποσοστό του μεγέθους συνόλου εκπαίδευσης (set). CalcOutOfBag: Υπολογισμός ή όχι του εκτός-σάκου (out-of-bag) σφάλματος. Classifier: Ο αλγόριθμος βάσης που χρησιμοποιείται. Debug: Εάν η τιμή είναι αληθής (true), ο ταξινομητής μπορεί να προσθέσει επιπλέον πληροφορίες στην οθόνη. NumIterations: Ο αριθμός των επαναλήψεων. Seed: Ο τυχαίος αριθμητικός «σπόρος» που χρησιμοποιείται RegressionByDiscretization Ένα σχήμα παλινδρόμησης που χρησιμοποιεί οποιοδήποτε ταξινομητή πάνω σε ένα αντίγραφο των δεδομένων, στο οποίο το γνώρισμα κλάσης έχει διακριτοποιηθεί. Η προβλεφθείσα τιμή είναι η αναμενόμενη τιμή του μέσου όρου της κλάσης για κάθε διακριτοποιημένο διάστημα (με βάση τις προβλεφθείσες πιθανότητες για κάθε διάστημα). Οι παράμετροι του αλγορίθμου είναι: Classifier: Ο ταξινομητής βάσης. Debug: Εάν είναι αληθής, ο ταξινομητής εμφανίζει επιπλέον πληροφορίες στην οθόνη. deleteemptybins: Διατήρηση ή όχι των κενών διαστημάτων (bins) μετά τη διακριτοποίηση. 31

32 numbins: Αριθμός διαστημάτων διακριτοποίησης. useequalfrequency: Χρήση διαστημάτων ίσης συχνότητας (equal-frenquency binning) κατά τη διακριτοποίηση, αντί για διαστήματα ίσου πλάτους (equal-width) MultilayerPerceptron Αλγόριθμος που χρησιμοποιεί την τεχνική οπισθοδρόμησης (backpropagation) για να ταξινομήσει τα στιγμιότυπα. Το δίκτυο μπορεί να σχεδιαστεί χειροκίνητα, να δημιουργηθεί από ένα αλγόριθμο ή και τα δύο. Επιπλέον μπορεί να παρακολουθείται και να τροποποιείται και τη διάρκεια της διαδικασίας εκπαίδευσης. Οι κόμβοι στο δίκτυο είναι όλοι σιγμοειδείς (εκτός των περιπτώσεων αριθμητικών κλάσεων, όποτε και οι κόμβοι εξόδου μετατρέπονται σε unthresholded γραμμικές μονάδες). Οι παράμετροι του αλγορίθμου είναι: GUI: Εμφανίζει μια διεπαφή GUI. Αυτό επιτρέπει την παύση και την αλλαγή ενός νευρωνικού δικτύου κατά τη διάρκεια της εκπαίδευσης. AutoBuild: Προσθέτει και συνδέει κρυμμένα επίπεδα στο δίκτυο. Debug: Εάν η τιμή είναι αληθής (true), ο ταξινομητής μπορεί να προσθέσει επιπλέον πληροφορίες στην οθόνη. Decay: Η χρήση αυτής της επιλογής οδηγεί στη σταδιακή μείωση του ρυθμού μάθησης. Ο αρχικός ρυθμός μάθησης διαιρείται με τον αριθμό των εποχών, προκειμένου να καθοριστεί ο τρέχων ρυθμός μάθησης. Αυτό σε κάποιες περιπτώσεις βοηθά στην αποτροπή του δικτύου από το να αποκλίνει από την έξοδο-στόχο, καθώς και στη γενική βελτίωση της απόδοσης. HiddenLayers: Εδώ καθορίζεται ο αριθμός των κρυμμένων επίπεδων στο νευρωνικό δίκτυο. Είναι μια λίστα από θετικούς φυσικούς αριθμούς, έναν για κάθε κρυμμένο επίπεδο. Για να μην υπάρχει κρυμμένο επίπεδο χρησιμοποιούμε το 0, ενώ υπάρχουν και οι παρακάτω πιθανές τιμές: 'a' = (attribs + classes) / 2, 'i' = attribs, 'o' = classes, 't' = attribs + classes. LearningRate: Η ποσότητα με την οποία ενημερώνονται τα βάρη. Momentum: Το momentum που εφαρμόζεται στα βάρη κατά την ενημέρωσή τους. NominalToBinaryFilter: Προεπεξεργασία των στιγμιότυπων με το ομώνυμο φίλτρο. Μπορεί να βοηθήσει στη βελτίωση της απόδοσης αν υπάρχουν ονομαστικά γνωρίσματα στα δεδομένα. NormalizeAttributes: Κανονικοποίηση (μεταξύ του -1 και 1) των γνωρισμάτων. Μπορεί να βοηθήσει στη βελτίωση της επίδοσης του δικτύου. Δεν εξαρτάται από το αν η κλάση είναι αριθμητική ή όχι, ενώ κανονικοποιεί και τα ονομαστικά γνωρίσματα. NormalizeNumericClass: Κανονικοποίηση της κλάσης, αν αυτή είναι αριθμητική. Μπορεί να συμβάλει στη βελτίωση των επιδόσεων του δικτύου. Εφαρμόζεται μόνο «εσωτερικά», αφού η τελική έξοδος ξαναμετατρέπεται ώστε να επανέλθει στο αρχικό της εύρος. 32

33 Reset: Η επιλογή αυτή επιτρέπει στο δίκτυο να επανεκκινήσει με χαμηλότερο ρυθμό μάθησης. Αν το δίκτυο αποκλίνει από την απάντηση, επανεκκινείται με χαμηλότερο ρυθμό μάθησης και ξαναρχίζει την εκπαίδευσή του. Seed: Ο «σπόρος» που χρησιμοποιείται για την αρχικοποίηση της γεννήτριας τυχαίων αριθμών. Τυχαίοι αριθμοί χρησιμοποιούνται για τον καθορισμό των αρχικών βαρών των συνδέσεων μεταξύ των κόμβων, αλλά και για το «ανακάτεμα» (shuffling) των δεδομένων εκπαίδευσης. TrainingTime: Ο αριθμός των εποχών εκπαίδευσης. Εάν το σύνολο επικύρωσης δεν είναι μηδενικό, τότε το δίκτυο μπορεί να τερματίσει νωρίτερα. ValidationSetSize: Το ποσοστό μεγέθους του συνόλου επικύρωσης. Η εκπαίδευση θα συνεχιστεί μέχρι να παρατηρηθεί ότι το σφάλμα στο σύνολο επικύρωσης χειροτερεύει συνεχώς (consistently) ή ότι ο χρόνος εκπαίδευσης έχει ολοκληρωθεί. ValidationThreshold: Χρησιμοποιείται για τον τερματισμό των δοκιμών επικύρωσης. Η τιμή που δίνεται στην παράμετρο υπαγορεύει πόσες (συνεχόμενες) φορές μπορεί να επιδεινωθεί το σφάλμα επικύρωσης πριν τερματιστεί η εκπαίδευση Linear Regression Αλγόριθμος που χρησιμοποιεί την γραμμική παλινδρόμηση για πρόβλεψη. Χρησιμοποιεί το κριτήριο Akaike για την επιλογή του μοντέλου, ενώ μπορεί να διαχειριστεί και σταθμισμένα δείγματα εκπαίδευσης. Οι παράμετροι του αλγορίθμου είναι: attributeselectionmethod: Θέτει τη μέθοδο που θα χρησιμοποιηθεί για την επιλογή των γνωρισμάτων προς χρήση στην γραμμική παλινδρόμηση. Οι διαθέσιμες μέθοδοι είναι: (α) καμία επιλογή γνωρισμάτων, (β) επιλογή γνωρισμάτων με τη μέθοδο του αλγορίθμου M5 και (γ) μια άπληστη μέθοδος επιλογής που χρησιμοποιεί της μετρική πληροφορίας Akaike. Debug: Εάν η τιμή είναι αληθής (true), ο ταξινομητής μπορεί να προσθέσει επιπλέον πληροφορίες στην οθόνη. eliminatecolinearattributes: Αποβολή συγγραμικών (collinear) γνωρισμάτων. Ridge: Τιμή της παραμέτρου ridge RBFNetwork Αλγόριθμος που υλοποιεί ένα κανονικοποιημένο Gaussian δίκτυο ακτινικής συνάρτησης βάσης (radial basis function). Χρησιμοποιεί τον αλγόριθμο Κ-means για να παρέχει τις συναρτήσεις βάσης και μαθαίνει ένα μοντέλο είτε λογιστικής παλινδρόμησης (προβλήματα διακριτής κλάσης) είτε γραμμικής παλινδρόμησης (προβλήματα αριθμητικής κλάσης). Συμμετρικές γκαουσιανές πολλών μεταβλητών (multivariate Gaussians) προσαρμόζονται στα δεδομένα κάθε συστάδας. Εάν η κλάση είναι ονομαστική χρησιμοποιείται συγκεκριμένος αριθμός συστάδων ανά κλάση. Όλα τα αριθμητικά γνωρίσματα τυποποιούνται (standardized), ώστε να έχουν μέσο όρο μηδέν και μοναδιαίο διακύμανση (variance). 33

34 Οι παράμετροι του αλγορίθμου είναι: clusteringseed: Tυχαίος αριθμός για την αρχικοποίηση του αλγορίθμου K-means. Debug: Εάν είναι αληθής, ο ταξινομητής εμφανίζει επιπλέον πληροφορίες στην οθόνη. maxits: Μέγιστος αριθμός επαναλήψεων για τη λογιστική παλινδρόμηση. Εφαρμόζεται μόνο σε προβλήματα διακριτής κλάσης. minstddev: Ελάχιστη τυπική απόκλιση για τις συστάδες. numclusters: Αριθμός συστάδων που παράγονται από τον K-Means. Ridge: Τιμή της παραμέτρου ridge για τη λογιστική ή γραμμική παλινδρόμηση. 2.3 Μέθοδοι και μετρικές αξιολόγησης Διασταυρωμένη επικύρωση (cross validation) Είναι χρήσιμο να αναφέρουμε την τεχνική της 10-πλης διασταυρωμένης επικύρωσης (10 fold cross-validation) διότι τα αποτελέσματα αξιολόγησης των αναπτυσσόμενων μοντέλων που παρουσιάζονται στο υπόλοιπο μέρος της εργασίας υπολογίζονται με τη συγκεκριμένη μέθοδο. Η διασταυρωμένη επικύρωση είναι μια στατιστική μέθοδος αξιολόγησης και σύγκρισης αλγορίθμων μάθησης που βασίζεται στη διαίρεση των υπό μελέτη δεδομένων σε δυο τμήματα. Το ένα χρησιμοποιείται για την εκμάθηση ή εκπαίδευση του μοντέλου και το άλλο χρησιμοποιείται για την επικύρωσή του. Σε μία τυπική διαδικασία αυτού του τύπου τα σύνολα εκπαίδευσης και επικύρωσης πρέπει να διασταυρωθούν σε διαδοχικούς επιτυχείς γύρους, ώστε κάθε δείγμα δεδομένων να έχει την ευκαιρία να επικυρωθεί. Η βασική μορφή της διασταυρωμένης επικύρωσης είναι η k-fold, στην οποία τα δεδομένα χωρίζονται σε Κ ισομεγέθη τμήματα (segments). Στη συνεχεία, οι K επαναλήψεις της εκπαίδευσης (training set) και επικύρωσης (test set) του μοντέλου εκτελούνται με τέτοιο τρόπο, ώστε σε κάθε επανάληψη να κρατείται ένα διαφορετικό πάντα τμήμα για επικύρωση, ενώ τα υπόλοιπα αποτελούν τη βάση εκπαίδευσης του αλγόριθμου. Στην εξόρυξη δεδομένων και στη μηχανική μάθηση η πιο κοινή διαδικασία είναι η 10-πλη διασταυρωμένη επικύρωση (10-fold cross-validation) [Koh95] Πίνακες σύγχυσης (confusion matrices) και μετρικές αξιολόγησης Σε multiclass προβλήματα πρόβλεψης, το αποτέλεσμα για ένα σύνολο δοκιμής επιδεικνύεται συχνά ως μία δισδιάστατη μήτρα σύγχυσης με μια σειρά και στήλη για κάθε κλάση. Κάθε στοιχείο της μήτρας παρουσιάζει τον αριθμό των παραδειγμάτων δοκιμής για τα οποία η πραγματική κλάση είναι αυτή που αντιστοιχεί στη σειρά του στοιχείου και η προβλεφθείσα κατηγορία είναι αυτή που αντιστοιχεί στη στήλη. Τα σωστά αποτελέσματα αντιστοιχούν στην κύρια διαγώνιο και οι αστοχίες, ιδανικά μηδέν, είναι τα εκτός διαγωνίου στοιχεία. 34

35 Ο Πίνακας 1 (α) δείχνει ένα αριθμητικό παράδειγμα με τρεις κλάσεις a, b, c. Σε αυτήν την περίπτωση το σύνολο δοκιμής έχει 200 περιπτώσεις (το άθροισμα των εννέα αριθμών στη μήτρα), και = 140 από τους αριθμούς προβλέπονται σωστά. Έτσι, το ποσοστό επιτυχίας, ή αλλιώς η ακρίβεια πρόβλεψης του αντίστοιχου μοντέλου, είναι 70%. Είναι, όμως, η ακρίβεια ένα δίκαιο μέτρο γενικής επιτυχίας; Πόσες συμφωνίες αναμένουμε κατά τύχη; Στο συγκεκριμένο παράδειγμα, το υπό αξιολόγηση μοντέλο κατατάσσει συνολικά 120 δείγματα στην κλάση a, 60 δείγματα στην κλάση b, και 20 στη c. Τι θα γίνονταν εάν είχαμε μια τυχαία πρόβλεψη που προέβλεπε τους ίδιους συνολικά αριθμούς από τις τρεις κλάσεις; Η απάντηση παρουσιάζεται στον Πίνακα 2, όπου η πρώτη σειρά διαιρεί τα 100 δείγματα τύπου a στη δοκιμή με βάση την αναλογία που ορίζεται παραπάνω (120/60/20), ενώ η δεύτερη και η τρίτη σειρά κάνουν το ίδιο πράγμα για τις άλλες δύο κλάσεις. Φυσικά, τα σύνολα σειρών και στηλών για τους δύο πίνακες σύγχυσης είναι τα ίδια. Ο αριθμός των περιπτώσεων δεν έχει αλλάξει, και έχουμε εξασφαλίσει ότι η τυχαία πρόβλεψη προβλέπει τον ίδιο αριθμό δειγμάτων των κλάσεων a, b, και c με την πραγματική περίπτωση. Η τυχαία πρόβλεψη του Πίνακα 2 προβλέπει σωστά = 82 περιπτώσεις, δηλαδή η ακρίβεια της είναι 41%. Ένα μέτρο που καλείται στατιστικό Kappa λαμβάνει αυτόν τον αναμενόμενο αριθμό σωστών προβλέψεων υπόψη, αφαιρώντας τον από τις πραγματικές επιτύχεις περιπτώσεις, και εκφράζει το αποτέλεσμα ως ποσοστό του συνόλου για μια τέλεια πρόβλεψη. Στο παράδειγμα μας έχουμε 140(a) 82(b) = 58 επιτυχίες μέσα από ένα πιθανό σύνολο = 118 επιτυχιών δηλαδή έχουμε ένα ποσοστό της τάξεως του 49.2%. Η μέγιστη τιμή του στατιστικού Kappa είναι 100% και είναι η αναμενόμενη αξία για μια τυχαία πρόβλεψη με τις ίδιες συνολικά στήλες είναι μηδέν. Συνολικά, η μετρική Kappa χρησιμοποιείται για να μετρήσει τη συμφωνία μεταξύ των προβλεφθεισών και παρατηρηθεισών κατηγοριοποιήσεων ενός συνόλου δεδομένων, διορθώνοντας τη συμφωνία που εμφανίζεται κατά τύχη. Εντούτοις, όπως και η μετρική της ακρίβειας, δεν λαμβάνει υπόψη τα (πιθανά διαφορετικά) κόστη των λανθασμένων κατηγοριοποιήσεων [Wit05]. Πίνακας 1 Πραγματικά αποτελέσματα για την πρόβλεψη ενός προβλήματος τριών κλάσεων. Πραγματικές Κλάσεις/Προβλεπόμενες a b c Σύνολο a b c Σύνολο Πίνακας 2 Αναμενόμενα αποτελέσματα για την πρόβλεψη ενός προβλήματος τριών κλάσεων. Πραγματικές Κλάσεις/Προβλεπόμενες a b c Σύνολο a b c Σύνολο

36 2.4 Αλγόριθμοι Ομαδοποίησης Ομαδοποίηση (clustering) Η ομαδοποίηση μπορεί να θεωρηθεί το σημαντικότερο πρόβλημα μη επιβλεπόμενης μάθησης (unsupervised learning). Εξετάζει το πρόβλημα εύρεσης δομής σε μια συλλογή μη επισημασμένων (unlabeled) δειγμάτων δεδομένων. Ένας χαλαρός ορισμός της ομαδοποίησης θα μπορούσε να είναι ο εξής: ομαδοποίηση είναι η διαδικασία οργάνωσης αντικείμενων σε ομάδες, των οποίων τα μέλη είναι παρόμοια με κάποιο τρόπο. Μια ομάδα (cluster) είναι, επομένως, μια συλλογή αντικειμένων που είναι «παρόμοια» μεταξύ τους και «ανόμοια» με τα αντικείμενα που ανήκουν σε άλλες ομάδες. Σχήμα 2-4 Μια Απλή Ομαδοποίηση Η διαδικασία της ομαδοποίησης μπορεί να παρουσιαστεί με ένα απλό γραφικό παράδειγμα (Σχήμα 2-4). Σε αυτήν την περίπτωση προσδιορίζουμε εύκολα τις 4 συστάδες στις οποίες μπορούν να διαιρεθούν τα στοιχεία, αν ως κριτήριο ομοιότητας χρησιμοποιήσουμε τη γεωμετρική τους απόσταση. Γενικά, στην περίπτωση της ομαδοποίησης με βάση την απόσταση (distance-based clustering), δύο ή περισσότερα αντικείμενα ανήκουν στην ίδια ομάδα εάν είναι «κοντά» σύμφωνα με μια δεδομένη μετρική απόστασης (την γεωμετρική απόσταση στο παράδειγμά μας). Ένα άλλο είδος ομαδοποίησης είναι η εννοιολογική ομαδοποίηση: δύο ή περισσότερα αντικείμενα ανήκουν στην ίδια ομάδα εάν αυτή καθορίζει μια έννοια κοινή για όλα τα αντικείμενα. Με άλλα λόγια, τα αντικείμενα ομαδοποιούνται σύμφωνα με την αντιστοίχιση τους σε περιγραφικές έννοιες και όχι σύμφωνα με κάποιο μέτρο ομοιότητας. Σε κάθε περίπτωση, πάντως, ο στόχος είναι να καθοριστεί η εγγενής ομαδοποίηση σε ένα σύνολο μη επισημασμένων δειγμάτων. Αλλά πώς μπορεί να αποφασίσει κανείς τι αποτελεί μια «καλή ομαδοποίηση»; Μπορεί να αποδειχθεί ότι δεν υπάρχει κανένα απόλυτο ή βέλτιστο κριτήριο που θα ήταν ανεξάρτητο από τον τελικό στόχο της ομαδοποίησης. Συνεπώς, είναι ο χρήστης που πρέπει να παρέχει αυτό το κριτήριο, κατά τέτοιο τρόπο ώστε 36

37 το αποτέλεσμα της ομαδοποίησης να ανταποκρίνεται στις ανάγκες του. Για παράδειγμα, είναι πιθανό να ενδιαφερόμαστε για την εύρεση των αντιπροσώπων ομοιογενών ομάδων (μείωση δεδομένων), για την εύρεση «φυσικών ομάδων» και την περιγραφή άγνωστων ιδιοτήτων τους («φυσικοί» τύποι δεδομένων), για την εύρεση χρήσιμων και κατάλληλων σχηματισμών ομάδας («χρήσιμες» κατηγορίες δεδομένων) ή για την εύρεση ασυνήθιστων δειγμάτων δεδομένων (outlier detection). Οι αλγόριθμοι ομαδοποίησης μπορούν να εφαρμοστούν σε πολλούς τομείς, μεταξύ των οποίων είναι και οι ακόλουθοι: Μάρκετινγκ: βρίσκοντας ομάδες πελατών με παρόμοια συμπεριφορά, δεδομένης μιας μεγάλης βάσης δεδομένων πελατών που περιέχει τα γνωρίσματα και το ιστορικό αγορών τους. Βιολογία: ταξινόμηση φυτών και ζώων δεδομένων των χαρακτηριστικών γνωρισμάτων τους. Ασφάλεια: Προσδιορισμός ομάδων κατόχων πολιτικών ασφάλειας μηχανοκίνητων οχημάτων με υψηλό μέσο κόστος αξίωσης ή/και προσδιορισμός απατών. Πόλη-προγραμματισμός: προσδιορισμός ομάδων σπιτιών, σύμφωνα με τον τύπο των σπιτιών, την αξία και τη γεωγραφική θέση τους. Παρατήρηση σεισμών: συγκέντρωση των παρατηρούμενων επίκεντρων σεισμών για να προσδιοριστούν οι επικίνδυνες ζώνες. WWW: ταξινόμηση εγγράφων και επεξεργασία weblog δεδομένων με στόχο την ανακάλυψη ομάδων με παρόμοια μοτίβα πρόσβασης. Οι κύριες απαιτήσεις που πρέπει να ικανοποιούνται από έναν αλγόριθμο ομαδοποίησης είναι: Ελεγξιμότητα. Αντιμετώπιση διαφορετικών τύπων γνωρισμάτων. Ανακάλυψη των ομάδων με αυθαίρετη μορφή. Ελάχιστες απαιτήσεις γνώσης της υπό μελέτη περιοχής για να καθοριστούν οι παράμετροι του αλγορίθμου. Δυνατότητα αντιμετώπισης θορύβου και ασυνήθιστων δειγμάτων δεδομένων (outliers). Αναισθησία στη σειρά των αρχείων εισαγωγής. Δυνατότητα αντιμετώπισης προβλημάτων με υψηλή διαστατικότητα. Δυνατότητα ερμηνείας των αναπτυσσόμενων μοντέλων (interpretability) και ευκολία χρήσης τους (usability). Αξίζει, επίσης, να αναφερθεί ότι υπάρχουν διάφορα προβλήματα με την ομαδοποίηση. Μεταξύ των προβλημάτων αυτών είναι το γεγονός ότι οι υπάρχουσες τεχνικές ομαδοποίησης δεν πληρούν όλες τις απαιτήσεις επαρκώς (και ταυτόχρονα), ενώ σημαντικό πρόβλημα αποτελεί και η αντιμετώπιση προβλημάτων με μεγάλο αριθμό διαστάσεων ή/και 37

38 μεγάλο αριθμό δεδομένων, λόγω της χρονικής πολυπλοκότητας. Επίσης, η αποτελεσματικότητα των μεθόδων ομαδοποίησης εξαρτάται συχνά από τον καθορισμό της χρησιμοποιούμενης μετρικής απόστασης (για την βασισμένη-στην-απόσταση ομαδοποίηση); εάν δεν υπάρχει κάποιο προφανές μέτρο απόστασης, πρέπει να το καθορίσουμε, πράγμα που δεν είναι πάντα εύκολο, ειδικά στα πολυδιάστατα προβλήματα. Τέλος, το αποτέλεσμα των αλγορίθμων ομαδοποίησης μπορεί να ερμηνευθεί με διαφορετικούς τρόπους. Οι αλγόριθμοι ομαδοποίησης μπορούν να κατηγοριοποιηθούν ως εξής: Αποκλειστική Ομαδοποίηση (Exclusive Clustering) Επικαλυπτόμενη Ομαδοποίηση (Overlapping Clustering) Ιεραρχική Ομαδοποίηση (Hierarchical Clustering) Πιθανοτική Ομαδοποίηση (Probabilistic Clustering) Στην πρώτη περίπτωση, αυτή της αποκλειστικής ομαδοποίησης, τα δεδομένα ομαδοποιούνται με «αποκλειστικό» τρόπο, έτσι ώστε εάν ένα ορισμένο στοιχείο ανήκει σε μια συγκεκριμένη ομάδα να μην μπορεί να περιληφθεί σε καμία άλλη. Ένα απλό παράδειγμα παρουσιάζεται στο Σχήμα 2-5, όπου ο διαχωρισμός των σημείων σε ομάδες επιτυγχάνεται με τη χρήση μιας ευθείας γραμμής σε ένα δισδιάστατο επίπεδο. Αντιπροσωπευτικός αλγόριθμος της κατηγορίας αυτής είναι ο k-means. Σχήμα 2-5 Αποκλειστική Ομαδοποίηση Σε αντίθεση με την αποκλειστική ομαδοποίηση, η επικαλυπτόμενη ομαδοποίηση, χρησιμοποίει ασαφή σύνολα για να ομαδοποιήσει τα δείγματα-σημεία δεδομένων, έτσι ώστε κάθε σημείο να μπορεί να ανήκει σε δύο ή περισσότερες συστάδες με διαφορετικό επίπεδο ομαδοποίησης. Οι ιεραρχικοί αλγόριθμοι ομαδοποίησης βασίζονται στη διαδοχική ένωση «κοντινών» ομάδων. Η αρχική ομαδοποίηση πραγματοποιείται με τον καθορισμό κάθε στοιχείου ως ομάδα, ενώ ο αλγόριθμος φθάνει στις τελικές επιθυμητές ομάδες μετά από μερικές επαναλήψεις συνενώσεις ομάδων. Αντιπροσωπευτικός αλγόριθμος της κατηγορίας αυτής είναι ο Hierarchical clustering. 38

39 Τέλος, στο τέταρτο είδος ομαδοποίησης χρησιμοποιείται μια απολύτως πιθανολογική προσέγγιση, με αντιπροσωπευτικό παράδειγμα τον αλγόριθμο Mixture of Gaussians Μετρικές Απόστασης (Distance Measures) Ένα σημαντικό συστατικό ενός αλγορίθμου ομαδοποίησης είναι το χρησιμοποιούμενο μέτρο απόστασης μεταξύ των σημείων δεδομένων. Εάν τα διανύσματα γνωρισμάτων των δειγμάτων δεδομένων είναι όλα στις ίδιες φυσικές μονάδες, τότε είναι δυνατό η απλή Ευκλείδεια απόσταση να είναι επαρκής για να ομαδοποιήσει επιτυχώς τις παρόμοιες περιπτώσεις δειγμάτων. Εντούτοις, ακόμη και σε αυτήν την περίπτωση η Ευκλείδεια απόσταση μπορεί μερικές φορές να είναι παραπλανητική. Το Σχήμα 2-6 επεξηγεί το γεγονός αυτό με ένα παράδειγμα των μετρήσεων πλάτους και ύψους ενός αντικειμένου. Παρότι οι δύο μετρήσεις λαμβάνονται στις ίδιες φυσικές μονάδες, μια ενημερωμένη απόφαση πρέπει να ληφθεί ως προς τη σχετική κλιμάκωση, αφού, όπως φαίνεται στο σχήμα, διαφορετική κλιμάκωση μπορεί να οδηγήσει σε διαφορετικές ομαδοποιήσεις. Σχήμα 2-6 Πριν και μετά την κλιμάκωση Παρατηρούμε, όμως, ότι αυτό δεν είναι μόνο ένα γραφικό ζήτημα: το πρόβλημα προκύπτει από τον μαθηματικό τύπο που χρησιμοποιείται για να συνδυάσει τις αποστάσεις μεταξύ των διανυσμάτων δεδομένων σε ένα μοναδικό μέτρο απόστασης, που μπορεί να χρησιμοποιηθεί για τους σκοπούς της ομαδοποίησης, με αποτέλεσμα διαφορετικοί τύποι να οδηγούν σε διαφορετικές ομαδοποιήσεις. Επομένως, για κάθε συγκεκριμένο πρόβλημα, πρέπει να χρησιμοποιηθεί γνώση από το πεδίο εφαρμογής για να καθοδηγήσει τη διατύπωση ενός κατάλληλου μέτρου απόστασης. Ωστόσο, υπάρχουν συγκεκριμένες μετρικές απόστασης που χρησιμοποιούνται συχνά, με πιο γνωστή την απόσταση Minkowski. Η απόσταση Minkowski για πολυδιάστατα δεδομένα υπολογίζεται, σύμφωνα με την παρακάτω σχέση, όπου d είναι η διάσταση των δεδομένων:,,, 39

40 Η Ευκλείδεια απόσταση είναι μια υποπερίπτωση της παραπάνω σχέσης με y=2, ενώ η απόσταση Manhattan προκύπτει για y=1. Τέλος, αξίζει να αναφερθεί και η περίπτωση όπου τα στοιχεία των διανυσμάτων δεδομένων δεν είναι άμεσα συγκρίσιμα. Για αυτό μπορεί να ευθύνεται το γεγονός ότι δεν είναι συνεχείς μεταβλητές, όπως το μήκος, αλλά ονομαστικές κατηγορίες, όπως οι ημέρες της εβδομάδας. Και σε αυτές τις περιπτώσεις, πρέπει να χρησιμοποιηθεί γνώση από το πεδίο εφαρμογής του προβλήματος (domain knowledge) για να διατυπωθεί ένα κατάλληλο μέτρο απόστασης [HK06] Ο αλγόριθμος K-means Στην παρούσα διπλωματική ασχοληθήκαμε με την αποκλειστική ομαδοποίηση και ειδικότερα με τον αλγόριθμο K-means. Ο εν λόγω αλγόριθμος είναι ένας από τους απλούστερους αλγορίθμους μη επιβλεπόμενης μάθησης, ο οποίος έχει δειχθεί ότι μπορεί να αντιμετωπίσει αποτελεσματικά πολλά γνωστά προβλήματα ομαδοποίησης. Ο αλγόριθμος χρησιμοποιεί μία απλή και εύκολη διαδικασία ανάθεσης των δειγμάτων ενός συνόλου δεδομένων σε έναν a priori καθορισμένο αριθμό ομάδων (έστω Κ). Η κύρια ιδέα είναι να καθοριστούν Κ κέντρα (centroids), ένα για κάθε ομάδα. Αυτά τα κέντρα (centroids) πρέπει να τοποθετούνται με έξυπνο τρόπο, διότι για κάθε διαφορετική θέση προκύπτει διαφορετικό αποτέλεσμα. Έτσι, η καλύτερη επιλογή είναι να τοποθετηθούν όσο το δυνατόν μακρύτερα το ένα από το άλλο. Το επόμενο βήμα είναι να ληφθεί κάθε σημείο που ανήκει σε ένα δεδομένο σύνολο στοιχείων και να συνδεθεί με το κοντινότερο κέντρο (centroid). Όταν κανένα σημείο δεν εκκρεμεί πια, το πρώτο βήμα ολοκληρώνεται και έχει δημιουργηθεί ένα πρώιμο σύνολο ομάδων. Σε αυτό το σημείο πρέπει να υπολογίσουμε εκ νέου τα Κ κέντρα (centroids) ως τα βαρύκεντρα των ομάδων του προηγούμενου βήματος. Εφόσον εντοπίσουμε αυτά τα νέα κέντρα, μια νέα σύνδεση πρέπει να γίνει μεταξύ των στοιχείων δεδομένων και του κοντινότερου ως προς αυτά νέου κέντρου. Η διαδικασία (επανυπολογισμού των κέντρων και εκ νέου ανάθεσης των στοιχείων δεδομένων στις ομάδες που ορίζονται από τα κέντρα) εκτελείται επαναληπτικά, με αποτέλεσμα τα κέντρα να αλλάζουν τη θέση τους βαθμιαία. Η συνθήκη τερματισμού του αλγορίθμου ελέγχει πότε δεν γίνονται άλλες αλλαγές στις αναθέσεις των στοιχείων δεδομένων, ή ισοδύναμα, πότε τα κέντρα σταματούν να «μετακινούνται». Με άλλα λόγια, ο αλγόριθμος K-means στοχεύει στην ελαχιστοποίηση μιας συνάρτησης, η οποία σε αυτήν την περίπτωση ταυτίζεται με τη συνάρτηση τετραγωνικού σφάλματος: όπου είναι η απόσταση (με βάση την επιλεγμένη μετρική) μεταξύ ενός στοιχείου δεδομένων και του κέντρου της ομάδας, ενώ J είναι ένας δείκτης της απόστασης των n σημείων από τα αντίστοιχα κέντρα των ομάδων τους [EV93]. 40

41 Επιγραμματικά, ο αλγόριθμος K-means αποτελείται από τα εξής βήματα: 1. Τοποθέτησε K σημεία στο χώρο που αντιπροσωπεύεται από τα αντικείμενα προς ομαδοποίηση. Αυτά τα σημεία αντιπροσωπεύουν τα αρχικά κέντρα (centroids) των ομάδων. 2. Ανέθεσε κάθε αντικείμενο στην ομάδα με το πλησιέστερο κέντρο. 3. Όταν όλα τα στοιχειά ανατεθούν σε κάποια ομάδα, υπολόγισε εκ νέου τα κέντρα των ομάδων. 4. Επανέλαβε τα βήματα 2 και 3 έως ότου τα κέντρα να μην κινούνται πλέον. Η παραπάνω διαδικασία παράγει ένα διαμερισμό των αντικειμένων σε ομάδες για τις οποίες το τετραγωνικό σφάλμα που ελαχιστοποιείται μπορεί να υπολογιστεί. Αν και μπορεί να αποδειχθεί ότι η διαδικασία θα ολοκληρώνεται πάντα, ο αλγόριθμος Κ-means δεν βρίσκει απαραιτήτως τη βέλτιστη διαμόρφωση, που αντιστοιχεί στο αντικειμενικά ελάχιστο σφάλμα. Ο αλγόριθμος είναι, επίσης, σημαντικά ευαίσθητος στα αρχικά τυχαία επιλεγμένα κέντρα συστάδων, αλλά μπορεί να εκτελεστεί πολλαπλές φορές, ώστε να μειωθεί αυτή η επίδραση. Συνολικά, ο K-means είναι ένας απλός αλγόριθμος που έχει, όμως, προσαρμοστεί σε πολλές περιοχές προβλημάτων [MacQ67]. 41

42

43 Κεφάλαιο 3. Πρόβλεψη ωοπαραγωγής: μια πρώτη προσπάθεια 3.1 Εισαγωγικά Με την πάροδο των ετών η ζήτηση ορνίθων παρουσιάζει μια διαρκή αύξηση, για την ικανοποίηση της οποίας έχουν δημιουργηθεί μεγάλες πτηνοτροφικές μονάδες. Στις μονάδες αυτές πρέπει να γίνονται διαρκείς έλεγχοι σχετικά με την ποιότητα διατροφής, την ποιότητα διαμονής και τη διαδικασία σφαγής των ζώων. Οποιαδήποτε πληροφορία μπορεί να εξαχθεί από τον μεγάλο όγκο δεδομένων που παράγεται από τις πτηνοτροφικές μονάδες μπορεί να αποδειχθεί χρήσιμη για την αύξηση της ωοπαραγωγής των ορνίθων και, συνεπώς, τη βελτίωση των εγκαταστάσεων και την αύξηση των κερδών της εταιρείας παραγωγής. Στην κατεύθυνση αυτή, κάποιες εταιρείες δημιούργησαν τμήματα ερευνών, ώστε να διαχειριστούν τις ήδη υπάρχουσες πληροφορίες ή να αντλήσουν νέες για τον πληθυσμό των ορνίθων. Αυτή η προσπάθεια στοχεύει τόσο στη βελτίωση της ωοπαραγωγής των ορνίθων, όσο και στη βελτίωση του γενετικού υλικού του πληθυσμού. Γνωρίσματα όπως η μερική ωοπαραγωγή μιας όρνιθας, ο μηνάς γέννησης, η ημερομηνία θανάτου και η τελική ωοπαραγωγή της μπορούν να συμβάλουν στην αναζήτηση μοτίβων (patterns) που ακολουθεί ένα μέρος του πληθυσμού. Από την πλευρά της γενετικής θα ήταν ενδιαφέρον να συλλέξουμε πληροφορίες από τον ισχυρό παραγωγικά πληθυσμό. Η ανάδειξη τέτοιας πληροφορίας θα μπορούσε να είναι χρήσιμη στο επιστημονικό προσωπικό της εταιρείας για ενέργειες όπως η βελτίωση του γενετικού υλικού στον συνολικό πληθυσμό. Σε κάθε περίπτωση, όμως, τα διαθέσιμα δεδομένα πρέπει να επεξεργαστούν κατάλληλα, ώστε να είναι δυνατή η εκμετάλλευσή τους. 3.2 Μια πρώτη προσπάθεια Η αποτελεσματική προεπεξεργασία των διαθέσιμων δεδομένων θέτει τα θεμέλια για μια σωστή και σε βάθος ανάλυση με την οποία θα επιτύχουμε την καλύτερη δυνατή εξόρυξη γνώσης. Στην παρούσα διπλωματική χρησιμοποιούμε ένα σύνολο δεδομένων που παραχωρήθηκε από την εταιρεία Aviagen, η οποία δραστηριοποιείται εμπορικά στον τομέα της εκτροφής, αλλά και ερευνητικά στους τομείς της γενετικής και της βιο-ασφάλειας (biosecurity) πουλερικών. Το υπό μελέτη σύνολο δεδομένων αφορά όρνιθες (broilers) και περιέχει τις εξής πληροφορίες για κάθε μία από αυτές: η ημερομηνία γέννησης, η 43

44 ημερομηνία θανάτου, η πρώτη μέρα καταγραφής στο σύστημα παρακολούθησης της ωοπαραγωγής και η χρονοσειρά ωοπαραγωγής, η οποία αποτελεί ουσιαστικά από μια ακολουθία αριθμών που αντιστοιχούν στις ημέρες ωοπαραγωγής και ηρεμίας. Παρακάτω παραθέτουμε τις κωδικές ονομασίες που θα χρησιμοποιούμε στο εξής για κάθε γνώρισμα του αρχικού συνόλου δεδομένων, μαζί με ένα παράδειγμα εγγραφής: Animal WEEK_number Dead Start_egg_rec First_egg Daily_egg NA Animal Είναι ένας μοναδικός κωδικός που αποτελείται από δεκατρία ψηφία. Η κάθε όρνιθα στην πτηνοτροφική μονάδα έχει την αντίστοιχη κωδική τιμή. Week_number Είναι ο αριθμός της περιόδου που γεννήθηκε η συγκεκριμένη όρνιθα. Οι τιμές ξεκινούν από 2750 και καταλήγουν σε Πιο συγκεκριμένα η περίοδος αυτή αποτελείται από τρεις συνεχόμενες εβδομάδες. Dead Είναι η ημερομηνία θανάτου της αντίστοιχης όρνιθας. Σε περιπτώσεις που δεν γνωρίζουμε την ακριβή ημερομηνία θανάτου λαμβάνει την τιμή NA ενώ αν η όρνιθα βρίσκεται ακόμα σε ωοπαραγωγική διαδικασία λαμβάνει την τιμή in prod. Start_egg_Rec Είναι η ημερομηνία της πρώτης μέρας καταγραφής μιας όρνιθας στο ηλεκτρονικό σύστημα παρακολούθησης της ωοπαραγωγής. O τύπος της ημερομηνίας αναγράφεται με τον εξής τρόπο : «ΗΗ.ΜΗ.ΕΤΟΣ» First_egg Είναι η ημερομηνία που καταγράφηκε το πρώτο αυγό της αντίστοιχης όρνιθας. Με τον ίδιο τρόπο όπως προαναφέραμε εμφανίζεται και σε αυτή την περίπτωση η ημερομηνία καταγραφής. Daily_egg Είναι μια χρονοσειρά που δείχνει την ωοπαραγωγή της αντίστοιχης όρνιθας. Το μέγεθός της κυμαίνεται από 11 έως 200 χαρακτήρες περίπου. Όπως ήδη αναφέραμε, το σύνολο των δεδομένων που θα επεξεργαστούμε ισοδυναμεί με καταχωρήσεις διαφορετικών ορνίθων, οι οποίες είναι αποθηκευμένες σε ένα αρχείο CSV (οριοθετημένο με κόμμα). Η ανάλυση που θα επακολουθήσει θα αφορά δύο περιπτώσεις: 1. Πλήρες σετ δεδομένων: Θα χρησιμοποιηθούν όλες οι εγγραφές του αρχείου. 2. Μειωμένο σετ δεδομένων: Δεν θα χρησιμοποιηθούν εγγραφές με δεδομένα Death= ΝΑ ή week_number >3473 διότι δεν γνωρίζουμε την ημέρα θανάτου της όρνιθας καθώς και όσες όρνιθες βρίσκονται ακόμα σε διαδικασία ωοπαραγωγής. Σε αυτό το στάδιο είναι απαραίτητο να γνωρίζουμε την ημερομηνία θανάτου μιας όρνιθας καθώς και την συνολική σταθερή ωοπαραγωγή της ώστε να έχουμε μια ορθή στατιστική ανάλυση των δεδομένων ωοπαραγωγής. 44

45 3.3 Στατιστική ανάλυση του πλήρους σετ δεδομένων Βήμα I. Αρχικά αναλύσαμε το πλήρες σετ δεδομένων και βρήκαμε τον μέσο όρο ωοπαραγωγής, καθώς και την τυπική απόκλισή της. Επίσης, δημιουργήσαμε το διάγραμμα συνολικής παραγωγής αυγών-ορνίθων, αρχικά με αύξουσα ταξινόμηση (ως προς τον συνολικό αριθμό αυγών) και στη συνεχεία με τη σειρά που ήταν εγγραμμένες οι όρνιθες. Στο επόμενο βήμα, δημιουργήσαμε κλάσεις που είχαν κάποια πληροφοριακή αξία, τόσο για την εργασία, όσο και για την ίδια την εταιρεία που μας παραχώρησε τα δεδομένα. Με τις συγκεκριμένες πλέον κλάσεις αναπτύξαμε ένα ιστόγραμμα κλάσεων ορνίθων. Οι κλάσεις αυτές ορίζονται με βάση τα εξής διαδοχικά διαστήματα τιμών της συνολικής ωοπαραγωγής: (0,90) [90, 95) [95, 100) [100,105) [105,110) [110,115) [115,120) [120,125) [125,130) [130,135) [135,140) [140,145) [145, 150) [150, ). Βήμα II. Στο δεύτερο βήμα της ανάλυσής μας, χρησιμοποιώντας και πάλι το πλήρες σετ δεδομένων, επικεντρωθήκαμε στην αναζήτηση του μέσου όρου για μια συγκεκριμένη χρονική διάρκεια ωοπαραγωγης. Θεωρήσαμε ότι μπορεί να υπάρχει ενδιαφέρον στον πρώτο μήνα παραγωγής μιας όρνιθας. Έτσι, για την ωοπαραγωγή των 30 πρώτων ημερών, από τη στιγμή που καταγράφηκε στο ηλεκτρονικό σύστημα η παράγωγη του 1 ου αυγού, βρήκαμε τον καινούριο μέσο όρο ωοπαραγωγης, καθώς και την νέα τυπική απόκλιση. Παρακάτω παραθέτουμε τους μέσους όρους, τις τυπικές αποκλίσεις και τα αντίστοιχα διαγράμματα για κάθε βήμα της ανάλυσης που περιγράφηκε παραπάνω. Βήμα I. Συνολική ωοπαραγωγή στο πλήρες σετ δεδομένων Ο μέσος όρος συνολικής ωοπαραγωγής στο πλήρες σετ δεδομένων είναι 116,53 αυγά για κάθε όρνιθα, με μια τυπική απόκλιση ±36.16 αυγά. Στο διάγραμμα του Σχήματος 3-1 παρακολουθούμε τη συνολική ωοπαραγωγή για όλες τις όρνιθες του σετ δεδομένων. Κάθε σημείο του διαγράμματος αντιστοιχεί σε μία όρνιθα. Οι όρνιθες έχουν ταξινομηθεί σε αύξουσα σειρά (ως προς τη συνολική ωοπαραγωγή). Μπορούμε να διακρίνουμε ότι η μεγίστη ωοπαραγωγή μιας όρνιθας είναι 196 αυγά, ενώ η ελάχιστη ωοπαραγωγή είναι 0 αυγά. 45

46 200 Total Egg Production per Hen - Full Dataset, Sorted Total Egg Production Number of Hens x 10 4 Σχήμα 3-1 Συνολική ωοπαραγωγή για όλες τις όρνιθες του σετ δεδομένων Στο ιστόγραμμα του Σχήματος 3-2 μπορούμε να διακρίνουμε μια σχετικά κανονική κατανομή των ορνίθων στις κλάσεις 2 έως 13. Η πρώτη κλάση, που περιέχει και ένα μεγάλο αριθμό εγγραφών, είναι αυτή που αντιστοιχεί σε ωοπαραγωγή κάτω από 90, με αποτέλεσμα στην κλάση αυτή να συγκαταλέγονται και όρνιθες που είχαν μικρή διάρκεια ζωής όποτε και μικρή συνολική ωοπαραγωγή. Μια άλλη πληροφορία που μπορούμε να εξάγουμε είναι ότι ο μέσος όρος της ωοπαραγωγής επηρεάζεται αρκετά από τις αρχικές κλάσεις και για αυτό τον λόγο έχει υπολογιστεί αρκετά χαμηλός. Σχήμα 3-2 Κατανομή όλων των ορνίθων του σετ δεδομένων στις κλάσεις που ορίζονται στη συνολική ωοπαραγωγή τους, σύμφωνα με τα διαστήματα (0,90) [90, 95) [95, 100) [145, 150) [150, ) 46

47 Βήμα II. Ωοπαραγωγή «30 ημερών από το 1 ο αυγό» στο πλήρες σετ δεδομένων Ο μέσος όρος ωοπαραγωγής των 30 πρώτων ημερών στο πλήρες σετ δεδομένων είναι αυγά για κάθε όρνιθα, με μια τυπική απόκλιση ± 5.71 αυγά. Από το Σχήμα 3-3, μπορούμε να διακρίνουμε ότι, σε αυτή την περίπτωση, η μεγίστη ωοπαραγωγή μιας όρνιθας είναι 30 αυγά και η ελάχιστη ωοπαραγωγή είναι 1 αυγό. Κάθε σημείο του διαγράμματος αντιστοιχεί σε μία όρνιθα. Οι όρνιθες έχουν ταξινομηθεί σε αύξουσα σειρά (ως προς την ωοπαραγωγή 30 ημερών) days Egg Production per Hen - Full Dataset days Egg Production Number of Hens x 10 4 Σχήμα 3-3 Ωοπαραγωγή «30 ημερών από το 1ο αυγό» για όλες τις όρνιθες του σετ δεδομένων 3.4 Στατιστική ανάλυση του μειωμένου σετ δεδομένων Βήμα I. Σε δεύτερη φάση αναλύσαμε όλο το σετ δεδομένων αφαιρώντας από τα δεδομένα αυτά για τα οποία δεν γνωρίζαμε την κατάληξη της όρνιθας (Death= ΝΑ ) ή αφορούσαν όρνιθες με ωοπαραγωγή σε εξέλιξη (week_number >3473). Τα δεδομένα που παρέμειναν για ανάλυση ήταν καταχωρημένες διαφορετικές όρνιθες. Βρήκαμε τον μέσο όρο ωοπαραγωγής καθώς και την τυπική απόκλισή της. Επίσης δημιουργήσαμε το διάγραμμα συνολικής παραγωγής αυγών-ορνίθων αρχικά με μια αυξητική ταξινόμηση και στην συνεχεία με την σειρά που ήταν εγγραμμένες οι όρνιθες. Στην συνέχεια δημιουργήσαμε κλάσεις που είχαν κάποια πληροφοριακή αξία τόσο για την εργασία αλλά και για την ιδία την εταιρεία που μας παραχώρησε τα δεδομένα. Με τις συγκεκριμένες πλέον κλάσεις αναπτύξαμε ένα ιστόγραμμα κλάσεων ορνίθων. Οι κλάσεις αυτές είναι: (0,90) [90, 95) [95, 100) [100,105) [105,110) [110,115) [115,120) [120,125) [125,130) [130,135) [135,140) [140,145) [145, 150) [150, ). 47

48 Βήμα II. Στο 2 ο βήμα της ανάλυσης χρησιμοποιήσαμε τα ιδία δεδομένα που είχαμε στην κατοχή μας αφαιρώντας από τα δεδομένα αυτά για τα οποία δεν γνωρίζαμε την κατάληξη της όρνιθας (Death= NA ) ή αφορούσαν όρνιθες με ωοπαραγωγή σε εξέλιξη (week_number >3473). Επικεντρωθήκαμε στην αναζήτηση ενός μέσου όρου για μια συγκεκριμένη χρονική διάρκεια ωοπαραγωγης. Θεωρήσαμε ότι μπορεί να υπάρχει ενδιαφέρον στον πρώτο μήνα παραγωγής μιας όρνιθας. Στην ωοπαραγωγή των 30 πρώτων ημερών από την στιγμή που εμφανίστηκε στο ηλεκτρονικό σύστημα η παράγωγη του 1 ου αυγού, βρήκαμε τον καινούριο μέσο όρο ωοπαραγωγής καθώς και την νέα τυπική απόκλιση. Παρακάτω παραθέτουμε τους μέσους όρους, τις τυπικές αποκλίσεις και τα αντίστοιχα διαγράμματα για κάθε βήμα της ανάλυσης που περιγράφηκε παραπάνω. Βήμα I. Συνολική ωοπαραγωγή στο μειωμένο σετ δεδομένων Ο μέσος όρος συνολικής ωοπαραγωγής στο πλήρες σετ δεδομένων είναι αυγά για κάθε όρνιθα, με μια τυπική απόκλιση ± αυγά. Στο διάγραμμα του Σχήματος 3-4 παρακολουθούμε τη συνολική ωοπαραγωγή για όλες τις όρνιθες του μειωμένου σετ δεδομένων. Κάθε σημείο του διαγράμματος αντιστοιχεί σε μία όρνιθα. Οι όρνιθες έχουν ταξινομηθεί σε αύξουσα σειρά (ως προς τη συνολική ωοπαραγωγή). Μπορούμε να διακρίνουμε ότι και σε αυτή την περίπτωση η μεγίστη ωοπαραγωγή μιας όρνιθας είναι στα 196 αυγά και η ελάχιστη ωοπαραγωγή είναι στα 0 αυγά. 200 Total Egg Production per Hen - Reduced Dataset, Sorted Total Egg Production Number of Hens x 10 4 Σχήμα 3-4 Συνολική ωοπαραγωγή για τις (ταξινομημένες) όρνιθες του μειωμένου σετ δεδομένων Στο ιστόγραμμα του Σχήματος 3-5 συνεχίζουμε να διακρίνουμε μια σχετικά κανονική κατανομή των ορνίθων στις κλάσεις 2 έως 13. Η πρώτη κλάση, είναι αυτή που αντιστοιχεί 48

49 σε ωοπαραγωγή κάτω από 90. Από ότι διακρίνουμε συνεχίζει να υπάρχει ένας μεγάλος αριθμός δεδομένων σε αυτή την κλάση παρόλο που αφαιρέσαμε κάποιες έγγραφες. Σχήμα 3-5 Κατανομή των ορνίθων του μειωμένου σετ δεδομένων στις κλάσεις που ορίζονται στη συνολική ωοπαραγωγή, σύμφωνα με τα διαστήματα (0,90) [90, 95) [95, 100) [145, 150) [150, ) Βήμα II. Ωοπαραγωγή «30 ημερών από το 1 ο αυγό» στο μειωμένο σετ δεδομένων Ο μέσος όρος του σετ δεδομένων στην περίπτωση μας είναι 21,2567 αυγά για κάθε μια όρνιθα με μια τυπική απόκλιση ± 5,6889 αυγά. Μπορούμε να διακρίνουμε ότι σε αυτή την περίπτωση η μεγίστη ωοπαραγωγή μιας όρνιθας είναι στα 30 αυγά και η ελάχιστη ωοπαραγωγή είναι στα 1 αυγά. Κάθε σημείο του διαγράμματος αντιστοιχεί σε μία όρνιθα. Οι όρνιθες έχουν ταξινομηθεί σε αύξουσα σειρά (ως προς την ωοπαραγωγή 30 ημερών). 49

50 30 30-days Egg Production per Hen - Reduced Dataset days Egg Production Number of Hens x 10 4 Σχήμα 3-6 Ωοπαραγωγή «30 ημερών από το 1ο αυγό» για τις όρνιθες του μειωμένου σετ 3.5 Δημιουργία γνωρισμάτων πρόβλεψης Μετά την αρχική ανάλυση των δεδομένων έγινε μια προσπάθεια προεπεξεργασίας τους, ώστε να χρησιμοποιηθούν στη συνέχεια αποτελεσματικά για την εξόρυξη χρήσιμης πληροφορίας μέσω γνωστών αλγορίθμων κατηγοριοποίησης. Με βάση τα γνωρίσματα πρόβλεψης που δημιουργήσαμε ή πήραμε αυτούσια από το υπό μελέτη σύνολο δεδομένων θα προσπαθήσουμε να βρούμε διάφορους κανόνες και συσχετίσεις πάνω στα δεδομένα. Η αρχική μας σκέψη ήταν να βρούμε σχέσεις μεταξύ της ημερομηνίας γέννησης και της συνολικής παραγωγής αυγών, καθώς και σχέσεις μεταξύ της συνολικής παραγωγής αυγών και των πρώτων ημερών παραγωγής αυγών (από 10 έως 30 μέρες). Μια άλλη σχέση που μπορεί να έχει ενδιαφέρον και θα προσπαθήσουμε να εξετάσουμε είναι η θνησιμότητα μιας όρνιθας σε σχέση με την παραγωγή αυγών. Με βάση αυτές τις γενικές κατευθυντήριες γραμμές, η διαδικασία επιλογής και δημιουργίας γνωρισμάτων κατέληξε, σε πρώτη φάση, στα ακόλουθα: Month Με χρήση του start_egg_rec κρατήσαμε την ημερομηνία εγγραφής του αυγού και αφαιρέσαμε τις ημέρες που χρειάζεται από την ημέρα γέννησης μέχρι την ημέρα της πρώτης καταγραφής στο ηλεκτρονικό σύστημα, ώστε να βρούμε και να αποθηκεύσουμε τον ακριβή μήνα γέννησης της όρνιθας. Τα στοιχεία που λαμβάνουμε αποθηκεύονται ως string και παίρνουν τιμές από το σύνολο {Jan, Feb, Mar, Apr, May, Jun, Jul, Aug, Sep, Oct, Nov, Dec}. 50

51 Week Με παρόμοια χρήση του start_egg_rec αποσπάσαμε την ακριβή εβδομάδα γέννησης της όρνιθας. Η καταμέτρηση των εβδομάδων γίνεται από την αρχή του αντίστοιχου έτους. Η ελάχιστη τιμή που μπορεί να πάρει το γνώρισμα είναι 1 και η μέγιστη 52. Τα παραπάνω γνωρίσματα θα μας βοηθήσουν στη συσχέτιση μεταξύ της εβδομάδας ή του μήνα γέννησης και της συνολικής παραγωγής αυγών ή, με άλλα λόγια στον εντοπισμό της συνιστώσας εποχικότητας (αν αυτή υπάρχει) στην παραγωγή αυγών. Total_death Χρησιμοποιώντας τα start_egg_rec και death, υπολογίσαμε τις εβδομάδες που έζησε η όρνιθα από την εκκίνηση της παρακολούθησής της. Αν δεν γνωρίζουμε την ακριβή ημερομηνία θανάτου ή η όρνιθα βρίσκεται ακόμα σε διαδικασία ωοπαραγωγής, τότε το γνώρισμα έχει άγνωστη (ελλείπουσα) τιμή, διαφορετικά οι τιμές του είναι από 1 (ελάχιστο) έως 52 (μέγιστο). Total_dist Το γνώρισμα αυτό εκφράζει την απόσταση μεταξύ του πρώτου «1» και του πρώτου «3» στη χρονοσειρά ωοπαραγωγής της όρνιθας. Ο αριθμός «1» σημαίνει ότι υπάρχει καταγραφή για την όρνιθα τη συγκεκριμένη ημέρα, αλλά δεν βρέθηκε αυγό, ενώ ο αριθμός «3» σημαίνει ότι έχει γίνει καταγραφή και έχει βρεθεί αυγό. Ουσιαστικά, μετράμε πόσες μέρες χρειάστηκε η όρνιθα για να παράξει το πρώτο της αυγό από τη στιγμή που αρχίσαμε να την παρακολουθούμε. Σε περίπτωση που το πρώτο «3» εμφανίζεται νωρίτερα από το πρώτο «1», τότε το γνώρισμα παίρνει την τιμή «0». Τα παρακάτω γνωρίσματα είναι ο συνολικός αριθμός αυγών των πρώτων 10, 15, 20, 25, 30 ημερών. Η εκκίνηση της καταμέτρησης γίνεται τη στιγμή που θα βρεθεί το πρώτο «3» στα δεδομένα μας, δηλαδή την ημέρα παραγωγής του πρώτου αυγού. Τέλος, το γνώρισμα Total_num είναι η συνολική ωοπαραγωγή της αντίστοιχης όρνιθας. Tendays_eggs Είναι η συνολική παραγωγή αυγών για τις πρώτες 10 μέρες (από την ημέρα παραγωγής του πρώτου αυγού). Fifteendays_eggs Είναι η συνολική παραγωγή αυγών για τις πρώτες 15 μέρες (από την ημέρα παραγωγής του πρώτου αυγού). 51

52 Twentydays_eggs Είναι η συνολική παραγωγή αυγών για τις πρώτες 20 μέρες (από την ημέρα παραγωγής του πρώτου αυγού). Twentyfivedays_eggs Είναι η συνολική παραγωγή αυγών για τις πρώτες 25 μέρες (από την ημέρα παραγωγής του πρώτου αυγού). Thirtydays_eggs Είναι η συνολική παραγωγή αυγών για τις πρώτες 30 μέρες (από την ημέρα παραγωγής του πρώτου αυγού). Total_num Όπως έχει ήδη αναφερθεί, για τους σκοπούς της ανάλυσής μας, η συνολική ωοπαραγωγή έχει διακριτοποιηθεί και αντιστοιχεί, επομένως, σε ονομαστικό γνώρισμα. Τα δεδομένα που αποθηκεύονται στο αντίστοιχο γνώρισμα, το οποίο αποτελεί ουσιαστικά και το γνώρισμα κλάσης του υπό μελέτη προβλήματος, αντιστοιχούν στην παραγωγή αυγών κάθε όρνιθας ξεχωριστά σε όλο το διάστημα ζωής της. Οι τιμές του γνωρίσματος βρίσκονται στο διάστημα [1,14], αφού οι πραγματικές (αριθμητικές) τιμές ωοπαραγωγής κατηγοριοποιούνται σύμφωνα με τα ακόλουθα διαστήματα: [0,90)=1 [90,95)=2 [95,100)=3 [100,105)=4 [105,110)=5 [110,115)=6 [115,120)=7 [120,125)=8 [125,130)=9 [130,135)=10 [135,140)=11 [140,145)=12 [145,150)=13 [150, )=14. Πίνακας 3 Συσχέτιση Κλάσεων με Διαστήματα Ωοπαραγωγής. Κλάση Διαστήματα Ωοπαραγωγής 1 [0,90) 2 [90,95) 3 [95,100) 4 [100,105) 5 [105,110) 6 [110,115) 7 [115,120) 8 [120,125) 9 [125,130) 10 [130,135) 11 [135,140) 12 [140,145) 13 [145,150) 14 [150, ) 52

53 Σύμφωνα με τα παραπάνω, ένα τυπικό δείγμα δεδομένων με όλα τα επεξεργασμένα γνωρίσματα είναι το παρακάτω : Jan,2,52,14,7,11,16,21,25,10 Το δείγμα αυτό αφορά σε όρνιθα, η οποία γεννήθηκε τον μήνα Ιανουάριο και συγκεκριμένα τη δεύτερη εβδομάδα του χρόνου. Έζησε και τις 52 εβδομάδες και η απόσταση μεταξύ της ημέρας έναρξης της παρακολούθησής της και της ημέρας παραγωγής του πρώτου αυγού (του πρώτου «1» και του πρώτου «3») ήταν 14 ημέρες. Μέσα στο πρώτο δεκαήμερο από τότε που βρέθηκε το πρώτο αυγό (το πρώτο «3») γέννησε 7 αυγά, στις 15 ημέρες γέννησε 11 αυγά, στις αυγά, στις 25 ημέρες 21 αυγά και στις 30 ημέρες γέννησε 25 αυγά. Τέλος, η συνολική ωοπαραγωγή της συγκεκριμένης όρνιθας είναι στην κατηγορία 10, δηλαδή στο διάστημα [130,135). 53

54

55 Κεφάλαιο 4. Μοντέλα Πρόβλεψης Ωοπαραγωγής 4.1 Μια πρώτη προσπάθεια Η πρώτη προσπάθειά μας για την αναζήτηση συσχετίσεων περιλαμβάνει ως γνώρισμαστόχο της πρόβλεψης τη συνολική ωοπαραγωγή μιας όρνιθας, όπως ακριβώς ήταν στο σετ δεδομένων που δημιουργήσαμε, δηλαδή με τις 14 κατηγορίες (κλάσεις) που φαίνονται στον Πίνακα 3. Τα αποτελέσματα που επιτύχαμε στην πρώτη μας προσπάθεια, δυστυχώς, δεν ήταν τα καλύτερα δυνατά. Εξαιτίας του γεγονότος αυτού, ξεκινήσαμε να κάνουμε πειράματα που επικεντρώθηκαν στην αλλαγή των κατηγοριών της συνολικής παραγωγής. Έτσι, συμπτύξαμε τις «αδύναμες κατηγορίες» για να ελέγξουμε κατά πόσο είναι εφικτό να βελτιωθεί το ποσοστό επιτυχίας της κατηγοριοποίησης. Τα επιπλέον πειράματα που διεξήγαμε ήταν με τη σειρά τα εξής: Exp A. Ενοποιήσαμε την 2 η κατηγορία με την 3 η, αφήνοντας τις υπόλοιπες κατηγορίες ανέπαφες. Exp B. Ενοποιήσαμε την 2 η, 3 η, 4 η και 5 η κατηγορία, ενώ οι υπόλοιπες παρέμειναν ίδιες. Για αυτή τη σειρά πειραμάτων δεν αναφέρουμε τα αποτελέσματα, διότι οι αλλαγές στις τιμές των ποσοστών πρόβλεψης ήταν σχεδόν μηδενικές. Exp C. Ενοποιήσαμε την 2 η, 3 η, 4 η και 5 η, την 6 η και 7 η, την 10 η και 11 η, την 12 η και 13 η κατηγορία. Τα διαστήματα τιμών που αντιστοιχούν στις νέες κατηγορίες είναι, λοιπόν, για αυτή τη σειρά πειραμάτων: [0,90)=1, [90,110)=2, [110,120)=3, [120,125)=4, [125,130)=5, [130,140)=6, [140,150)=7, [150, )=8. Τα αποτελέσματα που προέκυψαν τόσο από τα αρχικά πειράματα (14 κατηγορίες πρόβλεψης), όσο και από τις επιπλέον σειρές πειραμάτων (σειρά πειραμάτων Α με 13 κατηγορίες και σειρά C με 8 κατηγορίες), φαίνονται στις αντίστοιχες στήλες του Πίνακα 4. Κάθε γραμμή του πίνακα αυτού αντιστοιχεί σε έναν αλγόριθμο και περιέχει τα ποσοστά επιτυχούς κατηγοριοποίησης για τις τρεις σειρές πειραμάτων. Για την εκτίμηση της επίδοσης κάθε αλγορίθμου χρησιμοποιήσαμε την τεχνική της 10-πλης διασταυρωμένης επικύρωσης (10-fold cross-validation). Όπως φαίνεται στον Πίνακα 4, στη σειρά πειραμάτων C τα αποτελέσματα είναι αρκετά καλύτερα συγκριτικά με τις προηγούμενες δύο σειρές πειραμάτων, αλλά συνεχίζουμε να 55

56 έχουμε μικρή συσχέτιση μεταξύ των γνωρισμάτων που διαθέτουμε. Επιπλέον, παρατηρούμε ότι τα νευρωνικά δίκτυα παρέχουν συστηματικά το καλύτερο αποτέλεσμα σε σχέση με τις άλλες μεθόδους που χρησιμοποιήσαμε. Οι αλγόριθμοι που θα χρησιμοποιηθούν στην περαιτέρω ανάλυση του προβλήματος θα είναι οι τρεις επικρατέστεροι, δηλαδή οι βασισμένοι σε κανόνες αλγόριθμοι DecisionTable και DTNB και ο function-based MultilayerPerceptron. Πίνακας 4 Ποσοστά επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής στις τρεις αρχικές σειρές πειραμάτων. Το καλύτερο αποτέλεσμα ανά στήλη σημειώνεται με έντονη γραμματοσειρά. CCI: Correctly classified instances, CC (%) = Percentage of correct classifications Αλγόριθμος Αποτελέσματα με 14 κλάσεις (Exp A) Αποτελέσματα με 13 κλάσεις (Exp B) Αποτελέσματα με 8 κλάσεις (Exp C) CCI CC (%) CCI CC (%) CCI CC (%) Rules- DecisionTable Rules-DTNB Rules-OneR Rules-PART Trees-J48graft Trees-LADTree Trees-REPTree Trees-NBTtree Meta-Bagging Functions- Multilayer Perceptron Εναλλακτικοί ορισμοί των κλάσεων Στη δεύτερη προσπάθεια εύρεσης συσχετίσεων στο υπό μελέτη σετ δεδομένων, συνεχίσαμε να έχουμε ως γνώρισμα-στόχο της πρόβλεψης τη συνολική παραγωγή μιας όρνιθας. Τα δεδομένα διαφοροποιήθηκαν, όμως, ως προς τον τρόπο ορισμού των κλάσεων πρόβλεψης και ως προς την ελάχιστη συνολική παραγωγή αυγών στο τελικό σύνολο δεδομένων. Ως προς τη συνολική παραγωγή, αφαιρέσαμε όσες όρνιθες είχαν συνολική παραγωγή 56

57 μικρότερη από 40 αυγά. Ως προς την κατηγοριοποίηση πειραματιστήκαμε με τους εξής τρόπους ορισμού των κλάσεων: Exp 1. 1=[0,90), 2=[90,95), 3=[95,100),, 17=[175,180), 18=[180,180++). Τα δεδομένα αυξάνονται ανά πέντε μονάδες μέχρι την κλάση που περιέχει την παραγωγή πάνω από 180 αυγά. Exp 2. 1=[40,90), 2=[90,95), 3=[95,100),, 17=[175,180), 18=[180,180++). Σε αυτή την περίπτωση αφαιρέσαμε από το σύνολο δεδομένων τις όρνιθες με παραγωγή μικρότερη από 40 αυγά. Οι υπόλοιπες κλάσεις παραμένουν ίδιες με την περίπτωση 1. Exp 3. 1=[40-90), 2=[90-110), 3=[ ), 4=[ ), 5=[ ), 6=[ ), 7=[ ), 8=( ). Η παραπάνω κατηγοριοποίηση δημιουργήθηκε συνενώνοντας κλάσεις τις περίπτωσης 2, με σκοπό την επίτευξη (κατά το δυνατόν) ομοιόμορφης κατανομής των δειγμάτων στις κλάσεις, όπως θα φάνει και στο αντίστοιχο ιστόγραμμα παρακάτω (Σχήμα 4-3). Exp 4. 1=[40-90), 2=[90-110), 3=[110,120), 4=[ ), 5=[ ), 6=[ ), 7=( ). Σε αυτήν την περίπτωση, ενώσαμε την 3 η και 4 η κλάση από την προηγούμενη κατηγοριοποίηση και κρατήσαμε τις υπόλοιπες κλάσεις αναλλοίωτες. Exp 5. 1=[40-90), 2=[90-110), 3=[110,120), 4=[ ), 5=[ ), 6=[ ), 7=( ), 8=[160,170), 9=[170,180), 10=[180,180++). Exp 6. 1=[40-90), 2=[90-110), 3=[110,120), 4=[ ), 5=[ ), 6=[ ), 7=( ), 8=[165,180), 9=[180,180++). Παρακάτω φαίνονται οι κατανομές των ορνίθων για τα αντίστοιχα πειράματα: Σχήμα 4-1 Κατανομή των ορνίθων του σετ δεδομένων στο πείραμα Exp 1. Οι κλάσεις ορίζονται με βάση τη συνολική ωοπαραγωγή των ορνίθων και σύμφωνα με τα διαστήματα (0,90) [90, 95) [95, 100) [175,180) [180, ) 57

58 Σχήμα 4-2 Κατανομή των ορνίθων του σετ δεδομένων στο πείραμα Exp 2. Οι κλάσεις ορίζονται, σύμφωνα με τα διαστήματα συνολικής ωοπαραγωγής (40,90) [90, 95) [95, 100) [175,180) [180, ) Σχήμα 4-3 Κατανομή των ορνίθων του σετ δεδομένων στο πείραμα Exp 3. Οι κλάσεις ορίζονται, σύμφωνα με τα διαστήματα (40,90)., [ ), [ ),.., [150, ) Σχήμα 4-4 Κατανομή των ορνίθων του σετ δεδομένων στο πείραμα Exp 4. Οι κλάσεις ορίζονται, σύμφωνα με τα διαστήματα (40,90), [90-110),., [150, ) 58

59 Σχήμα 4-5 Κατανομή των ορνίθων του σετ δεδομένων στο πείραμα Exp 5. Οι κλάσεις ορίζονται, σύμφωνα με τα διαστήματα (40,90), [90-110),., [180, ) Σχήμα 4-6 Κατανομή των ορνίθων του σετ δεδομένων στο πείραμα Exp 6. Οι κλάσεις ορίζονται, σύμφωνα με τα διαστήματα (40,90), [90-110),., [ ), [ ), [180, ) Όσον αφορά τα ποσοστά επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής, στα πειράματα στα οποία αυξήσαμε τον αριθμό των κλάσεων, ανοίγοντας το εύρος των τιμών μέχρι το 180, είτε αυξάνοντας τις τιμές κατά 10 μονάδες είτε κατά 15 μονάδες (περιπτώσεις 5 και 6), τα αποτελέσματα ήταν χειρότερα από προηγούμενα πειράματα. Αλλάζοντας την τελευταία κλάση (150,150+] και χωρίζοντας την σε 2 έως 3 κομμάτια, οι νέες κλάσεις είχαν λιγότερα από 100 δείγματα, γεγονός που ήταν αναμενόμενο να επιδεινώσει την κατάσταση λόγω της αυξημένης ανισορροπίας κλάσεων (σε σχέση με τις άλλες κλάσεις που έχουν από δείγματα). Έχοντας ως σημείο αναφοράς το παλιότερο πείραμα με το υψηλότερο ποσοστό επιτυχίας το οποίο αντιστοιχεί στις κλάσεις 1=[0-90), 2=[90-110), 3=[ ), 4=[ ), 5=[ ), 6=[ ), 7=[ ), 8=( ) αποφασίσαμε να προχωρήσουμε συγκρίνοντας τις περιπτώσεις 3 και 4. Παρακάτω φαίνεται ο συγκεντρωτικός πίνακας που δείχνει τα ποσοστά επιτυχούς πρόβλεψης για κάθε νέο πείραμα, συγκρίνοντας τα με το ήδη υπάρχον πείραμα που το θεωρούμε ως ένα κάτω όριο-στόχο (1 η στήλη) για την επιθυμητή τιμή του ποσοστού επιτυχών προβλέψεων. 59

60 Πίνακας 5 Ποσοστά επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής. Το καλύτερο αποτέλεσμα ανά στήλη σημειώνεται με έντονη γραμματοσειρά. CCI: Correctly classified instances, CC (%) = Percentage of correct classifications Αλγόριθμοι Αποτελέσματα με 8 κλάσεις (Exp C) Αποτελέσματα με 8 κλάσεις (Exp 3) Αποτελέσματα με 7 κλάσεις (Exp 4) CCI CC (%) CCI CC (%) CCI CC (%) Rules- DecisionTable Rules-DTNB Functions- Multilayer Perceptron Παρατηρούμε ότι με τα νευρωνικά δίκτυα συνεχίζουμε να έχουμε καλύτερα αποτελέσματα σε σχέση με τους άλλους αλγορίθμους. Επίσης, φαίνεται ότι αυξάνεται το ποσοστό επιτυχίας, αλλά συνεχίζει να παραμένει σε γενικά χαμηλά επίπεδα. 4.3 Συσχέτιση πραγματικής με την προβλεπόμενη κλάση Με βάση τα παραπάνω αποτελέσματα θα επικεντρωθούμε στα πειράματα Exp 3 και Exp 4, με τις 8 και 7 κλάσεις, για να δημιουργήσουμε διαγράμματα συσχετίσεων για: Την πραγματική με την προβλεπόμενη κλάση. Τη συνολική ωοπαραγωγή των ορνίθων με τις πρώτες 30, 45 και 60 ημέρες ωοπαραγωγής, αντίστοιχα. Οι αλγόριθμοι που θα χρησιμοποιήσουμε είναι οι ίδιοι με τον Πίνακα Κατηγοριοποίηση με 8 κλάσεις (Παραγωγή >0) Τα διαγράμματα και οι πίνακες σύγχυσης (Confusion Matrices) που ακολουθούν αφορούν στην κατηγοριοποίηση των 8 κλάσεων, 1=[0-90), 2=[90-110), 3=[ ), 4=[ ), 5=[ ), 6=[ ), 7=[ ), 8=( ), χωρίς την απομάκρυνση των ορνίθων με παραγωγή μικρότερη των 40 αυγών. Συμπεριλαμβάνονται οι αλγόριθμοι εξαγωγής κανόνων DecisionTable και DTNB, καθώς και ο συναρτησιακός αλγόριθμος MultilayerPerceptron. 60

61 DecisionTable Σχήμα 4-7 Κατηγοριοποίηση με 8 κλάσεις με τη μέθοδο DecisionTable Στην καλύτερη περίπτωση, στο διάγραμμα του Σχήματος 4-7 θα εμφανιζόταν ένα γράφημα του τύπου y=x (γραμμική συσχέτιση), όπου για κάθε πραγματική τιμή θα υπήρχε πλήρης αντιστοιχία με την προβλεπόμενη. Αντίθετα, όμως, σε όλες τις περιπτώσεις βλέπουμε ότι για κάθε πραγματική τιμή της κλάσης που έχουμε, η προβλεπόμενη τιμή που βρίσκουμε είναι από την 1 η έως την 8 η κλάση που σημαίνει ότι δεν υπάρχει ιδιαίτερη συσχέτιση της πραγματικής τιμής με την προβλεπόμενη. Πίνακας 6 Confusion Matrix για την μέθοδο DecisionTable Classified as -> A B C D E F G H A= B= C= D= E= F= G= H=

62 Ένα χαρακτηριστικό παράδειγμα του αντίστοιχου πίνακα σύγχυσης (Πίνακας 6) είναι η κλάση H=8. Βλέπουμε πως 5 φορές έχει κατηγοριοποιηθεί στην κλάση Α=1, 18 φορές στην Β=2, 700 φορές στην G=7 και, τέλος, 1094 φορές στη σωστή κλάση πρόβλεψης (H=8). DTNB Σχήμα 4-8 Κατηγοριοποίηση με 8 κλάσεις με την μέθοδο DTNB Και σε αυτή την περίπτωση, στο διάγραμμα θα έπρεπε να εμφανίζεται μια γραμμική συσχέτιση, όπου για κάθε πραγματική τιμή θα υπήρχε πλήρης αντιστοιχία με την προβλεπόμενη. Αντίθετα, όμως, σε όλες τις περιπτώσεις βλέπουμε ότι για κάθε πραγματική τιμή της κλάσης που έχουμε, η προβλεπόμενη τιμή που βρίσκουμε είναι από την 1 η έως την 8 η κλάση, με εξαίρεση την 4 η και 5 η, που σημαίνει ότι δεν υπάρχει ιδιαίτερη συσχέτιση της πραγματικής τιμής με την προβλεπόμενη. Πίνακας 7 Confusion Matrix για την μέθοδο DTNB Classified as -> A B C D E F G H A= B= C= D= E= F= G= H=

63 MultilayerPerceptron Σχήμα 4-9 Κατηγοριοποίηση με 8 κλάσεις με την μέθοδο MultilayerPerceptron Όπως και στα προηγούμενα διαγράμματα που θα έπρεπε να εμφανίζεται η γραμμική συσχέτιση, έτσι και στο παρόν διάγραμμα δεν ισχύει κάτι τέτοιο. Αντίθετα, σε όλες τις περιπτώσεις βλέπουμε ότι για κάθε πραγματική τιμή της κλάσης που έχουμε, η προβλεπόμενη τιμή που βρίσκουμε είναι από την 1 η έως την 8 η κλάση, με εξαίρεση την 4 η και 5 η, που σημαίνει ότι δεν υπάρχει ιδιαίτερη συσχέτιση της πραγματικής τιμής με την προβλεπόμενη. Πίνακας 8 Confusion Matrix για την μέθοδο MultilayerPerceptron Classified as -> A B C D E F G H A= B= C= D= E= F= G= H=

64 3.1 Κατηγοριοποίηση με 8 κλάσεις (Παραγωγή >40) Η δεύτερη σειρά διαγραμμάτων και πινάκων που ακολουθεί αφορά στην κατηγοριοποίηση των 8 κλάσεων, 1=[40-90), 2=[90-110), 3=[ ), 4=[ ), 5=[ ), 6=[ ), 7=[ ), 8=( ), αλλά με την απομάκρυνση των ορνίθων με παραγωγή μικρότερη από 40 αυγά. DecisionTable Σχήμα 4-10 Κατηγοριοποίηση με 8 κλάσεις με την μέθοδο DecisionTable Όπως και στην κατηγοριοποίηση με τις 8 κλάσεις χωρίς καμία εξαίρεση ορνίθων, έτσι και εδώ βλέπουμε ότι υπάρχει μια αδύναμη συσχέτιση μεταξύ των προβλεπόμενων και των πραγματικών τιμών. Πίνακας 9 Confusion Matrix για την μέθοδο DecisionTable Classified as -> A B C D E F G H A= B= C= D= E= F= G= H= Ενδεικτικά να αναφέρουμε ως παράδειγμα σε αυτήν την περίπτωση την κλάση G=7. Βλέπουμε πως 8 φορές έχει κατηγοριοποιηθεί στην κλάση Α=1, 52 φορές στην Β=2, 728 φορές στην Η=8 και, τέλος, 1336 φορές στη σωστή κλάση πρόβλεψης (G=7). 64

65 DTNB Σχήμα 4-11 Κατηγοριοποίηση με 8 κλάσεις με την μέθοδο DΤΝΒ για το πείραμα χωρίς τις όρνιθες με παραγωγή κάτω από 40 αυγά Σε αυτή την περίπτωση βλέπουμε ότι στην 4 η και 5 η κλάση οι προβλεπόμενες τιμές είναι σχεδόν μηδενικές, ενώ υπάρχει μια διασπορά τιμών για όλες τις υπόλοιπες. Ούτε σε αυτό το παράδειγμα εμφανίζεται η αναζητούμενη γραμμική συσχέτιση. Πίνακας 10 Confusion Matrix για την μέθοδο DTNB Classified as -> A B C D E F G H A= B= C= D= E= F= G= H=

66 MultilayerPerceptron Σχήμα 4-12 Κατηγοριοποίηση με 8 κλάσεις με την μέθοδο ΜultilayerPerceptron για το πείραμα χωρίς τις όρνιθες με παραγωγή κάτω από 40 αυγά Πίνακας 11 Confusion Matrix για την μέθοδο Perceptron Classified as -> A B C D E F G H A= B= C= D= E= F= G= H= Κατηγοριοποίηση με 7 κλάσεις (Παραγωγή >40) Η τελευταία σειρά διαγραμμάτων και πινάκων αφορά στην κατηγοριοποίηση των 7 κλάσεων, 1=[40-90), 2=[90-110), 3=[110,120), 4=[ ), 5=[ ), 6=[ ), 7=( ), με την απομάκρυνση των ορνίθων με παραγωγή μικρότερη των 40 αυγών. 66

67 DecisionTable Σχήμα 4-13 Κατηγοριοποίηση με 7 κλάσεις με την μέθοδο DecisionTable για το πείραμα χωρίς τις όρνιθες με παραγωγή κάτω από 40 αυγά Όπως και στις προηγούμενες περιπτώσεις έτσι και εδώ επαναλαμβάνεται το φαινόμενο τις μεγάλης διασποράς των τιμών που καθιστά δύσκολη τη συσχέτιση των πραγματικών και των προβλεπόμενων τιμών. Πίνακας 12 Confusion Matrix για την μέθοδο DecisionTable Classified as -> A B C D E F G A= B= C= D= E= F= G= Αναφέρουμε εδώ ως παράδειγμα την πρώτη κλάση (Α=1). Εδώ η κλάση Α=1 κατηγοριοποιείται 700 φορές στη Β=2, 193 φορές στην κλάση C=3, 43 φορές στην F=6 και, τέλος, 918 φορές στη σωστή κλάση πρόβλεψης (A=1). 67

68 DTNB Σχήμα 4-14 Κατηγοριοποίηση με 7 κλάσεις με την μέθοδο DΤΝΒ για το πείραμα χωρίς τις όρνιθες με παραγωγή κάτω από 40 αυγά Πίνακας 13 Confusion Matrix για την μέθοδο DTNB Classified as -> A B C D E F G A= B= C= D= E= F= G=

69 MultilayerPerceptron Σχήμα 4-15 Κατηγοριοποίηση με 7 κλάσεις με την μέθοδο MultilayerPerceptron για το πείραμα χωρίς τις όρνιθες με παραγωγή κάτω από 40 αυγά Στην περίπτωση αυτή, που αφορά στην εκμάθηση του μοντέλου πρόβλεψης με νευρωνικά δίκτυα, βλέπουμε μια πιο ισχυρή συσχέτιση, συγκρινόμενη με τα προηγούμενα πειράματα. Παρόλα αυτά, η συσχέτιση συνεχίζει να είναι πολύ χαμηλή και δεν είμαστε σε θέση να εκμεταλλευτούμε κάποια πληροφορία για περαιτέρω μελέτη. Πίνακας 14 Confusion Matrix για την μέθοδο MultilayerPerceptron Classified as -> A B C D E F G A= B= C= D= E= F= G= Ενδεικτικά, από τον πινάκα σύγχυσης του μοντέλου MultilayerPerceptron βλέπουμε ότι η κλάση Α=1 κατηγοριοποιείται 741 φορές στη Β=2, 273 φορές στην κλάση C=3, 29 φορές στην F=6 και 1012 φορές στη σωστή κλάση πρόβλεψης (A=1). 69

70 4.4 Συσχέτιση συνολικής ωοπαραγωγής των ορνίθων με την παραγωγή στις πρώτες 30, 45, 60 μέρες Στην συνέχεια επιχειρήσαμε να μελετήσουμε τη συσχέτιση που έχουν οι πραγματικές τιμές της συνολικής ωοπαραγωγής, με αυτές της παραγωγής στις πρώτες 30, 45 και 60 ημέρες, αντίστοιχα. Υποθέσαμε ότι αν μπορούσαμε να αντλήσουμε πληροφορίες για τον πρώτο ή δεύτερο μήνα παραγωγής και να τις συνδυάσουμε με τη συνολική ωοπαραγωγή θα καταφέρναμε να διαφοροποιήσουμε τις κλάσεις της κατηγοριοποίησης. Εξετάσαμε τα δεδομένα και δημιουργήσαμε τρία διαγράμματα (Σχήματα ) που αναπαριστάνουν τη σχέση μεταξύ της συνολικής παραγωγής και της παραγωγής των 30, 45 και 60 πρώτων ημερών, αντίστοιχα. Στα διαγράμματα αυτά μπορούμε να διακρίνουμε το γεγονός ότι στις ακραίες τιμές της συνολικής παραγωγής αυγών έχουμε μια πιο αραιή συγκέντρωση των δειγμάτων, σε σχέση με την περιοχή από 90 έως 140, όπου συγκεντρώνεται η πλειοψηφία των δειγμάτων. Επίσης, και στα τρία διαγράμματα, στην περιοχή τιμών της συνολικής παραγωγής πάνω από 100 αυγά φαίνεται να υπάρχει μια νοητή ευθεία (με ανοδική κλίση) η οποία ορίζει ένα, σχετικά χαλαρό, κάτω όριο σε σχέση με την παράγωγη των 30, 45 και 60 ημερών, αντίστοιχα. Σχήμα 4-16 Συνολική Ωοπαραγωγή σε σχέση με τις πρώτες 30 ημέρες παραγωγής 70

71 Σχήμα 4-17 Συνολική Ωοπαραγωγή σε σχέση με τις πρώτες 45 ημέρες παραγωγής Σχήμα 4-18 Συνολική Ωοπαραγωγή σε σχέση με τις πρώτες 60 ημέρες παραγωγής 4.5 Ορισμός κλάσεων με βάση το 10% των percentiles Σε σχέση με τις αιτίες πίσω από το χαμηλό ποσοστό επιτυχών προβλέψεων που επιτυγχάνουμε, θεωρούμε, πλέον, ότι δεν ευθύνεται (τουλάχιστον σημαντικά) ο τρόπος επιλογής των κλάσεων πρόβλεψης. Παρόλα αυτά, προσπαθήσαμε να βεβαιωθούμε ότι δεν αποτελεί σημαντικό παράγοντα «αποτυχίας» των χρησιμοποιούμενων αλγορίθμων και η ανισορροπία των κλάσεων στο τελικό σύνολο δεδομένων. Για τον λόγο αυτό, δοκιμάσαμε έναν επιπλέον τρόπο ορισμού των κλάσεων με βάση το ποσοστό των δειγμάτων (ταξινομημένων σε φθίνουσα σειρά σύμφωνα με τη συνολική ωοπαραγωγή). Χωρίσαμε, λοιπόν, τα δεδομένα σε 10 κλάσεις (ανά 10%), μετατοπίζοντας απλώς τις κοινές τιμές των δεδομένων στη «μεγαλύτερη» κλάση. Ένα πιο συγκεκριμένο παράδειγμα ακολουθεί. Στο καλύτερο 10% των δεδομένων περιέχονται 2742 δείγματα, με τιμές συνολικής ωοπαραγωγής από 196 έως 150. Η επομένη κλάση (το επόμενο 10% των ταξινομημένων δειγμάτων) αντιστοιχεί σε τιμές της συνολικής ωοπαραγωγής από 150 έως 143. Σύμφωνα με τα παραπάνω, τελικά στην πρώτη κλάση τοποθετηθήκαν οι τιμές από 196 έως 150, ενώ η δεύτερη κλάση αποτελείται από τις τιμές 71

72 149 έως 143. Παρακάτω φαίνεται το ιστόγραμμα των κλάσεων που προκύπτει από τον τρόπο αυτό ορισμού των κλάσεων, όπου φαίνεται ότι επιτυγχάνουμε (σχεδόν) ομοιόμορφη κατανομή των δειγμάτων στις 10 κλάσεις. Σχήμα 4-19 Κατανομή των ορνίθων του σετ δεδομένων στις κλάσεις που ορίζονται στη συνολική ωοπαραγωγή τους, σύμφωνα με τα διαστήματα [196,150], [149,143],., [102,78], [77,41] Στην πειραματική διερεύνηση που ακολούθησε, δυστυχώς, τα αποτελέσματα ήταν χειρότερα από αυτά των προηγούμενων πειραμάτων (Πίνακας 4,5). Πίνακας 15 Ποσοστά επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής. CC (%) = Percentage of correct classifications Αλγόριθμος CC (%) Rules-DecisionTable Rules- DTNB Function-MultilayerPerceptron Η τελική διαπίστωσή μας, λοιπόν, είναι ότι τα γνωρίσματα που δημιουργήσαμε, από τα δεδομένα που παραλάβαμε, δεν παρουσιάζουν ισχυρή συσχέτιση με την κλάση πρόβλεψης (ανεξάρτητα από τον τρόπο ορισμού αυτής), καθιστώντας προβληματική την ανάπτυξη αποτελεσματικών μοντέλων κατηγοριοποίησης. H μελέτη μιας εναλλακτικής κατεύθυνσης αντιμετώπισης του προβλήματος, με βάση την ομαδοποίηση (clustering) των patterns ωοπαραγωγής στις πρώτες 30 ημέρες, θα μας απασχολήσει στα επόμενα κεφάλαια της παρούσας διπλωματικής. 72

73 4.6 Αξιοποιώντας την πληροφορία της συνολικής χρονοσειράς ωοπαραγωγής Στην τρίτη προσπάθεια εύρεσης συσχετίσεων στο υπό μελέτη σύνολο δεδομένων, συνεχίσαμε να έχουμε ως γνώρισμα-στόχο της πρόβλεψης τη συνολική παραγωγή μιας όρνιθας. Με βάση τους πειραματισμούς της προηγούμενης ανάλυσης, επικεντρωθήκαμε στην κατηγοριοποίηση με τις εξής κλάσεις: 1=[40-90), 2=[90-110), 3=[110,120), 4=[ ), 5=[ ), 6=[ ), 7=( ), 8=[160,170), 9=[170,180), 10= [180,180++). Σε αυτή την ανάλυση, όμως, προσθέσαμε και κάποια νέα γνωρίσματα, κρατώντας παράλληλα όλα τα γνωρίσματα των προηγούμενων πειραμάτων. Τα νέα γνωρίσματα που προστέθηκαν είναι τα εξής: Η ομάδα (cluster) που βρίσκεται κάθε όρνιθα. Η ομαδοποίηση των ορνίθων, με τον αλγόριθμο κ-means, έγινε με βάση τις πλήρεις χρονοσειρές ωοπαραγωγής τους, μέχρι την τελευταία ημέρα που θεωρούμε γνωστή κάθε φορά, δηλ. τις 30, 45, 60 κτλ. ημέρες από το πρώτο αυγό. Θεωρήσαμε 25 clusters και εκμεταλλευτήκαμε ως επιπλέον χαρακτηριστικό τον αριθμό του cluster στο οποίο ανατίθεται κάθε όρνιθα. Αξίζει να σημειωθεί ότι στις περιπτώσεις πρόβλεψης «άγνωστων εγγραφών» το χαρακτηριστικό αυτό θα υπολογίζεται με βάση τη μικρότερη απόσταση Hamming από τα ανακαλυφθέντα centroids (που ορίζουν και τα clusters). Η αναμενόμενη κλάση της όρνιθας με βάση το cluster στο οποίο έχει ανατεθεί. Για κάθε cluster η αναμενόμενη κλάση ορίζεται ως η επικρατούσα (πιο συχνά εμφανιζόμενη) πραγματική κλάση όλων τις ορνίθων που έχουν ανατεθεί στο cluster. Ο μέγιστος αριθμός συνεχομένων γεννήσεων. Αναφέρεται στο μέγιστο συνεχόμενο αριθμό γεννήσεων αυγών από μια όρνιθα, με βάση τη χρονοσειρά ωοπαραγωγής μέχρι την τελευταία ημέρα που θεωρούμε γνωστή κάθε φορά. Ο μέσος αριθμός γεννήσεων. Αναφέρεται στο μέσο συνεχόμενο αριθμό γεννήσεων αυγών από μια όρνιθα, με βάση τη χρονοσειρά ωοπαραγωγής μέχρι την τελευταία ημέρα που θεωρούμε γνωστή κάθε φορά. Ο μέγιστος αριθμός μη-γεννήσεων. Αναφέρεται στο μέγιστο συνεχόμενο αριθμό «ημερών χωρίς αυγό» από μια όρνιθα, με βάση τη χρονοσειρά ωοπαραγωγής μέχρι την τελευταία ημέρα που θεωρούμε γνωστή κάθε φορά. Ο μέσος αριθμός μη-γεννήσεων. Αναφέρεται στο μέσο συνεχόμενο αριθμό «ημερών χωρίς αυγό» από μια όρνιθα, με βάση τη χρονοσειρά ωοπαραγωγής μέχρι την τελευταία ημέρα που θεωρούμε γνωστή κάθε φορά. Στα πειράματα που εκτελέστηκαν αυτή τη φορά, το διάστημα της χρονοσειράς που θεωρούμε γνωστή κατά την πρόβλεψη επεκτάθηκε και πέρα των 30, 45, 60 ημερών. Με στόχο να εντοπίσουμε το άνω όριο της ακρίβειας πρόβλεψης που είναι δυνατόν να επιτευχθεί, ελέγξαμε διαδοχικά ως «γνωστά διαστήματα» τις 30, 45, 60, 75, 90, 105, 120, 135 και 160 ημέρες. Ανάλογα, λοιπόν, με το συγκεκριμένο πείραμα, προσθέσαμε και κάποια επιπλέον γνωρίσματα: 73

74 Στο πείραμα στο οποίο η πρόβλεψη γίνεται με γνωστές τις 75 ημέρες μετά το πρώτο αυγό, έχει προστεθεί σαν χαρακτηριστικό η (συνολική) τιμή της παραγωγής των πρώτων 75 ημερών. Στο πείραμα στο οποίο η πρόβλεψη γίνεται με γνωστές τις 90 ημέρες μετά το πρώτο αυγό, έχει προστεθεί σαν χαρακτηριστικό η (συνολική) τιμή της παραγωγής των πρώτων 75 και 90 ημερών. Στο πείραμα στο οποίο η πρόβλεψη γίνεται με γνωστές τις 105 ημέρες μετά το πρώτο αυγό, έχει προστεθεί σαν χαρακτηριστικό η (συνολική) τιμή της παραγωγής των πρώτων 75, 90 και 105 ημερών. Στο πείραμα στο οποίο η πρόβλεψη γίνεται με γνωστές τις 120 ημέρες μετά το πρώτο αυγό, έχει προστεθεί σαν χαρακτηριστικό η (συνολική) τιμή της παραγωγής των πρώτων 75, 90, 105 και 120 ημερών. Στο πείραμα στο οποίο η πρόβλεψη γίνεται με γνωστές τις 135 ημέρες μετά το πρώτο αυγό, έχει προστεθεί σαν χαρακτηριστικό η (συνολική) τιμή της παραγωγής των πρώτων 75, 90, 105, 120 και 135 ημερών. Στο πείραμα στο οποίο η πρόβλεψη γίνεται με γνωστές τις 160 ημέρες μετά το πρώτο αυγό, έχει προστεθεί σαν χαρακτηριστικό η (συνολική) τιμή της παραγωγής των πρώτων 75, 90, 105, 120, 135 και 160 ημερών. Ενδεικτικά, ένα τυπικό παράδειγμα, για πρόβλεψη με γνωστές τις 160 ημέρες και με όλα τα γνωρίσματα που έχουν εισαχθεί στο αρχείο προς κατηγοριοποίηση είναι το ακόλουθο: Jun,25,?,32,10,15,19,24,28,42,56,68,80,93,104,115,127,5,1.32,20,5.08,4,3,4 Η όρνιθα γεννήθηκε τον μηνά Ιούνιο, έζησε 25 εβδομάδες και δεν είναι γνωστή η ημέρα θανάτου της. Η απόσταση μεταξύ της πρώτης εγγεγραμμένης καταχώρησης και της πρώτης γέννησης αυγού είναι 32 ημέρες. Στις πρώτες 10 ημέρες γέννησε 10 αυγά, στις 15 γέννησε 15 αυγά, στις 20 γέννησε 19 αυγά, στις 25 γέννησε 24 αυγά, στις 30 γέννησε 28 αυγά, στις 45 γέννησε 42 αυγά, στις 60 γέννησε 56 αυγά. Στις πρώτες 75 ημέρες γέννησε 68 αυγά, στις 90 ημέρες γέννησε 80 αυγά, στις 105 γέννησε 93, στις 120 γέννησε 104 αυγά, στις 135 γέννησε 115 αυγά και τέλος στις 160 ημέρες γέννησε 127 αυγά. Ο μέγιστος αριθμός συνεχόμενων ημερών «χωρίς αυγό» είναι 5, ενώ ο μέσος όρος των συνεχόμενων ημερών «χωρίς αυγό» είναι Ο μέγιστος αριθμός συνεχόμενων ημερών «με αυγά» είναι 20, ενώ ο μέσος όρος των συνεχόμενων ημερών «με αυγά» είναι Στο clustering (με βάση τις χρονοσειρές 160 ημερών από το 1 ο αυγό) η όρνιθα ανατέθηκε στο cluster 4, του οποίου η αναμενόμενη κλάση είναι η 3. Τέλος, η πραγματική κλάση της συνολικής ωοπαραγωγής είναι η 4η ( ). Τα αποτελέσματα των πειραμάτων παρουσιάζονται στον Πίνακα 16. Οι αλγόριθμοι που χρησιμοποιήθηκαν για την κατηγοριοποίηση είναι οι γνωστοί από τις προηγούμενες αναλύσεις, DesicionTable, DTNB και MultilayerPerceptron. Επιπλέον, στο Σχήμα 4-20 παρουσιάζεται το ποσοστό επιτυχούς πρόβλεψης που επιτυγχάνει ο αλγόριθμος MultilayerPerceptron, σε σχέση με τον αριθμό ημερών ωοπαραγωγής που θεωρούνται γνωστές τη στιγμή της πρόβλεψης. 74

75 Πίνακας 16 Ποσοστά επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής Το καλύτερο αποτέλεσμα ανά στήλη σημειώνεται με έντονη γραμματοσειρά. CCI: Correctly classified instances, CC (%) = Percentage of correct classifications Γνωστές ημέρες ωοπαραγωγής Rules- DecisionTable Rules-DTNB Functions- Multilayer Perceptron CCI CC (%) CCI CC (%) CCI CC (%) 30 ημέρες ημέρες ημέρες ημέρες ημέρες ημέρες ημέρες ημέρες ημέρες Σχήμα 4-20 Ποσοστά (%) επιτυχούς πρόβλεψης του αλγορίθμου MultilayerPercetron (άξονας y) σε σχέση με τις ημέρες της παραγωγής στις οποίες εφαρμόζεται η πρόβλεψη (άξονας x) Τα συμπεράσματα που μπορούμε να εξάγουμε, τόσο από τον Πίνακα 16, όσο και από το διάγραμμα του Σχήματος 4-20, είναι ότι, όπως ήταν αναμενόμενο, υπάρχει μια γραμμική εξάρτηση της ακρίβειας πρόβλεψης που είναι δυνατόν να επιτευχθεί, σε σχέση με τον 75

76 αριθμό των ημερών τις οποίες θεωρούμε γνωστές (παρατηρήσιμες) κατά τη χρονική στιγμή που εφαρμόζουμε την πρόβλεψη. Παρόλα αυτά, το ποσοστό επιτυχών προβλέψεων έως και τις 60 ημέρες (οι οποίες αποτελούσαν τον αρχικό μας στόχο) παραμένουν σε χαμηλά επίπεδα. Επίσης, μπορούμε να θεωρήσουμε ότι, με βάση τα γνωρίσματα που έχουμε στη διάθεση μας, το άνω όριο της ακρίβειας πρόβλεψης που είναι δυνατόν να επιτευχθεί όταν η πρόβλεψη εφαρμόζεται στις 160 ημέρες, δηλ. πολύ κοντά στην ολοκλήρωση της παραγωγής, η οποία γίνεται κατά μέσο όρο στις 193 ημέρες (με μέγιστη διάρκεια παραγωγής τις 260 ημέρες, από το πρώτο έως το τελευταίο αυγό) είναι 70.43%. Τέλος, αξίζει να σημειωθεί ότι παράλληλα με τα παραπάνω πειράματα, διεξήχθη και ένα επιπλέον πείραμα για τη συσχέτιση του αποτελέσματος του clustering (χωρίς άλλα γνωρίσματα) με την πραγματική κλάση των ορνίθων. Το παράδοξο (σε σχέση με όλα τα αποτελέσματα που αναφέρονται παραπάνω) είναι ότι και μόνο με βάση το clustering (θέτοντας ως προβλεπόμενη κλάση της κάθε όρνιθας την πιο συχνά εμφανιζόμενη κλάση του cluster στο οποίο ανατέθηκε) μπορούμε να επιτύχουμε συγκρίσιμα αποτελέσματα, ως προς το ποσοστό σωστών κατηγοριοποιήσεων. Π.χ. για πρόβλεψη στις 60 ημέρες από το πρώτο αυγό, με το clustering επιτυγχάνουμε ακρίβεια γύρω στο 24%, ενώ στα πειράματα του Πίνακα 16, με επιπλέον γνωρίσματα και εφαρμογή αλγορίθμων κατηγοριοποίησης, η ακρίβεια κυμαίνεται (για τις 60 ημέρες) γύρω στο 34%. 76

77 Κεφάλαιο 5. Τελικά μοντέλα πρόβλεψης ωοπαραγωγής 5.1 Βασικές αλλαγές στην πειραματική διαδικασία Στην τέταρτη προσπάθεια εύρεσης συσχετίσεων στο υπό μελέτη σύνολο δεδομένων, επικεντρωθήκαμε στις παρακάτω αλλαγές σε σχέση με τις προηγούμενες αναλύσεις: Εποχικότητα. Θεωρήσαμε ότι η εποχή που γεννιέται η όρνιθα, καθώς και η εποχή που αρχίζει να γεννά αυγά ίσως επηρεάζει τη συνολική ωοπαραγωγή. Έτσι, προσπαθήσαμε να βρούμε τις εποχές αυτές και να τις συνδέσουμε με την αντίστοιχη όρνιθα. Επικάλυψη των διαστημάτων ωοπαραγωγής. Υποθέσαμε το ενδεχόμενο να επηρεάζει αρνητικά την πρόβλεψη το γεγονός ότι υπάρχει επικάλυψη της ωοπαραγωγής στα γνωρίσματα «ενδιάμεσης παραγωγής» (αυγά 30 έως 135 ημερών), αφού πάντα μετράμε από την αρχή της παραγωγής. Έτσι, πειραματιστήκαμε αλλάζοντας τα γνωρίσματα αυτά και παίρνοντας μόνο τη διαφορά των αυγών από το προηγούμενο «σημείο μέτρησης». (Π.χ. στις 60 ημέρες ωοπαραγωγής το γνώρισμα καταγράφει τα αυγά στις ημέρες 45 έως 60 της παραγωγής και όχι σε όλες τις 60 πρώτες ημέρες παραγωγής.) Σταθερή Συνολική διάρκεια ωοπαραγωγής. Σε αυτό το μέρος του πειράματος προσδιορίσαμε τα άνω όρια των ημερών ωοπαραγωγής σε 160, 180 ή 200 ημέρες, ώστε να έχουμε σταθερό ορίζοντα πρόβλεψης. Σημειώνεται ότι στις προηγούμενες προσπάθειές μας το άνω όριο (το τέλος της ωοπαραγωγής) άλλαζε ανάλογα με την εκάστοτε όρνιθα. Οι δυο πρώτες αλλαγές, δυστυχώς, δεν οδήγησαν στην επίτευξη καλύτερων αποτελεσμάτων: τα αποτελέσματα των αντίστοιχων πειραμάτων ήταν ίδια και κάποιες φορές χειρότερα από τα προηγούμενα πειράματα. Όσον αφορά στην τρίτη αλλαγή, δεν μπορέσαμε να βγάλουμε σαφή συμπεράσματα για τις περιπτώσεις πρόβλεψης της παραγωγής στις 180 και 200 ημέρες, διότι ο αριθμός των ορνίθων στον πληθυσμό που φτάνει σε τόσο μεγάλη διάρκεια ωοπαραγωγής είναι πολύ μικρός. Στην περίπτωση, όμως, της πρόβλεψης της ωοπαραγωγής των 160 ημερών, υπήρξε μεγάλη διαφορά στα αποτελέσματα. Έτσι, για την περίπτωση αυτή συνεχίσαμε την προσπάθειά μας, επικεντρώνοντας την προσοχή μας στην εύρεση της καλύτερης δυνατής υλοποίησης. 77

78 Αξίζει να αναφέρουμε ότι η χρονοσειρά την όποια εκμεταλλευόμαστε πλέον έχει στη δομή της την παρακάτω πληροφορία: ' '127 Σε αυτό το κομμάτι της χρονοσειράς βλέπουμε 0, 1 και έναν αριθμό. Το μηδέν (0) αντιπροσωπεύει το γεγονός ότι έγινε έλεγχος στην όρνιθα αλλά δεν γέννησε, ο άσσος (1) αντιστοιχεί στο γεγονός ότι έγινε έλεγχος της όρνιθας και βρέθηκε αυγό και ο εκάστοτε αριθμός (στο τέλος) είναι η συνολική ωοπαραγωγή (στις 160 ημέρες) της αντίστοιχης όρνιθας. Η μέτρηση της χρονοσειράς αρχίζει από την πρώτη μέρα εμφάνισης αυγού. 5.2 Γνωρίσματα, κλάσεις πρόβλεψης και ανάλυση του τελικού συνόλου δεδομένων Ο μέσος όρος του σετ δεδομένων που προκύπτει με βάση τις αλλαγές που αναλύθηκαν στην προηγούμενη Ενότητα είναι αυγά για κάθε μια όρνιθα με μια τυπική απόκλιση ± αυγά. Στο διάγραμμα του Σχήματος 5-1 παρουσιάζουμε τη συνολική ωοπαραγωγή για όλες τις όρνιθες του σετ δεδομένων. Κάθε σημείο του διαγράμματος αντιστοιχεί σε μία όρνιθα. Οι όρνιθες έχουν ταξινομηθεί σε αύξουσα σειρά (ως προς τη συνολική ωοπαραγωγή. Μπορούμε να διακρίνουμε ότι, σε αυτή την περίπτωση, η μεγίστη ωοπαραγωγή μιας όρνιθας είναι 157 αυγά και η ελάχιστη ωοπαραγωγή είναι 41 αυγά. Σχήμα 5-1 Συνολική ωοπαραγωγή για τις (ταξινομημένες) όρνιθες του μειωμένου σετ δεδομένων 78

79 Σχήμα 5-2 Κατανομή των ορνίθων του σετ δεδομένων στις κλάσεις που ορίζονται στη συνολική ωοπαραγωγή τους, σύμφωνα με τα διαστήματα (40,90) [90, 110) [110, 120) [ ) [150, ) Στη συνέχεια, αναφέρουμε επιγραμματικά τα χρησιμοποιούμενα γνωρίσματα πρόβλεψης, ώστε να μην χρειαστεί ο αναγνώστης να ανατρέξει σε παλιότερα πειράματα. Month Πρόκειται για τον ακριβή μήνα γέννησης της όρνιθας. Το γνώρισμα παίρνει τιμές από το σύνολο {Jan, Feb, Mar, Apr, May, Jun, Jul, Aug, Sep, Oct, Nov, Dec}. Week Πρόκειται για την ακριβή εβδομάδα γέννησης την όρνιθας. Η καταμέτρηση των εβδομάδων γίνεται από την αρχή του αντίστοιχου έτους. Η ελάχιστη τιμή που μπορεί να πάρει το γνώρισμα είναι 1 και η μέγιστη 52. Total_death Πρόκειται για τον αριθμό εβδομάδων που έζησε η όρνιθα από την εκκίνηση της παρακολούθησης. Αν δεν γνωρίζουμε την ακριβή ημερομηνία θανάτου ή η όρνιθα βρίσκεται ακόμη σε παραγωγή ( in_prod ), θεωρούμε την τιμή του γνωρίσματος άγνωστη («?»), αλλιώς το γνώρισμα παίρνει τιμές από το 1 (ελάχιστο) έως το 52 (μέγιστο). Total_dist Στο γνώρισμα αυτό καταχωρούμε την απόσταση μεταξύ του πρώτου «1» και του πρώτου «3» στη χρονοσειρά ωοπαραγωγής Ουσιαστικά, μετράμε πόσες μέρες έκανε για να παράγει ένα αυγό από την στιγμή που αρχίσαμε να παρακολουθούμε την όρνιθα. Στην περίπτωση που το πρώτο «3» είναι νωρίτερα από το πρώτο «1», το χαρακτηριστικό παίρνει την τιμή «0». Ομάδα clustering που βρίσκεται η κάθε όρνιθα Η ομαδοποίηση ( με τον αλγόριθμο κ-means) έγινε με βάση τις πλήρεις χρονοσειρές ωοπαραγωγής των ορνίθων μέχρι την τελευταία ημέρα που θεωρούμε γνωστή κάθε φορά, δηλ. τις 30, 45, 60 κτλ. ημέρες από το πρώτο αυγό. Θωρήσαμε 25 clusters και εκμεταλλευτήκαμε ως επιπλέον χαρακτηριστικό τον αριθμό του cluster στο οποίο 79

80 ανατίθεται κάθε όρνιθα. Αξίζει να σημειωθεί ότι στις περιπτώσεις πρόβλεψης «άγνωστων εγγραφών» το χαρακτηριστικό αυτό θα υπολογίζεται με βάση τη μικρότερη απόσταση Hamming από τα ανακαλυφθέντα centroids (που ορίζουν και τα clusters). Αναμενόμενη κλάση της όρνιθας με βάση το cluster στο οποίο έχει ανατεθεί Για κάθε cluster η αναμενόμενη κλάση ορίζεται ως η επικρατούσα (πιο συχνά εμφανιζόμενη) πραγματική κλάση όλων τις ορνίθων που έχουν ανατεθεί στο cluster. Μέγιστος αριθμός συνεχομένων γεννήσεων Αναφέρεται στο μέγιστο συνεχόμενο αριθμό γεννήσεων αυγών από μια όρνιθα, με βάση τη χρονοσειρά ωοπαραγωγής μέχρι την τελευταία ημέρα που θεωρούμε γνωστή κάθε φορά. Μέσος αριθμός γεννήσεων Αναφέρεται στο μέσο συνεχόμενο αριθμό γεννήσεων αυγών από μια όρνιθα, με βάση τη χρονοσειρά ωοπαραγωγής μέχρι την τελευταία ημέρα που θεωρούμε γνωστή κάθε φορά. Μέγιστος αριθμός μη-γεννήσεων Αναφέρεται στο μέγιστο συνεχόμενο αριθμό «ημερών χωρίς αυγό» από μια όρνιθα, με βάση τη χρονοσειρά ωοπαραγωγής μέχρι την τελευταία ημέρα που θεωρούμε γνωστή κάθε φορά. Μέσος αριθμός μη-γεννήσεων Αναφέρεται στο μέσο συνεχόμενο αριθμό «ημερών χωρίς αυγό» από μια όρνιθα, με βάση τη χρονοσειρά ωοπαραγωγής μέχρι την τελευταία ημέρα που θεωρούμε γνωστή κάθε φορά. Υπενθυμίζουμε, επίσης, ότι, όπως και στις προηγούμενες αναλύσεις, η κατηγοριοποίηση έγινε με τις εξής κλάσεις: 1=[40-90), 2=[90-110), 3=[110,120), 4=[ ), 5=[ ), 6=[ ), 7=( ), 8=[160,170), 9=[170,180), 10=[180,180++). Προφανώς, στην περίπτωση πρόβλεψης της ωοπαραγωγής στις 160 ημέρες, οι κλάσεις 8, 9 και 10 απουσιάζουν. 5.3 Πειραματικά αποτελέσματα μοντέλων κατηγοριοποίησης Στα πειράματα που εκτελέστηκαν σε αυτή τη φάση, το διάστημα της χρονοσειράς που θεωρούμε γνωστή κατά την πρόβλεψη επεκτάθηκε και πέρα των 30, 45, 60 ημερών. Με στόχο να εντοπίσουμε το άνω όριο της ακρίβειας πρόβλεψης που είναι δυνατόν να επιτευχθεί, ελέγξαμε διαδοχικά τα διαστήματα 30, 45, 60, 75, 90, 105, 120, 135 και 160 ημερών. Ανάλογα, λοιπόν, με το συγκεκριμένο πείραμα, προσθέσαμε και κάποια επιπλέον γνωρίσματα (βλ. Ενότητα 4.5 για λεπτομέρειες), τα οποία καταγράφουν την ωοπαραγωγή της όρνιθας στις 75, 90, 105, 120, 135 και 160 ημέρες από το πρώτο αυγό. Κάθε ένα από τα γνωρίσματα αυτά, φυσικά, χρησιμοποιείται μόνο στην περίπτωση που το διάστημα που θεωρείται γνωστό κατά την πρόβλεψη ξεπερνά τον αντίστοιχο αριθμό ημερών. 80

81 Τα αποτελέσματα των πειραμάτων καταγράφονται στον Πινάκα 16. Οι αλγόριθμοι που χρησιμοποιήθηκαν για την κατηγοριοποίηση είναι οι γνωστοί από τις προηγούμενες αναλύσεις, DesicionTable, DTNB και MultilayerPerceptron. Επιπλέον, στο Σχήμα 5-3 παρουσιάζεται ένα διάγραμμα επιτυχούς πρόβλεψης του αλγορίθμου DecisionTable σε σχέση με τις ημέρες της παραγωγής στις οποίες εφαρμόζεται η πρόβλεψη. Βλέπουμε ότι συνεχίζει να υπάρχει μια γραμμική εξάρτηση της ακρίβειας πρόβλεψης που είναι δυνατόν να επιτευχθεί, σε σχέση με τον αριθμό των ημερών τις οποίες θεωρούμε γνωστές (παρατηρήσιμες) κατά τη χρονική στιγμή που εφαρμόζουμε την πρόβλεψη. Παρατηρούμε μεγάλη βελτίωση των αποτελεσμάτων, σε σχέση με τα προηγούμενα. Θα χρησιμοποιήσουμε ξανά την πρόβλεψη του άνω ορίου για να δώσουμε ένα παράδειγμα: Βλέπουμε ότι η πρόβλεψη στις 160 ημέρες συνολικής ωοπαραγωγής ήταν στο 70,43% ενώ, όπως θα δούμε παρακάτω, φτάνει στο 96,23%. Πίνακας 17 Ποσοστά επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής Το καλύτερο αποτέλεσμα ανά στήλη σημειώνεται με έντονη γραμματοσειρά. CCI: Correctly classified instances, CC (%) = Percentage of correct classifications Γνωστές ημέρες παραγωγής Rules- DecisionTable Rules-DTNB Functions- Μultilayer Perceptron CCI CC (%) CCΙ CC (%) CCI CC (%) 30 Days Days Days Days Days Days Days Days Days

82 Σχήμα 5-3 Ποσοστά (%) επιτυχούς πρόβλεψης του αλγορίθμου DecisionTable (άξονας y) σε σχέση με τις ημέρες της παραγωγής στις οποίες εφαρμόζεται η πρόβλεψη (άξονας x) Συμπερασματικά, μπορούμε να αναφέρουμε ότι η εποχικότητα (δηλ. τα γνωρίσματα ημέρα γέννησης, ημέρα θανάτου, μηνάς γέννησης, εποχή γέννησης) έχει αδύναμη συσχέτιση με τη συνολική ωοπαραγωγή. Επίσης, η αλλαγή του αριθμού των αναζητούμενων clusters (στη διαδικασία του clustering των χρονοσειρών) έχει ως αποτέλεσμα πολύ μικρές αποκλίσεις στα αντίστοιχα πειράματα: δοκιμάζοντας 7, 10, 25, 30, 35 clusters στην περίπτωση πρόβλεψης της συνολικής ωοπαραγωγής στις 160 ημέρες, με γνωστές τις 120 πρώτες ημέρες της παραγωγής με τον αλγόριθμο DecisionTable, οι τιμές της επιτυγχανόμενης ακρίβειας πρόβλεψης κυμαίνονταν στο διάστημα [72,17%-72,22%]. 5.4 Πειραματικά αποτελέσματα μοντέλων παλινδρόμησης Έχοντας ήδη εντοπίσει τα τελικά γνωρίσματα που θα χρησιμοποιηθούν για την πρόβλεψη της ωοπαραγωγής και έχοντας αναπτύξει σημαντικό αριθμό μοντέλων με βάση αλγορίθμους κατηγοριοποίησης, αποφασίσαμε να δοκιμάσουμε και τη χρήση αλγορίθμων παλινδρόμησης, ώστε να έχουμε ένα μέτρο σύγκρισης μεταξύ των ποσοστών επιτυχούς πρόβλεψης που μπορούν να επιτευχθούν με τις δύο κατηγορίες μεθόδων. Έτσι, σε αυτό το στάδιο των πειραμάτων προσπαθήσαμε να βρούμε τον βέλτιστο αλγόριθμο παλινδρόμησης, με βάση το απόλυτο μέσο σφάλμα (mean absolute error), για το υπό μελέτη σετ δεδομένων. Η μόνη διαφορά στον ορισμό του προβλήματος πρόβλεψης (σε σχέση με την περίπτωση της κατηγοριοποίησης) είναι ότι πλέον στα δεδομένα δεν υπάρχει η συνολική ωοπαραγωγή μιας όρνιθας διακριτοποιημένη σε κλάσεις, αλλά η πραγματική συνολική (αριθμητική) τιμή. Παραδείγματος χάριν, για μια όρνιθα που βρισκόταν στην κλάση 5, το γνώρισμα πρόβλεψης δεν θα έχει την (ονομαστική) τιμή 5, αλλά θα περιέχει τον ακριβή αριθμό αυγών που γέννησε η όρνιθα στις 160 ημέρες, δηλαδή έναν αριθμό στο διάστημα [ ). Οι αλγόριθμοι που χρησιμοποιήθηκαν σε αυτή τη φάση πειραμάτων αναφέρονται επιγραμματικά στον Πίνακα 18, μαζί με τα αποτελέσματα των 82

83 πειραμάτων πρόβλεψης της συνολικής ωοπαραγωγής στις 160 ημέρες, θεωρώντας γνωστές τις 120 από αυτές. Πίνακας 18 Αλγόριθμοι παλινδρόμησης και αντίστοιχα αποτελέσματα πειραμάτων (απόλυτα μέσα σφάλματα) για πρόβλεψη ωοπαραγωγής των 160 ημερών, με βάση τις πρώτες 120 ημέρες παραγωγής. Αλγόριθμος Απόλυτο μέσο σφάλμα Linear Regression 4.07 RBFNetwork 9.20 M5Rule 3.20 RegressionByDiscretization 3.94 MultilayerPerceptron 4.28 DecisionTable 4.20 Όπως βλέπουμε παραπάνω, ο αλγόριθμος M5Rule είναι αυτός που παρουσιάζει το ελάχιστο σφάλμα σε σύγκριση με τους υπόλοιπους αλγορίθμους παλινδρόμησης. Όπως προαναφέραμε, τα γνωρίσματα που έχουμε σε αυτό το πείραμα παραμένουν τα ίδια σε σχέση με τα παλιότερα πειράματα, εκτός από τη συνολική ωοπαραγωγή που είναι αριθμητική τιμή και δεν βρίσκεται σε μια κλάση. Όπως και στην κατηγοριοποίηση, θα επιχειρήσουμε να βρούμε ένα άνω όριο στην ακρίβεια των αποτελεσμάτων για το πείραμα που θα ακολουθήσει. Στην περίπτωση της παλινδρόμησης το όριο αυτό «μεταφράζεται» ως το ελάχιστο δυνατό σφάλμα που μπορεί να επιτευχθεί από τους υπό μελέτη αλγορίθμους, θεωρώντας γνωστές όλες τις 160 ημέρες ωοπαραγωγής. Έτσι, στον Πίνακα 19 εμφανίζονται τα αποτελέσματα της πρόβλεψης της πραγματικής συνολικής ωοπαραγωγής στις 160 ημέρες, θεωρώντας τις όλες γνωστές. Πίνακας 19 Αλγόριθμοι παλινδρόμησης και αντίστοιχα αποτελέσματα πειραμάτων (απόλυτα μέσα σφάλματα) για πρόβλεψη ωοπαραγωγής των 160 ημερών με βάση τις πρώτες 160 ημέρες παραγωγής. Αλγόριθμος Απόλυτο μέσο σφάλμα LinearRegression 1.79 RBFNetwork 8.76 M5Rule 0.71 RegressionByDiscretization 2.78 MultilayerPerceptron 0.75 DecisionTable 2.94 Στον παραπάνω πίνακα βλέπουμε ότι αυξάνοντας τις ημέρες παραγωγής όλοι οι αλγόριθμοι πετυχαίνουν χαμηλότερο απόλυτο μέσο σφάλμα σε σχέση με την προηγούμενη ανάλυση. Η επιλογή του αλγόριθμου M5Rule αποδεικνύεται ορθή, διότι και σε αυτή την περίπτωση έχει τη χαμηλότερη τιμή του μέσου απόλυτου σφάλματος, σε σχέση πάντα με τους υπόλοιπους αλγορίθμους, όπως για παράδειγμα ο αλγόριθμος MultilayerPerceptron και ο αλγόριθμος LinearReggresion. 83

84 Πλέον βρισκόμαστε στο τελικό στάδιο του πειράματος της παλινδρόμησης, γνωρίζοντας τον καταλληλότερο αλγόριθμο που θα χρησιμοποιήσουμε, έχοντας τα γνωρίσματα που εξαγάγαμε από τα δεδομένα και τέλος το άνω όριο επίδοσης για το συγκεκριμένο πείραμα. Η ολοκλήρωση αυτού του πειράματος προϋποθέτει την εύρεση των υπολοίπων τιμών της μετρικής, αλλάζοντας το «βάθος» της χρονοσειράς ωοπαραγωγής που θεωρούμε γνωστό. Παρακάτω στον Πίνακα 20 εμφανίζονται εκτός από το μέσο απόλυτο σφάλμα (Mean Absolute Error), ο συντελεστής συσχέτισης (Correlation Coefficient), καθώς και η ρίζα του τετραγωνικού σφάλματος (Root Mean Squared Error) για κάθε περίπτωση του πειράματος. Πίνακας 20 Αποτελέσματα του αλγόριθμου Μ5Rule για τις συγκεκριμένες ημέρες ωοπαραγωγής. M5Rule- Ημέρες παραγωγής Συντελεστής συσχέτισης Απόλυτο μέσο σφάλμα Ρίζα τετραγωνικού σφάλματος Αναλύοντας τα αποτελέσματα των πειραμάτων βλέπουμε πως όσο αυξάνονται οι ημέρες παράγωγης που θεωρούμε γνωστές, πλησιάζοντας προς τον προβλεπόμενο στόχο (160 ημέρες), τόσο μειώνεται το μέσο απολυτό σφάλμα φτάνοντας στο 0,7112. Ουσιαστικά βλέπουμε ότι συνεχίζει να υπάρχει μια γραμμική εξάρτηση του ελάχιστου απόλυτου μέσου σφάλματος που είναι δυνατόν να επιτευχθεί, σε σχέση με τον αριθμό των ημερών τις οποίες θεωρούμε γνωστές (παρατηρήσιμες) κατά τη χρονική στιγμή που εφαρμόζουμε την πρόβλεψη. 5.5 Σύγκριση των δυο μεθόδων Παράλληλα με τις παραπάνω αναλύσεις, επιδιώξαμε να συγκρίνουμε τα αποτελέσματα της κατηγοριοποίησης με αυτά της παλινδρόμησης. Ο στόχος ήταν να βρεθεί μια κοινή μετρική, η οποία θα καθιστά τη σύγκριση εφικτή. Με αυτό το σκεπτικό επεξεργαστήκαμε τα αποτελέσματα της παλινδρόμησης και δημιουργήσαμε πίνακες σύγχυσης για κάθε συγκεκριμένη περίοδο ωοπαραγωγής. Έχοντας τα αριθμητικά αποτελέσματα της παλινδρόμησης, αντιστρέψαμε την αρχική μας δράση από κλάση σε αριθμητική τιμή και αξιοποιήσαμε την κάθε αριθμητική τιμή της παλινδρόμησης μεταφέροντας την στην αντίστοιχη κλάση της γνωστής κατηγοριοποίησης 1=[40-90), 2=[90-110), 3=[110,120), 4=[ ), 5=[ ), 6=[ ), 7=[ ]. Αναφέρουμε ότι ένας πίνακας σύγχυσης στην περίπτωση μας δείχνει στη διαγώνιο του τη σωστή κατηγοριοποίηση των αντίστοιχων κλάσεων του πειράματος και στις υπόλοιπες τις εσφαλμένες 84

85 κατηγοριοποιήσεις. Παρακάτω, στους Πίνακες παρουσιάζονται οι πίνακες σύγχυσης για τον αλγόριθμο Μ5Rule, ξεκινώντας από τη μικρότερη περίοδο ωοπαραγωγής, των 30 ημερών, και φτάνοντας στη μεγαλύτερη, των 160 ημερών. Πίνακας 21 Confusion Matrix για παραγωγή στις 30 πρώτες ημέρες. a b c d e f g Classified as-> a = b = c = d = e = f = g = Πίνακας 22 Confusion Matrix για παραγωγή στις 45 πρώτες ημέρες. Classified as-> a b c d e f g a = b = c = d = e = f = g =

86 Πίνακας 23 Confusion Matrix για παραγωγή στις 60 πρώτες ημέρες. Classified as-> a b c d e f g a = b = c = d = e = f = g = Πίνακας 24 Confusion Matrix για παραγωγή στις 75 πρώτες ημέρες. Classified as-> a b c d e f g a = b = c = d = e = f = g = Πίνακας 25 Confusion Matrix για παραγωγή στις 90 πρώτες ημέρες. Classified as-> a b c d e f g a = b = c = d = e = f = g =

87 Πίνακας 26 Confusion Matrix για παραγωγή στις 105 πρώτες ημέρες. Classified as-> a b c d e f g a = b = c = d = e = f = g = Πίνακας 27 Confusion Matrix για παραγωγή στις 120 πρώτες ημέρες. Classified as-> a b c d e f g a = b = c = d = e = f = g = Πίνακας 28 Confusion Matrix για παραγωγή στις 135 πρώτες ημέρες. Classified as-> a b c d e f g a = b = c = d = e = f = g =

88 Πίνακας 29 Confusion Matrix για παραγωγή στις 160 ημέρες. Classified as-> a b c d e f g a = b = c = d = e = f = g = Το επόμενο βήμα για τη σύγκριση των δυο μεθόδων είναι να υπολογίσουμε την κοινή μετρική σύγκρισης, δηλαδή το ποσοστό επιτυχούς πρόβλεψης. Στο ποσοστό επιτυχούς πρόβλεψης περιλαμβάνεται, προφανώς, κάθε περίπτωση του πειράματος που η προβλεπόμενη (ονομαστική) τιμή της ωοπαραγωγής συμπίπτει με την πραγματική τιμή της. Στον Πίνακα 30 παρουσιάζονται τα αντίστοιχα ποσοστά επιτυχούς πρόβλεψης για τον αλγόριθμό M5Rule (με βάση τους πίνακες σύγχυσης 21-29) για κάθε διάστημα ( ημέρες) ωοπαραγωγής που θεωρείται γνωστό. Πίνακας 30 Ποσοστά επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής για την περίπτωση της παλινδρόμησης. CC (%) = Percentage of correct classifications Γνωστές ημέρες παραγωγής Παλινδρόμηση- M5Rule CC (%) 30 Ημέρες Ημέρες Ημέρες Ημέρες Ημέρες Ημέρες Ημέρες Ημέρες Ημέρες Σκοπός όλων των παραπάνω ενεργειών ήταν η σύγκριση των αποτελεσμάτων πρόβλεψης της ωοπαραγωγής με χρήση μοντέλων (α) κατηγοριοποίησης (και συγκεκριμένα του αλγόριθμου DecisionTable) και (β) παλινδρόμησης (και συγκεκριμένα του αλγόριθμου M5Rule). Στον Πίνακα 31 παραθέτουμε τα σχετικά αποτελέσματα. 88

89 Πίνακας 31 Σύγκριση Ποσοστών επιτυχούς πρόβλεψης της συνολικής ωοπαραγωγής για τις δυο μεθόδους. Το καλύτερο αποτέλεσμα ανά στήλη σημειώνεται με έντονη γραμματοσειρά. CC (%) = Percentage of correct classifications Γνωστές ημέρες παραγωγής Κατηγοριοποίηση- DecisionTable CC (%) Παλινδρόμηση- M5Rule CC (%) 30 Ημέρες Ημέρες Ημέρες Ημέρες Ημέρες Ημέρες Ημέρες Ημέρες Ημέρες Παρατηρούμε ότι τα αποτελέσματα διαφέρουν ελάχιστα μεταξύ τους και, ενώ σε όλες τις περιπτώσεις τα ποσοστά της παλινδρόμησης είναι υψηλότερα, στο τελευταίο πείραμα των 160 ημερών η κατηγοριοποίηση υπερέχει κατά 2 ποσοστιαίες μονάδες. Είναι γεγονός ότι σε τόσο υψηλά ποσοστά δεν έχει ιδιαίτερη βαρύτητα αυτή η απόκλιση των τιμών. Εντέλει, μπορούμε να επισημάνουμε πως τόσο η απευθείας κατηγοριοποίηση όσο και η κατηγοριοποίηση μέσω παλινδρόμησης, με κοινά γνωρίσματα, εμφανίζουν σχεδόν όμοια αποτελέσματα για το συγκεκριμένο σετ δεδομένων που επεξεργαζόμαστε. 89

90

91 Κεφάλαιο 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις 6.1 Σύνοψη Στην παρούσα διπλωματική εργασία έγινε μια προσπάθεια ανάλυσης ενός μεγάλου σετ δεδομένων, με στόχο τη δημιουργία μοντέλων πρόβλεψης της ωοπαραγωγής ορνίθων μιας πτηνοτροφικής μονάδας. Πιο συγκεκριμένα, ο στόχος της εργασίας ήταν μέσω της υλοποίησης κατάλληλων μοντέλων κατηγοριοποίησης (classification) και παλινδρόμησης (regression) να αναπτυχθεί ένα σύστημα πρόβλεψης της συνολικής ατομικής ωοπαραγωγής των ορνίθων, χρησιμοποιώντας τη μερική παραγωγή των Χ πρώτων ημερών (το βέλτιστο Χ εκτιμήθηκε από τα δεδομένα με βάση τα πειραματικά μοντέλα). Η αρχική μας επιδίωξη ήταν η ανάλυση και προεπεξεργασία των δεδομένων που παραλάβαμε. Ήταν επιβεβλημένο να μελετήσουμε τα δεδομένα, ώστε να αξιοποιήσουμε με το βέλτιστο δυνατό τρόπο την πληροφορία που θα προέκυπτε. Ένα από τα «εργαλεία» που χρησιμοποιήσαμε προς την κατεύθυνση αυτή ήταν η κατανόηση των εννοιών και διαδικασιών που απαρτίζουν το πεδίο της ωοπαραγωγικής διαδικασίας, με τη βοήθεια των ειδικών πάνω στα θέματα αυτά, ώστε να καθοριστεί σαφώς το πρόβλημα-στόχος της διπλωματικής εργασίας. Απαραίτητη προϋπόθεση ήταν, επίσης, η ανάπτυξη του θεωρητικού υπόβαθρου που απαιτείται για την υλοποίηση μιας διαδικασίας εξόρυξης δεδομένων. Έννοιες όπως Μηχανική Μάθηση (Machine Learning), Εξόρυξη Δεδομένων (Data Mining), Κατηγοριοποίηση (Classification), Ομαδοποίηση (Clustering) μελετήθηκαν, θεωρητικά και πειραματικά, για την ανάπτυξη μιας εμπεριστατωμένης άποψης πάνω στην επιστήμη της εξόρυξης δεδομένων. Στη συνέχεια της διπλωματικής εργασίας έχοντας ορίσει το πρόβλημα, προσπαθήσαμε να δημιουργήσουμε τα αρχικά γνωρίσματα για να ξεκινήσουμε την πειραματική αντιμετώπιση του προβλήματος. Η αρχή έγινε με τη στατιστική ανάλυση των δεδομένων, ενώ δεύτερο βήμα αποτέλεσε ο ορισμός γνωρισμάτων, όπως η ημερομηνία γέννησης και θανάτου, η μερική ωοπαραγωγή σε συγκεκριμένα χρονικά διαστήματα, η συνολική ωοπαραγωγή κτλ. Επιπλέον, μέσα από πειράματα και συζητήσεις με τους ειδικούς της εταιρείας Aviagen καταλήξαμε στο βέλτιστο καθορισμό των κλάσεων της κατηγοριοποίησης. Μετά τα πρώτα πειράματα με βάση τον παραπάνω ορισμό του προβλήματος και βλέποντας πως τα αποτελέσματα δεν είναι ικανοποιητικά προσπαθήσαμε να προσθέσουμε 91

92 περισσότερα γνωρίσματα, χρησιμοποιώντας εναλλακτικές τεχνικές όπως η ομαδοποίηση (clustering). Σε αυτά τα γνωρίσματα προσανατολιστήκαμε στην επιπλέον πληροφορία που μπορεί κανείς να αντλήσει από τη συνολική χρονοσειρά ωοπαραγωγής της κάθε όρνιθας. Στα αντίστοιχα πειράματα δοκιμάσαμε διάφορα γνωστά διαστήματα ωοπαραγωγής μιας όρνιθας, καθώς και διαφορετικό αριθμό ομάδων (clusters). Παρά τις συστηματικές προσπάθειες μας, όμως, τα αποτελέσματα συνέχιζαν να έχουν χαμηλά ποσοστά επιτυχίας με μια αισθητή αύξηση όμως σε σχέση με τα προηγούμενα πειράματα ακόμη και όταν θεωρούσαμε γνωστό πολύ μεγάλο τμήμα της χρονοσειράς. Τη λύση στο πρόβλημα της χαμηλής προβλεπτικής ικανότητας των αναπτυσσόμενων μοντέλων έδωσε τελικά η αλλαγή του ορίζοντα πρόβλεψης σε 160 ημέρες. Επαναλάβαμε την πειραματική διαδικασία, θεωρώντας διάφορα γνωστά διαστήματα ωοπαραγωγής, και διαπιστώσαμε ότι υπάρχει σημαντική βελτίωση στα αποτελέσματα. Στη φάση αυτή και μετά από προτροπή των ειδικών στον τομέα εφαρμογής, θεωρήσαμε άξιο μελέτης ένα τελευταίο θέμα: τη χρήση μεθόδων παλινδρόμησης για το ίδιο πρόβλημα πρόβλεψης. Τα αποτελέσματα αυτής της προσπάθειας, όμως, βρεθήκαν να είναι συγκρίσιμα με το τελικό πείραμα της κατηγοριοποίησης. Εν κατακλείδι, στην παρούσα διπλωματική εργασία, ακολουθήσαμε μια συστηματική στρατηγική αντιμετώπισης ενός πραγματικού προβλήματος κατηγοριοποίησης, δηλαδή της πρόβλεψης της ωοπαραγωγής ορνίθων. Η στρατηγική μας περιελάμβανε (α) την ανάλυση και προεπεξεργασία των υπό μελέτη δεδομένων, (β) τον σαφή καθορισμό του προβλήματος-στόχου και (γ) τη μελέτη και κατανόηση εννοιών τόσο της ωοπαραγωγικής διαδικασίας, όσο και της επιστήμης της εξόρυξης δεδομένων, ενώ είχε ως αποτέλεσμα την επίτευξη ενός ικανοποιητικού ποσοστού πρόβλεψης της ωοπαραγωγής ορνίθων με βάση την αντίστοιχη μερική ωοπαραγωγή τους. 6.2 Συμπεράσματα Τα συμπεράσματα στα οποία καταλήγει η παρούσα εργασία είναι τα ακόλουθα: Η εποχικότητα δεν έχει ιδιαίτερο ρολό στο συγκεκριμένο σετ δεδομένων. Η ημερομηνία γέννησης ή θανάτου, η εποχή, ο μήνας ή η εβδομάδα που γεννήθηκε μια όρνιθα έχουν πολύ μικρή πληροφοριακή άξια για την πρόβλεψη της συνολικής ωοπαραγωγής της. Αυτό ισχύει τουλάχιστον για τα υπό μελέτη δεδομένα που αφορούν εταιρεία η όποια διαχειρίζεται τις όρνιθες σε κλειστό, προστατευόμενο περιβάλλον καθ όλη τη διάρκεια του έτους. Αναμένουμε ότι το αντίθετο θα ισχύει για όρνιθες ελευθέρας βοσκής, οι οποίες, προφανώς, επηρεάζονται από τις κλιματολογικές συνθήκες. Τα δεδομένα που παραλάβαμε είχαν αρκετό «θόρυβο» που έπρεπε να απαλείψουμε, όπως εγγραφές με ελλείπουσες ή ακραίες τιμές, κτλ. Με στόχο τη χρήση του κατά το δυνατόν μεγαλύτερου όγκου δεδομένων για την ανάπτυξη των προβλεπτικών μοντέλων, εξαιρέσαμε από το υπό μελέτη σύνολο δεδομένων μόνο τις εγγραφές που αφορούν όρνιθες με ωοπαραγωγή (α) σε εξέλιξη ή (β) μικρότερη από 40 αυγά, συνολικά. 92

93 Λόγω της διαφορετικής διάρκειας ωοπαραγωγής κάθε όρνιθας, τα αρχικά μοντέλα πρόβλεψης που αναπτύξαμε, στα οποία στόχος της πρόβλεψης ήταν η συνολική ωοπαραγωγή των ορνίθων (ανεξάρτητα από τη διάρκειά της), έπρεπε να αντιμετωπίσουν σημαντικές αποκλίσεις στις τιμές της ωοπαραγωγής. Ουσιαστικά, για κάθε όρνιθα, έπρεπε να μοντελοποιηθεί όχι μόνο η «συνάρτηση» ωοπαραγωγής, αλλά και η (ισχυρά συσχετισμένη με αυτή) διάρκεια της ωοπαραγωγής. Για την αντιμετώπιση του προβλήματος αυτού, καταλήξαμε στη θέσπιση ενός συγκεκριμένου χρονικού ορίζοντα (160 ημερών) για την πρόβλεψη της ωοπαραγωγής. Αποτέλεσμα της σχεδιαστικής αυτής επιλογή ήταν, βέβαια, η μείωση του σετ δεδομένων που μπορεί να χρησιμοποιηθεί στην εκπαίδευση των μοντέλων, αφού αυτόματα εξαιρέθηκαν όλες οι όρνιθες με διάρκεια ωοπαραγωγής μικρότερη από τον «ορίζοντα πρόβλεψης». Δεδομένου του ορισμού του προβλήματος που χρησιμοποιήσαμε επιλεχθέντα γνωρίσματα, κλάσεις και πειραματική διαδικασία συμπεραίνουμε ότι η βέλτιστη λύση προέρχεται από περιβάλλον των αλγορίθμων που είναι βασισμένοι σε κανόνες (Rule-based algorithms), ανεξάρτητα από το αν το αναπτύσσουμε μοντέλα κατηγοριοποίησης ή παλινδρόμησης. Το τελικό μοντέλο κατηγοριοποίησης βασίζεται στον αλγόριθμο DecisionTable, ενώ το μοντέλο υλοποιήθηκε με τον αλγόριθμο Μ5Rule. Συνολικά, μέσα από τα πειράματα που έγιναν στην παρούσα διπλωματική, αντιμετωπίσαμε ως ένα βαθμό την έλλειψη δεδομένων και καταφέραμε να φτάσουμε την ακρίβεια κατηγοριοποίησης σε ένα ικανοποιητικό επίπεδο. Ενδεικτικά, θεωρώντας γνωστές τις πρώτες 90 μέρες παράγωγης, η ακρίβεια πρόβλεψης με στόχο τις 160 μέρες παράγωγης είναι στο 55%. Αντίστοιχα, η πρόβλεψης με στόχο τις 160 μέρες παράγωγης, θεωρώντας τες όλες γνωστές, είναι στο 96%. Η απάντηση, λοιπόν, στο ερώτημα αν μπορεί να γίνει ικανοποιητική πρόβλεψη της ωοπαραγωγής, δεδομένων των Χ πρώτων ημερών της, είναι ότι αυτό είναι εφικτό για Χ 90 και μάλιστα με ένα ικανοποιητικό ποσοστό ακριβείας, αν αναλογιστεί κάνεις τις εγγενείς δυσκολίες του προβλήματος, αλλά και το ποσοστό επιτυχίας ενός «αφελή ταξινομητή» (που προβλέπει πάντα την κλάση πλειοψηφίας) που είναι 27%. 6.3 Μελλοντικές Επεκτάσεις Η εύρεση μιας βέλτιστης λύσης δεν σταματά ποτέ να αναζητείται. Ενδιαφέρον θα παρουσίαζε, λοιπόν, σε σχέση με τη παρούσα διπλωματική, η συγκομιδή περισσότερων δεδομένων και στοιχείων όσον αναφορά την ποιότητα ζωής των ορνίθων, τα στοιχεία γενεαλογίας τους και γενικά κάθε είδους πληροφορία που μπορεί να είναι χρήσιμη στα χέρια των ερευνητών ή των ιδιοκτητών πτηνοτροφικών μονάδων. Οι επεκτάσεις της παρούσας διπλωματικής εργασίας θα μπορούσαν να χωριστούν σε τρία μέρη: Ανάπτυξη λογισμικού διαχείρισης ωοπαραγωγής. Θα μπορούσαμε να δημιουργήσουμε ένα λογισμικό, με το όποιο ο πελάτης (εταιρείες γενετικής βελτίωσης) θα μπορεί να διαχειριστεί τη βάση δεδομένων (π.χ. εισαγωγή όρνιθας, εξαγωγής όρνιθας, εισαγωγή νέων δεδομένων κτλ). Επιπλέον, θα έχει και την 93

94 επιλογή να εισάγει τις έως τώρα γνωστές ημέρες ωοπαραγωγής μιας όρνιθας και να πάρει ως αποτέλεσμα την προβλεπόμενη συνολική ωοπαραγωγή της ή/και συμβουλές για τη διαχείρισή της. Μοντελοποίηση των κύκλων ωοπαραγωγής. Μια επιπλέον επέκταση θα ήταν η μοντελοποίηση (π.χ. με Hidden Markov Models) των κύκλων ωοπαραγωγής της αλληλουχίας συνεχόμενων αυγών, δηλαδή της πιθανότητας να γεννήσει η όρνιθα ένα αυγό σήμερα με δεδομένο ότι είχε γεννήσει π.χ. 2 αυγά χτες και προχτές. Χρήση στοιχείων γενεαλογίας για την ενίσχυση της προβλεπτικής ικανότητας των αναπτυσσόμενων μοντέλων. Εξαιρετικό ενδιαφέρον από ερευνητικής σκοπιάς θα είχε η αποκρυπτογράφηση των κληρονομικών χαρακτηριστικών που επηρεάζουν την ωοπαραγωγή, κάνοντας χρήση δεδομένων γενεαλογίας ενός σημαντικού πληθυσμού ορνίθων. Σε αυτή την περίπτωση, τα αποτελέσματα θα μπορούσαν να χρησιμοποιηθούν στην κατεύθυνση εφαρμογής μιας «στρατηγικής αναπαραγωγής», σύμφωνα με την όποια ενισχύεται η αναπαραγωγή ισχυρών γόνων (δηλ. γόνων με μεγάλη συνολική ωοπαραγωγή) με στόχο την ενίσχυση της ποιότητας του γενετικού υλικού, και συνακόλουθα της παραγωγής, της πτηνοτροφικής μονάδας. 94

95 Παράρτημα Α 7.1 Τι είναι το WEKA Το Weka είναι ένα περιβάλλον ανάπτυξης αλγορίθμων και εφαρμογών μηχανικής μάθησης που έχει αναπτυχθεί σε Java και διατίθεται ελεύθερα. Το Weka έχει αναπτυχθεί και συνεχίζει να αναπτύσσεται στο Πανεπιστήμιο του Waikato στη Νέα Ζηλανδία και το όνομά του προέρχεται από τα αρχικά των: Waikato Environment for Knowledge Analysis. Περιλαμβάνει υλοποιήσεις πολλών γνωστών αλγορίθμων μηχανικής μάθησης όπως JRip, DecisionTable, NaiveBayes και πολλούς άλλους. Περισσότερες πληροφορίες για το πρόγραμμα μπορούν να βρεθούν στον ιστότοπο Αρχεία ARFF Τα αρχεία τύπου «arff» χρησιμοποιούνται από το πρόγραμμα Weka ως αρχεία εισόδου. Έχουν συγκεκριμένη δομή, η οποία χωρίζεται σε δυο διακριτά μέρη: (α) την επικεφαλίδα και (β) τα δεδομένα. Στην επικεφαλίδα ορίζεται ο τίτλος του αρχείου, ο συγγραφέας, σχόλια για το είδος του αρχείου, καθώς και τη λειτουργία του. Στην συνέχεια ορίζεται το tag relation (που εισάγεται με το και δηλώνει το όνομα των δεδομένων. Παρακάτω έχουμε τα attributes, που εισάγονται και αυτά με το και δηλώνουν τα γνωρίσματα του συνόλου δεδομένων. Διπλά στο όνομα κάθε γνωρίσματος ορίζεται ο τύπος των δεδομένων που έχει. Ο τύπος των δεδομένων μπορεί να λάβει μια από τις παρακάτω τιμές: Nominal Ονομαστικό γνώρισμα String Αλφαριθμητικό γνώρισμα Date Ημερομηνία Numeric ή Real Αριθμητικό γνώρισμα Αν ένα γνώρισμα είναι ονομαστικό, τότε πρέπει διπλά στο γνώρισμα να προσθέσουμε μέσα σε αγκύλες {} τις πιθανές τιμές του. Για τα αριθμητικά γνωρίσματα δεν χρειάζεται κάτι αντίστοιχο. Τα δεδομένα καταγράφονται μετά το Κάθε εγγραφή καταλαμβάνει μια σειρά κειμένου. Στην εγγραφή πρέπει να ελέγχουμε αν τα δεδομένα που εισάγονται συμβαδίζουν με τα attributes που δηλώσαμε. Σε ενδεχόμενο αδυναμίας εγγραφής (λόγω απουσίας ή άγνωστης τιμής) ενός γνωρίσματος, η αντίστοιχη θέση πρέπει να συμπληρώνεται με το αγγλικό ερωτηματικό?. 95

96 Ένα παράδειγμα ενός αρχείου arff εμφανίζεται στα παρακάτω σχήματα: Σχήμα Α-7-1 Τυπικό παράδειγμα σχόλιων στο αρχείο δεδομένων της διπλωματικής εργασίας Σχήμα Α-7-2 Τυπικό παράδειγμα relation και attributes στο αρχείο δεδομένων της διπλωματικής εργασίας Σχήμα Α-7-3 Τυπικό παράδειγμα data στο αρχείο δεδομένων της διπλωματικής εργασίας 96

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Τα προς επεξεργασία

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Ι. Preprocessing (Επεξεργασία train.arff):

Ι. Preprocessing (Επεξεργασία train.arff): Ονοματεπώνυμο: Κατερίνα Αργύρη Δ.Π.Μ.Σ: Εφαρμοσμένες Μαθηματικές Επιστήμες Ακαδ. Έτος: 2008-2009 1 Για την παρούσα εργασία διατίθενται τρία σύνολα δεδομένων: Δεδομένα Εκπαίδευσης (train set αρχείο train.arff):

Διαβάστε περισσότερα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα «Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Εργασία 1η Classification

Αναγνώριση Προτύπων Εργασία 1η Classification ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Αναγνώριση Προτύπων Εργασία 1η Classification Κιντσάκης Αθανάσιος 6667 Μόσχογλου Στυλιανός 6978 30 Νοεμβρίου,

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Συστήματα Κοστολόγησης: Κοστολόγηση Συνεχούς Παραγωγής

Συστήματα Κοστολόγησης: Κοστολόγηση Συνεχούς Παραγωγής ΚΕΦΑΛΑΙΟ 3 Συστήματα Κοστολόγησης: Κοστολόγηση Συνεχούς Παραγωγής Τεχνικές Κόστους 12η Needles Powers Crosson human/istockphoto ΑΝΤΙΚΕΙΜΕΝΑ ΜΑΘΗΣΗΣ Περιγραφή του συστήματος κοστολόγησης συνεχούς παραγωγής.

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ DATA MINING ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ 1 ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Αφού δεν γνωρίζουμε κάποιο τρόπο για να επιλέξουμε εκ των προτέρων την πιο κατάλληλη και αποδοτική μέθοδο μάθησης

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά Μάιος 2008 Τα δεδομένα που έχουμε προς επεξεργασία χωρίζονται σε τρία μέρη: 1. Τα δεδομένα εκπαίδευσης (training set) που αποτελούνται από 2528

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Η ταξινόμηση εικόνας αναφέρεται στην ερμηνεία με χρήση υπολογιστή των τηλεπισκοπικών εικόνων. Παρόλο που ορισμένες διαδικασίες έχουν τη δυνατότητα να συμπεριλάβουν πληροφορίες

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Δ.Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΧΟΥΧΟΥΜΗΣ ΙΩΑΝΝΗΣ Το σύνολο των

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ 8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ Στόχος του εργαστηρίου αυτού είναι να δείξει πώς τα εργαστήρια με τα δεδομένα της ICAP μπορούν να υλοποιηθούν χωρίς τη χρήση SQL Server, χρησιμοποιώντας μόνον Excel και Rapid

Διαβάστε περισσότερα

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΜΑΘΗΜΑ ΠΡΩΤΟ ΘΕΩΡΙΑΣ-ΑΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ ΕΡΓΑΣΤΗΡΙΟ PASW 18 Δρ. Κουνετάς Η Κωνσταντίνος Ακαδημαϊκό Έτος 2011 2012 ΕΠΙΧ

Διαβάστε περισσότερα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ME TH ΧΡΗΣΗ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΣΕ ΕΠΙΧΕΙΡΗΣΕΙΣ ΛΙΑΝΙΚΗΣ ΠΩΛΗΣΗΣ

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ME TH ΧΡΗΣΗ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΣΕ ΕΠΙΧΕΙΡΗΣΕΙΣ ΛΙΑΝΙΚΗΣ ΠΩΛΗΣΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔAΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ME TH ΧΡΗΣΗ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΣΕ ΕΠΙΧΕΙΡΗΣΕΙΣ ΛΙΑΝΙΚΗΣ ΠΩΛΗΣΗΣ ΟΝΟΜΑΤΕΠΩΝΥΜΟ:

Διαβάστε περισσότερα

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) Των σπουδαστών Σκλαβενίτης Αργύρης (Α.Μ. 535) Στασινός

Διαβάστε περισσότερα

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος Η παρούσα εργασία έγινε στα πλαίσια της εκπόνησης της διπλωματικής διατριβής

Διαβάστε περισσότερα

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πεδί α

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πεδί α ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Βάση δεδομένων είναι συσχετισμένα μεταξύ τους δεδομένα, οργανωμένα σε μορφή πίνακα. Οι γραμμές του πίνακα αποτελούν τις εγγραφές και περιλαμβάνουν τις πληροφορίες για μια οντότητα. Οι

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

ΣΥΣΤΗΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ ΣΕ ΣΧΕ ΟΝ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ

ΣΥΣΤΗΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ ΣΕ ΣΧΕ ΟΝ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ ΣΥΣΤΗΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ ΣΕ ΣΧΕ ΟΝ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ ΠΑΡΑ ΟΤΕΟ 9 ΠΛΑΤΦΟΡΜΑ ΥΠΟΛΟΓΙΣΜΟΥ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ Συγγραφείς: ημήτρης Παρώνης, Αδριανός Ρετάλης, Φίλιππος Τύμβιος,

Διαβάστε περισσότερα

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων Ενότητα 4 Επεξεργασία πινάκων 36 37 4.1 Προσθήκη πεδίων Για να εισάγετε ένα πεδίο σε ένα πίνακα που υπάρχει ήδη στη βάση δεδομένων σας, βάζετε τον κέρσορα του ποντικιού στο πεδίο πάνω από το οποίο θέλετε

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΕΤΟΙΜΑΣΙΑ ΔΕΛΤΙΟΥ ΠΟΣΟΤΗΤΩΝ ΜΕ ΤΗ ΧΡΗΣΗ ΛΟΓΙΣΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΕΤΟΙΜΑΣΙΑ ΔΕΛΤΙΟΥ ΠΟΣΟΤΗΤΩΝ ΜΕ ΤΗ ΧΡΗΣΗ ΛΟΓΙΣΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή εργασία ΕΤΟΙΜΑΣΙΑ ΔΕΛΤΙΟΥ ΠΟΣΟΤΗΤΩΝ ΜΕ ΤΗ ΧΡΗΣΗ ΛΟΓΙΣΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ Χρύσω Κωνσταντίνου Λεμεσός 2016 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Διαβάστε περισσότερα

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΚΕΦΑΛΑΙΑ 3 και 9 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΕΣ Δεδομένα αφαιρετική αναπαράσταση της πραγματικότητας και συνεπώς μία απλοποιημένη όψη της δηλαδή.

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Τι κάνει η Στατιστική Στατιστική (Statistics) Μετατρέπει αριθμητικά δεδομένα σε χρήσιμη πληροφορία. Εξάγει συμπεράσματα για έναν πληθυσμό. Τις περισσότερες

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Σχεδιασμός εκτυπώσεων ERG

Σχεδιασμός εκτυπώσεων ERG Σχεδιασμός εκτυπώσεων ERG Περιεχόμενα Δημιουργία και διαχείριση εκτυπώσεων ERG... 3 Επιλογή πεδίων... 4 Λεπτομέρειες... 6 Καθορισμός φίλτρων... 6 Ταξινόμηση και ομαδοποίηση... 7 Εξαγόμενο εκτύπωσης...

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη 6 ο Πανελλήνιο Συνέδριο «Διδακτική της Πληροφορικής» Φλώρινα, 20-22 Απριλίου 2012 Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη Σάββας Νικολαΐδης 1 ο

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Επιβλέπων Καθηγητής: Δρ. Νίκος Μίτλεττον Η ΣΧΕΣΗ ΤΟΥ ΜΗΤΡΙΚΟΥ ΘΗΛΑΣΜΟΥ ΜΕ ΤΗΝ ΕΜΦΑΝΙΣΗ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 2 ΣΤΗΝ ΠΑΙΔΙΚΗ ΗΛΙΚΙΑ Ονοματεπώνυμο: Ιωσηφίνα

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή εργασία ΕΠΙΛΥΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΜΕΤΑΔΟΣΗΣ ΣΕ ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ ΜΕ ΣΥΣΚΕΥΕΣ ΔΙΑΚΡΙΤΩΝ ΤΙΜΩΝ ΙΣΧΥΟΣ ΜΕ ΤΗ ΧΡΗΣΗ

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ Ε Θ Ν Ι Κ Ο Μ Ε Τ Σ Ο Β Ι Ο Π Ο Λ Υ Τ Ε Χ Ν Ε Ι Ο ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ & ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΟΝΟΜΑΤΕΠΩΝΥΜΟ:

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις

Διαβάστε περισσότερα

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική Θεσσαλονίκη, Σεπτέμβριος 2013 Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΑΠΟΔΟΣΗΣ ΠΡΟΣΩΠΙΚΟΥ: ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ ΙΔΙΩΤΙΚΟΥ ΝΟΣΟΚΟΜΕΙΟΥ ΠΑΡΑΓΙΟΥΔΑΚΗ ΜΑΓΔΑΛΗΝΗ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΑΠΟΔΟΣΗΣ ΠΡΟΣΩΠΙΚΟΥ: ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ ΙΔΙΩΤΙΚΟΥ ΝΟΣΟΚΟΜΕΙΟΥ ΠΑΡΑΓΙΟΥΔΑΚΗ ΜΑΓΔΑΛΗΝΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΑΠΟΔΟΣΗΣ ΠΡΟΣΩΠΙΚΟΥ: ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ ΙΔΙΩΤΙΚΟΥ ΝΟΣΟΚΟΜΕΙΟΥ ΠΑΡΑΓΙΟΥΔΑΚΗ ΜΑΓΔΑΛΗΝΗ Διπλωματική

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου ΠΡΟΛΟΓΟΣ Η γραμμική παλινδρόμηση χρησιμοποιείται για την μελέτη των σχέσεων μεταξύ μετρήσιμων μεταβλητών. Γενικότερα, η γραμμική στατιστική συμπερασματολογία αποτελεί ένα ευρύ πεδίο της στατιστικής ανάλυσης

Διαβάστε περισσότερα

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. Άδειες Χρήσης Το

Διαβάστε περισσότερα

Επιχειρηματικές Προβλέψεις: Μέθοδοι & Τεχνικές Παρακολούθηση Χρονοσειράς Διάλεξη 11

Επιχειρηματικές Προβλέψεις: Μέθοδοι & Τεχνικές Παρακολούθηση Χρονοσειράς Διάλεξη 11 ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Παρακολούθηση Χρονοσειράς Διάλεξη 11 Παρακολούθηση (1 από

Διαβάστε περισσότερα

ΒΕΛΤΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΕΡΓΑΣΤΗΡΙΟΥ ΕΛΕΓΧΟΥ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΣΕ ΜΕΤΑΛΛΟΒΙΟΜΗΧΑΝΙΑ

ΒΕΛΤΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΕΡΓΑΣΤΗΡΙΟΥ ΕΛΕΓΧΟΥ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΣΕ ΜΕΤΑΛΛΟΒΙΟΜΗΧΑΝΙΑ Σχολή Mηχανικής και Τεχνολογίας Πτυχιακή εργασία ΒΕΛΤΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΕΡΓΑΣΤΗΡΙΟΥ ΕΛΕΓΧΟΥ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΣΕ ΜΕΤΑΛΛΟΒΙΟΜΗΧΑΝΙΑ Στέλιος Καράσαββας Λεμεσός, Μάιος 2017

Διαβάστε περισσότερα

ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ

ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ Σχολή Μηχανικής και Τεχνολογίας Πτυχιακή εργασία ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ Ηλίας Κωνσταντίνου Λεμεσός,

Διαβάστε περισσότερα

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Δανάη Κούτρα Eργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων Εθνικό Μετσόβιο Πολυτεχνείο Θέματα Σκοπός της διπλωματικής

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS Ακαδημαϊκό Έτος 2016-2017, Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS A. Εισαγωγή στις βάσεις δεδομένων - Γνωριμία με την ACCESS B. Δημιουργία Πινάκων 1. Εξήγηση των

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική ΕΕΟ 11 Η χρήση στατιστικών εργαλείων στην εκτιμητική 1. Εισαγωγή 2. Προϋποθέσεις χρήσης των Αυτοματοποιημένων Εκτιμητικών Μοντέλων (ΑΕΜ) 3. Περιορισμοί στη χρήση των ΑΕΜ εφόσον έχουν πληρωθεί οι προϋποθέσεις

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Αναστάσιος Σκαρλατίδης 1,2 anskarl@iit.demokritos.gr επιβλέπων: Καθ. Βούρος Γ. 1 1 Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων Πανεπιστήµιο

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Α.Μ. 123/04 ΕΠΙΒΛΕΠΩΝ: ΣΑΜΑΡΑΣ ΝΙΚΟΛΑΟΣ ΘΕΣΣΑΛΟΝΙΚΗ, ΙΟΥΝΙΟΣ 2007 Περιεχόμενα

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Θέμα: Ανάπτυξη Μοντέλων για την Πρόβλεψη Πιθανής Αποτυχίας Αποπληρωμής Δανείου

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Θ.Ε. ΠΛΗ31 (2004-5) ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ #3 Στόχος Στόχος αυτής της εργασίας είναι η απόκτηση δεξιοτήτων σε θέματα που αφορούν τα Τεχνητά Νευρωνικά Δίκτυα και ποιο συγκεκριμένα θέματα εκπαίδευσης και υλοποίησης.

Διαβάστε περισσότερα

ΠΟΣΟΤΙΚΗ ΓΕΝΕΤΙΚΗ 03. ΜΕΣΗ ΤΙΜΗ & ΔΙΑΚΥΜΑΝΣΗ

ΠΟΣΟΤΙΚΗ ΓΕΝΕΤΙΚΗ 03. ΜΕΣΗ ΤΙΜΗ & ΔΙΑΚΥΜΑΝΣΗ ΠΟΣΟΤΙΚΗ ΓΕΝΕΤΙΚΗ 03. ΜΕΣΗ ΤΙΜΗ & ΔΙΑΚΥΜΑΝΣΗ 1 ΠΟΣΟΤΙΚΟ ΓΝΩΡΙΣΜΑ ΑΑββΓΓδδεεΖΖ αριθμός φυτών 50 00 150 100 50 0 10 5 184 119 17 87 40 1 5 0-10 10-0 0-30 30-40 40-50 50-60 60-70 70-80 80-90 απόδοση/φ υτό

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

Αλγόριθμοι Εξόρυξης Χωρικών εδομένων

Αλγόριθμοι Εξόρυξης Χωρικών εδομένων Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Αγρονόμων και Τοπογράφων Μηχανικών ιατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών «ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ» Αλγόριθμοι Εξόρυξης Χωρικών εδομένων Εφαρμογή σε Αλγόριθμους Συσταδοποίησης

Διαβάστε περισσότερα

ΔΟΜΗ ΤΗΣ ΓΡΑΠΤΗΣ ΕΡΓΑΣΙΑΣ. Η γραπτή εργασία θα περιλαμβάνει τα παρακάτω μέρη:

ΔΟΜΗ ΤΗΣ ΓΡΑΠΤΗΣ ΕΡΓΑΣΙΑΣ. Η γραπτή εργασία θα περιλαμβάνει τα παρακάτω μέρη: ΔΟΜΗ ΤΗΣ ΓΡΑΠΤΗΣ ΕΡΓΑΣΙΑΣ Η γραπτή εργασία θα περιλαμβάνει τα παρακάτω μέρη: 1.ΕΞΩΦΥΛΛΟ Θα περιέχει τις εξής πληροφορίες: - Σχολείο - Μάθημα - Τάξη - Τμήμα -Τίτλο της έρευνας - Ονοματεπώνυμο Ο τίτλος της

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ. Στατιστική????? Κάθε μέρα ερχόμαστε σε επαφή 24/02/2018

ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ. Στατιστική????? Κάθε μέρα ερχόμαστε σε επαφή 24/02/2018 ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ Αντώνης Κ. Τραυλός (B.A., M.A., Ph.D.) Καθηγητής ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ Σχολή Επιστημών Ανθρώπινης Κίνησης και Ποιότητας Ζωής Τμήμα Οργάνωσης και Διαχείρισης Αθλητισμού Στατιστική?????

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 10: Ομαδοποίηση Μέρος Δ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

þÿ¼ ½ ±Â : ÁÌ» Â Ä Å ÃÄ ²µ þÿä Å ÃÇ»¹º Í Á³ Å

þÿ¼ ½ ±Â : ÁÌ» Â Ä Å ÃÄ ²µ þÿä Å ÃÇ»¹º Í Á³ Å Neapolis University HEPHAESTUS Repository School of Economic Sciences and Business http://hephaestus.nup.ac.cy Master Degree Thesis 2015 þÿ ½»Åà Äɽ µ½½ ¹Î½ Ä Â þÿ±¾¹»ì³ à  º±¹ Ä Â þÿ±à ĵ»µÃ¼±Ä¹ºÌÄ Ä±Â

Διαβάστε περισσότερα

Πτυχιακή Εργασία ηµιουργία Εκπαιδευτικού Παιχνιδιού σε Tablets Καλλιγάς ηµήτρης Παναγιώτης Α.Μ.: 1195 Επιβλέπων καθηγητής: ρ. Συρµακέσης Σπύρος ΑΝΤΙΡΡΙΟ 2015 Ευχαριστίες Σ αυτό το σηµείο θα ήθελα να

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

Αλγόριθμος Ομαδοποίησης

Αλγόριθμος Ομαδοποίησης Αλγόριθμος Ομαδοποίησης Εμπειρίες από τη μελέτη αναλλοίωτων χαρακτηριστικών και ταξινομητών για συστήματα OCR Μορφονιός Κωνσταντίνος Αθήνα, Ιανουάριος 2002 Γενικά Ένα σύστημα OCR χρησιμοποιείται για την

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner 10. Text Mining Για να μπορέσουμε να χρησιμοποιήσουμε τις δυνατότητες text mining του Rapid Miner πρέπει να εγκαταστήσουμε το Text Mining Extension. Πηγαίνουμε Help Updates and Extensions (Marketplace)

Διαβάστε περισσότερα