ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: ΑΝΑΛΥΣΗ ΙΣΤΟΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΧΗΜΙΚΟΥ ΕΡΓΟΣΤΑΣΙΟΥ ΜΕ ΧΡΗΣΗ ΑΛΓΟΡΙΘΜΩΝ ΟΜΑΔΟΠΟΙΗΣΗΣ ΚΑΙ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ Τσιρίζης Αθανάσιος Επίβλεψη: Ρεφανίδης Ιωάννης Σεπτέμβριος 2005

2 Η διπλωματική αυτή αφιερώνεται στον πνευματικό μου πατέρα Γέροντα Εφραίμ - Προηγούμενο Ιεράς Σκήτης Αγ. Αντρέα, Καρυές Άγιον Όρος - 2

3 ΕΥΧΑΡΙΣΤΙΕΣ Η διπλωματική αυτή άρχισε να εκπονείται τον Μάρτιο του 2005 και ολοκληρώθηκε τον Σεπτέμβριο του ιδίου έτους, στο εργοστάσιο παραγωγής πολυπροπυλενίου της εταιρίας Ελληνικά Πετρέλαια Α.Ε. στο βιομηχανικό συγκρότημα Θεσσαλονίκης. Εκφράζω τις πιο θερμές ευχαριστίες μου στο Λέκτορα κ. Ιωάννη Ρεφανίδη, που επέβλεψε από πολύ κοντά την εξέλιξη της διπλωματικής και ήταν ανά πάσα στιγμή διαθέσιμος, δίνοντας λύσεις σε κάθε πρόβλημα το οποίο προέκυπτε στην πορεία της έρευνας. Η καθοδήγησή του συνέβαλε τα μέγιστα στη σωστή ολοκλήρωσή της. Επίσης επιθυμώ να ευχαριστήσω θερμά τον κ. Νικόλαο Αναγνωστόπουλο, προϊστάμενό μου στα Ελληνικά Πετρέλαια και Τμηματάρχη του ΤΣΑΟ (Τμήμα Συντήρησης Αυτοματισμού και Οργάνων) στις βιομηχανικές εγκαταστάσεις Θεσσαλονίκης. Τόσο η υποστήριξή του στην αρχή, όταν εξέφρασα την επιθυμία να κάνω το μεταπτυχιακό, όσο και στο τέλος με την δήλωση της διπλωματικής μου ως επίσημο project της εταιρίας για το έτος 2005, με βοήθησε ψυχολογικά πάρα πολύ στο να καταφέρω να βγάλω παράλληλα εργασία και μεταπτυχιακές σπουδές. Ελπίζω οι γνώσεις που έχω πλέον αποκτήσει, να φανούν χρήσιμες τόσο στο τμήμα όσο, και σε ολόκληρη την εταιρία την οποία ευχαριστώ για την σημαντική παροχή των πηγαίων δεδομένων που αποτέλεσαν και το αντικείμενο της έρευνας. Θα ήθελα ακόμη να εκφράσω τις θερμές μου ευχαριστίες σε δύο συναδέλφους και πολύ καλούς μου φίλους στα ΕΛ.ΠΕ. Συγκεκριμένα ευχαριστώ τον υπεύθυνο Ηλεκτρολόγο Μηχανικό του πολυπροπυλενίου κ. Ιωάννη Παπαδόπουλο για την πολύτιμη βοήθεια του, με την συνεχή αξιολόγηση των αποτελεσμάτων της έρευνας και την κατεύθυνσή της σε τομείς άμεσου ενδιαφέροντος για την εταιρία. Επίσης το Δρ. Ηλεκτρολόγο Μηχανικό Σπυρίδων Κιαρτζή τόσο για την συνδρομή του πάνω σε θέματα φίλτρων αφαίρεσης θορύβου και νευρωνικών δικτύων, όσο και για τις υποδείξεις, συμβουλές και διορθώσεις στο πώς συντάσσεται ένα ακαδημαϊκό κείμενο. Φυσικά δεν μπορώ να παραλείψω τις ευχαριστίες προς τους οικείους μου οι οποίοι έχουν μία ξεχωριστή θέση στη ζωή μου. Δεν υπάρχουν λόγια που να μπορώ να περιγράψω το πόση ευγνωμοσύνη και η αγάπη οφείλω μου προς την οικογένειά μου για όσα μου προσέφεραν. Η οικονομική, ηθική και ψυχολογική στήριξη αποτέλεσε το βασικότερο και σταθερότερο πυλώνα σε κάθε μου επιτυχία στα μέχρι τώρα τριάντα χρόνια της ζωής μου. 3

4 Περίληψη Η περίοδος από τα τέλη της δεκαετίας του 50 μέχρι σήμερα χαρακτηρίζεται από την έντονη χρήση ηλεκτρονικών υπολογιστών στον χώρο της βιομηχανίας. Στην περίπτωση των χημικών εργοστασίων, έχοντας πετύχει τον αρχικό σκοπό που αφορούσε την ολοένα και μεγαλύτερη αυτοματοποίηση στις διαδικασίες παραγωγής, οι σκέψεις για περαιτέρω βελτίωση της παραγωγικότητας στράφηκαν στην καλυτέρευση του εποπτικού ελέγχου επί της παραγωγικής διαδικασίας. Ωστόσο η επίτευξη αυτού του στόχου απαιτεί την σωστή αναγνώριση των πολλαπλών καταστάσεων λειτουργίας. Ειδικότερα η κατηγορία των χημικών εργοστασίων που λειτουργούν με βάσει το μοντέλο των «συνταγών», χαρακτηρίζεται από ένα σύνολο σταθερών καταστάσεων λειτουργίας οι οποίες εναλλάσσονται μεταξύ τους, καθώς και τις μεταβάσεις (ενδιάμεσες καταστάσεις λειτουργίας) κατά τις οποίες γίνεται η εναλλαγή των συνταγών. Προκειμένου να αναγνωρισθούν με επιτυχία όλες οι παραπάνω καταστάσεις λειτουργίας, απαιτείται η ανάπτυξη μίας διαδικασίας που να μπορεί να αντιληφθεί δύο πράγματα: Πότε ένα εργοστάσιο είναι σε κατάσταση μετάβασης ή σε κατάσταση παραγωγής συνταγής. Όταν το εργοστάσιο είναι σε κατάσταση παραγωγής συνταγής, ποια συνταγή εκτελείται; Στην έρευνα αυτή, προτείνεται μία μέθοδος η οποία βασίζεται πάνω σε μεθόδους ομαδοποίησης - συγκεκριμένα στο αλγόριθμο Kmeans και στα νευρωνικά δίκτυα. Αρχικά τα δεδομένα περνάνε από φίλτρα αφαίρεσης θορύβου και κανονικοποιούνται. Κατόπιν με την βοήθεια μιας συνάρτησης ανεύρεσης μεταβάσεων, ο Kmeans διαχωρίζει τα δεδομένα των μεταβάσεων από τα δεδομένα των συνταγών. Στη συνέχεια εφαρμόζοντας τον Kmeans στα δεδομένα των συνταγών, αυτά διαχωρίζονται μεταξύ τους και για κάθε συνταγή δημιουργείται ένα προφίλ. Στο τέλος δημιουργείται και εκπαιδεύεται ένα νευρωνικό δίκτυο ώστε να μάθει να κατατάσσει άγνωστα παραδείγματα με βάσει τα προφίλ των εκ των προτέρων γνωστών συνταγών. Σε σχετικούς ελέγχους που έγιναν στη μονάδα πολυμερισμού στο εργοστάσιο πολυπροπυλενίου της εταιρίας Ελληνικά Πετρέλαια Α.Ε τα αποτελέσματα της μεθόδου ήταν πάρα πολύ ενθαρρυντικά έχοντας υψηλά ποσοστά επιτυχίας. 4

5 Αναλυτικότερα η δομή των κεφαλαίων της διπλωματικής έχει ως εξής: Στο Κεφάλαιο 1 γίνεται μία αναφορά στο θεωρητικό υπόβαθρο του αντικειμένου της έρευνας. Κατόπιν γίνεται μία σύντομη ανασκόπηση των εργασιών που έχουν ασχοληθεί με το πρόβλημα της ορθής αναγνώρισης καταστάσεων λειτουργίας σε χημικά εργοστάσια. Επίσης αναλύονται ο στόχος, η σπουδαιότητα και η μεθοδολογία της έρευνας. Στο Κεφάλαιο 2 γίνεται σύντομη περιγραφή της μελέτης περίπτωσης (case study). Στη συνέχεια ελέγχονται διάφορα φίλτρα αφαίρεσης θορύβου ως προς την καταλληλότητά τους και δοκιμάζονται κάποιες συναρτήσεις εύρεσης μεταβάσεων. Τέλος τα δεδομένα ομαδοποιούνται με χρήση του αλγόριθμου Kmeans σε δύο ομάδες: δεδομένα μεταβάσεων και δεδομένα συνταγών. Στο Κεφάλαιο 3 περιγράφεται αρχικά ο εντοπισμός των πλεοναζόντων μεταβλητών. Κατόπιν διαπιστώνεται η ανάγκη κανονικοποίησης των δεδομένων και επιτυγχάνεται ο σωστός διαχωρισμός των συνταγών μεταξύ τους με χρήση του Kmeans. Τέλος περιγράφεται το πρόβλημα των αργών μεταβάσεων. Στο Κεφάλαιο 4 επιβεβαιώνεται ότι τα νευρωνικά δίκτυα μπορούν να χρησιμοποιηθούν για αναγνώριση συνταγών. Κατόπιν επιβεβαιώνονται τα αποτελέσματα της ομαδοποίησης του κεφαλαίου 3, καθώς επίσης και το πρόβλημα των αργών μεταβάσεων. Στο Κεφάλαιο 5 παρουσιάζονται τα συμπεράσματα της έρευνας και οι προτάσεις για παραπέρα διερεύνηση. 5

6 Πίνακας Περιεχομένων ΣΕΛ. Περίληψη... 4 Πίνακας Περιεχομένων... 6 Κατάλογος Πινάκων... 7 Κεφ. 1 Θεωρητική Εισαγωγή Γενικά Θεωρητικό υπόβαθρο Ανακάλυψη γνώσης σε βάσεις δεδομένων Μηχανική μάθηση Μάθηση χωρίς επίβλεψη Ομαδοποίηση Αλγόριθμος Ομαδοποίησης K-means Μάθηση με επίβλεψη Βασικές έννοιες Νευρωνικά Δίκτυα Βασικές έννοιες Λειτουργία μονάδων παραγωγής χημικών προϊόντων Ανασκόπηση βιβλιογραφίας Αντικείμενο έρευνας Σκοποί Στόχοι της έρευνας Σπουδαιότητα της έρευνας Μεθοδολογία Περιορισμοί έρευνας Κεφ. 2 Αναγνώριση μεταβάσεων με ομαδοποίηση Κεφ. 3 Αναγνώριση συνταγών με ομαδοποίηση Κεφ. 4 Κατηγοριοποίηση συνταγών με νευρωνικά δίκτυα Περιγραφή νευρωνικού δικτύου Εκπαίδευση νευρωνικού δικτύου

7 4.3 Αξιολόγηση εκπαίδευσης νευρωνικού δικτύου Κεφ. 5 Συμπεράσματα Γενικά συμπεράσματα Προτάσεις για παραπέρα διερεύνηση Βιβλιογραφία Κατάλογος Πινάκων Α/Α ΤΙΤΛΟΣ ΠΙΝΑΚΑ ΣΕΛ. Πίνακας 1 Πίνακας σύγκρισης τεχνικών ομαδοποίησης 19 Πίνακας 2 Πίνακας παραγωγής προϊόντων 37 Πίνακας 3 Αποτελέσματα ομαδοποίησης με Total_dif χωρίς φίλτρο θορύβου 49 Πίνακας 4 Αποτελέσματα ομαδοποίησης με Total_dif και AVG στα 15 λεπτά 50 Πίνακας 5 Αποτελέσματα ομαδοποίησης με Total_dif και Median στα 15 λεπτά 52 Πίνακας 6 Αποτελέσματα ομαδοποίησης με Total_dif και Median στα 45 λεπτά 52 Πίνακας 7 Πίνακας αρχικής κατανομής δεδομένων σε συνταγές 58 Πίνακας 8 Πίνακας συσχετίσεων μεταβλητών 60 Πίνακας 9 1 ος Πίνακας παραμέτρων ομαδοποίησης και αποτελεσμάτων 61 Πίνακας 10 2 ος Πίνακας παραμέτρων ομαδοποίησης και αποτελεσμάτων 64 Πίνακας 11 3 ος Πίνακας παραμέτρων ομαδοποίησης και αποτελεσμάτων 65 7

8 1 ο Κεφάλαιο Θεωρητική εισαγωγή

9 Κεφ. 1 Εισαγωγή 1.1 Γενικά Από τα μέσα του 20 ου αιώνα όταν πρωτοεμφανίστηκαν οι Η/Υ στο χώρο της βιομηχανίας, άρχισε σιγά σιγά να γίνεται μία αυτοματοποίηση στις διαδικασίες παραγωγής των χημικών βιομηχανικών μονάδων (Εικόνα 1.1) με χρήση ολοένα και πιο «έξυπνου εξοπλισμού». Όταν λέμε έξυπνο εξοπλισμό εννοούμε δοχεία, αντιδραστήρες κ.α. τα οποία έχουν όργανα μετρήσεων πίεσης, ροής, θερμοκρασίας και στάθμης, τα οποία έχουν δυνατότητα επεξεργασίας αλλά και επικοινωνίας μέσω δικτύου Η/Υ. Έτσι μπορούν να εκτελούνται αυτόματες και όχι χειροκίνητες ενέργειες (π.χ. κλείσιμο βάνας) με εξ αποστάσεως εντολές, ενώ παράλληλα οι μετρήσεις που λαμβάνονται από τους αισθητήρες μπορούν να μεταδίδονται μέσω δικτύου και να συγκεντρώνονται σε ένα κεντρικό Database server για περαιτέρω επεξεργασία. Από τότε που ολοκληρώθηκε η αυτοματοποίηση, η τάση για περαιτέρω βελτίωση όχι απλά δεν σταμάτησε αλλά προχώρησε ένα βήμα παραπάνω. Το βήμα ήταν η βελτιστοποίηση του αυτοματοποιημένου εποπτικού έλεγχου επί της παραγωγικής διαδικασίας με σκοπό την αύξηση της παραγωγικότητας (π.χ. λιγότερες ποσότητες τελικών προϊόντων εκτός προδιαγραφών), την μείωση του κόστους λειτουργίας (π.χ. εύρεση των ιδανικών συνθηκών λειτουργίας) καθώς και μείωση του κόστους συντήρησης του εξοπλισμού. Η επίτευξη αυτού του βήματος κάνει εμφανή την άμεση ανάγκη για ορθή αναγνώριση των διαφορετικών καταστάσεων λειτουργίας. Στην παρούσα εργασία θα χρησιμοποιηθούν για την επίτευξη του στόχου αυτού τεχνικές ομαδοποίησης και νευρωνικών δικτύων. Εικόνα 1.1 Εργοστάσιο παραγωγής πολυπροπυλενίου της εταιρίας ΕΛ.ΠΕ. Α.Ε. 9

10 Κεφ. 1 Εισαγωγή 1.2 Θεωρητικό Υπόβαθρο Ανακάλυψη γνώσης σε βάσεις δεδομένων Η ανακάλυψη γνώσης σε βάσεις δεδομένων (Knowledge Discovery in Databases, KDD) αποτελεί έναν δυναμικό τομέα έρευνας, ο οποίος συνδυάζει τη χρήση βάσεων δεδομένων μαζί με την στατιστική, τη τεχνητή μάθηση (Artificial learning), τα έμπειρα συστήματα (Expert Systems) και την οπτικοποίηση δεδομένων (data visualization) [8]. (Σχήμα 1.1) Σχήμα 1.1 Επιστημονικοί Τομείς που συμμετέχουν στην εξόρυξη γνώσης Σκοπός της KDD είναι να βρίσκει γνώση η οποία επιθυμούμε να μην είναι ούτε αναμενόμενη, ούτε συνηθισμένη και της οποίας την ύπαρξή της δεν γνωρίζαμε καν μέχρι την στιγμή που την ανακαλύψαμε. Αυτή η γνώση μπορεί να είναι σχέσεις (relationships), τάσεις (trends), και πρότυπα σχήματα (patterns) που αφορούν σύνολα δεδομένων. Η κατοχή και η χρησιμοποίησή της στην καθοδήγηση αποφάσεων που αφορούν μελλοντικές δραστηριότητες μπορεί να αποβεί καθοριστική στη δημιουργία κάποιου οφέλους ή πλεονεκτήματος το οποίο θα αποφέρει μεγαλύτερα οικονομικά κέρδη, ασφάλεια, κ.α. «The secret of success is to know something nobody else knows Αριστοτέλης Ωνάσης» [5] Οι τομείς δραστηριότητας στους οποίους εφαρμόζεται η ανακάλυψη γνώσης είναι πάρα πολλοί όπως: Τράπεζες: Προώθηση τραπεζικών προϊόντων σε πελάτες. 10

11 Κεφ. 1 Εισαγωγή Super Market: Τοποθέτηση προϊόντων στα ράφια με τέτοιους συνδυασμούς ώστε να αυξηθούν οι πωλήσεις. Χρηματιστηριακές εταιρίες: Πρόβλεψη πορείας μετοχών από τα ιστορικά δεδομένα. Ιατρική : Ανεύρεση νέων παραγόντων που επηρεάζουν ασθένειες. Μετεωρολογία : Καλύτερη πρόβλεψη αυριανού καιρού. κ.α. Η διεργασία της ανακάλυψης γνώσης μπορεί να χωριστεί σε τέσσαρα στάδια [8] (Σχήμα 1.2). Σχήμα 1.2 Διαδικασία εξόρυξης γνώσης Επιλογή δεδομένων Στην επιλογή δεδομένων (Data Integration and Selection) προσδιορίζουμε το σύνολο των δεδομένων και τα γνωρίσματα εκείνα που μας ενδιαφέρουν σε σχέση με το στόχο μας. Καθαρισμός - Μετασχηματισμός δεδομένων Στον καθαρισμό των δεδομένων αφαιρούμε τον πιθανό θόρυβο και τις ακραίες τιμές. Μετασχηματίζουμε τις τιμές των πεδίων έτσι ώστε να έχουν κοινές μονάδες μέτρησης. Δημιουργούμε νέα πεδία από συνδυασμό κάποιων άλλων ήδη υπαρχόντων. Ίσως απαιτηθεί να αποκανονικοποιηθούν οι σχετικοί πίνακες από τη βάση δεδομένων. 11

12 Κεφ. 1 Εισαγωγή Εξόρυξη γνώσης Στην εξόρυξη γνώσης χρησιμοποιούμε εκείνα τα μοντέλα μηχανικής μάθησης που πιστεύουμε ότι είναι πιο κατάλληλα για την εκάστοτε περίπτωση και με τα οποία θα εξάγουμε την γνώση. Ο συγκεκριμένος τομέας θα αναλυθεί παρακάτω. Αξιολόγηση προτύπων Στην αξιολόγηση των προτύπων παρουσιάζονται τα ευρήματα με τρόπο όσο το δυνατό πιο εύκολο και κατανοητό για τον τελικό χρήστη. Τα ευρήματα αυτά μπορούν να χρησιμοποιηθούν στην συνέχεια έτσι ώστε να αλλάξουμε κάποιους παράγοντές στην αρχική διαδικασία. Με την επανατροφοδότηση αυτή μπορούν να προκύψουν νέα ευρήματα που δεν ήταν ορατά μέχρι πριν. Αυτή η κυκλική διαδικασία μπορεί να συνεχίζεται μέχρι να επαληθευτούν κάποιοι συγκεκριμένοι στόχοι υποθέσεις (Σχήμα 1.3). Σχήμα 1.3 Η κυκλική εξέλιξη της εξόρυξης γνώσης Ο εμπειρικός κύκλος της εξόρυξης γνώσης περιλαμβάνει 4 στάδια: 1) Γίνεται η συλλογή των αρχικών παρατηρήσεων (Observation). 2) Κατόπιν εφαρμόζεται η κύρια διαδικάσία εξόρυξης γνώσης (KDD) 3) Από τα ευρήματα του σταδίου 2 προκύπτουν κάποιες υποθέσεις (Hypothesis). 4) Οι υποθέσεις χρησιμοποιούνται για τη δημιουργία μοντέλων πρόβλεψης (Prediction). Κατόπιν εξετάζεται το πόσο αυτά τα μοντέλα ανταποκρίνονται στην πραγματικότητα. Η καταγραφή των νέων παρατηρήσεων σημειώνει το τέλος του 1 ου κύκλου εξόρυξης γνώσης και την αρχή του επόμενου. Εμπορικές εφαρμογές οι οποίες διαθέτουν εργαλεία εξόρυξης δεδομένων είναι: IBM DB2 Intelligent Miner Weka Waikato Environment for Knowledge Analysis / University of Waikato - New Zealand SPSS for Windows 12

13 Κεφ. 1 Εισαγωγή Μηχανική μάθηση Ένα σύστημα έχει ικανότητα μηχανικής μάθηση (Machine Learning) όταν ισχύουν οι παρακάτω συνθήκες: Η αλληλεπίδραση με το περιβάλλον στο οποίο δραστηριοποιείται αποτελεί την πηγή από την οποία μπορεί να αποκτά καινούργια γνώση. Η δυνατότητα να βελτιώνει κάθε φορά τις λειτουργίες που μπορεί να εκτελέσει. Έτσι το σύστημα είναι σε θέση ενημερώνει τη βάση γνώσης του είτε προσθέτοντας νέα γνώση (π.χ. κανόνες, νέες προτάσεις) είτε αλλάζοντας την εσωτερική του δομή (π.χ. βάρη στα νευρωνικά δίκτυα) [9]. Η μάθηση χωρίζεται σε τρεις γενικές κατηγορίες: Στην Μάθηση χωρίς επίβλεψη (Unsupervised learning) κατά την οποία δεδομένης της ύπαρξης ενός πεπερασμένου συνόλου παραδειγμάτων εισόδου τα οποία δεν φέρουν κανένα χαρακτηρισμό, ζητείται να ομαδοποιηθούν σε κατηγορίες. Στην Μάθηση με επίβλεψη (Supervised learning) ή επαγωγική μάθηση (Inductive learning) κατά την οποία δεδομένης της ύπαρξης ενός πεπερασμένου συνόλου παραδειγμάτων εισόδου τα οποία χαρακτηρίζονται με κάποια τιμή (συνεχή ή διακριτή), ζητείται η κατασκευή μιας συνάρτησης η οποία όχι μόνο να προσεγγίζει σωστά τα δεδομένα εισόδου αλλά και να γενικεύει όσο το δυνατόν καλύτερα σε καινούργια παραδείγματα. Στην Ενισχυτική μάθηση (Reinforcement learning) κατά την οποία δεν υπάρχει σύνολο παραδειγμάτων εισόδου, αλλά το σύστημα πρέπει από μόνο του να δημιουργήσει τα παραδείγματα εισόδου, να εκτελέσει τις ενέργειες που μπορεί να κάνει, να παρατηρήσει τα αποτελέσματα αυτών και να μάθει τελικά μία πολιτική επιλογής ενεργειών. Στην παρούσα εργασία θα χρησιμοποιηθούν μόνο οι δύο πρώτες κατηγορίες μάθησης. 13

14 Κεφ. 1 Εισαγωγή Μάθηση χωρίς επίβλεψη Ομαδοποίηση Περιγραφή προβλήματος Ομαδοποίησης Η γενικότερη αρχή είναι ότι εγγραφές με παρόμοια χαρακτηριστικά πρέπει να ανήκουν στην ίδια ομάδα. Ενώ αντίθετα ανόμοιες εγγραφές πρέπει να ανήκουν σε διαφορετικές ομάδες. Χαρακτηριστικές περιπτώσεις μάθησης χωρίς επίβλεψη αποτελούν όλα τα συστήματα που επιλύουν προβλήματα ομαδοποίησης (clustering) όπως: Ομαδοποίηση των λουλουδιών με βάση το ύψος και τις θερμοκρασίες στις οποίες αναπτύσσονται. Ομαδοποίηση των σπιτιών μιας πόλης σε γειτονιές με βάση τα εισοδήματα των ιδιοκτήτων τους. Ομαδοποίηση των μαθητών ενός σχολείου με βάση το σύνολο των βαθμών στα μαθήματά τους. Ομαδοποίηση των πελατών μιας τράπεζας, ανάλογα με τα τραπεζικά προϊόντα τα οποία αυτοί αγόρασαν π.χ. καταναλωτικά δάνειο, πιστωτική κάρτα. Ορισμός προβλήματος Ομαδοποίησης Δεδομένου ενός συνόλου εγγραφών D, πλήθους n όπου D={ t 1, t 2, t 3,.., t n } και μιας ακέραιας τιμής k, το πρόβλημα της ομαδοποίησης είναι η εύρεση μιας αντιστοίχισης f όπου κάθε t i αντιστοιχίζεται σε μία ομάδα k j, 1<=j<=k, [10]. Έτσι κάθε ομάδα, k j, περιέχει ακριβώς εκείνες και μόνο εκείνες τις εγγραφές t i που αντιστοιχίζονται σε αυτήν. Αυτή η αντιστοίχιση μπορεί να επιτευχθεί με μία μετρική συνάρτηση. Η πιο γνωστή μετρική συνάρτηση είναι αυτή της απόστασης (distance function). Τέτοια μετρική συνάρτηση απόστασης είναι η συνάρτηση του Minkowski [9]: Δοθέντος δύο εγγραφών X=(X 1,., X d ) και Y=(Y 1,., Y d ), Η γενική μορφή της συνάρτησης έχει ως εξής: Για ρ=1 παίρνουμε την απόσταση Manhattan. Για ρ=2 παίρνουμε την Ευκλείδεια απόσταση. 14

15 Κεφ. 1 Εισαγωγή Οπτικοποίηση αποτελεσμάτων ομαδοποίησης Η γραφική αναπαράσταση των αποτελεσμάτων ενός προβλήματος ομαδοποίησης στις δύο διαστάσεις μπορεί να είναι είτε τυχαία είτε κανονικά γεωμετρικά σχήματα. [8] (Σχήμα 1.4) Σχήμα 1.4 Τυχαία σχήματα ομάδων (clusters) Σχήμα 1.5 Απεικόνιση 4 ομάδων σε δύο διαστάσεις με βάση την απόσταση Ωστόσο η παραπάνω απεικόνιση δεν είναι και η μοναδική. Υπάρχουν και άλλες. Π.χ. κάνοντας χρήση διαφορετικής μετρικής συνάρτησης στην οποία λαμβάνονται υπόψη η πυκνότητα των σημείων (μοντέλο πλησιέστερου γείτονα), η γραφική αναπαράσταση (Σχήμα 1.5) μετασχηματίζεται και μας δίνει μία διαφορετική γραφική παράσταση (Σχήμα 1.6) [6], [8]. Σχήμα 1.6 Απεικόνιση 4 ομάδων σε τρεις διαστάσεις με βάση το μοντέλο πλησιέστερου γείτονα 15

16 Κεφ. 1 Εισαγωγή Κρίσιμοι παράγοντες στην ομαδοποίηση. Υπάρχουν κάποιοι παράγοντες στην ομαδοποίηση που παίζουν πάρα πολύ σημαντικό ρόλο τόσο στο τελικό αποτέλεσμα όσο και στην απόδοση σε χρόνο: 1. Αν γνωρίζουμε από πριν σε πόσες ομάδες-κατηγορίες χωρίζονται τα δεδομένα που έχουμε ή αν αυτή η πληροφορία μας είναι άγνωστη. Η γνώση αυτού του στοιχείου καθορίζει σε μεγάλο βαθμό το ποιες από όλες τις γνωστές τεχνικές clustering μπορούμε να χρησιμοποιήσουμε για το εκάστοτε πρόβλημα που έχουμε να επιλύσουμε. 2. Αν τα δεδομένα εισόδου που θα χρησιμοποιηθούν περιέχουν θόρυβο (ακραίες τιμές). Η ύπαρξη των τιμών αυτών προκαλεί σύγχυση στους αλγόριθμους ομαδοποίησης με αποτέλεσμα την εξαγωγή λανθασμένων αποτελεσμάτων τα οποία με τη σειρά τους οδηγούν και σε λαθεμένα συμπεράσματα. Προκειμένου να αποφευχθούν τέτοιου είδους προβλήματα, θα πρέπει να δεδομένα εισόδου να περνάνε από φίλτρα αφαίρεσης θορύβου. Συνήθως γίνεται χρήση κάποιων έτοιμων μαθηματικών συναρτήσεων (mean, median). Έτσι κάνοντας μία προεπεξεργασία μπορούμε να πετύχουμε την εξομάλυνση των έντονων διακυμάνσεων. 3. Το πρόβλημα της κλιμάκωσης. Ποιο είναι το πλήθος των δεδομένων εισόδου που θα ομαδοποιηθεί; Ένας αλγόριθμος ο οποίος βρίσκει τα αποτελέσματα της ομαδοποίησης μέσα από συνεχείς επαναλήψεις επεξεργασίας των δεδομένων εισόδου μπορεί δουλέψει καλά με εγγραφές. Όταν όμως θα προσπαθήσει να ομαδοποιήσει εγγραφές τα πράγματα θα αλλάξουν δραματικά. Αν υποθέσουμε ότι ο μέσος αριθμός επαναλήψεων που χρειάζεται για να βγάλει κάποιο αποτέλεσμα είναι π.χ. 8 φορές, ο χρόνος που θα χρειαστεί για να επεξεργαστεί 8* = εγγραφές είναι πάρα πολύ μεγάλος. Υπάρχει λοιπόν θέμα απόδοσης σε σχέση με το πλήθος των εγγραφών. Το τι απόφαση θα ληφθεί για κάθε ένα κρίσιμο παράγοντα εξαρτάται αποκλειστικά και μόνο από τη φύση και τις ιδιαίτερες συνθήκες του προβλήματος. 16

17 Κεφ. 1 Εισαγωγή Κατηγορίες Ομαδοποίησης Η ομαδοποίηση μπορεί να χωριστεί σε διάφορες κατηγορίες και με διάφορους τρόπους [10]. Έτσι λοιπόν : Ανάλογα με το πως χειριζόμαστε τα στοιχεία ονομάζεται: Ταυτόχρονη : όταν χειριζόμαστε τα στοιχεία όλα μαζί. Αυξητική: όταν χειριζόμαστε τα στοιχεία ένα κάθε φορά. Ανάλογα με τον αλγόριθμο που ακολουθούν, οι τεχνικές ομαδοποίησης [8] ονομάζονται: ( Σχήμα 1.7). Σχήμα 1.7 Κατηγορίες Clustering Ιεραρχική (Hierarchical): Τα clusters (ομάδες) δημιουργούνται σε επίπεδα που ουσιαστικά δημιουργούν σύνολα από clusters σε κάθε επίπεδο. (Σχήμα 1.8). Η Ιεραρχική χωρίζεται με τη σειρά της σε δύο κατηγορίες [3]: Συσσώρευσης (Agglomerative) Αρχικά κάθε στοιχείο είναι ένα cluster.τα cluster επαναληπτικά συγχωνεύονται από κάτω προς τα πάνω. Σχήμα 1.8 Παράδειγμα Διαιρετική (Divisive). Ιεραρχικής Ομαδοποίησης Αρχικά όλα τα στοιχεία αποτελούν ένα cluster.τα μεγάλα cluster προοδευτικά διαιρούνται από πάνω προς τα κάτω. 17

18 Κεφ. 1 Εισαγωγή Διαμέρισης (Partitioned). Τα clusters δημιουργούνται σε ένα βήμα μόνο. Από τη στιγμή που υπάρχει μόνο ένα σύνολο clusters στο τελικό αποτέλεσμα, ο χρήστης πρέπει να εισάγει στη αρχική τροφοδότηση τον επιθυμητό αριθμό clusters, k. Στην κατηγορία των διαμεριστικών αλγορίθμων ανήκουν οι : K-means ο οποίος θα αναλυθεί εκτενώς παρακάτω. Κοντινότερου γείτονα. Τετραγωνικού λάθους. MST. PAM (K-medoids). BEA. Genetic Algorithm. Μεγάλες ΒΔ (Large DB). Η ύπαρξη μεγάλου αριθμού εγγραφών επιβάλει δύο σημαντικούς περιορισμούς. Καταρχήν θα πρέπει να γίνει το πολύ ένα πέρασμα της βάσης δεδομένων. Αυτό σημαίνει ότι η επεξεργασία κάθε εγγραφής γίνεται μία και μόνο φορά. Κατά δεύτερον θα πρέπει να μπορεί να λειτουργεί ο αλγόριθμος με περιορισμένη μνήμη λόγο του ότι δεν είναι εφικτό να φορτωθεί το σύνολο όλων των προς επεξεργασία εγγραφών στην κεντρική μνήμη. Οι αλγόριθμοι Μεγάλων ΒΔ χωρίζονται με τη σειρά τους σε δύο κατηγορίες: Δειγματοληψίας (Sampling). Αρχικά η ομαδοποίηση εφαρμόζεται σε ένα δείγμα και μετά σε ολόκληρη την βάση δεδομένων. Συμπίεσης (Compression). Στην κατηγορία των μεγάλων Βάσεων Δεδομένων ανήκουν οι αλγόριθμοι: BIRCH. [8] DBSCAN. [17] CURE. [10] 18

19 Κεφ. 1 Εισαγωγή Σύγκριση Τεχνικών Ομαδοποίησης Στον πίνακα 1 [10] γίνεται μια σύγκριση των γνωστότερων αλγορίθμων ομαδοποίησης με βάση τον τύπο στον οποίο ανήκουν, το κόστος σε χώρο και χρόνο καθώς και κάποια ειδικά χαρακτηριστικά. Πίνακας 1 Πίνακας σύγκρισης αλγορίθμων ομαδοποίησης Αλγόριθμος Τύπος Πολυπλοκότητα Χρόνος Παρατηρήσεις Single link Ιεραρχικός O(n 2 ) O(kn 2 ) Μη αυξητικός Average link Ιεραρχικός O(n 2 ) O(kn 2 ) Μη αυξητικός Complete link Ιεραρχικός O(n 2 ) O(kn 2 ) Μη αυξητικός MST Ιεραρχικός / O(n 2 ) O(n 2 ) Μη αυξητικός Διαμέρισης Squared Error Διαμέρισης O(n 2 ) O(tkn) Επαναληπτικός K-Means Διαμέρισης O(n 2 ) O(tkn) Επαναληπτικός, Μη κατηγορικός Nearest Neighbour Διαμέρισης O(n 2 ) O(n 2 ) Αυξητικός PAM Διαμέρισης O(tn 3 ) or O(tkn 2 ) O(kn 2 ) Επαναληπτικός BIRCH Διαμέρισης O(n) O(n) Αυξητικός, Φίλτρα θορύβου CURE Μεικτός O(n 2 logn) O(n) Σωρού, Αυξητικός, Φίλτρα θορύβου ROCK Συσσώρευσης O(n 2 logn) O(n 2 ) Δειγματοληψίας, Κατηγορικός DBSCAN Μεικτός O(n 2 ) O(n 2 ) Δειγματοληψίας, Φίλτρα θορύβου 19

20 Κεφ. 1 Εισαγωγή Αλγόριθμος ομαδοποίησης K-means Ο K-means ανήκει στους αλγόριθμους διαμέρισης και είναι από τους πιο δημοφιλείς διότι η αρχή λειτουργίας του είναι πολύ απλή. (Σχήμα 1.9). Διάγραμμα ροής αλγορίθμου Τα βήματα του αλγορίθμου [13] έχουν ως εξής: 1. Ορίζουμε τον αρχικό αριθμό Κ των ομάδων. 2. Προσδιορίζουμε τις συντεταγμένες των κέντρων. (Μόνο για την πρώτη φορά η επιλογή γίνεται τυχαία). 3. Υπολογίζουμε όλες τις αποστάσεις των αντικειμένων (παραδειγμάτων) από τα κέντρα των clusters. 4. Ομαδοποιούμε τα αντικείμενα με βάση την μικρότερη απόσταση. 5. Αν υπάρχει μετακίνηση αντικειμένων από ένα cluster σε κάποιο άλλο πηγαίνουμε ξανά στο βήμα 2 αλλιώς ο αλγόριθμος τερματίζει. Σχήμα 1.9 Διάγραμμα ροής εκπαίδευσης του αλγορίθμου Kmeans Παράδειγμα εκτέλεσης K-means Ας υποθέσουμε ότι έχουμε 4 τύπους φαρμάκων και για κάθε φάρμακο γνωρίζουμε δύο ιδιότητές του. Π.χ. Δείκτης Βάρους (Weight Index), ph. Ζητείται να ομαδοποιηθούν Αντικείμενο Ιδιότητα 1 : Βάρος Ιδιότητα 2: ph τα φάρμακα Φάρμακο A 1 1 σε 2 κατηγορίες με Φάρμακο B 2 1 βάση τις ιδιότητές Φάρμακο C 4 3 τους. Φάρμακο C

21 Κεφ. 1 Εισαγωγή Κάθε φάρμακο μπορεί να θεωρηθεί ότι αντιπροσωπεύει ένα σημείο στο επίπεδο με δύο συντεταγμένες, όπου κάθε συντεταγμένη αντιστοιχεί στην τιμή μίας ιδιότητας. Έστω λοιπόν ότι η ιδιότητα του δείκτη βάρους αντιπροσωπεύει τον άξονα τον Χ και η ιδιότητα του ph αντιπροσωπεύει τον άξονα τον Υ. Βλέπε γραφική παράσταση Σχήμα Σχήμα 1.10 Αρχικά σημεία 1) Επιλέγουμε στην τύχη τα σημεία που θα αποτελέσουν τα αρχικά κέντρα των clusters. Έστω λοιπόν ότι επιλέγουμε για κέντρα τα φάρμακα: Φάρμακο Α με συντεταγμένες C 1 =(1,1) και Φάρμακο Β με συντεταγμένες C 2 =(2,1) (Σχήμα 1.11). Σχήμα 1.11 Επιλογή αρχικών κέντρων 2) Υπολογίζουμε τις αποστάσεις μεταξύ όλων των σημείων από τα αρχικά κέντρα. Σαν μετρική απόσταση θα χρησιμοποιηθεί το τετράγωνο της Ευκλείδειας απόστασης. Π.χ. Η απόσταση μεταξύ του σημείου C 3 (4,3) και C 1 (1,1) είναι D31 = (4 1) 2 + (3 1) 2 = 13. Έτσι δημιουργείται ο πίνακας αποστάσεων. Cluster Φάρμακο A Φάρμακο B Φάρμακο C Φάρμακο D Group A - C 1 =(1,1) Group B - C 2 =(2,1)

22 Κεφ. 1 Εισαγωγή 3) Βάσει του παραπάνω πίνακα επιλέγουμε την ομάδα στην οποία ανήκει το κάθε φάρμακο, με μοναδικό κριτήριο από πιο κέντρο έχει την μικρότερη απόσταση. Έτσι προκύπτει ότι στο Group A ανήκει το Φάρμακο A, ενώ στο Group B ανήκουν τα Φάρμακα B, C, D. Cluster Φάρμακο A Φάρμακο B Φάρμακο C Φάρμακο D Group A Group B ) Γνωρίζοντας πλέον τα μέλη του κάθε Group, υπολογίζουμε τις καινούργιες συντεταγμένες των κέντρων των clusters βάση των νέων δεδομένων. (Σχήμα 1.12) Το Group A έχει μόνο ένα μέλος, το Φάρμακο Α, και συνεπώς δεν αλλάζουν οι συντεταγμένες του κέντρου του C 1 =(1,1). Το Group B ωστόσο έχει τρία μέλη και οι νέες συντεταγμένες του κέντρου του είναι οι αντίστοιχοι μέσοι όροι των τριών μελών C 2 =, =, Σχήμα 1.12 Νέα κέντρα ομάδων 5) Υπολογίζουμε τις αποστάσεις μεταξύ όλων των σημείων από τα νέα κέντρα, επαναλαμβάνοντας το βήμα 2. Ο πίνακας αποστάσεων ενημερώνεται και παίρνει τις παρακάτω τιμές: Cluster Φάρμακο A Φάρμακο B Φάρμακο C Φάρμακο D Group A C 1 =(1,1) Group B C 2 =, 3 3 9, ,

23 Κεφ. 1 Εισαγωγή 6) Παρόμοια με το βήμα 3 επιλέγουμε την ομάδα στην οποία το κάθε φάρμακο, με κριτήριο το κέντρο από το οποίο έχει την μικρότερη απόσταση. Η μόνη αλλαγή που παρατηρείται είναι η αλλαγή του Φάρμακου B από το Group B στο Group Α. Cluster Φάρμακο A Φάρμακο B Φάρμακο C Φάρμακο D Group A Group B ) Επαναλαμβάνουμε τις ίδιες ενέργειες του βήματος 4 και υπολογίζουμε τις καινούργιες συντεταγμένες των κέντρων των clusters βάση των νέων δεδομένων (Σχήμα 1.13). Το Group A έχει πλέον δύο μέλη, τα Φάρμακα Α και Β. Έτσι οι συντεταγμένες του κέντρου του αλλάζουν και γίνονται C 1 =, = 1,1. Το Group B έχει επίσης μόνο δύο μέλη, τα Φάρμακα C και D και οι νέες συντεταγμένες του κέντρου του είναι οι αντίστοιχοι μέσοι όροι των μελών C 2 =, = , Σχήμα 1.13 Τελικά κέντρα ομάδων 8) Υπολογίζουμε τις αποστάσεις μεταξύ όλων των σημείων από τα νέα κέντρα, επαναλαμβάνοντας το βήμα 2. Ο πίνακας αποστάσεων ενημερώνεται και παίρνει τις παρακάτω τιμές: Cluster Φάρμακο A Φάρμακο B Φάρμακο C Φάρμακο D 1 Group A C 1 = 1, Group B C 2 = 11 8,

24 Κεφ. 1 Εισαγωγή 9) Παρόμοια με το βήμα 3 επιλέγουμε το group στο οποίο ανήκει το κάθε φάρμακο, με κριτήριο το κέντρο από το οποίο έχει την μικρότερη απόσταση. Cluster Φάρμακο A Φάρμακο B Φάρμακο C Φάρμακο D Group A Group B Κάνοντας μία σύγκριση των αποτελεσμάτων της τελευταίας επανάληψης και των αποτελεσμάτων της προτελευταίας επανάληψης (βήμα 6), παρατηρούμε ότι κανένα φάρμακο δεν άλλαξε Group. Συνεπώς ο αλγόριθμος K-means έφτασε σε μία κατάσταση σταθερότητας και δεν υπάρχει πλέον λόγος να γίνουν άλλες επαναλήψεις. Άρα ο αλγόριθμος τερματίζει. Τα τελικά αποτελέσματα έχουν ως εξής: Αντικείμενο Ιδιότητα 1 : Βάρος Ιδιότητα 2: ph Clustering result Φάρμακο A 1 1 Group A Φάρμακο B 2 1 Group A Φάρμακο C 4 3 Group B Φάρμακο C 5 4 Group B Προβλήματα του K-means Αν και ο K-means είναι απλός στην υλοποίηση του, ωστόσο παρουσιάζει αρκετές αδυναμίες όπως: 1. Το πλήθος των cluster πρέπει να μας είναι γνωστό εκ των προτέρων έτσι ώστε να εισαχθεί χειροκίνητα στον αλγόριθμο. 2. Όταν τα δεδομένα εισόδου δεν είναι αρκετά, η αρχική τυχαία επιλογή των κέντρων των clusters θα επηρεάσει πάρα πολύ το τελικό αποτέλεσμα. 3. Ποτέ δεν γνωρίζουμε ποια είναι τα πραγματικά κέντρα των clusters ακόμα και αν ξεκινήσουμε με τα ίδια δεδομένα εισόδου. Αυτό εξηγείται από το γεγονός ότι αν τα δεδομένα εισόδου είναι λίγα σε αριθμό και εισαχθούν στον αλγόριθμο με διαφορετική σειρά, τότε τα κέντρα των clusters μπορεί να μετακινηθούν με διαφορετικό τρόπο προς την ίδια κατεύθυνση που ήταν και τα προηγούμενα κέντρα, αλλά χωρίς να πάνε και στα ίδια ακριβώς σημεία. 24

25 Κεφ. 1 Εισαγωγή 4. Είναι ευαίσθητος στην τυχαία επιλογή των αρχικών κέντρων των clusters. Διαφορετική επιλογή αρχικών κέντρων μπορεί να οδηγήσει σε διαφορετικό τελικό αποτέλεσμα. Επειδή ο αλγόριθμος θυμίζει στην λειτουργία του την τεχνική αναρρίχησης λόφων είναι πολύ πιθανό να παγιδευτεί σε κάποια τοπική λύση. Δηλ. Βρίσκει μεν μια καλή λύση αλλά όχι την καλύτερη. 5. Δεν είναι αρκετά ανθεκτικός σε δεδομένα που περιέχουν θόρυβο και επηρεάζεται σχετικά εύκολα. Έτσι αν υπάρχουν ένα-δύο σημεία που βρίσκονται μακριά από τον κύριο όγκο του cluster, απομακρύνουν σημαντικά το κέντρο του cluster από το πραγματικό κέντρο. Στο Σχήμα 1.14 με κίτρινο άστρο φαίνεται το πραγματικό κέντρο του cluster, ενώ με κόκκινο άστρο το επηρεασμένο κέντρο του cluster. Σχήμα 1.14 Πραγματικό και πλασματικό κέντρο του cluster 6. Δεν είναι γνωστό ποια ιδιότητα συνεισφέρει περισσότερο στην δημιουργία των clusters, διότι ο αλγόριθμος θεωρεί ότι όλες οι ιδιότητες συνεισφέρουν το ίδιο. 7. Η γραφική αναπαράσταση του αποτελέσματος της ομαδοποίησης έχει πάντα κυκλικό σχήμα γιατί ο αλγόριθμος βασίζεται στη μετρική συνάρτηση της απόστασης (Σχήμα 1.15). Αποτελέσματα ομάδων όπως στο Σχήμα 1.16 δεν Σχήμα 1.15 Κυκλικά Σχήμα 1.16 Τυχαία σχήματα είναι εφικτό να βρεθούν. σχήματα ομάδων ομάδων 25

26 Κεφ. 1 Εισαγωγή Βελτιώσεις του K-means Έχουν προταθεί κατά καιρούς, κάποιες τροποποιήσεις οι οποίες βελτιώνουν σημαντικά την απόδοση του αλγορίθμου. Ενδεικτικά θα αναφέρουμε δύο από αυτές: 1. Ντετερμινιστική μέθοδος αρχικοποίησης του K-means. Αντί να διαλέγουμε στην τύχη τα αρχικά κέντρα των clusters, χρησιμοποιείται μία ιεραρχική διαιρετική μέθοδος η οποία ονομάζεται PCA-Part (Principal Components Analysis Partitioning). Κατόπιν όταν η μέθοδος φτάσει στον επιθυμητό αριθμό clusters τότε ξεκινάει ο κανονικός αλγόριθμος K-means. Πειραματικά έχει διαπιστωθεί ότι αυτή μέθοδος βοηθά τον αλγόριθμο να συγκλίνει αρκετά γρηγορότερα (λιγότερες επαναλήψεις) σε μία πολύ καλή λύση, σε σύγκριση με την τυχαία αρχικοποίηση του αλγορίθμου. [11] 2. K-means με μετρική συνάρτηση απόστασης βασισμένη στη συμμετρία του cluster. Ο αρχικός αλγόριθμος ανιχνεύει clusters των οποίων το σχήμα θυμίζει κύκλο. Με την τροποποίηση αυτή ο αλγόριθμος δεν ανιχνεύει μόνο clusters κυκλικού σχήματος, αλλά μπορεί να ανιχνεύσει οποιοδήποτε cluster είναι συμμετρικό. [12] Σχήματα ( ) Σχήμα 1.17 Αρχική κατανομή σημείων Σχήμα 1.18 Ομαδοποίηση με Kmeans Σχήμα 1.19 Ομαδοποίηση με SBKM 26

27 Κεφ. 1 Εισαγωγή Μάθηση με επίβλεψη Βασικές έννοιες Ορισμός Μάθηση με επίβλεψη (Supervised Learning ) Μάθηση με επίβλεψη (επαγωγική μάθηση Inductive learning ) έχουμε όταν: Υπάρχει ένα πεπερασμένο σύνολο παραδειγμάτων (X 1,., X n ) της συνάρτησης f(χ) και ζητείται να κατασκευαστεί μία συνάρτηση h(χ) η οποία θα προσπαθήσει να προσεγγίζει την f(χ) τόσο στα γνωστά παραδείγματα (X 1,., X n ), όσο και σε άγνωστα παραδείγματα αυτής. Η συνάρτηση h ονομάζεται υπόθεση [9]. Κλασικό παράδειγμα αποτελεί η εύρεση ευθείας ελαχίστων τετραγώνων (γραμμική παλινδρόμηση). (Σχήμα 1.20). Σχήμα 1.20 Ευθεία ελαχίστων τετραγώνων Χώρος υποθέσεων Χώρος των υποθέσεων ονομάζεται εκείνο το σύνολο των υποθέσεων μέσα στο οποίο ψάχνουμε να βρούμε την λύση στο εκάστοτε πρόβλημα. Π.χ. Έστω ότι ψάχνουμε για υποθέσεις στο χώρο των πολυώνυμων και ότι έχουμε ένα σύνολο από 7 σημεία. Αυτό καλύπτεται από 2 υποθέσεις. Την ευθεία και ένα πολυώνυμο 6 ου βαθμού (Σχήμα 1.21). Βάση της απλότητας «ξυράφι του Ockham» επιλέγουμε την Σχήμα 1.21 Ευθεία και πολυώνυμο 6 ου βαθμού ευθεία. που ικανοποιούν τα 7 σημεία Αν όμως τα σημεία προσεγγίζονταν ακριβώς από μία ημιτονοειδή συνάρτηση (Σχήμα 1.22), η οποία όμως δεν ανήκει στο χώρο υποθέσεων που ψάχνουμε, τότε δύο λύσεις υπάρχουν: Ή μεγαλώνουμε το χώρο των υποθέσεων και αυξάνουμε την Σχήμα 1.22 Προσέγγιση σημείων με πολυπλοκότητα. ημιτονοειδή συνάρτηση 27

28 Κεφ. 1 Εισαγωγή Ή θεωρούμε ότι τα δεδομένα περιέχουν θόρυβο και τα προσεγγίζουμε με ένα πολυώνυμο (Σχήμα 1.23) κάνοντας έτσι ένα συμβιβασμό μεταξύ της προσέγγισης των δεδομένων και της πολυπλοκότητας του χώρου των υποθέσεων. Σχήμα 1.23 Προσέγγιση σημείων με ευθεία Εκπαίδευση μοντέλου με Επιβλεπόμενη Μάθηση Αρχικά υπάρχει ένα σύνολο παραδειγμάτων (Instances) με κάποια χαρακτηριστικά (Attributes) [8] τα οποίο τα χωρίζουμε σε δύο υποσύνολα: Το υποσύνολο εκπαίδευσης (Training Data) και το υποσύνολο ελέγχου (Test Data). (Σχήμα 1.24). Κατόπιν τροφοδοτούμε και εκπαιδεύουμε το υπό δημιουργία μοντέλο, κάνοντας χρήση των δεδομένων εκπαίδευσης (Training Data) και κάποιων ειδικών παραμέτρων (Parameters) σε ένα περιβάλλον (Model Builder) που κατασκευάζει τέτοιου είδους Σχήμα 1.24 Διάγραμμα ροής εκπαίδευσης μοντέλου με επιβλεπόμενη μάθηση μοντέλα. Μετά συνεχίζουμε στον έλεγχο του μοντέλου (Supervised Model) με τα δεδομένα ελέγχου (Test Data). Αν ο έλεγχος είναι επιτυχής, συνεχίζουμε την αξιολόγηση (Evaluation) σε πραγματικές συνθήκες με άγνωστα παραδείγματα. Σε διαφορετική περίπτωση αλλάζουμε κάποιους παράγοντες από τις παραμέτρους εκπαίδευσης (Parameters) και επαναλαμβάνουμε την διαδικασία με σκοπό να βελτιώσουμε τα ποσοστά επιτυχίας του μοντέλου (Supervised Model). 28

29 Κεφ. 1 Εισαγωγή Κατηγορίες Supervised Learning Η επιβλεπόμενη μάθηση μπορεί να χωριστεί ανάλογα με το είδος των μοντέλων που παράγει [8] σε τρεις κατηγορίες (Σχήμα 1.25). Σχήμα 25 Κατηγορίες επιβλεπόμενης μάθησης Κατηγοριοποίηση (Classification) Τα μοντέλα κατηγοριοποίησης έχουν την ιδιότητα να διαβάζουν τα χαρακτηριστικά άγνωστων παραδειγμάτων (input attributes) και να τα κατατάσσουν σε κατηγορίες (classes) [2]. Τα αποτελέσματα (output attributes) είναι πάντα κατηγορικά (categorical). Π.χ. Διάγνωση καρδιοπάθειας με βάση κάποια ιατρικά συμπτώματα ασθενούς. Εκτίμηση ( Estimation) Τα μοντέλα εκτίμησης έχουν την ιδιότητα να διαβάζουν τα χαρακτηριστικά άγνωστων παραδειγμάτων (input attributes) και να εκτιμούν την τιμή ενός άλλου χαρακτηριστικού. Τα αποτελέσματα (output attributes) είναι πάντα αριθμητικά (numerical). Π.χ. Εκτίμηση αξίας ακινήτου με βάση την περιοχή, τον όροφο, τα τετραγωνικά μέτρα και την παλαιότητα. Πρόβλεψη (Prediction) Τα μοντέλα πρόβλεψης έχουν την ιδιότητα να διαβάζουν τα χαρακτηριστικά μεταβλητών εισόδου (input attributes) και να προβλέπουν την μελλοντική τιμή ενός άλλου χαρακτηριστικού. Εδώ τα αποτελέσματα (output attributes) είναι είτε κατηγορικά (categorical) είτε αριθμητικά (numerical). Π.χ. πρόβλεψη της αυριανής πορείας κάποιων μετοχών στο χρηματιστήριο. Τα μοντέλα που μπορεί να παράγει η επιβλεπόμενη μάθηση είναι: Νευρωνικά Δίκτυα (Neural networks) - τα οποία θα αναλυθούν περαιτέρω αργότερα -, κανόνες κατηγοριοποίησης (Classification Rules), Δέντρα αποφάσεων (Decision Trees), κανόνες συσχέτισης (Association Rules), Δίκτυα Bayes, κ.α. 29

30 Κεφ. 1 Εισαγωγή Νευρωνικά Δίκτυα Βασικές έννοιες Ο Φυσικός νευρώνας Ο φυσικός νευρώνας αποτελεί τη δομική μονάδα του ανθρώπινου εγκεφάλου η οποία μπορεί να επικοινωνεί με άλλα κύτταρα και να εκτελεί υπολογισμούς [1],[7]. Ένας τυπικός βιολογικός νευρώνας ( Σχήμα 1.26 ) αποτελείται από : Το σώμα που αποτελεί τον πυρήνα του. Τους δενδρίτες μέσω των οποίων λαμβάνει σήματα από γειτονικούς νευρώνες (σημεία εισόδου). Τον άξονα που αποτελεί την έξοδο του νευρώνα και το μέσο σύνδεσης του με άλλους νευρώνες. Σχήμα 1.26 Φυσικός νευρώνας 30

31 Κεφ. 1 Εισαγωγή Ο τεχνητός νευρώνας - ορολογία Ο τεχνητός νευρώνας (artificial neuron) είναι ένα υπολογιστικό μοντέλο [9] του οποίου τα μέρη αντιστοιχίζονται άμεσα με αυτά του βιολογικού νευρώνα. (Σχήμα 1.27). Σχήμα 1.27 Τεχνητός νευρώνας Τα (x 1,, x i, x n ) αποτελούν τα σήματα εισόδου. Το ρόλο των συνάψεων τον έχουν τα βάρη (w 1,, w i, w n ) τα οποία μεταβάλλουν τα σήματα εισόδου είτε θετικά είτε αρνητικά. Το σήμα x 0 ονομάζεται τάση πόλωσης, αποτελεί είσοδο για όλους τους νευρώνες και έχει σταθερή τιμή (-1 ή 1). Το σώμα αποτελείται από δύο μέρη: o Τον αθροιστή S=Σw i x i με ( i = 1..n) ο οποίος παράγει το S αθροίζοντας τα επηρεασμένα από τα βάρη σήματα εισόδου. o Τη συνάρτηση ενεργοποίησης ( Threshold / Activation function) η οποία παίρνει το S και παράγει το y. Οι τρεις κλασικότερες συναρτήσεις ενεργοποίησης είναι η βηματική, η προσήμου και η σιγμοειδής (Σχήμα 1.28). Σχήμα 1.28 Συναρτήσεις ενεργοποίησης του τεχνητού νευρώνα 31

32 Κεφ. 1 Εισαγωγή Τεχνητά νευρωνικά δίκτυα Τα τεχνητά νευρωνικά δίκτυα αποτελούν συλλογές από τεχνητούς νευρώνες, [1] οργανωμένους σε δομές που θυμίζουν σειρά από επίπεδα (layers). (Σχήμα 1.29). Στην αρχή υπάρχει το επίπεδο εισόδου (input layer). Στη συνέχεια ακολουθούν προαιρετικά, ένα ή περισσότερα κρυφά επίπεδα (hidden layers). Στο τέλος υπάρχει ένα επίπεδο εξόδου (output layer). Σχήμα 29 Παράδειγμα τεχνητού νευρωνικού δικτύου με επίπεδα εισόδου, εξόδου και κρυφό Κατηγορίες νευρωνικών δικτύων Πλήρως συνδεδεμένα (fully connected) ονομάζονται τα νευρωνικά δίκτυα όταν κάθε νευρώνας συνδέεται με όλους τους νευρώνες του επόμενου επιπέδου. Μερικώς συνδεδεμένα (partially connected) ονομάζονται όταν στο δίκτυο υπάρχουν νευρώνες που δεν συνδέονται με όλους τους νευρώνες του επόμενου επιπέδου. Δίκτυα με απλή τροφοδότηση (feed forward) ονομάζονται τα νευρωνικά δίκτυα όταν δεν υπάρχουν συνδέσεις μεταξύ νευρώνων ενός επιπέδου και νευρώνων προηγουμένου επιπέδου. Δίκτυα με ανατροφοδότηση (feedback) ονομάζονται τα νευρωνικά δίκτυα όταν υπάρχουν συνδέσεις μεταξύ νευρώνων ενός επιπέδου και νευρώνων προηγουμένου επιπέδου. 32

33 Κεφ. 1 Εισαγωγή Μάθηση στο Perceptron Perceptron ονομάζεται το πιο απλό νευρωνικό δίκτυο το οποίο αποτελείται από ένα επίπεδο νευρώνων οι οποίοι λειτουργούν και ως είσοδοι και ως έξοδοι. Χρησιμοποιεί τη βηματική συνάρτηση ενεργοποίησης. Η κεντρική ιδέα στη μάθηση του Perceptron είναι το να πάρουν τέτοιες τιμές τα βάρη, [1] [9] έτσι ώστε όταν δίνεται ένα παράδειγμα εισόδου, να παράγεται η επιθυμητή έξοδος (μάθηση με επίβλεψη). Αυτό αναλύεται σε τρεις περιπτώσεις: Όταν ο νευρώνας δίνει την σωστή έξοδο δεν γίνεται καμία μεταβολή. Όταν ο νευρώνας δώσει αποτέλεσμα 1 ενώ έπρεπε να είναι 0, αυξάνουμε τα βάρη των εισόδων που είναι αρνητικές και μειώνουμε τα βάρη των εισόδων που είναι θετικές κατά μία ποσότητα d. Όταν ο νευρώνας δώσει αποτέλεσμα 0 ενώ έπρεπε να είναι 1, αυξάνουμε τα βάρη των εισόδων που είναι θετικές και μειώνουμε τα βάρη των εισόδους που είναι αρνητικές κατά την ίδια ποσότητα d. Η ποσότητα d ονομάζεται ρυθμός μάθησης (learning rate) και καθορίζει πόσο αργά ή γρήγορα εκπαιδεύεται το δίκτυο. Η διαδικασία της εκπαίδευσης συνεχίζεται μέχρι το Perceptron να μάθει όλα τα παραδείγματα ή να σταματήσει να βελτιώνεται η απόδοση του δικτύου. Εδώ θα πρέπει να τονιστεί ότι το Perceptron μπορεί να μάθει όλα τα παραδείγματα όταν το πρόβλημα είναι γραμμικώς διαχωρίσιμο. Ενώ το σταμάτημα της απόδοσης γίνεται όταν το πρόβλημα δεν είναι γραμμικώς διαχωρίσιμο.( Σχήμα 1.30). Σχήμα 1.30 (α) Συνάρτηση AND (γραμμικώς διαχωρίσιμη), (β) Συνάρτηση XOR (μη γραμμικώς διαχωρίσιμη) Προβλήματα μη γραμμικώς διαχωρίσιμα απαιτούν την ύπαρξη κρυφού επιπέδου νευρώνων. 33

34 Κεφ. 1 Εισαγωγή Κανόνας Δέλτα (Delta rule) - Σφάλμα μάθησης Ο κανόνας δέλτα καθορίζει το πόσο θα αλλάξουν τα βάρη εισόδων του δικτύου Perceptron. Δw j_new = w j_old d(a i o ) a j. Όπου w j_old είναι το παλιό βάρος της εισόδου από το νευρώνα j. d είναι ο ρυθμός μάθησης με (d>0 ). a i είναι η έξοδος του νευρώνα i. ο είναι η επιθυμητή έξοδος. a j είναι η είσοδος από τον νευρώνα j. Σφάλμα μάθησης ενός νευρώνα i για ένα σύνολο παραδειγμάτων p 1,.. p n ονομάζεται η ποσότητα E = Σ(a i,p o p ) με ( p = 1,..,n). Το σφάλμα αυτό μας δείχνει πόσο κοντά ή μακριά είμαστε από την επιθυμητή κατάσταση. Κατά την διάρκεια της εκπαίδευσης η μάθηση του δικτύου σταματάει όταν το συνολικό σφάλμα E πέσει κάτω από κάποια αποδεκτή τιμή. Ανάστροφη μετάδοση λάθους ( back propagation) Όταν το νευρωνικό δίκτυο δεν είναι Perceptron (ένα επίπεδο νευρώνων) αλλά δίκτυο με πολλά επίπεδα τότε χρησιμοποιείται η ανάστροφη μετάδοση λάθους. Η γενικότερη ιδέα είναι να βρεθεί για κάθε νευρώνα πόσο συμμετέχει στο συνολικό σφάλμα [1]. Έτσι λοιπόν αρχικά υπολογίζεται το σφάλμα στους νευρώνες εξόδου όπως και στον κανόνα δέλτα. Το υπολογιζόμενο σφάλμα χρησιμοποιείται για τον υπολογισμό των σφαλμάτων στο τελευταίο κρυφό επίπεδο. Κατόπιν η διαδικασία επαναλαμβάνεται αναδρομικά μέχρι το πρώτο επίπεδο. Αφού βρεθούν όλα τα σφάλματα, αλλάζουν τα βάρη κάθε νευρώνα με αντίστοιχο του κανόνα δέλτα τρόπο. Όπως και στο Perceptron η μάθηση του δικτύου σταματάει όταν το συνολικό σφάλμα E πέσει κάτω από κάποια αποδεκτή τιμή. Ουσιαστικά η μάθηση θυμίζει μία αναζήτηση ολικού ελαχίστου της συνάρτησης σφάλματος με παραμέτρους τις τιμές των βαρών. Όπως όμως σε κάθε αναζήτηση τύπου αναρρίχησης λόφου, υπάρχουν περιπτώσεις που η αναζήτηση πέφτει σε τοπικά ελάχιστα (local minimum) και δεν βρίσκεται η ιδανική λύση, έτσι υπάρχουν και περιπτώσεις που τελικά το δίκτυο δεν εκπαιδεύεται πλήρως αλλά μερικώς. Το πρόβλημα αντιμετωπίζεται συνήθως είτε με επανεκκινήσεις με τυχαία αρχικά βάρη είτε με αύξηση του αριθμού των νευρώνων του κρυφού επιπέδου. 34

35 Κεφ. 1 Εισαγωγή Προβλήματα νευρωνικών δικτύων 1. Όταν το νευρωνικό δίκτυο περιέχει και κρυφό επίπεδο νευρώνων, τότε υπάρχουν δυο πιθανά προβλήματα [4] [9] που σχετίζονται με το πόσους κρυφούς νευρώνες έχει το δίκτυο ως προς τον αριθμό των παραδειγμάτων εκπαίδευσης: Αδυναμία μάθησης Η αδυναμία μάθησης προκαλείται όταν οι κρυφοί νευρώνες είναι λίγοι. Το δίκτυο δεν μαθαίνει τα παραδείγματα εκπαίδευσης και αυτό γίνεται αντιληπτό από το ότι το συνολικό σφάλμα παραμένει σε υψηλά επίπεδα. Υπερπροσαρμογή (Overfitting) To πρόβλημα της υπερπροσαρμογής εμφανίζεται όταν οι κρυφοί νευρώνες είναι πολλοί. Το πρόβλημα γίνεται αντιληπτό όταν ενώ το συνολικό σφάλμα του νευρωνικού δικτύου γίνεται πολύ μικρό για τα παραδείγματα εκπαίδευσης, εντούτοις είναι αρκετά μεγάλο σε άγνωστα παραδείγματα. Έτσι το νευρωνικό δίκτυο αντί να γενικεύει εξειδικεύει. (Σχήμα 1.31) (α) (β) Σχήμα 1.31 (α) Δίκτυο με υπερπροσαρμογή, (β) Δίκτυο με καλή γενίκευση Συνεπώς προκειμένου να αποφευχθούν και οι δύο ακραίες περιπτώσεις θα πρέπει να μπει ένας μέσος αριθμός νευρώνων. 2. Κανονικοποίηση των δεδομένων εκπαίδευσης Αν τα δεδομένα εκπαίδευσης έχουν συνεχείς τιμές και δεν είναι κανονικοποιημένα τότε μπορεί να παρουσιαστεί το εξής πρόβλημα: Όταν υπάρχουν χαρακτηριστικά των οποίων η μικρή διακύμανση προκαλεί σημαντική αλλαγή στο τελικό αποτέλεσμα του δικτύου, τότε το δίκτυο αδυνατεί να καταλάβει τη διαφορά και να τη μάθει. Το πρόβλημα λύνεται είτε με το μετασχηματισμό Μέσης τιμής και Διασποράς είτε με το μετασχηματισμό Ελάχιστης και Μέγιστης τιμής [9]. 35

36 Κεφ. 1 Εισαγωγή Λειτουργία βιομηχανικών μονάδων παραγωγής χημικών προϊόντων. Τα πετροχημικά εργοστάσια μπορούν χωριστούν σε δύο μεγάλες κατηγορίες: στα εργοστάσια διύλισης πετρελαίου και τα εργοστάσια που παράγουν όλα τα υπόλοιπα χημικά προϊόντα. Όλα τα εργοστάσια ανεξαρτήτως κατηγορίας, αποτελούνται από μικρότερες μονάδες που συνεργάζονται αρμονικά μεταξύ τους. Η έρευνα της παρούσας εργασίας ωστόσο επικεντρώνεται μόνο στην δεύτερη κατηγορία και συγκεκριμένα στα εργοστάσια που δουλεύουν με το μοντέλο της «λειτουργίας των συνταγών». Ο κύκλος λειτουργίας ενός χημικού εργοστασίου που λειτουργεί με συνταγές, έχει τρεις βασικές φάσεις από τις οποίες περνάει. 1. Ξεκίνημα (Startup): Στη φάση αυτή ο εξοπλισμός τροφοδοτείται για πρώτη φορά. Κατόπιν γίνονται κάποιες προπαρασκευαστικές λειτουργίες μέχρι να προετοιμαστούν όλες οι μονάδες του εργοστάσιου, ώστε να είναι έτοιμες για την εκτέλεση της κύριας χημικής αντίδρασης και παραγωγή του 1 ου χημικού προϊόντος. Π.χ Ανεβάστε την θερμοκρασία στο φούρνο-(κλίβανο) στους 600 βαθμούς. Αφαιρέστε το οξυγόνο από το δοχείο Dxxx και γέμισε το με άζωτο. Ανοίξτε τη βάνα Vxxx για παροχή πρώτης ύλης από την δεξαμενή TK-xxx και κλείστε τις βάνες Vxxx και Vxxx από τις αντίστοιχες δεξαμενές. Ανοίξτε τη βάνα Vxxx για παροχή καταλύτη στους αντιδραστήρες κ.α. 2. Παραγωγή προϊόντων: Η φάση αυτή αποτελεί την βασική κατάσταση λειτουργίας του εργοστασίου, και χαρακτηρίζεται επίσης από μία κυκλική συμπεριφορά. Η κυκλική συμπεριφορά εδώ σημαίνει ότι επαναλαμβάνεται συνέχεια ο ίδιος κύκλος προϊόντων (συνταγών) είτε ακριβώς ο ίδιος είτε με μικρές παραλλαγές (π.χ. προσθήκη νέων προϊόντων ή παραλλαγές προϊόντων). Για να γίνει καλύτερα κατανοητό θα παρατεθεί ένα σύντομο παράδειγμα. Έστω λοιπόν ένα χημικό εργοστάσιο πλαστικών, το οποίο παράγει τρεις βασικούς τύπους προϊόντων ή όπως αλλιώς λέγεται τρεις συνταγές. Ο κάθε τύπος έχει τις δικές του ιδιότητες λόγο της διαφορετικής τελικής του χρήσης. (Πίνακας 2) 36

37 Κεφ. 1 Εισαγωγή Πίνακας 2 Πίνακας παραγωγής προϊόντων Τύπος Συνταγής Ιδιότητες Σκοπός χρήσης 1 Σκληρό και ανθεκτικό σε Πλαστικά μέρη μηχανής θερμοκρασία πλαστικό αυτοκινήτων 2 Μαλακό εύκαμπτο πλαστικό Ζελατίνα περιτύλιξης συσκευασιών και δώρων 3 Μαλακό και ανθεκτικό σε χρήση πλαστικό Πλαστικά μπουκάλια αναψυκτικών. Μετά το ξεκίνημα πρώτα μπαίνει σε παραγωγή η συνταγή 1. Όταν παραχθεί η επιθυμητή ποσότητα αλλάζουμε συνταγή και πάμε στην επόμενη. Για να γίνει αυτό απαιτείται κάποιος ενδιάμεσος χρόνος κατά τον οποίο θα πρέπει να γίνουν κάποιες αλλαγές στην χημική αντίδρασή. (π.χ. θα μειωθεί η τροφοδοσία του καταλύτη κατά 20% και θα αυξηθεί η θερμοκρασία στον αντιδραστήρα κατά 15%). Αυτές οι αλλαγές μπορεί να κρατήσουν από ½ - 48 ώρες και εξαρτώνται από το σε ποια συνταγή βρίσκεται η χημική αντίδραση και σε ποια θέλουμε να πάει. Όταν πιάσουμε τις κατάλληλες συνθήκες για την 2 η συνταγή συνεχίζουμε την παραγωγή της μέχρι την επιθυμητή ποσότητα. Κατόπιν αλλάζουμε συνταγή και πάμε στην επόμενη που είναι 3. Και πάλι γίνονται κάποιες αντίστοιχες αλλαγές (π.χ. μικρή αύξηση στην τροφοδοσία του καταλύτη κατά 5%, μείωση στη θερμοκρασία του αντιδραστήρα κατά 10% και προσθήκη ενός χημικού πρόσθετου). Όταν πιάσουμε τις κατάλληλες συνθήκες της συνταγής 3 συνεχίζουμε την παραγωγή της μέχρι την επιθυμητή ποσότητα. Κατόπιν αλλάζουμε ξανά τις συνθήκες παραγωγής έτσι ώστε να παραχθεί και πάλι ο τύπος 1 και ο κύκλος ξεκινάει από την αρχή. Εδώ θα πρέπει να επισημανθούν κάποιες ιδιαιτερότητας των χημικών εργοστασίων που παράγουν πλαστικά. Η σειρά με την οποία εκτελούνται οι συνταγές εξαρτάται από τη σειρά που ελήφθησαν οι παραγγελίες καθώς και τις ποσότητες αυτών. Έτσι λοιπόν ο κύκλος των συνταγών μπορεί να αλλάξει ως προς: Το πλήθος των προϊόντων (περισσότερα ή λιγότερα προϊόντα). Το είδος των συνταγών ( νέα προϊόντα αντικαθιστούν παλαιότερα). Τη χρονική διάρκεια λόγο μικρών ή πολύ μεγάλων παραγγελιών. 37

38 Κεφ. 1 Εισαγωγή Επίσης το αποτέλεσμα της χημικής αντίδρασης το οποίο παράγεται κατά την διάρκεια των μεταβάσεων από συνταγή σε συνταγή θεωρείται σαν ένας τύπος προϊόντος με μειωμένες προδιαγραφές. Για να θεωρηθεί ότι μία συνταγή παρήχθη επιτυχώς θα πρέπει η παραγωγή να έχει διάρκεια τουλάχιστον από 6 ώρες και πάνω. Το πόσο είναι αυτή η διάρκεια εξαρτάται από το μέγεθος και το είδος του βιομηχανικού εξοπλισμού. Όπως και να χει, συνταγή η οποία διαρκεί κάτω από 6 ώρες δεν θεωρείται συνταγή αλλά μετάβαση. Το δε προϊόν θεωρείται προϊόν με μειωμένες προδιαγραφές. 3. Σταμάτημα (Shutdown): Το σταμάτημα γίνεται είτε για λόγους συντήρησης εξοπλισμού είτε για αποφυγή ατυχήματος. Στη φάση αυτή γίνονται κάποιες λειτουργίες έτσι ώστε να επιτευχθούν δύο βασικοί στόχοι: Οι μεν χημικές αντιδράσεις που βρίσκονται σε εξέλιξη να ολοκληρωθούν επιτυχώς χωρίς προβλήματα εφόσον αυτό είναι εφικτό. Να προετοιμαστεί όλος ο εξοπλισμός των μονάδων μέχρι να είναι έτοιμος να κλείσει τελείως και η τροφοδοσία ρεύματος. Π.χ. Σταδιακή μείωση τροφοδοσίας πρώτης ύλης και καταλύτη στους αντιδραστήρες και κλείσιμο των αντίστοιχων βανών. Αφαίρεση υπολειμμάτων καύσης από αντιδραστήρες. Εκτόνωση πίεσης σε δοχεία αζώτου κ.α. Σε όλο το εργοστάσιο και ειδικά στις κρίσιμες μονάδες παραγωγής υπάρχουν αισθητήρες και αναλυτές στοιχείων. Αυτοί συλλέγουν πληροφορίες που αφορούν ροές, πιέσεις, θερμοκρασίες, στάθμες, τροφοδοσίες υλικών, περιεκτικότητες αεριών και υγρών και κατόπιν μεταδίδονται μέσω κατάλληλου δικτύου στο κεντρικό σύστημα ελέγχου DCS (Distributed Control System) που βρίσκεται στο θάλαμο ελέγχου. Έτσι λοιπόν γίνεται φανερό ότι η χημική μονάδα, με εξαίρεση τις φάσεις του ξεκινήματος και σταματήματος, εναλλάσσεται μεταξύ δύο βασικών καταστάσεων. Τη σταθερή κατάσταση κατά την οποία παράγονται τα κανονικά προϊόντα και τη κατάσταση μετάβασης κατά την οποία αλλάζουμε τύπο προϊόντος. Είναι λοιπόν λογικό ότι οι καταστάσεις που επικρατούν στο εργοστάσιο θα πρέπει να επαληθεύονται και από τις πληροφορίες που συγκεντρώνουν οι αισθητήρες και οι αναλυτές. Συνεπώς η οποιαδήποτε προσπάθεια καλύτερου ελέγχου επί της 38

39 Κεφ. 1 Εισαγωγή παραγωγικής διαδικασίας απαιτεί την ορθή αναγνώριση της κατάστασης λειτουργίας με χρήση αυτών των πληροφοριών. 1.3 Ανασκόπηση βιβλιογραφίας Στο σύνολο των εργασιών τις βιβλιογραφικής μας έρευνας, καμία εργασία δεν χρησιμοποίησε δεδομένα τα οποία προέρχονταν από χημικά εργοστάσια που λειτουργούν με συνταγές. Αντιθέτως όλα τα δεδομένα προέρχονταν από μονάδες που λειτουργούν μέσα σε διυλιστήρια και με ιδιαίτερη έμφαση από την Μονάδα Ρευστοποιημένης Καταλυτικής Πυρόλυσης (FCCU - Fluidized Catalytic Cracking Unit). Επίσης το αριθμητικό σύνολο των δεδομένων που αναλύθηκαν ποτέ δεν ξεπέρασε τα 400 δείγματα, σε αντίθεση με την παρούσα εργασία στην οποία χρησιμοποιήθηκαν δείγματα. Στην εργασία των Srinivasan, Wang, Ho και Lim [14] προτείνεται μια διαφορετική μέθοδος για δυναμικό clustering. Η προτεινόμενη μέθοδος αναλύεται στην επίλυση δύο επιμέρους προβλημάτων: 1) Αναγνώριση των σταθερών καταστάσεων 2) Ομαδοποίηση των επιμέρους τμημάτων βασισμένη στην εκτίμηση ενός βαθμού ομοιότητας. Όπως αναφέρθηκε και πριν η λειτουργία μιας σειράς χημικών αντιδράσεων περιλαμβάνει ένα σύνολο σταθερών καταστάσεων και ένα μεταβάσεων. Τα δεδομένα των αντιδράσεων μπορούν να χωριστούν σε ομάδες, έτσι ώστε να αντιστοιχούν σε καταστάσεις σταθερότητας (modes) και καταστάσεις μεταβάσεων (transitions). Κατά την διάρκεια μιας σταθερής κατάστασης (mode) οι τιμές των μεταβλητών είναι συγκεντρωμένες γύρω από κάποιο κέντρο - σημείο στο οποίο οι τιμές των μεταβλητών είναι σταθερές. Κατά την διάρκεια μιας μετάβασης, κάποιες ή όλες οι μεταβλητές θα είναι διασκορπισμένες. Αν μπορούσε να σχεδιαστεί μία σφαίρα Ν-διαστάσεων ή οποία να περικλείει ένα σύνολο παρατηρήσεων από κάποια σταθερή κατάσταση, τότε η ακτίνα της σφαίρας θα ήταν αρκετά μικρή. Αν το σύνολο των παρατηρήσεων αφορούσε μια κατάσταση μετάβασης η ακτίνα της σφαίρας θα ήταν πολύ μεγαλύτερη. Αυτή η σημαντική διαφορά μεταξύ των δύο ακτινών μπορεί να χρησιμοποιηθεί για να αναγνωριστεί το είδος της κατάστασης λειτουργίας (mode ή transition). Έτσι κάνοντας χρήση αυτής της αρχής στα βασικά στοιχεία των δεδομένων ιστορικού, έχει δημιουργηθεί μία αποδοτική μέθοδος που αναγνωρίζει τις σταθερές 39

40 Κεφ. 1 Εισαγωγή καταστάσεις. Όλα τα υπόλοιπα σύνολα δεδομένων χαρακτηρίζονται σαν δεδομένα μεταβάσεων. Κατόπιν γίνεται μια σύγκριση ομοιότητας η οποία γίνεται ξεχωριστά σε κάθε ομάδα δεδομένων. Επειδή μια σταθερή κατάσταση χαρακτηρίζεται από σχεδόν σταθερές τιμές, ο μέσος όρος και η διακύμανση μπορούν να τη χαρακτηρίσουν μοναδικά. Η ευκλείδεια απόσταση μεταξύ των μέσων όρων και των διακυμάνσεων δύο σταθερών καταστάσεων λειτουργίας (modes), μπορεί να χρησιμοποιηθεί ως βαθμός ομοιότητας αυτών. Οι δύο καταστάσεις θεωρούνται ότι ανήκουν στην ίδια ομάδα (cluster) αν η ευκλείδεια απόσταση είναι μικρότερη από κάποια προκαθορισμένη τιμή (threshold). To πρόβλημα της σύγκρισης δύο καταστάσεων μετάβασης είναι πιο πολύπλοκο διότι αντί των μέσων όρων και διακυμάνσεων πρέπει να ληφθούν υπ όψιν οι τάσεις (trends) και οι χρονικές κλίμακες (time scales). Έτσι έχει χρησιμοποιηθεί ένας συντελεστής ομοιότητας για την Ανάλυση Βασικών Συνιστωσών (PCA - Principal Component Analysis) σε καταστάσεις μεταβάσεων (transitions) με πολλές μεταβλητές. Κατά συνέπεια δύο μεταβάσεις ανήκουν στην ίδια ομάδα (cluster) όταν ο συντελεστής ομοιότητάς τους είναι πάνω από κάποιο προκαθορισμένο όριο που καθορίζει ο χρήστης (User defined threshold). Μέσα από την ανάλυση και σύγκριση μέσων όρων και συντελεστών ομοιότητας, μπορούν να αναγνωριστούν ομάδες σταθερών καταστάσεων και μεταβάσεων. Συγκρινόμενη με άλλες μεθόδους που επιλύουν το ίδιο πρόβλημα, η προτεινόμενη μεθοδολογία προσφέρει τα εξής πλεονεκτήματα. 1) Ανταποκρίνεται στην φύση της ύπαρξης πολλών παραμέτρων στις χημικές διεργασίες. 2) Η ομοιότητα μεταξύ των μεταβάσεων βασίζεται στην πρόσκαιρη εξέλιξη (temporal evolution) αυτών και είναι ανθεκτική σε μικρές παραλλαγές. 3) Οι υπολογιστικές απαιτήσεις αυτής της προσέγγισης είναι αρκετά μετρημένες σε σύγκριση με άλλες παραδοσιακές μεθόδους. 40

41 Κεφ. 1 Εισαγωγή Οι Sebzally και Wang [15] έχοντας σαν σκοπό την δημιουργία ενός εργαλείου το οποίο θα επιτρέπει την γρήγορη εναλλαγή μεταξύ πετροχημικών προϊόντων (rapid product changeover), προτείνουν την ακόλουθη μέθοδο: Αναγνώριση καταστάσεων λειτουργίας με χρήση ανάλυσης βασικών συνιστωσών (PCA - Principal Component Analysis) και τον αλγόριθμο ομαδοποίησης Fuzzy c-means. Με τη μέθοδο αυτή κατάφεραν δύο στόχους: 1) Να ξεχωρίσουν σε μία FCCU μονάδα διυλιστηρίου και να προβάλουν σε δύο διαστάσεις, τέσσερες ζώνες λειτουργίας (σταθερές καταστάσεις) από τις οποίες οι τρεις αντιστοιχούν σε πραγματικά προϊόντα ενώ η τέταρτη σε προϊόν εκτός προδιαγραφών. 2) Να εντοπίσουν το ποίες είναι εκείνες οι παράμετροι λειτουργίας οι οποίες συνεισφέρουν περισσότερο στο να γίνει η μετάβαση από μία ζώνη λειτουργίας σε μία άλλη. 1.4 Αντικείμενο της έρευνας Αντικείμενο αυτής της έρευνας είναι η εύρεση μιας αποδοτικής μεθόδου αναγνώρισης των διαφορετικών καταστάσεων λειτουργίας οι οποίες μπορεί να ισχύουν κατά την διάρκεια λειτουργίας ενός χημικού εργοστασίου πλαστικών που δουλεύει με «συνταγές». 1.5 Σκοποί Στόχοι της έρευνας Βασικός στόχος είναι η δημιουργία μιας διαδικασίας βάσει της οποίας θα δίνεται μία υψηλού επίπεδου πληροφόρηση για το πώς λειτούργησε συνολικά και ποια προβλήματα εμφάνισε μία χημική μονάδα κατά την περίοδο μεταβάσεων ή παραγωγής προϊόντων. Αναλυτικότερα περιλαμβάνονται: Ο προσδιορισμός των κατάλληλων φίλτρων αφαίρεσης θορύβου για το συγκεκριμένο είδος δεδομένων. Ο εντοπισμός των προϋποθέσεων που χρειάζεται κάποιος αλγόριθμος ομαδοποίησης έτσι ώστε να μπορεί διαχωρίζει τα δεδομένα σε δεδομένα σταθερών καταστάσεων και δεδομένα καταστάσεων μετάβασης 41

42 Κεφ. 1 Εισαγωγή Η αναζήτηση των παραμέτρων που έχουν καθοριστικό ρόλο στο διαχωρισμό των συνταγών μεταξύ τους. Η εύρεση των ιδανικών τιμών (πάντα με κάποιο όριο ανοχής) στις κρίσιμες παραμέτρους λειτουργίας ανάλογα με το ποια συνταγή εκτελείται την κάθε φορά. Έτσι ώστε όταν αυτές συγκριθούν με τις τρέχουσες συνθήκες λειτουργίας, να μπορούν να εντοπιστούν ποιες παράμετροι έχουν πρόβλημα. 1.6 Σπουδαιότητα της έρευνας Γίνεται φανερό ότι σε διοικητικό επίπεδο οι επικεφαλής των χημικών μονάδων είναι πολύ σημαντικό να έχουν την καλύτερη και ακριβέστερη εικόνα για το πως λειτουργεί πραγματικά η μονάδα. Έτσι μπορούν να εντοπίσουν σύνθετα προβλήματα και παραλείψεις στην παραγωγή. Αυτό με σειρά του μπορεί να βοηθήσει: Στην αύξηση της κερδοφορίας μέσα από τη βελτίωση της παραγωγικότητας της χημικής μονάδας. Στην πιθανή αύξηση του ωφέλιμου χρόνου ζωής του εξοπλισμού. Στη μείωση του κόστους συντήρησης του εξοπλισμού της μονάδας. Επίσης, σε επίπεδο παραγωγής και σε πραγματικές συνθήκες λειτουργίας, η έγκαιρη ενημέρωση για το πόσο κοντά είμαστε στη συνταγή που νομίζουμε ότι παράγουμε μπορεί να βοηθήσει στο να αποφευχθούν: Τελικά προϊόντα εκτός προδιαγραφών, Προβληματικές καταστάσεις που επιφέρουν βλάβες στον εξοπλισμό, Επικίνδυνες καταστάσεις πρόκλησης βιομηχανικών ατυχημάτων που βάζουν σε κίνδυνο την ασφάλεια των εργαζόμενων στις χημικές μονάδες. 42

43 Κεφ. 1 Εισαγωγή 1.7 Μεθοδολογία Περιορισμοί έρευνας Η επιλογή της μεθοδολογίας της παρούσας έρευνας έχει βασιστεί στη μεθοδολογία που ακολούθησαν και άλλες έρευνες [14],[15],[16] με παρόμοιο αντικείμενο αλλά με κάποιες παραλλαγές. Πιο αναλυτικά η μεθοδολογία έχει ως εξής: Πρώτο βήμα είναι να μετατραπούν όλες τις τιμές των παραδειγμάτων σε μία ενιαία κλίμακα αναφοράς. Κατόπιν να εφαρμοστούν τυχόν φίλτρα αφαίρεσης θορύβου και να ομαδοποιηθούν τα παραδείγματα σε δύο ομάδες. Η πρώτη ομάδα θα έχει τα παραδείγματα που ανήκουν σε σταθερές καταστάσεις λειτουργίας. Η δεύτερη ομάδα θα έχει τα παραδείγματα που ανήκουν σε καταστάσεις μεταβάσεις. Τυχόν αποτυχία στην ομαδοποίηση σημαίνει ότι υπάρχει πρόβλημα θορύβου στα αρχικά δεδομένα. Συνήθως η λύση είναι ή η χρήση πιο ισχυρών φίλτρων ή ακόμα και διαφορετικών φίλτρων. Μετά εφόσον έχουν ξεχωρίσει επιτυχώς οι δύο ομάδες, γίνεται επιλογή της ομάδας με τα παραδείγματα των σταθερών καταστάσεων. Από την ομάδα εκείνη ζητείται να αναγνωρισθούν τα προφίλ των συνταγών. Έτσι λοιπόν απομονώνεται ένα κομμάτι συνεχόμενων χρονικά παραδειγμάτων, μέσα στο οποίο γίνεται ξανά ομαδοποίηση και αναζήτηση για τρεις ομάδες σταθερών καταστάσεων που υπάρχουν στην πραγματικότητα. Ο αριθμός 3 δεν είναι τυχαίος. Αν η ομαδοποίηση αφορούσε 2 πραγματικές ομάδες, τότε η λύση θα έρθει αρκετά εύκολα μιας και δεν αφήνονται και πολλά περιθώρια στο να εμφανιστούν σοβαρά προβλήματα. Αν η ομαδοποίηση αφορούσε 4 πραγματικές ομάδες τότε η υπόθεση γίνεται αρκετά πολύπλοκη για να κατανοηθούν τυχόν στρυφνά σημεία. Γι αυτό ο αριθμός των 3 ομάδων αποτελεί μια μέση και ασφαλή λύση. Αργότερα εφόσον είναι επιθυμητό μπορεί να αυξηθεί ο βαθμός πολυπλοκότητας εφόσον υπάρχει μία πρώτη προσέγγιση. Τέλος γίνεται επαλήθευση των αποτελεσμάτων της ομαδοποίησης με αλγόριθμο κατηγοριοποίησης, έχοντας πλέον γνωστές και τις εισόδους και τις αναμενόμενες εξόδους της ομαδοποίησης. Αν τα αποτελέσματα είναι ίδια έχει καλώς. Αν όχι, υπάρχουν κάποιες λεπτομέρειες που προκαλούν διαφοροποίηση και πρέπει να εξηγηθεί το γιατί. Σε κάθε περίπτωση στο σημείο αυτό, η αρχική έρευνα έχει φτάσει στην υλοποίηση του βασικού της σκοπού. Από εκεί και πέρα μαζί με τη βοήθεια ενός χημικού μηχανικού η έρευνα μπορεί να στραφεί προς συγκεκριμένη κατεύθυνση. Στο σημείο θα πρέπει να τονιστεί ένας σημαντικός περιορισμός που αφορά την υλοποίηση της συγκεκριμένης έρευνας. Η φύση αυτού του αντικειμένου (πετροχημικά 43

44 Κεφ. 1 Εισαγωγή εργοστάσια), απαιτεί τη δημιουργία μιας ομάδας εργασίας από τρεις τουλάχιστον ειδικότητες: ένα μηχανικό πληροφορικής, έναν ηλεκτρολόγο μηχανικό με ειδίκευση στους αυτοματισμούς παραγωγής και ένα χημικό μηχανικό. Ο χημικός μηχανικός είναι ο πλέον αρμόδιος ο οποίος θα μπορέσει να κατευθύνει με μεγαλύτερη ακρίβεια της πορεία της έρευνας, να κρίνει σε τι μπορούν να μεταφραστούν τα αποτελέσματα της και πως μπορούν να χρησιμοποιηθούν καλύτερα. 44

45 2 ο Κεφάλαιο Αναγνώριση μεταβάσεων με ομαδοποίηση

46 Κεφ. 2 Αναγνώριση μεταβάσεων με ομαδοποίηση Περιγραφή case study Η μελέτη περίπτωσης (case study) η οποία χρησιμοποιήθηκε είναι μία μονάδα πολυμερισμού σε ένα εργοστάσιο παραγωγής πολυπροπυλενίου (για συντομία θα αναφέρεται ως PP). Το εργοστάσιο λαμβάνει σαν πρώτη ύλη (Σχήμα 2.1) προπυλένιο (Propylene) το οποίο πολυμερίζεται μαζί με καταλύτες (Catalyst), συγκαταλύτες (Cocatalysts) και υδρογόνο (Hydrogen) σε ένα διπλό αντιδραστήρα (R 201 a & R 201 b ). Εκεί κάνοντας αλλαγές στις παραμέτρους της χημικής αντίδρασης παράγονται διάφοροι τύποι ΡΡ. Αρχικά τo παραχθέν προϊόν οδηγείται σε ένα δοχείο εκτόνωσης (D-301) το οποίο διαχωρίζει την υγρή από την αέρια φάση του PP και κατόπιν διοχετεύεται σε ένα φίλτρο (F-301) για περαιτέρω διαχωρισμό. Στο συγκεκριμένο εργοστάσιο του PP, για να θεωρηθεί ότι μία συνταγή του παρήχθη επιτυχώς, θα πρέπει η παραγωγή να έχει διάρκεια τουλάχιστον 8 ώρες. Διαφορετικά το ενδιάμεσο προϊόν θεωρείται προϊόν με μειωμένες προδιαγραφές. Επίσης μία μετάβαση δεν μπορεί να διαρκέσει λιγότερο από ½ ώρα. Σχήμα 2.1 Διάγραμμα λειτουργίας αντιδραστήρα πολυμερισμού 1 η Επιλογή δεδομένων Τα προς ανάλυση δεδομένα ελήφθησαν από την κεντρική εφαρμογή ελέγχου του PP, το DCS (Distributed Control System) της εταιρίας Honeywell Inc. Η εξαγωγή των δεδομένων από τον Oracle Server που βρίσκεται στο δίκτυο του DCS έγινε με τη χρήση ενός ειδικού προγράμματος το οποίο εγκαθίσταται στο περιβάλλον του EXCEL και ονομάζεται Uniformance Desktop. Τα δεδομένα αφορούν την περίοδο λειτουργίας 42 ημερών κατά την οποία εκτελέστηκε περίπου 1½ κύκλος συνταγών και δεν παρουσιάστηκε κανένα τεχνικό πρόβλημα που να επηρέασε την παραγωγή. Το πλήθος των δεδομένων είναι δείγματα. Η δειγματοληψία έγινε ανά πεντάλεπτο και αφορούσε 10 παραμέτρους λειτουργίας των δύο αντιδραστήρων. Οι 10 παράμετροι χωρίζονται ως εξής: 46

47 Κεφ. 2 Αναγνώριση μεταβάσεων με ομαδοποίηση Παράμετροι αντιδραστήρα R1: Όνομα Πεδίο ορισμού μεταβλητής από DCS Από Έως Περιγραφή μεταβλητής R1_Don Τροφοδοσία Καταλύτη R1_Pro Τροφοδοσία προπυλενίου στον R1 R1_D Πυκνότητα R1_P Ισχύς ρεύματος Παράμετροι αντιδραστήρα R2: Όνομα Πεδίο ορισμού μεταβλητής από DCS Από Έως Περιγραφή μεταβλητής R2_Pro Τροφοδοσία προπυλενίου στον R2 R2_D Πυκνότητα R2_P Ισχύς ρεύματος Κοινές παράμετροι αντιδραστήρων R1 & R2: Όνομα Πεδίο ορισμού μεταβλητής από DCS Από Έως Περιγραφή μεταβλητής R_Te Τροφοδοσία συγκαταλύτη στο δοχείο R_TeR Αναλογία συγκαταλύτη με PP R_DonR Αναλογία καταλύτη με PP 1 ος Καθαρισμός δεδομένων Επειδή η κάθε παράμετρος έχει το δικό της πεδίο ορισμού κρίθηκε σκόπιμο να υπάρχει ένα ενιαίο μέτρο αναφοράς. Έτσι προσαρμόστηκαν όλες οι παράμετροι από τα πεδία ορισμού τους στην κλίμακα Η μετατροπή έγινε με τον παρακάτω τύπο: Y ( X Από) *100 = Εώς Από Χ => είναι η παλιά τιμή της παραμέτρου, Υ => η καινούργια τιμή της παραμέτρου, Από => Το κάτω όριο του πεδίου ορισμού της παραμέτρου, Έως => Το πάνω όριο του πεδίου ορισμού της παραμέτρου. Κατόπιν δημιουργήθηκαν όλες οι γραφικές παραστάσεις των παραμέτρων με τα νέα δεδομένα. (Σχήματα ) 47

48 Κεφ. 2 Αναγνώριση μεταβάσεων με ομαδοποίηση Σχήμα 2.2 Διάγραμμα μεταβλητών 1 ου αντιδραστήρα Σχήμα 2.3 Διάγραμμα μεταβλητών 2 ου αντιδραστήρα Σχήμα 2.4 Διάγραμμα κοινών μεταβλητών αντιδραστήρα Και τροφοδοσίας 1 ου αντιδραστήρα 48

49 Κεφ. 2 Αναγνώριση μεταβάσεων με ομαδοποίηση Ανεύρεση Μεταβάσεων 1 η Εξόρυξη δεδομένων Παρατηρώντας τις γραφικές παραστάσεις γίνεται αντιληπτό ότι: Κατά την διάρκεια μιας σταθερής κατάστασης όλες οι τιμές των μεταβλητών κινούνται γύρω από κάποια κεντρική τιμή με ίσως μια μικρή διακύμανση. Κατά την διάρκεια μιας μετάβασης, κάποιες μεταβλητές παραμένουν σταθερές και κάποιες αυξάνουν ή μειώνονται. Στις μεταβαλλόμενες μεταβλητές η διακύμανση είναι πολύ μεγαλύτερη. Αν αθροίσουμε τις διακυμάνσεις κάθε μεταβλητής για κάθε παράδειγμα τότε, για τις μεν σταθερές καταστάσεις το συνολικό άθροισμα θα είναι μικρό, ενώ στις μεταβάσεις το συνολικό άθροισμα θα είναι μεγάλο. Total _ dif 10 = Vt 1 Vt. Όντως το μεγαλύτερο σύνολο των V= 1 παραδειγμάτων που αντιπροσωπεύει τις σταθερές καταστάσεις βρίσκεται στην ζώνη 0-10 ενώ ένα μικρό πλήθος που αντιπροσωπεύει τις μεταβάσεις βρίσκεται στην περιοχή από 10 και πάνω (Σχήμα 2.5). Κάνοντας όμως ομαδοποίηση με τον αλγόριθμο Kmeans και αναζητώντας αντίστοιχα τις δύο ομάδες καταστάσεων τα αποτελέσματα ήταν διαφορετικά (Πίνακας 3). Σχήμα 2.5 Total_dif χωρίς φίλτρο θορύβου Πίνακας 3 Αποτελέσματα ομαδοποίησης με Total_dif χωρίς φίλτρο θορύβου Όνομα Cluster Κέντρο Cluster Μέλη του Cluster Ομάδα Μεταβάσεων 66,18 2 Ομάδα Σταθερών Καταστάσεων 4,

50 Κεφ. 2 Αναγνώριση μεταβάσεων με ομαδοποίηση Ανεύρεση Μεταβάσεων 1 η Αξιολόγηση αποτελεσμάτων Στην ομάδα των μεταβάσεων βρίσκεται μόνο ένας ελάχιστος αριθμός εγγραφών, αυτές των οποίων η τιμή πλησιάζει το 80. Έτσι λοιπόν σε σχέση με το πραγματικό ημερολόγιο παραγωγής οι μεταβάσεις που βρίσκει ο Kmeans είναι ελάχιστες. Ανεύρεση Μεταβάσεων 2 η Εξόρυξη δεδομένων Γίνεται εμφανές λοιπόν ότι η total_dif περιέχει θόρυβο. Αρχικά δοκιμάστηκε σαν φίλτρο αφαίρεσης θορύβου επί της total_dif η συνάρτηση AVG (Average) με χρονικό παράθυρο 15 λεπτών. Μετά την εφαρμογή του φίλτρου, η γραφική παράσταση τροποποιήθηκε όπως φαίνεται στο Σχήμα 2.6. Κάνοντας και πάλι ομαδοποίηση με τον Kmeans τα αποτελέσματα της ομάδας των μεταβάσεων βελτιώθηκαν. Πίνακας 4 Αποτελέσματα ομαδοποίησης με Total_dif και AVG στα 15 λεπτά Όνομα Cluster Κέντρο Cluster Μέλη του Cluster Ομάδα Μεταβάσεων 12, Ομάδα Σταθερών Καταστάσεων 4, Η ίδια περίπου βελτίωση συνεχίστηκε παράλληλα με την διαδοχική αύξηση του χρονικού παράθυρου σε 25, 35 και 45 λεπτά (Σχήμα 2.7). Από τα 55 λεπτά και πάνω αρχίζει να εμφανίζεται το φαινόμενο της παραμόρφωσης της πληροφορίας με αντίστοιχη επίπτωση και στα αποτελέσματα της ομαδοποίησης. Σχήμα Total_dif με AVG στα 15 λεπτά 50

51 Κεφ. 2 Αναγνώριση μεταβάσεων με ομαδοποίηση Σχήμα Total_dif με AVG στα 45 λεπτά Ανεύρεση Μεταβάσεων 2 η Αξιολόγηση αποτελεσμάτων Εξάγεται λοιπόν το συμπέρασμα ότι όταν εμφανίζονται μεταξύ των διακυμάνσεων πολύ υψηλές τιμές, η AVG επηρεάζεται σημαντικά και δεν φιλτράρει σωστά το θόρυβο ο οποίος υπάρχει. Έτσι εμφανίζονται μεταβάσεις εκεί που δεν υπάρχουν εξαιτίας μια τυχαίας υψηλής τιμής. Όταν δε αυξηθεί αρκετά το χρονικό παράθυρο εφαρμογής της, από τη μία πλευρά αφαιρεί το θόρυβο μεν, αλλά παράλληλα παραμορφώνει σημαντικά και την καθαρή πληροφορία δε. Γίνεται λοιπόν σαφές ότι AVG δεν ενδείκνυται για τέτοιου είδους δεδομένα. Θα πρέπει να βρεθεί ένα άλλο φίλτρο. Ανεύρεση Μεταβάσεων 3 η Εξόρυξη δεδομένων Το νέο φίλτρο αφαίρεσης θορύβου το οποίο θα εφαρμοστεί επί της total_dif θα είναι η συνάρτηση Median και πάλι με αρχικό χρονικό παράθυρο 15 λεπτών. Μετά την εφαρμογή του φίλτρου, η γραφική παράσταση τροποποιήθηκε όπως φαίνεται στο Σχήμα 2.8. Κάνοντας και πάλι ομαδοποίηση με τον Kmeans με χρονικό παράθυρο 15 λεπτών και συγκρίνοντας τα αποτελέσματα της ομάδας των μεταβάσεων με τα αντίστοιχα της AVG παρατηρήθηκε το εξής γεγονός: Το πλήθος των μελών του cluster μεταβάσεων μειώθηκε, αλλά ο αριθμός των σωστών αναγνωρίσεων σε σχέση με το πραγματικό ημερολόγιο παραγωγής αυξήθηκε. 51

52 Κεφ. 2 Αναγνώριση μεταβάσεων με ομαδοποίηση Σχήμα Total_dif με Median στα 15 λεπτά Πίνακας 5 Αποτελέσματα ομαδοποίησης με Total_dif και Median στα 15 λεπτά Όνομα Cluster Κέντρο Cluster Μέλη του Cluster Ομάδα Μεταβάσεων 12, Ομάδα Σταθερών Καταστάσεων 3, Το αποτέλεσμα συνέχισε να βελτιώνεται με διαδοχική αύξηση του χρονικού παράθυρου σε 25, 35 και 45 λεπτά (Σχήμα 2.9). Από τα 55 λεπτά πάνω αρχίζει και εδώ να εμφανίζεται το φαινόμενο της παραμόρφωσης της πληροφορίας. Σχήμα Total_dif με Median στα 45 λεπτά Πίνακας 6 Αποτελέσματα ομαδοποίησης με Total_dif και Median στα 45 λεπτά Όνομα Cluster Κέντρο Cluster Μέλη του Cluster Ομάδα Μεταβάσεων 8, Ομάδα Σταθερών Καταστάσεων 3,

53 Κεφ. 2 Αναγνώριση μεταβάσεων με ομαδοποίηση Ανεύρεση Μεταβάσεων 3 η Αξιολόγηση αποτελεσμάτων Συμπερασματικά η Median αν και βρήκε το ίδιο περίπου πλήθος εγγραφών στην ομάδα των μεταβάσεων σε σχέση με την AVG, ωστόσο είχε πολύ μεγαλύτερο ποσοστό επιτυχίας σε σχέση με το ημερολόγιο ιστορικού παραγωγής. Αυτό σημαίνει ότι λειτουργεί καλύτερα από την AVG στα συγκεκριμένα δεδομένα. Παράλληλα όμως, σε σύγκριση με το ημερολόγιο το οποίο δείχνει ακριβώς πόσες μεταβάσεις έγιναν και πότε, τα αποτελέσματα του Kmeans με εφαρμογή της Median στην total_dif είχαν τις παρακάτω διαφορές: Υπάρχουν μεταβάσεις που ο Kmeans δεν τις αντιλαμβάνεται. Υπάρχουν μεταβάσεις που ο Kmeans τις βλέπει σαν πολλές, συνεχόμενες, και μικρής διάρκειας αντί μιας ενιαίας. Έτσι λοιπόν είναι εμφανές ότι η total_dif περιέχει ιδιαίτερα αυξημένο θόρυβο, ο οποίος προέρχεται αθροιστικά από τον θόρυβο των αρχικών δεδομένων των δέκα μεταβλητών. Συνεπώς το φίλτρο θα πρέπει να εφαρμοστεί στα πηγαία δεδομένα. Επίσης η συνάρτηση Total_dif λειτουργεί ικανοποιητικά στην ανεύρεση μεταβάσεων μικρής διάρκειας αλλά δεν αντιλαμβάνεται μεταβάσεις μέσης διάρκειας και άνω. 2 ος Καθαρισμός δεδομένων Εφαρμόζοντας τη median με χρονικό παράθυρο 15 λεπτών στα αρχικά δεδομένα και κάνοντας την προσαρμογή στην κλίμακα προκύπτουν οι γραφικές παρατάσεις των σχημάτων 2.10, 2.11 και Σχήμα 2.10 Διάγραμμα μεταβλητών 1 ου αντιδραστήρα με Median στα 15 λεπτά 53

54 Κεφ. 2 Αναγνώριση μεταβάσεων με ομαδοποίηση Σχήμα 2.11 Διάγραμμα μεταβλητών 2 ου αντιδραστήρα με Median στα 15 λεπτά Σχήμα 2.12 Διάγραμμα κοινών μεταβλητών αντιδραστήρων με Median στα 15 λεπτά Συνεχίζοντας τη median σε όλο και μεγαλύτερο χρονικό παράθυρο, το καλύτερο αποτέλεσμα χωρίς απώλειες πληροφορίας προκύπτει στα 45 λεπτά. (Σχήματα 2.13, 2.14 και 2.15). Σχήμα 2.13 Διάγραμμα μεταβλητών 1 ου αντιδραστήρα με Median στα 45 λεπτά 54

55 Κεφ. 2 Αναγνώριση μεταβάσεων με ομαδοποίηση Σχήμα 2.14 Διάγραμμα μεταβλητών 2 ου αντιδραστήρα με Median στα 45 λεπτά Σχήμα 2.15 Διάγραμμα κοινών μεταβλητών αντιδραστήρων με Median στα 45 λεπτά Ανεύρεση Μεταβάσεων 4 η Εξόρυξη δεδομένων Αντί της total_dif, σαν βοηθητική συνάρτηση θα χρησιμοποιηθεί η τυπική απόκλιση (Standard Deviation) έτσι ώστε να υπάρχει μεγαλύτερη αντοχή σε στιγμιαίες διαφορές με υψηλές διακυμάνσεις. STDEV _ dif = Stdev Vt 1 Vt όπου n=(3,5,7,9,11, ) δηλαδή (15 λεπτά, 25 λεπτά, 35 λεπτά, 45 λεπτά, 55 λεπτά,...). Δοκιμάζοντάς την αρχικά σε χρονικό παράθυρο 15 λεπτών (Σχήμα 2.16) και εφαρμόζοντας στη συνέχεια τον Kmeans τα αποτελέσματα που προκύπτουν είναι σαφώς βελτιωμένα όχι αριθμητικά αλλά ποιοτικά. Στην ομάδα (cluster) των μεταβάσεων έχουν συμπεριληφθεί πλέον όλα τα παραδείγματα που αφορούν τις μικρές μεταβάσεις, ενώ οι μεγάλες μεταβάσεις έχουν σπάσει και πάλι μεν σε κομμάτια, αλλά αυτή τη φορά είναι λιγότερα και σαφώς μεγαλύτερα. Κατόπιν n V = 1 55

56 Κεφ. 2 Αναγνώριση μεταβάσεων με ομαδοποίηση δοκιμάστηκε η ίδια διαδικασία σε χρονικά παράθυρα των 25,35 και 45 λεπτών (Σχήμα 2.17). Οι διαφορές έγιναν μεν πιο εμφανείς αλλά ο αλγόριθμος δεν εξήγαγε καλύτερα αποτελέσματα. Σχήμα 2.16 STDEV στα 15 λεπτά Σχήμα 2.17 STDEV στα 45 λεπτά Ανεύρεση Μεταβάσεων 4 η Αξιολόγηση αποτελεσμάτων Κάπου εδώ λοιπόν ολοκληρώνεται το πρώτο σκέλος της έρευνας, αφού βάσει της αρχικής μεθοδολογίας έχει προσεγγιστεί με αρκετή επιτυχία ο διαχωρισμός των αρχικών δεδομένων σε δεδομένα μεταβάσεων και δεδομένα σταθερών καταστάσεων. Το σημαντικότερο σημείο αποτυχίας ανεύρεσης μετάβασης που βρέθηκε είναι ότι: Υπάρχει μία ολόκληρη κατηγορία μεταβάσεων που γίνονται τόσο αργά, που δεν είναι αντιληπτές με κανένα τρόπο παρά μόνο με την εμπειρία. 56

57 3 ο Κεφάλαιο Αναγνώριση συνταγών με ομαδοποίηση

58 Κεφ. 3 Αναγνώριση συνταγών με ομαδοποίηση 2 η Επιλογή δεδομένων Έχοντας χωρίσει λοιπόν τα δεδομένα σε δύο ομάδες, ο σκοπός του δεύτερου σκέλους της έρευνας, είναι να αναγνωριστούν και να ξεχωρίσουν επιτυχώς τρεις συνεχόμενες συνταγές. Από το σύνολο των δεδομένων σταθερής κατάστασης επιλέγονται οι συνταγές AA, BB, CC που αντιστοιχούν σε 3087 παραδείγματα. Με Πίνακας 7 Πίνακας αρχικής κατανομής δεδομένων σε συνταγές Όνομα Συνταγής Πλήθος δεδομένων κόκκινους κύκλους σημειώνονται τα AA 1139 διαστήματα των τιμών των μεταβλητών BB 1114 που επιλέχθηκαν. (Σχήματα ) CC 834 Σχήμα 3.1 Επιλεχθέντες τιμές μεταβλητών 1 ου αντιδραστήρα με Median στα 45 λεπτά Σχήμα 3.2 Επιλεχθέντες τιμές μεταβλητών 2 ου αντιδραστήρα με Median στα 45 λεπτά 58

59 Κεφ. 3 Αναγνώριση συνταγών με ομαδοποίηση Σχήμα 3.3 Επιλεχθέντες τιμές κοινών μεταβλητών αντιδραστήρων με Median στα 45 λεπτά Σχήμα 3.4 Τυπική απόκλιση των επιλεχθέντων δεδομένων Υπενθυμίζεται ότι τα επιλεχθέντα δεδομένα που συνεχίζουν προς αναγνώριση συνταγών, έχουν επεξεργαστεί μέχρι στιγμής με φίλτρο αφαίρεσης θορύβου Median με χρονικό παράθυρο 45 λεπτών και κανονικοποίηση στην κλίμακα

60 Κεφ. 3 Αναγνώριση συνταγών με ομαδοποίηση Αναγνώριση συνταγών 1 η Εξόρυξη δεδομένων Για την αναγνώριση των συνταγών θα χρησιμοποιηθεί ο αλγόριθμος Kmeans όπως και στο πρώτο σκέλος. Ο αριθμός των επιθυμητών clusters είναι εκ των προτέρων γνωστός και είναι τρία (3). Ωστόσο τώρα παρουσιάζεται ένα καινούργιο σημαντικό ερώτημα. Με ποια σειρά και ποιο συνδυασμό θα πρέπει να δοκιμασθούν στον αλγόριθμο ομαδοποίησης οι δέκα μεταβλητές εισόδου; Ένα πρώτο κριτήριο είναι, παρατηρώντας τις γραφικές παραστάσεις των μεταβλητών (Σχήματα ), να εντοπιστούν ποιες είναι εκείνες που βοηθούν στη μεγαλύτερη διαφοροποίηση και ποιες όχι. Π.χ οι ευθείες προφανώς δεν προσφέρουν κάποια διαφοροποίηση. Έτσι οπτικά δημιουργούνται δύο ομάδες παραμέτρων: Θετικές παράμετροι: R1_Pro, R2_Pro, R_Te, R1_Don Ουδέτερες παράμετροι: R_TeR, R_DonR, R1_D, R1_P, R2_D, R2_P Σε δεύτερη φάση είναι πολύ χρήσιμο να βρεθούν αν υπάρχουν μεταβλητές που συμπεριφέρονται με τον ίδιο τρόπο. Αν υπάρχουν, τότε μπορούμε να μειώσουμε τον αριθμό των μεταβλητών χωρίς να χάσουμε κρίσιμη πληροφορία. Κάνοντας ένα πίνακα συσχετίσεων των δέκα μεταβλητών διαπιστώνεται ότι: Οι μεταβλητές (R_Te - R1_Don), (R_Te - R1_Pro) και (R2_D R2_P) έχουν 75%, 96% και 77% ομοιότητα αντίστοιχα. Μία από τις R_Te, R1_ Pro σίγουρα μπορεί να αφαιρεθεί. Οι άλλες μπορεί να αφαιρεθούν, αλλά είναι ασφαλέστερο αυτό να διαπιστωθεί και πειραματικά. Πίνακας 8 Πίνακας συσχετίσεων μεταβλητών 60

61 Κεφ. 3 Αναγνώριση συνταγών με ομαδοποίηση Στη συνέχεια εκτελέστηκε ο αλγόριθμος Kmeans με αρκετούς πιθανούς συνδυασμούς από τους οποίους θα αναφέρουμε ενδεικτικά μόνο τρεις (Πίνακας 9) μιας και όλοι τελικά είχαν το ίδιο αποτέλεσμα. Κανένας δεν κατάφερε να ξεχωρίσει τις τρεις συνταγές μεταξύ τους με επιτυχία. Πίνακας 9 1 ος Πίνακας παραμέτρων ομαδοποίησης και αποτελεσμάτων Παράμετροι εισόδου Αριθμός ομάδων Πλήθος μελών Γραφική απεικόνιση αποτελεσμάτων R1_Pro, R2_Pro, R_Te, R1_Don, R_TeR, R_DonR R1_Pro, R2_Pro, R_Te, R1_Don, R_TeR, R_DonR 4* R_DonR, R2_Pro 4* (*) Η αναζήτηση τεσσάρων cluster έγινε με την υποψία μήπως υπάρχει κάποιο cluster θορύβου που μπερδεύει τον αλγόριθμο. 61

62 Κεφ. 3 Αναγνώριση συνταγών με ομαδοποίηση Αναγνώριση συνταγών 1 η Αξιολόγηση αποτελεσμάτων Η αποτυχία του Kmeans να αναγνωρίσει σωστά ή έστω και με κάποιο θόρυβο τις συνταγές δεν οφείλεται ωστόσο σε αδυναμία του αλγορίθμου. Το πρόβλημα για άλλη μια φορά προέρχεται από την φύση των δεδομένων του συγκεκριμένου αντικειμένου (χημικές μονάδες). Υπάρχουν περιπτώσεις όπου στις χημικές αντιδράσεις, μία πολύ μικρή αλλαγή σε μία παράμετρο (π.χ. στο ποσοστό καταλύτη) παράγει ένα εντελώς διαφορετικό προϊόν. Το πρόβλημα είναι ότι αυτό δεν είναι ούτε άμεσα, ούτε εύκολα αντιληπτό και απαιτεί τις εξειδικευμένες γνώσεις Χημικής Μηχανικής. Έτσι η κανονικοποίηση από το πεδίο ορισμού στην κλίμακα 0 100, μηδενίζει τελείως αυτή την αλλαγή της τιμής της παραμέτρου, μετατρέποντας την γραφική της παράσταση σε ευθεία (Σχήμα 3.5). Ενώ αν εστιάζουμε αρκετά κοντά θα αποκαλυφθούν λεπτομέρειες που μέχρι πριν δεν ήταν αντιληπτές. (Σχήμα 3.6) Σχήμα 3.5 R1_Don στην κλίμακα Σχήμα 3.6 R1_Don με εστίαση στο πεδίο τιμών

63 Κεφ. 3 Αναγνώριση συνταγών με ομαδοποίηση Αυτό αποτελεί ένα διαπιστωμένο πρόβλημα το οποίο λύνεται με δύο τύπους κανονικοποίησης δεδομένων. Το μετασχηματισμό «ελάχιστης και μέγιστης τιμής» ή το μετασχηματισμό «μέσης τιμής και διασποράς». Αναγνώριση συνταγών 1 ος Καθαρισμός δεδομένων Στην συγκεκριμένη περίπτωση θα χρησιμοποιηθεί ο μετασχηματισμός μέσης τιμής και διασποράς. Έτσι λοιπόν αφού εφαρμοστεί σε όλες τις παραμέτρους των αρχικών δεδομένων το φίλτρο αφαίρεσης θορύβου median, κατόπιν κανονικοποιούνται εκ νέου με τον καινούργιο τρόπο. Ενδεικτικά παρουσιάζεται η νέα μορφή της παραμέτρου R1_Don (Σχήμα 3.7). Το ίδιο ισχύει και για τις άλλες παραμέτρους. Σχήμα 3.7 R1_Don με κανονικοποίηση μέσης τιμής και διασποράς Αναγνώριση συνταγών 2 η Εξόρυξη δεδομένων Παίρνοντας και πάλι σαν κριτήριο το ποιες μεταβλητές βοηθούν στη μέγιστη διαφοροποίηση βάσει των καινούργιων γραφικών παραστάσεων γίνεται ένας διαχωρισμός των μεταβλητών σε δύο ομάδες. Θετικές παράμετροι: R1_Pro, R2_Pro, R_Te, R1_Don R_TeR, R_DonR Ουδέτερες παράμετροι: R1_D, R1_P, R2_D, R2_P Κατόπιν εκτελέστηκε ο αλγόριθμος με διάφορους συνδυασμούς από τους οποίους θα αναφερθούν μόνο οι πέντε σημαντικότεροι (Πίνακας 10, Πίνακας 11). 63

64 Κεφ. 3 Αναγνώριση συνταγών με ομαδοποίηση Πίνακας 10 2 ος Πίνακας παραμέτρων ομαδοποίησης και αποτελεσμάτων Παράμετροι Αριθμός Πλήθος εισόδου ομάδων μελών Γραφική απεικόνιση αποτελεσμάτων R_DonR 3 AA : 991 BB :1114 CC: 982 R_DonR, R_Te 3 AA :1145 BB: 7 CC :1935 R_DonR, R1_Pro 3 AA : 1132 BB : 7 CC : 1948 O Kmeans και μόνο με την χρήση της παραμέτρου R_DonR ξεχωρίζει αρκετά καλά τις 3 συνταγές. Ωστόσο η χρησιμοποίηση στο clustering (με αριθμό clusters=3), είτε της R_Te, είτε της R1_Pro προκαλεί τη δημιουργία μίας καινούργιας μικρής ομάδας 7 παραδειγμάτων στο τέλος της 1 ης συνταγής και συγχώνευση των δύο μεγάλων συνταγών στο τέλος. Αυτό το γεγονός, επιβεβαιώνει το αποτέλεσμα του 64

65 Κεφ. 3 Αναγνώριση συνταγών με ομαδοποίηση πίνακα συσχετίσεων (Πίνακας 8) που έδειχνε ότι αυτές οι δύο παράμετροι συμπεριφέρονται με τον ίδιο ακριβώς τρόπο (96%). Οι επόμενες δύο δοκιμές περιλαμβάνουν τη χρήση άλλης παραμέτρου στην θέση των R1_Pro ή R1_Te και την παράλληλη αύξηση του αριθμού των ομάδων σε τέσσερις.(πίνακας 11). Πίνακας 11 3 ος Πίνακας παραμέτρων ομαδοποίησης και αποτελεσμάτων Παράμετροι Αριθμός Πλήθος εισόδου ομάδων μελών Γραφική απεικόνιση αποτελεσμάτων AA :1139 R_DonR, 3 BB :1114 R2_Pro CC : 834 R_DonR, AA : 1132 R1_Pro, 4 AB : 7 R2_Pro BB : 1114 CC : 834 Το ιδανικό και με απόλυτη ακρίβεια αποτέλεσμα αναγνώρισης συνταγών έρχεται με την χρήση των παραμέτρων R_DonR και R2_Pro. Επίσης αν στην προηγούμενη ομαδοποίηση προστεθεί μία από τις παραμέτρους R1_Pro ή R1_Te και ταυτόχρονα αυξηθεί ο αριθμός των ομάδων σε τέσσερις, τότε δημιουργείται και πάλι αυτή η «στιγμιαία συνταγή». Έτσι γίνεται εμφανές ότι η ύπαρξη αυτής της μικρής ομάδας, συνδέεται άμεσα με την χρήση αυτών των μεταβλητών κατά την διαδικασία της ομαδοποίησης. 65

66 Κεφ. 3 Αναγνώριση συνταγών με ομαδοποίηση Αναγνώριση συνταγών 2 η Αξιολόγηση αποτελεσμάτων Η κανονικοποίηση των δεδομένων με τον μετασχηματισμό μέσης τιμής και διασποράς, έπαιξε καταλυτικό ρόλο στο πρόβλημα της επιτυχούς αναγνώρισης των συνταγών. Επίσης από τις δέκα παραμέτρους, οι απολύτως απαραίτητες για την διαδικασία της ομαδοποίησης είναι μόνο δύο. Αυτό όμως δεν είναι απόλυτο. Γιατί αν αρχικά είχε επιλεχθεί κάποια άλλη χρονική περίοδος που εκτελούνται διαφορετικές συνταγές από αυτές που μόλις αναγνωρίστηκαν, τα αποτελέσματα πιθανότατα θα ήταν διαφορετικά. Η χρήση των υπολοίπων παραμέτρων κάποιες φορές μπορεί να οδηγήσει στην δημιουργία κάποιων μεμονωμένων μικρών ομάδων. Η ύπαρξη αυτών των μικρών ομάδων εξηγείται διαφορετικά, ανάλογα με το αν είναι χρονικά πριν ή μετά την εκτέλεση μιας κανονικής συνταγής. Αν είναι πριν, τότε σημαίνει ότι αυτά τα παραδείγματα αποτελούν το τελευταίο τμήμα της αμέσως προηγούμενης μετάβασης, της οποίας το τελείωμα είναι αρκετά ήρεμο από πλευράς διακυμάνσεων. Αν είναι μετά όπως στη συγκεκριμένη περίπτωση, τότε σημαίνει ότι αυτά τα παραδείγματα αποτελούν το αρχικό τμήμα της αμέσως επόμενης μετάβασης, της οποίας το ξεκίνημα δεν είναι αρκετά έντονο από πλευράς διακυμάνσεων. Έτσι εξηγείται και στις δύο περιπτώσεις γιατί τα παραδείγματα αυτά δεν έγιναν αρχικώς αντιληπτά από το πρώτο στάδιο της αναγνώρισης των μεταβάσεων. Ωστόσο υπάρχει και μία άλλη περίπτωση στην οποία δεν υπάρχει απλά αργό ξεκίνημα και αργό τελείωμα, αλλά όλη μετάβαση εξελίσσεται πολύ αργά. Έτσι όπως αναφέρθηκε και σε προηγούμενο σημείο της έρευνας, αυτού του είδους η μετάβαση δεν γίνεται αντιληπτή κατά το πρώτο στάδιο της αναγνώρισης των μεταβάσεων. Στην περίπτωση αυτή το στάδιο της αναγνώρισης των συνταγών θα αντιληφθεί την μετάβαση σαν πολλές μικρές συνταγές στη σειρά. Το μεν πλήθος των «μικροσυνταγών» εξαρτάται από το πόσο χρόνο διαρκεί αυτή η πολύ αργή μετάβαση. Το δε μέγεθος αυτών εξαρτάται από το πόσο ομαλά ή έντονα αλλάζουν οι τιμές των παραμέτρων. Το συγκεκριμένο γεγονός αναφέρεται και στην εργασία των Srinivasan, Wang [2] Τέλος θα πρέπει να επισημανθεί ότι για το συγκεκριμένο είδος δεδομένων διαπιστώθηκε πειραματικά ότι η χρησιμοποίηση μετασχηματισμού μέσης τιμής και διασποράς δεν βοηθά στο στάδιο της αναγνώρισης των μεταβάσεων. Ο λόγος είναι ότι με το μετασχηματισμό οι επιμέρους μεταβλητές που μέχρι τώρα δεν επηρέαζαν το 66

67 Κεφ. 3 Αναγνώριση συνταγών με ομαδοποίηση αποτέλεσμα της Total_Dif ή της STDEV_Dif τώρα λαμβάνουν πολύ πιο ενεργά συμμετοχή στις συναρτήσεις αυτές με αποτέλεσμα να μπερδεύουν το αλγόριθμο ομαδοποίησης. Από την άλλη πλευρά οι λίγες μεταβλητές που είχαν εξαρχής μεγάλη συμμετοχή στις συναρτήσεις τώρα έχουν την ίδια βαρύτητα και συνεπώς δεν αρκούν από μόνες τους να κάνουν τη διάφορα. 67

68 4 ο Κεφάλαιο Κατηγοριοποίηση συνταγών με νευρωνικά δίκτυα

69 Κεφ. 4 Κατηγοριοποίηση συνταγών με νευρωνικά δίκτυα 4.1 Περιγραφή νευρωνικού δικτύου Για την κατηγοριοποίηση των συνταγών χρησιμοποιήθηκε ένα πλήρως συνδεδεμένο νευρωνικό δίκτυο με απλή τροφοδότηση. Η συνάρτηση ενεργοποίησης που χρησιμοποιήθηκε ήταν η σιγμοειδής συνάρτηση και το ποσοστό σφάλματος στην εκπαίδευση ορίστηκε στο 1%. Από το προηγούμενο στάδιο της έρευνας χρησιμοποιήθηκαν τα 3087 παραδείγματα για εκπαίδευση του δικτύου και επιλέχθηκαν οι ίδιες έξι από τις αρχικές δέκα παραμέτρους - R1_Pro, R2_Pro, R_Te, R1_Don R_TeR, R_DonR. Οι τελευταίες καθόρισαν και το πλήθος των νευρώνων εισόδου στο δίκτυο δηλαδή 6. Το πλήθος των κρυφών νευρώνων υπολογίστηκε από τον εμπειρικό κανόνα X N > όπου ε Ν είναι ο αριθμός των παραδειγμάτων εκπαίδευσης ε είναι η επιθυμητή % τελική τιμή σφάλματος Χ είναι ο αριθμός των κρυφών νευρώνων. Στην συγκεκριμένη περίπτωση X < N * ε => Χ < 3087 * 0,01 => Χ < 30, 87. Ο πλησιέστερος ακέραιος που ικανοποιεί την συνθήκη αυτή είναι ο X=30. Άρα το δίκτυο επιλέχθηκε να έχει 30 νευρώνες στο κρυφό επίπεδο. Στην περίπτωση των νευρώνων εξόδου - λαμβάνοντας υπ όψιν τα αποτελέσματα της έρευνας στο προηγούμενο στάδιο με 3 και 4 αναγνωρισθέντα clusters - δοκιμάστηκαν 2 περιπτώσεις : Με 3 νευρώνες εξόδου (Σχήμα 4.1). Με 4 νευρώνες εξόδου (Σχήμα 4.2). Σχήμα 4.1 Νευρωνικό δίκτυο με 3 εξόδους Σχήμα Νευρωνικό δίκτυο με 4 εξόδους 69

70 Κεφ. 4 Κατηγοριοποίηση συνταγών με νευρωνικά δίκτυα 4.2 Εκπαίδευση νευρωνικού δικτύου Στην περίπτωση του δικτύου με 3 νευρώνες εξόδου και με σφάλμα εκπαίδευσης 1% το δίκτυο εκπαιδεύτηκε σε 10 εποχές (Σχήμα 4.3). Το μοναδικό πρόβλημα που εντοπίστηκε στη φάση της εκπαίδευσης και εμφανίστηκε σε όσες τυχαίες επανεκκινήσεις κι αν έγιναν με αλλαγή αρχικών βαρών, αφορούσε την ιδιαίτερη περιοχή των 7 παραδειγμάτων που αποτελούν την «μικροσυνταγή». Αναλυτικότερα: Τα 3 πρώτα από τα 7 παραδείγματα της μικροσυνταγής κατατάχθηκαν σε δύο συνταγές ταυτόχρονα. Την ΑΑ και την ΒΒ. Τα 4 τελευταία από τα 7 παραδείγματα της μικροσυνταγής κατατάχθηκαν στην συνταγή ΒΒ. Σχήμα 4.3 Εκπαίδευση ΝΝ με 3 νευρώνες εξόδου και σφάλμα 0,01 Προκειμένου να καταφέρει το δίκτυο να μάθει να κατατάσσει και τα 7 παραδείγματα στην συνταγή ΑΑ, το σφάλμα χρειάστηκε να κατέβει στο 0,1 %. Αυτό όμως απεδείχθη ότι δεν ήταν αρκετό. Χρειάστηκε να γίνουν πάνω από 20 επανεκκινήσεις του αλγορίθμου εκπαίδευσης μέχρι να καταφέρει να πιάσει το όριο του σφάλματος. Οι συνεχόμενες αυτές αποτυχίες εκπαίδευσης αποδεικνύουν την ύπαρξη τοπικού ελαχίστου στο οποίο παγιδεύεται ο αλγόριθμος. Η δυσκολία έγκειται στο ότι το δίκτυο πρέπει να μάθει να κατηγοριοποιεί στην ίδια ομάδα δύο διαφορετικά πράγματα. Από τη μία τα παραδείγματα της συνταγής ΑΑ και από την άλλη την αρχή της μετάβασης. Στην περίπτωση του δικτύου με 4 νευρώνες εξόδου και με σφάλμα εκπαίδευσης 1% το δίκτυο εκπαιδεύτηκε σε 6 εποχές (Σχήμα 4.4). Στη φάση της εκπαίδευσης σε 70

71 Κεφ. 4 Κατηγοριοποίηση συνταγών με νευρωνικά δίκτυα όσες δοκιμές κι αν έγιναν και πάλι το μοναδικό πρόβλήμα που εντοπίστηκε ήταν στην ιδιαίτερη περιοχή των 7 παραδειγμάτων που αποτελούν την «μικροσυνταγή». Έτσι λοιπόν : Το ΝΝ δεν κατάφερε να μάθει κανένα παράδειγμα από το cluster της «μικροσυνταγής». Τα 2 πρώτα από τα 7 παραδείγματα της μικροσυνταγής κατατάχθηκαν στην συνταγή ΑΑ. Τα 5 τελευταία από τα 7 παραδείγματα της μικροσυνταγής κατατάχθηκαν τελικά σε δύο συνταγές ταυτόχρονα. Την ΑΑ και την ΒΒ. Σχήμα 4.4 Εκπαίδευση ΝΔ με 4 νευρώνες εξόδου και σφάλμα 0,01 Το δίκτυο κατάφερε τελικά να μάθει να κατατάσσει τα 7 παραδείγματα σε ξεχωριστή κατηγορία μειώνοντας το σφάλμα εκπαίδευσης σε 0,1%. Και πάλι όμως χρειάστηκαν πάνω από 10 τυχαίες επανεκκινήσεις μέχρι να καταφέρει να πιάσει ο αλγόριθμος εκπαίδευσης το όριο. Και εδώ γίνεται εμφανής η ύπαρξη τοπικού ελαχίστου, το οποίο δικαιολογείται από το γεγονός ότι η ομάδα που ζητείται να μάθει το δίκτυο έχει μόνο 7 μέλη ενώ όλες οι άλλες έχουν από 800 μέλη και πάνω. Έτσι η μάθηση της εξαίρεσης είναι πάντα πιο δύσκολη από την μάθηση του γενικού κανόνα. 4.3 Αξιολόγηση εκπαίδευσης νευρωνικού δικτύου Η φάση της εκπαίδευσης του νευρωνικού δικτύου επιβεβαιώνει το αποτέλεσμα της ομαδοποίησης συνταγών. Έτσι οι μεν 3 συνταγές είναι όντως διαχωρίσιμες με τις παρούσες παραμέτρους και ότι τα 7 παραδείγματα τελικά δεν ανήκουν σε καμία συνταγή αλλά σε κάποια μετάβαση που εξελίσσεται αργά. 71

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron Βιολογικός Νευρώνας Δενδρίτες, που αποτελούν τις γραμμές εισόδου των ερεθισμάτων (βιολογικών σημάτων) Σώμα, στο οποίο γίνεται η συσσώρευση των ερεθισμάτων και

Διαβάστε περισσότερα

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP) Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP) x -0,5 a x x 2 0 0 0 0 - -0,5 y y 0 0 x 2 -,5 a 2 θ η τιμή κατωφλίου Μία λύση του προβλήματος XOR Multi Layer Perceptron (MLP) x -0,5 Μία

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα & Περιβάλλον

Πληροφοριακά Συστήματα & Περιβάλλον ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Πληροφοριακά Συστήματα & Περιβάλλον Ενότητα 8: Τεχνητά Νευρωνικά Δίκτυα Παναγιώτης Λεφάκης Δασολογίας & Φυσικού Περιβάλλοντος Άδειες Χρήσης

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ. Καραγιώργου Σοφία

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ. Καραγιώργου Σοφία ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Καραγιώργου Σοφία Εισαγωγή Προσομοιώνει βιολογικές διεργασίες (π.χ. λειτουργία του εγκεφάλου, διαδικασία

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο Πρόβλημα ο Ασκήσεις Φροντιστηρίου 5 o Φροντιστήριο Δίνεται το παρακάτω σύνολο εκπαίδευσης: # Είσοδος Κατηγορία 0 0 0 Α 2 0 0 Α 0 Β 4 0 0 Α 5 0 Β 6 0 0 Α 7 0 Β 8 Β α) Στον παρακάτω κύβο τοποθετείστε τα

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. Άδειες Χρήσης Το

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Θ.Ε. ΠΛΗ31 (2004-5) ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ #3 Στόχος Στόχος αυτής της εργασίας είναι η απόκτηση δεξιοτήτων σε θέματα που αφορούν τα Τεχνητά Νευρωνικά Δίκτυα και ποιο συγκεκριμένα θέματα εκπαίδευσης και υλοποίησης.

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 17η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Artificia Inteigence A Modern Approach των S. Russe και

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Τα προς επεξεργασία

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 19η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 19η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 19η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτές βασίζονται σε ύλη των βιβλίων: Artificia Inteigence A Modern Approach των S. Russe και P.

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Ομαδοποίηση Ι (Clustering)

Ομαδοποίηση Ι (Clustering) Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση Υπολογιστική Νοημοσύνη Μάθημα 9: Γενίκευση Υπερπροσαρμογή (Overfitting) Ένα από τα βασικά προβλήματα που μπορεί να εμφανιστεί κατά την εκπαίδευση νευρωνικών δικτύων είναι αυτό της υπερβολικής εκπαίδευσης.

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2) Υπολογιστική Νοημοσύνη Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2) Ο κανόνας Δέλτα για συνεχείς συναρτήσεις ενεργοποίησης (1/2) Για συνεχείς συναρτήσεις ενεργοποίησης, θα θέλαμε να αλλάξουμε περισσότερο

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΕΙ Δυτικής Μακεδονίας ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ 2015-2016 Τεχνητή Νοημοσύνη Νευρώνας Perceptron Διδάσκων: Τσίπουρας Μάρκος Εκπαιδευτικό Υλικό: Τσίπουρας Μάρκος Τζώρτζης Γρηγόρης Περιεχόμενα Εισαγωγή

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 4 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές

Διαβάστε περισσότερα

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ Ενότητα: Αναγνώριση Διεργασίας - Προσαρμοστικός Έλεγχος (Process Identification) Αλαφοδήμος Κωνσταντίνος

Διαβάστε περισσότερα

ιαµέριση - Partitioning

ιαµέριση - Partitioning ιαµέριση - Partitioning ιαµέριση ιαµέριση είναι η διαµοίραση αντικειµένων σε οµάδες µε στόχο την βελτιστοποίηση κάποιας συνάρτησης. Στην σύνθεση η διαµέριση χρησιµοποιείται ως εξής: Οµαδοποίηση µεταβλητών

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ ΥΠΟΥΡΓΕΙΟ ΠΑΙΔΕΙΑΣ ΕΡΕΥΝΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΙΝΣΤΙΤΟΥΤΟ ΕΚΠΑΙΔΕΥΤΙΚΗΣ ΠΟΛΙΤΙΚΗΣ Γώγουλος Γ., Κοτσιφάκης Γ., Κυριακάκη Γ., Παπαγιάννης Α., Φραγκονικολάκης Μ., Χίνου Π. ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση (clustering) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j Πειραματικές Προσομοιώσεις ΚΕΦΑΛΑΙΟ 4 Όλες οι προσομοιώσεις έγιναν σε περιβάλλον Matlab. Για την υλοποίηση της μεθόδου ε-svm χρησιμοποιήθηκε το λογισμικό SVM-KM που αναπτύχθηκε στο Ecole d Ingenieur(e)s

Διαβάστε περισσότερα

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) 1 Προέλευση και ιστορία της Επιχειρησιακής Έρευνας Αλλαγές στις επιχειρήσεις Τέλος του 19ου αιώνα: βιομηχανική

Διαβάστε περισσότερα

Χωρική Ανάλυση Συμπεριφοράς Ασφάλειας Οδηγών με Δεδομένα από Έξυπνα Κινητά Τηλέφωνα

Χωρική Ανάλυση Συμπεριφοράς Ασφάλειας Οδηγών με Δεδομένα από Έξυπνα Κινητά Τηλέφωνα Χωρική Ανάλυση Συμπεριφοράς Ασφάλειας Οδηγών με Δεδομένα από Έξυπνα Κινητά Τηλέφωνα Ηλίας Αλέξανδρος Παρμακσίζογλου Επιβλέπων: Γιώργος Γιαννής, Καθηγητής ΕΜΠ Αθήνα, Μάρτιος 2018 Εθνικό Μετσόβιο Πολυτεχνείο

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανασκόπηση βασικών εννοιών Στατιστικής και Πιθανοτήτων Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 2 Σεπτεµβρίου 2005 5:00-8:00 Σχεδιάστε έναν αισθητήρα ercetro

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

ΕΝΑΣ ΔΙΚΡΙΤΗΡΙΟΣ ΑΛΓΟΡΙΘΜΟΣ SIMPLEX

ΕΝΑΣ ΔΙΚΡΙΤΗΡΙΟΣ ΑΛΓΟΡΙΘΜΟΣ SIMPLEX ΚΕΦΑΛΑΙΟ 3 ΕΝΑΣ ΔΙΚΡΙΤΗΡΙΟΣ ΑΛΓΟΡΙΘΜΟΣ SIMPLEX 3.1 Εισαγωγή Ο αλγόριθμος Simplex θεωρείται πλέον ως ένας κλασικός αλγόριθμος για την επίλυση γραμμικών προβλημάτων. Η πρακτική αποτελεσματικότητά του έχει

Διαβάστε περισσότερα

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο Σύνοψη Στο κεφάλαιο αυτό παρουσιάζεται η ιδέα του συμπτωτικού πολυωνύμου, του πολυωνύμου, δηλαδή, που είναι του μικρότερου δυνατού βαθμού και που, για συγκεκριμένες,

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 19 ης διάλεξης

Ασκήσεις μελέτης της 19 ης διάλεξης Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 2016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 19 ης διάλεξης 19.1. Δείξτε ότι το Perceptron με (α) συνάρτηση ενεργοποίησης

Διαβάστε περισσότερα

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA) ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα 005 - Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Coponent Analysis, PCA) καθ. Βασίλης Μάγκλαρης aglaris@netode.ntua.gr www.netode.ntua.gr

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

6. Στατιστικές μέθοδοι εκπαίδευσης

6. Στατιστικές μέθοδοι εκπαίδευσης 6. Στατιστικές μέθοδοι εκπαίδευσης Μία διαφορετική μέθοδος εκπαίδευσης των νευρωνικών δικτύων χρησιμοποιεί ιδέες από την Στατιστική Φυσική για να φέρει τελικά το ίδιο αποτέλεσμα όπως οι άλλες μέθοδοι,

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ. Χρηματοδότηση Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Το Πολυεπίπεδο Perceptron. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Το Πολυ Perceptron Δίκτυα Πρόσθιας Τροφοδότησης (feedforward) Tο αντίστοιχο γράφημα του δικτύου δεν περιλαμβάνει κύκλους: δεν υπάρχει δηλαδή ανατροφοδότηση της εξόδου ενός νευρώνα προς τους νευρώνες από

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 2: Δομικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά Μάιος 2008 Τα δεδομένα που έχουμε προς επεξεργασία χωρίζονται σε τρία μέρη: 1. Τα δεδομένα εκπαίδευσης (training set) που αποτελούνται από 2528

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ ΜΕΡΛΙΑΟΥΝΤΑΣ ΣΤΕΦΑΝΟΣ, ΠΕ19 ΚΕΦΑΛΑΙΟ 3 Αλγόριθμοι 3. Αλγόριθμοι 2 3. Αλγόριθμοι 3.1 Η έννοια του αλγορίθμου 3.2 Χαρακτηριστικά αλγορίθμου 3.3 Ανάλυση αλγορίθμων

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1 2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση

Διαβάστε περισσότερα

Κεφάλαιο 4: Επιλογή σημείου παραγωγής

Κεφάλαιο 4: Επιλογή σημείου παραγωγής Κ4.1 Μέθοδος ανάλυσης νεκρού σημείου για την επιλογή διαδικασίας παραγωγής ή σημείου παραγωγής Επιλογή διαδικασίας παραγωγής Η μέθοδος ανάλυσης νεκρού για την επιλογή διαδικασίας παραγωγής αναγνωρίζει

Διαβάστε περισσότερα

ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014

ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014 ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014 Περιεχόμενα 1 Εισαγωγή 2 2 Μεγιστικός τελέστης στην μπάλα 2 2.1 Βασικό θεώρημα........................ 2 2.2 Γενική περίπτωση μπάλας.................. 6 2.2.1 Στο

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 9. Κατανομές Δειγματοληψίας

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 9. Κατανομές Δειγματοληψίας ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Μηχανουργική Τεχνολογία ΙΙ

Μηχανουργική Τεχνολογία ΙΙ Μηχανουργική Τεχνολογία ΙΙ Χαρακτηριστικά διεργασιών - Παραμετροποίηση-Μοντελοποίηση Associate Prof. John Kechagias Mechanical Engineer, Ph.D. Παραμετροποίηση - Μοντελοποίηση Στο κεφάλαιο αυτό γίνεται

Διαβάστε περισσότερα

Άσκηση εφαρμογής της μεθόδου Newton Raphson

Άσκηση εφαρμογής της μεθόδου Newton Raphson Άσκηση εφαρμογής της μεθόδου Newton Raphson Η ακόλουθη αντίδραση πραγματοποιείται σε έναν αντιδραστήρα αέριας φάσης: H 2 S+O 2 H 2 +SO 2 Όταν το σύστημα φτάσει σε ισορροπία στους 600Κ και 10 atm, τα μοριακά

Διαβάστε περισσότερα

ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ B ΤΑΞΗΣ. χρησιμοποιήσουμε καθημερινά φαινόμενα όπως το θερμόμετρο, Θετικοί-Αρνητικοί αριθμοί.

ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ B ΤΑΞΗΣ. χρησιμοποιήσουμε καθημερινά φαινόμενα όπως το θερμόμετρο, Θετικοί-Αρνητικοί αριθμοί. ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ B ΤΑΞΗΣ ΑΛΓΕΒΡΑ (50 Δ. ώρες) Περιεχόμενα Στόχοι Οδηγίες - ενδεικτικές δραστηριότητες Οι μαθητές να είναι ικανοί: Μπορούμε να ΟΙ ΑΚΕΡΑΙΟΙ ΑΡΙΘΜΟΙ χρησιμοποιήσουμε καθημερινά φαινόμενα

Διαβάστε περισσότερα

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Με τον όρο μη γραμμικές εξισώσεις εννοούμε εξισώσεις της μορφής: f( ) 0 που προέρχονται από συναρτήσεις f () που είναι μη γραμμικές ως προς. Περιέχουν δηλαδή

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ

ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ ΕΠΙΜΟΡΦΩΣΗ ΤΩΝ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΓΙΑ ΤΗΝ ΑΞΙΟΠΟΙΗΣΗ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΩΝ ΤΠΕ ΣΤΗ ΔΙΔΑΚΤΙΚΗ ΠΡΑΞΗ ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ ΟΡΙΟ ΣΥΝΑΡΤΗΣΗΣ ΕΞ ΑΡΙΣΤΕΡΩΝ ΚΑΙ ΕΚ ΔΕΞΙΩΝ ΣΥΓΓΡΑΦΕΑΣ: ΚΟΥΤΙΔΗΣ ΙΩΑΝΝΗΣ

Διαβάστε περισσότερα

Τεχνητά Νευρωνικά Δίκτυα. Τσιριγώτης Γεώργιος Τμήμα Μηχανικών Πληροφορικής ΤΕΙ Ανατολικής Μακεδονίας & Θράκης

Τεχνητά Νευρωνικά Δίκτυα. Τσιριγώτης Γεώργιος Τμήμα Μηχανικών Πληροφορικής ΤΕΙ Ανατολικής Μακεδονίας & Θράκης Τεχνητά Τσιριγώτης Γεώργιος Τμήμα Μηχανικών Πληροφορικής ΤΕΙ Ανατολικής Μακεδονίας & Θράκης Ο Βιολογικός Νευρώνας Δενδρίτες Συνάψεις Πυρήνας (Σώμα) Άξονας 2 Ο Βιολογικός Νευρώνας 3 Βασικά Χαρακτηριστικά

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη 6 ο Πανελλήνιο Συνέδριο «Διδακτική της Πληροφορικής» Φλώρινα, 20-22 Απριλίου 2012 Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη Σάββας Νικολαΐδης 1 ο

Διαβάστε περισσότερα

Στατιστική Επιχειρήσεων Ι

Στατιστική Επιχειρήσεων Ι ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Στατιστική Επιχειρήσεων Ι Ενότητα 7: Παρουσίαση δεδομένων-περιγραφική στατιστική Μιλτιάδης Χαλικιάς, Επίκουρος Καθηγητής Τμήμα Διοίκησης Επιχειρήσεων

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 4η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 4η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 4η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται κυρίως στα βιβλία Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β.

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Πληροφορική 2. Αλγόριθμοι

Πληροφορική 2. Αλγόριθμοι Πληροφορική 2 Αλγόριθμοι 1 2 Τι είναι αλγόριθμος; Αλγόριθμος είναι ένα διατεταγμένο σύνολο από σαφή βήματα το οποίο παράγει κάποιο αποτέλεσμα και τερματίζεται σε πεπερασμένο χρόνο. Ο αλγόριθμος δέχεται

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα