Συσταδοποίηση καταναλωτών ηλεκτρικής βάσει αντιπροσωπευτικών καµπύλων

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ Συσταδοποίηση καταναλωτών ηλεκτρικής ενέργειας βάσει αντιπροσωπευτικών καµπύλων ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ TΖΑΜΠΑΛΑΤΗΣ ΝΙΚΟΛΑΟΣ ΑΣΥΡΑ ΖΑΚΛΙΝ Επιβλέπων: ΑΛΕΞΙΑ ΗΣ ΜΗΝΑΣ Λέκτορας ΘΕΣΣΑΛΟΝΙΚΗ 2011

2 ΕΥΧΑΡΙΣΤΙΕΣ Ξεκινώντας την παρούσα διπλωματική εργασία θα θέλαμε να ευχαριστήσουμε θερμά όλους εκείνους που στάθηκαν δίπλα μας και βοήθησαν στην περάτωσή της. Αρχικά θα θέλαμε να ευχαριστήσουμε τον λέκτορα, Μηνά Αλεξιάδη, για την εμπιστοσύνη που μας έδειξε και την ευκαιρία που μας έδωσε να ασχοληθούμε με την παρούσα διπλωματική, καθώς και για την πολύτιμη βοήθειά του και την καθοδήγησή του κατά τη διάρκεια εκπόνησής της. Επίσης θα θέλαμε να ευχαριστήσουμε τον υποψήφιο διδάκτορα του τμήματός μας, Ιωάννη Παναπακίδη, για τις συμβουλές του, τον χρόνο που μας αφιέρωσε και την υποστήριξη του στα προβλήματα που αντιμετωπίσαμε στα διάφορα στάδια. Τέλος θα θέλαμε να ευχαριστήσουμε τους γονείς μας και τους φίλους μας για την κατανόηση και τη συμπαράστασή τους στις δύσκολες στιγμές. Νοέμβριος 2011, Θεσσαλονίκη Δασύρα Ζακλίν Τζαμπαλάτης Νικόλαος i

3 ΠΡΟΛΟΓΟΣ Στη παρούσα φάση της εξέλιξης των συστημάτων ηλεκτρικής ενέργειας, παρατηρείται ένα διαρκώς αναπτυσσόμενο ενδιαφέρον για την κατηγοριοποίηση προτύπων φορτίου, ιδιαιτέρως από την πλευρά των προμηθευτών. Η νέα τάση για διαχωρισμό των υπηρεσιών διανομής και προμήθειας, καθώς και οι νέοι βαθμοί ελευθερίας που προέκυψαν από τη νομοθεσία για τη θέσπιση ειδικών προσφερόμενων τιμολογίων που απευθύνονται σε συγκεκριμένες ομάδες πελατών, φέρουν ένα νέο δυναμικό στη λιανεμπορική αγορά της ηλεκτρικής ενέργειας. Επιπλέον η εισαγωγή ανεπτυγμένων τεχνολογιών μέτρησης επιτρέπει στους προμηθευτές να συλλέγουν διάφορα δεδομένα και η επεξεργασία τους οδηγεί σε μία σειρά από δράσεις για την αποδοτικότερη διάθεση του ηλεκτρισμού. Η συσταδοποίηση των καμπυλών φορτίου παρέχει νέες δυνατότητες σε θέματα όπως η πρόβλεψη φορτίου και η τιμολόγηση. Σκοπός της διπλωματικής εργασίας είναι η συσταδοποίηση ενός συνόλου 150 πελατών ηλεκτρικής ενέργειας, οι οποίοι τοποθετούνται σε διαφορετικές ομάδες ανάλογα με τη συμπεριφορά που παρουσιάζουν. Πραγματοποιείται σε δύο στάδια και επιτυγχάνεται με τη χρήση αλγορίθμων συσταδοποίησης. Στο πρώτο στάδιο, για κάθε έναν πελάτη διαμορφώνονται οι τυπικές χρονολογικές καμπύλες που τον περιγράφουν για χρονικό ορίζοντα ενός έτους. Κατά το δεύτερο στάδιο για το σύνολο των υπό εξέταση πελατών πραγματοποιείται μία συσταδοποίηση των τυπικών ημερών σε ομάδες καταναλωτών οι οποίες και αυτές χαρακτηρίζονται από τυπικές χρονολογικές. Τα αποτελέσματα που λαμβάνονται προσφέρουν χρήσιμες πληροφορίες για την ηλεκτρική συμπεριφορά των πελατών και συντελούν στον ορθό σχεδιασμό των τιμολογίων, καθώς και στη δυνατότητα παραγωγής έγκυρων προβλέψεων της μελλοντικής ζήτησης φορτίου από τους καταναλωτές. Πιο συγκεκριμένα: Στο Κεφάλαιο 1 παρουσιάζονται κάποιες βασικές εισαγωγικές έννοιες του τομέα της αναγνώρισης προτύπων με επίκεντρο τη συσταδοποίηση δεδομένων. Εν συνεχεία, αναλύεται ο ρόλος των τυπικών χρονολογικών καμπυλών φορτίου σε συνθήκες απελευθερωμένης αγοράς. Τέλος, λαμβάνει χώρα μία ανασκόπηση της τεχνικής βιβλιογραφίας των αλγόριθμων συσταδοποίησης που έχουν προταθεί για τη διαμόρφωση των τυπικών καμπυλών. Η μαθηματική ανάλυση των αλγορίθμων συσταδοποίησης και των δεικτών αξιολόγησης που χρησιμοποιήθηκαν στη διπλωματική εργασία παρουσιάζεται στο Κεφάλαιο 2. Στο Κεφάλαιο 3 περιγράφεται το πρώτο στάδιο συσταδοποίησης βάσει χρόνου. Παρουσιάζονται λεπτομερώς τα βήματα που ακολουθήθηκαν, τόσο ως ii

4 προς την επεξεργασία των αρχικών δεδομένων, όσο και ως προς την εκτέλεση της συσταδοποίησης των ημερών των πελατών της με τη χρήση κάθε αλγορίθμου χωριστά. Πραγματοποιείται επίσης σύγκριση των μεθόδων με βάση τους δείκτες αξιολόγησης με σκοπό τον προσδιορισμό της τεχνικής που δίνει τη βέλτιστη ομαδοποίηση. Το Κεφάλαιο 4 περιλαμβάνει τη περιγραφή του δεύτερου στάδιου συσταδοποίησης βάσει πελατών. Σύμφωνα με κάποια κριτήρια επιλέγονται συγκεκριμένα αποτελέσματα του πρώτου σταδίου και χρησιμοποιούνται για να προκύψουν οι τυπικές χρονολογικές καμπύλες του συνόλου των πελατών. Τέλος, στο Κεφάλαιο 5 παρουσιάζονται τα τελικά συμπεράσματα, γίνεται αξιολόγηση των αποτελεσμάτων και πραγματοποιούνται ορισμένες προτάσεις για περαιτέρω έρευνα και εφαρμογές πάνω στο συγκεκριμένο τομέα. iii

5 Περιεχόμενα ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1 Βασικές έννοιες στη διαμόρφωση τυπικών χρονολογικών καμπυλών Εισαγωγικές έννοιες στην αναγνώριση προτύπων Έννοιες της συσταδοποίησης Αντικείμενα και μεταβλητές Αποστάσεις και ομοιότητες Συστάδες και κέντρα Τύποι δεδομένων Κατηγορικά δεδομένα Δυαδικά δεδομένα Δεδομένα συναλλαγής Συμβολικά δεδομένα Χρονικές σειρές Διάφορες εφαρμογές της συσταδοποίησης δεδομένων Τυπικές χρονολογικές καμπύλες και αγορά ηλελτρικής ενέργειας Μέθοδοι διαμόρφωσης τυπικών χρονολογικών καμπυλών 20 ΚΕΦΑΛΑΙΟ 2 Μαθηματική ανάλυση αλγορίθμων συσταδοποίησης και δείκτες αξιολόγησης Ο αλγόριθμος K-means Ιεραρχικοί αλγόριθμοι Ιεραρχική ομαδοποίηση συγχώνευσης Γενική ιεραρχική συσταδοποίηση συγχώνευσης Ομαδοποίηση σύνδεσης Δείκτες αξιολόγησης της συσταδοποίησης 30 ΚΕΦΑΛΑΙΟ 3 Εκτέλεση συσταδοποίησης βάσει χρόνου Εισαγωγή Επεξεργασία δεδομένων Εκτέλεση κατηγοριοποίησης Αλγόριθμος Κ-means Οικογένεια αλγορίθμων Hierarchical Υλοποίηση σεναρίων συσταδοποίησης ο σενάριο: Συσταδοποίηση σε 10 cluster Σύγκριση των 2 αλγορίθμων 60 iii

6 Περιεχόμενα ο σενάριο: Συσταδοποίηση με βάση τον βέλτιστο αριθμό cluster ο σενάριο: Μακρο-κατηγοριοποίηση κα συσταδοποίηση 71 ΚΕΦΑΛΑΙΟ 4 Εκτέλεση συσταδοποίησης βάσει πελατών Εισαγωγή Επιλογή αντιπροσωπευτικής καμπύλης Εκτέλεση κατηγοριοποίησης Συσταδοποίηση βάσει πελατών σύμφωνα με το 1 ο σενάριο Συσταδοποίηση βάσει πελατών σύμφωνα με το 2 ο σενάριο Συσταδοποίηση βάσει πελατών σύμφωνα με το 4 ο σενάριο 91 ΚΕΦΑΛΑΙΟ 5 Αξιολόγηση αποτελεσμάτων Εισαγωγή Περιγραφή του οικονομικού κριτηρίου Εφαρμογή του οικονομικού κριτηρίου Συμπεράσματα 104 ΠΑΡΑΡΤΗΜΑ Βιβλιογραφία 106 iv

7 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών 1

8 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών 1.1 Εισαγωγικές έννοιες στην αναγνώριση προτύπων Οι φυσικές διαδικασίες περιλαμβάνουν την διάδοση και την επεξεργασία διάφορων τύπων δεδομένων τα οποία προέρχονται από όλων των ειδών τις μετρήσεις και τις παρατηρήσεις. Αυτά μπορεί να περιγράφουν τα χαρακτηριστικά των ζωντανών οργανισμών ή ενός φυσικού φαινομένου, να συνοψίζουν τα αποτελέσματα ενός επιστημονικού πειράματος ή και να καταγράφουν τη δυναμική ενός μηχανικού συστήματος. Επιπλέον, παρέχουν μία βάση για περαιτέρω ανάλυση, συλλογισμό και αποφάσεις και συμβάλλουν στην κατανόηση των διαφόρων αντικειμένων και φαινομένων. Ένα από τα πιο σημαντικά αντικείμενα της ανάλυσης των δεδομένων είναι ο χωρισμός τους σε κατηγορίες ή ομάδες. Τα αντικείμενα-δεδομένα τα οποία κατατάσσονται στην ίδια ομάδα πρέπει να έχουν παρόμοιες ιδιότητες σύμφωνα με κάποια κριτήρια. Ως μία από τις αρχαιότερες δραστηριότητες του ανθρώπινου είδους, η κατηγοριοποίηση παίζει έναν σημαντικότατο ρόλο στην μακρά ιστορία της ανθρώπινης εξέλιξης. Προκειμένου να γίνει γνωστό ένα νέο αντικείμενο ή να κατανοηθεί ένα νέο φαινόμενο, οι άνθρωποι πάντα προσπαθούν να αναγνωρίσουν αντιπροσωπευτικά χαρακτηριστικά και να τα συγκρίνουν με αυτά των ήδη γνωστών αντικειμένων ή φαινομένων, βασιζόμενοι στην ομοιότητα ή ανομοιότητά τους ή γενικά στην εγγύτητά τους σύμφωνα με κάποιους συγκεκριμένους κανόνες. Για παράδειγμα όλα τα αντικείμενα που υπάρχουν στη φύση κατηγοριοποιούνται κυρίως σε τρεις ομάδες: ζώα, φυτά και ορυκτά. Σύμφωνα με τη βιολογική ταξινόμηση, όλα τα ζώα χωρίζονται σε κατηγορίες, από τις γενικές προς τις ειδικότερες, ανάλογα με το βασίλειο στο οποίο ανήκουν, το φύλο, την τάξη, τη σειρά, την οικογένεια, το γένος και το είδος. Με τη βοήθεια των πληροφοριών που μας δίνει η κατηγοριοποίηση μπορούμε να συμπεράνουμε τις ιδιότητες ενός συγκεκριμένου αντικειμένου βασιζόμενοι στην κατηγορία στην οποία ανήκει. Tα συστήματα κατηγοριοποίησης είναι είτε επιβλεπόμενα (supervised), είτε μη επιβλεπόμενα (unsupervised), ανάλογα με το αν εισάγουν νέα αντικείμεναδεδομένα σε μία από τις πεπερασμένου αριθμού, ξεχωριστές επιβλεπόμενες τάξεις ή στις μη επιβλεπόμενες κατηγορίες αντίστοιχα. Στην κατηγοριοποίηση με επίβλεψη(classification), η χαρτογράφηση από ένα σύνολο διανυσμάτωνδεδομένων εισόδου, τα οποία συμβολίζονται ως x R d, όπου d η διάσταση του χώρου εισόδου, σε ένα πεπερασμένο σύνολο διακριτών κλάσεων-ετικετών (class labels), το οποίο παριστάνεται ως y 1,..,C, όπου C ο συνολικός αριθμός των διαφόρων τύπων ομάδων, μοντελοποιείται σύμφωνα με μία μαθηματική συνάρτηση y=y(x,w), όπου w είναι ένα διάνυσμα μεταβαλλόμενων παραμέτρων. Οι τιμές αυτών των παραμέτρων καθορίζονται (βελτιστοποιούνται) από έναν αλγόριθμο επαγωγικής μάθησης (inductive learning algorithm), που σκοπό έχει να ελαχιστοποιήσει ένα εμπειρικό ρίσκο το οποίο υπάρχει σε ένα πεπερασμένο σύνολο δεδομένων (δειγμάτων) εισόδου-εξόδου, (xi,yi), i=1,.,n, όπου Ν είναι το πεπερασμένο πλήθος των διαθέσιμων αντιπροσωπευτικών δεδομένων. Όταν ο 2

9 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών αλγόριθμος συγκλίνει ή τερματίζει, παράγεται ένας επαγωγικός ταξινομητής (induced classifier). Στην μη επιβλεπόμενη κατηγοριοποίηση, που ονομάζεται και συσταδοποίηση ή ομαδοποίηση (clustering) δεν είναι διαθέσιμα τα δεδομένα εξόδου. Ο στόχος της συσταδοποίησης είναι περισσότερο να μετατρέψει ένα πεπερασμένο σύνολο ακαθόριστων δεδομένων σε ένα πεπερασμένο και διακριτό σύνολο φυσικά κρυμμένων δομών δεδομένων και λιγότερο να παρέχει έναν ακριβή χαρακτηρισμό αγνώστων δειγμάτων που προέρχονται από την ίδια πιθανοτική κατανομή. Αυτό μπορεί να κάνει την αποστολή της συσταδοποίησης να αποτύχει πέρα από τα όρια των προβλημάτων πρόβλεψης και μάθησης χωρίς επίβλεψη, όπως στα προβλήματα κβαντισμού διανυσμάτων, εκτίμησης της συνάρτησης πυκνότητας πιθανότητας και μεγιστοποίησης της εντροπίας. Από τα παραπάνω είναι φανερό ότι ο κύριος λόγος που οδηγεί στη μη επιβλεπόμενη κατηγοριοποίηση είναι η ανάγκη της εξερεύνησης της άγνωστης φύσης των δεδομένων που ολοκληρώνεται με λίγες ή καθόλου προγενέστερες πληροφορίες. Ως παράδειγμα μπορεί να αναφερθεί η διάγνωση των ασθενειών και η διαδικασία της ίασης. Για μια συγκεκριμένη μορφή ασθένειας, μπορεί να υπάρχουν μερικές άγνωστες υπομορφές οι οποίες μπορεί να παρουσιάζουν παρόμοια μορφολογικά χαρακτηριστικά, να ανταποκρίνονται όμως διαφορετικά στην ίδια θεραπεία. Σ αυτόν τον τομέα η ανάλυση σε συστάδες (clusters) έχοντας ως δεδομένα τις εκφράσεις των γονιδίων σχετικά με τις δραστηριότητές τους παρέχει μια υποσχόμενη μέθοδο που θα εξερευνήσει τις υπομορφές και επομένως θα καθορίσει τις ανταποκρινόμενες θεραπείες. Μερικές φορές η κατηγοριοποίηση των δεδομένων με επίβλεψη μπορεί να γίνει εξαιρετικά ακριβή και χρονοβόρα, προβάλλοντας έτσι τη συσταδοποίηση ως μία αρμόζουσα επιλογή που εξοικονομεί αρκετά τόσο σε κόστος όσο και σε χρόνο. Επιπλέον, η ανάλυση σε συστάδες παρέχει μία συμπυκνωμένη παρουσίαση των δεδομένων και είναι χρήσιμη σε αναλύσεις μεγάλης κλίμακας δεδομένων. Οι στόχοι της ανάλυσης σε συστάδες δύναται να συνοψιστεί στις παρακάτω 4 θέσεις: Ανάπτυξη της κατηγοριοποίησης. Διερεύνηση για υλοποίηση αξιοποιήσιμων συστημάτων για την ομαδοποίηση οντοτήτων. Παραγωγή υπόθεσης μέσω της διερεύνησης των δεδομένων. Αξιολόγηση της υπόθεσης ή προσπάθεια να αποφασιστεί εάν τύποι δεδομένων που καθορίζονται μέσω άλλων διαδικασιών είναι στην ουσία μέρος ενός συνόλου δεδομένων. 3

10 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών Η συσταδοποίηση είναι μία υποκειμενική διαδικασία στη φύση που αποκλείει μια απόλυτη κρίση ως προς τη σχετική αποτελεσματικότητα όλων των τεχνικών συσταδοποίησης [1]. Όπως επισημαίνεται στο [2], στην ανάλυση σε συστάδες μία ομάδα αντικειμένων χωρίζεται σε έναν αριθμό, περισσότερο ή λιγότερο, ομοιογενών υποομάδων με βάση ένα συχνά υποκειμενικά επιλεγμένο μέτρο ομοιότητας (δηλαδή επιλεγμένο υποκειμενικά με βάση την ικανότητά του να δημιουργεί ενδιαφέρουσες συστάδες), έτσι ώστε η ομοιότητα ανάμεσα στα αντικείμενα μιας υποομάδας να είναι μεγαλύτερη από αυτήν μεταξύ των αντικειμένων που ανήκουν σε διαφορετικές υποομάδες. Εξάλλου, ένα διαφορετικό κριτήριο ή αλγόριθμος συσταδοποίησης, ή ακόμα κι αν πρόκειται για τον ίδιο αλγόριθμο αλλά διαφορετική επιλογή παραμέτρων, μπορεί να προκαλέσει εντελώς διαφορετικά αποτελέσματα συσταδοποίησης. Για παράδειγμα, οι άνθρωποι μπορούν να κατηγοριοποιηθούν με βάση την εθνικότητά τους, την περιοχή, την ηλικία, την κοινωνικοοικονομική τους κατάσταση, το εκπαιδευτικό επίπεδο, το επάγγελμα, το βάρος, το ύψος, το ντύσιμο, κτλ. Προφανώς, διαφορετικά κριτήρια συσταδοποίησης μπορούν να κατατάξουν ένα συγκεκριμένο άτομο σε πολύ διαφορετικές ομάδες και επομένως να δημιουργήσουν διαφορετικές κατηγορίες. Ωστόσο, δεν υπάρχει απόλυτα κάποιος τρόπος για να αποφασιστεί ποιο κριτήριο είναι καλύτερο γενικά. Για την ακρίβεια, κάθε κριτήριο έχει τη δική του κατάλληλη χρήση που ανταποκρίνεται σε συγκεκριμένες συνθήκες, αν και κάποια από αυτά μπορεί να ταιριάζουν σε ευρύτερες καταστάσεις από άλλα. Το Σχήμα 1.1 δείχνει ένα άλλο παράδειγμα της επίδρασης της υποκειμενικότητας στα τελικά clusters. Ένας χονδρικός διαχωρισμός διαιρεί τις περιοχές σε 4 κύριες συστάδες, ενώ ένας περισσότερο εκλεπτυσμένος προτείνει τον χωρισμό των δεδομένων σε 9 συστάδες. Το εάν υιοθετηθεί ο ένας ή ο άλλος διαχωρισμός εξαρτάται από τις απαιτήσεις του εκάστοτε προβλήματος και υπό αυτή τη προσέγγιση δεν δύναται να αποφανθεί σε γενικές γραμμές το ποια αποτελέσματα συσταδοποίησης είναι αποδοτικότερα. 4

11 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών Σχήμα 1.1: Απεικόνιση της υποκειμενικότητας της ανάλυσης σε συστάδες [1] 1.2 Έννοιες της συσταδοποίησης Στη συνέχεια, εισάγονται διάφορες έννοιες οι οποίες εμφανίζονται συχνά στην συσταδοποίηση δεδομένων Αντικείμενα και μεταβλητές Γενικά, στη τεχνική βιβλιογραφία της συσταδοποίησης δεδομένων διαφορετικές λέξεις μπορούν να χρησιμοποιηθούν για να εκφράσουν την ίδια έννοια. Για παράδειγμα, αν δίνεται μια βάση δεδομένων που περιέχει πολλά αρχεία, οι όροι σημειακό δεδομένο (data point), περίπτωση προτύπου (pattern case), παρατήρηση (observation), αντικείμενο (object), άτομο (individual), και είδος (item), χρησιμοποιούνται για να υποδηλώσουν ένα μεμονωμένο αντικείμενο δεδομένο. Ένα σύνολο δεδομένων με n αντικείμενα, καθένα από τα οποία περιγράφεται από d χαρακτηριστικά, ορίζεται ως D { x x x } το x ( x, x,..., x ) i i1 i 2 id T = 1, 2,..., n, όπου = είναι ένα διάνυσμα που δηλώνει το i th αντικείμενο και το xij είναι ένα βαθμωτό που δηλώνει το j th συστατικό ή χαρακτηριστικό του xi. Ο αριθμός των χαρακτηριστικών d ονομάζεται επίσης διάσταση του συνόλου δεδομένων [3]. 5

12 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών Αποστάσεις και ομοιότητες Οι αποστάσεις και οι ομοιότητες παίζουν σημαντικό ρόλο στην ανάλυση σε συστάδες. Στη βιβλιογραφία τα μέτρα ομοιότητας, οι δείκτες ομοιότητας, τα μέτρα ανομοιότητας, ή οι αποστάσεις, χρησιμοποιούνται για να περιγράψουν ποσοτικά την ομοιότητα ή ανομοιότητα δύο σημειακών δεδομένων ή δύο συστάδων. Γενικά, η απόσταση και η ομοιότητα είναι αμοιβαίες έννοιες. Συχνά, τα μέτρα ομοιότητας και οι δείκτες ομοιότητας χρησιμοποιούνται για να περιγράψουν ποσοτικά το κατά πόσο όμοια είναι δύο σημειακά δεδομένα ως εξής: όσο πιο μεγάλος είναι ο δείκτης ομοιότητας, τόσο πιο όμοια είναι τα δύο σημειακά δεδομένα μεταξύ τους. Το μέτρο ανομοιότητας και η απόσταση λειτουργούν αντίστροφα: όσο πιο μεγάλο είναι το μέτρο ανομοιότητας ή η απόσταση, τόσο περισσότερα ανόμοια είναι τα δύο σημειακά δεδομένα ή συστάδες. Για παράδειγμα, έστω τα δύο σημειακά δεδομένα = (,,..., ) και (,,..., ) y y1 y2 y d T x x1 x2 x d =. Η Ευκλείδεια απόσταση ανάμεσα στο x και y υπολογίζεται ως εξής: d (, ) = Σ( j j) d x y x y j= T (1.1) Κάθε αλγόριθμος συσταδοποίησης στηρίζεται στο δείκτη ομοιότητας ή ανομοιότητας μεταξύ των σημειακών δεδομένων. Αν δεν υπάρχει κανένα μέτρο ομοιότητας ή ανομοιότητας μεταξύ ζευγών σημειακών δεδομένων, τότε δεν είναι δυνατή μία αξιόλογη ανάλυση σε συστάδες [3] Συστάδες και κέντρα Στην συσταδοποίηση δεδομένων, οι όροι συστάδα, ομάδα και κλάση έχουν χρησιμοποιηθεί ουσιαστικά διαισθητικά χωρίς να υπάρχει ένας επίσημος ορισμός. Γενικά, η λογική της έννοιας της συστάδας συνδυάζει ποικίλα εύλογα κριτήρια και απαιτεί, για παράδειγμα, όλα τα αντικείμενα που ανήκουν στην ίδια συστάδα: Να μοιράζονται τις ίδιες ιδιότητες ή να σχετίζονται στενά. Να έχουν μικρές αμοιβαίες αποστάσεις ή ανομοιότητες. Να έχουν επαφές ή σχέσεις με τουλάχιστον ένα άλλο αντικείμενο της ομάδας. 6

13 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών Να ξεχωρίζουν ευκρινώς από το υπόλοιπα αντικείμενα του συνόλου δεδομένων. Στο [4] προτείνεται επίσης ότι ένα σύνολο περιέχει συστάδες σημείων, εάν η κατανομή των σημείων πληροί τις ακόλουθες προϋποθέσεις: Υπάρχουν συνεχείς και σχετικά υψηλής πυκνότητας σημείων περιοχές στο χώρο. Αυτές οι περιοχές γειτονεύουν από συνεχείς και σχετικά άδειες σημείων περιοχές στο χώρο. Οι αλγόριθμοι συσταδοποίησης διαχωρίζουν τα αντικείμενα-δεδομένα (πρότυπα, οντότητες, περιπτώσεις, τύποι, μονάδες) σε ένα συγκεκριμένο αριθμό από συστάδες (ομάδες, υποσύνολα, κατηγορίες). Παρόλα αυτά δεν υπάρχει ένας καθολικά αποδεκτός ορισμός της έννοιας της συστάδας. Ωστόσο, διάφοροι λειτουργικοί ορισμοί είναι διαθέσιμοι και παρουσιάζονται παρακάτω: Μία συστάδα είναι ένα σύνολο από οντότητες που παρουσιάζουν ομοιότητα, ενώ οντότητες από διαφορετικές συστάδες δεν παρουσιάζουν. Μία συστάδα είναι ένα σύνολο από σημεία στο χώρο έτσι ώστε η απόσταση μεταξύ δύο οποιονδήποτε σημείων στη συστάδα να είναι μικρότερη από την απόσταση μεταξύ ενός οποιουδήποτε σημείου μέσα στη συστάδα και οποιουδήποτε σημείου έξω από αυτό. Οι συστάδες μπορούν να περιγραφούν ως συνεχείς περιοχές στο χώρο οι οποίες περιέχουν μία σχετικά μεγάλη πυκνότητα σημείων και διαχωρίζονται από άλλες τέτοιες περιοχές με περιοχές με χαμηλή πυκνότητα σημείων. Είναι φανερό ότι η συστάδα στους παραπάνω ορισμούς περιγράφεται από την άποψη της εσωτερικής ομοιογένειας και του εξωτερικού διαχωρισμού, δηλαδή τα αντικείμενα-δεδομένα που ανήκουν στην ίδια συστάδα πρέπει να είναι όμοια μεταξύ τους, ενώ αυτά που ανήκουν σε διαφορετικές συστάδες πρέπει να είναι ανόμοια μεταξύ τους. Παρακάτω παρατίθενται μερικές απλές μαθηματικές περιγραφές δύο διαφορετικών τύπων συσταδοποίησης, γνωστών ως διαιρετική συσταδοποίηση (partitional clustering) και ιεραρχική συσταδοποίηση (hierarchical clustering). Δίνεται ένα σύνολο από διανύσματα εισόδου X { x1,... x j,..., xn} ( 1, 2,..., ) j j j jd =, όπου x = x x x R d, με κάθε στοιχείο x ji να ορίζει ένα χαρακτηριστικό (ιδιότητα, διάσταση ή μεταβλητή): 1. Η σκληρή συσταδοποίηση αναζητά έναν Κ-διαχωρισμό του X, { } ( ) C= C,..., 1 CK K N, έτσι ώστε: 7

14 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών C i φ, i= 1,..., K ; (1.2) U = = ; (1.3) K C i 1 i X C C = φ, i, j= 1,..., K και i j (1.4) i j 2. Η ιεραρχική συσταδοποίηση προσπαθεί να δημιουργήσει μία δενδροειδή, ένθετη δομή διαχωρισμού του X, H { H H } ( Q N) =,..., 1 Q, έτσι ώστε: C i H m, C j Hl και m l C C or C C = φ for all i, j m, l= 1,..., Q i j i j Στη σκληρή συσταδοποίηση κάθε αντικείμενο-δεδομένο σχετίζεται αποκλειστικά με μία μεμονωμένη συστάδα. Είναι επίσης δυνατόν να επιτρέπεται σε ένα αντικείμενο να ανήκει σε όλες τις Κ συστάδες με ένα βαθμό συμμετοχής, [ ] ui, j 0,1, που αντιπροσωπεύει το συντελεστή συμμετοχής του j th αντικειμένου στο i th cluster και ικανοποιεί τους ακόλουθους δύο περιορισμούς: και K Σ u = 1, j (1.5) i= 1 i, j N Σ u N, i j= 1 i, j (1.6) όπως εισάγονται στη θεωρία της ασαφούς συσταδοποίησης (fuzzy clustering). Στο Σχήμα 1.2 παρουσιάζεται η διαδικασία της ανάλυσης σε συστάδες που περιλαμβάνει τα ακόλουθα βασικά βήματα: 1. Επιλογή ή εξαγωγή χαρακτηριστικού (feature selection ή extraction). Αυτό το βήμα αναφέρεται στην επιλογή διακριτών χαρακτηριστικών από ένα σύνολο από υποψήφια, ενώ η εξαγωγή χαρακτηριστικού χρησιμοποιεί μερικούς μετασχηματισμούς για να παράγει αξιοποιήσιμα και νέα χαρακτηριστικά από τα πρωτότυπα. Είναι φανερό ότι η εξαγωγή χαρακτηριστικού μπορεί δυνητικά να παράγει χαρακτηριστικά τα οποία θα χρησιμεύσουν περισσότερο για να αποκαλυφθεί η δομή των δεδομένων. Ωστόσο, η εξαγωγή χαρακτηριστικού μπορεί να παράγει χαρακτηριστικά τα οποία δεν είναι φυσικά ερμηνεύσιμα, ενώ η επιλογή χαρακτηριστικού διασφαλίζει τη διατήρηση της αρχικής φυσικής ερμηνείας των επιλεγμένων χαρακτηριστικών. Στη βιβλιογραφία αυτοί οι δύο όροι μερικές φορές χρησιμοποιούνται εναλλακτικά χωρίς περαιτέρω επεξήγηση 8

15 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών της διαφοράς τους. Τόσο η επιλογή όσο και η εξαγωγή χαρακτηριστικού είναι πολύ σημαντικές στην αποτελεσματικότητα των εφαρμογών συσταδοποίησης. Η προσεκτική επιλογή και παραγωγή των κυριότερων χαρακτηριστικών μπορεί να μειώσει θεαματικά τις απαιτήσεις αποθήκευσης και το κόστος της μέτρησης, να απλοποιήσει τη διαδικασία του σχεδιασμού που ακολουθεί και να διευκολύνει την κατανόηση των δεδομένων. Γενικά, τα ιδανικά χαρακτηριστικά πρέπει να χρησιμοποιούνται για να διακρίνονται πρότυπα που ανήκουν σε διαφορετικές συστάδες, να είναι απρόσβλητα στο θόρυβο και εύκολα στο να αποκτηθούν και να ερμηνευθούν. Η εξαγωγή χαρακτηριστικού συναντάται στα πλαίσια της οπτικοποίησης των δεδομένων και της μείωσης της διάστασης. Η επιλογή χαρακτηριστικού χρησιμοποιείται συχνά στα πλαίσια της επιβλεπόμενης κατηγοριοποίησης με διαθέσιμες τις κλάσεις-ετικέτες. Σχήμα 1.2: Συλλογή δεδομένων και διαδικασίες κατηγοριοποίησης και συσταδοποίησης [1] 2. Υλοποίηση ή επιλογή του αλγορίθμου συσταδοποίησης (clustering algorithm design or selection). Αυτό το βήμα συνήθως αποτελείται από την απόφαση ενός κατάλληλου μέτρου ακρίβειας και την κατασκευή μιας συνάρτησης κριτηρίου. Διαισθητικά, τα αντικείμενα-δεδομένα ομαδοποιούνται σε διαφορετικές συστάδες ανάλογα με το αν μοιάζουν μεταξύ τους ή όχι. Αφού ορισθεί ένα μέτρο ακρίβειας, τότε η συσταδοποίηση μπορεί να ερμηνευθεί ως ένα πρόβλημα βελτιστοποίησης μίας συγκεκριμένης συνάρτησης μέτρου σύγκρισης. Οι συστάδες που προκύπτουν εξαρτώνται από την επιλογή της συνάρτησης μέτρου σύγκρισης. Υπό αυτή την έννοια, η υποκειμενικότητα της ανάλυσης σε συστάδες είναι αναπόφευκτη. 9

16 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών Στη βιβλιογραφία έχει παρουσιαστεί μία πληθώρα αλγορίθμων για την επίλυση διαφορετικών προβλημάτων από ένα μεγάλο εύρος πεδίων. Παρόλα αυτά δεν υπάρχει ένας καθολικός αλγόριθμος συσταδοποίησης που να επιλύει όλα τα προβλήματα. Επομένως είναι σημαντικό να πραγματοποιηθεί προσεκτική εξέταση των χαρακτηριστικών ενός προβλήματος προκειμένου να επιλεχτεί ή να σχεδιαστεί μία κατάλληλη στρατηγική συσταδοποίησης. Ακολουθεί ένα διάγραμμα των αλγορίθμων συσταδοποίησης: Σχήμα 1.3 : Βασικές κατηγορίες αλγορίθμων [1] 3. Επικύρωση της συσταδοποίησης (cluster validation). Όταν δίνεται ένα σύνολο δεδομένων, κάθε αλγόριθμος συσταδοποίησης μπορεί πάντα να κάνει έναν διαχωρισμό ανεξάρτητα από το εάν υπάρχει στην πραγματικότητα μία συγκεκριμένη δομή ή όχι στα δεδομένα. Επίσης, για το ίδιο σύνολο δεδομένων, διαφορετικοί αλγόριθμοι συνήθως οδηγούν σε διαφορετικές συστάδες. Ακόμα κι αν πρόκειται για τον ίδιο αλγόριθμο, η επιλογή μίας παραμέτρου ή η σειρά παρουσίασης των προτύπων εισόδου μπορεί να επηρεάσει τα τελικά αποτελέσματα. Έτσι, είναι αναγκαία η χρήση αποδοτικών κριτηρίων αξιολόγησης. Αυτά θα πρέπει να είναι σε θέση να παρέχουν λύσεις σε θέματα όπως: πόσες συστάδες ενυπάρχουν στα δεδομένα, αν οι συστάδες που προέκυψαν είναι πρακτικά αξιοποιήσιμες και τέλος γιατί να προτιμηθεί ένας συγκεκριμένος αλγόριθμος σε σχέση με κάποιον άλλον. 4. Ερμηνεία των αποτελεσμάτων (result interpretation). Ο τελικός στόχος της συσταδοποίησης είναι να παρέχει στους χρήστες σημαντικές πληροφορίες από τα αρχικά δεδομένα, ώστε να γίνει όσο το δυνατόν ολοκληρωμένη κατανόηση του προς επίλυση προβλήματος. 10

17 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών Σχήμα 1.4: Η βασική διαδικασία της ανάλυσης σε συστάδες αποτελείται από 4 βήματα με ένα μονοπάτι ανατροφοδότησης. Αυτά τα βήματα συνδέονται στενά μεταξύ τους και καθορίζουν τις παραγόμενες συστάδες [1] Αξίζει να σημειωθεί ότι το διάγραμμα ροής του Σχήματος 1.4 περιλαμβάνει επίσης και ένα μονοπάτι ανατροφοδότησης. Η ανάλυση σε συστάδες δεν είναι μία εφάπαξ διαδικασία. Σε πολλές περιπτώσεις, η συσταδοποίηση απαιτεί μία σειρά από δοκιμές και επαναλήψεις. Επιπλέον, δεν υπάρχουν καθολικά αποτελεσματικά κριτήρια που να καθορίζουν την επιλογή του χαρακτηριστικού και τους αλγόριθμους. Τέλος τα κριτήρια αξιολόγησης βοηθάνε αρκετά στην ποιοτικό έλεγχο των αποτελεσμάτων της συσταδοποίησης, αλλά ακόμα και η επιλογή του κατάλληλου κριτηρίου είναι ένα απαιτητικό πρόβλημα. 1.3 Τύποι δεδομένων Οι αλγόριθμοι συσταδοποίησης δεδομένων συνδέονται σε μεγάλο βαθμό με τους τύπους δεδομένων. Για το λόγο αυτό η κατανόηση της κλίμακας, της ομαλότητας και της εγγύτητας είναι πολύ σημαντική στη ερμηνεία των αποτελεσμάτων. Οι τύποι δεδομένων αναφέρονται στο βαθμό ποσοτικοποίησης στα δεδομένα, δηλαδή μία μεταβλητή μπορεί να είναι δυαδική, διακριτή ή συνεχής. Μία δυαδική μεταβλητή έχει ακριβώς δύο τιμές, σωστό ή λάθος. Μία διακριτή μεταβλητή έχει ένα πεπερασμένο αριθμό πιθανών τιμών, συνεπώς οι 11

18 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών δυαδικές μεταβλητές αποτελούν μία ειδική περίπτωση διακριτών. Παρακάτω περιγράφονται οι διάφοροι τύποι δεδομένων [3] Κατηγορικά δεδομένα (Categorical Data) Οι κατηγορικές μεταβλητές αναφέρονται και σαν ονομαστικές και χρησιμοποιούνται απλά σαν ονόματα, όπως για παράδειγμα οι μάρκες των αυτοκινήτων. Μία ονομαστική μεταβλητή ενός σημειακού δεδομένου σε ένα σύνολο μπορεί να έχει μόνο ένα πεπερασμένο αριθμό τιμών. Συνεπώς ο ονομαστικός τύπος είναι μία ειδική περίπτωση του διακριτού τύπου [3] Δυαδικά δεδομένα (Binary Data) Μία δυαδική μεταβλητή είναι μία μεταβλητή με δύο ακριβώς πιθανές τιμές, όπως σωστό ή λάθος. Οι δυαδικές μεταβλητές μπορούν να χωριστούν περεταίρω σε δύο τύπους: συμμετρικές δυαδικές μεταβλητές και μη συμμετρικές δυαδικές μεταβλητές. Σε μία συμμετρική δυαδική μεταβλητή, οι δύο τιμές είναι εξίσου σημαντικές. Οι συμμετρικές δυαδικές μεταβλητές είναι ονομαστικές μεταβλητές. Σε μία μη συμμετρική μεταβλητή, μία από τις τιμές της έχει μεγαλύτερη σημασία από την άλλη. Για παράδειγμα, το ναι αντιστοιχεί στην ύπαρξη ενός συγκεκριμένου χαρακτηριστικού, ενώ το όχι στην έλλειψή του [3] Δεδομένα συναλλαγής (Transaction Data) Έχοντας ένα σύνολο αντικειμένων I = {I1, I2,..., Im}, ένα δεδομένο συναλλαγής είναι ένα υποσύνολο του I. Τα δεδομένα συναλλαγής μπορούν να παρασταθούν από δυαδικά διανύσματα, στα οποία κάθε καταχώρηση δηλώνει την ύπαρξη ή απουσία του αντίστοιχου αντικειμένου. Από αυτή την άποψη, τα δεδομένα αυτά είναι μία ειδική περίπτωση δυαδικών δεδομένων. Γενικά, πολλά δεδομένα συναλλαγής συνθέτονται από διάσπαρτα αντικείμενα. Για παράδειγμα, ένας πελάτης μπορεί να αγοράσει μόνο ορισμένα αντικείμενα από ένα σύνολο χιλιάδων που έχει ένα κατάστημα [3]. 12

19 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών Συμβολικά δεδομένα (Symbolic Data) Τα κατηγορικά και τα δυαδικά δεδομένα είναι κλασσικοί τύποι δεδομένων. Τα συμβολικά δεδομένα είναι μία επέκταση των κλασσικών τύπων δεδομένων. Στα συμβατικά σύνολα δεδομένων, τα αντικείμενα αντιμετωπίζονται μεμονωμένα, ενώ στα συμβολικά σύνολα δεδομένων τα αντικείμενα είναι πιο ενοποιημένα μέσω σχέσεων. Με αυτόν τον τρόπο τα συμβολικά δεδομένα είναι λίγο ή πολύ ομογενή. Οι διαφορές μεταξύ των συμβολικών και των συμβατικών δεδομένων συνοψίζονται ως εξής: Όλα τα αντικείμενα σε ένα σύνολο συμβολικών δεδομένων δεν μπορούν να οριστούν από τις ίδιες μεταβλητές. Κάθε μεταβλητή μπορεί να δεχθεί πάνω από μία τιμή ή και ένα διάστημα τιμών. Οι μεταβλητές σε ένα περίπλοκο σύνολο συμβολικών δεδομένων μπορούν να δεχθούν τιμές που περιλαμβάνουν ένα ή περισσότερα στοιχειώδη αντικείμενα. Η περιγραφή ενός συμβολικού αντικειμένου μπορεί να στηρίζεται σε σχέσεις που υπάρχουν μεταξύ άλλων αντικειμένων. Οι τιμές των μεταβλητών μπορεί να φανερώνουν συχνότητα εμφάνισης, σχετική πιθανότητα, επίπεδο σημασίας των τιμών κ.ο.κ. [3] Χρονικές σειρές (Time Series) Οι χρονικές σειρές είναι η απλούστερη μορφή προσωρινών δεδομένων. Ειδικότερα, μία σειρά δεδομένων είναι μία ακολουθία πραγματικών αριθμών που αναπαριστούν τις τιμές μιας πραγματικής μεταβλητής σε ίσα χρονικά διαστήματα. Για παράδειγμα, η κίνηση των τιμών στο χρηματιστήριο, η θερμοκρασία σε κάποιο τόπο και ο όγκος των πωλήσεων με τον χρόνο είναι όλα χρονικές σειρές. Μία χρονική σειρά είναι διακριτή αν η μεταβλητή ορίζεται σε ένα πεπερασμένο σύνολο χρονικών σημείων. Οι περισσότερες από τις χρονικές σειρές που απαντώνται στην ανάλυση σε συστάδες είναι διακριτές σειρές. Όταν μία μεταβλητή ορίζεται σε όλα τα χρονικά σημεία, τότε η χρονική σειρά είναι συνεχής. Γενικά μία χρονική σειρά μπορεί να θεωρηθεί σαν ένα μίγμα των ακόλουθων τεσσάρων συστατικών: Μία τάση, π.χ. η μακροπρόθεσμη κίνηση. Οι διακυμάνσεις αυτής της τάσης, μεγαλύτερης ή μικρότερης συχνότητας Μία εποχιακή συνιστώσα 13

20 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών Μία επιμέρους ή τυχαία επίδραση [3]. 1.4 Διάφορες εφαρμογές της συσταδοποίησης δεδομένων Η συσταδοποίηση βρίσκει εφαρμογή σε ένα μεγάλο εύρος πεδίων, όπως φαίνεται παρακάτω όπου αναφέρονται κάποιες από τις τυπικές εφαρμογές του: Στη μηχανική, όπως η ρομποτική, η μηχανική μάθηση, η αναγνώριση προτύπων, κ.α. Οι τυπικές εφαρμογές του clustering στον τομέα αυτό εκτείνονται από τη βιομετρική αναγνώριση και την αναγνώριση φωνής μέχρι και την ανάλυση σημάτων από συστήματα ραντάρ, τη συμπίεση πληροφοριών και την αφαίρεση του θορύβου. Στην επιστήμη των υπολογιστών, όπως η ανάλυση βάσεων δεδομένων, η ανάκτηση πληροφοριών, στη κατάτμηση εικόνων, κ.α. Στην επιστήμη της ιατρικής όπως η γενετική, η βιολογία, η μικροβιολογία, η ψυχιατρική, η παθολογία, κ.α. Στην αστρονομία αλλά και σε άλλες επιστήμες όπως η γεωγραφία, η γεωλογία και η τηλεπισκόπηση. Στις κοινωνικές επιστήμες όπως η κοινωνιολογία, η αρχαιολογία και η ανθρωπολογία [1]. 1.5 Τυπικές χρονολογικές καμπύλες και αγορά ηλεκτρικής ενέργειας Ως αποτέλεσμα της απελευθέρωσης της αγοράς ηλεκτρικής ενέργειας οι πελάτες είναι ελεύθεροι να επιλέξουν τον προμηθευτή τους. Αυτό δημιουργεί ανταγωνισμό μεταξύ των διαφόρων εταιριών λιανικής πώλησης που παρέχουν ηλεκτρική ενέργεια στους καταναλωτές. Στις μη απελευθερωμένες αγορές, η πληροφορία της κατανάλωσης του πελάτη ήταν σημαντική προκειμένου να καθοριστεί η ζήτηση σε ισχύ και ο σχεδιασμός του συστήματος ή να οριστούν αποδοτικότερα τιμολόγια. Στις απελευθερωμένες αγορές ενέργειας, η γνώση των προτύπων κατανάλωσης του πελάτη (ημερήσιο προφίλ φορτίου) είναι απαραίτητη για τη επίτευξη συμφωνιών μεταξύ καταναλωτών και προμηθευτών σχετικά με την τιμή της ενέργειας, τον καθορισμό πολιτικών διαχείρισης της ηλεκτρικής ζήτησης (demand side management) καθώς και 14

21 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών καινοτόμων συμβάσεων και υπηρεσιών. Για τους προμηθευτές οι οποίοι επιλέγουν μία διαφορετική στρατηγική, η γνώση των αναγκών των πελατών τους είναι θεμελιώδους σημασίας ώστε να αναπτύξουν προϊόντα που να ικανοποιούν τις προτιμήσεις των πελατών. Σε πολλές χώρες οι περισσότεροι καταναλωτές ηλεκτρικής ενέργειας, έχουν πλέον τη δυνατότητα να επιλέξουν να αγοράσουν ενέργεια από τους νέους ιδιώτες προμηθευτές. Το ελεγχόμενο μονοπώλιο ηλεκτρισμού ανήκει στο παρελθόν και νέες δυνατότητες αναδύονται για τους συμμετέχοντες στην αγορά. Συνεπώς σε ένα τέτοιο νέο περιβάλλον, η γνώση του ημερήσιου προφίλ φορτίου του πελάτη είναι ζωτικής σημασίας για τη σύνταξη συμβολαίων μεταξύ καταναλωτών και ιδιωτών προμηθευτών/εταιριών λιανικής πώλησης. Η γνώση της συμπεριφοράς του καταναλωτή μπορεί να χρησιμεύσει ως ένα εργαλείο απόφασης, όχι μόνο για τις εταιρίες λιανικής πώλησης αλλά και για τους ίδιους τους καταναλωτές. Ο καθορισμός των κλάσεων του πελάτη, μπορεί εύκολα να γίνει με τη βοήθεια της γνώσης της πραγματικής ηλεκτρικής συμπεριφοράς και με επιπρόσθετα εξωτερικά χαρακτηριστικά, όπως είναι οι καιρικές συνθήκες, το είδος της δραστηριότητας, η συμφωνημένη ισχύς, η ενέργεια που καταναλώνεται και το είδος της τιμολόγησης. Ένα από τα σημαντικά εργαλεία που καθορίζεται χρησιμοποιώντας αυτά τα δεδομένα είναι τα προφίλ φορτίου για διαφορετικές κλάσεις καταναλωτών. Ένα Προφίλ Φορτίου (Load Profile) μπορεί να οριστεί ως ένα πρότυπο της ζήτησης σε ενέργεια ενός καταναλωτή, ή ομάδας καταναλωτών, κατά τη διάρκεια μίας χρονικής περιόδου. Επομένως για αυτού του είδους τις μελέτες είναι απαραίτητο όλοι οι καταναλωτές να έχουν τον κατάλληλο μετρητικό εξοπλισμό. Αυτός ο νέος μετρητικός εξοπλισμός αυξάνει την ποσότητα των δεδομένων που συλλέγονται με δυναμικό τρόπο, δεδομένα τα οποία παίζουν σημαντικό ρόλο στην απόφαση και στην επιλογή των στρατηγικών της αγοράς. Από την άλλη, τα νέα εργαλεία πρέπει να είναι ικανά να αντιμετωπίσουν μεγάλες ποσότητες δεδομένων συνοδευόμενα από όλα τα προβλήματα που σχετίζονται με τις πραγματικές βάσεις δεδομένων όπως θόρυβος, ελλιπείς μετρήσεις, φθορά του εξοπλισμού και διακοπές στην παροχή ηλεκτρισμού. Τα τυπικά καταναλωτικά πρότυπα αποτελούσαν πάντα ένα σημαντικό θέμα έρευνας για τις επιχειρήσεις ηλεκτρισμού κοινής ωφέλειας, που χρησιμοποιούσαν αυτή τη γνώση στη διαχείριση του δικτύου διανομής. Αυτό αφορά συγκεκριμένα τους καταναλωτές χαμηλής τάσης, των οποίων η ενέργεια δεν μετράται συνήθως σε ωριαία βάση αλλά σε μηνιαία. Με την εξέλιξη του τομέα της ενέργειας σε μια ελεύθερη αγορά, υπάρχει η ανάγκη εκκαθάρισης της ροής της ενέργειας μεταξύ των φορέων διανομής και των εμπόρωνπρομηθευτών, και η οποία απαιτεί μια εκτίμηση της ωριαίας κατανάλωσης του πελατολογίου του κάθε εμπόρου. Εφόσον αυτή η διαδικασία δεν μπορεί να ικανοποιηθεί με τις παραδοσιακές μηνιαίες μετρήσεις ενέργειας, αντιμετωπίστηκε με το προφίλ φορτίου (load profiling), όπου δημιουργούνται 15

22 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών τυπικά ωριαία ή 15λεπτα διαγράμματα φορτίου που αντιπροσωπεύουν τις κλάσεις των καταναλωτών κυρίως αυτών της χαμηλής τάσης. Αυτά τα διαγράμματα χρησιμοποιούνται για να αναδιανεμηθεί η μηνιαία κατανάλωση και να γίνει δυνατή η διαδικασία της εκκαθάρισης. Η εναλλακτική λύση είναι να εγκατασταθούν εσωτερικοί μετρητές σε όλους τους καταναλωτές χαμηλής τάσης, το οποίο είναι αρκετά ακριβό, αν και αυτή η πολιτική προωθείται σε μερικές χώρες τις Ευρωπαϊκής Ένωσης. Ακόμα κι έτσι τα προφίλ φορτίου μπορούν να χρησιμοποιηθούν σ αυτές τις αγορές στις περιπτώσεις απώλειας δεδομένων ή δυσλειτουργίας των μετρητών. Τα προφίλ φορτίου είναι επίσης σημαντικά στην διαδικασία καθορισμού των προφίλ απωλειών τα οποία επίσης χρησιμοποιούνται στη λειτουργία της εκκαθάρισης. Πρέπει να τονιστεί ότι το load profiling είναι απλά ένα εργαλείο εκτίμησης για να χρησιμοποιηθεί στις σχέσεις μεταξύ των διανομέων και των προμηθευτών, και δεν έχει καμιά επιρροή στους καταναλωτές, οι οποίοι συνεχίζουν να έχουν τα συμβόλαιά τους με τους προμηθευτές βάσει των μηνιαίων μετρήσεών τους και βάσει των συμβολαίων που συνάπτουν ελεύθερα με αυτούς. Επομένως, η διαδικασία αυτή δεν παράγει οικονομικούς δείκτες οι οποίοι να οδηγήσουν τους καταναλωτές να αλλάξουν τη συμπεριφορά τους - αυτό θα μπορούσε να γίνει δυνατό με πιο λεπτομερείς μετρήσεις, όπως αυτές που προκύπτουν από την χρήση μετρητών. Το load profiling συνήθως διαιρείται σε τρεις φάσεις: συλλογή δεδομένων, καθορισμός κλάσεων, και τεστ αξιολόγησης της απόδοσης. Η πρώτη φάση περιλαμβάνει τη συλλογή ενός δείγματος διαγραμμάτων φορτίου, τα οποία προκύπτουν από μετρήσεις. Στη συνέχεια λαμβάνοντας υπ` όψιν τον ορισμό των κλάσεων, η πιο συνηθισμένη προσέγγιση περιλαμβάνει τον καθορισμό a priori κλάσεων χρησιμοποιώντας δεδομένα χρέωσης, όπως η συμφωνημένη ισχύς, η ετήσια κατανάλωση ενέργειας και το είδος του καταναλωτή (οικιακός, βιομηχανικός, εμπορικός κ.α.). Σ αυτήν την προσέγγιση, η ποικιλία των διαγραμμάτων σε κάθε κλάση μπορεί να είναι τεράστια, διότι η διαδικασία του καθορισμού των κλάσεων δεν εξετάζει ρητά τη μορφή των διαγραμμάτων. Έτσι έχουν αναπτυχθεί προσπάθειες να καθοριστούν οι κλάσεις χρησιμοποιώντας αλγόριθμους συσταδοποίησης, οι οποίοι λειτουργούν με ένα δείγμα διαγραμμάτων φορτίου. Με την απελευθέρωση των ευρωπαϊκών αγορών ηλεκτρισμού, το πρώτο βήμα στις περισσότερες χώρες ήταν η στροφή στην χονδρεμπορική αγορά και τους σχετικά μεγάλους καταναλωτές. Γι αυτούς τους καταναλωτές η μέτρηση της κατανάλωσης ανά ώρα είναι σχετικά ξεκάθαρη και είναι εύκολο να αποφασιστεί με ποια τιμή πρέπει να χρεωθεί η κατανάλωση ρεύματος, αφού οι μεγάλοι καταναλωτές έχουν ήδη εγκατεστημένους μετρητές για ωριαία ή μέτρηση ανά 30 λεπτά. Για την λιανεμπορική αγορά, το ερώτημα είναι το πώς να καθιερωθεί μία πρακτική αλλά και οικονομική, εναλλακτική λύση ωριαίας μέτρησης για τον κάθε μεμονωμένο καταναλωτή-στόχο. Η μέτρηση και η επίλυση που βασίζεται στο προφίλ φορτίου είναι ένας εφικτός και οικονομικά 16

23 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών αποτελεσματικός τρόπος που δίνει την ευκαιρία στους μικρούς καταναλωτές να συμμετάσχουν στις ανοιχτές αγορές. Οι χρήστες είναι κυρίως οικιακοί καταναλωτές, αλλά και άλλοι χρήστες μικρής κατανάλωσης. Ο κύριος στόχος είναι η όσο το δυνατόν μεγαλύτερη συμμετοχή των καταναλωτών στην αγορά υπό το περιορισμό του κόστους, το οποίο αναφέρεται στην εγκατάσταση και λειτουργία των μετρητικών διατάξεων. Υπό απουσία μετρητών, το load profiling περιλαμβάνει: Τον προσδιορισμό ενός εκτιμώμενου μέσου προφίλ φορτίου μίας κλάσης πελατών κατά τη διάρκεια μιας δεδομένης περιόδου και Την κατανομή αυτού του προφίλ φορτίου για όλους τους πελάτες σ αυτήν την κατηγορία πελατών. Αυτή η κλάση πελατών θα μπορούσε να είναι όλοι εκείνοι οι καταναλωτές που δεν μετρώνται σε διακριτά χρονικά διαστήματα. Με αυτήν τη μέθοδο, οι μημετρούμενοι πελάτες αποτελούν ένα υπολειπόμενο προφίλ, που είναι ένα προσαρμοσμένο προφίλ φορτίου για τον κόμβο ή την περιοχή υπό εξέταση. Η άλλη επιλογή είναι να ομαδοποιούνται οι πελάτες με παρόμοια πρότυπα φορτίου σε κατηγορίες, όπου τότε ο κάθε πελάτης ατομικά σχετίζεται με ένα αντιπροσωπευτικό προφίλ φορτίου (αντιπροσωπευτική χρονολογική καμπύλη, representative chronological load curve). Χρησιμοποιούνται διαφορετικά κριτήρια για να δημιουργηθούν αυτά τα προφίλ, αλλά η προϋπόθεση είναι πάντα να έχουν γίνει μετρήσεις φορτίου σε ένα προγενέστερο στάδιο. Το profiling επιτρέπει σε έναν προμηθευτή ηλεκτρισμού να υπολογίζει την κατανάλωση ηλεκτρισμού για κάθε περίοδο τιμολόγησης στην αγορά (συνήθως 30-λεπτα ή ωριαία χρονικά διαστήματα, και σε κάποιες περιπτώσεις 15λεπτα) από τους πελάτες του, οι οποίοι δεν έχουν εγκατεστημένο ένα μετρητή διακριτού χρονικού διαστήματος. Η συσχέτιση της συνολικής κατανάλωσης, η οποία μετράται με τους συμβατικούς μετρητές, σε ένα προφίλ φορτίου επιτρέπει την κατανάλωση του πελάτη να διαχωριστεί σε διακριτά χρονικά διαστήματα. Επομένως αυτή η προσέγγιση αποφεύγει τα έξοδα αντικατάστασης των υπαρχόντων μετρητών με μετρητές διακριτού χρονικού διαστήματος, ενώ παράλληλα δημιουργεί τα απαραίτητα δεδομένα για να γίνει ο η εκκαθάριση της χονδρικής πώλησης για κάθε χρονικό διάστημα. Στην ιδανική περίπτωση όλοι οι πελάτες σε μία απελευθερωμένη αγορά ηλεκτρικής ενέργειας έχουν μετρητές χρονικού διαστήματος. Αυτό θα εξασφάλιζε την ακριβή χρέωση των καταναλωτών με ακρίβεια. Επιπλέον θα περιόριζε τα ρίσκα των προμηθευτών της εκτίμησης των προφίλ φορτίου. Επιπλέον, αξίζει να σημειωθεί ότι πέραν του κόστους εγκατάστασης και λειτουργίας των έξυπνων μετρητών (smart meters), είναι παρόντα διάφορα ζητήματα, όπως: ποιος χρεώνεται το κόστος του μετρητή; τι συμβαίνει στη 17

24 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών περίπτωση αλλαγής προμηθευτή; ποιες είναι επιλογές μέτρησης για καταναλωτές με ιδιάζουσα πρότυπα κατανάλωσης; ποια η συχνότητα επεξεργασίας των δεδομένων καταγραφής φορτίου; ποιες οι επιλογές για τη περικοπή ή τη μετάθεση φορτίου; πως γίνεται η διαχείριση του φορτίου (load management); είναι οι καταναλωτές ενήμεροι για τις προοπτικές που υπάρχουν για την ενεργό συμμετοχή τους στην αγορά και εάν ναι, είναι διατεθειμένοι να το πράξουν; κ.α. Αν και η πολιτική της χρήσης έξυπνων μετρητών φαντάζει ιδανική, το κόστος εγκατάστασης και χρήσης αποτελεί ένα εμπόδιο για μεγάλη μερίδα καταναλωτών. Έτσι το load profiling είναι μία ελκυστική εναλλακτική, τουλάχιστον στην παρούσα κατάσταση. Υπάρχουν δύο γενικά μοντέλα για την δημιουργία των καμπυλών φορτίου: το μοντέλο με βάση την περιοχή (Αrea ή Regional model) και το μοντέλο με βάση την κατηγορία (Category ή Consumer-Grοup-Related model). Και τα δύο μοντέλα παρουσιάζουν πλεονεκτήματα όπως και μειονεκτήματα. Στο μοντέλο με βάση την περιοχή, μεγάλου ή μεσαίου μεγέθους καταναλωτές κατέχουν μετρητές διακριτού χρονικού διαστήματος. Η ισχύς που καταναλώνεται όπως και οι απώλειες που σχετίζονται με αυτούς τους καταναλωτές αφαιρούνται από τη συνολική κατανάλωση ενέργειας της υπό εξέτασης περιοχής. Το αποτέλεσμα, που είναι η διαφορά που υπολογίζεται για κάθε διακριτό χρονικό διάστημα, θεωρείται ότι απεικονίζει την κατανάλωση όλων αυτών των καταναλωτών που δεν κατέχουν μετρητές και βρίσκονται την ίδια περιοχή. Επομένως το μέσο προφίλ μπορεί να θεωρηθεί ως το προφίλ φορτίου για όλους τους χρήστες που δεν μετρήθηκαν ανά διακριτά χρονικά διαστήματα μέσα στη γεωγραφική περιοχή που καλύπτεται από το δίκτυο. Το μοντέλο με βάση την κατηγορία ορίζει το φορτίο ενός καταναλωτή λαμβάνοντας υπόψη το μέσο φορτίο της ομάδας στην οποία ανήκει. Υπάρχουν διαφορετικά κριτήρια για να διαμορφωθεί το προφίλ της ομάδας. Ανάλογα με το είδος των δεδομένων κατανάλωσης, υπάρχουν δύο κυρίως μέθοδοι profiling: Τα Στατικά Προφίλ (Static Profiles), τα οποία εξάγονται από υπάρχοντα, ιστορικά δεδομένα. Αν τα δεδομένα κατανάλωσης για κάθε εξεταζόμενο χρονικό διάστημα έχουν συλλεχθεί από ένα σχετικά μεγάλο δείγμα πελατών και για διάστημα άνω του ενός έτους, τότε είναι εφικτό να δημιουργηθεί από αυτά τα δεδομένα ένα προφίλ για τις κλάσεις των καταναλωτών. Το προφίλ μπορεί επίσης να τροποποιηθεί να λαμβάνει υπόψη παράγοντες που επηρεάζουν την κατανάλωση και οι οποίοι μπορούν να ποικίλουν από μέρα σε μέρα, όπως και από χρόνο σε χρόνο (μεταβολές του καιρού, περίοδοι διακοπών, κτλ.). Τα Δυναμικά Προφίλ (Dynamic Profiles), τα οποία προέρχονται από τρέχοντα δεδομένα ενός δείγματος καταναλωτών. Τα δεδομένα κατανάλωσης για κάθε εξεταζόμενο χρονικό διάστημα του δείγματος μετρώνται συνεχώς και τα δεδομένα που προκύπτουν αναλύονται ώστε να εξαχθούν μέσα ημερήσια 18

25 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών προφίλ φορτίου. Δεν υπάρχει η ανάγκη για διόρθωση του προφίλ λαμβάνοντας υπόψη καιρικά και εποχιακά φαινόμενα. Τα πλεονεκτήματα και τα μειονεκτήματα των δύο παραπάνω μοντέλων συνοψίζονται στον Πίνακα 1. Πίνακας 1: Πλεονεκτήματα και μειονεκτήματα των 2 μοντέλων [5] Πλεονεκτήματα Μοντέλο με βάση την περιοχή Άμεση εφαρμογή σε περιπτώσεις όπου δεν είναι διαθέσιμα αντιπροσωπευτικά δεδομένα για τη δημιουργία του προφίλ φορτίου. Οικονομικότερο και λιγότερο σύνθετο (μόνο ένα προφίλ καταναλωτή για κάθε περιοχή δικτύου). Απλούστερη διαχείριση και απαίτηση λιγότερης υποστήριξης σε εξοπλισμό. Ικανότητα εύκολης δημιουργίας δυναμικών προφίλ. Μοντέλο με βάση την κατηγορία Δυνατότητα εξαγωγής πολλών κλάσεων ημερών φορτίου και καταναλωτών. Αυξημένη ακρίβεια στην εξαγωγή αντιπροσωπευτικών κλάσεων. Ανάθεση προφίλ για κάθε καταναλωτή. Μειονεκτήματα Τακτική ανανέωση του προφίλ εξαιτίας τοπικών μεταβολών της ζήτησης και της χρέωσης των καταναλωτών. Μεγάλη διαφοροποίηση ανάμεσα στους καταναλωτές οδηγούν σε μη δίκαια τιμολόγηση ανάμεσα στους καταναλωτές (cross-subsiding). Απαραίτητη ύπαρξη μετρητικών διατάξεων. Υψηλό κόστος και αυξημένος υπολογιστικός χρόνος. Δυσκολία επιλογής ενός αντιπροσωπευτικού δείγματος πελατών. Αν υπάρχει μεγάλη ποικιλότητα στα πρότυπα κατανάλωσης, τότε είναι απαραίτητη μεγάλου αντιπροσωπευτικού δείγματος όπως επίσης και μεγαλύτερου αριθμού παραγόμενων κλάσεων. Οι παράγοντες που καθορίζουν τον αριθμό των κατηγοριών των πελατών είναι: 19

26 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών Το μέγεθος της διαφοροποίησης της κατανάλωσης μέσα στην ίδια κατηγορία των καταναλωτών. Το μέγεθος της διαφοροποίησης των τιμών της χονδρεμπορικής αγοράς. Το μέγεθος της διαφοροποίησης της κατανάλωσης που είναι ανεκτό για τις διάφορες οντότητες της αγοράς (προμηθευτές, παραγωγούς, ρυθμιστικές αρχές, κτλ.). Εάν το επιπρόσθετα κόστος και η υπολογιστική πολυπλοκότητα που προκύπτουν από τη χρήση πολλών κατηγοριών πελατών είναι αποδεκτά. Η αύξηση του αριθμού των κλάσεων συνεπάγει και την ακρίβεια της συσταδοποίησης. Η αύξηση του αριθμού οδηγεί στη σχετική δυσκολία της εκκαθάρισης (settlement process). Έτσι πρέπει να υπάρχει μια ισορροπία μεταξύ της ακρίβειας και του αριθμού των προφίλ που πρέπει να δημιουργηθούν, σύμφωνα με τις συγκεκριμένες συνθήκες των συστημάτων και τις εξεταζόμενες αγορές. Ακόμα έχει προστεθεί η ανάγκη και το κόστος για τακτική επιθεώρηση της ακρίβειας του προφίλ φορτίου του δείγματος, προκειμένου να ελεγχθεί αν είναι συνεχώς αντιπροσωπευτικό [5-6]. 1.6 Μέθοδοι διαμόρφωσης τυπικών χρονολογικών καμπυλών Το load profiling αναφέρεται στην ανάπτυξη κάποιων εκτιμώμενων μορφών φορτίου για μεμονωμένες ομάδες πελατών, οι οποίες μπορούν να χρησιμοποιηθούν από τους προμηθευτές για αποδοτικότερη τιμολογιακή στρατηγική. Επίσης, παρέχει πλεονεκτήματα σε θέματα πρόβλεψης φορτίου ανά κλάση καταναλωτών αλλά και ανά χρονικών περιόδων κατανάλωσης. Συν τοις άλλοις μπορούν να αξιολογηθούν πολιτικές διαχείρισης της ζήτησης. Σήμερα το load profiling έχει αναδειχθεί ως μια από τις πιο κατάλληλες μεθόδους περιγραφής της αποτελεσματικής μορφής των διαγραμμάτων φορτίου των πελατών. Ο στόχος είναι να ομαδοποιηθούν οι πελάτες με παρόμοια προφίλ φορτίου σε συναφείς συστάδες. [7]. Η εξαγωγή των τυπικών χρονολογικών καμπυλών μπορεί να λάβει χώρα μέσω 2 προσεγγίσεων: μέσω συστημάτων δειγματοληψίας (load survey systems) και μέσω αλγορίθμων αναγνώρισης προτύπων. Τα συστήματα δειγματοληψίας κάνουν χρήση στατιστικής ανάλυσης για τη συλλογή αξιόπιστων δεδομένων ώστε να εξαχθούν οι τυπικές καμπύλες των κατηγοριών καταναλωτών. Επειδή σε πολλές περιπτώσεις, ο αριθμός 20

27 Κεφάλαιο 1 ο Βασικές έννοιες στη διαμόρφωση των τυπικών χρονολογικών καμπυλών καταναλωτών είναι μεγάλος, εφαρμόζεται δειγματοληψία για το καθορισμό του αριθμού των καταναλωτών για την εγκατάσταση μετρητικών διατάξεων (metering). Στο [8] ένας αριθμός καταναλωτών διακρίνεται αρχικά σε 6 κατηγορίες βάσει των τιμολογίων τους. Για κάθε κατηγορία επιλέγονται δειγματοληπτικά κάποιοι καταναλωτές για την εγκατάσταση μετρητικών διατάξεων. Για κάθε κατηγορία καταναλωτών σχεδιάζεται ένα ερωτηματολόγιο για τον καθορισμό των ηλεκτρικών συσκευών που συμβάλλουν περισσότερο στη κατανάλωση τους. Από τις 6 κατηγορίες επιλέγονται συνολικά 400 καταναλωτές. Από το συνδυασμό του ερωτηματολογίου και του μετρητή καθορίζεται το load profile κάθε μία εκ των 6 κατηγοριών. Στο [9] εφαρμόζεται η μεθοδολογία του [8]. Οι κατηγορίες των καταναλωτών είναι 9, όσα και τα διαφορετικά τιμολόγια. Προτείνεται μέθοδος τιμολόγησης βάσει της συνεισφοράς της κάθε κατηγορίας στη συνολική ζήτηση. Παρόμοιες μεθοδολογίες αναπτύσσονται και στα [10]-[15]. Οι μέθοδοι της αναγνώρισης προτύπων είναι μία δημοφιλής προσέγγιση στην μη επιβλεπόμενη κατηγοριοποίηση, στην οποία το πρότυπο ανατίθεται σε μια άγνωστη κλάση. Έχουν προταθεί διάφοροι αλγόριθμοι συσταδοποίησης, οι οποίοι είναι οι εξής: Κ-μέσων (K-means), Ασαφής C-μέσων, Ακολουθώντας τον Ηγέτη» (Follow the leader), ο Αυτό-Οργανωμένος Χάρτης (Self Organized Map), Ιεραρχικοί Αλγόριθμοι Συγχώνευσης (Hierarchical Agglomerative Αlgorithms), Εκπαιδευόμενος Διανυσματικός Κβαντιστής (Learning Vector Quantization), ISODATA, Βελτιστοποίηση Honey Bee Mating, Renyi Entropy, Πιθανοκρατικό Νευρωνικό Δίκτυο (Probabilistic Neural Network) και Νευρωνικό Δίκτυο Hopfield [16-64]. H διαμόρφωση των τυπικών χρονολογικών καμπυλών βρίσκει εφαρμογή στη πρόβλεψη φορτίου [65-71], στη δημιουργία χρονικά αμετάβλητων [72-74] και χρονικά μεταβαλλόμενων τιμολογίων [75-76] και σε διάφορα θέματα διανομής της ηλεκτρικής ενέργειας [77-79]. 21

28 Κεφάλαιο 2 ο Μαθηματική ανάλυση αλγορίθμων συσταδοποίησης και δείκτες αξιολόγησης 22

29 Κεφάλαιο 2 ο Μαθηματική ανάλυση αλγορίθμων συσταδοποίησης και δείκτες αξιολόγησης 2.1 Ο αλγόριθμος K-means Ο αλγόριθμος Κ-μέσων (K-means) είναι ένας από τους πιο γνωστούς και διαδεδομένους αλγορίθμους συσταδοποίησης. Ο Κ-means αναζητά μια βέλτιστη ομαδοποίηση των δεδομένων ελαχιστοποιώντας το κριτήριο του αθροίσματος του τετραγωνικού σφάλματος με μία επαναληπτική διαδικασία βελτιστοποίησης. Η βασική διαδικασία του K-means συνοψίζεται παρακάτω: 1. Αρχικοποίηση ενός Κ-διαχωρισμού (όπου Κ είναι ο αριθμός των κέντρων/συστάδων) με τυχαίο τρόπο ή βάσει κάποιας προηγούμενης γνώσης. Υπολογισμός του πρωτότυπου πίνακα των κέντρων: M = [ m m ] 1,... K 2. Εκχώρηση του κάθε αντικειμένου του σύνολο δεδομένων στην κοντινότερη συστάδα C l, δηλαδή: x C, if x m < x m j l j l j i for j= 1,... N, i l, and i= 1,..., K (2.1) 3. Εκ νέου υπολογισμός του πρωτότυπου πίνακα των κέντρων βάσει της καινούριας συσταδοποίησης, m i = 1 x j N (2.2) i x C j i 4. Επανάληψη των βημάτων 2 και 3 μέχρις ότου δεν υπάρχει αλλαγές σε κάθε συστάδα. Ο αλγόριθμος που περιγράφεται παραπάνω χρησιμοποιεί batch mode εκπαίδευση, δηλαδή η ανανέωση των κέντρων γίνεται αφού έχουν επεξεργαστεί όλα τα δεδομένα εισόδου και όχι μετά από την παρουσίαση κάθε δεδομένου ξεχωριστά ( pattern mode ). Στη τελευταία περίπτωση τα κέντρα της συστάδας διαμορφώνονται ως, όπου η είναι ο βαθμός εκπαίδευσης μάθησης. ( ) m new = m old + η x m old (2.3) 2.2 Ιεραρχικοί αλγόριθμοι Γενικά, οι τεχνικές συσταδοποίσης χωρίζονται σε διαιρετική και ιεραρχική ομαδοποίηση με βάση τις ιδιότητες των παραγόμενων συστάδων. Στη 23

30 Κεφάλαιο 2 ο Μαθηματική ανάλυση αλγορίθμων συσταδοποίησης και δείκτες αξιολόγησης διαιρετική ομαδοποίηση τα δεδομένα διαιρούνται αμέσως σε ένα συγκεκριμένο αριθμό συστάδων χωρίς ιεραρχική δομή, ενώ στην ιεραρχική ομαδοποίηση τα δεδομένα ομαδοποιούνται με μία σειρά από ένθετους διαχωρισμούς, είτε από μεμονωμένες συστάδες προς μία συστάδα που περιλαμβάνει όλα τα άλλα, είτε το αντίστροφο. Η πρώτη διαδικασία ονομάζεται ιεραρχική ομαδοποίηση συγχώνευσης (agglomerative hierarchical clustering) και η δεύτερη ιεραρχική ομαδοποίηση διαίρεσης (divisive hierarchical clustering). Τόσο η μέθοδος της συγχώνευσης όσο και της διαίρεσης οργανώνουν τα δεδομένα με ιεραρχική δομή που βασίζεται σε ένα πίνακα εγγύτητας. Τα αποτελέσματα της ιεραρχικής συσταδοποίησης απεικονίζονται συνήθως με ένα δυαδικό δέντρο ή δενδρόγραμμα, όπως φαίνεται στο Σχήμα 2.1. Ο κόμβος-ρίζα του δενδρογράμματος αναπαριστά ολόκληρο το σύνολο των δεδομένων και κάθε κόμβος-φύλλο θεωρείται ως ένα δεδομένο. Οι ενδιάμεσοι κόμβοι, έτσι, περιγράφουν το βαθμό στον οποίο τα δεδομένα είναι κοντά μεταξύ τους, και το ύψος του δενδρογράμματος συνήθως εκφράζει την απόσταση μεταξύ δύο δεδομένων ή συστάδων ή μεταξύ ενός δεδομένου και μίας συστάδας. Τα τελικά αποτελέσματα της συσταδοποίησης μπορούν να αποκτηθούν κόβοντας το δενδρόγραμμα σε διαφορετικά επίπεδα (η διακεκομμένη γραμμή του Σχήματος). Αυτή η αναπαράσταση παρέχει μια πληροφοριακή περιγραφή και μια οπτικοποίηση των ενδεχόμενων δομών ομαδοποίησης δεδομένων, ειδικά όταν υπάρχουν πραγματικές ιεραρχικές σχέσεις στα δεδομένα. Οι μέθοδοι διαίρεσης, συγκριτικά με τις μεθόδους συγχώνευσης, πρέπει να 1 θεωρήσουν 2 N 1 πιθανές διαιρέσεις δύο υποσυνόλων για μία συστάδα με Ν δεδομένα, γεγονός το οποίο είναι υπολογιστικά δαπανηρό. Έτσι οι μέθοδοι συγχώνευσης είναι περισσότερο διαδεδομένοι και η επόμενη ενότητα επικεντρώνεται στην ανάλυσή τους. Σχήμα 2.1: Παράδειγμα ενός δενδρογράμματος. Η κατεύθυνση της ιεραρχικής ομαδοποίησης διαίρεσης είναι αντίθετη από αυτήν της ιεραρχικής ομαδοποίησης συγχώνευσης. Αν κοπεί το δενδρόγραμμα στο κατάλληλο επίπεδο προκύπτουν δύο clusters [1] 24

31 Κεφάλαιο 2 ο Μαθηματική ανάλυση αλγορίθμων συσταδοποίησης και δείκτες αξιολόγησης 2.3 Ιεραρχική ομαδοποίηση συγχώνευσης (agglomerative hierarchical clustering) Γενική ιεραρχική συσταδοποίησης συγχώνευσης Η συσταδοποίηση συγχώνευσης ξεκινά με Ν clusters, καθένα από τα οποία περιέχει ακριβώς ένα δεδομένο. Ακολουθεί μια σειρά από λειτουργίες συγχώνευσης που τελικά αναγκάζει όλα τα δεδομένα να μπουν στην ίδια ομάδα. Η γενική συσταδοποίηση συγχώνευσης μπορεί να συνοψισθεί μέσω της ακόλουθης διαδικασίας, η οποία παρουσιάζεται στο Σχήμα 2.2: Σχήμα 2.2: Διάγραμμα ροής του ιεραρχικού αλγόριθμου συσταδοποίησης συγχώνευσης. Η συσταδοποίηση συγχώνευσης θεωρεί στην αρχή το κάθε δεδομένο ως μία ομάδα. Δύο ομάδες συγχωνεύονται στη συνέχεια σε μία σε κάθε βήμα μέχρις ότου όλα τα αντικείμενα να ανήκουν στην ίδια ομάδα. 25

32 Κεφάλαιο 2 ο Μαθηματική ανάλυση αλγορίθμων συσταδοποίησης και δείκτες αξιολόγησης 1. Έναρξη με Ν μεμονωμένες συστάδες. Υπολογισμός του πίνακα εγγύτητας (συνήθως βάσει της συνάρτησης απόστασης) για τις Ν συστάδες. 2. Αναζήτηση στον πίνακα εγγύτητας της μικρότερης απόστασης min D( Ci, C j ) = D( Cm, Cl ) 1 m, l N m l (2.4) όπου D(.,.) η συνάρτηση απόστασης που αναφέρθηκε προηγουμένως, και συνδυασμός της συστάδας C i και C j για να σχηματιστεί μια νέα συστάδα C ij. 3. Ενημέρωση του πίνακα εγγύτητας υπολογίζοντας τις αποστάσεις μεταξύ της συστάδας C ij και των άλλων συστάδων. 4. Επανάληψη των βημάτων 2 και 3 μέχρις ότου να παραμείνει μία μόνο συστάδα Ομαδοποίηση σύνδεσης (Clustering Linkage) Προφανώς η συγχώνευση ενός ζεύγους συστάδων ή ο σχηματισμός μίας νέας συστάδας εξαρτάται από τον ορισμό της συνάρτησης απόστασης μεταξύ δύο συστάδων. Υπάρχει ένας μεγάλος αριθμός ορισμών της απόστασης μεταξύ της συστάδας C l και της νέας συστάδας C ij, που σχηματίζεται από την συγχώνευση των δύο συστάδων C i και C j, ο οποίος γενικεύεται με τον τύπο επανάληψης, ( l,( i, j) ) = i ( l, i) + j ( l, j) + β ( i, j) + γ ( l, i) ( l, j) D C C C a D C C a D C C D C C D C C D C C (2.5) όπου D(.,.) είναι η συνάρτηση απόστασης και a i, a j, β και γ είναι συντελεστές με τιμές που εξαρτώνται από τη μέθοδο που χρησιμοποιούνται. Οι τιμές των παραμέτρων για τους συνήθεις αλγορίθμους παρουσιάζονται στον Πίνακα 2. 26

33 Κεφάλαιο 2 ο Μαθηματική ανάλυση αλγορίθμων συσταδοποίησης και δείκτες αξιολόγησης Πίνακας 2: Διάφορες τιμές των συντελεστών a i, a j, β και γ. Τα n i, n j και nl είναι ο αριθμός των δεδομένων στις συστάδες C i, C jκαι C l, αντίστοιχα. Αλγόριθμος a i a j β γ Μονής σύνδεσης 1/2 1/2 0-1/2 Πλήρης σύνδεση 1/2 1/2 0 1/2 Σύνδεση μέσου όρου (UPGMA) ni n + n i j n i n j + n j 0 0 Σύνδεση σταθμισμένου μέσου όρου (WPGMA) 1/2 1/2 0 0 Σύνδεση διαμέσου (WPGMC) 1/2 1/2-1/4 0 Κεντροειδής μέθοδος (UPGMC) ni n + n i j n n j in j n + n ( n + n ) 2 i j i j 0 Μέθοδος Ward ni + nl n + n + n i j l n j + n n + n + n i j l l nl n + n + n i j l 0 U: μη σταθμισμένη(unweighted), W: σταθμισμένη(weighted), PGM: μέθοδος συστάδας ζευγαριού (pair group method), A: μέσος όρος (average), C: κεντροειδής (centroid) Ο αλγόριθμος μονής σύνδεσης (single linkage algorithm) Για την μονή σύνδεση, η απόσταση μεταξύ δύο συστάδων, εκ των οποίων η μία προκύπτει από τη συγχώνευση δύο άλλων, καθορίζεται από τα δύο πλησιέστερα αντικείμενα των αρχικών συστάδων που συγχωνεύονται. Έτσι η συσταδοποίηση μονής σύνδεσης ονομάζεται επίσης και μέθοδος του πλησιέστερου γείτονα (the nearest neighbor method). Σύμφωνα με τις παραμέτρους του πίνακα, έχουμε ( l,( i, j) ) min ( l, i), ( l, j) ( ) D C C C = D C C D C C (2.6) Επομένως, η απόσταση μεταξύ της νέας συστάδας και της παλαιάς εξαρτάται από την ελάχιστη απόσταση των (, ) D Cl C i και D( Cl, C j). Η συσταδοποίηση μονής σύνδεσης έχει την τάση να παράγει επιμήκεις συστάδες. Σαν αποτέλεσμα αυτού, δύο συστάδες με αρκετά διαφορετικές ιδιότητες μπορεί να συνδέονται εξαιτίας της ύπαρξης θορύβου. 27

34 Κεφάλαιο 2 ο Μαθηματική ανάλυση αλγορίθμων συσταδοποίησης και δείκτες αξιολόγησης Ο αλγόριθμος πλήρους σύνδεσης (complete linkage algorithm) Σε αντίθεση με τον προηγούμενο αλγόριθμο, η μέθοδος πλήρους σύνδεσης χρησιμοποιεί τη μεγαλύτερη απόσταση δύο αντικειμένων των αρχικών συστάδων, για να ορίσει την απόσταση μεταξύ μίας συστάδας και της νέας που προκύπτει από συγχώνευση. Σ αυτήν την περίπτωση είναι: ( l,( i, j) ) max ( l, i), ( l, j) ( ) D C C C = D C C D C C (2.7) Ο αλγόριθμος είναι αποτελεσματικός όταν πρόκειται για μικρές και συμπαγείς συστάδες. Ο αλγόριθμος σύνδεσης μέσου όρου συστ αδας (group average linkage) ή αλλιώς μη σταθμισμένου μέσου όρου συστάδας ζευγαριού (UPGMA) Η απόσταση μεταξύ δύο συστάδων ορίζεται ως ο μέσος όρος των αποστάσεων όλων των σημείων-ζευγαριών από τις δύο αρχικές συστάδες. Είναι 1 ( l,( i, j) ) ( l, i) ( l, j) ( ) D C C C = D C C + D C C (2.8) 2 Η απόσταση μεταξύ της νέας συστάδας και της παλαιάς είναι ο μέσος όρος των αποστάσεων των (, ) D Cl C i και ( l, j) D C C. Ο αλγόριθμος σύνδεσης σταθμισμένου μέσου όρου (weighted average linkage) ή αλλιώς σταθμισμένου μέσου όρου συστάδαςζευγαριού (WPGMA) Όπως και στον προηγούμενο αλγόριθμο, η σύνδεση μέσου όρου χρησιμοποιείται για να υπολογιστεί η απόσταση μεταξύ δύο συστάδων. Η διαφορά είναι ότι η αποστάσεις μεταξύ της νέας συστάδας που δημιουργήθηκε και των υπολοίπων σταθμίζονται βάσει του πληθυσμού των σημείων κάθε συστάδας που συγχωνεύεται. Σ αυτήν την περίπτωση είναι n D C C C D C C D C C n + n n + n ni (,(, )) (, ) j l i j = l i + ( l, j) i j i j (2.9) 28

35 Κεφάλαιο 2 ο Μαθηματική ανάλυση αλγορίθμων συσταδοποίησης και δείκτες αξιολόγησης Ο αλγόριθμος κεντροειδούς σύνδεσης (centroid linkage algorithm) ή αλλιώς μη σταθμισμένης κεντροειδούς μορφής συστάδας ζευγαριού (UPGMC) Δύο συστάδες συγχωνεύονται βάσει της απόστασης των κέντρων (μέσων όρων) τους, που ορίζεται ως: m i 1 = x (2.10) n i x Ci όπου niείναι ο αριθμός των σημείων που ανήκουν στην συστάδα. Έχουμε n n n n i D( C,( C, C )) = D( C, C ) + D( C, C ) D C, C n + n n + n n + n ( i j) ( ) j i j l i j l i l j 2 i j i j i j (2.11) Ο ορισμός είναι ισοδύναμος με τον υπολογισμό της τετραγωνικής Ευκλείδειας απόστασης μεταξύ των κέντρων δύο ομάδων, (,(, )) D C C C = m m (2.12) l i j l ij 2 Ο αλγόριθμος σύνδεσης διαμέσου (median linkage algorithm) ή αλλιώς σταθμισμένης κεντροειδούς μορφής συστάδας ζευγαριού (WPGMC) Η σύνδεση διαμέσου είναι παρόμοια με την κεντροειδή σύνδεση, αν εξαιρέσουμε το γεγονός ότι δίνεται ίσο βάρος στις συστάδες που συγχωνεύονται. Είναι (, (, 1 )) (, 1 1 ) (, ) (, l i j l i l j i j) D C C C = D C C + D C C D C C (2.13) Πρόκειται για μια ειδική περίπτωση όπου ο αριθμός των σημειακών δεδομένων στις δύο συστάδες που συγχωνεύονται είναι ο ίδιος. Η μέθοδος Ward ή αλλιώς μέθοδος ελάχιστης διασποράς (minimum variance method) Το αντικείμενο της μεθόδου είναι να ελαχιστοποιήσει την αύξηση του αθροίσματος των τετραγωνικών σφαλμάτων μέσα στην συστάδα, 29

36 Κεφάλαιο 2 ο Μαθηματική ανάλυση αλγορίθμων συσταδοποίησης και δείκτες αξιολόγησης K 2 i k (2.14) k= 1 x i C k E = x m όπου Κ είναι ο αριθμός των συστάδων ομάδων και mkείναι το κέντρο της συστάδας C k (όπως ορίζεται στον αλγόριθμο κεντροειδούς σύνδεσης), που οφείλεται στην συγχώνευση δύο συστάδων Αυτή η διαφορά υπολογίζεται μόνο σε σχέση με τη νέα συστάδα ομάδα και τις δύο συστάδες που συγχωνεύονται και μπορεί να παρασταθεί ως: n n E = m m i j ij i j ni + n j 2 (2.15) Είναι n n n + n n D C, C, C = D C, C + D C, C D C, C + j l ( ( )) ( ) ( ) ( ) i l l l i j l i l j 2 i j ni + n j + nl ni + n j + nl ( ni + nl) (2.16) Η απλή σύνδεση, η πλήρης και η σύνδεση μέσου όρου θεωρούν όλα τα σημεία δύο συστάδων ομάδων όταν υπολογίζουν την ενδό-απόσταση της συστάδας και ονομάζονται επίσης και γραφικές μέθοδοι. ΟΙ υπόλοιπες μέθοδοι ονομάζονται γεωμετρικές, επειδή χρησιμοποιούν γεωμετρικά κέντρα για την αντιπροσώπευση των συστάδων και τον καθορισμό των αποστάσεών τους. 2.4 Δείκτες αξιολόγησης της συσταδοποίησης Προκειμένου να αποτιμηθεί η απόδοση των αλγορίθμων και να γίνει σύγκριση μεταξύ τους, έχουν αναπτυχθεί έξι διαφορετικά μέτρα καταλληλότητας. Η ιδέα είναι να επιτυγχάνονται εύκολα διαχωρίσιμες και συμπαγείς συστάδες, χάριν στα οποία αναγνωρίζονται επιτυχώς τα τυπικά προφίλ φορτίου. Ο αριθμός των διανυσμάτων εισόδου που είναι προς ομαδοποίηση ορίζεται ως Ν. Το διάνυσμα X ( x, x,..., x,..., x ) = συμβολίζει την ith καμπύλη φορτίου και i i1 i2 il it T είναι η περίοδός του όπου l = 1,..., T. Τα αντίστοιχο σύνολο δεδομένων των καμπυλών δίνεται από το X { X i,..., X N} = όπου i= 1,..., N. Οι αρχικές Ν καμπύλες φορτίου χωρίζονται σε Μ συστάδες. Το jth cluster έχει ένα αντιπροσωπευτικό διάνυσμα, που είναι το αντίστοιχο προφίλ φορτίου και παριστάνεται από το διάνυσμα C j ( C j1, C j 2,..., C jl,..., C jt) = με περίοδο Τ. Το διάνυσμα αυτό εκφράζει το κέντρο του της συστάδας (centroid). Το υποσύνολο 30

37 Κεφάλαιο 2 ο Μαθηματική ανάλυση αλγορίθμων συσταδοποίησης και δείκτες αξιολόγησης των διανυσμάτων εισόδου X i που ανήκουν στο jth cluster είναι το S jκαι ο αντίστοιχος πληθυσμός των καμπυλών φορτίου είναι N j. Συνοψίζοντας, έχουμε - X, σύνολο δεδομένων που περιέχει X i καμπύλες φορτίου. Έτσι: ( i,..., N) X = X X - N, αριθμός των καμπυλών φορτίου υπό συσταδοποίηση - M, αριθμός των συστάδων - S j, υποσύνολο του X (ή συστάδα) - C j, κέντρο της συστάδας S j - N j, πληθυσμός της συστάδας S j - T, περίοδος. Για ωριαίες μετρήσεις είναι T = 24. Για την αξιολόγηση των αλγορίθμων έχουν οριστεί οι ακόλουθες μορφές αποστάσεων α) και β): α) Η απόσταση μεταξύ του κέντρου C j της jth συστάδας και του υποσυνόλου S j, υπολογίζεται ως ο γεωμετρικός μέσος της Ευκλείδειας απόστασης d( C j, X l) μεταξύ του C j και κάθε μέλους του S που ορίζεται ως X l : j ( j, S j) d C = N j i= 1 (, ) X S Ευκλειδεια αποσταση C X 2 l j j l N j (2.18) β) Η μέση απόσταση ενός συνόλου που ορίζεται ως ο γεωμετρικός μέσος των εσωτερικών αποστάσεων μεταξύ των μελών ενός συνόλου, δηλαδή για το υποσύνολο S j: 1 2 ( j) = l j Ευκλειδεια α ποστα ση ( l, k) d S X S X X (2.19) 2 N j Οι δείκτες αξιολόγησης ορίζονται παρακάτω: 1. Μέσο τετραγωνικό σφάλμα ή συνάρτηση σφάλματος (J) Εκφράζει την απόσταση του κάθε διανύσματος από το κέντρο της συστάδας στην οποία ανήκει. ( l, X S k) 1 (2.20) l k N N 2 J = Ευκλειδεια αποσταση X C k= 1 31

38 Κεφάλαιο 2 ο Μαθηματική ανάλυση αλγορίθμων συσταδοποίησης και δείκτες αξιολόγησης 2. Μέσος δείκτης καταλληλότητας Mean Index Adequacy-MIA) Είναι ο μέσος όρος των αποστάσεων μεταξύ κάθε διανύσματος εισόδου που ανήκει στη συστάδα και του κέντρου του., ( j, j) 1 = (2.21) M MIA M 2 d C j = 1 S 3. Δείκτης διασποράς ομαδοποίησης (Clustering Dispersion Indicator-CDI) Πληροφορεί για το πόσο συμπαγείς είναι οι συστάδες, λαμβάνοντας υπ` όψιν το λόγο του αθροίσματος των μέσων αποστάσεων των μελών της κάθε συστάδας μεταξύ τους προς τις ενδο-αποστάσεις των αντιπροσωπευτικών κέντρων των συστάδων, CDI = M 1 2 d M k= 1 IMD( x) ( S ) k (2.22) 4. Δείκτης του πίνακα ομοιότητας (Similarity Matrix Indicator-SMI) Είναι το μέγιστο μη διαγώνιο στοιχείο του συμμετρικού πίνακα ομοιότητας, του οποίου οι όροι υπολογίζονται από τη λογαριθμική συνάρτηση της Ευκλείδειας απόστασης μεταξύ οποιουδήποτε ζεύγους αντιπροσωπευτικών διαγραμμάτων καμπυλών φορτίου. SMI = max > 1 1/ l n Ευκλειδεια αποσταση C, C ( ) p q p q όπου p, q= 1,..., M (2.23) 1, 5. Δείκτης Davies - Bouldin (Davies-Bouldin Indicator-DBI) Αναπαριστά μία μέση ένδειξη των μέτρων ομοιότητας της κάθε αντιπροσωπευτικής συστάδας με την πιο όμοια συστάδα του όλου δείγματος. M 1 IMD( S p) + IMD( Sq) DBI = max p q, M k= 1 Ευκλειδεια αποσταση ( Cp, Cq) όπου p, q= 1,..., M (2.24) 32

39 Κεφάλαιο 2 ο Μαθηματική ανάλυση αλγορίθμων συσταδοποίησης και δείκτες αξιολόγησης 6. Δείκτης του λόγου του αθροίσματος των τετραγώνων των αποστάσεων κάθε διανύσματος εισόδου από το κέντρο της συστάδας που ανήκει προς τη διασπορά μεταξύ των κέντρων των συστάδων (Ratio of within cluster sum of squares to between cluster variation-wcbcrwcbcr) WCBCR = M p, q= 1, p q M k= 1 CMD 2 ( S ) Ευκλειδεια αποσταση k ( Cp, Cq) (2.25) Η επιτυχία των διαφορετικών αλγορίθμων για τον ίδιο τελικό αριθμό συστάδων εκφράζεται με μικρές τιμές των δεικτών αξιολόγησης. Με την αύξηση του αριθμού των συστάδων όλοι οι δείκτες μειώνονται, εκτός από τον δείκτη του πίνακα ομοιότητας (SMI), ο οποίος αυξάνεται. Οι παραπάνω δείκτες είναι αυτοί που έχουν προταθεί στη βιβλιογραφία στο πρόβλημα της διαμόρφωσης των τυπικών καμπυλών φορτίου. Στη διπλωματική εργασία εισάγονται 2 νέοι δείκτες και οι οποίοι περιγράφονται παρακάτω. Έστω ότι δίνεται ένας πίνακας δεδομένων Χ διαστάσεων (mxn), ο οποίος αντιμετωπίζεται ως m (1Xn) διανύσματα γραμμές x1,x2,,xm, και θεωρούμε ότι παριστάνει μία ομάδα-συστάδα. Αν θεωρήσουμε ένα τυχαίο διάνυσμα της ομάδας x s και το κέντρο της xt τότε: Ευκλείδεια απόσταση (Euclidean distance) ( )( ) d = x x x x (2.26) 2 T st s t s t Με βάση αυτό το κριτήριο κάθε κέντρο είναι ο μέσος όρος των σημείων που ανήκουν στην συστάδα. Απόσταση συνημιτόνου (Cosine distance) d st T xs xt = 1 (2.27) T T ( xs xs )( xt xt ) δηλαδή 1 μείον το συνημίτονο της γωνίας που περιλαμβάνεται μεταξύ των σημείων-διανυσμάτων. Με βάση αυτό το κριτήριο κάθε κέντρο είναι ο μέσος όρος των σημείων της συστάδας, μετά από κανονικοποίηση των σημείων στη μονάδα του Ευκλείδειου μήκους. 33

40 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου 34

41 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου 3.1 Εισαγωγή Στο παρόν Κεφάλαιο πραγματοποιείται μία λεπτομερής περιγραφή και ανάλυση της διαδικασίας που έλαβε χώρα, ώστε να επιτευχθεί η κατηγοριοποίηση βάσει χρόνου για τον κάθε πελάτη χωριστά. Ακολουθήθηκε η διαδικασία που παρουσιάζεται στο [80]. Η διαδικασία είναι 2 σταδίων: στο 1 ο στάδιο πραγματοποιείται συσταδοποίηση των ημερήσιων καμπυλών φορτίου κάθε καταναλωτή ξεχωριστά. Εφόσον επιλεγεί μία αντιπροσωπευτική καμπύλη, στη συνέχεια λαμβάνει χώρα συσταδοποίηση βάσει των πελατών, δηλαδή τα προφίλ του 1 ου σταδίου ομαδοποιούνται ανάλογα με την ομοιότητα τους. Τα δεδομένα αφορούν συνολικό αριθμό καταναλωτών ίσο με 150. Το δείγμα αυτό αποτελείται από οικιακούς, εμπορικούς και βιομηχανικούς καταναλωτές, πράγμα που προσδίδει μεγάλη ποικιλία χαρακτηριστικών. Πιο συγκεκριμένα, ο μικρότερος καταναλωτής που εμφανίζεται, έχει μέσο ετήσιο φορτίο ίσο με 0.20 kw, ο μεγαλύτερος έχει μέσο ετήσιο φορτίο ίσο με 1417 kw, ενώ το σύνολο του δείγματος των 150 καταναλωτών εμφανίζει μία μέση τιμή ίση με kw. Τα μέσα ετήσια φορτία του συνόλου των καταναλωτών παρουσιάζονται σε παρακάτω ενότητα αναλυτικά. Για την εκτέλεση της κατηγοριοποίησης έγινε χρήση της γλώσσας προγραμματισμού Fortran και του λογισμικού Matlab. Επίσης χρησιμοποιήθηκαν έτοιμα εργαλεία που παρέχονται στο Matlab και περιλαμβάνουν τους αλγορίθμους K-means και Hierarchical clustering, ενώ η χρήση της Fortran έγινε κυρίως για την επεξεργασία και μορφοποίηση των μετρήσεων του αρχικού δείγματος. Τέλος, οι αρχικές μετρήσεις για κάθε καταναλωτή αφορούν 365 μέρες (1 έτος) και η κάθε ημέρα αριθμεί συνολικά 96 διαστάσεις, αφού οι καταγραφόμενες τιμές ζήτησης από τους πελάτες αφορούν χρονικά διαστήματα των 15 λεπτών, άρα διατίθενται 96 διαφορετικές ενδείξεις ανά 24ωρο. 3.2 Επεξεργασία δεδομένων Όπως έχει αναφερθεί στο προηγούμενο Κεφάλαιο, η καταγραφή των ζητούμενων φορτίων πραγματοποιείται με την τοποθέτηση μετρητών 15λεπτης ένδειξης, στο χώρο λειτουργίας των καταναλωτών. Οι ενδείξεις των μετρητών εμφανίστηκαν με τη μορφή ηλεκτρονικών αρχείων. Τα δεδομένα αυτά, πριν χρησιμοποιηθούν για την εξαγωγή συμπερασμάτων από το Matlab, ήταν αναγκαίο να υποστούν μια σειρά από μετατροπές μέσω της Fortran (όπως περιγράφεται παρακάτω) έτσι ώστε να είναι έτοιμα προς επεξεργασία μετέπειτα από τους αλγορίθμους του Matlab, για την παραγωγή των επιθυμητών αποτελεσμάτων. 35

42 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Αρχικά όλα τα δεδομένα που συλλέχθησαν αποθηκεύτηκαν σε ένα ηλεκτρονικό αρχείο τύπου Excel. Πρώτο βήμα ήταν η μετροπή του αρχείου από.xls σε.txt έτσι ώστε να γίνει εφικτή η επεξεργασία των δεδομένων μέσω της Fortran. Το επόμενο βήμα ήταν η μετατροπή των 15λεπτων ενδείξεων των μετρητών σε ωριαίες, όπως φαίνεται στο παρακάτω Σχήμα 3.1, καθώς η επεξεργασία των μετρήσεων ήταν περισσότερο λειτουργική σε διαστήματα 1 h. Σχήμα 3.1 : Μετατροπή μετρήσεων από ώρες σε τέταρτα Επίσης πρέπει να επισημανθεί πως παρατηρήθηκε στο δείγμα η ύπαρξη κάποιων προβληματικών ημερών με μηδενική ένδειξη. Αυτές οφείλονται είτε σε διακοπή του δικτύου λόγω βλάβης ή συντήρησης, είτε σε λάθος ενδείξεις του μετρητή. Αποφασίστηκε η μη απομάκρυνσή τους έτσι ώστε το δείγμα να αντιπροσωπεύει καλύτερα την πραγματικότητα, αφού στην διάρκεια ενός έτους έχουμε στοχαστικά πάντα την εμφάνιση τέτοιου είδους προβλημάτων. Μέσω της Fortran έγινε η εύρεση της peak τιμής του έτους για κάθε καταναλωτή, με σκοπό την μετατροπή των τιμών του σε per unit (p.u.), δηλαδή από το 0 ως την τιμή 1. Έτσι δόθηκε η δυνατότητα για την σύγκριση και κατηγοριοποίηση όλων των ομοιόμορφων χρονολογικών καμπυλών, καθώς οι μετρήσεις πλέον ήταν ανεξάρτητες από το μέγεθος του καταναλωτή, δηλαδή το φορτίο του. Όλα τα παραπάνω φαίνονται στο Σχήμα 3.2 που ακολουθεί. 36

43 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Σχήμα 3.2: Μετατροπή μετρήσεων από ώρες σε τέταρτα και σε p.u. 3.3 Εκτέλεση κατηγοριοποίησης Έχοντας διαμορφώσει τα αρχεία με τα φορτία των καταναλωτών στην επιθυμητή μορφή προς επεξεργασία για κάθε πελάτη ξεχωριστά, χρησιμοποιήθηκαν 2 τεχνικές κατηγοριοποίησης με την βοήθεια των εργαλείων του Matlab. Η πρώτη ήταν i) ο αλγόριθμος K-means και η δεύτερη ii) η οικογένεια αλγορίθμων Hierarhical. H μαθηματική δομή των παραπάνω αλγορίθμων έχει παρουσιαστεί αναλυτικά στο Κεφάλαιο 2. Εδώ παρατίθενται ο τρόπος και η διαδικασία εκτέλεσης της κατηγοριοποίησης για την κάθε μέθοδο ξεχωριστά. Ως δείκτες αξιολόγησης των 2 τεχνικών κατηγοριοποίησης χρησιμοποιήθηκαν οι i) Euclidean και ii) cosine, για τους οποίους έχει γίνει αναφορά και μαθηματική παρουσίασή τους επίσης στο Κεφάλαιο 2. Οι δείκτες αυτοί παρέχονται εντός των εργαλείων του Matlab και για τους 2 αλγορίθμους και αυτό βοηθά στην μετέπειτα σύγκριση και αξιολόγηση των 2 τεχνικών κατηγοριοποίησης. 37

44 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Αλγόριθμος K-means Αρχικά για την υλοποίηση του αλγορίθμου στο Matlab δόθηκαν ως είσοδοι στο Matlab 2 πίνακες για την αρίθμηση των 24 ωρών και των 365 ημερών. Στη συνέχεια δημιουργήθηκε ένας 3 ος πίνακας που περιείχε όλα τα δεδομένα από το κανονικοποιημένο αρχείο.txt, όπως προέκυψε από την επεξεργασία του από την Fortran και αφορά έναν καταναλωτή κάθε φορά. Έπειτα, δόθηκαν τα ορίσματα του αλγορίθμου K-means. Αυτά συμπεριλάμβαναν μαζί με τα παραπάνω τον αριθμό των cluster, τον δείκτη αξιολόγησης αν είναι Euclidean ή cosine και άλλο ένα όρισμα χαρακτηριστικό του αλγορίθμου αυτού, απαραίτητο για την λειτουργία του, το replicates. Μια ενδεικτική σειρά εντολών εισόδου για τον αλγόριθμο K-means παρουσιάζεται στο Σχήμα 3.3. Εδώ θα πρέπει να τονιστεί ότι για την αρχικοποίηση των κέντρων των cluster γίνεται τυχαία η επιλογή του κάθε κέντρου κάθε φορά. Pinakas1 'xronos24' Pinakas2 'imeres365' Pinakas3 'Κatanalwtis 1pu.txt' Kmeans clusters 10 distance Euclidean replicates 30 write1 clusters write2 centers plot 1,2,3 Σχήμα 3.3 : Εντολές εισόδου αλγορίθμου K-means Το replicates αφορά τον αριθμό των επαναλήψεων του clustering κάθε φορά με ένα νέο σύνολο αρχικών κέντρων των cluster. Ο Κ-means τελικά επιστρέφει το βέλτιστο από τα clustering που πραγματοποιήθηκαν, δηλαδή το clustering στο οποίο οι αποκλίσεις των ημερήσιων καμπυλών του κάθε καταναλωτή από το κέντρο του εκάστοτε cluster στο οποίο τοποθετήθηκαν είναι οι μικρότερες δυνατές. Μετά από πολλές δοκιμές όπου άλλαζε ο αριθμός των επαναλήψεων, παρατηρήθηκε ότι το βέλτιστο clustering εμφανιζόταν στις 30 επαναλήψεις τις περισσότερες φορές, όπως φαίνεται και στο παρακάτω ενδεικτικό διάγραμμα (Σχήμα 3.4). Επίσης, υπήρχαν περιπτώσεις όπου το βέλτιστο clustering εμφανίστηκε για αριθμό επαναλήψεων μεγαλύτερο του 100, αλλά οι αποκλίσεις των καμπυλών από τα κέντρα των cluster ήταν παρόμοιες με αυτές για 30 replicates. Έτσι ο αριθμός αυτός επιλέχθηκε εκτός από όλα τα παραπάνω και για οικονομία χρόνου σε κάθε μία απόπειρα clustering ενός καταναλωτή μέσο του αλγορίθμου K-means. 38

45 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Σχήμα 3.4 : Επιλογή αριθμού replicates Τέλος, τα κέντρα των cluster και το αποτέλεσμα του clustering για κάθε καταναλωτή αποθηκεύονταν κάθε φορά σε χωριστά αρχεία.txt, για την περαιτέρω επεξεργασία των αποτελεσμάτων στην συνέχεια μέσω της Fortran και του Matlab. Έτσι, μετά από όλη αυτή την διαδικασία υπήρχε και ένα οπτικό αποτέλεσμα από το Matlab σε μορφή αρχείων Figure όπως θα παρουσιαστούν παρακάτω ανάλογα με τα σενάρια που επιλέχθησαν να υλοποιηθούν Οικογένεια αλγορίθμων Hierarchical Αρχικά, όπως και στον αλγόριθμο K-means στην πρώτη σειρά εντολών υπάρχουν ως είσοδοι στο Matlab 2 πίνακες για την αρίθμηση των 24 ωρών και των 365 ημερών. Ομοίως, στη συνέχεια δημιουργήθηκε ένας 3 ος πίνακας που περιείχε όλα τα δεδομένα από το κανονικοποιημένο αρχείο text document, όπως προέκυψε από την επεξεργασία του από την Fortran και αφορά έναν καταναλωτή κάθε φορά. Έπειτα, δόθηκαν τα ορίσματα του αλγορίθμου Hierarchical. Αυτά συμπεριλάμβαναν μαζί με τα παραπάνω τον αριθμό των cluster, τον δείκτη αξιολόγησης αν είναι Euclidean ή cosine, ο οποίος είναι ο ίδιος και στον αλγόριθμο K-means και άλλο ένα όρισμα χαρακτηριστικό του αλγορίθμου αυτού, απαραίτητο για την λειτουργία του, το linkage. Μια ενδεικτική σειρά εντολών εισόδου για τον αλγόριθμο Hierarchical παρουσιάζεται στο Σχήμα 3.5. Επίσης και εδώ ισχύει ότι για την αρχικοποίηση των κέντρων των cluster γίνεται τυχαία η επιλογή του κάθε κέντρου κάθε φορά. 39

46 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Pinakas1 'xronos24' Pinakas2 'imeres365' Pinakas3 'Κatanalwtis 1pu.txt' corrdist 'Euclidean' linkage 'ward' clusters 10 write1 clusters write2 centers plot 1,2,3 Σχήμα 3.5 : Εντολές εισόδου αλγορίθμου Hierarchical Το linkage όπως έχει παρουσιαστεί η μαθηματική του περιγραφή στο προηγούμενο Κεφάλαιο, είναι η συνάρτηση υπολογισμού της απόστασης μεταξύ δύο ομάδων, με σκοπό την συγχώνευση ενός ζεύγους ομάδων ή τον σχηματισμός μιας νέας ομάδας. Έτσι, ανάλογα με τον τύπο της συνάρτησης linkage εμφανίζεται μία εντελώς διαφορετική ευκλείδια απόσταση ή cosine μεταξύ των κέντρων του κάθε cluster και της εκάστοτε ημερήσιας καμπύλης, λόγω της αρχικοποίησης διαφορετικών κέντρων cluster που χρησιμοποιούνται κάθε φορά. Στο Matlab υπάρχουν 7 μέθοδοι linkage για τον υπολογισμό της απόστασης μεταξύ δύο ομάδων και αυτοί είναι οι εξής : i. average ii. centroid iii. complete iv. median v. single vi. ward vii. weigthed Για την εύρεση του βέλτιστου clustering ήταν απαραίτητη η εύρεση της βεbλτιστης μεθοbδου ĺinkage. Για αυτό πραγματοποιήθηκαν δοκιμές σε διάφορους καταναλωτές και για τα δύο κριτήρια αξιολόγησης Euclidean και cosine, με σκοπό την εύρεση του clustering στο οποίο οι αποκλίσεις των ημερήσιων καμπυλών του κάθε καταναλωτή από το κέντρο του εκάστοτε cluster στο οποίο τοποθετήθηκαν να είναι οι μικρότερες δυνατές. Οι δοκιμές αυτές που αρχικά έγιναν για το κριτήριο Euclidean και το ćosine, συνέκλιναν στο συμπέρασμα ότι με την χρήση της μεθόδου ward στο linkage εμφανίζονταν οι ελάχιστες αποστάσεις μεταξύ των κέντρων των cluster και των ημερήσιων καμπυλών, άρα το βέλτιστο clustering. Ένα ενδεικτικό αποτέλεσμα φαίνεται στο Σχήμα 3.6, όπου η μέθοδος ward απόδοδει την μικρότερη τιμή, άρα καλύτερη κατανομή των ημερήσιων καμπυλών στα cluster. Ο αριθμός που 40

47 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου παρατίθεται δίπλα σε κάθε μέθοδο, είναι το άθροισμα των ευκλείδιων αποστάσεων των καμπυλών από τα αντίστοιχα κέντρα των cluster στα οποία ανοίκουν. Ο μαθηματικός τύπος από τον οποίο υπολογίζεται έχει παρουσιαστεί στο προηγούμενο Κεφάλαιο. Παρόμοια αποτελέσματα προέκυψαν και με το κριτήριο cosine. Σχήμα 3.6 : Εύρεση βέλτιστης μεθόδου linkage Τέλος, τα κέντρα των cluster και το αποτέλεσμα του clustering για κάθε καταναλωτή αποθηκεύονταν κάθε φορά σε χωριστά αρχεία.txt, για την περαιτέρω επεξεργασία των αποτελεσμάτων στην συνέχεια μέσω της Fortran και του Matlab, όπως ακριβώς και στον αλγόριθμο K-means. Επίσης το Matlab παρήγαγε και ένα οπτικό αποτέλεσμα σε μορφή αρχείων figure όπως θα παρουσιαστούν παρακάτω ανάλογα με τα σενάρια που έγινε η επιλογή για να υλοποιηθούν. 3.4 Υλοποίηση σεναρίων συσταδοποίησης Για την συσταδοποίηση όλων των διαθέσιμων καταναλωτών βάσει χρόνου υλοποιήθηκαν 3 δυνατά σενάρια αρχικοποίησης. Τα σενάρια αυτά είχαν ως σκοπό την δημιουργία περισσότερο αντιπροσωπευτικών cluster για κάθε καταναλωτή με βάση την ομοιότητα των ημερήσιων χρονολογικών καμπυλών του. Τα 3 σενάρια που υλοποιήθηκαν ήταν τα ακόλουθα : Επιλογή ενός αντιπροσωπευτικού καταναλωτή και συσταδοποίηση των ημερήσιων χρονολογικών καμπυλών του σε 10 ομάδες. Ο αριθμός αυτός επιλέχτηκε βάσει των δεικτών αξιολόγησης. Στη συνέχεια, για όλους τους 41

48 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου υπόλοιπους καταναλωτές έγινε η συσταδοποίηση των ημερήσιων καμπυλών σε 10 clusters. Συσταδοποίηση των ημερήσιων χρονολογικών καμπυλών των καταναλωτών με βάση των βέλτιστο αριθμό cluster για τον καθένα. Μακρο-κατηγοριοποίηση των καταναλωτών με βάση το μέσο ετήσιο φορτίο του καθενός και συσταδοποίηση κάθε μακρο-κατηγορίας που προέκυψε με τον ίδιο αριθμό cluster. Ο αριθμός των cluster ποικίλει ανάμεσα στις μακροκατηγορίες ο σενάριο: Συσταδοποίηση σε 10 clusters Ο βέλτιστος αριθμός cluster για κάθε καταναλωτή διαφέρει ανάλογα με την ποικιλομορφία των ημερήσιων χρονολογικών καμπυλών του. Έτσι υπάρχουν καταναλωτές που παρουσιάζουν μεγάλη ομοιότητα στις καμπύλες τους κατά την διάρκεια ενός έτους, άρα μπορούν να ομαδοποιηθούν σε λίγα cluster, ενώ άλλοι παρουσιάζουν αντίθετη συμπεριφορά, δηλαδή πολύ μεγάλη ποικιλομορφία και απόκλιση μεταξύ των ημερήσιων καμπυλών τους στη διάρκεια του έτους, άρα είναι καλύτερο να ομαδοποιηθούν σε περισσότερες ομάδες. Όπως συμπαιραίνουμε από τα παραπάνω όταν όλοι οι καταναλωτές συσταδοποιηθούν με τον ίδιο αριθμό ομάδων ο καθένας, τα κριτήρια αξιολόγησης των αλγορίθμων, δηλαδή η ευκλείδια απόσταση και η απόσταση cosine κάθε καταναλωτή θα είναι ανάλογα της ποικιλομορφίας τους. Εδώ πρέπει να επισημανθεί ότι όπως αναφέρθηκε και παραπάνω, το δείγμα μας αποτελείται από οικιακούς, εμπορικούς και βιομηχανικούς καταναλωτές και συμπεριλαμβάνει ανώμαλες-προβληματικές ημέρες, γεγονός που προσδίδει μεγαλύτερη ποικιλία καμπυλών. Έτσι καταναλωτές με μικρή ποικιλομορφία καμπυλών στην διάρκεια του έτους παρουσιάζουν μικρή τιμή ευκλείδιας απόστασης και της απόστασης cosine, ενώ καταναλωτές με μεγάλη ποικιλομορφία παρουσιάζουν μεγάλη τιμή ευκλείδιας απόστασης και cosine, για τον ίδιο αριθμό cluster. Αυτό προκύπτει επειδή τα κέντρα των cluster θα έχουν αντίστοιχα μικρή ή μεγάλη απόσταση από τις καμπύλες που τοποθετήθηκαν σε αυτά. Πραγματοποιώντας συνεχείς μελέτες και δοκιμές, επιλέχθηκε ένας καταναλωτής ως αντιπροσωπετικός όλου του δείγματος, πάνω στον οποίο βασίστηκαν τα επόμενα βήματα του σεναρίου αυτού. Το μέσο ετήσιο φορτίο του καταναλωτή αυτού είναι kw, όταν τα φορτία του δείγματος κυμένονται από 0.20 ως 1417 kw. Αν όμως αφαιρέσουμε τον μεγαλύτερο καταναλωτή αφού εμφανίζει πολύ μεγαλύτερο μέσο φορτίο σε σχέση με τους υπόλοιπους, η μέση τιμή του δείγματος είναι KW, άρα κοντά στον αντιπροσωπευτικό καταναλωτή και επίσης ιδιαίτερο ενδιαφέρον και μεγάλη ποικιλία παρουσιάζουν οι γραφικές παραστάσεις των ημερήσιων χρονολογικών καμπυλών του. 42

49 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Η εύρεση του βέλτιστου αριθμού cluster για έναν καταναλωτή δεν γίνεται αυθαίρετα, αλλά μέσω της βελτιστοποίησης των δεικτών αξιολόγησης των αλγορίθμων, των Euclidean και cosine. Συγκεκριμένα στις περιπτώσεις βελτιστοποίησης των δύο παραπάνων κριτηρίων αξιολόγησης, για πλήθος επιθυμητών cluster από 2 εως 50 προκύπτουν οι ακόλουθες γραφικές παραστάσεις των παρακάτω σχημάτων και για τους 2 αλγορίθμους. Παρατηρείται ότι με την αύξηση των επιθυμητών cluster, μειώνονται οι τιμές των δεικτών της Ευκλείδιας απόστασης και της απόστασης cosine, κάτι που ήταν θεωρητικά αναμενόμενο λόγω της δυνατότητας ομοδοποίησης των καμπυλών σε περισσότερες ομάδες με μικρότερες αποκλίσεις από τα αντίστοιχα κέντρα. Από την συμπεριφορά των δεικτών κρίνεται ικανοποιητική η χρήση 10 επιθυμητών cluster για την αναπαράσταση των τυπικών ημερήσιων χρονολογικών καμπυλών του καταναλωτή, αφού περαιτέρω αύξηση δεν οδηγεί σε σημαντική βελτίωση των αντίστοιχων δεικτών. Επιπροσθέτως θεωρώντας τον καταναλωτή αυτόν ως αντιπροσωπευτικό επιλέγεται ο αριθμός των 10 cluster να εφαρμοστεί για όλο το δείγμα για την υλοποίηση του 1 ου σεναρίου. Euclidean αριθμός cluster cosine 0,114 0,112 0,11 0,108 0,106 0,104 0,102 0,1 0,098 0,096 0, αριθμός cluster Σχήμα 3.7 : Βελτιστοποίηση ως προς δείκτη Euclidean του αλγορίθμου Κ-means 43

50 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου 0,11 0,108 0,106 cosine 0,104 0,102 0,1 0,098 0,096 0, αριθμός cluster Euclidean αριθμός cluster Σχήμα 3.8 : Βελτιστοποίηση ως προς δείκτη cosine του αλγορίθμου Κ-means 44

51 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Euclidean αριθμός cluster cosine 0,114 0,112 0,11 0,108 0,106 0,104 0,102 0,1 0,098 0,096 0, αριθμός cluster Σχήμα 3.9 : Βελτιστοποίηση ως προς δείκτη Euclidean των αλγορίθμων Hierarchical 45

52 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου cosine 0,112 0,11 0,108 0,106 0,104 0,102 0,1 0,098 0,096 0, αριθμός cluster Euclidean αριθμός cluster Σχήμα 3.10 : Βελτιστοποίηση ως προς δείκτη cosine των αλγορίθμων Hierarchical Μετά το τέλος της παραπάνω διαδικασίας λαμβάνουμε ένα οπτικό αποτέλεσμα από το Matlab για την κατανομή των ημερήσιων καμπυλών του καταναλωτή στα cluster. Έτσι η συσταδοποίηση βάσει ομοιότητας των χρονολογικών καπυλών του καταναλωτή 4 σε 10 cluster φαίνεται στα Σχήματα 3.11 και 3.12 για τους 2 αλγορίθμους και τους 2 δείκτες αξιολόγησης. Τέλος, υπενθυμίζεται πως το αποτέλεσμα του clustering των 2 αλγορίθμων και των 2 δεικτών είναι το βέλτιστο δυνατό για τον καθέναν, αφου έχει προηγηθεί η βελτιστοποίηση των δεικτών τους στην προηγούμενη Ενότητα. 46

53 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Euclidean = cosine = Euclidean = cosine = Σχήμα 3.11 : Αποτέλεσμα της συσταδοποίησης μέσω του Κ-means σε 10cluster. Η 1 η εικόνα αναφέρεται στη βελτιστοποίηση του δείκτη Euclidean, ενώ η 2 η στη βελτιστοποίηση του δείκτη cosine. 47

54 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Euclidean = cosine = Euclidean = cosine = Σχήμα 3.12 : Αποτέλεσμα της συσταδοποίησης μέσω του hierarchical σε 10cluster. Η 1η εικόνα αναφέρεται στη βελτιστοποίηση του δείκτη Euclidean, ενώ η 2η στη βελτιστοποίηση του δείκτη cosine 48

55 Κεφάλαιο 3ο Εκτέλεση συσταδοποίησης βάσει χρόνου Από τα παραπάνω αποτελέσματα παρατηρείται παρατηρ πως σε κάθε cluster έχουν ομαδοποιηθεί καμπύλες αρκετά όμοιες μεταξύ τους. Άρα επαληθεύεται η φιλοσοφία των 2 αλγορίθμων αλγορίθμων που αφορά την τοποθέτηση καμπυλών στα ίδια cluster ανάλογα με την απόσταση τους από το κέντρο που έχει επιλεγεί για το κάθε cluster,, στην περίπτωση του κριτηρίου Euclidean και ανάλογα του συνημιτόνου νου μεταξύ του κέντρου και της εκάστοτε καμπύλης στην περίπτωση του κριτηρίου cosine. Επίσης παρατηρούνται μικρές αλλαγές στην κατανομή των ημερήσιων καμπυλών στα cluster μεταξύ των 2 αλγορίθμων με το ίδιο κριτήριο. Μεγαλύτερες διαφορές παρατηρούνται στην κατανομή των καμπυλών με την χρήση διαφορετικού κριτηρίου αξιολόγησης μέσα στον ίδιο αλγόριθμο. Επίσης, επαληθέυονται και οπτικά οι υπολογισμοί πως στην 1η περίπτωση, του αλγοριθμου Κ-means means με το κριτήριο της Ευκλείδιας ιας απόστασης, η καμπύλη με την μέγιστη ενέργεια και η ημερήσια καμπύλη που περιέχει το peak του έτους έχουν τοποθετηθεί στο cluster 1, ενώ στο cluster 5 παρατηρήθηκαν ημερήσιες καμπύλες με τιμές από 0 εως p.u.,, πράγμα που μεταφράζεται σε ομαδοποίηση στο ίδιο cluster πιθανώς των ΣαββατοΚύριακων ή των αργιών του καταναλωτή αυτού. Εκτός από τα παραπάνω, στα στ σχήματα 3.13 και 3.14 παρουσιάζεται αναλυτικά σε γράφημα η κατανομή των ημερών του καταναλωτή 4 στα 10 cluster, cluster ενδεικτικά για την 1η περίπτωση του αλγοριθμου Κ-means με το κριτήριο της Ευκλείδιας απόστασης. cluster 10 8% cluster 1 13% cluster 2 1% cluster 3 8% cluster 9 21% cluster 4 11% cluster 8 4% cluster 5 6% cluster 7 8% cluster 6 20% Σχήμα 3.13 : Ποσοστό του συνόλου των ημερών σε κάθε cluster 49

56 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Ημέρες αριθμός cluster Σχήμα 3.14 : Κατανομή ημερών στα cluster Από τις παραπάνω γραφικές παραστάσεις κατανομής των ημερών στα cluster, εξάγεται το συμπέρασμα ότι ανάλογα με την ομοιότητα των χρονολογικών καμπυλών μπορούν να προκύψουν cluster που να περιλαμβάνουν μεγάλο αριθμό καμπυλών, όπως το cluster 9 που περιέχει 78 καπμύλες, ενώ αντιθέτα λόγω της ιδιομορφίας ή ανωμαλίας ορισμένων ημερών, κάποια cluster μπορεί να περιέχουν μόλις 1 ημέρα ή όπως στην περίπτωσή μας 4 εις στο cluster 2. H διαδικασία αυτή επαναλήφθηκε για το σύνολο των 150 καταναλωτών του δείγματος για 10 cluster. Τα ευκλείδια σφάλματα, δηλαδή το συνολικό άθροισμα που προκύπτει από τις αποστάσεις των ημερήσιων καμπυλών από τα αντίστοιχα κέντρα των cluster στα οποία έχουν τοποθετηθεί, καταγράφηκαν σε 50

57 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου ένα αρχείο.xls και για τους 2 αλγορίθμους όπως παρουσιάζεται στο Σχήμα 3.15, για περαιτέρω ανάλυση. Παρατηρήθηκε μεγάλο εύρος τιμών του δείκτη αυτού από 2.15 ως , γεγονός που πιστοποιεί αυτό που είχε προαναφερθεί για την μεγάλη ποικιλομορφία όλων των καταναλωτών K-means 10 cluster Euclidean distance αριθμός καταναλωτή Σχήμα 3.15 : Σύνολο τιμών Ευκλείδιων αποστάσεων του δείγματος σύμφωνα με τον αλγόριθμο Κ-means Στη συνέχεια, ύστερα από λεπτομερή μελέτη και ανάλυση του συνόλου του δείγματος, παρουσιάζεται το αποτέλεσμα της συσταδοποίησης των ημερήσιων χρονολογικών καμπυλών άλλων 8 αντιπροσωπετικών ή αξιοσημείωτων καταναλωτών προς μελέτη, για τους 2 αλγορίθμους K-means και Hierarchical, με το κριτήριο της Ευκλέιδιας απόστασης. Οι καταναλωτές αυτοί παρουσιάζουν ποικιλία χαρακτηριστικών. Για παράδειγμα, αρχικά παρατίθεται ο καταναλωτής 70 που έχει πολύ μικρό Ευκλείδιο σφάλμα στα cluster του, ενώ στη συνέχεια ο καταναλωτής 147, ο οποίος αντιθέτως έχει πολύ μεγάλο σφάλμα. Στη συνέχεια εμφανίζεται ο καταναλωτής 7 με μεγάλη ποικιλία ημερήσιων καμπυλών και μία μέση τιμή σφάλματος, όπως και ο καταναλωτής 12 αλλά με μικρό σφάλμα στα cluster του. Επίσης, παρουσιάζεται ο καταναλωτής 43, του οποίου οι καμπύλες παρουσιάζουν μια μέση τιμή κοντά στα p.u. περίπου σε όλη την διάρκεια του έτους, και ο καταναλωτής 46 με ποικιλία καμπυλών και μεγάλο σφάλμα στα cluster του. Τέλος, υπενθυμίζεται πως το αποτέλεσμα του clustering των 2 αλγορίθμων είναι το βέλτιστο δυνατό για τον καθέναν, αφου έχει προηγηθεί η βελτιστοποίηση των δεικτών τους στην προηγούμενη Ενότητα. 51

58 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου ΚΑΤΑΝΑΛΩΤΗΣ 70 K-means Euclidean = 4.65 cosine = Hierarchical Euclidean = 4.83 cosine = Σχήμα 3.16 : Clustering καταναλωτή 70 με το κριτήριο Euclidean 52

59 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου ΚΑΤΑΝΑΛΩΤΗΣ 147 K-means Euclidean = cosine = Hierarchical Euclidean = cosine = Σχήμα 3.17 : Clustering καταναλωτή 147 με το κριτήριο Euclidean 53

66 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Σύγκριση των 2 αλγορίθμων Αρχικά, παρατηρώντας τα cluster των παραπάνω καταναλωτών, συμπεραίνεται η ικανότητα απομόνωσης και των 2 αλγορίθμων μίας ανώμαλης ημέρας σε ένα cluster. Αυτό πραγματοποιήθηκε στον καταναλωτή 22, όπου το cluster 2 του Κ-means και το cluster 5 του Hierarchical περιέχουν την ίδια μέρα η οποία εμφανίζει μία μηδενική τιμή στις ώρες 10:00 με 12:00 το μεσημέρι, κάτι που δεν έχει επαναληφθεί στην διάρκεια του έτους και ως αποτέλεσμα έχει τοποθετηθεί μόνη της. Αντιθέτως, στους καταναλωτές 12 και 24 παρατηρείται μία απομόνωση μίας και τριών ανώμαλων ημερών αντίστοιχα μόνο με την χρήση του αλγόριθμου Hierarchical. Ο K-means τοποθετεί της καμπύλες των ημερών αυτών που παρουσιάζουν ιδιαίτερη συμπεριφορά μέσα σε άλλα cluster που εμφανίζουν σχετικά παρόμοια συμπεριφορά. Αυτό έχει ως αποτέλεσμα την αύξηση του ευκλείδιου σφάλματος στο συγκεκριμένο cluster του αλγορίμου Κ- means, λόγω μεγάλης απόστασης της συγκεκριμένης ανώμαλης ημέρας από το κέντρο του αντίστοιχου cluster, αλλά το συνολικό συνολικό Ευκλείδιο σφάλμα όλων των καμπυλών όλου του χρόνου δεν είναι απαραίτητα μεγαλύτερο. Έτσι, μπορεί η συσταδοποίηση αυτή να ήταν καλύτερη στον καταναλωτή 12 αφού στον αλγόριθμο Hierarchical εμφάνισε μικρότερο σφάλμα, αλλά η απομόνωση των τριών ανώμαλων ημερώνμε τον αλγόριθμο Hierarchical σε 2 cluster στον καταναλωτή 24, δεν οδήγησε σε αντίστοιχα αποτελέσματα αφού το συνολικό του clustering στον Κ-means εμφάνισε μικρότερο Ευκλείδιο σφάλμα. Στη συνέχεια κρίθηκε αναγκαία η γενικότερη σύγκριση των 2 αλγορίθμων όσο αναφορά την αποδοτικότητά τους στο δείγμα καταναλωτών. Έτσι μετρήθηκαν όλες οι Ευκλείδιες αποστάσεις που παρουσιάζονται σε κάθε καταναλωτή και για τους 2 αλγορίθμους, όπως επίσης και τα cosine για όλους τους καταναλωτές για τον ίδιο αριθμό cluster (10). Τα αποτελέσματα παρατίθενται στο Σχήμα Από το Σχήμα φαίνεται ότι από την σύγκριση των 2 αλγορίθμων σε όλο το δείγμα, η χρήση του αλγορίθμου Κ-means οδηγεί στην πλειοψηφία των καταναλωτών σε μικρότερα σφάλματα είτε με το κριτήριο της Ευκλείδιας απόστασης, είτε με την απόσταση cosine. Άρα εκτός από την βελτιστοποίηση των αλγορίθμων που πραγματοποιήθηκε παραπάνω, για την υλοποίηση των επόμενων σεναρίων συσταδοποίησης θα γίνει χρήση μόνο του αλγορίθμου K-means. Επίσης θα πρέπει να σημειωθεί ότι 10 καταναλωτές με την χρήση του κριτηρίου cosine δεν ήταν δυνατό να συσταδοποιηθούν και να υπολογιστεί το συνολικό σφάλμα τους, λόγω της εμφάνισης πολλών μηδενικών κατά την διάρκεια υλοποίησης του αλγορίθμου. 60

67 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου ευκλείδιο σφάλμα αριθμός καταναλωτή 0,8 0,7 Hierarchical K-means 0,6 0,5 cosine 0,4 0,3 0,2 0, αριθμός καταναλωτή Σχήμα 3.24 : Σύγκριση τιμών Ευκλείδιων αποστάσεων των 2 αλγορίθμων 61

68 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου 'cosine' 'Euclidean' 700 ευκλείδια απόσταση αριθμός καταναλωτή 2 1,8 1,6 1,4 1,2 'Euclidean' 'cosine' cosine 1 0,8 0,6 0,4 0, αριθμός καταναλωτή Σχήμα 3.25 : Σύγκριση των δεικτών αξιολόγησης κατά την υλοποίηση του αλγορίθμου Κ-means και με τους 2 δείκτες 62

69 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Από το Σχήμα 3.25 συμπεραίνεται ότι κατά την σύγκριση των 2 κριτηρίων αξιολόγησης του αλγορίθμου Κ-means, τα οποία παρουσιάζουν όμοια συμπεριφορά και στον αλγόριθμο Hierarchical, η χρήση του κριτηρίου της Ευκλείδιας απόστασης εμφανίζει συνολικά καλύτερα αποτελέσματα. Δηλαδή, όταν ο αλγόριθμος έτρεχε με το κριτήριο Euclidean, παρατηρήθηκαν αισθητά μικρότερα Ευκλείδια σφάλματα στο σύνολο του δείγματος από τα Ευκλείδια σφάλματα που υπολογίστηκαν κατά το τρέξιμο του αλγορίθμου με το κριτήριο cosine. Αντιθέτως, τα συνιμήτονα που υπολογίστηκαν και στις δύο περιπτώσεις είχαν μικρές αποκλίσεις μεταξύ τους. Όλα αυτά οδήγησαν στο συμπέρασμα πως η χρήση του αλγορίθμου K-means με το κριτήριο της ευκλείδιας απόστασης εμφάνιζε τα καλύτερα απότελεσματα, δηλαδή τις μικρότερες συνολικά τιμές στα κριτήρια αξιολόγησης του αλγορίθμου. Άρα η συνέχεια της μελέτης του δείγματος και η υλοποίηση όλων των υπολοίπων μεθόδων και σεναρίων βασίστηκε στην χρήση του συνδυασμού Κ- means/ Euclidean. Αυτό ισχύει και για την βελτιστοποίηση μόνο του δείκτη Euclidean για την εύρεση του βέλτιστου αριθμού cluster κάθε φορά, μιας και ο δείκτης cosine ακολουθεί την ίδια ακριβώς συμπεριφορά ο σενάριο: Συσταδοποίηση με βάση τον βέλτιστο αριθμό cluster Κατά τη μελέτη των αποτελεσμάτων της συσταδοποίησης όλων των καταναλωτών του δείγματος σε 10 cluster, παρατηρήθηκε μεγάλη διακύμανση του Ευκλείδιου σφάλματος του αλγορίθμου K-means μεταξύ των καταναλωτών, από τιμές 2.15 ως Έτσι για καταναλωτές με μεγάλη ποικιλομορφία ημερήσιων χρονολογικών καμπυλών προτείνεται να τοποθετηθούν σε μεγαλύτερο αριθμό cluster ώστε να βελτιωθεί το αποτέλεσμα της συσταδοποίησής τους. Αυτό είχε ως άμεση συνέπεια την μείωση του Ευκλείδιου σφάλματος, καθώς πλέον τα κέντρα των cluster θα απείχαν λιγότερο από τις εκάστοτε ημερήσιες καμπύλες τους. Αντίθετη εικόνα ήταν αναμενόμενο να παρουσιάσουν καταναλωτές με μικρή ποικιλομορφία ημερήσιων καμπυλών. Δηλαδή, ίσως για την αντιπροσωπευτική συσταδοποίηση του καταναλωτή αυτού να επαρκούσαν λιγότερα cluster, γεγονός που θα προκαλούσε μία αύξηση στο συνολικό Ευκλείδιο σφάλμα. Υλοποιώντας το σενάριο αυτό, η επιλογή του βέλτιστου αριθμού cluster για τον κάθε καταναλωτή δεν ήταν αυθαίρετη, αλλά μέσω της βελτιστοποίησης του δείκτη αξιολόγησης του αλγορίθμου Κ-mean, Euclidean, καθώς όπως αναλύθηκε σε προηγούμενη Ενότητα, μόνο ο αλγόριθμος K-means και το κριτήριο Euclidean θα χρησιμοποιηθεί για την συνέχεια. Πιο συγκεκριμένα, η βελτιστοποίηση των δύο παραπάνων κριτηρίων αξιολόγησης πραγματοποιήθηκε για διαφορετικό πλήθος επιθυμητών cluster κάθε φορά, δηλαδή από 2 εως 40 για καταναλωτές με μικρό σφάλμα, 2 εως 60 και 2 εως 80 cluster για καταναλωτές με μεσαίο και μεγάλο σφάλμα αντίστοιχα. Στη συνέχεια 63

70 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου παρατίθενται ενδεικτικά οι γραφικές παραστάσεις των δεικτών για τον αλγορίθμο K-means, για 3 καταναλωτές ενδεικτικά με σφάλμα 4.65, και Με την αύξηση των επιθυμητών cluster, μειώνονται οι τιμές των συναρτήσεων Ευκλείδιου σφάλματος, κάτι που ήταν θεωρητικά αναμενόμενο λόγω της δυνατότητας ομοδοποίησης των καμπυλών σε περισσότερες ομάδες με μικρότερες αποκλίσεις από τα αντίστοιχα κέντρα. Από την συμπεριφορά του σφάλματος κρίνεται η βέλτιστη τιμή των επιθυμητών cluster για κάθε καταναλωτή, για την αναπαράσταση των τυπικών ημερήσιων χρονολογικών καμπυλών του και επιλέγεται ο αριθμός cluster μετά από τον οποίο περαιτέρω αύξηση δεν οδηγεί σε σημαντική βελτίωση του αντίστοιχου σφάλματος. Σε ίδιο αριθμό cluster θα καταλήγαμε και με την βελτιστοποίηση του δείκτη cosine όπως αναλύθηκε παραπάνω, καθώς ακολουθεί την ίδια ακριβώς συμπεριφορά βέλτιστος αριθμός cluster = 6 30 Euclidean αριθμός cluster cosine 0,023 0,0225 0,022 0,0215 0,021 0,0205 0,02 0,0195 0,019 0, αριθμός cluster Σχήμα 3.26 : Βελτιστοποίηση του δείκτη Euclidean για τον καταναλωτή 70 64

71 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου βέλτιστος αριθμός cluster = Euclidean αριθμός cluster 0,26 0,25 0,24 0,23 cosine 0,22 0,21 0,2 0,19 0,18 0, αριθμός cluster Σχήμα 3.27 : Βελτιστοποίηση του δείκτη Euclidean για τον καταναλωτή 24 65

72 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Euclidean αριθμός cluster βέλτιστος αριθμός cluster = 31 cosine 0,165 0,16 0,155 0,15 0,145 0,14 0,135 0,13 0,125 0, αριθμός cluster Σχήμα 3.28 : Βελτιστοποίηση του δείκτη Euclidean για τον καταναλωτή 46 Η παραπάνω διαδικασία επαναλήφθηκε για αρκετούς καταναλωτές με σκοπό να παρατηρηθεί η μεταβολή του βέλτιστου αριθμού cluster συναρτήση των διαφορετικών σφαλμάτων. Έτσι, έπειτα από την μελέτη της εξάρτησης μεταξύ αριθμού cluster και Ευκλείδιου σφάλματος για 30 περίπου καταναλωτές διαφόρων μορφών ημερήσιων χρονολογικών καμπυλών, δημιουργήθηκε η παρακάτω γραφική παράσταση του Σχήματος 3.29 που παριστάνει την ετεροσυσχέτιση μεταξύ των 2 μεγεθών. Εδώ, πρέπει να επισημανθεί πως στα ίδια ακριβώς συμπεράσματα κατέληξε και η μελέτη της μεταβολής του άλλου δείκτη αξιολόγησης του αλγορίθμου K-means cosine, πράγμα που συνεπάγεται 66

73 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου παρόμοιο τρόπο μεταβολής των 2 κριτηρίων αξιολόγησης συναρτήση του αριθμού των cluster. βέλτιστος αριθμός cluster 42, , , , , , ,5 10 7,5 5 2, ευκλείδιο σφάλμα καταναλωτών για 10 cluster Σχήμα 3.29 : Σχέση μεταξύ βέλτιστου αριθμού cluster και Ευκλείδιου σφάλματος για 10 cluster Το αποτέλεσμα που παριστάνεται στην παραπάνω γραφική παράσταση εφαρμόστηκε σε όλο το δείγμα των 150 καταναλωτών. Έτσι ο καθένας ανάλογα με το Ευκλείδιο σφάλμα που εμφάνισε κατά την υλοποίηση του 1 ου σεναρίου για σταθερό αριθμό cluster ίσο με 10, αλλάξε κατά το 2 ο σενάριο τον αριθμό των cluster από 10 στον βέλτιστο αριθμό σύμφωνα με τα παραπάνω κριτήρια. Λόγω της μεγάλης ποικιλομορφίας του δείγματός μας υπήρχαν καταναλωτές που ο αριθμός των cluster τους μειώθηκε, σε άλλους αυξήθηκε, ενώ σε άλλους παρέμεινε σταθερός στα 10 cluster. Έτσι, εμφανίστηκε ένα εύρος βέλτιστου αριθμού cluster από 6 για τον καταναλωτή με το μικρότερο Ευκλείδιο σφάλμα, έως 60 για την χειρότερη περίπτωση εάν προεκτείνουμε γραμμικά την παραπάνω γραφική παράσταση για μεγαλύτερα Ευκλείδια σφάλματα. Με αυτή την διαδικασία, πραγματοποιήθηκε πιθανώς πιο αντιπροσωπευτική 67

74 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου συσταδοποίηση των καταναλωτών του δείγματός μας, καθώς μπόρεσαν να παρουσιάσουν cluster που περιλαμβάνουν καμπύλες πιο κοντά στα κέντρα τους, ενώ σε άλλες περιπτώσεις πολλά παρόμοια cluster ομαδοποιήθηκαν σε ένα και τέλος άλλα μπόρεσαν να απομονώσουν καλύτερα κάποιες ανώμαλες ημέρες του χρόνου. Άμεση εξάρτηση από τις παραπάνω μεταβολές ήταν λογικό να παρουσιάσει και το ευκλείδιο σφάλμα του οποίου η τιμή μεταβλήθηκε. Πιο συγκεκριμένα αυξήθηκε με την μείωση των cluster και μειώθηκε για καταναλωτές που μετέβαλαν τα cluster τους απο 10 σε περισσότερα. Όλα τα παραπάνω συνοψίζονται στα παρακάτω Σχήματα 3.30 και 3.31 για το σύνολο του δείγματος των καταναλωτών. 400, ,000 Ευκλείδιο σφάλμα 300, , , , , cluster Νέα cluster 50,000 0, αριθμός καταναλωτή Σχήμα 3.30 : Ευκλείδιο σφάλμα για 10 και τον βέλτιστο αριθμό cluster για κάθε καταναλωτή Σύμφωνα με το παραπάνω Σχήμα, το Ευκλείδιο σφάλμα για την υλοποίηση του σεναρίου με τα 10 cluster είναι μικρότερο απ ότι στο 2 ο σενάριο για τον βέλτιστο αριθμό cluster ανά καταναλωτή, για τους καταναλωτές που παρουσίαζαν μικρά μόνο σφάλματα, ενώ το αντίθετο ισχύει για τους καταναλωτές που εμφάνιζαν μεγάλα σφάλματα για 10 cluster, δηλαδή το Ευκλείδιο σφάλμα τους μειώθηκε. 68

75 Κεφάλαιο 3ο Εκτέλεση συσταδοποίησης βάσει χρόνου Νέος αριθμός cluster 45 αριθμός καταναλωτή Σχήμα : Ο βέλτιστος αριθμός cluster κάθε καταναλωτή Τέλος παρουσιάζονται οι απεικονίσεις των ημερήσιων χρονολογικών καμπυλών 4ων ενδεικτικών καταναλωτών με τον βέλτιστο αριθμό cluster, με την χρήση του αλγορίθμου K-means K και του κριτηρίου αξιολόγησης Euclidean Euclidean. Σχήμα : Clustering καταναλωτή 70 με αριθμό cluster 6 69

76 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Σχήμα 3.33 : Clustering καταναλωτή 24 με αριθμό cluster 15 Σχήμα 3.34 : Clustering καταναλωτή 129 με αριθμό cluster 15 70

77 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Σχήμα 3.35 : Clustering καταναλωτή 46 με αριθμό cluster ο σενάριο: Μακρο-κατηγοριοποίηση και συσταδοποίηση Λόγω της μεγάλης ποικιλομορφίας των ημερήσιων χρονολογικών καμπυλών του συνόλου του δείγματος των καταναλωτών, προέκυψαν αρκετές διακυμάνσεις του ευκλείδιου σφάλματος για τον καθένα για τον ίδιο αριθμό cluster (1 ο σενάριο). Επίσης πολλές διαφορές εμφανίστηκαν και στον υπολογισμό του βέλτιστου αριθμού cluster μεταξύ των καταναλωτών, που υλοποιήθηκε στο 2 ο σενάριο. Ως 3 ο σενάριο προτάθηκε η επεξεργασία του δείγματος αφού πρώτα έχει υποστεί μακρο-κατηγοριοποίηση, δηλαδή ομοδοποίηση των καταναλωτών με βάση τα φορτία που παρουσίαζαν. Τα μέσα ετήσια φορτία του συνόλου των καταναλωτών παρουσιάζονται σε στο Σχήμα Ο καταναλωτής 36 είναι αυτός με το μέγιστο ετήσιο φορτίο και η γραφική του παράσταση φτάνει μέχρι τα 1417 kw, και έχει παραληφθεί για ποιοτικότερη απεικόνιση των υπολοίπων καταναλωτών. 71

78 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου 550,00 500,00 450,00 Μέσο ετήσιο φορτίο (KW) 400,00 350,00 300,00 250,00 200,00 150,00 100,00 50,00 0, αριθμός καταναλωτή Σχήμα 3.36 : Μέσο ετήσιο φορτίο των καταναλωτών Με βάση αυτή την εικόνα πραγματοποιήθηκε ο διαχωρισμός των καταναλωτών με κριτήριο το μέσο ετήσιο φορτίο τους σε 5 ομάδες. Οι ομάδες αυτές είχαν εύρος από 0-5 kw, 5-10 kw, kw, kw και kw. Πολυπλυθέστερη από τις ομάδες αυτές ήταν η πρώτη, δηλαδή από 0-5 kw, καθώς αριθμούσε 55 καταναλωτές. Λιγότεροι καταναλωτές εμφανίστηκαν στις 2 μεγαλύτερες ομάδες με βάση το μέσο ετήσιο φορτίο τους, όπου συμπεριλήφθησαν 9 και 10 καταναλωτές αντίστοιχα. Επίσης οι ομαδες 5-10 kw και kw αριθμούσαν 42 και 34 καταναλωτές αντίστοιχα η καθεμία. Ο σκοπός της κατηγοριοποίησης ήταν η εμφάνιση ομάδων όπου θα παρουσίαζαν παρόμοιες ημερήσιες χρονολογικές καμπύλες. Έγινε η θεώρηση ότι υπάρχει εξάρτηση της συμπεριφοράς του καταναλωτή στην διάρκεια μιας ημέρας ανάλογα με το μέσο φορτίο του. Έτσι θα ήταν δυνατή η κατηγοριοποίηση κάθε ομάδας καταναλωτών με παρόμοιο φορτίο με τον ίδιο αριθμό cluster. Αυτό όμως δεν επαληθεύτηκε από τα αποτελέσματα που προέκυψαν, καθώς παρουσιάστηκε μεγάλο εύρος Ευκλείδιων σφαλμάτων, όπως είχαν καταγραφεί από τη συσταδοποίηση των καταναλωτών για 10 cluster, σε κάθε μία από τις παραπάνω ομάδες. Ενδεικτικά παρουσιάζονται παρακάτω, τα Ευκλείδια σφάλματα των καταναλωτών όπως ομαδοποιήθηκαν σε 2 από αυτές τις ομάδες. 72

79 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου Ευκλείδιο σφάλμα 10 cluster ΚW καταναλωτές Σχήμα 3.37 : Σύνολο ευκλείδιων σφαλμάτων για 10 cluster καταναλωτών ομάδας 0-5 kw Ευκλείδιο σφάλμα ( 10 cluster) ΚW καταναλωτές Σχήμα 3.38 : Σύνολο ευκλείδιων σφαλμάτων για 10 cluster καταναλωτών ομάδας kw To συμπέρασμα που προέκυψε είναι ότι υπάρχουν καταναλωτές με πολύ μικρό φορτίο (οικιακοί), που μπορούν να εμφανίσουν πολλές όμοιες ημερήσιες χρονολογικές καμπύλες στην διάρκεια του έτους, αλλά και άλλοι με παρόμοια επίπεδα φορτίου που μπορούν να εμφανίσουν εντελώς διαφορετική συμπεριφορά, με πάρα πολλές διαφορετικές καμπύλες από ημέρα σε ημέρα. Το ίδιο ισχύει και για καταναλωτές του δείγματός μας με μεσαία και μεγάλα μέσα ετήσια φορτία. Δηλαδή, η μακρο-κατηγοριοποίηση έχει μεγάλη εξάρτηση από το ίδιο το δείγμα των καταναλωτών. 73

80 Κεφάλαιο 3 ο Εκτέλεση συσταδοποίησης βάσει χρόνου 74

81 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών 75

82 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών 4.1 Εισαγωγή Μετά την ολοκλήρωση της κατηγοριοποίησης όλων των καταναλωτών βάσει χρόνου, ακολουθεί το επόμενο στάδιο της μελέτης των καταναλωτών. Πλέον, έχει παραχθεί μία σαφή εικόνα της ηλεκτρικής συμπεριφοράς των καταναλωτών στην διάρκεια του έτους, για όλες τις δυνατές περιπτώσεις ημερών που μπορεί να εμφανιστούν. Στο παρών Κεφάλαιο, πραγματοποιείται μία λεπτομερής περιγραφή και ανάλυση της διαδικασίας που έλαβε χώρα ώστε να επιτευχθεί νέα συσταδοποίηση μεταξύ των 150 καταναλωτών. Εφόσον επιλεχτεί μία αντιπροσωπευτική καμπύλη για τον καθένα, στόχος είναι η δημιουργία ομάδων καταναλωτών με κοινά χαρακτηριστικά στην ζήτηση ισχύος κατά την διάρκεια του έτους. Για την εκτέλεση της κατηγοριοποίησης έγινε χρήση του αλγορίθμου Κ-means, σε συνδυασμό με το κριτήριο της Ευκλείδιας απόστασης, όπως έχει διαπιστευτεί σε προηγούμενη Ενότητα, με απώτερο στόχο τη παραγωγή των βέλτιστων δυνατών αποτελεσμάτων συσταδοποίησης. 4.2 Επιλογή αντιπροσωπευτικής καμπύλης Αρχικά, πριν ξεκινήσει η διαδικασία εκτέλεσης της κατηγοριοποίησης των καταναλωτών, είναι απαραίτητη η διαμόρφωση των αρχείων εισόδου στο Matlab προς επεξεργασία. Είναι προφανές πως για να επιτευχθεί μία αξιόπιστη κατηγοριοποίηση των πελατών στην οποία η κάθε ομάδα θα περιέχει καταναλωτές που εμφανίζουν κοινά χαρακτηριστικά στην ηλεκτρική τους συμπεριφορά, θα πρέπει το κάθε πρότυπο εισόδου να αντικατοπτρίζει την πραγματική εικόνα του πελάτη που αντιπροσωπεύει. Έτσι δημιουργήθηκε το ερώτημα τι θα πρέπει να ληφθεί ως αντιπροσωπευτικό πρότυπο για κάθε καταναλωτή, έτσι ώστε να γίνει όσο πιο πιστά μπορεί η αναπαράσταση της συμπεριφοράς του. Στην κατηγοριοποίηση βάσει χρόνου, ως είσοδος στους αλγορίθμους του Matlab χρησιμοποιήθηκε η ημερήσια χρονολογική καμπύλη του εκάστοτε καταναλωτή, η οποία αντιπροσώπευε την αντίστοιχη ημέρα. Άρα χρησιμοποιήθηκαν 365 είσοδοι για την αναπαράσταση ενός έτους για καθέναν καταναλωτή. Στην κατηγοριοποίηση βάσει πελάτη όμως, ως είσοδοι θα δοθούν 150 αντιπροσωπευτικές καμπύλες της ηλεκτρικής συμπεριφοράς καθενός καταναλωτή ξεχωριστά, στην διάρκεια του έτους, ομαδοποιημένες σε ένα αρχείο.txt με κατακόρυφο άξονα τις αντιπροσωπευτικές καμπύλες των 150 καταναλωτών και οριζόντιο τις 24 ώρες. Με τον τρόπο αυτό θα γίνει ομαδοποίησή τους σε συστάδες λόγω κάποιων κοινών χαρακτηριστικών που θα παρουσιάσουν. Η εύρεση της αντιπροσωπευτικής καμπύλης και η απάντηση στο παραπάνω ερώτημα δεν μπορεί να δοθεί με απόλυτη βεβαιότητα, καθώς οι 76

83 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών καταναλωτές του δείγματός μας εμφανίζουν σημαντικές διαφορές ως προς τον τρόπο λειτουργίας τους, όσο αναφορά τις ώρες και τις μέρες ζήτησης φορτίου. Σίγουρα οι προβληματικές ή ανώμαλες ημέρες δεν μπορούν να αναπαραστήσουν αποτελεσματικά την ηλεκτρική συμπεριφορά ενός καταναλωτή στην διάρκεια του έτους. Για αυτόν τον λόγο δημιουργήθηκαν 4 διαφορετικά κριτήρια επιλογής αντιπροσωπευτικής καμπύλης, με σκοπό την βέλτιστη αναπαράσταση της ηλεκτρικής συμπρειφοράς ενός καταναλωτή. Στη συνέχεια πραγματοποιήθηκε ξεχωριστά συσταδοποίηση του συνόλου του δείγματος, για καθένα από τα κριτήρια αυτά. Η επιλογή των αντιπροσωπευτικών καμπυλών κάθε καταναλωτή, βασίζεται στην υλοποίηση των σεναρίων 1 και 2 του προηγούμενου σταδίου που αφορά την κατηγοριοποίησή τους βάσει χρόνου, καθώς επιλέγεται ένα cluster, με τις ημερήσιες χρονολογικές καμπύλες που περιέχει ως αντιπροσωπευτικό για τον καθένα, με κάποιο από τα παρακάτω κριτήρια : Κριτήριο πληθυσμού: Ως αντιπροσωπευτική καμπύλη επιλέγεται το κέντρο του cluster καθενός καταναλωτή, το οποίο περιέχει τις περισσότερες σε αριθμό ημέρες ( πολυπληθέστερο cluster ) Κριτήριο ενέργειας: Ως αντιπροσωπευτική καμπύλη επιλέγεται το κέντρο του cluster καθενός καταναλωτή, το οποίο περιέχει την ημέρα που εμφανίζει την μεγαλύτερη κατανάλωση ενέργειας, δηλαδή η καμπύλη που περικλείει με τον άξονα του χρόνου το μεγαλύτερο εμβαδόν. Κριτήριο ισχύος: Ως αντιπροσωπευτική καμπύλη επιλέγεται το κέντρο του cluster καθενός καταναλωτή, που περιλαμβάνει την ημέρα που εμφανίζει την μεγαλύτερη ζήτηση ισχύος στην διάρκεια του έτους (peak). Κριτήριο μέσης ημέρας καμπύλης: Ως αντιπροσωπευτική καμπύλη επιλέγεται ο μέσος όρος όλων των ημερήσιων χρονολογικών καμπυλών για κάθε καταναλωτή στην διάρκεια του έτους. Εδώ θα πρέπει να επισημανθεί πως υπάρχουν καταναλωτές των οποίων η πολυπληθέστερη καμπύλη είναι μία σχετικά σταθερή γραφική παράσταση με πολύ χαμηλές τιμές. Αυτό μπορεί να συμβαίνει καθώς είναι δυνατό να επιλέχθηκαν ως πολυπληθέστερες καμπύλες αυτών των καταναλωτών αυτές που αντιστοιχούν στα Σαββατοκύριακα. Αποφασίστηκε η μη αλλαγή της επιλογής αυτής, έτσι ώστε το δείγμα να είναι όσο το δυνατόν αντιπροσωπευτικότερο της πραγματικής κατάστασης. Επίσης, είναι αναμενόμενο ότι τέτοιες συμπεριφορές να ομαδοποιηθούν σε ίδια cluster με παρόμοιους καταναλωτές. Επιπλέον, θα πρέπει να επισημανθεί πως το cluster που επιλέχθηκε με το κριτήριο ενέργειας και περιέχεται σε αυτό η καμπύλη που περικλείει με τον άξονα του χρόνου το μεγαλύτερο εμβαδόν, είναι προφανές ότι θα έχει ομαδοποιηθεί μαζί της καμπύλες με παρόμοια συμπεριφορά, δηλαδή με αυτές που εμφανίζουν μεγάλη κατανάλωση ενέργειας. Αντιθέτως, δεν είναι απαραίτητο το cluster που περιλαμβάνει την καμπύλη του peak, δηλαδή μέγιστης ισχύος του έτους (1p.u.), να περιέχει παρόμοιας συμπεριφοράς καταναλωτές πάντα, ή είναι πιθανό να βρίσκεται και μόνο μία ημέρα σε αυτό. 77

84 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών Τέλος, για την εύρεση της αντιπροσωπευτικής καμπύλης για το 4 ο κριτήριο, το κριτήριο μέσης ημερήσιας καμπύλης, δεν χρειάστηκε να υποστούν οι καταναλωτές την συσταδοποίηση βάσει χρόνου του 1 ου σταδίου, καθώς μέσω της Fortran υπολογίστηκε ο συνολικός μέσος όρος των τιμών του ηλεκτρικού φορτίου για κάθε ώρα στην διάρκεια του έτους και στην συνέχεια προέκυψε ως αντιπροσωπευτική καμπύλη κάθε καταναλωτή το άθροισμα αυτών. Μελετώντας τα αποτελέσματα της επιλογής ως αντιπροσωπευτικής καμπύλης για έναν καταναλωτή με βάση τα 3 πρώτα κριτήρια, προέκυψαν πολλές φορές καταναλωτές των οποίων το κέντρο ενός cluster τους να πληροί παραπάνω από 1 κριτήριο ή και τα 3 μαζί. Ένα χαρακτηριστικό παράδειγμα φαίνεται στο Σχήμα 4.1 για τους πρώτους 100 καταναλωτές με την χρήση του 1 ου σεναρίου συσταδοποίησης βάσει χρόνου, δηλαδή για 10 cluster. Ισχύς Ενέργεια Πολυπληθέστερη αριθμός καταναλωτή αριθμός cluster Σχήμα 4.1: Επιλογή αντιπροσωπευτικού κέντρου cluster για τα 3 κριτήρια 78

85 Κεφάλαιο 4ο Εκτέλεση συσταδοποίησης βάσει πελατών ίδιο cluster για πολυπληθέστερη και ενέργεια 3% κανενα όμοιο cluster 38% ίδιο cluster για ενέργεια και ισχύ 55% ίδια cluster και στα 3 κριτήρια 1% ίδιο cluster για πολυπληθέστερη και ισχύ 3% Σχήμα 4.2: Επιλογή ίδιων κέντρων cluster ως αντιπροσωπευτικών για τα 3 κριτήρια Από το παραπάνω Σχήμα χήμα παρατηρούμε πως στο 55% των καταναλωτών του δείγματός μας, η ημερήσια καμπύλη που περιλαμβάνει την μέγιστη ενέργεια και η αντίστοιχη για την μέγιστη ισχύ βρίσκονται στο ίδιο cluster μετά από την συσταδοποίηση στο προηγούμενο στάδιο με την υλοποίηση του το 1ου σεναρίου. 4.3 Εκτέλεση κατηγοριοποίησης Έχοντας διαμορφώσει τα αρχεία εισόδου με τις αντιπροσωπευτικές ημερήσιες καμπύλες των φορτίων των καταναλωτών, χρησιμοποιήθηκε ο αλγόριθμος συσταδοποίησης K-means. Υπενθυμίζεται πως ο αλγόριθμος αυτός σε συνδιασμό με το κριτήριο αξιολόγησης Euclidean,, δίνουν το βέλτιστο αποτέλεσμα συσταδοποίησης των δεδομένων, δηλαδή cluster των οποίων οι καμπύλες δεν απέχουν πολύ από τα αντίστοιχα κέντρα τους. Έτσι πραγματοποιήθηκε η συσταδοποίηση των αντιπροσωπευτικών κέντρων των καταναλωτών που επιλέχθηκαν σύμφωνα με τα 4 κριτήρια από τα cluster που προέκυψαν για τον καθένα, με βάση το 1ο αλλά και το 2ο σενάριο. σενάριο Άρα καθένα από τα 3 πρώτα κριτήρια, εφαρμόστηκε για 2 διαφορετικές κατηγοριοποιήσεις των ημερών του ίδιου καταναλωτή, οπότε προέκυψαν 2 αντιπροσωπευτικές καμπύλες για κάθε κριτήριο, ανάλογα με το σενάριο του προηγούμενου σταδίου συσταδοποίησης των καταναλωτών, καταναλωτών βάσει του χρόνου. Η 1η αντιπροσωπευτική αντιπροσ ου καμπύλη αναφέρεται στη συσταδοποίηση του 1 σεναρίου (10 clusters) clusters ενώ η η ου 2 στη συσταδοποίηση του 2 σεναρίου (βέλτιστος αριθμός clusters). clusters 79

86 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών Συσταδοποίηση βάσει πελατών σύμφωνα με το 1 ο σενάριο Ακολουθώντας την διαδικασία που περιγράφηκε παραπάνω με την βοήθεια της Fortran βρέθηκαν ποια από τα 10 cluster κάθε καταναλωτή είναι πολυπληθέστερα, ή περιέχουν την καμπύλης της μέγιστης ενέργειας ή ισχύος. Στη συνέχεια απομονώθηκαν τα κέντρα τους και συλλέχθησαν οι 150 καταναλωτές κάθε κατηγορίας μαζί σε ένα αρχείο εισόδου και εκτελέστηκε ο αλγόριθμος στο Matlab. Η επιλογή των αριθμών των cluster στα οποία θα χωριστούν οι καταναλωτές δεν έγινε αυθαίρετα, αλλά επιλέχθηκε βελτιστοποίηση του δείκτη αξιολόγησης της Ευκλείδιας απόσταστης για την 1 η κατηγορία, που περιέχονται οι πολυπληθέστερες καμπύλες κάθε καταναλωτή. Συγκεκριμένα υπολογίστηκε το Ευκλέιδιο σφάλμα που προκύπτει για πλήθος επιθυμητών cluster από 2 ως 60. Από τα αποτελέσματα των 2 κριτηρίων αξιολόγησης Euclidean και cosine μετά την βελτιστοποίηση του πρώτου, προκύπτουν οι ακόλουθες γραφικές παραστάσεις του Σχήματος 4.3 για τον αλγόριθμο K-means. Παρατηρείται ότι με την αύξηση των επιθυμητών cluster, μειώνονται οι τιμές των δεικτών της Ευκλείδιας απόστασης και της απόστασης cosine, κάτι που ήταν θεωρητικά αναμενόμενο λόγω της δυνατότητας ομοδοποίησης των καταναλωτών σε περισσότερες ομάδες με μικρότερες αποκλίσεις από τα αντίστοιχα κέντρα. Από την συμπεριφορά των δεικτών κρίνεται ικανοποιητική η χρήση 15 επιθυμητών cluster για την αναπαράσταση των τυπικών ημερήσιων χρονολογικών καμπυλών των καταναλωτών με βάση την ηλεκτρική τους συμπεριφορά, αφού περαιτέρω αύξηση δεν οδηγεί σε σημαντική βελτίωση του αντίστοιχου δείκτη. Επιπροσθέτως θεωρώντας την κατηγορία της πολυπληθέστερης καμπύλης ως αντιπροσωπευτική επιλέγεται ο αριθμός των 15 cluster να εφαρμοστεί και για την υλοποίηση των άλλων 2 κριτηρίων, ενέργειας και ισχύος. Σε ίδιο αριθμό cluster θα καταλήγαμε και με την βελτιστοποίηση του δείκτη cosine όπως αναλύθηκε στο προηγούμενο κεφάλαιο, καθώς ακολουθεί την ίδια ακριβώς συμπεριφορά. Euclidean αριθμός cluster 80

87 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών 0,175 0,17 0,165 cosine 0,16 0,155 0,15 0,145 0, αριθμός cluster Σχήμα 4.3: Βελτιστοποίηση ως προς δείκτη Euclidean του αλγορίθμου K-means Τα αποτελέσματα της συσταδοποίησης των καταναλωτών προκύπτουν για 15 cluster απεικονίζονται γραφικά και παρουσιάζονται στα παρακάτω Σχήματα και για τα 3 κριτήρια. Σχήμα 4.4: Συσταδοποίηση των καταναλωτών σε 15 clusters. Η αντιπροσωπευτική καμπύλη των καταναλωτών είναι η καμπύλη του πολυπληθέστερου cluster. 81

88 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών αριθμός καταναλωτή cluster Σχήμα 4.5: Κατανομή των καταναλωτών στα διάφορα cluster. Ο κάθετος άξονας αναφέρεται στον αριθμό του καταναλωτή του αρχικού δείγματος. Σχήμα 4.6: Συσταδοποίηση των καταναλωτών σε 15 clusters. Η αντιπροσωπευτική καμπύλη των καταναλωτών είναι η καμπύλη της μέγιστης ενέργειας. 82

89 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών αριθμός καταναλωτή cluster Σχήμα 4.7: Κατανομή των καταναλωτών στα διάφορα cluster Σχήμα 4.8: Συσταδοποίηση των καταναλωτών σε 15 clusters. Η αντιπροσωπευτική καμπύλη των καταναλωτών είναι η καμπύλη που αναφέρεται στην αιχμή του φορτίου. 83

90 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών αριθμός καταναλωτή cluster Σχήμα 4.9: Κατανομή των καταναλωτών στα διάφορα cluster Μελετώντας τα αποτελέσματα της συσταδοποίησης μπορεί να παρατηρηθεί μία πολύ καλή ομαδοποίηση με βάση το γραφική απεικόνιση που προκύπτει. Επίσης, παρατηρείται πως το τελευταίο cluster της συσταδοποίησης για την πολυπληθέστερη καμπύλη περιέχει τιμές κοντά στο 0, κάτι που μεταφράζεται πως ομαδοποιήθηκαν καταναλωτές με αντιπροσωπευτική καμπύλη πιθανώς τα Σαββατοκύριακα. Επιπλέον, είναι καλό να επισημανθεί πως τα ηλεκτρικά φορτία των καταναλωτών είναι σε p.u. όπως και στο προηγούμενο στάδιο, καθώς δεν παίζει ρόλο στην κατηγοριοποίηση που επιλέχθηκε να υλοποιηθεί η τιμή του φορτίου των καταναλωτών, αλλά η μορφή των ημερήσιων καμπυλών στο χρόνο. Επίσης, υπάρχει η πιθανότητα στα κριτήρια 2 και 3 να έχει επιλεγεί cluster το οποίο να περιέχει μόνο μία μέρα αιχμής και να μην αντιπροσωπεύει μία ομάδα καμπυλών. Τέλος, εμφανίζονται καταναλωτές οι οποίοι έχουν ομαδοποιηθεί μαζί με βάση και τα 3 αυτά κριτήρια ή σε 2 από τα κριτήρια αυτά Συσταδοποίηση βάσει πελατών σύμφωνα με το 2 ο σενάριο Στη συνέχεια ακολουθώντας την ίδια διαδικασία με παραπάνω, πάλι με την βοήθεια της Fortran βρέθηκαν ποια τα βέλτιστα cluster κάθε καταναλωτή, που έχουν υπολογιστεί κατά την υλοποίηση του 2 ου σεναρίου στο προηγούμενο στάδιο, είναι η καμπύλη του πολυπληθέστερου cluster, ή περιέχουν την 84

91 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών καμπύλης της μέγιστης ενέργειας ή ισχύος. Στη συνέχεια απομονώθηκαν και πάλι τα κέντρα τους και συλλέχθηκαν οι 150 καταναλωτές κάθε κατηγορίας μαζί σε ένα αρχείο εισόδου και εκτελέστηκε ο αλγόριθμος στο Matlab. Η επιλογή των αριθμών των cluster στα οποία θα χωριστούν οι καταναλωτές και αυτή την φορά δεν έγινε αυθαίρετα, αλλά επιλέχθηκε μέσω της βελτιστοποίησης του δείκτη αξιολόγησης της ευκλείδιας απόσταστης για καθένα από τα 3 κριτήρια, δηλαδή για συσταδοποίηση των πολυπληθέστερων καμπυλών, μέγιστης ενέργειας και ισχύος των καταναλωτών. Συγκεκριμένα υπολογίστηκε το Ευκλείδιο σφάλμα που προκύπτει για πλήθος επιθυμητών cluster από 2 ως 60 για το κριτήριο της πολυπληθέστερης και από 2 ως 80 για τα άλλα 2 κριτήρια. Από τα αποτελέσματα των 2 κριτηρίων αξιολόγησης Euclidean και cosine μετά την βελτιστοποίηση του πρώτου, παρατίθονται σε παρακάτω Σχήματα για την κάθε περίπτωση ξεχωριστά. Από την συμπεριφορά των δεικτών κρίνεται ικανοποιητική η χρήση 15 επιθυμητών cluster στην περίπτωση του πολυπληθέστερου κριτηρίου, 30 για την περίπτωση του κριτηρίου της μέγιστης ενέργειας όπως επίσης και για το κριτήριο της μέγιστης ισχύος. Αυτή η διαδικασία εφαρμόστηκε ως συνέχεια της ίδιας ρουτίνας που πραγματοποιήθηκε κατά την υλοποίηση αντίστοιχα του 2 ου σεναρίου συσταδοποίησης των καταναλωτών βάσει χρόνου. Έτσι κάθε κατηγορία από τις τρεις υλοποιείται πλέον με τον βέλτιστο αριθμό cluster όπως προκύπτει από την μελέτη της συμπεριφοράς του αντίστοιχου Ευκλείδιου σφάλματος. Euclidean αριθμός cluster 85

92 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών 0,195 0,19 0,185 cosine 0,18 0,175 0,17 0,165 0, αριθμός cluster Σχήμα 4.8: Βελτιστοποίηση ως προς δείκτη Euclidean του αλγορίθμου K-means για το κριτήριο της καμπύλης του πολυπληθέστερου cluster Euclidean αριθμός cluster 86

93 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών 0,053 0,048 0,043 cosine 0,038 0,033 0,028 0,023 0, αριθμός cluster Σχήμα 4.9: Βελτιστοποίηση ως προς τον δείκτη Euclidean του αλγορίθμου K-means για το κριτήριο της καμπύλης της μέγιστης ενέργειας Euclidean αριθμός cluster 87

94 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών cosine 0,07 0,065 0,06 0,055 0,05 0,045 0,04 0,035 0,03 0,025 0, αριθμός cluster Σχήμα 4.10: Βελτιστοποίηση ως προς τον δείκτη Euclidean του αλγορίθμου K-means για το κριτήριο της μέγιστης ισχύος 88

95 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών Σχήμα 4.11: Συσταδοποίηση των καταναλωτών σε 15 cluster. Πρόκειται για το 2 ο σενάριο που αναφέρεται στο βέλτιστο αριθμό clusters. Η αντιπροσωπευτική καμπύλη των καταναλωτών είναι η καμπύλη του πολυπληθέστερου cluster. Σχήμα 4.12: Συσταδοποίηση των καταναλωτών σε 30 cluster. Πρόκειται για το 2ο σενάριο που αναφέρεται στο βέλτιστο αριθμό clusters. Η αντιπροσωπευτική καμπύλη των καταναλωτών είναι η καμπύλη του της μέγιστης ενέργειας. 89

96 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών Σχήμα 4.13: Συσταδοποίηση των καταναλωτών σε 30 cluster. Πρόκειται για το 2ο σενάριο που αναφέρεται στο βέλτιστο αριθμό clusters. Η αντιπροσωπευτική καμπύλη των καταναλωτών είναι η καμπύλη του της μέγιστης ισχύος. Μελετώντας τα αποτελέσματα της συσταδοποίησης βάσει πελατών του σταδίου αυτού, έχοντας λάβει όμως υπ` όψιν τα αποτελέσματα για την κατηγοριοποίηση των καταναλωτών βάσει χρόνου με τον βέλτιστο αριθμό cluster, παρατηρείται μία ποιοτική ομαδοποίηση των καταναλωτών με κοινά ηλεκτρικά χαρακτηριστικά. Η επιλογή του κριτηρίου που θα χρησιμοποιηθεί για την κατηγοριοποίηση των καταναλωτών είτε βάσει χρόνου είτε βάσει πελατών, εξαρτάται από το είδος της έρευνας που διεξάγεται, η οποία είναι δυνατό ν αφορά εφαρμογή ή εύρεση νέων τιμολογίων που προορίζονται για τους πελάτες, καθώς και προσδιορισμό της ετήσιας τυπικής χρονολογικής καμπύλης ανά πελάτη με σκοπό τη λήψη μέτρων διαχείρισης φορτίου ή εξοικονόμησης ενέργειας. Εν συντομία, η τελική επιλογή ενός εκ των 3 ων σεναρίων εξαρτάται κατά κύριο λόγο από τις απαιτήσεις του προμηθευτή (retailer) της ηλεκτρικής ενέργειας. Συνεπώς, δεν υπάρχει κάποιο καθολικό κριτήριο που να αναφέρεται στην επιλογή της αντιπροσωπευτικής καμπύλης. Η επιλογή αυτή εξαρτάται από την αντίστοιχη εφαρμογή του load profiling. Σημαντική επίσης είναι και η ποικιλομορφία και τα χαρακτηριστικά του αρχικού δείγματος των καταναλωτών. 90

97 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών Συσταδοποίηση βάσει πελατών σύμφωνα με το 4 ο σενάριο Ως 4 ο σενάριο για την εύρεση της αντιπροσωπευτικής καμπύλης ενός καταναλωτή χρησιμοποιήθηκε η εύρεση του μέσου όρου των φοτίων όλων των ημερών του έτους. Με αυτή τη προσέγγιση προκύπτει μία μέση ημερήσια καμπύλη. Εδώ δεν λαμβάνει η χώρα η συσταδοποίηση του 1 ου σταδίου, δηλαδή η ομαδοποίηση ημερήσιων χρονολογικών καμπυλών του καταναλωτή. Για τον λόγο αυτό βρέθηκε με την βοήθεια της Fortran ένα μέσο ηλεκτρικό φορτίο για κάθε ώρα του καταναλωτή στη διάρκεια του έτους και στη συνέχεια προστέθηκαν οι 24 ώρες για να προκύψει η αντιπροσωπευτική καμπύλη μέσης ημέρας του καταναλωτή. Με τον τρόπο αυτό σημιουργήθηκε ένα αρχείο.txt με 24 ώρες στον οριζόντιο άξονα και τις αντιπροσωπευτικές καμπύλες των 150 καταναλωτών στον κατακόρυφο άξονα. Έτσι, δεν ήταν αναγκαίο να πραγματοποιηθεί συσταδοποίηση βάσει χρόνου του 1 ου σταδίου για την υλοποίηση του κριτηρίου αυτού. Η εύρεση του βέλτιστου αριθμού των cluster στα οποία θα ομαδοποιηθούν οι καταναλωτές έγινε έπειτα από βελτιστοποίηση του Ευκλείδιου δείκτη για το παραπάνω δείγμα που προέκυψε. Ως βέλτιστος αριθμός cluster στην περίπτωση αυτή υπολογίστηκε ο αριθμός 15 σύμφωνα με το Σχήμα Τα αποτελέσματα που προέκυψαν παρατίθενται στα σχήματα 4.15 και Euclidean αριθμός cluster 91

98 Κεφάλαιο 4 ο Εκτέλεση συσταδοποίησης βάσει πελατών 0,085 0,08 0,075 cosine 0,07 0,065 0,06 0,055 0, αριθμός cluster Σχήμα 4.14: Βελτιστοποίηση ως προς δείκτη Euclidean του αλγορίθμου K-means για το 4 ο κριτήριο Σχήμα 4.15: Clustering καταναλωτών με βάση το μέσο ετήσιο προφίλ 92

Δείτε περισσότερα