Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 17 ου Πανελληνίου Συνεδρίου Στατιστικής (2004), σελ. 67-74 ΣΤΑΤΙΣΤΙΚΕΣ ΤΕΧΝΙΚΕΣ ΓΙΑ ΤΗΝ ΑΞΙΟΛΟΓΗΣΗ ΕΥΡΕΤΙΚΩΝ ΑΛΓΟΡΙΘΜΩΝ Κ. Π. Αναγνωστόπουλος Λ. Κώτσικας Τµήµα Μηχανικών Παραγωγής & ιοίκησης Πολιτικός Μηχανικός,.Π.Θ. Υποψήφιος ιδάκτορας.π.θ. ΠΕΡΙΛΗΨΗ Ο εντοπισµός πληθώρας NP-hard προβληµάτων και η µεγάλη πρακτική τους σηµασία οδήγησαν σε εκρηκτική ανάπτυξη ευρετικών αλγορίθµων για την επίλυσή τους. Πολλοί διαφορετικοί ευρετικοί αλγόριθµοι προτείνονται για το ίδιο πρόβληµα. Ως εκ τούτου τίθεται το πρόβληµα της αξιολόγησής τους, η οποία αναφέρεται αφενός στην ποιότητα των παρεχόµενων λύσεων και αφετέρου στον απαιτούµενο υπολογιστικό χρόνο για τoν εντοπισµό τους. Η παρούσα εργασία εστιάζεται σε ορισµένες ειδικές στατιστικές τεχνικές, οι οποίες µόνον περιστασιακά έχουν χρησιµοποιηθεί για την εµπειρική αξιολόγηση των ευρετικών αλγορίθµων. ΕΙΣΑΓΩΓΗ Εξαιτίας του µεγάλου αριθµού NP-hard προβληµάτων προβλήµατα βελτιστοποίησης για τα οποία εκτιµάται ότι δεν υπάρχει αλγόριθµος ο οποίος θα βρίσκει τη βέλτιστη λύση σε πολυνωµιακά φραγµένο χρόνο που έχουν εντοπιστεί την περασµένη τριακονταετία, η αξιολόγηση ευρετικών αλγορίθµων έχει αναδειχθεί σε µείζον θέµα της συνδυαστικής βελτιστοποίησης (Aarts & Lenstra 1997, Rardin & Uzsoy 2001, Reeves 1996). Eυρετικός αλγόριθµος είναι µια υπολογιστική τεχνική η οποία, δίχως να εξασφαλίζει την εύρεση της βέλτιστης λύσης, εντοπίζει ικανοποιητικές λύσεις σε αποδεκτό υπολογιστικό χρόνο. Κατά κανόνα µάλιστα δεν µπορεί να εκτιµηθεί πόσο κοντά στη βέλτιστη είναι µια τέτοια λύση. εδοµένου ότι για το ίδιο πρόβληµα προτείνονται διάφοροι ευρετικοί αλγόριθµοι, τίθεται θέ- µα αξιολόγησής τους τόσο ως προς την ποιότητα των λύσεων που παρέχουν, όσο και ως προς τον απαιτούµενο υπολογιστικό χρόνο για τον εντοπισµό τους. 67
Στην εργασία γίνεται µια σύντοµη επισκόπηση διαθέσιµων στατιστικών τεχνικών και µεθόδων που µπορούν να εφαρµοστούν κατά την εµπειρική διερεύνηση των ευρετικών αλγορίθµων, καθώς και για τη σύγκριση των αποδόσεών τους. Οι τεχνικές αυτές εφαρµόστηκαν πρόσφατα σε ευρετικές για προβλήµατα χρονοπρογραµµατισµού έργων (Anagnostopoulos & Kotsikas 2002, Αναγνωστόπουλος & Κώτσικας 2003). Η ΑΞΙΟΛΟΓΗΣΗ ΑΛΓΟΡΙΘΜΩΝ ΩΣ ΣΤΑΤΙΣΤΙΚΟ ΠΕΙΡΑΜΑ Η διαδικασία αξιολόγησης των ευρετικών αλγορίθµων αποτελεί ένα στατιστικό πείραµα στο οποίο το µεν δείγµα των τιµών αντιστοιχεί στις λύσεις περιπτώσεων του προβλήµατος, οι δε παράγοντες του πειράµατος στις παραµέτρους του προβλήµατος και των αλγορίθµων. Παράγοντας (factor) είναι µια ελεγχόµενη µεταβλητή σε ένα πείραµα που επηρεάζει το αποτέλεσµα του πειράµατος (Montgomery 1991). Οι παράγοντες χωρίζονται σε τρεις οµάδες. α/ Παράγοντες του προβλήµατος π.χ. µέγεθος του προβλήµατος, λόγου χάρη σε ένα πρόβληµα δικτύων ο αριθµός των κλάδων και των κόµβων. β/ Παράγοντες του αλγορίθµου π.χ. κριτήριο τερµατισµού του αλγορίθµου. γ/ Παράγοντες του περιβάλλοντος στο οποίο διεξήχθη το πείραµα π.χ. ισχύς του χρησιµοποιηθέντος υπολογιστή. Ένας συνδυασµός τιµών των παραγόντων, κατά κανόνα από τις δύο πρώτες κατηγορίες, αποτελεί µια περίπτωση του προβλήµατος. Οι περιπτώσεις του προβλήµατος (το στατιστικό δείγµα) παράγονται τυχαία µέσω µιας ad hoc αλγοριθµικής διαδικασίας (γεννήτρια των τυχαίων περιπτώσεων). ΣΤΑΤΙΣΤΙΚΟΙ ΕΛΕΓΧΟΙ Μια πρώτη προσέγγιση στα αποτελέσµατα της υπολογιστικής ανάλυσης είναι ο υπολογισµός ορισµένων περιγραφικών στατιστικών. Αυτή είναι η τρέχουσα πρακτική, η οποία, µολονότι περιορίζεται κατά κανόνα στον υπολογισµό της µεσης τιµής και της τυπικής απόκλισης, σε αρκετές περιπτώσεις οδηγεί σε αρκετά σαφή συµπεράσµατα και, εν πάση περιπτώσει, είναι ένα πρώτο βήµα. εδοµένου, όµως, ότι οι περιπτώσεις του προβλήµατος παράγονται τυχαία από τη γεννήτρια των τυχαίων περιπτώσεων ή/και κατά την αλγοριθµική διαδικασία, όπως στους περισσότερους µεταευρετικούς αλγορίθµους (Aarts and Lenstra 1997, Reeves 1996) µπορούν να θεωρηθούν ως ένα τυχαίο δείγµα από τον πληθυσµό των δυνατών λύσεων και, εποµένως, µπορούν να αξιοποιηθούν για την εξαγωγή συµπερασµάτων για τον πληθυσµό. 68
Προκαταρκτικά, είναι σκόπιµο να διερευνηθεί κατά πόσον φαινόµενα που εµφανίζονται στα αποτελέσµατα να οφείλονται αποκλειστικά σε στατιστικό σφάλ- µα. Ειδικότερα, το ενδιαφέρον εστιάζεται στα εξής: α/ Αν διαφέρουν οι αλγόριθ- µοι ως προς την ποιότητα των λύσεων τους. β/ Αν υπάρχουν παράγοντες που η επίδρασή τους στην τελική λύση θα πρέπει να ληφθεί σοβαρά υπόψη ή αν υπάρχουν παράγοντες που µπορούν να παραληφθούν από τη συνέχεια της ανάλυσης. γ/ Αν υπάρχουν παράγοντες µε στατιστικά σηµαντική αλληλεπίδραση η οποία δεν µπορεί να παραληφθεί από την ανάλυση. Προς την κατεύθυνση αυτή µπορούν να εφαρµοστούν παραµετρικοί και µη παραµετρικοί έλεγχοι. Η ανάλυση διακύµανσης κατά παράγοντες (ANOVA) είναι η πρώτη τεχνική που µπορεί να παράσχει πολύτιµα συµπεράσµατα αφενός µεν το αν ένας παράγοντας επηρέασε τα αποτελέσµατα της ανάλυσης και, αφετέρου, αν οι παράγοντες αλληλεπιδρούν µεταξύ τους. Όταν υπάρχουν αµφιβολίες για την υπόθεση της κοινής διακύµανσηςχρησιµοποιείται η µέθοδος Welch ή συστήνεται να µετασχηµατιστούν τα αποτελέσµατα χρησιµοποιώντας τάξεις (ranks) (Montgomery 1991, Rardin & Uzsoy 2001): η ταξινόµηση βασίζεται σε λόγους της ποιοτητας των λύσεων, ταξινοµώντας την καλύτερη απάντηση µε την τιµή 1, τη δεύτερη καλύτερη µε την τιµή 2 κ.ο.κ., και εφαρµόζοντας την ANOVA στους αριθ- µούς των τάξεων. Γίνεται η υπόθεση ότι η µη τυχαία διαφορά στα αποτελέσµατα ενός πειράµατος οφείλεται στη διαφορά στην µέση απόδοση, σε διαφορετικά επίπεδα, των υπό εξέταση παραγόντων. Από τον έλεγχο δίνεται η σχετική σηµαντικότητα καθενός από τους παράγοντες όσον αφορά την ερµηνεία των αποτελεσµάτων της ανάλυσης. Προκειµένου να εντοπιστούν οι πληθυσµοί που διαφέρουν µεταξύ τους µπορεί να εφαρµοστεί ο έλεγχος Duncan, ενώ όταν η κατανοµή πληθυσµού δεν µπορεί να υποτεθεί γνωστή και το µέγεθος του δείγµατος είναι σχετικά µικρό µπορούν να εφαρµοστούν µη παραµετρικοί έλεγχοι (π.χ. έλεγχος Wilcoxon). Η ΧΡΗΣΙΜΟΤΗΤΑ ΩΣ ΜΕΤΡΟ ΣΥΓΚΡΙΣΗΣ Μια εναλλακτική µέθοδος αξιολόγησης είναι αυτή µε την χρήση της προσδοκώµενης χρησιµότητας, κατά την οποία επιδιώκεται να εντοπιστεί ένας αλγόριθ- µος αφενός µε καλή µέση απόδοση και, αφετέρου µε πολύ µικρή πιθανότητα να έχει κακή απόδοση σε ορισµένες περιπτώσεις του προβλήµατος (Αναγνωστόπουλος & Κώτσικας 2003, Golden & Alt 1979). Με τη χρησιµότητα τα αποτελέσµατα των αλγορίθµων τοποθετούνται πάνω σε µια διαφορετική κλίµακα που εκφράζει την τάση για διακινδύνευση, η οποία µε τη σειρά της εκφράζεται από µια συνάρτηση u η οποία είναι φθίνουσα σε σχέση µε την αποστροφή στον κίνδυνο. 69
Ο κίνδυνος αναφέρεται στη διάθεση του ερευνητή να διακινδυνεύσει επιλέγοντας έναν αλγόριθµο για τον οποίο γνωρίζει ότι υπάρχει η πιθανότητα να έχει κακή απόδοση σε κάποιες περιπτώσεις του προβλήµατος. Η διαδικασία χωρίζεται σε τρία στάδια: Για κάθε αλγόριθµο προσαρµόζεται µια Γάµα κατανοµή στο δείγµα των τιµών της ποσοστιαίας απόκλισης από το κάτω φράγµα των λύσεων του προβλήµατος. Οι τιµές των παραµέτρων b και c της κατανοµής εκτιµούνται µε τη µέθοδο των ροπών. b=(s 2 / x ) c=( x /s) 2 όπου x η µέση τιµή του δείγµατος τιµών και s η τυπική απόκλιση. (i) Επιλέγεται µια συνάρτηση χρησιµότητας της µορφής u(x) = α βe tx όπου α>0, β>0, και το t (t>0) εκφράζει την αποστροφή προς τον κίνδυνο. (ii) Χρησιµοποιώντας ως ροπογεννήτρια συνάρτηση την Ε(e tx ) = (1-bt) -c, υπολογίζεται η προσδοκώµενη χρησιµότητα Ε(u) = α β(1-bt) -c για κάθε ευρετικό αλγόριθµο και επιλέγεται ως καλύτερος εκείνος που παρέχει τη µεγαλύτερη. ΕΚΤΙΜΗΣΗ ΤΗΣ ΒΕΛΤΙΣΤΗΣ ΛΥΣΗΣ Για να αξιολογηθεί η ποιότητα των παρεχόµενων λύσεων, ένας φυσιολογικός τρόπος θα ήταν να συγκριθεί η απόκλισή τους από ένα φράγµα της βέλτιστης λύσης. Επιπλέον, ένα τέτοιο φράγµα θα µπορούσε να χρησιµοποιηθεί για να καθοριστεί ένα κριτήριο τερµατισµού του ευρετικού αλγορίθµου, µε την έννοια ότι η υπολογιστική διαδικασία θα τερµατίζεται όταν η διαφορά µεταξύ του φράγµατος και της τρέχουσας καλύτερης ευρετικής λύσης φτάνει σε ένα προκαθορισµένο ε- πιθυµητό επίπεδο. υστυχώς, ο αναλυτικός προσδιορισµός τέτοιων φραγµάτων και δύσκολος είναι και συνήθως οδηγεί σε πολύ συντηρητικές τιµές. Μια εναλλακτική µέθοδος είναι να υπολογίζεται το φράγµα διαδοχικά, χαλαρώνοντας περιορισµούς του προβλήµατος (συνήθως χρησιµοποιώντας branch and bound αλγόριθµους). Ωστόσο, πρέπει να επισηµανθεί ότι στα NP-hard προβλήµατα της συνδυαστικής βελτιστοποίησης, ο υπολογισµός «σφικτών» φραγµάτων είναι ένα εξίσου «δύσκολο» πρόβληµα µε το πρόβληµα της βελτιστοποίησης (Aarts & Lenstra 1997). εδοµένων αυτών των δυσκολιών, θεωρούµε ότι η χρήση στατιστικών τεχνικών µπορεί να αποβεί πολλαπλά χρήσιµη. 70
Στατιστική εκτίµηση µε τη θεωρία των ακραίων τιµών Η µέθοδος στηρίζεται στην υπόθεση ότι οι τιµές της αντικειµενικής συνάρτησης ενός συνδυαστικού προβλήµατος που προκύπτουν από µια αλγοριθµική διαδικασία µπορούν να περιγραφούν µε µια τυχαία µεταβλητή Χ. Με την χρήση ανεξάρτητων δειγµάτων τιµών αυτών των λύσεων εκτιµάται ένα διάστηµα εµπιστοσύνης της βέλτιστης λύσης x* του προβλήµατος. Αφετηρία της µεθόδου είναι η κατανοµή των ακραίων τιµών, όπως προσδιορίστηκε από το διατυπωµένο το 1928 θεώρηµα των Fisher και Tippet (Fisher & Tippett, 1928, Rardin & Uzsoy, 2001). Έστω N ανεξάρτητα δείγµατα τιµών µεγέθους m προερχόµενα από έναν αρχικό πληθυσµό µε συνάρτηση πυκνότητας πιθανότητας f(x) και x i (i = 1, 2,, N) η ελάχιστη τιµή σε κάθε δείγµα τιµών. Η ελάχιστη τιµή που µπορεί να πάρει η µεταβλητή Χ περιγράφεται, υπό ορισµένες προϋποθέσεις, από την ασυµπτωτική κατανοµή του Weibull που είναι ανεξάρτητη από την f(χ): ( ) C Φ(X)=C(X-A) C-1 B -C x A exp, X A B Τα Ν δείγµατα τιµών του θεωρήµατος των Fisher και Tippet µπορούν να αντικατασταθούν από N ακρότατα τα οποία προκύπτουν από την εφαρµογή ενός ευρετικού αλγορίθµου Ν φορές στο πρόβληµα ξεκινώντας από διαφορετικές αρχικές λύσεις (Golden & Alt 1979). Προϋποτίθεται η χρήση ελέγχων για να εξεταστεί τόσο η ανεξαρτησία των τιµών του δείγµατος, όσο και η προσαρµογή της κατανοµής Weibull σε αυτό. Αν οι τιµές διαταχθούν έτσι ώστε {x [1] x [2] x [N] }, δύο συνήθεις εκτιµήτριες των παραµέτρων Α και Β είναι οι εξής: 2 A = ( 2x[ 1] x[2] x[2] ) ( x[1] x[2] 2x[2] ) και B = x[0,63n + 1] A Η βέλτιστη λύση x * θα βρίσκεται στο διάστηµα ( A B ) µε πιθανότητα 1-e -N. ιάστηµα εµπιστοσύνης της βέλτιστης λύσης Είναι δυνατόν επίσης µε τη χρήση της κατανοµής Weibull να γίνει µια διαφορετική εκτίµηση του διαστήµατος εµπιστοσύνης της βέλτιστης λύσης αλλά και να θεσπιστούν κριτήρια για τον τερµατισµό ενός ευρετικού αλγορίθµου (Los & Lardinois 1982). 1. Εκτίµηση διαστήµατος εµπιστοσύνης. Στο δείγµα τιµών υπάρχει σοβαρή πιθανότητα να υπάρχουν επαναλαµβανόµενες τιµές. Αρχικά πραγµατοποιείται διαγραφή των επαναλαµβανόµενων τιµών από το δείγµα και χρησιµοποίηση των R N υπολοίπων τιµών στην παραπέρα διαδικασία. Το διάστηµα εµπιστοσύνης ε- 71
κτιµάται κατά τρεις διαφορετικούς τρόπους (επίπεδα). Η διαφορά στις µεθόδους βρίσκεται στον τρόπο σχηµατισµού του δείγµατος τιµών. Επίπεδο 1: Ο αλγόριθµος εφαρµόζεται Ν φορές στο πρόβληµα ξεκινώντας από Ν διαφορετικές αρχικές λύσεις. Η σηµειακή εκτίµηση της βέλτιστης λύσης xˆ * είναι ίση µε την παράµετρο της Α της κατανοµής Weibull. Το διάστηµα εµπιστοσύνης της βέλτιστης λύσης εκτιµάται από τη σχέση: P{x [1] - (B/S) x x [1] } 1-α όπου S = (-R/lnα) 1/C Επίπεδο 2: Το δείγµα τιµών σχηµατίζεται από την ένωση των δειγµάτων τιµών που προέκυψαν από την εφαρµογή περισσοτέρων του ενός αλγορίθµων στο πρόβληµα. Το διάστηµα εµπιστοσύνης εκτιµάται από την ανωτέρω σχέση. Επίπεδο 3: Ένας αλγόριθµος εφαρµόζεται m φορές σε ένα πρόβληµα ξεκινώντας από m διαφορετικές λύσεις και επιλέγεται η βέλτιστη λύση x E από τις m λύσεις. Η διαδικασία αυτή επαναλαµβάνεται N φορές και το δείγµα τιµών απαρτίζεται από τις τιµές {x E, [1] x E, [2] x E,[N] }. Στο επίπεδο αυτό οι επαναλαµβανόµενες τιµές δεν διαγράφονται. 2. Κριτήριο τερµατισµού των ευρετικών αλγορίθµων. Όταν έχει εφαρµοστεί έ- νας αλγόριθµος Ν φορές είναι λογικό να τίθεται το ερώτηµα, αν αξίζει να συνεχιστεί η υπολογιστική διαδικασία. Με την επόµενη επαναληπτική διαδικασία υπολογίζεται πόσες φορές θα πρέπει να εφαρµοστεί ο αλγόριθµος, προκειµένου η πιθανότητα βελτίωσης να µην είναι µικρότερη από ένα δεδοµένο επίπεδο. (i) Ορισµός i = 1. (ii) Ο αλγόριθµος εφαρµόζεται Ν i φορές και προκύπτουν Ν i τιµές. R i είναι οι διαφορετικές τιµές του δείγµατος και x i,h η τιµή της καλύτερης ευρετικής λύσης. (iii) Υπολογισµός των παραµέτρων της κατανοµής Weibull Α i, B i, C i. (iv) Επιλογή της πιθανότητας βελτίωσης α της λύσης x i,h. Υπολογισµός µε βάση την πιθανότητα α, του πλήθους Κ των νέων επαναλήψεων που θα πρέπει να πραγµατοποιηθούν. (v) Υπολογισµός της προσδοκώµενης τιµής του κέρδους Ε Κ (gain) από τις Κ ε- πιπλέον επαναλήψεις. (vi) Καθορίζεται η τιµή β i, που ορίζεται ως το επιθυµητό ποσοστό της δυνατής βελτίωσης PA της x i,h. Αν η προσδοκώµενη βελτίωση είναι µικρότερη της επιθυµητής E N+1 (gain)<β i PA(x i,h ) η διαδικασία τερµατίζεται, ειδάλλως ακολουθείται το επόµενο βήµα. (vii) Εφαρµογή του αλγορίθµου Κ φορές. Ορίζεται Ν i+1 = N i +Κ και i = i+1. Επιστροφή στο βήµα (ii). 72
ΣΥΜΠΕΡΑΣΜΑΤΑ Μολονότι έχουν αναπτυχθεί ορισµένες αναλυτικές προσεγγίσεις για την αξιολόγηση των ευρετικών αλγορίθµων, η εµπειρική αξιολόγηση µε χρήση στατιστικών τεχνικών είναι η µόνη που µπορεί να παράσχει αξιόπιστες πληροφορίες. Ωστόσο, στην πράξη η ανάλυση περιορίζεται κατά κανόνα στην εύρεση ορισµένων περιγραφικών στατιστικών µεγεθών. Στην εργασία παρουσιάστηκε ένα σύνολο ειδικών τεχνικών που µπορούν να χρησιµοποιηθούν για µια ολοκληρωµένη προσέγγιση της αξιολόγησης. Σηµειώνεται ότι, στην ίδια κατεύθυνση, οι συγγραφείς διερευνούν ήδη τη δυνατότητα αξιολόγησης των αλγορίθµων µε χρήση της Monte Carlo προσοµοίωσης. ABSTRACT The finding of many NP-hard optimization problems and their important applications have lead in an explosive development of heuristics algorithms, i.e. algorithms that seek good feasible solutions. Since many different algorithms are proposed for the same problem, the question of their evaluation is posed, i.e. how fast can solutions be obtained and how close do they come to being optimal. This paper is focused on some special statistical techniques that have being only occasionally used for the experimental evaluation of heuristics algorithms. ΑΝΑΦΟΡΕΣ Aarts, E. & Lenstra, J.K. (eds.) (1997), Local Search in Combinatorial Optimization, J. Wiley, New York. Anagnostopoulos, K. & Kotsikas, L. (2002), Experimental Evaluation of Simulated Annealing Algorithms for the Time-Cost Trade-off Problem, Operational Research (ORIJ) (accepted). Αναγνωστόπουλος, Κ. & Κώτσικας, Λ. (2003), Αξιολόγηση Αλγορίθµων µε Κριτήριο την Προσδοκώµενη Χρησιµότητα, Πρακτικά 16ο Πανελλήνιου Συνέδριου Στατιστικής, 2003 (υπό δηµοσίευση). Fisher,R. & Tippett, L. (1928), Limiting Forms of the Frequency Distribution of the Largest or Smallest Member of a Sample. Proceedings of the Cambridge Philosophical Society, 24, 180 190. Golden, B. & Alt, F.B. (1979), Interval Estimation of a Global Optimum for Large Combinatorial Problems, Naval Res. Logist. Quart, 26, 69-77. Los, M. & Lardinois, C. (1982), Combinatorial Programming, Statistical Optimization and the Optimal Transportation Network Problem, Transportation Research, 16B, 89-124. 73
Montgomery, D.C. (1991), Design and Analysis of Experiments, 3rd edn. New York: John Wiley. Rardin, R.L. & Uzsoy, R. (2001), Experimental Evaluation of Heuristic Optimization Algorithms: A Tutorial, Journal of Heuristics, 7, 261-304. Reeves, C.R. (1996), Evaluation of Heuristic Performance in C.R. Reeves (ed.), Modern Heuristic Techniques for Combinatorial Problems, McGraw-Hill, London, 304-315, 1996. 74