2011 Alexandros Panteli Department of Information and Communication Systems Engineering UNIVERSITY OF THE AEGEAN

Εξόρυξη γνώσης από δεδοµένα µε διατήρηση της ιδιωτικότητας χρησιµοποιώντας νευρωνικά δίκτυα RBF για οριζόντια κατατετµηµένα δεδοµένα σε περιβάλλον µη έµπιστων χρηστών. Η ιπλωµατική Εργασία παρουσιάστηκε ενώπιον του ιδακτικού Προσωπικού του Πανεπιστηµίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για το ίπλωµα του Μηχανικού Πληροφοριακών και Επικοινωνιακών Συστηµάτων του Αλέξανδρου Παντελή ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2010-2011

Η ΤΡΙΜΕΛΗΣ ΕΠΙΤΡΟΠΗ Ι ΑΣΚΟΝΤΩΝ ΕΠΙΚΥΡΩΝΕΙ ΤΗ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΤΟΥ ΑΛΕΞΑΝ ΡΟΥ ΠΑΝΤΕΛΗ Μαραγκουδάκης Ε., Επιβλέπων Ηµεροµηνία: 28/6/2011 Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων Κωνσταντίνου Ε., Μέλος Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων Καµπουράκης Γ., Μέλος Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2010-2011 ii

ΠΕΡΙΛΗΨΗ Η εξόρυξη γνώσης από δεδοµένα αποσκοπεί στην ανακάλυψη (ή αποκάλυψη καλύτερα) συσχετίσεων µεταξύ δεδοµένων, που δίνονται συνήθως σε µορφή πινάκων. Η εξόρυξη γνώσης µπορεί να έχει κάθε φορά διαφορετικό σκοπό, όπως την πρόβλεψη κάποιας τιµής (classification), την ταξινόµηση των δεδοµένων σε n το πλήθος κατηγοριών (clustering) και την ανακάλυψη συσχετίσεων µεταξύ δεδοµένων σε µορφή κανόνων (association rule discovery). Οι µεθοδολογίες αυτές χρησιµοποιούνται σε πάρα πολλούς τοµείς από τα οικονοµικά µέχρι την ιατρική, και σε συνδυασµό µε την ανάγκη µεγάλου όγκου δεδοµένων για υψηλή ακρίβεια των αποτελεσµάτων οδηγεί στο κρίσιµο ζήτηµα της προστασίας της ιδιωτικότητας των δεδοµένων αυτών. Για παράδειγµα αν δύο νοσοκοµεία θέλουν να δουν αν υπάρχει συσχέτιση µεταξύ κάποιων συµπτωµάτων/ασθενειών και περιβαλλοντικών αιτιών (π.χ. δίαιτα, τόπος διαµονής κ.α.), για να έχει µεγάλη ακρίβεια το µοντέλο θα πρέπει να υπολογιστεί πάνω στο σύνολο των δεδοµένων ενώ προφανώς δεν θα πρέπει το ένα νοσοκοµείο να µάθει πληροφορίες για τους ασθενείς του άλλου. Σε αυτή την εργασία παρουσιάζεται ένας αλγόριθµος πολυωνυµικής πολυπλοκότητας (O(1) σε σχέση µε τον µη ιδιωτικό υπολογισµό) για τον υπολογισµό ενός µοντέλου RBF (για όλες τα kernel) για την εξόρυξη γνώσης από δεδοµένα µεταξύ δύο χρηστών. Συγκεκριµένα το πρωτόκολλο αυτό χρησιµοποιείται για ταξινόµηση/παλινδρόµηση σε οριζόντια κατατετµηµένα δεδοµένα. Η ιδιωτικότητα των δεδοµένων του κάθε χρήστη διατηρείται χωρίς υποθέσεις για την «τιµιότητα» των χρηστών, δηλαδή δεν γίνεται υπόθεση semi-trusted εµπλεκοµένων αλλά πλήρως κακόβουλων. Στη συνέχεια παρουσιάζεται η επέκταση του πρωτοκόλλου για χρήση από Ν το πλήθος χρήστες, ανάλυση χρονικής πολυπλοκότητας και επικοινωνιακής επιβάρυνσης και µελέτη της ασφάλειας (ιδιωτικότητας) που προσφέρεται. Εν τέλει παρουσιάζονται πειραµατικά αποτελέσµατα απόδοσης του όσο αφορά την ακρίβεια/αναακληση και χρόνο εκτέλεσης χρησιµοποιώντας ένα πραγµατικό σύνολο δεδοµένων.. 2011 του Αλέξανδρου Παντελή Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ iii

ABSTRACT The purpose of data mining is the discovery of relations between data usually given in the form of matrices. Data mining methods can have a variety of purposes, such as the prediction of a value that is known to be a function of the data (classification), the grouping of the available data points to a number of groups which represent similar data points (clustering) or the discovery of rules that link data points between them (association rule discovery). The aforementioned methods are used in a wide variety of fields from economics to medicine, and combined with the need for a substantially large volume of data in order to maximize the methods accuracy, protecting the privacy of said data is a critical matter that has to be resolved. For example if two hospitals want to examine the relation between a number of symptoms and environmental factors (diet or climate for example), the predictive/association model has to be computed on the union of their data while keeping the privacy of the records of each hospital. This dissertation presents a polynomial time complexity protocol (O(1) in relation to non private computing) for the computation of the RBF network data mining model (all kernels). Specifically this protocol is used for the regression/classification on horizontally partitioned data. The privacy of each user s data is preserved without any assumptions on the honesty of the rest of the users; this is to say that the malicious model is asserted. In the first chapter an introduction to RBF networks data mining is made and related privacy preserving data mining work is presented. The final part of the first chapter is a table of definitions and notation used throughout this dissertation. The second chapter offers an analysis of the problem that needs to be solved and the difficulties that need to be surpassed. Conclusion of this chapter is that the solution is not as straightforward as it originally seems and key observations are made on the nature of the problem. Using the results from the previous chapter a privacy preserving data mining protocol for two users is presented. The second part of chapter three expands this protocol for usage by N users and concludes with an example of usage. Chapter four focuses on the time complexity and communication overhead of the proposed protocol and compares it to a non-private computation. Continuing, the next chapter, chapter five offers an analysis of how secure is the proposed protocol, beyond some small notes on availability and other security demands the majority of the chapter discusses the issue of privacy. In this chapter various parameters and a sub-protocol used by the privacy preserving protocol (as presented in chapter three) are discussed. The sixth chapter presents the expected consequences the use of the proposed protocol has on the precision/recall percentages of the final classification/regression model. Beyond empirical iv

observations a number of similar studies are referenced that show that for a variety of problems the constraints imposed by the proposed protocol have no effect on the precision/recall percentages. Chapter seven presents the experimental design and methodology used as well as the software developed that uses the proposed protocol. The data that were used for the experiments and the results obtained are also part of this chapter. Finally, the last chapter concludes this dissertation with a recapitulation of the basic features, advantages and disadvantages of the proposed protocol. This list of disadvantages can be the basis of future work on this subject and are mentioned as such. 2011 Alexandros Panteli Department of Information and Communication Systems Engineering UNIVERSITY OF THE AEGEAN v

ΕΥΧΑΡΙΣΤΙΕΣ - ΑΦΙΕΡΩΣΕΙΣ Πρωτίστως θα ήθελα να ευχαριστήσω τον επιβλέπων καθηγητή µου ρ. Εµµανουήλ Μαραγκουδάκη για την υποστήριξη, την καθοδήγηση κα την βοήθεια του κατά το ερευνητικό και το πειραµατικό µέρος αυτής της εργασίας. Λόγω της φύσης αυτής της εργασίας, η ολοκλήρωση της δεν θα ήταν δυνατή χωρίς την συµβολή του. Θέλω να ευχαριστήσω τον ρ. Γκρίτζαλη Στέφανο που µε ενέπνευσε να ασχοληθώ µε το θέµα αυτό ως διπλωµατική εργασία και για την γνώση που µου προσέφερε στα πλαίσια του µαθήµατος Ασφάλειας Πληροφοριακών & Επικοινωνιακών Συστηµάτων. Θα ήθελα επίσης να ευχαριστήσω γενικά το διδακτικό προσωπικό του Πανεπιστηµίου που µε εφοδίασαν µε την απαραίτητη γνώση και κριτική σκέψη ώστε να φέρω εις πέρας αυτή την εργασία. Ευχαριστώ τους Πολυχρόνη Μάριο και Ευαγόρου Ανδρέα για την βοήθεια τους µε την εκτέλεση των πειραµάτων και τους Καλογήρου Άννα, Κοκότση Αλέξανδρο και Ιωάννου Αλέξανδρο για την βοήθεια τους κατά την έρευνα. Τέλος, θα ήθελα να ευχαριστήσω την οικογένεια µου και τους φίλους µου για την υποστήριξη που µου έδειξαν κατά την εκπόνηση αυτής της εργασίας. -Παντελή Αλέξανδρος vi

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΠΕΡΙΛΗΨΗ iii ABSTRACT iv ΕΥΧΑΡΙΣΤΙΕΣ... vi ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ. vii ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ... ix ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ x ΚΕΦΑΛΑΙΟ 1 - ΕΙΣΑΓΩΓΗ. 1 1.1 ίκτυα συνάρτησης ακτινικής βάσης... 1 1.2 Σχετική έρευναv 4 1.3 Ορισµοί - Συµβολισµός 6 ΚΕΦΑΛΑΙΟ 2 - ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ.. 7 2.1 Υπολογισµός των w µε από κοινού υπολογισµό του πίνακα Φ. 8 2.2 Υπολογισµός των w χωρίς τον από κοινού υπολογισµό του πίνακα Φ 11 2.2.1 Παρατηρήσεις ασφάλειας.. 15 2.2.2 ιάταξη κέντρων 18 ΚΕΦΑΛΑΙΟ 3 - ΠΡΟΤΕΙΝΟΜΕΝΗ ΜΕΘΟ ΟΣ/ΠΡΩΤΟΚΟΛΛΟ 19 3.1 Πρωτόκολλο για δύο χρήστες... 19 3.2 Επέκταση για Ν το πλήθος χρήστες. 20 3.3 Παράδειγµα: Πρόβληµα XOR µεταξύ δύο χρηστών 22 ΚΕΦΑΛΑΙΟ 4 - ΥΠΟΛΟΓΙΣΤΙΚΉ ΠΟΛΥΠΛΟΚΟΤΗΤΑ. 26 4.1 Χρονική πολυπλοκότητα.. 26 4.1.1 Μη-ιδιωτικός υπολογισµός 26 4.1.2 Με χρήση προτεινόµενου πρωτοκόλλου.. 27 4.2 Επικοινωνιακή επιβάρυνση (communication overhead) 28 4.2.1 Μη-ιδιωτικός υπολογισµός 28 4.2.2 Με χρήση προτεινόµενου πρωτοκόλλου.. 29 vii

ΚΕΦΑΛΑΙΟ 5 - ΑΣΦΑΛΕΙΑ 31 5.1 ιατήρηση ιδιωτικότητας σε περιβάλλον µη-έµπιστων χρηστών 31 5.2 Επιλογή συνάρτησης ακτινικής βάσης. 32 5.3 Πρωτόκολλο επιλογής πλήθους κέντρων. 34 5.4 Ευρωστία έναντι στατιστικών επιθέσεων 38 5.4.1 Προστασία πλήθους εγγραφών.. 38 5.4.2 Προστασία εγγραφών 45 5.5 Άλλες απαιτήσεις ασφάλειας 47 5.6 Ανακεφαλαίωση 48 ΚΕΦΑΛΑΙΟ 6 - ΕΠΙΠΤΩΣΕΙΣ ΣΤΗΝ ΑΚΡΙΒΕΙΑ.. 49 6.1 Πρόβλεψη µεταβλητής διακριτών τιµών (classification). 49 6.2 Πρόβλεψη µεταβλητής συνεχούς τιµής (regression) 50 6.3 Βελτιστοποίηση πρωτοκόλλου επιλογής πλήθους κέντρων. 51 ΚΕΦΑΛΑΙΟ 7 - ΠΕΙΡΑΜΑΤΙΚΗ ΙΑ ΙΚΑΣΙΑ. 58 7.1 εδοµένα που χρησιµοποιηθήκαν 58 7.2 Λογισµικό. 59 7.2.1 Τεχνικά χαρακτηριστικά 59 7.2.2 Αρχιτεκτονική - Σχεδίαση. 60 7.2.3 Βοηθητικό λογισµικό. 70 7.3 Πειραµατική µέθοδος 71 7.4 Πειραµατικά αποτελέσµατα.. 72 ΚΕΦΑΛΑΙΟ 8 - ΣΥΜΠΕΡΑΣΜΑΤΑ - ΜΕΛΛΟΝΤΙΚΗ ΜΕΛΕΤΗ... 73 ΒΙΒΛΙΟΓΡΑΦΙΑ 75 ΠΑΡΑΡΤΗΜΑ Ι - ΚΩ ΙΚΑΣ 77 ΣΥΝΤΟΜΟ ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ 101 viii

ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ Αρ. Λεζάντα Σελ. 7-1 Περιγραφή κλάσεων 61 7-2 Περιγραφή συναρτήσεων λογισµικού. 62-69 7-3 Περιγραφή µηνυµάτων που χρησιµοποιούνται από το πρωτόκολλο 69-70 7-4 Περιγραφή βοηθητικών προγραµµάτων 70 7-5 Πίνακας υλικού που χρησιµοποιήθηκε 71 ix

ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ Αρ. Λεζάντα Σελ. 1-1 Χώρος και σηµεία του προβλήµατος της συνάρτησης XOR 1,22 1-2 Αρχιτεκτονική τεχνητού νευρωνικού δικτύου RBF 2 2-1 Χωρισµός του Φ σε 4 µέρη 8,11 5-1 Μέσο ποσοστό µείωσης (100% = 1 ) σε σχέση µε τον αριθµό των χρηστών. Μια 38 τάξη µεγέθους µέγιστη διαφορά στο πλήθος στον σηµείων 5-2 Μέσο ποσοστό µείωσης (100% = 1 ) των χρηστών που έκαναν µείωση >0% σε 39 σχέση µε τον αριθµό των χρηστών. Μια τάξη µεγέθους µέγιστη διαφορά στο πλήθος στον σηµείων 5-3 Μέσο ποσοστό µείωσης (100% = 1 ) σε σχέση µε τον αριθµό των χρηστών. ύο 40 τάξεις µεγέθους µέγιστη διαφορά στο πλήθος στον σηµείων 5-4 Μέσο ποσοστό µείωσης (100% = 1 ) των χρηστών που έκαναν µείωση >0% σε 41 σχέση µε τον αριθµό των χρηστών. ύο τάξεις µεγέθους µέγιστη διαφορά στο πλήθος στον σηµείων 6-1 Σύγκριση του τελικού αριθµού κέντρων που υπολογίζεται από το πρωτόκολλο 51 επιλογής πλήθους κέντρων χωρίς υποχρεωτική µείωση του αριθµού τους ενάντια στη ασφαλής παραλλαγή. (µία τάξη µεγέθους απόκλιση στον αριθµό σηµείων) 6-2 Εστίαση του σχήµατος 6-1 µόνο στην περιοχή 0-20 χρηστών 52 6-3 Σύγκριση του τελικού αριθµού κέντρων που υπολογίζεται από το πρωτόκολλο 53 επιλογής πλήθους κέντρων χωρίς υποχρεωτική µείωση του αριθµού τους ενάντια στη ασφαλής παραλλαγή. (δύο τάξεις µεγέθους απόκλιση στον αριθµό σηµείων) 6-4 Εστίαση του σχήµατος 6-3 µόνο στην περιοχή 0-20 χρηστών 53 6-5 Σύγκριση του τελικού αριθµού κέντρων που υπολογίζεται από το πρωτόκολλο 55 επιλογής πλήθους κέντρων χωρίς υποχρεωτική µείωση του αριθµού τους ενάντια στη ασφαλής παραλλαγή. (300% απόκλιση στον αριθµό σηµείων) 6-6 Σύγκριση του τελικού αριθµού κέντρων που υπολογίζεται από το πρωτόκολλο επιλογής πλήθους κέντρων χωρίς υποχρεωτική µείωση του αριθµού τους ενάντια 56-57 στη παραλλαγή που χρησιµοποιεί πιθανότητα µείωσης. α)300% απόκλιση, β) Μια τάξη µεγέθους απόκλιση, γ) υο τάξεις µεγέθους απόκλιση 7-1 ιάγραµµα κλάσεων του λογισµικού υπολογισµού µοντέλου ταξινόµησης RBF µε διατήρηση της ιδιωτικότητας 7-2 Αποτελέσµατα (χρόνος εκτέλεσης, ακρίβεια, ποσοστό ανάκλησης) για τα τέσσερα πειράµατα που εκτελέστηκαν. 60 72 x

ΚΕΦΑΛΑΙΟ 1 - ΕΙΣΑΓΩΓΗ 1.1 ίκτυα συνάρτησης ακτινικής βάσης Τα δίκτυα συναρτήσεων ακτινικής βάσης (RBF networks) αποτελούν µια ειδική περίπτωση τεχνητών νευρωνικών δικτύων. Το κύριο χαρακτηριστικό που ξεχωρίζει τα RBF δίκτυα από άλλα νευρωνικά δίκτυα είναι ότι η συνάρτηση κόστους (kernel) του δικτύου είναι µια συνάρτηση επί της ευκλείδειας απόστασης µεταξύ της εγγραφής εισόδου και κάθε νευρώνα του δικτύου. Η χρήση µιας µετρικής απόστασης ως συνάρτηση κόστους είναι που καθιστά τα τεχνητά νευρωνικά δίκτυα γενικά και τα δίκτυα RBF ειδικά πολύ καλά µοντέλα πρόβλεψης τιµών συναρτήσεων, κατηγοριοποίησης η αναγνώρισης προτύπων. Τα δίκτυα RBF είναι πολύ χρήσιµα σε περιπτώσεις όπου τα δεδοµένα δεν είναι γραµµικά διαχωρίσιµα. Ένα παράδειγµα τέτοιων δεδοµένων είναι ο πίνακας αληθείας της δυαδικής πράξης XOR που φαίνεται πιο κάτω: Σχήµα 1-1: Χώρος και σηµεία του προβλήµατος της συνάρτησης XOR Στο παραπάνω σχήµα βλέπουµε ότι δεν µπορεί να χωριστεί ο δυσδιάστατος χώρος των τεσσάρων σηµείων µε µόνο µια ευθεία έτσι ώστε σε κάθε ηµιεπίπεδο να περιέχονται όλα τα σηµεία µιας κλάσης (τιµή της συνάρτησης XOR που αντιπροσωπεύεται από το αν το σηµείο είναι σκιασµένο). Έτσι καµιά µέθοδος συσταδοποίησης που διαχωρίζει γραµµικά τα δεδοµένα δεν µπορεί να χρησιµοποιηθεί για την κατηγοριοποίηση τους. Προχωρώντας στην ανάλυση του δικτύου RBF και τον τρόπο που υπολογίζεται η πρόβλεψη της συνάρτησης που θέλουµε πρώτος σταθµός είναι η επισκόπηση της αρχιτεκτονικής του δικτύου. Η αρχιτεκτονική των RBF δικτύων φαίνεται στο παρακάτω σχήµα: 1

Σχήµα 1-2: Αρχιτεκτονική τεχνητού νευρωνικού δικτύου RBF ηλαδή πρόκειται για ένα τεχνητό νευρωνικό δίκτυο µε ένα κρυµµένο επίπεδο. Από την αρχιτεκτονική αυτή µπορούµε να εξάγουµε την αλγεβρική έκφραση για την πρόβλεψη της τιµής ενός νέου στοιχείου Έστω s ένα νέο στοιχείο/σηµείο, η προβλεφθείσα τιµή (1.1) = Όπου c το πλήθος των κέντρων και το i-οστό κέντρο. Για την εκπαίδευση του µοντέλου χρειάζεται ο υπολογισµός των συνιστωσών που καλούνται βάρη. Έστω ότι έχουµε m το πλήθος σηµεία εκπαίδευσης και ότι οι αντίστοιχες (γνωστές) τιµές της συνάρτησης αποτελούν το διάνυσµα t, θα έχουµε m το πλήθος εξισώσεις της µορφής (1.2) =, =,,, Όπου η τιµή της συνάρτησης που ψάχνουµε (κλάση) του j-οστού στοιχείου και το j-οστό στοιχείο (από τα σηµεία εκπαίδευσης). Το πιο πάνω σύστηµα m εξισώσεων (άγνωστοι τα ) µπορεί να γραφεί ως. = 2

Όπου w το διάνυσµα των, t το διάνυσµα των και ο πίνακας Φ έχει στοιχεία: =ρ Τα βάρη υπολογίζονται από την έκφραση (1.3) = Ο πίνακας φυσικά δεν είναι αντιστρέψιµος στην γενική περίπτωση. Αντί του αντίστροφου πίνακα µπορεί να χρησιµοποιηθεί ένας ψευδοαντίστροφος (ή γενικευµένος αντίστροφος) του διατηρώντας αποτελεσµατικό το µοντέλο [1]. Η πιο γνωστή µορφή γενικευµένου αντίστροφου που χρησιµοποιείται είναι ο αντίστροφος Moore-Penrose [2]. Οι πιο συχνά χρησιµοποιούµενες συναρτήσεις ακτινικής βάσης είναι οι εξής: Έστω r = Gaussian Multiquadric: Inverse Quadratic: Inverse Multiquadric: Πολυωνυµική: = = 1 + = 1 1 + 1 = 1 + =, = 1,3,5 = ln, = 2,4,6 Η εργασία αυτή παρουσιάζει ένα αλγόριθµο για τον υπολογισµό του πιο πάνω µοντέλου πρόβλεψης δικτύου RBF (οποιασδήποτε συνάρτησης) χρησιµοποιώντας οριζόντια κατατετµηµένα δεδοµένα (δηλαδή κάθε φορέας έχει ένα υποσύνολο εγγραφών µε όλα τα χαρακτηριστικά) µεταξύ δύο φορέων/χρηστών, διατηρώντας την ιδιωτικότητα των δεδοµένων του κάθε χρήστη. Ο αλγόριθµος είναι πολυωνυµικού χρόνου (σταθερού χρόνου σε σχέση µε το RBF) και βασίζεται στην συσσώρευση µερικών αποτελεσµάτων σε ένα υπό-άθροισµα από το οποίο δεν µπορεί να εξαχθεί πληροφορία. Όπως ανέφερα ακολουθεί ο επεκταµένος αλγόριθµος για χρήση από Ν το πλήθος χρήστες. 3

1.2 Σχετική Έρευνα Ο ιδιωτικός υπολογισµός µιας συνάρτησης δύο (η και περισσότερων) µεταβλητών όπου κάθε χρήστης κατέχει την τιµή της µίας (η και περισσότερων) µεταβλητής είναι ένα σηµαντικό κρυπτογραφικό πρόβληµα το οποίο βρίσκει εφαρµογή σε πολλούς τοµείς των σύγχρονων επιστηµών. Εκτός από την ανάπτυξη συστηµάτων κατανεµηµένων κλειδιών (όπου το αποτέλεσµα της συνάρτησης είναι το κλειδί και κάθε εµπλεκόµενος έχει «µέρος» του) µια τέτοια µέθοδος οδηγεί στον ιδιωτικό υπολογισµό µοντέλων εξόρυξης δεδοµένων, ανάκτησης πληροφορίας και αναγνώρισης προτύπων. Αν και υπάρχει µια γενικής χρήσης µέθοδος [3] για τον ιδιωτικό υπολογισµό µιας οποιαδήποτε συνάρτησης µεταξύ δύο χρηστών, καθώς και η επέκταση της για Ν το πλήθος χρηστών [4] και οι δύο βασίζονται στην αναπαράσταση της συνάρτησης ως ένα λογικό κύκλωµα, των εισόδων ως λογικών εισόδων και η επεξεργασία γίνεται ανά πύλη αυτού του κυκλώµατος. Το µέγεθος του πρωτοκόλλου εξαρτάται όχι µόνο από το µέγεθος της εισόδου (σε bits) αλλά και από την πολυπλοκότητα της συνάρτησης. Για παράδειγµα ο υπολογισµός ενός εσωτερικού γινοµένου απαιτεί Ο( ) βήµατα όπου n είναι ο αριθµός των bits που χρειάζεται για να αναπαρασταθεί ένα χαρακτηριστικό ενός διανύσµατος. Η υψηλή αυτή πολυπλοκότητα οδήγησε στην δηµιουργία εξειδικευµένων µεθόδων (για κάθε µοντέλο/αλγόριθµο) για τον ιδιωτικό υπολογισµό µοντέλων εξόρυξης δεδοµένων. Για παράδειγµα οι Lindell,Pinkas [5] παρουσιάζουν ένα αλγόριθµο ιδιωτικού υπολογισµού του δέντρου απόφασης του ID3, οι Clifton, Vaidya [6] για τον Naïve Bayes,για τον k-means [7] και για SVM από τους Vaidya, Yu και Jiang [8]. Εκτός από τα πιο πάνω έχει προταθεί µια µέθοδος που µεταλλάσει τα δεδοµένα διατηρώντας όµως τις στατιστικές τους ιδιότητες έτσι ώστε να µπορεί να παραχθεί ένα δέντρο απόφασης µε παραπλήσια ακρίβεια [9]. Η παρούσα εργασία µελετά το εξειδικευµένο πρόβληµα του ιδιωτικού υπολογισµού του µοντέλου RBF δικτύου. Όπως αναφέρεται κύριος άξονας των RBF δικτύων είναι η ευκλείδεια απόσταση µεταξύ στοιχείων του χώρου, πιο πρόσφατες εργασίες ασχολούνται ακριβώς µε τον ιδιωτικό υπολογισµό πρόσθεσης διανυσµάτων [10] και εσωτερικού γινοµένου [11]. Οι παραπάνω βασίζονται σε οµοιοµορφικές (προσθετικά) κρυπτογραφικές µεθόδους, δηλαδή που έχουν την ιδιότητα ότι = + + + 4

Οι µέθοδοι αυτοί στην πρωταρχική τους µορφή είναι πολύ εύκολα παραβιάσιµες αν δεν υιοθετείτε semi-trusted µοντέλο για τους εµπλεκοµένους. Ο υπολογισµός της f(x,y) γίνεται από τον ένα χρήστη ο οποίος αποστέλλει το αποτέλεσµα στον δεύτερο, τα δεδοµένα που έδωσε ο δεύτερος για τον υπολογισµό της τιµής της συνάρτησης µπορούν να λάβουν τέτοια µορφή έτσι ώστε ο χρήστης που θα υπολογίσει το τελικό αποτέλεσµα να διαρρεύσει πληροφορία για το σηµείο του όταν στείλει το αποτέλεσµα. Εκτός των παραπάνω πιο πρόσφατη δουλειά [12] από τους Kantarcioglu και Kardes παρουσιάζει µεθόδους για τον υπολογισµό εσωτερικού γινοµένου, ισότητας και πράξεων µεταξύ συνόλων µέσα σε περιβάλλον µη-έµπιστων χρηστών. 5

1.3 Ορισµοί - Συµβολισµός Εγγραφή(ες)/σηµείο(α)/δεδοµένο(α)/διάνυσµα(τα): Οι εγγραφές της βάσης δεδοµένων του χρήστη. n: ιάσταση των εγγραφών (σηµείων) c: Αριθµός επιλεχθέντων κέντρων για χρήση από το RBF δίκτυο m: Συνολικός αριθµός εγγραφών (και των δύο χρηστών) λ: Αριθµός εγγραφών χρήστη Χ β: Αριθµός εγγραφών χρήστη Υ : Στην περίπτωση Ν χρηστών µε συµβολίζεται ο αριθµός των στοιχείων του i-οστού χρήστη. : Ο i-οστός χρήστης : H τιµή ρ( ) όπου το i-οστό στοιχείο του ζ-οστού χρήστη. : Η τιµή ρ( ), παρόµοια για τον Υ. Όπου i το i-οστό στοιχείο (από το 1) w: ιάνυσµα βαρών RBF ρ: Συνάρτηση ακτινικής βάσης : Το i-οστό κέντρο Φ: Πίνακας µε τιµές RBF για τους συνδυασµούς κέντρων-σηµείων των δύο χρηστών. : Το i,j στοιχείο του πίνακα Φ, δηλαδή το ρ( ) όπου to i-οστό στοιχείο (βάση όλων των σηµείων) Απόσταση: Ευκλείδεια απόσταση µεταξύ δύο σηµείων. Ο όρος αυτός χρησιµοποιείται και στην θέση της έκφρασης ρ( ) καθώς η ρ είναι γνωστή και η πληροφορία που χρειάζεται είναι η απόσταση µεταξύ των σηµείων. Παρατηρούµε ότι για κάθε kernel η ποσότητα µπορεί να υπολογιστεί από την ρ( ), (είναι two-way συναρτήσεις). 6

ΚΕΦΑΛΑΙΟ 2 - ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ Ας προσπαθήσουµε να βρούµε βασιζόµενοι στη υπάρχουσα βιβλιογραφία ένα τρόπο ιδιωτικού υπολογισµού της τιµής της RBF έτσι ώστε ολόκληρο το µοντέλο να υπολογίζεται ιδιωτικά. ηλαδή ψάχνουµε µέθοδο έτσι ώστε να µπορούµε να υπολογίσουµε τα στοιχεία του πίνακα Φ χωρίς να παραβιαστεί η ιδιωτικότητα των σηµείων (και κέντρων) των χρηστών. Έχουµε για παράδειγµα την Gaussian RBF: ( ) 2 (2.1) 2 2 Με e,σ σταθερές. Άρα το πρόβληµα ανάγεται στον υπολογισµό του ή του = ηλαδή της γενικής RBF. Άρα οποιαδήποτε RBF µπορεί να υπολογιστεί ιδιωτικά αν µπορεί να υπολογιστεί ιδιωτικά η ποσότητα. Αυτό ισχύει καθώς οι RBF είναι two-way συναρτήσεις, άρα η ποσότητα µπορεί πάντα να υπολογιστεί από το αποτέλεσµα της RBF. Η συνάρτηση RB, = είναι Rn -> R έχει άπειρες λύσεις αν n = dim(x) = dim(y) >=2 αφού θα έχουµε: =, όπου z ανήκει στο R. Με γνωστό το x και το z θα έχουµε ένα σύστηµα 1 εξίσωσης µε n αγνώστους, δηλαδή θα έχει άπειρες λύσεις. Σκοπός είναι δηλαδή, (εκ πρώτης όψεως) η εύρεση ενός αποδοτικού τρόπου υπολογισµού του z χωρίς την αποκάλυψη του δεύτερου διανύσµατος στον χρήστη που δεν το κατέχει. Με αυτό τον τρόπο µπορεί να υπολογιστεί ο πίνακας Φ και από τους δύο χρήστες. Γνωρίζουµε ότι: (2.2) = + 2 Οι ποσότητες,, δεν προσδίδουν σηµαντική πληροφορία (µείωση κατά 1 διάσταση) για τα σηµεία x,y ενώ το εσωτερικό γινόµενο µπορεί να υπολογιστεί χρησιµοποιώντας τον αλγόριθµο που προτείνεται από τους Amirbekyan, Castro [11]. Όπως θα αποδειχθεί σε αυτό το κεφάλαιο η προσέγγιση αυτή δεν παρέχει την απαιτούµενη ασφάλεια και µπορεί να χρησιµοποιηθεί µόνο σε ειδικές περιπτώσεις. Για τις επόµενες παραγράφους ας υποθέσουµε ότι έχουµε στη διάθεση µας ένα αλγόριθµο για τον ιδιωτικό υπολογισµό της. Παρακάτω γίνεται µια ανάλυση που δείχνει ότι εν τέλει η εύρεση ενός τέτοιου αλγόριθµου δεν οδηγεί στον ιδιωτικό υπολογισµό του µοντέλου. 7

2.1 Υπολογισµός των µε από κοινού υπολογισµό του πίνακα Φ Για τον υπολογισµό των έστω υπολογίζεται ο mxc πίνακας (Φ) όπου m είναι ο αριθµός των (συνολικών) σηµείων, c ο αριθµός των επιλεχθέντων κέντρων και κάθε κελί i,j περιέχει την τιµή ρ( ) όπου ένα σηµείο, ένα κέντρο και ρ µια RBF (κάποιο kernel), τα τα κατέχει ο ανάλογος χρήστης (που έχει το σηµείο που αντιστοιχεί στην γραµµή j). Προφανώς ο κάθε χρήστης µπορεί να υπολογίσει τις αποστάσεις (τιµές της RBF) µεταξύ των σηµείων και των κέντρων του (υποθέτουµε ότι ο κάθε χρήστης έχει τα δικά του κέντρα και δεν είναι γνωστά στον άλλον). ηλαδή έχουµε την εξής κατάσταση Σχήµα 2-1: Χωρισµός του Φ σε 4 µέρη Στο παραπάνω σχήµα χωρίζεται ο υσδιάστατος Φ πίνακας σε 4 µέρη: Χ: Εγγραφές αποστάσεων των σηµείων του χρήστη Χ από τα κέντρα του Χ (τα δικά του σηµεία από τα δικά του κέντρα) Υ: Εγγραφές αποστάσεων των σηµείων του χρήστη Υ από τα κέντρα του Υ 1: Εγγραφές αποστάσεων των σηµείων του Χ από τα κέντρα του Υ 2: Εγγραφές αποστάσεων των σηµείων του Υ από τα κέντρα του Χ 8

Αν ο χρήστης Χ στείλει το µέρος Χ του πίνακα στον Υ δεν υπάρχει παραβίαση της ιδιωτικότητας καθώς υπάρχουν άπειρα σηµεία που να δίνουν τις ίδιες αποστάσεις (εξ υποθέσεως ο κάθε χρήστης δεν γνωρίζει τα κέντρα του άλλου), οµοίως για το µέρος Υ. Τα άλλα δύο µέρη υπολογίζονται χρησιµοποιώντας κάποιο αλγόριθµό υπολογισµού απόστασης µε διατήρηση της ιδιωτικότητας. Έστω ότι και οι δύο χρήστες έχουν υπολογίσει αυτόν τον πίνακα Φ (χρησιµοποιώντας ένα αλγόριθµο µε διατήρηση της ιδιωτικότητας για υπολογισµό του κάθε κελίου). Εγείρονται τα εξής ζητήµατα: (έστω n ο αριθµός των features και c o αριθµός των κέντρων (µοιρασµένος άνισα ή ίσα- στους δύο χρήστες)) Πρόταση 1: Προφανώς ο χρήστης Χ έχει στην κατοχή του αποστάσεις γνωστών σηµείων (των κέντρων του) από άγνωστα σηµεία (τα σηµεία του Y). Αν ο αριθµός των κέντρων που κατέχει ο Χ είναι περισσότερα από το n τότε θα µπορεί να υπολογίσει ΚΑΘΕ σηµείο του Υ καθώς θα έχει την απόσταση αυτού του σηµείου (του Υ) από >n σηµεία (τα κέντρα). Πρόταση 2: Στην γενική περίπτωση #εγγραφών του Χ ( = λ) >> c και >> n. Άρα αφού γνωρίζει την απόσταση κάθε σηµείου του από κάθε κέντρο του Y θα µπορεί να υπολογίσει τα κέντρα του Υ (αφού θα έχει λ εξισώσεις µε n αγνώστους(η απόσταση κάθε σηµείου του από ένα κέντρο -> στήλη του Φ)). Άρα τα κέντρα θα πρέπει να είναι γνωστά. Τα παραπάνω ισχύουν αφού: Πρόταση 3: Αν για ένα σηµείο x µε διάσταση n γνωρίζω >n εξισώσεις της µορφής =, = 1,2..,, > Με,,τότε µπορώ να υπολογίσω το σηµείο x Απόδειξη: Έστω ότι ο χώρος έχει διάσταση n, κάθε εξίσωση της µορφής = ορίζει µια υπερσφαίρα σε n διαστάσεις ( ) µε κέντρο το και ακτίνα πάνω στην επιφάνεια της οποίας πρέπει να βρίσκεται το x (άρα το x βρίσκεται πλέον σε ένα χώρο n-1 διαστάσεων). Η τοµή δύο επιφανειών σφαιρών n διαστάσεων ορίζει ένα χώρο το πολύ n-2 διαστάσεων (π.χ. δύο τρισδιάστατων σφαιρών θα είναι ένας κύκλος), ενώ η τοµή κ το πλήθος επιφανειών σφαιρών ορίζει ένα χώρο το πολύ max(n-κ,0) διαστάσεων. Αν έχω τ>n τέτοιες εξισώσεις τότε ορίζεται ένα µοναδικό σηµείο τοµής, αλλά καθώς κάθε επιφάνεια σφαίρας πρέπει να περιλαµβάνει το x, το σηµείο τοµής αυτό θα είναι το x. 9

Άρα αν υπολογιστεί ο Φ και από τους δύο χρήστες όλα τα κέντρα θα είναι γνωστά και θα πρέπει η διαστατικότητα των σηµείων να είναι µεγαλύτερη από τον αριθµό των κέντρων, αυτό χωρίς να λάβουµε υπόψη τον αλγόριθµο υπολογισµού της απόστασης µε διατήρηση της ιδιωτικότητας, ο οποίος µπορεί να δίνει ακόµα περισσότερη πληροφορία. Πρόταση 4: Αν ο αριθµός των κέντρων είναι µικρότερος από την διάσταση των διανυσµάτων και χρειάζεται υπολογισµός του Φ και από τους δύο χρήστες, ένας απλός αλγόριθµος µε διατήρηση της ιδιωτικότητας για τον υπολογισµό του RBF µοντέλου είναι ο κάθε χρήστης να στείλει τις αποστάσεις (τιµές RBF) των σηµείων του από όλα τα κέντρα, ο παραλήπτης θα έχει <n εξισώσεις µε n αγνώστους (για κάθε σηµείο) και άρα δεν θα µπορεί να υπολογίσει το σηµείο που χρησιµοποιήθηκε. Συµπέρασµα: Ακόµα και αν υπάρχει αλγόριθµος µε διατήρηση της ιδιωτικότητας για τον υπολογισµό της ρ( ), αν υπολογιστεί ο Φ και από τους δύο χρήστες, ο ίδιος ο Φ παρέχει αρκετή πληροφορία (όταν ο αριθµός των κέντρων είναι µεγαλύτερος ή ίσος από την διάσταση των εγγραφών) για να παραβιαστεί η ιδιωτικότητα των σηµείων κάθε χρήστη. 10

2.2 Υπολογισµός των χωρίς τον από κοινού υπολογισµό του πίνακα Φ Η προηγούµενη προσέγγιση είχε το µοιραίο ελάττωµα ότι µάθαιναν ολόκληρο τον Φ και οι δύο χρήστες. Υποθέτοντας της ίδια κατάσταση µε πριν (κάποια κέντρα ανά χρήστη, του ανάλογου χρήστη) έχουµε πάλι το εξής σχήµα Σχήµα 2.1: Χωρισµός του Φ σε 4 µέρη Γνωρίζουµε ότι [13] = Όπου Φ mxc πίνακας και cx1 πίνακας. Έχουµε ότι (2.3) = Παρατηρούµε ότι οι άγνωστες αποστάσεις θα πολλαπλασιάζονται πάντα µόνο µε ένα,το οποίο υποθέσαµε κατέχει ο ανάλογος χρήστης. Άρα ο υποπίνακας Y δεν χρειάζεται να αποκαλυφθεί στον Χ ούτε αντίστροφα. 11

Για τον πίνακα, διαστάσεων cxc (2.4), = Άρα πάντα πολλαπλασιάζονται στοιχεία της ίδιας γραµµής του αρχικού πίνακα Φ. Συνεπώς οι δύο χρήστες µπορούν να υπολογίσουν µερικά αθροίσµατα και να τα ανταλλάξουν έτσι ώστε να µην αποκαλυφθεί ο αντίστοιχος αρχικά γνωστός υπό-πίνακας του καθένα. Όµως παρατηρούµε ότι για τον υπολογισµό του (και του ) αρκεί ο X να γνωρίζει τον υπό-πίνακα 1 (και να µην τον γνωρίζει ο Υ) και παρόµοια για το 2 να τον γνωρίζει µόνο ο Υ, µε λίγα λόγια ο καθένας να γνωρίζει µόνο τις αποστάσεις των σηµείων του από όλα τα κέντρα. Αυτό ισχύει καθώς κάθε γραµµή του Φ πολλαπλασιάζει ένα στοιχείο του t, άρα µπορούν να βρεθούν µερικά αθροίσµατα για το κάθε στοιχείο του τελικού πίνακα από όπου δεν θα µπορεί ο άλλος χρήστης να εξάγει πληροφορία. ηλαδή, Έστω ότι ο χρήστης Χ γνωρίζει τις πρώτες λ γραµµές του πίνακα (οι αποστάσεις των λ σηµείων του από όλα τα κέντρα) και ο χρήστης Υ m-λ=β γραµµές. Παρατηρούµε ότι οι σχέσεις 2.3 και 2.4 γράφονται (2.5) = + (2.6), = + Προφανώς ο χωρισµός των εγγραφών δεν παίζει ρόλο καθώς κάθε γραµµή ανήκει σε ένα χρήστη και ο πολλαπλασιασµός γίνεται µεταξύ στοιχείων της ίδιας γραµµής. Επίσης δεν υπάρχει κοινή αντίληψη του Φ από τους δύο χρήστες και έτσι θα ήταν ισοδύναµο να υπάρχει οτιδήποτε κατανοµή των γραµµών. 12

Η σχηµατικά (µε διαφορετική χρώµα περικλείονται περιοχές που είναι γνωστές µόνο σε ένα χρήστη, οριζόντια διαγράµµιση => Χ, διαγώνια διαγράµµιση => Υ): = = Από τα πιο πάνω µπορούσαµε να συµπεράνουµε ότι: 2.7 = + = + 2.8, = + = + Όπου η τιµή ρ( ), όµοια για τον y. Όπως ανέφερα οι παραπάνω ισότητες ισχύουν καθώς κάθε στοιχείο του κάθε αθροίσµατος υπολογίζεται από στοιχεία που είναι γνωστά µόνο σε έναν χρήστη (µε την υπόθεση ότι όλα τα κέντρα είναι γνωστά). Άρα οι παραπάνω σχέσεις απλά µετατοπίζουν τον υπολογισµό από ένα ενιαίο πίνακα σε αθροίσµατα ως προς τα στοιχεία του κάθε χρήστη. Η πληροφορία που χρειάζονται οι δύο χρήστες για να υπολογίσουν το δικό τους µέρος του αθροίσµατος είναι τα κέντρα, άρα πρέπει να υπάρχει µια συµφωνία στην διάταξη των κέντρων έτσι ώστε η δυάδα i,j (ποια κέντρα να χρησιµοποιηθούν) να αντιστοιχεί στα ίδια κέντρα και στους δύο. Ένας απλός τρόπος για την κοινή διάταξη παρουσιάζεται σε επόµενη παράγραφο. 13

Άρα ο χρήστης Χ µπορεί να υπολογίσει τα µερικά αθροίσµατα, = (2.9) = Και οµοίως ο Υ τα, = (2.10) = Και να αθροίσουν τα αθροίσµατα τους. Ακολούθως µπορεί ο καθένας να υπολογίσει τον και εν τέλει τα. Πρόταση 5: Τα κέντρα πρέπει να είναι γνωστά Απόδειξη: Έστω ότι ο κάθε χρήστης έχει τα δικά του κέντρα. Για τον υπολογισµό των βαρών χρειάζεται ο υπολογισµός των και ). Ο υπολογισµός αυτών των πινάκων (ιδιωτικά) απαιτεί ότι ο κάθε χρήστης γνωρίζει τις αποστάσεις (τιµές της RBF) των σηµείων του από όλα τα κέντρα. Αν υπολογιστούν µε κάποιο τρόπο ιδιωτικά οι αποστάσεις από τα κέντρα που δεν κατέχει, ο κάθε χρήστης µπορεί να υπολογίσει τα κέντρα του άλλου χρήστη καθώς ο αριθµός των σηµείων του είναι πολύ µεγαλύτερος από τον αριθµό των κέντρων και της διάστασης (βλ. πρόταση 2). Αν δεν υπολογιστούν αυτές οι αποστάσεις ο υπολογισµός των αναγκαίων πινάκων δεν µπορεί να γίνει ιδιωτικά. Γενικά: Έστω µιλάµε για τις αποστάσεις των σηµείων του Χ από τα κέντρα του Υ Αν τις αποστάσεις (τιµές RBF) τις γνωρίζει µόνο ο κατέχον τα κέντρα (ο Υ δηλαδή), µπορεί να υπολογίσει τα σηµεία του Χ (βλ. πρόταση 1) Αν τις αποστάσεις τις γνωρίζει µόνο ο Χ τότε ο Χ µπορεί να υπολογίσει τα κέντρα του Υ (βλ. πρόταση 2) Αν τις αποστάσεις δεν τις γνωρίζει κανένας δεν µπορούν να υπολογιστούν τα βάρη. 14

2.2.1 Παρατηρήσεις ασφάλειας Πρόταση 6: Τα επιµέρους αθροίσµατα δεν παραβιάζουν την ιδιωτικότητα των σηµείων από τα οποία υπολογίστηκαν Απόδειξη: Έστω τα επιµέρους αθροίσµατα του χρήστη Χ όπως παρουσιάζονται στην (2.9) Ο παραλήπτης αυτών των αθροισµάτων, ο Υ, θα κατέχει + = c(c+1) εξισώσεις µε λc + λ= λ(c+1) αγνώστους. Αν λ>c δεν µπορούν να υπολογιστούν τα στοιχεία του αρχικού πίνακα και άρα δεν µπορεί να υπολογιστεί κανένα σηµείο του Χ καθώς το σύστηµα θα έχει άπειρες λύσεις. Η επιπλέον πληροφορία που κατέχει ο Υ είναι ότι τα στοιχεία του πίνακα αυτά αφορούν αποστάσεις από γνωστά σε αυτόν κέντρα, δηλαδή ότι:, = = = = Όπου το k-οστό σηµείο του Χ, το i-οστό κέντρο. Από τα πιο πάνω διαφαίνεται ότι ο πραγµατικός αριθµός των αγνώστων είναι λn + λ= λ(n+1), δηλαδή τα λ σηµεία διάστασης n + τα λ το πλήθος. Άρα θα πρέπει λ(n+1) > c(c+1). Πρόταση 7: Ανεξαρτήτως της µορφής της RBF, εάν λ(n+1) > + = c(c+1) τότε το σύστηµα θα έχει άπειρες λύσεις. Αυτό είναι προφανές καθώς ο πραγµατικός αριθµός των αγνώστων είναι λ(n+1) και ο συνολικός αριθµός των εξισώσεων δεν θα υπερβαίνει τις c(c+1). Πρόταση 8: Από τον δεν µπορεί να υπολογιστεί ο (και κατά συνέπεια ο Φ) Απόδειξη: Έστω ότι τα γνωστά κελιά του Χ συµβολίζονται µε, τα γνωστά κελιά του Υ µε και µε τα γνωστά και στους δύο κελιά του. Τα στοιχεία του t διατηρούν τον ίδιο συµβολισµό. Ο Χ κατέχει λ σηµεία και ο Υ m-λ=β σηµεία. 15

Έχουµε =,, = Από τα πιο πάνω µπορούν να παραχθούν c το πλήθος εξισώσεις της µορφής + = Επίσης ο κάθε χρήστης γνωρίζει το µερικό άθροισµα του άλλου χρήστη ηλαδή ο Υ θα έχει ένα σύστηµα 2c εξισώσεων, των c το πλήθος γενικών που αναγράφονται πιο πάνω και c το πλήθος εξισώσεων της µορφής: = h που του έστειλε ο Χ. Άρα θα έχει ένα σύστηµα 2c εξισώσεων µε λc + λ = λ(c+1) αγνώστους, το οποίο έχει άπειρες λύσεις(λ>2). Οµοίως ο Χ θα έχει ένα σύστηµα 2c εξισώσεων µε β(c+1) αγνώστους. Πρόταση 9: Από τον δεν µπορεί να υπολογιστεί ο Φ Απόδειξη: ιατηρώντας τον ίδιο συµβολισµό µε πιο πάνω έχουµε =,,,, = 16

Και αντίστοιχα έχουµε τις το πλήθος εξισώσεις + = Επίσης κάθε χρήστης κατέχει τα το πλήθος µερικά αθροίσµατα του άλλου χρήστη, πχ ο Υ κατέχει τα = Άρα ο Υ κατέχει 2 εξισώσεις µε λc αγνώστους και ο Χ 2 εξισώσεις µε βc αγνώστους. Άρα για να έχει το σύστηµα άπειρες λύσεις αρκεί λ,β>2c. Παρατήρηση: Αν λάβουµε υπόψη και τις εξισώσεις για την περίπτωση του πίνακα καταλήγουµε σε (για τον Υ) ένα σύστηµα 2 + 2c = 2c(c+1) εξισώσεων µε λc+λ = λ(c+1) αγνώστους, άρα αν λ>2c οι άγνωστοι θα είναι >2 + 2c. Οµοίως για το β. Συµπέρασµα: Αν και η παραπάνω ανάλυση αφορά τον πίνακα αποστάσεων, κύριο µέληµα είναι η προστασία των εγγραφών, άρα οι ανισότητες που πρέπει να ικανοποιούνται είναι λ(n+1) > 2 λ(n+1) > 2c λ(n+1) > + λ(n+1) > 2 + 2c Μία απλή εφικτή λύση είναι c <, έτσι ώστε λ(n+1) > + Θα ικανοποιεί όλες τις ανισότητες όταν n>1, c>2. Παρόµοια για το β 17

2.2.2 ιάταξη κέντρων Αν και στην πιο πάνω ανάλυση χρησιµοποιείται ένας κοινός πίνακας µε τις τιµές της RBF µεταξύ των σηµείων/κέντρων των δύο χρηστών, οι χρήστες δεν έχουν γνώση για τον συνολικό αριθµό των σηµείων, άρα και για την σωστή άθροιση των µερικών αθροισµάτων. Για να υπολογιστούν σωστά οι πίνακες που θα χρησιµοποιηθούν για τον υπολογισµό των βαρών αρκεί (όπως αναφέρθηκε) τα γνωστά κέντρα να µπουν σε µια κοινή διάταξη, έστω σε αύξουσα τιµή νόρµας. Με αυτό τον τρόπο όταν µιλάµε για το i,j στοιχείο του πίνακα ή για το i στοιχείο του πίνακα ο κάθε χρήστης θα γνωρίζει ακριβώς ποιο άθροισµα (κέντρα) πρέπει να χρησιµοποιηθεί. Επιπλέον όπως διαφαίνεται παρακάτω, γνωρίζοντας αυτή την ταξινόµηση των κέντρων ο κάθε χρήστης απλά υπολογίζει δύο πίνακες οι οποίοι αν αθροιστούν δίνουν τους πίνακες που ζητούνται. 18

ΚΕΦΑΛΑΙΟ 3 - ΠΡΟΤΕΙΝΟΜΕΝΗ ΜΕΘΟ ΟΣ/ΠΡΩΤΟΚΟΛΛΟ Βασισµένοι στα αποτελέσµατα της παραγράφου 2.2, µπορούµε να εξάγουµε τον παρακάτω αλγόριθµο για τον ιδιωτικό υπολογισµό του RBF µοντέλου από δύο χρήστες. Εκτός αυτού σε αυτή την ενότητα παρουσιάζεται η επέκταση του αλγόριθµου για N το πλήθος χρήστες. 3.1 Πρωτόκολλο για δύο χρήστες 1.Οι δύο χρήστες συµφωνούν σε ένα σύνολο από κέντρα των οποίων το πλήθος c ικανοποιεί τα παρακάτω c < c < Όπου λ,β οι αριθµοί των εγγραφών των χρηστών Χ,Υ αντίστοιχα. 2. Οι δύο χρήστες ταξινοµούν τα κέντρα σε αύξων µέγεθος νόρµας και υπολογίζουν Ο Χ τους πίνακες µε στοιχεία o, = o = Ο Υ τους πίνακες µε στοιχεία o, = o = Όπου ισούται µε το αποτέλεσµα της RBF µε όρισµα την απόσταση του k-οστού σηµείου του χρήστη X από το i-οστό κέντρο. Παρόµοια για τον Υ 3.Οι δύο χρήστες στέλνουν ο ένας του άλλου τους πίνακες που υπολόγισαν στο βήµα 2 4.Οι δύο χρήστες προσθέτουν τον πίνακα τους µε τον πίνακα που έλαβαν και έτσι υπολογίζουν και οι δύο τους και. Ακολούθως υπολογίζουν τα βάρη χρησιµοποιώντας την έκφραση = 19

3.2 Επέκταση για Ν το πλήθος χρήστες. Έχουµε ότι, = = Έστω ότι µε συµβολίζεται ο αριθµός των στοιχείων του i-οστού χρήστη. Χρησιµοποιώντας τις ίδιες υποθέσεις µε την περίπτωση τω δύο χρηστών τα παραπάνω γράφονται ως εξής: 3.1, = = = + + + + + Και αντίστοιχα 3.2 = = + + + + + Έστω ότι o i-οστός χρήστης και η απόσταση (τιµή της RBF) του i-οστού σηµείου από το j-οστό κέντρο του ζ-οστού χρήστη. Αφού υπάρχει µια γνωστή διάταξη των κέντρων οι σχέσεις (3.1) και (3.2) µπορούν να ξαναγραφούν, όπως και στην περίπτωση των δύο χρηστών, ως εξής: 20

3.3, = + + + Και 3.4 = + + + Άρα µπορεί να χρησιµοποιηθεί η ίδια µέθοδος µε την περίπτωση των 2 χρηστών. ηλαδή ο επεκταµένος αλγόριθµος είναι ο εξής: 1.Οι Ν χρήστες συµφωνούν σε ένα σύνολο από κέντρα των οποίων το πλήθος c ικανοποιεί τα παρακάτω <, i = 1,2,.. N Όπου ο αριθµός των εγγραφών του χρήστη. 2. Οι N χρήστες ταξινοµούν τα κέντρα σε αύξων µέγεθος νόρµας και υπολογίζουν Ο, ζ=1 Ν τους πίνακες µε στοιχεία: o, = o = Όπου ισούται µε το αποτέλεσµα της RBF µε όρισµα την απόσταση του k-οστού σηµείου του χρήστη από το i-οστό κέντρο. 3.Οι N χρήστες ανταλλάσουν τους πίνακες που υπολόγισαν στο βήµα 2 4.Οι χρήστες προσθέτουν τον πίνακα τους µε τους πίνακες που έλαβαν και έτσι υπολογίζουν τους και. Ακολούθως υπολογίζουν τα βάρη χρησιµοποιώντας την έκφραση = Ο αλγόριθµος αυτός επιδέχεται βελτιστοποιήσεων (βήµα 3&4) όσο αφορά το communication overhead, το οποίο συζητείται στο επόµενο κεφάλαιο. 21

3.3 Παράδειγµα: Πρόβληµα XOR µεταξύ δύο χρηστών Σε αυτή την παράγραφο παρουσιάζεται ένα παράδειγµα εφαρµογής του προτεινόµενου αλγόριθµου ιδιωτικού υπολογισµού του RBF µοντέλου κατηγοριοποίησης. Στο παράδειγµα αυτό θα χρησιµοποιηθεί το παράδειγµα της συνάρτησης XOR που παρουσιάστηκε νωρίτερα και που ο χώρος των σηµείων παρουσιάζεται ξανά πιο κάτω για ευκολία: Σχήµα 1-1: Χώρος και σηµεία του προβλήµατος της συνάρτησης XOR Όπως φαίνεται από το παρακάτω σχήµα υπάρχουν 4 σηµεία, τα (0,0),(0,1), (1,0) και (1,1) και οι κλάσεις τους είναι 0,1,1,0 αντίστοιχα. Έστω ότι τα σηµεία (0,0) (0,1) καθώς και την τιµή της κλάσης τους τα κατέχει ο χρήστης Χ και τα υπόλοιπα ο Ψ. Σκοπός είναι ο ιδιωτικός υπολογισµός του RBF µοντέλου. Αν υποθέσουµε προς στιγµή πως δεν απαιτείται ιδιωτικότητα. Υποθέτοντας ως κέντρα τα (0,0) και (1,1) και την χρήση gauss RBF θα είχαµε τις εξής τιµές RBF (έστω σ =1 ),, = = 1,, = =,, = =,, = = 22

,, = =,, = =,, = =,, = = 1 Άρα ο πίνακας Φ είναι ο εξής 1 1 Και το σύστηµα = διαµορφώνεται ως εξής 1 1 0 = 1 1 0 Ο πίνακας = 1 1 1 1 = = 1 + + 2 4 4 1 + + 2 Και ο = 1 0 1 = 2 1 1 0 2 Άς εξετάσουµε τώρα τα αποτελέσµατα της προτεινόµενης µεθόδου, θα πρέπει να συµφωνούν µε τα πιο πάνω. Προφανώς κρατάµε την ίδια διάταξη σηµείων, δηλαδή ο κάθε χρήστης υπολογίζει τις µισές RBF ως προς τα γνωστά κέντρα. 23

Σύµφωνα µε την προτεινόµενη µέθοδο θα ανταλλάξουν αυτούς τους πίνακες και θα πρέπει να ισχύει + = Και + = Έχουµε + = 1 + 2 2 + + + 2 2 + 1 = 1 + + 2 4 4 1 + + 2 Και + = + = 2 2 Που ισούνται µε τους πίνακες που υπολογίστηκαν έχοντας όλα τα δεδοµένα. Είναι σηµειωτέο πως στο πιο πάνω παράδειγµα επιλεγήκαν κέντρα που είναι πραγµατικά σηµεία των δεδοµένων του κάθε χρήστη, στην γενική περίπτωση δεν ισχύει αυτό και δεν έχει επίπτωση στο παράδειγµα αν χρησιµοποιούσαµε τέτοια, µη υπαρκτά σηµεία ως κέντρα. 25

ΚΕΦΑΛΑΙΟ 4 - ΥΠΟΛΟΓΙΣΤΙΚΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑ Για την ανάλυση πολυπλοκότητας υποθέτω πως η RBF ( ) είναι Ο(1) σε σχέση µε τον υπολογισµό της απόστασης. Η πολυπλοκότητα της ρ είναι ανεξάρτητη από το γενικό πρόβληµα και συνήθως αποτελείται από Ο(1) πράξεις όπως ένα αριθµό πολλαπλασιασµών η/και διαιρέσεων της ποσότητας. 4.1 Χρονική πολυπλοκότητα 4.1.1 Μη-ιδιωτικός υπολογισµός Στην περίπτωση των δύο χρηστών, για τον υπολογισµό της χρονικής πολυπλοκότητας υποθέτω πως ένας από τους χρήστες µετέφερε όλα τα δεδοµένα του στον άλλο. Ο υπολογισµός του µοντέλου θα γίνει στον ένα χρήστη και θα απαντήσει µε τα αποτελέσµατα. ηλαδή για τον υπολογισµό των βαρών έχουµε mc υπολογισµούς αποστάσεων που κοστίζουν Ο(n) η κάθε µία, δηλαδή O(mcn) για τον υπολογισµό του Φ. Ακολούθως ο υπολογισµός του χρειάζεται O(mcm) χρόνο (υποθέτοντας αφελή υπολογισµό και όχι πιο γρήγορους αλγόριθµους όπως ο αλγόριθµος του Strassen ή Coppersmith, η ίδια υπόθεση θα γίνει για όλες τις περιπτώσεις). Ο υπολογισµός του χρειάζεται αντίστιοχα Ο(mc) χρόνο, η αντίστροφή του Ο( ) (ξανά µέσω Gauss Jordan και όχι πιο γρήγορους αλγόριθµους), και τέλος ο πολλαπλασιασµός χρειάζεται Ο( ). Άρα η συνολική χρονική πολυπλοκότητα ισούται µε O(mcm) καθώς m>c,n. Όπως επισηµάνθηκε η πολυπλοκότητα αυτή µπορεί να µειωθεί χρησιµοποιώντας πιο γρήγορους αλγόριθµους πολλαπλασιασµού πινάκων. Για την περίπτωση των Ν χρηστών ισχύει ακριβώς το ίδιο αποτέλεσµα καθώς δεν λαµβάνεται υπόψη η επικοινωνιακή επιβάρυνση (communication overhead) 26

4.1.2 Με χρήση προτεινόµενου πρωτοκόλλου Στην περίπτωση δύο χρηστών χρησιµοποιώντας το προτεινόµενο πρωτόκολλο έχουµε ότι ο κάθε χρήστης υπολογίζει ένα πίνακα cxc για τον και ένα cx1 για τον, το άθροισµα αυτών των πινάκων θα ισούται µε τους και αντίστοιχα. Άρα η µόνη επιβάρυνση σε σχέση µε τον µη-ιδιωτικό υπολογισµό θα είναι ένα (δύο) άθροισµα πινάκων το οποίο έχει µικρότερη πολυπλοκότητα από τον πολλαπλασιασµό. Επίσης η αντιστροφή και ο τελικός πολλαπλασιασµός απλά θα υπολογιστούν δύο φορές (σε κάθε χρήστη), δηλαδή η τελική χρονική πολυπλοκότητα θα ισούται µε O(mcm), µόνο που ο υπολογισµός αυτός θα µοιράζεται σε δύο χρήστες. Στην περίπτωση Ν το πλήθος χρηστών πλέον θα έχουµε Ο( ) αθροίσεις πινάκων (Ν-1 αθροίσεις για κάθε χρήστη). Όπως και πριν ο υπολογισµός των και γίνεται κατανεµηµένα (αν δεν λάβουµε υπόψη τις αθροίσεις), επίσης η αντιστροφή και ο πολλαπλασιασµός γίνεται Ν φόρες (από κάθε χρήστη). Καθώς όµως ο συνολικός αριθµός των σηµείων m είναι συνήθως πολύ µεγαλύτερος από τον αριθµό των χρηστών, τότε Ο(Ν ) < Ο(mcm) ή θα είναι συγκρίσιµα. Συνολικά η χρονική πολυπλοκότητα θα είναι δηλαδή, O(mcm) 27

4.2 Επικοινωνιακή επιβάρυνση (communication overhead) 4.2.1 Μη-ιδιωτικός υπολογισµός Στο σενάριο των δύο χρηστών, για να ελαχιστοποιηθεί η αποστολή δεδοµένων οι δύο χρήστες ανταλλάζουν τον αριθµό των εγγραφών που έχουν έτσι ώστε εκείνος µε τον µικρότερο αριθµό (έστω λ) να στείλει τα δικά του δεδοµένα. Έχουµε δηλαδή την αποστολή 2 + λn + c(τα βάρη) ποσοτήτων. Συµβαδίζοντας µε τα πιο πάνω, στην περίπτωση των N χρηστών θα έχουµε (4.1) 3 + + 1 + αποστολές αριθµών, όπου ο αριθµός των εγγραφών του i-οστού χρήστη, και υποθέτοντας ότι στέλνουν τα δεδοµένα τους οι χρήστες µε τις λιγότερες εγγραφές. Ο πρώτος όρος αντιστοιχεί στα µηνύµατα ωσότου να βρεθεί ο χρήστης µε τις περισσότερες εγγραφές έτσι ώστε να είναι ο παραλήπτης (ο κάθε χρήστης στέλνει µόνο στον επόµενο του το µέγιστο µέχρι τώρα). Ο δεύτερος όρος είναι η επιβάρυνση από την αποστολή όλων των εγγραφών από όλους τους χρήστες εκτός του παραλήπτη που θα εκτελέσει τους υπολογισµούς. Αν και το µοντέλο θα µπορούσε να υπολογιστεί από χρήστη σε χρήστη χρησιµοποιώντας ενδιάµεσα αποτελέσµατα, στόχος είναι η εύρεση των κέντρων πάνω σε όλα τα δεδοµένα. Ο τρίτος όρος αντιστοιχεί στις απαντήσεις που θα σταλούν µε τα βάρη και τα κέντρα που υπολογιστήκαν. Η επικοινωνιακή επιβάρυνση που υπολογίζεται εδώ αποτελεί µάλλον χειρότερη περίπτωση καθώς η εύρεση των κέντρων θα µπορούσε να γίνει κατανεµηµένα και να αφορά όλα τα δεδοµένα. Αν υπάρχει η απαίτηση τα αποτελέσµατα να υπολογιστούν σε ένα σηµείο τότε η επικοινωνιακή επιβάρυνση θα είναι Θ(Νn). 28

4.2.2 Με χρήση προτεινόµενου πρωτοκόλλου Κάθε χρήστης αποστέλλει ένα cxc και ένα cx1 πίνακα, άρα έχουµε συνολικά 2 + ποσότητες συν επιπλέον cn αποστολές για να µάθουν οι δύο χρήστες τα κέντρα στην περίπτωση των δύο χρηστών. Γνωρίζοντας όµως ότι λ>c,n η επιβάρυνση µπορεί να είναι και µικρότερη από τον µη ιδιωτικό υπολογισµό. Η τελευταία παρατήρηση εξαρτάται από τον αριθµό των κέντρων που υπολογίζεται σε κάθε περίπτωση καθώς ο µη-ιδιωτικός υπολογισµός µπορεί να χρησιµοποιήσει αριθµό κέντρων έως και ίσο µε τον αριθµό των εγγραφών. Στην περίπτωση των Ν χρηστών, υπάρχουν δύο τρόποι για να υπολογιστεί το µοντέλο RBF. 1. Όλοι οι χρήστες στέλνουν πληροφορία σε όλους τους άλλους 2. Κάθε χρήστης στέλνει την συσσωρευµένη πληροφορία του στον επόµενο, ο τελευταίος στέλνει τα βάρη σε όλους τους άλλους. Στην πρώτη περίπτωση ο κάθε χρήστης θα στείλει Ν-1 φορές τους δύο πίνακες του µεγέθους cxc και cx1, άρα η συνολική επιβάρυνση θα είναι (4.2) 1 + + 1 Όπου ο δεύτερος όρος αντιστοιχεί στην ανταλλαγή κέντρων(ο καθένας στέλνει τα κέντρα του σε όλους τους άλλους, γι αυτό µιλάµε για παράγοντα c και όχι ). Παρατηρούµε ότι σε αυτήν την περίπτωση αυξάνεται πολυωνυµικά το communication overhead συναρτήσει του αριθµού των χρηστών. H επιβάρυνση θα είναι Ο( ) Στην δεύτερη περίπτωση κάθε χρήστης θα αθροίζει τους πίνακες του µε αυτούς που έλαβε και να προωθεί το αποτέλεσµα. Ο τελευταίος θα υπολογίσει τα βάρη και να τα στείλει στους υπόλοιπους. Για να αποφασιστεί η σειρά µπορεί ο καθένας να στείλει ένα τυχαίο αριθµό σε όλους τους άλλους και ο πιο µικρός αριθµός να είναι πρώτος ακολουθούµενος από τον αµέσως µεγαλύτερο κτλ. Έχουµε δηλαδή συνολικά + + + + = (4.3) = 1 + 2 + 2 + 29

αποστολές αριθµών. Ο πρώτος όρος αντιστοιχεί στην επιλογή της σειράς αποστολής, ο δεύτερος τις αποστολές που θα γίνουν και ο τρίτος στην τελική απάντηση µε τα βάρη. Ο τελευταίος όρος όπως και πριν αφορά την ανταλλαγή κέντρων. Συνολικά Ο(N ) Όπως και στην περίπτωση των δύο χρηστών η επιβάρυνση αυτή µπορεί να είναι µικρότερη από τον µη ιδιωτικό υπολογισµό καθώς λ>c. Είναι σηµαντικό να σηµειωθεί ότι αν χρησιµοποιηθεί η δεύτερη µέθοδος που προβλέπει µείωση του communication overhead µειώνεται το επίπεδο ασφάλειας που προσφέρεται (όχι σε σχέση µε την ιδιωτικότητα). Η επίθεση στην οποία εκτίθεται το σύστηµα παρουσιάζεται στο κεφάλαιο «Ασφάλεια». Στη παράγραφο που προηγήθηκε δεν αναφέρθηκε πουθενά η επιβάρυνση από την διαδικασία επιλογής πλήθους κέντρων. Όπως θα φανεί στο κεφάλαιο «Ασφάλεια» η διαδικασία αυτή έχει χρονική πολυπλοκότητα Ο(N) και communication overhead O(N), άρα αν θέλουµε να την συµπεριλάβουµε αρκεί να προσθέσουµε ένα όρο Ο(Ν), πράγµα που δεν επηρεάζει την πολυπλοκότητα. 30

ΚΕΦΑΛΑΙΟ 5 - ΑΣΦΑΛΕΙΑ 5.1 ιατήρηση ιδιωτικότητας σε περιβάλλον µη-έµπιστων χρηστών Εφόσον καταλήξαµε στο άθροισµα πινάκων, η πράξη αυτή µπορεί να αναχθεί σε ένα σύνολο από προσθέσεις διανυσµάτων. Όπως αναφέρθηκε υπάρχει αλγόριθµος ιδιωτικού υπολογισµού αθροισµάτων διανυσµάτων ο οποίος µπορεί να χρησιµοποιηθεί και παρέχει εγγυηµένη ασφάλεια µε την υπόθεση semi-trusted εµπλεκοµένων. Αξίζει να σηµειωθεί πως ο αλγόριθµος που αναφέρεται δεν µπορούσε να χρησιµοποιηθεί για τον υπολογισµό της RBF µεταξύ δύο σηµείων καθώς εν τέλει παραβιαζόταν η ιδιωτικότητα, εδώ περιγράφεται η χρήση του επί των διανυσµάτων που είναι συσσωρευµένα αποτελέσµατα πολλαπλασιασµού και προσθέσεων RBF. Οι µέθοδοι που βασίζονται σε οµοιοµορφικά κρυπτογραφικά σχήµατα έχουν το ελάττωµα ότι οι χρήστες δεν είναι «ίσοι», δηλαδή υποθέτοντας τους χρήστες Α και Β εκτελούνται τα παρακάτω βήµατα Ο Α κρυπτογραφεί τα δεδοµένα του (έστω α) και αποστέλλει τα κρυπτογραφηµένα δεδοµένα (Ε(α)]και το δηµόσιο κλειδί Ο Β χρησιµοποιώντας το δηµόσιο κλειδί κρυπτογραφεί και αυτός τα δεδοµένα του Ε(β), τα προσθέτει µε εκείνα που έλαβε ( Ε(α) + Ε(β) = Ε(α+β)) και µεταθέτει τα features µε µια τυχαία µετάθεση (αποτέλεσµα το π(ε(α+β))) έτσι ώστε ο Α να µην µπορεί να υπολογίσει το διάνυσµα του. Αποστέλλει το π(ε(α+β)) Ο Α αποκρυπτογραφεί το π(ε(α+β)) και λαµβάνει π(α+β) το οποίο γνωστοποιεί και στον Β. Το διάνυσµα π(α+β) (αντιστοιχεί κατά κάποιο τρόπο στο άθροισµα διανυσµάτων ανάλογα της εφαρµογής) µπορεί να χρησιµοποιηθεί για τον υπολογισµό π.χ. ες. Γινοµένου [11] Από τα παραπάνω βλέπουµε ότι το πρωτόκολλο δεν επιρρίπτει ίσες ευθύνες στους δύο χρήστες και ότι µε σωστή επιλογή δεδοµένων ο Β µπορεί να παραβιάσει την ασφάλεια του στοιχείου του Α. Όπως αναφέρθηκε στην παράγραφο 1.2 υπάρχει µέθοδος για τον υπολογισµό σε περιβάλλον µη-εµπιστων χρηστών του ες. Γινοµένου, άρα από την σχέση (2.2) προκύπτει ότι µπορεί να υπολογιστεί το µοντέλο RBF χρησιµοποιώντας αυτή την µέθοδο. Παρακάτω ακολουθεί µια ανάλυση ασφάλειας για την ιδιωτικότητα των χρηστών και καταλήγει στο συµπέρασµα ότι µε υπόθεση non-trusted εµπλεκοµένων διατηρείται η ιδιωτικότητα των δεδοµένων κάθε χρήστη. 31

5.2 Επιλογή συνάρτησης ακτινικής βάσης Από τα αποτελέσµατα της ενότητας δύο καταλήξαµε στις σχέσεις από τις οποίες υπολογίζεται κάθε σηµείο του πίνακα που θα αποστείλει κάθε χρήστης και που παρατίθενται παρακάτω για ευκολία, = = Οι παραπάνω σχέσεις ξαναγράφονται ως εξής, = = = = = ηλαδή όπως αναφέρθηκε είναι συναρτήσεις των καθώς τα κέντρα είναι γνωστά. Το πρωτόκολλο που παρουσιάζεται στην επόµενη παράγραφο εξασφαλίζει ότι < και ότι ο αριθµός είναι ιδιωτικός. Άρα µε απευθείας λύση ο επιτιθέµενος κατέχει ένα σύστηµα όπου οι αγνωστοι είναι περισσότεροι από τις σχέσεις και ούτε ξέρει πόσοι είναι αυτοί οι άγνωστοι (πιθανό τάξεις µεγέθους περισσότεροι από τις σχέσεις). Προφανώς ο απευθείας υπολογισµός δεν συζητείται. Παρατηρούµε ότι αν επιλέξουµε το Gaussian kernel η πρώτη σχέση γράφεται, = = = 32

Και άρα ln, = + Όπου f η συνάρτηση που καθορίζει τον εκθέτη της Gaussian RBF. Εκ πρώτης όψεως φαίνεται ότι το πρόβληµα γίνεται ευκολότερο αφού πλέον έχουµε άθροισµα αθροίσµατος και όχι άθροισµα γινοµένου. Το σύστηµα όµως παραµένει υποκαθορισµένο (underdetermined) καθώς έχει περισσότερους αγνώστους από ότι σχέσεις. Εάν και ισχύει ότι το παραπάνω σύστηµα έχει άπειρες λύσεις ας µην ξεχνάµε ότι τα δεδοµένα έχουν ένα κοινά γνωστό (η προβλέψιµο) πεδίο ορισµού. Αυτό σηµαίνει ότι µπορεί να υπάρχει µια µοναδική λύση (µε όλες τις µεταβλητές σε αυτό το πεδίο ορισµού) που θα είναι αυτή που αντιστοιχεί στα δεδοµένα του χρήστη. Για τον υπολογισµό µιας τοπικής λύσης ή γενικά λύσεων υποκαθορισµένων συστηµάτων υπάρχει µια πληθώρα µεθόδων [14,15,16] που όµως κάνουν κάποια από τις παρακάτω υποθέσεις Το σύστηµα αποτελείται από γραµµικές εξισώσεις Το σύστηµα έχει καθορισµένο αριθµό αγνώστων Προφανώς καµιά RBF δεν είναι γραµµική αφού η ποσότητα δεν είναι γραµµική ως προς το. Ας µην ξεχνάµε ότι οι άγνωστοι είναι τα άρα όσο αφορά το σύστηµα πρόκειται για µια σύνθεση συναρτήσεων, της RBF και της συνάρτησης απόστασης. Επίσης ο αριθµός των αγνώστων όπως αναφέρθηκε δεν είναι γνωστός, άρα συµπεραίνουµε ότι δεν µπορεί να υπολογιστεί ούτε τοπική λύση του συστήµατος. 33

5.3 Πρωτόκολλο επιλογής πλήθους κέντρων Όπως δείχτηκε οι παράµετροι για την χρήση της προτεινόµενης µεθόδου είναι η επιλογή των κέντρων καθώς και του πλήθους τους όπως και η επιλογή της RBF. Από τα αποτελέσµατα του κεφαλαίου 2 καταλήξαµε στο περιορισµό (5.1) <, i = 1,2,.. N Βασιζόµενοι στο γεγονός ότι κάθε χρήστης θα λάβει (έστω από τον χρήστη ) το πλήθος εξισώσεις της µορφής, = Και c το πλήθος εξισώσεις της µορφής εξισώσεις της µορφής = Ο συνολικός αριθµός των αγνώστων για το σύστηµα που πρέπει να λυθεί για να υπολογιστούν τα σηµεία του είναι + (ή µόνο µε τις εξισώσεις της πρώτης µορφής ).Ο περιορισµός λοιπόν που τέθηκε για το πλήθος των κέντρων διασφαλίζει ότι το σύστηµα αυτό θα έχει άπειρες λύσεις. Έστω ότι κάποιος χρήστης επιλέγει 0 κέντρα έτσι ώστε να αναγκάσει τον άλλον (άλλους) χρήστη να µεγιστοποιήσει τον αριθµό των κέντρων που ια επιλέξει. Αυτό σηµαίνει πώς ο συγκεκριµένος χρήστης δεν θα στείλει κάποια κέντρα άρα απλά επιλέγεται να µην είναι παραλήπτης δεδοµένων αφού δεν θα προσφέρει, άρα ο αριθµός των κέντρων που θα δηλώσει ο κάθε χρήστης θα πρέπει να είναι 1. Παρατηρούµε ότι κάθε χρήστης στέλνει το ίδιο µέγεθος πίνακα, άρα προστατεύεται ο ακριβής αριθµός των σηµείων που κατέχει, ο κάθε επιτιθέµενος γνωρίζει µόνο ότι <, και αφου το δεν είναι γνωστό δεν παρέχει κάποια πληροφορία η ανισότητα αυτή. Έστω ότι µε συµβολίζεται ο αριθµός των κέντρων που δηλώνει ο χρήστης. Μια επίθεση θα ήταν ο επιτιθέµενος έστω να επιλέξει ένα µεγάλο αριθµό από (πλαστά) κέντρα, απο την αντίδραση των άλλων χρηστών θα µπορούσε να εκτιµήσει τα. (αφου ο περιορισµός αφορά το συνολικό αριθµό κέντρων). Το παρακάτω πρωτόκολλο επιλογής αριθµού κέντρων διασφαλίζει ότι ο αριθµός των σηµείων κάθε χρήστη δεν µπορεί να εκτιµηθεί. 34