Εργαστήριο Ασφάλειας Πληροφοριακών και Επικοινωνιακών Συστημάτων Πανεπιστήμιο Αιγαίου Μέτρα ανωνυμίας και τεχνικές διασφάλισης της Ιδιωτικότητας Π. Ριζομυλιώτης 24/1/2012 1
Πρόγραμμα εργασιών 9/12: (9.00-11.00, Μυρτώ) Προστασία της Ιδιωτικότητας στην Ηλεκτρονική Ψηφοφορία Απειλές και Μηχανισμοί Προστασίας της Ιδιωτικότητας στα Ασύρματα & Κινητά Δίκτυα Επικοινωνιών 15/12: (20.00-21.00, Μυρτώ) 1. Οικονομικά της Προστασίας της Ιδιωτικότητας 24/1/2012 2
Ενδεικτική βιβλιογραφία Προστασία της Ιδιωτικότητας και Τεχνολογίες Πληροφορικής και Επικοινωνιών, Τεχνικά και Νομικά Θέματα. Κ. Λαμπρινουδάκης, Λ. Μήτρου, Στ. Γκρίτζαλης, Σ. Κάτσικας Εκδόσεις Παπασωτηρίου (βασική πηγή της και της παρουσίασης) Κεφ. 5 ο : Μέτρα Ανωνυμίας και Τεχνικές Διασφάλισης της Ιδιωτικότητας Νικόλαος Κολοκοτρώνης, Κωνσταντίνος Κούτρας 24/1/2012 3
Δομή Παρουσίασης Εισαγωγή Ανωνυμοποίηση δεδομένων Στατιστικά μέτρα ανωνυμίας Πιθανοτικά μέτρα ανωνυμίας Υπολογιστικά μέτρα ανωνυμίας 24/1/2012 4
Ιδιωτικότητα (1) «το δικαίωμα των πολιτών σε μια ανενόχλητη ιδιωτική ζωή» Βασικό πανανρθώπινο δικαίωμα στη Διακύρηξη των Η.Ε. (για τα αστικά και πολιτικά δικαιώματα) Ιδιωτικότητα: Χωρική (territorial) Του ατόμου (of the person) Πληροφοριακή (informational) 24/1/2012 5
Βασικά ερωτήματα Πώς μπορούν να συγκριθούν διαφορετικά συστήματα διασφάλισης της ανωνυμίας; Υπάρχει μέτρο που δύναται να εφαρμοστεί σε οποιοδήποτε σύστημα διασφάλισης της ανωνυμίας; Υπάρχουν μέτρα ανωνυμίας που να απεικονίζουν τη μερική ή τη στατιστική πληροφορία που συχνά αποκτά ο επιτιθέμενος; Με ποιο τρόπο αποτιμάται η αποτελεσματικότητα των επιθέσεων σε ένα σύστημα διασφάλισης της ανωνυμίας; Πώς μπορούν να ποσοτικοποιηθούν οι απώλειες ή/και τα κέρδη σε ανωνυμία; 24/1/2012 6
Μέτρηση Ιδιωτικότητας Αναζητάμε γενικό ορισμό της ιδιωτικότητας με τις εξής ιδιότητες: να είναι μετρήσιμος, να έχει αξία, να είναι αγώγιμος. Αναλογα με τον ορισμό και άλλες μετρικές Μυστικότητα Ανωνυμία 24/1/2012 7
Μέτρηση Ιδιωτικότητας Μυστικότητα πιθανότητας απόκτησης πρόσβασης σε υποσύνολο πληροφοριών, και αλλαγής στη γνώση ενός αντιπάλου με την απόκτηση πρόσβασης Ανωνυμία να μετρηθεί βάσει του βαθμού του αβεβαιότητας Η κρυπτογράφηση δεν είναι πανάκεια utility!!!! 24/1/2012 8
Μέθοδοι Ανωνυμοποίησης η διαταραχή (perturbation), η γενίκευση (generalization), η καταστολή (suppression), η αναδιάταξη (permutation). 24/1/2012 9
Μέθοδοι Ανωνυμοποίησης η διαταραχή (perturbation), Αντί της δημοσίευσης της τιμής x για μια ιδιότητα, δημοσιεύουμε την τιμή x ~ = x + r, όπου το r είναι μια τυχαία τιμή που προέρχεται από κατάλληλη κατανομή χωρίς πόλωση Χρήση σταθερής διαταραχής δύο είδη διαταραχών: διαταραχή εισόδου, διαταραχή εξόδου. 24/1/2012 10
Μέθοδοι Ανωνυμοποίησης Η μέθοδος της γενίκευσης: χρησιμοποιείται συχνά από κοινού με την καταστολή δεδομένων. Εάν υποθέσουμε ότι το πεδίο ορισμού των δεδομένων έχει μια φυσική ιεραρχική δομή, τότε ένα οποιοδήποτε σύνολο δεδομένων μπορεί να γενικευτεί με την αντικατάστασή του με τον κοινό γονέα των στοιχείων του. Τυπικό παράδειγμα: αντικατάσταση των τιμών ιδιοτήτων, όπως η ηλικία και ο μισθός, από διαστήματα τιμών. Η μέθοδος της καταστολής: παράλειψη ενός τμήματος των δεδομένων ή η αντικατάστασή του με ένα γενικό αναγνωριστικό (identifier) για το συγκεκριμένο τμήμα. 24/1/2012 11
Μέθοδοι Ανωνυμοποίησης Η μέθοδος της αναδιάταξης: η αναδιάταξη της προβολής ενός πίνακα T = { t1,, } που αποτελείται από τις tn ιδιότητες { a1,, } εκ των οποίων οι { +1,, am al } είναι ευαίσθητες. am Εάν π είναι μια αναδιάταξη του συνόλου { 1,, n }, τότε η εγγραφή t i τoυ νέου πίνακα Τ = {t 1,, t n } που προκύπτει δίνεται από τη σχέση 24/1/2012 12
Μέθοδοι Ανωνυμοποίησης Παράδειγμα μεθόδου αναδιάταξης: όπου η ιδιότητα μισθός είναι ευαίσθητη, δηλ. l = 3. Στο δεξιό τμήμα απεικονίζεται ο πίνακας μετά την εφαρμογή της αναδιάταξης π ({ 1, 2, 3, 4, 5, 6 } ) = { 5, 6, 1, 3, 2, 4 }, και άλλων μεθόδων που αναφέρθηκαν πιο πάνω. 24/1/2012 13
Κατηγοριοποίηση μεθόδων στατιστικές (statistical) μέθοδοι, πιθανοτικές (probabilistic) μέθοδοι, υπολογιστικές (computational) μέθοδοι. 24/1/2012 14
Στατιστικά μέτρα ανωνυμίας Περιορισμός των ερωτήσεων (query restriction) Ανωνυμία μέσω Διακύμανσης Ανωνυμία μέσω Πολλαπλότητας 24/1/2012 15
Περιορισμός των ερωτήσεων Από τις πρώτες μεθόδους ερωτήσεις που πραγματοποιούνται σε μια βάση δεδομένων μεγέθους n, και επιστρέφουν λιγότερες από k ή περισσότερες από n k εγγραφές (προφανώς πρέπει να ισχύει 1 < k <=n / 2) απορρίπτονται. μπορεί να υπονομευθεί με την πραγματοποίηση συγκεκριμένης ακολουθίας ερωτήσεων 24/1/2012 16
Περιορισμός των ερωτήσεων Παράδειγμα 24/1/2012 17
Ανωνυμία μέσω Διακύμανσης Η μέτρηση της ανωνυμίας μέσω μέτρησης της διακύμανσης των διαταραγμένων δεδομένων όσο μεγαλύτερη είναι η διακύμανση τόσο περισσότερο προστατεύεται η ανωνυμία της πληροφορίας υιοθέτηση κάτω φράγματος για τη διακύμανση Η προτεινόμενη μέθοδος είναι συνδυασμός του περιορισμού ερωτήσεων και της διαταραχής δεδομένων, και επιδιώκει την εύρεση μιας βέλτιστης συνδυαστικής στρατηγικής 24/1/2012 18
Ανωνυμία μέσω Διακύμανσης Εάν θεωρήσουμε το πλήθος q των εγγραφών που επιστρέφονται ως τυχαία μεταβλητή, η πιθανότητα να απορριφθεί μια ερώτηση εξαρτάται από το k και δίνεται από F ( k ) = P ( q < k ) + P ( q > n k ). σi τη διακύμανση των διαταραγμένων δεδομένων σε μια απάντηση με i εγγραφές, i = 1,, n, και λi είναι το ελάχιστο επιτρεπτό όριο διακύμανσης. Ελαχιστοποίηση της συνάρτησης L ( k, σ ) = ( 1 w ) F ( k ) + w σ 2, με τον περιορισμό σi λi, i = 1,, n όπου το w λαμβάνει τιμές στο διάστημα [ 0, 1 ] 24/1/2012 19
Ανωνυμία μέσω Διακύμανσης Ανάλυση της L ( k, σ ) για μεγάλες τιμές του k (π.χ. k >= 3) η απλή λύση διαταραχής είναι πιο αποτελεσματική. 24/1/2012 20
Ανωνυμία μέσω Πολλαπλότητας Ορισμός 5.1. Μια βάση δεδομένων ονομάζεται k ανώνυμη εάν δεν υπάρχει καμία ερώτηση που να μπορεί να εξάγει λιγότερες από k εγγραφές από αυτή. 24/1/2012 21
Πιθανοτικά Μέτρα Ανωνυμίας Μέτρα Βασισμένα σε Τυχαία Διαταραχή Χρήση Αμοιβαίας Πληροφορίας Διαχείριση Κατηγορικών Τιμών Μέτρηση της Μεταφοράς Πληροφορίας Μέτρα Βασισμένα σε Γενίκευση Ανωνυμοποίηση Συμπερασμάτων Ομαδοποίηση ως k ανωνυμία 24/1/2012 22
Μέτρα Βασισμένα σε Τυχαία Διαταραχή Χρήση Αμοιβαίας Πληροφορίας (mutual information) εντροπίας (entropy) H ( A ) αβεβαιότητας (uncertainty) στην τυχαία μεταβλητή Α δεσμευμένη ή υπό συνθήκη (conditional) εντροπία H ( A B ) H ( A ) >= H ( A B ), 24/1/2012 23
Μέτρα Βασισμένα σε Τυχαία Διαταραχή οι τυχαίες μεταβλητές Α, Β είναι διακριτές, και υποθέσουμε ότι παίρνουν τιμές από τα { a1,, an } και { b1,, bm } αντίστοιχα P ( ai ) = P ( A = ai ), και P ( A, B ) είναι η από κοινού (joint) πιθανότητα των τυχαίων μεταβλητών Α και Β. Η ποσότητα 2 H ( A ) μέτρο ιδιωτικότητας του Α το μέγεθος της ιδιωτικότητας που διαρρέει σε αντίπαλο, ο οποίος γνωρίζει το Β: όπου I ( A ; B ) = H ( A ) H ( A B ) 24/1/2012 24
Μέτρα Βασισμένα σε Τυχαία Διαταραχή Διαχείριση Κατηγορικών Τιμών Μη αριθμητικά δεδομένα κατηγορικά δεδομένα Δυο τρόποι μέτρησης αν μια μέθοδος ανωνυμοποίησης αφήνει ενδείξεις σε έναν αντίπαλο με υψηλή πιθανότητα I = { a 1,, an} από n αντικείμενα και μια ακολουθία T = { t1,, tm } από m συναλλαγές, όπου ισχύει η συχνότητα εμφάνισής του στις επιμέρους συναλλαγές 24/1/2012 25
Μέτρα Βασισμένα σε Τυχαία Διαταραχή Ορίζεται ως ελάχιστη ανιχνεύσιμη κάλυψη (ΕΑΚ) ενός συνόλου αντικειμένων Α εκείνη που μπορούμε να την διακρίνουμε από το μηδέν με μια ορισθείσα ακρίβεια. 24/1/2012 26
Μέτρα Βασισμένα σε Τυχαία Διαταραχή Ο ορισμός 5.2 η έννοια της κάλυψης οδήγησε μέσω πειραματικών αποτελεσμάτων στο συμπέρασμα ότι είναι εξαιρετικά δύσκολο ο επιτιθέμενος να ανακαλύψει σύνολα αντικειμένων που θα οδηγήσουν σε παραβίαση ιδιωτικότητας, εάν το μέγεθος μιας συναλλαγής είναι μεγαλύτερο ή ίσο των 10Μ. 24/1/2012 27
Μέτρα Βασισμένα σε Τυχαία Διαταραχή Διαχείριση Κατηγορικών Τιμών Η δεύτερη προσέγγιση είναι η μέτρηση της ιδιωτικότητας μέσω της πιθανότητας σωστής ανακατασκευής του αρχικού bit δοθέντος του διαταραγμένου bit Μοντελοποίηση δυαδικού συμμετρικού καναλιού (binary symmetric channel BSC) P = parameter 24/1/2012 28
Μέτρα Βασισμένα σε Τυχαία Διαταραχή Μέτρηση της Μεταφοράς Πληροφορίας Αμοιβαία πληροφορία Ι(Α;Β): η μεταφορά πληροφορίας μεταξύ της πηγής και των ανωνυμοποιημένων δεδομένων Q ( x )είναι μια ιδιότητα των δεδομένων, τότε θα θεωρείται ότι υπάρχει παραβίαση της ιδιωτικότητας μετά τη διαταραχή των δεδομένα από τη συνάρτηση R ( x ) εάν υπάρχει κάποιο y τέτοιο ώστε 24/1/2012 29
Μέτρα Βασισμένα σε Τυχαία Διαταραχή Μέτρηση της Μεταφοράς Πληροφορίας έχει μεγάλο υπολογιστικό κόστος. η αμοιβαία πληροφορία μπορεί να οριστεί ως όπου η συνάρτηση KL μετρά την απόσταση μεταφοράς 24/1/2012 30
Μέτρα Βασισμένα σε Γενίκευση 1. Ανωνυμοποίηση Συμπερασμάτων 2. Ομαδοποίηση ως k ανωνυμία l ποικιλομορφίας (l diversity) 24/1/2012 31
Μέτρα Βασισμένα σε Γενίκευση Παράδειγμα: Έστω ένας πίνακας με n = 12 εγγραφές και τις m = 5 ιδιότητες { id, T.K., ηλικία, χώρα, πάθηση }, 3-diversity 24/1/2012 32
Μέτρα Βασισμένα σε Γενίκευση Η βασική ιδέα πίσω από τον παραπάνω ορισμό είναι ότι η κατανομή ευαίσθητων τιμών θα πρέπει να έχει υψηλή εντροπία (τουλάχιστον log l). Αυτό περιλαμβάνει την k ανωνυμία γενικευση της k ανωνυμία στην p ευαίσθητη (p sensitive) k ανωνυμία Τ είναι ένας πίνακας με σύνολο ιδιοτήτων Q καιτην ευαίσθητη ιδιότητα S, και ( Ε, s ) είναι ένα σύνολο εγγραφών στις οποίες η ιδιότητα S λαμβάνει την τιμή s, τότε: 24/1/2012 33
Μέτρα Βασισμένα σε Γενίκευση Ανωνυμοποίηση Συμπερασμάτων η έννοια του προτύπου ιδιωτικότητας (privacy template): ένα συμπέρασμα ως προς τα δεδομένα που συνδέεται συγχρόνως με ένα φράγμα εμπιστοσύνης. 24/1/2012 34
Μέτρα Βασισμένα σε Γενίκευση Ομαδοποίηση ως k ανωνυμία οι ιδιότητες θεωρούνται ως στοιχεία ενός μετρικού χώρου 24/1/2012 35
Υπολογιστικά Μέτρα Ανωνυμίας 1. Ανωνυμία μέσω Μεταφοράς Πληροφορίας 2. Ανωνυμία μέσω Δυσδιακρισίας 3. Ανωνυμία μέσω Απομόνωσης Μηχανές Turing!! Η προσέγγιση αυτή είναι ελκυστική για ποικίλους λόγους: Η μέτρηση της ιδιωτικότητας βάσει της απόστασης μεταξύ κατανομών δε δίνει πληροφορία σχετικά με τα είδη των επιθέσεων που ένας αντίπαλος, με περιορισμό σε διαθέσιμους πόρους, μπορεί να πραγματοποιήσει. Έτσι, μέτρα ιδιωτικότητας που στηρίζονται σε αποστάσεις κατανομών μπορεί να θεωρηθούν υπερβολικά συντηρητικά. Είναι δύσκολο να καθοριστεί επακριβώς τι είδους βασική γνώση κατέχει ένας αντίπαλος. Συνεπώς, ελλείψει τέτοιας πληροφορίας, θα μπορούσε να θεωρηθεί ότι κάθε μοντέλο διασφάλισης της ιδιωτικότητας που βασίζεται σε επιθέσεις βασικής γνώσης είναι ευπαθές στη διαρροή πληροφορίας. 24/1/2012 36
Υπολογιστικά Μέτρα Ανωνυμίας θεωρείται ότι μια βάση δεδομένων αποτελείται από μια ακολουθία bits, ενώ μια ερώτηση q αποτελείται από ένα υποσύνολο θέσεων των bits, όπου η ποσότητα a q συμβολίζει το πλήθος των 1 στο υποσύνολο. Η διαδικασία ανωνυμοποίησης αντιστοιχεί σε έναν αλγόριθμο που επιστρέφει την (ενδεχομένως τροποποιημένη) απάντηση Α q στην ερώτηση q ανωνυμοποίηση θεωρείται ότι είναι εντός διαταραχής Ɛ, εάν a q Α q <=Ɛ για κάθε ερώτηση q. 24/1/2012 37
Υπολογιστικά Μέτρα Ανωνυμίας Στην περίπτωση αυτή, ο αντίπαλος θεωρείται ως μηχανή Turing η οποία μπορεί να ανακατασκευάσει, με μεγάλη πιθανότητα, ένα σταθερό μέρος των bits της βάσης δεδομένων πραγματοποιώντας μόνον κλήσεις στον αλγόριθμο ερωτήσεων (query algorithm). Η ποιότητα της ανακατασκευής μετριέται με την απόσταση Hamming μεταξύ της αρχικής και της ανακατασκευασμένης βάσης δεδομένων. Ο αντίπαλος θεωρείται ότι πέτυχε το στόχο του αν η απόσταση αυτή είναι το πολύ ϵ n 24/1/2012 38
Ανωνυμία μέσω Μεταφοράς Πληροφορίας πρέπει να γνωρίζουμε πόσο αλλάζει η πιθανότητα ενός bit μέσω της ανωνυμοποίησης Εάν πραγματοποιηθούν Τ, αλλαγή στην πεποίθηση (confidence) του αντιπάλου μπορεί να ποσοτικοποιηθεί από την παράσταση όπου CONF ( x ) = log ( x / ( 1 x ) ) 24/1/2012 39
Ανωνυμία μέσω Μεταφοράς Πληροφορίας 24/1/2012 40
Ανωνυμία μέσω Δυσδιακρισίας Ορισμός 5.9. Μία βάση δεδομένων ονομάζεται ιδιωτική, εάν η μάθηση οποιασδήποτε πληροφορίας μπορεί να πραγματοποιηθεί και υπό την απουσία της. Διακρίνονται οι μηχανισμοί ιδιωτικότητας: Σε διαδραστικούς μηχανισμούς, διαταράσσεται η έξοδος στην κάθε ερώτηση(διαταραχή εξόδου). Σε μη διαδραστικούς μηχανισμούς, ο εκδότης των δεδομένων ανωνυμοποιεί τα δεδομένα (διαταραχή εισόδου) και τα δημοσιεύει. 24/1/2012 41
Ανωνυμία μέσω Απομόνωσης Μια διαφορετική προσέγγιση ανωνυμοποίησης είναι η απομόνωση (isolation): μια εγγραφή ονομάζεται ιδιωτική εάν δεν ξεχωρίζει από τις γειτονικές εγγραφές. 24/1/2012 42
Ερωτήσεις?? 24/1/2012 43