Εργαστήριο Ασφάλειας Πληροφοριακών και Επικοινωνιακών Συστημάτων Πανεπιστήμιο Αιγαίου. Μέτρα ανωνυμίας και τεχνικές διασφάλισης της Ιδιωτικότητας

Σχετικά έγγραφα
Εργαστήριο Ασφάλειας Πληροφοριακών και Επικοινωνιακών Συστημάτων Πανεπιστήμιο Αιγαίου

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Τ Ε Ι Ιονίων Νήσων Τμήμα Εφαρμογών Πληροφορικής στη Διοίκηση και την Οικονομία. Υπεύθυνος: Δρ. Κολιός Σταύρος

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Σεραφείµ Καραµπογιάς. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6.3-1

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 : Πληροφορία και Εντροπία Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος

privacy preserving data publishing - gr

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Αιτιολόγηση με αβεβαιότητα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΚΡΥΠΤΟΓΡΑΦIΑ Α ΚΑΙ ΑΣΦΑΛΕΙΑ ΥΠΟΛΟΓΙΣΤΩΝ Δ Εξάμηνο

Πρόλογος 1. 1 Μαθηµατικό υπόβαθρο 9

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Θέματα Συστημάτων Πολυμέσων

Τεχνολογία Πολυμέσων. Ενότητα # 7: Θεωρία πληροφορίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Συμπίεση Δεδομένων

Ανάκτηση Πληροφορίας

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Τηλεπικοινωνιακά Συστήματα ΙΙ

ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ. Στατιστική????? Κάθε μέρα ερχόμαστε σε επαφή 24/02/2018

Οικονομικό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής ΠΜΣ Κρυπτογραφία και Εφαρμογές

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 7. Τυχαίες Μεταβλητές και Διακριτές Κατανομές Πιθανοτήτων

ΠΡΟΣΤΑΣΙΑ ΠΡΟΣΩΠΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΘΩΣ ΚΑΙ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Βιοστατιστική ΒΙΟ-309

Δίαυλος Πληροφορίας. Η λειτουργία του περιγράφεται από:

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Ψηφιακές Τηλεπικοινωνίες

Ψηφιακές Τηλεπικοινωνίες. Θεωρία Ρυθμού Παραμόρφωσης

ΕΕ728 Προχωρηµένα Θέµατα Θεωρίας Πληροφορίας 2η διάλεξη (3η έκδοση, 11/3)

ΤΕΧΝΙΚΗ ΥΔΡΟΛΟΓΙΑ Πιθανοτική προσέγγιση των υδρολογικών μεταβλητών

Στατιστική Επιχειρήσεων Ι

Βιοστατιστική ΒΙΟ-309

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Βιοστατιστική ΒΙΟ-309

- ΟΡΙΟ - ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ ΕΝΟΤΗΤΑ 6: ΜΗ ΠΕΠΕΡΑΣΜΕΝΟ ΟΡΙΟ ΣΤΟ

Ψηφιακές Τηλεπικοινωνίες. Πιθανότητα Σφάλματος για Δυαδική Διαμόρφωση

Στατιστική Ι-Θεωρητικές Κατανομές Ι

Θεωρία πληροφοριών. Τεχνολογία Πολυµέσων 07-1

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Θεματολογία. Δεδομένα και αβεβαιότητα. Αντικείμενο της Στατιστικής. Βασικές έννοιες. Δεδομένα και αβεβαιότητα. Στατιστική Ι

Θέματα Συστημάτων Πολυμέσων

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Αλγόριθμοι για ανάθεση συχνοτήτων και έλεγχο αποδοχής κλήσεων σε κυψελικά ασύρματα δίκτυα

Πανεπιστήμιο Πειραιά Τμήμα Ψηφιακών Συστημάτων. Κρυπτογραφία. Κρυπτοαλγόριθμοι. Χρήστος Ξενάκης

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

Περιγραφική Στατιστική

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας

Αθανάσιος Χρ. Τζέμος Τομέας Θεωρητικής Φυσικής. Εντροπία Shannon

ΘΕΜΑΤΑ Α : ΕΚΦΩΝΗΣΕΙΣ - ΛΥΣΕΙΣ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Στατιστική Ι. Ενότητα 6: Kατανομή Poisson. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

( ) log 2 = E. Σεραφείµ Καραµπογιάς

Πανεπιστήμιο Πειραιά Τμήμα Ψηφιακών Συστημάτων. Κρυπτογραφία. Ασύμμετρη Κρυπτογραφία. Χρήστος Ξενάκης

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Σεμινάριο Τελειοφοίτων. 6- Εμπειρική μέτρηση & ανάλυση

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Πα.Δα. Τμήμα Μηχανικών Πληροφορικής και Υπολογιστών ΣΦΑΛΜΑΤΑ ΜΕΤΡΗΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ Τμήμα Μαθηματικών ΧΡΟΝΟΣΕΙΡΕΣ. Σημειώσεις Πανεπιστημιακών Παραδόσεων

Εφαρμοσμένη Στατιστική

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

Μέρος IV. Πολυδιάστατες τυχαίες μεταβλητές. Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ15 ( 1 )

E[ (x- ) ]= trace[(x-x)(x- ) ]

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ

Εισαγωγή στο μάθημα Πιθανότητες - Στατιστική. Τμήμα Πολιτικών Μηχανικών Πανεπιστήμιο Θεσσαλίας

Στοχαστικές Στρατηγικές

Ψηφιακές Τηλεπικοινωνίες

Δίαυλος Πληροφορίας. Δρ. Α. Πολίτης

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Βασικά στοιχεία της θεωρίας πιθανοτήτων

Θεωρία Πληροφορίας. Διάλεξη 5: Διακριτή πηγή πληροφορίας με μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Επισκόπηση ύλης Πιθανοτήτων: Μέρος ΙΙ. M. Kούτρας

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Ανάκτηση Πληροφορίας

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

1.2 Δραστηριότητα: Εισαγωγή στο όριο ακολουθίας

Εισαγωγή Ορισμός Frequency moments

Κατανομή συνάρτησης τυχαίας μεταβλητής Y=g(X) Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ13 ( 1 )

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Ευφυής Προγραμματισμός

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

x 2,, x Ν τον οποίον το αποτέλεσμα επηρεάζεται από

Σχεδίαση και Ανάλυση Αλγορίθμων

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Transcript:

Εργαστήριο Ασφάλειας Πληροφοριακών και Επικοινωνιακών Συστημάτων Πανεπιστήμιο Αιγαίου Μέτρα ανωνυμίας και τεχνικές διασφάλισης της Ιδιωτικότητας Π. Ριζομυλιώτης 24/1/2012 1

Πρόγραμμα εργασιών 9/12: (9.00-11.00, Μυρτώ) Προστασία της Ιδιωτικότητας στην Ηλεκτρονική Ψηφοφορία Απειλές και Μηχανισμοί Προστασίας της Ιδιωτικότητας στα Ασύρματα & Κινητά Δίκτυα Επικοινωνιών 15/12: (20.00-21.00, Μυρτώ) 1. Οικονομικά της Προστασίας της Ιδιωτικότητας 24/1/2012 2

Ενδεικτική βιβλιογραφία Προστασία της Ιδιωτικότητας και Τεχνολογίες Πληροφορικής και Επικοινωνιών, Τεχνικά και Νομικά Θέματα. Κ. Λαμπρινουδάκης, Λ. Μήτρου, Στ. Γκρίτζαλης, Σ. Κάτσικας Εκδόσεις Παπασωτηρίου (βασική πηγή της και της παρουσίασης) Κεφ. 5 ο : Μέτρα Ανωνυμίας και Τεχνικές Διασφάλισης της Ιδιωτικότητας Νικόλαος Κολοκοτρώνης, Κωνσταντίνος Κούτρας 24/1/2012 3

Δομή Παρουσίασης Εισαγωγή Ανωνυμοποίηση δεδομένων Στατιστικά μέτρα ανωνυμίας Πιθανοτικά μέτρα ανωνυμίας Υπολογιστικά μέτρα ανωνυμίας 24/1/2012 4

Ιδιωτικότητα (1) «το δικαίωμα των πολιτών σε μια ανενόχλητη ιδιωτική ζωή» Βασικό πανανρθώπινο δικαίωμα στη Διακύρηξη των Η.Ε. (για τα αστικά και πολιτικά δικαιώματα) Ιδιωτικότητα: Χωρική (territorial) Του ατόμου (of the person) Πληροφοριακή (informational) 24/1/2012 5

Βασικά ερωτήματα Πώς μπορούν να συγκριθούν διαφορετικά συστήματα διασφάλισης της ανωνυμίας; Υπάρχει μέτρο που δύναται να εφαρμοστεί σε οποιοδήποτε σύστημα διασφάλισης της ανωνυμίας; Υπάρχουν μέτρα ανωνυμίας που να απεικονίζουν τη μερική ή τη στατιστική πληροφορία που συχνά αποκτά ο επιτιθέμενος; Με ποιο τρόπο αποτιμάται η αποτελεσματικότητα των επιθέσεων σε ένα σύστημα διασφάλισης της ανωνυμίας; Πώς μπορούν να ποσοτικοποιηθούν οι απώλειες ή/και τα κέρδη σε ανωνυμία; 24/1/2012 6

Μέτρηση Ιδιωτικότητας Αναζητάμε γενικό ορισμό της ιδιωτικότητας με τις εξής ιδιότητες: να είναι μετρήσιμος, να έχει αξία, να είναι αγώγιμος. Αναλογα με τον ορισμό και άλλες μετρικές Μυστικότητα Ανωνυμία 24/1/2012 7

Μέτρηση Ιδιωτικότητας Μυστικότητα πιθανότητας απόκτησης πρόσβασης σε υποσύνολο πληροφοριών, και αλλαγής στη γνώση ενός αντιπάλου με την απόκτηση πρόσβασης Ανωνυμία να μετρηθεί βάσει του βαθμού του αβεβαιότητας Η κρυπτογράφηση δεν είναι πανάκεια utility!!!! 24/1/2012 8

Μέθοδοι Ανωνυμοποίησης η διαταραχή (perturbation), η γενίκευση (generalization), η καταστολή (suppression), η αναδιάταξη (permutation). 24/1/2012 9

Μέθοδοι Ανωνυμοποίησης η διαταραχή (perturbation), Αντί της δημοσίευσης της τιμής x για μια ιδιότητα, δημοσιεύουμε την τιμή x ~ = x + r, όπου το r είναι μια τυχαία τιμή που προέρχεται από κατάλληλη κατανομή χωρίς πόλωση Χρήση σταθερής διαταραχής δύο είδη διαταραχών: διαταραχή εισόδου, διαταραχή εξόδου. 24/1/2012 10

Μέθοδοι Ανωνυμοποίησης Η μέθοδος της γενίκευσης: χρησιμοποιείται συχνά από κοινού με την καταστολή δεδομένων. Εάν υποθέσουμε ότι το πεδίο ορισμού των δεδομένων έχει μια φυσική ιεραρχική δομή, τότε ένα οποιοδήποτε σύνολο δεδομένων μπορεί να γενικευτεί με την αντικατάστασή του με τον κοινό γονέα των στοιχείων του. Τυπικό παράδειγμα: αντικατάσταση των τιμών ιδιοτήτων, όπως η ηλικία και ο μισθός, από διαστήματα τιμών. Η μέθοδος της καταστολής: παράλειψη ενός τμήματος των δεδομένων ή η αντικατάστασή του με ένα γενικό αναγνωριστικό (identifier) για το συγκεκριμένο τμήμα. 24/1/2012 11

Μέθοδοι Ανωνυμοποίησης Η μέθοδος της αναδιάταξης: η αναδιάταξη της προβολής ενός πίνακα T = { t1,, } που αποτελείται από τις tn ιδιότητες { a1,, } εκ των οποίων οι { +1,, am al } είναι ευαίσθητες. am Εάν π είναι μια αναδιάταξη του συνόλου { 1,, n }, τότε η εγγραφή t i τoυ νέου πίνακα Τ = {t 1,, t n } που προκύπτει δίνεται από τη σχέση 24/1/2012 12

Μέθοδοι Ανωνυμοποίησης Παράδειγμα μεθόδου αναδιάταξης: όπου η ιδιότητα μισθός είναι ευαίσθητη, δηλ. l = 3. Στο δεξιό τμήμα απεικονίζεται ο πίνακας μετά την εφαρμογή της αναδιάταξης π ({ 1, 2, 3, 4, 5, 6 } ) = { 5, 6, 1, 3, 2, 4 }, και άλλων μεθόδων που αναφέρθηκαν πιο πάνω. 24/1/2012 13

Κατηγοριοποίηση μεθόδων στατιστικές (statistical) μέθοδοι, πιθανοτικές (probabilistic) μέθοδοι, υπολογιστικές (computational) μέθοδοι. 24/1/2012 14

Στατιστικά μέτρα ανωνυμίας Περιορισμός των ερωτήσεων (query restriction) Ανωνυμία μέσω Διακύμανσης Ανωνυμία μέσω Πολλαπλότητας 24/1/2012 15

Περιορισμός των ερωτήσεων Από τις πρώτες μεθόδους ερωτήσεις που πραγματοποιούνται σε μια βάση δεδομένων μεγέθους n, και επιστρέφουν λιγότερες από k ή περισσότερες από n k εγγραφές (προφανώς πρέπει να ισχύει 1 < k <=n / 2) απορρίπτονται. μπορεί να υπονομευθεί με την πραγματοποίηση συγκεκριμένης ακολουθίας ερωτήσεων 24/1/2012 16

Περιορισμός των ερωτήσεων Παράδειγμα 24/1/2012 17

Ανωνυμία μέσω Διακύμανσης Η μέτρηση της ανωνυμίας μέσω μέτρησης της διακύμανσης των διαταραγμένων δεδομένων όσο μεγαλύτερη είναι η διακύμανση τόσο περισσότερο προστατεύεται η ανωνυμία της πληροφορίας υιοθέτηση κάτω φράγματος για τη διακύμανση Η προτεινόμενη μέθοδος είναι συνδυασμός του περιορισμού ερωτήσεων και της διαταραχής δεδομένων, και επιδιώκει την εύρεση μιας βέλτιστης συνδυαστικής στρατηγικής 24/1/2012 18

Ανωνυμία μέσω Διακύμανσης Εάν θεωρήσουμε το πλήθος q των εγγραφών που επιστρέφονται ως τυχαία μεταβλητή, η πιθανότητα να απορριφθεί μια ερώτηση εξαρτάται από το k και δίνεται από F ( k ) = P ( q < k ) + P ( q > n k ). σi τη διακύμανση των διαταραγμένων δεδομένων σε μια απάντηση με i εγγραφές, i = 1,, n, και λi είναι το ελάχιστο επιτρεπτό όριο διακύμανσης. Ελαχιστοποίηση της συνάρτησης L ( k, σ ) = ( 1 w ) F ( k ) + w σ 2, με τον περιορισμό σi λi, i = 1,, n όπου το w λαμβάνει τιμές στο διάστημα [ 0, 1 ] 24/1/2012 19

Ανωνυμία μέσω Διακύμανσης Ανάλυση της L ( k, σ ) για μεγάλες τιμές του k (π.χ. k >= 3) η απλή λύση διαταραχής είναι πιο αποτελεσματική. 24/1/2012 20

Ανωνυμία μέσω Πολλαπλότητας Ορισμός 5.1. Μια βάση δεδομένων ονομάζεται k ανώνυμη εάν δεν υπάρχει καμία ερώτηση που να μπορεί να εξάγει λιγότερες από k εγγραφές από αυτή. 24/1/2012 21

Πιθανοτικά Μέτρα Ανωνυμίας Μέτρα Βασισμένα σε Τυχαία Διαταραχή Χρήση Αμοιβαίας Πληροφορίας Διαχείριση Κατηγορικών Τιμών Μέτρηση της Μεταφοράς Πληροφορίας Μέτρα Βασισμένα σε Γενίκευση Ανωνυμοποίηση Συμπερασμάτων Ομαδοποίηση ως k ανωνυμία 24/1/2012 22

Μέτρα Βασισμένα σε Τυχαία Διαταραχή Χρήση Αμοιβαίας Πληροφορίας (mutual information) εντροπίας (entropy) H ( A ) αβεβαιότητας (uncertainty) στην τυχαία μεταβλητή Α δεσμευμένη ή υπό συνθήκη (conditional) εντροπία H ( A B ) H ( A ) >= H ( A B ), 24/1/2012 23

Μέτρα Βασισμένα σε Τυχαία Διαταραχή οι τυχαίες μεταβλητές Α, Β είναι διακριτές, και υποθέσουμε ότι παίρνουν τιμές από τα { a1,, an } και { b1,, bm } αντίστοιχα P ( ai ) = P ( A = ai ), και P ( A, B ) είναι η από κοινού (joint) πιθανότητα των τυχαίων μεταβλητών Α και Β. Η ποσότητα 2 H ( A ) μέτρο ιδιωτικότητας του Α το μέγεθος της ιδιωτικότητας που διαρρέει σε αντίπαλο, ο οποίος γνωρίζει το Β: όπου I ( A ; B ) = H ( A ) H ( A B ) 24/1/2012 24

Μέτρα Βασισμένα σε Τυχαία Διαταραχή Διαχείριση Κατηγορικών Τιμών Μη αριθμητικά δεδομένα κατηγορικά δεδομένα Δυο τρόποι μέτρησης αν μια μέθοδος ανωνυμοποίησης αφήνει ενδείξεις σε έναν αντίπαλο με υψηλή πιθανότητα I = { a 1,, an} από n αντικείμενα και μια ακολουθία T = { t1,, tm } από m συναλλαγές, όπου ισχύει η συχνότητα εμφάνισής του στις επιμέρους συναλλαγές 24/1/2012 25

Μέτρα Βασισμένα σε Τυχαία Διαταραχή Ορίζεται ως ελάχιστη ανιχνεύσιμη κάλυψη (ΕΑΚ) ενός συνόλου αντικειμένων Α εκείνη που μπορούμε να την διακρίνουμε από το μηδέν με μια ορισθείσα ακρίβεια. 24/1/2012 26

Μέτρα Βασισμένα σε Τυχαία Διαταραχή Ο ορισμός 5.2 η έννοια της κάλυψης οδήγησε μέσω πειραματικών αποτελεσμάτων στο συμπέρασμα ότι είναι εξαιρετικά δύσκολο ο επιτιθέμενος να ανακαλύψει σύνολα αντικειμένων που θα οδηγήσουν σε παραβίαση ιδιωτικότητας, εάν το μέγεθος μιας συναλλαγής είναι μεγαλύτερο ή ίσο των 10Μ. 24/1/2012 27

Μέτρα Βασισμένα σε Τυχαία Διαταραχή Διαχείριση Κατηγορικών Τιμών Η δεύτερη προσέγγιση είναι η μέτρηση της ιδιωτικότητας μέσω της πιθανότητας σωστής ανακατασκευής του αρχικού bit δοθέντος του διαταραγμένου bit Μοντελοποίηση δυαδικού συμμετρικού καναλιού (binary symmetric channel BSC) P = parameter 24/1/2012 28

Μέτρα Βασισμένα σε Τυχαία Διαταραχή Μέτρηση της Μεταφοράς Πληροφορίας Αμοιβαία πληροφορία Ι(Α;Β): η μεταφορά πληροφορίας μεταξύ της πηγής και των ανωνυμοποιημένων δεδομένων Q ( x )είναι μια ιδιότητα των δεδομένων, τότε θα θεωρείται ότι υπάρχει παραβίαση της ιδιωτικότητας μετά τη διαταραχή των δεδομένα από τη συνάρτηση R ( x ) εάν υπάρχει κάποιο y τέτοιο ώστε 24/1/2012 29

Μέτρα Βασισμένα σε Τυχαία Διαταραχή Μέτρηση της Μεταφοράς Πληροφορίας έχει μεγάλο υπολογιστικό κόστος. η αμοιβαία πληροφορία μπορεί να οριστεί ως όπου η συνάρτηση KL μετρά την απόσταση μεταφοράς 24/1/2012 30

Μέτρα Βασισμένα σε Γενίκευση 1. Ανωνυμοποίηση Συμπερασμάτων 2. Ομαδοποίηση ως k ανωνυμία l ποικιλομορφίας (l diversity) 24/1/2012 31

Μέτρα Βασισμένα σε Γενίκευση Παράδειγμα: Έστω ένας πίνακας με n = 12 εγγραφές και τις m = 5 ιδιότητες { id, T.K., ηλικία, χώρα, πάθηση }, 3-diversity 24/1/2012 32

Μέτρα Βασισμένα σε Γενίκευση Η βασική ιδέα πίσω από τον παραπάνω ορισμό είναι ότι η κατανομή ευαίσθητων τιμών θα πρέπει να έχει υψηλή εντροπία (τουλάχιστον log l). Αυτό περιλαμβάνει την k ανωνυμία γενικευση της k ανωνυμία στην p ευαίσθητη (p sensitive) k ανωνυμία Τ είναι ένας πίνακας με σύνολο ιδιοτήτων Q καιτην ευαίσθητη ιδιότητα S, και ( Ε, s ) είναι ένα σύνολο εγγραφών στις οποίες η ιδιότητα S λαμβάνει την τιμή s, τότε: 24/1/2012 33

Μέτρα Βασισμένα σε Γενίκευση Ανωνυμοποίηση Συμπερασμάτων η έννοια του προτύπου ιδιωτικότητας (privacy template): ένα συμπέρασμα ως προς τα δεδομένα που συνδέεται συγχρόνως με ένα φράγμα εμπιστοσύνης. 24/1/2012 34

Μέτρα Βασισμένα σε Γενίκευση Ομαδοποίηση ως k ανωνυμία οι ιδιότητες θεωρούνται ως στοιχεία ενός μετρικού χώρου 24/1/2012 35

Υπολογιστικά Μέτρα Ανωνυμίας 1. Ανωνυμία μέσω Μεταφοράς Πληροφορίας 2. Ανωνυμία μέσω Δυσδιακρισίας 3. Ανωνυμία μέσω Απομόνωσης Μηχανές Turing!! Η προσέγγιση αυτή είναι ελκυστική για ποικίλους λόγους: Η μέτρηση της ιδιωτικότητας βάσει της απόστασης μεταξύ κατανομών δε δίνει πληροφορία σχετικά με τα είδη των επιθέσεων που ένας αντίπαλος, με περιορισμό σε διαθέσιμους πόρους, μπορεί να πραγματοποιήσει. Έτσι, μέτρα ιδιωτικότητας που στηρίζονται σε αποστάσεις κατανομών μπορεί να θεωρηθούν υπερβολικά συντηρητικά. Είναι δύσκολο να καθοριστεί επακριβώς τι είδους βασική γνώση κατέχει ένας αντίπαλος. Συνεπώς, ελλείψει τέτοιας πληροφορίας, θα μπορούσε να θεωρηθεί ότι κάθε μοντέλο διασφάλισης της ιδιωτικότητας που βασίζεται σε επιθέσεις βασικής γνώσης είναι ευπαθές στη διαρροή πληροφορίας. 24/1/2012 36

Υπολογιστικά Μέτρα Ανωνυμίας θεωρείται ότι μια βάση δεδομένων αποτελείται από μια ακολουθία bits, ενώ μια ερώτηση q αποτελείται από ένα υποσύνολο θέσεων των bits, όπου η ποσότητα a q συμβολίζει το πλήθος των 1 στο υποσύνολο. Η διαδικασία ανωνυμοποίησης αντιστοιχεί σε έναν αλγόριθμο που επιστρέφει την (ενδεχομένως τροποποιημένη) απάντηση Α q στην ερώτηση q ανωνυμοποίηση θεωρείται ότι είναι εντός διαταραχής Ɛ, εάν a q Α q <=Ɛ για κάθε ερώτηση q. 24/1/2012 37

Υπολογιστικά Μέτρα Ανωνυμίας Στην περίπτωση αυτή, ο αντίπαλος θεωρείται ως μηχανή Turing η οποία μπορεί να ανακατασκευάσει, με μεγάλη πιθανότητα, ένα σταθερό μέρος των bits της βάσης δεδομένων πραγματοποιώντας μόνον κλήσεις στον αλγόριθμο ερωτήσεων (query algorithm). Η ποιότητα της ανακατασκευής μετριέται με την απόσταση Hamming μεταξύ της αρχικής και της ανακατασκευασμένης βάσης δεδομένων. Ο αντίπαλος θεωρείται ότι πέτυχε το στόχο του αν η απόσταση αυτή είναι το πολύ ϵ n 24/1/2012 38

Ανωνυμία μέσω Μεταφοράς Πληροφορίας πρέπει να γνωρίζουμε πόσο αλλάζει η πιθανότητα ενός bit μέσω της ανωνυμοποίησης Εάν πραγματοποιηθούν Τ, αλλαγή στην πεποίθηση (confidence) του αντιπάλου μπορεί να ποσοτικοποιηθεί από την παράσταση όπου CONF ( x ) = log ( x / ( 1 x ) ) 24/1/2012 39

Ανωνυμία μέσω Μεταφοράς Πληροφορίας 24/1/2012 40

Ανωνυμία μέσω Δυσδιακρισίας Ορισμός 5.9. Μία βάση δεδομένων ονομάζεται ιδιωτική, εάν η μάθηση οποιασδήποτε πληροφορίας μπορεί να πραγματοποιηθεί και υπό την απουσία της. Διακρίνονται οι μηχανισμοί ιδιωτικότητας: Σε διαδραστικούς μηχανισμούς, διαταράσσεται η έξοδος στην κάθε ερώτηση(διαταραχή εξόδου). Σε μη διαδραστικούς μηχανισμούς, ο εκδότης των δεδομένων ανωνυμοποιεί τα δεδομένα (διαταραχή εισόδου) και τα δημοσιεύει. 24/1/2012 41

Ανωνυμία μέσω Απομόνωσης Μια διαφορετική προσέγγιση ανωνυμοποίησης είναι η απομόνωση (isolation): μια εγγραφή ονομάζεται ιδιωτική εάν δεν ξεχωρίζει από τις γειτονικές εγγραφές. 24/1/2012 42

Ερωτήσεις?? 24/1/2012 43