ΕΡΕΥΝΗΤΙΚΟ ΚΕΝΤΡΟ ΚΑΙΝΟΤΟΜΙΑΣ ΣΤΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ & ΤΗΣ ΓΝΩΣΗΣ «ΑΘΗΝΑ» ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ LODGOV Διακυβέρνηση Δεδομένων στην εποχή του Ιστού Δεδομένων: δημιουργία, διαχείριση, διατηρησιμότητα, κοινοχρησία και προστασία πόρων στον Ιστό. ΔΡΑΣΗ «ΑΡΙΣΤΕΙΑ» Παραδοτέο 4.1: Τεχνική Αναφορά
ΔΡΑΣΗ «ΑΡΙΣΤΕΙΑ» Παραδοτέο 4.1: Τεχνική Αναφορά Μοντέλα προστασίας ιδιωτικότητας Ανοιχτών Διασυνδεδεμένων Δεδομένων Παπαδάκης Γ. και Σελλής Τ. Παραδοτέο 4.1: Τεχνική Αναφορά 1
Περιεχόμενα 1 Εισαγωγή... 3 1.1 Χαρακτηριστικά... 4 1.2 Ρόλοι... 5 1.3 Δημοσίευση Δεδομένων... 5 1.4 Μετασχηματισμός Δεδομένων... 6 2 Προστασία κατά της αναγνώρισης ταυτότητας (identity disclosure)... 7 3 Προστασία κατά της αναγνώρισης πεδίων (attribute disclosure)... 9 4 Ανωνυμοποίηση Δεδομένων Γράφου... 11 4.1 Προηγούμενες Γνώσεις... 11 4.2 Μοντέλα Ιδιωτικότητας... 12 4.2.1 k-βαθμού (k-degree)... 12 4.2.2 k-γειτονιά (k-neighborhood).... 12 4.2.3 l-διαφορετικότητα σε γράφους.... 13 Πίνακας Ορολογίας... 14 Βιβλιογραφία... 15 Παραδοτέο 4.1: Τεχνική Αναφορά 2
1 Εισαγωγή Τα Διασυνδεδεμένα Δεδομένα αφορούν πρακτικές για έκδοση, κοινοχρησία και διασύνδεση δεδομένων Ιστού και δίνουν ένα νέο πλαίσιο για ολοκλήρωση δεδομένων και διαλειτουργικότητα. Οι τεχνολογίες Διασυνδεδεμένων Δεδομένων έχουν ως στόχο την υλοποίηση του Ιστού Δεδομένων. Ο Ιστός Δεδομένων επεκτείνει τον Ιστό σε ένα γενικευμένο χώρο στον οποίο όλη η παρεχόμενη πληροφορία, αν και από διαφορετικές, ετερογενείς πηγές, είναι διασυνδεδεμένη, δίνοντας έτσι προστιθέμενη αξία σε εφαρμογές υποστήριξης λήψης αποφάσεων και επιχειρηματικής ευφυίας. Η ανάπτυξη του Ιστού Δεδομένων είναι σε κοινή πορεία με το κίνημα των Ανοικτών Δεδομένων, προσφέροντας στη διαφάνεια, στη λογοδοσία και στη χρηστή διακυβέρνηση. Η ευκολία δημοσίευσης δεδομένων στον Ιστό χρησιμοποιώντας τις τεχνολογίες Διασυνδεδεμένων Δεδομένων φέρνει στην επιφάνεια το πρόβλημα της ιδιωτικότητας. Υπάρχουν μια σειρά από μελέτες οι οποίες δείχνουν ότι οι χρήστες δεν δίνουν μεγάλη έμφαση στην ιδιωτικότητα των ηλεκτρονικών τους δεδομένων [1, 2, 3, 4]. Η ιδιωτικότητα δεν είναι ένα εμφανές αγαθό καθώς οι χρήστες την αντιλαμβάνονται περισσότερο όταν εκλείπει. Στην αναφορά [5], οι συγγραφείς υποστηρίζουν ότι η επιθυμία των χρηστών να προστατεύσουν την ιδιωτικότητα τους δεν συμβαδίζει πάντα με τη συμπεριφορά τους. Συχνά δε γνωρίζουν καλά το δημόσιο χαρακτήρα του δικτύου και το κοινό τους [6, 7]. Η αναφορά [8] υποστηρίζει ότι η ηλεκτρονική δημοσίευση δεδομένων έχει διαταράξει τα όρια μεταξύ δημόσιου και ιδιωτικού καθώς ο έλεγχος των χρηστών στα δεδομένα έχει παραμεληθεί. Επισημαίνουμε τέσσερα βασικά χαρακτηριστικά της ηλεκτρονικής δημοσίευσης προσωπικών δεδομένων που διαταράσσουν την προσπάθεια των χρηστών για έλεγχο της ιδιωτικότητάς τους σε κοινωνικά δίκτυα: Ανθεκτικότητα (Persistence). Οτιδήποτε δημοσιεύεται ηλεκτρονικά μπορεί να μείνει διαθέσιμο για πολύ μεγάλο χρονικό διάστημα, σε αντίθεση με τις συζητήσεις στην πραγματική ζωή όπου το περιεχόμενό τους είναι εφήμερο και μπορεί να ξεχαστεί εύκολα. Αντιγραψιμότητα (Replicability). Τα ηλεκτρονικά έγγραφα μπορούν πολύ εύκολα να αντιγραφούν με απόλυτη ακρίβεια και να αναπαραχθούν ανάλογα με το κοινό στο οποίο θα απευθύνονται. Επιπρόσθετα, μετατροπές στην αναπαραγωγή των εγγράφων μπορούν να γίνουν με τέτοιο τρόπο ώστε να μην είναι εμφανές στον αναγνώστη να ξεχωρίσει το αρχικό έγγραφο από το αλλαγμένο. Κλιμάκωση (Scalability). Συχνά οι χρήστες δε γνωρίζουν και δεν μπορούν να προβλέψουν ποιος μπορεί να έχει πρόσβαση στα δεδομένα που δημοσιεύουν. Για παράδειγμα, τα κοινωνικά δίκτυα επιτρέπουν πολύ μεγάλη προσβασιμότητα στις δημοσιευμένες πληροφορίες, ενώ η πρόθεση του εκδότη μπορεί να ήταν να τις μοιραστεί με μια συγκεκριμένη κλειστή ομάδα ατόμων. Αναζητησιμότητα (Searchability). Η αναζήτηση στο διαδίκτυο έχει αυξήσει σε μεγάλο βαθμό τη δυνατότητα των χρηστών να έχουν πρόσβαση σε δεδομένα. Τα προσωπικά δεδομένα μπορούν να ανιχνευθούν με αποτελεσματικότητα που είναι αδιανόητη στο μη ψηφιακό κόσμο. Τα χαρακτηριστικά αυτά καθιστούν την επικοινωνία και τη διάδοση προσωπικών δεδομένων στο διαδίκτυο εντελώς διαφορετικά από τον μη ψηφιακό κόσμο και ειδικά από την προφορική επικοινωνία. Δημοσίευση πληροφοριών σε ένα τέτοιο περιβάλλον έχει επιπτώσεις Παραδοτέο 4.1: Τεχνική Αναφορά 3
στην ιδιωτικότητα των χρηστών που δεν μπορούν να γίνουν εύκολα αντιληπτές από ένα μεγάλο μέρος ανθρώπων. Ο σκοπός των τεχνολογιών διαφύλαξης της ιδιωτικότητας είναι να προσφέρουν εργαλεία που επιτρέπουν μεγαλύτερο έλεγχο της διάδοσης των προσωπικών ηλεκτρονικών δεδομένων, παρά το πλήθος συνόλων δεδομένων από κυβερνητικές υπηρεσίες, ιατρικά ιδρύματα και κοινωνικά δίκτυα. Η απερίσκεπτη διάδοση τέτοιων δεδομένων θα μπορούσε να οδηγήσει σε παραβιάσεις της ιδιωτικότητας. Μια πολλά υποσχόμενη τάση στον τομέα αυτό είναι η Προστασία Ιδιωτικότητας Δεδομένων προς Δημοσίευση (Privacy Preserving Data Publishing - PPDP), που επιτρέπει διαμοιρασμό των χρήσιμων πληροφοριών με σεβασμό στην ιδιωτικότητα των χρηστών στους οποίους ανήκουν. Η ανωνυμοποίηση ενός συνόλου δεδομένων δεν περιορίζεται στην αφαίρεση των άμεσων αναγνωριστικών που μπορεί να περιέχει, για παράδειγμα του ονόματος ή του Αριθμού Κοινωνικής Ασφάλισης. Περιέχει επίσης την αφαίρεση δευτερευουσών πληροφοριών όπως η ηλικία ή ο Ταχυδρομικός Κώδικας, οι οποίες μπορούν να οδηγήσουν έμμεσα στην ταυτοποίηση ενός ατόμου. Στο σημείο αυτό υπάρχει η ανάγκη για ισορρόπηση ανάμεσα στην ιδιωτικότητα των χρηστών και στην αλλοίωση των δεδομένων του συνόλου δεδομένων. Σε αυτή την αναφορά παρουσιάζονται οι βασικές μορφές επιθέσεων σε δεδομένα παραδοσιακής μορφής (π.χ. σχεσιακά) αλλά και δεδομένα γράφων. Και οι δύο μορφές είναι συμβατές με το μοντέλο οργάνωσης των Διασυνδεδεμένων Δεδομένων, καθότι τα Διασυνδεδεμένα Δεδομένα υλοποιούνται με την τεχνολογία RDF (http://www.w3.org/standards/semanticweb/), μέσω (α) του RDF μοντέλου μορφής γράφου για την αναπαράσταση των δεδομένων ιστού, (β) των RDF συνδέσεων για τη διασύνδεση δεδομένων από διαφορετικές πηγές. Η διαχείριση δεδομένων RDF γίνεται είτε με συστήματα ειδικά προσαρμοσμένα στη διαχείριση γράφων RDF (native RDF stores) είτε με συστήματα διαχείρισης σχεσιακών βάσεων δεδομένων (relational databases) στα οποία οι γράφοι αναπαρίστανται σε μορφή σχεσιακών πινάκων. 1.1 Χαρακτηριστικά Τα χαρακτηριστικά ενός συνόλου δεδομένων ανήκουν σε τρεις κατηγορίες: Τα μοναδικά αναγνωριστικά (unique identifiers), τα οποία είναι χαρακτηριστικά που προσδιορίζουν μοναδικά ένα άτομο όπως ο Αριθμός Κοινωνικής Ασφάλισης. Τα ψευδο-αναγνωριστικά (Quasi-Identifiers - QI), τα οποία είναι πιθανή προηγούμενη γνώση του επιτιθέμενου, που όμως δεν μπορεί να χρησιμοποιηθεί από μόνη της για να προσδιορίσει μοναδικά ένα άτομο. Συνήθως, δεν είναι τόσο επιβλαβή για το άτομο που περιγράφουν και μπορούν να γίνουν γνωστά από εξωτερικές πηγές δημόσιες ή ιδιωτικές για παράδειγμα εκλογικούς καταλόγους. Όταν συνδυαστούν όμως με άλλα ψευδο-χαρακτηριστικά μπορούν να οδηγήσουν σε ταυτοποίηση ενός ατόμου, περιορίζοντας τις πιθανές ταυτότητες που μπορεί να αντιστοιχεί μία εγγραφή. Ως αποτέλεσμα, τα QIs βελτιώνουν την εμπιστοσύνη του επιτιθέμενου σχετικά με την πραγματική ταυτότητα πίσω από μία εγγραφή που έχει υποστεί ανωνυμοποίηση. Τυπικά παραδείγματα τέτοιων χαρακτηριστικών είναι "το γένος", "ο Ταχυδρομικός Κώδικας" και το "η ηλικία". Τα ευαίσθητα χαρακτηριστικά (Sensitive Attributes - SA), τα οποία είναι τα πεδία εκείνα που προσπαθεί να μάθει ο επιτιθέμενος. Αρχικά είναι άγνωστα στον επιτιθέμενο και μπορούν να βλάψουν ένα άτομο αν διαπιστωθεί συσχέτισή τους με αυτό. Παραδείγματα SAs είναι ο μισθός ή η ασθένεια ενός ατόμου για ένα Παραδοτέο 4.1: Τεχνική Αναφορά 4
οικονομικό ή ιατρικό σύνολο δεδομένων αντίστοιχα. Συνήθως, υπάρχει ένα μόνο τέτοιο χαρακτηριστικό στον πίνακα αν και αυτό δεν ισχύει σε όλες τις περιπτώσεις [9, 10]. Να σημειωθεί ότι στα περισσότερα σενάρια επίθεσης υπάρχει σαφής διαχωρισμός ανάμεσα στα ψευδο-αναγνωριστικά και στα ευαίσθητα χαρακτηριστικά, δηλαδή μια τιμή δεν μπορεί να είναι και τα δύο. Παρόλα αυτά, υπάρχουν αρκετές παραλλαγές όπου τα ευαίσθητα χαρακτηριστικά μπορούν να ενεργήσουν ως ψευδο-αναγνωριστικά, επομένως η διάκριση των δύο κατηγοριών δεν είναι πάντα εμφανής (π.χ. φανταστείτε ένα καλάθι σούπερ μάρκετ όπου μερικά προϊόντα είναι ευαίσθητα αλλά μπορούν επίσης να χρησιμοποιηθούν για να προσδιοριστεί ο αγοραστής σε έναν πίνακα με ανώνυμα δεδομένα). Μια λάθος κατηγοριοποίηση ενός χαρακτηριστικού Ai σε SA όταν ο επιτιθέμενος έχει πρόσβαση σε αυτό, διακινδυνεύει την ιδιωτικότητα του σχήματος δημοσίευσης δεδομένων καθώς εκθέτει της ευαίσθητες τιμές μιας ομάδας. Επιπρόσθετα, μπορεί να οδηγήσει σε περιττή γενίκευση λόγω των πολλών διαστάσεων του προβλήματος. 1.2 Ρόλοι Οι ρόλοι που συμμετέχουν σε ένα τυπικό σενάριο ανωνυμοποίησης είναι οι ακόλουθοι: Ο κάτοχος των δεδομένων/εκδότης, ο οποίος είναι ο οργανισμός ή το άτομο που έχει τα δεδομένα προς ανωνυμοποίηση ώστε να αποφευχθεί παραβίαση της ιδιωτικότητας. Οι κάτοχοι των εγγραφών, οι οποίοι είναι οι οντότητες αυτές που έχουν μία ή περισσότερες εγγραφές στο σύνολο δεδομένων που πρόκειται να δημοσιοποιηθεί. Ο αποδέκτης δεδομένων, ο οποίος είναι οποιοσδήποτε έχει πρόσβαση στο σύνολο δεδομένων που έχει υποστεί ανωνυμοποίηση. Ο επιτιθέμενος, ο οποίος είναι ένας κακόβουλος ή απλά ένας "περίεργος" αποδέκτης δεδομένων που επιθυμεί να κερδίσει επιπρόσθετη γνώση σχετικά με τα ευαίσθητα δεδομένα ενός ατόμου. 1.3 Δημοσίευση Δεδομένων Σχετικά με τον τρόπο έκδοσης των συνόλων δεδομένων, διαχωρίζουμε τρία σενάρια έκδοσης: Η μοναδική έκδοση (single release), στην οποία ο κάτοχος των δεδομένων έχει τον αρχικό πίνακα και πραγματοποιεί ανωνυμοποίηση ακριβώς μία φορά, βασιζόμενος στις εγγυήσεις ιδιωτικότητας που επιθυμεί. Τα αρχικά δεδομένα ή υποσύνολο αυτών δεν θα πρέπει να έχουν ήδη δημοσιευτεί και δεν θα πρέπει να έχει γίνει καμία περαιτέρω δημοσίευση του ίδιου συνόλου δεδομένων ή κάποιας άλλης έκδοσής του. Οι παράλληλες εκδόσεις (parallel releases), στις οποίες τα αρχικά δεδομένα εκδίδονται σε έναν αριθμό από διαφορετικά σύνολα δεδομένων που έχουν υποστεί ανωνυμοποίηση, με το καθένα να έχει ένα υποσύνολο από τα αρχικά χαρακτηριστικά. Με αυτό τον τρόπο ο εκδότης αναγκάζει τον επιτιθέμενο να χρησιμοποιήσει περισσότερα QIs προκειμένου να προσβάλλει την ιδιωτικότητα του "θύματός" του. Ως αντίμετρο, οι μέθοδοι ανωνυμίας εισάγουν μεγαλύτερη απώλεια πληροφορίας στον πίνακα έκδοσης καθιστώντας την παραβίαση της ιδιωτικότητας δυσκολότερη για τον επιτιθέμενο. Ακόμη και αν οι αποδέκτες ενδιαφέρονται για τα ίδια δεδομένα, Παραδοτέο 4.1: Τεχνική Αναφορά 5
μπορεί να έχουν διαφορετικά οπτικές σχετικά με τη σπουδαιότητα του κάθε χαρακτηριστικού. Οι διαφορετικές προτιμήσεις των αποδεκτών οδηγούν σε διαφορετικές παραμέτρους στον αλγόριθμο ανωνυμοποίησης ή σε έναν τελείως διαφορετικό αλγόριθμο. Οι ακολουθιακές εκδόσεις (sequence releases), στις οποίες η έκδοση των δεδομένων που έχουν υποστεί ανωνυμοποίηση ακολουθεί τις προηγούμενες εκδόσεις. Επομένως, τα αρχικά δεδομένα αναμένεται να έχουν αλλάξει, συνήθως με προσθήκη, αλλαγή ή διαγραφή κάποιων εγγραφών. Ο εκδότης των δεδομένων θα πρέπει να λάβει υπόψη του τις ήδη δημοσιοποιημένες εκδόσεις για να αποφύγει τις επιθέσεις, καθώς η ανωνυμία του κατόχου μιας εγγραφής μπορεί να τεθεί σε κίνδυνο αντιπαραθέτοντας πολλαπλές εκδόσεις. Οι μέθοδοι που παρουσιάζονται σε αυτή την αναφορά εστιάζονται στην περίπτωση της μοναδικής έκδοσης. 1.4 Μετασχηματισμός Δεδομένων Ανεξάρτητα από την προσέγγιση έκδοσης, τα αρχικά δεδομένα Τ υπόκεινται σε μια διαδικασία ανωνυμοποίησης. Το αποτέλεσμα της διαδικασίας αυτής είναι ένας πίνακας Τ* που ικανοποιεί τις απαιτήσεις ιδιωτικότητας που τέθηκαν από τον κάτοχο των δεδομένων. Στη βιβλιογραφία υπάρχουν προταθεί αρκετές μεθοδολογίες για την υλοποίηση μιας τέτοιας διαδικασίας ανωνυμοποίησης και μπορούν να ομαδοποιηθούν στις δύο παρακάτω κατηγορίες: 1) Απαλοιφή (Suppression) είναι η πλήρης απόκρυψη μιας τιμής. a) Απαλοιφή πλειάδας (tuple) ή εγγραφής (record suppression) όπου καταστέλλεται ολόκληρη η εγγραφή [11, 12]. b) Απαλοιφή τιμής που οδηγεί σε καταστολή μια συγκεκριμένης τιμής σε ολόκληρο τον πίνακα [13]. c) Απαλοιφή κελιού (cell suppression) που καταστέλλει μόνο μερικά κελιά του πίνακα [14]. 2) Γενίκευση (Generalization), αντικαθιστά την τιμή ενός QI με μια λιγότερο συγκεκριμένη τιμή που περιλαμβάνει την αρχική. Για παράδειγμα, η ηλικία ενός ατόμου 34ων χρονών μπορεί να γενικευτεί στο διάστημα [30-35]. Η ιεραρχία που χρησιμοποιείται στη γενίκευση καλείται δέντρο ταξινόμησης (taxonomy tree). Διαχωρίζουμε την γενίκευση σε δύο κύριες κατηγορίες: a) Ολική κωδικοποίηση (global recording) είναι η γενίκευση όλων των εμφανίσεων μιας τιμής στο ίδιο επίπεδο του δέντρου ταξινόμησης. Υπάρχουν τρεις διαφορετικοί τρόποι για να επιτευχθεί: i) Στη γενίκευση πλήρους πεδίου (full domain generalization), όλοι οι κόμβοι ενός χαρακτηριστικού γενικεύονται στο ίδιο επίπεδο του δέντρου ταξινόμησης [15, 16]. Αυτό έχει ως αποτέλεσμα ομοιόμορφα πεδία τιμών (uniform domains), όμως ο πίνακας Τ* συνήθως πάσχει από υπερ-γενίκευση. ii) Στη γενίκευση υποδέντρου (subtree generalization) είτε γενικεύουμε όλους τους κόμβους - παιδιά ενός εσωτερικού κόμβου ή κανέναν. Το αποτέλεσμα είναι μειωμένη αλλοίωση πληροφορίας [12, 17, 18]. Παραδοτέο 4.1: Τεχνική Αναφορά 6
iii) Στη γενίκευση γειτόνων (sibling generalization), επιτυγχάνονται ακόμα μικρότερα επίπεδα αλλοίωσης καθώς γενικεύονται μόνο οι κόμβοι - παιδιά που παραβιάζουν τα κριτήρια ιδιωτικότητας. b) Τοπική κωδικοποίηση (local recording), γενικεύει τιμές σε διαφορετικά επίπεδα στο πεδίο ιεραρχίας και έχει δύο μορφές: i) Η γενίκευση κελιού (cell generalization) επιτρέπει τη γενίκευση μιας εμφάνισης μιας τιμής, ενώ οι υπόλοιπες εμφανίσεις παραμένουν χωρίς γενίκευση. ii) Πολυδιάστατη γενίκευση (multidimensional generalization): δεδομένης μιας σχέσης που περιλαμβάνει πολλαπλά πεδία και δέντρα ταξινόμησης συσχετιζόμενα με τα πεδία αυτά, η πολυδιάστατη γενίκευση μπορεί να επιτευχθεί εφαρμόζοντας μια συνάρτηση στη σχέση που γενικεύει τα QI = (v1,...,vn) σε QI = (u1,...,un) όπου vi = ui ή το vi είναι κόμβος - απόγονος του ui-στο δέντρο ταξινόμησης του πεδίου i [20]. Στην περίπτωση των δεδομένων θέσης, μια κοινή μορφή γενίκευσης είναι η χωρική απόκρυψη [21]. Η μεθοδολογία αυτή αντικαθιστά την ακριβή τοποθεσία ενός χρήστη με μία ευρύτερη περιοχή, που σχεδόν πάντα την περιλαμβάνει κα ονομάζεται περιοχή απόκρυψης (cloaking region - CR). Για παράδειγμα, αν ένας χρήστης βρίσκεται στο κέντρο της Αθήνας μπορεί να αντικατασταθεί η ακριβής τοποθεσία του όπως αυτή αναφέρεται από το GPS με μια ευρύτερη περιοχή που να καλύπτει τα κοντινά οικοδομικά τετράγωνα και τους δρόμους ή ακόμα και μια κοντινή προαποφασισμένη περιοχή πχ. "Κέντρο Αθήνας". Το CR ενός σημείου δημιουργείται με τρόπο τέτοιο ώστε να μην παραβιάζει ένα συγκεκριμένο όρο ιδιωτικότητας (privacy predicate - PP). Για παράδειγμα, ένα τέτοιο PP μπορεί να απαιτεί ότι ο αριθμός των χρηστών σε ένα συγκεκριμένο CR θα πρέπει να είναι πάνω από έναν αριθμό k. Σε μία λίγο διαφορετική τεχνική μετασχηματισμού, αναφέρεται το ενδεικτικό κοντινό σημείο (anchor) της πραγματικής τοποθεσίας του χρήστη. Να σημειωθεί ότι το πλάνο γενίκευσης έχει σημαντικό αντίκτυπο στο ποσοστό αλλοίωσης τον αρχικών δεδομένων. Η επιλογή του πλάνου γενίκευσης έχει επίδραση στην πολυπλοκότητα του αλγορίθμου έναντι του ποσού της αλλοίωσης πληροφορίας. Η γενίκευση πλήρους πεδίου έχει μικρή πολυπλοκότητα, σε αντίθεση με τη γενίκευση κελιού που προσφέρει μικρότερη αλλοίωση. 2 Προστασία κατά της αναγνώρισης ταυτότητας (identity disclosure) Η γνωστοποίηση ταυτότητας είναι μια επίθεση, όπου ο επιτιθέμενος προσπαθεί να συνδέσει μια εγγραφή των ανώνυμων δεδομένων με ένα συγκεκριμένο άτομο χρησιμοποιώντας τα ψευδο-χαρακτηριστικά του θύματος. Για προστασία από τέτοιες επιθέσεις, τα αρχικά δεδομένα θα πρέπει να ανωνυμοποιηθούν με τρόπο που να ικανοποιούνται ορισμένες ιδιότητες. Η πιο διαδεδομένη τεχνική είναι η k-ανωνυμία (k-anonymity) [16, 22] που εγγυάται ότι κάθε εγγραφή δεν μπορεί να διακριθεί από τουλάχιστον άλλες k-1 εγγραφές, με βάση τα ψευδο-χαρακτηριστικά, που σημαίνει ότι κάθε συνδυασμός ψευδο-χαρακτηριστικών θα πρέπει να εμφανίζεται 0 ή περισσότερες από k φορές στο ανωνυμοποιημένο σύνολο δεδομένων. Το σύνολο των εγγραφών με τα ίδια QI καλείται κλάση ισοδυναμίας (equivalence class).από την πλευρά του επιτιθέμενου, όταν γνωρίζει τα QI ου στόχου, η πιθανότητα να ταυτοποιήσει επιτυχώς το στόχο του δεν είναι ποτέ μεγαλύτερη από 1/k. Παραδοτέο 4.1: Τεχνική Αναφορά 7
Στην πηγή [23] προτείνεται μια ελαστικότερη εγγύηση της k-ανωνυμίας εισάγοντας τις ακόλουθες έννοιες: (l, k)-ανωνυμία ((l, k)-anonymity). Εάν κάποιος κακόβουλος γνωρίζει τις δημόσιες πληροφορίες του στόχου του, αντί να πραγματοποιήσει k-ανωνυμοποίηση, αρκεί να γενικεύσει τις εγγραφές του πίνακα έτσι ώστε να κάθε δημόσιο δεδομένο να είναι συμβατό με τουλάχιστον k εγγραφές του προς δημοσίευση πίνακα Τ. Να σημειωθεί ότι κάθε k-ανώνυμος πίνακας είναι και (1, k)-ανωνυμοποιημένος, χωρίς να ισχύει απαραίτητα και το ανάποδο. (k, l)-ανωνυμία ((k, l)-anonymity). Ένας πίνακας είναι (k, 1)-ανώνυμος όταν κάθε εγγραφή του είναι συνεπής με τουλάχιστον k εγγραφές του αρχικού πίνακα Τ. Όπως και πριν, ένας k-ανώνυμος πίνακας είναι και (k, 1)-ανώνυμος. (k, k)-ανωνυμία ((k, k)-anonymity). Οι δύο παραπάνω επιλογές προσφέρουν πιο ασθενή προστασία της ιδιωτικότητας σε σχέση με την k-ανωνυμία. Γι αυτό και δεν θα πρέπει να χρησιμοποιούνται ξεχωριστά αλλά σε συνδυασμό. Ένας ανώνυμος πίνακας που ικανοποιεί την (k, 1)-ανωνυμία και την (1, k)-ανωνυμία είναι ένας (k, k)- ανώνυμος πίνακας. Η ιδιότητα αυτή προσφέρει παρόμοια προστασία με αυτή των k- ανώνυμων πινάκων, όταν το σενάριο επίθεσης είναι ένας επιτιθέμενος που έχει πλήρη γνώση για μερικά από τα άτομα του πίνακα. Ωστόσο, χρησιμοποιώντας (k, k)- ανωνυμία ο εκδότης των δεδομένων μπορεί να δει μεγαλύτερη χρησιμότητά τους σε σχέση με την k-ανωνυμία. Μια παραλλαγή της k-ανωνυμίας που μετασχηματίζει τα αρχικά δεδομένα σε μικρότερο βαθμό, επομένως μετριάζει την αλλοίωση πληροφορίας είναι η k m -ανωνυμία [24]. Αυτή η προσέγγιση απαιτεί κάθε συνδυασμός έως και m QIs να εμφανίζεται το λιγότερο k φορές στα δημοσιευμένα δεδομένα. Με άλλα λόγια, κάθε επερώτηση μεγέθους μέχρι και m που μπορεί να γίνει από τον επιτιθέμενο θα πρέπει να επιστρέψει ως αποτέλεσμα τουλάχιστον k εγγραφές ή καμία. Η ιδέα πίσω από την k m -ανωνυμία είναι ότι όταν ο επιτιθέμενος γνωρίζει σχεδόν όλα τα πεδία μιας εγγραφής μπορεί να επιτευχθεί πολύ μικρή ιδιωτικότητα και για να γίνει αυτό θα πρέπει να χαθεί μεγάλο μέρος της πληροφορίας. Στα πλαίσια των δεδομένων θέσης, η επίθεση γνωστοποίησης ταυτότητας τυπικά γίνεται από τον πάροχο υπηρεσίας βασιζόμενη στην τοποθεσία (Location-based Service (LBS)), που θέλει να ξέρει την τοποθεσία ενός χρήστη που κάνει αίτημα για κάποια υπηρεσία. H k- anonymity συνήθως προσφέρεται από έναν έμπιστο server που μεσολαβεί ανάμεσα στον χρήστη και το LSB. Παραλλαγές αυτής της προσέγγισης υιοθετούνται από τα Center Cloack [25], Casper [26,27], Privacy Grid [28] and Interval Cloack [21]. Πιο προηγμένες μέθοδοι προσφέρουν αμοιβαία χωρική k-ανωνυμία (reciprocal spatial k- anonymity) για την καταπολέμηση επιθέσεων ελαχιστοποίησης (minimality attacks). Σε τέτοιου είδους επιθέσεις, ο επιτιθέμενος συγκρίνει τα CRs όλων των k χρηστών που περιλαμβάνονται σε ένα συγκεκριμένο CR ώστε να εντοπίσει τις διαφορές τους και έτσι να προσδιορίσει τα άτομα που περιλαμβάνονται σε αυτό. Ένα CR με k χρήστες ικανοποιεί την αμοιβαιότητα (reciprocity) αν και μόνο αν το ίδιο CR έχει παραχθεί για καθέναν από τους k χρήστες. Με αυτό τον τρόπο, ο επιτιθέμενος δεν μπορεί να συμπεράνει ποιος χρήστης είναι η πηγή ενός αιτήματος με πιθανότητα πάνω από 1/k. Προσεγγίσεις που ικανοποιούν αυτή την απαίτηση για αμοιβαία (reciprocal) k-anonymity είναι οι Hilbert Cloak [25], Greedy Hilbert Partitioning [29] and Prive [30]. Παραδοτέο 4.1: Τεχνική Αναφορά 8
3 Προστασία κατά της αναγνώρισης πεδίων (attribute disclosure) Σε μια επίθεση γνωστοποίησης πεδίου, ο επιτιθέμενος μπορεί να μην ταυτοποιήσει μοναδικά ένα άτομο, αλλά μπορεί να αποκτήσει επιπλέον γνώσεις για τα ευαίσθητα χαρακτηριστικά του θύματος. Όταν δεν υπάρχει ποικιλομορφία (diversity) στα ευαίσθητα χαρακτηριστικά της κάθε ομάδας, όπως οι ομάδες σχηματίζονται βασιζόμενοι στα QIs, ο επιτιθέμενος μπορεί να συμπεράνει ευαίσθητες πληροφορίες για κάποιο άτομο ακόμα και αν δεν μπορεί να διακρίνει πια εγγραφή αντιστοιχεί στο άτομο αυτό. Μια συχνή πρακτική για την προστασία των ευαίσθητων τιμών είναι η l-διαφορετικότητα (ldiversity) [31], η οποία εγγυάται ότι ο επιτιθέμενος δεν μπορεί να συσχετίσει πρότερη γνώση του με λιγότερες από l καλά εκπροσωπημένες (well-represented) ευαίσθητες τιμές, όπου ο όρος καλά εκπροσωπημένες συνήθως ορίζεται από κάποια κατώφλι πιθανότητας (probability threshold): ένας επιτιθέμενος δεν μπορεί να συνδυάσει την πρότερη γνώση του με οποιαδήποτε ευαίσθητη τιμή με πιθανότητα μεγαλύτερη από 1/l. Όταν ο πίνακας Τ έχει παραπάνω από ένα SA η χρήση της l-διαφορετικότητας πολλαπλών χαρακτηριστικών (Multi-Attribute l-diversity) παρέχει την απαιτούμενη ιδιωτικότητα. Πιο τυπικά, ένας πίνακας Τ με ψευδο-χαρακτηριστικά Q1,Q2,...,Qm2 και ευαίσθητες τιμές S1,S2,...,Sm2,o T είναι l-διαφορετικός αν για όλα τα i = 1...m, ο πίνακας T είναι l- διαφορετικός όταν το Si αντιμετωπίζεται ως το μοναδικό SA και {Q1,Q2,...,Qm1, S1,... Si-1; Si+1,...,Sm2} ως το QI. Μια άλλη εγγύηση είναι η l+-διαφορετικότητα (l+-diversity) [32], η οποία θέτει ένα διαφορετικό κατώφλι ιδιωτικότητας σε κάθε SA τιμή, αντί να εφαρμόσει το ίδιο κατώφλι για όλες τις SA τιμές. Με τον τρόπο αυτό, μετριάζει την αλλοίωση των αρχικών δεδομένων και επιτρέπει προστασία της ιδιωτικότητας βασιζόμενη στις τιμές και ορισμένη από τον χρήστη. Μια άλλη προσέγγιση είναι η Εξατομικευμένη Ιδιωτικότητα (Personalized Privacy) [33] για κατηγοριοποιημένα SA με ταξινόμηση. Αντί να εφαρμόζουμε το ίδιο επίπεδο προστασίας της ιδιωτικότητας σε όλα τα άτομα, η συγκεκριμένη προσέγγιση αφήνει τους χρήστες να προσδιορίσουν το επιθυμητό επίπεδο ιδιωτικότητάς τους. Αυτό μπορεί να γίνει από τους χρήστες, επιλέγοντας κόμβους-φύλακες (guarding nodes) για παράδειγμα, κόμβους στην ιεραρχία SA που ο χρήστης δεν έχει πρόβλημα να αποκαλύψει. Η απαίτηση προσωποποιημένης ιδιωτικότητας είναι για τον χρήστη να περιοριστεί η πιθανότητα διαρροής τιμής που βρίσκεται σε φύλλο κάτω από κάποιο κόμβο-φύλακα μέσα σε κάποιο κατώφλι ορισμένο από τον χρήστη. Παρόλο που η αρχή του l-diversity αποτελούν ένα σημαντικό βήμα για την προστασία από τη σύνδεση χαρακτηριστικών (attribute linkage) έχει μερικές ελλείψεις: Μπορεί να είναι δύσκολο να επιτύχει ή μπορεί να μην παρέχει επαρκή προστασία της ιδιωτικότητας. Ως ένα παράδειγμα, υποθέτουμε ότι τα αρχικά δεδομένα στον πίνακα Τ έχουν μόνο ένα SA: τα αποτελέσματα ενός τεστ για έναν συγκεκριμένο ιό. To τεστ αυτό μπορεί να πάρει μόνο αριθμητικές τιμές, θετικές ή αρνητικές. Ας υποθέσουμε ότι ο πίνακας έχει 10.000 εγγραφές με το 99% αυτών να είναι αρνητικές και μόλις το 1% θετικές. Παρατηρήστε ότι οι δύο τιμές έχουν διαφορετικό βαθμό ευαισθησίας (sensitivity). Εάν κάποιον βρεθεί αρνητικός στον ιό, δεν θα τον ενοχλούσε να αποκαλυφθεί η πληροφορία αυτή καθώς συμπίπτει με το 99% του δείγματος. Αντίθετα, αν κάποιος βρεθεί θετικός δεν θα ήθελε αυτή η πληροφορία να φανερωθεί. Παραδοτέο 4.1: Τεχνική Αναφορά 9
Στη συγκεκριμένη περίπτωση, για να έχουμε ένα μοναδικό (distinct) 2-διαφορετικό πίνακα, μπορούν να υπάρχουν το πολύ 10.000x1% = 100 κλάσεις ισοδυναμίας κάτι που θα οδηγήσει σε σημαντική απώλεια πληροφορίας. Επίθεση Ασυμμετρίας (Skewness attack). Όταν η συνολική κατανομή είναι ασύμμετρη, ικανοποιώντας την l-διαφορετικότητα δεν αποτρέπει τη γνωστοποίηση χαρακτηριστικών. Σκεφτείτε το προηγούμενο παράδειγμα και υποθέστε ότι η μία κλάση ισοδυναμίας έχει ίσο αριθμό από θετικές και αρνητικές εγγραφές. Ικανοποιεί σαφή 2-διαφορετικότητα και τις παραλλαγές της. Παρόλα αυτά, εισάγει ένα σοβαρό κίνδυνο ιδιωτικότητας καθώς οποιοσδήποτε μέσα σε αυτή την κλάση μπορεί να θεωρηθεί ότι έχει 50% πιθανότητα να είναι θετικός σε σχέση με το ένα 1% του συνολικού δείγματος. Ένα ακόμα θέμα που χρίζει προσοχής σε σχέση με την ιδιωτικότητα στο παράδειγμα αυτό είναι ότι όταν μια κλάση ισοδυναμίας έχει 49 θετικές και 1 αρνητική εγγραφή τότε είναι 2-διαφορετική. Η συνολική πιθανότητα να είναι θετικός είναι 1% ενώ στην κλάση ισοδυναμίας ανέρχεται σε 98% κάτι που είναι ένας σημαντικός κίνδυνος ιδιωτικότητας. Επίθεση ομοιότητας (Similarity attack). Η l-διαφορετικότητα δεν λαμβάνει υπόψη τη σημασιολογική εγγύτητα (semantic closeness) των τιμών. Για παράδειγμα, ας υποθέσουμε ότι ο επιτιθέμενος βρίσκει την κλάση ισοδυναμίας του στόχου του σε μία ανώνυμη ιατρική έκδοση που είναι 3-διαφορετική και οι τρεις διαφορετικές τιμές αυτής της κλάσης είναι (γαστρικό έλκος, γαστρίτιδα και καρκίνος του στομάχου). Στην περίπτωση αυτή ο επιτιθέμενος, παρόλο που δεν ξέρει την ακριβή ασθένεια του στόχου του, μπορεί να συμπεράνει ότι είναι σχετική με το στομάχι. Για την αντιμετώπιση αυτών των επιθέσεων, η t-κλειστότητα (t-closeness) απαιτεί η κατανομή των SAs σε κάθε QI γκρουπ να είναι κοντά στην κατανομή των SAs στον πίνακα Τ. Πιο επίσημα, μια κλάση ισοδυναμίας ικανοποιεί την απαίτηση της t-κλειστότητας αν η διαφορά της κατανομής ενός ευαίσθητου χαρακτηριστικού στην κλάση σε σχέση με την κατανομή του χαρακτηριστικού αυτού σε ολόκληρο τον πίνακα δεν είναι μεγαλύτερη από κάποιο κατώφλι t. Ένας πίνακας ικανοποιεί την απαίτηση της t-κλειστότητας όταν όλες οι κλάσεις ισοδυναμίας ικανοποιούν την απαίτηση αυτή. Η t-κλειστότητα χρησιμοποιεί τη συνάρτηση Earth Mover Distance (EMD) [36] για να μετρήσει την κλειστότητα ανάμεσα στις δύο κατανομές των ευαίσθητων τιμών. Η EMD είναι μια μέθοδος αξιολόγησης της διαφορετικότητας πολυδιάστατων κατανομών σε ένα χώρο με κάποια χαρακτηριστικά, όπου δίνεται η απόσταση μεταξύ τους και ονομάζεται απόσταση εδάφους. Η EMD καλύπτει την απόσταση από τα μεμονωμένα χαρακτηριστικά σε πλήρεις κατανομές. Δοσμένων δύο κατανομών, αν η μία είναι η μάζα γης διασκορπισμένη στο διάστημα και η άλλη μια συλλογή από τρύπες στο ίδιο χώρο τότε η EMD μετράει το μικρότερο ποσό δουλειάς που χρειάζεται για να γεμίσουμε τις τρύπες αυτές με γη. Ένας άλλος μηχανισμός προστασίας είναι η ρ-αβεβαιότητα (ρ-uncertainty) [37], που απαιτεί τα ψευδο-χαρακτηριστικά να μην μπορούν να συσχετιστούν με ευαίσθητες τιμές με πιθανότητα πάνω από 1/ρ. Η καινοτομία αυτής της προσέγγισης είναι ότι θεωρεί ως ψευδοχαρακτηριστικά κάθε υποσύνολο εγγραφών που περιλαμβάνεται στο σύνολο δεδομένων, συμπεριλαμβανομένων αυτών που περιέχουν ευαίσθητες τιμές. Αυτό σημαίνει ότι οι ευαίσθητες τιμές μπορούν να είναι και ψευδο-χαρακτηριστικά. Η προτεινόμενη μέθοδος ανωνυμοποίησης στηρίζεται τόσο στη γενίκευση όσο και στην απαλοιφή. Η εγγύηση που παρέχει προστασία από γνωστοποίηση τόσο ταυτότητας όσο και χαρακτηριστικών είναι η (h,k,p)-συνοχή ((h,k,p)-coherence) [38,39]. Ομοίως με την k m - Παραδοτέο 4.1: Τεχνική Αναφορά 10
ανωνυμία, προστατεύει από επιτιθέμενους που γνωρίζουν μέχρι ρ όρους, εγγυώμενη ότι κάθε συνδυασμός θα εμφανίζεται το λιγότερο k φορές. Επιπλέον, η (h, k, p)-συνοχή εγγυάται πως συνδυασμοί έως και p αντικειμένων δεν μπορεί να συσχετιστούν με κάποια ευαίσθητη τιμή με πιθανότητα μεγαλύτερη του h. Η προτεινόμενη μέθοδος ανωνυμοποίησης στηρίζεται εξ ολοκλήρου στην απαλοιφή. Τέλος, οι PS-κανόνες (PS-rules) προσφέρουν μια μέθοδο ανωνυμοποίησης που μπορεί να προσαρμοστεί σε συγκεκριμένα ευαίσθητα συμπεράσματα. Αυτοί είναι ευαίσθητοι κανόνες συσχέτισης ορισμένοι από τον κάτοχο των δεδομένων. Η διαδικασία της ανωνυμοποίησης εγγυάται ότι ο επιτιθέμενος δεν θα μπορεί να συμπεράνει τους κανόνες αυτούς με μεγάλη βεβαιότητα. Οι προτεινόμενοι αλγόριθμοι ανωνυμοποίησης βασίζονται στην γενίκευση. 4 Ανωνυμοποίηση Δεδομένων Γράφου Τα Διασυνδεδεμένα Δεδομένα είναι δεδομένα μορφής γράφου. Ένα παράδειγμα διασυνδεδεμένων δεδομένων είναι τα δεδομένα δικτύων επιχειρήσεων. Τα μέλη του δικτύου μπορεί να αναπαρασταθούν ως κόμβοι του γράφου. Οι ακμές του γράφου που συνδέουν αυτές τις οντότητες αντιπροσωπεύουν τις σχέσεις μεταξύ τους, για παράδειγμα επιχειρήσεις που έχουν σχέση προμηθευτή-πελάτη. Η αφαίρεση της ταυτότητας των κόμβων πριν την δημοσίευση του γράφου είναι ανάλογη της αφαίρεσης των μοναδικών αναγνωριστικών από ένα πίνακα δεδομένων και επομένως δεν μπορεί να θεωρηθεί ικανή για την ανωνυμοποίηση ενός γράφου αν θέλουμε να εγγυηθούμε ιδιωτικότητα. Ο επιτιθέμενος μπορεί να συνδέσει ένα κόμβο από τον "ανώνυμο" γράφο με κάποιο άτομο, εκμεταλλευόμενος δομικές πληροφορίες της γειτονικής του περιοχής. 4.1 Προηγούμενες Γνώσεις Σε έναν ανώνυμο γράφο, οι επιτιθέμενοι μπορούν να χρησιμοποιήσουν πρότερη γνώση τους έτσι ώστε να κάνουν επιθέσεις για να αναγνωρίσουν κόμβους και να αποκαλύψουν τις σχέσεις μεταξύ τους. Διαφορετικές υποθέσεις για την πρότερη γνώση των επιτιθέμενων μας οδηγεί στην ανάπτυξη διαφορετικών μοντέλων προστασίας. Λόγω της πιο σύνθετης δομής των δεδομένων γράφου, η προηγουμένη γνώση των επιτιθέμενων μπορεί να κατηγοριοποιηθεί [43] ως εξής: Προσδιορισμός χαρακτηριστικών κόμβων. Οι κόμβοι ενός γράφου μπορούν να χαρακτηριστούν από ένα σύνολο χαρακτηριστικών. Όταν οι τιμές ενός συνόλου από χαρακτηριστικά που σχετίζονται με κάποιο κόμβο είναι μοναδικές, τότε ο επιτιθέμενος που γνωρίζει τιμές χαρακτηριστικών για κάποια θύματα, μπορεί να χρησιμοποιήσει τη γνώση αυτή για να εξαπολύσει την επίθεσή του. Αυτό είναι κάτι αντίστοιχο με τη επίθεση ταυτοποίησης σε σχεσιακά δεδομένα χρησιμοποιώντας τα QIs. Βαθμοί κόμβου (Vertex degrees). Σε μια άλλη μέθοδο ο επιτιθέμενος εκμεταλλεύεται την προηγούμενη γνώση του αριθμού των κοινωνικών σχέσεων συγκεκριμένων ανθρώπων/κόμβων. Σχέση σύνδεσης. (Link relationship). Μια άλλη υπόθεση για πρότερη γνώση του επιτιθέμενου είναι η γνώση ενός συγκεκριμένου τύπου σύνδεσης ανάμεσα στον στόχο και των φίλων του. Για παράδειγμα, οι ακμές του γράφου μπορεί να χαρακτηρισμένες με βάση τον τύπο της επικοινωνίας. Εάν ο επιτιθέμενος γνωρίζει ότι ο στόχος Παραδοτέο 4.1: Τεχνική Αναφορά 11
χρησιμοποιεί μόνο έναν τύπο επικοινωνίας, για παράδειγμα email, τότε η ιδιωτικότητα του στόχου μπορεί να παραβιαστεί. Γειτονικές περιοχές (Neighborhoods). Η προηγούμενη γνώση των γειτονικών περιοχών ενός στόχου μπορεί να εκθέσει την ιδιωτικότητα του. Ας υποθέσουμε ότι ο επιτιθέμενος γνωρίζει ότι ο στόχος του έχει 4 "κοντινούς φίλους", που και αυτοί συνδέονται με αυτόν στον γράφο. Ο επιτιθέμενος μπορεί να χρησιμοποιήσει αυτή την πληροφορία ώστε να περιορίσει τις πιθανές επιλογές, ψάχνοντας τον δημοσιευμένο γράφο για περιοχές που περιέχουν "ομάδες" (cliques) με μέγεθος 4. Ενσωματωμένοι υπο-γράφοι (Embedded subgraphs). Εάν ο επιτιθέμενος γνωρίζει το αποτέλεσμα μιας επερώτησης σχετικά με τον στόχο του, μπορεί να χρησιμοποιήσει τη γνώση αυτή ρωτώντας τον ανωνυμοποιημένο γράφο ώστε να ταυτοποιήσει τον στόχο του ή να περιορίσει τις επιλογές. Αυτή η επίθεση ονομάζεται και δομική επίθεση (structural attack). Μετρήσεις γράφου (Graph metrics). Γνώση των μετρήσεων του αρχικού γράφου G, όπως η κλειστότητα (closeness), η κεντρικότητα (centrality) κλπ μπορεί να χρησιμοποιηθεί ως πρότερη γνώση από επιτιθέμενους στην ανωνυμοποιημένη έκδοση του γράφου G* με στόχο την παραβίαση την παραβίαση της ιδιωτικότητας των στόχων. 4.2 Μοντέλα Ιδιωτικότητας 4.2.1 k-βαθμού (k-degree). Μια προσέγγιση για να αντιμετωπιστεί η επίθεση βαθμών κόμβου είναι να μετασχηματιστεί ο ανωνυμοποιημένος γράφος σε k-βαθμού γράφο [44]. Η ιδέα είναι η προσθήκη ή/και η διαγραφή ακμών έτσι ώστε κάθε κόμβος να έχει τον ίδιο βαθμό με τουλάχιστον άλλους k-1 κόμβους. Η απαίτηση χρηστικότητας είναι να γίνουν οι ελάχιστες δυνατές τροποποιήσεις ακμών ανάμεσα στον αρχικό και τον ανωνυμοποιημένο k-βαθμού γράφο. 4.2.2 k-γειτονιά (k-neighborhood). Το μοντέλο k-βαθμού είναι ανεπαρκές να προστατέψει την ιδιωτικότητα των χρηστών όταν ο επιτιθέμενος γνωρίζει όχι μόνο το βαθμό του κόμβου του θύματος αλλά και τη δομή της γειτονικής του περιοχής (1-hop neighborhood) [43]. Η επίθεση αυτή ονομάζεται επίθεση γειτονίας (neighborhood attack) και η ιδέα της περιγράφεται ακριβέστερα στο παράδειγμα που ακολουθεί. Ας υποθέσουμε ότι ο επιτιθέμενος γνωρίζει ότι ο χρήστης Α έχει δύο φίλους, που επίσης συνδέονται μεταξύ τους. Επιπρόσθετα, καθένας από αυτούς έχει δύο φίλους που δεν συνδέονται με τον Α. Όπως φαίνεται στα Σχήματα 1 και 3 της Εικόνα 1, ο κόμβος του χρήστη Α μπορεί να αναγνωριστεί από τον 1-γειτονικό γράφο καθώς δεν υπάρχει κανένας άλλος χρήστης με τους ίδιους 1-γειτονικούς κόμβους. Να σημειωθεί επίσης ότι ο χρήστης Β μπορεί επίσης να αναγνωριστεί μοναδικά αν ο επιτιθέμενος έχει προηγούμενη πληροφορία για τον 1-γειτονικό γράφο του χρήστη Β. Επιπρόσθετα, ταυτοποιώντας τους χρήστες Α και Β ο επιτιθέμενος αποκτά ακόμα περισσότερη γνώση. Από το δημοσιευμένο γράφο, ο επιτιθέμενος μπορεί να εξάγει ότι οι χρήστες Α και Β είναι κοντινοί φίλοι και ότι έχουν έναν κοινό κοντινό φίλο. Επομένως η ιδιωτικότητα των χρηστών στον γράφο έχει παραβιαστεί. Παραδοτέο 4.1: Τεχνική Αναφορά 12
Εικόνα 1. Επίθεση Γειτονίας (Neighborhood attack) Για την αντιμετώπιση αυτού του είδους επιθέσεων, μπορούμε να προσθέσουμε μια ακμή "θορύβου" μεταξύ των χρηστών Η και Ι. Με αυτό τον τρόπο, ο 1-γειτονικός γράφος του κάθε κόμβου στο Σχήμα 1 της Εικόνα 1 δεν είναι πλέον μοναδικός. Ο επιτιθέμενος με τη γνώση του 1-γειτονικού γράφου δεν μπορεί να αναγνωρίσει κάποιο άτομο από τον ανωνυμοποιημένο γράφο με σιγουριά μεγαλύτερη του 1/2. Γενικά, οι επιθέσεις γειτονίας μπορούν να αποφευχθούν μετασχηματίζοντας τον ανωνυμοποιημένο γράφο έτσι ώστε να ικανοποιεί την k-γειτονική ιδιότητα ανωνυμίας δηλαδή αν όλοι οι κόμβοι είναι k-γειτονικά ανώνυμοι. Πιο επίσημα, ένας κόμβος είναι k- γειτονικά ανώνυμος αν υπάρχουν τουλάχιστον k-1 άλλοι κόμβοι u1,...,uk-1 έτσι ώστε ο υπογράφος που κατασκευάζεται από τους ενδιάμεσους γείτονες κάθε κόμβου u1,...,uk-1 να είναι ισομορφικός ως προς τον υπο-γράφο που κατασκευάζεται από τους ενδιάμεσους γείτονες του u. 4.2.3 l-διαφορετικότητα σε γράφους. Υποθέτουμε ότι ο επιτιθέμενος προσπαθεί να εξάγει τη σχέση μεταξύ των χρηστών Α και Β στον 4-βαθμού ανωνυμοποιημένο γράφο της Εικόνα 2. Αν ο επιτιθέμενος γνωρίζει ότι οι δύο χρήστες έχουν βαθμούς 4 και 1 αντίστοιχα, δεν μπορεί να συμπεράνει επιτυχώς τη σχέση τους. Όμως, αν ο επιτιθέμενος μπορεί κάπως να αναγνωρίσει τον χρήστη Β, παρόλο που δεν μπορεί να αναγνωρίσει τον χρήστη Α βασιζόμενος μόνο στη γνώση του βαθμού το, η ευαίσθητη σχέση μεταξύ του δύο χρηστών μπορεί να αποκαλυφθεί λόγω της σύνδεσης όλων των κόμβων με βαθμό 1 με τον χρήστη Β. Ως αντίμετρο αυτής της επίθεσης, προτάθηκε ένα νέο μοντέλο στην [45], το οποίο έχει τις ρίζες του στην έννοια της l-διαφορετικότητας. Πιο επίσημα, ένας δημοσιευμένος γράφος G* Παραδοτέο 4.1: Τεχνική Αναφορά 13
είναι l-διαφορετικός αν και μόνο αν δοσμένων των βαθμών των κόμβων οποιωνδήποτε δύο χρηστών, ο επιτιθέμενος δεν είναι σε θέση να συμπεράνει αποτελεσματικά την ύπαρξη της σχέσης μεταξύ τους με πιθανότητα μεγαλύτερη του 1/l, ακόμα και αν ο ένας εξ αυτών μπορεί να αναγνωριστεί από τα δημοσιευμένα δεδομένα. Πίνακας Ορολογίας Εικόνα 2. l-διαφορετικός γράφος Αγγλική Ορολογία Ελληνική Ορολογία (h,k,p)-coherence (h,k,p)-συνοχή Adversary Επιτιθέμενος Attribute disclosure Αναγνώρισης πεδίων Attributes Χαρακτηριστικά Cell generalization Γενίκευση κελιού Data Holder Κάτοχος των Δεδομένων Data Recipient Αποδέκτης Δεδομένων Equivalence class Κλάση ισοδυναμίας Full domain generalization Γενίκευση πλήρους πεδίου Generalization Γενίκευση Global recording Ολική κωδικοποίηση Identity disclosure Αναγνώριση ταυτότητας l-diversity l-διαφορετικότητα Local recording Τοπική κωδικοποίηση Location-based Service (LBS) provider Πάροχος υπηρεσίας βασιζόμενης στην Minimality attack τοποθεσία Επίθεση ελαχιστοποίησης Multidimensional generalization Πολυδιάστατη γενίκευση Parallel releases Παράλληλες εκδόσεις Personalized Privacy Εξατομικευμένη Ιδιωτικότητα Privacy predicate (PP) Όρος ιδιωτικότητας Παραδοτέο 4.1: Τεχνική Αναφορά 14
Privacy Preserving Data Publishing (PPDP) Publisher Quasi-Identifiers - (QI) Record Owner Sensitive Attributes (SA) Sibling generalization Similarity attack Single release Skewness attack Subtree generalization Suppression t-closeness Unique Identifiers ρ-uncertainty Προστασία Ιδιωτικότητας Δεδομένων προς Δημοσίευση Εκδότης Ψευδο-αναγνωριστικά Κάτοχος των Εγγραφών Ευαίσθητα χαρακτηριστικά Γενίκευση γειτόνων Επίθεση ομοιότητας Μοναδική έκδοση Επίθεση Ασυμμετρίας Γενίκευση υποδέντρου Απαλοιφή t-κλειστότητα Μοναδικά αναγνωριστικά ρ-αβεβαιότητα Βιβλιογραφία [1] D. Cvrcek, M. Kumpost, V. Matyas, and G. Danezis. "A study on the value of location privacy". In WPES, pages 109-118. ACM, 2006. [2] Boombox report on location-based social networks, Septempber 2010. [3] S. Ahern, D. Eckles, N. Good, S. King, M. Naaman, and R. Nair. "Over-exposed?: privacy patterns and considerations in online and mobile photo sharing". In CHI, pages 357-366. ACM, 2007. [4] A. J. B. Brush, J. Krumm, and J. Scott. "Exploring end user preferences for location obfuscation, location-based services, and the value of location". In UbiComp, pages 95-104. ACM, 2010. [5] A. Acquisti and R. Gross. "Imagined Communities: Awareness, Information Sharing, and Privacy on the Facebook". In Privacy Enhancing Technologies, chapter 3, pages 36-58. 2006. [6] M. L. Damiani, E. Bertino, and C. Silvestri. "The PROBE framework for the personalized cloaking of private locations". Transactions on Data Privacy, 3(2):123-148, 2010. [7] N. M. Sadeh, J. I. Hong, L. F. Cranor, I. Fette, P. G. Kelley, M. K. Prabaker, and J. Rao. "Understanding and capturing people's privacy policies in a mobile social networking application". Personal and Ubiquitous Computing, 13(6):401-412, 2009. [8] D. Boyd. "Social network sites: Public, private, or what?", Knowledge Tree, (13), 2007. [9] Z. Li and X. Ye. "Privacy protection on multiple sensitive attributes". Information and Communications Security. Springer, 2007, pp. 141 152. [10] Y. Ye, Y. Liu, C. Wang, D. Lv, and J. Feng. "Decomposition: Privacy preservation for multiple sensitive attributes". Database Systems for Advanced Applications. Springer, 2009, pp. 486 490. Παραδοτέο 4.1: Τεχνική Αναφορά 15
[11] L. Sweeney. "Achieving k-anonymity privacy protection using generalization and suppression". International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, vol. 10, no. 05, pp. 571 588, 2002. [12] R. J. Bayardo and R. Agrawal. "Data privacy through optimal kanonymization". In IEEE International Conference on Data Engineering, 2005, pp. 217 228. [13] K. Wang, B. C. Fung, and P. S. Yu. "Template-based privacy preservation in classification problems". In IEEE International Conference on Data Mining, 2005. [14] A. Meyerson and R. Williams. "On the complexity of optimal k-anonymity". In Proceedings of ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems, 2004, pp. 223 228. [15] K. LeFevre, D. J. DeWitt, and R. Ramakrishnan. "Incognito: Efficient full-domain k- anonymity". In Proceedings of the 2005 ACM SIGMOD international conference on Management of data, 2005, pp. 49 60. [16] P. Samarati. "Protecting respondents identities in microdata release". In Knowledge and Data Engineering, IEEE Transactions on, vol. 13, no. 6, pp. 1010 1027, 2001. [17] V. S. Iyengar. "Transforming data to satisfy privacy constraints". In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2002, pp. 279 288. [18] B. C. Fung, K. Wang, and P. S. Yu. "Top-down specialization for information and privacy preservation". In Data Engineering, 2005. ICDE 2005. Proceedings. 21st International Conference on. IEEE, 2005, pp. 205 216. [19] J. Xu, W. Wang, J. Pei, X. Wang, B. Shi, and A. W.-C. Fu. "Utilitybased anonymization using local recoding". In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2006, pp. 785 790. [20] K. LeFevre, D.-J. DeWitt, and R. Ramakrishnan. "Mondrian multidimensional k- anonymity". In Data Engineering, 2006. ICDE 06. Proceedings of the 22nd International Conference on. IEEE, 2006, pp. 25 25. [21] M. Gruteser and D. Grunwald. "Anonymous usage of location-based services through spatial and temporal cloaking". In MobiSys, pages 31{42, 2003. [22] L. Sweeney. "k-anonymity: A Model for Protecting Privacy". International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002. [23] A. Gionis, A. Mazza, and T. Tassa. "k-anonymization revisited". In Data Engineering, 2008. ICDE 2008. IEEE 24th International Conference on. IEEE, 2008, pp. 744 753. [24] M. Terrovitis, N. Mamoulis, and P. Kalnis. "Privacy-preserving anonymization of setvalued data". In Proceedings of the VLDB Endowment, vol. 1, no. 1, pp. 115 125, 2008. [25] P. Kalnis, G. Ghinita, K. Mouratidis, and D. Papadias. "Preventing location-based identity inference in anonymous spatial queries". In IEEE Trans. Knowl. Data Eng., 19(12):1719{1733, 2007. [26] C.-Y. Chow, M. F. Mokbel, and W. G. Aref. "Casper*: Query processing for location services without compromising privacy". ACM Transactions on Database Systems, 34(4):1{24, 2009. Παραδοτέο 4.1: Τεχνική Αναφορά 16
[27] M. F. Mokbel, C.-Y. Chow, and W. G. Aref. "The new casper: A privacy-aware location-based database server". In ICDE, pages 1499{1500. IEEE, 2007. [28] B. Bamba, L. Liu, P. Pesti, and T. Wang. "Supporting anonymous location queries in mobile environments with privacygrid". In WWW, pages 237-246. ACM, 2008. [29] G. Ghinita, K. Zhao, D. Papadias, and P. Kalnis. "A reciprocal framework for spatial K- anonymity". Inf. Syst, 35(3):299{314, 2010. [30] G. Ghinita, P. Kalnis, and S. Skiadopoulos. "Prive: anonymous location-based queries in distributed mobile systems". In WWW, pages 371{380, 2007. [31] Machanavajjhala, A., Gehrke, J., Kifer, D., Venkitasubramaniam, M. "l-diversity: Privacy Beyond k-anonymity". ICDE, 2006. [32] J. Liu and K. Wang. "On optimal anonymization for l+-diversity". In Data Engineering (ICDE), 2010 IEEE 26th International Conference on. IEEE, 2010, pp. 213 224. [33] X. Xiao and Y. Tao. "Personalized privacy preservation". In Proceedings of the 2006 ACM SIGMOD international conference on Management of data. ACM, 2006, pp. 229 240. [34] N. Li, T. Li, and S. Venkatasubramanian. "t-closeness: Privacy beyond k-anonymity and l-diversity". In Data Engineering, 2007. ICDE 2007. IEEE 23rd International Conference on. IEEE, 2007, pp. 106 115. [35] N. Li, T. Li, and S. Venkatasubramanian. "Closeness: A new privacy measure for data publishing". Knowledge and Data Engineering, IEEE Transactions on, vol. 22, no. 7, pp. 943 956, 2010. [36] Y. Rubner, C. Tomasi, and L. J. Guibas. "The earth mover s distance as a metric for image retrieval". International Journal of Computer Vision, vol. 40, no. 2, pp. 99 121, 2000. [37] Cao, P. Karras, C. Raïssi, and K.-L. Tan. "ρ-uncertainty: Inference-Proof Transaction Anonymization". In PVLDB 2010. [38] Yabo Xu, Benjamin C. M. Fung, Ke Wang, Ada Wai-Chee Fu, Jian Pei. "Publishing Sensitive Transactions for Itemset Utility". In ICDM 2008: 1109-1114. [39] Yabo Xu, Ke Wang, Ada Wai, Chee Fu, Philip S. Yu. "Anonymizing transaction databases for publication". In KDD 2008: 767-775. [40] Grigorios Loukides, Aris Gkoulalas-Divanis, Jianhua Shao. "Anonymizing Transaction Data to Eliminate Sensitive Inferences". DEXA (1), 2010. [41] M. L. Yiu, C. S. Jensen, X. Huang, and H. Lu. "Spacetwist: Managing the trade-offs among location privacy, query performance, and query accuracy in mobile services". In ICDE, pages 366{375. IEEE, 2008. [42] E.-A. Cho, C.-J. Moon, H.-S. Im, and D.-K. Baik. "An anonymous communication model for privacy-enhanced location based service using an echo agent". In ICUIMC, pages 290-297, 2009. [43] B. Zhou, J. Pei, and W. Luk. "A brief survey on anonymization techniques for privacy preserving publishing of social network data". In ACM SIGKDD Explorations Newsletter, vol. 10, no. 2, pp. 12 22, 2008. Παραδοτέο 4.1: Τεχνική Αναφορά 17
[44] K. Liu and E. Terzi. "Towards identity anonymization on graphs". In Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008, pp. 93 106. [45] N. Li and S. K. Das. "Applications of k-anonymity and as-diversity in publishing online social networks". In Security and Privacy in Social Networks. Springer, 2013, pp. 153 179. Παραδοτέο 4.1: Τεχνική Αναφορά 18