ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΦΥΣΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΦΥΣΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ «ΗΛΕΚΤΡΟΝΙΚΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΕΙΔΙΚΗ ΕΠΙΣΤΗΜΟΝΙΚΗ ΕΡΓΑΣΙΑ "ΑΥΤΟΜΑΤΗ ΑΝΑΓΝΩΡΙΣΗ CAPTCHAs ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΨΕΕ" ΓΚΟΛΩΝΗ ΣΤΑΥΡΟΥΛΑ ΤΟΥ ΔΗΜΗΤΡΙΟΥ ΑΡΙΘΜΟΣ ΜΗΤΡΩΟΥ :143 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΦΩΤΟΠΟΥΛΟΣ ΣΠΥΡΙΔΩΝ ΠΑΤΡΑ, ΦΕΒΡΟΥΑΡΙΟΣ

2 ΕΙΔΙΚΗ ΕΠΙΣΤΗΜΟΝΙΚΗ ΕΡΓΑΣΙΑ "ΑΥΤΟΜΑΤΗ ΑΝΑΓΝΩΡΙΣΗ CAPTCHAs ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΨΕΕ" ΓΚΟΛΩΝΗ ΣΤΑΥΡΟΥΛΑ ΤΟΥ ΔΗΜΗΤΡΙΟΥ ΑΡΙΘΜΟΣ ΜΗΤΡΩΟΥ :143 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Σπύρος Φωτόπουλος, Καθηγητής ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ: Γεώργιος Οικονόμου, Καθηγητής Αρτέμιος Βογιατζής, Κύριος Ερευνητής ΠΑΤΡΑ, ΦΕΒΡΟΥΑΡΙΟΣ

3 Περίληψη Γνωρίζουμε πως στην εποχή που διανύουμε το Διαδίκτυο προσφέρει μια παγκόσμια επικοινωνία δημιουργώντας ταυτόχρονα και μια παγκόσμια οικονομία. Η παροχή δωρεάν υπηρεσιών από αρκετές ιστοσελίδες οδήγησε στη συστηματική κατάχρησή τους με ευνόητο σκοπό το κέρδος. Ως αντίσταση σε αυτή την κακόβουλη νέα πηγή εσόδων για κάποιους, προβάλλονται τα CAPTCHAs. Στόχος τους είναι να εξακριβώσουν αν μία αίτηση σε μία υπηρεσία γίνεται από έναν χρήστη ή από ένα αυτοματοποιημένο πρόγραμμα. Κάθε ιστοσελίδα που δίνει την δυνατότητα στον χρήστη να δημιουργήσει δικό του περιεχόμενο ή να χρησιμοποιήσει τις υπηρεσίες της οφείλει πλέον να εμπεριέχει CAPTCHAs. Η παρούσα ειδική επιστημονική εργασία έχει ως στόχο τη μελέτη και την ερμηνεία όλων των διαφορετικών ειδών CAPTCHAs που έχουν δημιουργηθεί ώστε να είναι ανθεκτικά στις κακόβουλες προσπάθειες λύσης και εξετάζεται το κατά πόσο αυτό είναι εφικτό. Γίνεται μια προσπάθεια αρχικά να κατανοήσουμε ακριβώς τι είναι τα CAPTCHAs και γιατί η χρήση τους καθίσταται αναγκαία. Αυτό που επίσης θα διερευνηθεί, μέσα από συγκεκριμένες δημοσιεύσεις που έχουν πραγματοποιηθεί, είναι ποιες αρχές πρέπει να διέπουν το σχεδιασμό ενός CAPTCHA. Προκειμένου να συμβεί αυτό θα ανατρέξουμε σε διαφορετικές προσεγγίσεις και αφού τις παρουσιάσουμε γίνεται μια κριτική ανάλυση των μεθόδων της κάθε ερευνητικής ομάδας. ΘΕΜΑΤΙΚΗ ΠΕΡΙΟΧΗ: Ψηφιακή Επεξεργασία Εικόνας ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: CAPTCHAs, Image Recognition CAPTCHAs, Human Interactive Proof, Attacks, Design, OCR, Spamming, ασφάλεια, ευρωστία, Cortcha, object recognition, ευχρηστία, τμηματοποίηση - 3 -

4 Abstract It is fact that in the modern world the Internet offers a global communication while creating a global economy. The provision of free services from several websites has led to this systematic abuse solely for the purpose of making a profit. In order to stem the tide of this malicious new source of income for some, CAPTCHAs are employed. Their goal is to determine whether a request to a service is made by a user or by an automated program. Every website that enables the user to create their own content or use its services must now deploy CAPTCHAs. This current special scientific work aims at the study and interpretation of all different kinds of CAPTCHAs created so that they are resistant to malicious efforts of solutions and examines whether this is possible. An attempt is made initially to understand exactly what the CAPTCHAs are and why their use is necessary. What will also be explored through specific publications made, is what principles should govern the design of a CAPTCHA. In order to do this we will go back to different approaches and after presenting them, a critical analysis of the methods of each research group will be conducted SUBJECT AREA: Digital Image Processing KEYWORDS: CAPTCHAs, Image Recognition CAPTCHAs, Human Interactive Proof, Attacks, Design, OCR, Spamming, security, robustness, Cortcha, object recognition, usability, segmentation

5 ΕΥΧΑΡΙΣΤΙΕΣ Με την παρούσα επιστημονική εργασία περατώνεται ο κύκλος σπουδών μου στο Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών με τίτλο «Ηλεκτρονική και Επεξεργασία της Πληροφορίας» του Πανεπιστημίου Πατρών και οφείλω να ευχαριστήσω θερμά τους ανθρώπους που συνέβαλλαν στην ολοκλήρωσή της. Θα ήθελα να ευχαριστήσω κυρίως τον επιβλέποντα καθηγητή μου κ. Σ. Φωτόπουλο, διευθυντή του τομέα Ηλεκτρονικής του τμήματος Φυσικής, για την εμπιστοσύνη και το ενδιαφέρον, το οποίο επέδειξε τόσο με την ανάθεση του θέματος της εργασίας αυτής όσο και κατά τη διάρκεια της διεξαγωγής της. Επιπλέον θα ήθελα να ευχαριστήσω τον κ. Α. Βογιατζή για την ουσιαστική και πολύτιμη βοήθειά του στην βελτίωση της εργασίας αυτής. Τέλος θέλω να ευχαριστήσω το σύζυγο και τα παιδιά μου Χρήστο και Ηρώ για την υπομονή και την συμπαράσταση που έχουν δείξει σε όλη τη διάρκεια των σπουδών μου

6 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ Περίληψη 3 Abstract 4 ΚΕΦΑΛΑΙΟ 1 10 Εισαγωγή Αντικείμενο Εργασίας Δομή Εργασίας Ιστορική Αναδρομή Τι είναι τα CAPTCHAs? Πως φτάσαμε στη χρήση CAPTCHAs Μέθοδοι παραγωγής CAPTCHAs 18 ΚΕΦΑΛΑΙΟ η Προσέγγιση: Usability of CAPTCHAs or Usability issues in CAPTCHA design(2008) Εισαγωγή Πλαίσιο διερεύνησης Παραμόρφωση και σχετικά θέματα Μέθοδος και επίπεδο παραμόρφωσης Μπερδεμένοι χαρακτήρες Φιλικό με τους ξένους Περιεχόμενο και σχετικά θέματα Σύνολο χαρακτήρων Μήκος συμβολοσειράς Τυχαία συμβολοσειρά vs λέξεων από το λεξικό Προσβλητικές λέξεις Παρουσίαση σχετικών θεμάτων Η χρήση των χρωμάτων Ενσωμάτωση σε web σελίδα / μορφή Εφαρμογή σε Audio CAPTCHAs Συμπεράσματα 43 ΚΕΦΑΛΑΙΟ η Προσέγγιση: The Robustness of CAPTCHAs A security Engineering Perspective Εισαγωγή Σχετικές Εργασίες CAPTCHAservice.org σχήματα: Η μέτρηση του αριθμού των εικονοστοιχείων σαν τρόπος επίθεσης Microsoft CAPTCHA: Τόξα και χαρακτήρες ήταν διακριτά

7 3.5 Google CAPTCHA: Ευάλωτο σε χρώμα πλήρωσης κατά την τμηματοποίηση Yahoo CAPTCHA: Ο αριθμός των χαρακτήρων και το μήκος του κειμένου που συσχετίστηκε Συμπεράσματα 59 ΚΕΦΑΛΑΙΟ η Προσέγγιση:Attacks and Design of Image Recognition CAPTCHAs (2010) _ 62 Περίληψη Εισαγωγή Υφιστάμενα Σχήματα IRC: Πόσο καλά είναι; Επιθυμητές ιδιότητες των CAPTCHAs Μετρήσεις για την αποτελεσματικότητα των επιθέσεων Υφιστάμενα Σχήματα IRC Η επίθεση στο IMAGINATION Βασικές ιδέες για την επίθεση Λεπτομέρειες από την επίθεση 75 Έλεγχος των υποψήφιων ορθογωνίων 75 Ανίχνευση χρωματικών ακμών και ανίχνευση ευθυγράμμου τμήματος 75 Παραγωγή υποψήφιων ορθογωνίων 77 Συμπέρασμα Πυκνότητας Αποτελέσματα Επίθεσης Άλλες Επιθέσεις Χαμηλού επιπέδου χαρακτηριστικά και σημασιολογία Επίθεση στο Asirra Επίθεση στο ARTiFACIAL Ένα απλό πλαίσιο Μαθήματα από επιτυχείς επιθέσεις Κατευθυντήριες γραμμές για τον σχεδιασμό εύρωστων IRC 86 Κατευθυντήρια γραμμή 1: 86 Κατευθυντήρια γραμμή 2: 87 Κατευθυντήρια γραμμή 3: Ένα νέο CAPTCHA βασισμένο στην εικόνα Λεπτομερής περιγραφή 91 Βάση δεδομένων Εικόνας 91 Τμηματοποίηση Εικόνας και επιλογή αντικειμένων 91 Inpainting Εικόνας 93 Παράγοντας μια πρόκληση Επίλυση Cortcha Προκλήσεων Ευχρηστία Πειραματικές Ρυθμίσεις 97 Αποτελέσματα

8 4.6.4 Αξιοπιστία 100 Επιθέσεις με τυχαίες απαντήσεις Συμπεράσματα 100 ΚΕΦΑΛΑΙΟ η Προσέγγιση: Breaking re-captcha: A Holistic Aproach via Shape Recognition (2011) Εισαγωγή Οι τεχνικές Δημιουργία βάσης Προεπεξεργασία Εξάλειψη έλλειψης Πλαίσιο σχήματος Αποτελεσματικό Ταίριασμα Λέξης Αποτελέσματα Συμπεράσματα 115 ΚΕΦΑΛΑΙΟ Εισαγωγή Σύνοψη και συνεισφορά 1ης προσέγγισης Σύνοψη και συνεισφορά 2ης προσέγγισης Σύνοψη και συνεισφορά 3ης προσέγγισης Σύνοψη και συνεισφορά 4ης προσέγγισης Κριτική ανάλυση προσεγγίσεων 123 1η Προσέγγιση 123 2η Προσέγγιση 124 3η Προσέγγιση 125 4η Προσέγγιση 125 ΚΕΦΑΛΑΙΟ Εισαγωγή Τεχνικές Επίλυσης CAPTCHAs OCR OCR Vs CAPTCHAs Σχετικά με τα CAPTCHAs OCRs Μελέτη Περίπτωσης Επίλυση από τον άνθρωπο Πώς λειτουργούν οι Ανθρώπινες Υπηρεσίες DeCAPTCHA Συμπεράσματα

9 - 9 -

10 ΚΕΦΑΛΑΙΟ 1 Εισαγωγή Στο άκουσμα της λέξης CAPTCHAs κάποιος σίγουρα δεν αντιλαμβάνεται αμέσως περί τίνος πρόκειται. Εικόνα 1 Παράδειγμα CAPTCHA Ωστόσο αν δοθούν περαιτέρω λεπτομέρειες (Εικόνα 1), όπως ότι πρόκειται για μία μικρή περίεργη διεργασία που περιλαμβάνει την αντιγραφή κάποιων αριθμών, γραμμάτων και συμβόλων που είναι μάλλον παραμορφωμένα σε ένα κενό πεδίο κατά τη διάρκεια υποβολής απάντησης σε ένα ιστολόγιο ή κατά τη διάρκεια δημιουργίας ενός λογαριασμού ηλεκτρονικού ταχυδρομείου, γίνεται αντιληπτό. Όσο ανούσια ως διαδικασία και αν μοιάζει να είναι για τον επισκέπτη της ιστοσελίδας, τόσο σημαντική είναι για το διαχειριστή της και για το σχεδιαστή της εφαρμογής. Αυτή η σειρά γραμμάτων ακούει στο όνομα CAPTCHAs και στην ουσία αποτελεί μία απλή δοκιμασία για να αποδειχτεί ότι ο επισκέπτης της σελίδας δεν είναι ένας υπολογιστής, αλλά ένας άνθρωπος. Γιατί όμως να υποβάλλεται κάποιος σε κάτι που δεν καταλαβαίνει το λόγο ύπαρξής του; Ποιος λόγος οδήγησε στη παραγωγή πολλών και διαφορετικών ειδών CAPTCHAs; Με ποια κριτήρια δημιουργούνται τα CAPTCHAs από τους σχεδιαστές τους και ποιοι και με ποιο όφελος ανακαλύπτουν κάθε αδυναμία στο σχεδιασμό τους; Αυτά

11 είναι ερωτήματα που θα προσπαθήσουμε να απαντήσουμε στην παρούσα εργασία. 1.1 Αντικείμενο Εργασίας Στη συγκεκριμένη εργασία γίνεται μια προσπάθεια αρχικά να κατανοήσουμε ακριβώς τι είναι τα CAPTCHAs και γιατί η χρήση τους καθίσταται αναγκαία. Αυτό που επίσης θα διερευνηθεί, μέσα από συγκεκριμένες δημοσιεύσεις που έχουν πραγματοποιηθεί, είναι ποιες αρχές πρέπει να διέπουν το σχεδιασμό ενός CAPTCHA. Προκειμένου να συμβεί αυτό θα ανατρέξουμε σε διαφορετικές προσεγγίσεις και αφού τις παρουσιάσουμε σχολιάζουμε τα πλεονεκτήματα και τα μειονεκτήματά τους 1.2 Δομή Εργασίας Στο πρώτο κεφάλαιο θα επιχειρηθεί η ανάλυση της αναγκαιότητας του μηχανισμού CAPTCHAs, τα κίνητρα που ώθησαν στην ανάπτυξή του και τις υπάρχουσες λύσεις που έχει δημιουργήσει η τεχνολογία. Στο δεύτερο κεφάλαιο παρουσιάζεται η δημοσίευση-ερευνητική μελέτη «Usability of CAPTCHAs or Usability issues in CAPTCHA design»(2008) των Jeff Yan Ahmad Salah El Ahmad. Στο τρίτο κεφάλαιο παρουσιάζεται η δημοσίευση-ερευνητική μελέτη «The Robustness of CAPTCHAs A security Engineering Perspective»(2009) των Jeff Yan and Ahmad Salah EI Ahmad. Στο τέταρτο κεφάλαιο παρουσιάζεται η δημοσίευση-ερευνητική μελέτη «Attacks and Design of Image Recognition CAPTCHAs» (2010) των Bin B. Zhu, Jeff Yan, Qiujie Li, Chao Yang, Jia Liu, Ning Xu, Meng Yi, Kaiwei Cai

12 Στο πέμπτο κεφάλαιο παρουσιάζεται η δημοσίευση-ερευνητική μελέτη «Breaking re-captcha: A Holistic Aproach via Shape Reecognition» (2011) Paul Aaecher, Niklas Bucher, Marc Fischlin, and Benjamin Milde. Στο έκτο κεφάλαιο γίνεται σχολιασμός των ερευνητικών εργασιών. Διερευνάται η συνεισφορά κάθε προσέγγισης που παρουσιάστηκε, αναδεικνύονται τα πλεονεκτήματα και τα μειονεκτήματά τους. Τέλος στο έβδομο κεφάλαιο παρουσιάζονται κάποιες από τις πολυάριθμες τεχνικές επίλυσης CAPTCHAs. 1.3 Ιστορική Αναδρομή Τα CAPTCHAs Completely Automated Public Turing tests to tell Computers and Human Apart που πρακτικά περιγράφουν ένα είδος αυτόματου τεστ με την δυνατότητα να ξεχωρίζει αν ο χρήστης είναι άνθρωπος ή μηχανή και δεν είναι τίποτε άλλο από ένα αντίστροφο test Turing. Ο Άλαν Μάθισον Τούρινγκ (Alan Matheson Turing, 23 Ιουνίου, Ιουνίου, 1954) ήταν Βρετανός μαθηματικός, καθηγητής της λογικής και κρυπτογράφος. Θεωρείται «πατέρας της επιστήμης υπολογιστών» χάρη στην πολύ μεγάλη συνεισφορά του στο γνωστικό πεδίο της θεωρίας υπολογισμού κατά τη δεκαετία του 1930, αλλά και της Τεχνητής Νοημοσύνης, χάρη στη λεγόμενη δοκιμή Turing την οποία πρότεινε το 1950: έναν τρόπο να διαπιστωθεί πειραματικά αν μία μηχανή έχει αυθεντικές γνωστικές ικανότητες και μπορεί να σκεφτεί. Ας θυμηθούμε πως ο Turing, τον Οκτώβρη του 1950, στο άρθρο του, Υπολογιστικά Μηχανήματα και Νοημοσύνη Computing Machinery and Intelligence ξεκινάει με το κεφάλαιο "Το Παιχνίδι της Μίμησης" (The Imitation Game), που έκτοτε είναι γνωστό ως "δοκιμασία Turing" (Turing

13 Test). Σκεφτείτε, λέει ο Turing, έναν άντρα (Α) και μια γυναίκα (Β) σε ένα δωμάτιο που επικοινωνούν μέσω «τηλετύπου» με έναν άνθρωπο (Γ) που κάθεται σε ένα άλλο δωμάτιο. Στόχος του παιχνιδιού είναι ο άνθρωπος αυτός (Γ), αδιευκρίνιστου φύλου, με ερωτήματα που θέτει με τον τηλέτυπο στους (Α) και (Β), να μαντέψει από τις απαντήσεις τους ποιος είναι ο άντρας και ποια είναι η γυναίκα. Η γυναίκα (Β) του απαντά προσπαθώντας να τον βοηθήσει και να τον πείσει ότι όντως είναι γυναίκα, ενώ ο άντρας (Α) προσπαθεί να τον παραπλανήσει ότι αυτός είναι πραγματικά η γυναίκα και όχι η (Β). Και οι δύο δηλαδή παίχτες (Α) και (Β) προσπαθούν να τον πείσουν ότι είναι γυναίκες και ο (Γ) πρέπει να καταλάβει ποιος λέει την αλήθεια και ποιος ψεύδεται. Τι θα γινόταν τώρα, ρωτάει ξαφνικά ο Turing, αν σε αυτό το παιχνίδι στην θέση (Α), αντικαταστήσουμε τον άντρα με μια μηχανή; Ο (Γ) που προσπαθεί να μαντέψει ποιος είναι ποιος, θα έχει το ίδιο ποσοστό αποτυχίας σε αυτή την περίπτωση, όσο είχε και όταν το παιχνίδι παιζόταν με τον άντρα και την γυναίκα. Το τεστ τώρα αλλάζει και συμμετέχει ένας άνθρωπος ως κριτής και θέτει μια σειρά ερωτήσεων σε δύο παίκτες, ένας εκ των οποίων ήταν ένας υπολογιστής και ο άλλος άνθρωπος. Και οι δύο, άνθρωπος και υπολογιστής, προσποιούνταν ότι είναι άνθρωποι, ο κριτής έπρεπε να κάνει τη διάκριση μεταξύ τους. Έτσι γεννήθηκε η Τεχνητή Νοημοσύνη (Artificial Intelligence), ένας καινούργιος κλάδος θεωρητικής αναζήτησης, μια καινοτόμος προσέγγιση σε ένα από τα αρχαιότερα ερωτήματα της ανθρώπινης ιστορίας: "τι είναι ο ανθρώπινος νους;" Αυτή η καινούργια προσέγγιση, θέτει και αντιμετωπίζει νέα ερωτήματα όπως ποια είναι τα όρια μεταξύ του "ανθρώπινου" και της "τεχνολογίας" ή μεταξύ του "φυσικού" και του

14 "τεχνητού"; Τα ερωτήματα αυτά έχουν επηρεάσει το πώς καταλαβαίνουμε σήμερα τις έννοιες "άνθρωπος", "φυσικό", "τεχνητό" και βέβαια το "φύλο". Στόχος του αρχικού Turing Test ήταν να χρησιμεύσει ως μέτρο της προόδου για την Τεχνητή Νοημοσύνη. Τα CAPTCHAs είναι παρόμοια με το Turing Test στο ότι διαχωρίζουν τον άνθρωπο από τους υπολογιστές, αλλά διαφέρουν στο ότι ο κριτής είναι τώρα ένας υπολογιστής. 1.4 Τι είναι τα CAPTCHAs? Ο όρος CAPTCHA είναι ακρωνύμιο που προέρχεται από την φράση «Completely Automated Public Turing test to tell Computers and Human Apart». Αυτή η τεχνολογία είναι πλέον ένας μηχανισμός ασφαλείας για την αντιμετώπιση των ανεπιθύμητων ή κακόβουλων προγραμμάτων bot του Διαδικτύου και έχει βρει ευρεία εφαρμογή σε πολλές εμπορικές ιστοσελίδες όπως το Google, το Yahoo, και το MSN της Microsoft. Τα κακόβουλα αυτά προγράμματα διαδίδουν μηνύματα-σκουπίδια ηλεκτρονικού ταχυδρομείου και επιπλέον δημιουργούν χιλιάδες δωρεάν λογαριασμούς ηλεκτρονικού ταχυδρομείου. Ένα σύστημα CAPTCHA είναι ουσιαστικά ένα μέσο αυτόματης παραγωγής αντίστροφων δοκιμασιών Turing που οφείλουν κατά το σχεδιασμό τους να υπακούουν σε κάποιες βασικές αρχές (Chewand Tygar, 2004). Αυτές είναι: Να είναι εύκολο στη λύση για τον άνθρωπο Να είναι εύκολο για τη μηχανή να το τεστάρει και να το βαθμολογήσει. Να είναι δύσκολο για ένα ρομπότ και ένα λογισμικό να το σπάσουν. Ο μοναδικός μηχανισμός που θα πρέπει να σπάει το CAPTCHA θα είναι αυτός που το δημιουργεί

15 Σύμφωνα με τον Chellapilla et al. (2005) στόχος του CAPTCHA είναι να επιτυγχάνεται ποσοστό αποτυχίας μικρότερο από 0.01% και το αντίστοιχο ποσοστό επιτυχίας για τον ανθρώπινο παράγοντα να είναι 90%. Στις σελίδες του Διαδικτύου μπορεί κάποιος να συναντήσει πολλά είδη CAPTCHAs. Υπάρχουν τρεις βασικοί τύποι CAPTCHA : Βασισμένα στο κείμενο (text-based schemes) (Εικόνα 2) τα οποία τυπικά εξαρτώνται από την παραμόρφωση εικόνων κειμένου αποδίδοντας σε αυτές μη αναγνωρισιμότητα, βασιζόμενα στην αναγνώριση προτύπων μέσω προγράμματος αλλά αναγνωρίσιμα από ανθρώπινα μάτια. Εικόνα 2 Παραδείγματα βασισμένων στο κείμενο (text based) CAPTCHAs Βασισμένα στον ήχο (sound-based schemes) (Εικόνα 3) όπου απαιτούν από τους χρήστες να αναγνωρίσουν ένα φωνητικό μήνυμα

16 Εικόνα 3 Παραδείγματα βασισμένων στον ήχο (sound based) CAPTCHAs Βασισμένα στην εικόνα (image-based schemes) (Εικόνα 4) όπου γίνεται αναγνώριση εικόνας. Εικόνα 4 Παραδείγματα βασισμένων στην εικόνα (image based) CAPTCHAs Στα βασισμένα στο κείμενο, ο υπολογιστής που δρα ως server επιλέγει μια τυχαία λέξη και αφού την μετατρέψει σε εικόνα την παρουσιάζει στη σελίδα και ζητά από τον επισκέπτη να πληκτρολογήσει την λέξη που αναγνωρίζει βλέποντας την εικόνα. Εφόσον η λέξη που θα εισάγει ο επισκέπτης συμφωνεί με την τυχαία λέξη που επιλέχτηκε αρχικά, ο server υποθέτει ότι ο επισκέπτης είναι άνθρωπος και όχι κάποιο bot. Χρησιμοποιούνται από την υποβολή ενός σχολίου σε ένα ιστολόγιο για κάποιο κείμενο έως την δημιουργία ενός

17 λογαριασμού ηλεκτρονικού ταχυδρομείου ή ακόμα μέχρι την προσπάθεια ανάκτησης κωδικού σε υπηρεσίες ηλεκτρονικού εμπορίου, με σκοπό να σταματήσουν τις αυτοματοποιημένες δέσμες ενεργειών που χρησιμοποιούνται για την κακόβουλη χρήση αυτών των υπηρεσιών. Στις διάφορες σελίδες του Διδικτύου μπορείτε να συναντήσετε πολλά είδη CAPTCHAs όπως βλέπουμε στην Εικόνα 5 με επικρατέστερη μορφή τα text based CAPTCHAs.: EZ-GIMPY GIMPY CAPTCHA re- ESP PIX SQUIGL-PIX Νo CAPTCHA re-captcha Εικόνα 5 a) EZ-GIMPY b) GIMPY c) re-captcha d) ESP-PIX e) SQUIGL-PIX f) No

18 1.5 Πως φτάσαμε στη χρήση CAPTCHAs Ο χρήστης του Διαδικτύου συναντά καθημερινά όλο και περισσότερες δοκιμασίες CAPTCHAs και αυτό είναι συχνά ενοχλητικό και κουραστικό, όταν ειδικά δε γνωρίζει το λόγο για τον οποίο υποβάλλεται σε αυτή την διαδικασία. Υπολογίζεται ότι καθημερινά, οι άνθρωποι ξοδεύουν συνολικά εργατοώρες για να αποδείξουν ότι δεν είναι μηχανές, λύνοντας περίπου 60 εκατομμύρια δοκιμασίες CAPTCHAs. Οι λόγοι που οι ιδιοκτήτες ιστοτόπων αναγκάζονται να υποβάλλουν τους επισκέπτες τους σε αυτή τη διαδικασία οφείλεται στο spam και στο black hat SEO. Οι spammers έχουν ως στόχο να διαφημίσουν τα προϊόντα που αντιπροσωπεύουν μαζικά σε s αλλά και σε forums, blogs, wikis, social networks καθώς και σε διάφορες άλλες online υπηρεσίες. Για να το επιτύχουν κατασκευάζουν διάφορα bots, τα οποία ανάλογα με τον συγκεκριμένο σκοπό, αναλαμβάνουν είτε να σαρώνουν το Διαδίκτυο για την συλλογή διευθύνσεων , είτε να εκτελούν μαζική δημοσίευση διαφημιστικών σχολίων στις διάφορες υπηρεσίες, αφού πρώτα δημιουργήσουν αυτόματα τους ανάλογους λογαριασμούς που θα επιτρέψουν τις δημοσιεύσεις αυτές. Στον δε τομέα του black hat SEO, χρησιμοποιούνται τεχνικές παρόμοιες με τις παραπάνω για την δημιουργία συνδέσμων που οδηγούν σε συγκεκριμένους ιστοτόπους (backlinks), ανεβάζοντας έτσι το ranking που έχουν οι ιστοτόποι αυτοί στις διάφορες μηχανές αναζήτησης. 1.6 Μέθοδοι παραγωγής CAPTCHAs Η παραγωγή CAPTCHAs διαδόθηκε γρήγορα στα πλαίσια μιας προσπάθειας προστασίας των online υπηρεσιών του Διαδικτύου από την κακόβουλη χρήση. Χρησιμοποιώντας ένα πρόγραμμα υπολογιστή παράγονται εικόνες που

19 περιέχουν δοσμένο κείμενο όπως βλέπουμε στην Εικόνα 6, η αντίστροφη διαδικασία, δηλαδή η εξαγωγή σε μορφή κειμένου ενός αλφαριθμητικού που περιέχεται σε εικόνα (OCR Optical Character Recognition) είναι αρκετά πιο δύσκολη διαδικασία. Μάλιστα, με σκοπό αυτή η διαδικασία να γίνει ακόμα δυσκολότερη, ένα σύστημα CAPTCHA μπορεί, ανάλογα με την υλοποίηση, να χρησιμοποιεί μια ή περισσότερες από τις παρακάτω τεχνικές: Χρήση τυχαίων αλφαριθμητικών αντί επιλογής από πεπερασμένο σύνολο αναγνωρίσιμων λέξεων ώστε να μην μπορούν να χρησιμοποιηθούν λεξικά κατά την διαδικασία OCR. Χρήση διαφορετικής γραμματοσειράς για κάθε εικόνα που δημιουργείται ή, για ακόμα μεγαλύτερη ασφάλεια, για κάθε χαρακτήρα στην εικόνα. Χρήση διανυσματικών μετασχηματισμών σε κάθε χαρακτήρα ή στην συνολική εικόνα. Ανάλογα πάλι με την υλοποίηση, μπορεί να είναι απλοί και ευανάγνωστοι γραμμικοί μετασχηματισμοί (π.χ. περιστροφή) ή δυσκολότεροι μη-γραμμικοί (π.χ. warps και vortices). Χρήση περίπλοκων μοτίβων (π.χ. θόρυβο ή πλέγμα) και χρωμάτων (gradients σε χρώματα όμοια με αυτά των γραμμάτων) στο φόντο. Μερική επικάλυψη του κειμένου της εικόνας με παραμορφωμένες γραμμές strikethrough ή άλλα artifacts. Υπερβολική συγκέντρωση των χαρακτήρων στην εικόνα ώστε ο κάθε χαρακτήρας να επικαλύπτει μέρος των διπλανών του. Περιορισμός του χρονικού διαστήματος ισχύος της κάθε δοκιμασίας και αυτόματη αντικατάστασή της με άλλη όταν η προηγούμενη λήξει

20 Εικόνα 6 Text based CAPTCHAs Η χρήση αυτών των τεχνικών και ο βαθμός ενσωμάτωσής τους στα διάφορα συστήματα CAPTCHAs καθορίζουν σημαντικά την ομαλή λειτουργία τους. Επιπλέον υπάρχουν εταιρίες που ασχολούνται με τη δημιουργία και πώληση CAPTCHAs προσαρμοσμένα στις απαιτήσεις του πελάτη όπως η BotDetect CAPTCHA. Στην Εικόνα 7 βλέπουμε ένα παράδειγμα CAPTCHA κειμένου που δημιουργήθηκε με συγκεκριμένη παραμετροποίηση που δώσαμε εμείς. Συγκεκριμένα ζητήσαμε να είναι στα Ελληνικά, με 7 χαρακτήρες, να αποτελείται μόνο από γράμματα, να έχει format jpeg και μέγεθος 250x

21 Εικόνα 7 Παραμετροποίηση ΒotDetect CAPTCHA Εικόνα 8 Δείγματα BotDetect CAPTCHAs με διαφορετικές παραμετροποιήσεις

22 Εικόνα 9 Δείγματα BotDetect CAPTCHAs με διαφορετικές παραμετροποιήσεις

23 ΚΕΦΑΛΑΙΟ 2 1 η Προσέγγιση: Usability of CAPTCHAs or Usability issues in CAPTCHA design(2008) Jeff Yan School of Computing Science Newcastle University, UK Ahmad Salah El Ahmad School of Computing Science Newcastle University, UK 2.1 Εισαγωγή Σύμφωνα με τους συγγραφείς αυτής της εργασίας, που χρονικά είναι η παλαιότερη αλλά συνέβαλλε αρκετά στην εξέλιξη των CAPTCHAs, είναι ευρέως αποδεκτό ότι ένα καλό CAPTCHA πρέπει να είναι τόσο εύρωστο όσο και εύχρηστο. Η ευρωστία του CAPTCHA είναι η δύναμή του στο να αντιστέκεται στις επιθέσεις, και αυτό έχει προσελκύσει σημαντικά την προσοχή της επιστημονικής κοινότητας. Ωστόσο, όπως αναφέρουν είναι εκπληκτικό το γεγονός ότι υπήρξε μικρή μελέτη για την ευχρηστία του CAPTCHA, αν και εξ ορισμού, το CAPTCHA που είναι ακατάλληλο για τον άνθρωπο δεν έχει κανένα λόγο να υπάρχει. Μια Ομάδα Εργασίας W3C σε έκθεση τονίζει ότι τα CAPTCHAs μπορούν να δημιουργήσουν ένα μείζον πρόβλημα της προσβασιμότητας σε «χρήστες που είναι τυφλοί, έχουν χαμηλή όραση, ή έχουν μαθησιακές δυσκολίες όπως δυσλεξία», και συζητήθηκαν πιθανές εναλλακτικές για την ανθρώπινη επαλήθευση. Αναγνωρίζεται ότι το CAPTCHA πρέπει να είναι «φιλικό προς τον άνθρωπο», και εξετάζεται η επίπτωση των διαφόρων τεχνικών παραμόρφωσης κειμένου για την ευχρηστία ενός CAPTCHA που σχεδιάστηκε από τη Microsoft. Σε αυτήν την ερευνητική εργασία έγινε μια προσπάθεια να καταλάβουμε τι είδος θεμάτων πρέπει να ορίσουμε για να κάνουμε τα CAPTCHAs χρήσιμα στο πλαίσιο ότι αυτή η τεχνολογία έχει ευρέως αναπτυχθεί

24 2.2 Πλαίσιο διερεύνησης Αυτή η εργασία εστίασε στο βασισμένο στο κείμενο CAPTCHA για τους ακόλουθους λόγους: το βασισμένο στο κείμενο είναι το πιο ευρέως ανεπτυγμένο σχήμα. Βασικά sites όπως το Google, Yahoo, Microsoft όλα έχουν το δικό τους text-based CAPTCHA αναπτυγμένο εδώ και χρόνια. το βασισμένο στο κείμενο CAPTCHA έχει πολλά πλεονεκτήματα συγκρινόμενο με τα άλλα, για παράδειγμα λειτουργούν διαισθητικά οι χρήστες ανά τον κόσμο (το task που παρουσιάζεται στους χρήστες είναι ακριβώς αναγνώριση χαρακτήρων) με λίγα θέματα εντοπισμού, και έχει καλές προοπτικές να παρέχει ισχυρή ασφάλεια. μπορεί να έχει ένα μεγάλο και θετικό αντίκτυπο για την κοινωνία, η βελτίωση της χρησιμότητας τέτοιων δημοφιλών CAPTCHAs με την αναγνώριση θεμάτων που υπάρχουν σε τέτοια σχήματα. η συζήτησή εστιάζει στο βασισμένο στο κείμενο CAPTCHA καθώς μπορεί να είναι σχετικό με τις άλλες κατηγορίες. Πολύ σημαντικό σημείο της συγκεκριμένης έρευνας αποτελεί το γεγονός ότι προκειμένου να ελεγχθεί η ευχρηστία των CAPTCHAs εισήχθη ένα τριδιάστατο πλαίσιο υπό το πρίσμα του οποίου θα μελετηθεί και θα διερευνηθεί τόσο η ευχρηστία και η ευρωστία τους. Συγκεκριμένα: 1. Παραμόρφωση: Αυτή η διάσταση ελέγχει τον τύπο της παραμόρφωσης ενός CAPTCHA και τις επιπτώσεις στην ευχρηστία. 2. Περιεχόμενο: Αυτή διάσταση ελέγχει το περιεχόμενο που είναι ενσωματωμένο στο CAPTCHA στις προκλήσεις ή τα tests και τις

25 επιπτώσεις στην ευχρηστία. Για παράδειγμα πως το περιεχόμενο μπορεί να οργανωθεί προκειμένου να είναι κατάλληλο. 3. Παρουσίαση: Αυτή η διάσταση ελέγχει τον τρόπο όπου οι προκλήσεις παρουσιάζονται στο CAPTCHA και τις επιπτώσεις τους στην ευχρηστία. Μέσα από αυτό το τριδιάστατο πλαίσιο, τα ειδικά στοιχεία του CAPTCHA μπορούν να εντοπιστούν και να βελτιωθούν, έτσι ώστε να ενισχυθεί η ευχρηστία του συστήματος στο σύνολό του. Το πλαίσιο αυτό ισχύει για CAPTCHAs που βασίζονται σε κείμενο ή σε ήχο, στα οποία η παραμόρφωση, το περιεχόμενο και η παρουσίαση τυπικά είναι που μας ενδιαφέρουν Είναι επίσης, εφαρμόσιμα για συστήματα με βάση την εικόνα. Ο Πίνακας 1 συνοψίζει όλα τα θέματα που θα συζητηθούν στις επόμενες ενότητες. Βλέπουμε πως για κάθε διάσταση του τριδιάστατου πλαισίου ελέγχονται επιπλέον παράμετροι. Έτσι: Πίνακας 1 Θέματα ευχρηστίας σχετικά με text - based CAPTCHAs

26 2.3 Παραμόρφωση και σχετικά θέματα Η παραμόρφωση έχει σαφή αντίκτυπο στην ευχρηστία των CAPTCHAs, δεδομένου ότι οι άνθρωποι θα ήταν δύσκολο ή αδύνατο να αναγνωρίσουν υπερβολικά παραμορφωμένους χαρακτήρες Μέθοδος και επίπεδο παραμόρφωσης Το πιο σημαντικό από άποψη ευχρηστίας για το CAPTCHA που βασίζεται σε κείμενο είναι να είναι ευανάγνωστο, γεγονός το οποίο μπορεί να καθορίζεται σε μεγάλο βαθμό από τις μεθόδους παραμόρφωσης που χρησιμοποιούνται και πόση παραμόρφωση εφαρμόζεται σε κείμενα. Μια ομάδα της Microsoft εξέτασε τις ακόλουθες κοινές μεθόδους παραμόρφωσης, μεταξύ άλλων, και προσδιόρισε εμπειρικά το επίπεδο της στρέβλωσης για κάθε μέθοδο κάτι που δεν θα καταστήσει δύσκολο για τους ανθρώπους χρήστες να αναγνωρίζουν τα διαστρεβλωμένα κείμενα. Μετάφραση: κινούμενοι χαρακτήρες είτε προς τα πάνω ή προς τα κάτω και προς τα αριστερά ή δεξιά κατά ένα ποσό. Περιστροφή: στροφή χαρακτήρων είτε σε δεξιόστροφη είτε σε αριστερόστροφη κατεύθυνση. Κλιμάκωση: τέντωμα ή συμπίεση χαρακτήρων στην x κατεύθυνση και y κατεύθυνση. Warp: ελαστική παραμόρφωση των εικόνων CAPTCHA σε διαφορετικές κλίμακες. Η μελέτη αυτή οδήγησε σε πολύτιμα αποτελέσματα, στα οποία βασίστηκε ο σχεδιασμός του CAPTCHA της Microsoft που έχει αναπτυχθεί εδώ και χρόνια στις υπηρεσίες του, όπως το MSN, το Hotmail και το Windows Live. Αυτά τα

27 αποτελέσματα ισχύουν επίσης για το σχεδιασμό άλλων βασιζόμενων σε κείμενο CAPTCHAs Μπερδεμένοι χαρακτήρες Η παραμόρφωση δημιουργεί συχνά διφορούμενους χαρακτήρες, όπου οι χρήστες δεν μπορούν να είναι σίγουροι για το τι είναι. Παρά το γεγονός ότι κάποιοι χαρακτήρες έχουν πολύ διαφορετικά σχήματα, μετά την παραμόρφωση, γίνεται δύσκολο να ξεχωρίσει κάποιος τον έναν από τον άλλο. Η κοινή σύγχυση σε ζευγάρια χαρακτήρων ακολούθως: Γράμμα vs ψηφίο: δύσκολο να ξεχωρίσει κάποιος το παραμορφωμένο O (όμικρον) από 0 (μηδέν), το 6 από το G και Β, το 5 από το S /s, τo 2 από Z / z, το 1 από το l. Ψηφίο vs ψηφίο: Το 5 είναι δύσκολο να το ξεχωρίσει κάποιος από το 6. Το 7 είναι γραμμένο με διαφορετικό τρόπο στις διάφορες χώρες και συχνά αυτό που μοιάζει με το 7 μπορεί στην πραγματικότητα να είναι ένα 1, και το 8, μπορεί να μοιάζει με 6 ή 9. Γράμματα vs γράμματα: Υπό κάποιας παραμόρφωσης, το "VV" μπορεί να μοιάζει με "W", το "cl" μπορεί να μοιάζει με "d", το "nn" μπορεί να μοιάζει με "m", το "rn" μπορεί να μοιάζει με "m", "rm" μπορεί να μοιάζει με "nn", το "cm" μπορεί να μοιάζει με "an". Ο Πίνακας 2 δείχνει κάποια τέτοια σύγχυση σε παραδείγματα που παρατηρήθηκαν στο CAPTCHA της Google (που χρησιμοποιείται για την υπηρεσία του Gmail). Επίσης παρατηρήθηκε ότι το 6% των προκλήσεων που δημιουργούνται από αυτό το καθεστώς της Google περιέχονται οι εν λόγω χαρακτήρες. Χαρακτήρες vs clutters: Στα CAPTCHAs όπως τα συστήματα του MSN, τα τυχαία τόξα εισάγονται ως clutters. Σύγχυση μεταξύ του τόξου και των

28 χαρακτήρων έχει συχνά παρατηρηθεί σε αυτό το σχήμα της Microsoft. Για παράδειγμα, είναι δύσκολο να ξεχωρίσεις ένα τόξο από χαρακτήρες, όπως «J», «7» και «L» στην Εικόνα 1ο. Ειδικότερα, η σύγχυση ανάμεσα σε ένα τόξο και «J» παρατηρήθηκε συχνά σε αυτό το σχήμα (συνήθως στην αρχή ή στο τέλος της πρόκλησης, κάποια ακόμα παραδείγματα φαίνονται στην Εικόνα 10(d)). Να επισημάνουμε ότι οι χαρακτήρες που φαίνονται παρόμοιοι σε μια γραμματοσειρά μπορεί να έχουν διαφορετική εμφάνιση σε μια άλλη γραμματοσειρά. Έτσι η γραμματοσειρά είναι ένα άλλο σχετικό θέμα με την ευχρηστία Φιλικό με τους ξένους Στη θεωρία, τα CAPTCHAs που βασίζονται σε κείμενο είναι διαισθητικά και στους χρήστες παγκοσμίως έχουν ελάχιστα θέματα τοπικοποίησης. Ωστόσο, σε μία δοκιμή μικρής κλίμακας που διεξήχθη με 20 μαθητές στην τάξη του πρώτου συγγραφέα, τον Οκτώβριο του 2007, παρατηρήθηκε ότι πολλοί ξένοι φοιτητές των οποίων η μητρική γλώσσα δεν χρησιμοποιεί το λατινικό αλφάβητο παρουσίασε πολύ χειρότερα αποτελέσματα από ό, τι εκείνοι των οποίων η πρώτη γλώσσα βασίζεται στο λατινικό αλφάβητο (π.χ. γηγενείς ομιλητές της αγγλικής), όταν κλήθηκαν να αναγνωρίσουν διαστρεβλωμένες προκλήσεις που δημιουργούνται από BaffleText, ενός προγράμματος παλιού σχήματος που βασίζεται σε κείμενο

29 (d) Εικόνα 10 Η Microsoft CAPTCHA: το 1ο αντικείμενο σε (a), (b) και (c) μοιάζει με «J», «7» και «L» αντίστοιχα. Το τελευταίο αντικείμενο σε κάθε εικόνα (d) μοιάζει με «J». Πίνακας 2 Μπερδεμένοι Χαρακτήρες στο Google CAPTCHA Πειράματα πραγματοποιήθηκαν προκειμένου να διερευνηθεί: η σχέση μεταξύ μητρικής γλώσσας των ανθρώπων και της αποκωδικοποίησης διαστρεβλωμένου λατινικού αλφάβητου σε CAPTCHAs και η σημασία της

30 γλώσσας που ομιλείται από τους συμμετέχοντες σε πείραμα σε σχέση με την ταχύτητά τους για την επίλυση ενός CAPTCHA. Στο τελευταίο, παρατηρήθηκε ότι ο μέσος χρόνος για την επίλυση προκλήσεων που προκύπτουν από τη Google CAPTCHA ήταν παρόμοιος για όσους είναι εξοικειωμένοι με την αγγλική γλώσσα και για όσους δεν είναι εξοικειωμένοι με την αγγλική γλώσσα. Αυτό φαίνεται να έρχεται σε αντίθεση με το πειραματικό αποτέλεσμά της παρούσας εργασίας. Αυτή η διαφορά μπορεί να εξηγηθεί εύκολα: το CAPTCHA που χρησιμοποιείται στη μελέτη της παρούσας εργασίας ήταν πολύ αλλοιωμένο σε σχέση με το σύστημα της Google. Ο Luis von Ahn, ιδρυτής της εταιρείας recaptcha, σε έρευνα που έκανε παρατήρησε ένα μέσο ποσοστό επιτυχίας της τάξης του 97% και 93% για την επίλυση προκλήσεων re-captcha στη διάρκεια της ημέρας και το βράδυ αντίστοιχα. Σύμφωνα με τις διευθύνσεις IP των αιτήσεων παροχής υπηρεσιών που είχε λάβει το re-captcha, από περισσότερους χρήστες εκτός των ΗΠΑ (π.χ. στην Ασία) ζητούν πρόσβαση σε αυτή την υπηρεσία τη νύχτα παρά στη διάρκεια της ημέρας (και ώρα ΗΠΑ) - καθώς το βράδυ στις ΗΠΑ είναι ημέρα στην Ασία. Αυτό δείχνει σε κάποιο βαθμό ότι οι άνθρωποι με διαφορετική μητρική γλώσσα έχουν διαφορετικές επιδόσεις στην αποκωδικοποίηση παραμορφωμένων λατινικών χαρακτήρων. Αυτό είναι εύκολο να εξηγηθεί - φανταστείτε πόσο εύκολο θα ήταν για κάποιον (π.χ. Άγγλο) να αποκρυπτογραφήσει χειρόγραφα κείμενα σε μια ξένη γλώσσα (π.χ. κινεζικά). Η διαφορά απόδοσης μεταξύ αλλοδαπών και γηγενών δε φαίνεται να είναι μεγάλη στην περίπτωση του re-captcha. Ωστόσο, με δεδομένο το μέγεθος του πληθυσμού που χρησιμοποιεί αυτή την υπηρεσία (εκατοντάδες χιλιάδες ιστοσελίδες που εξυπηρετούν εκατομμύρια ανθρώπους, τουλάχιστον, για παράδειγμα, δημοφιλή sites όπως το Facebook και το Twitter είναι, μεταξύ

31 των συνδρομητών της υπηρεσίας), αυτό το θέμα «να είναι φιλικό με τους ξένους» προκαλεί σοβαρή ανησυχία ευχρηστίας. Επιπλέον, για τα σχήματα των οποίων οι σχεδιαστές δεν γνώριζαν το θέμα αυτό, τα προβλήματα ευχρηστίας που προκαλούνται μπορεί να είναι ακόμη χειρότερα. 2.4 Περιεχόμενο και σχετικά θέματα Η επιλογή του περιεχομένου που χρησιμοποιείται σε κάθε πρόκληση CAPTCHA μπορεί επίσης να έχει σημαντική επίπτωση στην ευχρηστία Σύνολο χαρακτήρων Το σύνολο των χαρακτήρων που χρησιμοποιείται σε ένα CAPTCHA έχει σημασία για την ασφάλεια. Συνήθως, όσο μεγαλύτερη είναι η σειρά των χαρακτήρων, τόσο μεγαλύτερη είναι η αντοχή σε τυχαίες επιθέσεις που μπορεί κάθε πρόκληση να έχει. Ωστόσο, ένα μεγαλύτερο σύνολο χαρακτήρων μπορεί επίσης να συνεπάγεται μεγαλύτερο αριθμό χαρακτήρων που φαίνονται παρόμοιοι μετά από παραμόρφωση, προκαλώντας σύγχυση Μήκος συμβολοσειράς Το μήκος της συμβολοσειράς κειμένου που χρησιμοποιείται σε κάθε πρόκληση επίσης, έχει σημασία για την ασφάλεια. Αν και τα δύο, το σύνολο των χαρακτήρων και το μήκος της συμβολοσειράς είναι μικρά, μια τυχαία εικασία επίλυσης θα έχει μια υψηλή πιθανότητα επιτυχίας του CAPTCHA. Τυπικά, όσο μεγαλύτερη είναι η συμβολοσειρά που χρησιμοποιείται σε μια πρόκληση, τόσο πιο ασφαλές είναι το αποτέλεσμα. Το μήκος της συμβολοσειράς έχει ενδιαφέρουσες επιπτώσεις ευχρηστίας. Αν τυχαίες συμβολοσειρές χρησιμοποιούνται σε ένα σχήμα, τότε όσο μεγαλύτερη είναι η συμβολοσειρά, τόσο πιο δύσκολο είναι να χρησιμοποιηθεί το σχήμα. Ο λόγος είναι ότι είναι πιο απαιτητικό για τους χρήστες να αποκωδικοποιήσουν

32 και να εισαγάγουν σωστά τις απαντήσεις τους. Για παράδειγμα, οι χρήστες έχουν την τάση να κάνουν λάθη αναγνώρισης, π.χ. λάθη που οφείλονται σε στρέβλωση των χαρακτήρων που μοιάζουν μεταξύ τους. Ωστόσο, αυτό δεν είναι απαραίτητο στην περίπτωση σχημάτων με αγγλικές λέξεις. Για παράδειγμα, παρατηρήθηκε για το σχήμα re-captcha, ότι όσο μεγαλύτερη είναι η συμβολοσειρά, τόσο υψηλότερο το ποσοστό επιτυχίας που έχουν οι χρήστες. Μια πιθανή εξήγηση είναι ότι όσο μεγαλύτερη είναι η λέξη, τόσο περισσότερες πληροφορίες οι άνθρωποι μπορούν να συγκεντρώσουν, έτσι σύμφωνα με την ψυχολογία του Gestalt (δηλαδή, οι άνθρωποι είναι καλοί στο να συμπεράνουν ολόκληρη εικόνα από μόνο μερική πληροφόρηση) βοηθά αποτελεσματικά τους ανθρώπους να αποκωδικοποιήσουν τη λέξη σωστά. Ωστόσο, από σύντομες λέξεις που είναι πάρα πολύ διαστρεβλωμένες για να τις αναγνωρίσουμε, οι χρήστες δεν θα είναι σε θέση να συγκεντρώσουν αρκετές πληροφορίες ώστε να τις αποκωδικοποιήσουν σωστά. Για παράδειγμα, στο σύστημα του MSN, κάθε πρόκληση χρησιμοποιεί 8 χαρακτήρες. Σε ορισμένα άλλα σχήματα, όπως το CAPTCHA της Google, το μήκος των συμβολοσειρών είναι μεταβλητό: κάθε πρόκληση χρησιμοποιεί ένα διαφορετικό αριθμό χαρακτήρων, και το μήκος της συμβολοσειράς για κάθε πρόκληση είναι απρόβλεπτο. Αυτό το ζήτημα του σχεδιασμού αποδεικνύεται ότι έχει επιπτώσεις τόσο στην ασφάλεια όσο και στην ευχρηστία. Εικόνα 11 Το σχήμα MSN: το μήκος κειμένου είναι σταθερό Για παράδειγμα, η χρήση ενός σταθερού μήκους συμβολοσειράς στο σχήμα MSN έχει αρνητικό αντίκτυπο στην ασφάλεια του. Βέβαια το σταθερό μήκος

33 ενδεχομένως να αποτελεί κρίσιμο βήμα σε μια επιτυχή επίθεση τμηματοποίησης. Σε μια τέτοια επίθεση που πραγματοποίησε η συγκεκριμένη συγγραφική ομάδα, το ποσοστό επιτυχίας τμηματοποίησης ήταν υψηλότερο από το 92%, γεγονός το οποίο θα μπορούσε να οδηγήσει σε ένα συνολικό (τόσο τμηματοποίηση όσο και αναγνώριση) ποσοστό επιτυχίας άνω του 60%. Αυτό έρχεται σε αντιπαραβολή με το γεγονός ότι το σταθερό μήκος συμβάλλει στη βελτίωση της ευχρηστίας του σχήματος. Για παράδειγμα, η γνώση του μήκους συμβολοσειράς μπορεί να εξασφαλίσει ότι οι χρήστες γνωρίζουν το πρώτο αντικείμενο σε κάθε πρόκληση στο Εικόνα 10 (a) - (c) που είναι ένα τυχαία τόξο, αντί για χαρακτήρας «J», «7» ή «L». Ως εκ τούτου, η χρήση ενός προβλέψιμου μήκους συμβολοσειράς, καθώς και μια ένδειξη για το πόσοι χαρακτήρες αναμένεται ένας χρήστης να εισάγει (όπως φαίνεται στην Εικόνα 11), είναι καλό για την ευχρηστία. Τα τόξα, που πιθανώς εμπεριέχονται στην πρόκληση, αν το μήκος είναι ποικίλο, θα ήταν πολύ πιο δύσκολο ή ακόμη και αδύνατο για τους χρήστες να τα αναγνωρίσουν. Με αυτό το μειονέκτημα στην ευχρηστία, ωστόσο, η επιλογή αυτή του σχεδιασμού, το κάνει πολύ πιο δύσκολο ή και αδύνατο να υποστεί μια αυτόματη επίθεση τμηματοποίησης παρόμοια με τη δική μας. Η ασφάλεια του CAPTCHA της Google δεν έχει ακόμα δοκιμαστεί αυστηρά. Αλλά εικάζεται ότι η επιλογή του σχεδιασμού της χρήσης απρόβλεπτου μήκους συμβολοσειράς καθιστά πιο δύσκολο να σπάσει αυτό ή να επιτύχει ένα υψηλό ποσοστό επιτυχίας, δεδομένου ότι η πληροφορία του μήκους μπορεί να διαδραματίσει σημαντικό ρόλο στην τμηματοποίηση μιας εικόνας πρόκληση Τυχαία συμβολοσειρά vs λέξεων από το λεξικό

34 Τυπικά, τα σχήματα που χρησιμοποιούν λέξεις από το λεξικό είναι πιο εύχρηστα από εκείνα που χρησιμοποιούν τυχαίες συμβολοσειρές. Για παράδειγμα, οι άνθρωποι πληκτρολογούν συνήθως λέξεις γρηγορότερα από ότι τυχαίες συμβολοσειρές. Επιπλέον, μπορεί να είναι δύσκολο για τους ανθρώπους να αναγνωρίσουν συγκεκριμένους χαρακτήρες που παραμορφώθηκαν πάρα πολύ. Αλλά όταν εμφανίστηκαν αυτοί οι χαρακτήρες ως μέρος μιας λέξης σε μια πρόκληση, οι άνθρωποι που καταλαβαίνουν τη γλώσσα που χρησιμοποιείται θα μπορούσαν εύκολα να αντιμετωπίσουν την πρόκληση χρησιμοποιώντας το λεξιλογικό πλαίσιο. Μια ιδέα που προτείνεται στο συγκεκριμένο σημείο για τους ανθρώπους που θα ήθελαν να είναι προσεκτικοί, μια εναλλακτική λύση είναι να χρησιμοποιηθεί μια φωνητική γεννήτρια για τη δημιουργία μη-αγγλικών, αλλά προφερόμενων συμβολοσειρών χαρακτήρων. Αυτό μπορεί να κάνει τις επιθέσεις λεξικού πιο δύσκολες, και παρέχει καλύτερη ευχρηστία από καθαρά τυχαίες συμβολοσειρές. Αλλά μια ενδεχόμενη αδυναμία της μεθόδου αυτής είναι ότι οι άνθρωποι μπορεί να έχουν την τάση να προσδιορίσουν εκείνες τις συμβολοσειρές ως πραγματικές αγγλικές λέξεις Προσβλητικές λέξεις Αν το περιεχόμενο της συμβολοσειράς που χρησιμοποιείται σε κάθε πρόκληση είναι σκόπιμο μπορεί να επηρεάσει την ικανοποίηση των χρηστών, και ως εκ τούτου αυτό είναι ένα άλλο θέμα ευχρηστίας. Για παράδειγμα, θα ήταν προσβλητικό να παρουσιάζεται μια πρόκληση που περιέχει λέξεις όπως "νέγρος". Προσβλητικό περιεχόμενο μπορεί να συμβεί είτε σε τυχαίες συμβολοσειρές ή σε λέξεις από το λεξικό με βάση τα σχήματα. Για παράδειγμα, προσβλητικές λέξεων παρουσιάστηκαν τόσο στο Google

35 CAPTCHA όσο και στο re-captcha. Μια τυπική λύση είναι να διατηρηθεί μια μαύρη λίστα των ταμπού λέξεων για να φιλτράρονται ακατάλληλες συμβολοσειρές που παράγονται από ένα CAPTCHA. Ωστόσο, αυτό δεν είναι μια ιδανική λύση για σχήματα όπως το re-captcha, δεδομένου ότι ορισμένες λέξεις που χρησιμοποιούνται από τα προγράμματα αυτά είναι κομμάτια εγγράφων που δεν μπορούν να αναγνωριστούν από το λογισμικό του OCR (Optical Character Recognition). 2.5 Παρουσίαση σχετικών θεμάτων Ο τρόπος που ένα CAPTCHA παρουσιάζει τις προκλήσεις του έχει θέματα ευχρηστίας Η χρήση των χρωμάτων Το χρώμα χρησιμοποιείται εκτενώς στις διεπαφές με το χρήστη. Όταν χρησιμοποιείται σωστά, το χρώμα μπορεί πολύ να ενισχύσει το σχεδιασμό διεπαφής χρήστη. Η χρήση χρωμάτων είναι επίσης συχνή σε CAPTCHAs που βασίζονται σε κείμενο, κυρίως για τους ακόλουθους λόγους: Το χρώμα, είναι μηχανισμός που χρήζει προσοχής. μπορεί να παρέχει ποικιλία για να ταιριάζει σε διαφορετικές προτιμήσεις του χρήστη. είναι ελκυστικό και μπορεί να κάνει τις προκλήσεις CAPTCHA να προκαλούν ενδιαφέρον. μπορεί να διευκολύνει την αναγνώριση, την κατανόηση και να έχει θετική επίδραση μπορεί να κάνει τις εικόνες CAPTCHAs συμβατές με το χρώμα των ιστοσελίδων και να τα κάνει να φαίνονται λιγότερο παρεμβατικές

36 Επιπλέον, τα σχήματα που εμπεριέχουν χρώματα μπορεί επίσης να αναμένεται να λειτουργήσουν ως μια επιπλέον άμυνα ενάντια στις επιθέσεις λογισμικού OCR σε ορισμένα σχήματα, δεδομένου ότι τα λογισμικά OCR έχουν χαμηλή επίδοση στην αναγνώριση κειμένων σε έγχρωμες εικόνες - συγκεκριμένα, δεν επιτυγχάνουν καλά την τμηματοποίηση σε έγχρωμες εικόνες. Ωστόσο, έχουμε δει πολλά CAPTCHAs, στα οποία η χρήση του χρώματος είναι άχρηστη για την ευχρηστία, έχει προκαλέσει αρνητικές επιπτώσεις στην ασφάλεια, ή είναι προβληματική όσον αφορά τόσο την ευχρηστία όσο και την ασφάλεια. Εικόνα 12 Gimpy-r. (a) original challenges (b) text extracted by our automatic program (Note: images in (a) and (b) provide just the same level of security) Για παράδειγμα, το Gimpy-R, ένα πολύ γνωστό και παλιό σχήμα και σχεδιάστηκε στο Πανεπιστήμιο Carnegie Mellon, και χρησιμοποιεί πολύχρωμες εικόνες (βλέπε Εικόνα 12 (a) παράδειγμα πρόκλησης). Ωστόσο,

37 το κυρίαρχο χρώμα των παραμορφωμένων κειμένων σε κάθε πρόκληση είχε πάντα χαμηλή ένταση μεταξύ όλων των χρωμάτων που χρησιμοποιούνται για την πρόκληση, και αυτό το χρώμα (συχνά μαύρο) δεν εμφανίστηκε ποτέ στο φόντο. Αυτό κατέστησε εύκολο να εξαχθεί το κείμενο πρόκληση από ένα πρόγραμμα υπολογιστή η Εικόνα 12 (b) δείχνει τα κείμενα που εξάγονται από το αυτόματο πρόγραμμα για την απαλοιφή του χρώματος Το πολύχρωμο φόντο είναι άχρηστο από την άποψη της ασφάλειας και η αρνητική παρενέργεια είναι προφανής: να μπερδεύει τους ανθρώπους και να μειώνει την ευχρηστία του σχήματος. Το ίδιο πρόβλημα παρουσιάστηκε και στο EZ-gimpy, ένα άλλο πολύ γνωστό και παλιό CAPTCHA που είχε σχεδιαστεί στο CMU (βλέπε Εικόνα 13). Εικόνα 13 EZ-gimpy. (a) original challenges (b) text extracted by our automatic program (Note: images in (a) and (b) provide just the same level of security) Για να κάνουν τις εικόνες πρόκληση να φαίνονται ενδιαφέρουσες, μερικά CAPTCHAs δημιούργησαν εικόνες στις οποίες οι χαρακτήρες έχουν διαφορετικά χρώματα. Ο Cryptographp CAPTCHA, είναι ένα τέτοιο σχήμα, όπως δείχνεται στην Εικόνα 14(a). Ωστόσο, αυτό το χαρακτηριστικό του σχεδιασμού αποδεικνύεται ότι είναι μια κακή χρήση του χρώματος, η οποία οδηγεί σε ένα μοιραίο λάθος του σχεδιασμού όσον αφορά την ασφάλεια,

38 καθώς χρησιμοποιώντας τη μέθοδο ad-hoc αφαιρούνται εικονοστοιχεία του φόντου και το αποτέλεσμα φαίνεται στην Εικόνα 14(b). Εικόνα 14 Cryptographp CAPTCHA: (a) original images (b) after background noise removal (c) final segmented results Συνήθως, είναι δύσκολο να τμηματοποιήσεις χαρακτήρες, που επικαλύπτονται μεταξύ τους. Η τεχνική του σχεδιασμού του CAPTCHA υποδηλώνει ότι τα σχήματα που βασίζονται σε κείμενο θα πρέπει να στηρίζονται σε τέτοιου είδους αντίσταση τμηματοποίησης ώστε να παρέχουν ασφάλεια. Ωστόσο, δεδομένου ότι ο κάθε χαρακτήρας έχει ένα διαφορετικό (κυρίαρχο) χρώμα σε αυτό το σχήμα, μαζεύοντας όλα τα εικονοστοιχεία με το ίδιο χρώμα, είναι δυνατό να τμηματοποιηθούν αποτελεσματικά οι επικαλυπτόμενοι χαρακτήρες, όπως φαίνεται στο Εικόνα 14(c). Σε αυτό ακριβώς το σημείο δοκιμάστηκε σε 50 τυχαίες προκλήσεις που δημιουργούνται από το σχήμα Cryptograph, με ποσοστό επιτυχίας 100% για την τμηματοποίηση (η μέση ταχύτητα τμηματοποίησης ήταν περίπου 60ms ανά πρόκληση). Ως εκ τούτου, το σχήμα αυτό σπάζει αποτελεσματικά. Δηλαδή, η κακή χρήση του χρώματος αποδείχθηκε ότι ήταν μια καταστροφή ασφαλείας. Παρόμοιο λάθος παρατηρήθηκε επίσης στο FreeCap, ένα άλλο δημοφιλές CAPTCHA (το οποίο έχει «χτυπήματα» σε αναζήτηση στο Google, και έχει χρησιμοποιηθεί ευρέως σε ιστοσελίδες συμπεριλαμβανομένων δημοφιλών sites τυχερών παιχνιδιών. Σε αυτό το σχήμα Εικόνα 15, το

39 χαρακτηριστικό είναι ότι τα παρακείμενα γράμματα έχουν διαφορετικά χρώματα ενισχύοντας την τμηματοποίηση των επικαλυπτόμενων χαρακτήρων, γεγονός το οποίο διαφορετικά θα ήταν πολύ πιο δύσκολο να τμηματοποιηθεί. Εικόνα 15 FreeCap CAPTCHA samples Το σχήμα BotBlock είναι ένα καλό παράδειγμα που δείχνει ότι η κακή χρήση του χρώματος σε ένα CAPTCHA μπορεί να προκαλέσει δύο προβλήματα ευχρηστίας και ασφάλειας. Αυτό το φανταχτερό σχήμα με τα πολλά χρώματα, συχνά ήταν δύσκολο για τους ανθρώπους με φυσιολογική όραση να αναγνωρίσουν τα κείμενα των προκλήσεων. Ο συνδυασμός χρωμάτων για να προσφέρει ασφάλεια - ελέγθηκαν 100 δείγματα αυτού του σχήματος, και ήταν πράγματι όλα ανθεκτικά στο καλύτερο πρόγραμμα OCR στην αγορά. Παρά το γεγονός ότι μοιάζει ανθεκτικό, υπάρχει ένα εκμεταλλεύσιμο μοτίβο χρώματος για το κείμενο του προσκηνίου - το ίδιο χρώμα εμφανίζεται επανειλημμένα. Ψάχνοντας για το εν λόγω μοτίβο, επιτυχώς εξήχθη το κείμενο πρόκληση σε όλα τα δείγματα που εξετάστηκαν

40 Εικόνα 16 BotBlock CAPTCHA (a) sample challenges (b) challenge text extracted by our automatic program. Note images in (a) and (b) provide just the same level of security Τελικά η χρήση του χρώματος στα CAPTCHA μπορεί να είναι δύσκολη - είναι κάτι περισσότερο από ένα απλό θέμα ευχρηστίας, λόγω των πιθανών επιπτώσεών της στην ασφάλεια. Εν τω μεταξύ, παρατηρήθηκε ότι τα σχήματα που χρησιμοποιήθηκαν από μεγάλες ιστοσελίδες τώρα δεν χρησιμοποιούν φανταχτερούς συνδυασμούς χρωμάτων. Για παράδειγμα: το σύστημα MSN, Google, Yahoo και re-captcha Ενσωμάτωση σε web σελίδα / μορφή Η ενσωμάτωση των CAPTCHA προκλήσεων με τις ιστοσελίδες μπορούν επίσης να έχουν τη ανησυχίες ευχρηστίας. Για παράδειγμα, μέχρι πολύ πρόσφατα, το πλαίσιο που αναφέρει "πληκτρολογήστε τις δύο λέξεις" στο δημοφιλές σύστημα re-captcha δεν είχε ενεργοποιηθεί αυτόματα Εικόνα 17. Έτσι, οι χρήστες έπρεπε συχνά να εισάγουν τις απαντήσεις εισόδου τους στο πουθενά, εκτός εάν ενεργοποιηθεί χειροκίνητα το πλαίσιο εκ των προτέρων. Αλλά σίγουρα είναι επιβαρυντικό για τους χρήστες να ενεργοποιείται το πλαίσιο κειμένου προτού να μπορέσουν να εισάγουν μια απάντηση. Για να αποφευχθεί η ενόχληση του τελικού χρήστη, ένα CAPTCHA

41 θα πρέπει να ενσωματωθεί σε μια ιστοσελίδα με προσοχή για να ελαχιστοποιηθεί η επιβάρυνση. Εικόνα 17 re-captcha user interface 2.6 Εφαρμογή σε Audio CAPTCHAs Ελέγχεται τέλος το πλαίσιο ευχρηστίας που συζητήθηκε νωρίτερα αν είναι επίσης εφαρμόσιμο σε έναν άλλο τύπο CAPTCHAs, αυτών του ήχου, το δεύτερο πιο ευρέως χρησιμοποιούμενο CAPTCHA. Σε CAPTCHAs ήχου, τα γράμματα διαβάζονται δυνατά αντί να εμφανίζονται στην εικόνα. Συνήθως, οι θόρυβοι που προστίθενται σκόπιμα για την αποφυγή του να σπάσουν τέτοια σχήματα ήχου από τις τρέχουσες τεχνολογίες αναγνώρισης ομιλίας. Για παράδειγμα, η ηχητική έκδοση του re-captcha χρησιμοποιεί ως θόρυβο ηχητικό κλιπ στη μητρική γλώσσα των Ναβάχο, αυτή η φυσική γλώσσα χρησιμοποιείται μόνο από ένα πολύ περιορισμένο αριθμό των ανθρώπων στον κόσμο- αυτή η φυσική γλώσσα χρησιμοποιήθηκε στο Δεύτερο Παγκόσμιο Πόλεμο ως ένα άσπαστο ραδιόφωνο κρυπτογράφησης για τον ίδιο λόγο. Παραμόρφωση. Θόρυβοι του περιβάλλοντος στρεβλώνουν αποτελεσματικά τους ήχους σε CAPTCHAs ήχου. Δεν υπάρχει αυστηρή μελέτη του τι είδους θορύβοι του περιβάλλοντος θα εισαγάγουν αποδεκτή παραμόρφωση του ήχου. Ωστόσο, είναι σαφές ότι οι μέθοδοι παραμόρφωσης και τα επίπεδα, ακριβώς όπως στο πρωτότυπο CAPTCHAs με βάση το κείμενο, μπορεί να έχει σημαντικές επιπτώσεις στη λειτουργικότητα των CAPTCHAs ήχου. Για

42 παράδειγμα, ένα πρώιμο τεστ το 2003 έδειξε ότι ο παραμορφωμένος ήχος σε ηχητικό CAPTCHA που αναπτύχθηκε στην υπηρεσία της Microsoft Hotmail ήταν ακατανόητο για όλους (τέσσερις) δημοσιογράφοι, με καλή ακοή, που ελέγχθηκαν. Λόγω της παραμόρφωσης του ήχου, σύγχυση χαρακτήρων μπορεί επίσης να εμφανιστούν σε CAPTCHAs ήχου. Για παράδειγμα, έχουμε παρατηρήσει ότι είναι δύσκολο να ξεχωρίσουμε «p» και «b» «g» και «j» και «a» και «8». Όταν ένα σύστημα είναι φιλικό προς μη γηγενείς ομιλητές είναι ένα άλλο θέμα χρηστικότητας που αφορά τα CAPTCHAs ήχου. Για παράδειγμα, οι δύο συγγραφείς αυτού του εγγράφου δεν έχουν ως μητρική γλώσσα τα Αγγλικά αλλά έχουν καλή ακοή, αλλά η ηχητική έκδοση του Google CAPTCHA, του MSN της Microsoft CAPTCHA και του re-captcha είναι μη ικανοποιητική για τους ίδιους. Περιεχόμενο. Το περιεχόμενο των υλικών που χρησιμοποιούνται σε CAPTCHAs ήχου είναι συνήθως συγκεκριμένη γλώσσα. Ως εκ τούτου, σε αντίθεση με τα συστήματα που βασίζονται σε κείμενο, η εντοπιότητα είναι ένα σημαντικό θέμα που τα CAPTCHAs ήχου αντιμετωπίζουν. Παρουσίαση. Η χρήση του χρώματος δεν είναι ένα θέμα για CAPTCHAs ήχου, αλλά η ενοποίηση με ιστοσελίδες είναι ακόμα μια ανησυχία. Για παράδειγμα, δεν υπάρχει πρότυπο γραφικό σύμβολο για την αναπαράσταση ενός ήχου CAPTCHA σε μια ιστοσελίδα. Παρά το γεγονός ότι πολλά προγράμματα, όπως η Microsoft και η re-captcha χρησιμοποίησαν ένα σύμβολο του ηχείου αλλά η Google χρησιμοποιεί ένα Σύμβολο «αναπηρίας» Εικόνα 18. Φαίνεται σε μας ότι ένα σύμβολο ομιλητή είναι πιο άμεση μεταφορά

43 Εικόνα 18 Interface of Google CAPTCHA Το πιο σημαντικό, αυτό που πραγματικά έχει σημασία για τους χρήστες με προβλήματα όρασης είναι ότι η εικόνα HTML εναλλακτικό κείμενο που συνδέεται με οποιοδήποτε από τα παραπάνω σύμβολα πρέπει να αναφέρει σαφώς την ανάγκη να λύσουν ένα CAPTCHA βασισμένο στον ήχο. Όταν είναι ενσωματωμένα σε ιστοσελίδες, τα CAPTCHAs ήχου μπορεί επίσης να προκαλέσουν προβλήματα συμβατότητας. Για παράδειγμα, πολλά τέτοια συστήματα απαιτούν ενεργοποίηση της γλώσσας JavaScript. Για παράδειγμα, υπάρχουν ότι ένα σύστημα ήχου απαιτεί υποστήριξη Adobe Flash. Με αυτό το σύστημα, οι χρήστες με προβλήματα όρασης δεν θα παρατηρήσουν ακόμη και ότι μια τέτοια πρόκληση CAPTCHA υπάρχει στη σελίδα, εκτός αν το Flash είναι εγκατεστημένο ήδη στον υπολογιστή τους - προφανώς, δεν υπάρχει εναλλακτικό κείμενο επισυναπτόμενο στο ηχείο - όπως το Flash αντικείμενο. Για να συνοψίσουμε αυτό το τμήμα, έχουμε τα ακόλουθα. Το τρισδιάστατο - πλαίσιο της ευχρηστίας, μαζί με πολλά προβλήματα που διαπιστώθηκαν σε σχήματα κειμένου που ισχύουν και για CAPTCHAs ήχου. Εν τω μεταξύ, τα σχήματα ήχου αντιμετωπίζουν επίσης κάποια νέα ζητήματα ευχρηστίας που δεν υπάρχουν στα σχήματα κειμένου. 2.7 Συμπεράσματα Η συγκεκριμένη εργασία ελέγχει θέματα ευχρηστίας του CAPTCHA σχεδιασμού, και η κύρια συνεισφορά της παρούσας εργασίας εξετάζει

44 συστηματικά ζητήματα ευχρηστίας που πρέπει να αντιμετωπιστούν κατά τον σχεδιασμό του CAPTCHA με βάση το κείμενο, το πιο δημοφιλές είδος των σχημάτων αυτών. Σε γενικές γραμμές, ο σχεδιασμός του CAPTCHA εξακολουθεί να είναι μια τέχνη και όχι επιστήμη. Απαιτεί σημαντική μελέτη για να εξελιχθεί ο σχεδιασμός ασφαλούς και εύχρηστου CAPTCHA σε επιστήμη

45 ΚΕΦΑΛΑΙΟ 3 2 η Προσέγγιση: The Robustness of CAPTCHAs : A security Engineering Perspective Jeff Yan and Ahmad Salah EI Ahmad (November 2009) 3.1 Εισαγωγή Η συγκεκριμένη εργασία η οποία εστιάζει σε μια από τις όψεις της ασφάλειας του CAPTCHA όπως την ευρωστία του, η οποία είναι και η δύναμη της αντίστασής του στα προγράμματα υπολογιστών, όπου οι επιτιθέμενοι γράφουν κώδικα προκειμένου να λύνουν αυτόματα τα CAPTCHA tests. Εδώ βλέπουμε ότι ενεργοποιείται μια προσέγγιση μηχανικής ασφάλειας, ένα θέμα το οποίο έχει μελετηθεί τόσο από την υπολογιστική όραση, την ανάλυση και την αναγνώριση κειμένων από κοινότητες συνεργατικού σχεδιασμού. Η συζήτηση εδώ εστιάζει στα CAPTCHAs κειμένου αλλά και σε κάποια θέματα άλλων τύπων CAPTCHAs. Ιδιαίτερα θα ελεγχθεί ένας αριθμός από πρόσφατα, παρουσιαζόμενα CAPTCHAs κειμένου, και σχήματα που έχουν μελετηθεί από τις εταιρείες Microsoft, Yahoo και Google, καθώς και άλλα λιγότερα γνωστά. Τα σχήματα αυτά όπως μελετήθηκαν την περίοδο φαίνεται να είναι ασφαλή ωστόσο θα μπορούσαν να σπάσουν γράφοντας προγράμματα που σπάζουν και επιλύουν αυτόματα CAPTCHAs tests με υψηλό ρυθμό επιτυχίας χρησιμοποιώντας απλές αλλά καινούργιες στρατηγικές επίθεσης. Oι επιθέσεις

46 αξιοποίησαν και εκμεταλλεύθηκαν σημαντικά σχεδιαστικά λάθη που ανακαλύφθηκαν σε κάθε σχήμα. 3.2 Σχετικές Εργασίες Οι εξειδικευμένοι στην υπολογιστική όραση αλγόριθμοι είχαν επιτυχία στο σπάσιμο των πρώτων CAPTCHA κειμένου. Για παράδειγμα οι Mori και Malik σχεδίασαν εξελιγμένους αλγόριθμους αναγνώρισης αντικειμένων για να σπάσουν το EZ-Gimpy (με 92% επιτυχία) και το Gimpy (με 33% επιτυχία) δυο παλιά CAPTCHAs που σχεδιάστηκαν από τη CMU ομάδα. Οι Moy et al. ανέπτυξαν τεχνικές υπολογισμού παραμόρφωσης για να σπάζουν το EZ- Gimpy με ρυθμό επιτυχίας 99% και 4 γραμμάτων Gimpy-r με επιτυχία 78%. Οι Chellapilla and Simard επιτέθηκαν σε έναν αριθμό από CAPTCHAs λαμβανόμενα από το web χρησιμοποιώντας αλγορίθμους μηχανικής μάθησης πετυχαίνοντας ένα ποσοστό επιτυχίας από 4.89% σε 66.2%. Οι ίδιοι υποστηρίζουν ότι αν οι θέσεις των χαρακτήρων είναι γνωστές στις εικόνες των προκλήσεων που παράγονται από ένα CAPTCHA, ακολούθως το να σπάσεις αυτό το σχήμα είναι απλά ένα εύκολο πρόβλημα αναγνώρισης το οποίο είναι ένα ασήμαντο έργο με γνωστές τεχνικές μηχανικής μάθησης όπως στα νευρωνικά δίκτυα. Παρόλα αυτά όταν η θέση των χαρακτήρων σε ένα CAPTCHA δεν είναι γνωστή εκ των προτέρων (συμπεριλαμβανομένης και της μηχανικής μάθησης) οι μέθοδοι δε δουλεύουν τόσο καλά στον εντοπισμό των χαρακτήρων. Γενικά το να αναγνωρίζεις τη θέση των χαρακτήρων ή τμηματοποίηση είναι ένα ανοικτό πρόβλημα, υπολογιστικά δαπανηρό και δύσκολο συνδυαστικά

47 Ως εκ τούτου, έχει προταθεί ότι η ευρωστία των βασισμένων σε κείμενο σχημάτων θα πρέπει να στηρίζουν τη δυσκολία τους στο να βρεις που βρίσκεται κάθε χαρακτήρας (τμηματοποίηση), περισσότερο από το ποιος χαρακτήρας είναι (αναγνώριση). Πρέπει τα CAPTCHAs να έχουν αντίσταση στην τμηματοποίηση. Με λίγα λόγια αν ένα CAPTCHA είναι εύκολο στην τμηματοποίηση ακολούθως μπορεί εύκολα να σπάσει. Μια κοινή μέθοδος να υπολογίσεις τη δύναμη ενός CAPTCHA είναι η ακόλουθη. Δηλώνεται με το s ο μέσος όρος ποσοστιαία των προκλήσεων, οι οποίες μπορούν να τμηματοποιηθούν σωστά και με r το ποσοστό αναγνώρισης που μπορεί να επιτευχθεί. Ακολούθως το συνολικό (τμηματοποίηση και αναγνώριση) ποσοστό επιτυχίας για να σπάσεις ένα σχήμα μπορεί να υπολογιστεί από το s*r n, όπου n είναι το μέσο μήκος του κειμένου που χρησιμοποιήθηκε στο σχήμα. 3.3 CAPTCHAservice.org σχήματα: Η μέτρηση του αριθμού των εικονοστοιχείων σαν τρόπος επίθεσης To CAPTCHAservice.org είναι μια δημόσια διαδικτυακή υπηρεσία με αποκλειστικό σκοπό τη δημιουργία προκλήσεων CAPTCHAs. Ο σχεδιασμός αυτής της υπηρεσίας και διάφορα CAPTCHAs σχήματα που υποστηρίζονται συζητήθηκαν σε ένα πρόσφατο έγγραφο από το δημιουργό τους [19]. Ελέγχθηκαν τέσσερα από τα σχήματα CAPTCHAs που παρέχονται από αυτή την υπηρεσία. Ένα παράδειγμα πρόκλησης φαίνεται στη Εικόνα 19 (a) για καθένα από τα σχήματα

48 Εικόνα 19 Four CAPTCHAservice.org schemes. Όπως αναπτύσσεται από το , τα τέσσερα σχήματα στήριξαν την ευρωστία τους σε μια τεχνική τυχαίου κουρέματος παραμόρφωσης που εφαρμόστηκε σε μια εικόνα πρόκλησης μαζί κάθετα και οριζόντια. Ειδικότερα η παραμόρφωση δουλεύει ως ακολούθως, τα εικονοστοιχεία σε κάθε στήλη της εικόνας μεταφράζονται πάνω ή κάτω από ένα ποσό το οποίο ποικίλει από τη μια στήλη στην άλλη. Στη συνέχεια, το ίδιο είδος της μετάφρασης εφαρμόζεται σε κάθε σειρά των εικονοστοιχείων (με ένα μικρότερο ποσό από μετάφραση κατά μέσο όρο). Η κύρια διαφορά μεταξύ αυτών των συστημάτων ήταν το αλφάβητο που

49 χρησιμοποιείται, καθώς και το μήκος του κειμένου που επιτρέπεται σε κάθε πρόκληση. Για παράδειγμα, τόσο η λέξη εικόνα όσο και η τυχαία λέξη εικόνα ως σχήματα χρησιμοποίησαν κεφαλαία γράμματα και το μήκος του κειμένου ήταν 6. Το σύστημα number_puzzle_text_image χρησιμοποιεί μόνο αριθμούς, οι οποίο μπορεί να είναι μέχρι 7 ψηφία. Η εικόνα συμβολοσειρά χρήστη σχεδιάστηκε για να δεχτεί οποιουδήποτε χρήστη τροφοδοτούμενη συμβολοσειρά σε πολύ 15 χαρακτήρες που αποτελούνται από ψηφία, κεφαλαία και πεζά γράμματα. Η τυχαία παραμόρφωση παρείχε και στα τέσσερα σχήματα ένα επίπεδο αντίστασης που κυμαίνεται από λογικό σε εξαιρετικό από την άποψη του να αποκωδικοποιούνται από ένα από τα καλύτερα εμπορικά προϊόντα OCR στην αγορά.. Όλα αυτά τα σχήματα παρουσιάζουν ευπάθεια σε θέματα όπως: Ότι αν και ένας χαρακτήρας ήταν παραμορφωμένος, σε ένα διαφορετικό σχήμα κάθε φορά, αποτελούνταν σχεδόν πάντα από ένα σταθερό αριθμό από εικονοστοιχεία προσκηνίου. Επιπλέον οι περισσότεροι χαρακτήρες είχαν ένα διακριτό αριθμό εικονοστοιχείων. Για παράδειγμα στην εικόνα Εικόνα 19 (b) φαίνεται διαγραμματικά η μέτρηση των εικονοστοιχείων των γραμμάτων Α-Ζ κ.τ.λ. όπου το σύνολο του αλφαβήτου χρησιμοποιήθηκε εξίσου από τη λέξη εικόνα όσο και την τυχαία λέξη εικόνα. Χρησιμοποιήθηκε μια απλή μέθοδος για τον προσδιορισμό κάθε χαρακτήρα σε μια εικόνα πρόκληση στη σωστή σειρά, σε κατάλληλο τμήμα της εικόνας σε ξεχωριστούς χαρακτήρες. Η μέθοδος τμηματοποίησης εργάζεται ως εξής. Μόνο δυο χρώματα χρησιμοποιήθηκαν σε κάθε πρόκληση, με το κείμενο της πρόκλησης να γίνεται το χρώμα προσκηνίου. Έτσι, πρώτα ελέγχθηκε ένα εικονοστοιχείο προσκηνίου και μετά ιχνηλατήθηκαν όλα τα γειτονικά εικονοστοιχεία, μέχρις ότου όλα να διασχίζονται. Μετά ο αλγόριθμος

50 τοποθετεί ένα εικονοστοιχείο προσκηνίου έξω από την περιοχή των ελεγμένων στοιχείων και ξεκινά μια άλλη διεργασία διάσχισης για να αναγνωριστεί το επόμενο στοιχείο. Αυτή η διαδικασία συνεχίζεται μέχρι όλα τα συνδεδεμένα στοιχεία στην πρόκληση να εντοπιστούν. Αυτός ο αλγόριθμος είναι να χρησιμοποιείς ένα διακριτό χρώμα, να πλημμυρίσεις κάθε χαρακτήρα, για αυτό και καλείται (Colour Filling Segmentation) CFS. H Εικόνα 19 ( c ) δείχνει το αποτέλεσμα της εφαρμογής της CFS μεθόδου σε μια πρόκληση, όπου ο αριθμός των χρωμάτων που χρησιμοποιούνται για να γεμίσουν μια εικόνα είναι ο αριθμός των χαρακτήρων στην εικόνα. Βασιζόμενοι στις ανωτέρω δυο παρατηρήσεις, διενεργούν μια επίθεση ως ακολούθως: 1. Δημιουργία έναν μετρητή εικονοστοιχείων - χαρακτήρων σε μορφή λεξικού για το σύνολο των χαρακτήρων που χρησιμοποιήθηκαν σε ένα σχήμα. 2. Αφαίρεση των μικρών τελειών θορύβου, εάν υπάρχουν, σε μια εικόνα πρόκληση αυτές είναι εύκολα διακριτές καθώς εδώ ο μετρητής εικονοστοιχείων είναι σε μικρότερη τιμή από κάθε άλλο θεμιτό χαρακτήρα. 3. Διαίρεση της πρόκλησης σε πολλαπλά τεμάχια με τη CFS μέθοδο. 4. Μέτρηση του αριθμού των εικονοστοιχείων προσκηνίου σε κάθε τμήμα. 5. Αναζήτηση στον πίνακα μέτρησης εικονοστοιχείων για να αναγνωριστεί κάθε υποψήφιος χαρακτήρας. Εάν μια μέτρηση εικονοστοιχείων δεν μπορεί να εντοπιστεί μέσα στον πίνακα, είναι

51 πολύ πιθανό ότι το αντίστοιχο τμήμα είναι ένα στοιχείο από ένα σπασμένο χαρακτήρα. Συνδυάζοντας αυτό το τμήμα με το δεξιό και αριστερό γειτονικό τμήμα αντίστοιχα, και ο συνδυασμός που επιστρέφει ένα αποτέλεσμα με νόημα στον πίνακα λεξικό θα αντιμετωπιστεί σαν ένας μεμονωμένος χαρακτήρας. Όταν και οι δυο συνδυασμοί είναι αληθοφανείς, επιλέγεται ένας από αυτούς. 6. Για τους χαρακτήρες με πανομοιότυπα εικονοστοιχεία όπως το J και το L, το K και το O, το P και το V, μπορούν να τα ξεχωρίσουν με την ανάλυση των γεωμετρικών σχεδιαγραμμάτων με απλούς αλγορίθμους. (Χρησιμοποιήθηκε μια αγγλική λέξη σε κάθε πρόκληση. Ως εκ τούτου, ο έλεγχος της ορθογραφίας μπορεί να ξεχωρίζει τους χαρακτήρες με πανομοιότυπο αριθμό εικονοστοιχείων). Η απλή επίθεση έχει πραγματοποιηθεί με ποσοστό επιτυχίας 100% για γρήγορο σπάσιμο καθενός από τα σχήματα στόχους. Για παράδειγμα, ένα ποσοστό επιτυχίας 98% επιτεύχθηκε για το σπάσιμο του σχήματος τυχαίας λέξης εικόνας, και πήρε μόνο 16 ms για κάθε πρόκληση σε ένα Pentium με 2.8 GHz CPU και 512 MB μνήμη. 3.4 Microsoft CAPTCHA: Τόξα και χαρακτήρες ήταν διακριτά Η Microsoft πρώτη ανέπτυξε το CAPTCHA στο Hotmail στο σύστημα εγγραφής του χρήστη το Έκτοτε αυτό το σχήμα έχει υποστεί εκτεταμένη βελτίωση σε όρους ευρωστίας και ευχρηστίας. Έχει αναπτυχθεί σε πολλές online υπηρεσίες της Microsoft συμπεριλαμβανομένων των Hotmail, MSN, Windows Live για χρόνια

52 Εικόνα 20 Microsoft CAPTCHA. (a) Four example challenges. Το κύριο μέτρο αντιτμηματοποίησης που συστήθηκε ήταν η πρόσθεση τυχαίων τόξων από διαφορετικά πάχη όπως :

53 Μη τεμνόμενα παχιά τόξα: αυτά είναι το ίδιο χρώμα όπως τα κείμενα σε μια πρόκληση και το πάχος τους μπορεί να είναι το ίδιο όπως τα παχιά τμήματα των χαρακτήρων. Δεν τέμνονται ευθέως με χαρακτήρες για να αποφύγουν τη μείωση της ευχρηστίας του σχήματος. Τεμνόμενα λεπτά τόξα: αυτά είναι το ίδιο χρώμα όπως τα κείμενα σε μια πρόκληση, το πάχος είναι τυπικά όχι τόσο μεγάλο όπως ο ανωτέρω τύπος τόξων, αλλά μπορεί να είναι το ίδιο όπως τα λεπτά τμήματα των χαρακτήρων. Αυτά τέμνονται με τα παχιά τόξα, με χαρακτήρες ή και τα δυο. Το σκεπτικό πίσω από το σχεδιασμό: αυτά τα τόξα είναι από μόνα τους καλοί υποψήφιοι για λάθος χαρακτήρες και ως εκ τούτου η ανάμειξη τυχαίων τόξων και χαρακτήρων μπορούν να συγχέουν την κατάσταση των μεθόδων τμηματοποίησης, παρέχοντας ισχυρή αντίσταση τμηματοποίησης. Ένα θέμα κλειδί σε μια επίθεση τμηματοποίησης σε αυτό το CAPTCHA είναι να ξεχωρίσουν τόξα και έγκυροι χαρακτήρες. Αυτό επετεύχθη με μια απλή επίθεση που εκμεταλλεύεται κρίσιμα τρωτά σημεία όπως στο σχήμα που ακολουθεί. Αρχικά, μετά από προεπεξεργασία συμπεριλαμβανομένης και της ψηφιοποίησης, που μετατρέπουν μια έγχρωμη εικόνα της πρόκλησης σε ασπρόμαυρη, μια κάθετη μέθοδος τμηματοποίησης εφαρμόστηκε για να τμηματοποιήσει την πρόκληση κάθετα σε πολλά κομμάτια, το καθένα από τα οποία περιλαμβάνει έναν ή περισσότερους χαρακτήρες. Η διαδικασία της κάθετης τμηματοποίησης ξεκινά από τη χαρτογράφηση της εικόνας σε ένα ιστόγραμμα που αντιπροσωπεύει τον αριθμό των εικονοστοιχείων προσκηνίου ανά στήλη στην εικόνα. Στη συνέχεια, κάθετες γραμμές

54 τμηματοποίησης διαχωρίζουν την εικόνα σε κομμάτια, κοπή μέσω των στηλών που δεν έχουν εικονοστοιχεία προσκηνίου σε όλα. Στο Step1 Εικόνα 20(b) απεικονίζεται η διαδικασία αυτή, όπου μια πρόκληση χωρίζεται σε δύο κομμάτια. Στη συνέχεια, όπως παρουσιάζεται στο Step2 Εικόνα 20(b), το CFS εφαρμόστηκε για να προσδιοριστούν όλα τα συνδεδεμένα συστατικά σε κάθε κομμάτι, τα οποία ονομάζουμε αντικείμενα και μπορεί να είναι ένα τόξο, ένας χαρακτήρας, συνδεδεμένα τόξα, ή συνδεμένοι χαρακτήρες. Παρατηρήθηκε ότι οι σχετικές θέσεις των αντικειμένων σε ένα κομμάτι δηλαδή τα τόξα και οι πραγματικοί χαρακτήρες διαχωρίζονται με ένα υψηλό ποσοστό επιτυχίας. Με αυτή τη μέθοδο εξέτασης της σχετικής θέσης των αντικειμένων, όπως φαίνεται στο Step3 Εικόνα 20(b), προσδιορίστηκαν και απομακρύνθηκαν τα περισσότερα τόξα στην πρόκληση. Στην Εικόνα 20(b) δίνεται ένα παράδειγμα των τελικών αποτελεσμάτων τμηματοποίησης. Συνολικά, η επίθεση τμηματοποίησης που πραγματοποιήθηκε πέτυχε ένα ποσοστό επιτυχίας άνω του 90% για το Microsoft CAPTCHA (όπως αναπτύχθηκε το καλοκαίρι του 2007), και εκτιμήθηκε ότι αυτό το σχήμα θα μπορούσε να σπάσει με ένα συνολικό (τμηματοποίηση και στη συνέχεια αναγνώριση) ποσοστό επιτυχίας πάνω από το 60% (το ατομικό ποσοστό αναγνώρισης χαρακτήρων ήταν περίπου 95% και το μήκος του κειμένου σε αυτό το σχήμα ήταν πάντα 8). Αυτή η επίθεση θα μπορούσε να επεκταθεί κατά τρόπο αποτελεσματικό για να επιτευχθεί και να καταφέρει ένα ποσοστό επιτυχίας της τάξης του 77% για τον τεμαχισμό ενός Yahoo CAPTCHA (που είχε αναπτυχθεί μέχρι το Μάρτιο του 2008), που οδηγεί σε ένα συνολικό ποσοστό επιτυχίας περίπου 60% για το σπάσιμο αυτού του σχήματος

55 Πίνακας 3 Typical relative position patterns 3.5 Google CAPTCHA: Ευάλωτο σε χρώμα πλήρωσης κατά την τμηματοποίηση Η Google έχει επίσης αναπτύξει CAPTCHA για την προστασία των online υπηρεσιών της. Στην Εικόνα 21 (a) παρουσιάζονται μερικά παραδείγματα των προκλήσεων που προκύπτουν από αυτό το σχήμα. Ο μηχανισμός αντίστασης τμηματοποίησης που χρησιμοποιείται σε αυτό το CAPTCHA είναι η λεγόμενη μέθοδος "συνωστισμός χαρακτήρων", δηλαδή αφήνοντας τους χαρακτήρες να αγγίξουν ο ένας τον άλλον ή να επικαλύπτονται μεταξύ τους. Σε αυτό το CAPTCHA επετεύχθη η τμηματοποίηση στα 12 από τα 100 τυχαία δείγματα που συλλέχθηκαν μεταξύ Δεκεμβρίου 2007 και Φεβρουαρίου 2008, με τη χρήση της τμηματοποίησης γεμίσματος χρώματος. Στην Εικόνα 21 (b)

56 φαίνεται ένα παράδειγμα του πόσο ευάλωτα ήταν σε μια τέτοια επίθεση. Δεδομένου ότι το μέσο μήκος του κειμένου ήταν 6,25, αυτό θα μπορούσε να οδηγήσει σε συνολικό ποσοστό επιτυχίας της τάξης του 8,7% για το σπάσιμο αυτού του σχήματος. Εικόνα 21 Google CAPTCHA. (a) Example challenges. (b) A challenge that was vulnerable to the CFS attack. 3.6 Yahoo CAPTCHA: Ο αριθμός των χαρακτήρων και το μήκος του κειμένου που συσχετίστηκε Στη Yahoo άρχισαν να υιοθετούν την τεχνολογία CAPTCHA το 2000, είναι μία από τις πρώτες μεγάλες εταιρείες που το έπραξαν. Από τότε, στη Yahoo έχουν αναβαθμίσει τα CAPTCHAs τους αρκετές φορές. Το Μάρτιο του 2008, η Yahoo ξεδιπλώνει μια νέα έκδοση, στην οποία τέθηκε επιπλέον προσπάθεια στο να την καταστήσουν ανθεκτική στον κατακερματισμό. Όπως φαίνεται στην Εικόνα 22(a), τα κείμενα πρόκληση σε αυτή την έκδοση ήταν συμπιεσμένα, και οι χαρακτήρες συνδέονται συνήθως - είτε με επαφή ο ένας με τον άλλο ή ήταν συνδεδεμένοι με τεμνόμενες τυχαίες γραμμές. Ωστόσο, μερικά κρίσιμα λάθη σε αυτό το CAPTCHA, θα μπορούσαν να αξιοποιηθούν για μια επιτυχημένη επίθεση

57 Εικόνα 22 Yahoo s March 2008 scheme (a) original challenges; (b) an example of regular segmentation; (c) an example of angular segmentation Το κλειδί για την ευπάθεια είναι το ακόλουθο. Σε αυτό το Yahoo CAPTCHA, το μήκος του κειμένου δεν ήταν προβλέψιμο. Αυτό είναι ένα καλό χαρακτηριστικό γνώρισμα του σχεδιασμού. Ωστόσο, διαπιστώθηκε ότι ο αριθμός των χαρακτήρων σε μια πρόκληση μπορεί να εκτιμηθεί με ένα υψηλό ποσοστό επιτυχίας (74% για ένα σύνολο δειγμάτων και 68,5% για το σύνολο της δοκιμής που χρησιμοποιήθηκε) με μέτρηση του πλάτους του κειμένου στην πρόκληση. Η ομάδα της εργασίας που παρουσιάζεται στο συγκεκριμένο κεφάλαιο παρατήρησε ότι οι δύο κύριοι τύποι των προκλήσεων που δημιουργήθηκαν από αυτό το CAPTCHA, θα μπορούσαν να διαχωριστούν από ένα απλό πρόγραμμα. Ένας τύπος που χρησιμοποιείται για μετασχηματισμό, μετατοπίζει εικονοστοιχεία χαρακτήρων κατά μία γωνία, διατηρώντας παράλληλα τα σχήματα των χαρακτήρων. Στο πνεύμα αυτό, αυτός ο μετασχηματισμός είναι παρόμοιος με την αλλαγή χαρακτήρων από ένα κανονικό σχήμα στην πλάγια μορφή, αλλά προς την αντίθετη κατεύθυνση. Καλούμε αυτό το είδος γωνιακή πρόκληση. Ο άλλος τύπος δεν έχει υποστεί τέτοια μετατροπή, και τον καλούμε κανονική πρόκληση. Εδώ παρουσιάζονται δύο απλοί αλγόριθμοι τμηματοποίησης για κάθε είδος πρόκλησης, αντίστοιχα

58 Τμηματοποίηση των κανονικών προκλήσεων. Μετά από τα βήματα προεπεξεργασίας όπως ψηφιοποίηση, τμηματοποίηση με πλήρωση χρώματος και αφαίρεση τόξου, ο αριθμός των χαρακτήρων σε μια πρόκληση, που συμβολίζεται με n, άμεσα υπολογίζεται χρησιμοποιώντας το πλάτος του κειμένου. Εάν υπάρχει ένα αντικείμενο στην πρόκληση, το αντικείμενο θα είναι ομοιόμορφα και κάθετα κομμένο σε κομμάτια n, καθένα από τα οποία θα αποτελεί ένα τμήμα. Εάν υπάρχουν δύο ή περισσότερα αντικείμενα, το σχετικό μέγεθος αυτών των αντικειμένων που θα χρησιμοποιηθούν για να υπολογιστεί ο αριθμός των χαρακτήρων σε κάθε αντικείμενο, συμβολίζεται με ni. Για παράδειγμα, εάν μια πρόκληση εκτιμάται ότι περιέχει 5 χαρακτήρες και υπάρχουν δύο αντικείμενα στην πρόκληση, τότε αλγόριθμος μας θα καθορίσει ότι το αντικείμενο με ένα μεγαλύτερο πλάτος περιέχει 3 χαρακτήρες και το άλλο 2 χαρακτήρες. Στη συνέχεια, το αντικείμενο i είναι ομοιόμορφα και κάθετα χωρισμένο σε ni κομμάτια, καθένα από τα οποία είναι ένα τμήμα. Η Εικόνα 22 (b) δείχνει ένα παράδειγμα, όπου ορθώς εκτιμάται ότι υπήρχαν έξι χαρακτήρες στην πρόκληση, και ο αλγόριθμος απλά χωρίζει το κείμενο πρόκληση κάθετα σε έξι ακόμη τμήματα, καθένα από τα οποία περιέχει ακριβώς ένα μόνο χαρακτήρα. Τμηματοποίηση της γωνιακής πρόκλησης. Μετά από τα βήματα της προεπεξεργασίας, προβάλλεται πρώτα μια πρόκληση σε μια γωνία ως προς την κατακόρυφο σε 33,5 μοίρες παρατηρείται ότι η γωνία που χρησιμοποιείται για το γωνιακό μετασχηματισμό. Στη συνέχεια, χρησιμοποιείται η διάρκεια (π.χ. μήκος) του ιστογράμματος για την εκτίμηση n, τον αριθμό των χαρακτήρων στην πρόκληση. Διαιρείται το ιστόγραμμα σε n ακόμη κομμάτια, τα οποία μας δίνουν n + 1 σύνορα σημεία του άξονα Χ. Ξεκινώντας με καθένα

59 από τα σημεία, σχεδιάζεται μια γραμμή σε γωνία 56,5 μοιρών ως προς την οριζόντια γραμμή για να κόψει την εικόνα πρόκληση σε n τμήματα, καθένα από τα οποία έπρεπε να περιέχει ένα μόνο χαρακτήρα. Η Εικόνα 22(c) δίνει ένα παράδειγμα που δείχνει ότι η γωνιακή μέθοδος τμηματοποίησης υπολογίζει σωστά τον αριθμό των χαρακτήρων στο δείγμα και τα διαστήματα με επιτυχία. Χρησιμοποιώντας τους δύο παραπάνω αλγορίθμους τμηματοποίησης με συναφείς κανόνες για τον προσδιορισμό του αλγορίθμου που πρέπει να χρησιμοποιηθεί, επετεύχθη ένα ποσοστό επιτυχίας τμηματοποίησης περίπου 33,4% σε αυτό το Yahoo σχήμα. Ως εκ τούτου, εκτιμάται ότι το καθεστώς αυτό μπορεί να σπάσει με ένα συνολικό ποσοστό επιτυχίας 25,9% (Το μέσο μήκος του κειμένου σε αυτό το σχήμα ήταν 5). 3.7 Συμπεράσματα Σε αυτή την εργασία παρατηρούμε ότι τα CAPTCHAs που είχαν αναπτυχθεί θα μπορούσαν να σπάσουν με ένα ποσοστό επιτυχίας πολύ υψηλότερο από τον ευρέως αποδεκτό σχεδιαστικό στόχο για την αντοχή τους. Σημαντικό γεγονός αποτελεί το ότι το CAPTCHAservice.org έπαψε να προσφέρει τις υπηρεσίες του, και η Microsoft, η Yahoo και η Google άλλαξαν το σχεδιασμό των CAPTCHAs τους. Σε σύγκριση με τα πρώτα CAPTCHAs που αναπτύχθηκαν μεταξύ , τα σχήματα που εξετάζονται σε αυτό το κεφάλαιο ήταν καλύτερα σχεδιασμένα και η ευρωστία των CAPTCHAs αναπτύχθηκε στον τομέα αλλά δε φαίνεται να βελτιώθηκε ωστόσο ριζικά. Η μέθοδος CFS χρησιμοποιήθηκε για πολλαπλά σχήματα του CAPTCHAservice.org και συνέβαλε σημαντικά στην επίθεσή για CAPTCHAs

60 που έχουν σχεδιαστεί από τη Microsoft, Yahoo και την Google. Η επίθεση με μέτρηση του αριθμού των εικονοστοιχείων που ανακαλύψαν μελετώντας τα συστήματα CAPTCHAservice.org όχι μόνο πέτυχε με εκπληκτική επιτυχία την αναγνώριση μεμονωμένων γραμμάτων σε πολλά σχήματα, αλλά βοήθησε επίσης τις επιθέσεις στην Microsoft και τη Yahoo CAPTCHAs με τον καθορισμό αν ένα συγκεκριμένο συστατικό μιας εικόνας πρόκληση ήταν ένας έγκυρος χαρακτήρας ή ένα τυχαίος θόρυβος. Βάσιμοι λόγοι για αυτές τις αποτυχίες περιλαμβάνουν τα ακόλουθα. Πρώτον, η ευρωστία του CAPTCHA μελετήθηκε κυρίως ως πρόβλημα της υπολογιστικής όρασης υπολογιστών, της αλληλεπίδρασης Ανθρώπου Υπολογιστή (HCI), της αναγνώρισης κειμένου και της μηχανικής μάθησης, λόγω του φαινομενικού ενδιαφέροντος που προκαλούν. Όπως αποδεικνύεται στο παρόν κεφάλαιο, γνώσεις μηχανικής ασφάλειας και εμπειρίας, μπορούν να συμβάλλουν μοναδικά και σημαντικά στην κατανόηση και τη βελτίωση της ευρωστίας των CAPTCHA. Δυστυχώς, τέτοια επαρκής εμπειρία δεν υπήρχε, όταν η Microsoft, Yahoo, Google και άλλοι σχεδίασαν τα συστήματά τους. Δεύτερον, η ευρωστία είναι μόνο η μία όψη του νομίσματος του CAPTCHA σχεδιασμού, η ευχρηστία είναι η άλλη πλευρά - εξ ορισμού, ένα CAPTCHA μη χρηστικό για τον άνθρωπο δεν έχει κανένα λόγο ύπαρξης. Και οι δύο πλευρές έχουν συχνά επιπτώσεις η μια στην άλλη, και δεν είναι εύκολο να βρεθεί η σωστή ισορροπία. Ως εκ τούτου, ένας σχεδιασμός CAPTCHA που εμφανίζει ευρωστία και ευχρηστία είναι πολύ πιο δύσκολο από ότι φαίνεται να είναι. Ωστόσο, η τρέχουσα συλλογική κατανόηση αυτού του θέματος είναι ακόμη περιορισμένη. Βλέπουμε ότι η δημιουργία CAPTCHAs φαίνεται να είναι μια δύσκολη διαδικασία, ακριβώς σαν την ετοιμασία της κρυπτογραφίας και των

61 συστημάτων ασφαλείας. Η αποτυχία κρύβεται στις λεπτομέρειες. Απαιτείται μεγάλη εμπειρία και δεξιότητες για να αναλάβει κάποιος το σχεδιασμό ενός σωστού CAPTCHA, και ακόμη και οι έμπειροι σχεδιαστές κάνουν λάθη. Ως εκ τούτου, είναι καλύτερο να χρησιμοποιηθεί ένα CAPTCHA που σχεδιάστηκε προσεκτικά από έμπειρους ανθρώπους και αυτό που δημόσια και ανεξάρτητα ελέγχθηκε πριν από την ανάπτυξη. Τέλος ο σχεδιασμός των CAPTCHAs είναι ένα διεπιστημονικό θέμα όπου η εμπειρία από πολλούς τομείς, συμπεριλαμβανομένης της υπολογιστικής όρασης, της αναγνώρισης του κειμένου και επεξεργασίας. Η εμπειρία μας δείχνει ότι τα CAPTCHAs θα περάσουν από την ίδια διαδικασία της εξελικτικής ανάπτυξης όπως η κρυπτογραφία, η ψηφιακή υδατογραφία και τα παρόμοια, με μια επαναληπτική διαδικασία κατά την οποία επιτυχείς επιθέσεις θα οδηγήσουν στην ανάπτυξη των πιο ισχυρών συστημάτων. Σε αυτή τη διαδικασία, οι μηχανικοί ασφαλείας θα διαδραματίσουν σημαντικό ρόλο

62 ΚΕΦΑΛΑΙΟ 4 3 η Προσέγγιση: Attacks and Design of Image Recognition CAPTCHAs (2010) Bin B. Zhu, Jeff Yan, Qiujie Li, Chao Yang, Jia Liu5, Ning Xu, Meng Yi, Kaiwei Cai Περίληψη Η συγκεκριμένη μελέτη ξεκινά από τον έλεγχο όλων των σχημάτων IRCAPTCHAs (Image Recognition CAPTCHAs) και την αξιολόγηση κάθε συστήματος βάσει των πρακτικών απαιτήσεων σε εφαρμογές CAPTCHAs, ιδιαίτερα σε μεγάλης κλίμακας εφαρμογές της πραγματικής ζωής, όπως το Gmail και το Hotmail. Στη συνέχεια παρατίθεται μια ανάλυση της ασφάλειας των αντιπροσωπευτικών συστημάτων. Για τα σχήματα που παραμένουν ισχυρά στις επιθέσεις, παρουσιάζονται νέες επιθέσεις. Για τα σχήματα για τα οποία γνωστές επιθέσεις είναι διαθέσιμες, προτείνεται μια θεωρητική εξήγηση γιατί τα συστήματα αυτά έχουν αποτύχει. Στη συνέχεια, παρέχεται ένα απλό, αλλά νέα πλαίσιο για την καθοδήγηση του σχεδιασμού ισχυρών και εύρωστων IRCs. Προτείνεται ένα καινοτόμο IRC ονομαζόμενο Cortcha που είναι επεκτάσιμο και πληροί τις απαιτήσεις εφαρμογών μεγάλης κλίμακας. Το Cortcha βασίζεται στην αναγνώριση ενός αντικειμένου αξιοποιώντας το περιβάλλον πλαίσιο, ένα έργο που οι άνθρωποι μπορούν να αποδίδουν καλά, αλλά οι υπολογιστές δεν μπορούν. Ένας άπειρος αριθμός από τύπους αντικειμένων μπορούν να χρησιμοποιηθούν για να δημιουργήσουν προκλήσεις, οι οποίες μπορούν να απενεργοποιήσουν αποτελεσματικά τη διαδικασία μάθησης σε επιθέσεις μηχανικής μάθησης. Το

63 Cortcha δεν απαιτεί οι εικόνες στη βάση δεδομένων της εικόνας να έχουν επισημανθεί. Συλλογή εικόνων και παραγωγή CAPTCHA μπορούν να αυτοματοποιηθούν πλήρως. Μελέτες χρηστικότητας μας δείχνουν ότι σε σύγκριση με το κείμενο CAPTCHA της Google, το Cortcha δίνει ένα ελαφρώς υψηλότερο ποσοστό ακρίβειας στον άνθρωπο, αλλά κατά μέσο όρο διαρκεί περισσότερο χρόνο η επίλυση μια πρόκλησης. 4.1 Εισαγωγή Η συγκεκριμένη εργασία έρχεται το έτος 2009 και με τη γνώση ότι τα περισσότερα από τα προτεινόμενα ή αναπτυγμένα CAPTCHAs κειμένου έχουν σπάσει. Η εύρεση εναλλακτικών προσεγγίσεων στο σχεδιασμό CAPTCHAs με στόχο να αντικαταστήσει το CAPTCHAs κειμένου έχει γίνει όλο και πιο σημαντική. Μια σημαντική προσπάθεια έχει κατευθυνθεί στην ανάπτυξη CAPTCHAs με βάση την εικόνα ή την αναγνώριση αντικειμένων. Οι εικόνες είναι πλούσιες σε πληροφορίες, διαισθητικές για ανθρώπους και προέρχονται από μεγάλη ποικιλία. Το πιο σημαντικό είναι ότι υπάρχουν ακόμα πολλά άλυτα προβλήματα Τεχνητής Νοημοσύνης σχετικά με την αντίληψη της εικόνας και την ερμηνείας. Οι εικόνες φαίνεται να είναι καλύτερες ως μέσο από τους χαρακτήρες στο σχεδιασμό CAPTCHAs. Η έρευνα των CAPTCHAs κειμένου με λίγα λόγια προχώρησε με τον ακόλουθο τρόπο. Η αρχική έμπνευση ήταν μια έξυπνη, αλλά γενική ιδέα: αν και η αναγνώριση τυπωμένων γραμματοσειρών ήταν ένα επιλύσιμο πρόβλημα, είναι δύσκολο για ένα OCR να αναγνωρίσει μια παραμορφωμένη γραμματοσειρά. Ως εκ τούτου από νωρίς σχεδιάστηκαν σχήματα για να κάνουν δύσκολο σε OCR να τα αναγνωρίσουν. Οι επιθέσεις στα πρώτα σχέδια μελετήθηκαν, καθώς προέκυψε και η αρχή της αντίστασης στην

64 τμηματοποίηση: οι υπολογιστές έχει αποδειχθεί ότι αποδίδουν καλύτερα από τους ανθρώπους στην αναγνώριση μεμονωμένων χαρακτήρων, ακόμα και υπό ακραίες παραμορφώσεις. Εντούτοις, η τμηματοποίηση, η οποία ασχολείται με το να τοποθετήσει μεμονωμένους χαρακτήρες στη σωστή σειρά, είναι ένα υπολογιστικά ακριβό και δύσκολο πρόβλημα. Έτσι τα CAPTCHAs κειμένου θα πρέπει να σχεδιαστούν έτσι ώστε να είναι ανθεκτικά στην τμηματοποίηση. Η επίθεση από τους Yan και Εl Ahmad ενίσχυσε περαιτέρω την κατανόησή μας πάνω στους διάφορους μηχανισμούς αντίστασης τμηματοποίησης. Έτσι μια επαναληπτική διαδικασία των σχεδίων και των επιθέσεων έχει οδηγήσει σε μια καλύτερη σχεδίαση CAPTCHAs. Εν τω μεταξύ, τρόποι αστοχίας και ορισμένες αρχές σχεδιασμού για CAPTCHAs έχουν αρχίσει να αναδύονται. Θεωρούν ότι μια τέτοια εξελικτική διαδικασία για τη μελέτη του CAPTCHA κειμένου είναι εφαρμόσιμη στο χώρο αναγνώρισης εικόνας CAPTCHAs (IRC). H συγκεκριμένη εργασία μελετά συστηματικά το σχεδιασμό IRCs. Παρόμοια με το κείμενο CAPTCHAs, η πρώτη πηγή έμπνευσης για το σχεδιασμό του IRCs ήταν επίσης μια υψηλού επιπέδου ιδέα: είναι δύσκολο για τους σημερινούς υπολογιστές να αναγνωρίζουν το περιεχόμενο μιας εικόνας. Ωστόσο, σε σύγκριση με την εκτεταμένη μελέτη της ασφάλειας των CAPTCHAs κειμένου, η τρέχουσα συλλογική κατανόηση των τρόπων αστοχίας για τα IRCs είναι περιορισμένη. Υπάρχουν μερικές ιδέες ή αρχές σχετικά με το πώς να κάνεις χρήση της δυσκολίας αναγνώρισης εικόνας με έναν τρόπο για το σχεδιασμό ασφαλών IRCs. Για παράδειγμα, είναι γνωστό ότι ένα ισχυρό IRC θα πρέπει να βασίζεται στη σημασιολογία της εικόνας. Ωστόσο, δεν υπάρχει βαθιά κατανόηση του πώς να επιτευχθεί σωστή χρήση της σημασιολογίας της εικόνας. Δεν είναι σαφές ποια χρήση της εικόνας σημασιολογικά θα μπορούσε να οδηγήσει ένα CAPTCHA σε αποτυχία ή να

65 το οδηγήσει σε έναν πιο ασφαλή σχεδιασμό. Μέσα από τη συγκεκριμένη εργασία προωθείται η τρέχουσα συλλογική κατανόηση του σχεδιασμού αυτού του CAPTCHA. 4.2 Υφιστάμενα Σχήματα IRC: Πόσο καλά είναι; Επιθυμητές ιδιότητες των CAPTCHAs Πέραν των επιθυμητών ιδιοτήτων ενός CAPTCHA η συγκεκριμένη ομάδα έρχεται να προσθέσει μια επιπλέον επιθυμητή ιδιότητα που προέρχεται από τις μεγάλης κλίμακας εφαρμογές της πραγματικής ζωής, όπως το Gmail και το Hotmail: Επεκτασιμότητα. Η επεκτασιμότητα μετρά το φάσμα (τον αριθμό) των προκλήσεων που ένα σχήμα CAPTCHA μπορεί να δημιουργήσει χωρίς να θυσιάζει την ευρωστία και την ευχρηστία του. Ένα επεκτάσιμο σχήμα μπορεί να ανταποκριθεί στη ζήτηση των μεγάλης κλίμακας εφαρμογών, όπως το Gmail και το Hotmail, αλλά ένα μη-επεκτάσιμο δεν μπορεί. Ενώ είναι εύκολο για CAPTCHAs κειμένου να επιτύχουν επεκτασιμότητα, πολλά από τα υπάρχοντα IRCs δεν μπορούν να δημιουργήσουν ένα μεγάλο αριθμό προκλήσεων, χωρίς να θυσιάζουν την ευρωστία ή την ευχρηστία. Αξίζει να σημειωθεί μια θεμελιώδης απαίτηση των CAPTCHAs κάτω από το πλαίσιο του IRC: μαζί η παραγωγή προκλήσεων και η ταξινόμηση απαντήσεων πρέπει να είναι αυτοματοποιημένες, χωρίς ανθρώπινη παρέμβαση. Η απαίτηση αυτή εξασφαλίζει ότι ολόκληρο το σύστημα λειτουργεί με αυτόματο τρόπο. Αυτή η απαίτηση είναι εφικτή επειδή είναι πιθανό ότι μία εργασία και η ανάστροφή της έχουν ασύμμετρη πολυπλοκότητα. Μια τέτοια διαφορά στην πολυπλοκότητα είναι η βάση για τα

66 σύγχρονα κρυπτογραφικά συστήματα. Η απαίτηση αυτή ικανοποιείται εύκολα από CAPTCHAs κειμένου, αλλά έχει αποδειχθεί ότι είναι δύσκολο για πολλά IRCS για τον ακόλουθο απλό λόγο. Τυπικά, ένα IRC βασίζει την ασφάλειά του στη δυσκολία για τους υπολογιστές να κατανοήσουν το σημασιολογικό περιεχόμενο των εικόνων ή οπτικών αντικειμένων. Δηλαδή, οι υπολογιστές που χρησιμοποιούνται για την παραγωγή προκλήσεων δεν καταλαβαίνουν πραγματικά τις εικόνες ή τα οπτικά αντικείμενα. Έτσι, πολλά IRCs απαιτούν ανθρώπινη παρέμβαση Μετρήσεις για την αποτελεσματικότητα των επιθέσεων Η πρώτη μετρική στον υπολογισμό της αξιολόγησης της αποτελεσματικότητας της επίθεσης είναι το ποσοστό επιτυχίας της επίθεσης. Το ανεκτό ποσοστό επιτυχίας μιας επίθεσης σε ένα CAPTCHA εξαρτάται από το κόστος της επίθεσης. Ένα bot δε θα πρέπει να έχει ένα ποσοστό επιτυχίας μεγαλύτερο από 0,01%, ένας πολύ δύσκολος αριθμός. Υπό προϋποθέσεις, το ανεκτό ποσοστό επιτυχίας των επιθέσεων μπορούν να χαλαρώσουν στο 0,6% ποσοστό το οποίο υιοθετείται και στο παρόν κεφάλαιο. Ο μέσος χρόνος που απαιτείται για μια επίθεση για να παράγει μια απάντηση σε μια πρόκληση, αναφέρεται ως χρόνος απόκρισης επίθεσης στο παρόν κεφάλαιο, και είναι μια άλλη μέτρηση για την αξιολόγηση της αποτελεσματικότητας της επίθεσης. Μια επίθεση θα πρέπει να παράγει μια απάντηση εντός του χρονικού πλαισίου που οι άνθρωποι ανταποκρίνονται σε μια πρόκληση. Διαφορετικά είναι εύκολο να πούμε εάν η απάντηση προέρχεται από ένα bot ή από έναν άνθρωπο. Σύμφωνα με το [20], ένα CAPTCHA θα πρέπει να είναι σχεδιασμένο έτσι ώστε οι άνθρωποι να μπορούν να ανταποκριθούν εντός 30 δευτερολέπτων. Σαν αποτέλεσμα μια

67 αποτελεσματική επίθεση θα πρέπει επίσης να αποκρίνεται σε 30 δευτερόλεπτα Υφιστάμενα Σχήματα IRC Όλα τα υπάρχοντα IRCs βασίζονται στην υπόθεση ότι οι υπολογιστές δεν μπορούν να εκτελέσουν καλά ένα συγκεκριμένο τύπο εργασίας στις εικόνες. Όπως θα δούμε αργότερα σε αυτή την εργασία, πολλές από αυτές τις υποθέσεις ήταν πραγματικά λάθος, και έτσι στα συστήματα IRCs μπορούν να επιτίθενται με επιτυχία. Παλιότερα IRCs συμπεριλαμβανομένου του Bongo, του Pix, του Animal Pix αντιμετωπίζουν διάφορα θέματα. Οι Chew και Tygar πρότειναν τρεις αλγόριθμους CAPTCHA που βασίζονται σε μια βάση δεδομένων με επισημασμένες εικόνες που δημιουργούνται από τη συλλογή των πρώτων 20 χτυπημάτων από την αναζήτηση εικόνων της Google σχετικά με την εισαγωγή κάθε λέξης από μια λίστα εύκολα απεικονιζόμενων λέξεων. Ο πρώτος αλγόριθμος CAPTCHA (CT_L) παρουσιάζει έξι εικόνες του ιδίου θέματος, και ζητά από ένα χρήστη να περιγράψει σωστά τον κοινό όρο που συνδέει τις έξι εικόνες προκειμένου να περάσει το τεστ. Ο δεύτερος αλγόριθμος CAPTCHA (CT_S) παρουσιάζει δύο σειρές εικόνων, με κάθε σύνολο να περιέχει τρεις εικόνες του ιδίου θέματος, και ζητά από το χρήστη να καθορίσει εάν οι δύο ομάδες έχουν το ίδιο αντικείμενο ή όχι. Ο τρίτος αλγόριθμος CAPTCHA (CT_A) παρουσιάζει έξι εικόνες, πέντε από το ίδιο θέμα και μια από διαφορετικό θέμα, και ζητά από το χρήστη να προσδιορίσει την εικόνα με το διαφορετικό θέμα. Όπως το Pix έτσι και το Animal Pix, είναι δύσκολο να βαθμολογήσει απαντήσεις αυτόματα για τον πρώτο αλγόριθμο CAPTCHA, και μια τυχαία εικασία θα οδηγήσει σε επαρκώς υψηλό ποσοστό επιτυχίας, 50% και 16,67%, αντίστοιχα, για το δεύτερο και τρίτο αλγόριθμο

68 Επιπλέον, η αναζήτηση εικόνων του Google μπορεί να επιστρέψει ανακριβείς ή άσχετες εικόνες. Χειροκίνητη επιλογή μπορεί να χρειαστεί για να αναιρεθούν κακές εικόνες. Η βάση δεδομένων των εικόνων είναι πολύ μικρή για να ανταποκριθεί στην απαίτηση επεκτασιμότητας. Το Asirra βασίζεται στην ύπαρξη χάσματος μεταξύ των ανθρώπων και των bots στο να επιτυγχάνουν τη διάκριση ανάμεσα σε γάτες και σκύλους. Ζητά από το χρήστη να εντοπίσει τις γάτες από ένα σύνολο 12 φωτογραφιών που περιέχουν γάτες και σκύλους. Μια μεγάλη βάση δεδομένων με επισημασμένες εικόνες με γάτες και σκύλους είναι απαραίτητη για να δημιουργήσει η Asirra προκλήσεις από το Petfinder.com που έχει μόνο έναν περιορισμένο αριθμό από φωτογραφίες. Με έναν υψηλό όγκο εφαρμογής, όπως το Hotmail, η βάση δεδομένων είναι γρήγορα εξαντλήσιμη και οι φωτογραφίες θα πρέπει να επαναληφθούν, επιτρέποντας στους αντιπάλους να χρησιμοποιήσουν φωτογραφίες που χρησιμοποιήθηκαν προηγουμένως με γάτες και σκύλους για να λύσουν μια νέα πρόκληση. Η ιστοσελίδα HotCAPTCHA.com εφαρμόζει CAPTCHA που βασίζεται σε μια μεγάλη βάση δεδομένων με σημασμένες φωτογραφίες από το HotOrNot.com, έναν δημοφιλή δικτυακό τόπο που προσκαλεί τους χρήστες να δημοσιεύσουν τις φωτογραφίες τους και να αξιολογούν τις φωτογραφίες των άλλων ως "hot" ή "not hot". Η ΗotCAPTCHA ζητά από το χρήστη να επιλέξει τρεις "hot" ανθρώπους από εννέα φωτογραφίες των ανθρώπων που παρουσιάζονται στο χρήστη. Το κατά πόσον ένα άτομο είναι "hot" ή όχι είναι υποκειμενικό και εξαρτάται από τον πολιτισμό. Διαφορετικοί άνθρωποι μπορεί να δώσουν διαφορετικές απαντήσεις. O προσανατολισμός [21] ως πρόταση σχεδιασμού προκλήσεων, προσπάθησε να εκμεταλλευτεί το κενό ικανότητας μεταξύ bots και των ανθρώπων για να

69 προσδιορίσουν τον προσανατολισμό της εικόνας. Ένας χρήστης καλείται να ρυθμίσει μια τυχαία περιστρεφόμενη εικόνα στον κατακόρυφο προσανατολισμό της. Μια μεγάλη βάση δεδομένων των υποψηφίων εικόνων είναι απαραίτητη σε αυτό το CAPTCHA. Η ποιότητα αυτού του CAPTCHA εξαρτάται καθοριστικά από την ποιότητα του αποτελέσματος επισήμανσης της εικόνας από το μηχανισμό της κοινωνικής ανάδρασης. Δεν είναι σαφές αν υπάρχει ένα αποτελεσματικό σύστημα κοινωνικής ανατροφοδότησης που μπορεί να χαρακτηρίζει ένα μεγάλο αριθμό εικόνων για να ανταποκριθεί στη ζήτηση μιας μεγάλης κλίμακας εφαρμογής όπως το Gmail ή το Hotmail. Επιπλέον, μια τυχαία εικασία μπορεί να οδηγήσει σε ένα αρκετά υψηλό ποσοστό επιτυχίας. Σε μια πρόκληση, ο χρήστης καλείται να μετακινήσει μια γραμμή κύλισης για να ρυθμίσει τον προσανατολισμό της εικόνας, και η θέση της γραμμής κύλισης επιστρέφεται για αξιολόγηση. Το ποσοστό επιτυχίας μιας τυχαίας εικασίας εξαρτάται από την ανοχή των διακυμάνσεων κατά τον καθορισμό του κατακόρυφου προσανατολισμού με διαφορετικούς ανθρώπους. Έρευνα που έχει πραγματοποιηθεί δείχνει ότι το ποσοστό επιτυχίας μιας τυχαίας εικασίας όταν μία εικόνα χρησιμοποιείται σε πρόκληση είναι 4,48%, η οποία είναι αρκετά υψηλή για εφαρμογές που πολλές εικόνες απαιτούνται σε μια πρόκληση. Ένα νέο CAPTCHA βασίζεται σε 3D μοντέλα, που πρόσφατα εφαρμόστηκε από Yuniti.com. Αυτό το CAPTCHA παρουσιάζει σε μια πρόκληση τρία αντικείμενα που παράγονται από ένα σύνολο 3D μοντέλων, και ζητά από το χρήστη να επιλέξει το αντικείμενο που ταιριάζει από έναν κατάλογο των αντικειμένων για κάθε ένα από τα τρία εκθέματα. Ένα σημαντικό πρόβλημα για το παρών CAPTCHA είναι ότι είναι δαπανηρό για να δημιουργήσει ένα μεγάλο αριθμό αντικειμένων 3D για μια μεγάλης κλίμακας εφαρμογή. Είναι

70 επίσης δυνατό για τους αντιπάλους να οικοδομήσουν αντίστροφα τα 3D μοντέλα από τα αντικείμενα στις προκλήσεις, και στη συνέχεια να χρησιμοποιήσουν αυτά τα μοντέλα για να βρουν το ταίριασμα αντικειμένων στη λίστα για τα τρία αντικείμενα σε μια νέα πρόκληση. Επιπλέον δημιουργήθηκαν και CAPTCHAs βίντεο, χρησιμοποιώντας επισημασμένο βίντεο κλιπ από το YouTube και ο χρήστης καλείται να επισημάνει το περιεχόμενο ενός βιντεοκλίπ σε μια πρόκληση. Ωστόσο, το περιεχόμενο επισήμανσης είναι υποκειμενικό, διαφορετικοί χρήστες μπορούν να επισημαίνουν το ίδιο περιεχόμενο με διαφορετικό τρόπο. Στις παρακάτω υποενότητες, θα συζητηθούν το Asirra, το Artifacial, και το Imagination. Αυτά είναι τα IRCs που εξετάστηκαν με περισσότερες λεπτομέρειες για να μάθουμε γιατί δέχθηκαν επιθέσεις με επιτυχία. Εικόνα 23 (a) 3D wire model. (b) Cylindrical head texture. (c) Challenge image. Το ARTiFACIAL βασίζεται στο χάσμα μεταξύ των ανθρώπων και των μηχανών να αναγνωρίσουν ένα ανθρώπινο πρόσωπο. Οι άνθρωποι μπορούν εύκολα να αναγνωρίσουν ένα ανθρώπινο πρόσωπο, ακόμη και αν το πρόσωπο είναι παραμορφωμένο, ή υπό κακό φωτισμό. Ένας ανιχνευτής προσώπων, ωστόσο, εξακολουθεί να πάσχει από τον προσανατολισμό του προσώπου, την ασυμμετρία του προσώπου, το φωτισμό, τη σκίαση, και το φόντο. Στο ARTiFACIAL, ένα 3D μοντέλο κεφαλής Εικόνα 23(a) και ένας 512 χ

71 εικονοστοιχείων κυλινδρικός χάρτης υφής ενός αυθαίρετου ατόμου Εικόνα 23 (b) χρησιμοποιούνται για να δημιουργήσουν ένα μοναδικό ανθρώπινο πρόσωπο με τυχαία περιστροφή του προσώπου, κλιμάκωση, και τοπικές παραμορφώσεις χαρακτηριστικών του προσώπου για να επωφεληθούν από τον προσανατολισμό του προσώπου και να αντιμετωπίσουν περιορισμούς συμμετρίας. Η ένταση της περιοχής του προσώπου διαταράσσεται για να χαλάσει τη συμμετρία του προσώπου και για να προσομοιώσει τις διακυμάνσεις φωτισμού. Τελικά ένα φόντο σε αταξία δημιουργείται από τυχαία πρόσωπα και χαρακτηριστικά του προσώπου στην εικόνα. Μια εικόνα πρόκληση δείχνεται στο Εικόνα 23 (c). Ο χρήστης πρέπει να προσδιορίσει το ενιαίο ανθρώπινο πρόσωπο σε μια πρόκληση και κλικάρει τις έξι γωνίες του προσώπου (τέσσερις γωνίες των ματιών και δύο γωνίες του στόματος), στο πρόσωπο για να περάσει μια δοκιμή. Προβάλλεται ο ισχυρισμός ότι το ποσοστό επιτυχίας για ένα bot προκειμένου να περάσει μια ARTiFACIAL πρόκληση είναι το πολύ 0,0006%. Ένα αξιοσημείωτα της χαρακτηριστικό της ARTiFACIAL είναι ότι θεωρητικά άπειρες προκλήσεις μπορούν να δημιουργηθούν. Εικόνα 24 Challenge images in IMAGINATION: (a) click test, (b) annotate test. Το IMAGINATION αποτελείται από δύο ξεχωριστές δοκιμές: μια δοκιμή κλικ και μια δοκιμή σχολιασμού. Οι δυο δοκιμές φαίνονται στην Εικόνα 24. Στη δοκιμή κλικ, μια παραμορφωμένη σύνθετη εικόνα με 8 εικόνες

72 παρουσιάζεται. Ένας χρήστης πρέπει να κάνει κλικ σε θέση αρκετά κοντά στο γεωμετρικό κέντρο της κάθε μιας από τις 8 εικόνες για να περάσει το τεστ. Στη δοκιμή σχολιασμού, μια διαστρεβλωμένη εικόνα που περιέχει ένα ουσιαστικό αντικείμενο παρουσιάζεται. Για να περάσει τη δοκιμή, ο χρήστης πρέπει να επιλέξει τη σωστή ετικέτα για την εικόνα μέσα από μια λίστα 15 υποψήφιων λέξεων. Οι υποψήφιες ετικέτες που χρησιμοποιούνται στην πρόκληση αυτή, παράγονται από την υιοθέτηση μιας WordNet μεθόδου [2] για να αποφευχθεί η ασάφεια και να εμποδιστούν επιθέσεις όταν η σωστή επιλογή είναι σημασιολογικά διαφορετική από όλες τις άλλες. Μια τυχαία εικασία των αποτελεσμάτων των τεστ επισήμανσης έχει ποσοστό επιτυχίας του 6,67%. Κατά τη δημιουργία μιας πρόκλησης της δοκιμής κλικ, η περιοχή της εικόνας πρόκλησης είναι τυχαία χωρισμένη σε 8 μη επικαλυπτόμενα ορθογώνια. Κάθε ορθογώνιο γεμίζεται με μια εικόνα που τυχαία επιλέγεται από μια βάση δεδομένων, διαβαθμισμένη εάν είναι απαραίτητο. Το παρακάτω βήμα χρωματικής αντιπαράθεσης εφαρμόζεται στη συνέχεια δύο φορές: η σύνθετη εικόνα χωρίζεται τυχαία σε 8 ορθογώνιες περιοχές και ο αλγόριθμος διάχυσης σφάλματος Floyd- Steinberg εφαρμόζεται σε κάθε περιοχή με ανεξάρτητες παραμέτρους χρωματικής αντιπαράθεσης συμπεριλαμβανομένων των βασικών χρωμάτων (18, επιλέγονται τυχαία στο χώρο RGB). Για την περαιτέρω ενίσχυση της ασφάλειας, ένας παράγοντας α επιλέγεται τυχαία στην περιοχή [0.5, 1.5] και χρησιμοποιείται για να πολλαπλασιάσει την εξάπλωση σφάλματος κβαντισμού κατά τη διάρκεια της χρωματικής αντιπαράθεσης. Η λογική πίσω από αυτό το βήμα είναι να εισαγάγει ψευδή όρια της εικόνας στη σύνθετη εικόνα και να θολώσει τα αληθινά όρια με την ελπίδα να κάνει την ανίχνευση της περιοχής της εικόνας δυσεπίλυτη από

73 μηχανές. Η προκύπτουσα σύνθετη εικόνα χρησιμοποιείται στο τεστ κλικ. Προβάλλεται ο ισχυρισμός ότι το IMAGINATION είναι ανθεκτικό σε επιθέσεις και φιλικό για τον άνθρωπο. Το IRC που συζητήθηκε παραπάνω, μαζί με το Cortcha συγκρίνονται στον Πίνακα 4, καθώς και η επεκτασιμότητα και εάν απαιτείται χειρωνακτική εργασία για τις εικόνες που θα χρησιμοποιηθούν για να δημιουργηθούν προκλήσεις. Το ποσοστό ακρίβειας και ο χρόνος επίλυσης στη στήλη Easy to human δηλαδή "Εύκολο στον άνθρωπο» του πίνακα, αν παρουσιάζεται, είναι από την εργασία που προτείνει το CAPTCHA [22]. Με βάση τον Πίνακα 4, έχουμε καθορίσει ότι το IMAGINATΙΟΝ, το ARTiFACIAL και το Asirra είναι αντιπροσωπευτικά IRCs και αξίζουν μια προσεκτική εξέταση. Πίνακας 4 Evaluation of existing IRCs and Cortcha 4.3 Η επίθεση στο IMAGINATION

74 4.3.1 Βασικές ιδέες για την επίθεση Η διαδικασία χρωματικής αντιπαράθεσης κατά τη διάρκεια της δημιουργίας μιας πρόκλησης δοκιμής κλικ στο IMAGINATION παράγει πολλά ψευδή όρια. Για να είναι ένα CAPTCHA καλό, κάποια αληθινά όρια θα πρέπει να είναι εύκολα ορατά, έτσι ώστε οι άνθρωποι να μπορούν εύκολα να προσδιορίσουν τη θέση τουλάχιστον ενός συστατικού της εικόνας. Ας δούμε πως οι άνθρωποι θα συμπεράνουν μια τέτοια τοποθεσία. Μια υποψήφια περιοχή τοποθετείται πρώτα. Στη συνέχεια οι δύο πλευρές κατά μήκος του υποψήφιου ορίου συγκρίνονται. Αν και οι δύο πλευρές είναι παρόμοιες, το όριο είναι πιθανώς ψευδές, και μια άλλη περιοχή θα πρέπει να εξεταστεί. Η διαδικασία αυτή εφαρμόζεται επαναληπτικά μέχρι να βρεθεί μια σίγουρη θέση της εικόνας. Αυτή η θέση της εικόνας θα πρέπει να συμφωνεί με τις πιθανές θέσεις των γειτονικών εικόνων. Η διαδικασία αυτή εφαρμόζεται επίσης στη συγκεκριμένη επίθεση για τη δοκιμή κλικ IMAGINATION. Η επίθεση αποτελείται από τα εξής τρία βήματα: Εντοπισμός όλων των πιθανών ορθογώνιων περιοχών. Κάθε ορθογώνια περιοχή αντιπροσωπεύει μια θέση υποψήφιας εικόνας. Αυτές οι ορθογώνιες περιοχές μπορούν να κατατάσσονται σύμφωνα με την πιθανότητα να είναι μια ορθογώνια περιοχή. Σύγκριση στα αντικείμενα και τις υφές και στις δύο πλευρές κατά μήκος των ορίων του κάθε υποψηφίου ορθογωνίου. Ένα αντικείμενο που διασχίζει ένα όριο καλείται αντικείμενο διάσχισης του ορίου. Ένα όριο με αντικείμενα που το διασχίζουν είναι πιθανώς μια ψεύτικη εικόνα σύνορο. Ένα όριο με πολλές διαφορετικές υφές και στις δύο πλευρές είναι πιθανό να είναι ένα το πραγματικό όριο της εικόνας. Κάθε ορθογώνια περιοχή με ψευδή όριο αφαιρείται από το σύνολο των υποψηφίων. Η πιθανότητα να είναι η θέση

75 μιας πραγματικής εικόνας στη συνέχεια προσαρμόζεται για κάθε ορθογώνιο. Έλεγχος της συνοχής του κάθε υποψήφιου ορθογωνίου με τα γειτονικά του ορθογώνια. Το ορθογώνιο με την υψηλότερη πιθανότητα επιλέγεται και το γεωμετρικό κέντρο του στέλνεται πίσω ως απόκριση της δοκιμασίας Λεπτομέρειες από την επίθεση Έλεγχος των υποψήφιων ορθογωνίων Για να εντοπιστούν όλες οι πιθανές ορθογώνιες περιοχές σε μια σύνθετη εικόνα, αρχικά εφαρμόζεται ανίχνευση χρώματος στις ακμές, και τα κάθετα και τα οριζόντια τμήματα της γραμμής στη συνέχεια ανιχνεύονται. Με την απαρίθμηση των δυνατών συνδυασμών αυτών των τμημάτων της γραμμής, οι περιφέρειες των υποψήφιων ορθογωνίων δημιουργούνται. Ανίχνευση χρωματικών ακμών και ανίχνευση ευθυγράμμου τμήματος Σε μια σύνθετη εικόνα η ανίχνευση χρωματικών ακμών με βάση την περιοχή χρησιμοποιείται για να ανιχνεύσει σημαντικές κάθετες και οριζόντιες χρωματικές ακμές. Αυτό συμβαίνει επειδή η χρωματική αντιπαράθεση σε μια σύνθετη εικόνα είναι αρκετά θορυβώδης ώστε μια τοπική κλίση θα οδηγήσει σε πολλές αλλά ψευδείς αποκρίσεις ακμής. Πριν από την ανίχνευση ακμής, μια σύνθετη εικόνα εισόδου εξομαλύνεται από ένα 5 5 Gaussian φίλτρο για τη μείωση του θορύβου. Για κάθε τοποθεσία στην εικόνα, σχεδιάζουμε έναν κύκλο ακτίνας R και διαιρούμε με το μήκος της διαμέτρου σε τέσσερις διαφορετικές κατευθύνσεις: 0, 45,90, και 135. Η ακτίνα R θα πρέπει να επιλέγεται προσεκτικά. Μια τιμή που είναι πάρα πολύ μεγάλη θα οδηγήσει στον εντοπισμό ανακριβούς ακμής. Μια τιμή που είναι πάρα πολύ μικρή, θα δημιουργήσει πολλά θορυβώδη κομμάτια. Το μοντέλο χρώματος σε κάθε ημικύκλιο αναπαρίσταται ως ιστόγραμμα σε μια

76 από κοινού κατανεμημένη περιοχή από τα συστατικά του χρώματος στον χρωματικό χώρο Lab [2]. Η ένταση της χρωματικής ακμής σε κάθε διαφορετική κατεύθυνση εκτιμάται από τον υπολογισμό της απόστασης του χ 2 μεταξύ των μοντέλων των δύο μισών του δίσκου που προκύπτουν: όπου h1 και h2 είναι ιστογράμματα χρώματος των δύο μισών του δίσκου. Η κατεύθυνση με τη μέγιστη ένταση του χρώματος ακμής θεωρείται ως η ανίχνευση ακμής, και η μέγιστη τιμή ως ακμή έντασης στην τρέχουσα θέση. Ο προκύπτον υποψήφιος χάρτης ακμών Ic φαίνεται στην Εικόνα 25 (b) μαζί με την εικόνα πρόκληση που φαίνεται στην Εικόνα 25 (a). Μη μέγιστη καταστολή εφαρμόζεται στη συνέχεια στον Ic για να δημιουργήσει ένα συνολικό χάρτη ακμών Iedge που φαίνεται στην Εικόνα 25 (c). Μια δυαδική εικόνα ακμών Ibin-vh αποκτάται αφαιρώντας όλα τα μη κάθετα και οριζόντια σημεία ακμών μετά την εφαρμογή ενός κατωφλίου. Εικόνα 25 (a) Original challenge image. (b) Edge candidate map Ιc. (c) Total edge map I edge (d) Horizontal and vertical line segments after the line segment detection is applied

77 Παραγωγή υποψήφιων ορθογωνίων Τα υποψήφια ορθογώνια δημιουργούνται από αποκλειστική απαρίθμηση όλων των πιθανών ορθογωνίων από τα οριζόντια και κατακόρυφα τμήματα γραμμής που ελήφθησαν από το τελευταίο στάδιο. Μία εκ των προτέρων γνώση εφαρμόζεται στη συνέχεια για να απομακρυνθούν απίθανα ορθογώνια εικόνας: δηλαδή ένα ορθογώνιο που είναι πολύ μικρό ή πολύ μεγάλο αφαιρείται καθώς ένα πολύ μικρό ορθογώνιο είναι απίθανο να χρησιμοποιείται δεδομένου ότι είναι πάρα πολύ δύσκολο για τους ανθρώπους να το αναγνωρίσουν και ένα πολύ μεγάλο ορθογώνιο κάνει τις άλλες εικόνες να είναι πολύ μικρές. Τα ορθογώνια που είναι πολύ κοντά στο όριο της σύνθετης εικόνας επίσης απομακρύνονται για τον ίδιο λόγο. Στο επόμενο βήμα, τα υποψήφια ορθογώνια επεξεργάζονται και κατατάσσονται ανάλογα με την ένταση ακμής, τα διασχίζοντα αντικείμενα, και την ένταση της ακμής με μεταβολή στην πυκνότητα. Συμπέρασμα Πυκνότητας Η εκ των προτέρων γνώση ότι συστατικές εικόνες καλύπτουν ολόκληρη την σύνθετη εικόνα και ότι δεν υπάρχει επικάλυψη μεταξύ οποιωνδήποτε δύο συστατικών εικόνων χρησιμοποιείται για να ελεγχθεί η συνοχή των εναπομεινάντων ορθογωνίων, προκειμένου να επιλεγεί ένα από αυτά ως απάντηση της δοκιμής κλικ. Δύο ορθογώνια λέγεται ότι είναι γείτονες εάν το ένα περιέχει τουλάχιστον ένα εικονοστοιχείο στη γειτονιά κάποιων εικονοστοιχείων στο άλλο ορθογώνιο. Δύο γειτονικά ορθογώνια συμφωνούν μεταξύ τους αν μοιράζονται τουλάχιστον ένα όριο ή ένα σύνορο ενός ορθογωνίου που είναι ουσιαστικά η επέκταση του ορίου του άλλου ορθογωνίου. Δύο ξεχωριστά ορθογώνια λέγεται ότι είναι ασυμβίβαστα το ένα

78 με το άλλο αν επικαλύπτονται μεταξύ τους ή βρίσκονται αρκετά κοντά το ένα στο άλλο, έτσι ώστε το χάσμα μεταξύ τους να είναι πολύ μικρό για να κρατήσει μια εικόνα. Τα ακόλουθα βήματα εφαρμόζονται για να καθορίσουν ένα ορθογώνιο με το γεωμετρικό κέντρο του σαν απάντηση στη δοκιμή κλικ. Όλα τα τετράγωνα με τιμή εμπιστοσύνης 1 [9], επιλέγονται. Κάθε επιλεγμένο ορθογώνιο στη συνέχεια ελέγχεται έναντι όλων των άλλων ορθογωνίων στο σύνολο των υποψηφίων. Εάν οποιαδήποτε ασυνέπεια ανιχνευθεί, το ορθογώνιο αφαιρείται από τα επιλεγμένα ορθογώνια. Μετά τον έλεγχο για ασυνέπεια, το ορθογώνιο με το μεγαλύτερο αριθμό των γειτονικών ορθογωνίων βρίσκεται και το γεωμετρικό κέντρο του επιστρέφεται. Στη συνέχεια, η επίθεση τελειώνει. Κάθε ορθογώνιο στο σύνολο των υποψηφίων ελέγχεται έναντι των άλλων ορθογωνίων στο σύνολο των υποψηφίων. Εάν δεν εντοπισθεί ασυμφωνία, επιλέγεται το ορθογώνιο. Στο τέλος αυτής της διαδικασίας, αν υπάρχει κάποιο ορθογώνιο που επιλέγεται, το ένα με το μεγαλύτερο αριθμό των γειτονικών ορθογωνίων και, εάν εξακολουθούν να υπάρχουν πολλαπλές επιλογές, αυτό με την υψηλότερη τιμή εμπιστοσύνης βρίσκεται και το γεωμετρικό κέντρο του επιστρέφεται. Στη συνέχεια, η επίθεση τελειώνει. Σε περίπτωση που όλα τα υποψήφια ορθογώνια είναι ασυνεπή, το ορθογώνιο με την υψηλότερη τιμή εμπιστοσύνης βρίσκεται και το γεωμετρικό κέντρο του επιστρέφεται

79 Εικόνα 26 Δύο εικόνες πρόκλησης και οι περιοχές της εικόνας (που περικλείονται από τις κόκκινες γραμμές) ως αποτέλεσμα της επίθεσης Αποτελέσματα Επίθεσης Μετά από συλλογή 109 εικόνων από τη δοκιμή κλικ από την on-line υπηρεσία IMAGINATION, και διενέργεια της επίθεσης για να προκύψει η σύγκριση με την εν λόγω εφαρμογή, η αξιολόγηση με τη χρήση της on-line υπηρεσίας IMAGINATION δεν μπόρεσε να αυτοματοποιηθεί. Ο λόγος είναι ότι η υπηρεσία εφαρμόζει σε μια δοκιμή επισήμανσης μετά από μια δοκιμή κλικ και αρνείται την πρόσβαση εάν παραλείψεις μια δοκιμή. Για κάθε εικόνα από τη συλλογή η επισήμανση γινόταν αρχικά χειροκίνητα για να εντοπιστούν τα αντιληπτά όρια της εικόνας. Η έξοδος του αλγορίθμου της συγκεκριμένης επίθεσης συγκρίθηκε στη συνέχεια με το σημασμένο αποτέλεσμα για να καθορίσει αν η επίθεση ήταν επιτυχής ή όχι. Για τις 109 εικόνες που συλλέχθηκαν από τη δοκιμή κλικ, η επίθεση έλυσε 81 εικόνες δοκιμής σωστά, με αποτέλεσμα ένα ποσοστό επιτυχίας 74.31%. Η Εικόνα 26 δείχνει τις περιοχές της εικόνας (που περικλείονται από τις κόκκινες γραμμές) που επιστρέφονται από τον αλγόριθμο επίθεσης για δύο εικόνες πρόκληση. Αυτό το ποσοστό επιτυχίας συμφωνεί με το αποτέλεσμα και αξιολογήθηκε με τη δική τους εφαρμογή της δοκιμής κλικ IMAGINATION όπου χρησιμοποιήθηκαν 2000 εικόνες δοκιμής. Η μέση ταχύτητα της επίθεσης

80 ήταν 0.962s για κάθε εικόνα όταν τρέχει σε έναν υπολογιστή Intel P4 3.2GHz και μνήμη 2GB. 4.4 Άλλες Επιθέσεις Χαμηλού επιπέδου χαρακτηριστικά και σημασιολογία Μια τυπική εικόνα περιέχει πλούσια πληροφορία η οποία μπορεί να ταξινομηθεί χονδρικά σε δύο κατηγορίες: τα χαρακτηριστικά χαμηλού επιπέδου και τη σημασιολογία υψηλού επιπέδου. Χαμηλού επιπέδου είναι οι πληροφορίες που μπορούν να εξαχθούν από μια εικόνα με λίγα ή τίποτα να έχουν να κάνουν με την αντίληψη ή την κατανόηση της εικόνας. Συχνά χρησιμοποιούμενα χαρακτηριστικά χαμηλού επιπέδου περιλαμβάνουν το χρώμα, το σχήμα, την υφή, τη διάταξη του χρώματος, μεταξύ άλλων. Οι υπολογιστές είναι συνήθως καλοί στην εξαγωγή χαρακτηριστικών χαμηλού επιπέδου από μια εικόνα. Η σημασιολογία υψηλού επιπέδου, από την άλλη πλευρά, συνδέεται με την αντίληψη ή την ερμηνεία μιας εικόνας όπως είναι ο εντοπισμός με νόημα αντικειμένων που περιέχονται σε μια εικόνα, και τις σχέσεις αυτών των αντικειμένων. Η σημασιολογία υψηλού επιπέδου, σε αντίθεση με τα χαρακτηριστικά χαμηλού επιπέδου, μπορεί να είναι υποκειμενική και εξαρτάται από τον χρήστη, ειδικά όταν η ερμηνεία εφαρμόζεται κατά την εξαγωγή. Εξακολουθεί να υπάρχει μεγάλο χάσμα μεταξύ των χαρακτηριστικών χαμηλού επιπέδου και της σημασιολογίας υψηλού επιπέδου. Κατανόηση εικόνας ή η γενική αναγνώριση αντικειμένων στοχεύει στο να μειώσει ένα τέτοιο χάσμα, αλλά εξακολουθεί να παραμένει ένα δύσκολο πρόβλημα Τεχνητής Νοημοσύνης (Artificial Intelligence) στην υπολογιστική όραση

81 4.4.2 Επίθεση στο Asirra O Golle σχεδίασε μια συσκευή εκμάθησης επίθεσης στο Asirra. Σε αυτή την επίθεση, μια εικόνα χωρίζεται και διαιρείται σε ομοιόμορφα μπλοκ. Τα διακριτά χαρακτηριστικά που χρησιμοποιήθηκαν στην επίθεση είναι μοτίβα χρώματος του μπλοκ και πλακάκια με 5x5 υφή. Η μηχανική μάθηση σε επισημασμένα δεδομένα εκπαίδευσης παράγει ένα ταξινομητή που αγγίζει ένα ποσοστό επιτυχίας 82,7% στη διάκριση μια γάτας από ένα σκύλο που χρησιμοποιείται από το Asirra, πολύ υψηλότερο από ό, τι μια τυχαία εικασία επιτυγχάνει. Για μια 12-εικόνα Asirra, το ποσοστό επιτυχίας είναι 10,3%. Ωστόσο, καμιά εξήγηση δε δόθηκε σχετικά με το γιατί ένα φαινομενικά δύσκολο πρόβλημα αναγνώρισης μπορεί να λυθεί εύκολα με μια επίθεση μηχανικής μάθησης Επίθεση στο ARTiFACIAL Ακολούθως πραγματοποιήθηκε μια επίθεση μηχανικής μάθησης για το ARTiFACIAL [23]. Υπάρχουν δύο στάδια στην επίθεση: ανίχνευση του προσώπου σε μια πρόκληση και, στη συνέχεια, εντοπισμός των έξι σημείων γωνιών του προσώπου. Με βάση την παρατήρηση ότι η διαταραχή στην ένταση που εισήγαγε το ARTiFACIAL θα μπορούσε να αφαιρεθεί στην κλίση του τομέα που αντιπροσωπεύει τις χωρικές μεταβολές των εντάσεων της εικόνας, καθώς έχει σχεδιαστεί μια κλίση-τομέα με βάση έναν ανιχνευτή πρόσωπο που μαθαίνει τα δομικά σχήματα των συστατικών του προσώπου για να εντοπίσει το πρόσωπο σε μια εικόνα πρόκληση. Η Εικόνα 27 (a) δείχνει το πεδίο κλίσης της εικόνας πρόκλησης που φαίνεται στην Εικόνα 27 (c). Στη συνέχεια η διαταραχή της έντασης που εκδηλώνεται ως οριζόντιες και κατακόρυφες γραμμές στον τομέα κλίσης εξουδετερώνεται Εικόνα 27 (b),

82 εξαιτίας των πολύ διαφορετικών μοτίβων από την κλίση του ανθρώπινου προσώπου. Εικόνα 27 (a) Gradient image of the challenge image 1(c). (b) After line filtering. (c) Face detection result. Τα δυσδιάκριτα δομικά χαρακτηριστικά του προσώπου που αποκτήθηκαν από μια διαδικασία μηχανικής μάθησης χρησιμοποιούνται για την ανίχνευση θέσης και του προσανατολισμού του προσώπου. Η Εικόνα 28 δείχνει τα top 5 χαρακτηριστικά που παράγονται από τη διαδικασία της μηχανικής μάθησης. Αναπαριστούν τα δομικά χαρακτηριστικά για τα μάτια και τη μύτη ενός προσώπου. Όταν δοκιμάστηκε σε 800 εικόνες πρόκληση, το ποσοστό ανίχνευσης προσώπου ήταν 42,0%. Το κόκκινο κεκλιμένο ορθογώνιο στην Εικόνα 27 (c) δείχνει την ανίχνευση προσώπου για την πρόκληση που δείχνεται στην Εικόνα 23 (c). Μετά από την ανίχνευση προσώπου, ένας αλγόριθμος βασισμένος στα διακριτικά συστατικά προσώπου και ένας αλγόριθμος βελτίωσης στη συνέχεια εφαρμόζεται στο πρόσωπο που έχει ανιχνευθεί για να εντοπιστούν τα έξι σημεία γωνίας. Το ποσοστό επιτυχίας για να προσδιοριστούν σωστά τα έξι σημεία γωνίας σε ένα πρόσωπο ανιχνεύθηκε στο πρώτο στάδιο και ήταν 42,9%. Το συνολικό ποσοστό επιτυχίας για να περάσει μια δοκιμή ARTiFACIAL είναι ως εκ τούτου, 42,0%x 42,9%, ή 18,0%. Ο μέσος χρόνος για να παραχθεί μια απάντηση ήταν 1.47 δευτερόλεπτα όταν

83 δοκιμάζεται με τις 800 προκλήσεις σε έναν υπολογιστή Intel P4 3.2GHz και μνήμη 2GB. 4.5 Ένα απλό πλαίσιο Εικόνα 28 First 5 features produced by the learning procedure. Στην ενότητα αυτή, προτείνεται ένα απλό πλαίσιο για την κατανόηση του σχεδιασμού ενός καλού IRC. Εξετάζονται αρχικά οι αδυναμίες του σχεδιασμού των τριών IRCs που οδήγησαν σε επιτυχείς επιθέσεις. Στη συνέχεια προτείνονται τρεις κατευθυντήριες γραμμές για τον σχεδιασμό εύρωστων IRCs Μαθήματα από επιτυχείς επιθέσεις Το έργο στη δοκιμή κλικ IMAGINATION είναι να διακρίνει τα αυθεντικά όρια της εικόνας από τα ψευδή όρια της εικόνας, έτσι ώστε τουλάχιστον να προσδιορίζονται τα όρια του ενός συστατικού τμήματος της εικόνας. Οι άνθρωποι αποφασίζουν ότι ένα όριο είναι πιθανώς ψευδές αν οι δύο πλευρές των συνόρων της σχετίζονται από δύο τυχαία επιλεγμένες εικόνες πράγμα που αποδεικνύει ότι είναι απίθανο να συσχετίζονται. Αυτή η διαδικασία εξάλειψης εφαρμόζεται επαναληπτικά έως ότου το όριο μιας εικόνας εντοπιστεί με βεβαιότητα. Αυτή η επαναληπτική διαδικασία μπορεί να πραγματοποιηθεί εύκολα από μηχανές μέσω χαρακτηριστικών χαμηλού επιπέδου της εικόνας. Δηλαδή, μια απόφαση για το αν οι δύο πλευρές ενός ορίου συσχετίζονται ή όχι μπορεί να προσεγγιστεί από τον εντοπισμό της ομοιότητας των υφών και τη

84 συνέχεια της διάσχισης των αντικειμένων. Καμία αναγνώριση εικόνας ή σημασιολογία είναι απαραίτητο να χρησιμοποιηθεί. Αυτό εξηγεί γιατί το τεστ κλικαρίσματος IMAGINATION έχει αποτύχει. Έτσι μαθαίνουμε ότι: Μάθημα 1: Ένα IRC που δε βασίζεται στη σημασιολογία της εικόνας είναι καταδικασμένο να είναι ευάλωτο σε επιθέσεις από αυτόματο μηχάνημα. Για ένα τέτοιο IRC, ο φυσικός γνωστικός «αλγόριθμος» του ανθρώπου για το πέρασμα του τεστ CAPTCHA μπορεί να μιμηθεί ή να προσεγγιστεί από μηχανήματα αυτόματου υπολογισμού με ορισμένα χαμηλού επιπέδου διακριτικά χαρακτηριστικά καθώς μια τέτοια εργασία μπορεί να γίνει εύκολα από έναν υπολογιστή και μερικές φορές γίνεται ακόμα με μεγαλύτερη ακρίβεια από έναν υπολογιστή παρά από τον άνθρωπο. Αντί αυτού, το έργο αναγνώρισης μιας εικόνας πρέπει να εισαχθεί σε ένα IRC. Το έργο για την επίλυση μιας πρόκλησης Asirra είναι ένα πρόβλημα δυαδικής ταξινόμησης, καθώς η εικόνα είναι είτε ενός σκύλου ή μιας γάτας. Είναι ακόμα ένα ανοικτό πρόβλημα πώς ακριβώς οι άνθρωποι φέρουν σε πέρας αυτά τα έργα ταξινόμησης, αλλά πιστεύεται ότι η γνωστική ικανότητα της αναγνώρισης εικόνας είναι αναγκαία για την εκτέλεση των έργων. Παρά το γεγονός ότι οι υπολογιστές δεν έχουν μια τέτοια ικανότητα, ο Asirra έσπασε από τους υπολογιστές για έναν απλό λόγο: συχνά είναι αρκετό να υπολογίσουμε τα χαρακτηριστικά χαμηλού επιπέδου για να επιτευχθεί η δυαδική ταξινόμηση. Αν και είναι ασαφές σε ποιο βαθμό οι άνθρωποι χρησιμοποιούν τη σημασιολογική διάκριση στην επίλυση προβλήματος δυαδικής ταξινόμησης Asirra, σε πολλές περιπτώσεις, σημαντικά χαρακτηριστικά χαμηλού επιπέδου

85 των εικόνων βοηθούν τους ανθρώπους να διακρίνουν τις εικόνες της γάτας από τις εικόνες σκύλων. Από την άλλη πλευρά, παρά ένα τεστ IQ, ένα CAPTCHA τεστ έχει σχεδιαστεί ώστε να επιτρέπει οι περισσότεροι άνθρωποι εύκολα να το περάσουν σε σύντομο χρονικό διάστημα. Για να είναι φιλικό προς το χρήστη, ένα IRC που βασίζεται σε ένα πρόβλημα δυαδικής ταξινόμησης πρέπει να χρησιμοποιεί εικόνες των αντικειμένων που μπορεί να είναι εύκολα και ξεκάθαρα αναγνωρίσιμες από τους περισσότερους ανθρώπους. Αυτό σημαίνει ότι μοιράζονται αντικείμενα κάθε τύπου εύκολα αντιληπτά κοινά χαρακτηριστικά, όπου μερικά από τα οποία είναι υψηλής διακριτότητας ώστε οι άνθρωποι να μπορούν εύκολα να διακρίνουν μεταξύ τους δύο τύπους. Μερικά από αυτά τα αντιληπτά διακριτικά χαρακτηριστικά θα πρέπει να συνδέονται με ή να αντικατοπτρίζουν χαρακτηριστικά χαμηλού επιπέδου ειδάλλως είναι απίθανο για τους περισσότερους ανθρώπους να παράγουν το ίδιο αποτέλεσμα για μια πρόκληση, όπως απαιτείται από τη δυνατότητα χρήσης ενός IRC, αφού η σημασιολογία υψηλού επιπέδου τείνει να είναι υποκειμενική και εξαρτώμενη από τη χρήση. Χαρακτηριστικά χαμηλού επιπέδου, από την άλλη πλευρά, είναι τυπικά ντετερμινιστικά, και μπορεί να οδηγήσουν σε συνεπή και σαφή αποτελέσματα από τους περισσότερους ανθρώπους. Με τον προσδιορισμό και την επιλογή ενός συνόλου υψηλής διακριτότητας χαρακτηριστικών χαμηλού επιπέδου, οι αντίπαλοι μπορούν να εφαρμόσουν μηχανική μάθηση σε εμπειρικά δεδομένα για την εξεύρεση αποτελεσματικών κριτηρίων λήψης αποφάσεων για τη διάκριση μεταξύ των δύο τύπων, με αποτέλεσμα μια αυτοματοποιημένη αποτελεσματική επίθεση

86 Μάθημα 2: Ένα φιλικό προς το χρήστη IRC βασίζεται σε ένα πρόβλημα δυαδικής ταξινόμησης για την ταξινόμηση ενός αντικειμένου σε έναν από τους δύο τύπους σταθερών και εκ των προτέρων συγκεκριμένων αντικειμένων και είναι πολύ πιθανώς ευάλωτο σε επιθέσεις μηχανικής μάθησης. Το ARTiFACIAL βασίζεται στην ανίχνευση προσώπου. Σε γενικές γραμμές, ένα πρόβλημα ανίχνευσης αντικειμένου είναι πιο δύσκολο από ό, τι ένα πρόβλημα δυαδικής ταξινόμησης καθώς από τα αρνητικά δείγματα για την τελευταία περίπτωση, διαπιστώνουμε πολύ λιγότερες διακυμάνσεις, κάνοντας το πρόβλημα ταξινόμησης ευκολότερο. Στην επίθεση στο ARTiFACIAL, τα χωρικά πρότυπα των χαρακτηριστικών του προσώπου έχουν γίνει γνωστά στα μηχανήματα όπως και τα χαρακτηριστικά διακριτότητας για να προσδιορίσουν το πρόσωπο σε μια εικόνα πρόκληση με ακαταστασία στο φόντο. Η εκ των προτέρων πληροφορία ότι υπάρχει ένα και μόνο ένα πρόσωπο σε μια εικόνα πρόκληση επίσης έχει αξιοποιηθεί για τη βελτίωση του ρυθμού ανίχνευσης. Ως εκ τούτου, ένα IRC που βασίζεται στην ανίχνευση αντικειμένου δεν φαίνεται να είναι σε θέση να παρέχει έναν πολύ πιο ασφαλή σχεδιασμό από ότι μια δυαδική ταξινόμηση που βασίζεται σε IRC. Μάθημα 3: Ένα φιλικό προς το χρήστη IRC που βασίζεται στην ανίχνευση ενός σαφούς αντικειμένου ενός εκ των προτέρων σταθερού τύπου είναι πολύ πιθανό να είναι ευάλωτο σε επιθέσεις μηχανικής μάθησης Κατευθυντήριες γραμμές για τον σχεδιασμό εύρωστων IRC Από τα μαθήματα στα οποία αναπτύχθηκαν προηγουμένως προκύπτουν τρεις κατευθυντήριες γραμμές για να πέσει φως σχετικά με το σχεδιασμό ενός ισχυρού IRC. Κατευθυντήρια γραμμή 1:

87 Στηριχθείτε στη σαφή σημασιολογία υψηλού επιπέδου. Ένα καλό παράδειγμα είναι η επισήμανση της εικόνας, όπου διαφορετικοί άνθρωποι μπορεί να δώσουν στην ίδια εικόνα διαφορετικές ετικέτες. Αυτή η εγγενής ασάφεια ως προς τη σημασιολογία καθιστά δύσκολο να παραχθούν CAPTCHA προκλήσεις χρησιμοποιώντας τη σημασιολογία της εικόνας. Ωστόσο, εξακολουθούν να υπάρχουν μερικοί τρόποι για να χρησιμοποιηθεί η σημασιολογία χωρίς ασάφεια ως προς την απάντηση και έτσι μπορούν πιθανόν να χρησιμοποιηθούν στο σχεδιασμό του IRC. Ένα παράδειγμα είναι οι χωρικές και οι λογικές σχέσεις των αντικειμένων, αποτελώντας ένα δύσκολο AI πρόβλημα. Κατευθυντήρια γραμμή 2: Ώθηση στην ευρωστία με περισσότερες παραλλαγές όπως στήριξη στην αναγνώριση του πολλαπλού τύπου αντικειμένων είτε για ανίχνευση είτε για ταξινόμηση. Αυτό μπορεί να επιτευχθεί, για παράδειγμα, με την αύξηση του αριθμού των συγκεκριμένων τύπων αντικειμένων που χρησιμοποιούνται σε ένα IRC. Η ταξινόμηση πολλαπλών ετικετών είναι πολύ πιο δύσκολη για τους υπολογιστές από τη δυαδική ταξινόμηση. Φαίνεται ότι η κατευθυντήρια γραμμή 2 είναι μια γενική αρχή που ισχύει για όλα τα CAPTCHAs συμπεριλαμβανομένων και των σχημάτων κειμένου. Για παράδειγμα, με την αύξηση των διακυμάνσεων των μηχανισμών αντίστασης τμηματοποίησης, των μεθόδων παραμόρφωσης κειμένου και γραμματοσειρών, και στη συνέχεια η τυχαία επιλογή μιας ή περισσοτέρων γραμματοσειρών, ένας μηχανισμός αντίστασης τμηματοποίησης και μια μέθοδος παραμόρφωσης κειμένου παράγουν την τρέχουσα πρόκληση, και μπορούμε να έχουμε ένα CAPTCHA κείμενο που να είναι πιο ισχυρό από ό, τι

88 επιβάλει η τελευταία λέξη της τεχνολογίας, κάνοντας τη ζωή ενός εισβολέα πολύ πιο δύσκολη. Κατευθυντήρια γραμμή 3: Απενεργοποίηση της μηχανικής μάθησης εξαλείφοντας τη δυνατότητα χρησιμοποίησης εμπειρικών δεδομένων ή εκ των προτέρων γνώση, όπως τα είδη των αντικειμένων. Αυτό σημαίνει ότι η σημερινή πρόκληση είναι ανεξάρτητη από τις προκλήσεις του παρελθόντος όσον αφορά τα υπολογίσιμα χαρακτηριστικά, όπως τα χαμηλού επιπέδου χαρακτηριστικά της εικόνας. Ένα εγγενές χαρακτηριστικό για όλες τις επιθέσεις μηχανικής μάθησης είναι ότι συνήθως βασίζονται σε εμπειρικά δεδομένα για να μαθαίνουν τα αποτελεσματικά διακριτικά χαρακτηριστικά και τα κριτήρια λήψης πριν γίνουν αποτελεσματικές. Η πιο θεμελιώδης λύση για την αντιμετώπιση αυτών των επιθέσεων είναι να απενεργοποιηθεί η μηχανική μάθηση, καθιστώντας τις προκλήσεις του παρελθόντος ασυσχέτιστες με τις τρέχουσες ή μελλοντικές προκλήσεις. Αυτό μπορεί να επιτευχθεί με τυχαία επιλογή ενός τύπου και ενός αντικειμένου του τύπου που παράγει μια πρόκληση, τόσο με τον αριθμό των ειδών και τον αριθμό των μεμονωμένων αντικειμένων του κάθε τύπου ώστε να είναι επαρκώς μεγάλο, άπειρο ιδανικά, έτσι ώστε να είναι δυσεπίλυτο για την τρέχουσα υπολογιστική ικανότητα. Αυτός είναι ο απώτερος στόχος, αν και είναι δύσκολο να επιτευχθεί. Κατ 'αρχήν, η κατευθυντήρια γραμμή 3 εφαρμόζεται σε όλα τα CAPTCHAs. Για σχήματα κειμένου CAPTCHAs, ωστόσο, εξακολουθεί να είναι ένα ανοικτό πρόβλημα αν μπορούμε να δημιουργήσουμε έναν απεριόριστο αριθμό μηχανισμών αντίστασης της τμηματοποίησης ή έναν απεριόριστο αριθμό των συνδυασμών μηχανισμών αντίστασης της τμηματοποίησης και μεθόδων παραμόρφωσης κειμένου

89 4.6 Ένα νέο CAPTCHA βασισμένο στην εικόνα Ένα νέο IRC, το Cortcha αναλύεται σε αυτή την ενότητα. Διαισθητικές ιδέες. Με βάση την τρίτη κατευθυντήρια γραμμή, ένα IRC θα πρέπει να χρησιμοποιήσει έναν απεριόριστο αριθμό διαφορετικών τύπων αντικειμένων. Οι υπολογιστές κάνουν μια κακή δουλειά στην τμηματοποίηση μιας εικόνας σε αντικείμενα με σημασία. Αντικείμενα που έχουν κατά διαστήματα αυτόματα τμηματοποιηθεί από υπολογιστές δεν κρίθηκαν κατάλληλα για ένα IRC. Αντί αυτού, αντικείμενα με σημασία θεωρούνται απαραίτητα για τη δημιουργία προκλήσεων IRC, προκειμένου για τους ανθρώπους χρήστες να παράγουν συνεπείς απαντήσεις. Η διαίσθησή μας είναι ότι αν ένα αντικείμενο είναι κατακερματισμένο από έναν υπολογιστή αλλά αν το αντικείμενο είναι περιτριγυρισμένο από το αρχικό του πλαίσιο στην εικόνα, τότε το αντικείμενο είναι εύκολα αναγνωρίσιμο από τον άνθρωπο. Εκμεταλλευόμενοι το πλαίσιο, αντικείμενα κατακερματισμένα από τον υπολογιστή μπορεί να χρησιμοποιηθούν σε ένα IRC. Η χρήση του πλαισίου λύνει το δίλημμα και ένα IRC μπορεί να σχεδιαστεί χωρίς σήμανση σε οποιαδήποτε εικόνα. Για να χρησιμοποιηθεί το πλαίσιο για τον άνθρωπο ως μέσο για να αναγνωρίσει ένα αντικείμενο τμηματοποιημένο από υπολογιστή, μπορούμε να περικόψουμε το αντικείμενο και να το αφαιρέσουμε από την αρχική εικόνα του, και στη συνέχεια να ζητήσουμε από το χρήστη να χρησιμοποιήσει την εικόνα ως ένα πλαίσιο σύνθημα για την αναγνώριση του αποσπασμένου αντικειμένου από ένα σύνολο αντικειμένων που τίθενται ως δέλεαρ. Η τρύπα που άφησε η περικοπή στην αρχική εικόνα πρέπει να συμπληρωθεί. Διαφορετικά, το αποσπασμένο αντικείμενο μπορεί εύκολα να συναχθεί από τη σύγκριση του περιγράμματος ένας υποψήφιου αντικειμένου με το σχήμα

90 της οπής. Το γέμισμα δεν πρέπει να επιτρέψει σε bots να εντοπίσουν την περιοχή που έχει περικοπεί, αλλά πρέπει να αφήνει κάποιους σημασιολογικούς υπαινιγμούς όπως μη φυσικότητα και να επιτρέψει στους ανθρώπους να εντοπίσουν γρήγορα την περιοχή. Αυτές οι διαισθητικές ιδέες οδήγησαν στην ανάπτυξη του Cortcha. Στο Cortcha, ο χρήστης καλείται να προσδιορίσει, ανάμεσα σε μια σειρά υποψήφιων αντικειμένων, ένα αντικείμενο αποσπασμένο από μια εικόνα, και στη συνέχεια να το τοποθετήστε το πίσω στην αρχική του θέση στην εικόνα. Πλεονεκτήματα. Η μεγάλη καινοτομία στο Cortcha είναι ότι αξιοποιεί το περιβάλλοντα πλαίσιο ώστε να αναγνωρίζεται ένα ανακριβώς κατακερματισμένο και ως εκ τούτου συχνά σημασιολογικά με νόημα αντικείμενο. Σε σύγκριση με τα υπάρχοντα IRC, το Cortcha έχει τα εξής πλεονεκτήματα: Δεν χρειάζεται να επισημανθεί χειροκίνητα οποιαδήποτε εικόνα. Αναγνώριση αντικειμένου με βάση το πλαίσιο καθιστά δυνατή τη χρήση χωρίς νόημα αντικειμένων σημασιολογικά στο σχεδιασμό μας. Ως εκ τούτου, η τμηματοποίηση αντικειμένων μπορεί να γίνει από τους υπολογιστές και το σύνολο των προκλήσεων μπορεί να αυτοματοποιηθεί πλήρως. Ένας απεριόριστος αριθμός τύπων αντικειμένων μπορούν να χρησιμοποιηθούν στο Cortcha. Αυτό μπορεί να απενεργοποιήσει αποτελεσματικά τη διαδικασία μάθησης σε επιθέσεις μηχανικής μάθησης. Το Cortcha είναι επεκτάσιμο. Στο Cortcha, τα καθήκοντα της συλλογής εικόνων προέλευσης και η παραγωγή της πρόκλησης

91 μπορούν και τα δύο να είναι αυτοματοποιημένα. Με την ανίχνευση του Διαδικτύου, ένας μεγάλος αριθμός των εικόνων μπορεί να γρήγορα και συνεχώς να προστίθεται στη βάση δεδομένων των εικόνων του Cortcha. Το Cortcha μπορεί, επομένως, να ανταποκρίνεται στις υψηλές απαιτήσεις μιας μεγάλης κλίμακας εφαρμογής, όπως το Hotmail Λεπτομερής περιγραφή Το Cortcha αποτελείται από τα ακόλουθα στάδια: συλλογή των εικόνων στη βάση δεδομένων, δημιουργία προκλήσεων, εμφανίζοντας προκλήσεις και απαντήσεις ταξινόμησης. Βάση δεδομένων Εικόνας Το Cortcha στηρίζεται σε μια μυστική βάση δεδομένων των εικόνων. Είναι εξαιρετικά απίθανο για τους αντιπάλους να ανακαλύψουν την αρχική εικόνα του Διαδικτύου που χρησιμοποιείται σε μια πρόκληση Cortcha πριν από τη λήξη της συνεδρίας CAPTCHA. Δεν είναι όλες οι εικόνες κατάλληλες για το Cortcha. Έχουν απορριφθεί οι μικρού μεγέθους εικόνες καθώς και οι θορυβώδεις επίσης οι μονότονες εικόνες, των οποίων οι τιμές της απόλυτης κλίσης είναι κατά μέσο όρο μικρές ή το ιστόγραμμα εντροπίας των οποίων είναι μικρό. Ωστόσο, αντί της απόρριψης μεγάλων εικόνων, γίνεται περικοπή αυτών σε κατάλληλα μεγέθη. Τμηματοποίηση Εικόνας και επιλογή αντικειμένων Μια εικόνα έχει ως πρώτη επεξεργασία την αναγνώριση των κυριότερων αντικειμένων της. Εφαρμόζεται η JSEG [24] η οποία είναι μια μέθοδος για τμηματοποίηση της εικόνας σε αντικείμενα. Το όριο του κάθε αντικειμένου καθορίζεται ώστε να ευθυγραμμιστεί με τις κλίσεις των ακμών. Τα μικρού

92 μεγέθους αντικείμενα συγχωνεύονται με τους καλύτερα ταιριαστούς γείτονες. Στη συνέχεια εκχωρείται σε κάθε αντικείμενο μια αξία αντιληπτικής σημασίας, η οποία υπολογίζεται με ένα συγκεκριμένο σύστημα ανίχνευσης σημαντικότητας. Δεν είναι όλα τα αντικείμενα που προκύπτουν κατάλληλα ως αντικείμενα για να περικοπούν από την εικόνα για να παράγουν μια πρόκληση παρά μόνο εκείνα που είναι με νόημα. Οι άνθρωποι μπορούν να συσχετίσουν τη σημασιολογία ενός αντικειμένου με αυτό του περιβάλλοντος πλαισίου για την επίλυση μια πρόκλησης. Τέτοια σημασιολογική συσχέτιση δεν μπορεί να αξιοποιηθεί από τους υπολογιστές. Έχουν απορριφθεί επίσης αντικείμενα που μοιράζονται την τοπική ή την καθολική ομοιότητα με την υπόλοιπη εικόνα. Μια τέτοια ομοιότητα μπορεί να αξιοποιηθεί από επιτιθέμενους και να συμπεράνουν μια σωστή απάντηση σε μια πρόκληση. Η τοπική ομοιότητα υπολογίζεται κάνοντας σύγκριση του τοπικού ιστόγράμματος χρώματος και υφής και στις δύο πλευρές του ορίου του αντικειμένου. Η καθολική ομοιότητα υπολογίζεται χρησιμοποιώντας το SIFT [25] για να εξαχθούν τα τοπικά χαρακτηριστικά αμετάβλητης κλίμακας. Τα χαρακτηριστικά από τα αντικείμενα συγκρίνονται με εκείνα από τα εναπομείναντα της εικόνας για την ανίχνευση οποιουδήποτε παρόμοιου αντικειμένου στο υπόλοιπο της εικόνας. Αν υπάρχει οποιοδήποτε αντικείμενο που παρέμεινε στο τέλος της παραπάνω διαδικασίας, η εικόνα, μαζί με τα εναπομείναντα αντικείμενα, εισάγονται στη βάση δεδομένων Cortcha για μελλοντική χρήση. Με όλα τα μέτρα που θεσπίζονται ανωτέρω, εξακολουθεί να είναι πιθανό ότι ένα τέτοιο αντικείμενο είναι κατακερματισμένο λάθος από την άποψη της γνώσης, και μεταφέρει μικρή σημασιολογική πληροφορία. Το Cortcha επιτρέπει μια τέτοια περίπτωση, εφόσον το πλαίσιο στην inpainted εικόνα μπορεί να αξιοποιηθεί

93 από τον άνθρωπο, για την αναγνώριση του αντικειμένου. Αυτό είναι ένα βασικό πλεονέκτημα σε σχέση με άλλα IRCs, όπως το Pix, το Chew και Tygar, το Asirra, και το CAPTCHA προσανατολισμού, που όλα απαιτούν αντικείμενα με νόημα, και έτσι πρέπει να συμμετέχει ο ανθρώπινος κόπος για να σημάνει ή να επιλέξει κατάλληλες εικόνες. Αντιθέτως, η διαδικασία τμηματοποίησης της εικόνας και επιλογής του αντικειμένου σε Cortcha μπορεί να αυτοματοποιηθεί πλήρως. Inpainting Εικόνας Για να δημιουργήσουν μια πρόκληση, μια εικόνα επιλέγεται τυχαία από τη βάση δεδομένων. Στη συνέχεια, ένα αντικείμενο επιλέγεται τυχαία από τα αντικείμενα που αποθηκεύονται μαζί με την εικόνα. Η εικόνα και τα αντικείμενά της τότε διαγράφονται από τη βάση δεδομένων. Μια περιοχή καταχωρητή n-εικονοστοιχείων που περιβάλλουν το αντικείμενο δημιουργείται στην εικόνα. Το αντικείμενο και ο καταχωρητής κατόπιν περικόπτονται από την εικόνα. Η περιοχή καταχωρητή χρησιμοποιείται για την αφαίρεση πιθανών ιχνών τοπικής ομοιότητας μεταξύ του αντικειμένου και του υπόλοιπου της εικόνας. Η περιοχή που έχει περικοπεί στη συνέχεια γεμίζεται με έναν αλγόριθμο Inpainting τροποποιημένο, όπως περιγράφεται στη συνέχεια. Πρέπει πρώτα να εντοπιστεί μια περιοχή γύρω από την περικομμένη περιοχή και να υπολογιστεί το ιστόγραμμα χρώματος. Η βάση δεδομένων στη συνέχεια ψάχνει να βρει μια εικόνα που ταιριάζει με το ιστόγραμμα χρώματος καλύτερα. Η εικόνα που βρέθηκε χρησιμοποιείται ως η κύρια πηγή, ενώ το υπόλοιπο της εικόνας ως δευτερεύουσα πηγή Inpainting. Η οπή για να γεμίσει διαιρείται σε μπλοκ. Αυτά τα μπλοκ γεμίζουν διαδοχικά. Κατά την πλήρωση ενός μπλοκ, ένα μπλοκ προσαρμογής από την πηγή είναι απαραίτητο. Η

94 πρωταρχική πηγή αναζητείται πρώτα για ένα μπλοκ που να ταιριάζει. Αν δεν βρεθεί ταιριαστό μπλοκ, η δευτερεύουσα πηγή ψάχνεται να βρεθεί ένα σύνολο από ταιριαστά μπλοκ. Στη συνέχεια, επιλέγεται τυχαία ένα μπλοκ από το σύνολο, όπως η πηγή των μπλοκ. Είναι δυνατή η χρήση πολλών εικόνων από τη βάση δεδομένων ως κύρια πηγή για τη διαδικασία Inpainting. Δύο συστήματα προγραμματισμού χρησιμοποιούνται για να καθορίσουν ποιο μπλοκ θα γεμίσει στη συνέχεια. Το πρώτο καθεστώς τοποθετεί ένα μπλοκ με μεγάλη καμπυλότητα και μια μικρότερη απόσταση από το περικομμένο όριο σε υψηλότερη προτεραιότητα. Το δεύτερο σύστημα αντιμετωπίζει ένα μπλοκ με δομημένα γειτονικά μπλοκ σε υψηλότερη προτεραιότητα. Το πρώτο πρόγραμμα εφαρμόζεται σε οριακά μπλοκ της περικομμένης περιοχής, ενώ το δεύτερο πρόγραμμα εφαρμόζεται σε εσωτερικά μπλοκ. Για τα μπλοκ που βρίσκονται μεταξύ των δύο τύπων των μπλοκ, είτε πρόγραμμα μπορεί να εφαρμοστεί, ανάλογα με την τυχαία διαδικασία επιλογής. Το πρώτο πρόγραμμα διασφαλίζει την ομαλή μετάβαση στο όριο, ενώ το δεύτερο πρόγραμμα διατηρεί δομημένη γέμιση. Απότομες μεταβολές στο όριο θα μπορούσαν να συσχετιστούν με το περίγραμμα του αποσπασμένου αντικειμένου. Έλλειψη δομών μπορεί να υποδεικνύουν μία γεμισμένη περιοχή. Και οι δύο μπορούν να βοηθήσουν έναν εισβολέα να λύσει μια πρόκληση. Εάν οποιοδήποτε τμήμα του ορίου του αποσπασμένου αντικειμένου έγκειται στο όριο της εικόνας, το τμήμα αυτό μπορεί να υποδεικνύει την τοποθεσία του μπλοκ στην εικόνα. Αυτή η διαρροή πληροφοριών γίνεται αντικείμενο εκμετάλλευσης από τους επιτιθέμενους και μπορεί να απομακρυνθεί αποτελεσματικά με την εφαρμογή outpainting, μια διαδικασία Inpainting για

95 την κατεύθυνση αναστροφής, για να αυξηθεί το αντικείμενο πέραν της περιμέτρου του κατά το μέρος που βρίσκεται στο όριο της εικόνας. Παράγοντας μια πρόκληση Το αποσπασμένο αντικείμενο, περνά τη διαδικασία outpainting εάν είναι αναγκαίο, χρησιμοποιείται για να αναζητήσουμε στη βάση δεδομένων για να βρούμε τα καλύτερα συμφωνημένα L-1 αντικείμενα στη βάση δεδομένων της εικόνας. Αυτά τα αντικείμενα είναι από διαφορετικές εικόνες. Η αναζήτηση βασίζεται στο ιστόγραμμα χρώματος και την πολυπλοκότητα, η οποία μετράται ως ο μέσος όρος σε απόλυτες τιμές της κλίσης του αντικειμένου. Πιο προηγμένες τεχνολογίες, όπως το SIFT μπορεί επίσης να είναι εφαρμόσιμες. Αυτά τα L-1 αντικείμενα έχουν υποστεί περαιτέρω επεξεργασία στρέβλωσης, περιστροφής, ή, αν λείπει από τις δομές, τυχαία ενσωμάτωση με παρόμοια χρωματισμένο οπτικό αντικείμενο. Τα προκύπτοντα αντικείμενα χρησιμοποιούνται ως δόλωμα αντικείμενα. Οι προαιρετικές αυτές στρεβλώσεις κάνουν ένα δόλωμα αντικείμενο να φανεί περίεργο για τους ανθρώπους, έτσι ώστε το αυθεντικό αντικείμενο να μπορεί εύκολα να αναγνωρίζεται από τα ανθρώπινα μάτια. Εάν το αποσπασμένο αντικείμενο μπορεί να ανιχνευθεί από έναν υπολογιστή, π.χ., ένας άνθρωπος ή ένα πρόσωπο γάτας, παρόμοια ανιχνεύσιμα αντικείμενα από υπολογιστή ανακτώνται από τη βάση δεδομένων ως αντικείμενα δόλωμα. Καμία από τις προαιρετικές στρεβλώσεις δεν εφαρμόζεται στην προκειμένη περίπτωση. Ο λόγος είναι να αντιμετωπίζονται τα κοινά αντικείμενα και τα εύκολα ανιχνεύσιμα αντικείμενα από υπολογιστή, για να αποτραπούν οι επιθέσεις "αναγνώρισης" ενός αντικειμένου ή την ανίχνευση της στρέβλωσης που εφαρμόζεται, ώστε να παραπλανήσουν στην επίλυση μιας πρόκλησης

96 Το αποσπασμένο αντικείμενο και τα L-1 δολώματα από τα L υποψήφια αντικείμενά του, καθώς και η inpainted εικόνα κλιμακώνονται σε μέγεθος από έναν παράγοντα που επιλέγεται εμπειρικά. Χρησιμοποιείται η δικυβική παρεμβολή [26] για κλιμάκωση της εικόνας. Ένας τυχαίος θόρυβος προστίθεται στη συνέχεια στην κλιμακούμενη εικόνα και τα υποψήφια αντικείμενα. Ο σκοπός των δύο δηλαδή της κλιμάκωσης της εικόνας και του τυχαίου θορύβου είναι να αφαιρεθεί οποιαδήποτε κβαντοποίηση ή άλλα πρότυπα από μια εικόνα που μπορεί να αξιοποιηθεί για να συναγάγει την inpainted περιοχή ή το αντικείμενο που θα αποσπαστεί Επίλυση Cortcha Προκλήσεων Μια πρόκληση Cortcha εμφανίζει μια inpainted εικόνα σε συνδυασμό με L υποψήφια αντικείμενα. Η Εικόνα 29 δείχνει μια πραγματική πρόκληση από την τρέχουσα εφαρμογή, στην οποία χρησιμοποιήθηκαν οκτώ υποψήφια αντικείμενα. Ο χρήστης επιλέγει έναν υποψήφιο αντικείμενο, και το σέρνει να μετακινηθεί ή να πέσει σε μια θέση της inpainted εικόνας. Όταν το αντικείμενο είναι στην κορυφή της inpainted εικόνας, που περιβάλλει το αντικείμενο, μια περιοχή καταχωρητή (με το ίδιο πλάτος που χρησιμοποιήθηκε στη διαδικασία δημιουργίας της πρόκλησης) δημιουργείται. Η περιοχή καταχωρητή περικόπτεται και στη συνέχεια συμπληρώνεται με μια μέθοδο εξομάλυνσης της εικόνας. Αποτελεσματικά, μία σύνθετη εικόνα δημιουργείται από το συνδυασμό της inpainted εικόνας και του υποψήφιου αντικειμένου. Η προκύπτουσα σύνθετη εικόνα παρουσιάζεται στο χρήστη, αλλά μόνο τα εικονοστοιχεία εντός του ορίου της inpainted εικόνας είναι ορατά. Ως αποτέλεσμα, όταν το αποσπασμένο αντικείμενο διορθώνεται στοιχίζεται με την inpainted εικόνα, και το outpainted τμήμα, εάν υπάρχει, είναι αόρατο. Σε κάθε θέση δοκιμής, αν η σύνθετη εικόνα μοιάζει φυσική και

97 με νόημα, το αποσπασμένο αντικείμενο και λόγω της θέσης του βρίσκεται. Η πρόκληση έτσι έχει λυθεί. Η Εικόνα 30 δείχνει το αποτέλεσμα όταν το αποσπασμένο αντικείμενο είναι σωστά τοποθετημένο πλέον. Εικόνα 29 A Cortcha challenge with 8 candidate objects on the left and the inpainted image on the right. Εικόνα 30 A successfully solved Cortcha challenge: the right panel shows the composite image when the detached object was placed at the correct position Ευχρηστία Πειραματικές Ρυθμίσεις Στη βάση δεδομένων περιλαμβάνονται εικόνες που συλλέχθηκαν από το Internet. Η μακρύτερη πλευρά της κάθε εικόνας ήταν 500 εικονοστοιχεία. 350 Cortcha προκλήσεις στη συνέχεια δημιουργήθηκαν από αυτή τη βάση δεδομένων. Όλα τα κατώτατα όρια που απαιτήθηκαν για τη δημιουργία

98 αυτών των προκλήσεων ήταν εμπειρικά καθορισμένα από ένα μικρό σύνολο αντιπροσωπευτικών δειγμάτων, και στη συνέχεια εφαρμόστηκαν σε όλες τις εικόνες. Ο μέσος χρόνος για την παραγωγή μιας πρόκλησης ήταν 122 δευτερόλεπτα σε έναν υπολογιστή Intel P4 3.2GHz και μνήμη 2GB. Σημειώστε ότι πολλά βήματα σε αυτή τη διαδικασία μπορούν να πραγματοποιηθούν χωρίς σύνδεση. Ως εκ τούτου, η προεπεξεργασία offline θα μειώσει σημαντικά το μέσο χρόνο που απαιτείται για την online παραγωγή των προκλήσεων. Ένας δικτυακός τόπος χρησιμοποιήθηκε στην έρευνα χρηστικότητας. Ένας συμμετέχων περιηγήθηκε την ιστοσελίδα για να ξεκινήσει μια δοκιμασία. Κάθε δοκιμή αποτελούνταν από 20 τυχαία επιλεγμένα προκλήσεις Cortcha που παρουσιάζονται διαδοχικά. Οι απαντήσεις και οι χρόνοι επίλυσης καταγράφηκαν από τον web server. Μετά τη δοκιμή, κάθε συμμετέχοντας κλήθηκε να απαντήσει σε ένα ερωτηματολόγιο ως έρευνα. Κλήθηκε μια ομάδα των ασκούμενων που δεν είχαν ποτέ εκτεθεί σε Cortcha να συμμετάσχουν στη μελέτη. Οι περισσότεροι από αυτούς ήταν μεταπτυχιακοί φοιτητές. 84 εθελοντές συμμετείχαν και ολοκλήρωσαν τη μελέτη. Στο πείραμα, η ανοχή για μια απόκριση ορίστηκε να είναι 10,0% του ύψους και του πλάτους της inpainted εικόνας. Ο καταχωρητής ορίστηκε να έχει πλάτος n = 3 εικονοστοιχεία. Αποτελέσματα Εξετάζεται το Cortcha με βάση τις ακόλουθες τρεις συνιστώσες: 1. Ικανότητα εκμάθησης. Η Εικόνα 31 δείχνει το μέσο χρόνο επίλυσης για καθεμιά από τις 20 διαδοχικές παρουσιαζόμενες προκλήσεις. Αυτό δείχνει ότι το Cortcha είναι αρκετά εύκολο και γρήγορο να το μάθει κάποιος

99 Εικόνα 31 Average solving time vs. the challenge index. 2. Λάθη και αποτελεσματικότητα. Το συνολικό ποσοστό ακρίβειας ήταν 86,2%, ενώ ο μέσος χρόνος επίλυσης μεταξύ όλων των 84 συμμετεχόντων για 20 δείκτες πρόκλησης ήταν 18.3 δεύτερα. Όπως συγκρίνονται στον Πίνακα 3, το Cortcha διαθέτει ένα ανθρώπινο ποσοστό ακρίβειας που είναι ελαφρώς υψηλότερο από ό, τι το Asirra, τον προσανατολισμό και το IMAGINATION, σημαντικά υψηλότερο από το CT_L, αλλά χαμηλότερο από το ARTiFACIAL, Video και CT_A. Κατά μέσο όρο, το Cortcha παίρνει λίγο περισσότερο χρόνο για να λυθεί από το Asirra και το ARTiFACIAL, αλλά λιγότερο από ό, τι άλλα IRCs. Σε σύγκριση με το κείμενο CAPTCHA της Google, το Cortcha έχει ένα ελαφρώς υψηλότερο ποσοστό ανθρώπινης ακρίβειας, αλλά διαρκεί περισσότερο από το διπλάσιο χρόνο για να λυθεί μια πρόκληση. 3. Ευχαρίστηση. Συλλέχθηκαν 72 έγκυρες απαντήσεις στην έξοδο της έρευνας. Περίπου 78% ( 56/72) από τις απαντήσεις επέδειξαν ένα επίπεδο δυσκολίας είτε μέσο / αποδεκτό ή εύκολο για αυτούς να μάθουν πώς να λύσουν ένα Cortcha. Περίπου το 1/3 των απαντήσεων προτίμησαν το Cortcha έναντι του παραδοσιακού βασισμένου σε κείμενο CAPTCHAs. Σε πολλούς από αυτούς άρεσε το Cortcha επειδή ήταν ενδιαφέρων, ασφαλές, και χωρίς πληκτρολόγιο. Τα παράπονα προήλθαν κυρίως από τη δυσκολία κάποιων προκλήσεων Cortcha. Συγκεκριμένα, για ορισμένες προκλήσεις, ήταν δύσκολο

100 να προσδιοριστεί ο τόπος της inpainted περιοχής που υπήρχε ή διαφοροποίηση μεταξύ των υποψήφιων αντικειμένων με παρόμοιες μορφές χρώμα Αξιοπιστία Επιθέσεις με τυχαίες απαντήσεις Όταν 8 υποψήφια αντικείμενα που χρησιμοποιούνται σε μια πρόκληση Cortcha, μια τυχαία επιλογή έχει μια πιθανότητα 1/8 ή 12,5% να είναι σωστή. Μια επίθεση με τυχαία επιλογή μπορεί να γίνει ακόμη πιο δύσκολη, χρησιμοποιώντας ένα μεγαλύτερο αριθμό υποψηφίων αντικειμένων. Για παράδειγμα όταν το L = 12, το ποσοστό επιτυχίας μιας επίθεσης με τυχαία επιλογή θα είναι 0,083%. Αυτό το ποσοστό μπορεί να μειωθεί περαιτέρω. 4.7 Συμπεράσματα Έχει πραγματοποιηθεί μια συστηματική μελέτη αναγνώρισης εικόνας των CAPTCHAs. Παρουσιάστηκε μια νέα επίθεση σε ένα αντιπροσωπευτικό σύστημα, και αναλύθηκαν επιτυχείς επιθέσεις από άλλα αντιπροσωπευτικά σχήματα. Μαθαίνοντας από αυτές τις επιθέσεις, ορίστηκε για πρώτη φορά ένα απλό αλλά νέο πλαίσιο για την καθοδήγηση του σχεδιασμού ισχυρών CAPTCHAs αναγνώρισης εικόνας. Το πλαίσιο οδήγησε στο σχεδιασμό του Cortcha, ένα νέο CAPTCHA που εκμεταλλεύεται τη σημασιολογία για την αναγνώριση ενός αντικειμένου εικόνας. Η έρευνα ευχρηστίας έδειξε ότι το Cortcha απέδωσε ένα ελαφρώς καλύτερο ποσοστό ακρίβειας του ανθρώπου από το κείμενο CAPTCHA της Google. Το Cortcha προσφέρει τα ακόλουθα νέα χαρακτηριστικά. Η επισήμανση της εικόνας αποφεύγεται εντελώς. Η συλλογή εικόνων πηγής και η παραγωγή προκλήσεων είναι πλήρως αυτοματοποιημένη. Ένας άπειρος αριθμός τύπων αντικειμένων

101 χρησιμοποιούνται για την παραγωγή Cortcha προκλήσεων. Αντικείμενα που χρησιμοποιούνται στην τρέχουσα πρόκληση είναι ανεξάρτητα από τα αντικείμενα που χρησιμοποιήθηκαν σε προηγούμενες προκλήσεις. Η ανεξαρτησία αυτή καθιστά τις επιθέσεις της ισχυρής μηχανικής μάθησης άχρηστες στην επίθεση Cortcha. Όντας επεκτάσιμο, το Cortcha είναι ένα άλμα προς τα εμπρός για την αναγνώριση εικόνας των CAPTCHAs για πρακτικές εφαρμογές. Μελλοντικές εργασίες περιλαμβάνουν τη βελτίωση της ταχύτητας του Cortcha, μιας μεγάλης κλίμακας μελέτη ευχρηστίας, και μια διεξοδική αξιολόγηση της αξιοπιστίας του Cortcha

102 ΚΕΦΑΛΑΙΟ 5 4 η Προσέγγιση: Breaking re-captcha: A Holistic Aproach via Shape Recognition (2011) Paul Aaecher, Niklas Bucher, Marc Fischlin, and Benjamin Milde Darmstadt University of Technology, Germany Εισαγωγή Το σύστημα re-captcha. Σε αντίθεση με τον απέραντο αριθμό των σπασμένων σχημάτων, μια ιδιαίτερη υλοποίηση, το re-captcha, έχει επιτυχημένη χρήση για αρκετά χρόνια τώρα. Δυο σαφή χαρακτηριστικά κλειδιά φαίνεται να είναι υπεύθυνα για τη συγκριτικά μεγάλη διάρκεια ζωής. Αρχικά, ο αλγόριθμος παραγωγής των re-captcha προκλήσεων είναι ιδιόκτητος και όχι δημόσιος, που σημαίνει ότι οι προκλήσεις παρέχονται μέσω μιας κεντρικής υποδομής. Επιπλέον όσο ο αλγόριθμος διατηρείται μυστικός, είναι κουραστικό να αναλύσει κανείς την ποικιλία των προκλήσεων. Επίσης κάθε πρόκληση εγγυάται ότι έχει ένα ελάχιστο επίπεδο ανθεκτικότητας απέναντι στις τεχνικές OCR. Αυτό είναι σύμφωνο με τον τρόπο που οι προκλήσεις παράγονται: αντί των παρεχόμενων τεχνητών και παραμορφωμένων χαρακτήρων, το re-captcha χρησιμοποιεί λέξεις πάνω στις οποίες δυο συστήματα OCR απέτυχαν, ένα υποπροϊόν ψηφιοποίησης μεγάλου όγκου κειμένου. Η απάντηση σε τέτοιες προκλήσεις είναι ότι είναι έτσι εγγενώς άγνωστη στο σύστημα. Στα πλαίσια της επαλήθευσης της απάντησης του χρήστη ακολουθεί

103 μια στατιστική προσέγγιση και παρουσιάζει δυο λέξεις σε κάθε πρόκληση. Η μια λέξη είναι η άγνωστη σκαναρισμένη λέξη, και η άλλη είναι μια γνωστή λέξη επαλήθευσης. Όσο ο χρήστης παρέχει τη σωστή απάντηση για την λέξη επαλήθευσης, η απάντηση θεωρείται σωστή και η απάντηση που δίνεται στη σκαναρισμένη εικόνα καταγράφεται. Είναι σημαντικό να παρατηρήσουμε ότι η απάντηση στη σκαναρισμένη λέξη, όταν παρατηρείται ξεχωριστά, δεν σχετίζεται με το πέρασμα του τεστ. Αυτή είναι μια σημαντική λεπτομέρεια για να υπολογιστεί το ποσοστό επιτυχίας. Ιδανικά και οι δυο κατηγορίες των λέξεων θα πρέπει να είναι δυσδιάκριτες, αλλά αυτό δεν είναι το θέμα. Για παράδειγμα, είναι εξαιρετικά σημαντικό να υπάρχει ένας αλγόριθμος ο οποίος αξιόπιστα αναγνωρίζει τις σκαναρισμένες εικόνες αλλά παρουσιάζεται φτωχός στις λέξεις επαλήθευσης. Σαφώς, ένας τέτοιας αλγόριθμος δε θα είναι κατάλληλος να σπάσει το σύστημα. Το κεντρικό σύστημα κάνει επίσης δύσκολη την ανάλυση της ασφάλειας του re-captcha. Όσο δεν υπάρχουν διαφορετικές εκδόσεις του αλγορίθμου παραγωγής ως τώρα, μικρές τροποποιήσεις και επαναλήψεις του αλγορίθμου δεν είναι ορατές στο χρήστη. Παρόλα αυτά, κάνει δυνατή την αναγνώριση ενός σετ από σημαντικές εκδόσεις όπως φαίνεται στην Εικόνα 32. Στην πρώτη έκδοση, για παράδειγμα, οι λέξεις διαγράφονται στην οριζόντια γραμμή, η τρίτη γενιά προσθέτει μπλοκ ανεστραμμένων ελλειπτικών σχημάτων. Παρόλο που οι προκλήσεις της 2 ης και 4 ης γενιάς φαίνεται να συμπίπτουν, η παραμόρφωση της τελευταίας είναι πιο κανονική και εξάγεται από μια εύχρηστη, μαθηματική περιγραφή. Επιπροσθέτως, η 4 η γενιά επίσης χρησιμοποιεί λιγότερες κοινές λέξεις οι οποίες τείνουν να είναι αποκλειστικά από λεξικά. Η συγκεκριμένη εργασία επικεντρώνεται στην ασφάλεια της 3 ης και της 4 ης γενιάς του re-captcha

104 Παρουσιάζεται την υλοποίηση του σπασίματος της τελευταίας γενιάς του re- CAPTCHA. Ο αλγόριθμος που χρησιμοποιείται είναι αρκετά αποτελεσματικός με λογικά μεγέθη λεξικών λέξεις (σχήματα). Ουσιαστικά είναι η πρώτη προσπάθεια να σπάσει το re-captcha χρησιμοποιώντας ευρύτερα πλαίσια σχημάτων και, ιδιαίτερα, να γίνει αυτό με έναν ολιστικό τρόπο όπου οι περιεχόμενες λέξεις ταιριάζουν αυτόματα με την πρώτη προσπάθεια. Καθώς το re-captcha στηρίζεται στη δυσκολία αναγνώρισης χαρακτήρων τα αποτελέσματα επίσης κινητοποιούν νέες προσεγγίσεις του OCR. Εικόνα 32 Major generations of re-captcha, in chronological order Προκειμένου να διεξαχθεί επίθεση στην 3 η γενιά του re-captcha, η οποία περιλαμβάνει ένα ελλειπτικού σχήματος παραμορφωμένο αντικείμενο, προτείνεται ένα πλαίσιο μηχανικής μάθησης το οποίο είναι ικανό να ελέγχει και να απομακρύνει αυτή την παραμόρφωση σχεδόν ολοκληρωτικά. Αυτό επιτρέπει ομοιόμορφη συμπεριφορά στις προκλήσεις από τη 2 η έως την 4 η γενιά με έναν αλγόριθμο, όσο οι προκλήσεις από αυτή τη γενιά είναι στη συνέχεια ικανοποιητικά παρόμοιες. Η προσπάθεια στηρίζεται σε μια καινούργια μέθοδο του γρήγορου ταιριάσματος ενός δοθέντος ερωτήματος σχήματος απέναντι σε μια μεγάλη λίστα λέξεων από λεξικό. Αυτό γίνεται λαμβάνοντας τον πρώτο και τον τελευταίο χαρακτήρα της πρόκλησης λέξης (η οποία είναι αρκετά ευκολότερο να τμηματοποιηθεί) και στη συνέχεια μειώνοντας το χώρο αναζήτησης λογαριθμικά

105 5.2 Οι τεχνικές Σε αυτό το τμήμα παρουσιάζεται το πλαίσιο για να σπάσουν το πρόσφατο re- CAPTCHA γενιάς 2-4. Το σύστημα μπορεί να διαιρεθεί περίπου σε δυο φάσεις. Σε μια offline φάση εκμάθησης όπου δημιουργούνται συνθετικές προκλήσεις βασισμένες σε λεξικό αγγλικών λέξεων. Κάθε πρόκληση μετά σχηματίζεται σε περιγραφέα που συνιστά ένα σετ πλαισίου σχήματος. Στη συνέχεια δημιουργείται μια βάση δεδομένων που περιέχει όλα τα ιστογράμματα για όλες τις λέξεις στο λεξικό. Μια δοσμένη πραγματική πρόκληση στην online φάση μετασχηματίζεται ακριβώς με τον ίδιο τρόπο κα τα αποτελέσματα ιστογράμματος συγκρίνονται απέναντι στη βάση, το κοντινότερο που ταιριάζει είναι η έξοδος του αλγορίθμου. Σημειώστε ότι αυτή η βασική έκδοση της επίθεσης λειτουργεί στις εσωτερικές λέξεις μόνο παρακάμπτοντας το έργο της τμηματοποίησης. Αυτή η τεχνική είναι ευρέως γνωστή ως ολιστική αναγνώριση λέξης. Αυτό μπορεί να ερμηνεύεται σαν έργο αναγνώρισης λέξης σε ένα μεγάλο αλφάβητο όπου οι εσωτερικές λέξεις είναι τα γράμματα. H Εικόνα 33 δείχνει τη διαδικασία μετασχηματισμού από εικόνες πρόκλησης σε περιγραφείς. Εικόνα 33 High - level overview of the descriptor creation

106 5.3 Δημιουργία βάσης Προκειμένου να δημιουργήσουν τη βάση δεδομένων και με δεδομένο ότι το re-captcha είναι ιδιόκτητο, δεν υπάρχει πρόσβαση σε αυτά τα δεδομένα ούτε στο υποκείμενο λεξικό. Για να αντιπαρέλθουν σε αυτόν τον περιορισμό, επέλεξαν ένα λογικού μεγέθους λεξικό από συχνά χρησιμοποιούμενες λέξεις και δημιούργησαν τα δικά τους σχήματα αναφοράς. Προκειμένου να μιμηθούν τις αληθινές προκλήσεις που προέρχονται από τυπωμένα κείμενα, στο σύστημα χρησιμοποιείται μια serif γραμματοσειρά για να δημιουργηθούν οι συνθετικές προκλήσεις. Μολονότι αυτή είναι μια ακατέργαστη και ατελής προσέγγιση, η ομοιότητά της είναι επαρκής για να καλύπτεται από τη διακύμανση του πλαισίου σχήματος. Σημειώστε ότι αυτές οι συνθετικές προκλήσεις χρησιμοποιούνται μόνο για τη βάση δεδομένων, οι τελικές μετρήσεις απόδοσης αντλούνται από τις πραγματικές προκλήσεις re- CAPTCHA. 5.4 Προεπεξεργασία Οι κατά λέξει εικόνες πρόκλησης που παράχθηκαν από το re-captcha εμπεριέχουν αρκετό θόρυβο και πλεονασμό για το πλαίσιο σχήματος. Αυτό περιλαμβάνει αντικείμενα με συμπίεση JPΕG (θόρυβος) και την εσωτερική περιοχή από τα στελέχη των χαρακτήρων (πλεονασμός). Ως εκ τούτου εφαρμόζεται μια ακολουθία από προεπεξεργασμένα βήματα όπως απεικονίζεται στην Εικόνα 34. Στο πρώτο βήμα μεγεθύνεται η εικόνα στο 200% του αρχικού της μεγέθους. Μια μετέπειτα διαδικασία ψηφιοποίησης εξαλείφει τα αντικείμενα της συμπίεσης. Δεδομένου ότι μόνο το περίγραμμα των χαρακτήρων είναι σχετικό με το σχήμα τους, χρησιμοποιείται το Canny για ανίχνευση ακμών για να

107 ληφθεί μια εικόνα του περιγράμματος. Σε αυτό το σημείο η 3 η γενιά του re- CAPTCHA χρειάζεται ένα άλλο βήμα για να αφαιρέσει το σχήμα έλλειψης αντικειμένου παραμόρφωσης το οποίο περιγράφεται σε επόμενο τμήμα. Εικόνα 34 Ellipse center estimation. After 7 iterations of erosion only one connected component is left (b). After 58 iterations of dilation only a few pixels close to the center are left over (c). (d) shows these pixels in relation to the original image. Ένας παρατηρητικός αναγνώστης ίσως διαφωνεί ότι το αρχικό βήμα της μεγέθυνσης τεχνικά δεν είναι απαραίτητο καθώς δεν μπορεί να αυξήσει τη διαθέσιμη πληροφορία στην εικόνα. Παρόλα αυτά, αφού αυτό ακολουθείται από υψηλά απωλεστική διαδικασία ψηφιοποίησης μειώνοντας την απώλεια με αυτό το μέτρο. Πειραματικές μετρήσεις το επιβεβαιώνουν παρουσιάζοντας υψηλότερο ποσοστό επιτυχίας αν το βήμα της μεγέθυνσης εκτελείται. 5.5 Εξάλειψη έλλειψης Η 3η γενιά των προκλήσεων re-captcha (βλέπε Εικόνα 32(c)) συνιστά ένα ελλειπτικού σχήματος αντικείμενο σύμφωνα με το οποίο τα χρώματα αναστρέφονται. Φαίνεται ότι το αντικείμενο αρχικά σχεδιάζεται σαν μια τέλεια έλλειψη και μετά, μαζί με τη λέξη πρόκληση, μετασχηματίζεται. Μερικές φορές επίσης αποκόπτεται, πέρα από τα όρια της εικόνας. Ωστόσο, η περιοχή ακόμα μοιάζει περίπου με έλλειψη. Εδώ τρέχουν έναν αλγόριθμο μηχανικής μάθησης που ταξινομεί τα εικονοστοιχεία σαν έλλειψης και όχι έλλειψης. Προσέγγιση κέντρου έλλειψης. Προκειμένου να ταξινομήσουν τα εικονοστοιχεία χρησιμοποιείται το κέντρο της έλλειψης ως σημείο αναφοράς

108 για αυτό και παρουσιάζεται ένας αλγόριθμος για τον υπολογισμό αυτού του σημείου. Ο αλγόριθμος που απορρέει από την παρατήρηση ότι όπου και αν η έλλειψη είναι τοποθετημένη, ένας τεράστιος αριθμός από μαύρα εικονοστοιχεία συγκεντρώνονται. Αυτό λειτουργεί ως ακολούθως. Αρχικά, επαναλαμβάνεται η μορφολογική διάβρωση της λειτουργίας μέχρις ότου μόνο ένα συνδεδεμένο στοιχείο από μαύρα εικονοστοιχεία να έχει απομείνει. Τώρα επαναλαμβάνεται, η λειτουργία διαστολής μέχρις ότου το εσωτερικό της εικόνας να περιέχει μόνο λευκά εικονοστοιχεία. Αναιρείται μια επανάληψη της διαστολής και τελικά υπολογίζεται το κέντρο των εναπομείναντων μαύρων εικονοστοιχείων, αυτό είναι η έξοδος του υπολογιστικού αλγορίθμου. Στην Εικόνα 20 βλέπουμε ένα παράδειγμα της λειτουργίας του αλγορίθμου. Χαρακτηριστικά. Αφού το κέντρο της έλλειψης έχει υπολογιστεί, ένας αριθμός από σχετικά χαρακτηριστικά με αυτό το κέντρο p υπολογίζεται για κάθε μαύρο εικονοστοιχείο qi, στο αρχικό περίγραμμα της εικόνας. Αυτά τα χαρακτηριστικά κανονίζονται σε ένα διάνυσμα εμπεριέχοντας ανάμεσα σε άλλα την απόσταση και τη γωνία από το p στο qi, την εφαπτομένη της ακμής στο qi, την πυκνότητα του εικονοστοιχείου πάνω σε μία γραμμή από το p στο κεντρικό σημείο, την πυκνότητα των εικονοστοιχείων στη γειτονιά του p, και έναν αριθμό των διακυμάνσεων αυτών των χαρακτηριστικών. Εκπαίδευση ταξινόμησης. Καθώς αυτά τα χαρακτηριστικά έχουν υπολογιστεί, επιδιώκεται τη χαρτογράφηση όπου οι χάρτες του κάθε διανύσματος χαρακτηριστικού στη σωστή κλάση ( έλλειψης και όχι έλλειψης ). Γι αυτό χρησιμοποιούνται τεχνικές μηχανικής μάθησης για να επιτύχουν δεδομένα

109 εκπαίδευσης με ετικέτες, ταξινομούν χειροκίνητα ένα σετ από προεπεξεργασμένες προκλήσεις σβήνοντας το περίγραμμα της έλλειψης σε έναν επεξεργαστή κειμένου. Χρησιμοποιώντας τον αλγόριθμο ώθησης του OpenCV με δέντρα απόφασης από αδύναμο ταξινομητή σε αυτά τα δεδομένα στη συνέχεια παράγεται ένας ισχυρός ταξινομητής. Ενώ αυτό δίνει ένα ισχυρό αποτέλεσμα ταξινόμησης (Εικόνα 30, αριστερή στήλη), υπάρχει ακόμα χώρος για βελτίωση. Για παράδειγμα κάθε απόφαση ταξινόμησης έχει δημιουργηθεί τοπικά και ανεξάρτητα από ταξινομήσεις χωρικού περιβάλλοντος. Αυτό φανερώνει εκ των προτέρων γνώση όπως το γεωμετρικό σχήμα μιας έλλειψης. Με έναν καταρράκτη ταξινομητών όπου η i- οστή επανάληψη κάνει χρήση της γνώσης που αποκτήθηκε από την i-1 επανάληψη. Επιπλέον, σε κάθε επανάληψη, υπολογίζεται ένα χαρακτηριστικό που, μετρά την απόσταση μιας προσαρμοσμένης έλλειψης από όλα τα ταξινομημένα εκονοστοιχεία της έλλειψης. Εικόνα 35 Cascaded ellipse pixel classification First row: pixels classified as not ellipse, second row: pixels classified as ellipse. From left to right: Classification after iteration 1,4, and 9. Ακρίβεια. Το μικρό κομμάτι των εικονοστοιχείων τα οποία ταξινομήθηκαν σωστά υποδηλώνονται με ακρίβεια. Υπολογίζεται αυτή η τιμή με δεκαπλάσια διασταύρωση χρησιμοποιώντας 150 αδύναμους ταξινομητές και αγγίζοντας μια ακρίβεια της τάξης του 91,5% μετά από 9 επαναλήψεις. Πήρε περίπου δύο

110 ώρες να εκπαιδευτεί αυτός ο ταξινομητής και λιγότερο από 300 ms να ταξινομηθεί ένα νέο παράδειγμα από το υλικό. Η Εικόνα 35 δείχνει μια περίπτωση ταξινόμησης μετά από διαφορετικές επαναλήψεις του καταρράκτη. 5.6 Πλαίσιο σχήματος Καθώς οι εικόνες πρόκλησης έχουν προεπεξεργαστεί, ενδέχεται να εμπεριέχεται το βήμα διαγραφής της έλλειψης, όλα είναι έτοιμα να αποκτηθεί μια συμπαγής περιγραφή της λέξης. Όπως αναφέρθηκε νωρίτερα, η συγκεκριμένη επίθεση χρησιμοποιεί πλαίσια σχήματος για να παρουσιάσει τις απεικονιζόμενες λέξεις. Εικόνα 36 Histogram bins and the corresponding angle / distance histogram for the center point of the contour line of the word "cosiest." Το κλειδί της ιδέας του πλαισίου σχήματος είναι ως ακολούθως. Αν p1 pn E R 2 είναι τα σημεία που σχηματίζουν το περίγραμμα ενός σχήματος, για ένα αυθαίρετο σημείο pi, καλούμενο σημείο αναφοράς, υπάρχουν n-1 διανύσματα υi,j που περιγράφουν τη θέση άλλων σημείων σχετικών με το pi. Θεωρώντας τώρα ένα ιστόγραμμα κατανομής αυτών των διανυσμάτων υi,j σε ένα σύστημα συντεταγμένων με κέντρο το pi που περιέχει γωνία/απόσταση ως bins - συνιστά μια συμπαγή αλλά με απώλειες περιγραφή του σχήματος σε σχέση με το σημείο αναφοράς pi και ονομάζεται πλαίσιο του σχήματος. Η Εικόνα 36 απεικονίζει τα bins του ιστογράμματος και το προκύπτον ιστόγραμμα όταν ο

111 μετασχηματισμός εφαρμόζεται σε μια προσφερόμενη λέξη. Σημειώστε ότι υπάρχουν n τέτοια ιστογράμματα ανά σχήμα, ένα ιστόγραμμα για κάθε σημείο της γραμμής του περιγράμματος. Για τη μέτρηση της ομοιότητας μεταξύ δύο σχημάτων, θα μπορούσαν απλώς να συσχετίζονται με τα αντίστοιχα σύνολα ιστογραμμάτων, δηλαδή να βρίσκει μια ένα-προς-ένα αντιστοιχία μεταξύ δύο συνόλων ώστε το άθροισμα των αποστάσεων μεταξύ δύο ιστογραμμάτων να είναι ελάχιστη σε σχέση με κάποια μετρική. Ωστόσο, είναι αναποτελεσματικό και ιδιαίτερα περιττό να γίνει αυτό για το σύνολο των σημείων της γραμμής περιγράμματος. Έτσι, είναι λογικό να λειτουργεί παράλληλα με ένα τυχαία επιλεγμένο υποσύνολο σταθερού μεγέθους που αποτελείται από, ας πούμε, 100 ιστογράμματα. Επιπλέον, δεν είναι απολύτως αναγκαίο να απαιτείται ένας-προς-ένα αντιστοιχία μεταξύ των δύο συνόλων των ιστογραμμάτων. Απλά, επιλέγοντας την πλησιέστερη αντιστοιχία είναι μια αποδεκτή στρατηγική, αν εισαχθούν επιπλέον περιορισμοί. Ένας τέτοιος περιορισμός είναι η θέση των αντίστοιχων σημείων αναφοράς, που απαιτούν μια μέγιστη απόσταση και εδώ εξασφαλίζεται ότι δεν υπάρχουν σημεία σε εντελώς διαφορετικές θέσεις που να ταιριάζουν. Για την περαιτέρω βελτίωση της ποιότητας της περιγραφής των πλαισίων σχήματος, χρησιμοποιείται μια διευρυμένη έννοια που ονομάζεται γενικευμένα πλαίσια σχήματος που επιτρέπει τα αυθαίρετα χαρακτηριστικά. Εδώ, Mori et al. επιπλέον καταγράφουν τη μέση εφαπτομένη των σημείων του σχήματος σε κάθε bin του ιστογράμματος. Αυτό οδηγεί σε μια πλουσιότερη περιγραφή του σχήματος με το κόστος μιας δεύτερης σειράς ιστογραμμάτων

112 5.7 Αποτελεσματικό Ταίριασμα Λέξης Περνώντας τώρα στην online φάση της επίθεσης, δεδομένης μιας βάσης δεδομένων των σχετικών πλαισίων σχήματος για κάθε λέξη, ο στόχος είναι να βρεθεί το πιο παρόμοιο σχήμα για ένα νέο σχήμα ερώτημα. Μια απλοϊκή προσέγγιση είναι: να συγκριθεί το σχήμα ερώτημα με κάθε σχήμα της βάσης δεδομένων και η έξοδος του πιο κοντινού σχήματος από τη βάση με όρους της λειτουργίας της απόστασης. Αυτό, όμως, οδηγεί σε τεράστιο υπολογιστικό κόστος. Υπενθυμίζεται ότι η περιγραφή του κάθε σχήματος αποτελείται από ένα σύνολο ιστογραμμάτων και ότι τα σχήματα είναι λέξεις από το λεξικό στη συγκεκριμένη περίπτωση. Συνδυάζοντας τα ιστογράμματα των δύο σχημάτων προκύπτουν αποτελέσματα σε τετραγωνική πολυπλοκότητα, ένα λογικό μέγεθος λεξικού είναι λέξεις. Για να διακριθούν πολλές παρόμοιες λέξεις από ένα τέτοιο λεξικό, ο αριθμός σημείων αναφοράς / ιστογραμμάτων πρέπει να είναι αναλόγως υψηλός. Για τη διαχείριση αυτής της πολυπλοκότητας, προτείνεται ένας αλγόριθμος αναζήτησης κατά μήκος των γραμμών «γρήγορο κλάδεμα» που περιγράφεται στο [29]. Η γενική στρατηγική του αλγορίθμου είναι να ξεκινήσει με την πλήρη σειρά των σχημάτων βάσεων δεδομένων και να εκτελέσει μια αργή, αλλά γρήγορη, σύγκριση με το σχήμα του ερωτήματος. Στη συνέχεια, ο αλγόριθμος κλαδεύει τα πιο ανόμοια σχήματα από το σύνολο εργασίας και αυξάνει την ακρίβεια της αναζήτησης. Επαναλαμβανόμενη εφαρμογή αυτού του σταδίου οδηγεί σε λογαριθμική μείωση του χώρου αναζήτησης. Καθώς τα σχήματα γίνονται πιο παρόμοια, περισσότερος χρόνος επενδύεται στη σύγκριση. Τέλος, μόλις ο αριθμός των σχημάτων στο σύνολο εργασίας πέσει κάτω από ένα ορισμένο όριο, ο αλγόριθμος αλλάζει με την αφελή στρατηγική αναζήτησης και εξάγει την πλησιέστερη αντιστοιχία

113 Η ακρίβεια της αναζήτησης ελέγχεται από τον αριθμό των σημείων αναφοράς που χρησιμοποιήθηκε για σύγκριση. Για ένα δεδομένο αριθμό σημείων αναφοράς, ο αλγόριθμος σχεδιάζει ένα τυχαίο υποσύνολο από όλα τα διαθέσιμα σημεία αναφοράς. Μια αξιοσημείωτη συνέπεια είναι ότι ο αλγόριθμος είναι πιθανολογικός, αλλά αυτό δεν είναι τόσο άσχημο, επειδή το πλησιέστερο ταίριασμα δεν είναι πάντα η σωστή λύση. Μια άλλη ειδική στρατηγική κλάδεμα CAPTCHA η οποία μειώνει σημαντικά το χώρο αναζήτησης κάνει χρήση του γεγονότος ότι ο πρώτος χαρακτήρας και ο τελευταίος χαρακτήρας είναι πολύ πιο εύκολο να τμηματοποιηθούν. Είναι αμέσως σαφές που ο πρώτος χαρακτήρας ξεκινά και που ο τελευταίος χαρακτήρας τελειώνει. Μια απλή και βασική προσέγγιση είναι να υπολογιστεί ένα κατά μέσο όρο σταθερό πλάτος τμήματος από την αρχή / έως το τέλος της λέξης. Εάν ένας χαρακτήρας μπορεί να ανιχνευθεί σε αυτή την περιοχή, ένα τεράστιο τμήμα του χώρου αναζήτησης είναι περιττό και έτσι κλαδεύεται. Στην πραγματικότητα, είναι ήδη χρήσιμο να είναι σε θέση να περιορίσει αυτά τα κλειδιά χαρακτήρες σε ένα μικρό σύνολο. Αυτό γίνεται με τη χρησιμοποίηση του πλαισίου σχήματος ταιριάζοντας το πλαίσιο για τους μεμονωμένους χαρακτήρες και την επιλογή των καλύτερων k που ταιριάζουν. 5.8 Αποτελέσματα Η συλλογή των δεδομένων. Υπενθυμίζεται ότι το re-captcha είναι ένα ιδιόκτητο και κλειστό σύστημα. Αυτό περιπλέκει την απόκτηση (με την ένδειξη) ζεύγη πρόκλησης / απόκρισης που απαιτούνται για την αξιολόγηση των επιδόσεων. Μία από τις μεθόδους που χρησιμοποιήθηκαν για τη συλλογή των δεδομένων είναι άνθρωποι να έχουν λύσει μια σειρά από re-captcha προκλήσεις και, στο φόντο, να καταγράφεται η λύση. Το πλεονέκτημα αυτής

114 της μεθόδου είναι ότι ένα άνθρωπος μπορεί να μάθει γρήγορα τη διαφορά μεταξύ επαλήθευσης και σάρωσης λέξης μετά από στενή παρατήρηση. Αυτό σημαίνει ότι ενδέχεται να παρέχεται σκόπιμα μια λάθος λύση για την ύποπτη λέξη σάρωσης. Αν το re-captcha επιβεβαιώνει την υπόθεση αυτή με την αποδοχή της απόκρισης, γίνεται βέβαιο ότι η άλλη λέξη ήταν πράγματι η λέξη επαλήθευσης. Κατά συνέπεια, υπάρχει ένα σύνολο δεδομένων που δεν είναι μόνο επισημασμένο, αλλά αποτελείται επίσης από λέξεις επαλήθευσης μόνο, που επιτρέπει την άντληση πραγματικών μετρήσεων απόδοσης. Σε αντίθεση, πολλοί έδωσαν στοιχεία σχετικά με τις επιθέσεις στο re-captcha που είναι στην πραγματικότητα εκτιμήσεις όπου η - πιθανώς κρυμμένη - βασική υπόθεση είναι ότι η επίθεση δουλεύει ισοδύναμα καλά σε λέξεις σάρωσης και επαλήθευσης. Δημιουργία βάσης δεδομένων. Για τη δημιουργία της βάσης δεδομένων των λέξεων αναφοράς χρησιμοποιείται μια λίστα λέξεων παρασκευασμένη από τον Keith Vertanen, η οποία είναι το σημείο τομής των 10 δημοφιλέστερων λιστών με λέξεις. Αυτή η λίστα περιέχει λέξεις από την αγγλική γλώσσα. Οι τεχνητές προκλήσεις στη συνέχεια απεικονίζονται με τη γραμματοσειρά Times, με αρνητική απόσταση μεταξύ των χαρακτήρων για να αντικατοπτρίζουν την περίπτωση επικάλυψης των πραγματικών προκλήσεων. Τα πλαίσια σχήματος δημιουργούν ένα ιστόγραμμα 6x6, δηλαδή, 6 bins γωνίας και 6 bins απόστασης. Τελικά αποτελέσματα. Τα αποτελέσματα έχουν συλλεχθεί από την επαλήθευση λέξεων μόνο, ώστε να αντικατοπτρίζουν με ακρίβεια το ποσοστό επιτυχίας μιας πραγματικής επίθεσης. Στην Εικόνα 37 τα λεπτομερή αποτελέσματα. Το ποσοστό επιτυχίας του λεξικού σε αυτή την εικόνα είναι το ιδανικό δηλ. αν η λέξη πρόκληση είναι παρούσα στο λεξικό

115 5.9 Συμπεράσματα Εικόνα 37 Experimental results of our implementation. Το σύστημα re-captcha υπήρξε ένα από τα λίγα συστήματα που επίτευξε τη σωστή ισορροπία μεταξύ της ευχρηστίας και ασφάλειας. Με την αυξανόμενη δημοτικότητά του όμως το re-captcha έχει γίνει ένας από τους βασικούς στόχους και οι πρόσφατες επιθέσεις αποκαλύπτουν σημαντικές ρωγμές. Παρόλα αυτά, λόγω του συγκεντρωτικού του συστήματος το re-captcha επιτρέπει να μεταβεί σε μια νέα γενιά ακαριαία. Ενώ οι συγκεκριμένες επιθέσεις μπορεί στη συνέχεια να γίνουν αναποτελεσματικές η τεχνική της επίθεσης μπορεί ωστόσο να το βελτιώσει. Οι επιθέσεις επίτευξαν ένα ποσοστό επιτυχίας 5%, δείχνοντας ότι η ολιστικές προσεγγίσεις είναι εφικτές, ενώ οι περισσότερες άλλες επιθέσεις βασίζονται στην τμηματοποίηση. Αυτό είναι ενδιαφέρον γιατί πολλά συστήματα και τεχνικές που μέχρι στιγμής έχουν σχεδιαστεί για να ματαιώσουν την τμηματοποίηση, για παράδειγμα, διαγράφοντας τη λέξη. Σημειώνουμε ότι οι επιθέσεις αυτής της ερευνητικής εργασίας δεν έχουν βελτιστοποιηθεί και έτσι αφήνουν χώρο για βελτιώσεις. Ένα παράδειγμα αποτελεί ο συνδυασμός της ολιστικής προσέγγισης με τη μερική τμηματοποίηση, που είναι - στην τρέχουσα έκδοση της - μόνο μια ακατέργαστη απόδειξη της έννοιας της γενικής τεχνικής

116 Ωστόσο, να τονιστεί ότι η αντίσταση ενάντια στις αυτοματοποιημένες επιθέσεις δεν είναι το μόνο που αφορά τα CAPTCHAs. Για παράδειγμα, από την άποψη της ασφάλειας, τα CAPTCHAs που βασίζονται σε λεξικό θα πρέπει να χρησιμοποιούνται με προσοχή, δεδομένου ότι διευκολύνουν τις επιθέσεις σημαντικά. Να γίνει σαφές ότι η χρήση λεξικών αποτελεί στήριγμα για τους ανθρώπους στην αναγνώριση λέξεων. Ένα άλλο αξιόλογο σημείο είναι ότι το re-captcha βασίζεται στην ιδέα ότι η επίλυση ενός CAPTCHA βοηθά την ψηφιοποίηση βιβλίων. Αυτή η ιδέα μπορεί να υποκινήσει τους χρήστες για την επίλυση αυτών των κατά τα άλλα μη δημοφιλών παζλ, βελτιώνοντας έτσι την γενική αποδοχή των CAPTCHAs. Συνολικά, οι πρόσφατες επιθέσεις κατά κάποιο τρόπο στο re-captcha δημιουργούν μια αόριστη κατάσταση. Παραμένει ανοιχτό το πρόβλημα εάν υπάρχουν CAPTCHAs που είναι ταυτόχρονα ασφαλή, εύχρηστα και πρακτικά. Δεδομένης της κατάστασης των CAPTCHAs στις σύγχρονες υπηρεσίες σύνδεσης, ένα σύστημα CAPTCHA συναντά ότι όλες αυτές οι απαιτήσεις είναι σε μεγάλη ζήτηση. Σε μια ελαφρώς θετική νότα, όμως, ακόμη και αν τα αποτελέσματα δείχνουν ότι η ασφάλεια του άλλου συστήματος CAPTCHA έχει γίνει αμφίβολη, υπάρχει επίσης ένα πλεονέκτημα στη συγκεκριμένη περίπτωση του re- CAPTCHA. Από τη σχεδίαση, κάθε σύστημα που σπάει το re-captcha είναι ένα βήμα προς την κατεύθυνση βελτίωσης των OCR λογισμικών. Τα αποτελέσματα δείχνουν ότι τα πλαίσια σχήματος θα μπορούσαν να είναι μια πολύτιμη εφεδρική λύση στον τομέα της αναγνώρισης χαρακτήρων

117 ΚΕΦΑΛΑΙΟ Εισαγωγή Στα κεφάλαια που προηγήθηκαν παρουσιάστηκαν τέσσερις διαφορετικές προσεγγίσεις του θέματος των CAPTCHAs, σχεδόν όπως ακριβώς δημοσιεύθηκαν στην επιστημονική κοινότητα. Να θυμίσουμε πως μια σημαντική διαφορά μεταξύ των είναι ο χρόνος έκδοσης. Σε αυτό το κεφάλαιο αξίζει να δούμε με κριτική διάθεση τη συνεισφορά αυτών των τεσσάρων προσεγγίσεων που επιλέξαμε να παρουσιάσουμε. Είναι προφανές ότι τα CAPTCHAs και η ασφάλεια που οφείλουν να παρέχουν στον τελικό χρήστη του Διαδικτύου απασχολεί όλη την επιστημονική κοινότητα. Εύρωστα, εύχρηστα και ισχυρά και επεκτάσιμα είναι τα χαρακτηριστικά που πρέπει να διαθέτουν τα CAPTCHAs προκειμένου να προστατεύουν τους απλούς χρήστες του Διαδικτύου που θέλουν να απολαμβάνουν τις υπηρεσίες του. Οι spammers φροντίζουν να απομακρύνουν κάθε φορά από αυτή την κατεύθυνση με τις αλλεπάλληλες οργανωμένες αυτοματοποιημένες επιθέσεις. Είναι μια διαρκής μονομαχία που ωστόσο προωθεί και προάγει τη βελτίωση των CAPTCHAs. 6.2 Σύνοψη και συνεισφορά 1ης προσέγγισης Η πρώτη προσέγγιση, δημοσίευση του 2008, αφού παρουσίασε τα διαφορετικά σχήματα CAPTCHAs (κειμένου-ήχου-εικόνας), μας δικαιολόγησε το λόγο για τον οποίο ασχολήθηκε κυρίως με τα σχήματα κειμένου καθώς αποτελούν τα επικρατέστερα στο χώρο, είναι ισχυρά από άποψη ασφάλειας και επιδέχονται βελτίωση

118 Προτείνουν ένα τριδιάστατο πλαίσιο ελέγχου και βελτίωσης της ευχρηστίας, το οποίο θα δούμε ότι είναι υψηλής σημασίας και υιοθετείται στη συνέχεια και αφορά: παραμόρφωση, περιεχόμενο, παρουσίαση. Η παραμόρφωση ενός CAPTCHA πρέπει να έχει ως όριο το γεγονός αν δύναται ένας άνθρωπος να το αναγνωρίσει. Συμφωνούμε ότι η παραμόρφωση ενισχύει την ασφάλεια και την ευρωστία ενός σχήματος. Έθεσαν και το θέμα της αξίας της «φιλικότητας προς τους ξένους» που διερευνήθηκε μέσα από ένα πείραμα που έδειξε πόσο μη φιλικά είναι τα σχήματα κειμένου σε ξένους, ως προς τη γλώσσα που παρουσιάζονται. Το περιεχόμενο από την άλλη έχει επίπτωση στην ευχρηστία, καθώς η αύξηση του συνόλου χαρακτήρων το καθιστά ανθεκτικότερο και η αύξηση του μήκους συμβολοσειράς ασφαλέστερο. Τονίζουν τη σημασία για τον άνθρωπο να έρχεται αντιμέτωπος με μια υπάρχουσα λέξη και όχι τυχαία συμβολοσειρά ανεξάρτητα από το μήκος της. Σχήματα με παγιωμένο σταθερό μήκος συμβολοσειράς (MSN) σε αντίθεση με το μεταβλητό (Google) βοήθησαν τους χρήστες να ξεπεράσουν το σκόπελο των τόξων και προάγουν την ευχρηστία. Η παρουσίαση, και ειδικότερα το χρώμα το οποίο όταν εμπεριέχεται στο CAPTCHA αντιστέκεται σε OCR. Ωστόσο το χρώμα ενδέχεται να μειώσει εξίσου ασφάλεια και ευχρηστία και να δημιουργήσει προβλήματα σε ανθρώπους με χαμηλή όραση. Σε αυτό το σημείο η συνεισφορά τους είναι σημαντική καθώς κάποια σχήματα με την υπερβολική χρήση χρώματος απομακρύνουν μια κατηγορία χρηστών. Στα σχήματα ήχου (audio CAPTCHAs), επίσης η παραμόρφωση δημιουργεί θέματα ευχρηστίας. Το περιεχόμενο κάποιες φορές δεν είναι φιλικό με τους ξένους χρήστες και θέλει προσοχή. Σε ότι αφορά την παρουσίαση εδώ τίθεται το θέμα σωστής ενσωμάτωσης του σχήματος στην ιστοσελίδα

119 6.3 Σύνοψη και συνεισφορά 2ης προσέγγισης Η συγκεκριμένη δημοσίευση εστιάζει στην ευρωστία και στην ευχρηστία απέναντι στις αυτοματοποιημένες επιθέσεις. Υποστηρίζει πως τα σύγχρονα CAPTCHAs θα πρέπει να στηρίζουν τη δυσκολία τους στην τμηματοποίηση και λιγότερο στην αναγνώριση. Ακολούθως ελέγχονται διάφορα σχήματα CAPTCHAs του Captchaservice.org και διαπιστώνονται τα ακόλουθα. Ανεξάρτητα από την παραμόρφωση ενός χαρακτήρα τα εικονοστοιχεία του έχουν σταθερό αριθμό και εύκολα χτίζεται ένας μετρητής εικονοστοιχείων για όλους τους χαρακτήρες με αποτέλεσμα να οδηγείται εύκολα κάποιος σε αναζήτηση σε ένα πίνακα μέτρησης εικονοστοιχείων για αναγνώριση του χαρακτήρα. Συνεπώς πρέπει να αυξηθεί ο δείκτης δυσκολίας της τμηματοποίησης. Αποκάλυψαν την αδυναμία του Microsoft CAPTCHA, που παρά το γεγονός ότι σχεδιάστηκε προσεκτικά για να είναι ανθεκτικό στην τμηματοποίηση με τη χρήση μη τεμνόμενων και τεμνόμενων τόξων προκειμένου να εμπλέκονται με τους χαρακτήρες, κατάφεραν να πραγματοποιήσουν επιτυχή επίθεση σε αυτό το καλοσχεδιασμένο σχήμα καθώς τόξα και χαρακτήρες κακώς έχουν διαφορετική θέση στην πρόκληση. Εξίσου αυτή η μέθοδος εφαρμόστηκε στο Yahoo CAPTCHA. Τo Google CAPTCHA τώρα, με τη χρήση του συνωστισμού χαρακτήρων, αντιστέκεται στην τμηματοποίηση. Στο Yahoo CAPTCHA του 2008 έγινε προσπάθεια να ισχυροποιηθεί με συμπιεσμένους χαρακτήρες ή συνδεδεμένους με τυχαίες γραμμές και μεταβλητό μήκος πρόκλησης. Ωστόσο το μήκος της πρόκλησης κατάφεραν να το προσδιορίσουν ως συνάρτηση του πλάτους του κειμένου. Τέλος με την τμηματοποίηση κανονικής ή γωνιακής πρόκλησης προσδιορίζονται και οι χαρακτήρες

120 Η προσέγγιση αυτή με απλούς αλγορίθμους αναδεικνύει τα σχεδιαστικά λάθη των γνωστών CAPTCHAs Υπερτονίζεται η ανάγκη προσοχής στις λεπτομέρειες. 6.4 Σύνοψη και συνεισφορά 3ης προσέγγισης Η δημοσίευση αυτή διαφοροποιείται καθώς μελετά τα IRCs CAPTCHAs και τα Bots δυσκολεύονται να αναγνωρίσουν μια εικόνα και ειδικά τη σημασιολογία της. Προσθέτουν ως επιθυμητή ιδιότητα την επεκτασιμότητα καθώς ο μεγάλος αριθμός προκλήσεων δυσκολεύει την επίλυσή τους. Η επεκτασιμότητα επιλύεται εύκολα για τα σχήματα κειμένου, δύσκολα για τα IRCs. Επιπλέον στα IRCs δεν μπορεί να αυτοματοποιηθεί η παραγωγή προκλήσεων απαιτείται ανθρώπινη παρέμβαση. Σε ότι αφορά το σχήμα Asirra που ζητά τη διάκριση ανάμεσα σε γάτες και σκύλους διαπιστώνεται ότι δεν είναι επεκτάσιμο καθώς εισάγει τις προκλήσεις του από το Petfinder.com. Η HotCAPTCHA.com χρησιμοποιεί μεγάλη βάση δεδομένων αλλά το να ζητά τη διάκριση ατόμων σε «hot» και «μη hot» φαίνεται να είναι υποκειμενικό. Προκλήσεις βασισμένες στη ρύθμιση του προσανατολισμού μιας εικόνας είναι μια ακόμα ιδέα για CAPTCHAs. Εδώ προβλήματα δημιουργεί η ανοχή των διακυμάνσεων. H Yuniti.com βασίστηκε στο σχεδιασμό προκλήσεων 3D μοντέλων, που όμως αποδείχθηκαν δαπανηρές. Τέλος οι προκλήσεις video αποδείχθηκε ότι επιζητούν επίσης απαντήσεις που είναι υποκειμενικές. Το Artifacial ζητά στις προκλήσεις του την αναγνώριση προσώπου και διαφαίνεται ότι δυσκολεύει ως σχήμα τον αντίπαλο. Το Imagination με τη δοκιμή κλικ ζητά από το χρήστη να κλικάρει στο κέντρο μιας εικόνας και με τη δοκιμή σχολιασμού ζητά την επιλογή της σωστής ετικέτας από 15 υποψήφιες

121 Ακολούθως υλοποιείται μια επίθεση στο Imagination και στη δοκιμή κλικ με υψηλά ποσοστά επιτυχίας. Σημαντική είναι η συνεισφορά αυτής της εργασίας με τη διάκριση που κάνει στα χαμηλού επιπέδου (χρώμα, σχήμα, υφή, διάταξη χρώματος) χαρακτηριστικά και τη σημασιολογία. Οι υπολογιστές είναι καλοί στην εξαγωγή χαρακτηριστικών χαμηλού επιπέδου. Η σημασιολογία από την άλλη πλευρά είναι υποκειμενική. Ο Golle σχεδίασε μια πολύ καλή επίθεση στο Asirra σχεδιάζοντας ένα μηχάνημα εκμάθησης που διακρίνει γάτες από σκύλους. Παρόμοια η ομάδα αυτής της εργασίας υλοποιεί επίθεση μηχανικής μάθησης στο Artifacial. Ανίχνευση προσώπου και εντοπισμός των έξι γωνιών του με καλό ποσοστό επιτυχίας. Η συγκεκριμένη εργασία έδειξε ότι CAPTCHAs που στηρίζονται στα χαμηλού επιπέδου χαρακτηριστικά είναι ευάλωτα. H επίθεση στο Asirra είναι πρόβλημα δυαδικής ταξινόμησης και υλοποιείται από τους υπολογιστές με μηχανική εκπαίδευση, όμως πρέπει να επιλεγούν σωστά χαρακτηριστικά διάκρισης. Ένα φιλικό IRC που είναι συνήθως πρόβλημα δυαδικής ταξινόμησης είναι ευάλωτο. Η ανίχνευση προσώπου του Artifacial είναι δυσκολότερο πρόβλημα αλλά και αυτό έχει αξιοποιηθεί και αυξήθηκε ο ρυθμός ανίχνευσης. Άρα η ανίχνευση αντικειμένου είναι ευάλωτη στη μηχανική μάθηση. Απέδειξαν ότι είναι καλύτερο να χρησιμοποιούμε προκλήσεις που ζητούν τον προσδιορισμό της χωρικής σχέσης των αντικειμένων. Σε αυτό οι άνθρωποι τα καταφέρνουν καλά και όχι οι υπολογιστές. Ο αριθμός των προκλήσεων πρέπει να αυξηθεί προκειμένου να ανανεώνονται

122 Τέλος έγινε η παρουσίαση του Cortcha IRC. Ένα αντικείμενο κατακερματισμένο από τον υπολογιστή, αλλά περιτριγυρισμένο από το αρχικό του πλαίσιο είναι εύκολο να αναγνωριστεί από τον άνθρωπο αλλά όχι από τον υπολογιστή. Περιγράφουν την πρόκληση που στηρίχθηκε στην προηγούμενη ιδέα. Σε ένα δικτυακό τόπο έγινε έρευνα ευχρηστίας. Βελτιώθηκε η ικανότητα εκμάθησης. Είχαν υψηλά ποσοστά ακρίβειας και φάνηκε ότι το Cortcha προτιμάται έναντι άλλων. 6.5 Σύνοψη και συνεισφορά 4ης προσέγγισης Παρουσιάστηκε το re-captcha. Πραγματοποιήθηκε επίθεση στην 4 η γενιά με λεξικό λέξεων με ολιστικό τρόπο δηλαδή πραγματοποίηση επαλήθευσης με την πρώτη προσπάθεια. Ο Wikins έκανε επιτυχή επίθεση στην πρώτη γενιά το 2009 αφαιρώντας την οριζόντια γραμμή και με τη βοήθεια OCR προγράμματος μπορούσε μέσα από λεξικό να επιλέγει τη λέξη. O Houck 2010 ανακοίνωσε επιτυχείς επιθέσεις στην τρίτη γενιά με αφαίρεση της έλλειψης, τμηματοποίηση της λέξης με χρήση προγράμματος OCR. Οι επικαλυπτόμενοι χαρακτήρες είναι ανθεκτικότεροι στις αυτοματοποιημένες επιθέσεις. Στην προσπάθειά τους να επιτεθούν στην τέταρτη γενιά ακολουθούν μια μέθοδο με offline και online φάση. Στην οffline φάση χτίζουν συνθετικές εικόνες πρόκλησης με αγγλικές λέξεις. Κάθε πρόκληση μετασχηματίζεται σε περιγραφέα. Δημιουργείται βάση δεδομένων με ιστογράμματα για όλες τις λέξεις

123 Στην Online φάση δίνεται η πρόκληση, μετασχηματίζεται σε περιγραφέα, δημιουργείται ένα ιστόγραμμα και συγκρίνεται με τη βάση. Το κοντινότερο είναι η έξοδος του αλγορίθμου. Σε ότι αφορά την τρίτη γενιά παρουσιάστηκε ένας αλγόριθμος μηχανικής μάθησης που ταξινομεί τα εικονοστοιχεία σε «έλλειψης» και «όχι έλλειψης». 6.6 Κριτική ανάλυση προσεγγίσεων 1η Προσέγγιση Η πρώτη εργασία που παρουσιάστηκε, ήρθε να εισάγει ένα θέμα που είχε ελάχιστα ελεγχθεί έως το Το θέμα αυτό αφορά παρεμβάσεις που οφείλουν να γίνουν στο σχεδιασμό των CAPTCHAs προκειμένου αυτά να είναι εύχρηστα. Εδώ δημιουργούνται αντιφάσεις. Η ευχρηστία τίθεται έναντι της ασφάλειας. Στο προγενέστερο έργο τους [27] παρουσίασαν εκτενώς μια επιτυχή επίθεση στο σχήμα MSN. Όπως έχει ήδη αναφερθεί το σχήμα MSN έχει σταθερό μήκος συμβολοσειράς σε κάθε πρόκληση. Το γεγονός αυτό : ενισχύει την ευχρηστία του, καθώς ο άνθρωπος μπορεί εύκολα να διακρίνει τα τόξα που εμπεριέχονται στην πρόκληση. ενισχύει όμως παράλληλα και τις αυτοματοποιημένες επιθέσεις καθώς έχουν να αντιμετωπίσουν ένα επιλύσιμο πρόβλημα τμηματοποίησης και αναγνώρισης κειμένου. Συνεπώς αποδυναμώνεται η ασφάλεια. Από την άλλη πλευρά το σχήμα της Google έχει μεταβλητό μήκος συμβολοσειράς σε κάθε πρόκληση. Το γεγονός αυτό : αποδυναμώνει την ευχρηστία καθώς ο χρήστης εύκολα μπορεί να παραπλανηθεί από την ύπαρξη τόξων ή τυχαίων γραμμών

124 ενισχύει την ασφάλεια καθώς δυσκολεύει το έργο της τμηματοποίησης και της αναγνώρισης. Βλέπουμε πως για τη συγκεκριμένη αντίφαση δε δόθηκε λύση στη συγκεκριμένη προσέγγιση αφήνοντας ανοικτό το πρόβλημα «ασφάλεια έναντι ευχρηστίας». 2η Προσέγγιση Αρχικά να παρατηρήσουμε ότι και δεύτερη προσέγγιση αποτελεί έργο των ίδιων συγγραφέων με την πρώτη. Εδώ παρουσιάζεται η αξία της ευρωστίας ενός συστήματος CAPTCHA. Με τον όρο ευρωστία εννοείται η αντίσταση ενός CAPTCHA στα προγράμματα υπολογιστών όπου οι επιτιθέμενοι γράφουν προκειμένου να το επιλύσουν αυτόματα. Μέσα από επιτυχείς επιθέσεις σε γνωστά CAPTCHAs αναδείχθηκαν κρίσιμες ευπάθειες και σχεδιαστικά λάθη με αποτέλεσμα να αποσυρθούν πολλά από τα γνωστά έως τότε συστήματα CAPTCHA της υπηρεσίας Captchaservice.org. Σε αυτή την προσέγγιση αξίζει να εστιάσει κάποιος στα κάτωθι σημαντικά στοιχεία: Αποδείχθηκε ότι ένας χαρακτήρας παρά το γεγονός ότι ενδέχεται να εμφανίζεται σε μια πρόκληση CAPTCHA υπό διάφορες παραμορφώσεις, αυτό που παραμένει ίδιο είναι ο αριθμός εικονοστοιχείων για το σχηματισμό του. Συνεπώς υπάρχει έμμεση προτροπή προς τους σχεδιαστές των CAPTCHAs να χρησιμοποιούν στη σχεδίαση την τυχαιοποίηση (randomization). Η ευρωστία των CAPTCHAs δεν πρέπει να μελετάται αποκλειστικά ως πρόβλημα της υπολογιστικής όρασης, της μηχανικής μάθησης και της οπτικής αναγνώρισης χαρακτήρων αλλά γνώσεις μηχανικής

125 ασφάλειας οφείλουν να διαδραματίζουν ουσιαστικό ρόλο καθώς μπορούν να προλαμβάνουν τρωτά σημεία κατά τη σχεδίαση. Αναζήτηση ισορροπίας ανάμεσα στην ευρωστία και την ευχρηστία. 3η Προσέγγιση Η προσέγγιση αυτή αλλάζει πεδίο έρευνας και επιχειρεί επιθέσεις σε IRCs. Η γνώση στο συγκεκριμένο πεδίο είναι περιορισμένη. Προσπάθησαν εξίσου να θέσουν θεμελιώδεις αρχές σχεδίασης των εν λόγω σχημάτων αλλά και. Συγκεκριμένα συνέβαλλαν ουσιαστικά στην εξέλιξη των IRCs καθώς: Έθεσαν ως επιθυμητή ιδιότητα των IRCs την επεκτασιμότητα προκειμένου να μπορεί να ανταποκριθεί επαρκώς σε μεγάλης κλίμακας εφαρμογές. Η σημασιολογία υψηλού επιπέδου, όταν χρησιμοποιηθεί κατάλληλα ώστε να μην επιδέχεται υποκειμενικές απαντήσεις από τον άνθρωπο, μπορεί να κάνει ισχυρό ένα IRC. Οι επιθέσεις μηχανικής μάθησης μπορούν να αποφευχθούν αν οι προκλήσεις του παρελθόντος ενός IRC είναι ασυσχέτιστες με τις τρέχουσες προκλήσεις ή τις μελλοντικές. Οπωσδήποτε όπως και για τα σχήματα κειμένου και εδώ ο στόχος παραγωγής ενός απεριόριστου αριθμού προκλήσεων είναι μη ρεαλιστικός. Δημιούργησαν ένα εύχρηστο και εύρωστο σχήμα το Cortcha. 4η Προσέγγιση Εδώ παρατηρούμε πως οι συγγραφείς δεν ακολούθησαν την τυπική προσέγγιση: Τμηματοποίηση μεμονωμένων γραμμάτων/ ψηφίων. Αναγνώριση κάθε γράμματος ψηφίου ξεχωριστά

126 Αλλά προτίμησαν αξιοποιώντας τα πλαίσια σχήματος (SC) που αποτελούν ένα καλά μελετημένο πρόβλημα στην Υπολογιστική Όραση να υλοποιήσουν: Το ταίριασμα ολόκληρης λέξης (ολιστική προσέγγιση). Αποφυγή τμηματοποίησης και αντιμετώπιση λέξης ως γράμμα ή ψηφίο. Αποδείχτηκε αποτελεσματικότερη καθώς η κλασσική προσέγγιση θα ήταν απαγορευτικά αργή, καθώς είχε να αντιμετωπίσει ένα λεξικό λέξεων

127 ΚΕΦΑΛΑΙΟ Εισαγωγή Στο τελευταίο αυτό τμήμα της εργασίας επιχειρείται η αποτύπωση της προσπάθειας που γίνεται για τη μηχανική επίλυση των CAPTCHAs. Κυριαρχούν η τεχνολογία της οπτικής αναγνώρισης (OCR) από τη μια πλευρά και η προσπάθεια επίλυσης από τον άνθρωπο από την άλλη. Θα συμφωνήσουμε όλοι ότι η οικονομική διάσταση της τεχνολογίας των CAPTCHAs, ώθησε την επιστημονική κοινότητα από την μια και τους spammers από την άλλη σε έναν αγώνα δρόμου. Η σταθερά είναι η βελτίωση της ασφάλειας των CAPTCHAs. 7.2 Τεχνικές Επίλυσης CAPTCHAs Έγινε φανερό από τα προηγούμενα πως οι spammers μέσω της δημιουργίας ή απλά χρήσης αλγορίθμων που επιλύουν αυτόματα τα CAPTCHAs επιζητούν τη μεγιστοποίηση των κερδών των εταιριών που αντιπροσωπεύουν. Η μηχανική επίλυση των CAPTCHAs, χρησιμοποιεί αλγόριθμους, σχεδιασμένους να εξάγουν μεμονωμένα σύμβολα, χρησιμοποιώντας την τεχνολογία της οπτικής αναγνώρισης χαρακτήρων (OCR). Παρόλα αυτά, η δημιουργία αυτών των αλγορίθμων είναι μια πολύπλοκη διαδικασία, ενώ το αποτέλεσμα πολλές φορές δεν είναι ικανοποιητικό. Στη συνέχεια θα παρουσιάσουμε κάποιες από αυτές τις προσπάθειες. 7.3 OCR Η Οπτική Αναγνώριση Χαρακτήρων (Optical Character Recognition) ή αλλιώς Αυτόματη Αναγνώριση Χαρακτήρων Κειμένου ονομάζεται η διαδικασία μετατροπής σαρωμένων εικόνων χειρογράφων ή έντυπων κειμένων σε

128 κείμενο αναγνώσιμο από ηλεκτρονικό υπολογιστή. Η Οπτική Αναγνώριση Χαρακτήρων καθιστά εφικτή την εκ νέου επεξεργασία του κειμένου, αποφεύγοντας την δακτυλογράφηση του από την αρχή. Τα συστήματα Οπτικής Αναγνώρισης Χαρακτήρων απαιτούν βαθμονόμηση για να διαβάσουν μια συγκεκριμένη γραμματοσειρά. Οι πρώτες εκδόσεις ήταν προγραμματισμένες με εικόνες για κάθε χαρακτήρα και δούλευαν μια γραμματοσειρά την φορά. Τα ευφυή συστήματα με υψηλό δείκτη αναγνώρισης είναι πλέον κοινά. Μερικά συστήματα είναι ικανά να αναπαράγουν ακόμη και τις πληροφορίες που δεν είναι κείμενο σε ένα έγγραφο, όπως εικόνες, στήλες, γραμμές, γωνίες κτλ. 7.4 OCR Vs CAPTCHAs Οι πρώτες γενιές CAPTCHAs ήταν πολύ εύκολο να διαβαστούν από τα OCRs. Δεν χρειάστηκε πολύς χρόνος για έμπειρους προγραμματιστές να λάβουν αυτά τα CAPTCHAs και απλά να τα αναγνωρίσουν. Τα τελευταία 10 χρόνια έχει υπάρξει μια μονομαχία μεταξύ OCR προγραμματιστές αναγνώρισης CAPTCHAs και κατασκευαστές CAPTCHAs. 7.5 Σχετικά με τα CAPTCHAs OCRs CAPTCHAs OCRs πωλούνται ως κλειστού κώδικα λογισμικό που χτίστηκε για να χειριστεί μόνο ένα είδος επαλήθευσης. Η εικόνα CAPTCHA εισάγεται και θα επιστρέψει ως έξοδο το αποκωδικοποιημένο κείμενο CAPTCHA. Εάν σχεδιαστεί σωστά, το CAPTCHA OCR μπορεί να επιστρέψει το κείμενο σε λιγότερο από 1 δευτερόλεπτο και να χειριστεί multi-threading

129 7.6 Μελέτη Περίπτωσης To CAPTCHA Solver OCR 1.1 είναι ένα απλό λογισμικό που μπορεί να «διαβάσει» τις εικόνες με κείμενο, και να επιστρέψει πίσω, το ίδιο το κείμενο. Λειτουργεί ικανοποιητικά με εύκολα σχήματα CAPTCHAs. Χρησιμοποιεί τη μηχανή οπτικής αναγνώρισης Tesseract. Η μηχανή οπτικής αναγνώρισης Tesseract αναπτύχθηκε από την HP-UX έως το Από το 1995 αποτελεί και αυτή λογισμικό ανοιχτού κώδικα και υποστηρίζεται από την Google. Τα αποτελέσματα της επίλυσης αποθηκεύονται σε αρχείο. Στις δοκιμές που ακολουθούν Εικόνα 38 βλέπουμε ότι διαβάζει με επιτυχία τρεις από τις τέσσερις προκλήσεις

130 Εικόνα 388 Χρήση του CAPTCHA Solver OCR Επίλυση από τον άνθρωπο Με τις συνεχείς αντιπαραθέσεις που διεξάγονται μεταξύ CAPTCHAs και OCR κατασκευαστών, υπήρξε μια ξαφνική μείωση της διαθεσιμότητας του λογισμικού OCR και υψηλότερη ζήτηση για DeCAPTCHA. Έτσι πολλές εταιρίες αποφάσισαν να χρησιμοποιούν φθηνό ανθρώπινο δυναμικό για να τα αναγνωρίσει. Έχουν στηθεί σε διάφορα σημεία του πλανήτη εταιρίες που απασχολούνται με την αποκωδικοποίηση CAPTCHAs έναντι χαμηλής αμοιβής. Η διαφημιστική εκστρατεία ενοικίασης solvers ανέβηκε κατά τέτοιο τρόπο, ώστε όλο και περισσότεροι άνθρωποι που ζουν σε αναπτυσσόμενες χώρες, άρχισαν να δημιουργούν τέτοιες επιχειρήσεις. Όταν το προσωπικό για εισαγωγή δεδομένων ήρθε στο προσκήνιο ήταν απλώς για να ψηφιοποιεί τα

Δείτε περισσότερα