reCAPTCHA - reCAPTCHA

reCAPTCHA
RecaptchaLogo.svg
Автор (ы) оригинала
Разработчики) Google
Первый выпуск 27 мая 2007 г . ; 14 лет назад ( 2007-05-27 )
Тип Классическая версия: CAPTCHA
Новая версия: Поведенческий анализ
Веб-сайт www .google .com / recaptcha

reCAPTCHA - это система CAPTCHA , которая позволяет веб-хостам различать человеческий и автоматический доступ к веб-сайтам. В исходной версии пользователям предлагалось расшифровать трудно читаемый текст или сопоставить изображения. Версия 2 также просила пользователей расшифровать текст или сопоставить изображения, если анализ файлов cookie и рендеринг холста предполагал, что страница загружается автоматически. Начиная с версии 3, reCAPTCHA никогда не прерывает работу пользователей и предназначена для автоматического запуска, когда пользователи загружают страницы или нажимают кнопки. reCAPTCHA принадлежит Google .

Первоначальной версией сервиса была платформа для массового сотрудничества, разработанная для оцифровки книг, особенно тех, которые были слишком неразборчивы для сканирования компьютерами . Подсказки проверок используются пары слов из отсканированных страниц, с одним известного словом , используемого в качестве контроля для проверки, а второй используются для краудсорсинга чтения неопределенного слова. reCAPTCHA была первоначально разработана Луисом фон Ан , Дэвидом Абрахамом, Мануэлем Блюмом , Майклом Кроуфордом, Беном Маурером, Колином МакМилленом и Эдисоном Таном в главном кампусе Университета Карнеги-Меллона в Питтсбурге . Она была приобретена Google в сентябре 2009 года. Система помогла оцифровать архивы The New York Times и впоследствии использовалась Google Книгами для аналогичных целей.

Система была сообщена как отображающий более 100 млн CAPTCHAs каждый день, на таких сайтах, как Facebook , TicketMaster , Twitter , 4chan , CNN.com , StumbleUpon , Craigslist (с июня 2008), а также США Национальная администрация по телекоммуникации и связи и информации «с цифровым ТВ веб-сайт программы купонов конвертера (в рамках перехода на DTV в США ).

В 2014 году Google отказался от первоначальной концепции службы, сосредоточив внимание на сокращении количества взаимодействий с пользователем, необходимых для проверки пользователя, и только на представлении проблем распознавания человека (например, идентификация изображений в наборе, удовлетворяющих конкретному запросу), если поведенческий анализ подозревает, что пользователь может быть ботом.

Источник

Распределенные корректоры были первым проектом, который посвятил свое время расшифровке отсканированного текста, который не мог быть прочитан программами оптического распознавания символов (OCR). Он работает с Project Gutenberg для оцифровки материалов, являющихся общественным достоянием, и использует методы, совершенно отличные от reCAPTCHA.

Программа reCAPTCHA была создана гватемальским ученым-компьютерщиком Луисом фон Аном при поддержке стипендии MacArthur Fellowship . Будучи одним из первых разработчиков CAPTCHA, он понял, что «он невольно создал систему, которая растрачивала с шагом в десять секунд миллионы часов самого ценного ресурса: циклов человеческого мозга».

Операция

ReCAPTCHA v1 (распознавание текста с помощью человека)

Пример того, как выглядела задача reCAPTCHA в 2007 году, содержащая слова «отслеживание» и «поиск». Волнистость и горизонтальный ход были добавлены, чтобы повысить сложность взлома CAPTCHA с помощью компьютерной программы.

Отсканированный текст подвергается анализу с помощью двух разных OCR. Любое слово, которое по-разному расшифровывается двумя программами OCR или которое отсутствует в словаре английского языка, помечается как «подозрительное» и преобразуется в CAPTCHA. Подозрительное слово отображается вне контекста, иногда вместе с уже известным контрольным словом. Если человек правильно набирает контрольное слово, то ответ на сомнительное слово считается вероятным. Если достаточное количество пользователей правильно набирают контрольное слово, но неправильно вводят второе слово, которое OCR не может распознать, тогда цифровая версия документов может в конечном итоге содержать неправильное слово. Идентификация, выполняемая каждой программой OCR, оценивается в 0,5 балла, а каждая интерпретация человеком получает полную оценку. Как только данный идентификатор набирает 2,5 балла, слово считается действительным. Те слова, которым судьи-люди постоянно придают единую идентичность, позже используются как контрольные. Если первые три предположения совпадают друг с другом, но не совпадают ни с одним из OCR, они считаются правильным ответом, и слово становится контрольным. Когда шесть пользователей отклоняют слово до выбора правильного написания, слово отбрасывается как нечитаемое.

Первоначальный метод reCAPTCHA был разработан, чтобы показывать сомнительные слова по отдельности, в качестве коррекции вне контекста, а не для использования, например, во фразе из пяти слов из исходного документа. Кроме того, контрольное слово может ввести в заблуждение контекст для второго слова, например, запрос «/ metal / / fife /» вводится как «металлический файл » из-за логической связи подачи с металлическим инструментом, который считается более распространенным, чем музыкальный инструмент " файф ".

В 2012 году reCAPTCHA начала использовать фотографии, сделанные из проекта Google Street View , в дополнение к отсканированным словам.

Google взимает плату за использование reCAPTCHA с тех веб-сайтов, которые делают более миллиона запросов reCAPTCHA в месяц.

CAPTCHA для идентификации изображения

Нет CAPTCHA reCAPTCHA (v2 +)

NoCAPTCHA reCAPTCHA

В 2013 году reCAPTCHA приступила к реализации поведенческого анализа взаимодействий браузера, чтобы предсказать, был ли пользователь человеком или ботом. В следующем году Google начал развертывать новый API reCAPTCHA с функцией «no CAPTCHA reCAPTCHA», при которой пользователям, относящимся к группе низкого риска, нужно всего лишь установить один флажок, чтобы подтвердить свою личность. CAPTCHA все еще может быть представлена, если система не уверена в риске пользователя; Google также представил новый тип задачи CAPTCHA, предназначенный для большей доступности для мобильных пользователей, когда пользователь должен выбрать изображения, соответствующие определенному запросу из сетки.

В 2017 году Google представил новую «невидимую» reCAPTCHA, при которой проверка происходит в фоновом режиме, и никакие проблемы не отображаются вообще, если считается, что пользователь относится к группе низкого риска. По словам бывшего «царя мошенничества с кликами» в Google Шумана Гхосемаджумдера , эта возможность «создает новый вид проблемы, с которой могут справиться даже самые продвинутые боты, но при этом создает гораздо меньше проблем для законного человека».

Срок службы reCAPTCHA v1 истек, и он был закрыт 31 марта 2018 г.

Реализация

Тесты reCAPTCHA отображаются с центрального сайта проекта reCAPTCHA, который предоставляет слова для расшифровки. Это делается через API JavaScript, при этом сервер выполняет обратный вызов для reCAPTCHA после отправки запроса. Проект reCAPTCHA предоставляет библиотеки для различных языков программирования и приложений, чтобы упростить этот процесс. reCAPTCHA - это бесплатная услуга, предоставляемая веб-сайтам для помощи в расшифровке, но программное обеспечение reCAPTCHA не является открытым исходным кодом .

Кроме того, reCAPTCHA предлагает плагины для нескольких платформ веб-приложений, включая ASP.NET , Ruby и PHP , чтобы упростить реализацию службы.

Безопасность

Пример того, как были представлены задачи reCAPTCHA в 2010 году, содержащие слова «и долота»

Основная цель системы CAPTCHA - блокировать спам-боты, разрешая пользователям-людям. 14 декабря 2009 года Джонатан Уилкинс опубликовал документ с описанием слабых мест в reCAPTCHA, которые позволили ботам достичь скорости решения 18%.

1 августа 2010 года Чад Хаук представил на конференции DEF CON 18 Hacking Conference презентацию, в которой подробно описал метод устранения искажения, добавляемого к изображениям, который позволял компьютерной программе определять действительный отклик в 10% случаев. Система reCAPTCHA была изменена 21 июля 2010 г., до того, как Хаук рассказал о своем методе. Хаук изменил свой метод на то, что он назвал «более простой» CAPTCHA, чтобы определить правильный ответ в 31,8% случаев. Хаук также упомянул о средствах защиты в системе, в том числе о блокировке с высокой степенью защиты, если неверный ответ дается 32 раза подряд.

26 мая 2012 года Адам, CP и Джеффбол из DC949 выступили на хакерской конференции LayerOne с подробным описанием того, как им удалось создать автоматизированное решение с точностью 99,1%. Их тактика заключалась в использовании методов машинного обучения, подполя искусственного интеллекта, для анализа аудиоверсии reCAPTCHA, доступной для слабовидящих. Google выпустила новую версию reCAPTCHA всего за несколько часов до их выступления, внося серьезные изменения как в аудио, так и в визуальные версии своего сервиса. В этом выпуске аудиоверсия была увеличена с 8 до 30 секунд, и ее гораздо труднее понять как для людей, так и для ботов. В ответ на это и следующее обновление члены DC949 выпустили еще две версии Stiltwalker, которые превзошли reCAPTCHA с точностью 60,95% и 59,4% соответственно. После каждого следующего перерыва Google обновлял reCAPTCHA в течение нескольких дней. Согласно DC949, они часто возвращались к функциям, которые ранее были взломаны.

27 июня 2012 года Клаудиа Крус, Фернандо Учеда и Леобардо Рейес опубликовали документ, в котором показана система, работающая на изображениях reCAPTCHA с точностью 82%. Авторы не сказали, может ли их система обрабатывать недавние изображения reCAPTCHA, хотя они заявляют, что их работа является интеллектуальной OCR и устойчивой к некоторым, если не всем изменениям в базе данных изображений.

В презентации в августе 2012 года, представленной на BsidesLV 2012, DC949 назвал последнюю версию «невероятно невозможной для людей» - они также не смогли решить их вручную. Организация веб-доступности WebAIM сообщила в мае 2012 года: «Более 90% респондентов [пользователей программ чтения с экрана] считают CAPTCHA очень или несколько сложной задачей».

Критика

Первоначальная итерация reCAPTCHA подвергалась критике как источник неоплачиваемой работы, помогающей в транскрибировании усилий.

Google получает прибыль от пользователей reCAPTCHA в качестве бесплатных сотрудников для улучшения своих исследований в области ИИ.

Конфиденциальность

Текущая версия системы подвергалась критике за то, что она полагалась на файлы cookie для отслеживания и продвигала привязку к поставщику со службами Google; администраторам рекомендуется включать код отслеживания reCAPTCHA на все страницы своего веб-сайта для анализа поведения и «риска» пользователей, который определяет уровень трений, возникающих при использовании запроса reCAPTCHA. Google заявил в своей политике конфиденциальности, что пользовательские данные, собранные таким образом, не используются для персонализированной рекламы. Также было обнаружено, что система отдает предпочтение тем, у кого есть активная учетная запись Google , и демонстрирует более высокий риск для тех, кто использует анонимные прокси-серверы и службы VPN.

Когда Google анонсировал reCAPTCHA v3.0, были высказаны опасения относительно конфиденциальности, поскольку он позволяет Google отслеживать пользователей на веб-сайтах, не принадлежащих Google.

В апреле 2020 года Cloudflare перешла с reCAPTCHA на hCaptcha, сославшись на опасения по поводу конфиденциальности в связи с потенциальным использованием Google данных, которые они собирают с помощью reCAPTCHA, для целевой рекламы и сокращения операционных расходов, поскольку значительная часть клиентов Cloudflare - бесплатные, не платящие клиенты. В ответ Google сообщил журналу PC Magazine, что данные reCAPTCHA никогда не используются в целях персонализированной рекламы.

Доступность

В справочном центре Google говорится, что reCAPTCHA не поддерживается для слепоглухих , что фактически блокирует доступ таких пользователей ко всем страницам, использующим сервис. Однако в настоящее время reCAPTCHA имеет самый длинный список соображений доступности среди всех служб CAPTCHA.

Интерфейс

В одном из вариантов задач CAPTCHA изображения не выделяются постепенно, а затемняются при нажатии и заменяются новым изображением, которое постепенно появляется, напоминая « ударить моль» .

Критика была нацелена на то, как долго изображения исчезали и появлялись.

Производные проекты

рекапчи также создал проект Mailhide, который защищает адреса электронной почты на веб - страницах от того собирают на спамеров . По умолчанию адрес электронной почты был преобразован в формат, который не позволял поисковому роботу видеть полный адрес электронной почты; например, mailme@example.com был бы преобразован в mai ... @ example.com. Затем посетитель нажимал на «...» и вводил CAPTCHA, чтобы получить полный адрес электронной почты. Можно также отредактировать код всплывающего окна, чтобы адрес не был виден. Поддержка Mailhide была прекращена в 2018 году, поскольку он полагался на reCAPTCHA v1.

использованная литература

дальнейшее чтение

внешние ссылки