reCAPTCHA: как вы, сами того не зная, помогаете оцифровывать старые книги

Пользуясь случаем, от имени всей читающей публики я хочу горячо вас поблагодарить: ведь это именно вы, да-да, представьте себе, именно вы тот безвестный герой, который помогает сохранить и распространить литературное наследие человечества. Сами-то вы, скорее всего, не отдаете себе в этом отчета. Так знайте же: помогает вам в этом благородном деле обыкновенная капча – ну, вернее, не совсем обыкновенная. Но прежде чем рассказать об этом помощнике, позвольте на всякий случай сказать несколько слов в качестве вступления для тех, кто вообще не знает, что такое капча и зачем она была придумана.

Что такое капча и зачем она нужна

Вообще некрасивым словом «капча» называется несложный тест Тьюринга: такая задачка, с которой человек легко справится, а вот компьютер уже нет. Именно для этого она и была придумана: отделять зерна от плевел, агнцев от козлищ, короче говоря, людей от роботов.

Обычно в качестве капчи используется картинка с несколькими цифрами или буквами, искаженными настолько, что человек их еще опознает, а вот искуственный интеллект станет в тупик. Ну, каждый сталкивался с такой штукой: ответив, что видите на картинке, вы тем самым показываете системе, что являетесь живым человеком, а не специальной зловредной программой, предназначенной скажем, для рассылки спама другим пользователям.

Обычно капча всех раздражает – кому же охота разбирать эти каракули. Но, как я и сказал, с ее помощью вы можете внести свой посильный вклад в сохранение культурного наследия человечества. Причем сами того не подозревая.

Только поможет вам в этом не какая-нибудь первая попавшаяся капча, а специальная, которая называется reСAPTCHA. Отличить от других ее просто: она просит вас распознать не одно, а целых два слова. И самое интересное здесь то, что одно из двух предлагаемых слов неизвестно самой системе!

Вот, предположим, вам показывают такую картинку:

Очевидно, от вас хотят получить ответ: «emacs you». Но даже если вы по какой-то причине вместо правильного ответа введете «emacs something», или «emacs Pushkin», или даже «emacs синхрофазотрон», то роботом вас не сочтут: проверка в этой капче идет лишь по одному слову (в данном случае, по первому). А второе слово системе неизвестно – так она и не может определить, верно ли вы его ввели.

И тут встает закономерный вопрос: для чего же тогда нужно второе слово?

Отвечаем. Тот факт, что современный искусственный интеллект плохо справляются с распознаванием искаженного текста, имеет и негативную сторону. Ведь из далекой доцифровой эпохи до нас дошли миллионы бумажных книг (некоторые лишь в одном экземпляре), тексты которых денно и нощно сканируются специальными сканерами и распознаются специальными распознавателями ради высокой цели сделать наследие прошлого доступным для всех пользователей интернета.

Но вот беда, иногда старые книги или газеты находятся в весьма плачевном состоянии: часто роботы не могут разобрать, что же написано на их страницах. Человек бы справился, но вычитывать все вручную – слишком дорогое удовольствие.

Например, вот это мы с грехом пополам еще прочтем:

А робот, даже если поднатужится, увидит лишь такую кашу:

Но хитрые сотрудники некого частного университета Карнеги-Меллон нашли простое, как и всё гениальное, решение этой проблемы: раз уж все равно миллионам пользователей в интернете ежедневно приходится распознавать капчи, пущай-ка они поработают на благо науки. Людям-то, небось, все равно, что распознавать.

Луис фон Ан, доцент тамошней кафедры информатики, говорит, что по самым скромным подсчетам каждый день пользователи распознают более шестидесяти миллионов капч (или капчей?). Цифрами, чтобы подчеркнуть масштаб: 60 000 000 каждый день! Таким образом, по его подсчетам, можно найти прекрасное применение получившимся 150 000 драгоценным часам ежесуточного человеческого труда.

Короче говоря: если капча предложит вам для опознания сразу два слова, знайте: одно из них – это как раз слово из какой-нибудь старой книги или там газеты, которое роботы опознать не смогли. Вот вы им сейчас и поможете.

Обычно легко определить, какое слово известно системе, а какое нет: неизвестное слово не искажается нарочно. Не в интересах капчи мешать вам.

Если же вы решите напакостить системе и введете неправильное значение, должен вас огорчить: ваше коварство пропадет втуне. Единичному пользователю веры нет, и это же слово покажут еще многим людям. Самый частый их ответ система и сочтет правильным.

Кстати, с 2012 года с помощью реКАПЧИ вы помогаете распознавать не только старые книги, но и непонятные роботам фрагменты уличных панорам Гугла (как правило, это фотографии с номерами домов). Гугл (который, как и положено империи зла, уже успел подгрести под себя беззащитную реКАПЧУ) обещает, что в дальнейшем разнообразит ее чем-нибудь еще.

А теперь взглянем на это с другой стороны.

Далеко не все книги, распознанные с вашей помощью, вы сами сможете потом найти в свободном доступе. За право прочитать подавляющее большинство из них читателям придется платить свои кровные доллары, которые широким потоком вольются в карманы Гугла. А вот вы, несмотря на свой неоценимый вклад в оцифровку, не получаете за работу ни копейки. Некоторых людей это раздражает прямо-таки до зубовного скрежета – не все готовы работать за идею. А, скажем, лично мне кажется, что Гугл предоставляет нам столько бесплатных сервисов, что совсем не грех потратить несколько секунд, чтобы отплатить ему добром.

Но не все разделяют такую альтруистическую точку зрения: возникают даже карательные флешмобы, участники которых договариваются всегда сообщать реКАПЧЕ ложное написание отсканированных слов (правда, без особых изысков фантазии: англоязычные шутники обычно используют то, что называется four-letter word, а наши соотечественники отдают предпочтение не менее известному слову из трех букв). Теоретически достаточно большое количество таких злодеев действительно может убедить реКАПЧУ внести указанные слова в распознанный текст. Уж не знаю, имеет ли эта затея успех в действительности.

Что ж, мне хотелось бы посмотреть на подобного борца с капиталистами-эксплуататорами, которого нужда заставит купить-таки право доступа к очень важной книге и который вместо нужной информации найдет там лишь следы собственных пакостей. Как известно, у высших сил тоже есть чувство юмора. И давайте никогда об этом не забывать.

reCAPTCHA: как вы, сами того не зная, помогаете оцифровывать старые книги

Что такое капча и зачем она нужна

Интересное по теме