"яндекс" блокировал изображения Путина, когда пользователи искали "бункерного деда". И нацистские символы - когда они искали Z Что "медуза" узнала из новой утечки "яндекса". Предупреждаем: много мата
"Яндекс" блокировал изображения Путина, когда пользователи искали "бункерного деда". И нацистские символы - когда они искали Z Что "Медуза" узнала из новой утечки "Яндекса". Предупреждаем: много мата 🤬
07:24, 30 января 2023Источник: Meduza
На прошлой неделе произошла масштабная утечка исходного кода сервисов "Яндекса" (компания сама ее подтвердила). Неизвестный обнародовал архивы внутреннего репозитория "Яндекса". Изучив их, можно узнать много новых деталей о том, как устроен крупнейший российский поисковик, который в последние годы постоянно критикуют за сотрудничество с Кремлем. Из утечки, в частности, выяснилось, что "Яндекс" цензурирует поисковую выдачу картинок и видео - так, чтобы изображения Путина и символы Z не появлялись в неприятных для властей контекстах.
Цензурирование запросов пользователей
Когда вы ищете картинки в "Яндексе", в некоторых случаях ваш поисковый запрос автоматически корректируется: компания изымает часть изображений из поисковой выдачи.
За это отвечает специальное правило внутреннего сервиса "Бегемот" под названием ImgPatch (дословно - исправление изображений). Вот такое описание этого правила можно увидеть в его коде:
Позволяет организовать быстрый бан картинок и видео при помощи правки исходных запросов. От небольших изменений до полной переформулировки.
Чаще всего исправления применяются для того, чтобы убрать из выдачи "Яндекса" порнографические фото и видео (особенно детские). На втором месте по количеству заведенных правил - изъятие изображений президента РФ Владимира Путина. Раньше других на это обратил внимание пользователь твиттера @bantg.
Защита Путина
"Яндекс" постарался, чтобы на изображение действующего российского президента нельзя было наткнуться при поиске по отдельным словам:
пиздабол
плешивый
хуйло / хуйла / хуйлы / хуило / хуила
А также словосочетаниям:
бункерный дед
главный вор
гондон всея руси
хуй в скафандре
xуйло в проруби
И целым предложениям:
как выглядят педофилы
когда он сдохнет
странное создание машет рукой
Эти правила должны применяться вне зависимости от того, в какой стране находится пользователь. Мы не знаем, когда они появились и действуют ли до сих пор. Перед выходом этого материала нам удалось найти изображения российского президента в поиске "Яндекса" по всем запросам, кроме хуй в скафандре (если не уточнять, что мы ищем именно Путина).
"Медуза" в России теперь не только "иноагент", но еще и "нежелательная" организация. Этот статус гораздо хуже прежнего. Тем не менее мы продолжаем работать. Нас по-прежнему можно читать. Это безопасно. Здесь - все ответы на тревожные вопросы.
Защита символа Z
"Яндекс" оберегает от неприятных ассоциаций и букву Z, ставшую символом российской войны против Украины (и запрещенную в некоторых европейских государствах). Пользователи "Яндекса" не должны увидеть символику нацистской Германии по запросам со словами символ z или z спецоперация логотип. Для этого "Яндекс" автоматически добавляет к ним множество разных заминусованных слов:
Проверить, функционирует ли правило до сих пор, труднее. В случае с Путиным программа должна блокировать изображение президента РФ, если пользователь ищет конкретное слово, словосочетание или предложение. В случае с Z искать программе приходится "запрещенные" символы, что сложнее. Наберите в поиске символ z или z спецоперация логотип - и вы можете встретить в выдаче, например, свастику; но неизвестно, связано ли это с тем, что фильтр уже выключен или он просто плохо работает.
ЧИТАЙТЕ ТАКЖЕ
Буква Z - официальный (и зловещий) символ российского вторжения в Украину. Мы попытались выяснить, кто это придумал, - и вот что из этого получилось
Два последних слова в черном списке капчи
В утечке можно найти списки запрещенных и разрешенных слов для использования в капче "Яндекса".
Запретный список начинается со слов пиндосы!, смерть, смертью, google - а заканчивается словами львов и сдаться. Он не отсортирован по алфавиту: отдельные новые запретные слова или списки, скорее всего, записывали в конец файла.
captcha.tar.bz2: data/blacklist_ru.txt
captcha.tar.bz2: data/blacklist_ru.txt
Оба последних слова, по-видимому, внесли в список после начала полномасштабного вторжения России в Украину. Слово сдаться могли забанить, чтобы его случайно не расценили как скрытый призыв; попадание в список слова львов также трудно объяснить вне военного контекста. Ни в черном, ни в белом списке нет имен собственных, но львов - это одновременно и название города на западе Украины, и родительный падеж множественного числа слова "львы". Ни в каких других формах (львы, львам, львами, львах) это слово в черном списке не встречается, а в белом, наоборот, можно найти это слово в другой форме (львам), а также несколько однокоренных (львиная, львиного и др.).
Так что, по всей вероятности, внести слово львов в запрещенный список могли только из-за его омонима - города Львова, который подвергается ракетным ударам российских войск с самого начала войны.
Обновлено. "Яндекс" 30 января опубликовал первые результаты своего расследования утечки исходного кода. В них говорится, в частности, что в некоторых случаях логику работы сервисов корректировали не алгоритмическим способом, а "костылями". "Через такие "костыли" исправляли отдельные ошибки системы рекомендаций, которая отвечает за дополнительные элементы поисковой выдачи, и регулировали настройки поиска по картинкам и видео", - заявила компания.
Мы замучились бороться Как российское вторжение в Украину раскололо "Яндекс". Расследование Светланы Рейтер