Фото: Скриншот «Яндекс поиск по архивам»

Нейросети «Яндекса» помогут найти информацию в архивах «Вечерней Москвы» за 100 лет

Общество

В честь столетнего юбилея газеты «Вечерняя Москва» в сервисе Яндекса «Поиск по архивам» появился полный оцифрованный архив издания.

Журналисты, историки и все заинтересованные пользователи не только получат свободный доступ к более чем 30 тысячам номеров газеты, но и смогут легко находить в них информацию с помощью текстовых запросов. Например, в каком году число автомобилей в Москве достигло 4,4 тысячи, в скольких магазинах столицы в 1943-м можно было купить горячий кофе и почему в 60-х врачебные халаты и простыни в больницах стали делать зелеными.

Проект реализован в рамках партнёрства «Яндекса» с «Вечерней Москвой» и Национальной электронной библиотекой (НЭБ), которая агрегирует и предоставляет пользователям в цифровом формате документы из фондов российских библиотек. Архив «Вечерней Москвы» поступил в НЭБ из фондов Российской государственной библиотеки.

Чтобы реализовать поиск по архивам «Вечерней Москвы», была использована технология распознавания текста «Яндекса». Нейросеть специальным образом адаптировали для работы с версткой газетных страниц. Она может распознавать текст на огромных полосах, часто набранных мелким шрифтом на специфической бумаге низкой плотности, со множеством колонок, врезок и рекламных блоков. На каждой из 170 тысяч страниц архива «Вечерней Москвы» нейросеть выделила десятки, а иногда и сотни блоков: заголовки, абзацы, врезки, а затем превратила их содержимое в текст.

На сайте проекта пользователи могут принять участие в викторине: увидеть статьи «Вечерней Москвы» и попробовать угадать, в каком году они были опубликованы.

amp-next-page separator