В кластере «Ломоносов» Анастасия Парфенова, участница исследования устройства, позволяющего оценить когнитивную нагрузку при чтении инструкций / Фото: Пелагия Замятина / Вечерняя Москва

Доцент Михаил Петровский: Большие данные растут в цене как нефть

Общество

22 мая в Москве в седьмой раз пройдет техническая конференция для инженеров машинного обучения, продуктовых и дата-команд. Информационную поддержку мероприятию оказывает Ассоциация больших данных. Кстати, по прогнозам ассоциации, рынок больших данных к 2030 году составит не менее 1,2 триллиона рублей. Как собирают, хранят и используют большие данные, «Вечерняя Москва» узнала у эксперта.

О больших данных заговорили в середине 2000-х, когда объемы информации, используемой для вычислений и анализа, начали стремительно расти. Сегодня большие данные используются повсеместно: в здравоохранении, бизнесе, телекоммуникации. Как происходит сбор, хранение и анализ больших данных, «Вечерней Москве» рассказал Михаил Петровский — доцент факультета вычислительной математики и кибернетики МГУ имени М. В. Ломоносова.

— Михаил, что такое большие данные?

— Это термин относится не столько к самим данным и их размеру, а скорее к задаче их обработки. Такая задача требует высокой скорости работы с массивами информации значительного объема, обычно сложной или разнородной структуры, и, зачастую, сами данные могут быть низкого качества, то есть содержать пропуски, противоречия, ошибки и так далее. Сейчас относительно стандартный объем больших данных измеряется петабайтами, то есть тысячами терабайт.

— Как и откуда собирают большие данные?

— Есть несколько основных источников. Первый — это мониторинг или наблюдение, например, за технологическими процессами или физическим явлением, экспериментом, которое порождает большие объемы разнородной информации в реальном времени. Второй — все, что связано с обработкой пользовательского контента: текстов, фотографий, видео. Третий — взаимодействие внутри сетевых сообществ.

Помимо социальных сетей сюда можно отнести и коммерческие истории, например, банки хранят и анализируют историю взаимодействия клиентов. И последний важный источник — поведенческие данные, так называемый цифровой след. Например, при покупке в магазине вы использовали скидочную карту. И магазин с помощью нее отслеживает и анализирует вашу покупательскую активность и предпочтения.

— Как поменялась работа с анализом данных начиная с 2000-х годов?

— Тогда было представление о необходимости централизованных хранилищ подготовленных высококачественных данных, которые заполнялись из внешних источников. На их основе создавались «витрины», то есть срезы данных, с которыми работали аналитики. Тогда в аналитическом процессе были задействованы три типа специалистов.

Первый — аналитик-прикладник, который мог спроектировать хранилище, витрину и поставить задачи другим аналитикам. Второй — аналитик-программист, который по техзаданию писал код заполнения хранилищ и витрин, код процедуры очистки и исправления данных. Третий — аналитик-математик, который с использованием готовых витрин строил в соответствии с поставленной задачей модели для анализа или поддержки принятия решений.

Сейчас считается, что со всем этим работает один тип специалиста — дата-сайентист. Ведь с появлением проблемы «больших данных» оказалось, что из-за объемов, скорости, разнородности и низкого качества информации централизованное хранилище невозможно создать. Появилось понятие «озеро данных». Это инфраструктура для хранения данных из разнородных источников.

— Как искусственный интеллект (ИИ) повлиял на обработку больших данных?

— Эти направления долго развивались параллельно. Изначально большие данные были не про аналитику. Они решали задачу быстрого сохранения и чтения информации. Дело в том, что за время развития вычислительной техники, с середины прошлого века, производительность процессоров стремительно росла. Почти столь же быстро росли объемы и скорость доступа в оперативную память. Также увеличивалась пропускная способность и скорость сетей передачи данных. Но у систем хранения всегда были ограничения.

Жесткие диски — как бутылочное горлышко. То есть мы можем большой объем информации быстро сгенерировать, допустим, снять видео на телефон. Можем быстро по сети его передать. А дальше заминка — мы не можем его быстро записать на диск.

Тогда пошли очевидным путем: если нельзя быстро записать большой объем на одном устройстве, то это можно сделать параллельно на нескольких, разбив данные на части поменьше. Первые технологии больших данных были направлены на то, чтобы быстро и надежно за счет избыточности хранения записывать и считывать информацию в распределенных вычислительных системах, и в случае выхода отдельных узлов такой системы из строя ничего не потерять. А когда на копились большие объемы данных, стало понятно, что в них есть полезная информация и ее можно использовать для интеллектуального анализа данных.

Но проблема в том, что аналитические алгоритмы в большинстве своем не ориентированы на работу с распределенным хранением, где у каждого устройства есть свой вычислительный блок, процессор и оперативная память, и таких узлов и хранилищ могут быть сотни и тысячи.

— Какие задачи сейчас стоят в сфере больших данных?

— В первую очередь прогнозирование. Когда у нас есть выборка данных, мы ищем в них зависимости, которые позволяют объяснить поведение важных нам признаков в зависимости от других.

Например, распознавание лица человека или его эмоций по видео, задача прогнозирования стоимости биткоина и другие. Помимо этого с помощью больших данных можно строить описательные модели, где не задается целевой признак, а ищутся произвольные зависимости.

Типичный пример — задача безопасности, вы пользуетесь банковской карточкой, и банк строит описательную модель для вас и похожих на вас клиентов, чтобы выявлять нетипичные операции, при обнаружении которых он может либо связаться с вами и уточнить детали, либо сразу заблокировать счет или карту для предотвращения мошенничества.

— Почему так ценен рынок больших данных?

— Данные — это новая нефть. Собирая информацию и анализируя ее с помощью методов интеллектуального анализа, ИИ, можно находить полезные закономерности, которые создают новые знания либо позволяют оптимизировать процесс поддержки принятия решений. Они позволяют улучшать существующие процессы управления и создавать новые. С точки зрения экономики они могут приносить прибыль, причем большую. И поэтому собранные данные обладают высокой стоимостью.

ДОСЬЕ

Михаил Петровский — доцент, ученый секретарь кафедры интеллектуальных информационных технологий ВМК МГУ. Автор и соруководитель магистерской программы «Интеллектуальный анализ больших данных». Сертифицированный специалист РМР (Project Management Professional). Награжден медалью РАН за лучшую работу молодого ученого в области информатики.

amp-next-page separator