«Просто информация, только больше»: что такое большие данные, как происходит их сбор и обработка
- Наталья Синеокая
- 26 нояб. 2019 г.
- 2 мин. чтения
Обновлено: 18 дек. 2019 г.

Несмотря на то, что Big data или большие данные - один из главных IT-трендов последних лет, смысл этого сочетания для многих остается загадкой. Кирилл Косолапов, преподаватель Факультета Компьютерных Наук НИУ ВШЭ и директор компании Data4, объяснил, чем отличаются большие данные от «небольших», как собирают и обрабатывают Big data.
– Что отличает Big data от всех других данных?
– Нет четкого критерия, который отличает большие данные от небольших. Если говорить максимально приближенно, то большие данные – это такие данные, которые нельзя обработать на персональном компьютере или одном сервере. Для их обработки требуется множество серверов или компьютеров. Также к большим данным часто относят неструктурированную информацию, которая представлена не в таблицах, а в иных формах. Применяются такие данные, например, в рекомендательных системах. На сайтах таких магазинов, как WILDBERRIES или OZON, стоит датчик, который отслеживает, какие товары вы открывали. Сравнивая ваше поведение с поведением других посетителей сайта, можно прогнозировать, какой товар вам понравится, то есть давать персональные товарные рекомендации.

– Как собирают большие данные?
– Как я уже сказал, большие данные – это просто информация, только больше. Собираются они через так называемые СУБД [Системы управления базами данных]. К примеру, есть CRM-система [Customer Relationship Management – система управления взаимоотношения с клиентами] в бизнесе. Если человек звонит в компанию, то менеджер отмечает, что он звонит с определенным запросом. Когда вы заходите на сайт и производите действия, например, нажимаете кнопку «купить», это тоже сохраняется. Если компания крупная, как Сбербанк, Яндекс, Mail, то много пользователей этой компании совершают много действий, а много действий приводят к большим данным. Возможен сбор данных через датчики в промышленности. К примеру, при производстве самолетов. На каждом двигателе тысячи, если не десятки тысяч датчиков, которые собирают информацию о том, как он себя ведет в тех или иных условиях. И это тоже большие данные. Когда данные собраны, их нужно аналитически обработать.
– Как происходит обработка больших данных?
– С обработкой больших данных возникает сложность. Они настолько большие, что распределены на многих компьютерах, и чтобы их обработать, существует специальное программное обеспечение. С его помощью нужно сделать запрос со многих компьютеров, разобраться между серверами, чтобы ничего не сломалось. В этом отличие от обычных баз данных, при работе с которыми делается простой запрос, и система выдает то, что сохранилось в таблице. В базе данных на Big data все хранится на разных серверах, и каждый сервер делает определенную операцию с этими данными.

К примеру, есть сто терабайт информации, и нужно исходя из этих данных выяснить, как себя вели мужчины старше сорока лет, которые в воскресенье были на вашем сайте. Инструменты работы с большими данными выберут эту информацию.
Так что если нужно получить новую информацию, настроить, допустим, банковский скоринг [способ оценки кредитоспособности], то на выход надо поставить алгоритм машинного обучения. Он и будет делать прогнозы.
Comments