Аналитика и комментарии

22 июля 2019

Тимофей Костин, Experian: Миллениалы все охотнее делятся поведенческими данными

О том, какую роль и значение Big Data приобретает сегодня для российского банковского сектора и не только, о происходящих в последние годы изменениях и будущих тенденциях, о появлении "песочниц данных" и специалистах Big Data, NBJ поговорил с Тимофеем Костиным, глобальным бизнес-консультантом компании Experian, у которого за плечами большой опыт участия в проектах, связанных с Big Data как для европейского, так и для отечественного банковского рынков.

–Тимофей, наш первый вопрос будет такой – применительно к банковскому бизнесу что же все-таки из себя представляют Big Data, и в чем состоит их специфика на сегодняшний день?

Многие участники рынка до сих дискутируют о сущности Big Data. По моему мнению, под Big Data сегодня следует понимать, экосистему, состоящую из множества слабо связанных и, часто, не структурированных данных и аналитических инструментов, с помощью которых возможно использовать эти данные для принятия бизнес-решений.

Наша жизнь становится все быстрее, а время актуальности информации – все короче. Поэтому, работая с Big Data важно научится извлекать полезную и нужную информацию максимально быстро, не тратя время на обработку и структурирование данных. Именно это (скорость и отсутствие предобработки) отличает работу с большими данными от работы с традиционными хранилищами. Важной характеристикой Больших данных является их так называемая "разреженность"...

Некоторые компании говорят: "Давайте возьмем записи cookies из браузера клиента, объединим их с информацией телекомов и на все это "наложим" поисковые запросы, которые вводил клиент, и посчитаем его уровень риска" - отличная идея, помогающая сократить и время принятия решения и объем информации, запрашиваемой у клиента. Но дальше слышим: "Надо только предварительно привести эти данные к единому структурированному виду, проанализировать и объединить в одной таблице…". Вот тут выясниться, что вся эта обработка займет значительно больше времени, чем время актуальности этих данных. А часть данных вообще не может быть нормально структурирована в силу особенностей своего происхождения.

 – Что такое "разряженность" данных?

– "Разреженность" - эта характеристика данных, проявляющаяся в том, что вектор данных содержит не все значения, а только некоторые и заполненных значений намного меньше, чем общая размерность вектора.

Приведу простой пример. Сейчас все пытаются анализировать максимально широкий набор данных о клиенте, используют разные источники. Предположим, банк использует несколько источников информации о своих клиентах: Внутренние системы, БКИ, телекомы, данные из интернета и т.п. В каждом источнике данные о клиенте могут присутствовать полностью, частично или отсутствовать вообще. По одному клиенту есть информация в 7-и источниках, по второму – в 4-х, по третьему только в одном. В результате общий вектор данных о клиенте может быть заполнен только на 10%. Получаются разреженные данные.

 – А какие источники Big Data сегодня доступны участникам рынка? Все ли находятся в одинаковых условиях?

 Источники многообразны, но их набор примерно одинаковый для всех. Данные об оплате услуг сотовой связи, коммунальных платежей, штрафов ГИБДД, информация поисковых систем, геопозиционирования и т.п. Все это сильно теснит традиционные данные (например, кредитных бюро) при анализе клиента. Большинство альтернативных источников содержит слабоструктурированные, разреженные данные.

Уникальными данными, которыми располагают банки, является информация о транзакциях клиента. Однако, развитие платежей через интернет-ресурсы, сделало большую часть таких транзакций доступными фин-тех компаниям, а через них и другим участникам рынка.

В Европе в 2018 году начала действовать директива PSD2, сделавшая доступ к транзакциям клиента возможным для любых банков и компаний со специальной лицензией, получивших разрешение клиента. Объем информации для всех игроков стал единым. Что привело к обострению конкуренции в части анализа и использования данных.

В России пока нет аналогичных законов, но разговоры о них идут и стоит ожидать чего-то подобного в ближайшем будущем. Но уже сейчас банки могут использовать много источников информации о существующих и потенциальных клиентах. Клиенты оставляют свои "следы" в разных системах, эти данные можно собрать и сделать доступными для всех желающих. Актуальный вопрос сегодня: какие именно источники необходимы для решения текущих задач компании?

Возьмем страхование жизни. Конечно, интересно знать какую кредитную нагрузку имеет клиент на момент обращения за оформлением полиса, и какая просроченная задолженность у него была. Но намного важнее получить информацию о количестве обращений клиента в поликлинику, его заболеваниях и т.п. Однако, эта информация (о посещениях врачей) не так интересна телекоммуникационным компаниям, потому что она мало влияет на то, как клиент использует мобильную связь и какие услуги он подключает.

– Давайте поговорим о перспективах использования Big Data. Каковы они для российских банков?

– Данные Big Data будут играть все большую роль. Это обусловлено, с одной стороны, потребностями рынка использовать альтернативные источники данных, и, с другой стороны, изменением платежного поведения клиентов. Поколение миллениалов все меньше готово взаимодействовать с банком в офисе, но охотно предоставляет доступ к своим поведенческим данным (включая отслеживание геопозиционирования и прочее), если это улучшает качество предоставляемых услуг, обеспечивает безопасность и быстроту проведения операций и позволяет получать лучшие предложения.

Сегодня важно уметь собирать именно такие поведенческие данные и использовать их для принятия решений в рамках одной модели, заменяя отсутствие данных в одних источниках обработкой данных из других. В идеале система должна быть независима от заполненности общего вектора. Отсутствие кредитной истории не должно приводить к оценке клиента банком хуже (или лучше), чем клиента с кредитной историей. Принцип работы с Big Data состоит в умении извлечь необходимые предиктивы из любого набора данных.

– А что вы можете казать об инструментах работы с Big Data?

– Существует множество инструментов, позволяющих работать с Big Data. Это системы объединения и обработки, типа Hadoop, Pig, Hive, Hbase и т.п., и аналитические инструменты: Python, R, Н2O…, реализующие анализ Big Data методами глубокой аналитики и искусственного интеллекта.

Одним из интересных явлений сегодня являются так называемые Sand-Box (песочницы). Это не обычные базы данных, а специальные области хранения, в которые могут быть загружены разные данные. Пользователю предоставляются инструменты загрузки собственных данных, объединения их с данными, содержащимися в песочнице, их анализу и использованию для построения моделей.

– Песочницы – это новые корпоративные хранилища или что-то другое?

– Песочницы могут быть реализованы внутри компании, как собственный проект. Но в этом случае объем данных может быть ограничен, так как их приобретение, обновление и обработка требуют не только временных, но больших финансовых вложений, а также решения юридических вопросов.

Другой подход: песочница может быть организована внешней компанией. Например, это может быть БКИ или фин-тех компания. В этом случае все финансовые затраты банка сводятся к оплате ежемесячной подписки. Остальное берет на себя владелец песочницы: обезличивание данных, их связь между собой и с данными клиента, обеспечение конфиденциальности работы каждого пользователя песочницы и т.д.

Используя песочницу, любая компания может без серьезных затрат попробовать поработать с большими данными и определить для себя: какие из них и для каких задач могут быть использованы, дают ли они какой-то бизнес эффект и насколько могут улучшить взаимодействие с клиентами.

Эти вопросы совсем не праздные. Многие компании, включая банки, зачастую начинают собственные проекты на волне энтузиазма и думают, что "вот сейчас мы загрузим к себе много разных данных и сразу все поймем о своих клиентах!" В большинстве случаев такие проекты или заканчиваются безрезультатно, или длятся до сих пор без серьезных достижений. Основные проблемы связаны с тем, что использование больших данные требует изменения не только инструментов моделирования, но и смену всей парадигмы обработки данных о клиентах.

– Получается, что использования "внешних" песочниц предпочтительнее для банков?

– Крупные банки могут создавать собственную "песочницу" и платить за данные, которые туда загружаются, и их обработку. Для небольших банков, микрофинансовых компаний и даже крупных, но которые не хотели бы тратить значительные средства на "попробовать" Big Data, использование внешних песочниц более эффективно.

Поскольку, во-первых, данные загружаются туда регулярно и проходят контроль качества (как минимум отсекается некорректная информация, происходит обезличивание). Во-вторых, обеспечивается "привязка" данных из разных источников к единому идентификатору, что позволяет объединять данные между собой. В-третьих, пользователю доступен широкий набор инструментов для работы с песочницей без покупки дополнительных лицензий.

– Какие возможности предоставляют внешние песочницы для своих пользователей?

– Все песочницы включают средства анализа и построения отчетов, а также инструменты аналитического моделирования. Инструменты отчетности позволяют банку получить знания о своих и потенциальных клиентах, их поведении в сравнении с рынком, имеющиеся в альтернативных источниках характеристики и т.п. Аналитический инструментарий позволяет самостоятельно построить аналитические модели, которые в дальнейшем можно экспортировать и использовать в процессах банка. Это позволяет получить больше информации для принятия бизнес решений и выстраивать эффективные взаимоотношения с клиентами.

– Давайте отвлечемся от песочниц и поговорим о том, какие проблемы возникают у российских банков при использовании Big Data?

– Я бы разделил все возникающие сложности на две категории – в зависимости от уровня понимания банками принципов работы с Big Data.

Первая категория – сложности, возникающие у банков, не до конца понимающих, что такое Big Data и пытаются работать с ними как с обычными данными (загрузить их в хранилище, структурировать и .п.). Это требует много времени, не всегда реализуемо и приводит к неактуальности данных. Плюс, стоимость инфраструктуры и программно-аппаратных средств для реализации таких проектов очень высока.

Вторая категория сложностей возникает у понимающих что такое Big Data банков на этапе моделирования. Пытаясь оценить различные источники по отдельности, банк создает много моделей. Результаты работы разных моделей часто противоположны. В итоге, банку сложно определиться с тем, как эти модели использовать.

 – Нужны ли рынку для устранения всех этих сложностей особые специалисты? И если да, то какими они должны быть?

– Несомненно, нужны. Это люди, которые объединяют в себе несколько специальностей. С одной стороны, это программисты, они должны уметь обращаться с данными и обрабатывать их. С другой стороны, это аналитики – люди с хорошим математическим образованием, понимающие современные методы моделирования, продвинутой аналитики, машинного обучения и искусственного интеллекта. И с третьей стороны, это люди, понимающие бизнес-задачи компании, так как без этого сложно получить требуемый результат. Симбиоз этих 3-х компетенций и дает специалиста, который сможет эффективно работать с Big Data.

Одна из основных проблем в некоторых российских банках сегодня как раз и сводится к тому, что аналитики строят отличные скоринговые модели, которые зачастую не могут быть использованы (не применимы) на практике, потому что эти люди не до конца понимают поставленную перед ними бизнес-задачу. Любая бизнес-задача имеет определенные бизнес-ограничения и "вводные", которые нужно учитывать при построении модели.

- На сегодня это уникальные специалисты?

– Не совсем. Мой опыт общения с коллегами и клиентами, показывает, что такие люди на нашем рынке есть. Они востребованы и успешны. Появление такого человека в проекте Big Data зачастую является необходимым и достаточным фактором успеха.

 – Можете привести пример успешного проекта по работе с Big Data из Вашего собственного опыт?

Да, не так давно рынку были представлены "электронные помощники", которые отслеживая активность клиентов на сайтах дилеров автомобильной компаний. Анализируя переходы пользователя по страницам, система автоматически идентифицируют интерес клиента к покупке автомобиля. Далее производится звонок клиенту роботом и в режиме свободного общения человека с роботом, клиенту оказывается помощь в выборе конкретной модели и модификации, производится кредитная оценка, формируется кредитное предложение и одобряется кредит. После чего клиенту остается приехать в салон, чтобы подписать документы и забрать свой новый автомобиль.

Вся система построена на модели искусственного интеллекта, обработки больших объемов неструктурированных данных и технологиях трансформации голоса в текст и обратно.

Полностью этот материал будет опубликован в печатной версии номера NBJ за июль-август.

Поделиться:
 

Возврат к списку