Аналитика и комментарии
Тимофей Костин, Experian: Миллениалы все охотнее делятся поведенческими данными
О том, какую роль и значение Big Data приобретает сегодня для российского банковского сектора и не только, о происходящих в последние годы изменениях и будущих тенденциях, о появлении "песочниц данных" и специалистах Big Data, NBJ поговорил с Тимофеем Костиным, глобальным бизнес-консультантом компании Experian, у которого за плечами большой опыт участия в проектах, связанных с Big Data как для европейского, так и для отечественного банковского рынков.
–Тимофей, наш первый вопрос будет такой – применительно к банковскому бизнесу что же все-таки из себя представляют Big Data, и в чем состоит их специфика на сегодняшний день?
– Многие участники рынка до сих дискутируют о сущности Big Data. По моему мнению, под Big Data сегодня следует понимать, экосистему, состоящую из множества слабо связанных и, часто, не структурированных данных и аналитических инструментов, с помощью которых возможно использовать эти данные для принятия бизнес-решений.
Наша жизнь становится все быстрее, а время актуальности информации – все короче. Поэтому, работая с Big Data важно научится извлекать полезную и нужную информацию максимально быстро, не тратя время на обработку и структурирование данных. Именно это (скорость и отсутствие предобработки) отличает работу с большими данными от работы с традиционными хранилищами. Важной характеристикой Больших данных является их так называемая "разреженность"...
Некоторые компании говорят: "Давайте возьмем записи cookies из браузера клиента, объединим их с информацией телекомов и на все это "наложим" поисковые запросы, которые вводил клиент, и посчитаем его уровень риска" - отличная идея, помогающая сократить и время принятия решения и объем информации, запрашиваемой у клиента. Но дальше слышим: "Надо только предварительно привести эти данные к единому структурированному виду, проанализировать и объединить в одной таблице…". Вот тут выясниться, что вся эта обработка займет значительно больше времени, чем время актуальности этих данных. А часть данных вообще не может быть нормально структурирована в силу особенностей своего происхождения.
– Что такое "разряженность" данных?
– "Разреженность" - эта характеристика данных, проявляющаяся в том, что вектор данных содержит не все значения, а только некоторые и заполненных значений намного меньше, чем общая размерность вектора.
Приведу простой пример. Сейчас все пытаются анализировать максимально широкий набор данных о клиенте, используют разные источники. Предположим, банк использует несколько источников информации о своих клиентах: Внутренние системы, БКИ, телекомы, данные из интернета и т.п. В каждом источнике данные о клиенте могут присутствовать полностью, частично или отсутствовать вообще. По одному клиенту есть информация в 7-и источниках, по второму – в 4-х, по третьему только в одном. В результате общий вектор данных о клиенте может быть заполнен только на 10%. Получаются разреженные данные.
– А какие источники Big Data сегодня доступны участникам рынка? Все ли находятся в одинаковых условиях?
– Источники многообразны, но их набор примерно одинаковый для всех. Данные об оплате услуг сотовой связи, коммунальных платежей, штрафов ГИБДД, информация поисковых систем, геопозиционирования и т.п. Все это сильно теснит традиционные данные (например, кредитных бюро) при анализе клиента. Большинство альтернативных источников содержит слабоструктурированные, разреженные данные.
Уникальными данными, которыми располагают банки, является информация о транзакциях клиента. Однако, развитие платежей через интернет-ресурсы, сделало большую часть таких транзакций доступными фин-тех компаниям, а через них и другим участникам рынка.
В Европе в 2018 году начала действовать директива PSD2, сделавшая доступ к транзакциям клиента возможным для любых банков и компаний со специальной лицензией, получивших разрешение клиента. Объем информации для всех игроков стал единым. Что привело к обострению конкуренции в части анализа и использования данных.
В России пока нет аналогичных законов, но разговоры о них идут и стоит ожидать чего-то подобного в ближайшем будущем. Но уже сейчас банки могут использовать много источников информации о существующих и потенциальных клиентах. Клиенты оставляют свои "следы" в разных системах, эти данные можно собрать и сделать доступными для всех желающих. Актуальный вопрос сегодня: какие именно источники необходимы для решения текущих задач компании?
Возьмем страхование жизни. Конечно, интересно знать какую кредитную нагрузку имеет клиент на момент обращения за оформлением полиса, и какая просроченная задолженность у него была. Но намного важнее получить информацию о количестве обращений клиента в поликлинику, его заболеваниях и т.п. Однако, эта информация (о посещениях врачей) не так интересна телекоммуникационным компаниям, потому что она мало влияет на то, как клиент использует мобильную связь и какие услуги он подключает.
– Давайте поговорим о перспективах использования Big Data. Каковы они для российских банков?
– Данные Big Data будут играть все большую роль. Это обусловлено, с одной стороны, потребностями рынка использовать альтернативные источники данных, и, с другой стороны, изменением платежного поведения клиентов. Поколение миллениалов все меньше готово взаимодействовать с банком в офисе, но охотно предоставляет доступ к своим поведенческим данным (включая отслеживание геопозиционирования и прочее), если это улучшает качество предоставляемых услуг, обеспечивает безопасность и быстроту проведения операций и позволяет получать лучшие предложения.
Сегодня важно уметь собирать именно такие поведенческие данные и использовать их для принятия решений в рамках одной модели, заменяя отсутствие данных в одних источниках обработкой данных из других. В идеале система должна быть независима от заполненности общего вектора. Отсутствие кредитной истории не должно приводить к оценке клиента банком хуже (или лучше), чем клиента с кредитной историей. Принцип работы с Big Data состоит в умении извлечь необходимые предиктивы из любого набора данных.
– А что вы можете казать об инструментах работы с Big Data?
– Существует множество инструментов, позволяющих работать с Big Data. Это системы объединения и обработки, типа Hadoop, Pig, Hive, Hbase и т.п., и аналитические инструменты: Python, R, Н2O…, реализующие анализ Big Data методами глубокой аналитики и искусственного интеллекта.
Одним из интересных явлений сегодня являются так называемые Sand-Box (песочницы). Это не обычные базы данных, а специальные области хранения, в которые могут быть загружены разные данные. Пользователю предоставляются инструменты загрузки собственных данных, объединения их с данными, содержащимися в песочнице, их анализу и использованию для построения моделей.
– Песочницы – это новые корпоративные хранилища или что-то другое?
– Песочницы могут быть реализованы внутри компании, как собственный проект. Но в этом случае объем данных может быть ограничен, так как их приобретение, обновление и обработка требуют не только временных, но больших финансовых вложений, а также решения юридических вопросов.
Другой подход: песочница может быть организована внешней компанией. Например, это может быть БКИ или фин-тех компания. В этом случае все финансовые затраты банка сводятся к оплате ежемесячной подписки. Остальное берет на себя владелец песочницы: обезличивание данных, их связь между собой и с данными клиента, обеспечение конфиденциальности работы каждого пользователя песочницы и т.д.
Используя песочницу, любая компания может без серьезных затрат попробовать поработать с большими данными и определить для себя: какие из них и для каких задач могут быть использованы, дают ли они какой-то бизнес эффект и насколько могут улучшить взаимодействие с клиентами.
Эти вопросы совсем не праздные. Многие компании, включая банки, зачастую начинают собственные проекты на волне энтузиазма и думают, что "вот сейчас мы загрузим к себе много разных данных и сразу все поймем о своих клиентах!" В большинстве случаев такие проекты или заканчиваются безрезультатно, или длятся до сих пор без серьезных достижений. Основные проблемы связаны с тем, что использование больших данные требует изменения не только инструментов моделирования, но и смену всей парадигмы обработки данных о клиентах.
– Получается, что использования "внешних" песочниц предпочтительнее для банков?
– Крупные банки могут создавать собственную "песочницу" и платить за данные, которые туда загружаются, и их обработку. Для небольших банков, микрофинансовых компаний и даже крупных, но которые не хотели бы тратить значительные средства на "попробовать" Big Data, использование внешних песочниц более эффективно.
Поскольку, во-первых, данные загружаются туда регулярно и проходят контроль качества (как минимум отсекается некорректная информация, происходит обезличивание). Во-вторых, обеспечивается "привязка" данных из разных источников к единому идентификатору, что позволяет объединять данные между собой. В-третьих, пользователю доступен широкий набор инструментов для работы с песочницей без покупки дополнительных лицензий.
– Какие возможности предоставляют внешние песочницы для своих пользователей?
– Все песочницы включают средства анализа и построения отчетов, а также инструменты аналитического моделирования. Инструменты отчетности позволяют банку получить знания о своих и потенциальных клиентах, их поведении в сравнении с рынком, имеющиеся в альтернативных источниках характеристики и т.п. Аналитический инструментарий позволяет самостоятельно построить аналитические модели, которые в дальнейшем можно экспортировать и использовать в процессах банка. Это позволяет получить больше информации для принятия бизнес решений и выстраивать эффективные взаимоотношения с клиентами.
– Давайте отвлечемся от песочниц и поговорим о том, какие проблемы возникают у российских банков при использовании Big Data?
– Я бы разделил все возникающие сложности на две категории – в зависимости от уровня понимания банками принципов работы с Big Data.
Первая категория – сложности, возникающие у банков, не до конца понимающих, что такое Big Data и пытаются работать с ними как с обычными данными (загрузить их в хранилище, структурировать и .п.). Это требует много времени, не всегда реализуемо и приводит к неактуальности данных. Плюс, стоимость инфраструктуры и программно-аппаратных средств для реализации таких проектов очень высока.
Вторая категория сложностей возникает у понимающих что такое Big Data банков на этапе моделирования. Пытаясь оценить различные источники по отдельности, банк создает много моделей. Результаты работы разных моделей часто противоположны. В итоге, банку сложно определиться с тем, как эти модели использовать.
– Нужны ли рынку для устранения всех этих сложностей особые специалисты? И если да, то какими они должны быть?
– Несомненно, нужны. Это люди, которые объединяют в себе несколько специальностей. С одной стороны, это программисты, они должны уметь обращаться с данными и обрабатывать их. С другой стороны, это аналитики – люди с хорошим математическим образованием, понимающие современные методы моделирования, продвинутой аналитики, машинного обучения и искусственного интеллекта. И с третьей стороны, это люди, понимающие бизнес-задачи компании, так как без этого сложно получить требуемый результат. Симбиоз этих 3-х компетенций и дает специалиста, который сможет эффективно работать с Big Data.
Одна из основных проблем в некоторых российских банках сегодня как раз и сводится к тому, что аналитики строят отличные скоринговые модели, которые зачастую не могут быть использованы (не применимы) на практике, потому что эти люди не до конца понимают поставленную перед ними бизнес-задачу. Любая бизнес-задача имеет определенные бизнес-ограничения и "вводные", которые нужно учитывать при построении модели.
- На сегодня это уникальные специалисты?
– Не совсем. Мой опыт общения с коллегами и клиентами, показывает, что такие люди на нашем рынке есть. Они востребованы и успешны. Появление такого человека в проекте Big Data зачастую является необходимым и достаточным фактором успеха.
– Можете привести пример успешного проекта по работе с Big Data из Вашего собственного опыт?
– Да, не так давно рынку были представлены "электронные помощники", которые отслеживая активность клиентов на сайтах дилеров автомобильной компаний. Анализируя переходы пользователя по страницам, система автоматически идентифицируют интерес клиента к покупке автомобиля. Далее производится звонок клиенту роботом и в режиме свободного общения человека с роботом, клиенту оказывается помощь в выборе конкретной модели и модификации, производится кредитная оценка, формируется кредитное предложение и одобряется кредит. После чего клиенту остается приехать в салон, чтобы подписать документы и забрать свой новый автомобиль.
Вся система построена на модели искусственного интеллекта, обработки больших объемов неструктурированных данных и технологиях трансформации голоса в текст и обратно.
Полностью этот материал будет опубликован в печатной версии номера NBJ за июль-август.