28/10/2024

Как предсказательные и лингвистические модели помогают оптимизировать расходы Газпромбанка — итоги митапа по Data Science

В сентябре Газпромбанк.Тех провел четвертый внешний митап по Data Science. Эксперты банка рассказали, как нейросеть помогла ускорить обработку платежных документов, а коммуникации с клиентами стали эффективнее благодаря предиктивной аналитике. Собрали самое интересное со встречи.

Как нейросеть помогает Газпромбанку в обработке платежных документов

Банк ежедневно обрабатывает до 3 млн транзакций. Данные о переводах, вызывающих подозрение (их критерии прописаны в 115-ФЗ о противодействии отмыванию денег и терроризму), банки отправляют в Росфинмониторинг — так предписывает закон. Каждый переданный документ содержит до 250 полей.

Тексты разбираются на составляющие, и если в названии организации или города есть опечатки или ошибки — быть штрафу, поэтому качество обработки — это очень важно, равно как и скорость.

Весь объем платежных документов еще пару лет назад в банке обрабатывали вручную. Информация в них — это сплошной текст, и задача сотрудника — найти и занести в таблицу, кто, кому, откуда и куда перевел средства. В 2022 году в Газпромбанке был запущен проект по автоматизации этого процесса.

Цель — ускорить обработку платежной информации и повысить ее качество, а человеческие ресурсы направить на более творческие и интересные задачи.

Задача проекта — внедрить сервис на базе нейросетевой модели, который будет автоматически обрабатывать информацию из платежных документов с минимальным количеством ошибок.

Мария Мичурина,

главный аналитик-исследователь Департамента анализа данных и моделирования:

Это классическая и с виду довольно простая задача Named Entities Recognition (извлечение именованных сущностей из текста). В нашем случае было несколько сложных моментов: очень разнообразные тексты платежек (и нам нужно научить модель корректно извлекать организации, ФИО, города и так далее из всего многообразия текстов), и заказчику нужны косвенные сведения, которых в тексте платежки напрямую нет (например, мы определяли код региона исходя из данных о городе и области/крае/республике).

В процессе работы команда проекта столкнулась с тремя основными вызовами.

Вызов 1. Использовать коробочное решение или разработать собственное?

Коробочные решения на рынке есть. Но ни одно из них не умело распознавать нужные данные точно, с минимальными ошибками. Нужен был инструмент, отвечающий всем требованиям бизнес-заказчика. Выход — создать кастомное решение на основе нейронных сетей.

Проектная команда остановилась на мультиязычной модели BERT от Google. Она очень популярна, поддерживает много языков, в том числе и русский, а это тоже было важно для разбора текстов транзакций внутри России.

Вызов 2. Имеющуюся разметку для обучения нейросети нужно было доработать

Чтобы нейросеть корректно выполняла поставленную перед ней задачу, ее нужно обучить на массиве данных. Данные эти должны быть правильно размечены, то есть для каждого платежного документа выделены все составляющие: организации, ФИО, адреса. Чтобы научить нейросеть правильно обрабатывать международные Swift переводы, аналитики подготовили сет в 13 000 сэмплов — точно выверенных и правильно оформленных разборов платежных документов. Для обучения обработке российских документов из-за очень большой вариативности потребовалось 110 000 сэмплов.

Вызов 3. Нужно больше обучающих данных — как это сделать?

Мария Мичурина,

главный аналитик-исследователь департамента анализа данных и моделирования:

Мы использовали синтетическое расширение разметки. Суть вот в чем: мы берем правильную, идеальную разметку и добавляем в нее некоторый шум — опечатки и ошибки. Поскольку платежные документы составляются людьми, неточности в них встречаются часто. Нужно было научить модель извлекать данные, несмотря на наличие подобных опечаток и ошибок.

Кастомное решение на базе нейросети помогает банку обрабатывать платежные документы уже два года. Автоматизация ускорила процесс, повысила качество обработки без привлечения дополнительных человеческих ресурсов.

Как отметила Вице-Президент, начальник Департамента финансового мониторинга Наталья Чугунова, ежемесячно в Росфинмониторинг направляется около 650 тысяч сообщений, из них примерно 300 тысяч подвергается текстовой аналитике. Без внедренного решения для обработки этого объема банку пришлось бы дополнительно нанимать 10 сотрудников.

Сейчас модель корректно разбирает 90% сущностей. Остальные 10% корректируются вручную.

Маркетинговый оптимизатор в розничном бизнесе — для персонализированных коммуникаций

Проект маркетингового оптимизатора в Газпромбанке работает уже три года. Он относится к предиктивной аналитике и подсказывает маркетологам и CRM-менеджерам, кому, когда, через какой канал коммуникации и какой продукт предложить. На митапе о проекте рассказали Никита Климкин, начальник управления в Департаменте онлайн-продаж и Андрей Анисимов, управляющий директор в Департаменте анализа данных и моделирования.

Почему возникла необходимость внедрить предиктивную систему? Несколько лет назад, когда в банке только начинали строить CRM для розничного бизнеса, основная масса коммуникаций приходилась на кредитные продукты. Они приносили банку хороший доход и поэтому являлись фокусными. Коммуникации не учитывали интересов и потребностей клиента и многих других факторов. Клиента это, конечно же, раздражало. Как результат — коммуникации начинали игнорировать, отключать push-уведомления, не реагировать на письма. Любая коммуникация — это расходы, и нецелевые, неэффективные сообщения — это трата средств практически впустую и недополученный доход.

Какие еще есть минусы у такого подхода:

Приоритеты всегда отдаются более доходным и тяжелым продуктам, поэтому кредитные продукты всегда побеждали.
Ограниченное использование моделей — приоритизация человеком превалирует над моделью.
Канальный сплит — в пользу самых доходных продуктов на коротком горизонте. Продукты с низким LTV естественно проигрывали при таком подходе.

Задача проекта заключалась в том, чтобы устранить эти минусы и сместить фокус на модельный подход, оптимизировать затраты на коммуникацию и сделать ее персонализированной.

Маркетинговый оптимизатор может использовать разного рода модели: предсказания отклика, одобрения, модели склонности клиента к каналу и к предпочтительному времени коммуникации. Все это перемножается с помощью методов машинного обучения и инструментов искусственного интеллекта. Для этого используются все имеющиеся данные о клиенте, а также учитываются ограничения, в частности, по расходной части на коммуникацию.

Оптимизатор работает на базе движка CBC Solver. Это движок с открытым кодом. Функционирует оптимизатор так: для каждого клиента он предсказывает вероятность отклика на определенный банковский продукт в определенном канале. То есть клиент получает рекламное сообщение в тот день или период дня, когда он наиболее расположен к маркетинговой коммуникации, по наиболее удобному для него каналу и по тому продукту, который с наибольшей вероятностью ему действительно нужен или интересен.

Работу оптимизатора можно калибровать. Например, если в банке появился новый продукт, модель также проанализирует данные и подберет аудиторию, которая с высокой вероятностью отреагирует на него.

Чтобы модель всегда была «живой», используется так называемая рандомная коммуникация: это когда небольшое количество клиентов получает сообщение о продукте, имея по модели не самые высокие прогнозы по отклику. Чем это полезно? Всегда есть вероятность, что клиент отреагирует на сообщение, даже если модель считает иначе. При следующем обучении у модели будет уже больше данных по интересам этого клиента, и коммуникацию с ним можно будет сделать более эффективной с экономической точки зрения.

Современные технологии в бизнесе не стоят на месте. В Газпромбанке внедряются ключевые тренды отрасли с помощью высококлассных ИТ-специалистов — об этом мы регулярно рассказываем на наших митапах. Присоединяйся и ты к нам!