Банк ежедневно обрабатывает до 3 млн транзакций. Данные о переводах, вызывающих подозрение (их критерии прописаны в 115-ФЗ о противодействии отмыванию денег и терроризму), банки отправляют в Росфинмониторинг — так предписывает закон. Каждый переданный документ содержит до 250 полей.
Тексты разбираются на составляющие, и если в названии организации или города есть опечатки или ошибки — быть штрафу, поэтому качество обработки — это очень важно, равно как и скорость.
Цель — ускорить обработку платежной информации и повысить ее качество, а человеческие ресурсы направить на более творческие и интересные задачи.
Задача проекта — внедрить сервис на базе нейросетевой модели, который будет автоматически обрабатывать информацию из платежных документов с минимальным количеством ошибок.
Это классическая и с виду довольно простая задача Named Entities Recognition (извлечение именованных сущностей из текста). В нашем случае было несколько сложных моментов: очень разнообразные тексты платежек (и нам нужно научить модель корректно извлекать организации, ФИО, города и так далее из всего многообразия текстов), и заказчику нужны косвенные сведения, которых в тексте платежки напрямую нет (например, мы определяли код региона исходя из данных о городе и области/крае/республике).
Вызов 1. Использовать коробочное решение или разработать собственное?
Коробочные решения на рынке есть. Но ни одно из них не умело распознавать нужные данные точно, с минимальными ошибками. Нужен был инструмент, отвечающий всем требованиям бизнес-заказчика. Выход — создать кастомное решение на основе нейронных сетей.
Проектная команда остановилась на мультиязычной модели BERT от Google. Она очень популярна, поддерживает много языков, в том числе и русский, а это тоже было важно для разбора текстов транзакций внутри России.
Вызов 2. Имеющуюся разметку для обучения нейросети нужно было доработать
Чтобы нейросеть корректно выполняла поставленную перед ней задачу, ее нужно обучить на массиве данных. Данные эти должны быть правильно размечены, то есть для каждого платежного документа выделены все составляющие: организации, ФИО, адреса. Чтобы научить нейросеть правильно обрабатывать международные Swift переводы, аналитики подготовили сет в 13 000 сэмплов — точно выверенных и правильно оформленных разборов платежных документов. Для обучения обработке российских документов из-за очень большой вариативности потребовалось 110 000 сэмплов.
Вызов 3. Нужно больше обучающих данных — как это сделать?
Мы использовали синтетическое расширение разметки. Суть вот в чем: мы берем правильную, идеальную разметку и добавляем в нее некоторый шум — опечатки и ошибки. Поскольку платежные документы составляются людьми, неточности в них встречаются часто. Нужно было научить модель извлекать данные, несмотря на наличие подобных опечаток и ошибок.
Как отметила Вице-Президент, начальник Департамента финансового мониторинга Наталья Чугунова, ежемесячно в Росфинмониторинг направляется около 650 тысяч сообщений, из них примерно 300 тысяч подвергается текстовой аналитике. Без внедренного решения для обработки этого объема банку пришлось бы дополнительно нанимать 10 сотрудников.
Сейчас модель корректно разбирает 90% сущностей. Остальные 10% корректируются вручную.
Маркетинговый оптимизатор в розничном бизнесе — для персонализированных коммуникаций
Проект маркетингового оптимизатора в Газпромбанке работает уже три года. Он относится к предиктивной аналитике и подсказывает маркетологам и CRM-менеджерам, кому, когда, через какой канал коммуникации и какой продукт предложить. На митапе о проекте рассказали Никита Климкин, начальник управления в Департаменте онлайн-продаж и Андрей Анисимов, управляющий директор в Департаменте анализа данных и моделирования.
Какие еще есть минусы у такого подхода:
- Приоритеты всегда отдаются более доходным и тяжелым продуктам, поэтому кредитные продукты всегда побеждали.
- Ограниченное использование моделей — приоритизация человеком превалирует над моделью.
- Канальный сплит — в пользу самых доходных продуктов на коротком горизонте. Продукты с низким LTV естественно проигрывали при таком подходе.
Маркетинговый оптимизатор может использовать разного рода модели: предсказания отклика, одобрения, модели склонности клиента к каналу и к предпочтительному времени коммуникации. Все это перемножается с помощью методов машинного обучения и инструментов искусственного интеллекта. Для этого используются все имеющиеся данные о клиенте, а также учитываются ограничения, в частности, по расходной части на коммуникацию.
Оптимизатор работает на базе движка CBC Solver. Это движок с открытым кодом. Функционирует оптимизатор так: для каждого клиента он предсказывает вероятность отклика на определенный банковский продукт в определенном канале. То есть клиент получает рекламное сообщение в тот день или период дня, когда он наиболее расположен к маркетинговой коммуникации, по наиболее удобному для него каналу и по тому продукту, который с наибольшей вероятностью ему действительно нужен или интересен.
Работу оптимизатора можно калибровать. Например, если в банке появился новый продукт, модель также проанализирует данные и подберет аудиторию, которая с высокой вероятностью отреагирует на него.
Чтобы модель всегда была «живой», используется так называемая рандомная коммуникация: это когда небольшое количество клиентов получает сообщение о продукте, имея по модели не самые высокие прогнозы по отклику. Чем это полезно? Всегда есть вероятность, что клиент отреагирует на сообщение, даже если модель считает иначе. При следующем обучении у модели будет уже больше данных по интересам этого клиента, и коммуникацию с ним можно будет сделать более эффективной с экономической точки зрения.
Современные технологии в бизнесе не стоят на месте. В Газпромбанке внедряются ключевые тренды отрасли с помощью высококлассных ИТ-специалистов — об этом мы регулярно рассказываем на наших митапах. Присоединяйся и ты к нам!