07/03/2023

Как в Газпромбанке мониторят работоспособность сервисов

В Газпромбанке с нуля разработали собственную платформу мониторинга на основе открытого исходного кода. Система отслеживает онлайн, как работают сервисы — ежесекундно в нее поступает больше 2,5 миллиона метрик. Если происходят сбои, платформа тут же сообщает о них специалистам. Благодаря этому удается исправить ошибки до того, как с ними столкнется клиент.

Какие метрики отслеживает платформа, что у нее «под капотом» и какие результаты уже удалось получить, рассказали начальник департамента контроля эффективности IT Анна Журбенко и начальник центра развития IT-мониторинга Валентин Лебедев.

Что такое платформа IT-мониторинга и какие показатели она использует

Платформа ЕССМ (Единая система сквозного мониторинга) — совокупность систем, которые в онлайн-режиме отслеживают состояние работы клиентских и пользовательских сервисов.

Мониторинг контролирует четыре класса метрик:
  • Инфраструктурные — как работают виртуальные сервера, CRM, расчетные модули, какой размер дискового пространства доступен, утилизация CPU.
  • Прикладные — загрузка очередей, ошибки интеграций, JMX.
  • Бизнесовые — сколько человек пользуются мобильным приложением или интернет-банком, количество оформленных заявок, переводов или оплаченных счетов.
  • Транзакционные — какую цепочку систем и сервисов проходит запрос — CRM, внешний и внутренний скоринг, базы данных и другие.
Когда команда начала работать над проектом, то в первую очередь запустила мониторинг высокоуровневых метрик, с которыми клиенты сталкиваются каждый день. Например, количество новых заявок на кредиты, внутренних переводов или уникальных входов в мобильное приложение.

По мере развития системы стало понятно, что отслеживать клиентские и бизнес-метрики недостаточно. Если пользователь мониторинга видит, что количество выданных кредитов упало, важно понимать, на каком этапе произошел сбой: сломалась кнопка в приложении или вкладка с кредитами долго грузится, а клиенты не хотят ждать и закрывают ее. Чтобы отслеживать такие моменты, в мониторинг добавили дополнительные функции.

Анна Журбенко

Руководитель департамента контроля эффективности IT

Система мониторинга напоминает полный медицинский чек-ап, когда человек может узнавать о сбоях в организме до того, как они проявят себя.

В мониторинг попадают не только количественные показатели, например, сколько клиентов получили кредиты, но и качественные. Пользователи могут отслеживать, с какой скоростью была подана заявка или сколько времени ушло на выдачу кредита. Подобные метрики собираются по различным продуктам и сервисам — всего в системе десятки тысяч бизнес-показателей.

Как в банке используют мониторинг

На метрики в системе настроен алерт — предупреждение. Для одних показателей он статичный и не меняется в зависимости от условий. Например, для инфраструктурной метрики, которая отражает объем свободного места на диске. Для других метрик настроен динамичный алерт, при котором порог алертинга корректируется, например, в зависимости от сезонности продаж или особенностей поведения клиентов банка. Это помогает избежать ложных срабатываний алертинга. Например, в субботу вечером на 20% отклоняется метрика количества выданных кредитов. Можно предположить, что это проблемы с приложением. Но анализ исторических данных показывает, что в это время клиенты всегда подают меньше заявок — значит, сервис работает нормально.

Система мониторинга позволяет отслеживать ситуации, когда сервис «падает» или качество его работы снижается, например, на 20%. То есть мобильное приложение работает, но медленнее или с ошибками.

Алертинг визуализируется на дашбордах в виде цветовых индикаторов. Если всё работает исправно, то он горит зеленым. Если есть проблемы — красным.

Специалистам не обязательно постоянно смотреть на экран, чтобы вовремя заметить неполадку. Когда какой-то из параметров выходит за границы допустимых значений, система автоматически отправляет оповещение на почту или в Телеграм.

Алертинг — не единственный вариант использования мониторинга. Еще система помогает провести:
  • Аналитическую оценку работы отдельного сервиса. Например, когда надо его оптимизировать и сделать так, чтобы платежи проходили быстрее.
  • Ретроспективное исследование значимых инцидентов. Когда происходит сбой, мониторинг дает детальную информацию о том, в какой момент он случился, какие сервисы при этом были задействованы.
  • BIA (Business Impact Analysis). Позволяет оценить, сколько банк недополучил на момент, когда сервис «упал».

Что «под капотом» мониторинга

Для пользователя мониторинг выглядит просто — это экран с графиками, по которым удобно отслеживать работоспособность сервисов. Но за каждой визуализацией стоит сложная обработка данных, которые разбросаны по разным автоматизированным системам. Сама система построена из нескольких разных классов БД, которые позволяют накапливать и обрабатывать метрики.

Анна Журбенко

Руководитель департамента контроля эффективности IT

Запросы отправляются не только по внутрибанковским системам, но и по внешним — например, в бюро кредитных историй, когда надо определить, на каком этапе у клиента возникли проблемы с оформлением кредита. Вся информация собирается в большую «сеть данных», которая нужна, чтобы оценить одну метрику.

Система работает с огромными массивами данных, которые могут содержать до десяти тысяч параметров. На уровне предобработки данных она должна уметь правильно понимать, к какому сервису относится каждая метрика. После предобработки данные хранятся в Data-хранилище.

Валентин Лебедев

Руководитель центра IT-мониторинга

Чтобы обеспечить автоматизированное построение сервисно-ресурсных моделей, мы используем самые передовые технологии. Наша платформа обрабатывает колоссальные объемы данных, которые анализируются в режиме реального времени, предоставляя критичную для работы банка информацию. Это помогает узнать, на каком участке произошел сбой, и объективно оценить его масштаб.

Что удалось улучшить благодаря мониторингу

Платформа мониторинга — это инструмент, который помогает связывать процессы в единую экосистему. Один из значимых результатов, которые команда подтвердила, был получен по мобильному приложению банка. Системы мониторинга детектируют до 80% аварий до первого обращения клиента. То есть в 8 из 10 случаев банк узнает о сбое до того, как с ним столкнутся клиенты.

Валентин Лебедев

Руководитель центра IT-мониторинга

Спустя год мы видим, что корпоративная платформа мониторинга позволяет моментально находить и решать проблемы в работе пользователей и клиентов, оценивать качество работы сервисов и оперативно принимать управленческие решения в IT-кластере. Кроме того, платформа помогает нашим командам развивать мониторинг бизнес- и технических метрик. А это значит, что IT уже отвечает не только за системы, но и за результаты их работы.

Такие данные были получены по мобильному приложению Газпромбанка и АС РКК
Чтобы повысить качество контроля доступности сервиса, была организована Централизованная дежурная смена (ЦДС). Ее сотрудники отслеживают ключевые метрики систем и сервисов в режиме 24/7 и, если алерт сигналит красным, передают информацию о проблеме специалисту, который способен восстановить сервис. Дежурная смена — это гарантия, что сведения о сбое точно не потеряются.
Мониторинг помог улучшить коммуникации между подразделениями на основе единых оценочных данных. Пользователям не надо запрашивать информацию в разных отделах, чтобы уточнить важные метрики для работы своего сервиса: все нужные данные они видят в режиме единого окна платформы мониторинга.

Переход на open source подтолкнул банк развивать внутренние экспертные знания. Это позволяет не зависеть от вендора и быстрее развивать платформу мониторинга. Например, выводить метрики минимум за день.

Что дальше

Команда платформы мониторинга планирует ускорить постановку метрик в систему и автоматизировать эти процессы, чтобы они проходили без участия специалистов. Это позволит покрыть мониторингом больше сервисов, а значит, сделать их стабильнее.

В планах у команды внедрить проактивную аналитику на основе больших данных и машинного обучения. Это поможет предсказывать вероятность сбоя и реагировать на те изменения в работе сервисов, которые остаются незамеченными при сравнительном анализе.
Сейчас команда платформы мониторинга работает над продуктом класса Application Performance Monitoring

Валентин Лебедев

Руководитель центра IT-мониторинга

Наша команда делает еще один существенный рывок — внедряет продукт класса Application Performance Monitoring (APM). Он позволит автоматически контролировать все транзакции клиентов с точностью до миллисекунды и отслеживать каждое прикосновение в нашем приложении. Обладая такими технологиями, мы встаем в один ряд с лучшими финтех-компаниями страны, а по некоторым направления стремительно опережаем их.

0%

Банк ГПБ (АО) использует файлы cookie. Подробная информация –
в правилах по обработке персональных данных. Вы можете запретить сохранение cookie в настройках своего браузера.