Содержание:
Какие метрики отслеживает платформа, что у нее «под капотом» и какие результаты уже удалось получить, рассказали начальник департамента контроля эффективности IT Анна Журбенко и начальник центра развития IT-мониторинга Валентин Лебедев.
Что такое платформа IT-мониторинга и какие показатели она использует
Платформа ЕССМ (Единая система сквозного мониторинга) — совокупность систем, которые в онлайн-режиме отслеживают состояние работы клиентских и пользовательских сервисов.Мониторинг контролирует четыре класса метрик:
-
Инфраструктурные — как работают виртуальные сервера, CRM, расчетные модули, какой размер дискового пространства доступен, утилизация CPU.
-
Прикладные — загрузка очередей, ошибки интеграций, JMX.
-
Бизнесовые — сколько человек пользуются мобильным приложением или интернет-банком, количество оформленных заявок, переводов или оплаченных счетов.
-
Транзакционные — какую цепочку систем и сервисов проходит запрос — CRM, внешний и внутренний скоринг, базы данных и другие.
По мере развития системы стало понятно, что отслеживать клиентские и бизнес-метрики недостаточно. Если пользователь мониторинга видит, что количество выданных кредитов упало, важно понимать, на каком этапе произошел сбой: сломалась кнопка в приложении или вкладка с кредитами долго грузится, а клиенты не хотят ждать и закрывают ее. Чтобы отслеживать такие моменты, в мониторинг добавили дополнительные функции.
Система мониторинга напоминает полный медицинский чек-ап, когда человек может узнавать о сбоях в организме до того, как они проявят себя.
Как в банке используют мониторинг
На метрики в системе настроен алерт — предупреждение. Для одних показателей он статичный и не меняется в зависимости от условий. Например, для инфраструктурной метрики, которая отражает объем свободного места на диске. Для других метрик настроен динамичный алерт, при котором порог алертинга корректируется, например, в зависимости от сезонности продаж или особенностей поведения клиентов банка. Это помогает избежать ложных срабатываний алертинга. Например, в субботу вечером на 20% отклоняется метрика количества выданных кредитов. Можно предположить, что это проблемы с приложением. Но анализ исторических данных показывает, что в это время клиенты всегда подают меньше заявок — значит, сервис работает нормально.Система мониторинга позволяет отслеживать ситуации, когда сервис «падает» или качество его работы снижается, например, на 20%. То есть мобильное приложение работает, но медленнее или с ошибками.
Алертинг визуализируется на дашбордах в виде цветовых индикаторов. Если всё работает исправно, то он горит зеленым. Если есть проблемы — красным.
Специалистам не обязательно постоянно смотреть на экран, чтобы вовремя заметить неполадку. Когда какой-то из параметров выходит за границы допустимых значений, система автоматически отправляет оповещение на почту или в Телеграм.
Алертинг — не единственный вариант использования мониторинга. Еще система помогает провести:
- Аналитическую оценку работы отдельного сервиса. Например, когда надо его оптимизировать и сделать так, чтобы платежи проходили быстрее.
- Ретроспективное исследование значимых инцидентов. Когда происходит сбой, мониторинг дает детальную информацию о том, в какой момент он случился, какие сервисы при этом были задействованы.
- BIA (Business Impact Analysis). Позволяет оценить, сколько банк недополучил на момент, когда сервис «упал».
Что «под капотом» мониторинга
Запросы отправляются не только по внутрибанковским системам, но и по внешним — например, в бюро кредитных историй, когда надо определить, на каком этапе у клиента возникли проблемы с оформлением кредита. Вся информация собирается в большую «сеть данных», которая нужна, чтобы оценить одну метрику.
Чтобы обеспечить автоматизированное построение сервисно-ресурсных моделей, мы используем самые передовые технологии. Наша платформа обрабатывает колоссальные объемы данных, которые анализируются в режиме реального времени, предоставляя критичную для работы банка информацию. Это помогает узнать, на каком участке произошел сбой, и объективно оценить его масштаб.
Что удалось улучшить благодаря мониторингу
Платформа мониторинга — это инструмент, который помогает связывать процессы в единую экосистему. Один из значимых результатов, которые команда подтвердила, был получен по мобильному приложению банка. Системы мониторинга детектируют до 80% аварий до первого обращения клиента. То есть в 8 из 10 случаев банк узнает о сбое до того, как с ним столкнутся клиенты.Спустя год мы видим, что корпоративная платформа мониторинга позволяет моментально находить и решать проблемы в работе пользователей и клиентов, оценивать качество работы сервисов и оперативно принимать управленческие решения в IT-кластере. Кроме того, платформа помогает нашим командам развивать мониторинг бизнес- и технических метрик. А это значит, что IT уже отвечает не только за системы, но и за результаты их работы.
Переход на open source подтолкнул банк развивать внутренние экспертные знания. Это позволяет не зависеть от вендора и быстрее развивать платформу мониторинга. Например, выводить метрики минимум за день.
Что дальше
Команда платформы мониторинга планирует ускорить постановку метрик в систему и автоматизировать эти процессы, чтобы они проходили без участия специалистов. Это позволит покрыть мониторингом больше сервисов, а значит, сделать их стабильнее.В планах у команды внедрить проактивную аналитику на основе больших данных и машинного обучения. Это поможет предсказывать вероятность сбоя и реагировать на те изменения в работе сервисов, которые остаются незамеченными при сравнительном анализе.
Наша команда делает еще один существенный рывок — внедряет продукт класса Application Performance Monitoring (APM). Он позволит автоматически контролировать все транзакции клиентов с точностью до миллисекунды и отслеживать каждое прикосновение в нашем приложении. Обладая такими технологиями, мы встаем в один ряд с лучшими финтех-компаниями страны, а по некоторым направления стремительно опережаем их.