Содержание:
Андрей Уланов, руководитель, курирующий ЕСЦ из Департамента прикладного сопровождения IT, и его заместитель Анатолий Базилевский рассказывают, что изменилось в работе центра и зачем понадобились глобальные перемены.
Почему ЕСЦ требовал обновления
На тот момент у дежурных ЕСЦ не было централизованного мониторинга банковских сервисов и систем, поэтому сформировать целостную картину сбоя порой было затруднительно. Если возникала нештатная ситуация, информацию о ней и ходе ее устранения публиковали в чате ЕСЦ. При необходимости сообщение дублировали почтовой рассылкой или новостью на внутренних порталах банка.
Во время пандемии центр перешел на удаленный режим работы, и роль чата в обмене информацией резко возросла. Когда количество участников перевалило за 400 человек, в нем стало трудно ориентироваться. Ежедневно приходило несколько сотен сообщений по разным сбоям. Обсуждения проблем смешивались, отслеживать ответы на обращения было неудобно, а часть важных данных могла затеряться в общей массе сообщений.
Что изменилось
Большие сложности вызывало то, что работу ЕСЦ нельзя прерывать. От эффективности работы центра зависит, насколько быстро специалисты обнаружат сбой в банковской системе и устранят его.
Команде ЕСЦ совместно с коллегами из Центра развития ИТ-мониторинга удалось плавно трансформировать процессы и внедрить удобные инструменты и дашборды. Для этого потребовалось растянуть во времени переходный период: новые механизмы запускали параллельно с прежними, частично дублируя их.
Когда новые процессы начали работать стабильно, предсказуемо и в соответствии с ожиданиями команды, старые полностью отключали. Это дало дополнительную нагрузку на сотрудников, но позволило обновить ЕСЦ с минимальными рисками и с полным контролем за происходящим.
Ключевая функция дежурных в обновленном Ситуационном центре — координация подразделений банка, которые ищут корневую причину сбоя и устраняют нештатную ситуацию. Дежурные помогают экспертам поддерживать связь и обеспечивают их всей актуальной информацией, чтобы как можно быстрее вернуть системы к нормальной работе. Чтобы ЕСЦ работал с максимальной эффективностью, мы также добавили функцию мониторинга систем непосредственно дежурными центра. Для этого в Департаменте прикладного сопровождения ИТ сформировали новое Управление централизованных дежурных смен.
Дежурные круглосуточно контролируют состояние критических систем и сервисов банка с помощью единой системы сквозного мониторинга. Благодаря ей сотрудники центра могут вовремя заметить отклонения в работе сервисов и предупредить администраторов систем и пользователей банка.
Срабатывание критически важных проверок и генерация событий мониторинга могут быть признаком близкого сбоя или следствием уже случившегося. В первом случае инцидент можно предотвратить, а во втором — снизить его влияние: сократить время простоя систем и быстрее восстановить их работоспособность.
Данные для системы собирают программы-агенты, установленные на серверах банковских систем. Например, есть отдельные агенты, которые отслеживают свободное место на сервере, отключения и перезагрузки, ошибки чтения или записи данных. Информация визуализируется с помощью дашбордов.
Читайте также: Как в Газпромбанке мониторят работу сервисов онлайн
В рабочие дни с информацией из каждого поста знакомится более 500 человек. В дни пиковых нагрузок общее количество просмотров достигает 14 тысяч.
Как работает обновленный ЕСЦ
Важнейшая часть работы дежурного — первичный анализ ситуации. Зачастую в сообщении о сбое говорится о какой-то локальной проблеме. Дежурному нужно понять, что именно может быть ее корневой причиной и может ли эта же причина повлиять на работу других систем.
Допустим, пользователи мобильного приложения не могут посмотреть остатки по счетам. Чтобы найти корневую причину проблемы, дежурный собирает всю доступную информацию в единую картину: связывается с сотрудниками разных подразделений — администраторами банковских систем.
Кроме того, дежурный использует данные дашбордов, чтобы найти причину ошибок. Бывает, что корневая причина находится в другой системе, напрямую не связанной со сбоем.
Дальнейшие действия дежурного зависят от того, удалось ли локализовать проблему и определить ее причины. Если ошибка возникла в конкретной банковской системе, дежурный сообщает о ней ответственным сотрудникам. Затем отслеживает и координирует работы по устранению сбоя и его последствий.
Если сбой вызван глобальными сетевыми неполадками или, к примеру, DDoS-атакой на сервера банка, то дежурный должен уведомить об инциденте руководителей направлений, а при необходимости и руководство банка. В таких серьезных случаях обсуждение проблемы может длиться несколько часов, поэтому для большего удобства и скорости взаимодействия в дополнение к Telegram-каналу используется видео-конференц-связь.
Схема работы ЕСЦ
Всё время от первого сообщения о сбое до полного устранения проблемы, ее причины и последствий, дежурный ЦДС остается на связи с ответственными сотрудниками банка: привлекает дополнительных сотрудников, уточняет статус сбоя и информирует пользователей и руководство банка. Благодаря этому у работников ЕСЦ всегда есть актуальная информация о состоянии систем и сервисов.
Результаты работы ЕСЦ после трансформации (с июня 2022 года)
Что будет дальше
Одна из важных задач специалистов ЕСЦ — автоматизация части рутинных процессов. Например, отправка приглашений экспертам на групповой звонок, если возникнут типовые значительные инциденты. Такие ситуации требуют обязательного участия в видео-конференц-связи определенных работников. Планируется, что текст приглашения озвучит цифровой генератор речи.
Автоматизация коснется и оповещения сотрудников о нештатных ситуациях и значительных инцидентах. Пока сообщения публикуются в Telegram, почтовую рассылку и на порталы банка отдельно. В будущем появится более удобный и совершенный механизм, который позволит передавать информацию о сбоях по всем требуемым каналам сразу.
Также есть и другие планы по автоматизации и оптимизации работы ЕСЦ. Отдельное направление связано с формированием отчетности, потому что она важна для последующего анализа работы центра. С помощью отчетов эксперты понимают, соответствуют ли текущие результаты запланированным, и ищут способы их улучшения.