Инциденты

Инциденты в Proto Observability Platform: автоматическая корреляция связанных алертов в единый инцидент, этапы жизненного цикла (ITIL), ИИ-сводка и ИИ-расследование первопричины, граф распространения и настройка рабочего процесса.

На этой странице:

Когда в инфраструктуре что-то ломается, обычно срабатывает не один алерт, а сразу несколько: падение пода тянет за собой ошибки зависимых сервисов, превышение SLO, рост задержек и так далее. Если смотреть на это как на поток отдельных алертов, легко утонуть в шуме и упустить общую картину.

Модуль Инциденты решает эту задачу: платформа автоматически коррелирует связанные алерты и объединяет их в один инцидент. Дежурный работает не с десятками одинаковых уведомлений, а с одной сущностью, у которой есть первопричина, охват, ответственный и история. Раздел доступен в главном меню по пункту Инциденты и тесно связан с разделом Алерты — инциденты строятся именно из сработавших алертов.

Что такое инцидент

Инцидент — это группа связанных алертов, объединённых платформой по общему признаку (например, по одному и тому же ресурсу или совпадающим лейблам). Корреляция выполняется автоматически и в реальном времени: как только появляются новые алерты, относящиеся к уже открытому инциденту, они присоединяются к нему, а не порождают новые сущности.

У каждого инцидента есть:

АтрибутОписание
КритичностьНаивысшая критичность среди входящих алертов: Критический, Высокий, Средний или Низкий.
ЭтапТекущая фаза жизненного цикла: Обнаружен, Диагностика, Устранение, Закрыт (см. Этапы инцидента).
ОхватКоличество связанных алертов и затронутых ресурсов.
ВлияниеОценка масштаба (например, Локальное влияние) с числом затронутых ресурсов.
ОтветственныйПользователь, назначенный на работу с инцидентом.
ВозрастВремя с момента создания и время последнего обновления.

Благодаря корреляции десятки однотипных алертов (например, по нескольким подам одного неймспейса) сворачиваются в один инцидент, что резко снижает шум и ускоряет реагирование.

Список инцидентов

Раздел Инциденты > Список инцидентов показывает активные и недавние инциденты по доступным вам сервисам. Список обновляется автоматически.

Список инцидентов с применённым фильтром по сервису Скриншот: список инцидентов, отфильтрованный по сервису и отсортированный по критичности.

Колонки таблицы:

КолонкаЗначение
КритичностьНаивысшая критичность инцидента. По столбцу можно сортировать.
НазваниеЗаголовок инцидента и сервис, к которому он относится.
ЭтапТекущая фаза жизненного цикла.
ОхватЧисло связанных алертов и затронутых ресурсов.
ОтветственныйНазначенный пользователь (или Не назначен).
ВозрастДлительность инцидента и время последнего обновления.
AIПризнак наличия ИИ-сводки и ИИ-расследования.

Над таблицей расположена панель фильтров. Доступна фильтрация по этапу, уровню критичности, ответственному и сервису, а также полнотекстовый поиск по названию или сводке. Счётчик N фильтр активен показывает, сколько фильтров применено; кнопка Сбросить фильтры снимает их все. Переключатель Только мои инциденты оставляет в списке инциденты, назначенные на текущего пользователя.

Список разбит на страницы на стороне сервера; размер страницы выбирается внизу (10 / 20 / 50 / 100 на странице). Клик по строке открывает карточку инцидента.

Карточка инцидента

Карточка инцидента — это рабочее место для разбора проблемы. В шапке отображаются критичность, влияние с числом затронутых ресурсов, возраст, время создания и последнего обновления, а также заголовок инцидента (его можно переименовать) и кнопка Объединить с….

Карточка инцидента: степпер этапов, панель AIOPS и правая колонка Скриншот: карточка инцидента с первопричиной, степпером этапов и правой колонкой (ответственный, затронутые ресурсы, связанные алерты).

Карточка состоит из трёх логических зон:

  • Степпер этапов вверху — текущая фаза жизненного цикла и переход между этапами.
  • Панель AIOPS в центре — вкладки Причина проблемы, Сводка и Расследование, а также таймлайн и хронология.
  • Правая колонка — ответственный, затронутые ресурсы и связанные алерты.

Этапы инцидента

Инцидент проходит четыре этапа жизненного цикла в соответствии с практиками ITIL:

  1. Обнаружен — инцидент только что создан корреляцией алертов.
  2. Диагностика — идёт поиск причины.
  3. Устранение — причина найдена, выполняются восстановительные действия.
  4. Закрыт — проблема решена.

Текущий этап показан степпером в карточке и колонкой Этап в списке. Переход между этапами выполняется вручную; часть переходов (например, автоматическое закрытие после разрешения всех алертов) платформа выполняет сама. Названия и порядок этапов можно изменить — см. Настройка рабочего процесса.

ИИ-сводка

Вкладка Сводка панели AIOPS содержит автоматически сгенерированное текстовое описание инцидента: что произошло, когда, какие сервисы затронуты и как развивалась ситуация. Сводка формируется на русском и английском языках и обновляется по мере развития инцидента.

Вкладка «Сводка» с ИИ-описанием инцидента Скриншот: ИИ-сводка инцидента с отметкой времени последнего обновления.

Рядом с заголовком показано время последнего обновления сводки; если с тех пор инцидент изменился, появляется отметка Устарело. Кнопка Обобщить запускает повторную генерацию сводки с учётом актуальных данных.

ИИ-расследование первопричины

Вкладка Расследование запускает ИИ-анализ первопричины инцидента. В отличие от сводки (которая описывает что произошло), расследование отвечает на вопрос почему это произошло.

Вкладка «Расследование»: первопричина, затронутые сервисы и рекомендации Скриншот: ИИ-расследование с уровнем уверенности, цепочкой первопричины, затронутыми сервисами и рекомендациями.

Результат расследования включает:

  • Уровень уверенности (например, Высокая уверенность);
  • Первопричину и цепочку развития проблемы — как первичный сбой привёл к каскаду вторичных;
  • Затронутые сервисы;
  • Рекомендации по устранению.

Краткая выжимка первопричины дублируется на вкладке Причина проблемы. Запустить расследование можно кнопкой Расследовать; повторный анализ — кнопкой Запустить заново.

Затронутые ресурсы, связанные алерты и граф распространения

Правая колонка карточки показывает затронутые ресурсы (с типом ресурса — сервис, под Kubernetes, неймспейс, деплоймент и т. д.) и связанные алерты. По кнопке Показать все (N) раскрывается полный список.

Внизу карточки доступны развёрнутые блоки:

  • Затронутые ресурсы (полный список) — все ресурсы инцидента.
  • Связанные алерты (полная таблица) — все алерты со столбцами: состояние, критичность, описание, объект (Где), время начала и конца, длительность и переход к контексту.
  • Граф распространения — визуализация «радиуса поражения»: центральный узел инцидента и связанные с ним ресурсы.

Граф распространения инцидента Скриншот: граф распространения — центральный узел инцидента и затронутые ресурсы.

Граф помогает быстро оценить масштаб инцидента и увидеть, какие компоненты инфраструктуры оказались вовлечены.

Таймлайн и хронология

Таймлайн показывает события инцидента на шкале времени — наглядную «ось» развития ситуации.

Хронология — это журнал инцидента с фильтрами Все, Решения, Система, Коммуникации. В неё попадают как системные записи (создание инцидента с указанием признака корреляции, объединение инцидентов, обновление ИИ-сводки), так и заметки пользователей. Добавить собственную заметку можно в поле ввода (простой текст, без Markdown).

Системная запись о создании инцидента содержит признак корреляции — например, same resource: k8s_pod=<кластер>|<неймспейс>|<под> — то есть основание, по которому алерты были объединены.

Объединение инцидентов

Если платформа определяет, что несколько инцидентов относятся к одной проблеме, она объединяет их: алерты и ресурсы переносятся в один инцидент, а в его хронологии появляются записи вида в этот инцидент влит инцидент #<id>. Объединение можно выполнить и вручную — кнопкой Объединить с… в шапке карточки. Это удобно, когда фрагменты одной аварии изначально попали в разные инциденты.

Ответственный

В правой колонке карточки назначается ответственный за инцидент. Можно назначить себя кнопкой Назначить меня → или выбрать пользователя через поиск. Назначение отражается в списке (колонка Ответственный), а переключатель Только мои инциденты помогает дежурному видеть только свои инциденты.

Настройка рабочего процесса

Раздел Инциденты > Настройка рабочего процесса позволяет переименовать и переупорядочить четыре этапа инцидента, отображаемые в интерфейсе.

Настройка названий этапов инцидента Скриншот: настройка названий и порядка этапов инцидента с предпросмотром.

Для каждого этапа задаются:

  • Идентификатор (detect, diagnose, resolve, close) — только для чтения, изменить его нельзя;
  • Название на английском и Название на русском (до 80 символов);
  • Порядок (значения 1–4, без повторов).

Блок Предпросмотр показывает, как степпер будет выглядеть на странице инцидента, с переключением языка EN / RU. Кнопка Сбросить к значениям по умолчанию возвращает стандартные названия и порядок, Сохранить изменения — применяет настройки.