<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Документация Proto Observability Platform – первопричина</title><link>/docs/tags/%D0%BF%D0%B5%D1%80%D0%B2%D0%BE%D0%BF%D1%80%D0%B8%D1%87%D0%B8%D0%BD%D0%B0/</link><description>Recent content in первопричина on Документация Proto Observability Platform</description><generator>Hugo -- gohugo.io</generator><language>ru</language><atom:link href="/docs/tags/%D0%BF%D0%B5%D1%80%D0%B2%D0%BE%D0%BF%D1%80%D0%B8%D1%87%D0%B8%D0%BD%D0%B0/index.xml" rel="self" type="application/rss+xml"/><item><title>Alerting: Инциденты</title><link>/docs/alerting/incidents/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>/docs/alerting/incidents/</guid><description>
&lt;div class="alert alert-info" role="alert">
&lt;h4 class="alert-heading">Начиная с версии 201&lt;/h4>
Модуль &lt;strong>Инциденты&lt;/strong> доступен начиная с версии 201. Он автоматически группирует связанные алерты в инциденты, ведёт их по этапам жизненного цикла и помогает с поиском первопричины с помощью ИИ.
&lt;/div>
&lt;p>На этой странице:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="#%d1%87%d1%82%d0%be-%d1%82%d0%b0%d0%ba%d0%be%d0%b5-%d0%b8%d0%bd%d1%86%d0%b8%d0%b4%d0%b5%d0%bd%d1%82">Что такое инцидент&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%d1%81%d0%bf%d0%b8%d1%81%d0%be%d0%ba-%d0%b8%d0%bd%d1%86%d0%b8%d0%b4%d0%b5%d0%bd%d1%82%d0%be%d0%b2">Список инцидентов&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%d0%ba%d0%b0%d1%80%d1%82%d0%be%d1%87%d0%ba%d0%b0-%d0%b8%d0%bd%d1%86%d0%b8%d0%b4%d0%b5%d0%bd%d1%82%d0%b0">Карточка инцидента&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%d1%8d%d1%82%d0%b0%d0%bf%d1%8b-%d0%b8%d0%bd%d1%86%d0%b8%d0%b4%d0%b5%d0%bd%d1%82%d0%b0">Этапы инцидента&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%d0%b8%d0%b8-%d1%81%d0%b2%d0%be%d0%b4%d0%ba%d0%b0">ИИ-сводка&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%d0%b8%d0%b8-%d1%80%d0%b0%d1%81%d1%81%d0%bb%d0%b5%d0%b4%d0%be%d0%b2%d0%b0%d0%bd%d0%b8%d0%b5-%d0%bf%d0%b5%d1%80%d0%b2%d0%be%d0%bf%d1%80%d0%b8%d1%87%d0%b8%d0%bd%d1%8b">ИИ-расследование первопричины&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%d0%b7%d0%b0%d1%82%d1%80%d0%be%d0%bd%d1%83%d1%82%d1%8b%d0%b5-%d1%80%d0%b5%d1%81%d1%83%d1%80%d1%81%d1%8b-%d1%81%d0%b2%d1%8f%d0%b7%d0%b0%d0%bd%d0%bd%d1%8b%d0%b5-%d0%b0%d0%bb%d0%b5%d1%80%d1%82%d1%8b-%d0%b8-%d0%b3%d1%80%d0%b0%d1%84-%d1%80%d0%b0%d1%81%d0%bf%d1%80%d0%be%d1%81%d1%82%d1%80%d0%b0%d0%bd%d0%b5%d0%bd%d0%b8%d1%8f">Затронутые ресурсы, связанные алерты и граф распространения&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%d1%82%d0%b0%d0%b9%d0%bc%d0%bb%d0%b0%d0%b9%d0%bd-%d0%b8-%d1%85%d1%80%d0%be%d0%bd%d0%be%d0%bb%d0%be%d0%b3%d0%b8%d1%8f">Таймлайн и хронология&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%d0%be%d0%b1%d1%8a%d0%b5%d0%b4%d0%b8%d0%bd%d0%b5%d0%bd%d0%b8%d0%b5-%d0%b8%d0%bd%d1%86%d0%b8%d0%b4%d0%b5%d0%bd%d1%82%d0%be%d0%b2">Объединение инцидентов&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%d0%be%d1%82%d0%b2%d0%b5%d1%82%d1%81%d1%82%d0%b2%d0%b5%d0%bd%d0%bd%d1%8b%d0%b9">Ответственный&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%d0%bd%d0%b0%d1%81%d1%82%d1%80%d0%be%d0%b9%d0%ba%d0%b0-%d1%80%d0%b0%d0%b1%d0%be%d1%87%d0%b5%d0%b3%d0%be-%d0%bf%d1%80%d0%be%d1%86%d0%b5%d1%81%d1%81%d0%b0">Настройка рабочего процесса&lt;/a>&lt;/li>
&lt;/ul>
&lt;p>Когда в инфраструктуре что-то ломается, обычно срабатывает не один алерт, а сразу несколько: падение пода тянет за собой ошибки зависимых сервисов, превышение SLO, рост задержек и так далее. Если смотреть на это как на поток отдельных алертов, легко утонуть в шуме и упустить общую картину.&lt;/p>
&lt;p>Модуль &lt;strong>Инциденты&lt;/strong> решает эту задачу: платформа автоматически &lt;strong>коррелирует&lt;/strong> связанные алерты и объединяет их в один инцидент. Дежурный работает не с десятками одинаковых уведомлений, а с одной сущностью, у которой есть первопричина, охват, ответственный и история. Раздел доступен в главном меню по пункту &lt;code>Инциденты&lt;/code> и тесно связан с разделом &lt;a href="../">Алерты&lt;/a> — инциденты строятся именно из сработавших алертов.&lt;/p>
&lt;h2 id="что-такое-инцидент">Что такое инцидент&lt;/h2>
&lt;p>Инцидент — это группа связанных алертов, объединённых платформой по общему признаку (например, по одному и тому же ресурсу или совпадающим лейблам). Корреляция выполняется автоматически и в реальном времени: как только появляются новые алерты, относящиеся к уже открытому инциденту, они присоединяются к нему, а не порождают новые сущности.&lt;/p>
&lt;p>У каждого инцидента есть:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Атрибут&lt;/th>
&lt;th>Описание&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Критичность&lt;/strong>&lt;/td>
&lt;td>Наивысшая критичность среди входящих алертов: &lt;code>Критический&lt;/code>, &lt;code>Высокий&lt;/code>, &lt;code>Средний&lt;/code> или &lt;code>Низкий&lt;/code>.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Этап&lt;/strong>&lt;/td>
&lt;td>Текущая фаза жизненного цикла: &lt;code>Обнаружен&lt;/code>, &lt;code>Диагностика&lt;/code>, &lt;code>Устранение&lt;/code>, &lt;code>Закрыт&lt;/code> (см. &lt;a href="#%d1%8d%d1%82%d0%b0%d0%bf%d1%8b-%d0%b8%d0%bd%d1%86%d0%b8%d0%b4%d0%b5%d0%bd%d1%82%d0%b0">Этапы инцидента&lt;/a>).&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Охват&lt;/strong>&lt;/td>
&lt;td>Количество связанных алертов и затронутых ресурсов.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Влияние&lt;/strong>&lt;/td>
&lt;td>Оценка масштаба (например, &lt;code>Локальное влияние&lt;/code>) с числом затронутых ресурсов.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Ответственный&lt;/strong>&lt;/td>
&lt;td>Пользователь, назначенный на работу с инцидентом.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Возраст&lt;/strong>&lt;/td>
&lt;td>Время с момента создания и время последнего обновления.&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Благодаря корреляции десятки однотипных алертов (например, по нескольким подам одного неймспейса) сворачиваются в один инцидент, что резко снижает шум и ускоряет реагирование.&lt;/p>
&lt;h2 id="список-инцидентов">Список инцидентов&lt;/h2>
&lt;p>Раздел &lt;code>Инциденты&lt;/code> &amp;gt; &lt;code>Список инцидентов&lt;/code> показывает активные и недавние инциденты по доступным вам сервисам. Список обновляется автоматически.&lt;/p>
&lt;p>&lt;img src="images/incidents-list.png" alt="Список инцидентов с применённым фильтром по сервису">
&lt;em>Скриншот: список инцидентов, отфильтрованный по сервису и отсортированный по критичности.&lt;/em>&lt;/p>
&lt;p>Колонки таблицы:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Колонка&lt;/th>
&lt;th>Значение&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Критичность&lt;/td>
&lt;td>Наивысшая критичность инцидента. По столбцу можно сортировать.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Название&lt;/td>
&lt;td>Заголовок инцидента и сервис, к которому он относится.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Этап&lt;/td>
&lt;td>Текущая фаза жизненного цикла.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Охват&lt;/td>
&lt;td>Число связанных алертов и затронутых ресурсов.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Ответственный&lt;/td>
&lt;td>Назначенный пользователь (или &lt;code>Не назначен&lt;/code>).&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Возраст&lt;/td>
&lt;td>Длительность инцидента и время последнего обновления.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AI&lt;/td>
&lt;td>Признак наличия ИИ-сводки и ИИ-расследования.&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Над таблицей расположена панель фильтров. Доступна фильтрация по &lt;strong>этапу&lt;/strong>, &lt;strong>уровню критичности&lt;/strong>, &lt;strong>ответственному&lt;/strong> и &lt;strong>сервису&lt;/strong>, а также полнотекстовый поиск &lt;strong>по названию или сводке&lt;/strong>. Счётчик &lt;code>N фильтр активен&lt;/code> показывает, сколько фильтров применено; кнопка &lt;code>Сбросить фильтры&lt;/code> снимает их все. Переключатель &lt;code>Только мои инциденты&lt;/code> оставляет в списке инциденты, назначенные на текущего пользователя.&lt;/p>
&lt;p>Список разбит на страницы на стороне сервера; размер страницы выбирается внизу (10 / 20 / 50 / 100 на странице). Клик по строке открывает карточку инцидента.&lt;/p>
&lt;h2 id="карточка-инцидента">Карточка инцидента&lt;/h2>
&lt;p>Карточка инцидента — это рабочее место для разбора проблемы. В шапке отображаются критичность, влияние с числом затронутых ресурсов, возраст, время создания и последнего обновления, а также заголовок инцидента (его можно переименовать) и кнопка &lt;code>Объединить с…&lt;/code>.&lt;/p>
&lt;p>&lt;img src="images/incident-detail.png" alt="Карточка инцидента: степпер этапов, панель AIOPS и правая колонка">
&lt;em>Скриншот: карточка инцидента с первопричиной, степпером этапов и правой колонкой (ответственный, затронутые ресурсы, связанные алерты).&lt;/em>&lt;/p>
&lt;p>Карточка состоит из трёх логических зон:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Степпер этапов&lt;/strong> вверху — текущая фаза жизненного цикла и переход между этапами.&lt;/li>
&lt;li>&lt;strong>Панель AIOPS&lt;/strong> в центре — вкладки &lt;code>Причина проблемы&lt;/code>, &lt;code>Сводка&lt;/code> и &lt;code>Расследование&lt;/code>, а также таймлайн и хронология.&lt;/li>
&lt;li>&lt;strong>Правая колонка&lt;/strong> — ответственный, затронутые ресурсы и связанные алерты.&lt;/li>
&lt;/ul>
&lt;h2 id="этапы-инцидента">Этапы инцидента&lt;/h2>
&lt;p>Инцидент проходит четыре этапа жизненного цикла в соответствии с практиками ITIL:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Обнаружен&lt;/strong> — инцидент только что создан корреляцией алертов.&lt;/li>
&lt;li>&lt;strong>Диагностика&lt;/strong> — идёт поиск причины.&lt;/li>
&lt;li>&lt;strong>Устранение&lt;/strong> — причина найдена, выполняются восстановительные действия.&lt;/li>
&lt;li>&lt;strong>Закрыт&lt;/strong> — проблема решена.&lt;/li>
&lt;/ol>
&lt;p>Текущий этап показан степпером в карточке и колонкой &lt;code>Этап&lt;/code> в списке. Переход между этапами выполняется вручную; часть переходов (например, автоматическое закрытие после разрешения всех алертов) платформа выполняет сама. Названия и порядок этапов можно изменить — см. &lt;a href="#%d0%bd%d0%b0%d1%81%d1%82%d1%80%d0%be%d0%b9%d0%ba%d0%b0-%d1%80%d0%b0%d0%b1%d0%be%d1%87%d0%b5%d0%b3%d0%be-%d0%bf%d1%80%d0%be%d1%86%d0%b5%d1%81%d1%81%d0%b0">Настройка рабочего процесса&lt;/a>.&lt;/p>
&lt;h2 id="ии-сводка">ИИ-сводка&lt;/h2>
&lt;p>Вкладка &lt;code>Сводка&lt;/code> панели AIOPS содержит автоматически сгенерированное текстовое описание инцидента: что произошло, когда, какие сервисы затронуты и как развивалась ситуация. Сводка формируется на русском и английском языках и обновляется по мере развития инцидента.&lt;/p>
&lt;p>&lt;img src="images/incident-ai-summary.png" alt="Вкладка «Сводка» с ИИ-описанием инцидента">
&lt;em>Скриншот: ИИ-сводка инцидента с отметкой времени последнего обновления.&lt;/em>&lt;/p>
&lt;p>Рядом с заголовком показано время последнего обновления сводки; если с тех пор инцидент изменился, появляется отметка &lt;code>Устарело&lt;/code>. Кнопка &lt;code>Обобщить&lt;/code> запускает повторную генерацию сводки с учётом актуальных данных.&lt;/p>
&lt;h2 id="ии-расследование-первопричины">ИИ-расследование первопричины&lt;/h2>
&lt;p>Вкладка &lt;code>Расследование&lt;/code> запускает ИИ-анализ первопричины инцидента. В отличие от сводки (которая описывает &lt;em>что&lt;/em> произошло), расследование отвечает на вопрос &lt;em>почему&lt;/em> это произошло.&lt;/p>
&lt;p>&lt;img src="images/incident-ai-investigation.png" alt="Вкладка «Расследование»: первопричина, затронутые сервисы и рекомендации">
&lt;em>Скриншот: ИИ-расследование с уровнем уверенности, цепочкой первопричины, затронутыми сервисами и рекомендациями.&lt;/em>&lt;/p>
&lt;p>Результат расследования включает:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Уровень уверенности&lt;/strong> (например, &lt;code>Высокая уверенность&lt;/code>);&lt;/li>
&lt;li>&lt;strong>Первопричину&lt;/strong> и цепочку развития проблемы — как первичный сбой привёл к каскаду вторичных;&lt;/li>
&lt;li>&lt;strong>Затронутые сервисы&lt;/strong>;&lt;/li>
&lt;li>&lt;strong>Рекомендации&lt;/strong> по устранению.&lt;/li>
&lt;/ul>
&lt;p>Краткая выжимка первопричины дублируется на вкладке &lt;code>Причина проблемы&lt;/code>. Запустить расследование можно кнопкой &lt;code>Расследовать&lt;/code>; повторный анализ — кнопкой &lt;code>Запустить заново&lt;/code>.&lt;/p>
&lt;h2 id="затронутые-ресурсы-связанные-алерты-и-граф-распространения">Затронутые ресурсы, связанные алерты и граф распространения&lt;/h2>
&lt;p>Правая колонка карточки показывает &lt;strong>затронутые ресурсы&lt;/strong> (с типом ресурса — сервис, под Kubernetes, неймспейс, деплоймент и т. д.) и &lt;strong>связанные алерты&lt;/strong>. По кнопке &lt;code>Показать все (N)&lt;/code> раскрывается полный список.&lt;/p>
&lt;p>Внизу карточки доступны развёрнутые блоки:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Затронутые ресурсы (полный список)&lt;/strong> — все ресурсы инцидента.&lt;/li>
&lt;li>&lt;strong>Связанные алерты (полная таблица)&lt;/strong> — все алерты со столбцами: состояние, критичность, описание, объект (&lt;code>Где&lt;/code>), время начала и конца, длительность и переход к контексту.&lt;/li>
&lt;li>&lt;strong>Граф распространения&lt;/strong> — визуализация «радиуса поражения»: центральный узел инцидента и связанные с ним ресурсы.&lt;/li>
&lt;/ul>
&lt;p>&lt;img src="images/incident-graph.png" alt="Граф распространения инцидента">
&lt;em>Скриншот: граф распространения — центральный узел инцидента и затронутые ресурсы.&lt;/em>&lt;/p>
&lt;p>Граф помогает быстро оценить масштаб инцидента и увидеть, какие компоненты инфраструктуры оказались вовлечены.&lt;/p>
&lt;h2 id="таймлайн-и-хронология">Таймлайн и хронология&lt;/h2>
&lt;p>&lt;strong>Таймлайн&lt;/strong> показывает события инцидента на шкале времени — наглядную «ось» развития ситуации.&lt;/p>
&lt;p>&lt;strong>Хронология&lt;/strong> — это журнал инцидента с фильтрами &lt;code>Все&lt;/code>, &lt;code>Решения&lt;/code>, &lt;code>Система&lt;/code>, &lt;code>Коммуникации&lt;/code>. В неё попадают как системные записи (создание инцидента с указанием признака корреляции, объединение инцидентов, обновление ИИ-сводки), так и заметки пользователей. Добавить собственную заметку можно в поле ввода (простой текст, без Markdown).&lt;/p>
&lt;p>Системная запись о создании инцидента содержит признак корреляции — например, &lt;code>same resource: k8s_pod=&amp;lt;кластер&amp;gt;|&amp;lt;неймспейс&amp;gt;|&amp;lt;под&amp;gt;&lt;/code> — то есть основание, по которому алерты были объединены.&lt;/p>
&lt;h2 id="объединение-инцидентов">Объединение инцидентов&lt;/h2>
&lt;p>Если платформа определяет, что несколько инцидентов относятся к одной проблеме, она &lt;strong>объединяет&lt;/strong> их: алерты и ресурсы переносятся в один инцидент, а в его хронологии появляются записи вида &lt;code>в этот инцидент влит инцидент #&amp;lt;id&amp;gt;&lt;/code>. Объединение можно выполнить и вручную — кнопкой &lt;code>Объединить с…&lt;/code> в шапке карточки. Это удобно, когда фрагменты одной аварии изначально попали в разные инциденты.&lt;/p>
&lt;h2 id="ответственный">Ответственный&lt;/h2>
&lt;p>В правой колонке карточки назначается &lt;strong>ответственный&lt;/strong> за инцидент. Можно назначить себя кнопкой &lt;code>Назначить меня →&lt;/code> или выбрать пользователя через поиск. Назначение отражается в списке (колонка &lt;code>Ответственный&lt;/code>), а переключатель &lt;code>Только мои инциденты&lt;/code> помогает дежурному видеть только свои инциденты.&lt;/p>
&lt;h2 id="настройка-рабочего-процесса">Настройка рабочего процесса&lt;/h2>
&lt;p>Раздел &lt;code>Инциденты&lt;/code> &amp;gt; &lt;code>Настройка рабочего процесса&lt;/code> позволяет переименовать и переупорядочить четыре этапа инцидента, отображаемые в интерфейсе.&lt;/p>
&lt;p>&lt;img src="images/incident-workflow-config.png" alt="Настройка названий этапов инцидента">
&lt;em>Скриншот: настройка названий и порядка этапов инцидента с предпросмотром.&lt;/em>&lt;/p>
&lt;p>Для каждого этапа задаются:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Идентификатор&lt;/strong> (&lt;code>detect&lt;/code>, &lt;code>diagnose&lt;/code>, &lt;code>resolve&lt;/code>, &lt;code>close&lt;/code>) — только для чтения, изменить его нельзя;&lt;/li>
&lt;li>&lt;strong>Название на английском&lt;/strong> и &lt;strong>Название на русском&lt;/strong> (до 80 символов);&lt;/li>
&lt;li>&lt;strong>Порядок&lt;/strong> (значения 1–4, без повторов).&lt;/li>
&lt;/ul>
&lt;p>Блок &lt;code>Предпросмотр&lt;/code> показывает, как степпер будет выглядеть на странице инцидента, с переключением языка &lt;code>EN&lt;/code> / &lt;code>RU&lt;/code>. Кнопка &lt;code>Сбросить к значениям по умолчанию&lt;/code> возвращает стандартные названия и порядок, &lt;code>Сохранить изменения&lt;/code> — применяет настройки.&lt;/p></description></item></channel></rss>