Управление SLO

Руководство по управлению целями уровня обслуживания (SLO): создание SLO доступности и времени отклика, расчёт соответствия и бюджета ошибок, правила алертинга по скорости сжигания, отчёт о соответствии.

На этой странице:

Введение

SLO (Service Level Objectives) — раздел платформы Proto Observability для формального определения и отслеживания целей уровня обслуживания. С его помощью команды могут:

  • Формализовать цели надёжности — задать минимально допустимые уровни доступности и времени отклика для сервисов и операций.
  • Отслеживать соответствие — видеть текущий процент соответствия (compliance) и оставшийся бюджет ошибок в любой момент.
  • Управлять инцидентами по данным — получать алерты о быстром или медленном сжигании бюджета ошибок до того, как цель окажется недостижимой.
  • Отчитываться перед бизнесом — формировать отчёты о соответствии за произвольный период времени.

Ключевые понятия

Термин Описание
SLI (Service Level Indicator) Измеряемый показатель — например, доля успешных запросов или время отклика
SLO (Service Level Objective) Целевое значение SLI, например «99,5% успешных запросов за последние 30 дней»
Error Budget (бюджет ошибок) Сколько «плохих» событий допустимо, чтобы не нарушить SLO — равен 1 − SLO от общего объёма
Compliance Window (окно соответствия) Период, за который вычисляется соответствие: катящееся окно (например, последние 30 дней) или календарное (например, текущий месяц)
Burn Rate (скорость сжигания) Во сколько раз быстрее обычного расходуется бюджет ошибок

Как открыть

Перейдите в раздел Алерты > SLO в основном меню навигации платформы.


Список SLO

Страница списка отображает все SLO, определённые в платформе.

Столбцы таблицы:

Столбец Описание
Имя Название SLO
Сервис Сервис, к которому относится SLO
Тип Доступность (availability) или Время отклика (latency)
Цель Целевое значение в процентах (например, 99.5%)
Окно Катящееся или календарное, длина периода
Соответствие Текущий процент соответствия с цветовой индикацией
Бюджет ошибок Остаток бюджета ошибок в процентах
Владелец Ответственная команда или сотрудник

Возможности таблицы:

  • Поиск по имени SLO;
  • Фильтрация по сервису, типу и владельцу;
  • Сортировка по столбцам;
  • Кнопка Создать SLO для добавления новой цели.

Создание SLO

Форма создания SLO состоит из нескольких блоков.

Основные параметры:

Поле Описание Обязательное
Имя SLO Уникальное название, например payment-api-availability-99-5 Да
Описание Пояснение назначения SLO Нет
Сервис Сервис, для которого определяется SLO Да
Владелец (owner) Команда или сотрудник — ответственное лицо Да
Теги (labels) Произвольные метки, которые прокинутся в алерты Нет

Тип SLI:

Тип Что измеряется Пример цели
Доступность (availability) Доля успешных запросов (без серверных ошибок) 99.5% запросов без ошибок
Время отклика (latency) Доля запросов, время выполнения которых не превышает порог 95% запросов быстрее 300 мс

Для SLO по времени отклика платформа автоматически предлагает порог (threshold) на основе исторических данных — его можно скорректировать вручную.

Окно соответствия:

Тип окна Описание
Катящееся (rolling) Окно «последние N дней» — соответствие всегда считается за скользящий период
Календарное (calendar) Фиксированные календарные периоды: неделя, месяц, квартал

Доступные длины окна: 7 дней, 14 дней, 28 / 30 дней, 90 дней.

Предпросмотр SLI:

Под формой отображается график SLI за текущее окно с наложенной областью порога. Это позволяет убедиться, что выбранный порог реалистичен до сохранения SLO.

После заполнения всех обязательных полей нажмите Сохранить. Правила алертинга по скорости сжигания бюджета генерируются автоматически при создании SLO.


Детали SLO

Страница деталей открывается при переходе по имени SLO в списке.

Индикатор соответствия (Compliance Gauge)

Карточка в верхней части страницы отображает текущий процент соответствия с цветовой индикацией:

Зона Цвет Условие
Норма Зелёный Соответствие выше целевого значения, бюджет расходуется в пределах допустимого
Предупреждение Жёлтый Бюджет расходуется быстрее среднего темпа
Критическое Красный Бюджет близок к исчерпанию или SLO уже нарушен

Карточки скорости сжигания (Burn Rate)

Две карточки показывают текущую скорость сжигания бюджета за короткий и длинный интервалы:

  • Быстрое сжигание (1 час) — мониторит внезапные всплески ошибок;
  • Медленное сжигание (6 часов) — помогает выявить постепенную деградацию.

Цвет карточки меняется в зависимости от значения скорости (норма / предупреждение / критическое).

График сжигания бюджета (Burn-down Chart)

Показывает, как расходовался бюджет ошибок с начала окна соответствия. Линия идёт вниз по мере потребления бюджета — при штатной работе она должна оставаться выше диагонали равномерного расхода.

График SLI

Линейный график текущего значения SLI за окно соответствия с наложенной целевой линией. Для SLO времени отклика доступно переключение между перцентилями P50 / P90 / P95 / P99.


Автоматические алерты по SLO

При создании SLO платформа автоматически формирует четыре правила алертинга (vmalert) из шаблонов:

Алерт Условие Назначение
Быстрое сжигание Скорость сжигания > 14.4× за последний 1 час Предупреждает о внезапной деградации — при такой скорости бюджет исчерпается за 2 часа
Медленное сжигание Скорость сжигания > 6× за последние 6 часов Выявляет устойчивую деградацию до полного исчерпания бюджета
Контроль объёма (volume guard) Резкое падение количества событий Защита от ложноотрицательных — при малом трафике метрика SLI может давать некорректные значения
Исчерпание бюджета Остаток бюджета ≤ 0 Сигнализирует о нарушении SLO

Метки owner и произвольные теги, заданные при создании SLO, автоматически прокидываются в алерты — это позволяет маршрутизировать оповещения нужным командам.


Отчёт о соответствии SLO

Раздел Алерты > SLO > Отчёт о соответствии позволяет проанализировать соответствие всех SLO за произвольный период.

Выбор периода

В верхней части страницы — стандартный таймпиккер платформы с пресетами (последние 7 / 30 дней, текущий / прошлый месяц и т.д.) и возможностью задать произвольный диапазон. По умолчанию выбраны последние 3 месяца.

Таблица отчёта

Каждая строка — отдельное SLO:

Столбец Описание
SLO Имя и тип SLO
Сервис Сервис
Цель Целевой процент
Среднее соответствие Процент соответствия за выбранный период
Использовано бюджета Доля израсходованного бюджета ошибок
Статус Цветной индикатор: норма / нарушения / критическое

Отчёт удобно использовать для регулярных встреч по надёжности и отчётности перед бизнесом.


Права доступа

SLO — отдельный тип ресурса (slo) в модели RBAC. Для работы с SLO пользователю требуются права:

Действие Право
Просмотр списка и деталей SLO slo:read
Создание и редактирование slo:write
Удаление slo:delete

Права на SLO можно ограничивать по сервисам — в этом случае пользователь увидит только SLO разрешённых ему сервисов. Подробнее см. Администрирование RBAC.