Управление SLO

Руководство по управлению целями уровня обслуживания (SLO): создание SLO доступности и времени отклика, расчёт соответствия и бюджета ошибок, правила алертинга по скорости сжигания, отчёт о соответствии.

На этой странице:

Введение

SLO (Service Level Objectives) — раздел платформы Proto Observability для формального определения и отслеживания целей уровня обслуживания. С его помощью команды могут:

  • Формализовать цели надёжности — задать минимально допустимые уровни доступности и времени отклика для сервисов и операций.
  • Отслеживать соответствие — видеть текущий процент соответствия (compliance) и оставшийся бюджет ошибок в любой момент.
  • Управлять инцидентами по данным — получать алерты о быстром или медленном сжигании бюджета ошибок до того, как цель окажется недостижимой.
  • Отчитываться перед бизнесом — формировать отчёты о соответствии за произвольный период времени.

Ключевые понятия

ТерминОписание
SLI (Service Level Indicator)Измеряемый показатель — например, доля успешных запросов или время отклика
SLO (Service Level Objective)Целевое значение SLI, например «99,5% успешных запросов за последние 30 дней»
Error Budget (бюджет ошибок)Сколько «плохих» событий допустимо, чтобы не нарушить SLO — равен 1 − SLO от общего объёма
Compliance Window (окно соответствия)Период, за который вычисляется соответствие: катящееся окно (например, последние 30 дней) или календарное (например, текущий месяц)
Burn Rate (скорость сжигания)Во сколько раз быстрее обычного расходуется бюджет ошибок

Как открыть

Перейдите в раздел Алерты > SLO в основном меню навигации платформы.


Список SLO

Страница списка отображает все SLO, определённые в платформе.

Столбцы таблицы:

СтолбецОписание
ИмяНазвание SLO
СервисСервис, к которому относится SLO
ТипДоступность (availability) или Время отклика (latency)
ЦельЦелевое значение в процентах (например, 99.5%)
ОкноКатящееся или календарное, длина периода
СоответствиеТекущий процент соответствия с цветовой индикацией
Бюджет ошибокОстаток бюджета ошибок в процентах
ВладелецОтветственная команда или сотрудник

Возможности таблицы:

  • Поиск по имени SLO;
  • Фильтрация по сервису, типу и владельцу;
  • Сортировка по столбцам;
  • Кнопка Создать SLO для добавления новой цели.

Создание SLO

Форма создания SLO состоит из нескольких блоков.

Основные параметры:

ПолеОписаниеОбязательное
Имя SLOУникальное название, например payment-api-availability-99-5Да
ОписаниеПояснение назначения SLOНет
СервисСервис, для которого определяется SLOДа
Владелец (owner)Команда или сотрудник — ответственное лицоДа
Теги (labels)Произвольные метки, которые прокинутся в алертыНет

Тип SLI:

ТипЧто измеряетсяПример цели
Доступность (availability)Доля успешных запросов (без серверных ошибок)99.5% запросов без ошибок
Время отклика (latency)Доля запросов, время выполнения которых не превышает порог95% запросов быстрее 300 мс

Для SLO по времени отклика платформа автоматически предлагает порог (threshold) на основе исторических данных — его можно скорректировать вручную.

Окно соответствия:

Тип окнаОписание
Катящееся (rolling)Окно «последние N дней» — соответствие всегда считается за скользящий период
Календарное (calendar)Фиксированные календарные периоды: неделя, месяц, квартал

Доступные длины окна: 7 дней, 14 дней, 28 / 30 дней, 90 дней.

Предпросмотр SLI:

Под формой отображается график SLI за текущее окно с наложенной областью порога. Это позволяет убедиться, что выбранный порог реалистичен до сохранения SLO.

После заполнения всех обязательных полей нажмите Сохранить. Правила алертинга по скорости сжигания бюджета генерируются автоматически при создании SLO.


Детали SLO

Страница деталей открывается при переходе по имени SLO в списке.

Индикатор соответствия (Compliance Gauge)

Карточка в верхней части страницы отображает текущий процент соответствия с цветовой индикацией:

ЗонаЦветУсловие
НормаЗелёныйСоответствие выше целевого значения, бюджет расходуется в пределах допустимого
ПредупреждениеЖёлтыйБюджет расходуется быстрее среднего темпа
КритическоеКрасныйБюджет близок к исчерпанию или SLO уже нарушен

Карточки скорости сжигания (Burn Rate)

Две карточки показывают текущую скорость сжигания бюджета за короткий и длинный интервалы:

  • Быстрое сжигание (1 час) — мониторит внезапные всплески ошибок;
  • Медленное сжигание (6 часов) — помогает выявить постепенную деградацию.

Цвет карточки меняется в зависимости от значения скорости (норма / предупреждение / критическое).

График сжигания бюджета (Burn-down Chart)

Показывает, как расходовался бюджет ошибок с начала окна соответствия. Линия идёт вниз по мере потребления бюджета — при штатной работе она должна оставаться выше диагонали равномерного расхода.

График SLI

Линейный график текущего значения SLI за окно соответствия с наложенной целевой линией. Для SLO времени отклика доступно переключение между перцентилями P50 / P90 / P95 / P99.


Автоматические алерты по SLO

При создании SLO платформа автоматически формирует четыре правила алертинга (vmalert) из шаблонов:

АлертУсловиеНазначение
Быстрое сжиганиеСкорость сжигания > 14.4× за последний 1 часПредупреждает о внезапной деградации — при такой скорости бюджет исчерпается за 2 часа
Медленное сжиганиеСкорость сжигания > 6× за последние 6 часовВыявляет устойчивую деградацию до полного исчерпания бюджета
Контроль объёма (volume guard)Резкое падение количества событийЗащита от ложноотрицательных — при малом трафике метрика SLI может давать некорректные значения
Исчерпание бюджетаОстаток бюджета ≤ 0Сигнализирует о нарушении SLO

Метки owner и произвольные теги, заданные при создании SLO, автоматически прокидываются в алерты — это позволяет маршрутизировать оповещения нужным командам.


Отчёт о соответствии SLO

Раздел Алерты > SLO > Отчёт о соответствии позволяет проанализировать соответствие всех SLO за произвольный период.

Выбор периода

В верхней части страницы — стандартный таймпиккер платформы с пресетами (последние 7 / 30 дней, текущий / прошлый месяц и т.д.) и возможностью задать произвольный диапазон. По умолчанию выбраны последние 3 месяца.

Таблица отчёта

Каждая строка — отдельное SLO:

СтолбецОписание
SLOИмя и тип SLO
СервисСервис
ЦельЦелевой процент
Среднее соответствиеПроцент соответствия за выбранный период
Использовано бюджетаДоля израсходованного бюджета ошибок
СтатусЦветной индикатор: норма / нарушения / критическое

Отчёт удобно использовать для регулярных встреч по надёжности и отчётности перед бизнесом.


Права доступа

SLO — отдельный тип ресурса (slo) в модели RBAC. Для работы с SLO пользователю требуются права:

ДействиеПраво
Просмотр списка и деталей SLOslo:read
Создание и редактированиеslo:write
Удалениеslo:delete

Права на SLO можно ограничивать по сервисам — в этом случае пользователь увидит только SLO разрешённых ему сервисов. Подробнее см. Администрирование RBAC.