Мониторинг Яндекс Облака с помощью Proto Observability Platform

Сбор метрик облачной платформы Яндекс Облако

Этот документ описывает настройку и поведение интеграции Proto Observability Platform c Yandex Cloud, которая собирает Prometheus‑метрики через Yandex Cloud Monitoring API.

В системе доступен сбор любых метрик из Яндекс Облако, для метрик Compute Cloud доступны встроенные дашборды: yandex-compute-cloud-dashboard

Ссылки на официальную документацию:

Yandex Cloud Monitoring API: https://yandex.cloud/ru/docs/monitoring/api-ref/
Как получить API токен: https://yandex.cloud/ru/docs/monitoring/api-ref/authentication
Справочник метрик: https://yandex.cloud/ru/docs/monitoring/metrics-ref/

Конфигурация

Файлы интеграции для Агента пока не поставляется вместе с дистрибутивом Агента, для получения файлов обратитесь в техническую поддержку вендора или вашего системного интегратора.

После получения необходимых файлов, создайте файл conf.d/yandex_cloud.d/conf.yaml для настройки параметров сбора метрик.

Пример конфигурации conf.d/yandex_cloud.d/conf.yaml:

init_config:

instances:
  - # Обязательно: folder_id и yandex_cloud_service (можно через env vars)
    folder_id:
      - "b1ge03voot402tf2b9qq"
      - "b1gm39s9tud92v06dkd8"
    yandex_cloud_service:
      - "compute"
      - "managed-clickhouse"
      - "managed-kubernetes"

    # Обязательно: API key (можно через env var YANDEX_API_KEY)
    api_key: "..."

    # Метрики для отбора; пустой список = собирать все метрики сервиса
    metrics:
      # - cpu_usage
      # - cpu_utilization

    # Опционально: какие лейблы превращать в теги (пусто = все лейблы)
    # label "service" будет переименована в тег "yandex_cloud_service".
    label_tag_allowlist: []
      # - resource_id
      # - resource_type
      # - cpu_name

    # Опционально: статические теги
    tags:
      - platform:yandex_cloud

    # Опционально: настройки запроса
    endpoint: "https://monitoring.api.cloud.yandex.net/monitoring/v2/prometheusMetrics"
    metric_prefix: "yandex_cloud."
    timeout: 10
    ssl_verify: true

Переменные окружения

  • YANDEX_API_KEY — API ключ для Yandex Cloud.
  • YANDEX_FOLDER_ID — ID папки (может быть список, разделенный запятыми или пробелами).
  • YANDEX_SERVICE — имя сервиса (может быть список, разделенный запятыми или пробелами).

Настройки и их описание

  • api_key — обязательный API ключ. Передается в Authorization: Bearer <token>.
  • folder_id — обязательный ID папки или список ID. Принимает список или строку с разделителями , и пробелами.
  • yandex_cloud_service — обязательный список сервисов Yandex Cloud. Дополнительно поддержан алиас service.
  • endpoint — URL для Prometheus Metrics API. По умолчанию используется официальный endpoint.
  • timeout — таймаут HTTP‑запроса, секунды (по умолчанию 10).
  • ssl_verify — проверка TLS сертификата (true/false).
  • metric_prefix — префикс, добавляемый ко всем метрикам (по умолчанию yandex_cloud.). Может быть пустой строкой.
  • metrics — список имен метрик для отбора. Пусто/отсутствует = все метрики, которые вернул API.
  • label_tag_allowlist — список имен лейблов, которые превращаются в теги. Пусто = все лейблы.
  • tags — статические теги, добавляются ко всем метрикам.

Как происходит сбор метрик

  • Для каждой пары folder_id + yandex_cloud_service выполняется GET запрос: endpoint?folderId=<folder_id>&service=<service>.
  • Ответ читается как Prometheus text format и парсится построчно.
  • Все значения отправляются как gauge.
  • Типы метрик из документации Yandex Cloud Monitoring (например, RATE, HIST_RATE, DGAUGE, IGAUGE) не сохраняются и не маппятся: в Proto Observability Platform они попадают как gauge, поэтому гистограммы и rate не обрабатываются автоматически.
  • Для UI: метрики типа RATE (например, байты/с, операции/с) отображайте как «текущее значение».
  • Некорректные и нечисловые значения игнорируются.

Теги, которые добавляются автоматически

К каждому измерению добавляются:

  • folder_id:<id> — ID папки.
  • yandex_cloud_service:<service> — сервис, для которого запрашивались метрики.
  • Лейблы из Prometheus‑метрик (с учетом label_tag_allowlist).
    • Лейбл service автоматически переименовывается в yandex_cloud_service.

Особый случай для дисков:

  • Если метрика содержит disk, но не содержит instance, то интеграция пытается найти instance из других метрик с тем же disk и добавляет его.
  • Для дисковых метрик добавляется resource_id, равный instance (или найденному по disk).

Список метрик

  • yandex_cloud_services — служебная метрика (gauge = 1) на каждую комбинацию folder_id + service.
  • Все метрики, которые возвращает Yandex Cloud Monitoring Prometheus Metrics API для указанных сервисов.
    • В Proto Observability Platform итоговое имя метрики формируется как yandex_cloud_ + исходное имя метрики, при этом точки заменяются на _.
    • Пример: filestore.read_opsyandex_cloud_filestore_read_ops.
    • Для ограничения набора используйте параметр metrics (используйте исходные имена из Yandex Cloud Monitoring).

Метрики Compute Cloud

Общие сведения:

  • Все метрики Compute Cloud имеют метку yandex_cloud_service=compute.
  • Если у ресурса задано имя, в метриках возвращается имя; иначе — идентификатор.
  • В таблицах ниже приведены итоговые имена метрик в Proto Observability Platform: префикс yandex_cloud_ + имя из Yandex Cloud Monitoring, точки заменяются на _.

Метрики виртуальных машин и дисков

Метрика Описание Метки
yandex_cloud_cpu_usage Утилизация CPU ВМ (может быть > 100% при использовании сверх гарантии). resource_id, resource_type=vm
yandex_cloud_cpu_utilization Утилизация vCPU от 0% до уровня производительности. cpu_name, resource_id, resource_type=vm
yandex_cloud_disk_io_quota_utilization_percentage Средний процент использования квоты диска. disk
yandex_cloud_disk_io_quota_utilization_percentage_burst Максимальный процент использования квоты диска. disk
yandex_cloud_disk_read_bytes Среднее количество байт, прочитанных с диска ВМ. disk, instance
yandex_cloud_disk_read_bytes_burst Максимальное количество байт, прочитанных с диска ВМ. disk, instance
yandex_cloud_disk_read_bytes_in_flight Среднее количество байт, читаемых в данный момент. disk, instance
yandex_cloud_disk_read_bytes_in_flight_burst Максимальное количество байт, читаемых в данный момент. disk, instance
yandex_cloud_disk_read_errors Ошибки чтения с диска ВМ. disk, instance
yandex_cloud_disk_read_latency Гистограмма времени обработки чтения. disk, instance
yandex_cloud_disk_read_ops Среднее количество операций чтения. disk, instance
yandex_cloud_disk_read_ops_burst Максимальное количество операций чтения. disk, instance
yandex_cloud_disk_read_ops_in_flight Среднее число операций чтения в данный момент. disk, instance
yandex_cloud_disk_read_ops_in_flight_burst Максимальное число операций чтения в данный момент. disk, instance
yandex_cloud_disk_read_throttler_delay Гистограмма задержек чтения при превышении квоты. disk
yandex_cloud_disk_write_bytes Среднее количество байт, записанных на диск ВМ. disk, instance
yandex_cloud_disk_write_bytes_burst Максимальное количество байт, записанных на диск ВМ. disk, instance
yandex_cloud_disk_write_bytes_in_flight Среднее количество байт, записываемых в данный момент. disk, instance
yandex_cloud_disk_write_bytes_in_flight_burst Максимальное количество байт, записываемых в данный момент. disk, instance
yandex_cloud_disk_write_errors Ошибки записи на диск ВМ. disk, instance
yandex_cloud_disk_write_latency Гистограмма времени обработки записи. disk, instance
yandex_cloud_disk_write_ops Среднее количество операций записи. disk, instance
yandex_cloud_disk_write_ops_burst Максимальное количество операций записи. disk, instance
yandex_cloud_disk_write_ops_in_flight Среднее число операций записи в данный момент. disk, instance
yandex_cloud_disk_write_ops_in_flight_burst Максимальное число операций записи в данный момент. disk, instance
yandex_cloud_disk_write_throttler_delay Гистограмма задержек записи при превышении квоты. disk
yandex_cloud_maintenance_event 1, если активно событие обслуживания (migrate/restart). resource_id, resource_type=vm, type
yandex_cloud_network_connections_quota_utilization Утилизация квоты на количество соединений ВМ. resource_id, resource_type=vm
yandex_cloud_network_connections_interface_quota_utilization Утилизация квоты соединений по интерфейсу ВМ. resource_id, resource_type=vm, interface_number
yandex_cloud_network_received_bytes Входящий трафик по интерфейсу. interface_number, resource_id, resource_type=vm
yandex_cloud_network_received_packets Входящие пакеты по интерфейсу. interface_number, resource_id, resource_type=vm
yandex_cloud_network_sent_bytes Исходящий трафик по интерфейсу. interface_number, resource_id, resource_type=vm
yandex_cloud_network_sent_packets Исходящие пакеты по интерфейсу. interface_number, resource_id, resource_type=vm

Метрики файловых хранилищ

Общие метки для метрик файловых хранилищ:

  • filestore — идентификатор файлового хранилища.
  • instance — имя виртуальной машины.
Метрика Описание Метки
yandex_cloud_filestore_index_cumulative_time Совокупное время операций индексации. request
yandex_cloud_filestore_index_errors Ошибки операций индексации. request
yandex_cloud_filestore_index_latency Задержка индексации (гистограмма). request, bin
yandex_cloud_filestore_index_ops Среднее число операций индексации. request
yandex_cloud_filestore_read_bytes Среднее число байт, прочитанных из хранилища.
yandex_cloud_filestore_read_bytes_burst Максимум байт, прочитанных из хранилища.
yandex_cloud_filestore_read_errors Ошибки чтения (request = тип операции). request
yandex_cloud_filestore_read_latency Гистограмма времени чтения. bin
yandex_cloud_filestore_read_ops Среднее число операций чтения.
yandex_cloud_filestore_read_ops_burst Максимум операций чтения.
yandex_cloud_filestore_write_bytes Среднее число байт, записанных в хранилище.
yandex_cloud_filestore_write_bytes_burst Максимум байт, записанных в хранилище.
yandex_cloud_filestore_write_errors Ошибки записи. request
yandex_cloud_filestore_write_latency Гистограмма времени записи. bin
yandex_cloud_filestore_write_ops Среднее число операций записи.
yandex_cloud_filestore_write_ops_burst Максимум операций записи.

Метрики групп виртуальных машин

Доступные метрики зависят от типа масштабирования группы ВМ.

Метрика Описание Метки Тип масштабирования
yandex_cloud_average_utilization Среднее потребление ресурсов по группе. resource_id, resource_type=instance_group, source_metric автоматический; фиксированный с тестом автоматического
yandex_cloud_average_utilization_in_zone Среднее потребление ресурсов в зоне. resource_id, resource_type=instance_group, zone_id, source_metric автоматический; фиксированный с тестом автоматического
yandex_cloud_instances_count Количество ВМ в группе. resource_id, resource_type=instance_group автоматический; фиксированный с тестом автоматического; фиксированный
yandex_cloud_instances_count_in_zone Количество ВМ в зоне. resource_id, resource_type=instance_group, zone_id автоматический; фиксированный с тестом автоматического; фиксированный
yandex_cloud_measured_percent_in_zone Утилизация CPU ВМ в зоне (может быть > 100%). resource_id, resource_type=instance_group, zone_id, source_metric фиксированный с тестом автоматического
yandex_cloud_summary_capacity Суммарное потребление, при котором масштабирование увеличит группу. resource_id, resource_type=instance_group, source_metric автоматический; фиксированный с тестом автоматического
yandex_cloud_summary_capacity_in_zone Суммарное потребление в зоне, при котором масштабирование увеличит группу. resource_id, resource_type=instance_group, zone_id, source_metric автоматический; фиксированный с тестом автоматического
yandex_cloud_summary_utilization Суммарное потребление ресурсов по группе. resource_id, resource_type=instance_group, source_metric автоматический; фиксированный с тестом автоматического
yandex_cloud_target_instances_count Целевое количество ВМ в группе. resource_id, resource_type=instance_group автоматический; фиксированный с тестом автоматического; фиксированный
yandex_cloud_target_instances_count_in_zone Целевое количество ВМ в зоне. resource_id, resource_type=instance_group, zone_id автоматический; фиксированный с тестом автоматического; фиксированный
yandex_cloud_test_autoscale_target_instances_count Целевое число ВМ по политике теста автомасштабирования. resource_id, resource_type=instance_group фиксированный с тестом автоматического
yandex_cloud_test_autoscale_target_instances_count_in_zone Целевое число ВМ в зоне по политике теста автомасштабирования. resource_id, resource_type=instance_group, zone_id фиксированный с тестом автоматического
yandex_cloud_target_utilization Целевое потребление ресурсов для одной ВМ. resource_id, resource_type=instance_group, source_metric автоматический; фиксированный с тестом автоматического
yandex_cloud_utilization_in_zone Суммарное потребление ресурсов в зоне. resource_id, resource_type=instance_group, zone_id, source_metric автоматический; фиксированный с тестом автоматического