Мониторинг приложений и сервисов

Мониторинг приложений и сервисов в модуле APM платформы наблюдаемости Proto Observability позволяет мгновенно оценить здоровье критичных систем и выявить источник проблем, как на уровне кода самого приложения, так и на уровне инфраструктуры.

Возможности мониторинга приложений и сервисов модуля APM в Proto Observability Platform

Модуль APM в платформе наблюдаемости Proto Observability помогает в режиме реального времени исправлять и улучшать работу приложений и сервисов, как монолитных, так и микросервисных, написанных на любом популярном языке разработке. Proto Observability автоматически обнаруживает все приложения, запушенные на хосте, а также внешние сервисы и определяет их производительность и здоровье.

Платформа предоставляет как готовые дашборды с преднастроенным анализом данных, так и возможность создавать кастомные.

Готовые к использованию аналитические данные доступны в разделе Сервисы модуля APM.

Обзор производительности всех сервисов

На вкладке Сервисы доступен список всех сервисов и приложений с указанием их технологии, окружения (prod, test и т.п.), бизнес-приложения к которому относится сервис, процента ошибок, вызовов в минуту, времени отклика и здоровья. Показатель Здоровье – это интегральная метрика, которая рассчитывается платформой автоматически на базе оповещений.

На вкладке Карта сервисов множно посмотреть взаимосвязи сервисов и их метрики. Карта строится автоматически и не требует ручной настройки.

На вкладке Трейсы – доступен анализ трейсов всех сервисов. Подробное описание возможностей трейсинга можно найти по ссылке.

На вкладке Здоровье представлена удобная для быстрого анализа производительности всех сервисов визуализация в виде карты с цветовой индикацией. Если у сервиса нет проблем, на карте он будет отмечен зеленым квадратом, если пошли изменения, которые вскорое приведут к проблеме – индикация будет желтым цветом, если проблема активна – квадрат с названием сервиса будет окрашен в красный цвет. По клику на квадрат с сервисом открывается его дашборд.

Дашборд сервиса

../images/APM_2.png

На дашборд конкретного сервиса можно попасть из вкладки Сервисы кликнув на наименование нужного сервиса. Аналитические данные представленные на вкладке Обзор отвечают на главные вопросы о работе сервиса:

  • Как себя чувствует сервис и есть ли у него проблемы?

    Платформа показывает сколько сработало критичных алертов и в статусе Warning, на сколько процентов данные показатели больше или меньше в сравнении с периодом в прошлом.

    Также сразу можно увидеть не ухудшился ли показатель SLA, как изменялись во времени вызовы сервиса, время исполнения сервиса (по перцентелям), вызовы по HTTP кодам.

    Для оценки работы сервиса с точки зрения пользовательского опыта, Proto Observability предоставляет подробный анализ показателя APDEX.

    APDEX — это индекс удовлетворенности пользователей скоростью работы приложения. Чем ближе показатель к 1, тем выше удовлетворённость пользователей.

    Шкала значений:

    • Отлично (0.94–1.00)
    • Хорошо (0.85–0.93)
    • Удовлетворительно (0.70–0.84)
    • Плохо (0.50–0.69)
    • Недопустимо (<0.50)
  • Есть ли ошибки в работе сервиса, что это за ошибки и какие из них самые частые?

    Proto Observability показывает количество и процент ошибок, сравнение показателей за аналогичный период в прошлом и распределение этих показателей во времени. Так как платформа автоматически группирует ошибки, можно сразу можно увидеть какие именно группы ошибок возникали и какие их них самые частые, с возможностью по клику перейти к их углубленному анализу (просмотру сообщений ошибки, стэк трэйсу и т.д.).

  • Есть ли проблемы в исполнении транзакций, в которых участвует сервис?

    Так как отслеживание работы сервиса в первую очередь необходимо для контроля исполнения критичных транзакций и бизнес-операций (оплаты, входа/выхода в систему, совершения ключевых действий), Proto Observability показывает сколько всего транзакций обрабатывается сервисом и какое среднее время исполнения транзакций, на сколько эти показатели больше или меньше в сравнении с предыдушим периодом времени, какие конкретно транзакции исполняются дольше всего и с каким процентом ошибок с возможностью по клику перейти к углубленному анализу проблемной транзакции.

  • Есть ли проблемы у хостов, на которых развернут сервис?

    Платформа автоматически строит карту здоровья хостов сервиса с понятной цветовой индикацией (красный цвет – есть критичные проблемы, желтый – зафиксирована деградация производительности, зеленый – проблемы отсутствуют). Карта позволяет по клику перейти к анализу работы выбранного хоста.