Мониторинг приложений и сервисов
Возможности мониторинга приложений и сервисов модуля APM в Proto Observability Platform
Модуль APM в платформе наблюдаемости Proto Observability помогает в режиме реального времени исправлять и улучшать работу приложений и сервисов, как монолитных, так и микросервисных, написанных на любом популярном языке разработке. Proto Observability автоматически обнаруживает все приложения, запушенные на хосте, а также внешние сервисы и определяет их производительность и здоровье.
Платформа предоставляет как готовые дашборды с преднастроенным анализом данных, так и возможность создавать кастомные.
Готовые к использованию аналитические данные доступны в разделе Сервисы модуля APM.
Обзор производительности всех сервисов
На вкладке Сервисы
доступен список всех сервисов и приложений с указанием их технологии, окружения (prod, test и т.п.), бизнес-приложения к которому относится сервис, процента ошибок, вызовов в минуту, времени отклика и здоровья. Показатель Здоровье – это интегральная метрика, которая рассчитывается платформой автоматически на базе оповещений.
На вкладке Карта сервисов
множно посмотреть взаимосвязи сервисов и их метрики. Карта строится автоматически и не требует ручной настройки.
На вкладке Трейсы
– доступен анализ трейсов всех сервисов. Подробное описание возможностей трейсинга можно найти по ссылке.
На вкладке Здоровье
представлена удобная для быстрого анализа производительности всех сервисов визуализация в виде карты с цветовой индикацией. Если у сервиса нет проблем, на карте он будет отмечен зеленым квадратом, если пошли изменения, которые вскорое приведут к проблеме – индикация будет желтым цветом, если проблема активна – квадрат с названием сервиса будет окрашен в красный цвет. По клику на квадрат с сервисом открывается его дашборд.
Дашборд сервиса
На дашборд конкретного сервиса можно попасть из вкладки Сервисы
кликнув на наименование нужного сервиса. Аналитические данные представленные на вкладке Обзор
отвечают на главные вопросы о работе сервиса:
-
Как себя чувствует сервис и есть ли у него проблемы?
Платформа показывает сколько сработало критичных алертов и в статусе Warning, на сколько процентов данные показатели больше или меньше в сравнении с периодом в прошлом.
Также сразу можно увидеть не ухудшился ли показатель SLA, как изменялись во времени вызовы сервиса, время исполнения сервиса (по перцентелям), вызовы по HTTP кодам.
Для оценки работы сервиса с точки зрения пользовательского опыта, Proto Observability предоставляет подробный анализ показателя APDEX.
APDEX
— это индекс удовлетворенности пользователей скоростью работы приложения. Чем ближе показатель к 1, тем выше удовлетворённость пользователей.Шкала значений:
- Отлично (0.94–1.00)
- Хорошо (0.85–0.93)
- Удовлетворительно (0.70–0.84)
- Плохо (0.50–0.69)
- Недопустимо (<0.50)
-
Есть ли ошибки в работе сервиса, что это за ошибки и какие из них самые частые?
Proto Observability показывает количество и процент ошибок, сравнение показателей за аналогичный период в прошлом и распределение этих показателей во времени. Так как платформа автоматически группирует ошибки, можно сразу можно увидеть какие именно группы ошибок возникали и какие их них самые частые, с возможностью по клику перейти к их углубленному анализу (просмотру сообщений ошибки, стэк трэйсу и т.д.).
-
Есть ли проблемы в исполнении транзакций, в которых участвует сервис?
Так как отслеживание работы сервиса в первую очередь необходимо для контроля исполнения критичных транзакций и бизнес-операций (оплаты, входа/выхода в систему, совершения ключевых действий), Proto Observability показывает сколько всего транзакций обрабатывается сервисом и какое среднее время исполнения транзакций, на сколько эти показатели больше или меньше в сравнении с предыдушим периодом времени, какие конкретно транзакции исполняются дольше всего и с каким процентом ошибок с возможностью по клику перейти к углубленному анализу проблемной транзакции.
-
Есть ли проблемы у хостов, на которых развернут сервис?
Платформа автоматически строит карту здоровья хостов сервиса с понятной цветовой индикацией (красный цвет – есть критичные проблемы, желтый – зафиксирована деградация производительности, зеленый – проблемы отсутствуют). Карта позволяет по клику перейти к анализу работы выбранного хоста.