Релиз 11
“Мониторинг и Логирование”
В рамках поставки будут представленны следующие доработки в части мониторинга и логирования:
Установлены Prometheus и Grafana, в графане будт доступны следующие графики: (Примечание: Скриншоты ниже сделаны с помощью тестовой среды)
Healthcheck - Отображает доступность сервисов входящих в ADCP, с помощью которого возможно оценить доступности платформы и её элементов.
Kubernetes / Compute Resources / Cluster - отображает текущую загруженность всего K8S кластера в части RAM, CPU, Сети в разрезе неймспейсов K8S
Kubernetes / Compute Resources / Namespace (Pods) - отображает текущую загруженномсть всего K8S кластера в части RAM, CPU, Сети в разрезе каждого пода неймспейса кластера
Kubernetes / Compute Resources / Namespace (Workloads) - отображает текущую загруженность всех типов сущности кластера в части RAM, CPU, Сети в разрезе каждого пода неймспейса кластера
Kubernetes / Compute Resources / Node (Pods) - отображает текущую загруженность ноды кластера (сервера) с разбивкой на контейнеры
Kubernetes / Compute Resources / Pod - отображает потребление ресурсов каждым подом кластера в неймспейсе
Kubernetes / Networking / Cluster - Отображает текущую нагрузку на сеть всего K8S кластера в разрезе неймспейсов K8S
Kubernetes / Networking / Namespace (Pods) - Отображает текущую нагрузку на сеть всего K8S кластера в разрезе каждого пода неймспейса кластера
Kubernetes / Networking / Namespace (Workload) - Отображает текущую нагрузку на сеть всего K8S кластера в разрезе каждого пода неймспейса кластера
Kubernetes / Networking / Pod - Отображает текущую нагрузку на сеть каждым подом кластера в неймспейсе
Kubernetes / Views / Nodes - Отображает текущую загрузку каждой ноды кластера K8S
Easy RabbitMQ (K8S) - отображает основную информацию о брокере RabbitMQ - такие как количество очередей, каналов, сообщений в очередях
Elasticsearch - Cluster - отображает текущее состояние кластера ElasticSearch, отображает такие метрики как загруженность каждой ноды кластера, количество записей и чтений, индексацию, использование диска, RAM, CPU
В рамках Grafana реализован алертинг в части доступности каждого из компонента системы, в случае недоступности одного из сервисов в течении 5 мин будет срабатывать алерт о недоступности. Со списком доступных внешних систем для отправки нотификаций о сработке алерта возможно ознакомится в официальной документации Grafana по URL: https://grafana.com/docs/grafana/v9.0/alerting/contact-points/notifiers/
По умолчанию сбор метрик осуществляется каждые 10 сек, глубина хранения данных мониторинга составляет 3 недели. Глубина хранения и частота опроса настраивается при деплое Prometheus и опрашиваемых компонентов. Глубина хранения может быть увеличена или уменьшена для каждой поставки, так же как и частота опроса. Более детальная информация о настройках будет добавленна в документацию по результатам поставки релиза.
Будут установлены FileBeat, Kibana, ElasticSearch
- С их помощью будут собираться логи сервисов ADCP
- C их помощью будут собираться аудит логи по действиям выполняемыми пользователями в системе
- Глубина хранения аудит логов по умолчанию
- для аудит логов 30 дней
- для технических логов 7 дней
- Будет реализован доступ в Kibana для просмотра логов средствами Kibana