ZABBIX 1.8 Russian – 21 Эскалации и повторные оповещения

Please Like Us!!!

21 Эскалации и повторные оповещения

1 Обзор

Zabbix предоставляет эффективную и очень гибкую функциональность для эскалаций и повторных оповещений. В зависимости от настроек, Zabbix будет автоматически эскалировать (увеличивать шаг эскалации) нерешенные проблемы и выполнять действия, назначенные каждому шагу эскалации.

Zabbix поддерживает следующие сценарии эскалаций, оповещений и удаленных команд:

  • Немедленное информирование пользователей о новых проблемах
  • Про-активный мониторинг, Zabbix выполнит произвольные скрипты (удаленные команды)
  • Повторные уведомления до тех пор, пока проблема не будет решена
  • Отложенные уведомления и удаленные команды
  • Эскалация проблем в другие группы пользователей
  • Различный путь эскалирования для подтвержденных и неподтвержденных проблем
  • Выполнение действий (как оповещений так и удаленных команд), если проблема присутствует более чем N часов (секунд, минут и т.д.).
  • Сообщения о восстановлении всем заинтересованным участникам
  • Zabbix поддерживает неограниченное количество шагов в эскалациях
2009/12/16 08:38
· dotneft

2 Простые сообщения

Предупреждение: Перед активированием сообщений о восстановлении или эскалаций, не забудьте добавить условие “Значение триггера = ПРОБЛЕМА” для самого действия, в противном случае события восстановления могут быть также эскалированы

Для предупреждения администраторов MySQL о любых проблемах с приложениями MySQL, могут быть использованы следующие настройки:

Так как нам не нужно отправлять несколько сообщений или эскалировать проблему MySQL в другие группы пользователей, то мы эскалации не включили.

Zabbix отправит одно сообщение администраторам MySQL и сообщение о восстановлении, когда проблема будет решена. Если отправка сообщений о восстановлении не активирована, тогда Zabbix будет отправлять только одно сообщение с информацией о новой возникшей проблеме, без отправки сообщений о восстановлении предыдущей проблемы.

Условия для действия определены таким образом, что действие будет выполняться при возникновении любой проблемы с приложениями MySQL.

Заметим так же, что в сообщениях можно использовать макросы. Zabbix поддерживает большое количество макросов. Полный список доступных макросов доступен здесь.

Действие определено как:

Сообщение будет отправлено всем членам группы Администраторы MySQL.

2009/12/16 08:49
· dotneft

3 Удаленные команды

Удаленные команды являются мощным механизмом для интеллектуального про-активного мониторинга. Zabbix может выполнить команду на узле сети под мониторингом в случае, если определены какие либо условия действия.

Вот список наиболее банальных вариантов использования механизма удаленных команд:

  • Автоматический перезапуск приложения (Веб-сервер, связующее ПО, CRM), если от него нет ответа
  • Использование команды IPMI 'reboot' для перезагрузки удаленного сервера, если от него нет ответов на запросы
  • Постараться автоматически освободить место на диске (удаление старых файлов, очистка /tmp), если заканчивается место на диске
  • Миграция виртуальной машины с одного физического сервера на другой, в зависимости от загрузки CPU
  • Добавление новых узлов в кластер облачных вычислений, если возник недостаток в ресурсах CPU (диска, памяти или другое)

Настройка действия для выполнения удаленных команд аналогична настройкам отправки оповещений, с одной лишь разницей что Zabbix будет выполнять команду вместо отправки сообщения.

В примере ниже, условия действия определены таким образом, что действие будет выполнено в случае возникновения любых чрезвычайных проблем с любой метрикой из группы элементов данных Apache.

Как реакция на чрезвычайные проблемы, Zabbix будет пытаться перезапустить процесс Apache:

Примечание, здесь используется макрос {HOSTNAME}.

Пользователь 'zabbix' должен иметь полномочия для выполнения этого скрипта. Так же Zabbix агент должен быть запущен на удаленном узле и принимать входящие подключения. Удаленные команды по умолчанию отключены и могут быть включены в конфигурацинном файле демона Zabbix агента для Unix-подобных или Windows системах.

Удаленные команды не работают с активными Zabbix агентами.

Смотрите документацию по удаленным командами для получения более подробных сведений.

2009/12/16 09:07
· dotneft

4 Повторные оповещения

Повторные оповещения это наверное одна из наиболее используемых функций в эскалациях Zabbix.

Убедитесь, что эскалации активированы в настройках действия:

Период определяет интервал времени, через который будет увеличиваться шаг эскалации в Zabbix. По умолчанию предлагается значение, при котором переход к следующему шагу осуществляется каждые 3600 секунд, то есть каждый час.

Как только мы активировали эскалации, то в операциях действия появятся дополнительные настройки: Шаг(и), Период и Условия.

Предположим что мы хотим отправить 5 сообщений по одному в час, поэтому мы должны определить, что операция будет активна для эскалации с 1 по 5 шаг. Если мы не указали индивидуальный период для операции, тогда период эскалации будет таким, как период эскалации в свойствах самого действия.

Как только возникла проблема, Zabbix переходит к шагу 1, поэтому все операции определенные в этом шаге будут выполнены сразу. Через один час, период эскалации автоматически увеличится (если проблема все еще явно присутствует) и будут выполнены все операции шага 2. И так далее.

Сообщение о восстановлении будет отправлено только тем людям, которые ранее получали хотя бы одно сообщение в пределах эскалации.

Если триггер, вызвавший эскалацию был отключен, Zabbix отправит сообщение с информацией об этом всем людям, которые уже получали сообщения

2009/12/16 09:08
· dotneft

5 Отстроченные оповещения

Эскалации в Zabbix поддерживают отправку оповещений с задержкой.

Предположим, что мы хотели бы получать оповещение только о долго присутствующей проблеме с MySQL. Обратите внимание, что период эскалации был изменен на 10 часов, и мы используем измененное сообщение по умолчанию:

Операция назначается только для шага 2. Это означает, что операция будет выполнена только один раз после одного периода эскалации, т.е. через 10 часов:

Поэтому пользователь 'Admin' получит сообщение лишь в том случае, если проблема присутствует уже более 10 часов. Задержка оповещения управляется через период эскалации.

2009/12/16 11:15
· dotneft

6 Эскалация руководству

Эскалации в Zabbix могут быть использованы для эскалирования проблем другим пользователям или группам пользователей. Проблема не решена администраторами MySQL? Эскалируем её начальству!

Сейчас мы настроим периодическую отправку сообщений администраторам MySQL. Администраторы получат четыре сообщения перед тем как проблема будет эскалирована менеджеру базы данных. Обратите внимание, что менеджер получит сообщение только в том случае, если проблема еще не подтверждена (будто бы над ней еще никто не работает).

Заметьте, что мы используем макрос {ESC.HISTORY} в сообщении. Макрос будет содержать информацию о всех предыдущих выполненных шагах. Менеджер получит информацию обо всех отосланных письмах и всех выполненных действиях до этого. Администраторы MySQL, берегитесь!

2009/12/16 11:21
· dotneft

7 Комплексный сценарий

Посмотрите на этот набор действий. После нескольких сообщений администраторам MySQL и эскалации менеджеру, Zabbix попытается перезапустить базу данных MySQL. Это произойдет через 2 часа 30 минут, если проблема все еще присутствует и никем не была подтверждена.

Если проблема все еще присутствует, тогда через еще 30 минут Zabbix отправит сообщение пользователю “Admin”.

Если и это не поможет, тогда через еще один час час Zabbix перезагрузит сервер с базой данных MySQL (вторая удаленная команда), используя команды IPMI.

2009/12/16 11:25
· dotneft

Data source: Zabbix

Reviews & Comments

Enjoy!