Управление неисправностями - Fault management

В управлении сетью , управления отказами является набор функций , которые обнаруживают, изолят и корректных неисправностей в телекоммуникационной сети, компенсировать изменения в окружающей среде, и включают в себя сохранение и изучение ошибок журналов , принятия и действует на уведомлений обнаружения ошибок, отслеживания и выявления неисправностей, выполнение последовательностей диагностических тестов, исправление ошибок, создание отчетов об ошибках, а также локализация и отслеживание ошибок путем изучения и обработки информации базы данных .

Когда происходит сбой или событие, сетевой компонент часто отправляет уведомление оператору сети, используя такой протокол, как SNMP . Аварийный сигнал - это постоянное указание на сбой, которое устраняется только после устранения условий запуска. Текущий список проблем, возникающих в сетевом компоненте, часто сохраняется в форме активного списка аварийных сигналов, как это определено в RFC 3877 , Alarm MIB . Список сброшенных неисправностей также поддерживается большинством систем управления сетью .

В системах управления неисправностями могут использоваться сложные системы фильтрации для присвоения аварийным сигналам уровней серьезности. Они могут варьироваться по степени серьезности от отладки до аварийной, как в протоколе системного журнала . В качестве альтернативы они могут использовать поле воспринимаемой важности функции сообщения об аварийных сигналах ITU X.733. Он принимает значения очищено, неопределенное, критическое, серьезное, незначительное или предупреждение. Обратите внимание, что последняя версия проекта протокола системного журнала, разрабатываемого IETF, включает сопоставление между этими двумя различными наборами уровней серьезности. Считается хорошей практикой отправлять уведомление не только тогда, когда проблема возникла, но и когда она была решена. У последнего уведомления будет четкость серьезности.

Консоль управления отказами позволяет сетевому администратору или системному оператору отслеживать события из нескольких систем и выполнять действия на основе этой информации. В идеале система управления сбоями должна быть способна правильно идентифицировать события и автоматически принимать меры, либо запускать программу или сценарий для принятия корректирующих действий, либо активировать программное обеспечение для уведомления, которое позволяет человеку принять надлежащее вмешательство (например, отправить электронное письмо или текст SMS. к мобильному телефону ). Некоторые системы уведомлений также имеют правила эскалации, которые уведомляют цепочку лиц в зависимости от доступности и серьезности тревоги.

Типы

Существует два основных способа управления неисправностями - активный и пассивный. Пассивное управление сбоями осуществляется путем сбора сигналов тревоги от устройств (обычно через ловушки SNMP ), когда что-то происходит в устройствах. В этом режиме система управления отказами знает только, достаточно ли интеллектуально контролируемое ею устройство, чтобы генерировать ошибку и сообщать о ней инструменту управления. Однако, если отслеживаемое устройство полностью выйдет из строя или заблокируется, оно не подаст сигнал тревоги и проблема не будет обнаружена. Активное управление сбоями решает эту проблему путем активного мониторинга устройств с помощью таких инструментов, как ping, чтобы определить, активно ли устройство и отвечает ли оно. Если устройство перестает отвечать, активный мониторинг выдаст сигнал тревоги, показывающий, что устройство недоступно, и позволит упреждающе исправить проблему.

Управление сбоями включает в себя любые инструменты или процедуры для тестирования, диагностики или ремонта сети при возникновении сбоя.

Смотрите также

Ноты

Рекомендации