Scientific journal
International Journal of Applied and fundamental research
ISSN 1996-3955
ИФ РИНЦ = 0,593

RELIABILITY INDICES OF REPAIRABLE SYSTEMS WITH PREDEFINED THRESHOLD OF EMERGENCY SHUTDOWN

Rahman P.A. 1
1 Ufa State Petroleum Technological University Sterlitamak branch
1607 KB
This paper deals with the repairable systems with a set of identical elements and predefined threshold of system emergency shutdown. Reliability model based on Markov birth-death chain with loopback link and specialized particular case for the system with identical elements are also observed. Calculation formulas for system availability factor, mean time to failure and mean time to repair are discussed within scope of this article. Calculation example for reliability indices is also given.
reliability
Markov chain
availability factor
mean time to failure
mean time to repair

Современный мир практически невозможно представить без технических систем, ставших неотъемлемой частью как повседневной жизни и профессиональной деятельности человека, так и ключевыми элементами различных предприятий и отраслей экономики. Помимо функциональных возможностей и основных технических характеристик, которые в первую очередь интересуют конечных потребителей и производителей, таких как: производительность, мощность, емкость и т.п., не менее важными являются показатели надежности, так как от них напрямую зависит эффективность и безопасность эксплуатации технических систем. Соответственно, разработка моделей и методов для расчета показателей надежности систем является актуальной и критически важной задачей.

На сегодняшний день имеется множество учебников [1, 2, 3], посвященных основам теории надежности, общим и специализированным моделям и методам расчета показателей надежности систем. Одной из самых распространенных моделей восстанавливаемых технических систем является модель на базе цепей Маркова, позволяющих оценить такие показатели надежности системы как: коэффициент готовности, среднее время наработки на отказ, среднее время восстановления. В случае если система состоит из нескольких идентичных элементов, например: отказоустойчивые дисковые массивы хранения данных, высокопроизводительные вычислительные системы, гомогенные сети передачи данных, то в таком случае применяется хорошо известная марковская цепь гибели и размножения.

Однако следует особо отметить, что существуют системы, которые при достижении аварийного состояния не могут вернуться в предыдущее работоспособное состояние после замены минимально необходимого одного элемента, и требуют проведения ремонтных работ до исходного полностью исправного состояния. Примером таких систем являются дисковые системы RAID (избыточный массив недорогих дисков), состоящий из n дисков, устойчивый к отказам до s – 1 дисков, и отказывающий вместе с потерей всех данных при отказе s и более дисков, и требующий пересоздания массива «с нуля» и восстановления данных из резервной копии. Для таких систем традиционная модель гибели и размножения не совсем подходит, и требуется модифицированная модель.

В последние годы автором статьи был проведен ряд исследований в области надежности современных систем хранения, передачи и обработки данных [4–10], состоящих из нескольких идентичных элементов. Соответственно, при работе с системами, требующими ремонта до исходного полностью исправного состояния после достижения состояния отказа, возникла научная задача разработки подходящей модели надежности для заданного количества элементов и заданного порога отказа.

В рамках данной статьи рассматриваются предложенная автором марковская цепь гибели и размножения с петлевой связью и выведенные формулы для расчета показателей надежности системы, состоящей из n идентичных восстанавливаемых элементов, переходящей в состояние отказа с аварийным отключением при отказе s элементов и требующей проведения ремонта до исходного полностью исправного состояния. Также рассматривается частный случай модели и пример расчета показателей надежности.

Обобщенная модель системы на базе цепи Маркова. Пусть имеется система с n идентичными восстанавливаемыми элементами и произвольной зависимостью по отказам и восстановлениям, причем система сохраняет работоспособность при отказе не более s – 1 элементов, 1 ≤ s ≤ n. Пусть при достижении состояния s система аварийно отключается, и оставшиеся работоспособные элементы не могут отказывать.

Кроме того, пусть после аварийного отключения требуется ремонт, возвращающий систему в исходное полностью исправное состояние 0. Интенсивность полного восстановления задается параметром γ.

Рассмотрим следующую обобщенную модель надежности системы на базе марковской цепи гибели и размножения с петлевой связью (рис. 1).

Соответственно, математическая модель (система уравнений Колмогорова-Чепмена):

rahman01.wmf

Стационарные вероятности при t → ∞ могут быть получены путем решения системы уравнений с учетом того, что в бесконечной перспективе марковский процесс становится установившимся, и производные стремятся к нулю rahman02.wmf. Это существенно упрощает решение системы. Автором была выведена следующая формула для стационарных вероятностей всех состояний системы:

rahman03.wmf

rahman04.wmf;

rahman05.wmf (1)

Тогда, стационарный коэффициент готовности такой системы:

rahman06.wmf (2)

rahman-r1.wmf

Рис. 1. Обобщенная модель надежности системы

Среднее время восстановления системы – это есть среднее время перехода из аварийного состояния s в начальное состояние 0, и оно зависит только от интенсивности полного восстановления γ системы, поскольку из аварийного состояния системы может перейти лишь только в начальное состояние:

rahman07.wmf (3)

Среднее время наработки на отказ – это есть среднее время перехода из начального состояния 0 (при запуске системы в начальный момент времени или после очередного полного восстановления системы) в аварийное состояние s. Учитывая, что среднее время полного восстановления равно 1/γ, и используя тождество, связывающее коэффициент готовности средними временами KГ = Т0→s/(Т0→s + Тs→0), получаем формулу для среднего времени наработки на отказ системы:

rahman08.wmf. (4)

Особо отметим, что среднее время наработки на отказ рассматриваемой системы совпадает со средним времени наработки до первого отказа.

Специализированный частный случай модели системы. Пусть имеется некоторая система, состоящая из n идентичных элементов с интенсивностью отказов λ и интенсивностью восстановления μ, сохраняющая работоспособность при отказе до s – 1 элементов. При этом оставшиеся работоспособные элементы испытывают дополнительную нагрузку, и к интенсивности отказов добавляется дополнительная интенсивность ε.

Пусть при отказе s элементов система аварийно отключается, и после этого требуется восстановительная работа, которая выполняется с интенсивностью γ, и приводит систему в исходное полностью исправное состояние 0.

Пусть имеются несколько ремонтных бригад, позволяющих одновременно восстанавливать до r отказавших элементов.

Тогда модель надежности системы (рис. 2) является частным случаем рассмотренной выше модели с интенсивностями переходов, λ0 = nλ; λi = (n – i)(λ + ε); i = 1…s – 1 и μj = μ∙min(j, r); j = 1…s – 1 и γ:

rahman-r2.wmf

Рис. 2. Специализированная модель надежности системы

Соответственно, стационарный коэффициент готовности рассматриваемой системы:

rahman09.wmf. (5)

Среднее время наработки на отказ:

rahman10.wmf. (6)

Среднее время восстановления системы:

rahman11.wmf. (7)

Пример расчета показателей надежности. Имеется избыточный дисковый массив, состоящий из n = 8 дисков и сохраняющий работоспособность при отказе не более двух дисков. Интенсивность отказов дисков λ = 1/120000 час-1. После отказа и замены дисков, массив начинает процесс реконструкции информации на замененных дисках за счет информации оставшихся дисков, и к интенсивности отказов оставшихся дисков добавляется интенсивность ε = 1/300 час-1. Интенсивность восстановления дисков (включая замену и реконструкцию информации на них) составляет μ = 1/24 час-1. Одновременно могут восстанавливаться до r = 2 дисков. При отказе s = 3 дисков массив аварийно отключается, и все данные теряются, и выполняется замена отказавших дисков, полная реконструкция массива и копирование данных из резервного хранилища с интенсивностью γ = 1/72 час-1.

Рассчитать показатели надежности массива RAID-6 с резервной копией данных.

Решение. Граф состояний для рассматриваемой задачи (рис. 3):

rahman-r3.wmf

Рис. 3. Модель надежности дискового массива с резервной копией данных

Соответственно, стационарный коэффициент готовности:

rahman12.wmf.

Среднее время наработки на отказ:

rahman13.wmf часов.

Среднее время восстановления системы:

rahman14.wmf часа.

Заключение

Таким образом, в рамках данной статьи рассмотрены предложенная автором обобщенная модель надежности системы, состоящей из n идентичных восстанавливаемых элементов, переходящей в состояние аварийного отключения при отказе s элементов и требующей проведения ремонта до исходного исправного состояния. Также рассмотрен частный случай модели и пример расчета показателей надежности.

Полученные теоретические результаты использовались в многолетней практике проектирования и эксплуатации систем хранения, обработки и передачи данных НИУ МЭИ (ТУ), Балаковской АЭС, ОАО «Красный Пролетарий» и ряда других предприятий.