PDA

Просмотр полной версии : Надежность дисковых массивов RAID


Paul Kellerman
20.12.2012, 11:28
Анализ показателей надежности избыточных дисковых массивов, PavelAR, 2012

Ink
20.12.2012, 13:35
Язык статьи, орфография, стилистика и пр. Некоторое вопросы по комбинированным уровням. Но в целом интересно. Правда оценка на общенаучном уровне, тех. вещи я не понимаю. Посему вывод нужен нормальным языком понятным всем.

Team_Leader
20.12.2012, 15:45
Кстати. вчера тоже по этому вопросу дискуссия была: потянет ли трактор 100 л.с. шестикорпусной дисковый массив (=дисковую борону = дискатор), или нет. Пришли к выводу, что независимо от эффективности ВОМ (вала отбора мощности на тракторе) - вес машины имеет решающее значение, и в этом отношении, получается "перегруженные металлоломом" белорусские трактора имеют (в качестве пропашного трактора) преимущество перед европейскими и японскими :(

Paul Kellerman
29.04.2014, 15:19
Небольшой update.

Упрощенная марковская модель надежности RAID-массива (Paul Kellerman (c) 2012):

http://aspirantura.spb.ru/forum/picture.php?albumid=153&pictureid=1510

Оптимизированная расчетная формула наработки до отказа (Paul Kellerman (c) 2014):

http://aspirantura.spb.ru/forum/picture.php?albumid=153&pictureid=1511

Где,
λ – интенсивность отказов дисков,
ε – добавочная интенсивность ошибок в режиме чтения
данных для восстановления информации на замененных дисках,
μ – интенсивность восстановления дисков,
n – общее количество дисков,
r – число дисков, которые могут одновременно восстанавливаться,
s – число дисков, при отказе которых происходит отказ массива с потерей всех данных.
Для дискового массива RAID-0 параметр s = 1, RAID-5: s = 2, RAID-6: s = 3, RAID-1: s = n.

В частности, для дискового массива RAID-6 состоящего из n = 8 дисков c порогом отказа
s = 3, с интенсивностью отказов дисков λ = 1/120000 час-1, с добавочной интенсивностью
ошибок ε = 1/300 час-1, интенсивностью восстановления μ = 1/24 час-1, и одновременного
восстановления до r = 2 дисков, была получена следующая оценка наработки до отказа:

T = 153040 часов

Особо остановимся на параметре ε, как его оценить? В режиме rebuid дискового массива
после замены отказавших дисков, остальные диски испытывают огромную дополнительную
нагрузку из-за дополнительного считывания с них огромных порций данных, требуемых для
восстановления данных на замененных дисках, и добавочная интенсивность ε значительно
выше, чем основная интенсивность отказов при обычной нагрузке. Оценить его можно так,
есть такой параметр как битовая вероятность невосстановимой ошибки чтения диска (UER).
Тогда вероятность ошибки чтения в процессе rebuid массива при объеме считывания V бай-
тов составит Q=1-(1-UER)^(8*V). Соответственно, тогда добавочная интенсивность ошибок
при среднем времени восстановления 1/μ: ε = -μ*ln(1-Q) = -μ*8*V*ln(1-UER) ~ 8*V*μ*UER.

Тогда, для терабайтного диска V = 10^12 байтов (по факту, а не 2^40), UER = 10^(-14) и
μ=1/24 час-1, имеем: ε=1/300 час-1. Это куда больше, чем сами отказы λ=1/120000 час-1.

Если мы проигноруем параметр ε, положив его равным 0, полагая, что существенны только
аппаратные отказы дисков, то получим дико завышенную оценку T = 17896480710 часов!!!

Если мы для простоты будем считать, что диски вообще не заменяются и ребилды не проис-
ходят (μ = 0, ε = 0), то получим оценку T = 52142 часа для невосстанавливаемого случая.

P.S. В забугорье данный показатель надежности называется MTTDL (mean time to data loss).

Franswa_Divalye
13.01.2016, 21:55
Для начала, определись: у тебя программный или аппаратный RAID?

прохожий
13.01.2016, 21:58
Paul Kellerman, это вызов!

Paul Kellerman
26.01.2016, 09:48
Для начала, определись: у тебя
Для начала, "определитесь: у Вас".
программный или аппаратный RAID?
Аппаратный.