Алгоритм - Учебный центр

Версия сайта для слабовидящих
Заполните форму ниже! Мы вам перезвоним!

Нажав на кнопку "Отправить", Я даю своё согласие на автоматизированную обработку указанной информации, распространяющейся на осуществление всех действий с ней, включая сбор, передачу по сетям связи общего назначения, накопление, хранение, обновление, изменение, использование, обезличивание, блокирование, уничтожение и обработку посредством внесения в электронную базу данных, систематизации, включения в списки и отчетные формы.


Предсказуемые отказы HDD. Технология S.M.A.R.T (ликбез).

Предсказуемые отказы HDD.Tехнология S.M.A.R.T (ликбез).

Отказ дисковых накопителей часто приводит к самым крупным убыткам, если потерянные данные не имеют копии. Поэтому их надежность стремятся повышать всеми возможными способами, но отказы все-таки случаются. Отказы разделяются на предсказуемые и непредсказуемые.

Предсказуемые отказы появляются в результате постепенного ухода каких-либо параметров от номинальных значений, когда этот уход перейдет некоторый порог. Если наблюдать за такими параметраминакопителей, как время разгона до заданной скорости, время позиционирования, процент ошибок позиционирования, «высота полета» головок, производительность (зависящая и от числа вынужденных повторов для успешного выполнения операций), количество использованных резервных секторов и других параметров, то становится возможным предсказание отказов. Сообщение об их приближении операционной системе и (или) пользователю позволяет предпринять необходимые меры и предотвратить крупный ущерб.

Для повышения надежности большинство производителей применяют в жестких дисках различные варианты технологии S.M.A.R.T (Self Monitoring Analysis Reporting Technology - технология самотестирования и анализа). Технология S.M.A.R.T за счет постоянного контроля целостности информации на диске и контроля ряда физических параметров позволяет своевременно получить предупреждающую информацию о текущем состоянии устройства, о тенденциях изменения параметров, которые могут привести в дальнейшем к отказу накопителя. Получив предупреждающее сообщение, пользователь должен сохранить информацию на исправном диске и приступить к анализу сложившейся ситуации на диске, выдавшем предупреждающее сообщение, и выполнить работы по его ремонту. Таким образом, технология S.M.A.R.T. является технологией самонаблюдения, анализа и сообщения и применяется во всех современных накопителях. Задачи слежения за параметрами накопителя возлагаются на контроллер, а программному обеспечению компьютера остается только периодически интересоваться, все ли в порядке в накопителе. Спецификации S.M.A.R.T. существуют в версиях, которые различаются как по системам команд, так и по способам сообщений состояния. Конечно, остаются и непредсказуемые отказы, которые случаются внезапно. Чаще всего они вызываются разрушениями электронных схем под действием импульсных помех, или механические части приходят в негодность от ударов. Технология S.M.A.R.T. позволяет следить за параметрами устройства, фиксировать критические события во внутренних журналах, расположенных в секторах служебных областей диска, считывать эти журналы, а также запускать тесты поверхности по команде от хост-компьютера. Тесты могут исполняться в разных режимах, отличающихся степенью отвлечения винчестера от выполнения операций считывания и записи. Действия по восстановлению, например, плохо читаемых секторов выполняются по инициативе программы хост-компьютера, использующей результаты S.M.A.R.T. Некоторые фирмы используют технологии, в которых действия по тестированию и восстановлению выполняются микроконтроллером винчестера по его инициативе. Например, микроконтроллер самостоятельно выполняет сканирование секторов при отсутствии команд после 8 часов работы двигателя, если от хоста не поступает команд в течение 15 секунд. Секторы с исправимой ошибкой ЕСС проверяются на дефектность поверхности, и если дефекта нет, то перезаписью исправляют сектор, и в дальнейшем он будет читаться нормально. При обнаружении дефекта поверхности секторы заменяются на резервные. Если подается команда от хоста, то сканирование приостанавливается. Оно продолжится с того же места после 15 минут вращения и 15 секунд паузы между командами хоста. Такое фоновое сканирование и самовосстановление диска не снижает скорости обмена с хост-компьютером, а даже несколько увеличивает производительность за счет снижения вероятности повторных считываний секторов, читающихся с неисправимой ошибкой. Кроме того, эта же фирма вводит во все новые диски мониторинг температуры. Термодатчики, расположенные в устройстве, следят за температурой, о превышении первого порога (по умолчанию 60°С) устройство сообщает кодами ошибки 01/0B/01. Температура первого порога может программироваться. Если слежение за температурой в S.M.A.R.T. разрешено, то каждые 25 минут значение температуры записывается в журнале S.M.A.R.T. (страница 2F, ее чтение вызывает немедленное обновление записи замера температуры). По превышению порога частота обновления повышается (раз в 15 минут). По достижении второго порога (65°С) появляется предупреждение о необходимости отключения кодами 01/0B/80. Если разрешено автоматическое отключение, то шпиндельный двигатель будет выключен. Его последующий запуск может быть выполнен с помощью команды «Sterf Unit».

По технологии S.M.A.R.T обычно предусматривается автоматическая проверка целостности данных, проверка состояния поверхности пластин, перенос информации с критических участков на нормальные и другие операции без участия пользователя. В случае нарастания фатальных ошибок программа своевременно выдаст сообщение о необходимости принятия срочных мер по спасению данных.

Основные положения S.MA.R.T. были согласованы много лет назад с участием всех крупных производителей дисков и компьютеров. Для анализа надежности жесткого диска используются две группы параметров.

Первая характеризует параметры естественного старения жесткого диска:

- число циклов включения/выключения диска;

- накопленное число оборотов двигателя за время работы;

- количество перемещений головок

Вторая группа параметров характеризует текущее состояние накопителя:

- высота головки над поверхностью диска;

- скорость обмена данными между дисками и буфером (кэш-памятью);

- количество переназначений плохих секторов (когда вместо испорченного сектора подставляется свободный исправный);

- количество ошибок поиска;

- количество операций перерекалибровки;

- скорость поиска данных на диске.

Обычно вся информация записывается на служебных дорожках, недоступных аппаратным и программным средствам общего применения. Хотя спецификация S.M.A.R.T прошла уже три стадии развития, ее эффективность ограничена фундаментальными принципами ранней диагностики, лишь информирующими пользователя о появившейся проблеме.

Как уже упоминалось выше, предсказание отказов осуществляется в результате контроля за выходом ряда параметров за некоторый предел, как известно, по технологии S.M.A.R.T осуществляют контроль времени разгона до номинальной скорости, время позиционирования головок, процент ошибок операций позиционирования, «высота полета» головок, производительность обмена с учетом числа повторов, количество использованных резервных секторов и т. п.

Слежение может осуществляться в рабочем режиме on-line(одновременно с выполнением команд хоста при возможном некотором замедлении). Слежение в режиме off-line выполняется устройством в паузе между обычными командами без снижения производительности. Если во время выполнения этой процедуры придет внешняя команда, то мониторинг прервется на время исполнения команды (начало исполнения команды может задержаться на время до двух секунд). Значения атрибутов, за которыми ведется наблюдение, сохраняются в служебной области носителя.

У современных контроллеров жестких дисков имеются команды, предназначенные для поддержки технологий S.M.A.R.T.

Технология оценки состояния жесткого диска встроенной аппаратурой самодиагностики, а также механизм предсказания времени выхода его из строя S.M.A.R.T производит наблюдение за основными характеристиками накопителя, каждая из которых получает оценку. Характеристики накопителя можно разбить на две группы:

а) параметры, отражающие процесс естественного старения жесткого диска – число оборотов шпинделя, число перемещений головок, количество циклов включения-выключения;

б) параметры накопителя текущие – высота головок над поверхностью диска, число переназначенных секторов, время поиска дорожки и количество ошибок поиска.

Данные хранятся в шестнадцатеричном виде “raw value” (необработанное, грубое значение). Это значение пересчитывается в величину “value”, символизирующую надежность относительно некоторого эталонного значения. Обычно значение (value - величина, оценка) располагается в диапазоне от 0 до 100 (некоторые атрибуты имеют значение от 0 до 200 и от 0 до 253). Высокая оценка говорит об отсутствии изменений данного параметра или медленном его ухудшении. Низкая оценка говорит о возможном скором сбое. Значение параметра меньшее, чем минимальное значение, при котором производителем гарантируется безотказная работа накопителя, означает выход узла из строя. Технология S.M.A.R.T. позволяет предсказывать выход устройства из строя в результате механических неисправностей, что составляет примерно 60% от причин, по которым жесткие диски выходят из строя, но не может предсказать последствия скачка напряжения или механического удара.

 Технология позволяет осуществлять мониторинг параметров состояния, сканирование поверхности, сканирование поверхности с автоматической заменой сомнительных секторов на надежные. Жесткие диски сами при помощи этой технологии сообщать о своем состоянии не могут. Для этого существуют специальные программы. Программы, отображающие состояние SMART – атрибутов проверяют наличие поддержки технологии S.M.A.R.T. жестким диском, запрашивают таблицу SMART – атрибутов, получив таблицы в буфер приложений, разбирают табличные структуры, извлекая из них номера атрибутов и их числовые значения, сопоставляют стандартизованные номера атрибутов их названиям, выводят числовые значения в удобном для восприятия виде, извлекают из таблиц флаги атрибутов, на основании всех таблиц, значений и флагов выводят общее состояние устройства.


Лицензия