7 В России центров по восстановлению данных 1365 нет, посылку нужно отправлять в Европу. Сами мы не прошли весь путь до конца, однако связались с человеком, который обратился непосредственно в Seagate. На его письмо с просьбой восстановить диск Seagate не ответила, но после звонка в службу поддержки владелец диска получил ссылку на предоплаченный почтовый заказ в UPS. Отправленный в ремонт диск был получен в исправном состоянии через десять дней.
ГЛАС РЕМОНТНИКА: ГОТОВЬТЕСЬ К ТОМУ, ЧТО РАНО ИЛИ ПОЗДНО ДИСК УМРЕТ
Проблемы разрушения микрокода в разное время были у многих изготовителей HDD. Микрокод — это операционная система жесткого диска. Она состоит из расположенных в служебной зоне модулей, часть которых постоянно меняется (например, ведется большое количество внутренних журналов событий). Достаточно возникнуть аппаратной проблеме — вроде ухудшения параметров канала записи, дефектов в служебной зоне, — и из-за некорректной записи происходит разрушение модулей.
Однако у 11-х «Барракуд» главный недостаток — некачественные материалы. Из-за этого некоторые накопители уже через несколько месяцев начинают работать неустойчиво. До всплывшей проблемы с микрокодом у дисков тех же серий были баги, не связанные с разрушением внутренней программы, — заклинившие валы, подвисания на 2-5 секунд, долгий выход в готовность при включении, заваленные атрибуты 1 и 195 в SMART, характеризующие работу системы коррекции ошибок HDD.
То, что у рассматриваемых дисков «слетает» микрокод, — тоже следствие нештатных аппаратных ситуаций. Сам же микрокод не должен разрушаться от «реактивности» системы мониторинга. У грамотно спроектированных винчестеров (к которым относились все модели Seagate до появления 11-й серии) он вообще не должен разрушаться.
Про новые (вышедшие относительно недавно) диски 7200.11 пока сказать ничего не могу: мало статистики. У москвичей, насколько я знаю, еще летом 2008-го были проблемы, но тогда никто не умел их решать. Мне заказали написать программу для оживления в октябре, когда умирающие диски пошли косяком (Сергей живет в Минске. —
Отдельная тема — 11-е «Барракуды» с bad-блоками. Если у диска вышел из строя транслятор, но устройство дает готовность по интерфейсу — там всегда есть bad-блоки. Однако если восстановить транслятор «шнурками» и командами по одной из доступных в Сети процедур, то
обычному пользователю это ничего не даст. Bad-блоки там специфичные: если начать копирование информации в обычной операционной системе, после первого же дефекта диск впадает в ступор и отключается. Копировать нужно специальным копировщиком непосредственно через порты. Ну и конечно, надо знать, как при этом обращаться с командами. Обычный пользователь, если начинает оживлять свой винчестер, вскоре получает гораздо больше bad-блоков, чем было, а иногда накопитель вовсе ломается из- за запиливания поверхностей и выхода из строя головок. Таким образом, отключение транслятора — это своеобразная защита диска от потери данных.
Вообще, по моему личному мнению, большинство проблемных дисков не отработают трехлетней гарантии даже после устранения ошибок в микропрограмме. Небольшая часть, возможно, выживет. Есть же накопители, которые должны были давно выйти из строя, но, вопреки всему, уже пятнадцать лет работают. Например, известные своей ненадежностью WDC АС22000.
Владельцам дисков могу посоветовать следующее. Если ваш винчестер вышел из строя, несите его к специалисту: не усугубляйте проблему. Если диск лишь потенциально неисправен, с осторожностью пользуйтесь им до тех пор, пока он не сломается. Это дисциплинирует. Винчестер не предназначен для хранения действительно ценной информации. HDD — это постоянно включенное устройство с изнашивающимися подвижными частями. Что уж говорить о моделях, выпущенных в период экономии ресурсов. Все результаты деятельности на ПК опасно хранить на винчестере того же ПК. Нужно дублировать данные на нескольких компьютерах или сохранять их на сменных носителях. Отслеживайте состояние винчестера программами для контроля атрибутов SMART. Если есть ухудшения — чаще делайте бэкап. И морально готовьтесь к тому, что диск рано или поздно умрет. Помните, что ни один производитель устройств для хранения данных не гарантирует сохранности информации.
Сергей Казанский, специалист по восстановлению информации, техцентр «виктория»
ФАКТЫ
СКИФ и мы
ДЕСЯТЬ ФАКТОВ О СУПЕРКОМПЬЮТЕРЕ СКИФ МГУ «ЧЕБЫШЕВ»
1 Суперкомпьютер СКИФ МГУ «Чебышёв» был запущен ь марте 2008 года. В момент запуска он находился на 22-м месте в Тор 500 Supercomputers, сейчас опустился на 54-е. Пиковая производительность системы, состоящей из 1250 четы-рехъядерных процессоров, составляет 60 Тфлопс. «Сборщик» СКИФа — компания «Т-Платформы».
2 Теоретически все задачи выполняются в порядке живой очереди, однако администраторы могут повысить приоритет одной из задач, и ее просчет начнется сразу же, как освободится достаточное количество процессоров. Кроме того, без очереди обычно «проскальзывают» те задачи, которые требуют малого количества одновременно задействованных процессоров и немного процессорного времени (при условии, что они-не задержат выполнение других задач).
4. Если отрубаются два последних канала, и у СКИФа остается только фидер от подстанции НИВЦ (которого, как мы помним, недостаточно), система переходит на питание от батарей (АРС; не менее десяти минут, в реальности время зависит от нагрузки). За несколько минут до отключения батарей все задачи завершаются, и начинается полное выключение комплекса. В рабочем режиме такого еще не было, но сотрудники МГУ несколько раз искусственно создавали эту ситуацию, чтобы проверить, как СКИФ с нею справляется. Вычислительные узлы выключаются за полторы минуты, причем после их выключения предположительное время работы системы увеличивается с нескольких минут до полутора часов. Дольше всего выключается параллельная файловая система — ей требуется от десяти до пятнадцати минут.
5A вот систему охлаждения для СКИФа делали с запасом. Причина проста. Если вероятность длительного, на несколько дней, отключения электроэнергии пренебрежимо мала, то исключать поломку любой из составляющих системы охлаждения, к сожалению, нельзя, а на замену может уйти и неделя, если нужного устройства нет на складе. Поэтому все холодильные шкафы и чиллеры установлены по формулам п+2 или п+1, что позволяет системе не замечать потери бойца, если такая потеря произойдет. С системой охлаждения нештатные ситуации уже были, но благодаря резервированию ничего страшного не