Реальные истории

Юный программист и серверная стойка: история о том, что не все провода одинаковые

Молодой админ в Москве решил «по-быстрому» перекоммутировать сервер. Стандартные правила безопасности назначены не для красоты.

Редакция
subscriber
2 мин чтения 0 комментариев

В крупных компаниях работа с серверным оборудованием регламентирована десятком инструкций. Это занудно, но снижает риск серьёзных инцидентов. В небольших компаниях часто всё держится на одном-двух специалистах, которые работают "по понятиям".

В 2020 году молодой системный администратор Илья К., 24 года, второй год работы в IT-компании, занимался обслуживанием серверной стойки в офисе. Стандартная задача: переподключить два сервера к другим UPS-блокам для балансировки нагрузки.

Процедура

По инструкции (которой Илья не читал) процедура такая: 1. Сначала плавно выключить сервер через ОС. 2. Подождать пока он полностью обесточится. 3. Отсоединить силовой кабель от UPS. 4. Подсоединить к новому UPS. 5. Включить сервер.

Илья решил сделать "горячую" перекоммутацию: вытащить кабель из одного UPS и сразу же вставить в другой. Сервер не успеет полностью выключиться, всё пройдёт незаметно.

Эта стратегия в принципе работает, если делать аккуратно. Илья делал не аккуратно.

Что произошло

В серверной было около 15 кабелей одного типа от 6 разных серверов и 3 UPS. Илья не маркировал кабели, чтобы "не тратить время". Решил действовать по памяти.

Вытащил один кабель из UPS-1. Это оказался кабель не того сервера. Тот сервер мгновенно выключился (без процедуры shutdown). На нём была важная база данных одного из ключевых клиентов компании.

Илья запаниковал, попытался быстро вернуть кабель обратно. Воткнул не в тот разъём UPS. Произошло короткое замыкание (UPS оказался с разной полярностью на разных разъёмах, это редкий, но возможный сценарий с разнотипным оборудованием).

Короткое замыкание привело к возгоранию UPS-1. Сработала пожарная сигнализация. Системы пожаротушения залили серверную газом. Все сервисы на стойке отключились.

Финал

Илья выжил, без травм. Но компания потеряла: - Работающий UPS (50 тысяч рублей) - Простой бизнеса на 4 часа (несколько миллионов рублей упущенной выручки) - Доверие ключевого клиента (контракт продлили на сложных условиях)

Илью уволили. Перевели работать в небольшую другую компанию.

Урок

Маркировка кабелей и следование процедурам кажутся занудными, пока всё работает. Когда что-то ломается, выясняется что эти "занудности" были единственной защитой от катастрофы.

Илья сейчас работает админом в небольшой студии. Все кабели в его серверной промаркированы. Все процедуры он расписал и распечатал. Дважды в год проводит "учения" для коллег. Опыт того инцидента остался с ним.


По мотивам реального случая в одной из московских IT-компаний 2020.

Поделиться:
#работа#сервер#Россия#электричество

0 комментариев

Оставить комментарий

Email не публикуется и используется только для аватара Gravatar. Без него аватар будет случайный. Комменты модерируются автоматически (фильтр спама).