Уже довольно много предприятий обзавелось собственным ЦОД, но лишь некоторые из них имеют четкое представление о том, как обслуживать этот сложный инженерный объект. Между тем даже идеально спроектированный и построенный ЦОД не сможет нормально функционировать, если процедура его эксплуатации не организована должным образом.
Растущая зависимость от информационных технологий заставляет предприятия искать способы повышения надежности и доступности этого критически важного инструмента. И одним из таких способов стало строительство центров обработки данных. Перебои с электричеством в мае 2005 года практически парализовали жизнь столицы. Банки и телекоммуникационные компании в мгновение ока остались без основного своего «орудия труда» — без вычислительной инфраструктуры. И лишь те немногие, кто не поскупился на строительство полноценных центров обработки данных, вышли из этого испытания с честью.
Спрос рождает предложение. Потребность в центрах обработки данных стимулировала развитие данной отрасли, и целый ряд компаний стали активно накапливать соответствующую экспертизу. В результате уже довольно много предприятий обзавелось собственным ЦОД, но лишь некоторые из них имеют четкое представление о том, что же делать дальше с этим сложным инженерным объектом.
Даже идеально спроектированный и построенный ЦОД не сможет нормально функционировать, если процедура его эксплуатации не организована должным образом. Хотя, по данным Ассоциации защиты информации США, главными причинами потерь являются отнюдь не ошибочные действия персонала и прочие эксплуатационные ошибки, все же этот риск достаточно велик, особенно по сравнению со стоимостью информации, чтобы его игнорировать.
Большинство проблем возникает вследствие ошибок на стадии проектирования, из-за которых эксплуатация ЦОД оказывается затруднительна, а иногда совершенно невозможна. Самыми распространенными недочетами являются узкие эксплуатационные проходы, малые габариты распределительных щитов и отсутствие в них места под резервные автоматы, недостаток места для установки оборудования с нетиповыми габаритами и нестандартным электропитанием, а также неправильно проложенные коммуникации под фальшполом, препятствующие эксплуатации кабельной системы.
РЕГЛАМЕНТНЫЕ РАБОТЫ
Если все этапы, начиная от предпроектной подготовки и заканчивая сдачей ЦОД заказчику, выполнены на высоком уровне, эксплуатация сводится только к поддержанию в образцовом состоянии всех систем, обеспечивающих бесперебойную работу оборудования. Эксплуатировать ЦОД должны специалисты с такой же квалификацией, как и у тех, кто его проектировал и строил. Но допустим, мы построили идеально спроектированный ЦОД. Что же дальше?
Первое, о чем должен задуматься владелец ЦОД — какие инженерные системы нуждаются в обслуживании и в чем оно состоит. Эксплуатация всех инженерных систем разбивается на этапы, так как некоторые требуют ухода чаще, некоторые реже. Это зависит от того, насколько они важны для функционирования ЦОД и достижения требуемой степени обеспечения надежности тех или иных систем. Например, маловероятно, что неисправный фальшпол сможет привести к остановке всего центра, но это не значит, что его можно оставить без внимания. Всегда существует вероятность того, что в один «прекрасный момент» фальшпол может провалиться, и это повлечет за собой травмы случайно оказавшихся в этом месте сотрудников и повреждения подпольных коммуникаций. Далее мы коротко опишем типичные процедуры эксплуатации инженерных систем центров обработки данных, которые необходимо проводить в течение года.
Ряд инженерных систем требует ежемесячной проверки. Во-первых, это механические подсистемы, такие как двери, замки, петли, доводчики, клапаны и приводы дымоудаления, исполнительные приводы системы контроля доступа, для которых необходим визуальный осмотр, а также очистка от пыли, грязи и смазка. А во-вторых, электронные компоненты: датчики системы охранной и пожарной сигнализации, система защиты от протечек, видеорегистраторы — все они нуждаются помимо очистки от грязи и пыли, еще и в тестировании, в основном штатными средствами. Система защиты от протечек должна ежемесячно проверяться методом имитации утечки воды. Кроме того, каждый месяц рекомендуется выборочно проверять работоспособность розеточных блоков, проводить осмотр и сверку штатных манометров, установленных на баллонах системы газового пожаротушения, и сравнивать полученные данные с теми, которые записаны в техническом паспорте.
Система кондиционирования требует более сложных эксплуатационных процедур — визуального осмотра внешних, внутренних блоков и трассы, ремней приводов вентиляторов, проверки давления фреона в контурах, чистки внешних блоков от грязи промышленными пылесосами. Самую сложную задачу для технического персонала составляет ежемесячный кратковременный пуск дизеля на внешнюю тестовую нагрузку.
Более редко — один раз в три месяца — необходимо проверять электрические схемы люков забора воздуха и дымоудаления, тестировать всю систему автоматической пожарной сигнализации и газового пожаротушения штатными средствами, контролировать состояние пожарных датчиков при снятии контактов с пиропатронов. Как уже упоминалось, не стоит забывать и о фальшполе. С той же регулярностью рекомендуется проверять состояние пандусов и покрытия пола, для выявления люфта отдельных плит на опорах, и выборочной оценки состояния опорных стоек и вентиляционных плит. Время от времени фальшпол приходится чистить.
В эти же сроки должна производиться более тщательная проверка систем энергоснабжения. Речь идет о внешнем осмотре электрощитов на предмет посторонних шумов и повреждений, проверке системы вентиляции ИБП и контроллера, переходе на внутренний байпас и контроле заряда батарей. В системе кондиционирования необходимо заменить фильтры во внутренних блоках. В системах видеонаблюдения и контроля доступа — произвести чистку видеокамер и считывателей СКУД, выполнить диагностику рабочей станции оператора и архивирование накопившейся видеоинформации.
Следующим стандартным периодом в эксплуатации инженерных систем является полугодовой срок. Контроль с такой периодичностью требуется меньшему числу систем, но переоценить данную работу невозможно. В частности, необходимо провести протяжку болтовых соединений на ГЗШ, стойках, шкафах, щитах и лотках — во всех подсистемах, в составе которых имеется электрическая часть. Выборочно следует проверить заземляющие проводники, выполнить замеры сопротивления растеканию тока, проконтролировать состояние внешнего заземлителя и работу АВР. Все эти действия позволят содержать подсистему энергоснабжения в отменном рабочем состоянии.
Кроме того, настоятельно рекомендуется раз в полгода осуществлять сверку показаний датчиков температуры и влажности кондиционеров по поверенным приборам. Эта процедура позволяет гарантировать, что система кондиционирования поддерживает ровно те параметры влажности и температуры, которые ей заданы изначально.
И, наконец, самый редкий период эксплуатации — один год. Основное регламентное действие на этом этапе технического обслуживания — контроль состояния аккумуляторных батарей разных подсистем. Они имеются в составе систем автоматической пожарной сигнализации и газового пожаротушения, гарантированного электропитания (аккумулятор в ДГУ), аварийного и рабочего освещения, видеонаблюдения и контроля доступа.
Особого внимания требуют аккумуляторные батареи источников бесперебойного питания. Один раз в год следует проводить тестирование работоспособности системы в аварийной ситуации, имитацию отключения внешнего питания и питание нагрузки на ИБП до 30% разрядки батарей. Замена батарей осуществляется либо согласно регламенту, прописанному в техпаспорте, либо в соответствии с указаниями управляющего контроллера.
Для проверки работоспособности автоматики ДГУ следует проводить имитацию отсутствия напряжения от городского ввода, а для автоматики, останавливающей кондиционеры и закрывающей огнеупорные клапаны, — имитацию пожара путем принудительного срабатывания пожарного извещателя. Если необходимо, выполняется регламентная замена индивидуальных средств защиты органов дыхания с истекшим сроком эксплуатации.
На случай непредвиденных обстоятельств должны быть заключены контракты на гарантированный подвоз топлива (при отключении городских вводов и перехода электроустановки на резервное питание) и аварийный ремонт инженерных систем с компаниями — производителями оборудования.
Как и инженерные системы, активное и пассивное телекоммуникационное оборудование, а также серверы нуждаются в техническом обслуживании. Здесь многое зависит от того, для каких целей используется ЦОД — для удовлетворения потребностей потребителей или решения корпоративных задач. Соответственно, этими вопросами занимаются либо сами клиенты, либо ИТ-департамент ЦОД. Но входящие в ЦОД каналы связи требуют бережной эксплуатации в любом случае. Так же, как и инженерные системы, их обслуживает внутренний персонал в сотрудничестве со сторонними сервисными организациями либо с провайдерами, предоставляющими эти каналы.
Вот, собственно, и весь перечень основных эксплуатационных работ, которые необходимо проводить в ЦОД для поддержания его надежности и работоспособности.
ОБСЛУЖИВАЮЩИЙ ПЕРСОНАЛ
Следующий вопрос, который непременно должен задать себе владелец центра обработки данных перед началом его эксплуатации, звучит так: «А кто те люди, которые будут обслуживать инженерные системы моего ЦОД?». На него есть два ответа. Первый — заключение контракта с эксплуатирующей организацией. Второй — содержание собственного штата инженеров.
Преимущества первого подхода очевидны: не придется содержать штат персонала, который не будет задействован все 100% своего рабочего времени. Как правило, сотрудники эксплуатирующей организации — это высококлассные специалисты, у которых имеется опыт работы на многих объектах, где им приходится сталкиваться с самыми разными проблемами эксплуатации инженерных систем. Подобный опыт постоянным сотрудникам получить негде, а высокие затраты на обучение нельзя компенсировать отсутствием практических навыков.
Вместе с тем обращение к сторонним услугам чревато тем, что, когда потребуется устранить внезапно случившуюся аварию, инженеров на рабочем месте не окажется. При заключении же сервисных контрактов с минимальным временем реакции приходится идти на довольно значительные финансовые расходы.
При втором подходе — содержание собственного штата инженеров — преимущества и недостатки меняются местами. Постоянное присутствие специалистов на рабочем месте рядом с эксплуатируемыми системами гарантирует высочайшую скорость реакции на возникающие проблемы. Персонал ЦОД досконального знает все его системы и их «болячки». Однако содержание квалифицированного штата сотрудников обходится недешево, к тому же приходится нести дополнительные затраты, связанные с повышением квалификации персонала и ежегодными аттестациями.
ШТАТНОЕ РАСПИСАНИЕ
Зачастую при эксплуатации небольших центров обработки данных используется комбинация двух описанных вариантов, когда в компании работает один квалифицированный инженер, знакомый со всеми инженерными системами ЦОД и выступающий заказчиком для сторонней организации (или нескольких организаций). Его обязанности включают заключение сервисных договоров, элементарные функции обслуживания систем (например, отслеживание и устранение простейших ошибок оборудования), ведение оперативного журнала (о нем мы поговорим более подробно), а также вызов сервисной бригады в случае наступления аварийной ситуации. Очень важный момент — указание в контракте времени реагирования. Это максимальное время в часах с момента поступления обращения в эксплуатационную компанию до заранее обусловленного момента (прибытия на объект, начала работы, частичного или полного устранения неисправности и т.п.).
При обслуживании крупного ЦОД (более 500 м2) более целесообразным видится применение второго подхода, то есть содержание собственного штата специалистов (за исключением наиболее специфических — например, специалиста в области пожарной охраны, так как для обслуживания противопожарных систем требуется особая лицензия).
Из практики ЦОД можно привести некоторые примеры структуры штата обслуживающих специалистов. Для ЦОД среднего размера (100-300 м2) наиболее эффективный штат может состоять из четырех инженеров, каждый из которых аттестован не менее чем на третью группу по электробезопасности и сертифицирован на обслуживание дизель-генераторной установки, источника бесперебойного питания и системы кондиционирования. График работы таких инженеров — сутки через трое. Кроме того, в штате должен быть еще один технический работник с квалификацией не ниже, чем вторая группа по электробезопасности, имеющий общие навыки работы с остальными инженерными системами и работающий в будние дни. Он помогает инженеру.
Для крупного ЦОД площадью более 500 м2 стандартный состав сотрудников следующий: главный инженер — высококвалифицированный сотрудник, сертифицированный на все виды инженерного оборудования, работающего в ЦОД; заместитель главного инженера — он обладает теми же навыками, что и главный инженер; главный энергетик — специалист с четвертой группой по электробезопасности, отвечающий за все электрохозяйство ЦОД; инженер — сотрудник, сертифицированный на все системы ЦОД, не относящиеся к энергетике; три технических работника, работающих по графику «сутки через двое».
АЛГОРИТМ ДЕЙСТВИЙ
Для оптимизации процесса эксплуатации и скорости реакции на возникающие проблемы рекомендуется выбрать единый алгоритм действий, начиная от обнаружения проблемы до ее устранения.
Первым вариантом является создание центра обработки вызовов (эту услугу можно приобрести у операторов связи), куда поступают сигналы (звонки и письма) с информацией о любых сбоях или проблемах от дежурных инженеров, клиентов, оборудование которых установлено в ЦОД, и т.п. Эти сигналы обрабатываются и заносятся в единую системную базу сообщений о неисправностях (trouble ticket), где в любой момент можно в режиме реального времени посмотреть всю информацию о проблеме. Туда же заносятся все контактные телефоны лиц, задействованных в ее устранении. Связавшись с ними, можно узнать о ходе выполнения работ.
Когда все данные введены, запрос передается инженеру, отвечающему за решение задач данного типа. Он, в свою очередь, информирует всех остальных о течении дел через ту же систему сообщений о неисправностях. Таким образом осуществляется обратная связь на всех этапах решения проблемы. По окончании ремонта в базе делается соответствующая отметка, и все отчеты отправляются в архив, открыв который можно проследить весь процесс. Для реализации такой схемы требуется наличие дежурной смены инженеров, которые круглосуточно находились бы в операторском помещении и следили за данными мониторинга всех систем, а кроме того, нужны несколько хорошо обученных специалистов — именно они будут заниматься устранением проблем.
Другой вариант — реализация нескольких уровней технической поддержки. Например, низшим звеном является поддержка первого уровня (first level support). Ее сотрудники могут самостоятельно устранять проблемы, относящиеся к их компетенции. Если случившееся выходит за рамки возможностей первого уровня поддержки, то задача передается второму уровню (second level support), более квалифицированным специалистам, и т.д. При необходимости вызываются сотрудники организаций, с которыми заключены договоры на обслуживание и диагностику.
Важным моментом является квалификация и подготовка специалиста. Для поддержки первого уровня нужно базовое знание всех инженерных систем, принципов их работы и устройства. Для поддержки второго системы надо знать детально — как инженерные, так и сетевые.
НЕОБХОДИМАЯ ДОКУМЕНТАЦИЯ
Определившись с персоналом, а также с алгоритмом взаимодействия с внешними сервисными организациями и клиентами, пора разобраться, каким образом формализовать процедуры эксплуатации. Для этого предусмотрен целый ряд документов, регламентирующих все события, происходящие в ЦОД. Ниже мы приводим их перечень.
Журнал регламентных работ. В него заносятся сроки выполнения регламентных работ в соответствии с рекомендациями производителей оборудования и нормативной документации на конкретные подсистемы. Журнал лучше заполнять на год вперед, для получения более четкого представления о сроках и качестве планируемых работ.
Проектная документация. Проектная и/или рабочая документация позволяет определить логику работы подсистем ЦОД и взаимосвязь между ними. Это помогает оперативно диагностировать ошибки и устранять неполадки в работе систем.
Техническая документация на инженерное оборудование. Аналогично проектной, техническая документация обеспечивает оперативную диагностику и устранение ошибок в работе конкретного оборудования (кондиционеры, ИБП, ДГУ и т.д.). Кроме того, с ее помощью можно произвести перенастройку параметров оборудования.
Инструкция к действиям в нештатных ситуациях. Все инженеры должны следовать единой инструкции действий персонала в нестандартной или кризисной ситуации, составленной с учетом особенностей эксплуатации данного ЦОД. Для повышения эффективности работы необходимо выделить несколько основных областей, где возможны проблемы, и указать каждому сотруднику его должностные обязанности. К проблемным областям относятся следующие:
приложения;
средства соединения (IP, VPN и т.д.);
оборудование;
маршрутизация;
голосовая связь;
питание;
охлаждение.
Для каждой нештатной ситуации должны быть приведены варианты действий, исходя из технической документации и накопленного опыта. Некоторые проблемы нельзя отнести ни к одной из перечисленных, например техническое обслуживание, уборка и т.д., их можно выделить в отдельную категорию и предоставить дополнительный персонал.
Кроме того, в инструкции необходимо привести список лиц из руководства, смежных отделов и сервисных организаций, с которыми нужно связываться в случае какого-либо инцидента.
Журнал нештатных ситуаций. В нем отображаются в хронологическом порядке все нештатные ситуации, происходящие в ЦОД, действия, предпринятые эксплуатирующим персоналом, и достигнутые результаты. Журнал позволяет отслеживать статистику неисправностей, а также фиксировать новые проблемы и предпринятые меры с целью их включения в «Инструкцию к действиям в нештатных ситуациях». Он формируется на основе единой системной базы сообщений о неисправностях, если таковая имеется в ЦОД.
Штатное расписание работы оборудования. Этот документ регламентирует порядок функционирования инженерных систем. Показательный пример — работа системы кондиционирования в режиме ротации. В расписании должно быть отражено, через какие временные промежутки должны переключаться кондиционеры и в какое время.
Штатное расписание эксплуатирующего персонала. В расписании отражается полный перечень сотрудников, их должностные обязанности, зоны ответственности и график работы с учетом текущих изменений.
Оперативный журнал. И, наконец, в последнем по списку, но не по значимости, документе должны фиксироваться все события, происходящие в ЦОД, в хронологическом порядке: приход и уход сменных сотрудников, ошибки и тревоги, выдаваемые системами, проводимые регламентные работы, возникающие аварии, выезды сервисных бригад и сроки исправления аварий и т.д.
Этот журнал позволяет восстановить картину происходящих событий в ЦОД для поиска причин аварий.
СКЛАД ЗАПАСНЫХ ЧАСТЕЙ
Важным вопросом является организация склада запасных частей (ЗИП) и расходных материалов.
Расходные материалы — это детали инженерного оборудования, список которых приводится в инструкции по его эксплуатации. Их необходимо периодически менять (например, фильтры в кондиционерах и в очистителях воды). В соответствии с этими списками следует держать на складе расходные материалы в количестве, достаточном для замены в оборудовании в течение года.
ЗИП — это запасные части оборудования, наиболее критичные для обеспечения бесперебойной работы инженерных систем. Формирование ЗИП — понятие во многом субъективное, оно определяется балансом оценки заказчиком стоимости простоя ЦОД и готовностью тратить средства на содержание на складе запасных частей, позволяющих устранить его причину. К примеру, вероятность выхода из строя контроллера и компрессора в кондиционере равновелика. Что из названных компонентов имеет смысл поместить в ЗИП? Если кондиционеры двухконтурные, то при выходе из строя одного из компрессоров надежность системы снизится, но качество работы не ухудшится. Таким образом, если мы готовы идти на риск и ждать поставки компрессора в течение стандартного срока в один-два месяца, то хранить его в ЗИПе не следует. С другой стороны, выход из строя контроллера повлечет за собой остановку одного из кондиционеров, что недопустимо, если система кондиционирования работает без резерва. Когда цена простоя велика, на складе должен быть запасной микроконтроллер, чтобы заменить неисправный в минимальные сроки.
ДИСПЕТЧЕРИЗАЦИЯ И МОНИТОРИНГ
Чтобы оптимально организовать работу службы эксплуатации, ЦОД следует оснастить системами диспетчеризации и мониторинга. Без них просто не обойтись при эксплуатации крупного ЦОД, где довольно сложно определить назревающую проблему при том многообразии и с тем количеством инженерного оборудования, которое в нем имеется. Единая система диспетчеризации позволяет в несколько раз повысить эффективность работы персонала и скорость его реакции на нештатные ситуации. Что дает внедрение единой системы диспетчеризации?
Контроль параметров всего тех-нологического оборудования в реальном времени. Сотруднику не нужно идти в помещение ЦОД, чтобы измерить температуру или влажность, так как все параметры будут выводиться в едином графическом окне. В случае превышения заданных границ система будет подавать визуальное и звуковое предупреждение.
Возможность изменения параметров системы в реальном времени по требованию заказчика. Для перенастройки режимов работы инженерного оборудования не придется выставлять заданные параметры через встроенный графический дисплей оборудования или специализированное программное обеспечение. Как и при контроле, все необходимые параметры могут изменяться из единого графического окна.
Оперативная реакция на неисправность технологического оборудования. Персонал ЦОД будет своевременно получать информацию о проблеме сразу после ее возникновения, что позволит минимизировать время, затрачиваемое на ее устранение.
Возможность предвидеть потенциальные неисправности оборудования. Система диспетчеризации позволяет не только контролировать состояние технологических параметров, но и вести журналы их учета, а значит, отслеживать динамику поведения всех параметров. Таким образом можно спрогнозировать и предотвратить потенциальную неисправность. Например, тенденция падения давления, зафиксированная датчиками кондиционера, может сигнализировать о нарушении герметичности трассы и утечке фреона.
Система диспетчеризации вкупе с грамотно организованной службой эксплуатации позволит значительно повысить надежность функционирования ЦОД.
ВСЕГДА ГОТОВ!
В заключение еще раз отметим основные пункты, которые позволят поддерживать ЦОД в режиме максимальной готовности. К ним относятся:
оптимальный подбор обслуживающего персонала;
заключение сервисных договоров со специализированными организациями, где оговариваются время реакции на проблемы и сроки ее устранения;
наличие на собственном складе или у обслуживающей организации необходимых запасов ЗИП и расходных материалов;
четкий регламент профилактических работ по всем инженерным системам ЦОД;
описание порядка действий персонала в случае наступления нештатной ситуации;
внедрение в ЦОД единой системы диспетчеризации и мониторинга.
Забывать о «традиционных» УАТС пока преждевременно. Вместе с тем довольствоваться только телефонными переговорами и пересылкой факсов уже невозможно. К тому же стандартный набор функциональных возможностей УАТС не покрывает всех потребностей заказчика.