Дедупликация данных для корпоративных решений.

Под дедупликацией данных понимают технологию, которая обнаруживает и исключает избыточные данные в дисковом репозитории (хранилище). В результате этой операции потребности в хранении при тех же самых объемах данных сокращаются наполовину и более, в зависимости от количества избыточных копий. Сегодня функция дедупликации данных стала обязательной для целевых устройств резервного копирования на диски.

Надо сказать, что технологии дедупликации данных сейчас применяют не только для резервного копирования: их все шире внедряют для архивирования информации на основные накопители и оптимизации использования WAN-каналов (рис. 1). Прежде чем мы расскажем об этих технологиях, давайте посмотрим, как появляются идентичные резервные копии.

QIP Shot - Image: 2016-11-30 11:47:54

Рис. 1. Планы использования технологии дедупликации.

Это происходит по двум основным причинам:

- первая - многократное копирование одних и те же файлов с одного и того же сервера. Например, дубликаты некоего файла могут оказаться в еженедельно создаваемых полных резервных копиях, которые хранятся 30 дней. Еще один пример многократно копируемых данных - это первые 900 Мбайт файла почтового ящика объемом 1 Гбайт, в котором, предположим, хранится электронная почта директора некоего предприятия. Поскольку он получает новую почту ежедневно, то каждую ночь программа, осуществляющая инкрементальное резервное копирование, создает новую копию этого файла. И хотя большая часть файла почтового ящика остается неизменной, всякий раз он копируется целиком.

- вторая причина - копирование одинаковых файлов с разных узлов сети. Если вы резервируете содержимое системных дисков 50 Windows-серверов, то получаете 50 копий системных файлов Windows, занимающих значительное дисковое пространство. Ненужные дубликаты могут сохраняться и на субфайловом уровне. Речь идет, например, об изображении логотипа той или иной компании, вставленного в тысячи ее документов, которые хранятся на ее файловых серверах.

Фирмы-производители реализуют дедупликацию самыми разными способами (физически это может быть программная или аппаратная реализация), однако всем им приходится решать несколько схожих проблем.

Производительность. Часто даже не имеет значения, насколько эффективна технология, уменьшающая требования к емкости хранения, если она не может обработать поступающие данные в заданный период времени («временное окно»). Таким образом, производительность – это основной критерий при анализе решений дедупликации.

Гранулярность (степень детализации). Дедупликация может выполняться на файловом, блоковом и битовом уровнях. Считается, что более высокая степень детализации обеспечивает более эффективную обработку.

Факторизация (распознавание избыточных данных). Дедупликация основывается на проприетарных (фирменных) алгоритмах, базирующихся, в свою очередь, либо на хэшировании (когда первым делом создается некий «отпечаток пальца» для каждого блока данных, а затем эти «отпечатки» сравниваются), либо на сравнении действительных данных. Факторизация - важный определяющий элемент скорости дедупликации.

Архитектура. Обычно рассматриваются две основные архитектуры дедупликации, хотя на самом деле их существует все-таки три. Первая из них - это постобработка (пост-процессинг). В этом случае сначала сохраняют резервные копии, а затем дедуплицируют их. При таком подходе к дедупликации для кеширования копируемых данных требуется дополнительное дисковое пространство, что снижает эффективность этой процедуры. Таким образом, постпроцессинговая обработка обеспечивает максимально быстрое поступление данных, однако для временного хранения требуется дополнительная емкость.

Далее, онлайновая обработка («на лету») означает, что дедупликация данных происходит перед их записью в хранилище. Это требует довольно высокой процессорной мощности, но позволяет существенно сократить объем хранения и количество операций ввода-вывода. В этом случае важно, чтобы выполнение процесса дедупликации не тормозило резервное копирование. И третий вариант - параллельная обработка; в этом случае запись «сырых» данных на диск, их дедупликация и перезапись факторизованных данных происходят в одно и то же время. Для параллельного выполнения этих трех операций требуется очень высокая вычислительная мощность и дополнительное дисковое пространство в хранилище.

Место проведения дедупликации. Дедупликация может выполняться на источнике или приемнике. В последнем случае данный процесс выполняется прозрачно и никак не влияет на существующую и новую функциональность системы. К недостаткам его следует отнести большой объем пересылаемых данных. В первом же случае, хотя и удается снизить нагрузку на сеть, но приходится мириться с целым рядом неудобств, поскольку дедупликация происходит непрозрачно, требуя установки специализированного ПО на клиентских компьютерах.

Коэффициент дедупликации. Значение данного коэффициента вычисляется путем деления первоначального объема данных на объем данных, полученных после дедупликации. Наиболее эффективной дедупликация оказывается в том случае, когда данные обладают большой избыточностью на уровне файлов, а также когда они копируются и/или сохраняются после внесения незначительных изменений. В общем случае неструктурированные данные (файлы Microsoft Office, виртуальные диски, резервные копии, файлы электронной почты и архивов) показывают лучшие коэффициенты, чем при дедупликации файлов баз данных (структурированных данных).

Многие специалисты признают функцию дедупликации данных очень полезной, но среди них не утихают споры о том, как и где ее нужно выполнять. Наиболее горячо обсуждаются достоинства и недостатки онлайновой дедупликации (в ходе процесса резервного копирования) и дедупликации в виде постобработки (после окончания этого процесса). Онлайновую дедупликацию выполняют устройства, подобные продуктам фирмы Data Domain, или VTL-системы на базе ПО ProtecTier компании Diligent Technologies, которые обрабатывают данные в масштабе реального времени и сохраняют только дедуплицированные данные. Поскольку для такой дедупликации нужно много вычислительной мощности, общая производительность дедуплицирующих устройств ограничивается скоростью выполнения ими этой функции.

Статьи по:

Дедупликация данных для корпоративных решений.

Дедупликация данных для корпоративных решений.

Лицензия

	Телефон/факс: (8412) 52-23-62, 52-23-47, 21-84-24
	E-mail: nto@bk.ru
	ВКонтакте: Algoritm_Center
	Twitter: Algoritm_Center
	Skype: Algoritm_Center