Дедупликация данных
Технологии
СХД
Технологии
СХД
Описание термина
Дедупликация данных (Data Deduplication) — технология сокращения физического объёма хранимой информации за счёт устранения дублирующихся фрагментов. Вместо хранения множества одинаковых копий данных система оставляет только один уникальный экземпляр, а последующие обращения к нему заменяет ссылками. Это напоминает ситуацию, когда в почтовом ящике сто писем с одним и тем же вложением: достаточно сохранить файл один раз, а каждому письму добавить «указатель» на него.
Уровни работы
Дедупликация может работать на разных уровнях:
- на уровне файлов — если два файла идентичны, остаётся одна копия;
- на уровне блоков — файл разбивается на мелкие фрагменты (блоки), и уникальными считаются только неповторяющиеся блоки; это даёт более высокую эффективность, особенно в виртуальных средах (например, когда несколько виртуальных машин используют одну операционную систему).
Применение
Технология чаще всего применяется в системах резервного копирования, архивах и первичных хранилищах, где объёмы данных велики, а повторяемость высока.
Важные нюансы: дедупликация позволяет значительно сэкономить дисковое пространство — в типичных сценариях бэкапов экономия может достигать 90% и более. Однако она требует вычислительных ресурсов (CPU, памяти) и может влиять на скорость записи. Поэтому её выбор и настройка всегда балансируют между выигрышем в ёмкости и производительностью системы.