ZFS (Zettabyte File System)

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 15:27, 25 мая 2016.
ZFS
Полное название Zettabyte File System
Содержимое каталога Extendible hash-table
Limits
Макс. размер тома 256 ZiB
Макс. размер файла 16 EiB
Макс. количество файлов 248
Макс. длина имени файла 255 byte
Разрешенные символы
в именах файлов
Without coding or UTF-8
Features
Вилка Extended attributes
Разрешения файловой системы POSIX
Прозрачное сжатие Yes
Транспорантное шифрование Since version pool 30
Другие
Операционная система Solaris, OpenSolaris, FreeBSD, Linux

ZFS (англ. Zettabyte File System) — файловая система, которая изначально создавалась для операционной системы Solaris компанией Sun Microsystems. Эта файловая система поддерживает работу с большими объёмами данных, объединяет концепции файловой системы и менеджера логических дисков и физических носителей, легковесные файловые системы, новаторскую структуру данных на дисках, а также простое управление томами хранения данных. ZFS является проектом с открытым исходным кодом и лицензируется под CDDL (Common Development and Distribution License).

Одно из основных преимуществ ZFS — это полный контроль над физическими и логическими носителями. Зная, как именно расположены данные на дисках, ZFS способна обеспечить высокую скорость доступа к ним, контроль их целостности, а также минимизацию дефрагментации данных. Это позволяет динамически выделять или освобождать дисковое пространство на одном или более носителях для логической файловой системы.

История

ZFS была спроектирована и создана командой Sun Microsystems, лидером которой является Джеф Бонвик. Файловая система была анонсирована 14 сентября 2004 года. Исходный код для финального релиза был интегрирован в главную ветку разработки Solaris 31 октября 2005 года и реализован как часть 27-й сборки OpenSolaris 16 ноября 2005 года. Sun заявила, что ZFS была интегрирована в 6/06 обновление для Solaris 10 в июне 2006 года, по прошествии одного года с момента открытия сообщества OpenSolaris.

Специфика

Максимальные возможности

ZFS — 128-битная файловая система, что позволяет ей хранить в 18,4 × 1018 раз больше данных, чем все известные 64-битные системы. ZFS спроектирована так, чтобы её ограничения были настолько недостижимы, что в обозримом будущем не встретятся на практике.

Некоторые теоретические пределы в ZFS:

248 — количество снимков в любой файловой системе (2 × 1014); 248 — количество файлов в любой индивидуальной файловой системе (2 × 1014); 256 зеттабайт (1021 байт) — максимальный размер файловой системы; 16 эксбибайт (264 байт) — максимальный размер одного файла; 16 эксбибайт (264 байт) — максимальный размер любого атрибута; 256 — количество атрибутов файла (фактически ограничивается 248 на количество файлов в файловой системе ZFS); 256 — количество файлов в директории (реально ограничен 248 на количество файлов в файловой системе ZFS); 264 — количество устройств в любом пуле; 264 — количество пулов в системе; 264 — число файловых систем в одном пуле; 255 байт — максимальная длина имени файла (не полного имени, а относительно родительской папки); 255 байт — максимальная длина полного имени хранилища данных (файловой системы, тома, снимка, общего ресурса и т. д.). При этом утилиты управления ФС накладывают дополнительные ограничения.

Пулы хранения

В отличие от традиционных файловых систем, которые располагаются на одном устройстве и, следовательно, при использовании более чем на одном устройстве для них требуется менеджер томов, ZFS строится поверх виртуальных пулов хранения данных, называемых zpool. Пул построен из виртуальных устройств (vdevs), каждое из которых является либо физическим устройством, либо зеркалом (RAID 1) одного или нескольких устройств, либо (RAID Z) — группой из двух или более устройств. Ёмкость всех vdevs затем доступна для всех файловых систем в zpool.

Для ограничения пространства, доступного конкретной файловой системе или тому, может быть установлена квота. Кроме того, возможно использование дискового резервирования (лимита) — это гарантирует, что всегда будет оставаться некоторый доступный объём для конкретной файловой системы или тома.

Динамическое разделение

Динамическое разделение всех устройств на максимальной пропускной способности означает, что дополнительные устройства включаются в zpool, более широкие каналы автоматически расширяется для включения использования всех дисков в пуле, это уравновешивает нагрузку на запись.

Модель транзакций с использованием копирования при записи

ZFS использует модель объектных транзакций на основе механизма копирования при записи. Все указатели на блоки внутри файловой системы содержат 256-битную контрольную сумму в целевом блоке, которая проверяется, когда блок прочитан. В качестве контрольной суммы может использоваться либо сумма Флетчера, либо криптографическая хеш-функция SHA-256. Для данных могут быть выбраны и другие контрольные суммы. Блоки данных, содержащие активные (в этот момент) данные, никогда не перезаписываются вместе; напротив, выделяется новый блок, изменённые данные записываются в него, а затем метаданные любых блоков, которые на него ссылаются, таким образом всё перераспределяется и записывается. Чтобы уменьшить накладные расходы, в этом процессе группируется несколько обновлений в группу транзакции, также, если требуется, ведётся журнал использования при синхронной записи.

Пул ZFS ведёт журнал нескольких последних десятков версий данных пула (на несколько последних минут, часов или дней, в зависимости от интенсивности изменения данных), предназначенный для восстановления данных в случае, если ошибка в системе привела пул в нерабочее неизлечимое состояние. Благодаря копированию при записи все эти версии данных в журнале самодостаточны, но разделяют между собой общие данные.

Различные размеры блока

ZFS использует переменный размер блоков до 1 мебибайта (с 32 версии пула, ранее было до 128 кибибайт). В настоящее время администратору позволяется настраивать максимальный размер используемых блоков, но некоторые работы не будут выполняться (или будут выполняться с ошибками), если использовались слишком крупные блоки. Автоматические настройки рабочих характеристик соответствуют привилегиям.

Если сжатие включено, используются переменные размеры блока. Если блок был сжат, он может влиться в блок меньшего размера, то есть используется меньшее пространство на диске и повышается пропускная способность (Input/Output) (ценой расширенного использования процессора и оперативной памяти для операций компрессии и декомпрессии).

Пул ZFS также поддерживает различные размеры секторов устройств и автоматически выбирает наибольший размер блока из устройств, указанных при создании пула (после этого размер блока пула не может быть изменён). Стабильно поддерживаются размеры 512 байт, 4 КиБ (4K). Поддерживаются и блоки больших размеров, но ОС при этом может работать не стабильно.

Сквозной контроль целостности данных

Под сквозным контролем целостности понимается запись на диск контрольной суммы для каждого блока данных, причём контрольная сумма и данные специально разносятся максимально далеко друг от друга для снижения вероятности их совместной порчи. Если в пуле есть несколько устройств, то для данных, размещённых на одном из них, контрольная сумма будет записана на другом. Контрольные суммы вычисляются не только для данных, но и для метаданных, и получается, что в пуле всегда есть контрольная сумма для каждого блока информации.

При считывании любого блока подсчитывается его контрольная сумма и результат сравнивается с контрольной суммой, хранящейся на диске. В случае расхождения ошибка сразу обнаруживается. Разумеется, если в пуле заранее не было запланировано никакого резервирования (ни RAID-Z, ни иного), то ошибку уже не исправить, но зато испорченные данные не будут выданы за истинные.

Смысл сквозного контроля целостности данных в том, чтобы предотвратить скрытую незаметную порчу данных в результате сбоя оборудования или встроенного программного обеспечения диска или контроллера. Несмотря на то, что вероятность такого события кажется низкой, некоторые исследования показывают, что она вполне значима для организаций любого масштаба.

Программы, читающие или пишущие данные, при этом должны поддерживать эти особенности (возможность отказа считывания отдельного блока файла, возможность перехода пула в состояние ожидания восстановления хранилища с зависанием ввода-вывода на неопределённое время).

Создание легковесной файловой системы

В ZFS манипулирование с файловой системой в пуле легче, чем объёмы манипуляций в традиционных файловых системах; время и усилия, требуемые для создания или изменения файловой системы ZFS в большей степени напоминают объёмы работ, связанные с новым каталогом, чем с манипулированием разделом в других технологиях.

Дополнительные возможности

Среди дополнительных возможностей — функция установки конкретного приоритета ввода-вывода со сроком планирования, поддержка нескольких независимых потоков с упреждением автоматического обнаружения длины и шага, интеллектуальная очистка и коррекция, загрузка и совместное использование дисков в пуле, многократное воспроизведение метаданных, поддержка механизма копирования при записи, возможность выбора загрузочной файловой системы в загрузчике ОС, установки основной загрузочной файловой системы, создания нескольких корневых файловых систем, из которых одна (со всеми дочерними) будет использоваться при загрузке ОС, возможность интеграции обновления программ и ОС с созданием снимков и клонов файловых систем, в которых хранятся программы, и использования этих снимков для лёгкого восстановления прежней версии, а клонов — для создания мультизагрузочной системы с возможностью загрузки разных конфигураций или версий ОС (Solaris по умолчанию так и обновляется), опция для ограничения имён файлов корректным текстом в UTF-8 в выбранной нормальной форме, опция нечувствительности к регистру символов в именах файлов.

Управление кэшем

ZFS также вводит адаптивную замену кеша (ARC), новый метод управления кэшем вместо традиционных для Solaris виртуальных страниц кэша в памяти.

Атрибуты пула

Атрибуты пула — это способ управления возможностями и настройками пула. Они имеют специальные типы и ограничения на запись. В них указывается доступен ли пул на запись или на чтение, включена ли дедубликация данных, ФС для загрузки ОС по умолчанию, альтернативный корень для монтирования, характеристики пула и другое.

Системные атрибуты хранилищ данных

Системные атрибуты хранилищ — это способ управления возможностями и настройками хранилищ. Они имеют специальные типы и ограничения на запись. В них указывается настройки шифрования, сжатия, контрольных сумм, дедупликации, резервного копирования, кэширования, размер блоков хранения данных конкретных хранилищ. Также через них указывается размер томов, точки монтирования ФС, доступность отдельных хранилищ на запись, принадлежность хранилищ к зонам, мандатам, резервы, квоты, настройки автоматического создания сетевых общих ресурсов (NFS, SMB), права доступа к ним и другое. В этих атрибутах указываются характеристики хранилищ. Эти атрибуты упрощают управление функциями, связанными с ФС, но прежде выполняемых вручную (например, настройка монтирования нескольких дополнительных файловых систем, создание сетевых общих ресурсов).

Часть системных атрибутов наследуется дочерними хранилищами, в результате атрибуты применяются сразу и к дочерним хранилищам. Атрибуты управления сжатием, дедубликацией, контрольными суммами данных и тому подобные применяются только к новым записанным данным. Для применения их ко всем данным данные требуется перезаписать (это легко делается пересылкой снимков в тот же пул с пересозданием хранилищ).

Пользовательские атрибуты хранилищ данных

Каждому хранилищу данных (ФС, тому, снимку и др.) могут быть назначены пользовательские атрибуты. Пользовательские атрибуты отличаются от системных по именам. Для пользовательских атрибутов можно использовать любые имена (от 1 до 2¹⁰ байт), но рекомендуется использовать имена, содержащие двоеточие (для исключения конфликтов с системными атрибутами), имя своего домена перед этим двоеточием (для исключения с другими пользователями), имя атрибута после двоеточия. Пользовательские атрибуты наследуются дочерними хранилищами.

В связи с разветвлением разработки новых возможностей в разных ОС, несколько таких атрибутов используется в качестве новых системных.

Пользовательские атрибуты используются пользователями и отдельными программами (например, программой автоматического создания и резервного копирования time-slider).

Системные атрибуты файлов

Для файлов любого типа может быть указано значение нескольких системных атрибутов. Эти атрибуты позволяют управлять действиями с файлом. Такие же системные атрибуты есть у расширенных атрибутов файлов.

Помимо атрибутов, хранящих даты создания, последнего доступа, последнего изменения, последнего изменения метаданных, есть атрибуты:

Название атрибута Название атрибута в команде Назначение Что делает ОС с этим атрибутом
Скрытый hidden Файлы с этим атрибутом не отображаются в общем списке, если эта опция включена и поддерживается в программе вывода файлов. Ничего.
Разреженный sparse Файл с этим атрибутом рекомендуется обрабатывать как разреженный, то есть содержащий блоки нулевых байт, не хранимых на накопителе, а подразумеваемых. Этот атрибут рекомендательный и не связан с тем, является ли файл разреженным на самом деле. Программа обработки файлов для работы с разреженными файлами всё равно должна получать данные о разреженных блоках файла у ФС. Ничего.
Системный system Файл с этим атрибутом предназначен для ОС, он не является пользовательским. Обычно не учитывается программами. Ничего.
Только для чтения readonly Файл с этим атрибутом нельзя изменить (только данные, но не атрибуты). Распространяется на всех без исключений. Блокирует доступ на запись, если атрибут установлен.
Для архивирования archive Файл требуется архивировать. Ничего.
Неудаляемый nounlink Для директорий: имя папки и имена её непосредственных потомков нельзя удалить или изменить. Для остальных типов файлов: имя файла нельзя удалить или изменить. Блокирует доступ на изменение имени и удаление, если атрибут установлен.
Неизменяемый immutable Файл с этим атрибутом нельзя изменить (данные, атрибуты, кроме этого самого атрибута и даты последнего доступа). Распространяется на всех без исключений. Блокирует доступ на изменение, если атрибут установлен.
Только для дополнения appendonly Данные файла можно изменять только дополняя, но нельзя перезаписывать. Блокирует доступ на перезапись, если атрибут установлен.
В карантине антивируса av_quarantined Доступ к файлу ограничен до снятия карантина. Атрибут может быть установлен и снят только при наличии прав суперпользователя (есть у антивируса). Блокирует доступ, если атрибут установлен.
Модифицирован (после последней проверки антивирусом) av_modified Сообщает, что текущая версия файла не проверена антивирусом. Устанавливается автоматически при создании файла и каждом изменении данных файла. Может быть установлен пользователем с правами на изменение атрибутов. Может быть сброшен только при наличии прав суперпользователя (есть у антивируса). Автоматически устанавливает атрибут при изменении данных, создании файла.

Расширенные атрибуты

Для каждого файла любого типа можно создавать расширенные атрибуты. Расширенный атрибут представляет собой именованный массив байт, как обычный файл. Для расширенных атрибутов, как и для обычных файлов, могут быть назначены собственные права доступа и системные атрибуты. В отличие от обычного файла для расширенных атрибутов не могут быть созданы расширенные атрибуты, жёсткие ссылки. Для расширенных атрибутов файла доступна возможность ограниченно обращаться как к обычным файлам. Для этого для каждого файла создаётся безымянная папка (в момент создания первого расширенного атрибута), в которой доступны обычные файлы, соответствующие расширенным атрибутам этого файла. В Solaris в эту папку можно попасть с помощью утилиты runat.

Ограничения

  • В реализации ZFS в Solaris 10 отсутствует прозрачное шифрование, как в Solaris 11 и NTFS, хотя существует его реализация в рамках проекта OpenSolaris.
  • ZFS не поддерживает распределение квот для каждого пользователя или группы. Вместо этого можно быстро создавать ФС для пользователей, каждая из которых будет иметь свой размер. По сути, не существует практического решения по квотам для файловых систем, совместно используемых разными пользователями (например, проект группы разработчиков), где данные могут быть разделены на каждого пользователя, однако это может быть реализовано поверх стэка ZFS.
  • Расширение объёма хранения обычно достигается путём добавления группы дисков, таких как vdev (stripe, RAID-Z, RAID-Z2 или зеркало). Новые данные будут динамически использовать все доступные vdev’ы. Ещё одной возможностью увеличения дискового места является поочерёдная замена физических дисков на более вместительные, с ожиданием, после каждой такой операции, пока ZFS сама себя вылечит. Время лечения зависит от объёма сохранённой информации, а не от размера диска. Если во время лечения будет создан снапшот — это перезапустит процесс лечения. Стоит отметить, что замена дисков без потери данных возможна только в одном из режимов работы пула, это позволяющих.
  • На текущий момент невозможно уменьшить количество vdev’ов, не уменьшив при этом размер пула. Однако команда разработчиков ZFS работает над этой проблемой. На момент выпуска Solaris 10 08/11 (обновление 10) это всё ещё не реализовано.
  • Также невозможно добавить новый диск в массив RAID-Z или RAID-Z2 (vdev’ы). Данная функция является тяжёлой для внедрения. Однако вы можете создать RAIDZ vdev и добавить его в zpool.
  • Нельзя смешивать типы vdev в zpool. Например, если у вас есть stripped ZFS пул, содержащий диски на SAN, вы не сможете добавить локальные диски как зеркалируемый vdev.
  • Полная реконфигурация хранения данных требует сохранения данных на внешние носители (вне ZFS), уничтожения пулов и создания новых пулов по новым правилам. Но в большинстве случаев можно обойтись пересылкой данных из старого пула в новый средствами ZFS с сохранением всех или желаемых данных и атрибутов (без сохранения вне ZFS). Пересылка не поможет в случае включения или отключения шифрования, смены ограничения на имена файлов, отключения мандатного контроля доступа, изменения размера блока дисков и других редких операциях.
  • ZFS не является изначально кластерной, распределённой или параллельной файловой системой и не предоставляет конкурирующего доступа к данным с различных хостов. ZFS — это локальная файловая система.
  • В реализации ZFS в Solaris 11 нельзя менять тип vdev в zpool. Например, если у вас есть ZFS пул, содержащий диски (блочные устройства), вы не сможете, скопировав содержимое дисков в обычные файлы, импортировать пул из этих файлов, и наоборот — перенести пул из обычных файлов на диски.
  • Удаление большого количества данных является медленной блокирующей операцией (в версии пула 37 и более ранних), например, удаление фрагментированной файловой системы размером в 100 ГиБ может занять более минуты и блокирует операции получения списка файловых систем и некоторых других действий с файловыми системами в том же пуле.
  • Нет возможности проконтролировать восстановление пула после восстановления доступа к разным копиям зеркалированного пула. Система сама решает как вылечить пул, даже если в разные копии пула независимо вносились изменения (это разрешается).
  • Сильно повреждённый пул не может быть вылечен и требует пересоздания. При этом, во многих случаях, пользовательские данные можно извлечь из повреждённого пула импортировав его для чтения.
  • Некоторые неизлечимые повреждения пула в системных данных не приводят ни к порче пользовательских данных, ни к блокировке изменения пула. При этих повреждениях пул внешне продолжает долгое время нормально функционировать и не предупреждает о необходимости его исправления. Но без исправления он в конце концов потеряет пользовательские данные и придёт в неисправимое или даже в нечитаемое состояние. Возможность обнаружения таких проблем и своевременного автоматического (по возможности) исправление не встроена в ZFS и требует отдельной настройки.

Платформы

ZFS является частью операционной системы Solaris и доступна для обеих платформ — SPARC и x86. Поскольку код ZFS является открытым (лицензия CDDL), порты для других операционных систем и платформ могут производиться без участия Oracle.

OpenSolaris

OpenSolaris 2008.05 использует ZFS как файловую систему по умолчанию.

Nexenta OS

Nexenta OS — это операционная система с GNU-окружением, построенная поверх ядра OpenSolaris и его среды выполнения, в версии alpha1 в ядро была включена поддержка ZFS. Несколько позднее Nexenta Systems представила NexentaStor — систему для сетевого хранения с поддержкой ZFS, предоставляющую возможности NAS/SAN/iSCSI и базирующуюся на Nexenta OS. NexentaStor включает в себя графический интерфейс, который упрощает процесс использования ZFS. 2 декабря 2008 года выпущена версия NexentaStor 1.1. В ней обновлено ядро OpenSolaris, улучшена интеграция с CIFS/AD а также добавлены несколько плагинов и исправлены некоторые ошибки. Имеется две редакции NexentaStor: коммерческая Enterprise Edition и бесплатная Community Edition с ограничением максимальной ёмкости хранилища в 18ТБ. По состоянию на август 2012 года, текущей версией ПО является 3.1.3.

Linux

Уровень ядра

Долгое время в Linux перенос ZFS на уровень ядра считался юридически невозможным из-за несовместимости лицензий CDDL, под юрисдикцией которой находится ZFS, и GNU GPL, под юрисдикцией которой находится Linux. Однако в мае 2010 года Брайан Белендорф представил новую версию проекта, в рамках которого ведётся работа по реализации встроенной поддержки файловой системы ZFS для Linux. Для обхода лицензионного ограничения Белендорф решил распространять свой продукт целиком под лицензией CDDL в виде отдельно загружаемого модуля, который поставляется отдельно от ядра. С марта 2013 года (версия 0.6.1) проект считается готовым к промышленному применению.

FUSE

Программа Google Summer of Code спонсирует адаптацию ZFS на Linux с использованием FUSE, в которой файловая система ZFS работает в пользовательском пространстве. Считается, что это решение теоретически чревато потерями производительности. Но пример с реализацией NTFS (NTFS-3G) через FUSE показывает хорошую производительность по сравнению с другими системами, что даёт основания прогнозировать приемлемую производительность ZFS-FUSE.

На конец 2012 года ZFS-FUSE представлена в виде версии 0.7.0, в которой включена практически полная поддержка ZFS и всех её функций — внедрена поддержка 23-й версии пула.

FreeBSD

Павел Давидек адаптировал ZFS для FreeBSD в виде модуля для ядра системы. ZFS включена в версию FreeBSD 7.0 (вышла 27 февраля 2008).

Код ZFSv28 протестирован в версии FreeBSD 9 и портирован в стабильную ветку разработки версии 8. Релизы FreeBSD 8.3, 8.4 и 9.0 поддерживают 28-ю версию пула ZFS. Релиз FreeBSD 9.2 и более поздние версии FreeBSD используют новые возможности «feature flags» базирующиеся на реализации Пула версии 5000.

Примечательно, что во FreeBSD, начиная с 8 версии, для работы ZFS, в отличие от Linux, не требуется наличия FUSE, и следовательно отсутствуют проблемы производительности с этим связанные. Подтверждением этому является то, что ZFS в FreeBSD включена в ядро и присутствует в системе сразу, в числе прочего позволяя осуществить загрузку операционной системы с томов ZFS. А модуль FUSE не входит в операционную систему, и может быть при желании установлен дополнительно из коллекции портов (что требуется например для поддержки NTFS).

Mac OS X

Apple предпринимала попытку перенести ZFS на систему Mac OS X, велась активная дискуссия в списках рассылки ZFS и предварительные снапшоты для следующей версии Apple Mac OS X. Несмотря на то, что Mac OS X 10.5 (9A321) поддерживает ZFS, в ней отсутствует возможность использовать ZFS на корневых разделах, а также нет возможности форматировать локальные диски под ZFS (последнее считается багом).

В июне 2009 года Apple на своей пресс-конференции WWDC’09 отказалась от ZFS в представленной версии Mac OS X 10.6 Snow Leopard, в документации и материалах сайта были убраны все упоминания о ZFS. Компания не раскрывает причины отказа от использования ZFS.

Хотя в сборке Mac OS X 10.6 Snow Leopard под номером 10A432, помеченной как Golden Master, поддержка ZFS была возвращена, в окончательном релизе Mac OS X 10.6 поддержка ZFS вновь убрана, уже окончательно.

В ответ на закрытие официальной поддержки ZFS появился свободный проект, который базируется на ранее созданной Apple кодовой базе, но отличающегося методом интеграции в систему. MacZFS выполняется не на уровне ядра, а на пользовательском уровне, работая с использованием MacFUSE, подготовлен бинарный пакет, собранный на основе опубликованных в git-репозитории исходных текстов, а также инструкция по настройке.

См. также

  1. "ZFS" материал из Википедии — свободной энциклопедии