Метаданные

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 17:58, 18 января 2019.

Метаданные - это данные, описывающие состояние первоначальных данных. Термин «метаданные» часто используется в контексте веб-страниц, где он описывает содержимое страницы для поисковой системы. Метаданные суммируют базовую информацию о данных, которая может облегчить поиск и работу с конкретными экземплярами данных. Например, автор, дата создания, дата изменения и размер файла являются примерами очень простых метаданных документа. Наличие способности фильтровать эти метаданные значительно облегчает поиск определенного документа.

Содержание

История и основная цель

До 1980-ых годов метаданные использовались в карточных каталогах библиотек. В 2000-х годах метаданные использовались для описания цифровых данных. Первое описание «метаданных» для компьютерных систем, как утверждается, было отмечено экспертами Центра международных исследований MIT Дэвидом Гриффелем и Стюартом Макинтошем в 1967 году. Для каждой отдельной дисциплины существуют разные стандарты метаданных. Например, веб-страница может включать в себя метаданные, указывающие, на каком языке программного обеспечения написана страница (например, HTML), какие инструменты использовались для ее создания, о каких предметах эта страница и где можно найти дополнительную информацию о предмете. Основная цель метаданных состоит в том, чтобы помочь пользователям находить соответствующую информацию и находить ресурсы. Метаданные также помогают организовывать электронные ресурсы, обеспечивать цифровую идентификацию и поддерживать архивирование и сохранение ресурсов[Источник 1].

Типы метаданных

Описательные метаданные

Цель - описание и идентификация информационных ресурсов:

  • на локальном (системном) уровне, чтобы включить поиск и извлечение (например, поиск в коллекции изображений, чтобы найти картины животных);
  • на веб-уровне позволяет пользователям находить ресурсы (например, искать в Интернете, чтобы найти оцифрованные сборники стихов).

Структурные метаданные

Цель - облегчение навигации и презентации электронных ресурсов:

  • предоставление информации о внутренней структуре ресурсов, включая страницу, раздел, нумерацию глав, индексы и оглавление;
  • описание отношения между материалами (например, фотография B была включена в рукопись A);
  • связывание связанных файлов и сценариев (например, Файл A - это формат JPEG файла B архивных изображений).

Административные метаданные

Цель - облегчение как краткосрочного, так и долгосрочного управления и обработки цифровых коллекций:

  • включение технических данных по созданию и контролю качества;
  • включение в себя управления правами, контроля доступа и требования к использованию;
  • информация о сохранении действий[Источник 2].

Использование метаданных

В дополнение к файлам документов метаданные используются для изображений, видео, электронных таблиц и веб-страниц. Использование метаданных на веб-страницах может быть очень важным. Метаданные для веб-страниц содержат описания содержимого страницы, а также ключевые слова, связанные с контентом. Они обычно выражаются в виде мета-тегов. Метаданные, содержащие описание и резюме веб-страницы, часто отображаются в результатах поиска поисковыми системами, что делает его точность и детали очень важными, поскольку он может определить, решит ли пользователь посетить сайт или нет. Мета-теги часто оценивались поисковыми системами, чтобы помочь решить релевантность веб-страницы, и использовались в качестве ключевого фактора в определении позиции в поиске до конца 1990-х годов. Увеличение поисковой оптимизации (SEO) в конце 1990-х годов привело к тому, что многие веб-сайты «наполняли ключевые слова» своими метаданными, чтобы обмануть поисковые системы, делая их сайты более релевантными, чем другие. С тех пор поисковые системы уменьшили свою зависимость от мета-тегов, хотя они все еще учитываются при индексировании страниц. Многие поисковые системы также пытаются остановить способность веб-страниц помешать их системе, регулярно изменяя критерии для ранжирования, поскольку Google печально известен тем, что часто меняет свои высокоразвитые алгоритмы ранжирования[Источник 3].

Способы создания метаданных

Метаданные могут создаваться вручную или путем автоматической обработки информации. Ручное создание имеет тенденцию быть более точным, позволяя пользователю вводить любую информацию, которую они считают релевантной или необходимой, чтобы помочь описать файл. Автоматическое создание метаданных может быть гораздо более элементарным, обычно только отображая информацию, такую как размер файла, расширение файла, когда файл был создан и кто создал файл.

Форматы метаданных

Традиционно библиотеки обменивались метаданными в форматах, специфичных для домена, таких как MARC (Machine Readable Cataloging) и предлагали ограниченным текстовым форматам загрузки конечным пользователям. В последнем случае была ограничена стандартизация, хотя некоторые библиотеки OPAC поддерживали личный библиографический инструмент управления цитированием, такой как EndNote. Совсем недавно библиотеки начали предлагать метаданные в менее проприетарных форматах (например, RDF), часто как часть инициатив открытых данных, направленных на то, чтобы сделать их метаданные более доступными для более широких пользовательских сообществ[Источник 4].

  1. Форматы MARC. Для кодирования их печатного и аудиовизуального материала большинство библиотек по-прежнему используют форматы MARC (MAchine Readable Cataloging), которые являются приложениями стандарта ISO 2709. Это очень старый формат, который возник в Библиотеке Конгресса США в 1960-х годах. В то время как большинство доступных библиотечных программ по-прежнему используют вариации формата MARC, все возрастает толчок к внедрению новых форматов на основе XML из-за их повышенной гибкости.
  2. Форматы UNIMARC. Первоначально UNIMARC был разработан как формат переключения, чтобы обеспечить более широкий обмен библиографическими данными. UNIMARC был разработан рядом стран, чтобы стать производственным форматом. Он также использовался ЮНЕСКО для его библиотечных продуктов, главным образом для оказания помощи развивающимся странам в переходе на автоматизированные системы управления библиотеками и стандартные форматы данных.
  3. MARC 21. MARC 21 является продуктом интеграции USMARC, UKMARC и CANMARC (Canadian MARC). Это самый широко используемый формат MARC в мире и стандарт де-факто. Он был разработан как формат производства, так и обменный формат.
  4. Национальные форматы MARC. Многие страны разработали национальные версии MARC, чтобы обеспечить местную практику. Для решения этой множественности форматов MARC ИФЛА способствовала разработке международного формата, посвященного обмену библиографическими данными между национальными библиотеками. Результатом стал UNIMARC. В последние годы наблюдается конвергенция форматов MARC 21 и UNIMARC многими странами с небольшим развитием новых форматов MARC.
  5. Форматы XML. Все языки разметки взяты из SGML (Стандартный обобщенный язык разметки), который использовался в 1980-х годах в профессиональных средах для технической и научной публикации. На основе одной и той же «грамматики» различные «форматы» связаны с профилями записи, называемыми описаниями типов документов (DTD). XML (Extensible Markup Language) широко используется во многих разных сообществах и обеспечивает большую функциональность, чем традиционные форматы MARC. Из-за своей гибкости и расширяемости он поддерживает выражение разных моделей данных.

Список стандартов метаданных

Схема доступа к данным биологических коллекций (ABCD)

Схема доступа к данным биологических коллекций (ABCD) является развивающимся всеобъемлющим стандартом для доступа и обмена данными об образцах и наблюдениях (например, первичные данные о биоразнообразии). Схема ABCD пытается быть всеобъемлющей и высоко структурированной, поддерживая данные из широкого спектра баз данных. Она совместима с несколькими существующими стандартами данных. Параллельные структуры существуют для того, чтобы можно было разместить (или оба) распыленные данные и произвольный текст.

Набор элементов сельскохозяйственных метаданных (AgMES)

AgMES - это семантический стандарт, разработанный Продовольственной и сельскохозяйственной организацией Объединенных Наций (FAO) Организации Объединенных Наций, который позволяет описывать, находить ресурсы, обеспечивать совместимость и обмениваться данными различных видов информационных ресурсов во всех областях, связанных с производством продуктов питания, питанием и развитием сельских районов.

Метаданные для визуализации астрономии (AVM)

Схема AVM поддерживает перекрестный поиск коллекций готовых к печати и готовых к просмотру астрономических изображений, полученных с помощью телескопических наблюдений (также известных как «красивые картинки»). Схема совместима со спецификацией Adobe XMP, поэтому метаданные могут быть встроены в распространенные форматы изображений, такие как JPEG, TIFF и PNG. Такие изображения могут объединять данные, полученные в разных диапазонах волн и из разных обсерваторий. Хотя основная цель заключается в том, чтобы охватить астрономические изображения, полученные из данных, также существует более широкое применение. В частности, наиболее общее подмножество этой схемы также подходит для описания художественных работ и иллюстраций астрономического объекта.

Общеевропейский исследовательский информационный формат (CERIF)

CERIF (общеевропейский формат информации об исследованиях) - это стандарт, который ЕС рекомендует своим государствам-членам для регистрации информации об исследовательской деятельности. Начиная с версии 1.6 в него включена специальная поддержка записи метаданных для наборов данных.

Соглашения о климате и прогнозировании метаданных (CF)

Стандарт CF изначально был сформулирован как стандарт для данных, записанных в формате netCDF, особенно с учетом данных, генерируемых моделью. Однако он в равной степени применим к наборам данных наблюдений и может использоваться для описания других форматов. Это стандарт «использования метаданных», который направлен как на различение величин (таких как физическое описание, единицы измерения и предварительная обработка), так и на размещение данных в пространстве-времени.

Кристаллографическая информационная структура (CIF)

Хорошо известная стандартная файловая структура для архивирования и распространения кристаллографической информации, CIF регулярно используется для передачи определений кристаллической структуры в Acta Crystallographica и другие журналы.

Общая информационная модель (CIM)

Общая информационная модель (CIM) описывает климатические данные, модели и программное обеспечение, из которого они получены, географические сетки, используемые для их расчета и проектирования, а также экспериментальные процессы (обычно имитационные), которые их породили.

Основная научная модель метаданных CSMD-CCLRC

Модель, ориентированная на исследования и данные, в первую очередь для поддержки программного обеспечения инфраструктуры управления данными ICAT. CSMD предназначен для поддержки данных, собранных в рамках научного процесса крупномасштабного объекта; тем не менее, модель также предназначена для общих научных дисциплин.

Ядро Дарвина

Свод стандартов, включая глоссарий терминов (в других контекстах их можно назвать свойствами, элементами, полями, столбцами, атрибутами или концепциями), предназначенных для облегчения обмена информацией о биологическом разнообразии путем предоставления справочных определений, примеров и комментариев.

Пакет данных (Data Package)

Спецификация Data Package - это общий формат оболочки для обмена данными. Хотя он поддерживает произвольные метаданные, формат определяет обязательные, рекомендуемые и необязательные поля как для пакета в целом, так и для ресурсов, содержащихся в нем. Отдельная, но связанная спецификация предоставляет способ описания столбцов таблицы данных; описания этой формы могут быть включены непосредственно в метаданные пакета данных[Источник 5].

Хранение метаданных

Хранение метаданных в цифровом файле

Как указывалось в предыдущем обсуждении хранимых в файле метаданных, в цифровом файле уже содержится определенное количество, обычно, технических метаданных. Современные форматы файлов (например, JPEG2000 и MPEG4) имеют расширенную поддержку хранения метаданных. И есть много программных приложений, которые можно использовать для просмотра, редактирования и экспорта этих метаданных. Часть этого может быть извлечена для использования вне цифрового ресурса. В дополнение к извлечению метаданных, можно встраивать некоторые метаданные в цифровой актив. При встраивании метаданных в файлы неподвижных изображений можно использовать хорошо поддерживаемый стандарт IPTC (изначально разработанный для того, чтобы фотожурналисты могли «связывать» свои изображения) или стандарт eXstensible Metadata Platform (XMP). Преимущество хранения метаданных в самом цифровом файле заключается в том, что они всегда остаются в файле, даже если они удалены из исходного контекста.

Хранение метаданных в базе данных

Большинство разработчиков цифровых коллекций используют базу данных для хранения своих метаданных. Обычно база данных хранит метаданные отдельно от самого файла и ссылается на него. Для хранения метаданных и управления ими существует множество программных продуктов, а также систем управления контентом и ресурсами. Система может быть такой же простой, как создание небольшой базы данных с полями для обязательных элементов описательной информации и размещения цифрового файла на внутреннем жестком диске. Такие простые системы допускают бесконечную настройку и, как правило, относительно просты в разработке. Но для коллекций, которые, возможно, требуют более сложного набора метаданных, может потребоваться система управления активами. Выделенные системы управления допускают более сложные операции и часто поддерживают, по крайней мере, некоторые стандартные схемы метаданных. Еще один момент, на который следует обратить внимание, заключается в том, что на выбор системы могут также влиять местные соображения, такие как имеющиеся навыки персонала и техническая инфраструктура учреждения[Источник 6].

Ключевые различия между данными и метаданными

Основными различиями между данными и метаданными являются следующие явления.

  1. Данные - это просто контент, который может быть описанием чего-то, чтением, измерениями, наблюдениями, отчетами. С другой стороны, метаданные описывают соответствующую информацию о данных.
  2. Некоторые данные являются информативными, некоторые из них могут быть не такими, как данные могут быть необработанными данными, такими как числа или символы, которые могут быть неинформативными. С другой стороны, метаданные всегда информативны, поскольку это ссылка на другие данные.
  3. Данные могут обрабатываться или не быть обработанными данными, поскольку необработанные данные всегда являются необработанными данными. Но метаданные рассматриваются как обработанные данные[Источник 7].

Источники

  1. История происхождения и основная цель метаданных // Википедия [2019]. Дата изменения: 12.01.2019. URL:https://en.wikipedia.org/wiki/Metadata#History (дата обращения: 17.01.2019).
  2. Типы метаданных // Cornell University Library/ Research Department [2000-2003]. URL: http://preservationtutorial.library.cornell.edu/metadata/table5-1.html (дата обращения: 17.01.2019).
  3. Metadata // TechTarget [1999-2019]. Дата изменения: 30.07.2014. URL: https://whatis.techtarget.com/definition/metadata (дата обращения: 17.01.2019).
  4. Formats of metadata // Project Working Group Meeting [2015-2018]. Дата изменения: 5.12.2017. URL: https://www.ifla.org/book/export/html/8817 (дата обращения: 17.01.2019)
  5. Список стандартов метаданных // Digital Curation Center [2004-2019]. URL: http://www.dcc.ac.uk/resources/metadata-standards/list (дата обращения: 17.01.2019).
  6. Хранение метаданных // Jisc [2016-2018]. URL: https://www.jisc.ac.uk/guides/metadata/storage (дата обращения: 18.01.2019)
  7. Различия между данными и метаданными // Tech Differences [2018]. Дата изменения: 16.11.2016. URL: https://techdifferences.com/difference-between-data-and-metadata.html (дата обращения: 17.01.2019)

Ссылки