Слабоструктурированные данные

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 12:09, 25 марта 2017.

Слабоструктурированные данные (полуструктурированные или плохо структурированные данные) — являются формой организации данных, при которой структура документа не может быть задана заранее, а БД, хранящая такие документы допускает недоопределенности в схеме описания, а также может изменяться в течении эксплуатации, эта форма данных содержит теги и другие маркеры для отделения семантических элементов и для обеспечения иерархической структуры записей и полей в наборе данных. Также слабоструктурированные данные часто выделяют как отдельный вид данных по основанию: степени структурированности. Слабоструктурированными данными являются данные, для которых определены некоторые правила и форматы, но лишь в общем виде. В отличие от неструктурированных, такие данные с меньшими усилиями преобразуются к структурированной форме, однако без процедуры преобразования они тоже непригодны для анализа. В слабоструктурированных данных, сущности, принадлежащие одному и тому же классу данных, могут иметь разные атрибуты.

Применение слабоструктурированных данных

Реализация идеи слабоструктурированной обработки и хранения данных имеются в бессхемных БД, относящихся к типу NoSQL систем. Их особенностью, является горизонтальное масштабирование хранилища данных и поддержка поиска по произвольным полям, а в некоторых БД имеется возможность составления произвольных запросов выборки данных. Наиболее простым способом реализации слабоструктурированного хранения данных является динамическое хранилище ключей и значений, например в БД Redis и Riak. Другим подходом к обеспечению возможности динамического изменения структуры БД является столбцовая реализация хранения данных (противоположно строковой в реляционных базах данных), при которой есть возможность определения разного количества столбцов для различных строк. По такому принципу устроены БД HBase, Cassandra, HyperTable.

Проблемы связанные с обработкой и хранением слабоструктурированных данных

  1. В системах управления слабоструктурированными данными остро стоит проблема осуществления поиска в больших наборах данных. При осуществлении поиска выполняется значительно число дисковых операций, т.к. для работы с любыми видами данных требуется извлечь их из постоянного хранилища, при этом, на сегодняшний день, дисковая подсистема является самым медленным элементом компьютера. Как следствие, рост количества дисковых операций неминуемо приводит к быстрому исчерпанию вычислительных ресурсов СУБД. Одним из возможных путей решения является использование Radix деревьев с модифицированной многослойной структурой для построения поискового индекса. Связи между слоями осуществляется посредством ссылок, через них так же происходит получение информации об искомом элементе, либо о блоке содержащем элемент. Подобное решение позволяет ускорить процесс работы с слабоструктурированными данными, чем компенсирует один из основных недостатков слабоструктурированных систем.
  2. Следующая проблема связана с непосредственной работой с данными, вследствии отсутствия жесткой структуры, отсутствия табличного представления и представления метаданных, их обработка является большой трудностью. Одной из популярных форм слабоструктурированных данных является HTML. Слабоструктурированные данные, главным образом в формате HTML, открывают новые горизонты глубинного анализа данных из Web.XML позволяет представлять как табличные, так и иерархические данные. Также XML оснащен встроенными метаданными и другими описательными объектами, такими как схемы и DTD (Document Type Definition). XML может представлять данные в виде как простых, так и сложных и замысловатых структур. Это делает XML-диалекты превосходными словарями для представления слабоструктурированных данных.XML устроен таким образом, что фактически вынуждает сервис или приложение структурировать данные. Поэтому механизмы глубинного анализа данных применяют к обрабатываемым данным семантики для определения полезной модели данных. Проектировщики данных, использующие XML-диалект в качестве формата данных, получают полный контроль над семантической моделью, определяющей данные. XML также предоставляет достаточное количество общих атрибутов для сервисов и приложений, что помогает реализовать общий доступ к данным из гетерогенных сред и языков программирования. Такой доступ позволяет программисту или пользователю сконцентрироваться на обработке и потреблении данных вместо разработки алгоритмов и программирования обработки и потребления.Представление слабоструктурированных данных в виде XML-документа требует наличия надежной системы глубинного анализа данных, приспособленной для потребления, управления и вывода XML-данных. Система анализа данных, отвечающая этим требованиям, позволяет работать с такими с данными общепринятыми способами.Слабоструктурированные данные, представленные в XML-формате, можно воспринимать как помеченный ориентированный граф, содержащий одну корневую вершину. Ребра, листья и другие узлы XML-графа могут быть помечены текстом. Также каждый узел в графе может быть идентифицирован при помощи уникального идентификатора.

Обусловленность работы со слабоструктурированными данными

Слабоструктурированные данные являясь наиболее доступным и часто встречаемым, в частности в XML и других языках разметки, email и сообщениях в форматах EDI, требуют создания систем управления способных работать с представленными данными, а также по возможности переводить их в тот или иной вид данных. Работа со слабоструктурированными данными осложняется тем, что даже при наличии некоторых маркеров в ее структуре, их обработка практически невозможна.

  1. Однако не всегда формат слабоструктурированных данных, способен, даже при корректировке попасть в разряд структурированных данных, ввиду особенной структуры самих данных и невозможности подставить их под конкретную схему.
  2. Слабоструктурированные данные также используются, в силу того что являют собой наиболее удобный формат для перехода в различные виды данных, в частности в обмене структурированными данными между разными БД, наиболее быстрый способ перехода, это работа с первоосновой - слабоструктурированными данными, где они выступают в роли информационного посредника.
  3. Также замечено что работа со слабоструктурированными данными, зачастую облегчается в виду облегченной навигации по ним, более доступного формата.
  4. Слабоструктурированные данные часто используются в объектно-ориентированных базах данных[1]., ввиду их не реляционной структуры. В силу особого интереса, в области баз данных к объектно-ориентированным базам данных и выработке под них объектно-ориентированных систем управления базами данных, слабоструктурированные данные представляют особой интерес, как сопутствующие приоритетному развитию в этой области.

Источники

  1. Semi-structured_data [Электронный ресурс] : Материал из Википедии — свободной энциклопедии: — Режим доступа: https://ru.wikipedia.org/wiki/Semi-structured_data

Ссылки

  1. http://www.science-education.ru/ru/article/view?id=11307
  2. http://elibrary.ru/item.asp?id=23574581
  3. http://www.ibm.com/developerworks/ru/library/x-xmldatamine/