Clusterpoint database

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 13:32, 17 февраля 2019.
Clusterpoint Database
Clusterpoint logo.png
Разработчики: Clusterpoint Ltd.
Выпущена: 2006; 13 years ago (2006)
Постоянный выпуск: 4.0 / 8 October 2015 года; 4 years ago (2015-10-08)
Написана на: C и C++
Операционная система: Windows, Linux, macOS, FreeBSD
Локализация: Английский
Тип ПО: Распределенная база данных
Лицензия: Проприетарное
Веб-сайт clusterpoint.com

Clusterpoint - это документоориентированная технология для распределенной обработки данных XML и JSON на больших кластерах. Архитектура высокой доступности базы данных объединяет безопасные OLTP-транзакции, быстрый полнотекстовый поиск и аналитику больших данных в реальном времени.[Источник 1]

Первая версия базы данных Clusterpoint была выпущена в 2006 году. Самая последняя версия Clusterpoint 4 включает вычислительный движок JavaScript и JS / SQL язык запросов, которая была выпущена в октябре 2015 года.[Источник 2]

Обзор

Clusterpoint Cloud - это решение для работы с базой данных, которое сочетает в себе вычислительную мощь технологии баз данных Clusterpoint с собственной облачной инфраструктурой для хранения базы данных. В отличие от других баз данных NoSQL разработчик не нуждается в поиске внешнего поставщика хранилища баз данных, поскольку Clusterpoint предлагает собственное облачное хранилище. Облачное хранилище данных (англ. cloud storage) — модель онлайн-хранилища, в котором данные хранятся на многочисленных распределённых в сети серверах, предоставляемых в пользование клиентам, в основном, третьей стороной. В отличие от модели хранения данных на собственных выделенных серверах, приобретаемых или арендуемых специально для подобных целей, количество или какая-либо внутренняя структура серверов клиенту в общем случае не видна. Данные хранятся и обрабатываются в так называемом «облаке», которое представляет собой, с точки зрения клиента, один большой виртуальный сервер. Физически же такие серверы могут располагаться удалённо друг от друга географически. Поэтому с точки зрения разработчика Clusterpoint Cloud предлагает 2-в-1 - вычислительные ресурсы и решение для хранения. Clusterpoint Cloud обеспечивает масштабируемость, экономическую эффективность (модель с оплатой за использование) и высокую производительность.

Clusterpoint была создана в 2006 году. На протяжении большей части своей истории Clusterpoint обслуживал бизнес-клиентов как базу данных Enterprise NoSQL. С января 2015 года Clusterpoint предлагает использовать базу данных как услугу (DBaaS).

«База данных кластеров» исключает усилия по интеграции клиентов между платформами базы данных, поиска и аналитики. База данных кластеров заменяет интегрированные многоплатформенные решения одноплатформенным и одно - API решением.

Варианты использования

База данных Clusterpoint обеспечивает управление бизнес-информацией в режиме реального времени в электронном формате XML или JSON. Он может использоваться как высокопроизводительная операционная база данных для веб-и мобильных баз данных, требующая масштабируемости, высокой скорости и безопасности. Программное обеспечение позволяет безопасно обрабатывать финансовые, биллинговые, медицинские, туристические, информационные услуги, электронную торговлю, государственные и муниципальные открытые данные и другие данные, хранящиеся в формате электронных документов, который использует стандартную разметку XML и JSON.

Общие случаи использования базы данных также могут быть применимыми для гибкой XML-модели данных документов XML или JSON: обработка смешанных данных, включая структурированные данные, неструктурированные данные (текстовые), полуструктурированные данные и другие, такие как изображения, голоса, видеофайлы. Программное обеспечение может использоваться для вычисления задач, требующих обслуживания обработки данных с задержкой в ​​течение нескольких миллисекунд в распределенных базах данных, например, для передачи данных с высокой скоростью интерактивным визуализаторам NoSQL, аналитике большой информации в Интернете и безопасной отчетности в больших базах данных.

Программируемое ранжирование базы данных для релевантности поиска в больших данных

Другим отличием является программируемый индекс ранжирования, который можно гибко настроить с помощью правил релевантности, назначенных в файле конфигурации политики документов. Это небольшой файл конфигурации XML, сопровождающий каждую базу данных Clusterpoint. Поведение базы данных можно быстро изменить путем настройки правил ранжирования индекса или изменения кода программного обеспечения. Возрастающее значение ранжирования происходит непосредственно из-за резкого увеличения объема данных, обрабатываемых текущими приложениями. Кроме того, огромное количество данных делает практически невозможным обработку запросов в традиционном подходе к вычислению, а затем сортировке. Код прикладного программного обеспечения клиента можно упростить, делегируя большинство индексирующих и поисковых данных сортировки, включая алгоритмы ранжирования, в атрибуты конфигурации политики документа в базе данных Clusterpoint. Политика документа, когда она настроена для конкретного веб-приложения или мобильного приложения, определяет конкретную организацию индекса рейтинга на физическом уровне хранения путем предварительной обработки фактических данных индекса для пользовательских алгоритмов релевантности. Разработчики могут избежать большинства сложного программирования SQL для сортировки и группировки данных в своем коде прикладного программного обеспечения, в то время как аппаратное обеспечение базы данных может быть освобождено от чрезмерной сортировки больших данных по каждому запросу. Вместо этого индекс ранжирования базы данных Clusterpoint обеспечивает быструю сортировку по поиску и релевантности, без ухудшения производительности, характерного для реляционных баз данных SQL.

Метод индекса рейтинга, применяемый к модели базы данных документа, позволяет Clusterpoint превосходить базы данных SQL при поиске на несколько порядков. Он решает проблему информационной перегрузки и задержки для интерактивных веб-приложений и мобильных приложений, обрабатывающих большие данные. Сегодня экраны мобильных устройств ограниченного размера и ограничения пропускной способности сети не позволяют пользователям запрашивать и обрабатывать большие объемы данных для каждого запроса. Поиск и запрос в базу данных должны быть интерактивными и транзакционными для удовлетворения потребностей пользователей Интернета. Для этой вычислительной модели был разработан индекс ранжирования кластеров. Он сначала извлекает релевантные данные и возвращает информацию по страницам, уменьшая релевантность. Например, при использовании только текстового поиска задержка в больших базах данных, содержащих миллиарды документов, будет равна миллисекундам, а ранжирование релевантности не позволит подавляющему конечному пользователю получить слишком малое качество результатов поиска. Это также важный элемент дизайна для архитектуры распределенной базы данных документов: он делает свой индекс масштабируемым, так что его можно безопасно распределять между большим кластером серверов без существенной потери производительности при вводе данных, свободном текстовом поиске и доступе.

Развертывание баз данных Clusterpoint

База данных кластеров используется в производственных развертываниях корпоративных клиентов, работающих с 24/7 веб-сервисами и мобильными службами с 2006 года. В настоящее время Vendor создает партнерские отношения, которые предоставляют решения в различных отраслях промышленности, таких как:

Управление, управление рисками и соответствие нормативным требованиям:

  • Agile Web Software Development
  • Интерактивная бизнес-аналитика в NoSQL и больших данных
  • Облачные вычислительные службы

На веб-сайте доступно публичное демонстрационное решение, основанное на базе данных Clusterpoint, иллюстрирующее, как данные типа документа всего массива данных Википедии могут быть эффективно управляемы на единой платформе консолидированной базы данных.

Конкуренты

Технология кластерной базы данных позиционируется отраслевыми экспертами среди других новых технологий обработки данных NoSQL и BigData, имеющих распределенную архитектуру управления данными.

Компоненты платформы

Исходный код базы данных базы данных Clusterpoint разрабатывается на языках программирования C и C++ и поддерживает многопоточные, многоядерные процессоры и распределенные вычисления. Первичным способом доступа разработчика к возможностям платформы является REST API. Программное обеспечение базы данных кластеров управляется через большой кластер товарного оборудования с помощью приложения Clusterpoint Console. Консоль обеспечивает централизованное администрирование и управление всеми базами данных клиентов через единый веб-интерфейс. Чтобы получить доступ к Clusterpoint Console или загрузить его по программному обеспечению базы данных Clusterpoint для использования на месте, клиенты должны зарегистрироваться для учетной записи кластера Cloud Cloud Cloud на веб-сайте поставщика. Регистрация бесплатна, не требуется кредитная карта.

Архитектура

Кластерная база данных имеет многомастную shared-nothing, распределенную, документоориентированную архитектуру, хранящую типы данных XML и JSON.

Она работает как транзакционная высокоскоростная OLTP база данных для объектов данных XML и JSON. Новый контент может быть добавлен, обновлен и удален в режиме реального времени, с измененной индексацией данных в реальном времени, включая текст, дату, числовые, геопространственные данные. Данные индекса сразу могут быть прочитаны для поиска и аналитики после того, как каждый документ был вставлен, обновлен или удален, а транзакции, совместимые с ACID, обеспечивают безопасность и согласованность. API базы данных также поддерживает хранение и обработку двоичных данных как часть объектной модели документа.

Она поддерживает одноуровневую отказоустойчивую аппаратную настройку инфраструктуры с возможностью репликации нескольких данных для всего кластера распределенной базы данных.

Общие функции

  • Управление данными осуществляется в открытом, кросс-платформенном, стандартном формате XML или JSON с использованием открытого API, например API Python [Источник 3][Источник 4] или JavaScript Node.js API [Источник 5]
  • База данных, агностическая и богатая типами данных, обрабатывает переменную структуру данных XML или документы JSON в одной базе данных. Поддерживает неструктурированные текстовые данные, даты, числа, метаданные (все типы XML и JSON)
  • Кросс-платформенная поддержка: бинарные файлы доступны для Linux, FreeBSD, Mac OS X and Windows. Программное обеспечение базы данных Clusterpoint может быть скомпилировано в других операционных системах.
  • Архитектура программного обеспечения кластера с несколькими мастерами: нет единой точки отказа, любой узел кластера может служить в качестве мастера и запускать приложение управления
  • Горизонтальная масштабируемость базы данных: масштабируется от одного сервера до нескольких тысяч серверов, подключенных к сети кластера[Источник 6]

Функции поиска / запроса

Встроенная функция расширенного полнотекстового поиска, с быстрым и свободным использованием ключевых слов и фраз, результирующий фрагмент, выделение, поиск по близости и другие варианты полнотекстового поиска Запрос с терминами (termning), подстановочными символами и шаблонами позиционирования символов, для флексированных слов и множественных форм слов, предоставляющих автоматическое объединение слияния SQL-подобные XML-структурированные (заданные) запросы, такие как операторы SQL SELECT ... WHERE ...

  • Объединение агрегатов в масштабе всего кластера с MIN (), MAX (), COUNT (), AVG (), как операторы в SQL SELECT ... GROUP BY ..., ORDER BY ... statements
  • Язык запросов JS / SQL, чем сочетает в себе хорошо знакомое знание языка SQL с вездесущим кодом JavaScript и навыками веб-программирования
  • Сортировка результатов в алфавитном или цифровом порядке, дате или в соответствии с актуальностью результата
  • Автозаполнение (мгновенный поиск по типу) с использованием фактических данных индекса
  • Проверка орфографии условий запроса с альтернативными предложениями орфографии для «Вы имели в виду, что?» функциональности
  • Увеличение количества поисковых запросов во время запроса, чтобы увеличить, уменьшить или переписать через веса релевантности API или правила сортировки, встроенные в индекс ранжирования
  • Динамическая классификация данных для каждого запроса с помощью многоуровневых определяемых пользователем граней с точным подсчетом попадания (примеры: категории, темы, каталоги продуктов, географические местоположения и т. Д.).
  • Поиск аналогичного контента в текстовой аналитике по всей базе данных
  • Оценка релевантности структуры данных XML или JSON по весу тегов и ранжированию релевантности документов по рейтингу документа
  • Оценка текстовой релевантности для соответствия условий поискового запроса контексту, с учетом частоты и плотности условий естественного языка
  • Предиктивный расчет ожидаемого количества результатов на основе фактической статистики индекса в базах данных большого размера для оптимизации производительности

Функции управления / производства

  • Гранулированное разделение безопасности: пользователи API и их права доступа основаны на группах и разрешениях, назначенных для определенных баз данных и API-команд
  • Протоколирование транзакций, журналы повтора, журналы доступа, журналы ошибок и журналы аудита включены по умолчанию
  • Управление версиями документов включено по умолчанию (сохранение предыдущих версий документа на определенный период времени)
  • Повторное обследование в фоновом режиме с автоматическим переключением обеспечивает доступность во время переиндексации
  • Онлайн, автономное и инкрементное резервное копирование базы данных
  • Автоматическая или ручная синхронизация реплик базы данных
  • Несколько учетных записей администратора для безопасного многоуровневого использования различных клиентских баз данных на одном и том же оборудовании
  • Централизованное администрирование баз данных на базе графического интерфейса консоли, включая конфигурацию кластеризованных и реплицированных баз данных по одному узлу во всех узлах

Администрирование базы данных

База данных кластеров может управляться централизованно через приложение Clusterpoint Console. Это панель управления веб-GUI, которая позволяет управлять всеми службами баз данных по всему предприятию, включая администрирование базы данных кластеров, настройку политики индексирования и ранжирования, безопасное управление учетными записями пользователей, просмотр аудита и файла журнала, резервное копирование / восстановление базы данных, разбиение базы данных и репликацию.

Каждая база данных клиентов запускается и останавливается в качестве изолированного процесса сервера базы данных для управляемого управления ресурсами ЦП, ОЗУ и дискового хранилища. Все базы данных используют единую сетевую инфраструктуру вычислений и хранения.

Clusterpoint Console используется для управления базовым оборудованием (узлами кластера) для совместного использования вычислительных ресурсов между различными базами данных.

Процессы и архитектура хранения

Процессы базы данных кластеров безопасно изолированы, каждый процесс работает только в своем собственном адресном пространстве ОЗУ. Он может получить доступ только к своей локальной папке хранилища файловой системы с тем же именем, содержащим конкретные базы данных XML или документы JSON, индекс, конфигурацию и файлы журналов, хранящиеся на этом узле локального кластера (осколок). Эта архитектура обеспечивает гибкие возможности масштабирования по горизонтали и общий контроль за потреблением ресурсов для конкретной базы данных клиентов. Он также предотвращает несанкционированный доступ к базам данных с несколькими арендаторами, используя ту же инфраструктуру вычислительного оборудования, с возможностью полного шифрования конфиденциальных данных.

Мульти-аренда и виртуализация

Clusterpoint поддерживает безопасные службы баз данных с несколькими арендаторами. Программная платформа заботится о безопасном разбиении среды выполнения во всех узлах кластерных ЦП, всех операциях ОЗУ и всех ресурсах хранения в более крупном кластере, одновременно работая с базами данных на одном и том же аппаратном оборудовании. Этот метод обеспечивает наилучшее использование современного оборудования, размещенного в больших распределенных кластерах.

Использование надежного многопользовательского режима - это предпочтительный метод высокопроизводительных вычислений баз данных. Виртуализация на уровне операционной системы может снизить доступную пропускную способность сети и вычислительный ресурс, создав также неожиданные узкие места на уровне ввода-вывода, что может привести к увеличению задержки приложений. Виртуализация базы данных может быть наилучшим образом использована для прототипирования и разработки, где гарантии эксплуатационной эффективности и низкая латентность не являются первоочередной задачей.

База данных как служба (DBaaS) - это безопасная платформа с несколькими арендаторами, с изолированными данными для каждой учетной записи клиента и защитой доступа с шифрованием. Программное обеспечение Clusterpoint не нуждается в виртуализации для безопасной и эффективной многопользовательской аренды.

Репликация базы данных с несколькими копиями

Автоматическая репликация нескольких копий для всей базы данных встроена в программное обеспечение базы данных Clusterpoint. Это активная репликация с распределением рабочей нагрузки внутри кластера. Clusterpoint поддерживает высокопроизводительные OLTP-транзакции, совместимые с ACID, в основном кластере в одном центре обработки данных, обеспечивая при этом отказоустойчивость к большему количеству центров обработки данных, в которых выполняются кластеры реплик базы данных. Сбой занимает всего несколько секунд, если латентность связи между центрами обработки данных незначительна.

Репликация базы данных в архитектуре Clusterpoint используется для автоматической балансировки нагрузки запросов поиска базы данных через API Clusterpoint. В мультидатецентре использование пропускной способности сети между местоположениями может стать критической проблемой для архитектуры Clusterpoint из-за увеличения задержки для обновлений баз данных и задержек синхронизации между репликами, в частности, если используется шифрованная сеть VPN. Для высокопроизводительной репликации базы данных между географически разнесенными центрами данных может потребоваться пропускная способность большой емкости.

Источники

  1. Startup - Clusterpoint // Labs of Latvia. [2018]. Дата обновления: 03.07.2018. URL: http://www.labsoflatvia.com/startups/clusterpoint (дата обращения: 17.02.2019).
  2. Описание Clusterpoint Database // Getalternative. [2018]. Дата обновления: 10.11.2015. URL: http://getalternative.net/software/clusterpoint-database/category/documentoriented-databases (дата обращения: 17.02.2019).
  3. Clusterpoint API on Github // Официальный сайт Github. [2018]. Дата обновления: 17.06.2016. URL: https://github.com/clusterpoint/pycps (дата обращения: 17.02.2019).
  4. Python API for Clusterpoint Server // Официальный сайт Pypi. [2018]. Дата обновления: 03.06.2015. URL: https://pypi.python.org/pypi/clusterpoint-api (дата обращения: 17.02.2019).
  5. Clusterpoint Node.js API // Официальный сайт npm. [2018]. Дата обновления: 22.11.2016. URL: https://www.npmjs.com/package/cps-api (дата обращения: 17.02.2019).
  6. Clusterpoint // Wikipedia. [2018]. Дата обновления: 01.01.2019. URL: https://en.wikipedia.org/wiki/Clusterpoint (дата обращения: 17.02.2019).