Aster Data Systems

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 00:49, 24 февраля 2019.
Teradata Aster Analytics
Industry Publishing
Genre analytics
Founded San Carlos, California, United States (April 12, 2005 (2005-04-12))
Founder George Candea
Headquarters San Carlos, United States
Area served
North America
Key people
George Candea(CEO)
Products nCluster
Services database analytics
Website www.teradata.com/Teradata-Aster/overview

Aster Data Systems была компанией программного обеспечения для управления данными и анализа, штаб-квартира которой находилась в Сан-Карлосе, штат Калифорния. Компания была основана в 2005 году и приобретена Teradata Corporation[1]в 2011 году.

История

Компания Aster Data Systems была основана тремя коллегами в аспирантуре. Генеральный директор Mayank Bawa сосредоточился на разработке алгоритмов для запросов к большим распределенным системам данных; Тассо Аргирос, технический директор и вице-президент по инженерным разработкам, исследовал проблемы сети и программного обеспечения, связанные с проектированием и внедрением крупномасштабных кластеров данных; Джордж Кандеа, главный научный сотрудник, сосредоточенный на технологиях высокой доступности для крупномасштабных компьютерных систем. Компания Aster Data Systems разработала nCluster для предоставления высокопроизводительной базы данных, работающей на стандартных серверах x86, которые могут масштабироваться до нескольких петабайт данных с минимальными затратами. Как и другие хранилища MPP нового поколения, Aster полагается на репликацию данных на 2 или более кластерных серверах для обеспечения отказоустойчивости. Несколько более уникальным является то, что продукт может выполнять множество административных задач, таких как балансировка кластеров без отключения базы данных. [Источник 1].

Продукты и услуги

Aster Data System предлагает приложение для аналитики: nCluster - программный продукт, который используется в качестве системы управления базами данных с параллельной обработкой. В октябре 2012 года Aster анонсировала вторую версию своего устройства. В дополнение к программному обеспечению базы данных Aster было доступно еще одно устройство с узлами, на которых запущен дистрибутив Hortonworks Apache Hadoop.

В октябре 2013 года была объявлена 6-я версия программного обеспечения базы данных Aster. Эта версия поддерживает технологию использования графов в базах данных и файловую систему, которая, по словам компании, совместима с распределенной файловой системой Hadoop.

В июне 2014 года Teradata анонсировала продукт с использованием языка программирования R. В феврале 2015 года Teradata анонсировала «AppCenter» с использованием технологии Aster. В октябре 2015 года Teradata анонсировала набор аналитических методов и приложений для работы на Apache Hadoop, предназначенных для работы в Интернете.

Информация о nCluster

nCluster – это параллельная СУБД без совместного использования ресурсов, оптимизированная для поддержки хранилищ данных и анализа данных. nCluster работает на кластере серверов массового сектора рынка. Система разработана в расчете на масштабирование до сотен узлов и может поддерживать сотни терабайт активных данных.

Обработка запросов управляется одним или несколькими "мастер" узлами. Эти узлы анализируют запросы клиентов и распределяют их частичную обработку между рабочими узлами. Каждое отношение в системе баз данных nCluster разделяется между рабочими узлами для обеспечения возможности параллелизма.

Кроме обработки запросов к базе данных, возможность автоматической управляемости в nCluster позволяет добавлять новые машины и менять структуру данных с помощью операций, вызываемых одним нажатием на клавишу мыши, и система автоматически восстанавливается после сбоев, повторяет выполнение запросов и восстанавливает требуемый уровень репликации данных при отказах узлов. Эти характеристики важны при использовании крупных кластеров, в которых регулярно происходят сбои разного вида.

Основной набор инструментов базы данных nCluster:

  • Визуальная аналитика
  • FluidShell
  • Инструмент запросов и анализа
  • Сетка и сводные диаграммы
  • Редактор табличных данных
  • Инструменты импорта и экспорта
  • Моделирование отношений объектов
  • Визуальный конструктор запросов

Таким образом, nCluster подходит для решения множества задач. [Источник 2].

Планирование запросов

Для реализации инфраструктуры SQL/MR в nCluster потребуется определить взаимодействия SQL/MR-функции с подсистемами планирования и выполнения запросов реляционной СУБД. SQL/MR-функции являются динамически полиморфными в том смысле, что их входная и результирующая схемы зависят от контекста вызова. Пользователь определяет входную и результирующую схемы в течение фаз планирования запроса – эта задача возложена на планировщик запросов в "мастер" узле.

Планировщик запросов получает дерево грамматического разбора запроса. Он устанавливает входную и результирующую схемы вызовов SQL/MR-функций при обходе этого дерева снизу-вверх. Если при этом обходе встречается вызов некоторой SQL/MR-функции, планировщик использует уже известную схему входного отношения – вместе с разобранными разделами аргументов, заданными при вызове этой функции, – для инициализации функции путем вызова ее подпрограммы инициализации. Подпрограмма инициализации должна определиться со столбцами результирующей таблицы, которая будет произведена основной подпрограммой функции во время выполнения запроса.Например: в Java API подпрограмме инициализации соответствует конструктор класса, реализующего интерфейс функции над строками или разделами, а основной подпрограммой является метод, определяемый этим интерфейсом.

Выполнение запросов

SQL/MR-функции выполняются параллельно во всех узлах nCluster, и это выполнение также распределяется в нескольких потоках управления в каждом узле. Поскольку модель программирования, основанная на подходе MapReduce, не зависит от степени параллелизма, система может контролировать уровень параллелизма прозрачным образом, исходя из возможности использования доступных аппаратных ресурсов. В среде SQL/MR при вызове функции образуются ее экземпляры, по одному на каждый доступный поток управления. Входные строки распределяются между этими потоками управления, а результирующие строки собираются от всех задействованных потоков.

Параллельная загрузка и трансформация

SQL/MR-функции можно также использовать для чтения и преобразования данных из внешних источников. Пусть есть сценарий, в котором сотни торговых площадок посылают в основной офис файлы с разделенными запятыми данными о дневном обороте, и эти данные требуется загрузить в nCluster. Распространенное решение состоит в том, что для загрузки данных используется некоторый внешний процесс. В nCluster можно выполнить преобразования данных внутри кластера, используя SQL/MR-функцию, которая принимает на входе набор URL, идентифицирующих внешние файлы, подлежащие загрузке, и раздел аргументов с определениями ожидаемой входной схемы и желательной результирующей схемы.[Источник 3].

Заключение

В настоящее время в результате некоторых экономических трудностей компания приостановила разработку программного обеспечения.

Примечания

Источники

  1. Википедия - свободная энциклопедия // Wiki [2017—2017]. Дата обновления: 15.06.2015. URL: https://en.wikipedia.org/wiki/Aster_Data_Systems(дата обращения: 30.01.2019)
  2. Словари и энциклопедии на Академике // Aster Data Systems [2017—2019]. Дата обновления: 19.03.2016. URL: https://en.academic.ru/dic.nsf/enwiki/10889544 (дата обращения: 30.01.2019)
  3. About nCluster // Teradata [2017—2019]. Дата обновления: 22.09.2016. URL: sql.fliplinux.com/teradata-aster-ncluster_export.html (дата обращения: 30.01.2019)