Teradata Vantage

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 11:10, 1 марта 2019.
Teradata Vantage
Teradata.png
Создатели: Teradata Corporation
Разработчики: Teradata Corporation
Выпущена: 2018
Постоянный выпуск: 1.0 / January 2019; 2 years ago (2019-01)
Лицензия: Проприетарное программное обеспечение
Веб-сайт www.teradata.ru/Products/Software/Vantage


Teradata Vantage − платформа всеобъемющей аналитики данных [Источник 1]

Обзор

Платформа предназначена для решения проблем бизнеса с помощью интеграции аналитических функций и инструментов. Предоставляет широкий выбор средств описательной, прогнозирующей и предписывающей аналитики, возможность автономного принятия решений, функции машинного обучения, инструменты визуализации и многое другое. Teradata Vantage может развертываться в публичной облачной среде, локально, в гибридной или общей инфраструктуре «как услуга». [Источник 2]

Ключевые возможности

Инкапсуляция

Решение собирает в единое целое различные современные аналитические функции, включая недавно представленную 4D Аналитику Teradata, и движки. С помощью Vantage можно извлекать надежные и полезные инсайты из источников данных в рамках существующей экосистемы. Также предоставляется оперативный доступ к таким функциям, как математические вычисления и статистика, преобразование данных, построение путей, паттернов, визуализация, ассоциации, кластеры, дерево принятия решений и текстовые данные.

Масштабируемость

Осуществляется олная поддержка параллельной работы, доступность критически важных компонентов, высокая производительность обработки сложных запросов, поддержка разнообразных типов, форматов и хранилищ данных.

Интеграция инструментов

Решение осуществляет интеграцию c популярными языками программирования, включая SQL, R и Python, а также рабочими средами Jupyter, RStudio, Teradata Studio, Teradata AppCenter и SAS. Это позволяет пользователям работать с теми инструментами и в тех средах, которые они знают лучше всего.

Программные компоненты

С общей схемой компонентов можно ознакомиться на рисунке 1.

Рисунок 1 - Компоненты Teradata Vantage

Можно выделить инструменты аналитики (analytic tools), языки аналитики (analytic languages), движки аналитики (analytic engines) и хранилище данных (data storage). Описание компонентов представлено ниже.

Аналитические движки

Движок Teradata SQL

Teradata SQL Engine позволяет реализовывать сложную бизнес-статистику, аналитику и аналитические алгоритмы при помощи широко используемого языка SQL.

В основе Teradata SQL Engine лежит база данных с поддержкой параллелизма Teradata Database. Запатентованная архитектура вычислений с массовым параллелизмом (Massively parallel processing, сокр. MPP) позволяет разделять и распределять сложные аналитические рабочие нагрузки между несколькими параллельными процессами, которые выполняются максимально эффективно. Это создает фундамент для линейной масштабируемости системы бизнес-аналитики Teradata, т.е. позволяет легко расширять свою систему для решения поставленных задач.

Движок машинного обучения

С помощью движка машинного обучения аналитики данных могут создавать мощные и максимально подходящие функции машинного обучения. Teradata предоставляет более 180 готовых инструментов бизнес-аналитики для преобразования, подготовки, анализа и визуализации мультиструктурных данных. Это актуально для многих практических бизнес-сценариев, включая удержание клиентов, организацию клиентского обслуживания, маркетинговую атрибуцию, определение близости продуктов, борьбу с мошенничеством, оптимизацию маркетинговой деятельности и многое другое.

Графоаналитический движок

Vantage предоставляет встроенный графоаналитический движок, который позволяет анализировать графы, идентифицируя и измеряя отношения между людьми, продуктами и процессами. Также предоставляет заранее сконфигурированные графовые аналитические функции для решения сложных проблем бизнеса, включая анализ социальных сетей и лидеров мнений, обнаружение мошенничества, сетевой анализ, обнаружение угроз и отмывание денег и для работы с поставщиками.

Инструменты и языки

Vantage поддерживает языки R, Python, среды Teradata Studio, Jupyter, RStudio и любые инструменты на базе SQL. Эта платформа формирует удобную систему бизнес-аналитики для работы пользователей, поскольку поддерживает предпочитаемые ими аналитические инструменты и языки и удовлетворяет потребности более широкой группы пользователей (от аналитиков данных и инженеров до бизнес-пользователей), сокращая продолжительность обучения участников аналитического сообщества.

Разработчиками предоставляется набор API и коннекторов, который обеспечивает возможность подключения языков и инструментов к Vantage. Поддержка каждого из этих инструментов обеспечивается подключаемыми модулями и расширениями.

Хранилище данных

Vantage осуществляет доступ к хранилищу консолидированных данных, обеспечивающих единое представление бизнеса. Это позволяет оценить ситуацию в общем контексте, ускоряя принятие важных решений.

Использует в качестве хранилища базу данных Teradata Database. Это позволяет сохранять реляционные таблицы со строчной, столбчатой и гибридной физической структурой, обеспечивает гибкость стратегии хранения данных. Независимо от ориентации система автоматически равномерно распределяет данные среди серверов, обеспечивая быстрый доступ к данным. Кроме того, это позволяет удобно хранить мультиструктурированные данные (JSON, BSON, XML, CSV и AVRO) и обеспечивает поддержку продвинутых форматов данных, включая геопространственные, временные данные и временные ряды.

Поток выполнения Teradata Vantage

Рассмотрим пример из документации[Источник 3]:

SELECT * FROM kMeans (
ON (SELECT * FROM kmeanssample) as InputTable
OUTPUT TABLE outputTable (‘kmeanssample_output’)
...

На рисунке 2 представлен поток выполнения в Teradate Vantage для примера выше. Ниже приведены пояснения по каждой стадии.

Рисунок 2 - Поток выполнения данных в Teradata Vantage

1. Стадия контракта: Teradata SQL Engine получает запрос SQL.

В SQL Engine механизм синтаксического анализа (Parsing Engine, сокр. PE) выполняет синтаксический анализ SQL и отправляет отправку сообщения с метаданными через матрицу QueryGrid анализатору планировщика в ML Engine для обнаружения метаданных для выполнения функции.

В сообщении с метаданными, помимо основной информации об имени функции, версии функции, типе функции и описании функций и т.д., содержатся параметры, определяющие таблицы ввода и вывода и столбцы ввода. В зависимости от функции, сообщение метаданных может содержать различные параметры.

В ML Engine анализатор планировщика создает входную таблицу на основе параметров метаданных, в частности типов данных столбца, и выполняет для них функцию с конкретными параметрами, заданными пользователем. Сгенерированная выходная таблица с конкретными типами данных затем используется для установки выходной таблицы в SQL Engine.

Затем обработчики модуля доступа (Access Module Processors, сокр. AMP) в SQL Engine устанавливают соединения с рабочими в ML Engine через фабрику QueryGrid, подготавливая экспорт данных для анализа.

2. Стадия выполнения: Teradata SQL Engine экспортирует таблицу в Teradata ML Engine для обработки.

Когда SQL Engine получает метаданные выполнения функции от ML Engine, коннектор QueryGrid выполняет сопоставление и преобразование типов данных и инициирует экспорт таблицы kmeanssample из AMP через матрицу QueryGrid для рабочих в ML Engine.

ML Engine временно сохраняет данные для выполнения функции.

3. Стадия выполнения: Teradata ML Engine выполняет функцию KMeans SQL-MapReduce.

4. Стадия выполнения: Teradata SQL Engine импортирует таблицу результатов из Teradata ML Engine.

По завершении выполнения функции SQL Engine извлекает таблицу результатов из ML Engine через фабрику QueryGrid.

Если дополнительные таблицы создаются как часть результатов выполнения, ML Engine уведомляет SQL Engine и экспортирует дополнительные таблицы через отдельные сеансы SQL Engine.

Мониторинг и управление

Более подробную информацию можно получить в документации от разработчика[Источник 4].

Инструменты управления системой

Teradata SQL Engine предоставляет различные компоненты для администрирования системы.

  • Teradata Viewpoint − предоставляет графический веб-интерфейс, который обеспечивает управление системой и мониторинг. Портлеты позволяют настраивать собственную панель управления системой.
  • Teradata QueryGrid − обеспечивает высокопроизводительный доступ к данным, их обработку и перемещение по системам в неоднородных аналитических средах. Может быть настрое для мониторинга запросов, выполняемых между локальным и удаленным серверами, и для анализа возможных проблем с Teradata QueryGrid, которые могут потребовать от пользователя принятия мер.

При помощи Teradata Viewpoint отслеживать потребление ресурсов модулем Teradata ML Engine, исправлять любые узкие места в ресурсах, определять долгосрочные и циклические тенденции использования и устанавливать пороги работоспособности.

Системный мониторинг включен по умолчанию и полностью управляется с точки зрения Teradata. Для мониторинга системы необходимо сначала добавить механизм машинного обучения Teradata в портлет Teradata Viewpoint Monitored Systems.

Мониторинг запросов позволяет администраторам оценивать использование ресурсов компьютера по каждому отдельному аналитическому запросу. Когда выполнение запроса занимает много времени, мониторинг запроса дает представление о том, почему. Полезно определить дорогие фазы запроса, которые облагают налогом определенные ресурсы или искажают распределение работы.

Собранные данные об использовании ресурсов хранятся в таблицах в Teradata SQL Engine с использованием существующего механизма QueryGrid Remote Connector и доступны с помощью Teradata Studio или ведения журнала запросов базы данных (Database Query Logging, сокр. DBQL).

Отслеживание состояния системы

Teradata Viewpoint отслеживает потребление ресурсов модулем Teradata ML Engine, позволяе исправлять любые узкие места в ресурсах, определять долгосрочные и циклические тенденции использования и устанавливать пороги работоспособности.

Системный мониторинг включен по умолчанию и полностью управляется с помощью Teradata. Для мониторинга сначала необходимо добавить механизм машинного обучения Teradata в портлет Teradata Viewpoint Monitored Systems.

Отслеживание запросов

Мониторинг запросов позволяет администраторам измерять использование ресурсов компьютера по отдельному запросу. Использование ресурсов моделируется для каждого аналитического запроса. Когда выполнение запроса занимает много времени, мониторинг запроса информацию о причинах длительного выполнения и состоянии. Полезно определить дорогие фазы запроса, которые облагают налогом определенные ресурсы или искажают распределение работы.

Собранные данные об использовании ресурсов хранятся в таблицах в Teradata SQL Engine с использованием существующего механизма QueryGrid Remote Connector, доступ к ним осуществляется с помощью Teradata Studio или вносятся в журнал запросов базы данных (DBQL).

Журналирование

В Teradata AppCenter ведется журнал состояния и событий, что позволяет администраторам осуществлять аудит.

Оповещения о событиях

Уведомления о событиях предоставляют информацию о состояниях и действиях в базе данных.

Доступ к командам и функциям

Teradata AppCenter

Веб-платформа самообслуживания, которая позволяет разработчикам создавать и развертывать аналитические приложения и приложения для управления данными на предприятии. Данная среда позволяет создавать и повторно использовать аналитику. Состоит из готовых функций, которые позволяют ученым и разработчикам создавать аналитику и дальше передавать их Teradata AppCenter. Пользователи могут запускать приложения, визуально знакомиться с результатами и распространять их. Приложения легко доступны и развернуты локально или в облаке.

Teradata SQL Engine

Движок Teradata SQL использует операторы языка определения данных SQL Teradata (Data Definition Language, сокр. DDL) для определения или реструктуризации базы данных, а язык манипулирования данными SQL Teradata (Data Manipulation Language, сокр. DML) − для извлечения и манипулирования данными в базе данных Teradata.

Teradata SQL Engine Analytic Functions

Аналитические функции Teradata SQL Engine используются для анализа любого типа данных, включая потоки кликов, данные финансовых транзакций и данные о взаимодействии с пользователем в Интернете. Эти функции реализованы на движке Teradata SQL.

Teradata ML Engine Analytic Functions

Teradata ML Engine предлагает большой набор функций машинного обучения для временных рядов, графиков, статистики, текста, ассоциации, кластеризации, сопоставления с образцом и анализа пути. Эти аналитические функции предварительно установлены и готовы к использованию на Teradata Vantage.

Источники

  1. Teradata Vantage // Официальный сайт Teradata Corporation. [2019]. Дата обновления: 26.02.2019. URL: https://www.teradata.ru/Products/Software/Vantage (дата обращения: 26.02.2019).
  2. В. Шабалин Teradata представила платформу Vantage для всеобъемлющей аналитики данных // Интернет-журнал самоВод. [2019]. Дата обновления: 26.02.2019. URL: https://samovod.ru/content/articles/57537/ (дата обращения: 26.02.2019).
  3. Teradata Vantage: Documenation. Teradata Vantage Execution Flow // Официальный сайт Teradata Corporation. [2019]. Дата обновления: 27.02.2019. URL: https://docs.teradata.com/reader/N06ooHwOGcycpbHnjyA_rw/7LzUCqFJ6Mnvy016uLYr9Q (дата обращения: 27.02.2019).
  4. Teradata Vantage: Documenation. Management and Monitoring // Teradata Corporation. [2019]. Дата обновления: 27.02.2019. URL: https://docs.teradata.com/reader/N06ooHwOGcycpbHnjyA_rw/OWmII43uTBtZbv2biNB8rw (дата обращения: 27.02.2019).