Amazon Redshift

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 13:03, 1 марта 2019.
Amazon Redshift
Redshift.jpg
Разработчики: Amazon
Выпущена: 2012
Состояние разработки: Active
Написана на: C
Операционная система: Кроссплатформенная
Локализация: Английский
Тип ПО: Облачное хранилище данных
Лицензия: Проприетарное
Веб-сайт aws.amazon.com/ru/redshift/

Amazon Redshift – это полностью управляемое высокоскоростное хранилище данных, которое позволяет выполнять анализ данных проще и дешевле с помощью стандартного языка SQL и имеющихся инструментов бизнес‑аналитики (BI). Сервис позволяет выполнять комплексные аналитические запросы к петабайтам структурированных данных, используя сложную оптимизацию запросов, столбчатые хранилища на высокопроизводительных локальных дисках и массово‑параллельное выполнение запросов. Большинство результатов могут быть получены за считаные секунды.[Источник 1].

Содержание

Обзор

Amazon Redshift обеспечивает возможность быстрого выполнения запросов к структурированным данным с помощью привычных клиентов на основе SQL, а также с использованием инструментов бизнес‑аналитики (BI) посредством стандартных подключений ODBC и JDBC. Запросы распределены по множеству физических ресурсов и выполняются параллельно. Хранилище данных Amazon Redshift можно без труда масштабировать как в сторону увеличения, так и в сторону уменьшения за несколько щелчков мышью в Консоли управления AWS или за один вызов API. Amazon Redshift обеспечивает автоматическую установку исправлений ПО и резервное копирование данных хранилища, сохраняя копии на протяжении заданного пользователем периода. Путем репликации и непрерывного резервного копирования Amazon Redshift повышает доступность и сохранность данных и обеспечивает автоматическое восстановление при сбоях компонентов и узлов. Благодаря поддержке виртуального частного облака Amazon VPC, протокола SSL, шифрования AES‑256 и аппаратных модулей безопасности (HSM) Amazon Redshift позволяет защищать данные как при передаче, так и при хранении [Источник 2].

Администрирование традиционных хранилищ данных требует значительных затрат времени и ресурсов, особенно если речь идет о больших наборах данных. При этом создание, обслуживание и расширение самостоятельно управляемых локальных хранилищ обходится очень дорого. По мере увеличения объема данных приходится постоянно делать выбор, какие данные загружать в хранилище данных и какие данные архивировать, чтобы оптимизировать расходы, избегать сложных ETL‑процессов и обеспечивать хорошую производительность. Amazon Redshift не только значительно снижает стоимость и операционные издержки хранилища данных. С помощью Redshift Spectrum теперь можно просто анализировать большие объемы данных в исходном формате без загрузки данных.

Преимущества Amazon Redshift

Повышенная производительность

Массово‑параллельная обработка

Amazon Redshift обеспечивает высокую скорость выполнения запросов к наборам данных объемом от нескольких гигабайтов до нескольких эксабайтов. В Redshift применяются столбчатое хранилище, сжатие данных и карты зон для сокращения количества операций ввода‑вывода при выполнении запросов. Сервис основан на архитектуре хранилища с массово‑параллельной обработкой (MPP), которая распределяет и параллельно выполняет операции SQL в целях эффективного использования всех доступных ресурсов. Базовое оборудование сервиса предназначено для высокопроизводительной обработки данных. Использование локально подключенного хранилища увеличивает пропускную способность соединения между ЦПУ и дисками, а эффективный обмен данными между узлами обеспечивает высокоскоростная сеть с ячеистой топологией [Источник 1].

Машинное обучение

В Amazon Redshift используется машинное обучение для обеспечения высокой пропускной способности в зависимости от особенностей рабочих нагрузок. Redshift применяет сложные алгоритмы, чтобы прогнозировать скорость выполнения входящих запросов, и по итогам анализа приписывает запросы к подходящей очереди так, чтобы оптимизировать их обработку. Например, запросы для панелей управления и отчетов с высокими требованиями к количеству параллельных операций направляются в экспресс‑очередь, где обрабатываются моментально.

Кэширование результатов

Кэширование результатов в Amazon Redshift позволяет обрабатывать повторяющиеся запросы за доли секунды. Благодаря этому значительно увеличивается производительность панелей управления, инструментов визуализации и бизнес‑аналитики, которые выполняют повторяющиеся запросы. При получении запроса Redshift выполняет поиск по кэшу, в котором может храниться результат прошлой обработки такого запроса. Если кэшированный результат обнаружен и данные не изменились, сервис незамедлительно выдает этот результат, вместо того чтобы повторно выполнять запрос.

Простая настройка, развертывание и управление

Автоматическое выделение ресурсов

Amazon Redshift отличает простота настройки и управления. Выполнить развертывание нового хранилища данных можно за несколько щелчков мышью в Консоли AWS, после чего Redshift автоматически выделит инфраструктуру. Сервис автоматизирует большую часть административных задач, таких как резервное копирование и репликация, что позволяет пользователям сконцентрироваться непосредственно на работе с данными. Если требуются дополнительные настройки, в Redshift предусмотрена возможность внесения корректировок с учетом конкретных рабочих нагрузок. Выпуск новых возможностей осуществляется в фоновом режиме, пользователям не приходится планировать и выполнять обновление или установку исправлений [Источник 1].

Автоматическое резервное копирование

Amazon Redshift в автоматическом режиме непрерывно создает резервные копии данных и сохраняет их в Amazon S3. Сервис Redshift может асинхронно копировать снимки состояния в S3 в другом регионе для аварийного восстановления. Чтобы восстановить кластер с помощью Консоли управления AWS или API сервиса Redshift, можно использовать любые снимки состояния системы, в том числе пользовательские. Кластер становится доступным, как только восстановлены метаданные системы. Это позволяет начать отправку запросов, пока данные пользователя загружаются в буфер в фоновом режиме.

Отказоустойчивость

В Amazon Redshift предусмотрено несколько возможностей для повышения надежности кластера хранилища данных. Redshift выполняет непрерывный мониторинг состояния кластера, автоматически реплицирует данные с неисправных дисков и заменяет узлы по мере необходимости для обеспечения устойчивости к сбоям. Интеграция с инструментами сторонних разработчиков. Возможности Amazon Redshift можно расширить, используя лучшие в отрасли инструменты и опыт экспертов по загрузке, преобразованию и визуализации данных. Решения партнеров спсертифицированы для использования с Amazon Redshift.

  • Загружайте и преобразовывайте данные с помощью решений партнеров по интеграции данных
  • Анализируйте данные и совместно работайте с полученной информацией в масштабах организации с помощью решений партнеров по бизнес‑аналитике
  • Проектируйте и внедряйте собственные платформы аналитики с помощью решений партнеров по системной интеграции и партнеров‑консультантов
  • Выполняйте запросы к данным, просматривайте и моделируйте их с помощью инструментов и сервисных программ от партнеров по запросам и моделированию данных

Экономичность

Оплата по факту использования без авансовых платежей

Amazon Redshift – это самое экономичное хранилище данных, которое оплачивается только по факту использования выделенных ресурсов. Работу с сервисом можно начать по тарифу 0,25 USD в час без каких‑либо обязательств, а затем выйти на уровень всего 250 USD за терабайт данных в год. Redshift – это единственное облачное хранилище данных, которое предлагает сразу несколько вариантов оплаты: оплату по требованию без каких‑либо авансовых платежей, резервирование инстансов на 1 или 3 года для экономии на уровне 75 % либо плату за выполнение конкретных запросов на основании объема данных, просканированных сервисом в озере данных Amazon S3.[Источник 2].

Возможность выбора типа узла

На выбор предлагается два типа узлов, что позволяет оптимизировать Redshift в соответствии с конкретными требованиями к хранению данных. С помощью узлов Dense Compute (DC) можно создавать хранилища данных с очень высокой производительностью, в которых используются мощные ЦПУ, большие объемы ОЗУ и твердотельные накопители (SSD). Чтобы сократить издержки или расширить возможности масштабирования, пользователи могут перейти на более экономичные узлы типа Dense Storage (DS), в которых используются жесткие диски большего объема по крайне низкой цене. Для масштабирования кластера или переключения между типами узлов достаточно одного вызова API или нескольких щелчков мышью в Консоли AWS.

Быстрое масштабирование в зависимости от потребностей

Хранение петабайтов данных

Amazon Redshift можно просто и быстро масштабировать по мере изменения потребностей пользователя. Чтобы изменить количество или тип узлов в хранилище данных либо осуществить масштабирование в любом направлении в зависимости от текущих потребностей, достаточно нескольких щелчков мышью в консоли или простого вызова API.

Анализ озер данных, объем которых измеряется эксабайтами

Redshift Spectrum – это возможность Redshift, которая позволяет выполнять запросы к эксабайтам данных в Amazon S3 без необходимости загружать или преобразовывать их. Высокодоступное, безопасное и экономичное озеро данных Amazon S3 можно использовать для хранения неограниченных объемов данных в открытых форматах.

Безграничные возможности параллельной обработки

Redshift Spectrum открывает безграничные возможности параллельной обработки, позволяя выполнять множество запросов с доступом к одним и тем же данным в Amazon S3 одновременно. Redshift Spectrum выполняет запросы на огромном количестве узлов, работающих параллельно, чтобы пользователи могли быстро получить результаты вне зависимости от сложности запроса или объема данных.

Запросы к озеру данных

Озеро данных в Amazon S3

Amazon Redshift – это единственное хранилище данных, которое позволяет выполнять запросы к озеру данных Amazon S3 без необходимости загрузки данных. Можно выполнять запросы к файлам в привычных открытых форматах, таких как Avro, CSV, Grok, JSON, ORC, Parquet и многие другие, непосредственно в Amazon S3. Благодаря этому можно хранить высокоструктурированные часто запрашиваемые данные на локальных дисках Redshift, а эксабайты структурированных и неструктурированных данных – в S3 и эффективно выполнять запросы ко всем этим данным. Это обеспечивает уникальную аналитическую информацию, которую невозможно получить из отдельных наборов данных.

Система аналитических инструментов AWS

Amazon Redshift обеспечивает встроенную интеграцию с системой аналитических инструментов AWS. AWS Glue можно использовать для извлечения, преобразования и загрузки (ETL) данных в Redshift. Amazon Kinesis Data Firehose предоставляет самый простой способ захвата, преобразования и загрузки потоковых данных в Redshift для анализа в режиме, близком к реальному времени. С помощью Amazon QuickSight можно создавать отчеты, визуализации и панели управления.

Безопасность

Комплексное шифрование

С помощью нескольких параметров можно настроить использование сертификата SSL в сервисе Amazon Redshift для обеспечения безопасности данных при передаче, а для шифрования данных при хранении может использоваться AES‑256 с аппаратным ускорением. Если активировать шифрование данных при хранении, все данные, записанные на диск, а также их резервные копии будут зашифрованы. По умолчанию сервис Amazon Redshift самостоятельно осуществляет управление ключами шифрования.

Сетевая изоляция

Amazon Redshift позволяет настроить правила брандмауэра для управления сетевым доступом к кластеру хранилища данных. Amazon Redshift можно запустить в Amazon VPC, чтобы изолировать кластер хранилища данных в своей виртуальной сети и подключить его к имеющейся ИТ‑инфраструктуре с помощью VPN‑подключения, зашифрованного по стандартному протоколу IPsec.

Аудит и соответствие требованиям

Сервис Amazon Redshift интегрирован с AWS CloudTrail, что обеспечивает возможность аудита всех вызовов API Redshift. Сервис Redshift вносит в журнал все операции SQL, включая попытки подключения, запросы и изменения базы данных. Доступ к этим журналам можно получить с помощью SQL‑запросов к системным таблицам. Журналы также можно загрузить в защищенное хранилище Amazon S3. Amazon Redshift соответствует требованиям SOC 1, SOC 2, SOC 3 и PCI DSS Level 1.[Источник 2].

Источники

  1. 1,0 1,1 1,2 Amazon Redshift // Amazon.com [2012—2019]. Дата обновления: 10.01.2012. URL: https://aws.amazon.com/ru/redshift/ (дата обращения: 31.01.2019).
  2. 2,0 2,1 2,2 API Reference // Amazon.com [2012—2019]. Дата обновления: 10.04.2012. URL: https://docs.aws.amazon.com/redshift/latest/gsg/redshift-gsg.pdf (дата обращения: 31.01.2019).

Ссылки