GeoSpock

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 00:13, 28 сентября 2020.
GeoSpock
Geospock.png
Разработчики: Geospock
Выпущена: 2013; 7 years ago (2013)
Постоянный выпуск: 3.0 / 10 July 2020 года; 3 months ago (2020-07-10)
Состояние разработки: Активное
Написана на: Java, C++ (язык программирования)
Операционная система: Linux, Windows, Mac
Локализация: Английский язык
Тип ПО: Big data platform
Лицензия: Apache license v2.0
Веб-сайт geospock.com/en/

GeoSpock DB - облачная аналитическая база данных, предназначенная для запросов к очень масштабным наборам данных. Основанная на ведущей мировой технологии, разработанной в Кембридже, GeoSpock DB представляет собой высокопроизводительную базу данных любого масштаба, позволяющую выполнять сложную аналитику в реальном мире. GeoSpock DB может обеспечить будущее умных городов, умных стран, Интернета вещей и подключенных транспортных средств.[Источник 1]

История

GeoSpock был основан в 2013 году доктором Стивом Маршем, когда он читал докторскую диссертацию по компьютерным наукам в Кембриджском университете. Идея GeoSpock пришла к Стиву во время создания суперкомпьютера, имитирующего человеческий мозг, с использованием основанных на биологии массивно-параллельных архитектур - концепция, которая до сих пор лежит в основе дизайна GeoSpock DB. В мире, который все больше ориентируется на данные, все больше и больше данных о физическом мире генерируется машинами с помощью датчиков Интернета вещей и мобильных устройств. GeoSpock работает над тем, чтобы аналитика данных приносила максимальную пользу, обеспечивая динамический контекстный анализ, даже когда данные обширны, разнообразны и сложны. Способность получать аналитические данные в режиме реального времени - за секунды, а не за недели при использовании существующих решений - означает, что можно использовать новые приложения, отвечать на сложные вопросы и оперативно принимать оптимальные решения.

Принцип работы

Современная база данных - это гораздо больше, чем простое хранилище данных. Это динамичный информационный центр в центре цифровой инфраструктуры организации. Как и их аналоги в физической инфраструктуре, лучшие базы данных являются инструментами, способствующими максимально быстрому и эффективному обмену данными и аналитическими данными в рамках организации. Два основных потока данных, которые имеют решающее значение для всех операций с базой данных, - это захват и запрос. Оба требуют взаимодействия с большими объемами данных - и для максимальной производительности оба должны выполняться на высокой скорости без увеличения затрат. Когда дело доходит до приема, GeoSpock DB позволяет встраивать терабайты данных так быстро - и таким рентабельным способом - что полностью меняет взаимодействие организации с данными. Больше никаких сокращений или агрегации, удаления данных еще до того, как они смогут создать ценность. Все данные могут быть доступны в одном месте одновременно. GeoSpock DB позволяет отвечать даже на самые сложные вопросы по самым большим наборам данных быстрее и дешевле, чем когда-либо прежде, обеспечивая наличие критически важной информации, необходимой для принятия решений, основанных на фактах, тогда, когда она вам нужна. Эта уникальная производительность переопределяет организационный подход к аналитике данных, поддерживая инновации и обеспечивая понимание для решения самых сложных проблем. Чтобы поместить вещи в контекст, GeoSpock DB позволяет получать данные экстремального масштаба, эквивалентные целому году общегородских дорожных событий, менее чем за один ночной пробег. Затем те же самые данные могут быть запрошены с одинаково высокой скоростью и эффективностью, возвращая результаты из миллиардов строк данных меньше, чем за время, необходимое для покупки чашки кофе. Запрос тоже будет стоить меньше, чем чашка кофе. А ее масштабируемость означает, что при увеличении объемов данных можно положиться на GeoSpock DB, чтобы обеспечить такой же высокий уровень производительности - преобразование ваших чрезвычайно масштабных данных из организационной проблемы в актив.

Пример таблицы (с визуализациями Kepler.gl)

Connecting Tableau to GeoSpock DB

Чтобы подключиться к GeoSpock DB, используйте драйвер Presto от Tableau, который может потребоваться установить. Обратитесь к этой документации Tableau для получения более подробной информации. Запустите Tableau и в разделе «Подключить» выберите «Presto». Заполните следующую информацию о подключении[Источник 2]:

Параметр Значение
Server Your GeoSpock DB deployment’s SQL access hostsname –sqlaccess.geospock.example.com
Port 8446
Catalog geospock
Schema Leave this field blank
Authentication LDAP
Username Your GeoSpock DB account username
Password Your GeoSpock DB account password
Require SSL Enabled

Настройте базовый запрос, который мы будем использовать в этом тематическом исследовании в качестве источника данных. В этом случае мы визуализируем твиты от второго ноября, для чего мы можем использовать следующий запрос: SELECT event.*

 FROM geospock.default.tweet AS event
WHERE event."timestamp" BETWEEN TIMESTAMP '2012-11-02 00:00:00' AND TIMESTAMP '2012-11-02 23:59:59'

Выполнение SQL-запроса

Первый запрос в этом тематическом исследовании позволяет визуализировать, откуда были отправлены твиты за один день. Перейдите к первому листу - вы должны увидеть все столбцы из набора данных твитов, отображаемых на вкладке «Данные» в левой части интерфейса таблицы. Поля широты и долготы неправильно классифицируются как меры. Перетащите их в область «Размеры» (рисунок 1), чтобы реклассифицировать их как измерения, чтобы мы могли использовать их для визуализации того, откуда был отправлен твит.

Рисунок 1 - первый лист

Перетаскивание этих размеров на лист данных автоматически переключает формат отображения на карту символов, которая выглядит следующим образом (рисунок 2):

Рисунок 2 - карта символов

Визуализация результатов запроса на карте Kepler.gl

Выберите расширение Kepler.gl в разделе «Мои расширения», сначала загрузив его из галереи расширений, если вы еще этого не сделали, и на вашу панель управления должен быть добавлен объект (рисунок 3) расширения «Kepler.gl within Tableau»[Источник 3]:

Рисунок 3 - расширение «Kepler.gl within Tableau»

Чтобы настроить расширение Kepler для отображения ваших данных, подключите его к созданному вами листу и добавьте свой ключ API MapBox (если он у вас есть). Учтите, что данные пока не появятся на карте - режим точек Кеплера несовместим. Преобразуйте слой в режим Hexbin(рисунок 4 и 5), установив радиус шестиугольника на 100 км, чтобы точки данных можно было отображать следующим образом:

Рисунок 4 - режим Hexbin на панели
Рисунок 5 - режим Hexbin

Просмотр Парижа
В следующем запросе мы сосредоточимся на твитах, исходящих из города Парижа. Создайте новый источник данных и создайте новый запрос следующим образом: SELECT event.*

 FROM geospock.default.tweet AS event
WHERE st_within(st_point(event.longitude, event.latitude), st_geometryfromtext('POLYGON ((2.225 48.854, 2.250 48.881, 2.320 48.901, 2.396 48.900, 2.410 48.881, 2.412 48.8333, 2.356 48.815, 2.225 48.854))'))

Создайте новый лист и добавьте расширение Kepler для визуализации точек, как описано в предыдущем разделе. Настройте поля долготы и широты(рисунок 6) и установите цветовую окраску точек для использования поля tweet_artistid, перетащив его из «Размеры» в поле «Метки» следующим образом:

Рисунок 6 - настройка поля широты и долготы

Итак, вы можете добавить эту функцию (рисунок 7) на панель управления, щелкните правой кнопкой мыши tweet_artistid и выберите Показать фильтр. Добавьте лист на свою панель управления, как и раньше, но используйте размер шестигранника по умолчанию.

Рисунок 7 - добавление функции


Обратите внимание, что вы можете использовать фильтр в правом верхнем углу, чтобы отфильтровать данные, поступающие в Kepler.

Сравнение твитов из Парижа и остального мира

Следующий запрос исследует, популярен ли художник в остальном мире, а также в Париже. Создайте источник данных с помощью следующего запроса: SELECT event.*

 FROM geospock.default.tweet AS event
WHERE tweet_artistid = '356772' AND event.timestamp BETWEEN TIMESTAMP '2012-11-01 00:00:00' AND TIMESTAMP '2012-12-01 00:00:00'

Используйте те же шаги, что и выше, для визуализации новых результатов. Похоже, что художник более популярен в Европе, чем за пределами Европы, но по размеру по умолчанию сказать сложно. Кеплер предоставляет нам инструмент для более тщательного изучения этого вопроса. Измените режим отображения на Hexbin и увеличьте размер hexbin до 1000 км. Это покажет, что данный художник действительно непропорционально популярен в Западной континентальной Европе.  

Использование базы данных на предприятиях

Как центральный компонент цифрового предприятия, база данных так же важна, как и сами данные, в реализации цифровых амбиций организации. База данных хранит, связывает и объединяет различные потоки, каналы и источники информации, помогая организациям превращать данные в решения, а идеи - в действия. По мере того, как экстремальные среды данных становятся обычным явлением, организациям требуется столь же экстремальная производительность баз данных - и именно поэтому мы создали нашу уникальную экстремально масштабную пространственно-временную базу данных GeoSpock DB. Чтобы проиллюстрировать, что он может сделать, были смоделированы годовые данные о дорожном движении для всего города, чтобы создать чрезвычайно масштабный набор данных, способный бросить вызов возможностям даже самых ориентированных на данные организаций. Четыре миллиона ежедневных поездок на шести различных типах транспортных средств были нанесены на карту по основным дорогам Сингапура. При среднем времени в пути 15 минут и интервале выборки в одну секунду это позволило создать действительно экстремальный набор данных - размером 108 Тбайт и содержащий 1,3 триллиона уникальных строк. GeoSpock DB использовали для приема данных и их подмножеств, чтобы понять скорость, масштабируемость и стоимость во всем диапазоне масштабов данных. Лучшая загрузка позволяет быстрее доставить больше данных туда, где они больше всего нужны. Это означает меньше времени, затрачиваемого на обработку, агрегирование и уменьшение размера данных - и больше времени на создание из них ценности.[Источник 4]

Эффективность работы

Чтобы протестировать GeoSpock DB, было проведено несколько тестов с наборами данных разного размера, чтобы оценить производительность во всем спектре масштабов корпоративных данных. Использование ресурсов облака позволяет GeoSpock DB масштабировать свои ресурсы в соответствии с размером проблемы данных, поэтому тесты также включали результаты из машинных кластеров переменного размера. В результате GeoSpock DB успешно принимала данные во всех масштабах. Самый большой набор данных - 1,3 триллиона строк, представляющих 1,46 миллиона поездок на автомобиле - был загружен со скоростью всего 0,7 доллара за час ЦП, точно так же, как и у самого маленького набора данных. Достигнута высокая скорость приема (1,29 миллиарда строк на машину в час), которая остается высокой и постоянной во всех сценариях обработки данных. Например, годовой запас поведения транспортного средства был обработан всего за 920 часов ЦП. При использовании кластера из 200 машин прием 108 Тб данных в реальном времени занял менее пяти часов - меньше, чем один ночной прогон. Что касается стоимости, средняя скорость загрузки составила всего 0,56 доллара на миллиард строк. Даже самый большой набор данных объемом 108 ТБ стоит всего 640 долларов. Параллельные операции позволяют отделить общую стоимость от желаемой скорости, обеспечивая единую цену за загрузку для каждого набора данных - независимо от того, насколько быстро вам это нужно. Впервые организации теперь имеют доступ к базе данных, действительно подходящей для экстремального возраста данных.[Источник 5]

Перспективы применения

Сочетание высокой производительности, масштабируемости и экономической эффективности, обеспечиваемое GeoSpock DB, решает противоречивые проблемы стоимости и производительности, связанные с требованиями современных предприятий к крупномасштабным геопространственным данным. GeoSpock DB, созданный для частного хостинга в облаке AWS (Amazon Web Services), специализируется на анализе наборов данных экстремальных геопространственных, временных данных, точек интереса (PoI) и устройств, представляющих интерес (DoI). GeoSpock DB использует собственный механизм базы данных для обеспечения эффективного хранения, объединения данных и быстрого программного доступа к данным с использованием стандартных запросов ANSI SQL и соединителей JDBC (Java DataBase Connectivity). Пользователи могут выполнять глубокий анализ и обмениваться информацией с помощью знакомых наборов инструментов с поддержкой plug-and-play для распространенных инструментов бизнес-аналитики, таких как Tableau, Amazon QuickSight и Microsoft Power BI, а также сред для анализа данных и машинного обучения, включая Python Notebooks. и Apache Spark. База данных также может быть интегрирована с проприетарными приложениями, веб-сервисами и внутренними инструментами - с совместимостью с открытыми и настраиваемыми библиотеками визуализации, такими как Kepler и Cesium.js.

Источники

  1. Главный сайт Geospock. URL:https://geospock.com/en/product/(дата обращения: 16.09.2020).
  2. Гитхаб Geospock. // github.com. URL:https://github.com/GeoSpock(дата обращения: 16.09.2020).
  3. Примеры с Github Geospock // Основной Github у Geospock. URL:https://github.com/GeoSpock/examples (дата обращения: 16.09.2020).
  4. Профиль Geospock на capterra // capterra - помощник в выборе БД. URL:https://www.capterra.com/p/194529/Geospock/ (дата обращения: 16.09.2020).
  5. Профиль Geospock на Glassdoor. // glassdoor. URL:https://www.glassdoor.co.uk/Overview/Working-at-GeoSpock-EI_IE1623573.11,19.htm (дата обращения: 16.09.2020).