20 февраля 2015

Big Data и Machine Learning в Microsoft Azure. Анонсы

Big Data и Machine Learning в Microsoft Azure. Анонсы

ubuntu + hortonworks + microsoft Источник изображения: The Official Microsoft Blog [4]

На этой неделе компания Microsoft анонсировала целый ряд big data-/machine learning-сервисов в Microsoft Azure, которые появились в public-preview, либо уже перешли в General Availability (GA).

Много новостей о сервисе Azure HDInsight - PaaS-сервисe, предоставляющий Hadoop по требованию (on-demand) в облаке Microsoft Azure. C него и начнем.

Azure HDInsight

Apache Storm (GA)

Apache Storm теперь доступен (GA) на Azure HDInsight, т.е. фактически Apache Storm теперь доступен по требованию. Apache Storm отлично зарекомендовал себя таких сценариях как real-time аналитика и IoT-сценариях.

Cluster Scaling for Azure HDInsight (GA)

Появилась возможность динамически изменять размер Hadoop-кластера (без его удаления и последующего пересоздания). Возможность появилась для Hadoop Query и Apache Storm (HBase на очереди).

Azure HDInsight на Linux (public preview)

Появилась возможность создавать кластер Hadoop не только под управлением ОС Windows Server, но и Linux (Ubuntu)!

Apache Hadoop 2.6

Azure HDInsight поддерживает запуск Hadoop-кластера по требованию, работающего под Apache Hadoop 2.6.

Новые VM для Azure HDInsight

Стали доступны дополнительные VM из A-/D-серий, таким образом появилась возможности запустить кластер Hadoop на машинах с увеличенным объемом RAM и/или SSD-дисками и/или поддержкой InfiniBand.

Hadoop Connector для DocumentDB

DocumentDB – это облачный PAAS-сервис Azure, предоставляющий высокомасштабируемое NoSQL-хранилище. Теперь наборы данных, хранящиеся в DocumentDB, могут являться источниками и выводом для MapReduce-, Pig- и Hive-задач.

Azure Machine Learning (GA)

Azure Machine Learning – платформа (больше чем сервис) для data mining-задач в облаке Azure. Azure ML имеет инструменты для работы над каждым этапом: о загрузки данных из удаленных источников до применения к данным различных алгоритмов классификации, кластеризации, нейронных сетей и сохранения результатов. Еще будучи public preview сервис Azure ML поддерживал скрипты на R, в GA сервис начал поддерживать и Python-скрипты.

Результаты проведения экспериментов можно «открывать» как REST-сервис, публиковать в специальном Azure Data Store и/или просто поделиться с community.

Azure ML для меня представляется очень интересным инструментом. Кейсы применения сервиса абсолютно те же, что и для всей Big Data-/ML-области:

  • Медицина;
  • Банковский сектор;
  • Биржи и финансовые рынки;
  • Ритейл;
  • Страхование;
  • Телеком;
  • Логистика;
  • etc.

Ниже приведу список полезных ссылок по Azure ML:

Дополнительные источники

Автор статьи

,
DS/ML Preacher, Microsoft MVP && Coffee Addicted