03 апреля 2016

//Build/ 2016 и Strata + Hadoop World. Data-итоги

//Build/ 2016 и Strata + Hadoop World. Data-итоги

Прошлая неделя [c 28.03.2016 по 03.04.2016] была насыщена новостями о новинках/изменениях как в облачной платформе Azure, в частности, так и технологиях/продуктах Microsoft, в общем. Те, кто следит за новостями, знают, что такой всплеск связан с только что прошедшими конференциями «Strata + Hadoop World» и «//Build 2016».

Изменений настолько много, что, не приложив серьезных усилий, довольно сложно понять, какие перспективы открывают новинки как для увеличения эффективности существующих решений, так и для создания чего-то революционно нового.

Ниже я сделаю обзор изменений по темам, которые вызывают у меня наибольший профессиональный интерес – Data Platform и Data Science.

Rocket Science

Microsoft Cognitive Services

Одним из самых громких анонсов заслуженно были сервисы, объединенные названием Microsoft Cognitive Services. Microsoft Cognitive Services представляют собой коллекцию API, доступную разработчику интеллектуальных приложений через REST API. API сервисов довольно прост и не требует знаний в области data science. Последнее открывает для широкого круга разработчиков возможность в их приложении быстрого решения задач, относящихся к классам компьютерного зрения, распознания голоса, латентно-семантического анализа и прочее.

Расширенный список задач, которые можно решать с используя API сервисов Microsoft Cognitive Services ниже:

  • Face and Emotion APIs: обнаружение людей на изображении, выделение лиц, эмоций, определение возраста и пола.
  • Speech API: распознание голоса (speech to text) и синтез речи (text to speech).
  • Language APIs: определение тональности текста, выделение ключевых фраз, обработка голосовых команд.
  • Recommendations API: рекомендательная система.

Microsoft Bot Framework (preview)

Microsoft Bot Framework – фреймворк, позволяющий создавать интеллектуальных агентов (bots) для взаимодействия, целью которого является общение, консультирование по узкому кругу вопросов. Уже есть портал для разработчиков и SDK для создания ботов, общающихся через Skype, Slack и Twitter.

Data Science

R

Как вы знаете, R – популярнейший, наряду с Python, язык программирования для решений статистических и datascience-задач. R обрел популярность как среди академического сообщества, так и в корпоративном секторе и развивается силами open source сообщества.

Jupyter Notebooks – клиент-серверное веб-приложение, позволяющее разработчику объединить в рамках единого документа: код (например, Python), результаты его выполнения (в т.ч. графики) и rich-text-пояснения к нему.

Поддержка Jupyter Notebooks в Azure ML существует уже довольно давно, но поддерживались только Python 2 и Python 3 kernels, поддержка же R kernel отсутствовала. 30 марта было анонсировано, что теперь Jupyter Notebooks поддерживает и R kernels при работе в Azure ML.

Кроме того, объявлено о доступности R Server для HDInsight в preview. Благодаря этому нововведению появилась возможность запускать R-скрипты на большом объеме данных, обращаясь к HDInsight-кластеру (Hadoop-as-a-Service).

Визуализация

В public preview вышел Microsoft Power BI Embedded – инструмент, позволяющий внедрять отчеты Power BI в мобильные и web-приложения. Теперь задача демонстрации красивой инфографики пользователям своих приложений может решаться с помощью богатого набора инструментов визуализации Power BI и внедрения результатов с помощью Power BI Embedded.

Data Platform

Hadoop Platform

Hortonworks Data Platform (HDP) версии 3.4 теперь доступна в сервисе Azure HDInsight. Напомню, что Azure HDInsight – PaaS-сервис, предоставляющий Hadoop-кластер по требованию. После недавнего обновления поддерживается создание Hadoop-, HBase-, Storm-, Spark-кластеров и R Server on Spark.

Вместе с добавлением поддержки платформы HDP 3.4 для Spark-кластера стала доступна версия 1.6. Что по заявлению маркетологов разработчиков увеличило скорость streaming state management подсистемы в 10 раз, сделаны улучшения в automatic memory management подсистеме, кроме того в Apache Spark 1.6 добавлены новые алгоритмы машинного обучения.

DocumentDB и MongoDB #NoSQL

Для сервиса DocumentDB – сервис, предоставляющий высокомаштабируемое NoSQL-хранилище – добавлена поддержка протокола MongoDB – одной из популярнейших документо-ориентированной NoSQL базой данных. Таким образом DocumentDB стало предоставлять MongoDB-совместимый API, что облегчает разработчикам миграцию как в одну, так и в другую сторону. Поддержка MongoDB протокола заявлена в стадии preview.

Azure Data Catalog (public preview)

Data Catalog – облачный сервис, представляющий собой каталог метаданных о корпоративных хранилищах – вышел в public preview. Метаданные детализируют разные уровни описания хранилищ данных и могут быть интересны как аналитику, так и разработчику или data scientist’у. При наличии большой команды и такого же зоопарка хранилищ данных этот сервис безусловно выглядит как «must have».

Azure Batch ♥ Linux VMs #HPC

Анонсирована поддержка виртуальных машин Linux в сервере Azure Batch. Напомню, что Azure Batch – PaaS-сервис, предоставляющий вычислительный кластер по требованию и управляющий им. Если у Вас есть MPP-задача, но которая в то же время не является map/reduce-задачей, то Azure Batch – именно то, что нужно. Так Azure Batch отлично подойдет для рендинга большого количества изображений, кодирование видео, анализ генетических последовательность, моделирование финансовых рисков.

Но раньше такие задачи можно было писать только на .NET-совместимом языке программирования. Сейчас же Batch-агент может запускать и управлять MPP-задачи и на Python. В купе с заявленной ранее поддержкой MPI, служба Azure Batch выглядит как отличный инструмент как для исследователей, так и для частных компаний.

For Fun

Пытливый исследовательский ум товарищей, чьих имен я, к сожалению, не знаю, заинтересовался следующим вопросом: кто из героев сериала Битва престолов умрет следующим?

Вот мотивирующее видео на channel9, а вот решение этой задачи, выполненное с помощью сервиса Azure Machine Learning и выложенное в Cortana Intelligence Gallery (переименованная Cortana Analytics Gallery).

Кроме переименования Cortana Intelligence Gallery получила еще и новый раздел «Соревнования». Сейчас там всего 2 соревнования, одно из которых имеет интригующее название «Decoding Brain Signals». Для тех, кто знаком с kaggle, суть будет ясна сразу. Кроме интересной и социально полезной нейробиологической задачи победителей ждет суммарный призовой фонд $5K. Соревнование началось 30 марта 2016 и продлится 3 месяца.

P.S.

Скажу честно, меня и задача, и соревновательных дух и призовой фонд :) интересует. Но в нейробиологии я ничего не понимаю. Если ты, дорогой читатель, также, как и я, преисполнен оптимизма поучаствовать в соревновании и обладаешь знаниями в этом разделе биологии, то стучись ко мне по любому из найденных контактов.

Автор статьи

,
Machine Learning Preacher, Microsoft AI MVP && Coffee Addicted