20 апреля 2014

Облака Microsoft Azure для исследователей. Ретроспектива

Облака Microsoft Azure для исследователей. Ретроспектива

Application building blocks for Azure Источник изображения: Windows Azure Dev Camp

Некоторое время назад с различной детализацией в своих публикациях освещал некоторые вещи, которые Microsoft делает в направлениях «Big Data + Cloud Computing» (серия статей про HDInsight, предоставляющий Hadoop-as-a-Service) и «Big Data + HPC» (серия статей про фреймворк распределенных вычислений Dryad).

Повторно мое внимание к этой теме привлек недавний анонс, что российские ученые получили грант Microsoft Research для исследований в области генетических заболеваний:

Исследователи Института общей генетики РАН и Института цитологии и генетики СО РАН получили грант на использование облачной платформы Windows Azure для исследований генов человека, вызывающих болезнь Альцгеймера.

Мои искренние поздравления нашим ученым!

Почему мне эта тема близка?

Эта тема мне близка сразу по нескольким причинам: во-первых, я еще полгода назад и сам был аспирантом направления «мат. моделирование, численные алгоритмы и комплексы программ» в одном из федеральных университетов. Во-вторых, биология, в общем, и генная инженерия, в частности, вызывают у меня большой интерес (еще в старших классах школы я участвовал на городских олимпиадах по биологии). В-третьих, темой моих исследований в аспирантуре, был симбиоз «Big Data + Cloud Computing + HPC».

И последнее, четвертое, в октябре 2012 года я и один исследователь из лаборатории геномных и протеомных исследований обсуждали возможность совместного исследования, суть которого была в следующем: разработать систему, которая по базе секвенированных геномов максимально быстро помогала бы нам проверять некоторые (старые и новые гипотезы) возникновения болезни Альцгеймера.

Тогда у нас не получилось полноценно начать данное исследование (на это были как личные причины, так и бюрократические, которые нужно было преодолеть для получения финансирования проекта).

И тем я больше поздравляю исследователей Института общей генетики РАН и Института цитологии и генетики СО РАН, которым дали гранд.

Azure for Research

Вообще, субъективно, последние год-полтора Майкрософт освещает тему «Microsoft Azure для исследователей» с той долей внимания, с которой это нужно было делать изначально (года так три уже точно). В рамках уже упомянутой выше программы «Microsoft Azure for Research», опубликован online-курс, освещающий достоинства использования облачной платформы Microsoft Azure для целей исследования. Хотя там все-таки не хватает видео уроков по использованию сервиса HDInsight. Последний, в свою очередь, также развивается: ранее известный как «Hadoop on Azure» сервис был переименован в HDInsight, уже «пережил» несколько CTP-версий, а на конференции Build 2014 стало известно о поддержке в HDInsight дистрибутива Hadoop 2.2 (как следствие, и поддержки YARN).

Еще одна яркая новость - выступление в начале апреля в МГУ доктора Дэрона Грина, директора Microsoft Research по внешним исследовательским программам. У меня, к сожалению, не получилось попасть на его выступление, но из пресс-релиза мероприятия в блоге Microsoft на Habr, ясно, что речь планировалось вести, в первую очередь, о том, что облачные технологии, в общем, и Microsoft Azure, в частности, могут дать исследователям.

И последнее, фреймворк параллельной обработки данных Naiad движется в облака Azure. Подробностей о новом облачном сервисе, как и сроках его релиза нет, но зато и research paper по Naiad и исходные коды фреймворка находятся в открытом доступе и доступны для сообщества (страница проекта «Naiad – Microsoft Research»).

Научные конференции

Что касается направления, в котором маркетологов совсем нет (потому что они в этом до сих пор ничего понять не могут) – научные конференции, то и тут есть, что почитать в прямом смысле:

SOSP'13

В ноябре 2013 года проходила научная конференция «24th annual Symposium on Operating System Principles». Исследователи Microsoft Research (в том числе и в соавторстве с исследовательским подразделениями других компаний/университетов) представили на SOSP’13 следующие research paper:

NSDI'14

2 апреля в Сиетле (США) проходила научная конференция «11th USENIX Symposium on Networked Systems Design and Implementation». Научному сообществу было представлено 38 трудов, 7 из которых с участием исследователей из Microsoft Research.

Следующие research papers непосредственно касаются исследований в области Cloud Computing:

  • Fast, Cloud-scale Block Storage for Cloud-oblivious Applications - проблематика использования облачных хранилищ как хранилищ данных приложении ПК.
  • Bolt: Data Management for Connected Homes – проблематика концепции «Internet of Things» и его широкого признания в будущем.
  • FaRM: Fast Remote Memory – описание платформы распределенных вычислений, использующей технологию RDMA (Remote Direct Memory Access) для доступа к обрабатываемым данным. Система показывает лучшие latency при доступе к данным и увеличенную пропускную способность по сравнению с фреймворками распределенных вычислений, использующими TCP/IP в качестве способа обмена данными.
    Результат (впечатляющий): кластер из 20 узлов обрабатывает «167 million key-value lookups per second with a latency of 31µs».

Проект Orleans

Orleans – облачный фреймворк для создания высокомасштабируемых распределенных приложений, базирующийся на модели акторов.

Research paper «Orleans: A Framework for Cloud Computing», в котором описываются основные концепции и подходы, был написан еще в 2010 году, командой исследователей, среди которых есть, как я полагаю, наш соотечественник Сергей Быков.

О Public Preview проекта Orleans было объявлено на конференции Build 2014. На Build 2014 же об успешном использовании Orleans можно было узнать на сессии «Using Orleans to Build Halo 4’s Distributed Cloud Services in Azure».

Исходные коды и документации по Orleans находятся в отрытом доступе на codeplex.

И еще немного…

Присоединяюсь к поздравлениям Лесли Лампорта (Leslie Lamport) – исследователя подразделения Microsoft Research, в этом году получившим премию Тьюринга за вклад в области распределенных систем и вычислений, в том числе и открытие таких понятий, как причинность и логические часы, безопасность и живучесть, реплицируемые автоматы, последовательная согласованность данных.

Не меньшее мое внимание привлекли и работы другого исследователя из Microsoft Research – Дэвида Розшайлда (David Rothschild), который с точки зрения теории вероятности делает просто невероятные вещи: на президентских выборах в США в 2012 году он предсказал верные результаты по 50-ти из 51-го участка для голосования (англ. - Electoral college); а на церемонии Оскар в 2013 году верно назвал победителей в 19 из 24 категорий.

У меня, как возможно и у многих, возникает вопрос: а с биржевыми котировками он так делать умеет? Вопрос, конечно, шуточный, но постепенно нас подводит к следующему объявлению…

Вместо заключения

Кто внимательно читает этот блог, тот уже заметил о мой интерес к финансовому сектору. Я уже упоминал о том, что нахожусь в перманентном поиске единомышленников для исследований финансовых рынков. Кроме того, в конце лета я планирую освободить около 2-ух месяцев для прикладного применения своих умений сертифицированного C# разработчика и знаний в области Big Data и Cloud Computing – я хочу заняться разработкой высокочастотного робота. Для разработки последнего ищу единомышленника и коллегу.

Кому интересно это направление – пишите в личку. Буду рад общению!

Автор статьи

,
Machine Learning Preacher, Microsoft AI MVP && Coffee Addicted