20 сентября 2017

AI в IoT: встреча IoT-коммьюнити

AI в IoT: встреча IoT-коммьюнити

Симбиоз технологий Интернета вещей (IoT) и технологий искусственного интеллекта (AI) могут (или уже?) открыть новые горизонты для широкого распространения датчиков в нашей повседневной жизни, так и в промышленности.

О том, в каком состоянии сегодня пребывает «дружба» IoT и AI, а также о конкретных задачах в авиапромышленности и здравоохранении расскажу уже сегодня (20 сентября) на открытой встрече Russian IoT Community. Презентация с моего доклада представлена ниже.

15 августа 2017

Cloud Summer Cutting Edge 2017

Cloud Summer Cutting Edge 2017

Open Source & ML

Лето в этом году было облачным Первая новость, которую я хочу сообщить с особой гордостью за российских разработчиков в частности и за страну в общем – Яндекс выложила свою библиотеку машинного обучения CatBoost в открытый доступ. Высокая точность предсказания и способность работать как с категориальными, так и числовыми предикторами заявляются killer-фичами ML-фреймоворка от Яндекс. Тем самым Яндекс присоединилась к таким гигантам как Microsoft, Google, Amazon, в деле открытия исходных кодов своих AI-алгоритмов для Data Science (DS) сообщества.

28 июня 2017

Payment Security 2017: Machine Intelligence for Fraud Prediction

Payment Security 2017: Machine Intelligence for Fraud Prediction

antifraud paradigms comparison

Уже завтра состоится конференция Payment Security. Как несложно догадаться по названию, конференция собирает экспертов в сфере безопасности платежей, а также всех интересующихся этой актуальной темой специалистов – от начальников служб безопасности банков до разработчиков стартапов, предоставляющих своим пользователям возможности онлайн-оплаты.

Я, в свою очередь, расскажу про применение машинного интеллекта для задачи обнаружения мошенничества по пластиковым картам.

12 апреля 2017

Демократизация ИИ или машинное обучение не для всех

Демократизация ИИ или машинное обучение не для всех

Machine Learning tools evolution

Март-апрель были (и еще будет) богаты на всякого рода встречи российского Azure-сообщества. Это хакатон Breakpoint, по Azure-митапы в Москве и Санкт-Петербурге, конференция Global Azure Bootcamp и DevCon School.

На паре мероприятий мне выпала честь поучаствовать в качестве спикера. Спешу поделиться материалами рассказанного словами и продемонстрированного (как в качестве презентации, так и в качестве демо).

UPD1 [2017-04-20]: добавлены описание и ссылки. UPD2 [2017-04-22]: добавил результаты демо.

27 марта 2017

Google Cloud Platform: о планах стать лучшей .NET-платформой

Google Cloud Platform: о планах стать лучшей .NET-платформой

Источник изображения [1]

Не так давно (8-10 марта) проходила конференция Google Next 2017 [1]. На ключевом докладе (keynote) второго дня вице-президент Google Brain Stevens заявил буквально следующее:

Мы (Google Cloud Platform – прим. перевод.) не просто хотим быть нормальной Windows-платформой. Мы хотим быть отличной Windows-платформой, и, возможно, даже лучшей Windows-платформой.
Our goal isn’t just to be an OK Windows platform. We want to be a great Windows platform, and perhaps the best Windows platform.
Brain Stevens, Google Vice President

13 ноября 2016

Машинное обучение в розничных банках (Moscow Cognitive Computing Community)

Машинное обучение в розничных банках (Moscow Cognitive Computing Community)

Хочу сделать анонс встречи Moscow Cognitive Computing Community, которая пройдет 15 ноября в Москве. В первую очередь, этот митап будет интресен тем, кто ипользует/собирается использовать в своих проектах технологии распознания лиц, голоса, интеллектуальных голосовых помощников или чат-боты.

В свою очередь, я на этой встречи расскажу о практических кейсах применения машинного обучения в розничных банках. Немного попозже дополню статью материалами с выступления UPD [15.11.2016]: презентация прикреплена.

big data in banking

02 ноября 2016

R + Apache Spark в облаке Azure (Microsoft DevCon)

R + Apache Spark в облаке Azure (Microsoft DevCon)

Всем привет!

Спешу поделиться материалами с выступления на конференции Microsoft DevCon School, которая проходила 1 ноября на территории центра Digital October.

Сейчас выложу только слайды, но постепенно дополню отчет и другими материалами с конференции. UPD [13.11.2016]: опубликован исходный код demo-задач, решаемых на интенсиве по R.

20 октября 2016

AWS vs Microsoft Azure: GPU в облаке

AWS vs Azure: GPU в облаке

Погружение

Существует довольное большое количество задач, где вычисления на процессорах графических карт ведет к значительному сокращению как времени вычислений, так и финансовых затрат, необходимых для построения и поддержания соответствующей аппаратной инфраструктуры.

Как правило, это compute-intensive задачи, оперирующие большим объемом данных. Одним из наиболее перспективных направлений применения GPU-вычислений являются задачи машинного обучения, в общем, и задачи, относящиеся к классу deep learning, в частности. Но приобретение/владение сервером с высокопроизводительной графической картой – мероприятие не из самых дешевых. И тут облачные провайдеры пришли на помощь стартапам, частным исследователям и просто энтузиастам.

Пионером в GPU-on-demand была Amazon: компания анонсировала доступность в облаке AWS виртуальных машин с GPU еще в 2010 году. А совсем недавно в Microsoft Azure также появилась возможность получить VM c возможностью вычисления на высокопроизводительных графических процессорах NVidia.

1. GPU in Azure

В начале августа 2016 года было объявлено о начале закрытого тестирования (private preview) инстансов виртуальных машин, оборудованных картами NVidia Tesla [1]. Эта возможность предоставляется в рамках сервиса Azure VMIaaS-сервис предоставляющий виртуальные машины по требованию (аналог Amazon EC2).

C точки зрения доступа приложения к графическому процессора архитектура сервиса выглядит так:

Azure VM GPU Instances Architecture

17 октября 2016

AWS vs Microsoft Azure: как платить меньше?

AWS vs Microsoft Azure: как платить меньше?

При текущем уровне научно-технического прогресса необязательно быть огромной производственной компанией, чтобы появилась необходимость использовать в своих ИТ-системах 10 Тб отказоустойчивого геораспределенного хранилища. Как и необязательно быть HFT-компанией с Wall Street, чтобы иметь Apache Spark кластер или делать высокопроизводительные расчеты на GPU.

В различных сферах жизни уже появилось достаточное количество задач, для решения которых нужны довольно сложные и дорогие серверные инфраструктуры. С такими задачами с завидной периодичностью уже сейчас сталкиваются стартапы, исследователи, студенты, просто энтузиасты, которые, к примеру, участвуют в соревнованиях в Kaggle.

Сегодня облачные платформы предоставляют нам все вышеперечисленное по требованию (on-demand).

Который год подряд на рынке облачных услуг я вижу очень интенсивное развитие как в части качества облачных сервисов, так и в части их разнообразия. Одним из характерных атрибутов развития становится все более широкая доступность этих сервисов с финансовой точки зрения.

Но кроме снижения цены на сервисы, немаловажным в популяризации облачных вычислений является, что у таких провайдеров как AWS или Microsoft Azure есть различные программы, позволяющие использовать их облачные сервисы бесплатно, либо со значительной скидкой.

Ниже сравним предложения от 2-ух крупнейших облачных провайдеров Microsoft Azure и Amazon.

20 мая 2016

Hello, #Slack!
Hello, #CloudAndData Team!

Hello, #Slack! Hello, #CloudAndData Team!

Давно было большое желание объединить людей – от просто интересующихся до гуру – темой «Cloud Computing + Data Science» и сделать из этого открытую площадку для интересного общения и обмена опытом.

#slack для этого подошел как нельзя лучше. Он бесплатный, удобный, доступный на всех мобильных и десктопных платформах!

Вне зависимости от того бородатый ли Вы data scientist или студент, интересующийся облачными технологиями, присоединяйтесь к нам, будем рады общению! #welcome

19 мая 2016

Data Science с R в Microsoft Azure (часть 2)

Data Science с R в Microsoft Azure (часть 2)

R, один из популярнейших языков программирования среди data scientist'ов, получает все большую и большую поддержку как среди opensource-сообщества, так и среди частных компаний, которые традиционно являлись разработчиками проприетарных продуктов. Среди таких компаний – Microsoft, чья интенсивно увеличивающая поддержка языка R в своих продуктах/сервисах, привлекла к себе и мое внимание.

Одним из «локомотивов» интеграции R с продуктами Майкрософт является облачная платформа Microsoft Azure. Кроме того, появился отличный повод повнимательнее взглянуть на связку R + Azure – это проходящий в эти выходные (21-22 мая) хакатон по машинному обучению, организованный Microsoft [1].

В прошлой части я озвучил 3 тезиса:

  1. 1. Время на хакатоне крайне ценный ресурс.
  2. 2. Правильная организация командной работы дает вам большое преимущество.
  3. 3. Azure ML – не инструмент прототипирования, для прототипирования стоит использовать R/Python.

Azure Machine Learning

Azure Machine Learning (Azure ML) – облачный сервис для выполнения задач, связанных с машинным обучением. Почти наверняка Azure ML будет центральным сервисом, которым вы будете пользоваться, в случае, если захотите обучить модель, в облаке Azure.

Подробный рассказ про Azure ML не входит в цели данного поста, в тем более, что о сервисе уже достаточно написано: Azure ML для data scientist’ов [3], best practices обучения модели в Azure ML [4]. Сконцентрируемся на следующей задаче: организация командной работы с максимально безболезненным переносом R-скриптов с локального компьютера в Azure ML Studio.

18 мая 2016

Data Science с R в Microsoft Azure (часть 1)

Data Science с R в Microsoft Azure (часть 1)

R, один из популярнейших языков программирования среди data scientist'ов, получает все большую и большую поддержку как среди opensource-сообщества, так и среди частных компаний, которые традиционно являлись разработчиками проприетарных продуктов. Среди таких компаний – Microsoft, чья интенсивно увеличивающая поддержка языка R в своих продуктах/сервисах, привлекла к себе и мое внимание.

Одним из «локомотивов» интеграции R с продуктами Майкрософт является облачная платформа Microsoft Azure. Кроме того, появился отличный повод повнимательнее взглянуть на связку R + Azure – это проходящий в эти выходные (21-22 мая) хакатон по машинному обучению, организованный Microsoft [1].

Хакатон – мероприятие, где кофе время чрезвычайно ценный ресурс. В контексте этого я ранее писал о best practices обучения моделей в Azure Machine Learning. Но Azure ML – это не лучший инструмент для прототипирования; это скорее сервис для создания готового продукта со всеми вытекающими отсюда затратами как на время разработки, так и на стоимость владения.

R же прекрасно подходит для создания прототипов, для копания (mining) в данных, быстрой проверки своих гипотез – то есть всего того, что нам нужно на такого типа соревнованиях! Ниже я расскажу, как использовать всю мощь R в Azure – от создания прототипа до публикации готовой модели в Azure Machine Learning.

03 апреля 2016

//Build/ 2016 и Strata + Hadoop World. Data-итоги

//Build/ 2016 и Strata + Hadoop World. Data-итоги

Прошлая неделя [c 28.03.2016 по 03.04.2016] была насыщена новостями о новинках/изменениях как в облачной платформе Azure, в частности, так и технологиях/продуктах Microsoft, в общем. Те, кто следит за новостями, знают, что такой всплеск связан с только что прошедшими конференциями «Strata + Hadoop World» и «//Build 2016».

Изменений настолько много, что, не приложив серьезных усилий, довольно сложно понять, какие перспективы открывают новинки как для увеличения эффективности существующих решений, так и для создания чего-то революционно нового.

Ниже я сделаю обзор изменений по темам, которые вызывают у меня наибольший профессиональный интерес – Data Platform и Data Science.

18 марта 2016

Обнаружения мошеннических транзакций по пластиковым картам. Научная публикация

Обнаружения мошеннических транзакций по пластиковым картам. Научная публикация

Моя научная публикация «Web service for detecting credit card fraud in near real-time» была опубликована на 8-ой международной научной конференции Security of Information and Networks (SIN '15). По сути публикация представляет компиляцию цикла статей «Антифрод как сервис». Публикация была скомпилирована и переведена на английский язык совместно с Алексеем Целых (Южный Федеральный Университет).

Как и в цикле статей, в публикации описываются основные концепции и архитектурные принципы создания сервиса обнаружения мошеннических транзакций по пластиковым картам, работающего в near real-time режиме и доступного клиентам через REST API.

14 декабря 2015

Машинное обучение в Microsoft Azure (Community Dev Camp)

Машинное обучение в Microsoft Azure (Community DevCamp)

Update [14.01.2015]: добавлено видео доклада на Community DevCamp.

Сortana analytics suite Reference: Ignite 2015

Всем привет!

Спешу поделиться материалами с моего выступления на Community Dev Camp, который прошел 11 декабря на территории центра Digital October.

Речь пойдет о стеке Cortana Analytics Suite. Подробно остановимся на сервисе Azure Machine Learning и решим задачу анализа тональности сообщений в социальных сетях для таких задач как:

28 ноября 2015

Machine Learning in Finance (Azure ML Hackathon 2015)

Machine Learning in Finance (Azure ML Hackathon 2015)

Azure ML: Machine Learning as a Service

Hello!

I want to share with community the materials from my presentation at the Azure Machine Learning Hackathon 2015. To begin, I will publish only slides of my speech. Then, as the opportunity arises, I will upload a video of presentation.

25 ноября 2015

Хакатон по машинному обучению. Прийти. Обучить модель. Победить!

Стандартный план любого хакатона ↓

Microsoft Azure Machine Learning Hackathon

В эти выходные пройдет хакатон по машинному обучению [1], организатором которого является компания Microsoft. У участников хакатона будет 2 дня для того, чтобы крепко не выспаться и сделать мир лучше.

Повествование в этой статье будет идти в стремительной манере, также как, полагаю, для большинства участников и пройдет хакатон. Никакой воды [2] (если вы не знакомы с Azure ML, то «воду» лучше все-таки почитать), долгих определений и таких длинных вступлений как это - только то, что вам нужно, чтобы победить на хакатоне.

19 октября 2015

Лекция в ВШЭ/МАМИ по Azure Machine Learning

Лекция в ВШЭ/МАМИ по Azure Machine Learning

Update [14.01.2015]: добавлено видео мастер-класса.

11 ноября в ВШЭ я проведу лекцию, посвященную облачному сервису предиктивной аналитики Azure Machine Learning.

Update: уже 23 ноября в МАМИ я проведу мастер-класс, приуроченный к пройдущему 28-29 ноября хакатону по машинному обучению от Microsoft. На этом мастер-классе сервис Azure ML также будет являться центральной темой.

В рамках обоих мероприятий будут рассмотрены основные принципы и концепции, лежащие в основе Azure ML, возможности, которые сервис предоставляет специалистам в области Data Science. Также пройдет обсуждение, чем сервисы предиктивной аналитики могут быть полезны как небольшим стартапам, так и научным исследовательским группам.

Последние 15 минут выступления будет посвящены секции «вопрос-ответ».

23 сентября 2015

Онлайн-курсы по Azure в EdX

Онлайн-курсы по Azure в EdX

Microsoft Azure on EdX

В дополнение к довольно большому количеству онлайн-курсов по Microsoft Azure, доступных в MVA [2], в EdX [1] совсем скоро пройдут 4 бесплатных онлайн-курса по облачной платформе Azure.

Один из них начался еще вчера (22 сентября), один начнется уже завтра (24 сентября). Ниже представлено краткое описание этих курсов.

11 сентября 2015

Azure ML: Machine Learning as a Service

Azure ML: Machine Learning as a Service

Azure ML: Machine Learning as a Service

Hello!

I want to share with IT community the materials from my presentation at the Moscow Data Fest conference. To begin, I will publish only slides of my speech. Then, as the opportunity arises, I will upload a video of presentation.

The presentation focused on cloud-based service of predictive analytic - Azure Machine Learning.

I will describe concepts and principles underlying Azure ML, as well as talk about how Azure ML can help data scientists to perform classification, clustering, sentiment analysis algorithms in Big Data-ready and LSML fashion.

25 июля 2015

Machine Learning в коммерческих банках

Machine Learning в коммерческих банках

big data in banking

По оценке компании McKinsey финансовая индустрия владеет до 25% данных, имеющихся в мире. Из них банки США хранят >1 экзабайта данных (McKinsey, 2013), объем данных российского банковского сектора оценивается в >100 терабайт (IBS, 2013).

Традиционно, используя имеющиеся данные, розничные банки на разных уровнях управления решают задачи:

  • управления рисками;
  • клиентоориентированности;
  • оптимизации операционной деятельности.

Перед современным банком по каждой из перечисленных задач стоит целый ряд проблем. Опишем их тезисно ниже.

Клиентоориентированность
Клиенты банков становятся все более и более требовательными как к банковскому сервису, так и к банковским продуктам. Клиентам уже не нужна «просто пластиковая карта». Клиентам нужен составной продукт, который позволит им покупать товары (offline и online); продукт, с постоянным и удобным доступом (со смартфона, планшета, домашнего ПК); продукт, который позволит экономить средства (скидки по карте, cashback, бонусы).

Управление рисками
Модели расчет банковских рисков, скоринговые модели все более и более усложняются, одновременно со сложностью моделей (качественной сложностью) растет и объем анализируемых данных (количественная сложность). А все увеличивающееся разнообразие способов оплаты (mPOS, мобильные платежи) и количество получателей платежей открывает все новые и новые фронты борьбы с мошенничеством.

Оптимизация операционных затрат
Увеличение конкуренции как со стороны виртуальных банков, так и со стороны стартапов, предоставляющих финансовые сервисы (P2P-кредитование, агрегаторы банковских счетов), вынуждают игроков на рынке банковских услуг снижать маржинальность многих банковских продуктов. В такой ситуации «полноценным» банкам важно уменьшать операционные издержки.

Общая проблема: обработка данных
Все возрастающие объемы как внутренних данных банка (профили клиентов, журнал финансовых операций и т.д.), так и внешних данных (данные НБКИ, отзывы в социальных сетях и т.д.) требует от банка качественно новых подходов к хранению и обработке данных.

Это лишь поверхностный список проблем, с которыми банковский сектор уже столкнулся.

Ниже мы рассмотрим практические банковские кейсы, которые решают разные части этих (и не только) проблем, а также как симбиоз концепций Больших Данных и методов машинного обучения позволяет эти проблемы решать.

31 марта 2015

Антифрод как сервис. Цикл статей

Антифрод-сервис. Цикл статей

No Fraud

Стремительный рост количества операций с пластиковыми картами, совершаемых через интернет, ставит перед разработчиками систем приема online-платежей все новые и новые вызовы, связанные с ростом масштаба таких систем и усложнением подходов к обеспечению их надежности и безопасности.

Не менее интенсивно растет количество мошеннических операций и разнообразие видов мошенничества. Россия, наряду с Англией, Францией, Германией, Испанией, входит в топ-5 европейский стран по годовому объему мошеннических операций с банковским картами. Общие объемы потерь от мошенничества по картам в 2013 году в Европе превысили 1 млрд. евро. На Россию приходится 110 млн. евро, из них 2,4 млн. евро мошенничество при оплате через интернет.

Этот цикл статей представляет собой описание эксперимента по созданию системы обнаружения мошеннических платежей по банковским картам.

Антифрод: машинное обучение

Антифрод: аналитическая система распознания мошеннических платежей

Статья из цикла «Antifraud Insights». Часть 4

В заключительной четвертой части статьи подробно обсудим наиболее сложную с технической точки зрения часть antifraud-сервиса – аналитическую систему распознания мошеннических платежей по банковским картам.

Выявление различного рода мошенничеств является типичным кейсом для задач обучения с учителем (supervised learning), поэтому аналитическая часть антифрод-сервиса будет построена с использованием алгоритмов машинного обучения.

Для стоящей перед нами задачи воспользуемся Azure Machine Learning – облачным сервисом выполнения задач прогнозной аналитики (predictive analytics).

Для понимания статьи будут необходимы базовые знания в области машинного обучения и знакомство с сервисом Azure Machine Learning.

Что уже было сделано? (для тех не читал предыдущие 3 части, но интересуется)

В первой части статьи мы обсудили, почему вопрос мошеннических платежей (fraud) стоит так остро для всех участников рынка электронных платежей – от интернет-магазинов до банков – и в чем основные сложности, из-за которых стоимость разработки таких систем подчас является слишком высокой для многих участников ecommerce-рынка.

Во 2-ой части были описаны требования технического и нетехнического характера, которые предъявляются к таким системам, и то, как я собираюсь снизить стоимость разработки и владения antifraud-системы на порядок(и).

В 3-ей части была рассмотрена программная архитектура сервиса, его модульная структура и ключевые детали реализации.

В заключительной четвертой части у нас следующая цель…

21 марта 2015

Антифрод: архитектура сервиса

Антифрод: архитектура Antifraud-сервиса

Статья из цикла «Antifraud Insights». Часть 3

Это третья часть эксперимента по созданию системы распознания мошеннических платежей (antifraud-система). Целью является создание доступного (в плане стоимости разработки и владения) antifraud-сервиса, который позволит сразу нескольким участникам проведения online-платежей – мерчантам, агрегаторам, платежным системам, банкам – снизить риски проведения мошеннических платежей (fraud) через их площадку.

В прошлой части мы сфокусировали внимание на функциональных и нефункциональных требованиях к антифрод-сервису. В этой части статьи рассмотрим программную архитектуру сервиса, его модульную структуру и ключевые детали реализации такого сервиса.

Инфраструктура

Сервис представляет собой несколько приложений, работающих в Microsoft Azure. Размещение с использованием облачной платформы вместо on-premise размещения не только позволит при незначительных временных затратах разработать сервис, отвечающий всем требованиям, перечисленным во второй части в разделе «Нефункциональные требования -> Атрибуты качества», но и существенно снизит первоначальные финансовые затраты на аппаратное и программное обеспечение.

Антифрод-сервис состоит из следующих систем:

  • Antifraud API Service – REST-сервис, предоставляющий API для взаимодействия с сервисом Fraud Predictor ML.
  • Fraud Predictor ML – сервис обнаружения мошеннических платежей, в основе которого лежат алгоритмы машинного обучения.
  • Transactions Log (лог транзакций) – NoSQL хранилище информации о транзакциях.

Кроме того, у сервиса имеются многочисленные программные клиенты (Clients), представляющие собой web-приложения мерчантов, либо js-виджеты, вызывающие REST-сервисы Antifraud API Service.

Принципиальная схема взаимодействия этих систем проиллюстрирована ниже.

Antifraud in azure

11 марта 2015

Антифрод: функциональные и нефункциональные требования

Антифрод: функциональные и нефункциональные требования

Статья из цикла «Antifraud Insights». Часть 2

В прошлой части было описано, почему проблема мошеннических платежей (fraud) стоит остро перед всеми участниками рынка online-платежей, какие сложности на пути создания собственной системы мониторинга мошеннических платежей (antifraud-системы) предстоит преодолеть, и почему для большинства мерчантов такие системы – дорогое удовольствие, за которое они не всегда готовы платить.

В этой части будут описаны требования к antifraud-системе, чье влияние на программную архитектуру является существенным.

05 марта 2015

Антифрод. Быстро, дешево… отлично

Антифрод. Быстро, дешево… отлично

Статья из цикла «Antifraud Insights». Часть 1

Эта статья представляет собой описание эксперимента по созданию системы обнаружения мошеннических платежей по банковским картам.

В первой части статьи я расскажу почему вопрос мошеннических платежей (fraud) стоит так остро для всех участников рынка электронных платежей – от интернет-магазинов до банков – и в чем основные сложности, из-за которых стоимость разработки таких систем подчас является слишком высокой для многих участников ecommerce-рынка.

Во второй части будут описаны требования технического и нетехнического характера, которые предъявляются к таким системам, и то, как я собираюсь снизить стоимость разработки и владения antifraud-системы на порядок(и).

В третьей части будет рассмотрена программная архитектура сервиса, его модульная структура и ключевые детали реализации.

В четвертой части статьи подробно обсудим наиболее сложную с технической точки зрения и наиболее интеллектуальную часть системы – самообучающуюся систему распознания мошеннических платежей.

Online Payment Flow

04 марта 2015

Azure Machine Learning для Data Scientist'а

Azure Machine Learning для Data Scientist'а

microsoft azure machine learning

Azure Machine Learning – облачный сервис для выполнения задач прогнозной аналитики (predictive analytics). Сервис представлен двумя компонентами: Azure ML Studio – средой разработки, доступной через web-интерфейс, и web-сервисами Azure ML.

Типичная последовательность действий data scientist'a при поиске закономерностей в наборе данных с использованием алгоритмов обучения с учителем изображена на иллюстрации ниже.

20 февраля 2015

Big Data и Machine Learning в Microsoft Azure. Анонсы

Big Data и Machine Learning в Microsoft Azure. Анонсы

ubuntu + hortonworks + microsoft Источник изображения: The Official Microsoft Blog [4]

На этой неделе компания Microsoft анонсировала целый ряд big data-/machine learning-сервисов в Microsoft Azure, которые появились в public-preview, либо уже перешли в General Availability (GA).

Много новостей о сервисе Azure HDInsight - PaaS-сервисe, предоставляющий Hadoop по требованию (on-demand) в облаке Microsoft Azure. C него и начнем.

13 января 2015

Hello, 2015! (или как я провел 2014-ый)

Hello, 2015! или как я провел 2014-ый

Hello, 2015!

С профессиональной точки зрения я вполне удовлетворен этим годом: я так же, как и в 2013-ом, много времени проводил непосредственно за разработкой, стал больше заниматься Computer Science, большое количество времени уделил образованию по Data Science. Единственное, чего стало заметно меньше – это сна.

13 ноября 2014

Big Data в Microsoft Azure. Анонсы

Big Data в Microsoft Azure. Анонсы

Microsoft love Big Data

Около полугода назад я публиковал ретроспективу того, что интересного для исследователей происходит в облаке Microsoft Azure.

Продолжу эту тему, немного сместив акцент в области, которые для меня последние пару лет неизменно остаются наиболее интересными в ИТ: Big Data, машинное обучение и их симбиозом с облачными технологиями.

Ниже обсудим преимущественно октябрьские анонсы сервисов Microsoft Azure, предоставляющих возможность пакетной и real-time обработки больших массивов данных, высокопроизводительный кластер по требованию, широкую поддержку алгоритмов машинного обучения.

24 мая 2014

Паттерны асинхронного программирования в .NET

Паттерны асинхронного программирования в .NET

Большинство современных приложений устроены так, что им необходимо постоянное взаимодействие с миром: получение данных из БД, отправка запросов на внешний web-ресурс, ожидание ввода пользователя.

Наиболее привычный синхронный вызов таких взаимодействий приводит к простаиванию потоков в ожидании ответов, к избыточному расходованию оперативной памяти (потоки впустую занимают память). Все это является причиной снижения производительности приложения, а также его невысокой способности к масштабированию.

Запросы к веб-сервисам и к внешним ресурсам (такие как, базы данных), запросы, интенсивно использующие I/O-операции - хорошей практикой в описанных случаях является использование шаблонов асинхронного программирования - способа выполнения длительных операций без блокировки вызывающего потока.

Выделают следующие паттерны асинхронного программирования:

  • асинхронный шаблон или Asynchronous Programming Model (APM);
  • асинхронный шаблон, основанный на событиях, или Event-based Asynchronous Pattern (EAP);
  • асинхронный шаблон, основанный на задачах, или Task-based Asynchronous Pattern (TAP).

В .NET модель AРМ появилась еще в первой версии фреймворка .NET. В .NET Framework 2.0 появилась модель EAP. TAP-паттерн базируется на типе Task, появившемся в .NET 4.0, и применении ключевых слов async и await, появившихся в компиляторе C# версии 5.

В API следующих классов есть поддержка вызовов асинхронных методов (доступно в .NET Framework 4.5):

  • работа c web-ресурсами: System.Net.Http.HttpClient, System.Net.WebRequest, System.Net.Sockets.Socket, System.Net.Dns, etc.;
  • работа с web-сервисами: инструменты генерации прокси для веб-сервисов (wsdl.exe и svcutil.exe) генерируют код вызова методов служб в соответствии с паттернами APM, EAP, TAP;
  • работа с файловой системой: StorageFile, StreamWriter, StreamReader, XmlReader;
  • работа с базами данных: System.Data.SqlClient.SqlCommand;
  • работа с графикой: MediaCapture, BitmapEncoder, BitmapDecoder.

Ниже обзорно рассмотрен каждый из паттернов асинхронного программирования, а также приведены примеры вызовов WCF-служб с использованием каждого из перечисленных шаблонов.

18 мая 2014

Real-time для Big Data

Real-time для Big Data. Обзор фреймворков

Ценность данных падает во времени. В некоторых системах ценность данных во времени падает драматически. К кейсам с такими характеристиками традиционно относят:

  • Системы мониторинга и анализа (в том числе веб-аналитики);
  • Задачи обнаружение подозрительных/мошеннических действий (fraud detection);
  • Задачи предсказанию пользовательской активности/пользовательских предпочтений в ecommerce, рекламных сетях, online-играх;
  • Задачи оптимизации работы отдельных устройств и/или сетей, объединяющих эти устройства;
  • Высокочастотных трейдинг на финансовых рынках.

Для всех этих задач latency является одним из ключевых требований к работе разрабатываемого ПО.

В этой статье обсудим фреймворки/платформы, предоставляющие разработчикам инструменты работы с Большими Данными в real-time- или near-real-time-режиме.

.NET-реализация map/reduce

.NET-реализация модели map/reduce (на одном вычислительном узле)

Hadoop + .NET Framework

При торговле на рынках ценных бумаг / валютных рынках одной из нередких задач является расчет величины (ширины) спреда. Спред (от англ. spread «размах») — разность между лучшими ценами заявок на продажу (ask) и на покупку (bid) в один и тот же момент времени на какой-либо актив (акцию, товар, валюту, фьючерс, опцион) [wikipedia].

Спред важен, так как отражает ликвидность актива. Так чем меньше спред, тем ликвиднее актив, и наоборот.

Проблема в том, что на финансовых биржах количество выставленных игроками заявок на покупку/продажу активов – это, в общем случае, цифра с 6-ю нулями. Количество финансовых инструментов, торгуемых, даже одной бирже также исчисляется тысячами.

Поэтому расчет спреда финансового инструмента – не самая тривиальная задача. Кроме того, эта задача является параллельной по данным и к ней вполне применены те практики, которые используются для решения задач, связанных с Большими Данными.

Ниже мы рассмотрим пример расчета спреда наиболее ликвидных акций биржи ММВБ-РТС, а также in-memory-реализацию программной модели map/reduce на C#, как эффективный подход к расчету спреда акций.

20 апреля 2014

Облака Microsoft Azure для исследователей. Ретроспектива

Облака Microsoft Azure для исследователей. Ретроспектива

Application building blocks for Azure Источник изображения: Windows Azure Dev Camp

Некоторое время назад с различной детализацией в своих публикациях освещал некоторые вещи, которые Microsoft делает в направлениях «Big Data + Cloud Computing» (серия статей про HDInsight, предоставляющий Hadoop-as-a-Service) и «Big Data + HPC» (серия статей про фреймворк распределенных вычислений Dryad).

Повторно мое внимание к этой теме привлек недавний анонс, что российские ученые получили грант Microsoft Research для исследований в области генетических заболеваний:

Исследователи Института общей генетики РАН и Института цитологии и генетики СО РАН получили грант на использование облачной платформы Windows Azure для исследований генов человека, вызывающих болезнь Альцгеймера.

06 апреля 2014

//BUILD 2014

//build 2014

Совсем недавно, 4 апреля, прошло закрытие самой масштабной в мире конференции по программным продуктам и технологиям Microsoft – Microsoft Build Developer Conference 2014 (или просто «Build 2014») Эта конференция о будущем (краткосрочном) технологий Microsoft, и она, безусловно, приковывает внимание профессионалов всего .NET-мира.

Традиционно любая ИТ-компания к такого типа конференциям готовит порцию новых девайсов / программным продуктов / сервисов и еще тонны маркетинговой чепухи. В Build 2014 меня, в первую очередь, интересовали хабы, посвященные облачной платформе Microsoft Azure и тому, что я называю «Microsoft Vision» - виденье будущего от Майкрософт.

build 2014 Источник изображения: buildwindows.com

05 апреля 2014

Exam 70-483: Programming in C#

Exam 70-483: Programming in C#

Довольно продолжительное время (~TimeSpan.FromDays(100)) ни в этом блоге, ни на моей странице на Хабре не появлялось новых публикаций. Причин этому было две. Первая, моя академическая деятельность в Балтийском Федеральном Университете подошла к концу. Вторая, появившееся свободное время я занял подготовкой к сдаче сертификационного экзамена Microsoft «70-483: Programming in C#».

31 декабря 2013

</2013>

</2013>

Это очень короткий новогодний пост (:

Всех с Новым 2014 годом!
Терпения, упорства и новых открытий!

29 декабря 2013

Google Platform. Серия статей

Google Platform. Серия статей

В мире есть компания, которая решает проблемы Big Data вот уже 10 лет. Есть уверенность, ни одна коммерческая компания или некоммерческая организация не оперирует большим объемом данных, чем эта компания.

Данная компания являлась основным контрибьютором идей платформы Hadoop, а также многих компонентов экосистемы Hadoop, таких как HBase, Apache Giraph, Apache Drill.

Как Вы уже вероятно догадались, речь идет о Google.

В серии статей «Google Platform» будут рассмотрена история развития инструментов работы с Большими Данными в Google, а также подробно рассмотрены основные компоненты созданной инженерами Google «Big Data»-инфраструктуры.

22 декабря 2013

Google Photon. Обработка данных со скоростью света

Google Photon. Обработка данных со скоростью света*

Статья из цикла «Google Platform»

Photon – масштабируемая, отказоустойчивая и географически распределенная система обработки потоковых данных в режиме реального времени. Система является внутренним продуктом Google и используется в Google Advertising System. Research paper [5], описывающие базовые принципы и архитектуру Photon, был представлен на научной конференции ACM SIGMOD в 2013 году.

В research paper [5] заявлено, что пиковая нагрузка на систему может составлять миллионы событий в минуту со средней end-to-end задержкой менее 10 секунд.

01 декабря 2013

Dremel. Как Google считает в real-time?

Dremel. Как Google считает в real-time?

Статья из цикла «Google Platform»

Dremelмасштабируемая система обработки запросов в режиме близком к режиму реального времени (near-real-time), предназначенная для анализа неизменяемых данных [4].

Авторы research paper [4] (среди которых, судя по всему, и наши соотечественники - Сергей Мельник и Андрей Губарев), в котором описываются базовые принципы и архитектура Dremel, заявляют, что система в силах:

  • выполнять агрегирующие запросы над боле чем над триллионом строк за секунды;
  • масштабируется на тысячи CPU;
  • предназначена для работы с петабайтами данных;
  • имеет тысячи пользователей внутри Google (дословно «at Google»).

Spanner. NewSQL СУБД от Google

Spanner. NewSQL СУБД от Google

Статья из цикла «Google Platform»

Spannerгеографически распределенная высокомасштабируемая мультиверсионная база данных с поддержкой распределенных транзакций. База данных была разработана инженерами Google для внутренних сервисов корпорации. Research paper [8], описывающие базовые принципы и архитектуру Spanner, был представлен на научной конференции 10th USENIX Symposium on Operating Systems Design and Implementation в 2012 году.

Spanner является эволюционным развитием NoSQL-предшественника – Google Bigtable. Сам же c Spanner относят к семейству NewSQL-решений. В research paper [8] заявляется, что дизайн Spanner позволяет системе масштабироваться на миллионы вычислительных узлов через сотни дата-центров и работать с триллионами строк данных.

28 ноября 2013

Colossus. Распределенная файловая система от Google

Colossus. Распределенная файловая система от Google

Статья из цикла «Google Platform»

Colossus (или GFS2) – это проприетарная распределенная файловая система от Google, запущенная в production-режиме в 2009 году. Colossus является эволюционным развитием GFS. Как и ее предшественник GFS, Colossus оптимизирована для работы с большими наборами данных, прекрасно масштабируется, является высокодоступной и отказоустойчивой системой, а также позволяет надежно хранить данные.

В то же время, Colossus решает часть задач, с которыми GFS не справлялась, и устраняет некоторые узкие места предшественника.

27 ноября 2013

Google MapReduce

Google MapReduce

Статья из цикла «Google Platform»

MapReduce – это программная модель, описанная инженерами Google в research paper [2], и ассоциированная с этой программной моделью реализация (фреймворк), позволяющий обрабатывать большие объемы данных распределено.

В простейшем случае в программной модели MapReduce выделяют 2 фазы:

  • map(ƒ, c): принимает функцию ƒ и список c. Возвращает выходной список, являющийся результатом применения функции ƒ к каждому элементу входного списка c.
    map(f, c)
  • reduce(ƒ, c): принимает функцию ƒ и список c. Возвращает объект, образованный через свертку коллекции c через функцию ƒ.
    reduce(f, c)

26 ноября 2013

Bigtable. Хранилище для петабайтов данных Google

Bigtable. Хранилище для петабайтов данных Google

Статья из цикла «Google Platform»

Bigtable – высокопроизводительная база данных, реализующая колоночную схему хранения и построенная на основе GFS и некоторых других внутренних продуктах Google. Как и GFS, Bigtable – проприетарная система, внутреннее устройство которой, тем не менее, было подробно описано инженерами Google в research paper [3].

Bigtable – хорошо масштабирующееся хранилище данных, рассчитанное на хранение петабайтов информации и работающее на commodity-серверах. Bigtable работает на production-серверах с 2005 года. В разное время в BigTable хранили данные web-индексов, сервисов Google Analytics, Google Earth, Google Finance [3].

Google File System (GFS)

Google File System (GFS)

Статья из цикла «Google Platform»

Google File System (GFS) – распределенная файловая система (ФС) Google. Система является проприетарной, по некоторым сведениям работа над GFS была начата еще в 2000 году; общие принципы построения были довольно подробно описаны в документе [1], представленном на ACM SIGOPS Operating Systems Review в 2003 году.

Google Platform. Введение

Google Platform. Введение

Вводная статья цикла «Google Platform»

Хранение и обработка данных – это задача, которую человечество с переменным успехом решает ни одну тысячу лет. Проблемы, связанные с решением этой задачи, связаны не только с физическим объемом данных (volume), но и со скоростью изменчивости этих данных (velocity) и многообразием (variety) источников данных – то, что аналитики Gartner в своих статьях [11, 12] обозначили как «3V».

Количественные изменения в системе неизменно переходят в качественные [13]. Изобретение письменности, книгопечатанье, автоматизированные средства обработки данных разумно рассматривать, как ответ на вызов, который ставит проблема 3V.

Современная Computer Science сейчас встретилась с проблемой Больших данных, решения которой от ИТ ждут частные компании, правительства, научное сообщество (которое не занято в computer science).

Но в мире есть одна компания, которая встретилась с проблемой Big Data еще порядка 10 лет назад. По моему ощущению (т.к. чтобы заявить достоверно нужны открытые данные, которых в свободном доступе нет) ни одна коммерческая или некоммерческая организация не оперирует большим объемом данных, чем эта компании.

Именно эта компания являлась основным контрибьютором идей платформы Hadoop, а также многих компонентов экосистемы Hadoop, таких как HBase, Apache Giraph, Apache Drill.

Как Вы догадались, речь идет о Google.

25 ноября 2013

Cloud OS Summit 2013. Один день до облачной конференции от Microsoft

Cloud OS Summit 2013. Один день до облачной конференции от Microsoft

Cloud OS Summit 2013
At Build Conference (…) Microsoft reported big numbers for Azure, too: 8.5 trillion storage objects, 900,000 storage transactions processed per second, and 250,000 customers on the platform, with 1,000 new ones added every day.
-- VisualStudioMagazine.com 07.07.2013

Никогда бы не подумал, что Microsoft начнет проводить конференции по своей облачной платформе Windows Azure чаще, чем раз в год (тем более, что уж тут греха таить, в России).
Но, к моему приятному удивлению, все именно так – в феврале 2013 года проходила конференция Windows Azure Summit, о которой я также писал, а менее чем через день – 27 ноября – пройдет конференция Cloud OS Summit.

02 ноября 2013

Hadoop + Windows Azure: «дружба» в Enterprise

Hadoop + Windows Azure: «дружба» в Enterprise

За последние пол месяца произошло три ИТ-события, лежащие в плоскости Big Data, Cloud Computing и на их симбиозе. По странному стечению обстоятельств эти события остались без должного внимания как со стороны хабросообщества, так и со стороны немногочисленных профессиональных сетевых сообществ в LinkedIn и Facebook.

События, о которых идет речь — конференция «Strata + Hadoop World», релиз стабильной версии Hadoop 2.2.0 и облачного сервиса Windows Azure HDInsight. О косвенной и прямой взаимосвязи этих событий речь и пойдет ниже.

Windows Azure HDInsight 2.1 Ecosystem

27 октября 2013

Функциональность, время, ресурсы. Непростой выбор

Функциональность, время, ресурсы. Непростой выбор

Конфликты. Компромиссы. Возможность выбора

Переговоры с заказчиком - это всегда конфликт интересов.

От ораторских умений переговорщиков как со стороны ИТ, так и со стороны бизнеса, и от их способности приходить к компромиссам зависит в насколько «удобных» для обоих сторон условиях будет проходить разработка приложений.

functionality vs time vs resources

Казалось бы: причем тут ИТ? В современных условиях team leader начал должен выполнять роль переговорщика - ТЗ уже не согласовывается единовременно в начале разработки группой начальников («водопад»), вместо этого каждый цикл развития ПО (спринт) итеративно вырабатываются/берутся из пула новые требования (гибкие методы разработки).

Agile сменил Watterfall в таком количестве кейсов, что рынок уже требует, чтобы лидер команды разработки умел разговаривать с бизнесом на языке самого бизнеса. И даже лучше них.

22 октября 2013

Релиз стабильной версии Apache Hadoop 2.x

Релиз стабильной версии Apache Hadoop 2.x

Hadoop MapReduce 2.0

На днях - 15.10.2013 - состоялся релиз стабильной версии (Generally Available, GA) версии Apache Hadoop 2.x.

Об одном из, безусловно, самых инновационных изменений - вычислительном фреймворке YARN - я уже подробно писал. Кроме этого, к нововведениям Apache Hadoop 2.2.0 относятся:

02 июня 2013

Hadoop Insight. Цикл статей

Hadoop Insight. Цикл статей

В июне 2011 года было опубликовано исследование, проведенное аналитическим агентством IDC по заказу компании EMC, согласно которому объем информации в мире увеличивается более чем в два раза каждые два года. Согласно этому исследованию, в 2011 году будет создано и реплицировано 1,8 зеттабайт данных – быстрее, чем по закону Мура.

Big Data

Проблема - Big Data. Решение - Hadoop

Объем данных генерируемый и собираемый современными научно-исследовательским центрами, финансовыми институтами, социальными сетями действительно огромен. В дата-центрах Facebook уже хранится более 15 млрд. изображений, нью-йоркская фондовая биржа NYSE создает и реплицирует ежедневно около 1 Тб данных, большой адронный коллайдер генерирует около 40 Тб экспериментальных данных в день.

Dryad Insight. Цикл статей

Dryad Insight. Цикл статей

Представьте себе фреймворк общего назначения для распределенного исполнения приложений со следующими статистическими показателями (статистические данные за 2011 год):

Dryad Statistics

А теперь представьте, что это не Hadoop.

О том, что это за фреймворк, о идеях и концепциях, заложенных в его основу и о том, почему этот фреймворк более инновационный (субъективно), чем Hadoop, речь пойдет в цикле статей (о нем ниже).

26 мая 2013

Dryad vs Hadoop

Dryad vs RDBMS vs Hadoop

Третья статья из цикла статей «Dryad. Big Data от Microsoft»

В первых двух статьях цикла «Dryad. Big Data от Microsoft» был рассмотрен фреймворк распределенных вычислений от Microsoft – Dryad. В частности, подробно были описаны концепции и архитектура ключевых компонентов Dryad – среды исполнения Dryad и языка запросов DryadLINQ.

В третьей заключительной части цикла будет проведено сравнение фреймворка Dryad с другими MPP «инструментами» – реляционными СУБД, GPU-вычислениями и платформой Hadoop.

RDBMS vs Hadoop vs Dryad

DryadLINQ. Распределенный LINQ от Microsoft Research

DryadLINQ. Распределенный LINQ от Microsoft Research

Вторая статья из цикла статей «Dryad. Big Data от Microsoft»

В прошлой статье мы рассмотрели фреймворк распределенного исполнения приложений Dryad. В основе фреймворка лежит представление задания, как направленного ациклического графа, где вершины графа представляют собой программы, а ребра - каналы, по которым данные передаются. Также была обзорно рассмотрена экосистема фреймворка Dryad и сделан подробный обзор архитектуры одного из центральных компонентов экосистемы фреймворка – среды исполнения (runtime) распределенных приложений Dryad.

В этой статье мы рассмотрим компонент верхнего уровня программного стэка (software stack) фреймворка Dryad – язык запросов DryadLINQ.

LINQ vs PLINQ vs DryadLINQ

04 мая 2013

Dryad. Фреймворк распределенных вычислений от Microsoft Research

Dryad. Фреймворк распределенных вычислений от Microsoft Research

Первая статья из цикла статей «Dryad. Big Data от Microsoft»

Data-Parallel Computations. Concepts

С каждым днем задача обработки больших объемов данных становится все актуальнее не только для крупного бизнеса и научных лабораторий, но и для стартапов и небольших исследовательских групп.

Термин «Big Data» вошел в обиход ИТ-профессионалов (и входит в «словарь» маркетологов); Hadoop признали самым инновационным проектом 2011 года; ИТ-гиганты*, как Google, Microsoft, Yahoo, Яндекс, разработали по собственному фреймворку распределенных вычислений.

Все из вышеперечисленных компаний бросили силы на решение одной из наиболее остростоящей и интересной задачи ИТ-мира: предоставить разработчику удобный инструмент написания параллельных программ, исполняющихся распределено.

Каким видит ответ на этот вопрос подразделение Microsoft Research? Какие концепции и подходы были применены для поиска решения? А также: каковы ограничения, накладываемые этими подходами, и перспективы получившейся программной платформы? Всеми этими вопросами мы зададимся в этой статье.

21 апреля 2013

Об авторе

Приветствую тебя, дорогой читатель и, уверен, что единомышленник!

Меня зовут Дмитрий Петухов. Я разработчик, энтузиаст, неутомимый исследователь и кофеман.

В сферу моих профессиональных интересов входит архитектура распределенных и высоконагруженных систем, облачные вычисления, машинное обучение.

Правила и принципы блога

Правила и принципы блога

Условия использования

Материал, представленный на сайте, распространяется по лицензии Attribution-ShareAlike с обязательным указанием авторства.

16 февраля 2013

Windows Azure Summit // Moscow, 2013

Windows Azure Summit // Moscow, 2013

Windows Azure Summit

Изображение взято из приглашения, высланного мне на email (надеюсь, это не безнадежно противозаконно :)

20 февраля в Москве пройдет конференция Windows Azure Summit.
Как утверждают официальные (но от этого не менее авторитетные) источники,

Windows Azure Summit – ключевая конференция по облачной платформе Microsoft.

09 февраля 2013

Уходим в облака. Подключение Windows Azure CDN к Blogger

Уходим в облака. Подключение Windows Azure CDN к Blogger

Связанность - это характеристика взаимосвязи подсистем одной системы. Связанностью обладают любые системы: как программные, так и политические; как web-приложения, так и эукариотические клетки.

В программных комплексах сильная связанность (coupling) между компонентами, относящимися к разным логическим слоям является большим «ограничителем» гибкости (и причиной жесткости). Такая связанность – зло, которое сложно переоценить.

Привычка подсознательно искать сильную связанность внутри сложных систем недавно натолкнула меня на одну из проблем, связанных с моим «блоготворчеством» – содержимое моих постов в blogger слишком сильно завязано на саму платформу blogger. Что, в свою очередь, приводит к растущей, пропорционально количеству постов, зависимости от blogger, и, как следствие, внушительному количеству потраченных человеко-часов при миграции на другую блогоплатформу.

Выделю следующие проблемы:

  • отсутствие контроля над хранилищем содержимого постов;
  • слабый контроль над статическим содержимым постов.

Вышеперечисленные проблемы, на мой взгляд, являются причиной (именно причиной, а не следствием) сильной связанности между слоем хранения и представлением (view), за которое отвечает web-приложение blogger. Причем эта связанность проявляется не на уровне функционирования самого web-приложения blogger, a на уровне инфраструктуры, предоставляемой blogger авторам блогов.

В данном посте я расскажу об архитектурном подходе, который я применил для «отвязки» от web-приложения blogger и создания инфраструктуры публикации со слабой связанностью между слоями хранения статического содержимого и представления этого содержимого.

29 декабря 2012

2012: итоги. 2013: планы

2012: итоги. 2013: планы

Happy New Year!

Ловлю себя на мысли, что не хочется обсуждать (в тем более, что и без меня их достаточно обсудили), что в уходящем году меня удивило больше: iOS 5 или Windows Phone 8, IPO Facebook или отказ размещения акций ВКонтакте, возможный фискальный обрыв в США или что Греция «удержалась» в ЕС, поиск бозона Хиггса в БАК или нахождение на Марсе органических соединений с Земли.

2012-ый не стал революционным. Это был хороший эволюционный год, в котором соблюдались все законы диалектического развития. А что же его для меня таким сделало, я расскажу ниже.

Microsoft Exam 70-480: Programming in HTML5 with JavaScript and CSS

Microsoft Exam 70-480: Programming in HTML5 with JavaScript and CSS

Passed Microsoft Exam 70-480

Прошло чуть больше недели с тех пор, как я увидел «Result: Pass… bla-bla… Your score: 900» в результатах своего сертификационного экзамена Microsoft. И пока воспоминания свежи, спешу поделиться своим положительным опытом.

02 декабря 2012

Microsoft HDInsight. «Облачное» (и не только) будущее Hadoop

Microsoft HDInsight. «Облачное» (и не только) будущее Hadoop

Big Data + Cloud Computing

Объем данных, генерируемый и собираемый современными научно-исследовательским центрами, финансовыми институтами, социальными сетями, уже привычно измеряется петабайтами. Так в дата-центрах Facebook хранится уже более 15 млрд. изображений, нью-йоркская фондовая биржа NYSE создает и реплицирует ежедневно около 1 Тб данных, Большой адронный коллайдер получает около 1 Пб данных в секунду.

Очевидно, что задачи обработки больших объемов данных все чаще становятся не только перед крупными компаниями, но перед стартапами и небольшими исследовательскими группами.

Платформа Hadoop, которая, в принципе, успешно решает проблему Big Data для полу- и неструктурированных данных, в своем «чистом» виде предъявляет значительные требования как к квалификации администраторов Hadoop-кластера, так и к первоначальным финансовым затратам на аппаратное обеспечение такого кластера.

В такой ситуации симбиоз облачных технологий и платформы Hadoop все чаще представляется как крайне перспективный способ решения проблемы «Больших данных», имеющий крайне невысокий уровень входа (квалификация + затраты на запуск).

26 ноября 2012

MapReduce 2.0. Какой он современный цифровой слон?

MapReduce 2.0. Какой он современный цифровой слон?

Elephant

Если ты ИТшник, то нельзя просто так взять и выйти на работу 2-го января: пересмотреть 3-ий сезон битвы экстрасенсов или запись программы «Гордон» на НТВ (дело умственных способностей вкуса).

Нельзя потому, что у других сотрудников обязательно будут для тебя подарки: у секретарши закончился кофе, у МП - закончились дедлайны, а у администратора баз данных - амнезия память.

Инженеры Hadoop также, как и простые смертные, любят побаловать друг друга новогодними подарками.

2008

2 января.
Упуская подробное описание эмоционально-психологического состояния лиц, участвующих в описанных ниже событиях, сразу перейду к факту: поставлен таск MAPREDUCE-279 «Map-Reduce 2.0». Оставив шутки про число, обращу внимание, что до 1-ой стабильной версии Hadoop остается чуть менее 4 лет.

За это время проект Hadoop пройдет эволюцию из маленького инновационного снежка, запущенного в 2005, в большой снежный com ком, надвигающийся на ИТ, в 2012.

Давайте разберемся какое же значение январский таск MAPREDUCE-279 играл в этой эволюции и, надеюсь, еще сыграет в 2013 году.

16 ноября 2012

Триады программирования

Триады программирования

Программирование крайне противоречивый вид деятельности.

Это своего рода передача субъективного восприятия объекта вычислительному устройству, по определению лишенного понятия о субъективизме. Я бы назвал это термином «творческая формализованность» (или может быть «формализованное творчество»?).

Мне нравится идея о дуализме. Нравится раскладывать то, что я делаю, на диалектические триады. Нравится связка «Cloud + Big Data + HPC», кофе с молоком и мультипарадигмальность в современных ЯП.

20 октября 2012

Облачные технологии. Программа для магистратуры

Облачные технологии. Программа для магистратуры

Cloud Computing

(Из рабочей программы учебной дисциплины «Облачные технологии» для магистров по направлению «Бизнес-информатика». Составитель: Дмитрий Петухов [я])

Аннотация

Облачные технологии один из ведущих трендов в мире IT на протяжении уже трех лет.

Несмотря на свою молодость, облачные вычисления заставили не только архитекторов ПО, но и менеджеров компаний взглянуть по-другому на модели развертывания ИТ-инфраструктур, распространения программного обеспечения, получения вычислительных ресурсов.

Автор статьи

,
Machine Learning Preacher, Microsoft AI MVP && Coffee Addicted