02 июня 2013

Hadoop Insight. Цикл статей

Hadoop Insight. Цикл статей

В июне 2011 года было опубликовано исследование, проведенное аналитическим агентством IDC по заказу компании EMC, согласно которому объем информации в мире увеличивается более чем в два раза каждые два года. Согласно этому исследованию, в 2011 году будет создано и реплицировано 1,8 зеттабайт данных – быстрее, чем по закону Мура.

Big Data

Проблема - Big Data. Решение - Hadoop

Объем данных генерируемый и собираемый современными научно-исследовательским центрами, финансовыми институтами, социальными сетями действительно огромен. В дата-центрах Facebook уже хранится более 15 млрд. изображений, нью-йоркская фондовая биржа NYSE создает и реплицирует ежедневно около 1 Тб данных, большой адронный коллайдер генерирует около 40 Тб экспериментальных данных в день.

Одним из наиболее эффективных подходов к обработке большого количества информации является появление в конце 2000-х годов группы концепций, методов и инструментов обработки данных под общим названием «Большие Данные».

Аналитики Gartner в своих статьях описали три основных характеристики «Больших Данных», обозначаемых как «три V»:

  • объём (англ. volume) – физический объем хранимых данных;
  • скорость (англ. velocity) – скорость изменчивости данных и, как следствие, последующий анализ этих изменений;
  • многообразие (англ. variety) – разнообразие обрабатываемых типов данных: как структурированные, так и неструктурированные данные.

Одной из ключевых технологий реализации концепций Big Data является платформа Hadoop.

Hadoop – это программная платформа (Software Framework) построения распределенных приложений для массово-параллельной обработки (Massive Parallel Processing, MPP) данных.

Платформа развивается с 2004 года и используется в интернет-сервисах крупнейших ИТ-компаний, таких как Yahoo, Facebook, AOL, Twitter, Amazon, Apple, LinkedIn, EBay. Hadoop также имеет большое community-сообщество, богатую программную экосистему и нескольких крупных дистрибьюторов.

О лежащих в его основе Hadoop идеях и концепциях, которым платформа обязана своим успехом, о ее основных компонентах, реализующих эти концепции, экосистеме, ограничениях и перспективах пойдет речь в цикле статей «Hadoop Insight».

Содержание цикла

  1. Введение. Big Data. Проблема и решения.
  2. 1. Платформа Hadoop. Обзор.
  3. 2. HDFS. Основные концепции и архитектура.
  4. 3. Hadoop MapReduce. Основные концепции и архитектура.
  5. Заключительная статья: Hadoop. Ограничения и перспективы.

Bonus

  1. MapReduce 2.0. Какой он современный цифровой слон?
  2. Microsoft HDInsight. «Облачное» (и не только) будущее Hadoop.
Hadoop Ecosystem

Автор статьи

,
Machine Learning Preacher, Microsoft AI MVP && Coffee Addicted