Hadoop Insight. Цикл статей
В июне 2011 года было опубликовано исследование, проведенное аналитическим агентством IDC по заказу компании EMC, согласно которому объем информации в мире увеличивается более чем в два раза каждые два года. Согласно этому исследованию, в 2011 году будет создано и реплицировано 1,8 зеттабайт данных – быстрее, чем по закону Мура.
Проблема - Big Data. Решение - Hadoop
Объем данных генерируемый и собираемый современными научно-исследовательским центрами, финансовыми институтами, социальными сетями действительно огромен. В дата-центрах Facebook уже хранится более 15 млрд. изображений, нью-йоркская фондовая биржа NYSE создает и реплицирует ежедневно около 1 Тб данных, большой адронный коллайдер генерирует около 40 Тб экспериментальных данных в день.
Одним из наиболее эффективных подходов к обработке большого количества информации является появление в конце 2000-х годов группы концепций, методов и инструментов обработки данных под общим названием «Большие Данные».
Аналитики Gartner в своих статьях описали три основных характеристики «Больших Данных», обозначаемых как «три V»:
- объём (англ. volume) – физический объем хранимых данных;
- скорость (англ. velocity) – скорость изменчивости данных и, как следствие, последующий анализ этих изменений;
- многообразие (англ. variety) – разнообразие обрабатываемых типов данных: как структурированные, так и неструктурированные данные.
Одной из ключевых технологий реализации концепций Big Data является платформа Hadoop.
Hadoop – это программная платформа (Software Framework) построения распределенных приложений для массово-параллельной обработки (Massive Parallel Processing, MPP) данных.
Платформа развивается с 2004 года и используется в интернет-сервисах крупнейших ИТ-компаний, таких как Yahoo, Facebook, AOL, Twitter, Amazon, Apple, LinkedIn, EBay. Hadoop также имеет большое community-сообщество, богатую программную экосистему и нескольких крупных дистрибьюторов.
О лежащих в его основе Hadoop идеях и концепциях, которым платформа обязана своим успехом, о ее основных компонентах, реализующих эти концепции, экосистеме, ограничениях и перспективах пойдет речь в цикле статей «Hadoop Insight».
Содержание цикла
- Введение. Big Data. Проблема и решения.
- 1. Платформа Hadoop. Обзор.
- 2. HDFS. Основные концепции и архитектура.
- 3. Hadoop MapReduce. Основные концепции и архитектура.
- Заключительная статья: Hadoop. Ограничения и перспективы.
Bonus
- MapReduce 2.0. Какой он современный цифровой слон?
- Microsoft HDInsight. «Облачное» (и не только) будущее Hadoop.