29 декабря 2013

Google Platform. Серия статей

Google Platform. Серия статей

В мире есть компания, которая решает проблемы Big Data вот уже 10 лет. Есть уверенность, ни одна коммерческая компания или некоммерческая организация не оперирует большим объемом данных, чем эта компания.

Данная компания являлась основным контрибьютором идей платформы Hadoop, а также многих компонентов экосистемы Hadoop, таких как HBase, Apache Giraph, Apache Drill.

Как Вы уже вероятно догадались, речь идет о Google.

В серии статей «Google Platform» будут рассмотрена история развития инструментов работы с Большими Данными в Google, а также подробно рассмотрены основные компоненты созданной инженерами Google «Big Data»-инфраструктуры.

If you want to know what the large-scale, high-performance data processing infrastructure future looks like, my advice would be to read the Google research papers that are coming out right now. — Mike Olson, Cloudera CEO

Содержание цикла

  • Платформа Google. Введение
  • 2003-2008
    • Google File System (GFS) – распределенная файловая система;
    • Bigtable – высокопроизводительная база данных, ориентированная на хранение петабайт данных;
    • MapReduce – программная модель, предназначенная для распределенной обработки больших объемов данных.
  • 2009-2013
    • Colossus (GFS2) – распределенная файловая система, являющаяся развитием GFS.
    • Spanner – масштабируемое геораспределенное хранилище с поддержкой версионности данных, являющийся развитием BigTable.
    • Dremel – масштабируемая система обработки запросов в режиме близком к режиму реального времени (near-real-time), предназначенная для анализа связанных read-only данных.
    • Photon – масштабируемая, отказоустойчивая и геораспределенная система обработки потоковых данных.
  • Список используемых источников

Автор статьи

,
Machine Learning Preacher, Microsoft AI MVP && Coffee Addicted