Как вы используете MapReduce/Hadoop?

Я ищу некоторую общую информацию о том, как другие люди используют Hadoop или другие технологии, подобные MapReduce. В общем, мне любопытно, записываете ли вы MR-приложения для обработки существующих наборов данных (например, файлы журналов веб-сервера) или пишите приложения, которые генерируют и обрабатывают новые наборы данных?

Edit: Последующие вопросы

(1) Выполняете ли вы когда-либо программу MR против данных, сгенерированных другими программами MR?

(2) Вам нужно изменить существующие наборы данных с помощью MR?

(3) Вы когда-нибудь делили свои наборы данных с другими разработчиками?

5 ответов

Оформить вики PowerdBy Hadoop для примеров всего от Facebook до FOX News и того, как они ее используют.


Я анализирую существующие наборы данных, в моем случае следы активности программиста.


В общем, мне любопытно, пишете ли вы MR-приложения обрабатывать существующие наборы данных (например, файлы журналов веб-сервера), или вы записывать приложения, которые генерируют и обрабатывают новые наборы данных?

Работа, которую я выполняю с приложениями MR, включает обработку существующих наборов данных, которые могут использоваться для создания новых наборов данных, которые...

(1) Выполняете ли вы когда-либо программу MR против данных, сгенерированных другими программами MR?

... да. Это называется цепочкой операций Map/Reduce, где вы связываете несколько карт и последовательно сокращаете задания.

(2) Вам нужно изменить существующие наборы данных с помощью MR?

Идея MR заключается в том, чтобы забросить существующий набор данных и не изменять его, чтобы обрабатывать и анализировать информацию из нее. Единственный случай, когда я должен был это сделать, состоит в разделении набора данных на посылки.

(3) Вы когда-нибудь делили свои наборы данных с другими разработчиками?

Большая часть кода, который задействован в активных приложениях MR, считается проприетарной, как моя, поэтому обмен ею с другими разработчиками - это проблема; если вы хотите, чтобы образцы наборов данных работали с книгами, которые я рекомендую, это Pro Hadoop (Venner), Hadoop in Action (Lam) и Hadoop Definitive Guide (Белый).


Я использовал hadoop как часть nutch, а для построения/анализа веб-графиков и текста

(1) Многие задачи не могут выполняться за один раз, поэтому необходимо запустить MR для генерируемых MR данных.

(2) При сканировании с помощью nutch бывают ситуации, когда вам нужно фильтровать или нормализовать crawldb или другие данные. (Итак, да)

(3) До сих пор в основном как отвалы или результаты в некотором роде. Не так, как "родные" MR-данные.


До сих пор мы использовали анализ больших наборов поведенческих данных (собранных из Интернета, мобильных телефонов и т.д.) и распараллеливания подходов к большим проблемам (например, используя генетические алгоритмы для поиска локальных оптимумов в NP-комплекте проблемное пространство).

В общем случае потоки MR являются многоступенчатыми, поэтому я часто работаю против данных, сгенерированных предыдущим этапом MR.

licensed under cc by-sa 3.0 with attribution.