Hadoop

HadoopによるAnalog2

まず最初に、下記のコードの様に、パッケージの宣言とインポートを行なう。Analogは、Sampleパッケージに所属する。(適切なパッケーイ名の付け方ってあるのかな) package Sample; import java.io.IOException; import java.util.ArrayList; import java.util…

HadoopによるAnalog

http://d.hatena.ne.jp/naoya/20080511/1210506301 こちらのMapReduce::LiteのサンプルプログラムであるAnalogを、 javaで書いてHadoopで実行させてみた。 下記がjavaのソース。力業感たっぷり。 package Sample; import java.io.IOException; import java.u…

MapReduce::LiteによるWordCount

http://codezine.jp/article/detail/2485 こちらのサイトで紹介されているHadoopのサンプルプログラム WordCount(WordCount.java)と同じ事を行なうものを、 MapReduce::Liteで書いてみた。 WordCountはスペース区切りで並べられた単語を数えるプログラムであ…

GFSについての箇条書きメモ

Google File System Google独自の分散ファイルシステム 多数のマシンを組み合わせて巨大なストレージを作る 複数のマシンが動作する事で効率的なデータ転送 膨大なデータの通り道 扱われるファイルが巨大 新しいデータをどんどん書き加えるか、読み出し続け…

Hadoopインストールメモ

Javaのインストール http://java.sun.com/javase/downloads/index.jspで、 「Java SE Development Kit (JDK) 6 Update 10」をダウンロードリンクを辿る。 「j2sdk-1_4_2_18-linux-i586-rpm.bin」をダウンロード。 以下のようにコマンドを打ってインストール…

整理し直し

概要 MapReduceは、複数のマシンを使って分散的にデータ処理を行う仕組みである。MapReduceには、大きく分けて2つのフェーズがあり、それぞれ「Map」「Reduce」と呼ばれる。MapReduceは、この2つの処理を複数のマシンに同時に行わせる形で、分散処理を行な…

MapReduce

いきなりMapReduceの概念的なことを言われても理解できない(できなかった)ので、具体例から入っていく。 MapReduceの使用例として、検索のインデックス作成がある。 インデックス作成の流れ。 レポジトリにあるwebページを取ってくる docIDというIDをキーと…

Hadoop

YLUG(Yokohama Linux Users Group)さんの勉強会の動画を見て、Hadoopが気になった。http://www.ylug.jp/modules/pukiwiki/index.php?reading 動画を見たものの初めて聞く単語が満載で、ほとんど理解できず。ただHadoopがGoogleで用いられているシステムのク…