HadoopによるAnalog2

Hadoop MapReduce

まず最初に、下記のコードの様に、パッケージの宣言とインポートを行なう。Analogは、Sampleパッケージに所属する。(適切なパッケーイ名の付け方ってあるのかな) package Sample; import java.io.IOException; import java.util.ArrayList; import java.util…

2008-11-19

HadoopによるAnalog

Hadoop MapReduce

http://d.hatena.ne.jp/naoya/20080511/1210506301 こちらのMapReduce::LiteのサンプルプログラムであるAnalogを、 javaで書いてHadoopで実行させてみた。下記がjavaのソース。力業感たっぷり。 package Sample; import java.io.IOException; import java.u…

2008-11-18

MapReduce::LiteによるWordCount

Hadoop MapReduce

http://codezine.jp/article/detail/2485 こちらのサイトで紹介されているHadoopのサンプルプログラム WordCount(WordCount.java)と同じ事を行なうものを、 MapReduce::Liteで書いてみた。 WordCountはスペース区切りで並べられた単語を数えるプログラムであ…

2008-11-17

GFSについての箇条書きメモ

Hadoop GFS HDFS

Google File System Google独自の分散ファイルシステム多数のマシンを組み合わせて巨大なストレージを作る複数のマシンが動作する事で効率的なデータ転送膨大なデータの通り道扱われるファイルが巨大新しいデータをどんどん書き加えるか、読み出し続け…

2008-11-16

Hadoopインストールメモ

Hadoop

Javaのインストール http://java.sun.com/javase/downloads/index.jspで、「Java SE Development Kit (JDK) 6 Update 10」をダウンロードリンクを辿る。「j2sdk-1_4_2_18-linux-i586-rpm.bin」をダウンロード。以下のようにコマンドを打ってインストール…

2008-07-23

整理し直し

Hadoop MapReduce

概要 MapReduceは、複数のマシンを使って分散的にデータ処理を行う仕組みである。MapReduceには、大きく分けて２つのフェーズがあり、それぞれ「Map」「Reduce」と呼ばれる。MapReduceは、この２つの処理を複数のマシンに同時に行わせる形で、分散処理を行な…

2008-07-22

MapReduce

Hadoop

いきなりMapReduceの概念的なことを言われても理解できない(できなかった)ので、具体例から入っていく。 MapReduceの使用例として、検索のインデックス作成がある。インデックス作成の流れ。レポジトリにあるwebページを取ってくる docIDというIDをキーと…

2008-07-20

Hadoop

YLUG(Yokohama Linux Users Group)さんの勉強会の動画を見て、Hadoopが気になった。http://www.ylug.jp/modules/pukiwiki/index.php?reading 動画を見たものの初めて聞く単語が満載で、ほとんど理解できず。ただHadoopがGoogleで用いられているシステムのク…