すずけんメモ

技術メモです

O'Reilly Hadoop 第3版を買った

O'Reilly Japan - Hadoop 第3版 http://www.oreilly.co.jp/books/9784873116297/

第2版は持っていて、研究室にいた頃に読んでいた。第3版は買っていなかったので、ebookで買った。

所感

  • MRv2及びYARN周りの記述が追加されている
  • YARNでの障害対応、モニタリングについて触れられていた。ここ、知りたかった。
  • 最近までMRv1を使っていて、mapreduce.*なオプション類にまだ追いつけていないのでがんばってキャッチアップしたい
  • Resource Managerまわりの説明は丁寧だけど、YARN自体については他の資料も参考にするとより良い
  • Hive, Pigまわりは特に読んでないので、第2版との差分とかはよくしらない。Hive 0.11以降のキャッチアップとかはissueとrelease noteを追うのがわかりやすいけど、Parquet / ORCFileあたりの説明も含めてProgramming Hiveの次の版(でるのか?)あたりでいい感じに説明してもらったら個人的に嬉しい。
  • クラシカルなMRとMRv2が運用で混ざると設定周りが不明瞭になる。このへんは読んだら解決するという部分ではない。とりあえずどの設定がどこに効いているのかを一つ一つ追っていくのが近道。