Winse Blog

走走停停都是风景, 熙熙攘攘都向最好, 忙忙碌碌都为明朝, 何畏之.

Hadoop2学习过程/资源

接触集群,起始为毕业论文觉得做一个SSH的内容管理系统觉得无趣,选择了Hadoop相关的选题。尽管做的很烂,但是当时做出来一个东西还是挺开心的。中间断了近一年,但是在鼎象做游戏的时刻部署系统/维护查日志,对linux熟悉了不少。在科韵开始做插件开发,神马都的看源码。而后,真正的做了一个hadoop的项目,相比2年前,对编程和学习的方式都有了提升。hadoop,kettle这些都是很牛掰的很火热软件,但是中文资料相对较少,变化也很快。慢慢的觉得自己看代码和英文的资源都过得去。

再碌碌无为的过了一年,而今又接触hadoop,时代变了,但是基本的技术还是相同的。从hadoop1升级到hadoop2,尽管变化很大,熟悉的过程中再次遇到很多的问题。觉得无能无力,原来的日子好似白过了!记录是一种美德,不仅是走过路过的足迹,亦是摘树后人乘凉的盛举。

要弄hadoop,首先得把对english的偏见放下!如果还是baidu查找你遇到的问题,那或许你会多走很多的弯路!

书籍

开始还是推荐下中文资料:

  • [Hadoop权威指南/Hadoop The Definitive Guide] 大师写的书,值的膜拜
  • [hadoop实战/Hadoop in Action] 相对来说是也是一本不错的

网页资源

  1. Linux部署Hadoop
  2. Windows部署Hadoop
  3. eclipse直接访问HDFS/提交任务
  4. cygwin部署hadoop
  5. hdfs脚本文件系统
  6. 编译源码
  7. 远程调试
  8. 与正式环境有关
  9. 开发参考的资源/代码访问集群

工具

  • lrzsz
  • SecureCRT
  • WinSCP
  • w3m # 最后使用SSH代理访问取代!

思维

  • 化整为零

技巧

  • 查看jar列表:jar tvf JAR
  • ssh-copy-id
  • rsync
  • find
  • ls -Sl
  • while/for
  • cat unknown.txt | cut -b 62- | sort | uniq

  • 持续的更新 -

–END