Windows作为开发屌丝必备,在windows上如何跑集群方便开发调试,以及怎么把eclipse写好的任务mapreduce提交到测试的集群(linux)上面去跑?这些都是需要直面并解决的问题。
本文主要记录在windows上hadoop集群的环境准备,以及eclipse调试功能等。
- windows伪分布式部署
- cmd
- cygwin shell
- windows-eclipse提交任务到linux集群
- 导入源码到eclipse
这篇文章并非按照操作的时间顺序来进行编写。而是,如果再安装第二遍的话,自己应该如何去操作来组织下文。
一、Windows伪分布式部署
尽管一直用windows,但是对windows自带的cmd命令很是不屑!想在cygwin下部署,现在想来,最终用的是windows的java!在cygwin下不就是把路径转换后再传给java执行吗!
所以,如果把cygwin环境搭建好了的话,其实已经把windows的环境也搭建好了!同样hadoop的windows环境配置好了,cygwin环境也同样配置好了。但是,在cygwin下面提交mapreduce任务会有各种”凌乱”的问题!
先说说在windows环境搭建的步骤,然后再讲cygwin下运行。
- 需要用到的软件环境
- 编译windows环境变量配置
- 编译hadoop-common源代码生成本地依赖库
- 伪分布式配置
- windows下运行
- cygwin下运行
1.1 需要用到的软件环境
- Win7-x86
- hadoop-2.2.0.tar.gz
- git
- cygwin (源码编译时需要执行sh命令)
- visual studio 2010(如果与.net framework4有关的问题请查阅: [*] [*] [*])
- protoc(protoc-2.5.0-win32.zip)(解压,然后把路径加入到PATH)
搭建环境之前,建议您看看wiki-Hadoop2OnWindows。最终有用的步骤都在上面了!不过在自己瞎折腾的过程中也弄了不少东西,记录下来!
1.2 编译windows环境变量配置
变量 | windows |
---|---|
Platform | Win32 |
ANT_HOME | D:\local\usr\apache-ant-1.9.0 |
MAVEN_HOME | D:\local\usr\apache-maven-3.0.4 |
JAVA_HOME | D:\Java\jdk1.7.0_02 |
PATH | C:\cygwin\bin;C:\protoc;D:\local\usr\apache-maven-3.0.4\bin;D:\local\usr\apache-ant-1.9.0/bin;D:\Java\jdk1.7.0_02\bin;%PATH% |
编译时,在打开的命令行加入cygwin的路径即可。
在maven编译最后需要用到sh的shell命令,需要把c:\cygwin\bin
目录加入到path环境变量。
这里先不配置hadoop的环境变量,因为我只需要用到编译后的本地库而已!!
1.3 编译源代码生成本地依赖库(dll, exe)
hadoop2.2.0操作本地文件针对平台的进行了处理。也就是只要在windows运行集群,不管怎么样,你都得先把winutils.exe、hadoop.dll编译出来,用来处理对本地文件赋权、软链接等(类似Linux-Shell的功能)。否则会看到下面的错误:
- 命令执行出错,少了winutils.exe
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
|
- 少了hadoop.dll的本地库文件
1 2 3 4 5 6 7 8 9 10 11 |
|
下载源码进行编译
下面需要用到visual studio修改项目配置信息(或者直接修改sln文件也行),然后再使用maven进行编译。
这里仅编译hadoop-common项目,最后把生成winutils.exe/hadoop.dll放到hadoop程序bin目录下。
第一步 下载源码
1 2 3 4 5 6 7 |
|
第二步 应用补丁patch-native-win32
jira: https://issues.apache.org/jira/browse/HADOOP-9922
patch: https://issues.apache.org/jira/secure/attachment/12600760/HADOOP-9922.patch
native.sln-patch有点问题,下面通过vs修改,使用Visual Studio修改native的活动平台
第三步 在Visual Studio 命令提示(2010)
命令行进行Maven编译(仅需编译hadoop-common)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
|
windows的本地库的路径就是PATH环境变量。所以windows下最好还是把dll放到bin目录下,同时把HADOOP_HOME/bin
加入到环境变量中!!
修改PATH环境变量。
可以把dll放到自定义的位置,但是同样最好把该路径加入到PATH环境变量。java默认会到PATH路径下找动态链接库dll。
1.4 修改hadoop配置,部署伪分布式环境
可以直接把linux伪分布式的配置cp过来用。然后修改namenode/datanode/yarn文件的存储路径就可以了。
这里有个坑,hdfs-default.xml
中的路径前面都加了file://
前缀!所以hdfs配置中涉及到路径的,这里都得进行了修改。
Notepad++的Ctrl+D是一个好功能啊
属性 | 值 |
---|---|
slaves | |
localhost | |
core-site.xml | |
fs.defaultFS | hdfs://localhost:9000 |
io.file.buffer.size | 10240 |
hadoop.tmp.dir | file:///e:/tmp/hadoop |
hdfs-site.xml | |
dfs.replication | 1 |
dfs.namenode.secondary.http-address | localhost:9001 #设置为空可以禁用 |
dfs.namenode.name.dir | ${hadoop.tmp.dir}/dfs/name |
dfs.datanode.data.dir | ${hadoop.tmp.dir}/dfs/data |
dfs.namenode.checkpoint.dir | ${hadoop.tmp.dir}/dfs/namesecondary |
|
${hadoop.tmp.dir}/dfs/shared/edits |
mapred-site.xml | |
mapreduce.framework.name | yarn |
mapreduce.jobhistory.address | localhost:10020 |
mapreduce.jobhistory.webapp.address | localhost:19888 |
yarn-site.xml | |
yarn.nodemanager.aux-services | mapreduce_shuffle |
yarn.nodemanager.aux-services.mapreduce_shuffle.class | org.apache.hadoop.mapred.ShuffleHandler |
yarn.resourcemanager.address | localhost:8032 |
yarn.resourcemanager.scheduler.address | localhost:8030 |
yarn.resourcemanager.resource-tracker.address | localhost:8031 |
yarn.resourcemanager.admin.address | localhost:8033 |
yarn.resourcemanager.webapp.address | localhost:8088 |
yarn.application.classpath | %HADOOP_CONF_DIR%, %HADOOP_COMMON_HOME%/share/hadoop/common/, %HADOOP_COMMON_HOME%/share/hadoop/common/lib/, %HADOOP_HDFS_HOME%/share/hadoop/hdfs/, %HADOOP_HDFS_HOME%/share/hadoop/hdfs/lib/, %HADOOP_YARN_HOME%/share/hadoop/yarn/, %HADOOP_YARN_HOME%/share/hadoop/yarn/lib/ |
注意点:
- yarn.application.classpath必须定义!尽管程序中有判断不同平台的默认值不同,但是在yarn-default.xml中已经有值了!
- yarn.application.classpath对启动程序没影响,但是在运行mapreduce时影响巨大破坏力极强!
- 自定library的路径是个坑!!
- 在windows下,执行java程序java.library.path默认到PATH路径找。这也是需要定义环境变量HADOOP_HOME,以及把bin加入到PATH的原因吧!
1.5 Windows直接运行cmd启动
如果是用windows的cmd的话,到这里已经基本ok了!格式化namenode(hadoop namenode -format
),启动就ok了!
发现自己其实很傻×,固执的要用cygwin启动运行!用windows的cmd启动,然后用cygwin的终端查看数据不就行了!两不耽误!
cmd命令默认是去bin目录下找hadoop.dll的,同时hadoop命令会把bin加入到java.library.path路径下。再次强调/推荐:直接把hadoop.dll放到bin路径。 设置环境变量,启动文件系统:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
|
JAVA_HOME的路径中最好不要有空格!否则测试下面的方式进行处理:
instead e.g. c:\Progra~1\Java… instead of c:\Program Files\Java.…
好处也是明显的,直接是windows执行,可以使用jdk自带的工具查看运行情况。
?疑问: log日志都写在hadoop.log文件中了?反正我是没看到hadoop.log的文件!
HDFS操作文件OK,如果按照上面步骤或者官网的wiki操作,则运行mapreduce也是不会出问题的!!
1 2 3 4 5 6 7 8 |
|
如果你使用上面的hadoop命令执行不了命令,请把hadoop.cmd的换行(下载下来后是unix的)转成windows的换行!
问题原因分析
如果你运行mapreduce失败,不外乎三种情况:没有定义HADOOP_HOME系统环境变量,hadoop.dll没有放在PATH路径下,以及yarn.application.classpath没有设置。这三个问题导致。如果你不幸碰到了,那我们如何来确认问题呢?
下面一步步的来解读这个处理过程。在运行mapreduce时报错,可以使用远程调试方式来确认发生的具体位置。(如果你还没有弄好本地开发环境,请先看[三、导入源码到eclipse])
第一步 调试NodeManager,从根源下手
由于windows的hadoop的程序都是直接运行的,不像linux还要ssh再登陆然后在启动。所以这里直接设置HADOOP_NODEMANAGER_OPTS就可以了。
1 2 3 4 5 6 |
|
运行任务之前,在ContainerLaunch#call#171行打个断点(可以查看执行的java命令脚本内容,#254writeLaunchEnv写入cmd文件)。同时可以去到nm-local-dir/nmPrivate
目录下查看任务的本地临时文件。application_XXX/containter_XXX/launch_container.cmd文件是MRAppMaster/YarnChild/YarnChild的启动脚本。
调试。备份生成的脚本文件,开启死循环拷贝模式,把缓存留下来慢慢看
while true ; do cp -rf nm-local-dir/ backup/ ; sleep 0.5; done
查看缓存文件
- 真正启动Mapreduce(yarnchild)的脚本文件launch_container.cmd
查看系统日志,确定错误
classpath路径
Job任务类型。第三个参数!
这里可以查看脚本,确认HADOOP的相关目录是否正确!以及查看classpath的MANIFEST.MF查看依赖的jar是否完整!也可以通过任务的名称了解相关信息。
- 路径问题,不影响大局(可以不关注/不修改)
- 调试map/reduce
调试程序mapreduce比较好办了,毕竟代码都是自己写的好弄。可以使用mrunit。
map和reduce的进程都是动态的,既不能通过命令行的OPTS参数指定。如果要调试map/reduce需要在opts中传递给它们。
1
|
|
- library问题
如果因为library的问题报access$0的错,提交任务都不成功,可以把自定义的dll路径加入java.library.path尝试一下。
1
|
|
1.6 cygwin下运行
要在cygwin下面把hadoop弄起来,你要把cygwin与java的路径区分,理清楚路径,配置工作就成功一半咯!既然用的还是windows的java程序。配置文件也是最终提供给java执行的,所以配置都不需要修改。
要在cygwin中运行hadoop,仅仅搞定脚本就ok了!在执行java命令之前,把cygwin的路径转换为windows。
- 修改了hadoop-env.sh的内容:
1 2 3 |
|
cygwin也就是linux的默认加载native的路径是libs/native!!拷一份过去把!!或者配置JAVA_LIBRARY_PATH,参见下面的修改Shell脚本部分。
cygwin自带的工具有个优势:运行脚本和java命令都不出现乱码。(或许把SecureCRT改成GBK编码也行)
- 修改shell脚本命令
由于java在windows和linux在识别文件路径上也有差异。如/data传给java,在windows会加上当前路径的盘符(e.g. E),那写入数据目录就为e:/data
。
同时,不同操作系统的classpath的组织方式也不同。(1)需要对classpath已经文件夹的路径进行转换,才能在cygwin下正常的运行java程序。 所以,只要在执行java命令之前对路径和classpath进行转换即可。(2)还需要对getconf返回值的换行符进行处理。涉及到下列的文件:
1 2 3 4 5 6 7 |
|
重点修改两个问题如下:
- 配置
1 2 3 4 |
|
由于windows配置时,把hadoop.dll的动态链接库放到bin目录下,而linux(cygwin)的sh脚本默认是去lib/native下面,所以需要定义一下链接库的查找路径。
- 脚本
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 |
|
在解析OPTS时执行cygpath转换的时刻,也需要加上-p的参数!OPTS中有java.library.path的环境变量!
- HDFS文件系统测试
1 2 3 |
|
jps没有作用了;或者也可以通过任务管理器/ProcessExplorer查看java.exe,命令行列还可以查看具体的执行命令,对应的什么服务。
映像名称 | 用户名 | 命令行 |
---|---|---|
java.exe | Administrator | D:\Java\jdk1.7.0_02\bin\java.exe -Dproc_namenode -Xmx512m … org.apache.hadoop.hdfs.server.namenode.NameNode |
java.exe | Administrator | D:\Java\jdk1.7.0_02\bin\java.exe -Dproc_datanode -Xmx512m … org.apache.hadoop.hdfs.server.datanode.DataNode |
java.exe | Administrator | D:\Java\jdk1.7.0_02\bin\java.exe -Dproc_secondarynamenode … org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode |
修改了hadoop的脚本,启动环境(cygwin下启动和windows启动都可以),就可以操作HDFS了。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|
如果执行权限问题,可以使用设置HADOOP_USER_NAME的方式处理:
1 2 3 4 5 |
|
MapReduce任务测试
1 2 |
|
yarn资源框架启动后,任务管理又会添加两个java的程序:
映像名称 | 用户名 | 命令行 |
---|---|---|
java.exe | Administrator | D:\Java\jdk1.7.0_02\bin\java.exe -Dproc_resourcemanager … org.apache.hadoop.yarn.server.resourcemanager.ResourceManager |
java.exe | Administrator | D:\Java\jdk1.7.0_02\bin\java.exe -Dproc_nodemanager … org.apache.hadoop.yarn.server.nodemanager.NodeManager |
提交任务,执行任务处理
在cygwin环境下,hdfs和yarn都启动成功了,并且能传文件到HDFS中。但是由于cygwin环境最终还是使用windows的java程序集群执行任务!
(可考虑[2.2 Eclipse提交MapReduce])
- 已处理问题一: cygwin下启动nodemanager,路径没转换
由于在cygwin下面启动,大部分的环境变量都是从cygwin带过来的!解析conf中的变量时会使用nodemanager中对应变量的值,如HADOOP_MAPRED_HOME等。
在cygwin使用start-yarn.sh调用java启动程序之前需要转换路径为windows下的路径。在上面的操作已经进行了处理。
1 2 3 4 5 6 7 8 9 |
|
- 已处理问题二:执行mapreduce任务时,缺少环境变量(使用Process Explorer工具查看)
1 2 3 4 5 6 7 8 9 10 11 12 |
|
- 取不到HADOOP_HOME环境变量,查找winutils.exe时报错!
- 在hadoop-env.sh中增加定义HADOOP_HOME!
- library路径问题,解析动态链接库hadoop.dll失败!
- 增加-D参数吧!
1
|
|
windows泽腾啊。
- 问题二:直接提交任务到linux集群,环境变量不匹配
1 2 3 4 5 6 7 8 |
|
由于本地是windows的java执行任务提交到集群,所以使用了%JAVA_HOME%
,以及windows下的CLASSPATH!执行任务时,同时把nodemanager节点的临时目录备份下来再慢慢查看:
1 2 |
|
修复该问题,可以参考[2.2 Eclipse提交MapReduce]。
参考
二、Windows下使用eclipse连接linux集群
2.1 java代码操作HDFS
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 |
|
对于访问linux集群的hdfs,只要编译通过,对集群HDFS文件系统的CRUD基本没有不会遇到什么问题。写代码过程中遇到过下面两个问题:
如果你也引入了hive的包,可能会抛不能重写final方法的错误!由于hive中也就了proto的代码(final),调整下顺序先加载proto的包就可以了!
log4j:WARN Please initialize the log4j system properly. Exception in thread "main" java.lang.VerifyError: class org.apache.hadoop.security.proto.SecurityProtos$CancelDelegationTokenRequestProto overrides final method getUnknownFields.()Lcom/google/protobuf/UnknownFieldSet; at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClass(ClassLoader.java:791)
Permission denied: user=Administrator, access=WRITE, inode=“/”:hadoop:supergroup:drwxr-xr-x 这个问题的处理方式有很多。
- hadoop fs -chmod 777 /
- 在hdfs的配置文件中,将dfs.permissions修改为False
- System.setProperty(“user.name”, “hduser”)/System.setProperty(“HADOOP_USER_NAME”, “hduser”)/configuration.set(“hadoop.job.ugi”, “hduser”);
2.2 Eclipse提交MapReduce
需要设置HADOOP_HOME/hadoop.home.dir的环境变量,即在该目录下面有bin\winutils.exe的文件。否则会报错:
14/04/14 20:07:57 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 14/04/14 20:07:58 ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278) at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300) at org.apache.hadoop.util.Shell.<clinit>(Shell.java:293)
任务端(map/reduce)执行命令的classpath变量在客户端Client拼装的!
浏览官网的jira,然后下载并应用MRApps.patch和YARNRunner.patch两个补丁。
其实就是修改Apps#addToEnvironment(Map<String, String>, String, String)来拼装特定操作系统的classpath。以及JAVA_HOME等一些环境变量的值(
$JAVA_HOME
or%JAVA_HOME%
)使用
patch -p1 < PATCH
进行修复。如果patch文件不在项目根路径,可以删除补丁内容前面文件夹路径,直接与源文件放一起然后应用patch就行了。当然你根据修改的内容手动修改也是OK的。
如果仅仅是作为客户端client提交任务时使用。如仅在eclipse中运行main提交任务,那么就没有必要打包!直接放到需要项目源码中即可。
* 把应用了补丁的YARNRunner和MRApps加入到项目中
* 然后再configuration中加入`config.set("mapred.remote.os", "Linux")`
* 把mapreduce的任务打包为jar,然后`job.setJar("helloyarn.jar")`
* 最后`Run As -> Java Application`运行提交
如果很多项目使用,可以打包出来,然后把它添加到classpath中,同时添加加入自定义的xml配置。
1 2 3 4 5 6 7 8 |
|
参考:
- Hadoop学习三十二:Win7下无法提交MapReduce Job到集群环境
- Eclipse调用hadoop2运行MR程序
- jira-Remote job submit from windows to a linux hadoop cluster fails due to wrong classpath
三、导入源码到eclipse
环境
参考前面的【window伪分布式部署】
打开Visual Studio的命令行工具
1
|
|
获取源码,检查2.2.0的分支
1 2 |
|
也可以下载src的源码包,但是如果想修改点东西的话,clone源码应该是最佳的选择了。
- 前面说的win32的patch,如果记得打上哦!参见[1.3 编译源代码生成本地依赖库(dll, exe)]
- 编译hadoop-auth项目的时刻报错,需要在pom中添加jetty-util的依赖,参考找不到org.mortbay.component.AbstractLifeCycle的类文件。
编译生成打包
1 2 |
|
最好加上skipTests条件,不然编译等待时间不是一般的长!!
导入eclipse
1
|
|
然后使用eclipse导入已经存在的工程(existing projects into workspace),导入后存在两个问题:
- stream工程的conf源码包找不到。修改为在.project文件中引用,然后把conf引用加入到.classpath。
- common下的test代码报错。把
target/generated-test-sources/java
文件夹的也作为源码包即可。
eclipse的maven插件你得安装了(要用到M2_REPO路径),同时引用正确conf\settings.xml的Maven配置路径。
注意: 不要使用eclipse导入已经存在的maven方式!eclipse的m2e有些属性和插件还不支持,导入后会报很多错!而使用mvn eclipse:eclipse
的方式是把依赖的jar加入到.classpath
。
参考
四、胡乱噗噗
查看Debug日志
1 2 |
|
java加载动态链接库的环境变量java.library.path
1 2 3 4 5 6 7 8 9 10 |
|
没有定义的时刻,会去PATH路径下找。一旦定义了java.library.path只会在给定的路径下查找!
hadoop的本地native-library的位置
文件具体放什么位置,随便运行一个命令,通过debug的日志就可以看到默认Library的路径。
1 2 3 4 5 6 7 8 |
|
cygwin下运行java程序,路径问题
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 |
|
[cygwin]ssh单独用户权限问题
1 2 3 |
|
- 设置环境变量
HADOOP_USER_NAME=hadoop
- 可以使用dfs.permissions属性设置为false。
- 给位置chown/chmod赋权:
hadoop fs -chmod 777 /
- 也可以使用ssh-host-config的
Should privilege separation be used? (yes/no) no
设置为no。使用当前用户进行管理。Administrator@winseliu /var $ chown Administrator:None empty/ Administrator@winseliu ~ $ /usr/sbin/sshd.exe # 启动,也可以弄个脚本到启动项,开机启动 Administrator@winseliu ~/hadoop $ ps | grep ssh 4384 1 4384 4384 ? 500 02:41:21 /usr/sbin/sshd
Visual Studio处理winutils工程
winutils的32位编译 .net framework4, vs2010, 属性修改设置 http://stackoverflow.com/questions/12267158/failure-during-conversion-to-coff-file-invalid-or-corrupt http://stackoverflow.com/questions/10888391/error-link-fatal-error-lnk1123-failure-during-conversion-to-coff-file-inval http://social.msdn.microsoft.com/Forums/vstudio/en-US/eb4a7699-0f3c-4701-9790-199787f1b359/vs-2010-error-lnk1123-failure-during-conversion-to-coff-file-invalid-or-corrupt?forum=vcgeneral
http://hi.baidu.com/dreamthief/item/aa690d1494e2caca38cb306d
在cygwin安装的时刻也看过这篇,用64位环境maven的是可以编译的 http://www.srccodes.com/p/article/38/build-install-configure-run-apache-hadoop-2.2.0-microsoft-windows-os
http://stackoverflow.com/questions/18630019/running-apache-hadoop-2-1-0-on-windows
[cygwin]ipv6的问题,改成ipv4后不能登陆!
可能是新版本的openssh的bug!!!
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
|
还不能在hosts文件中加!如,指定localhost为127.0.0.1后,得到结果为:
1 2 3 |
|
–END