Spark on YARN环境搭建- 联系客服

发布时间 : 星期二 文章Spark on YARN环境搭建- 更新完毕开始阅读33adada6b1717fd5360cba1aa8114431b90d8e0a

yarn.resourcemanager.zk.state-store.address master:2183,slave1:2183,slave2:2183

被RM用于状态存储的ZooKeeper服务器的主机:端口号

yarn.resourcemanager.zk-address master:2183,slave1:2183,slave2:2183

Scheduler失联等待的时间

yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms 5000

ResourceManager1的地址和端口

yarn.resourcemanager.address.rm1 master:23140

ResourceManager1调度器地址:端口

yarn.resourcemanager.scheduler.address.rm1 master:23130

ResourceManager 1对外web ui地址。可通过该地址在浏览器中查看集群各类信息。

yarn.resourcemanager.webapp.address.rm1 master:23188

NodeManager通过该地址向ResourceManager1汇报心跳,领取任务等的地址。

yarn.resourcemanager.resource-tracker.address.rm1 master:23125

ResourceManager 1对管理员暴露的访问地址。管理员通过该地址向RM发送管理命令等。

yarn.resourcemanager.admin.address.rm1

master:23141

yarn.resourcemanager.ha.admin.address.rm1 master:23142

HA ResourceManager2相关参数同上 rm1

yarn.resourcemanager.address.rm2 slave1:23140

HA ResourceManager2相关参数同上 rm1

yarn.resourcemanager.scheduler.address.rm2 slave1:23130

HA ResourceManager2相关参数同上 rm1

yarn.resourcemanager.webapp.address.rm2 slave1:23188

HA ResourceManager2相关参数同上 rm1

yarn.resourcemanager.resource-tracker.address.rm2 slave1:23125

HA ResourceManager2相关参数同上 rm1

yarn.resourcemanager.admin.address.rm2 slave1:23141

HA ResourceManager2相关参数同上 rm1

yarn.resourcemanager.ha.admin.address.rm2 slave1:23142

localizer IPC

yarn.nodemanager.localizer.address 0.0.0.0:23344

http服务端口

yarn.nodemanager.webapp.address 0.0.0.0:23999

通过该配置,用户可以自定义一些服务,例如Map-Reduce的shuffle功能就是采用这种方式实现的,可运行mapReduce程序

yarn.nodemanager.aux-services mapreduce_shuffle

之前定义了为

yarn.nodemanager.aux-services.mapreduce_shuffle.class org.apache.hadoop.mapred.ShuffleHandler

NodeManager会通过参数yarn.nodemanager.local-dirs配置一系列目录(磁盘),用于存储Application中间结果(比如MapReduce中Map Task的中间输出结果)

yarn.nodemanager.local-dirs

/home/hadoop/ocdc/hadoop-2.6.0/data/yarn/local

同上NodeManager配置的日志文件

yarn.nodemanager.log-dirs

/home/hadoop/ocdc/hadoop-2.6.0/data/yarn/log

MapReduce JobHistory Server Web UI地址。

mapreduce.jobhistory.webapp.address 0.0.0.0:12345

mapreduce_shuffle,那么相对应属性的类就定义为

org.apache.hadoop.mapred.ShuffleHandle

每个节点可用的最大内存,RM中的两个值不应该超过此值。此数值可以用于计算container最大数目,即:用此值除以RM中的最小容器内存。虚拟内存率,是占task所用内存的百分比,默认值为2.1倍;注意:第一个参数是不可修改的,一旦设置,整个运行过程中不可动态修改,且该值的默认大小是8G,即使计算机内存不足8G也会按着8G内存来使用。

yarn.nodemanager.vmem-pmem-ratio 2.4

每个节点可用的内存,单位为MB

yarn.nodemanager.resource.memory-mb 16384

单个任务可申请的最大内存,默认为8192MB

yarn.scheduler.maximum-allocation-mb 16384

启用的资源调度器主类。目前可用的有FIFO、Capacity Scheduler和Fair Scheduler。

yarn.resourcemanager.scheduler.class

org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler

为applications配置相应的ClassPath

yarn.application.classpath

$HADOOP_CONF_DIR,

$HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/*