再谈hive–job数、mapper数和reducer数「建议收藏」

再谈hive–job数、mapper数和reducer数「建议收藏」我们在集群上提交hive作业时,通过打印的运行日志可以看到hive作业有多少个job、多少个mappper、多少个reducer。job数可以理

大家好,欢迎来到IT知识分享网。

我们在集群上提交hive作业时,通过打印的运行日志可以看到hive作业有多少个job、多少个mappper、多少个reducer。那么这些数值是如何确定的呢?本篇文章略作分析。

一、job数

job数可以理解为要执行完成这个hive sql,总共要分多少步。hive有个语法解析器,可以对hive sql进行解析,确定有多少步骤(stage),多少个stage就是多少个job。可以使用explain对hive sql查看执行计划,可以知道有多少个job数了。

关于job数的优化,大体上有两个思路:一是减少job数;二是并行化。

减少job数:减少job数就是总的步骤变少了,因此可能会加快执行速度(当然单位时间消耗的资源也更多了)。具体要看解析器对hive是怎么解析的,目前网上资料显示有2个方向可以减少job数,笔者并未尝试过,仅做简单介绍。一是合理使用union all。这个合理使用是说,如果有一些union all的操作,你要把union all的语句放在子查询里面,这样才能有效减少job数。二是多表join的时候,要尽可能都选用一个关联字段。这个意思是说,当多表join,且可以使用多个关联字段的时候(例如,既可以用user_name去关联,也可以用user_id去关联),所有的关联键都要统一,这样能减少job数。

并行化:并行化的思路很好理解,就是我不减少job数,但可以让一些不互相依赖的job并行执行,这样就整体上加快了执行速度。并行化只需要在hive作业里加上参数set hive.exec.parallel=true 即可。当然这个参数是否生效还要看代码里面的job是否有可以并行执行的部分、集群资源是否充足等。

二、mapper数和reducer数

首先要明确一点,就是mapper数和reducer数,不是越多越好、也不是越少越好,要看实际的情况,两者都要在一个合理的范围。

2.1 mapper数

先说mapper数量,mapper的数量主要取决于输入的文件大小(total_size)、集群设定的文件块大小(dfs.block.size)、mapred.min.split.size(split最小值)、mapred.max.split.size(split最大值),有公式一:

mapper_num=min(total_size/max(mapred.min.split.size, min(mapred.max.split.size, dfs.block.size)),max(mapred.map.tasks,total_size/dfs.block.size))

mapper数不是越多越好:如果一个任务输入了小文件(远小于文件块大小128m),那么每个小文件也会被当做一个块,用一个mapper任务来完成,但大量的mapper启动和初始化会带来时间浪费和资源浪费,这个时候是要考虑减少mapper数量的,具体办法是合并小文件、减少mapper数:

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat #进行小文件合并

set mapred.max.split.size=256000000; #每个Map最大输入大小,小于256M的全部合并

set mapred.min.split.size.per.node=100000000; #一个节点上split的至少的大小 ,决定了多个data node上的文件是否需要合并

set mapred.min.split.size.per.rack=100000000; #一个交换机下split的至少的大小,决定了多个交换机上的文件是否需要合并

mapper数也不是越少越好:比如当输入文件小于120M,但却包含几千万的记录时,如果用默认的1个mapper去完成这个任务,肯定是比较耗时的,这种情况下,我们要考虑将这一个文件合理的拆分成多个,这样就可以用多个map任务去完成。

根据公式一,想增加mapper个数,则设置mapred.map.tasks 为一个较大的值。如果想减小map个数,则可以设置mapred.min.split.size 为一个较大的值。

2.2 reducer数

reducer数量要简单一些,有公式二:

reducer_num = min(total_size/hive.exec.reducers.bytes.per.reducers, hive.exec.reducers.max)

其中hive.exec.reducers.bytes.per.reducers表示每个reduce任务处理的数据量,hive.exec.reducers.max表示每个任务最大的reduce数。

当然,如果设置了mapred.reduce.tasks这个参数,那么reduce的task的数量就直接是这个了,如果没有设置这个参数,那么具体的reduce的数量参照公式二确定。

三、总结

设置合适的job数、mapper数和reducer数,对查询效率有很重要的影响,是hive优化的重要方面。同时需要指出的是,很多参数可能在大数据平台上已经默认设置好了,并不一定需要手动设置(比如小文件合并、并行执行等),具体要看实际的场景。上面的两个公式也不一定好记,开发人员要多根据实际使用、调试加深理解。

附(参考资料):

https://blog.csdn.net/things_use/article/details/105810032

https://blog.csdn.net/evo_steven/article/details/16961619

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/6237.html

(0)
上一篇 2022-12-17 09:50
下一篇 2022-12-17 10:10

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信