#Hive常见故障 #大数据 #生产环境真实案例 #Hive #离线数据库 #整理 #经验总结
说明:此篇总结hive常见故障案例处理方案 结合自身经历 总结不易 +关注 +收藏 欢迎留言
更多Hive案例汇总方案 解决方案:请往下翻
Hive join表重复数据多,任务运行慢
问题
MapReduce任务运行缓慢。
原因
join的两表关联的key值字段存在大量重复数据,join产生类似笛卡尔积,导致写出数据膨胀,任务运行慢。从MapReduce任务日志中可以看到写出很多数据:
解决方法
查询两表join on条件字段值的分布情况,可以将大key提取出来进行单独处理,结果集使用union all进行拼接。
更多Hive案例汇总方案 (点击跳转) :
Hive常见故障多案例维护宝典 --项目总结(宝典一)
Hive常见故障多案例维护宝典 --项目总结(宝典二)
目录内容如下:
架构概述
【1】参数及配置类常见故障
【2】任务运行类常见故障
【3】SQL使用类常见故障
最后
谢谢大家 @500佰
评论记录:
回复评论: