Hive join表重复数据多，任务运行慢

25-03-07 23:23

4533

5698

blog.csdn.net

#Hive常见故障 #大数据 #生产环境真实案例 #Hive #离线数据库 #整理 #经验总结

说明：此篇总结hive常见故障案例处理方案结合自身经历总结不易 +关注 +收藏欢迎留言

更多Hive案例汇总方案解决方案：请往下翻

Hive join表重复数据多，任务运行慢

问题

MapReduce任务运行缓慢。

原因

join的两表关联的key值字段存在大量重复数据，join产生类似笛卡尔积，导致写出数据膨胀，任务运行慢。从MapReduce任务日志中可以看到写出很多数据：

解决方法

查询两表join on条件字段值的分布情况，可以将大key提取出来进行单独处理，结果集使用union all进行拼接。

更多Hive案例汇总方案 (点击跳转) ：

Hive常见故障多案例维护宝典 --项目总结(宝典一)

Hive常见故障多案例维护宝典 --项目总结(宝典二)

目录内容如下：

架构概述

【1】参数及配置类常见故障

【2】任务运行类常见故障

【3】SQL使用类常见故障

最后

谢谢大家 @500佰

注：本文转载自blog.csdn.net的500佰的文章"https://blog.csdn.net/m0_57874805/article/details/145405661"。版权归原作者所有，此博客不拥有其著作权，亦不承担相应法律责任。如有侵权，请联系我们删除。

复制链接

发表评论

注册

评论记录：

未查询到任何数据！