经常在map与flatmap中混淆,应该很多开发人员也会犯这个错误。
不多说,上实例验证一下:
在spark集群中使用spark-shell对hdfs文件进行map、flatmap操作:
map操作及结果:
flatmap操作及结果:
总结:
map操作结果:Array[Array[String]] = Array(Array(we, are, superman), Array(torrow, is, good), Array(color, green, red))
flatmap操作结果:Array[String] = Array(we, are, superman, torrow, is, good, color, green, red)
spark中map函数会对每一条输入进行指定操作,然后为每一条输入返回一个对象;
而flatmap函数则是两个操作的集合,最后将所有对象合并为一个对象。需要特别说明一下,flatmap适用于统计文件单词类的。
文章最后,给大家推荐一些受欢迎的技术博客链接:
- Hadoop相关技术博客链接
- Spark 核心技术链接
- JAVA相关的深度技术博客链接
- 超全干货--Flink思维导图,花了3周左右编写、校对
- 深入JAVA 的JVM核心原理解决线上各种故障【附案例】
- 请谈谈你对volatile的理解?--最近小李子与面试官的一场“硬核较量”
- 聊聊RPC通信,经常被问到的一道面试题。源码+笔记,包懂
欢迎扫描下方的二维码或 搜索 公众号“10点进修”,我们会有更多、且及时的资料推送给您,欢迎多多交流!
评论记录:
回复评论: