编程技术网

关注微信公众号,定时推送前沿、专业、深度的编程技术资料。

 找回密码
 立即注册

QQ登录

只需一步,快速开始

极客时间

Spark:减去两个数据帧:Spark: subtract two DataFrames

xargr spark 2022-5-7 16:40 14人围观

腾讯云服务器
Spark:减去两个数据帧的处理方法

在 Spark 版本 1.2.0 中,可以使用 subtract 和 2 个 SchemRDD 来结束与第一个不同的内容

In Spark version 1.2.0 one could use subtract with 2 SchemRDDs to end up with only the different content from the first one

val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD) 

onlyNewData 包含 todaySchemRDDyesterdaySchemaRDD 中不存在的行.

onlyNewData contains the rows in todaySchemRDD that do not exist in yesterdaySchemaRDD.

如何使用 Spark 版本 1.3.0 中的 DataFrames 实现这一点?

How can this be achieved with DataFrames in Spark version 1.3.0?

问题解答

根据 Scala API 文档,正在做:

According to the Scala API docs, doing:

dataFrame1.except(dataFrame2) 

将返回一个新的 DataFrame,其中包含 dataFrame1 中的行,但不包含 dataframe2 中的行.

will return a new DataFrame containing rows in dataFrame1 but not in dataframe2.

这篇关于Spark:减去两个数据帧的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程技术网(www.editcode.net)!

腾讯云服务器

相关推荐

阿里云服务器
关注微信
^