Spark SQL - “包含”功能的替代方案

Posted

技术标签:

【中文标题】Spark SQL - “包含”功能的替代方案【英文标题】:Spark SQL - Alternative for 'contains' function 【发布时间】:2020-01-14 10:24:29 【问题描述】:

我有一个场景,我需要在另一个数据框的另一列中的较大字符串中找到数据框列中字符串的存在。 我正在使用 Spark 2.4.4Scala 2.11.12

【问题讨论】:

你能展示输入数据帧和预期输出的例子吗? 【参考方案1】:

org.apache.spark.sql.Column 具有 contains 函数,可用于在包含 String 的 2 列之间执行字符串样式包含操作。

val df = //a dataframe buiktas a result of join and has 2 columns - c1, c2

df.filter(col("c1").contains(col("c2"))).show()

【讨论】:

以上是关于Spark SQL - “包含”功能的替代方案的主要内容,如果未能解决你的问题,请参考以下文章

Spark SQL 嵌套 JSON 错误“输入时没有可行的替代方案”

Spark生成包含(SQL LIKE)字符串的列名列表

直接继承的替代方案

Redshift REGEXP_SUBSTR 函数的 Spark 替代方案

如何避免Spark SQL做数据导入时产生大量小文件

sparksql仅包含英文字母的数据