如何在pyspark中将文件名拆分为两个字符串?

Posted

技术标签:

【中文标题】如何在pyspark中将文件名拆分为两个字符串?【英文标题】:How to split a filename into two strings in pyspark? 【发布时间】:2018-07-04 10:59:43 【问题描述】:

我想将一个文件名拆分成两个字符串,请告诉我如何拆分它。例如,给出以下文件名:

IMS_TO_GCOI_NPA_20180706

是否有可能将文件名拆分为如下两个字符串,例如 2 个单词:

IMS_TO_GCOI_NPA_
20180706

你能给我一些提示吗?提前谢谢你。

【问题讨论】:

【参考方案1】:

我想我想将整数部分和非整数部分分成两部分。 Python split 是一个不错的选择。如果你有更复杂的模式,你可以使用正则表达式来做。用'_'简单分割:

import re 

s = 'IMS_TO_GCOI_NPA_20180706'
first_part, second_part =a.rsplit('_',1)

或者你有更复杂的:

first_part, second_part = re.match('(.*_)(\d+)', s).groups()

两者都产生相同的输出。

【讨论】:

以上是关于如何在pyspark中将文件名拆分为两个字符串?的主要内容,如果未能解决你的问题,请参考以下文章

在pySpark中将RDD拆分为n个部分

如何在C#中将带逗号的字符串拆分为两个字符串[重复]

如何在 PySpark 1.6 中将 DataFrame 列从字符串转换为浮点/双精度?

如何在 PySpark 中将字符串转换为字典 (JSON) 的 ArrayType

如何在 PySpark 中将两个 rdd 合并为一个

如何将字符串拆分为列表并在python中将两个已知令牌合并为一个?