如何在pyspark中将文件名拆分为两个字符串?
Posted
技术标签:
【中文标题】如何在pyspark中将文件名拆分为两个字符串?【英文标题】:How to split a filename into two strings in pyspark? 【发布时间】:2018-07-04 10:59:43 【问题描述】:我想将一个文件名拆分成两个字符串,请告诉我如何拆分它。例如,给出以下文件名:
IMS_TO_GCOI_NPA_20180706
是否有可能将文件名拆分为如下两个字符串,例如 2 个单词:
IMS_TO_GCOI_NPA_
20180706
你能给我一些提示吗?提前谢谢你。
【问题讨论】:
【参考方案1】:我想我想将整数部分和非整数部分分成两部分。 Python split 是一个不错的选择。如果你有更复杂的模式,你可以使用正则表达式来做。用'_'简单分割:
import re
s = 'IMS_TO_GCOI_NPA_20180706'
first_part, second_part =a.rsplit('_',1)
或者你有更复杂的:
first_part, second_part = re.match('(.*_)(\d+)', s).groups()
两者都产生相同的输出。
【讨论】:
以上是关于如何在pyspark中将文件名拆分为两个字符串?的主要内容,如果未能解决你的问题,请参考以下文章
如何在 PySpark 1.6 中将 DataFrame 列从字符串转换为浮点/双精度?