python使用正则表达式去除句子中的重复词

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python使用正则表达式去除句子中的重复词相关的知识,希望对你有一定的参考价值。

python使用正则表达式去除句子中的重复词

 

#python使用正则表达式去除句子中的重复词

# Python program to remove duplicate words
# using Regular Expression or ReGex.
import re


# Function to validate the sentence
# and remove the duplicate words
def removeDuplicateWords(input):

	# Regex to matching repeated words
	regex = r\'\\b(\\w+)(?:\\W+\\1\\b)+\'

	return re.sub(regex, r\'\\1\', input, flags=re.IGNORECASE)


# Driver Code

# Test Case: 1
str1 = "I am a big big girl in the big big world"
print(removeDuplicateWords(str1))

# Test Case: 2
str2 = "old macdonald had a farm e i e i o"
print(removeDuplicateWords(str2))

# Test Case: 3
str3 = "see ya ya"
print(removeDuplicateWords(str3))

# This code is contributed by yuvraj_chandra
I am a big girl in the

以上是关于python使用正则表达式去除句子中的重复词的主要内容,如果未能解决你的问题,请参考以下文章

正则表达式:去除Unicode

正则表达式:去除Unicode

php句子边界检测[重复]

正则表达式 - 使用否定环视匹配同句中的单词

在字符串中查找句子的开头

一个利用正则表达式进行代码重构,去除冗余代码的例子