阿拉伯语预处理技术中的问题

Question

我正在尝试在阿拉伯字符串列表上应用预处理技术，但我没有得到正确的结果。

这是我的代码：

import re
import sys
import itertools
from nltk.tokenize import TweetTokenizer
from nltk.stem.isri import ISRIStemmer

foo = 'السـلاام عــليكم 32 هذه تجّربة'
TATWEEL = u"u0640"
stemmer = ISRIStemmer()
tknzr = TweetTokenizer()
text = tknzr.tokenize(foo)

for index in text:
    newList = [i for i in text if not i.isdigit()] # Remove digit 
    newList = ' '.join([i.lower() for i in text if not i.startswith(('@', '#'))]) # Remove mentions and hashtags
    newList = re.sub(r"httpS+", "",index) # Remove links
    newList = stemmer.norm(index, num=1) # #emove diacritics
    newList = re.sub(r'[^ws]','', index)  # Remove punctuation
    newList = index.replace(TATWEEL, '')
    newList = ''.join(i for i, _ in itertools.groupby(index)) # Remove consecutive duplicate

print (newList)

我应该得到的清单是：

السلام عليكم هذه تجربة

但我得到的是：

ربة

当我尝试单独测试每种方法时，它可以工作，但当我将它们聚集在一起时，它就会混乱。

- 我正在使用Python 3

谢谢。

Answer 1

另一答案