如何从文本语料库中删除特定的单字组，但仍保留该单词的双字组？

Question

我有这样的情况，我必须从文本语料库中删除特定单词unigram，同时保持该单词的双字符以及该单词的单词。

我试图将文本地址数据（excel中的列）与其他一些数字特征一起传递给分类算法。我需要对文本数据进行countvectorize并过滤掉特定的uni-gram并将它们附加回数据帧，以便分类器算法能够理解它。

** sample data in Text Column**

TAJ MAHAL
TAJ MALABAR KOCHI
TAJ MALABAR KOCHI
TAJ  RESIDENCY  TVM
LEELA PALACE  
PALACE  ROAD
HILL VIEW ROAD
HILL  AVENUE
HILL STATION

对于Taj和Hill，我只想要Bigrams和trigrams，所有单词我想要unigram，bigrams和trigrams。

**输出BIGRAM和UNIGRAM **

TAJ MAHAL
TAJ MALABAR 
MALABAR KOCHI
TAJ  RESIDENCY 
KOCHI
LEELA 
PALACE  
LEELA PALACE  
PALACE  ROAD
HILL VIEW
HILL  AVENUE
HILL STATION

当我尝试使用停用词作为Taj和Hill时，也不会生成bigrams和trigrams

  cv = CountVectorizer( max_features = 200,analyzer='word',ngram_range=(1, 3))
    cv_txt = cv.fit_transform(data.pop('Txt'))
   for i, col in enumerate(cv.get_feature_names()):
    data[col] = pd.SparseSeries(cv_txt[:, i].toarray().ravel(), fill_value=0)

过滤掉特定的unigrams后，我想将它们附加到数据帧，以便我可以运行分类算法。最终输出是计数器文本数据的稀疏矩阵