我在 python 中使用 sklearn 进行文本分类的管道配置

Posted

技术标签:

【中文标题】我在 python 中使用 sklearn 进行文本分类的管道配置【英文标题】:My PipeLine Configuration for Text Classification using sklearn in python 【发布时间】:2016-05-24 18:52:39 【问题描述】:

我已经完成了以下管道:

max_features=None, min_df=2,ngram_range=(1, 3)

1- 如何打印此管道的输出?我的意思是(1-3克) 如果我想自己生成我的二元组,最好的解决方案是什么?

2-如果我想添加像 min-TF >1 这样的约束?

这是我的配置:

from sklearn.naive_bayes import MultinomialNB,BernoulliNB,GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.pipeline import Pipeline

pipeline = Pipeline([   
    ('count_vectorizer',   TfidfVectorizer(max_features=None, min_df=2,ngram_range=(1, 3),token_pattern=r'\s',analyzer = 'word' ,lowercase=False, stop_words=StopWordsList)),
    ('tfidf_transformer',  TfidfTransformer(norm='l2', smooth_idf=False, sublinear_tf=False, use_idf=True)),    ('classifier', MultinomialNB()  )# SVC(kernel='rbf', probability=True) )
])

【问题讨论】:

【参考方案1】:

您可以通过named_steps从管道中获取特定元素。

1.您可以访问您的“count_vectorizer”并打印idf_ 属性,该属性表示“学习的 idf 向量(全局术语权重)”

pipeline.named_steps['count_vectorizer'].idf_

1.1 当然,您可以打印词汇表,它会为您提供包含 ngram 的字典及其与学习的 idf 向量的列对应关系

pipeline.named_steps['count_vectorizer'].vocabulary_

1.2 我自己不会生成二元组。您可以随时使用管道set_params 函数更改管道参数。在你的情况下:

pipeline.set_params(count_vectorizer__ngram_range=(1,2))

请注意这里的参数是如何构造的。所以你的count_vectorizer__ngram_range 有一个前缀count_vectorizer,这是你在管道中为确切元素使用的名称。后面是 __ 标记,这意味着接下来是该元素的参数名称,在这种情况下,您选择的是 ngram_range

但如果您要明确选择要计算哪些单词,可以通过vocabulary 参数来完成。来自文档“vocabulary : Mapping or iterable, optional 一个映射(例如,一个字典),其中键是术语,值是特征矩阵中的索引,或者是可迭代的术语。如果没有给出,则从输入文档中确定一个词汇表。"。所以你可以创建类似'awesome unicorns':0, 'batman forever':1 的东西,它只会在你的二元组 'awesome unicorns' 和 'batman forever' 上执行 tf-idf ; )

2. 您也可以像在 1.2 中一样“即时”添加约束 pipeline.set_params(count_vectorizer__min_df=2)。虽然我看到你已经在 TfidfVectorizer 初始参数中设置了这个变量。所以我不确定我是否理解了你的问题。

不要忘记使用一些数据运行您的管道,否则将没有任何词汇表可打印。例如,我加载了一些 20newsgroups 数据来执行我的测试,然后安装您的管道。以防万一它对您有用:

from sklearn.datasets import fetch_20newsgroups
data = fetch_20newsgroups(subset='train', categories=['alt.atheism'])
pipeline.fit(data.data,data.target)
pipeline.named_steps['count_vectorizer'].idf_
pipeline.named_steps['count_vectorizer'].vocabulary_
pipeline.set_params(count_vectorizer__ngram_range=(1, 2)).fit(data.data,data.target)

建议:如果您想在管道中尝试几种可能的配置,您可以随时设置一系列参数值并通过 GridSearch 获得最佳分数,这是一个很好的示例 @ 987654321@

【讨论】:

以上是关于我在 python 中使用 sklearn 进行文本分类的管道配置的主要内容,如果未能解决你的问题,请参考以下文章

在 pandas 数据框中插入 sklearn CountVectorizer 的结果

为啥我在 python 的 sklearn 中使用管道和没有管道得到不同的值

使用随机森林对文本文档进行分类

DBSCAN 集群甚至无法处理 40k 数据,但使用 python 和 sklearn 处理 10k 数据

在 sklearn 中持久化数据

Python 的 sklearn coef_ 输出中的目标是啥?