我在 python 中使用 sklearn 进行文本分类的管道配置
Posted
技术标签:
【中文标题】我在 python 中使用 sklearn 进行文本分类的管道配置【英文标题】:My PipeLine Configuration for Text Classification using sklearn in python 【发布时间】:2016-05-24 18:52:39 【问题描述】:我已经完成了以下管道:
max_features=None, min_df=2,ngram_range=(1, 3)
1- 如何打印此管道的输出?我的意思是(1-3克) 如果我想自己生成我的二元组,最好的解决方案是什么?
2-如果我想添加像 min-TF >1 这样的约束?
这是我的配置:
from sklearn.naive_bayes import MultinomialNB,BernoulliNB,GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.pipeline import Pipeline
pipeline = Pipeline([
('count_vectorizer', TfidfVectorizer(max_features=None, min_df=2,ngram_range=(1, 3),token_pattern=r'\s',analyzer = 'word' ,lowercase=False, stop_words=StopWordsList)),
('tfidf_transformer', TfidfTransformer(norm='l2', smooth_idf=False, sublinear_tf=False, use_idf=True)), ('classifier', MultinomialNB() )# SVC(kernel='rbf', probability=True) )
])
【问题讨论】:
【参考方案1】:您可以通过named_steps
从管道中获取特定元素。
1.您可以访问您的“count_vectorizer”并打印idf_
属性,该属性表示“学习的 idf 向量(全局术语权重)”
pipeline.named_steps['count_vectorizer'].idf_
1.1 当然,您可以打印词汇表,它会为您提供包含 ngram 的字典及其与学习的 idf 向量的列对应关系
pipeline.named_steps['count_vectorizer'].vocabulary_
1.2 我自己不会生成二元组。您可以随时使用管道set_params
函数更改管道参数。在你的情况下:
pipeline.set_params(count_vectorizer__ngram_range=(1,2))
请注意这里的参数是如何构造的。所以你的count_vectorizer__ngram_range
有一个前缀count_vectorizer
,这是你在管道中为确切元素使用的名称。后面是 __
标记,这意味着接下来是该元素的参数名称,在这种情况下,您选择的是 ngram_range
。
但如果您要明确选择要计算哪些单词,可以通过vocabulary
参数来完成。来自文档“vocabulary : Mapping or iterable, optional
一个映射(例如,一个字典),其中键是术语,值是特征矩阵中的索引,或者是可迭代的术语。如果没有给出,则从输入文档中确定一个词汇表。"。所以你可以创建类似'awesome unicorns':0, 'batman forever':1
的东西,它只会在你的二元组 'awesome unicorns' 和 'batman forever' 上执行 tf-idf ; )
2. 您也可以像在 1.2 中一样“即时”添加约束
pipeline.set_params(count_vectorizer__min_df=2)
。虽然我看到你已经在 TfidfVectorizer
初始参数中设置了这个变量。所以我不确定我是否理解了你的问题。
不要忘记使用一些数据运行您的管道,否则将没有任何词汇表可打印。例如,我加载了一些 20newsgroups 数据来执行我的测试,然后安装您的管道。以防万一它对您有用:
from sklearn.datasets import fetch_20newsgroups
data = fetch_20newsgroups(subset='train', categories=['alt.atheism'])
pipeline.fit(data.data,data.target)
pipeline.named_steps['count_vectorizer'].idf_
pipeline.named_steps['count_vectorizer'].vocabulary_
pipeline.set_params(count_vectorizer__ngram_range=(1, 2)).fit(data.data,data.target)
建议:如果您想在管道中尝试几种可能的配置,您可以随时设置一系列参数值并通过 GridSearch 获得最佳分数,这是一个很好的示例 @ 987654321@
【讨论】:
以上是关于我在 python 中使用 sklearn 进行文本分类的管道配置的主要内容,如果未能解决你的问题,请参考以下文章
在 pandas 数据框中插入 sklearn CountVectorizer 的结果
为啥我在 python 的 sklearn 中使用管道和没有管道得到不同的值