机器学习之路:python 字典特征提取器 DictVectorizer
Posted 稀里糊涂林老冷
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习之路:python 字典特征提取器 DictVectorizer相关的知识,希望对你有一定的参考价值。
python3 学习使用api
将字典类型数据结构的样本,抽取特征,转化成向量形式
源码git: https://github.com/linyi0604/MachineLearning
代码:
1 from sklearn.feature_extraction import DictVectorizer 2 3 ‘‘‘ 4 字典特征提取器: 5 将字典数据结构抽和向量化 6 类别类型特征借助原型特征名称采用0 1 二值方式进行向量化 7 数值类型特征保持不变 8 ‘‘‘ 9 10 # 定义一个字典列表 用来表示多个数据样本 11 measurements = [ 12 {"city": "Dubai", "temperature": 33.0}, 13 {"city": "London", "temperature": 12.0}, 14 {"city": "San Fransisco", "temperature": 18.0}, 15 ] 16 17 # 初始化字典特征抽取器 18 vec = DictVectorizer() 19 data = vec.fit_transform(measurements).toarray() 20 # 查看提取后的特征值 21 print(data) 22 ‘‘‘ 23 [[ 1. 0. 0. 33.] 24 [ 0. 1. 0. 12.] 25 [ 0. 0. 1. 18.]] 26 ‘‘‘ 27 # 查看提取后特征的含义 28 print(vec.get_feature_names()) 29 ‘‘‘ 30 [‘city=Dubai‘, ‘city=London‘, ‘city=San Fransisco‘, ‘temperature‘] 31 ‘‘‘
以上是关于机器学习之路:python 字典特征提取器 DictVectorizer的主要内容,如果未能解决你的问题,请参考以下文章
机器学习之路: python 朴素贝叶斯分类器 预测新闻类别
文本特征提取专题_以python为工具Python机器学习系列
机器学习之路: python 决策树分类 预测泰坦尼克号乘客是否幸存