投稿Machine Learing With Spark Note 3:构建分类器
Posted 数据科学家联盟
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了投稿Machine Learing With Spark Note 3:构建分类器相关的知识,希望对你有一定的参考价值。
本文为数盟特约作者投稿,欢迎转载,请注明出处“数盟社区”和作者
博主简介:段石石,1号店精准化推荐算法工程师,主要负责1号店用户画像构建,喜欢钻研点Machine Learning的黑科技,对Deep Learning感兴趣,喜欢玩kaggle、看9神,对数据和Machine Learning有兴趣咱们可以一起聊聊,个人博客: hacker.duanshishi.com
Spark构建分类器
在本章中,我们会了解基本的分类器以及在Spark如何使用,以及一套如何对model进行评价、调参。MLlib在这一块还是比较强大的,但是对比sklearn无论是算法种类以及配套功能还是有很大的差距。不过,据传spark最近正在修改ml,参考sklearn中的pipeline框架,将所有对数据的操作写成一个管道,在model的选择、调参、评估将更加方便,像sklearn一样,下面是一些Kaggle比赛当中的一些代码,用一个Pipeline把数据流的所有操作集合在一起,这样就很方便地进行调参。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
clf
=
pipeline
.
Pipeline
(
[
(
'union'
,
FeatureUnion
(
transformer_list
=
[
(
'cst'
,
cust_regression_vals
(
)
)
,
(
'txt1'
,
pipeline
.
Pipeline
(
[
(
's1'
,
cust_txt_col
(
key
=
'search_term'
)
)
,
(
'tfidf1'
,
tfidf
)
]
)
)
,
(
'txt2'
,
pipeline
.
Pipeline
(
[
(
's2'
,
cust_txt_col
(
key
=
'product_title'
)
)
,
(
'tfidf2'
,
tfidf
)
,
(
'tsvd2'
,
tsvd
)
]
)
)
,
(
'txt3'
,
pipeline
.
Pipeline
(
[
(
's3'
,
cust_txt_col
(
key
=
'product_description'
)
)
,
(
'tfidf3'
,
tfidf
)
,
(
'tsvd3'
,
tsvd
)
]
)
)
,
(
'txt4'
,
pipeline
.
Pipeline
(
[
(
's4'
,
cust_txt_col
(
key
=
'brand'
)
)
,
(
'tfidf4'
,
tfidf
)
,
(
'tsvd4'
,
tsvd
)
]
)
)
]
,
transformer_weights
=
'cst'
:
1.0
,
'txt1'
:
0.5
,
'txt2'
:
0.25
,
'txt3'
:
0.0
,
'txt4'
:
0.5
,
n_jobs
=
1
)
)
,
(
'xgbr'
投稿Machine Learning With Spark Note 1:数据基本处理
投稿Machine Learning With Spark Note 1:数据基本处理 投稿Machine Learning With Spark Note 2:构建简单的推荐系统 投稿Machine Learning With Spark Note 2:构建简单的推荐系统 |