投稿Machine Learing With Spark Note 3:构建分类器

Posted 数据科学家联盟

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了投稿Machine Learing With Spark Note 3:构建分类器相关的知识,希望对你有一定的参考价值。

本文为数盟特约作者投稿,欢迎转载,请注明出处“数盟社区”和作者

博主简介:段石石,1号店精准化推荐算法工程师,主要负责1号店用户画像构建,喜欢钻研点Machine Learning的黑科技,对Deep Learning感兴趣,喜欢玩kaggle、看9神,对数据和Machine Learning有兴趣咱们可以一起聊聊,个人博客: hacker.duanshishi.com

 

Spark构建分类器

在本章中,我们会了解基本的分类器以及在Spark如何使用,以及一套如何对model进行评价、调参。MLlib在这一块还是比较强大的,但是对比sklearn无论是算法种类以及配套功能还是有很大的差距。不过,据传spark最近正在修改ml,参考sklearn中的pipeline框架,将所有对数据的操作写成一个管道,在model的选择、调参、评估将更加方便,像sklearn一样,下面是一些Kaggle比赛当中的一些代码,用一个Pipeline把数据流的所有操作集合在一起,这样就很方便地进行调参。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 clf = pipeline . Pipeline ( [ ( 'union' , FeatureUnion (          transformer_list = [              ( 'cst' ,    cust_regression_vals ( ) ) ,              ( 'txt1' , pipeline . Pipeline ( [ ( 's1' , cust_txt_col ( key = 'search_term' ) ) , ( 'tfidf1' , tfidf ) ] ) ) ,              ( 'txt2' , pipeline . Pipeline ( [ ( 's2' , cust_txt_col ( key = 'product_title' ) ) , ( 'tfidf2' , tfidf ) , ( 'tsvd2' , tsvd ) ] ) ) ,              ( 'txt3' , pipeline . Pipeline ( [ ( 's3' , cust_txt_col ( key = 'product_description' ) ) , ( 'tfidf3' , tfidf ) , ( 'tsvd3' , tsvd ) ] ) ) ,              ( 'txt4' , pipeline . Pipeline ( [ ( 's4' , cust_txt_col ( key = 'brand' ) ) , ( 'tfidf4' , tfidf ) , ( 'tsvd4' , tsvd ) ] ) )          ] ,          transformer_weights =              'cst' : 1.0 ,              'txt1' : 0.5 ,              'txt2' : 0.25 ,              'txt3' : 0.0 ,              'txt4' : 0.5          ,          n_jobs = 1 ) ) , ( 'xgbr' 投稿Machine Learning With Spark Note 1:数据基本处理

投稿Machine Learning With Spark Note 1:数据基本处理

投稿Machine Learning With Spark Note 2:构建简单的推荐系统

投稿Machine Learning With Spark Note 2:构建简单的推荐系统

coursera:machine learing--code-3

coursera:machine learing--code-6

(c)2006-2024 SYSTEM All Rights Reserved IT常识