淘宝广告用户点击预测(python)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了淘宝广告用户点击预测(python)相关的知识,希望对你有一定的参考价值。

参考技术A 为提高用户淘宝广告点击率,通过分析淘宝用户广告点击记录及对应的用户信息和广告信息表,用python 进行数据合并后进行数据清洗、提取数据特征,做特征工程分析,分析影响用户点击广告的因素,建立简单逻辑回归模型,预测用户是否点击广告;

https://tianchi.aliyun.com/dataset/dataDetail?dataId=56

数据集简介(详情见数据集链接):

数据集一共4个表,因为是广告点击预测,就用了前面三个表,表描述如下:

主表:raw_sample

以clk 作为后逻辑回归模型数据集标签,后面会改名称为flag;

数据清洗:

以user id+ time_stamp查看,会有很多重复的记录。删除重复时间+用户ID,设置唯一标识;

查看目前数据集大小:

查看空值:

查看点击占比:

ad_feature

数据清洗:

查看重复值:

和主表做关联生成date1:

查看合并后的空值:

查看点击占比:

user_profile

查看重复值:

和date1做关联生成date2:

最终数据表信息:

查看点击比例:

删除不需要做分析的ID标识符字段:

最终数据表点击比例:

类别字段:男女占比/学生占比

时间字段:

数据集只有时间戳字段,我们从中提取星期数以及对应时间段来看时间趋势;

查看点击趋势:

对星期数再区分以便后面做特征提取;

同样对小时进行分组方便后面的特征处理

连续型字段处理:

price:

查看广告价格描述性统计信息:

给广告价格分区:

时间字段可以删除:

查看目前缺失数据,需要填充缺失数据:

    查看缺失占比,pvalue_level缺失的比较多,用一个特殊的数字填充,这里用的9999.0

空值填充:如果是数值类型,用平均值取代;如果是分类数据,用最常见的类别取代;

查看剩余连续数据的分布和描述性统计信息:

删除分完区的原始列:

把sex标准化变成0/1:

目前数据预览:

Age_leavel/wechat_group 分类太多,后面做特征编码的时候生成的特征太多,对它进行分区:

数据集重命名备份:

对前面提取的特征用使用get_dummies进行one-hot编码(类似的做法,就贴三个)

分类列stu我们编码后保留一个特征:

相关系数法:计算各个特征的相关系数

查看各个特征与点击情况(flag)的相关系数,ascending=False表示按降序排列:

截取了相关系数前后几个,都不高,用户本身广告点击率就很低;

广告价格、资源位、性别、商品类别、周五比较能影响用户点击;

根据各个特征与flag的相关系数大小,选择了这几个特征作为模型的输入:

建立训练数据集和测试数据集:

建立逻辑回归并计算逻辑正确率:

推荐算法实战

Author: shikanon



阿里妈妈搜索广告转化预测算法比赛,因为看到可以发IJCAI,所以打算下载数据来玩玩。



  1. 背景介绍

本次比赛以阿里电商广告为研究对象,提供了淘宝平台的海量真实交易数据,参赛选手通过人工智能技术构建预测模型预估用户的购买意向,即给定广告点击相关的用户(user)、广告商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等信息的条件下预测广告产生购买行为的概率(pCVR),形式化定义为:pCVR=P(conversion=1 | query, user, ad, context, shop)。

字段说明

字段 解释
instance_id 样本编号,Long
is_trade 是否交易的标记位,Int类型;取值是0或者1,其中1 表示这条样本最终产生交易,0 表示没有交易
item_id 广告商品编号,Long类型
item_category_list 广告商品的的类目列表,String类型;从根类目(最粗略的一级类目)向叶子类目(最精细的类目)依次排列,数据拼接格式为 "category_0;category_1;category_2",其中 category_1 是 category_0 的子类目,category_2 是 category_1 的子类目
item_property_list 广告商品的属性列表,String类型;数据拼接格式为 "property_0;
item_brand_id 广告商品的品牌编号,Long类型
item_city_id 广告商品的城市编号,Long类型
item_price_level 广告商品的价格等级,Int类型;取值从0开始,数值越大表示价格越高
item_sales_level 广告商品的销量等级,Int类型;取值从0开始,数值越大表示销量越大
item_collected_level 广告商品被收藏次数的等级,Int类型;取值从0开始,数值越大表示被收藏次数越大
item_pv_level 广告商品被展示次数的等级,Int类型;取值从0开始,数值越大表示被展示次数越大
user_id 用户的编号,Long类型
user_gender_id 用户的预测性别编号,Int类型;0表示女性用户,1表示男性用户,2表示家庭用户
user_age_level 用户的预测年龄等级,Int类型;数值越大表示年龄越大
user_occupation_id 用户的预测职业编号,Int类型
user_star_level 用户的星级编号,Int类型;数值越大表示用户的星级越高
context_id 上下文信息的编号,Long类型
context_timestamp 广告商品的展示时间,Long类型;取值是以秒为单位的Unix时间戳,以1天为单位对时间戳进行了偏移
context_page_id 广告商品的展示页面编号,Int类型;取值从1开始,依次增加;在一次搜索的展示结果中第一屏的编号为1,第二屏的编号为2
predict_category_property 根据查询词预测的类目属性列表,String类型;数据拼接格式为 “category_A:property_A_1,property_A_2,property_A_3;category_B:-1;category_C:property_C_1,property_C_2” ,其中 category_A、category_B、category_C 是预测的三个类目;property_B 取值为-1,表示预测的第二个类目 category_B 没有对应的预测属性
shop_id 店铺的编号,Long类型
shop_review_num_level 店铺的评价数量等级,Int类型;取值从0开始,数值越大表示评价数量越多
shop_review_positive_rate 店铺的好评率,Double类型;取值在0到1之间,数值越大表示好评率越高
shop_star_level 店铺的星级编号,Int类型;取值从0开始,数值越大表示店铺的星级越高
shop_score_service 店铺的服务态度评分,Double类型;取值在0到1之间,数值越大表示评分越高
shop_score_delivery 店铺的物流服务评分,Double类型;取值在0到1之间,数值越大表示评分越高
shop_score_description 店铺的描述相符评分,Double类型;取值在0到1之间,数值越大表示评分越高

2.字段向量化

变量分类

# 单变量 single_var = ['user_occupation_id', 'user_gender_id', 'item_city_id', 'item_brand_id', ] # 多变量 multi_var = ['item_category_list', 'item_property_list'] # 递增变量 rank_var = ['shop_star_level', 'context_page_id', 'user_star_level', 'user_age_level', 'item_pv_level',            'item_collected_level', 'item_sales_level', 'item_price_level','shop_review_num_level'] # 标准变量 standard_var = ['shop_score_description', 'shop_score_delivery', 'shop_score_service', 'shop_review_positive_rate',                ] # 时间变量 datetime_var = ['context_timestamp'] unkown_var = ['predict_category_property'] # 预测变量 pred_var = ['is_trade']

2.1 适合one-hot处理的字段

对于类型变量,可以用one-hot形式进行处理。

from sklearn.preprocessing import LabelEncoder lbl = LabelEncoder() lbl_data = lbl.fit_transform(train_data['user_occupation_id'].values)

2.2 多等级类别向量化

对于多等级类别,可以采用二叉树编码,具体做法如下:

第一父类: x个; 二级父类:y个; k级父类:m个。

【001000...0】【00...1000】....【0001000】 |----x个-------| |-----y------|....|-----m个----|

每个类别对应的位置采用one-hot填充,实现代码如下:

max_category_num = train_data['item_category_list'].apply(lambda x: len(x.split(';'))).max() features = list() for n in range(max_category_num):    features.append(train_data['item_category_list'].apply(lambda x: x.split(';')[n] if len(x.split(';'))>n else pd.np.nan)) merge_features = pd.concat(features, axis=1)

2.3 多属性向量化

对于多属性向量化,由于各属性之间并没有等级关系,我们可以收集全部属性然后采用多label叠加的形式进行向量化。

例如总共有x个类别,每个样本可以有多个类别,比如样本一包含属性1,属性3和属性4,则表示为: [1011....0] |---x个-------|

代码实现如下:

from sklearn.preprocessing import MultiLabelBinarizer multi_label_col = train_data['item_property_list'].apply(lambda x: x.split(';')) multi_label_classes = set(itertools.chain.from_iterable(multi_label_col.tolist())) mlb = MultiLabelBinarizer(classes=list(multi_label_classes), sparse_output=True) # sparse_output等于True才能计算,不然很容易爆内存,将其输出CSR格式存储 mlb.fit(multi_label_col) y_indicator = mlb.transform(multi_label_col) #返回为CSR matrix

另一种是比较复杂的,比如predict_category_property字段:

import re def split_method(string, symbol=';|:'):    return set(re.split(symbol,string))

2.5 时间序列处理

这里对时间序列的处理需要注意,因为原始数据已经做了按天的平移处理,因此,原来的年月日信息被打乱,可以使用的信息包括小时或分,当然,我们也能将半小时或者15分钟划分成一个单元,记录购买喜好。

# 将int转换成时间格式 train_data['context_timestamp'] = pd.to_datetime(train_data['context_timestamp'], unit='s') context_hours = train_data['context_timestamp'].dt.hour context_minutes = train_data['context_timestamp'].dt.minute context_minutes = context_minutes + context_minutes*60 # 将时间周期化 def cricle(x):    return np.sin(np.pi*x/(x.max()+1)) train['minute'] = cricle(context_minutes)

时间序列处理里面有个比较重要的就是浏览顺序

我们先把时间做顺序化处理:

all_data['time_series'] = (all_data['context_timestamp'].dt.hour + all_data['context_timestamp'].dt.day*24)*60+\ all_data['context_timestamp'].dt.minute

time_series表示时间大小

new_time_col = all_data.groupby('user_id').max().reset_index()[['user_id','time_series']] new_time_col.columns = ['user_id',  'time_series_first'] all_data = pd.merge(all_data, new_time_col, on='user_id', how='left') all_data['custom_field3'] = all_data['time_series']/all_data['time_series_first'] #构建二级品牌购买关系 all_data['item_category_two_level'] = all_data['item_category_list'].apply(lambda x: x.split(';')[1]) new_time_col = all_data.groupby(['user_id', 'item_category_two_level']).max().reset_index()[['user_id', 'item_category_two_level','time_series']] new_time_col.columns = ['user_id', 'item_category_two_level',  'time_series_sec'] all_data = pd.merge(all_data, new_time_col, on=['user_id', 'item_category_two_level'], how='left') all_data['time_series_sec'] all_data['custom_field4'] = all_data['time_series']/all_data['time_series_sec']

2.6 构建浏览频率特征

构建浏览的频次特征,比如个人浏览次数、商品浏览次数。

new_col = all_data.groupby('user_id').count().reset_index()[['user_id','instance_id']] new_col.columns = ['user_id',  'custom_field1'] all_data = pd.merge(all_data, new_col, on='user_id', how='left') new_col = all_data.groupby('item_id').count().reset_index()[['item_id','instance_id']] new_col.columns = ['item_id',  'custom_field2'] all_data = pd.merge(all_data, new_col, on='item_id', how='left')

2.7 使用管道做特征处理

为了使得处理过程标准化,可以采用scikit-learn的Pipline进行处理。

将上面几种不同数据处理格式定义成Transformer类

import itertools import sklearn from sklearn.preprocessing import MinMaxScaler, LabelEncoder, MultiLabelBinarizer class select_vals(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''选择需要字段'''    def __init__(self, cols):        self.cols = cols    def fit(self, x):        return self    def transform(self, x):        x = x[self.cols].values        return x     class normalization(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''归一化处理'''    def __init__(self, cols):        self.cols = cols        self.encoder = MinMaxScaler()    def fit(self, x):        return self    def transform(self, x):        x = self.encoder.fit_transform(x[self.cols])        return x         class label_encoder(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''label_encoder编码'''    def __init__(self, cols):        self.cols = cols        self.encoder = LabelEncoder()    def fit(self, x):        return self    def transform(self, x):        x = np.array([self.encoder.fit_transform(x[col].values) for col in self.cols])        return x.T         class multilevel_encoder(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''多等级编码器'''    def __init__(self, col):        self.col = col    def fit(self, x):        return self    def transform(self, x):        max_category_num = x[self.col].apply(lambda x: len(x.split(';'))).max()        features = list()        for n in range(max_category_num):            features.append(x[self.col].apply(lambda x: x.split(';')[n] if len(x.split(';'))>n else ''))        merge_features = pd.concat(features, axis=1)        merge_features.columns = ['multilevel_'+str(i) for i in range(len(features))]        lblencoder = LabelEncoder()        x = np.array([lblencoder.fit_transform(merge_features[col].values) for col in merge_features.columns])        return x.T class multi_label_encoder(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''多类别编码,由于维度过大,采用CSR形式存储'''    def __init__(self, col):        self.col = col    def fit(self, x):        return self    def transform(self, x):        multi_label_col = x[self.col].apply(lambda x: x.split(';'))        multi_label_classes = set(itertools.chain.from_iterable(multi_label_col.tolist()))        self.encoder = MultiLabelBinarizer(classes=list(multi_label_classes), sparse_output=True)        mlb = MultiLabelBinarizer(classes=list(multi_label_classes), sparse_output=True)        # sparse_output等于True才能计算,不然很容易爆内存,将其输出CSR格式存储        return self.encoder.fit_transform(multi_label_col) #返回为CSR matrix class special_encoder(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''主要用于处理predict_category_property字段'''    def __init__(self, col):        self.col = col    def fit(self, x):        return self    def transform(self, x):        multi_label_col = x[self.col].apply(lambda s: split_method(s, ';|:'))        multi_label_classes = set(itertools.chain.from_iterable(multi_label_col.tolist()))        self.encoder = MultiLabelBinarizer(classes=list(multi_label_classes), sparse_output=True)        mlb = MultiLabelBinarizer(classes=list(multi_label_classes), sparse_output=True)        # sparse_output等于True才能计算,不然很容易爆内存,将其输出CSR格式存储        return self.encoder.fit_transform(multi_label_col) #返回为CSR matrix class timer_encoder(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''处理时间字段'''    def __init__(self, col):        self.col = col    def fit(self, x):        return self    def transform(self, x):        context_hours = x[self.col].dt.hour        context_minutes = x[self.col].dt.minute        context_minutes = context_minutes + context_minutes*60        result = np.sin(np.pi*context_minutes/(context_minutes.max()+1))        return result.as_matrix().reshape(-1,1)

放入管道中:

from sklearn import pipeline from sklearn.decomposition import TruncatedSVD # 单变量 single_var = ['user_occupation_id', 'user_gender_id', 'item_city_id', 'item_brand_id', ] # 多变量 multi_var = ['item_category_list', 'item_property_list'] # 递增变量 rank_var = ['shop_star_level', 'context_page_id', 'user_star_level', 'user_age_level', 'item_pv_level',            'item_collected_level', 'item_sales_level', 'item_price_level'] # 标准变量 standard_var = ['shop_score_description', 'shop_score_delivery', 'shop_score_service', 'shop_review_positive_rate',                'shop_review_num_level'] # 自定义特征字段 custom_var = ['custom_field1', 'custom_field2'] # 非0处理 for col in standard_var:    all_data.set_value(all_data[all_data[col]<0].index, col, 0) ppln = pipeline.Pipeline([    ('union', pipeline.FeatureUnion(        n_jobs = -1,        transformer_list = [('origin', select_vals(standard_var)),                            ('normalization', normalization(rank_var)),                            ('custom', normalization(custom_var)),                            ('time_dealing', timer_encoder('context_timestamp')),                            ('one_label_encoder', pipeline.Pipeline([('encoder',label_encoder(single_var)),('one_hot',OneHotEncoder())])),                            ('multilevel_encoder', pipeline.Pipeline([('encoder',multilevel_encoder('item_category_list')),                                                                      ('one_hot',OneHotEncoder())                                                                      ])),                            ('multilable_encoder', multi_label_encoder('item_property_list')),                            ('predict_category_property', special_encoder('predict_category_property')),                           ]))                         ]) ppln.fit_transform(train_data)

2.5 存储训练特征

# save def save_sparse_csr(filename, array):    np.savez(filename, data=array.data, indices=array.indices,             indptr=array.indptr, shape=array.shape) # load def load_sparse_csr(filename):    loader = np.load(filename)    return csr_matrix((loader['data'], loader['indices'], loader['indptr']),                      shape=loader['shape']) ## for example save_sparse_csr('train_features_savez.csr', train_x)

3. 模型

3.1 传统的分类方法

traditional Gradient Boosting Decision Tree

# train model import lightgbm as lgb gbdt = lgb.LGBMClassifier(objective='binary',                        num_leaves=64,                        learning_rate=0.01,                        n_estimators=2000,                        colsample_bytree = 0.65,                        subsample = 0.75,                        ) gbdt.fit(train_x, train_y,        eval_set=[(valid_x, valid_y)],        eval_metric='logloss',        early_stopping_rounds=200)

Dropouts meet Multiple Additive Regression Trees

dart = lgb.LGBMClassifier(boosting_type='dart',                          objective='binary',                        num_leaves=64,                        learning_rate=0.02,                        n_estimators=3000,                        colsample_bytree = 0.65,                        subsample = 0.75,                        ) dart.fit(train_x, train_y,        eval_set=[(valid_x, valid_y)],        eval_metric='logloss',        early_stopping_rounds=200)

3.2 Factorization-machine

Factorization-machine

FM 模型可以看成是线性部分的 LR,还有非线性的特征组合 xixj 交叉的组合。

3.3 Embdedding Model

3.3 Ensemble Model

stack 模型实现

class StackingAveragedModels():    def __init__(self, base_models, meta_model, n_folds=15):        self.base_models = base_models        self.meta_model = meta_model        self.n_folds = n_folds      # We again fit the data on clones of the original models    def fit(self, X, y):        self.base_models_ = [list() for x in self.base_models]        self.meta_model_ = clone(self.meta_model)        kfold = KFold(n_splits=self.n_folds, shuffle=True)                # Train cloned base models then create out-of-fold predictions        # that are needed to train the cloned meta-model        out_of_fold_predictions = np.zeros((X.shape[0], len(self.base_models)))        for i, model in enumerate(self.base_models):            for train_index, holdout_index in kfold.split(X, y):                instance = clone(model)                self.base_models_[i].append(instance)                try:                    instance.fit(X[train_index], y[train_index], verbose=False)                except:                    instance.fit(X[train_index], y[train_index])                y_pred = instance.predict(X[holdout_index])                out_of_fold_predictions[holdout_index, i] = y_pred                        # Now train the cloned  meta-model using the out-of-fold predictions as new feature        self.meta_model_.fit(out_of_fold_predictions, y)        return self      #Do the predictions of all base models on the test data and use the averaged predictions as    #meta-features for the final prediction which is done by the meta-model    def predict(self, X):        meta_features = np.column_stack([            np.column_stack([model.predict(X) for model in base_models]).mean(axis=1)            for base_models in self.base_models_ ])        return self.meta_model_.predict(meta_features)


以上是关于淘宝广告用户点击预测(python)的主要内容,如果未能解决你的问题,请参考以下文章

广告推荐CTR点击率预测实践项目!

点击率预测综述

项目搜索广告CTR预估

为啥淘宝首页的广告位轮播图片只有5个

阿里妈妈淘宝联盟里面啥是CPS?

广告点击率预估是怎么回事?