淘宝广告用户点击预测（python)

Posted 2023-03-18

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了淘宝广告用户点击预测（python)相关的知识，希望对你有一定的参考价值。

参考技术A 为提高用户淘宝广告点击率，通过分析淘宝用户广告点击记录及对应的用户信息和广告信息表，用python 进行数据合并后进行数据清洗、提取数据特征，做特征工程分析，分析影响用户点击广告的因素，建立简单逻辑回归模型，预测用户是否点击广告；

https://tianchi.aliyun.com/dataset/dataDetail?dataId=56

数据集简介（详情见数据集链接）：

数据集一共4个表，因为是广告点击预测，就用了前面三个表，表描述如下：

主表：raw_sample

以clk 作为后逻辑回归模型数据集标签，后面会改名称为flag;

数据清洗：

以user id+ time_stamp查看，会有很多重复的记录。删除重复时间+用户ID，设置唯一标识；

查看目前数据集大小：

查看空值：

查看点击占比：

ad_feature

数据清洗：

查看重复值：

和主表做关联生成date1:

查看合并后的空值：

查看点击占比：

user_profile

查看重复值：

和date1做关联生成date2：

最终数据表信息：

查看点击比例：

删除不需要做分析的ID标识符字段：

最终数据表点击比例：

类别字段：男女占比/学生占比

时间字段：

数据集只有时间戳字段，我们从中提取星期数以及对应时间段来看时间趋势；

查看点击趋势：

对星期数再区分以便后面做特征提取;

同样对小时进行分组方便后面的特征处理

连续型字段处理：

price：

查看广告价格描述性统计信息：

给广告价格分区：

时间字段可以删除：

查看目前缺失数据，需要填充缺失数据：

查看缺失占比，pvalue_level缺失的比较多，用一个特殊的数字填充，这里用的9999.0

空值填充：如果是数值类型，用平均值取代；如果是分类数据，用最常见的类别取代；

查看剩余连续数据的分布和描述性统计信息:

删除分完区的原始列：

把sex标准化变成0/1：

目前数据预览：

Age_leavel/wechat_group 分类太多，后面做特征编码的时候生成的特征太多，对它进行分区：

数据集重命名备份:

对前面提取的特征用使用get_dummies进行one-hot编码（类似的做法，就贴三个）

分类列stu我们编码后保留一个特征：

相关系数法：计算各个特征的相关系数

查看各个特征与点击情况（flag）的相关系数，ascending=False表示按降序排列：

截取了相关系数前后几个，都不高，用户本身广告点击率就很低；

广告价格、资源位、性别、商品类别、周五比较能影响用户点击；

根据各个特征与flag的相关系数大小，选择了这几个特征作为模型的输入:

建立训练数据集和测试数据集：

建立逻辑回归并计算逻辑正确率：

字段	解释
instance_id	样本编号，Long
is_trade	是否交易的标记位，Int类型；取值是0或者1，其中1 表示这条样本最终产生交易，0 表示没有交易
item_id	广告商品编号，Long类型
item_category_list	广告商品的的类目列表，String类型；从根类目（最粗略的一级类目）向叶子类目（最精细的类目）依次排列，数据拼接格式为 "category_0;category_1;category_2"，其中 category_1 是 category_0 的子类目，category_2 是 category_1 的子类目
item_property_list	广告商品的属性列表，String类型；数据拼接格式为 "property_0;
item_brand_id	广告商品的品牌编号，Long类型
item_city_id	广告商品的城市编号，Long类型
item_price_level	广告商品的价格等级，Int类型；取值从0开始，数值越大表示价格越高
item_sales_level	广告商品的销量等级，Int类型；取值从0开始，数值越大表示销量越大
item_collected_level	广告商品被收藏次数的等级，Int类型；取值从0开始，数值越大表示被收藏次数越大
item_pv_level	广告商品被展示次数的等级，Int类型；取值从0开始，数值越大表示被展示次数越大
user_id	用户的编号，Long类型
user_gender_id	用户的预测性别编号，Int类型；0表示女性用户，1表示男性用户，2表示家庭用户
user_age_level	用户的预测年龄等级，Int类型；数值越大表示年龄越大
user_occupation_id	用户的预测职业编号，Int类型
user_star_level	用户的星级编号，Int类型；数值越大表示用户的星级越高
context_id	上下文信息的编号，Long类型
context_timestamp	广告商品的展示时间，Long类型；取值是以秒为单位的Unix时间戳，以1天为单位对时间戳进行了偏移
context_page_id	广告商品的展示页面编号，Int类型；取值从1开始，依次增加；在一次搜索的展示结果中第一屏的编号为1，第二屏的编号为2
predict_category_property	根据查询词预测的类目属性列表，String类型；数据拼接格式为 “category_A:property_A_1,property_A_2,property_A_3;category_B:-1;category_C:property_C_1,property_C_2” ，其中 category_A、category_B、category_C 是预测的三个类目；property_B 取值为-1，表示预测的第二个类目 category_B 没有对应的预测属性
shop_id	店铺的编号，Long类型
shop_review_num_level	店铺的评价数量等级，Int类型；取值从0开始，数值越大表示评价数量越多
shop_review_positive_rate	店铺的好评率，Double类型；取值在0到1之间，数值越大表示好评率越高
shop_star_level	店铺的星级编号，Int类型；取值从0开始，数值越大表示店铺的星级越高
shop_score_service	店铺的服务态度评分，Double类型；取值在0到1之间，数值越大表示评分越高
shop_score_delivery	店铺的物流服务评分，Double类型；取值在0到1之间，数值越大表示评分越高
shop_score_description	店铺的描述相符评分，Double类型；取值在0到1之间，数值越大表示评分越高

2.字段向量化

变量分类

# 单变量 single_var = ['user_occupation_id', 'user_gender_id', 'item_city_id', 'item_brand_id', ] # 多变量 multi_var = ['item_category_list', 'item_property_list'] # 递增变量 rank_var = ['shop_star_level', 'context_page_id', 'user_star_level', 'user_age_level', 'item_pv_level',            'item_collected_level', 'item_sales_level', 'item_price_level','shop_review_num_level'] # 标准变量 standard_var = ['shop_score_description', 'shop_score_delivery', 'shop_score_service', 'shop_review_positive_rate',                ] # 时间变量 datetime_var = ['context_timestamp'] unkown_var = ['predict_category_property'] # 预测变量 pred_var = ['is_trade']

2.1 适合one-hot处理的字段

对于类型变量，可以用one-hot形式进行处理。

from sklearn.preprocessing import LabelEncoder lbl = LabelEncoder() lbl_data = lbl.fit_transform(train_data['user_occupation_id'].values)

2.2 多等级类别向量化

对于多等级类别，可以采用二叉树编码，具体做法如下：

第一父类： x个；二级父类：y个; k级父类：m个。

【001000...0】【00...1000】....【0001000】 |----x个-------| |-----y------|....|-----m个----|

每个类别对应的位置采用one-hot填充，实现代码如下：

max_category_num = train_data['item_category_list'].apply(lambda x: len(x.split(';'))).max() features = list() for n in range(max_category_num):    features.append(train_data['item_category_list'].apply(lambda x: x.split(';')[n] if len(x.split(';'))>n else pd.np.nan)) merge_features = pd.concat(features, axis=1)

2.3 多属性向量化

对于多属性向量化，由于各属性之间并没有等级关系，我们可以收集全部属性然后采用多label叠加的形式进行向量化。

例如总共有x个类别，每个样本可以有多个类别，比如样本一包含属性1，属性3和属性4，则表示为: [1011....0] |---x个-------|

代码实现如下：

from sklearn.preprocessing import MultiLabelBinarizer multi_label_col = train_data['item_property_list'].apply(lambda x: x.split(';')) multi_label_classes = set(itertools.chain.from_iterable(multi_label_col.tolist())) mlb = MultiLabelBinarizer(classes=list(multi_label_classes), sparse_output=True) # sparse_output等于True才能计算,不然很容易爆内存,将其输出CSR格式存储 mlb.fit(multi_label_col) y_indicator = mlb.transform(multi_label_col) #返回为CSR matrix

另一种是比较复杂的，比如predict_category_property字段：

import re def split_method(string, symbol=';|:'):    return set(re.split(symbol,string))

2.5 时间序列处理

这里对时间序列的处理需要注意，因为原始数据已经做了按天的平移处理，因此，原来的年月日信息被打乱，可以使用的信息包括小时或分，当然，我们也能将半小时或者15分钟划分成一个单元，记录购买喜好。

# 将int转换成时间格式 train_data['context_timestamp'] = pd.to_datetime(train_data['context_timestamp'], unit='s') context_hours = train_data['context_timestamp'].dt.hour context_minutes = train_data['context_timestamp'].dt.minute context_minutes = context_minutes + context_minutes*60 # 将时间周期化 def cricle(x):    return np.sin(np.pi*x/(x.max()+1)) train['minute'] = cricle(context_minutes)

时间序列处理里面有个比较重要的就是浏览顺序

我们先把时间做顺序化处理：

all_data['time_series'] = (all_data['context_timestamp'].dt.hour + all_data['context_timestamp'].dt.day*24)*60+\ all_data['context_timestamp'].dt.minute

time_series表示时间大小

new_time_col = all_data.groupby('user_id').max().reset_index()[['user_id','time_series']] new_time_col.columns = ['user_id',  'time_series_first'] all_data = pd.merge(all_data, new_time_col, on='user_id', how='left') all_data['custom_field3'] = all_data['time_series']/all_data['time_series_first'] #构建二级品牌购买关系 all_data['item_category_two_level'] = all_data['item_category_list'].apply(lambda x: x.split(';')[1]) new_time_col = all_data.groupby(['user_id', 'item_category_two_level']).max().reset_index()[['user_id', 'item_category_two_level','time_series']] new_time_col.columns = ['user_id', 'item_category_two_level',  'time_series_sec'] all_data = pd.merge(all_data, new_time_col, on=['user_id', 'item_category_two_level'], how='left') all_data['time_series_sec'] all_data['custom_field4'] = all_data['time_series']/all_data['time_series_sec']

2.6 构建浏览频率特征

构建浏览的频次特征，比如个人浏览次数、商品浏览次数。

new_col = all_data.groupby('user_id').count().reset_index()[['user_id','instance_id']] new_col.columns = ['user_id',  'custom_field1'] all_data = pd.merge(all_data, new_col, on='user_id', how='left') new_col = all_data.groupby('item_id').count().reset_index()[['item_id','instance_id']] new_col.columns = ['item_id',  'custom_field2'] all_data = pd.merge(all_data, new_col, on='item_id', how='left')

2.7 使用管道做特征处理

为了使得处理过程标准化，可以采用scikit-learn的Pipline进行处理。

将上面几种不同数据处理格式定义成Transformer类

import itertools import sklearn from sklearn.preprocessing import MinMaxScaler, LabelEncoder, MultiLabelBinarizer class select_vals(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''选择需要字段'''    def __init__(self, cols):        self.cols = cols    def fit(self, x):        return self    def transform(self, x):        x = x[self.cols].values        return x     class normalization(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''归一化处理'''    def __init__(self, cols):        self.cols = cols        self.encoder = MinMaxScaler()    def fit(self, x):        return self    def transform(self, x):        x = self.encoder.fit_transform(x[self.cols])        return x         class label_encoder(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''label_encoder编码'''    def __init__(self, cols):        self.cols = cols        self.encoder = LabelEncoder()    def fit(self, x):        return self    def transform(self, x):        x = np.array([self.encoder.fit_transform(x[col].values) for col in self.cols])        return x.T         class multilevel_encoder(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''多等级编码器'''    def __init__(self, col):        self.col = col    def fit(self, x):        return self    def transform(self, x):        max_category_num = x[self.col].apply(lambda x: len(x.split(';'))).max()        features = list()        for n in range(max_category_num):            features.append(x[self.col].apply(lambda x: x.split(';')[n] if len(x.split(';'))>n else ''))        merge_features = pd.concat(features, axis=1)        merge_features.columns = ['multilevel_'+str(i) for i in range(len(features))]        lblencoder = LabelEncoder()        x = np.array([lblencoder.fit_transform(merge_features[col].values) for col in merge_features.columns])        return x.T class multi_label_encoder(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''多类别编码,由于维度过大，采用CSR形式存储'''    def __init__(self, col):        self.col = col    def fit(self, x):        return self    def transform(self, x):        multi_label_col = x[self.col].apply(lambda x: x.split(';'))        multi_label_classes = set(itertools.chain.from_iterable(multi_label_col.tolist()))        self.encoder = MultiLabelBinarizer(classes=list(multi_label_classes), sparse_output=True)        mlb = MultiLabelBinarizer(classes=list(multi_label_classes), sparse_output=True)        # sparse_output等于True才能计算,不然很容易爆内存,将其输出CSR格式存储        return self.encoder.fit_transform(multi_label_col) #返回为CSR matrix class special_encoder(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''主要用于处理predict_category_property字段'''    def __init__(self, col):        self.col = col    def fit(self, x):        return self    def transform(self, x):        multi_label_col = x[self.col].apply(lambda s: split_method(s, ';|:'))        multi_label_classes = set(itertools.chain.from_iterable(multi_label_col.tolist()))        self.encoder = MultiLabelBinarizer(classes=list(multi_label_classes), sparse_output=True)        mlb = MultiLabelBinarizer(classes=list(multi_label_classes), sparse_output=True)        # sparse_output等于True才能计算,不然很容易爆内存,将其输出CSR格式存储        return self.encoder.fit_transform(multi_label_col) #返回为CSR matrix class timer_encoder(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):    '''处理时间字段'''    def __init__(self, col):        self.col = col    def fit(self, x):        return self    def transform(self, x):        context_hours = x[self.col].dt.hour        context_minutes = x[self.col].dt.minute        context_minutes = context_minutes + context_minutes*60        result = np.sin(np.pi*context_minutes/(context_minutes.max()+1))        return result.as_matrix().reshape(-1,1)

放入管道中：

from sklearn import pipeline from sklearn.decomposition import TruncatedSVD # 单变量 single_var = ['user_occupation_id', 'user_gender_id', 'item_city_id', 'item_brand_id', ] # 多变量 multi_var = ['item_category_list', 'item_property_list'] # 递增变量 rank_var = ['shop_star_level', 'context_page_id', 'user_star_level', 'user_age_level', 'item_pv_level',            'item_collected_level', 'item_sales_level', 'item_price_level'] # 标准变量 standard_var = ['shop_score_description', 'shop_score_delivery', 'shop_score_service', 'shop_review_positive_rate',                'shop_review_num_level'] # 自定义特征字段 custom_var = ['custom_field1', 'custom_field2'] # 非0处理 for col in standard_var:    all_data.set_value(all_data[all_data[col]<0].index, col, 0) ppln = pipeline.Pipeline([    ('union', pipeline.FeatureUnion(        n_jobs = -1,        transformer_list = [('origin', select_vals(standard_var)),                            ('normalization', normalization(rank_var)),                            ('custom', normalization(custom_var)),                            ('time_dealing', timer_encoder('context_timestamp')),                            ('one_label_encoder', pipeline.Pipeline([('encoder',label_encoder(single_var)),('one_hot',OneHotEncoder())])),                            ('multilevel_encoder', pipeline.Pipeline([('encoder',multilevel_encoder('item_category_list')),                                                                      ('one_hot',OneHotEncoder())                                                                      ])),                            ('multilable_encoder', multi_label_encoder('item_property_list')),                            ('predict_category_property', special_encoder('predict_category_property')),                           ]))                         ]) ppln.fit_transform(train_data)

2.5 存储训练特征

# save def save_sparse_csr(filename, array):    np.savez(filename, data=array.data, indices=array.indices,             indptr=array.indptr, shape=array.shape) # load def load_sparse_csr(filename):    loader = np.load(filename)    return csr_matrix((loader['data'], loader['indices'], loader['indptr']),                      shape=loader['shape']) ## for example save_sparse_csr('train_features_savez.csr', train_x)

3. 模型

3.1 传统的分类方法

traditional Gradient Boosting Decision Tree

# train model import lightgbm as lgb gbdt = lgb.LGBMClassifier(objective='binary',                        num_leaves=64,                        learning_rate=0.01,                        n_estimators=2000,                        colsample_bytree = 0.65,                        subsample = 0.75,                        ) gbdt.fit(train_x, train_y,        eval_set=[(valid_x, valid_y)],        eval_metric='logloss',        early_stopping_rounds=200)

Dropouts meet Multiple Additive Regression Trees

dart = lgb.LGBMClassifier(boosting_type='dart',                          objective='binary',                        num_leaves=64,                        learning_rate=0.02,                        n_estimators=3000,                        colsample_bytree = 0.65,                        subsample = 0.75,                        ) dart.fit(train_x, train_y,        eval_set=[(valid_x, valid_y)],        eval_metric='logloss',        early_stopping_rounds=200)

3.2 Factorization-machine

Factorization-machine

FM 模型可以看成是线性部分的 LR，还有非线性的特征组合 xixj 交叉的组合。

3.3 Embdedding Model

3.3 Ensemble Model

stack 模型实现

class StackingAveragedModels():    def __init__(self, base_models, meta_model, n_folds=15):        self.base_models = base_models        self.meta_model = meta_model        self.n_folds = n_folds      # We again fit the data on clones of the original models    def fit(self, X, y):        self.base_models_ = [list() for x in self.base_models]        self.meta_model_ = clone(self.meta_model)        kfold = KFold(n_splits=self.n_folds, shuffle=True)                # Train cloned base models then create out-of-fold predictions        # that are needed to train the cloned meta-model        out_of_fold_predictions = np.zeros((X.shape[0], len(self.base_models)))        for i, model in enumerate(self.base_models):            for train_index, holdout_index in kfold.split(X, y):                instance = clone(model)                self.base_models_[i].append(instance)                try:                    instance.fit(X[train_index], y[train_index], verbose=False)                except:                    instance.fit(X[train_index], y[train_index])                y_pred = instance.predict(X[holdout_index])                out_of_fold_predictions[holdout_index, i] = y_pred                        # Now train the cloned  meta-model using the out-of-fold predictions as new feature        self.meta_model_.fit(out_of_fold_predictions, y)        return self      #Do the predictions of all base models on the test data and use the averaged predictions as    #meta-features for the final prediction which is done by the meta-model    def predict(self, X):        meta_features = np.column_stack([            np.column_stack([model.predict(X) for model in base_models]).mean(axis=1)            for base_models in self.base_models_ ])        return self.meta_model_.predict(meta_features)

以上是关于淘宝广告用户点击预测（python)的主要内容，如果未能解决你的问题，请参考以下文章