特征处理都有哪些方法

Posted 2023-03-18

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了特征处理都有哪些方法相关的知识，希望对你有一定的参考价值。

参考技术A 、常用方法
1、时间戳处理
时间戳通常需要分离成多个维度比如年、月、日、小时、分钟、秒钟。但在很多的应用中，大量的信息是不需要的，因此我们在呈现时间的时候，试着保证你所提供的所有数据是你的模型所需要的，并且别忘了时区，加入你的数据源来自不同的地理数据源，别忘了利用时区将数据标准化。
2、离散型变量处理
举一个简单的例子，由红，黄，蓝组成的离散型变量，最常用的方式是吧每个变量值转换成二元属性，即从0，1取一个值，也就是常说的独热编码(one-hot code)。
3、分箱/分区
有时候，将连续型变量转换成类别呈现更有意义，同时能够使算法减少噪声的干扰，通过将一定范围内的数值划分成确定的块。举个例子，我们要预测具有哪些特征的人会购买我们网店的商品，用户的年龄是一个连续的变量，我们可以将年龄分为15以下、15-24、25-34、35-44、45及以上。而且，不是将这些类别分成2个点，你可以使用标量值，因为相近的年龄表现出相似的属性。
只有了解变量的领域知识的基础，确定属性能够划分成简洁的范围时分区才有意义，即所有的数值落入一个分区时能够呈现出共同的特征。在实际的运用中，当你不想让你的模型总是尝试区分值之间是否太近时，分区能够避免出现过拟合。例如，如果你感兴趣的是将一个城市作为总体，这时你可以将所有落入该城市的维度整合成一个整体。分箱也能减小小错误的影响，通过将一个给定值划入到最近的块中。如果划分范围的数量和所有可能值相近，或对你来说准确率很重要的话，此时分箱就不合适了。
4、交叉特征
交叉特征算是特征工程中非常重要的方法之一，它将两个或更多的类别属性组合成一个。当组合的特征要比单个特征更好时，这是一项非常有用的技术。数学上来说，是对类别特征的所有值进行交叉相乘。
假如拥有一个特征A,A有两个可能值A1，A2。拥有一个特征B，存在B1，B2等可能值。然后，A&B之间的交叉特征如下：（A1，B1），（A1，B2），（A2，B1），（A2，B2），并且你可以给这些组合特征取任何名字。但是需要明白每个组合特征其实代表着A和B各自信息协同作用。
5、特征选择
为了得到更好的模型，使用某些算法自动的选出原始特征的子集。这个过程，你不会构建或修改你拥有的特征，但是会通过修建特征来达到减少噪声和冗余。
特征选择算法可能会用到评分方法来排名和选择特征，比如相关性或其他确定特征重要性的方法，更进一步的方法可能需要通过试错，来搜素出特征子集。
还有通过构建辅助模型的方法，逐步回归就是模型构造过程中自动执行特征选择算法的一个实例，还有像Lasso回归和岭回归等正则化方法也被归入到特征选择，通过加入额外的约束或者惩罚项加到已有模型(损失函数)上，以防止过拟合并提高泛化能力。
6、特征缩放
有时候，你可能会注意到某些特征比其他特征拥有高得多的跨度值。举个例子，将一个人的收入和他的年龄进行比较，更具体的例子，如某些模型(像岭回归)要求你必须将特征值缩放到相同的范围值内。通过特征缩放可以避免某些特征获得大小非常悬殊的权重值。
7、特征提取
特征提取涉及到从原始属性中自动生成一些新的特征集的一系列算法，降维算法就属于这一类。特征提取是一个自动将观测值降维到一个足够建模的小数据集的过程。

文本分类方法都有哪些

参考技术A

文本分类问题：给定文档p（可能含有标题t），将文档分类为n个类别中的一个或多个
文本分类应用：常见的有垃圾邮件识别，情感分析
文本分类方向：主要有二分类，多分类，多标签分类
文本分类方法：传统机器学习方法（贝叶斯，svm等），深度学习方法（fastText，TextCNN等）
本文的思路：本文主要介绍文本分类的处理过程，主要哪些方法。致力让读者明白在处理文本分类问题时应该从什么方向入手，重点关注什么问题，对于不同的场景应该采用什么方法。
文本分类的处理大致分为 文本预处理 、文本 特征提取 、 分类模型构建 等。和英文文本处理分类相比，中文文本的预处理是关键技术。

针对中文文本分类时，很关键的一个技术就是中文分词。特征粒度为词粒度远远好于字粒度，其大部分分类算法不考虑词序信息，基于字粒度的损失了过多的n-gram信息。下面简单总结一下中文分词技术:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法 [1]。

1，基于字符串匹配的分词方法：
过程：这是 一种基于词典的中文分词 ，核心是首先建立统一的词典表，当需要对一个句子进行分词时，首先将句子拆分成多个部分，将每一个部分与字典一一对应，如果该词语在词典中，分词成功，否则继续拆分匹配直到成功。
核心：字典，切分规则和匹配顺序是核心。
分析：优点是速度快，时间复杂度可以保持在O（n）,实现简单，效果尚可；但对歧义和未登录词处理效果不佳。

2， 基于理解的分词方法：基于理解的分词方法是通过让计算机模拟人对句子的理解 ，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统 还处在试验阶段 。

3，基于统计的分词方法:
过程：统计学认为分词是一个 概率最大化问题 ，即拆分句子，基于语料库，统计 相邻的字组成的词语出现的概率 ，相邻的词出现的次数多，就出现的概率大， 按照概率值进行分词 ，所以一个完整的语料库很重要。
主要的统计模型有： N元文法模型（N-gram），隐马尔可夫模型（Hidden Markov Model ，HMM），最大熵模型（ME），条件随机场模型（Conditional Random Fields，CRF）等。

1，分词：中文任务分词必不可少，一般使用jieba分词，工业界的翘楚。
2， 去停用词：建立停用词字典 ，目前停用词字典有2000个左右，停用词主要包括一些副词、形容词及其一些连接词。通过维护一个停用词表，实际上是一个特征提取的过程，本质上是特征选择的一部分。
3， 词性标注 ：在分词后判断词性（动词、名词、形容词、副词…），在使用jieba分词的时候设置参数就能获取。

文本分类的核心都是如何从文本中抽取出能够体现文本特点的关键特征，抓取特征到类别之间的映射。所以特征工程很重要，可以由四部分组成：

1，基于词袋模型的特征表示：以词为单位（Unigram）构建的词袋可能就达到几万维，如果考虑二元词组（Bigram）、三元词组（Trigram）的话词袋大小可能会有几十万之多，因此基于词袋模型的特征表示通常是极其稀疏的。

（1）词袋特征的方法有三种：

（2）优缺点：

2，基于embedding的特征表示：通过词向量计算文本的特征。（主要针对短文本）

4，基于任务本身抽取的特征：主要是针对具体任务而设计的，通过我们对数据的观察和感知，也许能够发现一些可能有用的特征。有时候，这些手工特征对最后的分类效果提升很大。举个例子，比如对于正负面评论分类任务，对于负面评论，包含负面词的数量就是一维很强的特征。

5，特征融合：对于特征维数较高、数据模式复杂的情况，建议用非线性模型（如比较流行的GDBT, XGBoost）；对于特征维数较低、数据模式简单的情况，建议用简单的线性模型即可（如LR）。

6，主题特征：
LDA（文档的话题）：可以假设文档集有T个话题，一篇文档可能属于一个或多个话题，通过LDA模型可以计算出文档属于某个话题的概率，这样可以计算出一个DxT的矩阵。LDA特征在文档打标签等任务上表现很好。
LSI（文档的潜在语义）：通过分解文档-词频矩阵来计算文档的潜在语义，和LDA有一点相似，都是文档的潜在特征。

这部分不是重点，传统机器学习算法中能用来分类的模型都可以用，常见的有：NB模型，随机森林模型（RF），SVM分类模型，KNN分类模型，神经网络分类模型。
这里重点提一下贝叶斯模型，因为工业用这个模型用来识别垃圾邮件[2]。

1，fastText模型： fastText 是word2vec 作者 Mikolov 转战 Facebook 后16年7月刚发表的一篇论文： Bag of Tricks for Efficient Text Classification [3]。

模型结构：

改进：注意力（Attention）机制是自然语言处理领域一个常用的建模长时间记忆机制，能够很直观的给出每个词对结果的贡献，基本成了Seq2Seq模型的标配了。实际上文本分类从某种意义上也可以理解为一种特殊的Seq2Seq，所以考虑把Attention机制引入近来。

过程：
利用前向和后向RNN得到每个词的前向和后向上下文的表示：

词的表示变成词向量和前向后向上下文向量连接起来的形式：

模型显然并不是最重要的：好的模型设计对拿到好结果的至关重要，也更是学术关注热点。但实际使用中，模型的工作量占的时间其实相对比较少。虽然再第二部分介绍了5种CNN/RNN及其变体的模型，实际中文本分类任务单纯用CNN已经足以取得很不错的结果了，我们的实验测试RCNN对准确率提升大约1%，并不是十分的显著。最佳实践是先用TextCNN模型把整体任务效果调试到最好，再尝试改进模型。

理解你的数据：虽然应用深度学习有一个很大的优势是不再需要繁琐低效的人工特征工程，然而如果你只是把他当做一个黑盒，难免会经常怀疑人生。一定要理解你的数据，记住无论传统方法还是深度学习方法，数据 sense 始终非常重要。要重视 badcase 分析，明白你的数据是否适合，为什么对为什么错。

超参调节： 可以参考深度学习网络调参技巧 - 知乎专栏

一定要用 dropout：有两种情况可以不用：数据量特别小，或者你用了更好的正则方法，比如bn。实际中我们尝试了不同参数的dropout，最好的还是0.5，所以如果你的计算资源很有限，默认0.5是一个很好的选择。

未必一定要 softmax loss：这取决与你的数据，如果你的任务是多个类别间非互斥，可以试试着训练多个二分类器，也就是把问题定义为multi lable 而非 multi class，我们调整后准确率还是增加了>1%。

类目不均衡问题：基本是一个在很多场景都验证过的结论：如果你的loss被一部分类别dominate，对总体而言大多是负向的。建议可以尝试类似 booststrap 方法调整 loss 中样本权重方式解决。

避免训练震荡：默认一定要增加随机采样因素尽可能使得数据分布iid，默认shuffle机制能使得训练结果更稳定。如果训练模型仍然很震荡，可以考虑调整学习率或 mini_batch_size。

知乎的文本多标签分类比赛，给出第一第二名的介绍网址：
NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)
2017知乎看山杯从入门到第二

以上是关于特征处理都有哪些方法的主要内容，如果未能解决你的问题，请参考以下文章