5.22 有关游戏评论
Posted qingchen-forever
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了5.22 有关游戏评论相关的知识,希望对你有一定的参考价值。
1、特征工程原则:特征之间、特征和label之间不要有相关性,保持相对独立,有算法就专门为了识别强相关性特征只保留一个。
---多重共线性:在很多实际的数据当中,往往存在多个互相关联的特征,这时候模型就会变得不稳定,数据中细微的变化就可能导致模型的巨大变化(模型的变化本质上是系数,或者叫参数,可以理解成W),这会让模型的预测变得困难,这种现象也称为多重共线性。
2、jieba切词默认词库是有很多不存在的词的比如网络词,可以考虑词库的扩充
https://github.com/fxsjy/jieba
用法: jieba.load_userdict(file_name)
# file_name为自定义词典的路径
3、文本纠错 pycorrector
4、怎么处理表情语?比如:我【柠檬】了
5、emoji和数字会不会不替换比较好,比如:66666
6、大数据,一次epoch之后才做一次验证很容易过拟合的,应该每多少条数据做一次验证
以上是关于5.22 有关游戏评论的主要内容,如果未能解决你的问题,请参考以下文章
vbscript 各种自定义代码片段 - 有关详细信息,请参阅注释