校级项目学习:使用BERT模型生成语义向量
Posted 汤姆的猫生
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了校级项目学习:使用BERT模型生成语义向量相关的知识,希望对你有一定的参考价值。
项目背景:
这次项目是基于第八届泰迪杯C题的基础之上去开展的,在本次比赛中没有取得太好的成绩,不过这是一个好的课题值得接下来去继续研究下去,所以借此机会把这个课题申报了校级项目,并且会继续在博客中跟进一些学习进度以及项目进展,预期在7月底完成整个项目的优化和改进,题目原内容可以通过泰迪杯官网查询到,有兴趣的朋友可以一起学习、探讨交流。
下面是官网题目链接以及相应的数据:
题目来源:https://www.tipdm.org/bdrace/tzbstysj/20200228/1637.html
数据集链接:https://pan.baidu.com/s/1sloiO24W7zPRkyzlZao7Mw
提取码:2tn4
处理目标
本项目抽取了泰迪杯C题第二小问作为学习研究对象,即对投诉文本中的热点进行提取,在竞赛中,由于是刚入门NLP这一块内容,本人采用的策略是传统建立VSM向量空间,采用TF-IDF向量化+PCA降维+余弦相似+DBSCAN聚类的方法,但是实际效果特别差。仔细分析了一下原因有三个:
- 首先分词的精准程度很大程度上影响了后续的计算
- TF-IDF向量化只考虑了词频和逆文档词频,对于词所出现的位置即语义没有做处理,如“我昨天去打篮球了”和“篮球昨天去打我了”这两种情况只考虑词频以及词与文档中词数的关系来说,是等价的。很明显的是,这两句话是语义是不等价。
- DBSCAN聚类算法得到结果很差,这是不是和DBSCAN算法自身的局限性有关
初步求解
为了解决分词以及向量化的问题,转眼抛向了NLP处理大杀器——BERT模型的怀抱,BERT模型是基于字级别的向量处理,可以不用事先分词也可以得到比分词效果还要好的向量结果
以上是关于校级项目学习:使用BERT模型生成语义向量的主要内容,如果未能解决你的问题,请参考以下文章
项目小结训练BERT模型加入到深度学习网络层中——keras_bert库使用填坑指南