校级项目学习：使用BERT模型生成语义向量

Posted 2023-02-08 汤姆的猫生

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了校级项目学习：使用BERT模型生成语义向量相关的知识，希望对你有一定的参考价值。

项目背景：

这次项目是基于第八届泰迪杯C题的基础之上去开展的，在本次比赛中没有取得太好的成绩，不过这是一个好的课题值得接下来去继续研究下去，所以借此机会把这个课题申报了校级项目，并且会继续在博客中跟进一些学习进度以及项目进展，预期在7月底完成整个项目的优化和改进，题目原内容可以通过泰迪杯官网查询到，有兴趣的朋友可以一起学习、探讨交流。

下面是官网题目链接以及相应的数据：

题目来源：https://www.tipdm.org/bdrace/tzbstysj/20200228/1637.html

数据集链接：https://pan.baidu.com/s/1sloiO24W7zPRkyzlZao7Mw
提取码：2tn4

处理目标

本项目抽取了泰迪杯C题第二小问作为学习研究对象，即对投诉文本中的热点进行提取，在竞赛中，由于是刚入门NLP这一块内容，本人采用的策略是传统建立VSM向量空间，采用TF-IDF向量化+PCA降维+余弦相似+DBSCAN聚类的方法，但是实际效果特别差。仔细分析了一下原因有三个：

首先分词的精准程度很大程度上影响了后续的计算
TF-IDF向量化只考虑了词频和逆文档词频，对于词所出现的位置即语义没有做处理，如“我昨天去打篮球了”和“篮球昨天去打我了”这两种情况只考虑词频以及词与文档中词数的关系来说，是等价的。很明显的是，这两句话是语义是不等价。
DBSCAN聚类算法得到结果很差，这是不是和DBSCAN算法自身的局限性有关

初步求解

为了解决分词以及向量化的问题，转眼抛向了NLP处理大杀器——BERT模型的怀抱，BERT模型是基于字级别的向量处理，可以不用事先分词也可以得到比分词效果还要好的向量结果

以上是关于校级项目学习：使用BERT模型生成语义向量的主要内容，如果未能解决你的问题，请参考以下文章

项目小结训练BERT模型加入到深度学习网络层中——keras_bert库使用填坑指南

使用BERT模型生成句子序列向量

BERT模型解析