NLP知识点学习以及解答笔记

Posted 汤姆的猫生

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP知识点学习以及解答笔记相关的知识,希望对你有一定的参考价值。

这篇博客当做笔记吧。一次记录自己在学习NLP过程中的一些困惑和解答,如果有不对的地方希望大家能够提出来!

一、BERT知识点

Q:什么是Fine-Tuning?

A:Fine-Tuning即在Pre-training大语料库提取出通用特征之后,再采用自身的数据集来进行微调,使得模型网络能够适应于当前的任务。

Q:为什么bert-as-service直接得到的embeddings的语义相似度都比较打,做不了后续的任务如聚类相关的工作?

A:简单粗暴的个人理解,因为没有进行fine-tuning,得到的句子都是从通用语料上提取到embeddings。在通用语料上,每个字对、词对都在通用语料都有一定几率存在的,所以得到embeddings后计算语义相似度得到的通常都会很大,如果做后续任务如Clustering、通过相似度阈值筛选等任务,由于区分度不大,所以效果也会很差。但是可以评估cos-sine(a, b) > cos-sine(b, c) 这种任务是没问题的。

以上是关于NLP知识点学习以及解答笔记的主要内容,如果未能解决你的问题,请参考以下文章

1.中文NLP的完整机器处理流程

NLP基础知识: F1-score, 混淆矩阵和语料库

机器学习/NLP 文本分类:从文本文件的语料库中训练模型 - scikit learn

[Python从零到壹] 十.Selenium爬取在线百科知识万字详解(NLP语料构造必备技能)

中文NLP笔记:13 用 Keras 实现一个简易聊天机器人

NLP常用语料集合