NLP知识点学习以及解答笔记
Posted 汤姆的猫生
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP知识点学习以及解答笔记相关的知识,希望对你有一定的参考价值。
这篇博客当做笔记吧。一次记录自己在学习NLP过程中的一些困惑和解答,如果有不对的地方希望大家能够提出来!
一、BERT知识点
Q:什么是Fine-Tuning?
A:Fine-Tuning即在Pre-training大语料库提取出通用特征之后,再采用自身的数据集来进行微调,使得模型网络能够适应于当前的任务。
Q:为什么bert-as-service直接得到的embeddings的语义相似度都比较打,做不了后续的任务如聚类相关的工作?
A:简单粗暴的个人理解,因为没有进行fine-tuning,得到的句子都是从通用语料上提取到embeddings。在通用语料上,每个字对、词对都在通用语料都有一定几率存在的,所以得到embeddings后计算语义相似度得到的通常都会很大,如果做后续任务如Clustering、通过相似度阈值筛选等任务,由于区分度不大,所以效果也会很差。但是可以评估cos-sine(a, b) > cos-sine(b, c) 这种任务是没问题的。
以上是关于NLP知识点学习以及解答笔记的主要内容,如果未能解决你的问题,请参考以下文章
机器学习/NLP 文本分类:从文本文件的语料库中训练模型 - scikit learn
[Python从零到壹] 十.Selenium爬取在线百科知识万字详解(NLP语料构造必备技能)