读书札记丨文本挖掘的在线小工具

Posted 2021-04-16 空间人文与场所计算

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了读书札记丨文本挖掘的在线小工具相关的知识，希望对你有一定的参考价值。

那么我们与文本挖掘有什么关系呢？举个栗子，我们对《园冶》进行了文本分析，得知《园冶》中出现频率最高的词是“厅堂”（下文中会讲解分析的方法），那么是不是我们根据这个文本分析的结果来探究园林与“厅堂”之间的关系呢？这仅仅是小编对文本挖掘中最基础的分析结果所作出的思考。

那么什么是文本挖掘呢？

“文本挖掘（text mining）,又称文本数据挖掘（text data mining），是一种多学科混杂的领域，涵盖了多种技术，包括数据挖掘技术、信息抽取、信息检索，机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。文本挖掘利用智能算法，如神经网络、基于案例的推理、可能性推理等，并结合文字处理技术，分析大量的非结构化文本源（如文档、电子表格、客户电子邮件、问题查询、网页等），抽取或标记关键字概念、文字间的关系，并按照内容对文档进行分类，获取有用的知识和信息。”

—— http://blog.csdn.net/jdbc/article/details/50579848

下面小编来介绍几个文本挖掘中常用的在线平台：

1、NLPIR汉语分词系统

http://ictclas.nlpir.org/nlpir/

“NLPIR能够全方位多角度满足应用者对大数据文本的处理需求，包括大数据完整的技术链条：网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。”

—— NLPIR平台简介

此平台因为非商业化，所以对文本的篇幅大小有所限制，字数限制为3000字。

NLPIR的分析功能（图片来源于网络）

NLPIR的界面

1.1 分词系统

“NLPIR的分词系统可对原始语料进行分词、自动识别人名、地名、机构名等未登录词、新词标注以及词性标注。并可在分析过程中，导入用户定义的词典。”

—— NLPIR平台简介

NLPIR的分词工具

1.2 实体抽取

“NLPIR实体抽取系统能够智能识别文本中出现的人名、地名、机构名、媒体、作者及文章的主题关键词，这是对语言规律的深入理解和科学预测，其所提炼出的词语不需要在词典库中事先存在。”

—— NLPIR平台简介

实体抽取力导向布局图

实体抽取和弦图表现

NLPIR的实体抽取（根据平台绘制）

1.3 词频分析

“词频分析展示了名词、动词、形容词三种开放词类的Top 10结果。”

—— NLPIR平台简介

并且提供了折线图、数据视图、柱状图三种不同的表现方式。

NLPIR的词频分析（根据平台绘制）

1.4 文本分类

“NLPIR采用深度神经网络对分类体系进行了综合训练。演示平台目前训练的类别只是新闻的政治、经济、军事等。我们内置的算法支持类别自定义训练，该算法对常规文本的分类准确率较高，综合开放测试的F值接近86%。NLPIR深度文本分类，可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。此外还可以实现文本过滤，能够从大量文本中快速识别和过滤出符合特殊要求的信息，可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。”

—— NLPIR平台简介

NLPIR的文本分类（根据平台绘制）

1.5 情感分析

“NLPIR情感分析提供两种模式：全文的情感判别与指定对象的情感判别。”

—— NLPIR平台简介

情感分析的饼状图表示

情感分析的漏斗图表示

NLPIR的情感分析（根据平台绘制）

1.6 关键词提取

文本表现

图表表现

NLPIR的关键词提取（根据平台绘制）

1.7 word2vec语义扩展

“POS-CBOW方法综合了词性、词的分布特点，采用word2vector改进模型，对5GB的微博语料进行训练，自动提取出了语义关联关系。如果训练文本调整为专业领域的生语料，该模型同样可以产生专业领域的本体关联关系。”

——NLPIR平台简介

NLPIR的word2vec（根据平台绘制）

1.8 文本摘要

“NLPIR自动文本摘要中间件能够实现文本内容的精简提炼，从长篇文章中自动提取关键句和关键段落，构成摘要内容，方便用户快速浏览文本内容，提高工作效率。自动摘要中间件不仅可以针对一篇文档生成连贯流畅的摘要，还能够将具有相同主题的多篇文档去除冗余，并生成一篇简明扼要的摘要。用户可以自由设定摘要的长度、百分比等参数。其处理速度达到每秒钟20篇。”

—— NLPIR平台简介