一个"文本挖掘"受阻案例引发的争议

Posted 2021-04-16 募格学术

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了一个"文本挖掘"受阻案例引发的争议相关的知识，希望对你有一定的参考价值。

文本挖掘是抽取有效、新颖、散布在文本文件中的有价值知识，并且利用这些知识更好组织信息的过程。2014年，世界最大的科学文献出版社之一Elsevier宣布开放其API功能接口，为全球科研人员提供方便、快捷获取其旗下期刊研究成果数据的渠道，但这一“慷慨”举措却遭到了许多科学家的揶揄和反对。

近日，一名荷兰帝尔堡大学的统计学家就在其博客中描述了他在“文本挖掘”过程中遭遇的不公待遇，引发了社交媒体的广泛关注。这位名叫Chris Hartgerink的科学家“控诉”道，他在为自己的博士论文搜集数据时，利用文本挖掘工具在ScienceDirect网站中下载了30G文献资料，却收到了来自Elsevier公司的警告，勒令他立即停止下载活动，称此举“影响了网站的运转效率。”事实上，Hartgerink的遭遇并不是个例，加州大学圣克鲁兹分校的基因学部门主管David Haussler表示，很多出版社都会下意识地拒绝研究人员的大规模下载要求，使后者不得不进行多次协商，争取本属于他们的“文本挖掘”权利。Haussler和其团队创办的“UCSC基因信息浏览器（UCSC Genome Browser）”包含人类、小鼠（mouse）和大鼠（rat）等多个物种的基因组草图，并提供一系列的网页分析工具，广受科学家欢迎，但该站点的基因信息全是由“文本挖掘”提供，而Elsevier虽然提供了有效的下载接口，却不允许大规模下载行为，对此，其相关负责人解释，大量下载会减慢网站运行速率，影响数百万用户的浏览体验。

Hartgerink还在博客里“控诉”了Elsevier严格的法律条例：禁止一切下载资料用于商业用途。Hartgerink认为这样苛刻的规定会极大限制其研究成果的发布范围和影响力。他同时也表示自己不会在论文中使用Elsevier的文献资料，但还会从其他允许“开放获取”的期刊，如Peer J和BioMed Central下载资料以供研究使用。相关资讯来源于Nature。

> > > > 小编有话说：科学家们抵制出版巨头的原因很简单：出版巨头使人们获取知识的代价过于高昂。学者是知识的创造者，他们无偿地将研究论文转给了出版商，还有很多人义务为期刊做论文评审，但当他们要想看到自己的论文时，却要花大价钱买回来。这样的机制，难怪会激起民愤了。

Pic Credit: Frank Huysmans/ twitter

点击图片，查看更多精彩内容

新朋友：点击正文标题下按钮“募格学术”-＞关注

以上是关于一个"文本挖掘"受阻案例引发的争议的主要内容，如果未能解决你的问题，请参考以下文章

数学之路(机器学习实践指南)-文本挖掘与NLP

第六届"泰迪杯"数据挖掘挑战赛C题参赛经历总结

数学之路(机器学习实践指南)-文本挖掘与NLP

文本挖掘案例

培训网络爬虫与文本挖掘核心技术案例实战

"<" 在 ASP.NET 中的文本框中 --> 如何允许呢？