一个"文本挖掘"受阻案例引发的争议

Posted 募格学术

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一个"文本挖掘"受阻案例引发的争议相关的知识,希望对你有一定的参考价值。

文本挖掘是抽取有效、新颖、散布在文本文件中的有价值知识,并且利用这些知识更好组织信息的过程。2014年,世界最大的科学文献出版社之一Elsevier宣布开放其API功能接口,为全球科研人员提供方便、快捷获取其旗下期刊研究成果数据的渠道,但这一“慷慨”举措却遭到了许多科学家的揶揄和反对。


近日,一名荷兰帝尔堡大学的统计学家就在其博客中描述了他在“文本挖掘”过程中遭遇的不公待遇,引发了社交媒体的广泛关注。这位名叫Chris Hartgerink的科学家“控诉”道,他在为自己的博士论文搜集数据时,利用文本挖掘工具在ScienceDirect网站中下载了30G文献资料,却收到了来自Elsevier公司的警告,勒令他立即停止下载活动,称此举“影响了网站的运转效率。”事实上,Hartgerink的遭遇并不是个例,加州大学圣克鲁兹分校的基因学部门主管David Haussler表示,很多出版社都会下意识地拒绝研究人员的大规模下载要求,使后者不得不进行多次协商,争取本属于他们的“文本挖掘”权利。Haussler和其团队创办的“UCSC基因信息浏览器(UCSC Genome Browser)”包含人类、小鼠(mouse)和大鼠(rat)等多个物种的基因组草图,并提供一系列的网页分析工具,广受科学家欢迎,但该站点的基因信息全是由“文本挖掘”提供,而Elsevier虽然提供了有效的下载接口,却不允许大规模下载行为,对此,其相关负责人解释,大量下载会减慢网站运行速率,影响数百万用户的浏览体验。


Hartgerink还在博客里“控诉”了Elsevier严格的法律条例:禁止一切下载资料用于商业用途。Hartgerink认为这样苛刻的规定会极大限制其研究成果的发布范围和影响力。他同时也表示自己不会在论文中使用Elsevier的文献资料,但还会从其他允许“开放获取”的期刊,如Peer J和BioMed Central下载资料以供研究使用。相关资讯来源于Nature。


> > > > 小编有话说:科学家们抵制出版巨头的原因很简单:出版巨头使人们获取知识的代价过于高昂。学者是知识的创造者,他们无偿地将研究论文转给了出版商,还有很多人义务为期刊做论文评审,但当他们要想看到自己的论文时,却要花大价钱买回来。这样的机制,难怪会激起民愤了。


Pic Credit: Frank Huysmans/ twitter



点击图片,查看更多精彩内容



新朋友:点击正文标题下按钮募格学术”->关注



以上是关于一个"文本挖掘"受阻案例引发的争议的主要内容,如果未能解决你的问题,请参考以下文章

数学之路(机器学习实践指南)-文本挖掘与NLP

第六届"泰迪杯"数据挖掘挑战赛C题参赛经历总结

数学之路(机器学习实践指南)-文本挖掘与NLP

文本挖掘案例

培训网络爬虫与文本挖掘核心技术案例实战

"<" 在 ASP.NET 中的文本框中 --> 如何允许呢?