一个"文本挖掘"受阻案例引发的争议
Posted 募格学术
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一个"文本挖掘"受阻案例引发的争议相关的知识,希望对你有一定的参考价值。
文本挖掘是抽取有效、新颖、散布在文本文件中的有价值知识,并且利用这些知识更好组织信息的过程。2014年,世界最大的科学文献出版社之一Elsevier宣布开放其API功能接口,为全球科研人员提供方便、快捷获取其旗下期刊研究成果数据的渠道,但这一“慷慨”举措却遭到了许多科学家的揶揄和反对。
近日,一名荷兰帝尔堡大学的统计学家就在其博客中描述了他在“文本挖掘”过程中遭遇的不公待遇,引发了社交媒体的广泛关注。这位名叫Chris Hartgerink的科学家“控诉”道,他在为自己的博士论文搜集数据时,利用文本挖掘工具在ScienceDirect网站中下载了30G文献资料,却收到了来自Elsevier公司的警告,勒令他立即停止下载活动,称此举“影响了网站的运转效率。”事实上,Hartgerink的遭遇并不是个例,加州大学圣克鲁兹分校的基因学部门主管David Haussler表示,很多出版社都会下意识地拒绝研究人员的大规模下载要求,使后者不得不进行多次协商,争取本属于他们的“文本挖掘”权利。Haussler和其团队创办的“UCSC基因信息浏览器(UCSC Genome Browser)”包含人类、小鼠(mouse)和大鼠(rat)等多个物种的基因组草图,并提供一系列的网页分析工具,广受科学家欢迎,但该站点的基因信息全是由“文本挖掘”提供,而Elsevier虽然提供了有效的下载接口,却不允许大规模下载行为,对此,其相关负责人解释,大量下载会减慢网站运行速率,影响数百万用户的浏览体验。
Hartgerink还在博客里“控诉”了Elsevier严格的法律条例:禁止一切下载资料用于商业用途。Hartgerink认为这样苛刻的规定会极大限制其研究成果的发布范围和影响力。他同时也表示自己不会在论文中使用Elsevier的文献资料,但还会从其他允许“开放获取”的期刊,如Peer J和BioMed Central下载资料以供研究使用。相关资讯来源于Nature。
Pic Credit: Frank Huysmans/ twitter
新朋友:点击正文标题下按钮“募格学术”->关注
以上是关于一个"文本挖掘"受阻案例引发的争议的主要内容,如果未能解决你的问题,请参考以下文章