1. 粗整理:利用Windows的预览功能,筛选出那些不是文献的pdf、古老的扫描板的pdf、draft或manuscript(警告/敬告:没有发布的文献不应该被使用、整理和上传,请寻找对应的Publish版本)、supplement information、ppt、纯图片、中文文献等pdf,这些pdf文件需要手工处理有信息页的pdf可以使用工具剪切掉信息页。含有标记的pdf也需要手工寻找到对应版本的原始文件。
2.利用Mendeley工具,识别pdf文件的doi编码。注册新的Mendeley账号(很重要,不要和其他文献混了),导入pdf。之后程序开始自动寻找pdf的metadata信息,等待大约半小时。此时部分pdf的标题可能出现问题,但是只要识别出来doi就可以。无法识别而且也无法从pdf里找到doi的,归到手工处理分类。
3.对于已经可以识别出doi的pdf文献,利用Mendeley重命名文件,建议使用Journal+Year,减少长度。之后导出,建议为Endnote XML格式,随后pdf会被打包到同名文件夹下的PDF文件夹。
4. 打开Endnote X8及以上,导入XML文件,提示文件缺失。关闭Endnote,将PDF文件夹整体复制进enl对应的文件夹里,打开Endnote,应该可以识别出Attachment
5. 手工处理那些无法识别的文件,利用Google Scholar直接搜索文件名,找到对应网站,下载RIS参考信息;部分文件还需要下载原始的pdf文件。手工拖入Endnote
6.开启Endnote自动重命名功能,并批量修改文件名,建议Author+Year+Tittle,Endnote会自动缩减到50字符,如果还是太长只能自己写插件处理了。
7.整体整理Endnote库,修正一些小问题。然后对含有DOI的文档,整体使用更新参考信息,让Endnote自动搜索在线数据库更新。大约需要几个小时,静心等待,保持网络连接通常。
8.检查导入结果,手动修改一些错误地方
9.Enjoy/Read Your Paper!(RTFP)
参考资料
http://muchong.com/html/201501/8470739_2.html
https://www.biomart.cn/experiment/430/586/588/45434.htm
http://www.sunzx.net/archives/2171.html
原理:
人眼识别的Robust
Mendeley强大的PDF分析功能和背后Elsevier的数据库。特点是广泛、并由于众多用户提交的识别样本,识别率很高。单问题是信息准确度差,程序易出BUG。
Endnote就不用多解释了,直接可以查询SCI数据库,信息准确度是一流的。而且由于收费以及企业风格的软件,BUG极少,易用性很强,稳定可靠。
预期
使用Python+Google Scholar+selenium 抓取pdf文献的格式化信息(metadata),导入Endnote,更加高效。文件名也是个需要继续研究的问题。
Workflow
后续
如何高效文献?