做项目一定用得到的NLP资源分类版
Posted shiter
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了做项目一定用得到的NLP资源分类版相关的知识,希望对你有一定的参考价值。
文章大纲
- 语料库
- 词库及词法工具
- 预训练语言模型
- 抽取
- 知识图谱
- 文本生成
- 文本摘要
- 智能问答
- 文本纠错
- 语音处理
- 文档处理
- 表格处理
- 文本匹配
- 文本数据增强
- 常用正则表达式
- 文本检索
- 阅读理解
- 情感分析
- 事件抽取
- 机器翻译
- 数字转换
- 指代消解
- 文本聚类
- 文本分类
- 知识推理
- 可解释自然语言处理
- 文本对抗攻击
- 文本可视化
- 文本标注工具
- 语言检测
- 综合工具
- 有趣搞笑工具
- 课程报告面试等
- 比赛
- 金融自然语言处理
- 医疗自然语言处理
- 法律自然语言处理
- 其他
- 备注
原文链接:https://github.com/fighting41love/funNLP
The Most Powerful NLP-Weapon Arsenal
NLP民工的乐园: 几乎最全的中文NLP资源库
在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。
语料库
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
人名语料库 | wainshine/Chinese-Names-Corpus | |
Chinese-Word-Vectors | 各种中文词向量 | github repo |
中文聊天语料 | 该库搜集了包含豆瓣多轮, PTT八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料 | link |
中文谣言数据 | 该数据文件中,每一行为一条json格式的谣言数据 | github |
中文问答数据集 | 链接 提取码 2dva | |
微信公众号语料 | 3G语料,包含部分网络抓取的微信公众号的文章,已经去除html,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文 | github |
中文自然语言处理 语料、数据集 | github | |
任务型对话英文数据集 | 【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。 | github |
语音识别语料生成工具 | 从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库 | github |
LitBankNLP数据集 | 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 | github |
中文ULMFiT | 情感分析 文本分类 语料及模型 | github |
省市区镇行政区划数据带拼音标注 | github | |
教育行业新闻 自动文摘 语料库 | github | |
中文自然语言处理数据集 | github | |
百度知道问答语料库 | 超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘 | github |
维基大规模平行文本语料 | 85种语言、1620种语言对、135M对照句 | github |
古诗词库 | github repo 更全的古诗词库 | |
低内存加载维基百科数据 | 用新版nlp库加载17GB+英文维基语料只占用9MB内存遍历速度2-3 Gbit/s | github |
对联数据 | 700,000 couplets, 超过70万对对联 | github |
《配色辞典》数据集 | github | |
42GB的JD客服对话数据(CSDD) | github | |
70万对联数据 | link | |
用户名黑名单列表 | github | |
依存句法分析语料 | 4万句高质量标注数据 | Homepage |
人民日报语料处理工具集 | github | |
虚假新闻数据集 fake news corpus | github | |
诗歌质量评价/细粒度情感诗歌语料库 | github | |
中文自然语言处理相关的开放任务 | 数据集以及当前最佳结果 | github |
中文缩写数据集 | github | |
中文任务基准测评 | 代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜 | github |
中文谣言数据库 | github | |
CLUEDatasetSearch | 中英文NLP数据集搜索所有中文NLP数据集,附常用英文NLP数据集 | github |
多文档摘要数据集 | github | |
让人人都变得“彬彬有礼”礼貌迁移任务 | 在保留意义的同时将非礼貌语句转换为礼貌语句,提供包含139M + 实例的数据集 | paper and code |
粤语/英语会话双语语料库 | github | |
中文NLP数据集列表 | github | |
类人名/地名/组织机构名的命名体识别数据集 | github | |
中文语言理解测评基准 | 包括代表性的数据集&基准模型&语料库&排行榜 | github |
OpenCLaP多领域开源中文预训练语言模型仓库 | 民事文书、刑事文书、百度百科 | github |
中文全词覆盖BERT及两份阅读理解数据 | DRCD数据集:由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。 CMRC 2018数据集:哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。 | github |
Dakshina数据集 | 十二种南亚语言的拉丁/本地文字平行数据集合 | github |
OPUS-100 | 以英文为中心的多语(100种)平行语料 | github |
中文阅读理解数据集 | github | |
中文自然语言处理向量合集 | github | |
中文语言理解测评基准 | 包括代表性的数据集、基准(预训练)模型、语料库、排行榜 | github |
NLP数据集/基准任务大列表 | github | |
LitBankNLP数据集 | 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 | github |
70万对联数据 | github |
词库及词法工具
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
textfilter | 中英文敏感词过滤 | observerss/textfilter |
人名抽取功能 | 中文(现代、古代)名字、日文名字、中文的姓和名、称呼(大姨妈、小姨妈等)、英文->中文名字(李约翰)、成语词典 | cocoNLP |
中文缩写库 | 全国人大: 全国 人民 代表大会; 中国: 中华人民共和国;女网赛: 女子/n 网球/n 比赛/vn | github |
汉语拆字词典 | 漢字 拆法 (一) 拆法 (二) 拆法 (三) 拆 手 斥 扌 斥 才 斥 | kfcd/chaizi |
词汇情感值 | 山泉水:0.400704566541 充沛: 0.37006739587 | rainarch/SentiBridge |
中文词库、停用词、敏感词 | dongxiexidian/Chinese | |
python-pinyin | 汉字转拼音 | mozillazg/python-pinyin |
zhtools | 中文繁简体互转 | skydark/nstools |
英文模拟中文发音引擎 | say wo i ni #说:我爱你 | tinyfool/ChineseWithEnglish |
chinese_dictionary | 同义词库、反义词库、否定词库 | guotong1988/chinese_dictionary |
wordninja | 无空格英文串分割、抽取单词 | wordninja |
汽车品牌、汽车零件相关词汇 | data | |
THU整理的词库 | IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库 | link |
罪名法务名词及分类模型 | 包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能 | github |
分词语料库+代码 | 百度网盘链接 - 提取码 pea6 | |
基于Bi-LSTM + CRF的中文分词+词性标注 | keras实现 | link |
基于Universal Transformer + CRF 的中文分词和词性标注 | link | |
快速神经网络分词包 | java version | |
chinese-xinhua | 中华新华字典数据库及api,包括常用歇后语、成语、词语和汉字 | github |
SpaCy 中文模型 | 包含Parser, NER, 语法树等功能。有一些英文package使用spacy的英文模型的,如果要适配中文,可能需要使用spacy中文模型。 | github |
中文字符数据 | github | |
Synonyms中文近义词工具包 | github | |
HarvestText | 领域自适应文本挖掘工具(新词发现-情感分析-实体链接等) | github |
word2word | 方便易用的多语言词-词对集62种语言/3,564个多语言对 | github |
多音字词典数据及代码 | github | |
汉字、词语、成语查询接口 | github | |
103976个英语单词库包 | (sql版,csv版,Excel版) | github |
英文脏话大列表 | github | |
词语拼音数据 | github | |
186种语言的数字叫法库 | github | |
世界各国大规模人名库 | github | |
汉字字符特征提取器 (featurizer) | 提取汉字的特征(发音特征、字形特征)用做深度学习的特征 | github |
char_featurizer - 汉字字符特征提取工具 | github | |
中日韩分词库mecab的Python接口库 | github | |
g2pC基于上下文的汉语读音自动标记模块 | github | |
ssc, Sound Shape Code | 音形码 - 基于“音形码”的中文字符串相似度计算方法 | version 1 version 2 blog/introduction |
基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧 | github | |
Tokenizer快速、可定制的文本词条化库 | github | |
Tokenizers | 注重性能与多功能性的最先进分词器 | github |
通过同义词替换实现文本“变脸” | github | |
token2index与PyTorch/Tensorflow兼容的强大轻量词条索引库 | github | |
繁简体转换 | github |
预训练语言模型
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
bert论文中文翻译 | link | |
bert原作者的slides | link | |
文本分类实践 | github | |
bert tutorial文本分类教程 | github | |
bert pytorch实现 | github | |
bert pytorch实现 | github | |
BERT生成句向量,BERT做文本分类、文本相似度计算 | github | |
bert、ELMO的图解 | github | |
BERT Pre-trained models and downstream applications | github | |
语言/知识表示工具BERT & ERNIE | github | |
Kashgari中使用gpt-2语言模型 | github | |
Facebook LAMA | 用于分析预训练语言模型中包含的事实和常识知识的探针。语言模型分析,提供Transformer-XL/BERT/ELMo/GPT预训练语言模型的统一访问接口 | github |
中文的GPT2训练代码 | github | |
XLMFacebook的跨语言预训练语言模型 | github | |
海量中文预训练ALBERT模型 | github | |
Transformers 20 | 支持TensorFlow 20 和 PyTorch 的自然语言处理预训练语言模型(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8种架构/33种预训练模型/102种语言 | github |
8篇论文梳理BERT相关模型进展与反思 | github | |
法文RoBERTa预训练语言模型 | 用138GB语料训练的法文RoBERTa预训练语言模型 | link |
中文预训练 ELECTREA 模型 | 基于对抗学习 pretrain Chinese Model | github |
albert-chinese-ner | 用预训练语言模型ALBERT做中文NER | github |
开源预训练语言模型合集 | github | |
中文ELECTRA预训练模型 | github | |
用Transformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta)预测下一个词(模型比较) | github | |
TensorFlow Hub | 40+种语言的新语言模型(包括中文) | link |
UER | 基于不同语料、编码器、目标任务的中文预训练模型仓库(包括BERT、GPT、ELMO等) | github |
开源预训练语言模型合集 | github | |
多语言句向量包 | github |
抽取
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
时间抽取 | 已集成到 python package cocoNLP中,欢迎试用 | java version python version |
神经网络关系抽取 pytorch | 暂不支持中文 | github |
基于bert的命名实体识别 pytorch | 暂不支持中文 | github |
关键词(Keyphrase)抽取包 pke | github | |
BLINK最先进的实体链接库 | github | |
BERT/CRF实现的命名实体识别 | github | |
支持批并行的LatticeLSTM中文命名实体识别 | github | |
构建医疗实体识别的模型 | 包含词典和语料标注,基于python | github |
基于TensorFlow和BERT的管道式实体及关系抽取 | - Entity and Relation Extraction Based on TensorFlow and BERT 基于TensorFlow和BERT的管道式实体及关系抽取,2019语言与智能技术竞赛信息抽取任务解决方案。Schema based Knowledge Extraction, SKE 2019 | github |
中文命名实体识别NeuroNER vs BertNER | github | |
基于BERT的中文命名实体识别 | github | |
中文关键短语抽取工具 | github | |
bert | 用于中文命名实体识别 tensorflow版本 | github |
bert-Kashgari | 基于 keras 的封装分类标注框架 Kashgari,几分钟即可搭建一个分类或者序列标注模型 | github |
cocoNLP | 人名、地址、邮箱、手机号、手机归属地 等信息的抽取,rake短语抽取算法。 | github |
Microsoft多语言数字/单位/如日期时间识别包 | github | |
百度开源的基准信息抽取系统 | github | |
中文地址分词(地址元素识别与抽取),通过序列标注进行NER | github | |
基于依存句法的开放域文本知识三元组抽取和知识库构建 | github | |
基于预训练模型的中文关键词抽取方法 | github | |
chinese_keyphrase_extractor (CKPE) | A tool for chinese keyphrase extraction 一个快速从自然语言文本中提取和识别关键短语的工具 | github |
简单的简历解析器,用来从简历中提取关键信息 | github | |
BERT-NER-Pytorch三种不同模式的BERT中文NER实验 | github |
知识图谱
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
清华大学XLORE中英文跨语言百科知识图谱 | 百度、中文维基、英文维基 | link |
文档图谱自动生成 | github | |
基于医疗领域知识图谱的问答系统 | github 该repo参考了github | |
中文人物关系知识图谱项目 | github | |
AmpliGraph 知识图谱表示学习(Python)库知识图谱概念链接预测 | github | |
中文知识图谱资料、数据及工具 | github | |
基于百度百科的中文知识图谱 | 抽取三元组信息,构建中文知识图谱 | github |
Zincbase 知识图谱构建工具包 | github | |
基于知识图谱的问答系统 | github | |
知识图谱深度学习相关资料整理 | github | |
东南大学《知识图谱》研究生课程(资料) | github | |
知识图谱车音工作项目 | github | |
《海贼王》知识图谱 | github | |
132个知识图谱的数据集 | 涵盖常识、城市、金融、农业、地理、气象、社交、物联网、医疗、娱乐、生活、商业、出行、科教 | link |
大规模、结构化、中英文双语的新冠知识图谱(COKG-19) | link | |
基于依存句法与语义角色标注的事件三元组抽取 | github | |
抽象知识图谱 | 目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象 | github |
大规模中文知识图谱数据14亿实体 | github | |
Jiagu自然语言处理工具 | 以BiLSTM等模型为基础,提供知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要 文本聚类等功能 | github |
medical_NER - 中文医学知识图谱命名实体识别 | github | |
知识图谱相关学习资料/数据集/工具资源大列表 | github | |
LibKGE面向可复现研究的知识图谱嵌入库 | github | |
基于mongodb存储的军事领域知识图谱问答项目 | 包括飞行器、太空装备等8大类,100余小类,共计5800项的军事武器知识库,该项目不使用图数据库进行存储,通过jieba进行问句解析,问句实体项识别,基于查询模板完成多类问题的查询,主要是提供一种工业界的问答思想demo。 | github |
京东商品知识图谱 | github | |
基于远监督的中文关系抽取 | github | |
基于医药知识图谱的智能问答系统 | github | |
BLINK最先进的实体链接库 | github | |
一个小型的证券知识图谱/知识库 | github | |
dstlr非结构化文本可扩展知识图谱构建平台 | github | |
百度百科人物词条属性抽取 | 用基于BERT的微调和特征提取方法来进行知识图谱 | github |
新冠肺炎相关数据 | 新冠及其他类型肺炎中文医疗对话数据集;清华大学等机构的开放数据源(COVID-19) | github github |
DGL-KE 图嵌入表示学习算法 | github |
文本生成
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Texar | Toolkit for Text Generation and Beyond | github |
Ehud Reiter教授的博客 | link 北大万小军教授强力推荐,该博客对NLG技术、评价与应用进行了深入的探讨与反思。 | |
文本生成相关资源大列表 | github | |
开放域对话生成及在微软小冰中的实践 | 自然语言生成让机器掌握自动创作的本领 | link |
文本生成控制 | github | |
自然语言生成相关资源大列表 | github | |
用BLEURT评价自然语言生成 | link | |
自动对联数据及机器人 | 代码 link 70万对联数据 | |
自动生成评论 | 用Transformer编解码模型实现的根据Hacker News文章标题生成评论 | github |
自然语言生成SQL语句(英文) | github | |
自然语言生成资源大全 | github | |
中文生成任务基准测评 | github | |
基于GPT2的特定主题文本生成/文本增广 | github | |
编码、标记和实现一种可控高效的文本生成方法 | github | |
TextFooler针对文本分类/推理的对抗文本生成模块 | github | |
SimBERT | 基于UniLM思想、融检索与生成于一体的BERT模型 | github |
新词生成及造句 | 不存在的词用GPT-2变体从头生成新词及其定义、例句 | github |
由文本自动生成多项选择题 | github | |
合成数据生成基准 | github | |
文本摘要
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文文本摘要/关键词提取 | github | |
基于命名实体识别的简历自动摘要 | github | |
文本自动摘要库TextTeaser | 仅支持英文 | github |
基于BERT等最新语言模型的抽取式摘要提取 | github | |
Python利用深度学习进行文本摘要的综合指南 | link | |
(Colab)抽象文本摘要实现集锦(教程 | github |
智能问答
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文聊天机器人 | 根据自己的语料训练出自己想要的聊天机器人,可以用于智能客服、在线问答、智能聊天等场景 | github |
有趣的情趣robot qingyun | qingyun 训练出来的中文聊天机器人 | github |
开放了对话机器人、知识图谱、语义理解、自然语言处理工具及数据 | github | |
qa对的机器人 | Amodel-for-Retrivalchatbot - 客服机器人,Chinese Retreival chatbot(中文检索式机器人) | git |
ConvLab开源多域端到端对话系统平台 | github | |
基于最新版本rasa搭建的对话系统 | github | |
基于金融-司法领域(兼有闲聊性质)的聊天机器人 | github | |
端到端的封闭域对话系统 | github | |
MiningZhiDaoQACorpus | 580万百度知道问答数据挖掘项目,百度知道问答语料库,包括超过580万的问题,每个问题带有问题标签。基于该问答语料库,可支持多种应用,如逻辑挖掘 | github |
用于中文闲聊的GPT2模型GPT2-chitchat | github | |
基于检索聊天机器人多轮响应选择相关资源列表(Leaderboards、Datasets、Papers) | github | |
微软对话机器人框架 | github | |
chatbot-list | 行业内关于智能客服、聊天机器人的应用和架构、算法分享和介绍 | github |
Chinese medical dialogue data 中文医疗对话数据集 | github | |
一个大规模医疗对话数据集 | 包含110万医学咨询,400万条医患对话 | github |
大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ | paper & data | |
开源对话式信息搜索平台 | github | |
情境互动多模态对话挑战2020(DSTC9 2020) | github | |
用Quora问题对训练的T5问题意译(Paraphrase) | github | |
Google发布Taskmaster-2自然语言任务对话数据集 | github | |
Haystack灵活、强大的可扩展问答(QA)框架 | github | |
端到端的封闭域对话系统 | github | |
Amazon发布基于知识的人-人开放领域对话数据集 | github | |
基于百度webqa与dureader数据集训练的Albert Large QA模型 | github | |
CommonsenseQA面向常识的英文QA挑战 | link | |
MedQuAD(英文)医学问答数据集 | github | |
基于Albert、Electra,用维基百科文本作为上下文的问答引擎 | github | |
基于14W歌曲知识库的问答尝试 | 功能包括歌词接龙,已知歌词找歌曲以及歌曲歌手歌词三角关系的问答 | github |
文本纠错
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文文本纠错模块代码 | github | |
英文拼写检查库 | github | |
python拼写检查库 | github | |
GitHub Typo Corpus大规模GitHub多语言拼写错误/语法错误数据集 | github | |
BertPunc基于BERT的最先进标点修复模型 | github | |
中文写作校对工具 | github |
语音处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
ASR 语音数据集 + 基于深度学习的中文语音识别系统 | github | |
清华大学THCHS30中文语音数据集 | data_thchs30tgz-OpenSLR国内镜像 data_thchs30tgz test-noisetgz-OpenSLR国内镜像test-noisetgz resourcetgz-OpenSLR国内镜像 resourcetgz Free ST Chinese Mandarin Corpus Free ST Chinese Mandarin Corpus AIShell-1 开源版数据集-OpenSLR国内镜像 AIShell-1 开源版数据集 Primewords Chinese Corpus Set 1-OpenSLR国内镜像 Primewords Chinese Corpus Set 1 | |
笑声检测器 | github | |
Common Voice语音识别数据集新版 | 包括来自42,000名贡献者超过1,400小时的语音样本,涵github | link |
speech-aligner | 从“人声语音”及其“语言文本”,产生音素级别时间对齐标注的工具 | github |
ASR语音大辞典/词典 | github | |
语音情感分析 | github | |
masr | 中文语音识别,提供预训练模型,高识别率 | github |
面向语音识别的中文文本规范化 | github | |
语音质量评价指标(MOSNet, BSSEval, STOI, PESQ, SRMR) | github | |
面向语音识别的中文/英文发音辞典 | github | |
CoVoSTFacebook发布的多语种语音-文本翻译语料库 | 包括11种语言(法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语和中文)的语音、文字转录及英文译文 | github |
Parakeet基于PaddlePaddle的文本-语音合成 | github | |
(Java)准确的语音自然语言检测库 | github | |
CoVoSTFacebook发布的多语种语音-文本翻译语料库 | github | |
TensorFlow 2 实现的文本语音合成 | github | |
Python音频特征提取包 | github | |
ViSQOL音频质量感知客观、完整参考指标,分音频、语音两种模式 | github | |
zhrtvc | 好用的中文语音克隆兼中文语音合成系统 | github |
aukit | 好用的语音处理工具箱,包含语音降噪、音频格式转换、特征频谱生成等模块 | github |
phkit | 好用的音素处理工具箱,包含中文音素、英文音素、文本转拼音、文本正则化等模块 | github |
zhvoice | 中文语音语料,语音更加清晰自然,包含8个开源数据集,3200个说话人,900小时语音,1300万字 | github |
audio面向语音行为检测 | 、二值化、说话人识别、自动语音识别、情感识别等任务的音频标注工具 | github |
深度学习情感文本语音合成 | github | |
Python音频数据增广库 | github | |
基于大规模音频数据集Audioset的音频增强 | github | |
语声迁移 | github |
文档处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
PyLaia面向手写文档分析的深度学习工具包 | github | |
单文档非监督的关键词抽取 | github | |
DocSearch免费文档搜索引擎 | github | |
fdfgen | 能够自动创建pdf文档,并填写信息 | link |
pdfx | 自动抽取出引用参考文献,并下载对应的pdf文件 | link |
invoice2data | 发票pdf信息抽取 | invoice2data |
pdf文档信息抽取 | github | |
PDFMiner | PDFMiner能获取页面中文本的准确位置,以及字体或行等其他信息。它还有一个PDF转换器,可以将PDF文件转换成其他文本格式(如HTML)。还有一个可扩展的解析器PDF,可以用于文本分析以外的其他用途。 | link |
PyPDF2 | PyPDF 2是一个python PDF库,能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据,还可以将整个文件合并在一起。 | link |
PyPDF2 | PyPDF 2是一个python PDF库,能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据,还可以将整个文件合并在一起。 | link |
ReportLab | ReportLab能快速创建PDF 文档。经过时间证明的、超好用的开源项目,用于创建复杂的、数据驱动的PDF文档和自定义矢量图形。它是免费的,开源的,用Python编写的。该软件包每月下载5万多次,是标准Linux发行版的一部分,嵌入到许多产品中,并被选中为Wikipedia的打印/导出功能提供动力。 | link |
SIMPdfPython写的简单PDF文件文字编辑器 | github |
表格处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
用unet实现对文档表格的自动检测,表格重建 | github | |
pdftabextract | 用于OCR识别后的表格信息解析,很强大 | link |
tabula-py | 直接将pdf中的表格信息转换为pandas的dataframe,有java和python两种版本代码 | |
camelot | pdf表格解析 | link |
pdfplumber | pdf表格解析 | |
PubLayNet | 能够划分段落、识别表格、图片 | link |
从论文中提取表格数据 | github | |
用BERT在表格中寻找答案 | 做项目一定用得到的NLP资源分类版
如何使用 imdb Movie_Reviews 语料库在 SVM 分类 (NLP) 中实现否定特征 |