做项目一定用得到的NLP资源分类版

Posted shiter

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了做项目一定用得到的NLP资源分类版相关的知识,希望对你有一定的参考价值。

文章大纲


原文链接:https://github.com/fighting41love/funNLP

The Most Powerful NLP-Weapon Arsenal

NLP民工的乐园: 几乎最全的中文NLP资源库
在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。


语料库

资源名(Name)描述(Description)链接
人名语料库wainshine/Chinese-Names-Corpus
Chinese-Word-Vectors各种中文词向量github repo
中文聊天语料该库搜集了包含豆瓣多轮, PTT八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料link
中文谣言数据该数据文件中,每一行为一条json格式的谣言数据github
中文问答数据集链接 提取码 2dva
微信公众号语料3G语料,包含部分网络抓取的微信公众号的文章,已经去除html,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文github
中文自然语言处理 语料、数据集github
任务型对话英文数据集【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。github
语音识别语料生成工具从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库github
LitBankNLP数据集支持自然语言处理和计算人文学科任务的100部带标记英文小说语料github
中文ULMFiT情感分析 文本分类 语料及模型github
省市区镇行政区划数据带拼音标注github
教育行业新闻 自动文摘 语料库github
中文自然语言处理数据集github
百度知道问答语料库超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘github
维基大规模平行文本语料85种语言、1620种语言对、135M对照句github
古诗词库github repo
更全的古诗词库
低内存加载维基百科数据用新版nlp库加载17GB+英文维基语料只占用9MB内存遍历速度2-3 Gbit/sgithub
对联数据700,000 couplets, 超过70万对对联github
《配色辞典》数据集github
42GB的JD客服对话数据(CSDD)github
70万对联数据link
用户名黑名单列表github
依存句法分析语料4万句高质量标注数据Homepage
人民日报语料处理工具集github
虚假新闻数据集 fake news corpusgithub
诗歌质量评价/细粒度情感诗歌语料库github
中文自然语言处理相关的开放任务数据集以及当前最佳结果github
中文缩写数据集github
中文任务基准测评代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜github
中文谣言数据库github
CLUEDatasetSearch中英文NLP数据集搜索所有中文NLP数据集,附常用英文NLP数据集github
多文档摘要数据集github
让人人都变得“彬彬有礼”礼貌迁移任务在保留意义的同时将非礼貌语句转换为礼貌语句,提供包含139M + 实例的数据集paper and code
粤语/英语会话双语语料库github
中文NLP数据集列表github
类人名/地名/组织机构名的命名体识别数据集github
中文语言理解测评基准包括代表性的数据集&基准模型&语料库&排行榜github
OpenCLaP多领域开源中文预训练语言模型仓库民事文书、刑事文书、百度百科github
中文全词覆盖BERT及两份阅读理解数据DRCD数据集:由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。
CMRC 2018数据集:哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。
github
Dakshina数据集十二种南亚语言的拉丁/本地文字平行数据集合github
OPUS-100以英文为中心的多语(100种)平行语料github
中文阅读理解数据集github
中文自然语言处理向量合集github
中文语言理解测评基准包括代表性的数据集、基准(预训练)模型、语料库、排行榜github
NLP数据集/基准任务大列表github
LitBankNLP数据集支持自然语言处理和计算人文学科任务的100部带标记英文小说语料github
70万对联数据github

词库及词法工具

资源名(Name)描述(Description)链接
textfilter中英文敏感词过滤observerss/textfilter
人名抽取功能中文(现代、古代)名字、日文名字、中文的姓和名、称呼(大姨妈、小姨妈等)、英文->中文名字(李约翰)、成语词典cocoNLP
中文缩写库全国人大: 全国 人民 代表大会; 中国: 中华人民共和国;女网赛: 女子/n 网球/n 比赛/vngithub
汉语拆字词典漢字 拆法 (一) 拆法 (二) 拆法 (三) 拆 手 斥 扌 斥 才 斥kfcd/chaizi
词汇情感值山泉水:0.400704566541
充沛: 0.37006739587
rainarch/SentiBridge
中文词库、停用词、敏感词dongxiexidian/Chinese
python-pinyin汉字转拼音mozillazg/python-pinyin
zhtools中文繁简体互转skydark/nstools
英文模拟中文发音引擎say wo i ni #说:我爱你tinyfool/ChineseWithEnglish
chinese_dictionary同义词库、反义词库、否定词库guotong1988/chinese_dictionary
wordninja无空格英文串分割、抽取单词wordninja
汽车品牌、汽车零件相关词汇data
THU整理的词库IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库link
罪名法务名词及分类模型包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能github
分词语料库+代码百度网盘链接 - 提取码 pea6
基于Bi-LSTM + CRF的中文分词+词性标注keras实现link
基于Universal Transformer + CRF 的中文分词和词性标注link
快速神经网络分词包java version
chinese-xinhua中华新华字典数据库及api,包括常用歇后语、成语、词语和汉字github
SpaCy 中文模型包含Parser, NER, 语法树等功能。有一些英文package使用spacy的英文模型的,如果要适配中文,可能需要使用spacy中文模型。github
中文字符数据github
Synonyms中文近义词工具包github
HarvestText领域自适应文本挖掘工具(新词发现-情感分析-实体链接等)github
word2word方便易用的多语言词-词对集62种语言/3,564个多语言对github
多音字词典数据及代码github
汉字、词语、成语查询接口github
103976个英语单词库包(sql版,csv版,Excel版)github
英文脏话大列表github
词语拼音数据github
186种语言的数字叫法库github
世界各国大规模人名库github
汉字字符特征提取器 (featurizer)提取汉字的特征(发音特征、字形特征)用做深度学习的特征github
char_featurizer - 汉字字符特征提取工具github
中日韩分词库mecab的Python接口库github
g2pC基于上下文的汉语读音自动标记模块github
ssc, Sound Shape Code音形码 - 基于“音形码”的中文字符串相似度计算方法version 1
version 2
blog/introduction
基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧github
Tokenizer快速、可定制的文本词条化库github
Tokenizers注重性能与多功能性的最先进分词器github
通过同义词替换实现文本“变脸”github
token2index与PyTorch/Tensorflow兼容的强大轻量词条索引库github
繁简体转换github

预训练语言模型

资源名(Name)描述(Description)链接
bert论文中文翻译link
bert原作者的slideslink
文本分类实践github
bert tutorial文本分类教程github
bert pytorch实现github
bert pytorch实现github
BERT生成句向量,BERT做文本分类、文本相似度计算github
bert、ELMO的图解github
BERT Pre-trained models and downstream applicationsgithub
语言/知识表示工具BERT & ERNIEgithub
Kashgari中使用gpt-2语言模型github
Facebook LAMA用于分析预训练语言模型中包含的事实和常识知识的探针。语言模型分析,提供Transformer-XL/BERT/ELMo/GPT预训练语言模型的统一访问接口github
中文的GPT2训练代码github
XLMFacebook的跨语言预训练语言模型github
海量中文预训练ALBERT模型github
Transformers 20支持TensorFlow 20 和 PyTorch 的自然语言处理预训练语言模型(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8种架构/33种预训练模型/102种语言github
8篇论文梳理BERT相关模型进展与反思github
法文RoBERTa预训练语言模型用138GB语料训练的法文RoBERTa预训练语言模型link
中文预训练 ELECTREA 模型基于对抗学习 pretrain Chinese Modelgithub
albert-chinese-ner用预训练语言模型ALBERT做中文NERgithub
开源预训练语言模型合集github
中文ELECTRA预训练模型github
用Transformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta)预测下一个词(模型比较)github
TensorFlow Hub40+种语言的新语言模型(包括中文)link
UER基于不同语料、编码器、目标任务的中文预训练模型仓库(包括BERT、GPT、ELMO等)github
开源预训练语言模型合集github
多语言句向量包github

抽取

资源名(Name)描述(Description)链接
时间抽取已集成到 python package cocoNLP中,欢迎试用java version
python version
神经网络关系抽取 pytorch暂不支持中文github
基于bert的命名实体识别 pytorch暂不支持中文github
关键词(Keyphrase)抽取包 pkegithub
BLINK最先进的实体链接库github
BERT/CRF实现的命名实体识别github
支持批并行的LatticeLSTM中文命名实体识别github
构建医疗实体识别的模型包含词典和语料标注,基于pythongithub
基于TensorFlow和BERT的管道式实体及关系抽取- Entity and Relation Extraction Based on TensorFlow and BERT 基于TensorFlow和BERT的管道式实体及关系抽取,2019语言与智能技术竞赛信息抽取任务解决方案。Schema based Knowledge Extraction, SKE 2019github
中文命名实体识别NeuroNER vs BertNERgithub
基于BERT的中文命名实体识别github
中文关键短语抽取工具github
bert用于中文命名实体识别 tensorflow版本github
bert-Kashgari基于 keras 的封装分类标注框架 Kashgari,几分钟即可搭建一个分类或者序列标注模型github
cocoNLP人名、地址、邮箱、手机号、手机归属地 等信息的抽取,rake短语抽取算法。github
Microsoft多语言数字/单位/如日期时间识别包github
百度开源的基准信息抽取系统github
中文地址分词(地址元素识别与抽取),通过序列标注进行NERgithub
基于依存句法的开放域文本知识三元组抽取和知识库构建github
基于预训练模型的中文关键词抽取方法github
chinese_keyphrase_extractor (CKPE)A tool for chinese keyphrase extraction 一个快速从自然语言文本中提取和识别关键短语的工具github
简单的简历解析器,用来从简历中提取关键信息github
BERT-NER-Pytorch三种不同模式的BERT中文NER实验github

知识图谱

资源名(Name)描述(Description)链接
清华大学XLORE中英文跨语言百科知识图谱百度、中文维基、英文维基link
文档图谱自动生成github
基于医疗领域知识图谱的问答系统github
该repo参考了github
中文人物关系知识图谱项目github
AmpliGraph 知识图谱表示学习(Python)库知识图谱概念链接预测github
中文知识图谱资料、数据及工具github
基于百度百科的中文知识图谱抽取三元组信息,构建中文知识图谱github
Zincbase 知识图谱构建工具包github
基于知识图谱的问答系统github
知识图谱深度学习相关资料整理github
东南大学《知识图谱》研究生课程(资料)github
知识图谱车音工作项目github
《海贼王》知识图谱github
132个知识图谱的数据集涵盖常识、城市、金融、农业、地理、气象、社交、物联网、医疗、娱乐、生活、商业、出行、科教link
大规模、结构化、中英文双语的新冠知识图谱(COKG-19)link
基于依存句法与语义角色标注的事件三元组抽取github
抽象知识图谱目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象github
大规模中文知识图谱数据14亿实体github
Jiagu自然语言处理工具以BiLSTM等模型为基础,提供知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要 文本聚类等功能github
medical_NER - 中文医学知识图谱命名实体识别github
知识图谱相关学习资料/数据集/工具资源大列表github
LibKGE面向可复现研究的知识图谱嵌入库github
基于mongodb存储的军事领域知识图谱问答项目包括飞行器、太空装备等8大类,100余小类,共计5800项的军事武器知识库,该项目不使用图数据库进行存储,通过jieba进行问句解析,问句实体项识别,基于查询模板完成多类问题的查询,主要是提供一种工业界的问答思想demo。github
京东商品知识图谱github
基于远监督的中文关系抽取github
基于医药知识图谱的智能问答系统github
BLINK最先进的实体链接库github
一个小型的证券知识图谱/知识库github
dstlr非结构化文本可扩展知识图谱构建平台github
百度百科人物词条属性抽取用基于BERT的微调和特征提取方法来进行知识图谱github
新冠肺炎相关数据新冠及其他类型肺炎中文医疗对话数据集;清华大学等机构的开放数据源(COVID-19)github
github
DGL-KE 图嵌入表示学习算法github

文本生成

资源名(Name)描述(Description)链接
TexarToolkit for Text Generation and Beyondgithub
Ehud Reiter教授的博客link 北大万小军教授强力推荐,该博客对NLG技术、评价与应用进行了深入的探讨与反思。
文本生成相关资源大列表github
开放域对话生成及在微软小冰中的实践自然语言生成让机器掌握自动创作的本领link
文本生成控制github
自然语言生成相关资源大列表github
用BLEURT评价自然语言生成link
自动对联数据及机器人代码 link
70万对联数据
自动生成评论用Transformer编解码模型实现的根据Hacker News文章标题生成评论github
自然语言生成SQL语句(英文)github
自然语言生成资源大全github
中文生成任务基准测评github
基于GPT2的特定主题文本生成/文本增广github
编码、标记和实现一种可控高效的文本生成方法github
TextFooler针对文本分类/推理的对抗文本生成模块github
SimBERT基于UniLM思想、融检索与生成于一体的BERT模型github
新词生成及造句不存在的词用GPT-2变体从头生成新词及其定义、例句github
由文本自动生成多项选择题github
合成数据生成基准github

文本摘要

资源名(Name)描述(Description)链接
中文文本摘要/关键词提取github
基于命名实体识别的简历自动摘要github
文本自动摘要库TextTeaser仅支持英文github
基于BERT等最新语言模型的抽取式摘要提取github
Python利用深度学习进行文本摘要的综合指南link
(Colab)抽象文本摘要实现集锦(教程github

智能问答

资源名(Name)描述(Description)链接
中文聊天机器人根据自己的语料训练出自己想要的聊天机器人,可以用于智能客服、在线问答、智能聊天等场景github
有趣的情趣robot qingyunqingyun 训练出来的中文聊天机器人github
开放了对话机器人、知识图谱、语义理解、自然语言处理工具及数据github
qa对的机器人Amodel-for-Retrivalchatbot - 客服机器人,Chinese Retreival chatbot(中文检索式机器人)git
ConvLab开源多域端到端对话系统平台github
基于最新版本rasa搭建的对话系统github
基于金融-司法领域(兼有闲聊性质)的聊天机器人github
端到端的封闭域对话系统github
MiningZhiDaoQACorpus580万百度知道问答数据挖掘项目,百度知道问答语料库,包括超过580万的问题,每个问题带有问题标签。基于该问答语料库,可支持多种应用,如逻辑挖掘github
用于中文闲聊的GPT2模型GPT2-chitchatgithub
基于检索聊天机器人多轮响应选择相关资源列表(Leaderboards、Datasets、Papers)github
微软对话机器人框架github
chatbot-list行业内关于智能客服、聊天机器人的应用和架构、算法分享和介绍github
Chinese medical dialogue data 中文医疗对话数据集github
一个大规模医疗对话数据集包含110万医学咨询,400万条医患对话github
大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZpaper & data
开源对话式信息搜索平台github
情境互动多模态对话挑战2020(DSTC9 2020)github
用Quora问题对训练的T5问题意译(Paraphrase)github
Google发布Taskmaster-2自然语言任务对话数据集github
Haystack灵活、强大的可扩展问答(QA)框架github
端到端的封闭域对话系统github
Amazon发布基于知识的人-人开放领域对话数据集github
基于百度webqa与dureader数据集训练的Albert Large QA模型github
CommonsenseQA面向常识的英文QA挑战link
MedQuAD(英文)医学问答数据集github
基于Albert、Electra,用维基百科文本作为上下文的问答引擎github
基于14W歌曲知识库的问答尝试功能包括歌词接龙,已知歌词找歌曲以及歌曲歌手歌词三角关系的问答github

文本纠错

资源名(Name)描述(Description)链接
中文文本纠错模块代码github
英文拼写检查库github
python拼写检查库github
GitHub Typo Corpus大规模GitHub多语言拼写错误/语法错误数据集github
BertPunc基于BERT的最先进标点修复模型github
中文写作校对工具github

语音处理

资源名(Name)描述(Description)链接
ASR 语音数据集 + 基于深度学习的中文语音识别系统github
清华大学THCHS30中文语音数据集data_thchs30tgz-OpenSLR国内镜像
data_thchs30tgz
test-noisetgz-OpenSLR国内镜像test-noisetgz
resourcetgz-OpenSLR国内镜像
resourcetgz
Free ST Chinese Mandarin Corpus
Free ST Chinese Mandarin Corpus
AIShell-1 开源版数据集-OpenSLR国内镜像
AIShell-1 开源版数据集
Primewords Chinese Corpus Set 1-OpenSLR国内镜像
Primewords Chinese Corpus Set 1
笑声检测器github
Common Voice语音识别数据集新版包括来自42,000名贡献者超过1,400小时的语音样本,涵githublink
speech-aligner从“人声语音”及其“语言文本”,产生音素级别时间对齐标注的工具github
ASR语音大辞典/词典github
语音情感分析github
masr中文语音识别,提供预训练模型,高识别率github
面向语音识别的中文文本规范化github
语音质量评价指标(MOSNet, BSSEval, STOI, PESQ, SRMR)github
面向语音识别的中文/英文发音辞典github
CoVoSTFacebook发布的多语种语音-文本翻译语料库包括11种语言(法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语和中文)的语音、文字转录及英文译文github
Parakeet基于PaddlePaddle的文本-语音合成github
(Java)准确的语音自然语言检测库github
CoVoSTFacebook发布的多语种语音-文本翻译语料库github
TensorFlow 2 实现的文本语音合成github
Python音频特征提取包github
ViSQOL音频质量感知客观、完整参考指标,分音频、语音两种模式github
zhrtvc好用的中文语音克隆兼中文语音合成系统github
aukit好用的语音处理工具箱,包含语音降噪、音频格式转换、特征频谱生成等模块github
phkit好用的音素处理工具箱,包含中文音素、英文音素、文本转拼音、文本正则化等模块github
zhvoice中文语音语料,语音更加清晰自然,包含8个开源数据集,3200个说话人,900小时语音,1300万字github
audio面向语音行为检测、二值化、说话人识别、自动语音识别、情感识别等任务的音频标注工具github
深度学习情感文本语音合成github
Python音频数据增广库github
基于大规模音频数据集Audioset的音频增强github
语声迁移github

文档处理

资源名(Name)描述(Description)链接
PyLaia面向手写文档分析的深度学习工具包github
单文档非监督的关键词抽取github
DocSearch免费文档搜索引擎github
fdfgen能够自动创建pdf文档,并填写信息link
pdfx自动抽取出引用参考文献,并下载对应的pdf文件link
invoice2data发票pdf信息抽取invoice2data
pdf文档信息抽取github
PDFMinerPDFMiner能获取页面中文本的准确位置,以及字体或行等其他信息。它还有一个PDF转换器,可以将PDF文件转换成其他文本格式(如HTML)。还有一个可扩展的解析器PDF,可以用于文本分析以外的其他用途。link
PyPDF2PyPDF 2是一个python PDF库,能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据,还可以将整个文件合并在一起。link
PyPDF2PyPDF 2是一个python PDF库,能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据,还可以将整个文件合并在一起。link
ReportLabReportLab能快速创建PDF 文档。经过时间证明的、超好用的开源项目,用于创建复杂的、数据驱动的PDF文档和自定义矢量图形。它是免费的,开源的,用Python编写的。该软件包每月下载5万多次,是标准Linux发行版的一部分,嵌入到许多产品中,并被选中为Wikipedia的打印/导出功能提供动力。link
SIMPdfPython写的简单PDF文件文字编辑器github

表格处理

资源名(Name)描述(Description)链接
用unet实现对文档表格的自动检测,表格重建github
pdftabextract用于OCR识别后的表格信息解析,很强大link
tabula-py直接将pdf中的表格信息转换为pandas的dataframe,有java和python两种版本代码
camelotpdf表格解析link
pdfplumberpdf表格解析
PubLayNet能够划分段落、识别表格、图片link
从论文中提取表格数据github
用BERT在表格中寻找答案做项目一定用得到的NLP资源分类版

NLP常用语料集合

如何使用 imdb Movie_Reviews 语料库在 SVM 分类 (NLP) 中实现否定特征

02-NLP-04-01用RNN做文本生成

机器学习/NLP 文本分类:从文本文件的语料库中训练模型 - scikit learn

NLP 语料分类不均衡/数据倾斜/data skew

(c)2006-2024 SYSTEM All Rights Reserved IT常识