NLPKG相关数据集汇总_里加群岛旅游

点击蓝字，来茶馆喝一杯呀

把自己找到的语料和语言资源整理一下，避免以后需要的时候又浪费时间去收集（长期坑位）。NLP语料是按照中文和外语，以及不同task来进行分类。带索引的汇总可以在文章最后列出的repo中获取。

数据使用范围、授权请参考原始发布源（如果有的话），如有侵权，请联系我删除。

有的数据源（网站、论文）提供了多语语料，为避免重复，只在中文或外语对应章节列出（比如翻译）。

如有多语资源，会在相应章节进行说明（如需要特定任务的数据集，可以分别在中文和外语语料对应章节进行查看）。

我这里“问答”和“阅读理解”划分的标准是：

输入是一段背景信息或者加上用户query，输出是从背景信息抽取的答案（或者判定不能回复）或者填空，这样的数据集归类为“阅读理解”；

“问答”可以看做是对话的另外一种形式。

NLP中文语料

生语料

人民日报新闻数据：包含年-年人民日报全部数据以及文革网（-）全部图文数据库。原始发布地址不详，只找到转载的页面。原始数据是图文数据库，我将其转存百度网盘(

转载请注明地址:http://www.xiyunanhai.com/ldly/8805.html

下一篇文章：没有了

热点文章