NLPKG相关数据集汇总

北京白癜风哪家最好 http://pf.39.net/bdfyy/xwdt

点击蓝字,来茶馆喝一杯呀

把自己找到的语料和语言资源整理一下,避免以后需要的时候又浪费时间去收集(长期坑位)。NLP语料是按照中文和外语,以及不同task来进行分类。带索引的汇总可以在文章最后列出的repo中获取。

数据使用范围、授权请参考原始发布源(如果有的话),如有侵权,请联系我删除。

有的数据源(网站、论文)提供了多语语料,为避免重复,只在中文或外语对应章节列出(比如翻译)。

如有多语资源,会在相应章节进行说明(如需要特定任务的数据集,可以分别在中文和外语语料对应章节进行查看)。

我这里“问答”和“阅读理解”划分的标准是:

输入是一段背景信息或者加上用户query,输出是从背景信息抽取的答案(或者判定不能回复)或者填空,这样的数据集归类为“阅读理解”;

“问答”可以看做是对话的另外一种形式。

NLP中文语料

生语料

人民日报新闻数据:包含年-年人民日报全部数据以及文革网(-)全部图文数据库。原始发布地址不详,只找到转载的页面。原始数据是图文数据库,我将其转存百度网盘(



转载请注明地址:http://www.xiyunanhai.com/ldly/8805.html
  • 上一篇文章:
  • 下一篇文章: 没有了
  • 热点文章

    • 没有热点文章

    推荐文章

    • 没有推荐文章