北京白癜风哪家最好 http://pf.39.net/bdfyy/xwdt
点击蓝字,来茶馆喝一杯呀
把自己找到的语料和语言资源整理一下,避免以后需要的时候又浪费时间去收集(长期坑位)。NLP语料是按照中文和外语,以及不同task来进行分类。带索引的汇总可以在文章最后列出的repo中获取。
数据使用范围、授权请参考原始发布源(如果有的话),如有侵权,请联系我删除。
有的数据源(网站、论文)提供了多语语料,为避免重复,只在中文或外语对应章节列出(比如翻译)。
如有多语资源,会在相应章节进行说明(如需要特定任务的数据集,可以分别在中文和外语语料对应章节进行查看)。
我这里“问答”和“阅读理解”划分的标准是:
输入是一段背景信息或者加上用户query,输出是从背景信息抽取的答案(或者判定不能回复)或者填空,这样的数据集归类为“阅读理解”;
“问答”可以看做是对话的另外一种形式。
NLP中文语料
生语料人民日报新闻数据:包含年-年人民日报全部数据以及文革网(-)全部图文数据库。原始发布地址不详,只找到转载的页面。原始数据是图文数据库,我将其转存百度网盘(