腾讯词向量
开放知识图谱OpenKG.cn
开放中文知识图谱的schema
大规模中文概念图谱CN-Probase 公众号介绍
大规模1.4亿中文知识图谱开源下载
农业知识图谱农业领域的信息检索，命名实体识别，关系抽取，分类树构建，数据挖掘
CLDC中文语言资源联盟
中文 Wikipedia Dump
基于不同语料、不同模型（比如BERT、GPT）的中文预训练模型中文预训练模型框架，支持不同语料、编码器、目标任务的预训练模型（from RUC and Tencent）
OpenCLaP 多领域开源中文预训练语言模型仓库 (from Tsinghua)
98年人民日报词性标注库@百度盘
搜狗20061127新闻语料(包含分类)@百度盘
UDChinese (for training spaCy POS)
中文word2vec模型
上百种预训练中文词向量
Tencent AI Lab Embedding Corpus for Chinese Words and Phrases
中文预训练BERT with Whole Word Masking
中文GPT2训练代码可以写诗，新闻，小说，或是训练通用语言模型。
中文语言理解测评基准ChineseGLUE 包括代表性的数据集、基准(预训练)模型、语料库、排行榜。
中华新华字典数据库包括歇后语，成语，词语，汉字。
Synonyms:中文近义词工具包基于维基百科中文和word2vec训练的近义词库，封装为python包文件。
Chinese_conversation_sentiment A Chinese sentiment dataset may be useful for sentiment analysis.
中文突发事件语料库 Chinese Emergency Corpus
dgk_lost_conv 中文对白语料 chinese conversation corpus
用于训练中英文对话系统的语料库 Datasets for Training Chatbot System
八卦版問答中文語料
中文公开聊天语料库
中国股市公告信息爬取通过python脚本从巨潮网络的服务器获取中国股市（sz,sh）的公告(上市公司和监管机构)
tushare财经数据接口 TuShare是一个免费、开源的python财经数据接口包。
金融文本数据集 SmoothNLP 金融文本数据集(公开) Public Financial Datasets for NLP Researches
保险行业语料库 [52nlp介绍Blog] OpenData in insurance area for Machine Learning Tasks
最全中华古诗词数据库唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。
DuReader中文阅读理解数据
中文语料小数据包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据
Chinese-Literature-NER-RE-Dataset A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text
ChineseTextualInference 中文文本推断项目,包括88万文本蕴含中文文本蕴含数据集的翻译与构建,基于深度学习的文本蕴含判定模型构建.
大规模中文自然语言处理语料维基百科(wiki2019zh),新闻语料(news2016zh),百科问答(baike2018qa)
中文人名语料库中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。
公司名、机构名语料库公司简称,缩写,品牌词,企业名。
中文敏感词词库敏感词过滤的几种实现+某1w词敏感词库
中文简称词库 A corpus of Chinese abbreviation, including negative full forms.
中文数据预处理材料中文分词词典和中文停用词
漢語拆字字典
SentiBridge: 中文实体情感知识库刻画人们如何描述某个实体，包含新闻、旅游、餐饮，共计30万对。
OpenCorpus A collection of freely available (Chinese) corpora.
ChineseNlpCorpus 情感/观点/评论倾向性分析，中文命名实体识别，推荐系统
FinancialDatasets SmoothNLP 金融文本数据集(公开) Public Financial Datasets for NLP Researches Only
People’s Daily & Children’s Fairy Tale PD&CFT: A Chinese Reading Comprehension Dataset

1.维基百科json版(wiki2019zh)

104万个词条(1,043,224条; 原始文件大小1.6G，压缩文件519M；数据更新时间：2019.2.7)

可能的用途：

可以做为通用中文语料，做预训练的语料或构建词向量，也可以用于构建知识问答。

结构：

{"id":<id>,"url":<url>,"title":<title>,"text":<text>} 其中，title是词条的标题，text是正文；通过"\n\n"换行。

例子：

{"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学\n\n经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。\n\n经济学注重的是研究经济行为者在一个经济体系下的行为，以及他们彼此之间的互动。在现代，经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为，包括个体的行为者（例如个人、公司、买家或卖家）以及与市场的互动。而宏观经济学则分析整个经济体和其议题，包括失业、通货膨胀、经济成长、财政和货币政策等。..."}

效果：

经济学
经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。
经济学注重的是研究经济行为者在一个经济体系下的行为，以及他们彼此之间的互动。在现代，经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为，包括个体的行为者（例如个人、公司、买家或卖家）以及与市场的互动。而宏观经济学则分析整个经济体和其议题，包括失业、通货膨胀、经济成长、财政和货币政策等。
其他的对照还包括了实证经济学（研究「是什么」）以及规范经济学（研究「应该是什么」）、经济理论与实用经济学、行为经济学与理性选择经济学、主流经济学（研究理性-个体-均衡等）与非主流经济学（研究体制-历史-社会结构等）。
经济学的分析也被用在其他各种领域上，主要领域包括了商业、金融、和政府等，但同时也包括了如健康、犯罪、教育、法律、政治、社会架构、宗教、战争、和科学等等。到了21世纪初，经济学在社会科学领域各方面不断扩张影响力，使得有些学者讽刺地称其为「经济学帝国主义」。
在现代对于经济学的定义有数种说法，其中有许多说法因为发展自不同的领域或理论而有截然不同的定义，苏格兰哲学家和经济学家亚当·斯密在1776年将政治经济学定义为「国民财富的性质和原因的研究」，他说：
让-巴蒂斯特·赛伊在1803年将经济学从公共政策里独立出来，并定义其为对于财富之生产、分配、和消费的学问。另一方面，托马斯·卡莱尔则讽刺的称经济学为「忧郁的科学」（Dismal science），不过这一词最早是由马尔萨斯在1798年提出。约翰·斯图尔特·密尔在1844年提出了一个以社会科学定义经济学的角度：
.....

2.新闻语料json版(news2016zh)

250万篇新闻( 原始数据9G，压缩文件3.6G；新闻内容跨度：2014-2016年)

Google Drive 百度云盘密码:k265

数据描述

包含了250万篇新闻。新闻来源涵盖了6.3万个媒体，含标题、关键词、描述、正文。

数据集划分：数据去重并分成三个部分。训练集：243万；验证集：7.7万；测试集，数万，不提供下载。

可能的用途：

可以做为【通用中文语料】，训练【词向量】或做为【预训练】的语料；

也可以用于训练【标题生成】模型，或训练【关键词生成】模型（选关键词内容不同于标题的数据）；

亦可以通过新闻渠道区分出新闻的类型。

结构：

{'news_id': <news_id>,'title':<title>,'content':<content>,'source': <source>,'time':<time>,'keywords': <keywords>,'desc': <desc>, 'desc': <desc>}

其中，title是新闻标题，content是正文，keywords是关键词，desc是描述，source是新闻的来源，time是发布时间

例子：

{"news_id": "610130831", "keywords": "导游，门票","title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。昨日，记者实地探访故宫，发现“黑导游”确实存在。窗口出售", "source": "新华网", "time": "03-22 12:00", "content": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。昨日，记者实地探访故宫，发现“黑导游”确实存在。窗口出售40元的门票，被“黑导游”加价出售，最高加到140元。故宫方面表示，请游客务必通过正规渠道购买门票，避免上当受骗遭受损失。目前单笔门票购买流程不过几秒钟，耐心排队购票也不会等待太长时间。....再反弹”的态势，打击黑导游需要游客配合，通过正规渠道购买门票。"}

3.百科类问答json版(baike2018qa)

150万个问答( 原始数据1G多，压缩文件663M；数据更新时间：2018年)

Google Drive 百度云盘密码:fu45

数据描述

含有150万个预先过滤过的、高质量问题和答案，每个问题属于一个类别。总共有492个类别，其中频率达到或超过10次的类别有434个。

数据集划分：数据去重并分成三个部分。训练集：142.5万；验证集：4.5万；测试集，数万，不提供下载。

可能的用途：

可以做为通用中文语料，训练词向量或做为预训练的语料；也可以用于构建百科类问答；其中类别信息比较有用，可以用于做监督训练，从而构建

更好句子表示的模型、句子相似性任务等。

结构：

{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}

其中，category是问题的类型，title是问题的标题，desc是问题的描述，可以为空或与标题内容一致。

例子：

{"qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢，还是夏天进步好啊？ ", "desc": "", "answer": "你好！\r\r当然是冬天进补好的了，夏天人体的胃处于收缩状态，不适宜大量的进补，所以我们有时候说：“夏天就要吃些清淡的，就是这个道理的。”\r\r不过，秋季进补要注意“四忌” 一忌多多益善。任何补药服用过量都有害。认为“多吃补药，有病治病，无病强身”是不的。过量进补会加重脾胃、肝脏负担。在夏季里，人们由于喝冷饮，常食冻品，多有脾胃功能减弱的现象，这时候如果突然大量进补，会骤然加重脾胃及肝脏的负担，使长期处于疲弱的消化器官难于承受，导致消化器官功能紊乱。 \r\r二忌以药代食。重药物轻食物的做法是不科学的，许多食物也是好的滋补品。如多吃荠菜可治疗高血压；多吃萝卜可健胃消食，顺气宽胸；多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。\r\r三忌越贵越好。每个人的身体状况不同，因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症，应以实用有效为滋补原则，缺啥补啥。 \r\r四忌只补肉类。秋季适当食用牛羊肉进补效果好。但经过夏季后，由于脾胃尚未完全恢复到正常功能，因此过于油腻的食品不易消化吸收。另外，体内过多的脂类、糖类等物质堆积可能诱发心脑血管病。"}

4.社区问答json版(webtext2019zh) ：大规模高质量数据集

410万个问答( 过滤后数据3.7G，压缩文件1.7G；数据跨度：2015-2016年)

Google Drive

数据描述

含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个【话题】，总共有2.8万个各式话题，话题包罗万象。

从1400万个原始问答中，筛选出至少获得3个点赞以上的的答案，代表了回复的内容比较不错或有趣，从而获得高质量的数据集。

除了对每个问题对应一个话题、问题的描述、一个或多个回复外，每个回复还带有点赞数、回复ID、回复者的标签。

数据集划分：数据去重并分成三个部分。训练集：412万；验证集：6.8万；测试集a：6.8万；测试集b，不提供下载。

可能的用途：

1）构建百科类问答：输入一个问题，构建检索系统得到一个回复或生产一个回复；或根据相关关键词从，社区问答库中筛选出你相关的领域数据

2）训练话题预测模型：输入一个问题(和或描述)，预测属于话题。

3）训练社区问答(cQA)系统：针对一问多答的场景，输入一个问题，找到最相关的问题，在这个基础上基于不同答案回复的质量、

  问题与答案的相关性，找到最好的答案。

4）做为通用中文语料，做大模型预训练的语料或训练词向量。其中类别信息也比较有用，可以用于做监督训练，从而构建更好句子表示的模型、句子相似性任务等。

5）结合点赞数量这一额外信息，预测回复的受欢迎程度或训练答案评分系统。

结构：

{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,

"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}

其中，qid是问题的id，title是问题的标题，desc是问题的描述，可以为空；topic是问题所属的话题，star是该回复的点赞个数，

content是回复的内容，answer_id是回复的ID,answerer_tags是回复者所携带的标签

例子：

{"qid": 65618973, "title": "AlphaGo只会下围棋吗？阿法狗能写小说吗？", "desc": "那么现在会不会有智能机器人能从事文学创作？<br>如果有，能写出什么水平的作品？", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋，因为它的设计目的，架构，技术方案以及训练数据，都是围绕下围棋这个核心进行的。它在围棋领域的突破，证明了深度学习深度强化学习MCTS技术在围棋领域的有效性，并且取得了重大的PR效果。AlphaGo不会写小说，它是专用的，不会做跨出它领域的其它事情，比如语音识别，人脸识别，自动驾驶，写小说或者理解小说。如果要写小说，需要用到自然语言处理（NLP））中的自然语言生成技术，那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}

在该数据集上的公开评测和任务：

任务1：话题预测。

报告包括：#1）验证集上准确率；#2）采用的模型、方法描述、运行方式，1页PDF；#3）可运行的源代码(可选)

基于#2和#3，我们会在测试集上做测试，并报告测试集上的准确率；只提供了#1和#2的队伍，验证集上的成绩依然可以被显示出来，但会被标记为未验证。

任务2：训练社区问答(cQA)系统。

要求：评价指标采用MAP，构建一个适合排序问题的测试集，并报告在该测试集上的效果。

任务3：使用该数据集（webtext2019zh)，参考OpenAI的GPT-2，训练中文的文本写作模型、测试在其他数据集上的zero-shot的效果，或测评语言模型的效果。

5.翻译语料(translation2019zh)

520万个中英文平行语料( 原始数据1.1G，压缩文件596M)

Google Drive

数据描述

中英文平行语料520万对。每一个对，包含一个英文和对应的中文。中文或英文，多数情况是一句带标点符号的完整的话。

对于一个平行的中英文对，中文平均有36个字，英文平均有19个单词(单词如“she”)

数据集划分：数据去重并分成三个部分。训练集：516万；验证集：3.9万；测试集，数万，不提供下载。

可能的用途：

可以用于训练中英文翻译系统，从中文翻译到英文，或从英文翻译到中文；

由于有上百万的中文句子，可以只抽取中文的句子，做为通用中文语料，训练词向量或做为预训练的语料。英文任务也可以类似操作；

结构：

{"english": <english>, "chinese": <chinese>}

其中，english是英文句子，chinese是中文句子，中英文一一对应。

例子：

{"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利，公众不会真的向政府施压，要求实行新的、更公平的税收制度。"}

NER

ID	标题	更新日期	数据集提供者	说明	关键字	类别	论文地址	备注
1	CCKS2017中文电子病例命名实体识别	2017年5月	北京极目云健康科技有限公司	数据来源于其云医院平台的真实电子病历数据，共计800条（单个病人单次就诊记录），经脱敏处理	电子病历	命名实体识别	\	中文
2	CCKS2018中文电子病例命名实体识别	2018年	医渡云（北京）技术有限公司	CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本，共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体	电子病历	命名实体识别	\	中文
3	微软亚研院MSRA命名实体识别识别数据集	\	MSRA	数据来源于MSRA，标注形式为BIO，共有46365条语料	Msra	命名实体识别	\	中文
4	1998人民日报语料集实体识别标注集	1998年1月	人民日报	数据来源为98年人民日报，标注形式为BIO，共有23061条语料	98人民日报	命名实体识别	\	中文
5	Boson	\	玻森数据	数据来源为Boson，标注形式为BMEO,共有2000条语料	Boson	命名实体识别	\	中文
6	CLUE Fine-Grain NER	2020年	CLUE	CLUENER2020数据集，是在清华大学开源的文本分类数据集THUCTC基础上，选出部分数据进行细粒度命名实体标注，原数据来源于Sina News RSS。数据包含10个标签类别，训练集共有10748条语料，验证集共有1343条语料	细粒度；CULE	命名实体识别	\	中文
7	CoNLL-2003	2003	CNTS - Language Technology Group	数据来源于CoNLL-2003的任务，该数据标注了包括PER, LOC, ORG和MISC的四个类别	CoNLL-2003	命名实体识别	论文	英文
8	微博实体识别	2015年	https://github.com/hltcoe/golden-horse		EMNLP-2015	命名实体识别
9	SIGHAN Bakeoff 2005	2005年	MSR/PKU		bakeoff-2005	命名实体识别

QA

ID	标题	更新日期	数据集提供者	说明	关键字	类别	论文地址
1	NewsQA	2019/9/13	微软研究院	Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案，每篇文章平均616个单词，每个问题有2～3个答案。	英文	QA	论文
2	SQuAD		斯坦福	斯坦福问答数据集（SQuAD）是一个阅读理解数据集，由维基百科的一组文章上提出的问题组成，其中每个问题的答案都是一段文本，可能来自相应的阅读段落，或者问题可能是未解答的。	英文	QA	论文
3	SimpleQuestions		Facebook	基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集，数据集有100K简单问题的回答。	英文	QA	论文
4	WikiQA	2016/7/14	微软研究院	为了反映一般用户的真实信息需求，WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息，所以使用本节中的句子作为候选答案。在众包的帮助下，数据集中包括3047个问题和29258个句子，其中1473个句子被标记为对应问题的回答句子。	英文	QA	论文
5	cMedQA	2019/2/25	Zhang Sheng	医学在线论坛的数据，包含5.4万个问题，及对应的约10万个回答。	中文	QA	论文
6	cMedQA2	2019/1/9	Zhang Sheng	cMedQA的扩展版，包含约10万个医学相关问题，及对应的约20万个回答。	中文	QA	论文
7	webMedQA	2019/3/10	He Junqing	一个医学在线问答数据集，包含6万个问题和31万个回答，而且包含问题的类别。	中文	QA	论文
8	XQA	2019/7/29	清华大学	该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集，该数据集（训练集、测试集）主要包括九种语言，9万多个问答。	多语言	QA	论文
9	AmazonQA	2019/9/29	亚马逊	卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点，提出了基于评论的QA模型任务，即利用先前对某一产品的问答，QA系统自动总结出一个答案给客户	英文	QA	论文

情感分析

ID	标题	更新日期	数据集提供者	许可	说明	关键字	类别	论文地址
1	NLPCC2013	2013	CCF	\	微博语料，标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小：14 000 条微博, 45 431句子	NLPCC2013, Emotion	情感分析	论文
2	NLPCC2014 Task1	2014	CCF	\	微博语料，标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小：20000条微博	NLPCC2014, Emotion	情感分析	\
3	NLPCC2014 Task2	2014	CCF	\	微博语料，标注了正面和负面	NLPCC2014, Sentiment	情感分析	\
4	Weibo Emotion Corpus	2016	The Hong Kong Polytechnic University	\	微博语料，标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小：四万多条微博	weibo emotion corpus	情感分析	Emotion Corpus Construction Based on Selection from Noisy Natural Labels
5	[RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.)	2009	Fuji Ren	\	标注的博客语料库，在文档级、段落级和句子级标注了emotion和sentiment。包含了1500个博客，11000段落和35000句子。	RenCECPs, emotion, sentiment	情感分析	Construction of a blog emotion corpus for Chinese emotional expression analysis
6	weibo_senti_100k	不详	不详	\	带情感标注新浪微博，正负向评论约各 5 万条	weibo senti, sentiment	情感分析	\
7	BDCI2018-汽车行业用户观点主题及情感识别	2018	CCF		汽车论坛中对汽车的评论，标注了汽车的诗歌主题：动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。每个主题标注了情感标签，情感分为3类，分别用数字0、1、-1表示中立、正向、负向。	属性情感分析主题情感分析	情感分析	\
8	AI Challenger 细粒度用户评论情感分析	2o18	美团	\	餐饮评论，6个一级属性，20个二级属性，每个属性标注正面、负面、中性、未提及。	属性情感分析	情感分析	\
9	BDCI2019金融信息负面及主体判定	2019	中原银行	\	金融领域新闻，每个样本标记了实体列表以及负面实体列表。任务是判断一个样本是否是负面以及对应的负面的实体。	实体情感分析	情感分析	\
10	之江杯电商评论观点挖掘大赛	2019	之江实验室	\	本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点，并确认其情感极性和属性种类。对于商品的某一个属性特征，存在着一系列描述它的观点词，它们代表了消费者对该属性特征的观点。每一组{商品属性特征，消费者观点}具有相应的情感极性（负面、中性、正面），代表了消费者对该属性的满意程度。此外，多个属性特征可以归入某一个属性种类，例如外观、盒子等属性特征均可归入包装这个属性种类。参赛队伍最终需提交对测试数据的抽取预测信息，包括属性特征词、观点词、观点极性和属性种类4个字段。	属性情感分析	情感分析	\
11	2019搜狐校园算法大赛	2019	搜狐	\	给定若干文章，目标是判断文章的核心实体以及对核心实体的情感态度。每篇文章识别最多三个核心实体，并分别判断文章对上述核心实体的情感倾向（积极、中立、消极三种）。实体：人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在，且可以作为文章主体的实体词。核心实体：文章主要描述、或担任文章主要角色的实体词。	实体情感分析	情感分析	\

文本分类

ID	标题	更新日期	数据集提供者	许可	说明	关键字	类别	论文地址	备注
1	2018“达观杯”文本智能处理挑战赛	2018年7月	达观数据		数据集来源于达观数据，为长文本分类任务，其主要包括了id，article，word_seg和class四个字段，数据包含19个类别，共102275条样本	长文本；脱敏	文本分类	\	中文
2	今日头条中文新闻（文本）分类	2018年5月	今日头条		数据集来源于今日头条，为短文本分类任务，数据包含15个类别，共382688条样本	短文本；新闻	文本分类	\	中文
3	THUCNews中文文本分类	2016年	清华大学		THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐，共74万篇新闻文档（2.19 GB）	文档；新闻	文本分类	\	中文
4	复旦大学中文文本分类	\	复旦大学计算机信息与技术系国际数据库中心自然语言处理小组		数据集来源于复旦大学，为短文本分类任务，数据包含20个类别，共9804篇文档	文档；新闻	文本分类	\	中文
5	新闻标题短文本分类	2019年12月	chenfengshf	CC0 公共领域共享	数据集来源于Kesci平台，为新闻标题领域短文本分类任务。内容大多为短文本标题(length<50)，数据包含15个类别，共38w条样本	短文本；新闻标题	文本分类	\	中文
6	2017 知乎看山杯机器学习挑战赛	2017年6月	中国人工智能学会;知乎		数据集来源于知乎，为问题及话题标签的绑定关系的标注数据，每个问题有 1 个或多个标签，累计1999 个标签，共包含 300 万个问题	问题；短文本	文本分类	\	中文
7	2019之江杯-电商评论观点挖掘大赛	2019年8月	之江实验室		本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点，并确认其情感极性和属性种类。对于商品的某一个属性特征，存在着一系列描述它的观点词，它们代表了消费者对该属性特征的观点。每一组{商品属性特征，消费者观点}具有相应的情感极性（负面、中性、正面），代表了消费者对该属性的满意程度	评论；短文本	文本分类	\	中文
8	IFLYTEK’ 长文本分类	\	科大讯飞		该数据集共有1.7万多条关于app应用描述的长文本标注数据，包含和日常生活相关的各类应用主题，共119个类别	长文本	文本分类	\	中文
9	全网新闻分类数据(SogouCA)	2012年8月16号	搜狗		该数据来自若干新闻站点2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据	新闻	文本分类	\	中文
10	搜狐新闻数据(SogouCS)	2012年8月	搜狗		数据来源为搜狐新闻2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据	新闻	文本分类	\	中文
11	中科大新闻分类语料库	2017年11月	刘禹中国科学院自动化研究所综合信息中心		暂时不能下载，已经联系作者，等待反馈	新闻
12	ChnSentiCorp_htl_all	2018年3月	https://github.com/SophonPlus/ChineseNlpCorpus		7000 多条酒店评论数据，5000 多条正向评论，2000 多条负向评论
13	waimai_10k	2018年3月	https://github.com/SophonPlus/ChineseNlpCorpus		某外卖平台收集的用户评价，正向 4000 条，负向约 8000 条
14	online_shopping_10_cats	2018年3月	https://github.com/SophonPlus/ChineseNlpCorpus		10 个类别，共 6 万多条评论数据，正、负向评论各约 3 万条，包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店
15	weibo_senti_100k	2018年3月	https://github.com/SophonPlus/ChineseNlpCorpus		10 万多条，带情感标注新浪微博，正负向评论约各 5 万条
16	simplifyweibo_4_moods	2018年3月	https://github.com/SophonPlus/ChineseNlpCorpus		36 万多条，带情感标注新浪微博，包含 4 种情感，其中喜悦约 20 万条，愤怒、厌恶、低落各约 5 万条
17	dmsc_v2	2018年3月	https://github.com/SophonPlus/ChineseNlpCorpus		28 部电影，超 70 万用户，超 200 万条评分/评论数据
18	yf_dianping	2018年3月	https://github.com/SophonPlus/ChineseNlpCorpus		24 万家餐馆，54 万用户，440 万条评论/评分数据
19	yf_amazon	2018年3月	https://github.com/SophonPlus/ChineseNlpCorpus		52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据

文本匹配

ID	标题	更新日期	数据集提供者	许可	说明	关键字	类别	论文地址
1	LCQMC	2018/6/6	哈工大(深圳)智能计算研究中心	Creative Commons Attribution 4.0 International License	该数据集共包含来自多个领域的260068个中文问句对，相同询问意图的句子对标记为1，否则为0；并预先将其切分为了训练集：238766对，验证集：8802对，测试集：12500对	大规模问句匹配；意图匹配	短文本匹配；问句匹配	论文
2	The BQ Corpus	2018/9/4	哈工大(深圳)智能计算研究中心；微众银行		该数据集共有120000个句子对，来自银行一年中的咨询服务日志；句子对包含不同的意图，标记正负样本比例为1:1	银行服务问句；意图匹配	短文本匹配；问句一致性检测	论文
3	AFQMC 蚂蚁金融语义相似度	2018/4/25	蚂蚁金服		提供10万对的标注数据（分批次更新，已更新完毕），作为训练数据，包括同义对和不同义对	金融问句	短文本匹配；问句匹配
4	第三届拍拍贷“魔镜杯”大赛	2018/6/10	拍拍贷智慧金融研究院		train.csv文件包含3列，分别是标签（label，表示问题1和问题2是否表示相同的意思，1表示相同，0表示不同），问题1的编号（q1）和问题2的编号（q2）。本文件中出现的所有问题编号均在question.csv中出现过	金融产品	短文本匹配；问句匹配
5	CAIL2019相似案例匹配大赛	2019/6	清华大学；中国裁判文书网		对于每份数据，用三元组(A,B,C)来代表该组数据，其中A,B,C均对应某一篇文书。文书数据A与B的相似度总是大于A与B的相似度的，即sim(A,B)>sim(A,C)	法律文书；相似案例	长文本匹配
6	CCKS 2018 微众银行智能客服问句匹配大赛	2018/4/5	哈工大(深圳)智能计算研究中心；微众银行			银行服务问句；意图匹配	短文本匹配；问句匹配
7	ChineseTextualInference	2018/12/15	刘焕勇，中国科学院软件研究所		中文文本推断项目,包括88万文本蕴含中文文本蕴含数据集的翻译与构建,基于深度学习的文本蕴含判定模型构建	中文NLI	中文文本推断；文本蕴含
8	NLPCC-DBQA	2016/2017/2018	NLPCC		给定问题-答案，以及该答案是否是该问题的答案之一的标记，1表示是，0表示不是	DBQA	问答匹配
9	“技术需求”与“技术成果”项目之间关联度计算模型	201/8/32	CCF		给定文本形式的技术需求和技术成果，以及需求与成果的关联度标签；其中技术需求与技术成果之间的关联度分为四个层级：强相关、较强相关、弱相关、无相关	长文本；需求与成果匹配	长文本匹配
10	CNSD / CLUE-CMNLI	2019/12	ZengJunjun		中文自然语言推理数据集，本数据及通过翻译加部分人工修正的方法，从英文原数据集生成，可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题	中文NLI	中文自然语言推断	论文
11	cMedQA v1.0	2017/4/5	寻药寻医网和国防科技大学信息系统及管理学院		该数据集来源为寻医寻药网站中的提问和回答，数据集做过匿名处理，提供的是包含训练集中有50,000个问题，94,134个答案，平均每个问题、答案字符数分别为为120、212个；验证集有2,000个问题，有3774个答案，问题和答案的平均字符数分别为117和212个；测试集有2,000个问题，有3835个答案，问题和答案的平均字符数分别为119和211个；数据集总量有54,000个问题，101,743个答案，平均每个问题和答案的字符数分别为119、212个；	医疗问答匹配	问答匹配	论文
12	cMedQA2	2018/11/8	寻药寻医网和国防科技大学信息系统及管理学院		该数据集来源为寻医寻药网站中的提问和回答，数据集做过匿名处理，提供的是包含训练集中有100,000个问题，188,490个答案，平均每个问题、答案字符数分别为为48、101个；验证集有4,000个问题，有7527个答案，问题和答案的平均字符数分别为49和101个；测试集有4,000个问题，有7552个答案，问题和答案的平均字符数分别为49和100个；数据集总量有108,000个问题，203,569个答案，平均每个问题和答案的字符数分别为49、101个；	医疗问答匹配	问答匹配	论文
13	ChineseSTS	2017/9/21	唐善成, 白云悦, 马付玉. 西安科技大学		该数据集提供了12747对中文相似数据集，在数据集后作者给出了他们相似度的打分，语料由短句构成。	短句相似度匹配	相似度匹配
14	中国健康信息处理会议举办的医疗问题相似度衡量竞赛数据集	2018	CHIP 2018-第四届中国健康信息处理会议（CHIP）		本次评测任务的主要目标是针对中文的真实患者健康咨询语料，进行问句意图匹配。给定两个语句，要求判定两者意图是否相同或者相近。所有语料来自互联网上患者真实的问题，并经过了筛选和人工的意图匹配标注。数据集经过脱敏处理，问题由数字标示训练集包含20000条左右标注好的数据（经过脱敏处理，包含标点符号），测试集包含10000条左右无label的数据（经过脱敏处理，包含标点> 符号）。	医疗问题相似度匹配	相似度匹配
15	COS960: A Chinese Word Similarity Dataset of 960 Word Pairs	2019/6/6	清华大学		该数据集中包含了960对单词，并且每对单词都被15个母语者用相似度分数来衡量这960个词对根据标签被分成三组，包含480对名词，240对动词和240对形容词。	单词之间的相似度	同义词	论文
16	OPPO手机搜索排序query-title语义匹配数据集，密码7p3n	2018/11/6	OPPO		该数据集来自于OPPO手机搜索排序优化实时搜索场景, 该场景就是在用户不断输入过程中，实时返回查询结果。该数据集在此基础上做了相应的简化，提供了一个query-title语义匹配，即ctr预测的问题。	问题标题匹配， ctr预测	相似度匹配
17	网页搜索结果评价(SogouE)	2012年	搜狗	搜狗实验室数据使用许可协议	该数据集包含了查询词，相关URL以及查询类别的搜索数据，格式如下数据格式说明：查询词]\t相关的URL\t查询类别其中URL保证存在于对应的互联网语料库；查询类别中“1”表示导航类查询；“2”表示信息类查询	Automatic Search Engine Performance Evaluation with Click-through Data Analysis	查询类型匹配预测

文本摘要

ID	标题	更新日期	数据集提供者	许可	说明	关键字	类别	论文地址	备注
1	LCSTS	2015/8/6	Qingcai Chen		数据集来源于新浪微博，包含两百万左右真实中文短文本，每条数据包括由作者标注的摘要和正文两个字段。另外有10,666条数据由人工标注出短文本与摘要的相关性，从1-5相关性依次增加。	单文本摘要；短文本；文本相关性	文本摘要	论文
2	中文短文本摘要数据集	2018/6/20	He Zhengfang		数据来源于新浪微博主流媒体发布的微博，共679898条数据。	单文本摘要；短文本	文本摘要	\
3	教育培训行业抽象式自动摘要中文语料库	2018/6/5	匿名		语料库收集了教育培训行业主流垂直媒体的历史文章，约24500条数据，每条数据包括由作者标注的摘要和正文两个字段。	单文本摘要；教育培训	文本摘要	\
4	NLPCC2017 Task3	2017/11/8	NLPCC2017主办方		数据集来源于新闻领域，是NLPCC2017举办提供的任务数据，可用于单文本摘要。	单文本摘要；新闻	文本摘要	\
5	神策杯2018	2018/10/11	DC竞赛主办方		数据来源于新闻文本，由DC竞赛主办方提供，模拟业务场景，以新闻文本的核心词提取为目的，最终结果达到提升推荐和用户画像的效果。	文本关键字；新闻	文本摘要	\
6	Byte Cup 2018国际机器学习竞赛	2018/12/4	字节跳动		数据来自字节跳动旗下产品TopBuzz和开放版权的文章，训练集包括了约 130 万篇文本的信息，验证集 1000 篇文章，测试集 800 篇文章。每条测试集和验证集的数据经由人工编辑手工标注多个可能的标题，作为答案备选。	单文本摘要；视频；新闻	文本摘要	\	英文
7	NEWSROOM	2018/6/1	Grusky		数据是从1998年到2017年的搜索和社交元数据中获得，并使用了多种提取和抽象相结合的摘要策略，包含作者和编辑在38个主要出版物编辑部撰写的130万篇文章和摘要。	单文本摘要；社交元数据；搜索	文本摘要	论文	英文
8	[DUC/TAC](https://duc.nist.gov/ https://tac.nist.gov//)	2014/9/9	NIST		全称Document Understanding Conferences/Text Analysis Conference，数据集来源于每年的TAC KBP（TAC Knowledge Base Population）比赛使用的语料库中的新闻专线和网络文本。	单文本/多文本摘要；新闻	文本摘要	\	英文
9	CNN/Daily Mail	2017/7/31	Standford	GNU v3	数据集是从美国有线新闻网（CNN）和每日邮报(DailyMail)中手机大约一百万条新闻数据作为机器阅读理解语料库。	多文本摘要；长文本；新闻	文本摘要	论文	英文
10	Amazon SNAP Review	2013/3/1	Standford		数据来源于Amazon网站购物评论，可以获取每个大类别（如美食、电影等）下的数据，也可以一次性获取所有数据。	多文本摘要；购物评论	文本摘要	\	英文
11	Gigaword	2003/1/28	David Graff, Christopher Cieri		数据集包括约950w 篇新闻文章，用文章标题做摘要，属于单句摘要数据集。	单文本摘要；新闻	文本摘要		英文
12	RA-MDS	2017/9/11	Piji Li		全称Reader-Aware Multi-Document Summarization，数据集来源于新闻文章，由专家收集、标注和审查。涵盖了45个主题，每个主题包含10个新闻文档和4个模型摘要，每个新闻文档平均包含27个句子，每个句子平均包含25个单词。	多文本摘要；新闻；人工标注	文本摘要	论文	英文
13	TIPSTER SUMMAC	2003/5/21	The MITRE Corporation and the University of Edinburgh		数据由183篇Computation and Language (cmp-lg) collection标记的文档组成，文档取自ACL会议发表论文。	多文本摘要；长文本	文本摘要	\	英文
14	WikiHow	2018/10/18	Mahnaz Koupaee		每条数据为一篇文章，每篇文章由多个段落组成，每个段落以一个总结它的句子开头。通过合并段落形成文章和段落大纲形成摘要，数据集的最终版本包含了超过200,000个长序列对。	多文本摘要；长文本	文本摘要	论文	英文
15	Multi-News	2019/12/4	Alex Fabbri		数据来自1500多个不同网站的输入文章以及从网站newser.com获得的56,216篇这些文章的专业摘要。	多文本摘要	文本摘要	论文	英文
16	MED Summaries	2018/8/17	D.Potapov		数据集用于动态视频摘要评估，包含160个视频的注释，其中验证集60、测试集100，测试集中有10个事件类别。	单文本摘要；视频注释	文本摘要	论文	英文
17	BIGPATENT	2019/7/27	Sharma		数据集包括130万份美国专利文献记录以及人类书面抽象摘要，摘要包含更丰富的话语结构和更多的常用实体。	单文本摘要；专利；书面语	文本摘要	论文	英文
18	[NYT]( https://catalog.ldc.upenn.edu/LDC2008T19)	2008/10/17	Evan Sandhaus		全称The New York Times,数据集包含150篇来自纽约时报的商业文章,抓取了从2009年11月到2010年1月纽约时报网站上的所有文章。	单文本摘要；商业文章	文本摘要	\	英文
19	The AQUAINT Corpus of English News Text	2002/9/26	David Graff		数据集由新华社(中华人民共和国)、纽约时报新闻服务和美联社世界新闻服务的英文新闻文本数据组成，包含大约3.75亿字。数据集收费。	单文本摘要；新闻	文本摘要	\	中文和英文
20	Legal Case Reports Data Set	2012/10/19	Filippo Galgani		数据集来自2006-2009年澳大利亚联邦法院(FCA)的澳大利亚法律案例，包含约4000个法律案件及其摘要。	单文本摘要；法律案件	文本摘要	\	英文
21	17 Timelines	2015/5/29	G. B. Tran		数据是从新闻文章网页中提取的内容，包含埃及、利比亚、也门、叙利亚四个国家的新闻。	单文本摘要；新闻	文本摘要	论文	多语言
22	PTS Corpus	2018/10/9	Fei Sun		全称Product Title Summarization Corpus，数据为移动设备显示电子商务应用中的产品名称摘要	单文本摘要；短文本	文本摘要	论文
23	Scientific Summarization DataSets	2019/10/26	Santosh Gupta		数据集取自Semantic Scholar Corpus和ArXiv。来自Semantic Scholar语料库的标题/摘要对，过滤掉生物医学领域的所有论文，包含580万条数据。来自ArXiv的数据，包含了从1991年开始到2019年7月5日的每篇论文的标题/摘要对。数据集包含金融类数据10k，生物学类26k，数学类417k，物理类157万，CS类221k。	单文本摘要；论文	文本摘要	\	英文
24	Scientific Document Summarization Corpus and Annotations from the WING NUS group	2019/3/19	Jaidka		数据集包括ACL计算语言学和自然语言处理研究论文，以及各自的引用论文和三个输出摘要:传统作者的论文摘要(摘要)、社区摘要(引用语句“引文”的收集)和由训练有素的注释员撰写的人类摘要，训练集包含40篇文章和引用论文。	单文本摘要；论文	文本摘要	论文	英文

机器翻译

ID	标题	更新日期	数据集提供者	许可	说明	关键字	类别	论文地址	备注
1	WMT2017	2017/2/1	EMNLP 2017 Workshop on Machine Translation		数据主要来源于 Europarl corpus和UN corpus两个机构，附带2017年从News Commentary corpus 任务中重新抽取的文章。这是由EMNLP会议提供的翻译语料，作为很多论文效果的benchmark来检测	Benchmark, WMT2017	中英翻译语料	论文
2	WMT2018	2018/11/1	EMNLP 2018 Workshop on Machine Translation		数据主要来源于 Europarl corpus和UN corpus两个机构，附带2018年从News Commentary corpus 任务中重新抽取的文章。这是由EMNLP会议提供的翻译语料，作为很多论文效果的benchmark来检测	Benchmark, WMT2018	中英翻译语料	论文
3	WMT2019	2019/1/31	EMNLP 2019 Workshop on Machine Translation		数据主要来源于 Europarl corpus和UN corpus两个机构, 以及附加了 news-commentary corpus and the ParaCrawl corpus中来得数据	Benchmark, WMT2019	中英翻译语料	论文
4	UM-Corpus:A Large English-Chinese Parallel Corpus	2014/5/26	Department of Computer and Information Science, University of Macau, Macau		由澳门大学发布的中英文对照的高质量翻译语料	UM-Corpus;English; Chinese;large	中英翻译语料	论文
5	Ai challenger translation 2017提取码: stjf	2017/8/14	创新工场、搜狗和今日头条联合发起的 AI科技竞赛		规模最大的口语领域英中双语对照数据集。提供了超过1000万的英中对照的句子对作为数据集合。所有双语句对经过人工检查，数据集从规模、相关度、质量上都有保障。训练集：10,000,000 句验证集（同声传译）：934 句验证集（文本翻译）：8000 句	AI challenger 2017	中英翻译语料
6	MultiUN	2010	Department of Linguistics and Philology Uppsala University, Uppsala/Sweden		该数据集由德国人工智能研究中心提供，除此数据集外，该网站还提供了很多的别的语言之间的翻译对照语料供下载	MultiUN	中英翻译语料	MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010
7	NIST 2002 Open Machine Translation (OpenMT) Evaluation	2010/5/14	NIST Multimodal Information Group	LDC User Agreement for Non-Members	数据来源于Xinhua 新闻服务包含70个新闻故事，以及来自于Zaobao新闻服务的30个新闻故事，共100个从两个新闻集中选择出来的故事的长度都再212到707个中文字符之间，Xinhua部分共有有25247个字符， Zaobao有39256个字符	NIST	中英翻译语料	论文	该系列有多年的数据，该数据使用需要付费
8	The Multitarget TED Talks Task (MTTT)	2018	Kevin Duh, JUH		该数据集包含基于TED演讲的多种语言的平行语料，包含中英文等共计20种语言	TED	中英翻译语料	The Multitarget TED Talks Task
9	ASPEC Chinese-Japanese	2019	Workshop on Asian Translation		该数据集主要研究亚洲区域的语言，如中文和日语之间，日语和英文之间的翻译任务翻译语料主要来自语科技论文（论文摘要；发明描述；专利等等）	Asian scientific patent Japanese	中日翻译语料	http://lotus.kuee.kyoto-u.ac.jp/WAT/
10	casia2015	2015	research group in Institute of Automation , Chinese Academy of Sciences		语料库包含从网络自动收集的大约一百万个句子对	casia CWMT 2015	中英翻译语料
11	casict2011	2011	research group in Institute of Computing Technology , Chinese Academy of Sciences		语料库包含2个部分，每个部分包含从网络自动收集的大约1百万（总计2百万）个句子对。句子级别的对齐精度约为90％。	casict CWMT 2011	中英翻译语料
12	casict2015	2015	research group in Institute of Computing Technology , Chinese Academy of Sciences		语料库包含大约200万个句子对，包括从网络（60％），电影字幕（20％）和英语/汉语词库（20％）收集的句子。句子水平对齐精度高于99％。	casict CWMT 2015	中英翻译语料
13	datum2015	2015	Datum Data Co., Ltd.		语料库包含一百万对句子，涵盖不同类型，例如用于语言教育的教科书，双语书籍，技术文档，双语新闻，政府白皮书，政府文档，网络上的双语资源等。请注意，数据中文部分的某些部分是按词段划分的。	datum CWMT 2015	中英翻译语料
14	datum2017	2017	Datum Data Co., Ltd.		语料库包含20个文件，涵盖不同类型，例如新闻，对话，法律文件，小说等。每个文件有50,000个句子。整个语料库包含一百万个句子。前10个文件（Book1-Book10）的中文词均已分段。	datum CWMT 2017	中英翻译语料
15	neu2017	2017	NLP lab of Northeastern University, China		语料库包含从网络自动收集的200万个句子对，包括新闻，技术文档等。句子级别的对齐精度约为90％。	neu CWMT 2017	中英翻译语料
16	翻译语料(translation2019zh)	2019	徐亮		可以用于训练中英文翻译系统，从中文翻译到英文，或从英文翻译到中文；由于有上百万的中文句子，可以只抽取中文的句子，做为通用中文语料，训练词向量或做为预训练的语料。英文任务也可以类似操作；

知识图谱

ID	标题	更新日期	数据集提供者	许可	说明	关键字	类别	论文地址	备注
1	NLPIR微博关注关系语料库100万条	2017/12/2	北京理工大学网络搜索挖掘与安全实验室张华平博士		NLPIR微博关注关系语料库说明 1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士，通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究，现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据（目前已有数据接近10亿，已经剔除了大量的冗余数据）； 2.本语料库在公开过程中，已经最大限度地采用技术手段屏蔽了用户真实姓名和url，如果涉及到的用户需要全面保护个人隐私的，可以Email给张华平博士kevinzhang@bit.edu.cn予以删除，对给您造成的困扰表示抱歉，并希望谅解； 3.只适用于科研教学用途，不得作为商用；引用本语料库，恭请在软件或者论文等成果特定位置表明出处为：NLPIR微博语料库，出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明： person_id 人物的id guanzhu_id 所关注人的id

语料库

ID	标题	更新日期	数据集提供者	说明
1	NLPIR微博内容语料库-23万条	2017年12月	北京理工大学网络搜索挖掘与安全实验室张华平博士	NLPIR微博内容语料库说明 1.NLPIR微博内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士，通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究，现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的23万条数据（目前已有数据接近1000万，已经剔除了大量的冗余数据）。 2.本语料库在公开过程中，已经最大限度地采用技术手段屏蔽了用户真实姓名和url，如果涉及到的用户需要全面保护个人隐私的，可以Email给张华平博士kevinzhang@bit.edu.cn予以删除，对给您造成的困扰表示抱歉，并希望谅解； 3.只适用于科研教学用途，不得作为商用；引用本语料库，恭请在软件或者论文等成果特定位置表明出处为：NLPIR微博语料库，出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明： id 文章编号 article 正文 discuss 评论数目 insertTime 正文插入时间 origin 来源 person_id 所属人物的id time 正文发布时间 transmit 转发
2	500万微博语料	2018年1月	北京理工大学网络搜索挖掘与安全实验室张华平博士	【500万微博语料】北理工搜索挖掘实验室主任@ICTCLAS张华平博士提供500万微博语料供大家使用，文件为sql文件，只能导入mysql数据库，内含建表语句，共500万数据。语料只适用于科研教学用途，不得作为商用；引用本语料库，请在软件或者论文等成果特定位置表明出处。【看起来这份数据比上面那一份要杂糅一些，没有做过处理】
3	NLPIR新闻语料库-2400万字	2017年7月	www.NLPIR.org	NLPIR新闻语料库说明 1.解压缩后数据量为48MB，大约2400万字的新闻； 2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。 3.文件名为新闻的时间；每个文件包括多个新闻正文内容（已经去除了新闻的垃圾信息）； 4.新闻本身内容的版权属于原作者或者新闻机构； 5.整理后的语料库版权属于www.NLPIR.org； 6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景；如需更大规模的语料库，可以联系NLPIR.org管理员。
4	NLPIR微博关注关系语料库100万条	2017年12月	北京理工大学网络搜索挖掘与安全实验室张华平博士	NLPIR微博关注关系语料库说明 1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士，通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究，现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据（目前已有数据接近10亿，已经剔除了大量的冗余数据）； 2.本语料库在公开过程中，已经最大限度地采用技术手段屏蔽了用户真实姓名和url，如果涉及到的用户需要全面保护个人隐私的，可以Email给张华平博士kevinzhang@bit.edu.cn予以删除，对给您造成的困扰表示抱歉，并希望谅解； 3.只适用于科研教学用途，不得作为商用；引用本语料库，恭请在软件或者论文等成果特定位置表明出处为：NLPIR微博语料库，出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明： person_id 人物的id guanzhu_id 所关注人的id
5	NLPIR微博博主语料库100万条	2017年9月	北京理工大学网络搜索挖掘与安全实验室张华平博士	NLPIR微博博主语料库说明 1.NLPIR微博博主语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士，通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究，现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的100万条数据（目前已有数据接近1亿，已经剔除了大量的冗余与机器粉丝） 2.本语料库在公开过程中，已经最大限度地采用技术手段屏蔽了用户真实姓名和url，如果涉及到的用户需要全面保护个人隐私的，可以Email给张华平博士kevinzhang@bit.edu.cn予以删除，对给您造成的困扰表示抱歉，并希望谅解； 3.只适用于科研教学用途，不得作为商用；引用本语料库，恭请在软件或者论文等成果特定位置表明出处为：NLPIR微博语料库，出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明： id 内部id sex 性别 address 家庭住址 fansNum 粉丝数目 summary 个人摘要 wbNum 微博数量 gzNum 关注数量 blog 博客地址 edu 教育情况 work 工作情况 renZh 是否认证 brithday 生日；
6	NLPIR短文本语料库-40万字	2017年8月	北京理工大学网络搜索挖掘与安全实验室 (SMS@BIT)	NLPIR短文本语料库说明 1.解压缩后数据量为48万字，大约8704篇短文本内容； 2.整理后的语料库版权属于www.NLPIR.org； 3.可供短文本自然语言处理、搜索、舆情分析等应用提供测试数据场景；
7	维基百科语料库	\	维基百科	维基百科会定期打包发布语料库
8	古诗词数据库	2020年	github主爬虫，http://shici.store
9	保险行业语料库	2017年		该语料库包含从网站Insurance Library 收集的问题和答案。据我们所知，这是保险领域首个开放的QA语料库：该语料库的内容由现实世界的用户提出，高质量的答案由具有深度领域知识的专业人士提供。所以这是一个具有真正价值的语料，而不是玩具。在上述论文中，语料库用于答复选择任务。另一方面，这种语料库的其他用法也是可能的。例如，通过阅读理解答案，观察学习等自主学习，使系统能够最终拿出自己的看不见的问题的答案。数据集分为两个部分“问答语料”和“问答对语料”。问答语料是从原始英文数据翻译过来，未经其他处理的。问答对语料是基于问答语料，又做了分词和去标去停，添加label。所以，“问答对语料"可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意，可以直接对"问答语料"使用其他方法进行处理，获得可以用于训练模型的数据。
10	汉语拆字字典	1905年7月		本倉庫含開放詞典網用以提供字旁和部件查詢的拆字字典數據庫，有便利使用者查難打漢字等用途。目前數據庫收錄17,803不同漢字的拆法，分為繁體字（chaizi-ft.txt）和簡體字（chaizi-jt.txt）兩個版本。拆字法有別於固有的筆順字庫。拆字著重於儘量把每個字拆成兩個以上的組成部件，而不是拆成手寫字時所使用的筆畫。
11	新闻预料	2016年	徐亮	可以做为【通用中文语料】，训练【词向量】或做为【预训练】的语料；也可以用于训练【标题生成】模型，或训练【关键词生成】模型（选关键词内容不同于标题的数据）；亦可以通过新闻渠道区分出新闻的类型。
12	百科类问答json版(baike2018qa)	2018年	徐亮	可以做为通用中文语料，训练词向量或做为预训练的语料；也可以用于构建百科类问答；其中类别信息比较有用，可以用于做监督训练，从而构建更好句子表示的模型、句子相似性任务等。
13	社区问答json版(webtext2019zh) ：大规模高质量数据集	2019年	徐亮	1）构建百科类问答：输入一个问题，构建检索系统得到一个回复或生产一个回复；或根据相关关键词从，社区问答库中筛选出你相关的领域数据 2）训练话题预测模型：输入一个问题(和或描述)，预测属于话题。 3）训练社区问答(cQA)系统：针对一问多答的场景，输入一个问题，找到最相关的问题，在这个基础上基于不同答案回复的质量、问题与答案的相关性，找到最好的答案。 4）做为通用中文语料，做大模型预训练的语料或训练词向量。其中类别信息也比较有用，可以用于做监督训练，从而构建更好句子表示的模型、句子相似性任务等。 5）结合点赞数量这一额外信息，预测回复的受欢迎程度或训练答案评分系统。
14	.维基百科json版(wiki2019zh)	2019年	徐亮	可以做为通用中文语料，做预训练的语料或构建词向量，也可以用于构建知识问答。【不同于wiki原始释放的数据集，这个处理过了】

阅读理解

ID	标题	更新日期	数据集提供者	许可	说明	关键字	类别	论文地址	备注
1	百度DuReader中文阅读理解数据集	2018/3/1	百度	Apache2.0	本次竞赛数据集来自搜索引擎真实应用场景，其中的问题为百度搜索用户的真实问题，每个问题对应5个候选文档文本及人工整理的优质答案。	阅读理解、百度搜索真实问题	中文阅读理解	论文
2	中文法律阅读理解数据集CJRC	2019/8/17	哈工大讯飞联合实验室（HFL）	\	数据集包含约10,000篇文档，主要涉及民事一审判决书和刑事一审判决书。通过抽取裁判文书的事实描述内容，针对事实描述内容标注问题，最终形成约50,000个问答对	阅读理解、中文法律领域	中文阅读理解	论文
3	2019“讯飞杯”中文机器阅读理解数据集（CMRC ）	2019年10月	哈工大讯飞联合实验室（HFL）	CC-BY-SA-4.0	本次阅读理解的任务是句子级填空型阅读理解。根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子，参赛者需要建立模型将候选句子精准的填回原篇章中，使之成为完整的一篇文章。	句子级填空型阅读理解	中文阅读理解	\	赛事官网：https://hfl-rc.github.io/cmrc2019/
4	2018“讯飞杯”中文机器阅读理解数据集（CMRC ）	2018/10/19	哈工大讯飞联合实验室（HFL）	CC-BY-SA-4.0	CMRC 2018数据集包含了约20,000个在维基百科文本上人工标注的问题。同时，我们还标注了一个挑战集，其中包含了需要多句推理才能够正确解答的问题，更富有挑战性	阅读理解、基于篇章片段抽取	中文阅读理解	论文	赛事官网：https://hfl-rc.github.io/cmrc2018/
5	2017“讯飞杯”中文机器阅读理解数据集（CMRC ）	2017/10/14	哈工大讯飞联合实验室（HFL）	CC-BY-SA-4.0	首个中文填空型阅读理解数据集PD&CFT	填空型阅读理解	中文阅读理解	论文	赛事官网
6	莱斯杯：全国第二届“军事智能机器阅读”挑战赛	2019/9/3	中电莱斯信息系统有限公司	\	面向军事应用场景的大规模中文阅读理解数据集，围绕多文档机器阅读理解进行竞赛，涉及理解、推理等复杂技术。	多文档机器阅读理解	中文阅读理解	\	赛事官网
7	CoQA	2018/9	斯坦福大学	CC BY-SA 4.0、Apache等	CoQA是面向建立对话式问答系统的大型数据集，挑战的目标是衡量机器对文本的理解能力，以及机器面向对话中出现的彼此相关的问题的回答能力的高低	对话问答	英文阅读理解	论文	官方网站
8	SQuAD2.0	2018/1/11	斯坦福大学	\	行业内公认的机器阅读理解领域的顶级水平测试；它构建了一个包含十万个问题的大规模机器阅读理解数据集，选取超过 500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本 —— 以及，现在在 SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答	问答、包含未知答案	英文阅读理解	论文
9	SQuAD1.0	2016	斯坦福大学	\	斯坦福大学于2016年推出的阅读理解数据集，给定一篇文章和相应问题，需要算法给出问题的答案。此数据集所有文章选自维基百科，一共有107,785问题，以及配套的 536 篇文章	问答、基于篇章片段抽取	英文阅读理解	论文
10	MCTest	2013	微软	\	100,000个必应Bing问题和人工生成的答案。从那时起，相继发布了1,000,000个问题数据集，自然语言生成数据集，段落排名数据集，关键词提取数据集，爬网数据集和会话搜索。	问答、搜索	英文阅读理解	论文
11	CNN/Dailymail	2015	DeepMind	Apache-2.0	填空型大规模英文机器理解数据集，答案是原文中的某一个词。 CNN数据集包含美国有线电视新闻网的新闻文章和相关问题。大约有90k文章和380k问题。 Dailymail数据集包含每日新闻的文章和相关问题。大约有197k文章和879k问题。	问答对、填空型阅读理解	英文阅读理解	论文
12	RACE	2017	卡耐基梅隆大学	/	数据集为中国中学生英语阅读理解题目，给定一篇文章和 5 道 4 选 1 的题目，包括了 28000+ passages 和 100,000 问题。	选择题形式	英文阅读理解	论文	下载需邮件申请
13	HEAD-QA	2019	aghie	MIT	一个面向复杂推理的医疗保健、多选问答数据集。提供英语、西班牙语两种形式的数据	医疗领域、选择题形式	英文阅读理解西班牙语阅读理解	论文
14	Consensus Attention-based Neural Networks for Chinese Reading Comprehension	2018	哈工大讯飞联合实验室	/	中文完形填空型阅读理解	填空型阅读理解	中文阅读理解	论文
15	WikiQA	2015	微软	/	WikiQA语料库是一个新的公开的问题和句子对集，收集并注释用于开放域问答研究	片段抽取阅读理解	英文阅读理解	论文
16	Children’s Book Test (CBT)	2016	Facebook	/	测试语言模型如何在儿童书籍中捕捉意义。与标准语言建模基准不同，它将预测句法功能词的任务与预测语义内容更丰富的低频词的任务区分开来	填空型阅读理解	英文阅读理解	论文
17	NewsQA	2017	Maluuba Research	/	一个具有挑战性的机器理解数据集，包含超过100000个人工生成的问答对，根据CNN的10000多篇新闻文章提供问题和答案，答案由相应文章的文本跨度组成。	片段抽取阅读理解	英文阅读理解	论文
18	Frames dataset	2017	微软	/	介绍了一个由1369个人类对话组成的框架数据集，平均每个对话15轮。开发这个数据集是为了研究记忆在目标导向对话系统中的作用。	阅读理解、对话	英文阅读理解	论文
19	Quasar	2017	卡内基梅隆大学	BSD-2-Clause	提出了两个大规模数据集。Quasar-S数据集由37000个完形填空式查询组成，这些查询是根据流行网站 Stack overflow 上的软件实体标记的定义构造的。网站上的帖子和评论是回答完形填空问题的背景语料库。Quasar-T数据集包含43000个开放域琐事问题及其从各种互联网来源获得的答案。	片段抽取阅读理解	英文阅读理解	论文
20	MS MARCO	2018	微软	/	微软基于搜索引擎 BING 构建的大规模英文阅读理解数据集，包含10万个问题和20万篇不重复的文档。MARCO 数据集中的问题全部来自于 BING 的搜索日志，根据用户在 BING 中输入的真实问题模拟搜索引擎中的真实应用场景，是该领域最有应用价值的数据集之一。	多文档	英文阅读理解	论文
21	中文完形填空	2016年	崔一鸣		首个中文填空型阅读理解数据集PD&CFT，全称People Daily and Children’s Fairy Tale，数据来源于人民日报和儿童故事。	填空型阅读理解	中文完形填空	论文
22	NLPCC ICCPOL2016	2016.12.2	NLPCC主办方		基于文档中的句子人工合成14659个问题，包括14K中文篇章。	问答对阅读理解	中文阅读理解	\

文本分类

新闻分类

今日头条中文新闻（短文本）分类数据集： https://github.com/fateleak/toutiao-text-classfication-dataset
- 数据规模：共38万条，分布于15个分类中。
- 采集时间：2018年05月。
- 以0.7 0.15 0.15做分割。
清华新闻分类语料：
- 根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成。
- 数据量：74万篇新闻文档（2.19 GB）
- 小数据实验可以筛选类别：体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐
- http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5
- rnn和cnn实验： https://github.com/gaussic/text-classification-cnn-rnn
中科大新闻分类语料库： http://www.nlpir.org/?action-viewnews-itemid-145

情感/观点/评论倾向性分析

数据集	数据概览	下载
ChnSentiCorp_htl_all	7000 多条酒店评论数据，5000 多条正向评论，2000 多条负向评论	地址
waimai_10k	某外卖平台收集的用户评价，正向 4000 条，负向约 8000 条	地址
online_shopping_10_cats	10 个类别，共 6 万多条评论数据，正、负向评论各约 3 万条，包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店	地址
weibo_senti_100k	10 万多条，带情感标注新浪微博，正负向评论约各 5 万条	地址
simplifyweibo_4_moods	36 万多条，带情感标注新浪微博，包含 4 种情感，其中喜悦约 20 万条，愤怒、厌恶、低落各约 5 万条	地址
dmsc_v2	28 部电影，超 70 万用户，超 200 万条评分/评论数据	地址
yf_dianping	24 万家餐馆，54 万用户，440 万条评论/评分数据	地址
yf_amazon	52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据	地址

实体识别&词性标注

微博实体识别.
- https://github.com/hltcoe/golden-horse
boson数据。
- 包含6种实体类型。
- https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson
人民日报数据集。
- 人名、地名、组织名三种实体类型
- 1998：https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao
- 2004： https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3
MSRA微软亚洲研究院数据集。
- 5 万多条中文命名实体识别标注数据（包括地点、机构、人物）
- https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA
SIGHAN Bakeoff 2005：一共有四个数据集，包含繁体中文和简体中文，下面是简体中文分词数据。
- MSR: http://sighan.cs.uchicago.edu/bakeoff2005/
- PKU ：http://sighan.cs.uchicago.edu/bakeoff2005/

搜索匹配

OPPO手机搜索排序

OPPO手机搜索排序query-title语义匹配数据集。

链接: https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取码:7p3n

网页搜索结果评价(SogouE)

用户查询及相关URL列表
https://www.sogou.com/labs/resource/e.php

数据集	数据概览	下载地址
ez_douban	5 万多部电影（3 万多有电影名称，2 万多没有电影名称），2.8 万用户，280 万条评分数据	点击查看
dmsc_v2	28 部电影，超 70 万用户，超 200 万条评分/评论数据	点击查看
yf_dianping	24 万家餐馆，54 万用户，440 万条评论/评分数据	点击查看
yf_amazon	52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据	点击查看

百科数据

维基百科

维基百科会定时将语料库打包发布： https://dumps.wikimedia.org/zhwiki/

百度百科

只能自己爬，爬取得链接： https://pan.baidu.com/share/init?surl=i3wvfil 提取码 neqs 。

指代消歧

CoNLL 2012 ：http://conll.cemantix.org/2012/data.html

中文微博情感分析测评数据

说明：数据来自腾讯微博 1。评测数据全集包括 20 个话题，每个话题采集大约1000条微博，共约20000条微博。数据采用xml格式，已经预先切分好句子。每条句子的所有标注信息都包含在元素的属性中。其中opinionated表示是否观点句，polarity表示句子情感倾向。

下载地址: https://pan.baidu.com/s/1psjysSXpKOEb1ciem7DsRw 密码：7hb4

中文情感词汇本体

情感分类按照论文《情感词汇本体的构造》所述，情感分为7大类21小类。
情感强度分为1,3,5,7,9五档，9表示强度最大，1为强度最小。

情感分类如表2所示：
表2 情感分类
编号情感大类情感类例词
1 乐快乐(PA) 喜悦、欢喜、笑眯眯、欢天喜地
2 安心(PE) 踏实、宽心、定心丸、问心无愧
3 好尊敬(PD) 恭敬、敬爱、毕恭毕敬、肃然起敬
4 赞扬(PH) 英俊、优秀、通情达理、实事求是
5 相信(PG) 信任、信赖、可靠、毋庸置疑
6 喜爱(PB) 倾慕、宝贝、一见钟情、爱不释手

7 祝愿(PK) 渴望、保佑、福寿绵长、万寿无疆
8 怒愤怒(NA) 气愤、恼火、大发雷霆、七窍生烟
9 哀悲伤(NB) 忧伤、悲苦、心如刀割、悲痛欲绝
10 失望(NJ) 憾事、绝望、灰心丧气、心灰意冷
11 疚(NH) 内疚、忏悔、过意不去、问心有愧
12 思(PF) 思念、相思、牵肠挂肚、朝思暮想
13 惧慌(NI) 慌张、心慌、不知所措、手忙脚乱
14 恐惧(NC) 胆怯、害怕、担惊受怕、胆颤心惊
15 羞(NG) 害羞、害臊、面红耳赤、无地自容
16 恶烦闷(NE) 憋闷、烦躁、心烦意乱、自寻烦恼
17 憎恶(ND) 反感、可耻、恨之入骨、深恶痛绝
18 贬责(NN) 呆板、虚荣、杂乱无章、心狠手辣
19 妒忌(NK) 眼红、吃醋、醋坛子、嫉贤妒能
20 怀疑(NL) 多心、生疑、将信将疑、疑神疑鬼
21 惊惊奇(PC) 奇怪、奇迹、大吃一惊、瞠目结舌

词性种类

情感词汇本体中的词性种类一共分为7类，分别是名词（noun），动词（verb），形容词（adj），副词（adv），网络词语（nw），成语（idiom），介词短语（prep）。

极性标注

每个词在每一类情感下都对应了一个极性。其中，0代表中性，1代表褒义，2代表贬义，3代表兼有褒贬两性。注：褒贬标注时，通过词本身和情感共同确定，所以有些情感在一些词中可能极性1，而其他的词中有可能极性为0。

存储格式及规模

中文情感本体以excel的格式进行存储，共含有情感词共计27466个，文件大小为1.22M。

下载地址: https://pan.baidu.com/s/1jTw3F-Zme2ekspQUUsCiNQ 密码：py1q
修改版下载地址: https://figshare.com/articles/___/6881282/1

中文褒贬义词词典

下载链接： https://pan.baidu.com/s/1RzqIGwrE023PmnEZGFszHg 密码：hu1h

商品评论情感语料库

中文情感分析语料库，包含酒店、服装、水果、平板、洗发水等 5 个领域的评价数据，每个领域各包含 5000 条正面和负面评价，数据抓取于携程网和京东，仅供科研学习之用，欢迎下载使用！

下载地址: https://pan.baidu.com/s/1_9sGJFD29gssC9ZrQaMa7A 密码：h5hf

Reference

1、 https://github.com/crownpku/Awesome-Chinese-NLP
2、 https://github.com/brightmart/nlp_chinese_corpus
3、 https://github.com/CLUEbenchmark/CLUEDatasetSearch
4、 https://github.com/InsaneLife/ChineseNLPCorpus
5、 https://mlln.cn

打赏

微信	支付宝
万分感谢

1.维基百科json版(wiki2019zh)

104万个词条(1,043,224条; 原始文件大小1.6G，压缩文件519M；数据更新时间：2019.2.7)

可能的用途：

结构：

例子：

效果：

2.新闻语料json版(news2016zh)

250万篇新闻( 原始数据9G，压缩文件3.6G；新闻内容跨度：2014-2016年)

数据描述

可能的用途：

结构：

例子：

3.百科类问答json版(baike2018qa)

150万个问答( 原始数据1G多，压缩文件663M；数据更新时间：2018年)

数据描述

可能的用途：

结构：

例子：

4.社区问答json版(webtext2019zh) ：大规模高质量数据集

410万个问答( 过滤后数据3.7G，压缩文件1.7G；数据跨度：2015-2016年)

数据描述

可能的用途：

结构：

例子：

在该数据集上的公开评测和任务：

5.翻译语料(translation2019zh)

520万个中英文平行语料( 原始数据1.1G，压缩文件596M)

数据描述

可能的用途：

结构：

例子：

NER

QA

情感分析

文本分类

文本匹配

文本摘要

机器翻译

知识图谱

语料库

阅读理解

文本分类

新闻分类

情感/观点/评论 倾向性分析

实体识别&词性标注

微博实体识别.

boson数据。

人民日报数据集。

MSRA微软亚洲研究院数据集。

搜索匹配

OPPO手机搜索排序

网页搜索结果评价(SogouE)

推荐系统

百科数据

维基百科

百度百科

指代消歧

中文微博情感分析测评数据

中文情感词汇本体

中文褒贬义词词典

商品评论情感语料库

Reference

打赏

最近文章

福利派送

分类

标签

友情链接

其它

情感/观点/评论倾向性分析