-
任务简介
- 使用除目标领域外的其它给定领域得到一个在目标领域泛化性能良好的依存句法解析器。例如当目标领域为ZX时,可以使用其他五个领域(包括BC)的训练数据,即BC/PB/PC/FIN/LEG-Train。call for participation
- 官网:http://hlt.suda.edu.cn/index.php/CCL2021 (8:00~18:00可访问)
-
时间:2021.4~2021.8
-
数据示例
第10列的概率为2.0时表明为人工标注,否则为模型自动补全
1 被 _ LB LB _ 19 adv _ 2.0000 2 1987 _ CD CD _ 3 att _ 0.9999 3 年 _ M M _ 5 att _ 2.0000 4 6 _ CD CD _ 5 att _ 0.9520 5 月 _ NN NN _ 7 att _ 2.0000 6 25 _ CD CD _ 7 att _ 0.9873 7 日 _ M M _ 9 adv _ 2.0000 8 国务院 _ NN NN _ 9 subj _ 1.0000 9 发布 _ VV VV _ 16 att _ 2.0000 10 的 _ DEC DEC _ 9 adjct _ 1.0000 11 《 _ PU PU _ 10 punc _ 2.0000 12 中华人民共和国 _ NR NR _ 14 att _ 2.0000 13 建筑 _ NN NN _ 14 att _ 0.9994 14 税 _ NN NN _ 16 att _ 0.6252 15 暂行 _ JJ JJ _ 16 att _ 0.9889 16 条例 _ NN NN _ 1 pobj _ 2.0000 17 》 _ PU PU _ 16 punc _ 2.0000 18 明令 _ NN NN _ 19 adv _ 2.0000 19 废止 _ VV VV _ 0 root _ 2.0000 20 。 _ PU PU _ 19 punc _ 2.0000
Train/Dev/Unlabeled数据文件均为“CoNLL”格式,在CoNLL格式中,每个词语占一行,每行10列,无值列用下划线 '_' 代替,列的分隔符为制表符'\t',行的分隔符为换行符'\n';句子与句子之间用空行'\n'分隔。 下面介绍一下我们本次评测使用到的列:
- 1.当前词在句子中的序号,从1开始;
- 2.当前词语或标点;
- 4.当前词语的词性;
- 7.当前词语的核心词;
- 8.当前词语与核心词的依存关系;
- 10.依存弧的概率;
-
数据说明
BC:平衡语料
PB:产品博客
PC:产品评论
FIN:财经资讯
LEG:法律资讯
ZX:网络小说
注:BC作为基础数据,只作为源领域。后五个领域既可以作为源领域,也可以作为目标领域。另外,针对后五个领域,官方还提供了大规模的无标注数据。
要申请数据集,请查看官网要求
domain train dev test unlabeled 下载 BC 26.1K 1K 2K 0 × PB 5K 1.3K 2.5K 291K × PC 6.8K 1.3K 2.6K 349K × FIN 5K 1K 1.8K 118K × LEG 5K 1K 1.9K 150K × ZX 1.5K 0.5K 1K 33K × -
竞赛方案(closed track)
UAS=核心节点正确的词数/总词数
LAS=核心节点正确、并且对应依存关系类型也正确的词数/总词数
方案 / rank 汇报题目 avg UAS avg LAS 代码 official baseline (link ) * 67.32 59.67 √ 1 (video 01:01:12~01:14:39,ppt ) 《基于自监督对比学习的跨域依存句法分析》 67.78 60.16 √ (分支里) 3 (video 00:46:45~01:00:30,ppt ) 《多源零样本场景下的跨领域依存句法分析》 63.86 53.98 × 4 (video 00:30:49~00:45:43,ppt ) 《多源跨域依存分析场景下的交叉标注算法》 50.70 39.70 × 5 (video 00:16:03~00:30:13) 《依存句法分析的领域适应学习》 31.81 15.35 × -
推荐资料
跨领域句法分析评测总体报告 (00:03:00~00:15:28)、ppt