⚖️LAiW: A Chinese Legal Large Language Models Benchmark

| English | 中文

LAiW：中文法律大模型综合性基准（狴犴）

🔥 LAiW最新评测结果

🔥 技术报告与正式文章

新闻

🔄 最近更新

[2024-04-19] 更新正式文章

📅 更早讯息

[2024/1/22] 增加通用大模型 Baichuan-7B 的评测结果
[2024/1/14] 提供评测数据集更多详细信息，同时给出模型评测指标 SCULAiW 的计算方式
[2024/1/12] 进一步确认和完善相关评测结果，优化评测榜单 SCULAiW 的布局，补充评测模型更多详细信息
[2024/1/10] 新增商用大模型 GPT-4 和通用大模型 Llama-7B, Llama13B, Chinese-LLaMA-13B 的评测
[2024/1/2] 公布了大模型法律能力评分机制，公布大模型评测分数
[2024/1/2] 公布了14个基础任务的测试数据集
[2024/1/1] 更新了 SCULAiW 法律能力评测结果
[2024/12/31] 完成了主流大模型的法律能力评测工作。评测过程中，除前述工作提及的模型外，新增通用大模型 ChatGLM 和法律大模型 Lawyer-LLaMA，Fuzi-Mingcha，Wisdom-Interrogatory，LexiLaw
[2023/10/12] 公布 LAiW技术报告初版
[2023/10/08] 公布 LAiW 第一阶段能力评测体系
[2023/10/08] 完成第一阶段大模型的基础信息检索能力评测工作,包含商用大模型：ChatGPT；通用大模型：Llama2，Ziya-LLaMA，Chinese-LLaMA，Baichuan2; 以及法律大模型：HanFei，ChatLaw，LaWGPT
[2023/10/08] 公布法律能力和基础任务的评测分数及计算方式

模型	参数	模型领域	总分	BIR	LFI	CLA	基模型
GPT-4	-	通用	69.63	80.92	69.27	58.69	-
ChatGPT	-	通用	64.09	75.99	58.32	57.96	-
Baichuan2-Chat	13B	通用	48.04	53.67	32.03	58.40	-
ChatGLM	6B	通用	47.01	51.51	37.08	52.44	-
Ziya-LLaMA	13B	通用	45.79	61.47	29.44	46.45	Llama-13B
Fuzi-Mingcha	6B	法律	40.62	39.68	27.46	54.71	ChatGLM-6B
HanFei	7B	法律	35.69	37.42	16.33	53.31	-
LexiLaw	6B	法律	31.31	41.32	8.88	43.73	ChatGLM-6B
ChatLaw	13B	法律	25.77	58.02	12.54	6.74	Ziya-LLaMA-13B
Llama2-Chat	7B	通用	27.76	31.86	12.77	38.64	-
Lawyer-LLaMA	13B	法律	29.25	30.85	6.39	50.50	Chinese-LLaMA-13B
Chinese-LLaMA	13B	通用	24.99	21.02	19.16	34.80	Llama-13B
Chinese-LLaMA	7B	通用	24.91	22.32	18.25	34.16	Llama-7B
Baichuan	7B	通用	22.51	21.20	15.46	30.86	-
LaWGPT	7B	法律	22.69	15.47	14.27	38.32	Chinese-LLaMA-7B
Llama	13B	通用	21.00	18.51	15.08	29.40	-
Wisdom-Interrogatory	7B	法律	18.83	12.66	10.45	33.37	Baichuan-7B
Llama	7B	通用	16.35	11.12	15.40	22.54	-

其中，大模型法律能力评测总得分和各层级法律能力得分排名依次为

评测任务

我们在 法学专家与人工智能专家 的共同努力下，从法学角度和可实现性上对法律 NLP的能力进行划分．如上图所示，目前我们将其分成了3大能力，共计14个基础任务：

基础信息检索能力：评测法律基础任务、 NLP 基础任务和法律信息抽取的能力，包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别 5 个基础任务
法律原则推理能力：评测大模型对法律领域知识的基础应用能力，包括争议焦点挖掘、类案匹配、罪名预测、刑期预测和民事裁判预测和法律问答 6 个基础任务
法律高级应用能力：评测大模型对法律领域知识的复杂应用能力，包括司法说理生成、案情理解和法律咨询 3 个基础任务

下面是各评测任务的简要介绍

能力	任务	介绍
基础信息检索	法条推送	该任务是司法实践应用上的基础任务，在提供法律领域的智能化支持和辅助决策上起着重要作用，旨在根据案件描述给出其相关法条
	要素识别	在司法领域，案件要素识别任务的主要目的是从案件描述中自动提取关键事实描述。在给定司法文书的相关段落之后，系统对每句话进行分析和判断，以确定关键的案件要素
	命名实体识别	从各种法律文件中提取具有司法特征的名词和短语并进行合并的过程，如与赃物、嫌疑人有关的法律文件
	司法要点摘要	裁判文书是人民法院公开审判活动、裁判理由、裁判依据和裁判结果的重要载体。司法摘要则是对裁判文书的内容进行压缩、归纳和总结，反映案件审理过程中的裁判过程、事实、理由和判决依据等
	案件识别	民事案件和刑事案件是两种不同类型的法律案件。民事案件是解决个人纠纷和维护权益的法律程序，刑事案件是为了维护社会秩序和惩罚犯罪行为的法律程序。本任务旨在根据相关的案件描述判断其为刑事案件还是民事案件
法律原则推理	争议焦点挖掘	在法院的庭审过程中，裁判文书起着记录辩、诉双方观点证据的重要作用。本任务旨在抽取出裁判文书中辩方诉方之间的逻辑交互论点对，即争议焦点
	类案匹配	司法裁决通常是根据过去类似的代表性案例做出的。因此，如何识别最相似的案件是判决中一个首要关注的问题
	刑事裁判预测	根据事实描述自动预测裁判结果，本任务旨在根据案件事实、证据和适用的法律，对被告人的定罪与否以及可能的刑期进行预测，因此分为罪名预测和刑期预测两类任务
	民事裁判预测	通过分析案件相关信息和相关法律规定，预测民事诉讼中可能的判决结果或争议的解决方式。本任务旨在使用事实描述来预测其对原告诉请的裁判
	法律问答	司法考试作为我国最难的考试，也是法律工作者生涯中极其重要的考试。本任务是针对国家司法考试的客观问答任务，包括单选题和多选题
法律高级应用	司法说理生成	人民法院在认定案件事实的基础上需要就判决理由作出进一步的阐述。本任务旨在根据案件事实描述生成相关的司法说理文本
	案情理解	通过机器智能化地阅读理解裁判文书，可以更快速、便捷地辅助法官、律师以及普通大众获取所需信息。本任务是基于中文裁判文书的阅读理解，具体来说，模型需要基于裁判文书的案件相关描述所提出的问题而作出合理合规的回答
	法律咨询	涵盖广泛的法律领域，包括但不限于刑法、民法、商法、劳动法、知识产权法、家庭法等。本任务旨在根据用户提供的有关法律问题，考虑适用的法律法规、相关判例和法律解释，并结合具体情况给出准确、清晰和可靠的答案

评测数据集

我们基于现有中文法律的公开数据集，重新整理并构建了上述各个任务的评测数据集 Legal Evaluation Dataset (LED) ，我们展示了其各个基础任务评测的评测数据集。有关数据集更多详细信息请查看这里

能力层级	任务	主要数据集	评测数据集	数据集大小	类别
基础信息检索	法条推送	CAIL-2018	legal_ar	1,000	分类
	要素识别	CAIL-2019	legal_er	1,000	分类
	命名实体识别	CAIL-2021	legal_ner	1040	命名实体识别
	司法要点摘要	CAIL-2020	legal_js	364	文本生成
	案件识别	CJRC	legal_cr	2,000	分类
法律原则推理	争议焦点挖掘	LAIC-2021	legal_cfm	306	分类
	类案匹配	CAIL-2019	legal_scm	260	分类
	罪名预测	Criminal-S	legal_cp	827	分类
	刑期预测	MLMN	legal_ptp	349	分类
	民事裁判预测	MSJudeg	legal_ctp	800	分类
	法律问答	JEC-QA	legal_lqa	855	分类
法律高级应用	司法说理生成	AC-NLG	legal_jrg	834	文本生成
	案情理解	CJRC	legal_cu	1,054	文本生成
	法律咨询	CrimeKgAssitant	legal_lc	916	文本生成

评分机制

⭐️ 任务得分

$$ S_{(Task)} = \begin{cases} F1 * 100, & \text{If }\quad Task\quad\in\quad Classification \\ \frac{1}{3}*(R1 + R2 + RL) * 100, & \text{If }\quad Task \quad\in\quad Text\quad Generation \\ Acc * 100, & \text{If }\quad Task\quad\in\quad NER \end{cases} $$

目前，我们的评测基准主要包含分类任务，文本生成和命名实体识别任务三类。对于分类任务，我们采用F1值。对于文本生成任务，我们采用其Rouge1，Rouge2和RougeL的均值。特别地，对于法律NER任务，我们采用法律实体的提取准确率Accuracy作为其得分。

🌟 模型得分

对于单个大模型，我们首先计算每个阶段的任务平均分数作为其该项法律能力得分。然后取三项法律能力得分的均值作为大模型的最终评测分数。模型评测分数见这里。

评测代码

我们将按照评测结构图中的14个基础任务持续评测现有大模型在这些任务上的表现，详情可见模型评测榜单。

1.环境准备

git clone git clone https://github.com/Dai-shen/LAiW.git --recursive
cd LAiW
pip install -r requirements.txt
cd LAiW/src/financial-evaluation
pip install -e .[multilingual]

2.模型输出

选取待评测的模型和法律任务，运行以下代码，得到模型输出

export CUDA_VISIBLE_DEVICES="1,2"
python eval.py \
    --model "hf-causal-experimental" \
    --model_args "use_accelerate=True,pretrained=$pretrained_model,tokenizer=$pretrained_model,use_fast=False,trust_remote_code=True" \
    --tasks "legal_ar,legal_er,legal_js" \
    --no_cache \
    --num_fewshot 0 \
    --write_out \
    --output_base_path ""

参数说明

model：模型接口类型，可选参数见src/financial-evaluation/lm_eval/models/__init__.py
tasks：预定义的任务名，可在src/tasks/_init_.py和src/tasks/legal.py定义自己的任务
pretrained_model：大模型路径（huggingface空间或模型本地路径）
output_base_path: 模型保存路径

3.自动评测

将模型输出文件保存在 precision/eval_results/ 目录下。假设评测模型 Fuzi-Mingcha-6B，和 HanFei-7B，则每个模型路径下包含13个基础任务（涵盖14个评测数据集）的输出文件，文件结构应该如下：

eval_results/
├── Fuzi-Mingcha-6B/
│   ├── legal_ar_write_out_info.json
│   ├── legal_er_write_out_info.json
│       ......
│   ├── legal_cu_write_out_info.json
│   ├── legal_lc_write_out_info.json
├── HanFei-7B/
│   ├── legal_ar_write_out_info.json
│   ├── legal_er_write_out_info.json
│       ......
│   ├── legal_cu_write_out_info.json
│   ├── legal_lc_write_out_info.json

然后运行 precision/compute_metrics.py 对各模型各任务的输出进行自动评测，评测结果保存至 precision/metrics_result/ 目录下注：本项目的评测结果可在LAiW Leaderboard查看

项目参与者

本项目由四川大学（四川智慧社会智能治理重点实验室智慧法治研究所）的代永富、冯端宇、贾昊宸、张译方、王皓，武汉大学的谢倩倩、韩玮光、黄济民，以及西南石油大学的田维共同开发。

声明

本项目仅供学术研究使用，严禁用于商业。我们对使用该项目的任何问题，风险或不利后果不承担任何责任。

致谢

本项目在构建时，参考了以下开源项目，在此对相关项目和研究开发人员表示感谢。

LLMindCraft
Awesome Chinese Legal Resources

引用

如果本项目对您的研究有所帮助，请引用本项目。

@article{dai2023laiw,
  title={LAiW: A Chinese legal large language models benchmark},
  author={Dai, Yongfu and Feng, Duanyu and Huang, Jimin and Jia, Haochen and Xie, Qianqian and Zhang, Yifang and Han, Weiguang and Tian, Wei and Wang, Hao},
  journal={arXiv preprint arXiv:2310.05620},
  year={2023}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_zh.md

README_zh.md

⚖️LAiW: A Chinese Legal Large Language Models Benchmark

新闻

目录

任务评测结构图

模型得分

评测任务

评测数据集

评分机制

评测代码

1.环境准备

2.模型输出

3.自动评测

项目参与者

声明

致谢

引用

Files

README_zh.md

Latest commit

History

README_zh.md

File metadata and controls

⚖️LAiW: A Chinese Legal Large Language Models Benchmark

新闻

目录

任务评测结构图

模型得分

评测任务

评测数据集

评分机制

评测代码

1.环境准备

2.模型输出

3.自动评测

项目参与者

声明

致谢

引用