AI Hospital: Interactive Evaluation and Collaboration of Large Language Models as Intern Doctors for Clinical Diagnosis [Paper]
欢迎来到我们的研究论文“人工智能医院:大型语言模型作为实习医生进行临床诊断的互动评估与合作”的代码仓库。该仓库托管了我们为研究中涉及的各种医疗角色量身定制的主要模块。
运行以下命令以设置您的环境:
pip install -r requirements.txt
我们的研究提出了MVME基准,用于评估大型语言模型(LLMs)作为实习医生进行临床诊断的角色。我们开发了自己的医疗记录数据集,可在我们的医疗记录数据集中查看,数据来源于医易网。
您可以在对话诊疗历史记录中找到我们研究中使用的LLMs的对话历史文档。此外,单步诊断报告位于单步中。
进入源目录:
cd ./src
运行脚本前,打开scripts/run.sh
并输入所需服务的API密钥。例如:
- 对于OpenAI模型(例如,GPT-4):
OPENAI_API_KEY=""
,OPENAI_API_BASE=""
- 对于阿里巴巴模型(例如,Qwen-Max):
DASHSCOPE_API_KEY=""
- 对于文心模型(例如,文心-4.0):
WENXIN_API_KEY=""
,WENXIN_SECRET_KEY=""
执行脚本:
bash scripts/run.sh
要评估性能,请进入源目录并执行:
cd ./src
bash scripts/eval.sh
要创建您的实习医生代理,请基于Doctor类进行实现。参考需要在线API调用的GPTDoctor或依赖GPU的HuatuoGPTDoctor。
在代理目录的初始化文件中注册您的模型。
进入源目录:
cd ./src
打开scripts/run_md.sh
并输入所需服务的API密钥,如上所述。
执行脚本:
bash scripts/run_md.sh
如果我们的代码和数据对您的研究工作有所帮助,希望您可以按照以下方式引用我们的论文:
@article{fan2024ai,
title={AI Hospital: Interactive Evaluation and Collaboration of LLMs as Intern Doctors for Clinical Diagnosis},
author={Fan, Zhihao and Tang, Jialong and Chen, Wei and Wang, Siyuan and Wei, Zhongyu and Xi, Jun and Huang, Fei and Zhou, Jingren},
journal={arXiv preprint arXiv:2402.09742},
year={2024}
}