文献阅读:Large Language Models Encode Clinical Knowledge
Posted Espresso Macchiato
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文献阅读:Large Language Models Encode Clinical Knowledge相关的知识,希望对你有一定的参考价值。
1. 文章内容简介
这篇文章是年前Google发表的一篇针对医疗领域的大模型文章,主打的点就是在医疗领域里面远远甩开了现有的其他模型。
众所周知,医疗领域内的大模型算是一个相对特殊的部分。首先,他的应用前景非常广阔,这点从各类投资公司前些年纷纷投资AI医疗领域就可以一窥;其次,他对于模型的准确率要求非常高,可以允许回答不了,对于错误答案,或者说南辕北辙的答案的容忍度却是非常低的。
因此,当刚知道Google发表的这篇文章之后,我一度以为Google提出了什么新方法,比如说通过某种方式实现了几年前比较热的将知识图谱融入到大模型当中的方式。不过实际看过文章之后,不得不说我多少是有点失望的,因为文中其实走的还是InstructGPT那套东西,基于一个预训练的大模型在医疗领域内进行Instruct Tuning的方式获得prompt进行调用。
所以本质上来说,这个工作的改进点实际还是依托于大模型本身的牛逼,而不是方法上有什么实质性的优化,所以多多少少我还是有点失望的……
而且说起这个,倒是有点题外话,不知道是不是因为我阅读的文献本身存在bias的问题,前两年其实一直听说往大模型中结合知识图谱是一个很热门的课题,但是近两年总感觉也没见到过这方面相关的文章,感觉这个方向是不是已经死了啊,明明感觉其实很合理的……
anyway,回到这篇工作本身,这篇工作其实主要的贡献点包括两大部分:
- 给出了一个关于医疗领域的模型效果标准评判数据集(MultiMedQA),并给出了对应的SOTA值;
- 基于Flan-PaLM得到了Med-PaLM,获得了堪比人类专家的效果。
2. MultiMedQA数据集
首先,我们来看一下MultiMedQA这个数据集的构成,他其实是以下几个评测数据集的集合:
- MedQA
- MedMCQA
- PubMedQA
- MMLU
- LiveQA
- Medication QA
- HealthSearchQA
其中,前6个数据集是当前已有的公开数据评测集,Google在这里只是做了整理,而最后一个则是Google自己给出的。
具体的数据集描述详见下表:
其具体的各类数据的具体格式以及样例如下:
- MedQA
-
MedMCQA
-
PubMedQA
-
MMLU
-
LiveQA
-
Medication QA
-
HealthSearchQA
此外,除了对于上述数据集的自动考察之外,文中还邀请了专家对于模型回答的结果从以下几个角度进行了考察:
从而综合评估模型的真实效果。
3. 模型考察
然后,我们来考察一下文中提出的Med-PaLM模型。
如前所述,Med-PaLM本质上其实还是Flan-PaLM模型,但是在使用上使用了Prompt Tuning,具体来说,算是结合了Instruct以及Soft-Prompt的方法,先给出一个Instruct,然后再tuning一个soft-prompt,然后将两者结合使用。
4. 结果考察
1. MultiMedQA上的表现
可以看到:
- 在各类问题上,Flan-PaLM效果都是优于当前的SOTA的。
2. 消解实验
可以看到:
- Instruct Tuning在QA任务当中可以显著的提升模型的效果;
- 模型的size越大,模型效果越好;
- CoT prompting意外地在MedQA任务当中无法获得更好的效果;
- Self-consistency(SC)方法对于多项选择问题可以给出更好的效果。
3. 人工评价结果
最后,我们来看一下医疗专家给出的模型评测。
可以看到:
- Med-PaLM在各个角度都能够获得接近于人类专家的生成效果。
5. 结论 & 思考
综上,我们可以看到:
- Google基于Flan-PaLM模型,结合上Instruct Tuning方法,获得了一个在医疗领域当中表达近乎人类专家的模型。
- 尽管和其他的大模型一样,MedPaLM依然可能出错,但是即便如此,其效果依然是远超于其他同类模型的。
因此,大模型的恐怖能力又双叒叕得到了证明……
但是,除此之外,似乎,可能,好像,也就没啥了吧……
以上是关于文献阅读:Large Language Models Encode Clinical Knowledge的主要内容,如果未能解决你的问题,请参考以下文章
开源大模型(large language model, LLM)介绍
论文阅读-AAAI2021-Generalize a Small Pre-trained Model to Arbitrarily Large TSP Instances
语义分割文献阅读Segmentation from Natural Language Expressions
文献阅读:Language Models are Unsupervised Multitask Learners
文献阅读:Language Models are Unsupervised Multitask Learners
文献阅读:Improving Language Understanding by Generative Pre-Training