2022年底,OpenAI推出的基于大語言模型(Large language model,LLM)的聊天機器人ChatGPT展示了令人印象深刻的強大能力。
為應(yīng)對異軍突起的OpenAI,谷歌在今日推出了其生成式人工智能模型——Gemini,谷歌表示,這是迄今為止功能最強大、最通用的人工智能大模型,其在許多測試中擊敗了OpenAI最近的GPT-4。
除了與OpenAI的直接競爭外,谷歌還致力于開發(fā)其他更專業(yè)的生成式人工智能項目,其中就包括醫(yī)療人工智能大模型——MedLM。谷歌表示,該模型已經(jīng)可以通過公司的Vertex AI平臺向美國谷歌云客戶提供,該平臺使用機器學(xué)習(xí)工作流來指導(dǎo)用戶通過訓(xùn)練、評估和部署生成式人工智能模型的過程。與此同時,美國以外的某些市場可以“預(yù)覽”這些工具。
MedLM模型基于Med-PaLM 2,Med-PaLM 2是谷歌進軍醫(yī)療人工智能大模型的第二次嘗試。去年,其開發(fā)的Med-PaLM模型因通過了美國醫(yī)療執(zhí)照考試(USMLE)而成為頭條新聞(準確率為67%),而今年,Med-PaLM 2進一步將準確率大幅提升至86.5%,根據(jù)谷歌的說法,該分數(shù)相當于“專家”醫(yī)生水平。
谷歌表示,MedLM模型有兩個版本,其用途之間的差異在于,第一個MedLM模型更大,專為復(fù)雜任務(wù)設(shè)計。第二個是中等模型,能夠進行微調(diào),最適合跨任務(wù)擴展。谷歌表示,在未來幾個月會將基于Gemini的模型集成到MedLM模型中,以進一步擴展其人工智能功能。
谷歌表示,此次新推出的醫(yī)療人工智能大模型——MedLM,旨在用于整個醫(yī)療保健行業(yè)的各個方面,包括醫(yī)院、藥物開發(fā)、面向患者的聊天機器人等。例如,美國醫(yī)療保健巨頭HCA Healthcare正在將MedLM模型用于記錄臨床醫(yī)生與患者之間的對話,并將其自動轉(zhuǎn)譯為醫(yī)療記錄,從而提高記錄的質(zhì)量。AI藥物發(fā)現(xiàn)平臺BenchSci正在使用MedLM模型快速篩選大量臨床數(shù)據(jù)并識別某些疾病和生物標志物之間的聯(lián)系。
醫(yī)學(xué)是一項人性化的事業(yè),其中語言是臨床醫(yī)生、研究人員和患者之間的溝通互動的關(guān)鍵。近年來,人工智能的進步為其在醫(yī)學(xué)領(lǐng)域的應(yīng)用帶來了新的希望。但AI模型主要是單任務(wù)系統(tǒng),缺乏表達能力和交互能力,還可能會編造令人信服的醫(yī)療錯誤信息,或納入偏見加劇健康不平等。因此,現(xiàn)有的AI模型所能做的和在現(xiàn)實世界的臨床工作流程中對它們的期望之間存在著不一致,使其難以轉(zhuǎn)化為真實世界的可靠性或價值。
2023年7月,谷歌和谷歌旗下人工智能公司DeepMind的研究人員在國際頂尖學(xué)術(shù)期刊 Nature 上發(fā)表了題為:Large language models encode clinical knowledge 的研究論文。
該論文展示了谷歌開發(fā)的一個專精醫(yī)學(xué)領(lǐng)域的大語言模型——Med-PaLM,其能夠很好的回答醫(yī)學(xué)問題。
為評估大語言模型(LLM)編碼臨床醫(yī)學(xué)知識的能力,研究團隊探討了它們回答醫(yī)學(xué)問題的能力。這項任務(wù)非常具有挑戰(zhàn)性,因為為醫(yī)學(xué)問題提供高質(zhì)量的答案需要理解醫(yī)學(xué)背景,回憶適當?shù)尼t(yī)學(xué)知識,并根據(jù)專家信息進行推理。
在這項研究中,提出了一個基準,稱為MultiMedQA:它結(jié)合了6個涵蓋專業(yè)醫(yī)療、研究和消費者查詢的現(xiàn)有問題回答數(shù)據(jù)集以及HealthSearchQA——這是一個新的數(shù)據(jù)集,包含3173個在線搜索的醫(yī)學(xué)問題。通過這一基準來評估大語言模型回答醫(yī)學(xué)問題的真實性、在推理中使用專業(yè)知識、有用性、準確性、健康公平性和潛在危害。
表現(xiàn)令人鼓舞
研究團隊隨后評估了PaLM(5400億參數(shù)的大語言模型)及其變體Flan-PaLM。他們發(fā)現(xiàn),在一些數(shù)據(jù)集中Flan-PaLM達到了最先進水平的表現(xiàn)。在整合美國醫(yī)師執(zhí)照考試類問題的MedQA數(shù)據(jù)集中,F(xiàn)lan-PaLM超過此前最先進的大語言模型達17%,達到了67.6%的準確率,達到了通過考試的標準(60%)。不過,雖然FLAN-PaLM的多選題成績優(yōu)良,進一步評估顯示,它在回答消費者的醫(yī)療問題方面存在差距。
為解決這一問題,研究團隊使用一種稱為設(shè)計指令微調(diào)(instruction prompt tuning)的方式進一步調(diào)試Flan-PaLM適應(yīng)醫(yī)學(xué)領(lǐng)域。設(shè)計指令微調(diào)是讓通用大語音模型適用新的專業(yè)領(lǐng)域的一種有效方法。
結(jié)果產(chǎn)生的新模型Med-PaLM在試行評估中表現(xiàn)令人鼓舞。例如,F(xiàn)lan-PaLM被一組醫(yī)師評分與科學(xué)共識一致程度僅61.9%的長回答,Med-PaLM的回答評分為92.6%,相當于醫(yī)師做出的回答(92.9%)。同樣地,F(xiàn)lan-PaLM有29.7%的回答被評為可能導(dǎo)致有害結(jié)果,Med-PaLM僅5.9%,相當于醫(yī)師所作回答(6.5%)。
升級版——Med-PaLM 2
值得一提的是,這篇在 Nature 論文中描述的 Med-PaLM 模型于2022年12月推出,而在今年5月份,谷歌在預(yù)印本平臺發(fā)表論文,推出了升級版的Med-PaLM 2。
論文中顯示,Med-PaLM 2是第一個在美國醫(yī)療執(zhí)照考試(USMLE)類問題上達到專家級表現(xiàn)的大語言模型,能夠正確回答多項選擇題和開放式問題,并對答案進行推理,準確率高達86.5%,大幅超越了Med-PaLM以及GPT3.5。
Med-PaLM 2根據(jù)14項標準進行了測試,包括科學(xué)事實、準確性、醫(yī)學(xué)共識、推理、偏見和危害,由來自不同背景和國家的臨床醫(yī)生和非臨床醫(yī)生進行評估。研究團隊還發(fā)現(xiàn)該模型在回答醫(yī)學(xué)問題方面仍存在一些差距,但并未具體說明,谷歌表示,進一步開發(fā)和改進該模型以解決這些差距,并了解大語言模型如何改善醫(yī)療保健。
據(jù)報道,Med-PaLM 2目前正在世界頂尖的醫(yī)療機構(gòu)梅奧醫(yī)學(xué)中心進行初步試驗。谷歌認為,這種模式在“看病機會有限”的國家尤其有用。他們還表示,在Med-PaLM 2試驗期間提交的用戶數(shù)據(jù)將被加密,谷歌無法訪問,并由用戶自己控制。
總的來說,Med-PaLM是一個強大的專精醫(yī)學(xué)領(lǐng)域的大語言模型,而設(shè)計指令微調(diào)是一種有效的數(shù)據(jù)和參數(shù)校準技術(shù),能夠提高大語言模型的準確性、真實性、一致性、安全性,減少危害和偏差等因素,有助于縮小模型與臨床專家的差距,使這些模型更接近現(xiàn)實世界的臨床應(yīng)用。
參考資料:
https://www.nature.com/articles/s41586-023-06291-2
https://arxiv.org/pdf/2305.09617.pdf
https://the-decoder.com/google-is-testing-its-generative-medical-language-model-in-a-clinical-setting/
https://www.fiercebiotech.com/medtech/google-launches-medlm-generative-ai-models-healthcare-industry