行業(yè)動態(tài)

AI+醫(yī)療，谷歌正式推出“醫(yī)療ChatGPT”

加入日期:2023/12/29 11:20:44 　查看人數(shù): 1868 　作者:admin

2022年底，OpenAI推出的基于大語言模型（Large language model，LLM）的聊天機器人ChatGPT展示了令人印象深刻的強大能力。

為應(yīng)對異軍突起的OpenAI，谷歌在今日推出了其生成式人工智能模型——Gemini，谷歌表示，這是迄今為止功能最強大、最通用的人工智能大模型，其在許多測試中擊敗了OpenAI最近的GPT-4。

除了與OpenAI的直接競爭外，谷歌還致力于開發(fā)其他更專業(yè)的生成式人工智能項目，其中就包括醫(yī)療人工智能大模型——MedLM。谷歌表示，該模型已經(jīng)可以通過公司的Vertex AI平臺向美國谷歌云客戶提供，該平臺使用機器學(xué)習(xí)工作流來指導(dǎo)用戶通過訓(xùn)練、評估和部署生成式人工智能模型的過程。與此同時，美國以外的某些市場可以“預(yù)覽”這些工具。

MedLM模型基于Med-PaLM 2，Med-PaLM 2是谷歌進軍醫(yī)療人工智能大模型的第二次嘗試。去年，其開發(fā)的Med-PaLM模型因通過了美國醫(yī)療執(zhí)照考試（USMLE）而成為頭條新聞（準確率為67%），而今年，Med-PaLM 2進一步將準確率大幅提升至86.5%，根據(jù)谷歌的說法，該分數(shù)相當于“專家”醫(yī)生水平。

谷歌表示，MedLM模型有兩個版本，其用途之間的差異在于，第一個MedLM模型更大，專為復(fù)雜任務(wù)設(shè)計。第二個是中等模型，能夠進行微調(diào)，最適合跨任務(wù)擴展。谷歌表示，在未來幾個月會將基于Gemini的模型集成到MedLM模型中，以進一步擴展其人工智能功能。

谷歌表示，此次新推出的醫(yī)療人工智能大模型——MedLM，旨在用于整個醫(yī)療保健行業(yè)的各個方面，包括醫(yī)院、藥物開發(fā)、面向患者的聊天機器人等。例如，美國醫(yī)療保健巨頭HCA Healthcare正在將MedLM模型用于記錄臨床醫(yī)生與患者之間的對話，并將其自動轉(zhuǎn)譯為醫(yī)療記錄，從而提高記錄的質(zhì)量。AI藥物發(fā)現(xiàn)平臺BenchSci正在使用MedLM模型快速篩選大量臨床數(shù)據(jù)并識別某些疾病和生物標志物之間的聯(lián)系。

醫(yī)學(xué)是一項人性化的事業(yè)，其中語言是臨床醫(yī)生、研究人員和患者之間的溝通互動的關(guān)鍵。近年來，人工智能的進步為其在醫(yī)學(xué)領(lǐng)域的應(yīng)用帶來了新的希望。但AI模型主要是單任務(wù)系統(tǒng)，缺乏表達能力和交互能力，還可能會編造令人信服的醫(yī)療錯誤信息，或納入偏見加劇健康不平等。因此，現(xiàn)有的AI模型所能做的和在現(xiàn)實世界的臨床工作流程中對它們的期望之間存在著不一致，使其難以轉(zhuǎn)化為真實世界的可靠性或價值。

2023年7月，谷歌和谷歌旗下人工智能公司DeepMind的研究人員在國際頂尖學(xué)術(shù)期刊 Nature 上發(fā)表了題為：Large language models encode clinical knowledge 的研究論文。

該論文展示了谷歌開發(fā)的一個專精醫(yī)學(xué)領(lǐng)域的大語言模型——Med-PaLM，其能夠很好的回答醫(yī)學(xué)問題。

為評估大語言模型（LLM）編碼臨床醫(yī)學(xué)知識的能力，研究團隊探討了它們回答醫(yī)學(xué)問題的能力。這項任務(wù)非常具有挑戰(zhàn)性，因為為醫(yī)學(xué)問題提供高質(zhì)量的答案需要理解醫(yī)學(xué)背景，回憶適當?shù)尼t(yī)學(xué)知識，并根據(jù)專家信息進行推理。

在這項研究中，提出了一個基準，稱為MultiMedQA：它結(jié)合了6個涵蓋專業(yè)醫(yī)療、研究和消費者查詢的現(xiàn)有問題回答數(shù)據(jù)集以及HealthSearchQA——這是一個新的數(shù)據(jù)集，包含3173個在線搜索的醫(yī)學(xué)問題。通過這一基準來評估大語言模型回答醫(yī)學(xué)問題的真實性、在推理中使用專業(yè)知識、有用性、準確性、健康公平性和潛在危害。

表現(xiàn)令人鼓舞

研究團隊隨后評估了PaLM（5400億參數(shù)的大語言模型）及其變體Flan-PaLM。他們發(fā)現(xiàn)，在一些數(shù)據(jù)集中Flan-PaLM達到了最先進水平的表現(xiàn)。在整合美國醫(yī)師執(zhí)照考試類問題的MedQA數(shù)據(jù)集中，F(xiàn)lan-PaLM超過此前最先進的大語言模型達17%，達到了67.6%的準確率，達到了通過考試的標準（60%）。不過，雖然FLAN-PaLM的多選題成績優(yōu)良，進一步評估顯示，它在回答消費者的醫(yī)療問題方面存在差距。

為解決這一問題，研究團隊使用一種稱為設(shè)計指令微調(diào)（instruction prompt tuning）的方式進一步調(diào)試Flan-PaLM適應(yīng)醫(yī)學(xué)領(lǐng)域。設(shè)計指令微調(diào)是讓通用大語音模型適用新的專業(yè)領(lǐng)域的一種有效方法。

結(jié)果產(chǎn)生的新模型Med-PaLM在試行評估中表現(xiàn)令人鼓舞。例如，F(xiàn)lan-PaLM被一組醫(yī)師評分與科學(xué)共識一致程度僅61.9%的長回答，Med-PaLM的回答評分為92.6%，相當于醫(yī)師做出的回答（92.9%）。同樣地，F(xiàn)lan-PaLM有29.7%的回答被評為可能導(dǎo)致有害結(jié)果，Med-PaLM僅5.9%，相當于醫(yī)師所作回答（6.5%）。

升級版——Med-PaLM 2

值得一提的是，這篇在 Nature 論文中描述的 Med-PaLM 模型于2022年12月推出，而在今年5月份，谷歌在預(yù)印本平臺發(fā)表論文，推出了升級版的Med-PaLM 2。

論文中顯示，Med-PaLM 2是第一個在美國醫(yī)療執(zhí)照考試（USMLE）類問題上達到專家級表現(xiàn)的大語言模型，能夠正確回答多項選擇題和開放式問題，并對答案進行推理，準確率高達86.5%，大幅超越了Med-PaLM以及GPT3.5。

Med-PaLM 2根據(jù)14項標準進行了測試，包括科學(xué)事實、準確性、醫(yī)學(xué)共識、推理、偏見和危害，由來自不同背景和國家的臨床醫(yī)生和非臨床醫(yī)生進行評估。研究團隊還發(fā)現(xiàn)該模型在回答醫(yī)學(xué)問題方面仍存在一些差距，但并未具體說明，谷歌表示，進一步開發(fā)和改進該模型以解決這些差距，并了解大語言模型如何改善醫(yī)療保健。

據(jù)報道，Med-PaLM 2目前正在世界頂尖的醫(yī)療機構(gòu)梅奧醫(yī)學(xué)中心進行初步試驗。谷歌認為，這種模式在“看病機會有限”的國家尤其有用。他們還表示，在Med-PaLM 2試驗期間提交的用戶數(shù)據(jù)將被加密，谷歌無法訪問，并由用戶自己控制。

總的來說，Med-PaLM是一個強大的專精醫(yī)學(xué)領(lǐng)域的大語言模型，而設(shè)計指令微調(diào)是一種有效的數(shù)據(jù)和參數(shù)校準技術(shù)，能夠提高大語言模型的準確性、真實性、一致性、安全性，減少危害和偏差等因素，有助于縮小模型與臨床專家的差距，使這些模型更接近現(xiàn)實世界的臨床應(yīng)用。

參考資料：

https://www.nature.com/articles/s41586-023-06291-2

https://arxiv.org/pdf/2305.09617.pdf

https://the-decoder.com/google-is-testing-its-generative-medical-language-model-in-a-clinical-setting/

https://www.fiercebiotech.com/medtech/google-launches-medlm-generative-ai-models-healthcare-industry

本文著作權(quán)屬原創(chuàng)者所有，不代表本站立場。我們轉(zhuǎn)載此文出于傳播更多資訊之目的，如涉著作權(quán)事宜請聯(lián)系刪除。

muscle archives|九色综合狠狠综合久久|天天干天天操天天操天天插a片|韩国AV永久无码精品放毛片|