《中國新聞周刊》記者:牛荷
發(fā)于2025.3.17總第1179期《中國新聞周刊》雜志
2月13日下午,醫(yī)院會診室內(nèi),13位北京兒童醫(yī)院知名專家圍坐在會議桌一側(cè),神情專注。與這些頂級專家一同會診的,還有國內(nèi)首位AI兒科醫(yī)生。
一塊屏幕上實時展示著一名疑難病例患兒腦部的磁共振成像影像,隨著工作人員將患兒病歷及相關(guān)影像資料等輸入電腦,另一塊屏幕上同步呈現(xiàn)著AI兒科醫(yī)生對患兒診療的深度思考,最終,AI給出的建議與現(xiàn)場專家們的會診結(jié)果高度吻合。
這次會診由北京兒童醫(yī)院院長、耳鼻咽喉頭頸外科專家倪鑫主持,倪鑫告訴《中國新聞周刊》,“大家當時看到結(jié)果都很驚訝”。如今,每周四,倪鑫都會主持有AI兒科醫(yī)生參與的專家會診,對5—10名患兒的病情全方位討論。
AI正加速邁向臨床應(yīng)用。在DeepSeek等AI大模型的推動下,醫(yī)療行業(yè)的智能化進程在加快。據(jù)不完全統(tǒng)計,全國已有超過100家醫(yī)院完成DeepSeek的本地部署。
AI醫(yī)生真的靠譜嗎?它能否取代人類醫(yī)生?這場醫(yī)療革命的浪潮中,技術(shù)創(chuàng)新、倫理挑戰(zhàn)與監(jiān)管體系的博弈,才剛剛開始。
AI加速涌入醫(yī)院
DeepSeek的影響力,已蔓延到了門診患者中。
2月27日,倪鑫主持了第三次AI兒科醫(yī)生參與的專家會診。一名來自重慶的5歲女孩因意外摔倒,鼻子出現(xiàn)嚴重紅腫并頻繁出血,在多家醫(yī)院就診未果。由于病情復雜,倪鑫當場未能做出最終診斷,但建議孩子服用一款免疫治療藥物。讓他印象深刻的是,會診結(jié)束時,患兒母親拿出了一張A4紙給他看,上面是她向DeepSeek咨詢的問診記錄。“過去,患者看病時,通常會帶著不同醫(yī)院的診斷和病歷資料!
復旦大學附屬華山醫(yī)院(以下簡稱“華山醫(yī)院”)神經(jīng)內(nèi)科主任醫(yī)師郁金泰對《中國新聞周刊》表示,DeepSeek可看作是患者自查工具的“升級版”。過去,人們看病前可能會用百度搜索相關(guān)信息,而現(xiàn)在DeepSeek等提供了更系統(tǒng)化的建議。
如今,醫(yī)療AI大模型正如雨后春筍般涌現(xiàn)。
幾乎每天都有醫(yī)院宣布在DeepSeek基礎(chǔ)上部署AI大模型,或公布與企業(yè)合作研發(fā)的垂直AI大模型。北京兒童醫(yī)院的AI兒科醫(yī)生便是后者,該大模型由北京兒童醫(yī)院聯(lián)合北京百川智能科技有限公司(以下簡稱“百川智能”)等共同研發(fā)。
去年8月,北京兒童醫(yī)院和百川智能正式官宣合作,計劃推出五款AI醫(yī)療產(chǎn)品。其中,參與疑難雜癥會診的AI兒科醫(yī)生屬于“兒童醫(yī)學專家臨床科研助理”。
百川智能創(chuàng)始人王小川第一天創(chuàng)立百川時,就想“造醫(yī)生”,即打造具備專業(yè)診療能力的AI醫(yī)生。在國內(nèi)的兒科醫(yī)療領(lǐng)域,醫(yī)生數(shù)量嚴重缺乏。據(jù)國家衛(wèi)生健康委2024年6月份發(fā)布的數(shù)據(jù),目前全國兒科醫(yī)師數(shù)量僅為20.58萬人。去年2月,一次長達兩小時的深入交流中,就AI兒科醫(yī)生的項目,北京兒童醫(yī)院和百川智能一拍即合。
“AI大模型就像在‘造人’,它能夠模擬人類的思維方式!卑俅ㄖ悄茚t(yī)療副總裁李施政對《中國新聞周刊》表示,最開始百川智能提及的是要“造醫(yī)生助手”。結(jié)果,倪鑫主動提出“要造100萬個兒科醫(yī)生”!暗谝淮蜛I兒科醫(yī)生會診結(jié)束后,當時北京至少有五六家醫(yī)院主動聯(lián)系,考慮在未來引入類似技術(shù)!蹦喏伪硎尽
春節(jié)前后,DeepSeek的爆火推動了AI大模型的迅猛發(fā)展。華山醫(yī)院大數(shù)據(jù)中心主任黃虹告訴《中國新聞周刊》,實際上,DeepSeek問世前,醫(yī)院已在嘗試部署其他AI大模型。為了降低成本,華山醫(yī)院并未自行采購算力服務(wù)器,而是選擇租用其他平臺的算力資源,接入醫(yī)院內(nèi)網(wǎng)進行測試。
華山醫(yī)院大數(shù)據(jù)中心副主任程思杰告訴《中國新聞周刊》,醫(yī)院完成DeepSeek的接入與硬件部署,僅用了幾天。選擇AI大模型時,除了性能,性價比同樣是關(guān)鍵考量因素。成本方面,DeepSeek70B版本的硬件成本約為130萬元,滿血版大模型則需要260萬—560萬元,硬件成本主要是指算力服務(wù)器的費用!敖尤隓eepSeek只是第一步,真正的挑戰(zhàn)是如何讓它滿足醫(yī)療級應(yīng)用標準。”
目前,除了北京兒童醫(yī)院、華山醫(yī)院,全國多家知名三甲醫(yī)院都在積極部署AI大模型。西部某省會城市,一家三甲醫(yī)院外科主任醫(yī)師趙霖正牽頭推進醫(yī)院的DeepSeek本地大模型部署。趙霖表示,由于DeepSeek是開源免費的,便于醫(yī)院根據(jù)自身需求本地化調(diào)整。目前,團隊正在驗證AI的學習能力,通過輸入權(quán)威指南、臨床共識以及患者病歷,訓練AI分析和判斷病情的能力。盡管AI系統(tǒng)的框架已初步搭建完成,但仍在持續(xù)優(yōu)化。
AI幻覺無法避免
在華山醫(yī)院,AI大模型的內(nèi)部測試已覆蓋科研、臨床等多個應(yīng)用場景。
“過去,建立一個包含1000個不同數(shù)據(jù)項的臨床研究電子數(shù)據(jù)庫,需要研究者和數(shù)據(jù)庫設(shè)計師反復溝通,才能生成一個可以在線運行的數(shù)據(jù)庫。如今在AI的輔助下,利用大模型的理解能力,這項工作僅需一兩天就能完成!比A山醫(yī)院大數(shù)據(jù)中心副主任劉從進告訴《中國新聞周刊》。
除了輔助醫(yī)生提供診療建議,AI的一個主要應(yīng)用場景是,在醫(yī)生接診前自動收集和整理患者病歷。華山醫(yī)院大數(shù)據(jù)中心一位相關(guān)負責人告訴《中國新聞周刊》,目前醫(yī)院內(nèi)部運行著多個AI大模型版本:7B模型相當于小學生,32B模型相當于中學生,滿血版則達到了研究生水平。然而,測試發(fā)現(xiàn),在生成病歷等復雜臨床任務(wù)中,雖然滿血版模型參數(shù)量更大,但由于無法進行特定微調(diào),實際表現(xiàn)反而不如小模型。
“病歷撰寫是一項要求較高的任務(wù),尤其是電子病歷的生成,必須確保準確性。因此,AI大模型必須經(jīng)過嚴格測試后,才能在醫(yī)院投入使用!背趟冀鼙硎,目前醫(yī)院正在試點融合DeepSeek大模型的不同版本,測試其生成電子病歷的能力。不過,AI生成的電子病歷仍需醫(yī)生審核校驗,確保其最終質(zhì)量和安全性。
AI的輸出結(jié)果主要基于統(tǒng)計數(shù)據(jù)。更關(guān)鍵的一個問題是:AI幻覺似乎是難以避免的。所謂幻覺,是指大模型在回答問題時編造信息。
華中科技大學同濟醫(yī)學院附屬同濟醫(yī)院感染科副主任醫(yī)師郭威告訴《中國新聞周刊》,目前AI大模型在臨床上的輔助應(yīng)用尚未廣泛推廣。臨床使用中,AI偶爾會出現(xiàn)一些令人啼笑皆非的錯誤。他舉例說,影像學的變化非常復雜,有時所看到的可能是無診斷價值的“干擾信號”,而AI有時會將其判斷為病變!斑@也是AI技術(shù)訓練中一個值得重視的問題!
趙霖也經(jīng)歷了DeepSeek的AI幻覺。前段時間,由于本科教材更新,他在為學生準備外科課程時,讓DeepSeek協(xié)助制作PPT,結(jié)果發(fā)現(xiàn)它開始編造內(nèi)容,包括杜撰醫(yī)學名詞出處、虛構(gòu)參考文獻等。他由此產(chǎn)生了疑問:如果AI用于醫(yī)學輔助決策,如何確保它推薦的方案是基于真實指南,而不是憑空捏造的?這背后可能會存在嚴重的醫(yī)療風險。
南非頂尖公立研究型大學斯泰倫博斯大學精神病學榮休教授羅賓·埃姆斯利使用ChatGPT時,曾多次遇到過AI幻覺。他在接受《中國新聞周刊》采訪時談道,AI幻覺是他目前最為擔憂的問題。“AI大模型在臨床實踐中面臨的最大問題,是其生成準確可靠信息的能力存在缺陷。”
幻覺通常會被AI自信地呈現(xiàn),使得它們有時難以被察覺。醫(yī)療領(lǐng)域,任何錯誤都不可容忍,哪怕是一個微小的失誤,也可能危及患者的生命安全。
幻覺的產(chǎn)生,與模型的訓練內(nèi)容密切相關(guān)。郁金泰對《中國新聞周刊》表示,AI的可靠性取決于輸入數(shù)據(jù)的準確性和專業(yè)性。如果輸入的信息有誤,輸出的結(jié)果同樣會存在偏差。
李施政指出,雖然AI模型出錯較為常見,但在醫(yī)療領(lǐng)域,錯誤必須嚴格控制,尤其在用藥建議環(huán)節(jié)。為確保錯誤率遠低于人類醫(yī)生,AI醫(yī)生的工作必須嚴格遵循循證醫(yī)學原則,即所有決策都必須基于科學證據(jù),包括權(quán)威指南、頂級專家經(jīng)驗和最新研究成果。
“減少幻覺出現(xiàn)的關(guān)鍵在于,大模型研發(fā)初期,必須嚴格把控數(shù)據(jù)的唯一性和準確性。”倪鑫認為,并非所有醫(yī)院提供的病歷信息等數(shù)據(jù),都適合直接用于研究。AI兒科醫(yī)生模型訓練時,使用的數(shù)據(jù)是整合醫(yī)院300多位知名兒科專家的臨床經(jīng)驗和專家數(shù)十年的高質(zhì)量病歷數(shù)據(jù)。輔助臨床診斷前,AI兒科醫(yī)生曾參與四次測試,既包括專業(yè)能力測試,也包括對幻覺的測試;糜X測試方面,與DeepSeek做了對比,結(jié)果發(fā)現(xiàn)AI兒科醫(yī)生模型的幻覺率更低!癉eepSeek是一個通用模型,雖然它非常強大,但并不專注于醫(yī)療健康領(lǐng)域。而AI醫(yī)生是專門為醫(yī)療設(shè)計的專業(yè)模型,因此,它的表現(xiàn)更為精準!
臨床上,如果醫(yī)生依據(jù)AI建議而最終發(fā)生醫(yī)療事故,其中的責任該由誰來承擔?北京中醫(yī)藥大學醫(yī)藥衛(wèi)生法學教授鄧勇向《中國新聞周刊》分析,責任應(yīng)根據(jù)醫(yī)生、醫(yī)院和AI系統(tǒng)開發(fā)者的不同義務(wù)來判斷:如果醫(yī)生在采納AI建議時未進行必要的核實,或未對明顯不合理的建議提出質(zhì)疑,則應(yīng)承擔相應(yīng)責任;醫(yī)院在引入AI系統(tǒng)時,若未充分評估和驗證系統(tǒng)的可靠性,或未對醫(yī)務(wù)人員進行有效的培訓和監(jiān)督,同樣需要承擔責任;如果因AI系統(tǒng)存在設(shè)計缺陷或算法錯誤而導致錯誤建議,進而引發(fā)事故,開發(fā)者則應(yīng)承擔責任;如果開發(fā)者未能充分說明系統(tǒng)的局限性和潛在風險,也應(yīng)承擔一定責任。
醫(yī)生會被替代嗎?
郭威注意到,盡管身邊大多數(shù)醫(yī)生對AI大模型等新技術(shù)持積極態(tài)度,但醫(yī)生們也會討論哪些科室的醫(yī)生可能最先會被AI取代。他分析,涉及診斷影像的醫(yī)生可能面臨更大的被替代風險。例如,AI輔助的X光片和胸部CT閱片,能夠發(fā)現(xiàn)許多肉眼難以察覺的小結(jié)節(jié)。隨著AI技術(shù)的不斷進步,影像科醫(yī)生的工作將更多轉(zhuǎn)向輔助和審查,而不再需要處理大量的常規(guī)影像。
“有些人擔心AI醫(yī)生的出現(xiàn),會導致一些醫(yī)生失業(yè),這不會發(fā)生在兒科醫(yī)生中!蹦喏伪硎荆瑑嚎漆t(yī)生一直處于緊缺狀態(tài),AI醫(yī)生與人類醫(yī)生是相互支持的關(guān)系,AI更多是輔助醫(yī)生,而非取代他們。
不少一線臨床醫(yī)生擁抱AI的同時,也保持著冷靜。來自感染科、神經(jīng)內(nèi)科、外科等科室的多名臨床醫(yī)生向《中國新聞周刊》表示,目前AI在臨床中的作用主要是輔助,無法替代醫(yī)生的決策。北京大學第一醫(yī)院神經(jīng)內(nèi)科主任醫(yī)師孫永安對《中國新聞周刊》表示,盡管AI在分析和整合現(xiàn)有數(shù)據(jù)方面表現(xiàn)出色,但它缺乏真正的創(chuàng)新能力,無法獨立探索未知領(lǐng)域。而醫(yī)學的進步往往來源于突破性的創(chuàng)新。
“無論技術(shù)多先進,AI始終難以替代醫(yī)生的深度思考和即時應(yīng)變。”武漢一家部署DeepSeek的三甲醫(yī)院急診科醫(yī)生魏明告訴《中國新聞周刊》,急診科有時也需要對患者進行淋巴結(jié)活檢。例如,在頸部進行淋巴結(jié)活檢時,影像上顯示的病變可能靠近血管,手術(shù)過程中,醫(yī)生必須親自觀察并判斷,精細分離淋巴結(jié),同時防止出血。即使AI能標出大致病灶位置,如何避開關(guān)鍵結(jié)構(gòu)、確保安全切除,仍需醫(yī)生根據(jù)病人具體情況作出判斷。醫(yī)生仍然是最終的決策者。
郁金泰表示,醫(yī)生不僅具備專業(yè)背景,還能基于臨床經(jīng)驗綜合判斷病情,這正是AI無法完全取代醫(yī)生的核心所在。
此前的疑難雜癥會診中,曾有一個讓倪鑫印象深刻的患兒病例。當時AI兒科醫(yī)生給出的建議是,要給病人做病理穿刺,但倪鑫最終決定不做!皬挠跋駥W的角度來看,我和AI的判斷基本一致,都認為該患兒患的是皮樣囊腫。這種病是上皮組織不斷脫落、堆積后形成的囊腫,算一種先天性病變,但非惡性。這種情況下,我認為沒有必要做有風險的穿刺,而且穿刺并不會帶來更多有價值的信息!蹦喏握J為,AI的分析是基于大數(shù)據(jù)的,邏輯非常縝密,認為穿刺病理能提供更確切的答案,這個建議并不算錯。
避免盲目跟風
AI在醫(yī)療領(lǐng)域的發(fā)展,不會停下腳步!100萬個兒科醫(yī)生,這個目標聽起來宏大,但現(xiàn)在已經(jīng)基本實現(xiàn)了。我們的大模型理論上可以誕生成千上萬的AI兒科醫(yī)生!蹦喏握劦,河北當?shù)赜?50多家基層醫(yī)院,希望能成為AI兒科醫(yī)生的首批試點。北京兒童醫(yī)院和百川智能計劃先在京津冀地區(qū)的醫(yī)院進行試點,再將AI兒科醫(yī)生推廣到全國各地。
黃虹表示,DeepSeek只是眾多大模型中的一種,而大模型本身并非固定不變。從醫(yī)院角度看,未來不僅關(guān)注單一模型的應(yīng)用,而且要思考如何整合多種大模型,以便為不同領(lǐng)域提供精準支持。“未來的AI醫(yī)療可能是‘千模融合’!
除了醫(yī)院自身搭建的AI大模型,虛擬的AI醫(yī)院正嘗試走向臨床。清華智能研究院執(zhí)行院長劉洋領(lǐng)導了一項有關(guān)智能體醫(yī)院(Agent Hospital)的研究,這項研究目前只在預印版網(wǎng)站上發(fā)布。劉洋是該研究的通訊作者之一。智能體醫(yī)院的核心理念,是通過建立一個“閉環(huán)式”的醫(yī)療虛擬世界,實現(xiàn)AI醫(yī)生的加速進化。所謂閉環(huán)式,是指涵蓋從發(fā)病、分診、問診到康復的一系列醫(yī)療環(huán)節(jié),AI醫(yī)生可以根據(jù)這些反饋不斷總結(jié)并優(yōu)化自身的能力。
去年11月,智能體醫(yī)院的首批42位AI醫(yī)生在21個科室上線進行內(nèi)測,支持超過300種疾病的診療!爸悄荏w是在大模型基礎(chǔ)上的進一步發(fā)展,因為它能夠讓AI像人類一樣,在復雜環(huán)境中進行交互、使用工具并與他人協(xié)作!眲⒀蟊硎,未來的目標是構(gòu)建一個能與現(xiàn)實世界無縫對接的智能醫(yī)療體系,隨著VR等技術(shù)的進步,未來的醫(yī)療交互不僅僅局限于2D界面操作,而可能進入更加立體的3D空間。
據(jù)趙霖了解,很多醫(yī)院開展的AI大模型項目,目前還處于驗證和測試階段,現(xiàn)階段真正落地臨床,并發(fā)揮作用的比例并不高。在他看來,目前國內(nèi)不少醫(yī)院面臨著較大的生存壓力,不乏有醫(yī)院為了追求熱點、提升影響力,紛紛接入DeepSeek等AI工具,這甚至推高了配置GPU的服務(wù)器的價格。但最終轉(zhuǎn)化為實際應(yīng)用,還是流于形式,目前仍是未知數(shù)。未來,可能只有少數(shù)高質(zhì)量的大模型項目能得以存活。
郭威也持審慎態(tài)度。他指出,眼下各家醫(yī)院蜂擁而上,這種“湊熱鬧”的方式,其實更多是出于一種“怕落后”的心理,而非真正基于技術(shù)和臨床需求的深入研究。黃虹認為,醫(yī)院在接入AI大模型的過程中,要充分考慮安全、成本、適用性等多方面因素。對于大多數(shù)醫(yī)院而言,如何確保資金投入到核心業(yè)務(wù)中,是必須考慮的問題。
鄧勇指出,當下,醫(yī)療領(lǐng)域的AI大模型缺乏行業(yè)標準,這會導致不同機構(gòu)的大模型在數(shù)據(jù)采集、標注和算法設(shè)計等方面存在差異,這不僅影響了系統(tǒng)的通用性和操作性,還可能增加監(jiān)管難度,進而影響醫(yī)療質(zhì)量和安全。因此,制定統(tǒng)一的標準尤為迫切。
“AI醫(yī)療的發(fā)展不能一哄而上,只有科學規(guī)劃、穩(wěn)步推進,才能真正發(fā)揮其價值!鄙虾J行l(wèi)生和健康發(fā)展研究中心主任金春林接受《中國新聞周刊》采訪時表示,盡管當前AI大模型在醫(yī)療行業(yè)的熱度很高,但應(yīng)避免盲目跟風。他建議,首先要確保數(shù)據(jù)安全,強化隱私保護,進而推動行業(yè)的有序發(fā)展,同時還應(yīng)建立真正的多中心大數(shù)據(jù)體系,由多個醫(yī)療機構(gòu)或研究中心共同參與,按照統(tǒng)一的研究設(shè)計和標準,協(xié)同收集、整合、存儲和分析醫(yī)療大數(shù)據(jù),避免重復建設(shè)。
金屬瞳孔
在核磁共振中游弋
算法編織的網(wǎng)
漏過幾;糜
當人類掌心的溫度
與光譜下生長的
答案重疊
指紋懸停在免責聲明上方
(此詩由DeepSeek結(jié)合本文內(nèi)容創(chuàng)作)
(文中趙霖、魏明均為化名)
《中國新聞周刊》2025年第9期
聲明:刊用《中國新聞周刊》稿件務(wù)經(jīng)書面授權(quán)