人工智能(Artificial Intelligence,AI)是人類開發(fā)出的,具有與人類似的智能的機器,也是互聯(lián)網(wǎng)熱點在近年來和醫(yī)療走得最近的一次。
有人擔心,太過「聰明」的機器會讓大量從事重復勞動的人「下崗」,比如目前在開發(fā)的影像或病理診斷 AI——這些開發(fā)者常常會用一些「比賽」來告訴大家,機器診斷的準確率比經(jīng)驗豐富的醫(yī)生還高。
沒必要太過擔心,這兒有 5 個理由。
AI 無法判斷適合用于診斷的樣本
不管文獻報道中 AI 診斷的準確率如何之高,也不管是乳腺癌、糖尿病還是皮膚癌,我們都不要忘記,AI 的學習過程中使用的訓練樣本(training set)和測試樣本(test set)都是由專家提供的 [1-3]。
尤其是用于寫文獻和發(fā)表成果的 test set ——它們已經(jīng)事先經(jīng)過人類醫(yī)學專家的審核,認為是適合用于目標領域疾病診斷的數(shù)據(jù)。但臨床病例要復雜的多。如果沒有事先確認,目前的 AI 自己根本不知道哪些切片應該用來進行乳腺癌淋巴結轉移診斷。
由于疾病診斷 AI 目前沒有公開使用的測試產(chǎn)品,不過,我們還有一個好玩兒的例子。
AppStore 有一款炙手可熱的花卉識別 App,采用了非常前沿的深度學習,真可謂是 AI 在日常生活中的小試牛刀,果斷下載體驗了一把。
為了測試 AI 的智商,我很腹黑地上傳了兩張跟花卉沒有關系的照片,一張是用粘土捏的圣誕花環(huán),另一張是一個日本買的手辦娃娃。
AI 非常自信地給出了判斷,分別是蟹爪蘭和蝴蝶蘭!
你是不是覺得很好笑?
這個程序可能對花卉的圖像識別效果很好,但是你發(fā)給她一張粘土照片或者手辦照片,她依然會給出一個花卉的結果。
選擇合適的數(shù)據(jù)是正確診斷的第一步,AI 輸在了起跑線上。
AI 無法診斷「沒見過」的疾病
AI 的診斷效果除了算法的影響,很大程度上還取決于用于 training 的數(shù)據(jù)。
我們暫且拋開大量 training 素材的可及性和倫理問題,相信這些問題的解決只是時間問題。
最重要的一點是 AI 無法診斷 training 中不包含的疾病類型,或者新的關聯(lián)類型。
比如,發(fā)病率比較低的疾病,這些疾病的檔案本來就很少,training 素材中可能沒有包含或者只有少數(shù)幾例。那么,AI 在實際診斷中就會發(fā)生誤判。
再比如,有些病征可能過去一直只跟疾病 A 相關,但最近出現(xiàn)這些病征跟疾病 B 相關的情況越來越多。這時,目前的 AI 依然只會按照過去學習到的規(guī)則來診斷。
AI 也許速度很快效率很高,但她非常死板,這絕不是一名優(yōu)秀的醫(yī)生應該具備的素質(zhì)。
不過,隨著技術發(fā)展和資本推動,中國的醫(yī)療 AI 研究必然會打破目前各種疾病診斷領域獨自開發(fā)的現(xiàn)狀,這也讓 AI 識別和選擇正確的數(shù)據(jù)成為可能。
停留在表面的 AI 診斷
AI 的診斷原理跟醫(yī)生有本質(zhì)區(qū)別,AI 經(jīng)常只是停留在表面,而醫(yī)生能夠深入本質(zhì)。
醫(yī)生的診斷并不是基于表面的圖形,圖形只是疾病的一種表象。但是,圖像識別 AI 是完完全全地基于這些表象,因為她沒有辦法理性思考。
真實的醫(yī)療過程中存在大量表面上很相似,但實質(zhì)上大相徑庭的案例,這就超出了 AI 的能力范圍。但可怕的是 AI 并不知道自己的能力邊界,她還是會機械地按照程序員寫好的代碼進行計算,并給出錯誤的結果。
在 Bejnordi et al.的研究中我們看到,人類醫(yī)生只要給予合理的時間,診斷的準確率和 AI 不相上下,但在醫(yī)療資源緊張、醫(yī)生負荷沉重的情況下(比如 2 小時鑒定 129 張病理切片)會有更高比例的病例被誤判為陰性,但不管時間是否充裕,人類醫(yī)生診斷的假陽性率始終是非常低的。而 AI 正好相反,雖然診斷的準確率比較理想,但假陽性率較高,并且算法容許更多假陽性時靈敏度更好 [1]。在 Litjens et al.的報道中,深度學習算法的靈敏度達到了 100%,但假陽性率也高達 40% [5]。
隨便舉個例子,比如,我上傳給花卉識別 AI 一張長筒花的照片,她其實并不認識長筒花,但因為長筒花跟非洲凌霄的花有些類似,所以她很自信地給出非洲凌霄的診斷結果。
長筒花被錯誤地識別成非洲凌霄
真的放心讓專注表象十年的 AI 給你看病嗎?
AI 無法根據(jù)實際調(diào)整診療方案
AI 在可以標準化或量化的數(shù)據(jù)處理中強于人類,但醫(yī)生看病并不僅僅是診斷這么簡單,醫(yī)生的目的是要把病人治好。
為了達到這個目的,醫(yī)生需要根據(jù)患者病情的發(fā)展,并發(fā)癥的情況,身體情況,經(jīng)濟條件給出最優(yōu)的治療方案,這個復雜的過程需要的不僅是專業(yè)知識,還有經(jīng)驗和智慧 [6]。
你也許會說 Alpha go 和 Zero 不是很有智慧嗎?那是因為圍棋只是一個游戲,規(guī)則清晰,地盤有限,計算機可以左右手互搏賺取經(jīng)驗。在真實世界里,醫(yī)療行業(yè)日新月異,影響醫(yī)療結果的因素眾多,受到新技術、新政策、疾病的分布變化等等因素的影響,有那么多「小白鼠」供 AI 練習嗎?我們甚至沒有一個能夠模擬人體在各種疾病和治療下會有如何改變的模擬器。
AI 能否在實際醫(yī)療場景中的提高醫(yī)療質(zhì)量,還有待更嚴謹?shù)那罢靶匝芯康淖C實。
AI 無法自己發(fā)現(xiàn)新的方法
最后一點也最為重要:醫(yī)學不是一成不變的科學,醫(yī)學每天都在進步,每天都在面臨新的挑戰(zhàn),診斷標準與診療方案也需要與時俱進。而 AI 不能自己給自己建立新的診斷標準,更不能從新的病例中發(fā)現(xiàn)新的方法。
AI 的強項在于數(shù)據(jù)的收集和分析,在有足夠多的醫(yī)療樣本后,AI 也許會對診療指南有自己的看法。
但是每個醫(yī)生都知道,新術式、新治療方案、新藥使用和嘗試,甚至是面對新的疾病,都是臨床實際工作中的一部分。在目前,推進醫(yī)學進步的重任唯有人類醫(yī)生可以擔當。
結束語
AI,愿你在這盛世能成為一名合格的仆從,幫助醫(yī)生完成一些簡單重復的勞動,讓我們的醫(yī)生不再那么辛苦,可以有更多的時間更充沛的精力來做重要的事情、幫助更多的患者!(責任編輯:劉冬宸)
本文作者王婧,劍橋大學博士后,丁香園大數(shù)據(jù)部高級分析師。
參考文獻:
1. Ehteshami Bejnordi B, Veta M, vanDiest PJ, et al; CAMELYON16 Consortium. Diagnostic assessment of deeplearning algorithms for detection of lymph node metastases in women with breastcancer. JAMA. 2017;318(22):2199-2210.
2. Esteva A, Kuprel B, Novoa RA, et al. Dermatologist-level classificationof skin cancer with deep neural networks. Nature. 2017;542(7639):115-118.
3. Gulshan V, Peng L, Coram M, et al. Development and validation of a deeplearning algorithm for detection of diabetic retinopathy in retinal fundusphotographs. JAMA.2016;316(22):2402-2410.
4.Golden JA. Deep Learning Algorithms for Detection of Lymph Node Metastases FromBreast Cancer. JAMA. 2017;318(22):2184-2186.
5. LitjensG, Sánchez CI, Timofeeva N, et al. Deep learning as a tool forincreased accuracy and efficiency of histopathological diagnosis. SciRep. 2016;6:26286.
6. ChenJH, Asch SM. Machine Learning and Prediction in Medicine - Beyond the Peak ofInflated Expectations. N Engl J Med. 2017 Jun 29;376(26):2507-2509.
聯(lián)系客服