人工智能尤其是深度學習技術的成熟使得市場上出現了很多AI輔助診斷產品。人類基因組測序技術的革新、生物醫學分析技術的進步、以及大數據分析工具的出現,為病人提供更精準、高效、安全的診斷及治療。
自從2016年阿爾法狗在圍棋界全面戰勝人類智慧,人工智能會不會戰勝人類甚至取代人類的話題再次被擺在了風口浪尖。醫學領域作為人工智能應用的熱門領域也不可避免。一時間,AI與醫生似乎站在了一個尖銳的對立面。
IEEE Spectrum在2018新年伊始推出專刊“AI vs Doctors”,統計了從2016年5月至今,AI在醫療領域的進展,并對比各大細分領域AI與人類醫生能力差距。
下面,就帶你看看在過去的一年里研究團隊的重大突破,梳理一下在哪些疾病領域,AI已經可以與醫生媲美,又在哪些方面還力有未逮。

吳恩達團隊用CNN算法識別肺炎
僅在美國,每年就有超過100萬成年人因為肺炎住院,5萬人因為該病而死亡。
深度學習著名學者吳恩達和他在斯坦福大學的團隊一直在醫療方面努力。吳恩達團隊提出了一種名為CheXNet的新技術。研究人員表示:新技術已經在識別胸透照片中肺炎等疾病上的準確率上超越人類專業醫師。
算法被稱為CheXNet,它是一個121層的卷積神經網絡。該網絡在目前最大的開放式胸透照片數據集“ChestX-ray14”上進行訓練。ChestX-ray14數據集包含14種疾病的10萬張前視圖X-ray圖像。
CheXNet在使用胸透圖像識別肺炎任務上的表現超過放射科醫師的平均水平。在測試中,CheXNet與四名人類放射科醫師在敏感度(衡量正確識別陽性的能力)以及特異性(衡量正確識別陰性的能力)上進行比較。放射科醫生的個人表現以橙色點標記,平均值以綠色點標記。CheXNet輸出從胸透照片上檢測出的患肺炎概率,藍色曲線是分類閾值形成的。所有醫師的敏感度-特異性點均低于藍色曲線。
AI預測心臟病發作和中風
2017年5月發表在《公共科學圖書館期刊》(PLOS One)上的一篇論文中顯示,大約有一半的心臟病發作和中風發生在沒有被標記為“有危險”的人群中。
目前,評估病人風險的標準方法依賴于美國心臟協會和美國心臟病學會制定的指導方針。醫生們使用這些指導方針,將重點放在已確定的危險因素上,如高血壓、膽固醇、年齡、吸煙和糖尿病。
英國諾丁漢大學的研究人員創建了一個AI系統來收集病人的日常醫療數據,并預測在10年內他們中的哪些人會發生心臟病或中風。與標準預測方法相比,人工智能系統正確預測了355例患者的命運。
研究人員Stephen Weng和他的同事們在全英國378256名患者身上測試了幾種不同的機器學習工具。這些記錄追蹤了2005年至2015年患者及其健康狀況,并包含了人口統計學、醫療條件、處方藥物、醫院訪問、實驗室結果等信息。
研究人員將75%的醫療記錄錄入他們的機器學習模型中,以找出那些在10年時間內心臟病發作或中風患者的顯著特征。然后,Weng的小組對其余25%的記錄進行了測試,以確定他們預測心臟病和中風的準確程度。他們還測試了記錄子集的標準指南。
如果使用一個1.0表示100%準確度的統計數據,標準指南的得分為0.728。機器學習模型的范圍從0.745到0.764,最好的分數來自于一種叫做神經網絡的機器學習模型。
雖然機器評分聽起來可能不是一個徹頭徹尾的勝利,但用一串數字可以表明,AI在疾病預防方面所取得的優勢:神經網絡模型預測,在7404例實際病例中,有4998例患者心臟病發作或中風,超過標準指南355例方法。有了這些預測,醫生可以采取預防措施,例如開藥降低膽固醇。
AI掃描嬰兒腦部以預測自閉癥
2017年2月,北卡羅萊納大學教堂山分校的一個研究小組發現,6個月大的孩子的大腦生長變化與自閉癥有關。研究人員利用深度學習算法和數據來預測一個患自閉癥高風險的孩子在24個月后是否會被診斷出患有自閉癥。
該算法正確地預測了高危兒童的最終診斷結果:準確率為81%,敏感性為88%。相比之下,行為調查問卷對早期自閉癥的診斷準確率只有50%。算法使用了三個變量——大腦表面積、腦容量和性別(男孩比女孩更容易患自閉癥)——該算法識別出10個自閉癥患兒中的8個。
作為嬰兒腦成像研究的一部分,美國國家健康資助研究機構對自閉癥早期大腦發育進行了研究,該研究小組招收了106名有自閉癥家族史的嬰兒以及42名沒有自閉癥家族史的嬰兒。他們在6、12、24個月的時間里掃描每一個孩子的大腦。研究人員發現,在6到12個月的時間里,嬰兒的總體大腦發育沒有任何變化。但是在后來被診斷為自閉癥的高危兒童的大腦表面積有顯著的增加。換句話說,自閉癥兒童發育中的大腦首先在表面積上擴展了12個月,然后在整個體積中增加了24個月。
研究小組還在24個月的時間里對孩子進行了行為評估,那時他們已經足夠大了,可以開始展示自閉癥的標志性行為,如缺乏社交興趣、語言遲緩和肢體重復性動作。研究人員指出,大腦過度生長的程度越大,孩子的自閉癥癥狀就越嚴重。
盡管新發現證實了與自閉癥有關的大腦變化在生命早期就發生了,但研究人員并沒有就此止步。在UNC和查爾斯頓學院的計算機科學家們的合作下,研究小組建立了一種算法,并測試它是否能夠利用這些早期的大腦變化來預測哪些孩子日后會被診斷為自閉癥。
皮肉切割手術精準度,機器人優勢明顯
患者都希望在醫生進行外科手術時,能夠將對自己身體的傷害降到最低。最近的一系列實驗中,智能自主機器人STAR的發明者表明,它能比專家外科醫生執行更精確的切割,并且對周圍健康組織傷害更小。STAR此前曾成功地完成了一些令人印象深刻的手術壯舉。2016年,該系統將兩個部分的豬腸子縫合起來,比有經驗的外科醫生更有規律,更有防漏性。
STAR通過可視化地跟蹤其預定的切割路徑和切割工具,并不斷調整其調整計劃以適應移動。
在這種視覺跟蹤中,機器人依賴于其近紅外照相機上顯示的微小的標記,而這正是研究人員事先在組織上標記的位置。因此,研究人員將STAR稱為半自主機器人。
機器人和外科醫生都被要求剪出一條5厘米長的直線。因為外科醫生被訓練在已知的地標之間切割組織,所以在皮膚上畫了參考線。機器人和人類的判斷依據是它們偏離理想長度的理想切割線,以及在切口周圍有多少焦炭(受損的肉)。結果:機器人的切割長度更接近5厘米,焦炭也較少。
研究人員表示,下一步是訓練STAR處理具有復雜三維形狀的腫瘤,這將需要新的攝像機來進行視覺跟蹤和更復雜的外科規劃軟件。
深度學習幫助臨床醫生預測阿爾茨海默病
阿爾茨海默病沒有臨床試驗,因此醫生通過評估患者的認知能力下降來診斷。但對于輕度認知功能障礙(MCI)特別困難,即癥狀不明顯時癡呆的早期階段。而且更難預測哪些MCI患者會發展為阿爾茨海默病(并非所有的都是這樣)。
2017年6月,哈佛大學、馬薩諸塞州總醫院和華中科技大學的合作者設計了一個將fMRI腦部掃描與臨床數據相結合的程序來進行阿爾茨海默病的預測。他們在2017年5月在馬來西亞吉隆坡舉行的IEEE國際通信大會上介紹了尚未發表的工作。
經過初步測試,他們的深度學習計劃與特殊的fMRI數據集配對,比其他使用更基本的數據集的分類方法精確約20%。然而,當那些傳統的分類器也使用特殊的數據集時,它們在準確性上也有類似的提高。
目前,哈佛領導的團隊是第一批嘗試將fMRI掃描和深度學習結合到一個可以預測MCI患者患老年癡呆癥的機會的項目。他們的分析中使用的fMRI掃描是在病人休息時進行的。與任何fMRI掃描一樣,它們揭示了大腦中電信號閃爍的位置以及這些區域如何相互關聯。
他們以來自MCI患者的數據和阿爾茨海默氏病神經成像的101例正常患者開始。基于對參與者大腦內90個區域的130次功能性磁共振成像測量的時間序列,研究人員可以分辨出信號在一段時間內閃爍的位置。
接下來,在關鍵的一步,該小組處理這個數據集,以創建這些信號在大腦區域相對于彼此的強度的二次測量。換句話說,他們構建了功能連接圖,顯示了哪些區域和信號彼此關系最密切。
最后,團隊建立了一個深度學習計劃,可以解釋這些模式的強度,并結合有關年齡、性別和遺傳風險因素的臨床數據,預測一個人是否會發展為阿爾茨海默病。研究小組表示準確率可以達到90%。
IBM Watson在10分鐘內為腦癌患者制定治療計劃
在治療腦癌的過程中,時間是至關重要的。
在一項新的研究中,IBM沃森僅僅花了10分鐘就分析了一名腦癌患者的基因組,并提出了一項治療計劃,展示了人工智能藥物改善病人護理的潛力。盡管人類專家花了160個小時來制定一個類似的計劃,但這項研究的結果并不是機器對人類的全面勝利。
這個病人是一個76歲的老人,他去看醫生,抱怨頭痛和走路困難。腦部掃描發現了一個惡性的膠質母細胞瘤,這是外科醫生迅速操作的;然后,他接受了三周的放射治療,開始了漫長的化療過程。盡管得到了最好的照顧,他還是在一年內去世了。
盡管沃森和醫生都對病人的基因組進行了分析,提出了一種治療方案,但從他的手術中提取的組織樣本已經被測序,病人的身體已經衰退得太厲害了。
IBM沃森的關鍵特性是其自然語言處理能力。這意味著,沃森的基因組學可以通過目前醫學文獻上的2300萬篇期刊文章、臨床試驗的政府列表以及其他現有的數據來源,而無需重新格式化信息并使之易于學習。沃森的其他舉措也讓系統獲得了患者的電子健康記錄,但這些記錄并沒有納入這項研究。
研究人員將IBM Watson進行的基因組分析結果,與NYGC的醫學專家團隊進行比較,后者由治療腫瘤科醫師,神經腫瘤專家和生物信息學家組成。
IBM Watson和專家團隊都收到了病人的基因組信息,并確定了顯示突變的基因,通過醫學文獻查看這些突變是否已經在其他癌癥病例中發現,尋找藥物治療成功的報告,并檢查這位患者有資格參加的臨床試驗。不過,人類專家團隊做完這些,花了160個小時,而Watson則在10分鐘之內做完。
但是,Watson的解決方案是最快提出的,但可能不是最好的。NYGC的臨床醫生確定了兩個基因突變,綜合考慮后,醫生建議患者參加一個針對兩種組合藥物治療的臨床試驗。而如果當時病人的身體條件允許,那么他將被納入這個試驗。
但是,Watson沒有這樣綜合考慮這個信息,因此沒有建議進行臨床試驗。
先天性白內障診斷,AI與醫生勢均力敵
中山大學眼科醫生Haotian Lin與西安電子科技大學Xiyang Liu的研究小組合作,開發了一種能診斷先天性白內障的AI程序CC-Cruiser,利用深度學習算法,預測疾病的嚴重程度,并提出治療決策建議。
首先,在計算機模擬中,人工智能程序能夠區分病人和健康的個體,準確率達98.87%。在三個關鍵指標(晶狀體混濁面積、密度和位置)上,準確度都超過了93%。不僅如此,系統提供的治療建議的準確率,也達到了97.56%。
接下來,該小組進行了一項臨床試驗,使用了中國三家合作醫院的57張兒童眼睛圖像。CC-Cruiser表現良好:98.25%的識別精度;在所有三個嚴重因素中超過92%;治療建議的準確性為92.86%。
為了模擬真實世界的使用,他們直接將程序與個人眼科醫師進行了比較。一名專家、一名專家和一名專業眼科醫生,對50例臨床病例進行了面對面的診斷。計算機和醫生的表現可比性。該程序在醫院的試驗中錯誤地標記了一些病例,Lin希望一個更大的數據集可以改善它的性能。
該團隊計劃建立一個協作的云平臺,但Lin強調,該技術“不足”,無法確定最佳治療方案,準確率達到100%。“因此,醫生應該充分利用機器的建議來識別和防止潛在的錯誤分類,并補充他們自己的判斷。”
皮膚癌診斷,AI算法與人類醫生表現幾乎相同
2017年1月發表在《自然》雜志上的一項研究表示,斯坦福大學一個小組開發的算法識別皮膚癌的準確率與專業的人類醫生相當。
斯坦福大學在GoogleNet Inception v3的架構上建立了深度學習算法,這是一種卷積神經網絡算法。斯坦福大學的研究人員隨后對該算法進行了微調,收集了2000例不同皮膚癌病例的12.9萬張圖像,這是用于皮膚癌癥分類的最大數據集。
在這項研究中,該算法對21名有執照的皮膚科醫生進行了面對面的調查。醫生們檢查了數百張皮膚病變的圖像,確定他們是否會對其進行進一步的測試,或者向患者保證它是良性的。該算法回顧了相同的圖像并給出了診斷結果。AI的表現與專家一致。例如,該程序能夠區分角質細胞癌——最常見的人類皮膚癌癥——以及稱為脂溢性角化病的良性皮膚增生。
斯坦福大學的項目在為現實世界做好準備之前,需要接受更嚴格的案例。研究人員并沒有要求該算法區分,例如,seborrheic keratoses和黑色素瘤,這是很難做到的,Leachman說。
由于皮膚科醫生只能根據照片來作決定,所以目前還不清楚計算機是否能與他們在臨床設置方面的專業知識相匹配,他們可以在那里對病灶進行物理檢查,并閱讀病人的病史。“觸摸是有作用的,”Leachman說。
Leachman說,如果這個算法在現實世界中證明了自己,那么它就有一個巨大的優勢。她說,一種能夠篩檢這些病例的系統,可以讓真正需要醫生幫助的病人更快更有效地進行治療。
基于AI的顯微鏡能計算血液樣本中的瘧疾寄生蟲
2017年11月消息稱,一家中國制造商和由比爾·蓋茨支持的合資企業將宣布一種將顯微鏡商業化的計劃,該顯微鏡使用深度學習算法,在20分鐘內自動識別并計算血液涂片中的瘧原蟲。在蚊子傳播的疾病每年導致近50萬人死亡的時候,人工智能顯微鏡能夠加速診斷和標準化瘧疾的檢測。
這種由AI驅動的顯微鏡的實驗版本已經表明,它能夠很好地檢測到瘧疾寄生蟲,從而達到世界衛生組織的最高標準,即“能力等級1”。這一評級意味著它的性能與訓練有素的顯微鏡專家旗鼓相當,盡管研究人員指出,一些專家使用顯微鏡仍然可以勝過自動化系統。
這種顯微鏡可以證明特別有助于追蹤在東南亞傳播的耐多藥菌株的治療。“這種多藥耐藥性監測依賴于非常可靠的顯微鏡,以了解瘧疾藥物如何迅速減少血液中的寄生蟲數量,”全球優質基金的全球衛生技術主管David Bell說。“我們看到,機器學習可以在這個領域帶來更多的準確性和標準化,并允許各國更有效地實施監控。”
正在開發的EasyScan GO顯微鏡將結合明場顯微鏡技術和運行深度學習軟件的筆記本電腦,該軟件可以自動識別導致瘧疾的寄生蟲。人類實驗室的工作人員大多將注意力放在制備血液樣本的玻片上,在顯微鏡下觀察并驗證結果。
Intellectual Ventures在華盛頓貝爾維尤的首席研究員Ben Wilson表示,瘧疾寄生蟲為深度學習算法提出了一個棘手的“罕見的對象問題”,通常需要大量的訓練數據來準確地識別對象。微小的瘧疾寄生蟲可能只會出現在血涂片的數百個顯微鏡圖像中少數幾次,在感染水平非常低的情況下,10萬個紅細胞中可能只有一個瘧疾寄生蟲。
該解決方案需要將深度學習和用于分割圖像中感興趣事物的傳統計算機算法相結合。它還需要大量基于制備的顯微鏡載玻片的培訓數據。原型顯微鏡掃描每張幻燈片的速度大約與專家人類顯微鏡專家相當,每張幻燈片20分鐘。但Wilson預計最終能夠將掃描時間縮短一半,每張幻燈片只需10分鐘。
更重要的是,即使現有版本的顯微鏡可以補充有限數量的訓練有素的顯微鏡可用于確定瘧疾和追蹤多藥耐藥性瘧疾。 Motic公司的Nunnendorf說:“從本質上講,這是一個巨大的效率提升,而不是實驗室技術人員的機器人替代。
利用 AI 自動生成醫學影像報告
11月,由卡內基梅隆大學機器學習系副主任邢波教授創立的 Petuum 公司近期發表了幾篇論文,介紹了如何使用機器學習自動生成醫學影像報告,從而更好地輔助醫生做治療與診斷。
醫學影像在臨床實踐中被廣泛應用于診斷和治療。專業醫師閱讀醫學影響并撰寫文字報告來描述自己的發現。對于沒有經驗的醫生來說,撰寫報告很可能會出錯,對于人口眾多的國家的醫生來說,這樣的工作又耗時又枯燥。為了解決這些問題,邢波教授的團隊研究了醫學影像報告的自動生成,作為人類醫生更準確高效地生成報告的輔助工具。
為了應對這些挑戰,邢波的團隊建立了一個多任務學習框架,共同執行標簽的預測和段落的生成;提出一個共同注意機制(co-attention mechanism),將包含異常的區域標注出來;利用一個層次LSTM模型來產生長的段落。
邢波的研究團隊認為,他們工作的主要貢獻是:提出了一個多任務學習框架,可以同時預測標簽和生成文本描述;引入一個用于定位異常區域的共同注意機制,并生成相應的描述;建立一個分層的LSTM來產生長句和段落;進行大量的定性和定量的實驗,以顯示實驗方法的有效性。
利用深度學習技術預測出院用藥
繼利用AI自動生成醫學影像報告之后,邢波團隊隨后又出新成果,研究如何使用深度學習技術來協助醫生根據病人就診記錄中的健康信息來預測其出院用藥。他們設計了一種卷積神經網絡來分析就診記錄,然后預測病人在出院時的用藥。
該模型可以從非結構化和有噪聲的文本中提取語義表征,并能自動學習不同藥物之間的藥理相關性。團隊在 2.5 萬份病人就診記錄上對該模型進行了評估,并與 4 種基準模型進行了比較。在宏平均 F1 分數上,該方法相對于最好的基準模型有 20% 的提升。
該模型的輸入為就診記錄,輸出是病人的出院用藥(一種或多種)。該模型具備兩種功能:能有效地從有噪聲的和非結構化的原始文本中提取高層次的語義并能適當地考慮連續詞匯之間的序列結構;其次,該模型能學習不同藥物之間的藥理相關性。
邢波團隊發現,只有使用入院時可用的信息才能準確預測出院藥物。這樣的預測可以為醫生提供有價值的信息來制定治療計劃。在8種藥物中,CNN模型達到0.63的(微觀平均)精確度,召回率為0.70。團隊研究人員也表示,解決方案的靈感是從一個特定的任務中得來的,但它也可能成為其他臨床預測任務的通用方案。例如,通過將目標標簽從藥物轉移到疾病,CNN就可以被用于輔助診斷。
結語
我們必須承認, AI帶來的變革,類似于幾個世紀前蒸汽機工業革命對社會各個方面帶來的巨大的影響,不僅僅一個行業,對全社會的體系都影響深遠。隨著人工智能時代的到來,醫療產業同樣面臨著挑戰與機遇并存的局面。
AI在顛覆我們傳統醫療觀念的同時,也在積極構建我們對現代醫療的概念和憧憬。更重要的是,醫生也在盡他們所能,為人類的醫療事業繼續謀福音。
AI vs Doctors,就像兩位武林高手一樣,其實結果并不重要。








