日前微軟研究人員展示了LLaVA-Med模型,該模型主要用于生物醫學方面的研究,可根據CT、X光圖片等推測出患者的病理狀況。

▲圖源微軟
據悉,微軟研究人員與一批醫院合作,獲得了使用生物醫學圖像文本對應大型數據集來訓練多模態AI模型。該數據集包括胸部X光、MRI、組織學、病理學和CT圖像等,覆蓋范圍相對全面。

▲圖源微軟
微軟使用GPT-4,基于Vision Transformer和Vicuna語言模型,在八個英偉達A100 GPU上對LLaVA-Med進行訓練,其中包含“每個圖像的所有預分析信息”,用于生成有關圖像的問答,以滿足“可自然語言回答有關生物醫學圖像問題”的助手愿景。
在學習過程中,模型主要圍繞“描述此類圖像的內容”以及“闡述生物醫學概念(IT之家注:從圖片中判斷是什么樣的)”而展開。據微軟稱,該模型最終具有“出色的多模式對話能力”、“在用于回答視覺問題的三個標準生物醫學數據集上,LLaVA-Med在部分指標上領先于業界其他先進模型”。
研究團隊表示:“雖然我們認為LLaVA-Med模型代表了朝著構建有用的生物醫學視覺助手邁出的重要一步,但當下LLaVA-Med模型還存在一定的不足之處,即大模型常見的虛假舉例和準確度不佳的問題,研究團隊未來將側重于提高模型的質量和可靠性,以令模型有朝一日可以在商業生物醫學中應用。”
IT之家注意到,目前該模型已經開源,大家可以在GitHub找到相關信息。







