人工智能在視覺與醫療領域的未來：多模态大語言模型在圖像感知、修複和醫療中的應用

發布者：曹玲玲發布時間：2024-12-19浏覽次數：10

報告人：胡枭偉博士上海人工智能實驗室

主持人：薛澄

報告時間：2024年12月23日（周一）下午14:00

報告地點：bet356手机版唯一官网九龍湖校區計算機樓513報告廳

報告摘要：随着多模态大語言模型（MLLMs）的崛起，人工智能在計算機視覺和醫療領域的飛速發展正重新定義這些領域的格局。這些模型通過整合多種模态，推動了圖像感知、修複以及醫療應用的突破性進展。本講座将探讨MLLMs如何利用基礎模型範式，結合數十億個參數和海量異質數據，将視覺中心任務統一納入自然語言框架中。關鍵創新包括開放世界的圖像理解、統一的視覺-語言模型、基于MLLM的圖像修複以及通用醫學診斷。通過将視覺任務與語言指令對齊，這些模型突破了傳統的限制，實現了用戶定義的操作、先進的視覺推理能力以及複雜的診斷功能。本講座還将探讨MLLMs如何變革視覺與醫療領域，為下一代人工智能系統的發展奠定堅實基礎。

報告人簡介：胡枭玮博士是上海人工智能實驗室的青年科學家，主要從事計算機視覺、低層次視覺、視覺感知、醫療人工智能和深度學習等領域的研究。他于香港中文大學取得計算機科學與工程博士學位，并在計算機視覺領域的頂級期刊和會議上發表了超過50篇學術論文，涵蓋IEEE TPAMI、CVPR和ICCV等重要刊物和會議。胡博士于2022-2024年被斯坦福大學評為全球前2%頂尖科學家，并入選國家高層次人才計劃青年項目。

導航

人工智能在視覺與醫療領域的未來：多模态大語言模型在圖像感知、修複和醫療中的應用