多模态大模型的通專融合評測

發布者：曹玲玲發布時間：2024-12-24浏覽次數：10

報告人：邵文琪青年科學家上海人工智能實驗室

主持人：胡宇韬

報告時間：2024年12月27日（周五）上午10：00

報告地點：bet356手机版唯一官网九龍湖校區計算機樓513報告廳

報告摘要：多模态大模型在各項任務上的性能突飛猛進，在以視覺語言對話為代表的多模态應用上取得了顯著進展。然而，多模态大模型是否具有足夠的泛化性，是否能超越一些專用模型，研究這些問題對指引模型發展具有重要意義。本報告将從通專融合的角度構建多模态大模型評測體系，從多任務的角度衡量模型的通用能力，從特色能力和應用能力衡量模型的專用性能，包括多圖理解、多輪對話、大海撈針等特色能力，以及醫療問答、GUI導航等特色應用。由此我們針對多模态大模型構建了在線對戰、多任務、多圖理解、多輪對話、長上下文、物理規律、醫療問答、GUI導航等系列評測框架與基準。通專融合的多模态評測結果表明：當前多模态大模型具備一定的通用能力，但在特色能力和下遊應用存在大幅提升空間。系列評測基準被QwenVL和InternVL等主流模型廣泛使用，推動了多模态大模型的發展。

報告人簡介：邵文琪，上海人工智能實驗室青年科學家，上海市海外高層次青年人才，他主要研究多模态大模型的訓練、評測、推理增強，取得了一系列有代表性和學術影響力的工作。他以主要作者身份在頂級期刊和會議上發表論文15篇，包括TPAMI，CVPR，ICML，NeurIPS，ICLR等，谷歌學術獲得了超過2000次引用。他開發的大語言模型量化算法OmniQuant被PrivateLLM應用商用至今，指導項目相關學生獲得騰訊犀牛鳥獎學金。