報告人:邵文琪 青年科學家 上海人工智能實驗室
主持人:胡宇韬
報告時間:2024年12月27日(周五)上午10:00
報告地點:bet356手机版唯一官网九龍湖校區計算機樓513報告廳
報告摘要:多模态大模型在各項任務上的性能突飛猛進,在以視覺語言對話為代表的多模态應用上取得了顯著進展。然而,多模态大模型是否具有足夠的泛化性,是否能超越一些專用模型,研究這些問題對指引模型發展具有重要意義。本報告将從通專融合的角度構建多模态大模型評測體系,從多任務的角度衡量模型的通用能力,從特色能力和應用能力衡量模型的專用性能,包括多圖理解、多輪對話、大海撈針等特色能力,以及醫療問答、GUI導航等特色應用。由此我們針對多模态大模型構建了在線對戰、多任務、多圖理解、多輪對話、長上下文、物理規律、醫療問答、GUI導航等系列評測框架與基準。通專融合的多模态評測結果表明:當前多模态大模型具備一定的通用能力,但在特色能力和下遊應用存在大幅提升空間。系列評測基準被QwenVL和InternVL等主流模型廣泛使用,推動了多模态大模型的發展。
報告人簡介:邵文琪,上海人工智能實驗室青年科學家,上海市海外高層次青年人才,他主要研究多模态大模型的訓練、評測、推理增強,取得了一系列有代表性和學術影響力的工作。他以主要作者身份在頂級期刊和會議上發表論文15篇,包括TPAMI,CVPR,ICML,NeurIPS,ICLR等,谷歌學術獲得了超過2000次引用。他開發的大語言模型量化算法OmniQuant被PrivateLLM應用商用至今,指導項目相關學生獲得騰訊犀牛鳥獎學金。