久久精品国产精品青草色艺_www.一区_国内精品免费久久久久妲己_免费的性爱视频

字節與浙大聯合推多模態大語言模型Vista-LLaMA 可解讀視頻內容?

Vista-LLaMA 在處理長視頻內容方面的顯著優勢,為視頻分析領域帶來了新的解決框架。

近年來,大型語言模型如 GPT、GLM 和 LLaMA 等在自然語言處理領域取得了顯著進展,基于深度學習技術能夠理解和生成復雜的文本內容。然而,將這些能力擴展到視頻內容理解領域則是一個全新的挑戰 —— 視頻不僅包含豐富多變的視覺信息,還涉及時間序列的動態變化,這使得大語言模型從視頻中提取信息變得更為復雜。

面對這一挑戰,字節跳動聯合浙江大學提出了能夠輸出可靠視頻描述的多模態大語言模型 Vista-LLaMA。Vista-LLaMA 專門針對視頻內容的復雜性設計,能夠有效地將視頻幀轉換為準確的語言描述,從而極大地提高了視頻內容分析和生成的質量。

  

字節與浙大聯合推多模態大語言模型Vista-LLaMA 可解讀視頻內容?

論文主頁:https://jinxxian.github.io/Vista-LLaMA/

  

字節與浙大聯合推多模態大語言模型Vista-LLaMA 可解讀視頻內容?

圖 1

技術創新路徑

現有多模態視覺與語言模型在處理視頻內容時,通常將視頻幀轉化為一系列的視覺 token,并與語言 token 結合以生成文本。然而,隨著生成文本長度的增加,視頻內容的影響往往逐漸減弱,導致生成的文本越來越多地偏離原視頻內容,產生所謂的 “幻覺” 現象。

Vista-LLaMA 通過創新的方式處理視頻和文本間的復雜互動,突破了傳統視頻語言模型的限制。Vista-LLaMA 的核心創新在于其獨特的視覺與語言 token 處理方式。不同于其他模型,它通過維持視覺和語言 token 間的均等距離,有效避免了文本生成中的偏差,尤其是在長文本中更為顯著。這種方法大幅提高了模型對視頻內容的理解深度和準確性。

  

字節與浙大聯合推多模態大語言模型Vista-LLaMA 可解讀視頻內容?

圖 2

Vista-LLaMA 采用了一種改良的注意力機制 —— 視覺等距離 token 注意力(EDVT),它在處理視覺與文本 token 時去除了傳統的相對位置編碼,同時保留了文本與文本之間的相對位置編碼。EDVT 機制通過特定的函數處理隱藏層輸入,有效區分視覺 token 來源。

  

字節與浙大聯合推多模態大語言模型Vista-LLaMA 可解讀視頻內容?

具體而言,它首先對輸入進行查詢、鍵和值的映射轉換,接著對查詢和鍵輸入應用旋轉位置編碼(RoPE),分別計算帶 RoPE 和不帶 RoPE 的注意力權重。隨后,根據視覺 token 的存在與否合并這兩種注意力權重,通過 softmax 函數實現注意力的歸一化,并最終通過基于注意力權重的線性映射更新表示,生成輸出結果。這種創新使得多模態大語言模型能夠更加關注視頻的內容,尤其在復雜的視頻場景中,能夠有效地捕捉關鍵視覺元素,提升了文本生成的質量和相關性。

  

字節與浙大聯合推多模態大語言模型Vista-LLaMA 可解讀視頻內容?

圖 3

同時,該模型引入的序列化視覺投影器為視頻中的時間序列分析提供了新的視角,它不僅能夠處理當前視頻幀,還能利用前一幀的信息,從而增強視頻內容的連貫性和時序邏輯。

視覺投影器的作用是將視頻特征映射到語言嵌入空間,以便大型語言模型融合和處理視覺與文本輸入。如圖 4 所示,早期的視覺投影器通常使用線性層或查詢轉換器(Q-Former)直接將幀特征轉換為語言 token。然而,這些方法忽略了時間關系,限制了語言模型對視頻的全面理解。Vista-LLaMA 中引入了序列化視覺投影器,它通過線性投影層編碼視覺 token 的時間上下文,增強了模型對視頻動態變化的理解能力,這對于提升視頻內容分析的質量至關重要。

  

字節與浙大聯合推多模態大語言模型Vista-LLaMA 可解讀視頻內容?

圖 4

基準測試結果

Vista-LLaMA 在多個開放式視頻問答基準測試中展現了卓越性能。它在 NExT-QA 和 MSRVTT-QA 測試中取得了突破性成績,這兩個測試是衡量視頻理解和語言生成能力的關鍵標準。在零樣本 NExT-QA 測試中,Vista-LLaMA 實現了 60.7% 的準確率。而在 MSRVTT-QA 測試中達到了 60.5% 的準確率,超過了目前所有的 SOTA 方法。這些成績在行業中屬于先進水平,顯著超越了其他 SOTA 模型,如 Video-ChatGPT 和 MovieChat。

  

字節與浙大聯合推多模態大語言模型Vista-LLaMA 可解讀視頻內容?

圖 5

  

字節與浙大聯合推多模態大語言模型Vista-LLaMA 可解讀視頻內容?

這些測試結果證明了 Vista-LLaMA 在視頻內容理解和描述生成方面的高效性和精準性,Vista-LLaMA 能夠準確理解和描述視頻內容,顯示了其強大的泛化能力。這些成績不僅展示了 Vista-LLaMA 在理解復雜視頻內容方面的能力,還證明了其在多模態語言處理領域的領先地位。

數據集:CineClipQA

  

字節與浙大聯合推多模態大語言模型Vista-LLaMA 可解讀視頻內容?

圖 6

與 Vista-LLaMA 一同提出的還有 CineClipQA 新數據集。

CineClipQA 包含了 153 個精選視頻片段,這些片段來自五部風格和敘事手法各異的電影。每個片段代表電影情節的一個或多個獨特部分,并附有 16 個量身定制的問題,共計 2448 個問題。問題分為系統提示和問題兩部分:

● 系統提示提供了當前視頻片段中關鍵角色的基本信息,并在必要時為角色的初始行動提供提示。

● 問題主要分為五類:識別、時間性(預測)、空間性(互動)、意圖和感知。具體來說,識別包括地點和行動的問題;時間性涉及下一個行動、之前的行動、同時發生的行動和預測行動的問題;空間性涉及物體與人之間的空間信息問題;意圖涉及行動目的地三種相似問題;感知檢查情感識別和詢問 “如何”(方式、態度等)。

該研究還提供了所有 16 種類型的詳細解釋和相應案例。在 CineClipQA 數據集中,Vista-LLaMA 也表現出了卓越的性能。

  

字節與浙大聯合推多模態大語言模型Vista-LLaMA 可解讀視頻內容?

圖 7

簡言之,Vista-LLaMA 在處理長視頻內容方面的顯著優勢,為視頻分析領域帶來了新的解決框架,推動人工智能在視頻處理和內容創作方面的發展,預示著未來多模態交互和自動化內容生成領域的廣泛機遇。

更多詳情,請訪問項目頁面 [https://jinxxian.github.io/Vista-LLaMA]。

關于字節跳動智能創作團隊

智能創作團隊是字節跳動音視頻創新技術和業務中臺,覆蓋了計算機視覺、圖形學、語音、拍攝編輯、特效、客戶端、服務端工程等技術領域,借助字節跳動豐富的業務場景、基礎設施資源和良好的技術協作氛圍,實現了前沿算法 - 工程系統 - 產品全鏈路的閉環,旨在以多種形式向公司內部各業務線以及外部合作客戶提供業界前沿的內容理解、內容創作、互動體驗與消費的能力和行業解決方案。

目前,智能創作團隊已通過字節跳動旗下的云服務平臺火山引擎向企業開放技術能力和服務。(作者:彭傲晴)


編輯 舉報 2025-11-26 10:53

0個評論

暫無評論...
驗證碼 換一張
相關內容
久久精品国产精品青草色艺_www.一区_国内精品免费久久久久妲己_免费的性爱视频

      欧美日韩dvd在线观看| 亚洲激情校园春色| 日一区二区三区| 欧美午夜精品免费| 亚洲视频一二三区| 99精品在线观看视频| 国产女人水真多18毛片18精品视频| 免费看日韩精品| 日韩免费观看高清完整版| 日韩精品午夜视频| 日韩一区二区免费电影| 日韩在线一二三区| 日韩亚洲欧美在线观看| 蜜桃一区二区三区在线观看| 欧美一级一级性生活免费录像| 亚洲国产欧美在线| 91精品在线免费| 久久精品国产一区二区三区免费看| 欧美一区二区免费| 久久66热re国产| 久久免费偷拍视频| 成人av免费在线观看| 亚洲桃色在线一区| 欧美色网站导航| 日韩高清一级片| 精品久久五月天| 国产黄人亚洲片| 亚洲欧洲制服丝袜| 欧美日韩二区三区| 精品中文字幕一区二区小辣椒| 精品久久久网站| 成人app在线观看| 亚洲永久免费av| 精品国产电影一区二区| 成人丝袜18视频在线观看| 亚洲美女屁股眼交| 日韩欧美一级在线播放| 粉嫩欧美一区二区三区高清影视 | 日本韩国欧美在线| 日韩精品电影一区亚洲| 欧美一卡2卡3卡4卡| 国产成人自拍网| 亚洲一二三区视频在线观看| 欧美成人乱码一区二区三区| 成人国产精品免费网站| 丝袜亚洲另类欧美综合| 欧美极品少妇xxxxⅹ高跟鞋| 在线观看www91| 国产一区二区三区精品欧美日韩一区二区三区 | 欧美三级午夜理伦三级中视频| 日韩精品一级二级 | 日本不卡中文字幕| 国产精品久久夜| 91精品国产乱码| 99久久er热在这里只有精品15 | 日本高清不卡aⅴ免费网站| 三级不卡在线观看| 国产精品传媒视频| 欧美电视剧免费全集观看| 91麻豆国产福利精品| 激情偷乱视频一区二区三区| 一区二区三国产精华液| 国产亚洲精久久久久久| 7777精品久久久大香线蕉| 成人av在线电影| 另类小说视频一区二区| 洋洋成人永久网站入口| 欧美国产在线观看| 精品少妇一区二区三区日产乱码| 欧洲视频一区二区| 不卡视频一二三| 国产一区福利在线| 蜜桃av一区二区| 亚洲成a人片在线观看中文| 国产精品全国免费观看高清 | 欧美视频在线一区| 成人av在线一区二区三区| 精东粉嫩av免费一区二区三区| 亚洲制服丝袜在线| 一区二区三区国产精华| 亚洲天堂成人网| 国产精品免费观看视频| 久久老女人爱爱| 精品电影一区二区三区| 欧美成人猛片aaaaaaa| 91.麻豆视频| 51精品久久久久久久蜜臀| 欧美三日本三级三级在线播放| 成人爽a毛片一区二区免费| 国产高清在线精品| 国产suv精品一区二区883| 国产一区二区美女诱惑| 精品一区二区三区免费| 美腿丝袜在线亚洲一区| 蜜臀av一级做a爰片久久| 美国十次了思思久久精品导航| 日韩精品国产精品| 美女免费视频一区二区| 久久电影国产免费久久电影| 蓝色福利精品导航| 国产一区999| 成人伦理片在线| 色网综合在线观看| 欧美日韩国产综合视频在线观看| 在线视频综合导航| 欧美一区二区三区小说| 日韩女同互慰一区二区| 日韩精品一区二| 日本一区二区视频在线| 综合网在线视频| 亚洲欧美日韩国产一区二区三区| 一区二区三区四区不卡视频 | 精品国产一区二区三区忘忧草| 日韩免费视频一区二区| 国产欧美精品日韩区二区麻豆天美| 国产精品麻豆99久久久久久| 亚洲免费在线电影| 婷婷中文字幕综合| 国产精品自拍av| 91国模大尺度私拍在线视频| 欧美日韩极品在线观看一区| 欧美一区二区在线观看| 国产亚洲综合在线| 亚洲综合色婷婷| 久久91精品国产91久久小草 | 亚洲电影你懂得| 激情成人综合网| 91麻豆精品在线观看| 91精品免费在线| 欧美国产日产图区| 日韩avvvv在线播放| 粉嫩av一区二区三区在线播放| 日本韩国精品一区二区在线观看| 日韩欧美综合在线| 亚洲欧美国产毛片在线| 理论片日本一区| 色8久久人人97超碰香蕉987| 精品少妇一区二区三区视频免付费 | 久久久综合精品| 亚洲视频一区二区在线观看| 免费观看成人av| 在线免费观看日韩欧美| 久久久久久影视| 天天综合色天天| 色综合久久综合| 国产视频在线观看一区二区三区| 亚洲丰满少妇videoshd| 成人h动漫精品一区二区| 欧美sm美女调教| 污片在线观看一区二区| 成人av资源下载| 久久精品视频在线免费观看| 午夜精品一区二区三区免费视频 | 国产91富婆露脸刺激对白| 欧美一区二区福利视频| 亚洲精品菠萝久久久久久久| 国产不卡视频一区| 欧美精品一区二区高清在线观看| 亚洲精品老司机| 成人动漫中文字幕| 欧美精品一区二区三区四区| 婷婷综合久久一区二区三区| 91久久精品网| 最新高清无码专区| 成人18视频在线播放| 国产日韩一级二级三级| 国产一区二区三区在线观看精品 | 精品一区二区三区影院在线午夜 | 午夜不卡在线视频| 色8久久人人97超碰香蕉987| 成人欧美一区二区三区| 成人黄色大片在线观看| 欧美激情资源网| 成人午夜激情在线| 国产精品进线69影院| 成人黄色在线视频| 国产精品视频九色porn| 成人免费三级在线| 欧美激情资源网| thepron国产精品| 中文字幕一区不卡| 色婷婷精品久久二区二区蜜臂av| 中文字幕日本不卡| 色又黄又爽网站www久久| 亚洲日本免费电影| 欧美色网一区二区| 丝袜a∨在线一区二区三区不卡| 欧美日韩午夜影院| 免费看欧美美女黄的网站| 欧美不卡一区二区三区| 国产精品18久久久久久久久久久久 | 欧美三级视频在线| 日韩高清欧美激情| 26uuu色噜噜精品一区| 狠狠色狠狠色综合| 欧美国产一区在线| 91行情网站电视在线观看高清版| 一区二区三区日韩精品视频| 欧美片在线播放| 韩国午夜理伦三级不卡影院|