91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

雷軍官宣小米多項(xiàng) AI 創(chuàng)新成果入選國(guó)際頂級(jí)會(huì)議 ICASSP 2026,包括音頻理解、音樂(lè)生成評(píng)估等

2026/1/22 12:28:16 來(lái)源:IT之家 作者:歸瀧 責(zé)編:歸瀧
感謝IT之家網(wǎng)友 偏科騷黃4100只眼 的線索投遞!

IT之家 1 月 22 日消息,小米創(chuàng)辦人、董事長(zhǎng)兼 CEO 雷軍今日宣布,小米多項(xiàng) AI 創(chuàng)新成果入選國(guó)際頂級(jí)會(huì)議 ICASSP 2026,包括音頻理解、音樂(lè)生成評(píng)估、通用音頻 - 文本預(yù)訓(xùn)練、視頻到音頻合成等多個(gè) AI 領(lǐng)域的技術(shù)研究成果。

IT之家注:ICASSP 是全球音頻領(lǐng)域最具權(quán)威性與影響力之一的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議,第一次會(huì)議于 1976 年在美國(guó)的費(fèi)城舉辦,至今已有近 50 年的歷史。ICASSP 2026 將于今年 5 月在西班牙巴塞羅那舉辦。

小米本次入選國(guó)際頂級(jí)會(huì)議 ICASSP 2026 的 AI 創(chuàng)新成果如下:

《ACAVCAPS: ENABLING LARGE-SCALE TRAINING FOR FINE-GRAINED AND DIVERSE AUDIO UNDERSTANDING》

  • 論文作者:牛亞?wèn)|、王天資、Heinrich Dinkel、孫興偉、周嘉豪、李罡、劉繼忠、張俊博、欒劍

在音頻理解領(lǐng)域,高質(zhì)量數(shù)據(jù)集一直是提升模型性能的關(guān)鍵瓶頸。當(dāng)前主流數(shù)據(jù)集普遍面臨“規(guī)模大但描述簡(jiǎn)略”或“描述詳盡但規(guī)模受限”的局限性。為緩解這一矛盾,我們推出了 ACAVCaps。

該數(shù)據(jù)集通過(guò)創(chuàng)新的自動(dòng)化管線,從多維度、多視角對(duì)音頻內(nèi)容進(jìn)行精細(xì)化刻畫(huà),旨在突破現(xiàn)有數(shù)據(jù)集在規(guī)模與描述粒度上難以兼得的瓶頸。

ACAVCaps 構(gòu)建了一套多級(jí)自動(dòng)化標(biāo)注框架。該管線利用多個(gè)專家模型并行提取原始音頻中的聲音事件、音樂(lè)特征、說(shuō)話人屬性及語(yǔ)音內(nèi)容等關(guān)鍵元數(shù)據(jù)。隨后,引入大語(yǔ)言模型(LLM)并采用思維鏈(Chain-of-Thought, CoT)推理策略,將碎片化的結(jié)構(gòu)化信息進(jìn)行邏輯整合。

這種方法實(shí)現(xiàn)了從整體感知、語(yǔ)音細(xì)節(jié)、音樂(lè)元素到特定聲音事件的全方位描述,使標(biāo)注文本從單一的孤立標(biāo)簽進(jìn)化為具備邏輯層次和上下文信息的自然語(yǔ)言。

ACAVCaps 包含約 470 萬(wàn)條音頻-文本對(duì),推動(dòng)音頻 AI 從簡(jiǎn)單的“特征識(shí)別”向深度的“語(yǔ)義理解”發(fā)展。ACAVCaps 數(shù)據(jù)集近期將全面開(kāi)源

《FEDERATED JOINT LEARNING FOR DOMAIN AND CLASS GENERALIZATION》

  • * 表示共同第一作者

  • 論文作者:許浩然 *、李佳澤 *、鞠建忠、羅振波

聯(lián)邦學(xué)習(xí)中的域泛化和類別泛化一直是視覺(jué)語(yǔ)言模型(如 CLIP)高效微調(diào)面臨的核心挑戰(zhàn)。傳統(tǒng)方法通常單獨(dú)處理未見(jiàn)的類別或未見(jiàn)的域,例如通過(guò)提示調(diào)優(yōu)技術(shù)優(yōu)化類別泛化或域泛化,但往往因決策邊界混淆、計(jì)算資源限制等問(wèn)題,導(dǎo)致在測(cè)試數(shù)據(jù)同時(shí)包含未見(jiàn)類別和未見(jiàn)域的復(fù)雜場(chǎng)景下性能受限。

為此,我們提出了一種新穎方法 FedDCG(Federated Joint Learning for Domain and Class Generalization),通過(guò)域分組策略和類特定協(xié)作訓(xùn)練機(jī)制,首次在聯(lián)邦學(xué)習(xí)設(shè)置下聯(lián)合解決類別和域泛化問(wèn)題,顯著提升了模型在未知環(huán)境中的準(zhǔn)確性與魯棒性。

FedDCG 框架首先采用域分組策略,將客戶端數(shù)據(jù)按域劃分,并在每個(gè)域組內(nèi)訓(xùn)練獨(dú)立的類別泛化網(wǎng)絡(luò),以避免類別和領(lǐng)域決策邊界之間的混淆。

具體來(lái)說(shuō),方法包含三大核心機(jī)制:在訓(xùn)練階段,通過(guò)類特定域分組協(xié)作訓(xùn)練交替優(yōu)化類別泛化和域解耦知識(shí);在推理階段,則基于領(lǐng)域相似性進(jìn)行引導(dǎo)聚合,整合全局和域特定知識(shí)。其中,類別泛化網(wǎng)絡(luò)利用交叉注意力機(jī)制學(xué)習(xí)任務(wù)相關(guān)的提示向量,而域解耦訓(xùn)練則通過(guò)全局提示和域提示分離通用與特定知識(shí),增強(qiáng)泛化能力。

在 Office-Home 和 MiniDomainNet 等數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,F(xiàn)edDCG 在 ImageNet-R 和 ImageNet-A 等零樣本評(píng)估基準(zhǔn)上均優(yōu)于當(dāng)前最先進(jìn)的基線方法(如 FedTPG 和 DiPrompT)。例如,在 Office-Home 數(shù)據(jù)集上訓(xùn)練、ImageNet-R 測(cè)試時(shí),F(xiàn)edDCG 的平均準(zhǔn)確率達(dá)到 70.30%,比次優(yōu)方法 DiPrompT 高出近 3%;在低采樣率(50%)設(shè)置下,F(xiàn)edDCG 仍保持領(lǐng)先,證明了其在數(shù)據(jù)稀缺場(chǎng)景下的有效性。

FedDCG 不僅推動(dòng)了聯(lián)邦學(xué)習(xí)在復(fù)雜泛化任務(wù)中的前沿,還為實(shí)際應(yīng)用如跨域圖像分類和隱私保護(hù)下的模型部署提供了可行路徑。該方法的高魯棒性和效率使其適用于移動(dòng)端智能處理等資源受限場(chǎng)景。

《FUSEMOS: PERCEPTUAL EVALUATION OF TEXT-TO-MUSIC GENERATION WITH DUAL-ENCODER FUSION AND RANKING-AWARE COMPOSITE LOSS》

  • 論文作者:楊靜、王皓宇、潘寧寧、王昭、楊劍軒、黃公平

生成音樂(lè)的感知評(píng)估對(duì)于文本到音樂(lè)(TTM)生成系統(tǒng)的發(fā)展至關(guān)重要。現(xiàn)有自動(dòng)音樂(lè)感知評(píng)估方法主要依賴單一音頻編碼器提取音頻特征,以預(yù)測(cè)人類標(biāo)注的平均意見(jiàn)分?jǐn)?shù)(MOS)。然而,單一編碼器在捕捉音樂(lè)中復(fù)雜結(jié)構(gòu)與細(xì)粒度特征方面能力有限。

為解決這一問(wèn)題,本文提出 FUSEMOS,一個(gè)融合 CLAP 與 MERT 兩大預(yù)訓(xùn)練模型的雙編碼器架構(gòu),通過(guò)優(yōu)勢(shì)互補(bǔ)實(shí)現(xiàn)更精準(zhǔn)、更貼近人類聽(tīng)覺(jué)感知的評(píng)估。

CLAP 強(qiáng)化音頻與文本的語(yǔ)義對(duì)齊能力,捕捉“文意匹配”;MERT 則基于大規(guī)模音樂(lè)數(shù)據(jù)自監(jiān)督訓(xùn)練,有效建模旋律、節(jié)奏、和聲等內(nèi)在音樂(lè)結(jié)構(gòu)特征;采用晚期融合策略,保留各模態(tài)獨(dú)立表征能力,通過(guò)專用映射網(wǎng)絡(luò)在得分層進(jìn)行融合,避免早期特征干擾,充分挖掘雙路徑的互補(bǔ)性;同時(shí),引入排名感知復(fù)合損失函數(shù),結(jié)合截?cái)嗷貧w損失與對(duì)比排序損失,不僅提升預(yù)測(cè)精度,更顯著增強(qiáng)模型對(duì)人類偏好相對(duì)順序的理解能力,有效緩解傳統(tǒng)回歸損失對(duì)絕對(duì)評(píng)分偏差的敏感性。

在 MusicEval 基準(zhǔn)上的實(shí)驗(yàn)結(jié)果表明,F(xiàn)USEMOS 在均方誤差(MSE)和排序相關(guān)性(如 Spearman 相關(guān)系數(shù))等關(guān)鍵指標(biāo)上均顯著優(yōu)于現(xiàn)有方法,驗(yàn)證了其在音樂(lè)感知評(píng)估中的有效性。

《GLAP: GENERAL CONTRASTIVE AUDIO-TEXT PRETRAINING ACROSS DOMAINS AND LANGUAGES》

  • 論文作者:Heinrich Dinkel、閆志勇、王天資、王永慶、孫興偉、牛亞?wèn)|,劉繼忠、李罡、張俊博、欒劍

GLAP 實(shí)現(xiàn)了跨音頻領(lǐng)域(語(yǔ)音 / 音樂(lè) / 環(huán)境音)與跨語(yǔ)言的音頻-文本對(duì)齊,能支持 RAG 形式的音頻搜索。它首次通過(guò)單一框架同時(shí)優(yōu)化語(yǔ)音、音樂(lè)及聲音事件的檢索與分類性能,解決了傳統(tǒng) CLAP 模型領(lǐng)域割裂的問(wèn)題。在 LibriSpeech(英文)和 AISHELL-2(中文)語(yǔ)音檢索上達(dá)到約 94% 與 99% 的 recall@1,同時(shí)在 AudioCaps 等聲音檢索基準(zhǔn)保持 SOTA 競(jìng)爭(zhēng)力。

GLAP 具備多語(yǔ)言泛化能力,無(wú)需目標(biāo)語(yǔ)種微調(diào),即可在 50 種語(yǔ)言的關(guān)鍵詞識(shí)別(KWS)中展現(xiàn) Zero-shot 能力。

GLAP 作為預(yù)訓(xùn)練模型,可直接賦能小米“人車(chē)家全生態(tài)”中需跨模態(tài)理解的場(chǎng)景,如:復(fù)雜聲學(xué)場(chǎng)景下的魯棒語(yǔ)音交互、車(chē)載多模指令理解、家居異常聲音監(jiān)測(cè)、以及音樂(lè) / 音頻內(nèi)容的跨語(yǔ)言檢索與生成。該模型將顯著降低下游產(chǎn)品線(手機(jī)、音箱、汽車(chē)、可穿戴設(shè)備)的音頻 AI 研發(fā)門(mén)檻,實(shí)現(xiàn)技術(shù)棧統(tǒng)一與效果提升。

《MEANFLOW-ACCELERATED MULTIMODAL VIDEO-TO-AUDIO SYNTHESIS VIA ONE-STEP GENERATION》

  • 論文作者:楊曉冉、楊劍軒、郭新月、王皓宇、潘寧寧、黃公平

MeanFlow 為多模態(tài)音頻生成任務(wù)構(gòu)建了高效的基座模型,實(shí)現(xiàn)了視頻同步音效生成(V2A)場(chǎng)景中推理效率與生成質(zhì)量的雙重突破,同時(shí)具備跨任務(wù)(視頻生音效 / 文本生音效)的穩(wěn)定泛化能力。

MeanFlow 首次在 V2A 任務(wù)中通過(guò)平均速度場(chǎng)建模替代傳統(tǒng)流匹配(Flow Matching)模型的瞬時(shí)速度建模,從根本上解決了多步迭代采樣導(dǎo)致的推理速度瓶頸,實(shí)現(xiàn)推理階段的一步生成(one-step generation)。

針對(duì)無(wú)分類器引導(dǎo)(CFG)應(yīng)用時(shí)易出現(xiàn)的一步生成失真問(wèn)題,創(chuàng)新引入標(biāo)量重縮放機(jī)制,通過(guò)精準(zhǔn)平衡有條件與無(wú)條件預(yù)測(cè),有效緩解失真現(xiàn)象。實(shí)驗(yàn)驗(yàn)證表明,該模型在實(shí)現(xiàn)推理速度 2×-500× 躍升的同時(shí),可穩(wěn)定保持優(yōu)質(zhì)的音效輸出,且確保音視頻語(yǔ)義對(duì)齊與時(shí)間同步性,綜合性能處于領(lǐng)域領(lǐng)先水平。

MeanFlow 核心突破“效率與質(zhì)量不可兼得”的行業(yè)痛點(diǎn),通過(guò)平均速度場(chǎng)建模與標(biāo)量重縮放機(jī)制的雙重優(yōu)化,在實(shí)現(xiàn)一步生成、推理速度大幅提升(8 秒音頻生成僅需 0.056 秒)的同時(shí),精準(zhǔn)保障音效生成質(zhì)量(SOTA)、音頻分布匹配及音視頻同步性(TOP2)。

基于多模態(tài)條件聯(lián)合訓(xùn)練,該優(yōu)勢(shì)可自然延伸至文本生音效任務(wù),無(wú)需額外微調(diào)適配即可實(shí)現(xiàn)音效穩(wěn)定輸出,實(shí)現(xiàn)“提效不損質(zhì)、多場(chǎng)景適配”的核心價(jià)值。

MeanFlow 作為高效多模態(tài)生成的核心支柱,可直接賦能需實(shí)時(shí)音視頻生成的各類實(shí)際場(chǎng)景,如:影視后期無(wú)聲視頻高效配音、短視頻平臺(tái)智能音效生成、虛擬形象實(shí)時(shí)交互、智能交互設(shè)備文本指令音效輸出等。

該模型將顯著降低下游音視頻創(chuàng)作與智能交互產(chǎn)品的研發(fā)門(mén)檻,推動(dòng)實(shí)時(shí)音效生成技術(shù)在內(nèi)容創(chuàng)作、人機(jī)交互等領(lǐng)域的規(guī)?;涞?,實(shí)現(xiàn)技術(shù)效率與應(yīng)用體驗(yàn)的雙重提升。

《THINK-CLIP-SAMPLE: SLOW-FAST FRAME SELECTION FOR VIDEO UNDERSTANDING》

  • * 中國(guó)人民大學(xué)-小米合作項(xiàng)目

  • 論文作者:譚文輝、宋睿華、李佳澤、鞠建忠、羅振波

長(zhǎng)視頻理解一直是多模態(tài)大語(yǔ)言模型(MLLMs)面臨的核心挑戰(zhàn)。傳統(tǒng)方法通常采用均勻幀采樣或單一查詢驅(qū)動(dòng)的關(guān)鍵幀選擇策略,但往往因計(jì)算資源限制、語(yǔ)義覆蓋不全面等問(wèn)題,導(dǎo)致對(duì)長(zhǎng)視頻內(nèi)容的理解效果受限。

為此,小米大模型團(tuán)隊(duì)與中國(guó)人民大學(xué)高瓴人工智能學(xué)院聯(lián)合提出了一種無(wú)需訓(xùn)練的幀選擇框架 Think-Clip-Sample(TCS),通過(guò)多查詢推理(Multi-Query Reasoning)和片段級(jí)慢快采樣(Clip-level Slow-Fast Sampling)兩大核心機(jī)制,顯著提升了 MLLMs 在長(zhǎng)視頻問(wèn)答任務(wù)中的準(zhǔn)確性與效率。

TCS 框架首先通過(guò)多查詢推理模塊,利用 MLLM 從問(wèn)題中自動(dòng)生成多個(gè)視角的查詢(如物體、場(chǎng)景、動(dòng)作等),替代傳統(tǒng)單一問(wèn)題直接與幀匹配的方式,從而更全面地捕捉視頻中的語(yǔ)義信息。

隨后,基于 CLIP 模型計(jì)算各查詢與視頻幀的相似度,并通過(guò)聚合多視角得分增強(qiáng)幀選擇的多樣性與相關(guān)性。在幀采樣階段,TCS 提出片段級(jí)慢快采樣策略,將總幀預(yù)算劃分為“慢采樣”與“快采樣”兩部分:慢采樣集中于高相似度片段進(jìn)行密集采樣,以捕捉局部細(xì)節(jié);快采樣則從非高相關(guān)區(qū)域均勻抽取部分幀,保持全局上下文覆蓋。該策略有效避免了傳統(tǒng) top-k 采樣導(dǎo)致的語(yǔ)義重疊與信息遺漏問(wèn)題,實(shí)現(xiàn)了細(xì)節(jié)與整體之間的平衡。

在 MLVU、LongVideoBench 和 VideoMME 三大主流長(zhǎng)視頻理解基準(zhǔn)上的實(shí)驗(yàn)表明,TCS 在 Qwen2-VL-7B 與 MiMo-VL-7B 等主流 MLLM 基礎(chǔ)上均取得顯著效果提升,其中在 MLVU 數(shù)據(jù)集上最高提升達(dá) 6.9%,且在保持相當(dāng)性能的前提下,推理時(shí)間降低超過(guò) 50%

作為一項(xiàng)無(wú)需訓(xùn)練即插即用的增強(qiáng)框架,TCS 不僅顯著推進(jìn)了 MLLM 在長(zhǎng)視頻場(chǎng)景下的理解能力,也為資源受限的實(shí)際應(yīng)用(如移動(dòng)端視頻分析、短視頻智能處理等)提供了可行的技術(shù)路徑。

《UNIFIED MULTIMODAL AND MULTILINGUAL RETRIEVAL VIA MULTI-TASK LEARNING WITH NLU INTEGRATION》

  • 論文作者:張馨元,張麗娜,陳立崧,劉光耀,聶帥,許家銘,史潤(rùn)宇,黃英,張國(guó)全

在傳統(tǒng)檢索中,“找圖、找文、意圖理解”通常是三個(gè)獨(dú)立訓(xùn)練的模型。意圖理解模型先解析查詢,將意圖分別送入圖像檢索和文本檢索模型,這會(huì)導(dǎo)致同一查詢被重復(fù)編碼檢索,且語(yǔ)義空間未對(duì)齊,從而增加內(nèi)存占用、降低運(yùn)行速度,并影響檢索準(zhǔn)確性。

本研究提出了一種統(tǒng)的一多任務(wù)學(xué)習(xí)框架,將“找圖、找文、意圖理解”這三個(gè)任務(wù)整合到兩個(gè)模型,一個(gè)架構(gòu)中,在該框架下,文本編碼器同時(shí)對(duì)齊圖像和文本的語(yǔ)義空間,并通過(guò)跨注意力機(jī)制與 NLU 模型進(jìn)行語(yǔ)義交互。

通過(guò)這一設(shè)計(jì),一個(gè)模型就可以同時(shí)完成找文與找圖任務(wù),同時(shí)通過(guò)與 NLU 模型的跨注意力交互,實(shí)現(xiàn)意圖感知和語(yǔ)義增強(qiáng),節(jié)省模型數(shù)量、降低系統(tǒng)內(nèi)存占用,并增強(qiáng)模型間的語(yǔ)義能力。此外,該框架支持多語(yǔ)言輸入,實(shí)現(xiàn)跨模態(tài)、跨語(yǔ)言的高效語(yǔ)義對(duì)齊,為小米手機(jī)場(chǎng)景下的多模態(tài)檢索提供了輕量化、高性能的解決方案。

該框架在找圖與找文任務(wù)上均達(dá)到或超過(guò)現(xiàn)有最優(yōu)方法,在多語(yǔ)言測(cè)試中,XTD10 數(shù)據(jù)集平均召回率達(dá) 93.3%,Multi30K 數(shù)據(jù)集達(dá) 94.8%,均超越 Jina-CLIP-v2 等主流模型 1.1%–2.7%,在 COCO-QLTI 文本檢索數(shù)據(jù)集上平均性能達(dá) 85.1%,較原始文本編碼器提升 48.4%。本方法在降低模型復(fù)雜度和存儲(chǔ)開(kāi)銷(xiāo)的同時(shí),驗(yàn)證了其在工業(yè)級(jí)多模態(tài)檢索場(chǎng)景中的實(shí)用性與可擴(kuò)展性。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ICASSP 2026,小米,雷軍

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知

武清区| 恩平市| 仁布县| 囊谦县| 襄垣县| 玉林市| 金阳县| 德兴市| 大新县| 日照市| 高碑店市| 会同县| 赞皇县| 兴文县| 内丘县| 西和县| 保德县| 乐平市| 绵竹市| 嘉义县| 宁陵县| 台南市| 南汇区| 北海市| 民勤县| 左云县| 霍林郭勒市| 濉溪县| 铁岭市| 祁阳县| 宜丰县| 宜昌市| 镇赉县| 孟州市| 凤阳县| 和田县| 九龙县| 肥西县| 山东省| 波密县| 石台县|