首頁(yè)

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

投稿

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁(yè) > 智能時(shí)代>人工智能

雷軍官宣小米多項(xiàng) AI 創(chuàng)新成果入選國(guó)際頂級(jí)會(huì)議 ICASSP 2026，包括音頻理解、音樂(lè)生成評(píng)估等

2026/1/22 12:28:16 來(lái)源：IT之家作者：歸瀧責(zé)編：歸瀧

評(píng)論：

感謝IT之家網(wǎng)友偏科騷黃4100只眼的線索投遞！

IT之家 1 月 22 日消息，小米創(chuàng)辦人、董事長(zhǎng)兼 CEO 雷軍今日宣布，小米多項(xiàng) AI 創(chuàng)新成果入選國(guó)際頂級(jí)會(huì)議 ICASSP 2026，包括音頻理解、音樂(lè)生成評(píng)估、通用音頻 - 文本預(yù)訓(xùn)練、視頻到音頻合成等多個(gè) AI 領(lǐng)域的技術(shù)研究成果。

IT之家注：ICASSP 是全球音頻領(lǐng)域最具權(quán)威性與影響力之一的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議，第一次會(huì)議于 1976 年在美國(guó)的費(fèi)城舉辦，至今已有近 50 年的歷史。ICASSP 2026 將于今年 5 月在西班牙巴塞羅那舉辦。

小米本次入選國(guó)際頂級(jí)會(huì)議 ICASSP 2026 的 AI 創(chuàng)新成果如下：

《ACAVCAPS: ENABLING LARGE-SCALE TRAINING FOR FINE-GRAINED AND DIVERSE AUDIO UNDERSTANDING》

論文作者：牛亞?wèn)|、王天資、Heinrich Dinkel、孫興偉、周嘉豪、李罡、劉繼忠、張俊博、欒劍
在音頻理解領(lǐng)域，高質(zhì)量數(shù)據(jù)集一直是提升模型性能的關(guān)鍵瓶頸。當(dāng)前主流數(shù)據(jù)集普遍面臨“規(guī)模大但描述簡(jiǎn)略”或“描述詳盡但規(guī)模受限”的局限性。為緩解這一矛盾，我們推出了 ACAVCaps。
該數(shù)據(jù)集通過(guò)創(chuàng)新的自動(dòng)化管線，從多維度、多視角對(duì)音頻內(nèi)容進(jìn)行精細(xì)化刻畫(huà)，旨在突破現(xiàn)有數(shù)據(jù)集在規(guī)模與描述粒度上難以兼得的瓶頸。
ACAVCaps 構(gòu)建了一套多級(jí)自動(dòng)化標(biāo)注框架。該管線利用多個(gè)專家模型并行提取原始音頻中的聲音事件、音樂(lè)特征、說(shuō)話人屬性及語(yǔ)音內(nèi)容等關(guān)鍵元數(shù)據(jù)。隨后，引入大語(yǔ)言模型（LLM）并采用思維鏈（Chain-of-Thought, CoT）推理策略，將碎片化的結(jié)構(gòu)化信息進(jìn)行邏輯整合。
這種方法實(shí)現(xiàn)了從整體感知、語(yǔ)音細(xì)節(jié)、音樂(lè)元素到特定聲音事件的全方位描述，使標(biāo)注文本從單一的孤立標(biāo)簽進(jìn)化為具備邏輯層次和上下文信息的自然語(yǔ)言。
ACAVCaps 包含約 470 萬(wàn)條音頻-文本對(duì)，推動(dòng)音頻 AI 從簡(jiǎn)單的“特征識(shí)別”向深度的“語(yǔ)義理解”發(fā)展。ACAVCaps 數(shù)據(jù)集近期將全面開(kāi)源。

《FEDERATED JOINT LEARNING FOR DOMAIN AND CLASS GENERALIZATION》

* 表示共同第一作者
論文作者：許浩然 *、李佳澤 *、鞠建忠、羅振波
聯(lián)邦學(xué)習(xí)中的域泛化和類別泛化一直是視覺(jué)語(yǔ)言模型（如 CLIP）高效微調(diào)面臨的核心挑戰(zhàn)。傳統(tǒng)方法通常單獨(dú)處理未見(jiàn)的類別或未見(jiàn)的域，例如通過(guò)提示調(diào)優(yōu)技術(shù)優(yōu)化類別泛化或域泛化，但往往因決策邊界混淆、計(jì)算資源限制等問(wèn)題，導(dǎo)致在測(cè)試數(shù)據(jù)同時(shí)包含未見(jiàn)類別和未見(jiàn)域的復(fù)雜場(chǎng)景下性能受限。
為此，我們提出了一種新穎方法 FedDCG（Federated Joint Learning for Domain and Class Generalization），通過(guò)域分組策略和類特定協(xié)作訓(xùn)練機(jī)制，首次在聯(lián)邦學(xué)習(xí)設(shè)置下聯(lián)合解決類別和域泛化問(wèn)題，顯著提升了模型在未知環(huán)境中的準(zhǔn)確性與魯棒性。
FedDCG 框架首先采用域分組策略，將客戶端數(shù)據(jù)按域劃分，并在每個(gè)域組內(nèi)訓(xùn)練獨(dú)立的類別泛化網(wǎng)絡(luò)，以避免類別和領(lǐng)域決策邊界之間的混淆。
具體來(lái)說(shuō)，方法包含三大核心機(jī)制：在訓(xùn)練階段，通過(guò)類特定域分組協(xié)作訓(xùn)練交替優(yōu)化類別泛化和域解耦知識(shí)；在推理階段，則基于領(lǐng)域相似性進(jìn)行引導(dǎo)聚合，整合全局和域特定知識(shí)。其中，類別泛化網(wǎng)絡(luò)利用交叉注意力機(jī)制學(xué)習(xí)任務(wù)相關(guān)的提示向量，而域解耦訓(xùn)練則通過(guò)全局提示和域提示分離通用與特定知識(shí)，增強(qiáng)泛化能力。
在 Office-Home 和 MiniDomainNet 等數(shù)據(jù)集上的大量實(shí)驗(yàn)表明，F(xiàn)edDCG 在 ImageNet-R 和 ImageNet-A 等零樣本評(píng)估基準(zhǔn)上均優(yōu)于當(dāng)前最先進(jìn)的基線方法（如 FedTPG 和 DiPrompT）。例如，在 Office-Home 數(shù)據(jù)集上訓(xùn)練、ImageNet-R 測(cè)試時(shí)，F(xiàn)edDCG 的平均準(zhǔn)確率達(dá)到 70.30%，比次優(yōu)方法 DiPrompT 高出近 3%；在低采樣率（50%）設(shè)置下，F(xiàn)edDCG 仍保持領(lǐng)先，證明了其在數(shù)據(jù)稀缺場(chǎng)景下的有效性。
FedDCG 不僅推動(dòng)了聯(lián)邦學(xué)習(xí)在復(fù)雜泛化任務(wù)中的前沿，還為實(shí)際應(yīng)用如跨域圖像分類和隱私保護(hù)下的模型部署提供了可行路徑。該方法的高魯棒性和效率使其適用于移動(dòng)端智能處理等資源受限場(chǎng)景。

《FUSEMOS: PERCEPTUAL EVALUATION OF TEXT-TO-MUSIC GENERATION WITH DUAL-ENCODER FUSION AND RANKING-AWARE COMPOSITE LOSS》

論文作者：楊靜、王皓宇、潘寧寧、王昭、楊劍軒、黃公平
生成音樂(lè)的感知評(píng)估對(duì)于文本到音樂(lè)（TTM）生成系統(tǒng)的發(fā)展至關(guān)重要。現(xiàn)有自動(dòng)音樂(lè)感知評(píng)估方法主要依賴單一音頻編碼器提取音頻特征，以預(yù)測(cè)人類標(biāo)注的平均意見(jiàn)分?jǐn)?shù)（MOS）。然而，單一編碼器在捕捉音樂(lè)中復(fù)雜結(jié)構(gòu)與細(xì)粒度特征方面能力有限。
為解決這一問(wèn)題，本文提出 FUSEMOS，一個(gè)融合 CLAP 與 MERT 兩大預(yù)訓(xùn)練模型的雙編碼器架構(gòu)，通過(guò)優(yōu)勢(shì)互補(bǔ)實(shí)現(xiàn)更精準(zhǔn)、更貼近人類聽(tīng)覺(jué)感知的評(píng)估。
CLAP 強(qiáng)化音頻與文本的語(yǔ)義對(duì)齊能力，捕捉“文意匹配”；MERT 則基于大規(guī)模音樂(lè)數(shù)據(jù)自監(jiān)督訓(xùn)練，有效建模旋律、節(jié)奏、和聲等內(nèi)在音樂(lè)結(jié)構(gòu)特征；采用晚期融合策略，保留各模態(tài)獨(dú)立表征能力，通過(guò)專用映射網(wǎng)絡(luò)在得分層進(jìn)行融合，避免早期特征干擾，充分挖掘雙路徑的互補(bǔ)性；同時(shí)，引入排名感知復(fù)合損失函數(shù)，結(jié)合截?cái)嗷貧w損失與對(duì)比排序損失，不僅提升預(yù)測(cè)精度，更顯著增強(qiáng)模型對(duì)人類偏好相對(duì)順序的理解能力，有效緩解傳統(tǒng)回歸損失對(duì)絕對(duì)評(píng)分偏差的敏感性。
在 MusicEval 基準(zhǔn)上的實(shí)驗(yàn)結(jié)果表明，F(xiàn)USEMOS 在均方誤差（MSE）和排序相關(guān)性（如 Spearman 相關(guān)系數(shù)）等關(guān)鍵指標(biāo)上均顯著優(yōu)于現(xiàn)有方法，驗(yàn)證了其在音樂(lè)感知評(píng)估中的有效性。

《GLAP: GENERAL CONTRASTIVE AUDIO-TEXT PRETRAINING ACROSS DOMAINS AND LANGUAGES》

論文作者：Heinrich Dinkel、閆志勇、王天資、王永慶、孫興偉、牛亞?wèn)|，劉繼忠、李罡、張俊博、欒劍
GLAP 實(shí)現(xiàn)了跨音頻領(lǐng)域（語(yǔ)音 / 音樂(lè) / 環(huán)境音）與跨語(yǔ)言的音頻-文本對(duì)齊，能支持 RAG 形式的音頻搜索。它首次通過(guò)單一框架同時(shí)優(yōu)化語(yǔ)音、音樂(lè)及聲音事件的檢索與分類性能，解決了傳統(tǒng) CLAP 模型領(lǐng)域割裂的問(wèn)題。在 LibriSpeech（英文）和 AISHELL-2（中文）語(yǔ)音檢索上達(dá)到約 94% 與 99% 的 recall@1，同時(shí)在 AudioCaps 等聲音檢索基準(zhǔn)保持 SOTA 競(jìng)爭(zhēng)力。
GLAP 具備多語(yǔ)言泛化能力，無(wú)需目標(biāo)語(yǔ)種微調(diào)，即可在 50 種語(yǔ)言的關(guān)鍵詞識(shí)別（KWS）中展現(xiàn) Zero-shot 能力。
GLAP 作為預(yù)訓(xùn)練模型，可直接賦能小米“人車(chē)家全生態(tài)”中需跨模態(tài)理解的場(chǎng)景，如：復(fù)雜聲學(xué)場(chǎng)景下的魯棒語(yǔ)音交互、車(chē)載多模指令理解、家居異常聲音監(jiān)測(cè)、以及音樂(lè) / 音頻內(nèi)容的跨語(yǔ)言檢索與生成。該模型將顯著降低下游產(chǎn)品線（手機(jī)、音箱、汽車(chē)、可穿戴設(shè)備）的音頻 AI 研發(fā)門(mén)檻，實(shí)現(xiàn)技術(shù)棧統(tǒng)一與效果提升。

《MEANFLOW-ACCELERATED MULTIMODAL VIDEO-TO-AUDIO SYNTHESIS VIA ONE-STEP GENERATION》

論文作者：楊曉冉、楊劍軒、郭新月、王皓宇、潘寧寧、黃公平
MeanFlow 為多模態(tài)音頻生成任務(wù)構(gòu)建了高效的基座模型，實(shí)現(xiàn)了視頻同步音效生成（V2A）場(chǎng)景中推理效率與生成質(zhì)量的雙重突破，同時(shí)具備跨任務(wù)（視頻生音效 / 文本生音效）的穩(wěn)定泛化能力。
MeanFlow 首次在 V2A 任務(wù)中通過(guò)平均速度場(chǎng)建模替代傳統(tǒng)流匹配（Flow Matching）模型的瞬時(shí)速度建模，從根本上解決了多步迭代采樣導(dǎo)致的推理速度瓶頸，實(shí)現(xiàn)推理階段的一步生成（one-step generation）。
針對(duì)無(wú)分類器引導(dǎo)（CFG）應(yīng)用時(shí)易出現(xiàn)的一步生成失真問(wèn)題，創(chuàng)新引入標(biāo)量重縮放機(jī)制，通過(guò)精準(zhǔn)平衡有條件與無(wú)條件預(yù)測(cè)，有效緩解失真現(xiàn)象。實(shí)驗(yàn)驗(yàn)證表明，該模型在實(shí)現(xiàn)推理速度 2×-500× 躍升的同時(shí)，可穩(wěn)定保持優(yōu)質(zhì)的音效輸出，且確保音視頻語(yǔ)義對(duì)齊與時(shí)間同步性，綜合性能處于領(lǐng)域領(lǐng)先水平。
MeanFlow 核心突破“效率與質(zhì)量不可兼得”的行業(yè)痛點(diǎn)，通過(guò)平均速度場(chǎng)建模與標(biāo)量重縮放機(jī)制的雙重優(yōu)化，在實(shí)現(xiàn)一步生成、推理速度大幅提升（8 秒音頻生成僅需 0.056 秒）的同時(shí)，精準(zhǔn)保障音效生成質(zhì)量（SOTA）、音頻分布匹配及音視頻同步性（TOP2）。
基于多模態(tài)條件聯(lián)合訓(xùn)練，該優(yōu)勢(shì)可自然延伸至文本生音效任務(wù)，無(wú)需額外微調(diào)適配即可實(shí)現(xiàn)音效穩(wěn)定輸出，實(shí)現(xiàn)“提效不損質(zhì)、多場(chǎng)景適配”的核心價(jià)值。
MeanFlow 作為高效多模態(tài)生成的核心支柱，可直接賦能需實(shí)時(shí)音視頻生成的各類實(shí)際場(chǎng)景，如：影視后期無(wú)聲視頻高效配音、短視頻平臺(tái)智能音效生成、虛擬形象實(shí)時(shí)交互、智能交互設(shè)備文本指令音效輸出等。
該模型將顯著降低下游音視頻創(chuàng)作與智能交互產(chǎn)品的研發(fā)門(mén)檻，推動(dòng)實(shí)時(shí)音效生成技術(shù)在內(nèi)容創(chuàng)作、人機(jī)交互等領(lǐng)域的規(guī)?；涞?，實(shí)現(xiàn)技術(shù)效率與應(yīng)用體驗(yàn)的雙重提升。

《THINK-CLIP-SAMPLE: SLOW-FAST FRAME SELECTION FOR VIDEO UNDERSTANDING》

* 中國(guó)人民大學(xué)-小米合作項(xiàng)目
論文作者：譚文輝、宋睿華、李佳澤、鞠建忠、羅振波
長(zhǎng)視頻理解一直是多模態(tài)大語(yǔ)言模型（MLLMs）面臨的核心挑戰(zhàn)。傳統(tǒng)方法通常采用均勻幀采樣或單一查詢驅(qū)動(dòng)的關(guān)鍵幀選擇策略，但往往因計(jì)算資源限制、語(yǔ)義覆蓋不全面等問(wèn)題，導(dǎo)致對(duì)長(zhǎng)視頻內(nèi)容的理解效果受限。
為此，小米大模型團(tuán)隊(duì)與中國(guó)人民大學(xué)高瓴人工智能學(xué)院聯(lián)合提出了一種無(wú)需訓(xùn)練的幀選擇框架 Think-Clip-Sample（TCS），通過(guò)多查詢推理（Multi-Query Reasoning）和片段級(jí)慢快采樣（Clip-level Slow-Fast Sampling）兩大核心機(jī)制，顯著提升了 MLLMs 在長(zhǎng)視頻問(wèn)答任務(wù)中的準(zhǔn)確性與效率。
TCS 框架首先通過(guò)多查詢推理模塊，利用 MLLM 從問(wèn)題中自動(dòng)生成多個(gè)視角的查詢（如物體、場(chǎng)景、動(dòng)作等），替代傳統(tǒng)單一問(wèn)題直接與幀匹配的方式，從而更全面地捕捉視頻中的語(yǔ)義信息。
隨后，基于 CLIP 模型計(jì)算各查詢與視頻幀的相似度，并通過(guò)聚合多視角得分增強(qiáng)幀選擇的多樣性與相關(guān)性。在幀采樣階段，TCS 提出片段級(jí)慢快采樣策略，將總幀預(yù)算劃分為“慢采樣”與“快采樣”兩部分：慢采樣集中于高相似度片段進(jìn)行密集采樣，以捕捉局部細(xì)節(jié)；快采樣則從非高相關(guān)區(qū)域均勻抽取部分幀，保持全局上下文覆蓋。該策略有效避免了傳統(tǒng) top-k 采樣導(dǎo)致的語(yǔ)義重疊與信息遺漏問(wèn)題，實(shí)現(xiàn)了細(xì)節(jié)與整體之間的平衡。
在 MLVU、LongVideoBench 和 VideoMME 三大主流長(zhǎng)視頻理解基準(zhǔn)上的實(shí)驗(yàn)表明，TCS 在 Qwen2-VL-7B 與 MiMo-VL-7B 等主流 MLLM 基礎(chǔ)上均取得顯著效果提升，其中在 MLVU 數(shù)據(jù)集上最高提升達(dá) 6.9%，且在保持相當(dāng)性能的前提下，推理時(shí)間降低超過(guò) 50%。
作為一項(xiàng)無(wú)需訓(xùn)練即插即用的增強(qiáng)框架，TCS 不僅顯著推進(jìn)了 MLLM 在長(zhǎng)視頻場(chǎng)景下的理解能力，也為資源受限的實(shí)際應(yīng)用（如移動(dòng)端視頻分析、短視頻智能處理等）提供了可行的技術(shù)路徑。

《UNIFIED MULTIMODAL AND MULTILINGUAL RETRIEVAL VIA MULTI-TASK LEARNING WITH NLU INTEGRATION》

論文作者：張馨元，張麗娜，陳立崧，劉光耀，聶帥，許家銘，史潤(rùn)宇，黃英，張國(guó)全
在傳統(tǒng)檢索中，“找圖、找文、意圖理解”通常是三個(gè)獨(dú)立訓(xùn)練的模型。意圖理解模型先解析查詢，將意圖分別送入圖像檢索和文本檢索模型，這會(huì)導(dǎo)致同一查詢被重復(fù)編碼檢索，且語(yǔ)義空間未對(duì)齊，從而增加內(nèi)存占用、降低運(yùn)行速度，并影響檢索準(zhǔn)確性。
本研究提出了一種統(tǒng)的一多任務(wù)學(xué)習(xí)框架，將“找圖、找文、意圖理解”這三個(gè)任務(wù)整合到兩個(gè)模型，一個(gè)架構(gòu)中，在該框架下，文本編碼器同時(shí)對(duì)齊圖像和文本的語(yǔ)義空間，并通過(guò)跨注意力機(jī)制與 NLU 模型進(jìn)行語(yǔ)義交互。
通過(guò)這一設(shè)計(jì)，一個(gè)模型就可以同時(shí)完成找文與找圖任務(wù)，同時(shí)通過(guò)與 NLU 模型的跨注意力交互，實(shí)現(xiàn)意圖感知和語(yǔ)義增強(qiáng)，節(jié)省模型數(shù)量、降低系統(tǒng)內(nèi)存占用，并增強(qiáng)模型間的語(yǔ)義能力。此外，該框架支持多語(yǔ)言輸入，實(shí)現(xiàn)跨模態(tài)、跨語(yǔ)言的高效語(yǔ)義對(duì)齊，為小米手機(jī)場(chǎng)景下的多模態(tài)檢索提供了輕量化、高性能的解決方案。
該框架在找圖與找文任務(wù)上均達(dá)到或超過(guò)現(xiàn)有最優(yōu)方法，在多語(yǔ)言測(cè)試中，XTD10 數(shù)據(jù)集平均召回率達(dá) 93.3%，Multi30K 數(shù)據(jù)集達(dá) 94.8%，均超越 Jina-CLIP-v2 等主流模型 1.1%–2.7%，在 COCO-QLTI 文本檢索數(shù)據(jù)集上平均性能達(dá) 85.1%，較原始文本編碼器提升 48.4%。本方法在降低模型復(fù)雜度和存儲(chǔ)開(kāi)銷(xiāo)的同時(shí)，驗(yàn)證了其在工業(yè)級(jí)多模態(tài)檢索場(chǎng)景中的實(shí)用性與可擴(kuò)展性。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

雷軍官宣小米多項(xiàng) AI 創(chuàng)新成果入選國(guó)際頂級(jí)會(huì)議 ICASSP 2026，包括音頻理解、音樂(lè)生成評(píng)估等

《ACAVCAPS: ENABLING LARGE-SCALE TRAINING FOR FINE-GRAINED AND DIVERSE AUDIO UNDERSTANDING》

《FEDERATED JOINT LEARNING FOR DOMAIN AND CLASS GENERALIZATION》

《FUSEMOS: PERCEPTUAL EVALUATION OF TEXT-TO-MUSIC GENERATION WITH DUAL-ENCODER FUSION AND RANKING-AWARE COMPOSITE LOSS》

《GLAP: GENERAL CONTRASTIVE AUDIO-TEXT PRETRAINING ACROSS DOMAINS AND LANGUAGES》

《MEANFLOW-ACCELERATED MULTIMODAL VIDEO-TO-AUDIO SYNTHESIS VIA ONE-STEP GENERATION》

《THINK-CLIP-SAMPLE: SLOW-FAST FRAME SELECTION FOR VIDEO UNDERSTANDING》

《UNIFIED MULTIMODAL AND MULTILINGUAL RETRIEVAL VIA MULTI-TASK LEARNING WITH NLU INTEGRATION》

相關(guān)文章

91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

雷軍官宣小米多項(xiàng) AI 創(chuàng)新成果入選國(guó)際頂級(jí)會(huì)議 ICASSP 2026，包括音頻理解、音樂(lè)生成評(píng)估等

《ACAVCAPS: ENABLING LARGE-SCALE TRAINING FOR FINE-GRAINED AND DIVERSE AUDIO UNDERSTANDING》

《FEDERATED JOINT LEARNING FOR DOMAIN AND CLASS GENERALIZATION》

《FUSEMOS: PERCEPTUAL EVALUATION OF TEXT-TO-MUSIC GENERATION WITH DUAL-ENCODER FUSION AND RANKING-AWARE COMPOSITE LOSS》

《GLAP: GENERAL CONTRASTIVE AUDIO-TEXT PRETRAINING ACROSS DOMAINS AND LANGUAGES》

《MEANFLOW-ACCELERATED MULTIMODAL VIDEO-TO-AUDIO SYNTHESIS VIA ONE-STEP GENERATION》

《THINK-CLIP-SAMPLE: SLOW-FAST FRAME SELECTION FOR VIDEO UNDERSTANDING》

《UNIFIED MULTIMODAL AND MULTILINGUAL RETRIEVAL VIA MULTI-TASK LEARNING WITH NLU INTEGRATION》

相關(guān)文章

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

雷軍官宣小米多項(xiàng) AI 創(chuàng)新成果入選國(guó)際頂級(jí)會(huì)議 ICASSP 2026，包括音頻理解、音樂(lè)生成評(píng)估等