91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

蘋果發(fā)表 Manzano:近乎無損融合“看圖”與“繪圖”的多模態(tài) AI 模型

2026/1/15 8:32:49 來源:IT之家 作者:故淵 責(zé)編:故淵
感謝IT之家網(wǎng)友 對的時間點 的線索投遞!

IT之家 1 月 15 日消息,科技媒體 Appleinsider 今天(1 月 15 日)發(fā)布博文,報道稱蘋果發(fā)表重磅研究論文,詳細(xì)介紹了名為“Manzano”的多模態(tài)模型,融合“視覺理解”與“文本生成圖像”兩大功能。

該模型最大的創(chuàng)新在于“雙修”:它不僅能像人類一樣精準(zhǔn)理解圖像內(nèi)容(視覺理解),還能根據(jù)文本描述生成高質(zhì)量圖片(圖像生成)。

行業(yè)內(nèi)此前僅有少數(shù)模型能同時兼顧這兩項任務(wù),且往往需要在畫質(zhì)與理解力之間做出妥協(xié),研究人員指出,核心矛盾在于“視覺分詞”的方式不同。

簡單來說,AI 進行“圖像理解”時喜歡連續(xù)的數(shù)據(jù)流(類似看視頻),而進行“圖像生成”時則更依賴離散的數(shù)據(jù)塊(類似拼圖)。傳統(tǒng)模型強行讓同一個大腦處理這兩種截然不同的信號,往往會導(dǎo)致嚴(yán)重的任務(wù)沖突,要么“看得懂但畫不出”,要么“畫得好但理解偏”。

Manzano 為了解決這一難題,引入了一種創(chuàng)新的三段式架構(gòu):

  • 首先,它使用“混合視覺分詞器”同時生成連續(xù)和離散的視覺表示;

  • 接著,利用大語言模型(LLM)預(yù)測圖像的語義內(nèi)容;

  • 最后,將這些預(yù)測結(jié)果交給“擴散解碼器”進行像素級渲染。

這種設(shè)計讓 Manzano 既保留了強大的理解能力,又具備了精細(xì)的繪圖能力,甚至能處理深度估計、風(fēng)格遷移和圖像修復(fù)等復(fù)雜任務(wù)。

測試數(shù)據(jù)顯示,Manzano 在處理反直覺、違背物理常識的復(fù)雜指令時表現(xiàn)驚人。例如,當(dāng)要求生成“一只鳥在大象下方飛翔”的畫面時,Manzano 的邏輯準(zhǔn)確性與 OpenAI 的 GPT-4o 以及谷歌的 Nano Banana 模型旗鼓相當(dāng)。

研究團隊測試了從 3 億到 300 億(30B)參數(shù)的不同版本,證實了該架構(gòu)在模型規(guī)模擴大時依然能保持高效的性能提升。

雖然 Manzano 目前仍處于研究階段,尚未直接應(yīng)用于 iPhone 或 Mac 設(shè)備,但這表明蘋果正在構(gòu)建更強大的底層 AI 能力。

該媒體認(rèn)為這項技術(shù)極有可能會被整合進未來的“圖樂園 Image Playground”功能中,為用戶帶來更智能的修圖體驗和更具想象力的畫面生成能力,進一步鞏固蘋果在端側(cè) AI 領(lǐng)域的競爭力。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:蘋果,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知

邵阳市| 兰坪| 贵州省| 濮阳县| 盈江县| 永吉县| 临夏市| 明溪县| 肥城市| 武川县| 永兴县| 青河县| 玉树县| 苍南县| 牡丹江市| 台东县| 西盟| 平乡县| 利川市| 阳山县| 渭南市| 苍南县| 沙田区| 凤凰县| 色达县| 万盛区| 杭锦旗| 涪陵区| 聂拉木县| 如东县| 怀化市| 阿图什市| 呼玛县| 房产| 万安县| 怀集县| 武宣县| 吐鲁番市| 大洼县| 郑州市| 仁布县|