91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

阿里通義千問開源視覺推理模型 QVQ-72B-Preview:像物理學家一樣思考

2024/12/25 11:29:25 來源:IT之家 作者:故淵 責編:故淵
感謝IT之家網(wǎng)友 Skyraver、軟媒用戶1392612、西窗 的線索投遞!

IT之家 12 月 25 日消息,阿里通義千問 Qwen 團隊今天(12 月 25 日)發(fā)布博文,宣布基于 Qwen2-VL-72B 構(gòu)建,推出 QVQ-72B-Preview 開源視覺推理模型,能夠像物理學大師一樣,面對復雜的物理問題,沉著冷靜地通過邏輯推理找到解決方案。

阿里通義千問團隊在 4 個數(shù)據(jù)集上評估 QVQ-72B-Preview,IT之家附上相關(guān)介紹如下:

  • MMMU:一個大學級別的多學科多模態(tài)評測集,旨在考察模型視覺相關(guān)的綜合理解和推理能力。

  • MathVista:一個數(shù)學相關(guān)的視覺推理測試集,評估拼圖測試圖形的邏輯推理、函數(shù)圖的代數(shù)推理和學術(shù)論文圖形的科學推理等能力。

  • MathVision:一個高質(zhì)量多模態(tài)數(shù)學推理測試集,來自于真實的數(shù)學競賽,相比于 MathVista 具有更多的問題多樣性和學科廣度。

  • OlympiadBench:一個奧林匹克競賽級別的雙語多模態(tài)科學基準測試集,包含來自奧林匹克數(shù)學和物理競賽的 8,476 個問題,包括中國高考。每個問題都附有專家級別的注釋,詳細說明了逐步推理的過程。

測試結(jié)果顯示,QVQ-72B-Preview 在 MMMU 基準測試中取得了 70.3 的分數(shù),顯著超越了 Qwen2-VL-72B-Instruct。此外,在剩下的三個專注于數(shù)學和科學問題的基準測試中,該模型表現(xiàn)出色,有效縮小了與領(lǐng)先的最先進的 o1 模型之間的差距。

阿里通義千問 Qwen 團隊也表示 QVQ-72B-Preview 是實驗性研究模型,專注于增強視覺推理能力。盡管它的表現(xiàn)超出了預期,但仍有幾個限制需要注意:

  • 語言混合與切換:模型可能會意外地混合語言或在語言之間切換,從而影響響應(yīng)的清晰度。

  • 遞歸推理:模型可能會陷入循環(huán)邏輯模式,產(chǎn)生冗長的響應(yīng)而無法得出結(jié)論。

  • 安全和倫理考慮:模型需要增強安全措施,以確??煽亢桶踩男阅?,用戶在部署時應(yīng)保持謹慎。

  • 性能和基準限制:盡管模型在視覺推理方面有所改善,但它無法完全替代 Qwen2-VL-72B 的能力。此外,在多步驟視覺推理過程中,模型可能會逐漸失去對圖像內(nèi)容的關(guān)注,導致幻覺。

參考

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:阿里AI,通義千問

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知

丰台区| 金门县| 锡林浩特市| 六安市| 鸡东县| 环江| 临漳县| 广水市| 汾西县| 徐闻县| 淳化县| 沾化县| 宝丰县| 大英县| 桐柏县| 乾安县| 大同市| 紫金县| 荣成市| 改则县| 阳曲县| 海门市| 黑河市| 合山市| 海安县| 宁都县| 诸城市| 濉溪县| 延边| 玉屏| 东莞市| 广东省| 繁昌县| 丰原市| 潍坊市| 平阴县| 海口市| 武汉市| 金秀| 万安县| 瑞丽市|