亚洲午夜国产,中文字幕久久精品,精品美女国产,色婷婷亚洲mv天堂mv在影片,青草国产精品,中国xxxxxx片免费播放,夜色88v精品国产亚洲

告別“詞不達(dá)意” 國(guó)產(chǎn)圖像編輯模型UniWorld-V2綜合表現(xiàn)超越OpenAI旗下大模型

AI視界(以下內(nèi)容由AI生成,僅供參考)

  • 關(guān)鍵詞
  • 簡(jiǎn)介
  • 重點(diǎn)
  • 分析
  • 猜你
    想問(wèn)

深圳新聞網(wǎng)2025年11月5日訊(記者 劉惠敏)你是否曾遇到過(guò)這些情況:用文字指令來(lái)編輯圖片時(shí),AI似乎無(wú)法完全理解你的意思。比如,想給照片里的貓戴上一頂帽子,AI生成的結(jié)果中帽子可能位置不對(duì)或者風(fēng)格怪異;想把照片中的“紅色轎車”換成“藍(lán)色”,AI卻可能把畫(huà)面里所有的紅色物體都改了個(gè)遍。

現(xiàn)在,一項(xiàng)來(lái)自中國(guó)團(tuán)隊(duì)的技術(shù)突破,正在讓圖像編輯變得前所未有的簡(jiǎn)單和精準(zhǔn)。

日前,深圳兔展智能科技有限公司與北京大學(xué)的UniWorld團(tuán)隊(duì)聯(lián)合發(fā)布新一代圖像編輯模型UniWorld-V2,首次將強(qiáng)化學(xué)習(xí)(RL)策略優(yōu)化應(yīng)用于統(tǒng)一架構(gòu)的圖像編輯模型,是第一個(gè)視覺(jué)強(qiáng)化學(xué)習(xí)框架。UniWorld-V2在權(quán)威測(cè)試中取得了SOTA成績(jī)(State of the Art,在特定領(lǐng)域或任務(wù)中性能保持領(lǐng)先水平),在綜合表現(xiàn)上超越了如OpenAI的GPT-Image-1等頂尖閉源模型。

從“大概聽(tīng)懂”到“精確理解”

過(guò)去AI模型的普遍痛點(diǎn)在于,對(duì)圖片內(nèi)容的理解不夠細(xì)致、精準(zhǔn)。

UniWorld-V2模型的強(qiáng)大之處,就在于它極大地解決了這個(gè)“精準(zhǔn)理解”的難題。它不僅能聽(tīng)懂用戶的文字指令,更能像人一樣,精準(zhǔn)地“看懂”圖片中的每一個(gè)細(xì)節(jié)和對(duì)象。無(wú)論是讓你圈出圖中的某個(gè)部分,還是直接口頭描述你想修改的地方,UniWorld-V2都能準(zhǔn)確鎖定目標(biāo),實(shí)現(xiàn)“指哪打哪”的精確編輯。

在兔展智能與北京大學(xué)的UniWorld團(tuán)隊(duì)聯(lián)合發(fā)布的論文中,不少示例展現(xiàn)了強(qiáng)大的中文字體掌握與精細(xì)化可控能力。例如,當(dāng)用戶提出“把中間白色衣服戴口罩女生的手勢(shì)改成OK”時(shí),UniWorld-V2可以準(zhǔn)確完成修改,而同類模型Nano Banana則未能理解指令意圖。

“海報(bào)編輯”示例中,模型能精準(zhǔn)理解指令,并渲染出“月滿中秋”和“月圓人圓事事圓”等筆畫(huà)復(fù)雜的藝術(shù)中文字體,效果清晰、語(yǔ)義準(zhǔn)確。

在“紅框控制”任務(wù)中,用戶可以通過(guò)畫(huà)框(如紅色矩形框)來(lái)指定編輯區(qū)域,模型能夠嚴(yán)格遵守該空間限制,實(shí)現(xiàn)“將鳥(niǎo)移出紅框”等高難度精細(xì)操作。

此外,模型能深刻理解“給場(chǎng)景重新打光”等指令,使物體自然融入場(chǎng)景之中,讓畫(huà)面變得更統(tǒng)一和諧,并且光影融合度極高。

核心驅(qū)動(dòng)力:全球首個(gè)視覺(jué)強(qiáng)化學(xué)習(xí)框架UniWorld-R1

實(shí)現(xiàn)以上功能,研究團(tuán)隊(duì)的核心創(chuàng)新在于提出了UniWorld-R1框架。

傳統(tǒng)的圖像編輯模型依賴監(jiān)督微調(diào)(SFT),普遍存在對(duì)訓(xùn)練數(shù)據(jù)過(guò)擬合、泛化能力差的問(wèn)題。此外,還存在面對(duì)編輯指令和任務(wù)的多樣性,缺乏通用獎(jiǎng)勵(lì)模型的瓶頸。

UniWorld-R1框架的創(chuàng)新設(shè)計(jì)首次將強(qiáng)化學(xué)習(xí)策略優(yōu)化應(yīng)用于圖像編輯領(lǐng)域,并創(chuàng)新性地使用多模態(tài)大語(yǔ)言模型作為獎(jiǎng)勵(lì)模型,顯著提升了模型與人類意圖的對(duì)齊能力。

在GEdit-Bench和ImgEdit等權(quán)威測(cè)試中,UniWorld-V2分別獲得7.83和4.49的高分,超越了所有參與對(duì)比的開(kāi)源和閉源模型。值得注意的是,UniWorld-R1框架同樣適用于其他基礎(chǔ)模型,能有效提升其編輯性能。

目前,該研究的論文、代碼和模型已在GitHub和Hugging Face平臺(tái)開(kāi)源,為后續(xù)研究提供了重要基礎(chǔ)。

有分析指出,這項(xiàng)技術(shù)的突破,將極大降低專業(yè)圖像編輯的門檻,推動(dòng)圖像編輯技術(shù)走向更智能、更可控、更實(shí)用的新階段,并催生全新的應(yīng)用場(chǎng)景。

(本文圖片來(lái)自相關(guān)論文及受訪單位)

記者:劉惠敏 審核:葉梅 校對(duì):吳沁彤 責(zé)任編輯:鄭曉鵬

AI視界(以下內(nèi)容由AI生成,僅供參考)

關(guān)鍵詞

簡(jiǎn)介

重點(diǎn)

分析

猜你想問(wèn)