深圳新聞網(wǎng)2025年11月5日訊（記者劉惠敏）你是否曾遇到過(guò)這些情況：用文字指令來(lái)編輯圖片時(shí)，AI似乎無(wú)法完全理解你的意思。比如，想給照片里的貓戴上一頂帽子，AI生成的結(jié)果中帽子可能位置不對(duì)或者風(fēng)格怪異；想把照片中的“紅色轎車”換成“藍(lán)色”，AI卻可能把畫(huà)面里所有的紅色物體都改了個(gè)遍。

現(xiàn)在，一項(xiàng)來(lái)自中國(guó)團(tuán)隊(duì)的技術(shù)突破，正在讓圖像編輯變得前所未有的簡(jiǎn)單和精準(zhǔn)。

日前，深圳兔展智能科技有限公司與北京大學(xué)的UniWorld團(tuán)隊(duì)聯(lián)合發(fā)布新一代圖像編輯模型UniWorld-V2，首次將強(qiáng)化學(xué)習(xí)（RL）策略優(yōu)化應(yīng)用于統(tǒng)一架構(gòu)的圖像編輯模型，是第一個(gè)視覺(jué)強(qiáng)化學(xué)習(xí)框架。UniWorld-V2在權(quán)威測(cè)試中取得了SOTA成績(jī)（State of the Art，在特定領(lǐng)域或任務(wù)中性能保持領(lǐng)先水平），在綜合表現(xiàn)上超越了如OpenAI的GPT-Image-1等頂尖閉源模型。

從“大概聽(tīng)懂”到“精確理解”

過(guò)去AI模型的普遍痛點(diǎn)在于，對(duì)圖片內(nèi)容的理解不夠細(xì)致、精準(zhǔn)。

UniWorld-V2模型的強(qiáng)大之處，就在于它極大地解決了這個(gè)“精準(zhǔn)理解”的難題。它不僅能聽(tīng)懂用戶的文字指令，更能像人一樣，精準(zhǔn)地“看懂”圖片中的每一個(gè)細(xì)節(jié)和對(duì)象。無(wú)論是讓你圈出圖中的某個(gè)部分，還是直接口頭描述你想修改的地方，UniWorld-V2都能準(zhǔn)確鎖定目標(biāo)，實(shí)現(xiàn)“指哪打哪”的精確編輯。

在兔展智能與北京大學(xué)的UniWorld團(tuán)隊(duì)聯(lián)合發(fā)布的論文中，不少示例展現(xiàn)了強(qiáng)大的中文字體掌握與精細(xì)化可控能力。例如，當(dāng)用戶提出“把中間白色衣服戴口罩女生的手勢(shì)改成OK”時(shí)，UniWorld-V2可以準(zhǔn)確完成修改，而同類模型Nano Banana則未能理解指令意圖。

“海報(bào)編輯”示例中，模型能精準(zhǔn)理解指令，并渲染出“月滿中秋”和“月圓人圓事事圓”等筆畫(huà)復(fù)雜的藝術(shù)中文字體，效果清晰、語(yǔ)義準(zhǔn)確。

在“紅框控制”任務(wù)中，用戶可以通過(guò)畫(huà)框（如紅色矩形框）來(lái)指定編輯區(qū)域，模型能夠嚴(yán)格遵守該空間限制，實(shí)現(xiàn)“將鳥(niǎo)移出紅框”等高難度精細(xì)操作。

此外，模型能深刻理解“給場(chǎng)景重新打光”等指令，使物體自然融入場(chǎng)景之中，讓畫(huà)面變得更統(tǒng)一和諧，并且光影融合度極高。

核心驅(qū)動(dòng)力：全球首個(gè)視覺(jué)強(qiáng)化學(xué)習(xí)框架UniWorld-R1

實(shí)現(xiàn)以上功能，研究團(tuán)隊(duì)的核心創(chuàng)新在于提出了UniWorld-R1框架。

傳統(tǒng)的圖像編輯模型依賴監(jiān)督微調(diào)（SFT），普遍存在對(duì)訓(xùn)練數(shù)據(jù)過(guò)擬合、泛化能力差的問(wèn)題。此外，還存在面對(duì)編輯指令和任務(wù)的多樣性，缺乏通用獎(jiǎng)勵(lì)模型的瓶頸。

UniWorld-R1框架的創(chuàng)新設(shè)計(jì)首次將強(qiáng)化學(xué)習(xí)策略優(yōu)化應(yīng)用于圖像編輯領(lǐng)域，并創(chuàng)新性地使用多模態(tài)大語(yǔ)言模型作為獎(jiǎng)勵(lì)模型，顯著提升了模型與人類意圖的對(duì)齊能力。

在GEdit-Bench和ImgEdit等權(quán)威測(cè)試中，UniWorld-V2分別獲得7.83和4.49的高分，超越了所有參與對(duì)比的開(kāi)源和閉源模型。值得注意的是，UniWorld-R1框架同樣適用于其他基礎(chǔ)模型，能有效提升其編輯性能。

目前，該研究的論文、代碼和模型已在GitHub和Hugging Face平臺(tái)開(kāi)源，為后續(xù)研究提供了重要基礎(chǔ)。

有分析指出，這項(xiàng)技術(shù)的突破，將極大降低專業(yè)圖像編輯的門檻，推動(dòng)圖像編輯技術(shù)走向更智能、更可控、更實(shí)用的新階段，并催生全新的應(yīng)用場(chǎng)景。

（本文圖片來(lái)自相關(guān)論文及受訪單位）

亚洲午夜国产,中文字幕久久精品,精品美女国产,色婷婷亚洲mv天堂mv在影片,青草国产精品,中国xxxxxx片免费播放,夜色88v精品国产亚洲

告別“詞不達(dá)意” 國(guó)產(chǎn)圖像編輯模型UniWorld-V2綜合表現(xiàn)超越OpenAI旗下大模型

AI視界（以下內(nèi)容由AI生成，僅供參考）

關(guān)鍵詞

簡(jiǎn)介

重點(diǎn)

分析

猜你想問(wèn)

亚洲午夜国产,中文字幕久久精品,精品美女国产,色婷婷亚洲mv天堂mv在影片,青草国产精品,中国xxxxxx片免费播放,夜色88v精品国产亚洲

告別“詞不達(dá)意” 國(guó)產(chǎn)圖像編輯模型UniWorld-V2綜合表現(xiàn)超越OpenAI旗下大模型

AI視界（以下內(nèi)容由AI生成，僅供參考）

AI視界（以下內(nèi)容由AI生成，僅供參考）

關(guān)鍵詞

簡(jiǎn)介

重點(diǎn)

分析

猜你想問(wèn)

AI視界（以下內(nèi)容由AI生成，僅供參考）