国产成人啪精品视频免费网-国产成人啪精品视频免费网站软件-国产成人盗拍精品免费视频-国产成人深夜福利在线观看-a中文字幕1区-a毛片

二維碼
企資網(wǎng)

掃一掃關(guān)注

當(dāng)前位置: 首頁 » 企業(yè)資訊 » 咨詢 » 正文

NLP大火的prompt能用到其他領(lǐng)域嗎?清華

放大字體  縮小字體 發(fā)布日期:2021-11-18 06:53:42    瀏覽次數(shù):59
導(dǎo)讀

機(jī)器之心報(bào)道感謝:張倩從 GPT-3 開始,一種新得范式開始引起大家得:prompt。這段時(shí)間,我們可以看到大量有關(guān) prompt 得論文出現(xiàn),但多數(shù)還是以 NLP 為主。那么,除了 NLP,prompt 還能用到其他

機(jī)器之心報(bào)道

感謝:張倩

從 GPT-3 開始,一種新得范式開始引起大家得:prompt。這段時(shí)間,我們可以看到大量有關(guān) prompt 得論文出現(xiàn),但多數(shù)還是以 NLP 為主。那么,除了 NLP,prompt 還能用到其他領(lǐng)域么?對此,清華大學(xué)計(jì)算機(jī)系副教授劉知遠(yuǎn)給出得答案是:當(dāng)然可以。

圖源:特別zhihu/question/487096135/answer/2143082483?utm

論文鏈接:arxiv.org/pdf/2109.11797.pdf

在細(xì)粒度圖像區(qū)域,定位自然語言對于各種視覺語言任務(wù)至關(guān)重要,如機(jī)器人導(dǎo)航、視覺問答、視覺對話、視覺常識推理等。蕞近,預(yù)訓(xùn)練視覺語言模型(VL-PTM)在視覺定位任務(wù)上表現(xiàn)出了巨大得潛力。通常來講,一般得跨模態(tài)表示首先以自監(jiān)督得方式在大規(guī)模 image-caption 數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,然后進(jìn)行微調(diào)以適應(yīng)下游任務(wù)。VL-PTM 這種先預(yù)訓(xùn)練再微調(diào)得范式使得很多跨模態(tài)任務(wù)得 SOTA 被不斷刷新。

但盡管如此,清華大學(xué)、新加坡國立大學(xué)得研究者還是注意到,VL-PTM 得預(yù)訓(xùn)練與微調(diào)得 objective form 之間存在顯著差異。如下圖 1 所示,在預(yù)訓(xùn)練期間,多數(shù) VL-PTM 都是基于掩碼語言建模目標(biāo)進(jìn)行優(yōu)化,試圖從跨模態(tài)上下文恢復(fù) masked token。然而,在微調(diào)期間,下游任務(wù)通常通過將 unmasked token 表示歸為語義標(biāo)簽來執(zhí)行,這里通常會引入針對特定任務(wù)得參數(shù)。這種差異降低了 VL-PTM 對下游任務(wù)得適應(yīng)能力。因此,激發(fā) VL-PTM 在下游任務(wù)中得視覺定位能力需要大量標(biāo)記數(shù)據(jù)。

在這篇論文中,受到自然語言處理領(lǐng)域得預(yù)訓(xùn)練語言模型進(jìn)展啟發(fā),研究者提出了一種調(diào)整 VL-PTM 得新范式——CPT( Cross-modal prompt Tuning 或 Colorful prompt Tuning)。其中得核心要點(diǎn)是:通過在圖像和文字中添加基于色彩得共指標(biāo)記(co-referential marker),視覺定位可以被重新表述成一個填空題,從而盡可能縮小預(yù)訓(xùn)練和微調(diào)之間得差異。

如圖 1 所示,為了在圖像數(shù)據(jù)中定位自然語言表達(dá),CPT 由兩部分構(gòu)成:一是用色塊對圖像區(qū)域進(jìn)行唯一標(biāo)記得視覺 sub-prompt;二是將查詢文本放入基于色彩得查詢模板得一個文本 sub-prompt。針對目標(biāo)圖像區(qū)域得顯式定位可以通過從查詢模板中得 masked token 中恢復(fù)對應(yīng)顏色文本來實(shí)現(xiàn)。

通過縮小預(yù)訓(xùn)練和微調(diào)之間得差距,感謝提出得 prompt tuning 方法使得 VL-PTM 具備了強(qiáng)大得 few-shot 甚至 zero-shot 視覺定位能力。實(shí)驗(yàn)結(jié)果表明,prompted VL-PTMs 顯著超越了它們得 fine-tuned 競爭對手。

感謝得貢獻(xiàn)主要體現(xiàn)在兩個方面:

1. 提出了一種用于 VL-PTM 得跨模態(tài) prompt tuning 新范式。研究者表示,據(jù)他們所知,這是 VL-PTM 跨模態(tài) prompt tuning+ zero-shot、few-shot 視覺定位得首次嘗試;

2. 進(jìn)行了全面得實(shí)驗(yàn),證明了所提方法得有效性。

CPT 框架細(xì)節(jié)

視覺定位得關(guān)鍵是建立圖像區(qū)域和文本表達(dá)之間得聯(lián)系。因此,一個優(yōu)秀得跨模態(tài) prompt tuning 框架應(yīng)該充分利用圖像和文本得共指標(biāo)記,并盡可能縮小預(yù)訓(xùn)練和微調(diào)之間得差距。

為此,CPT 將視覺定位重新構(gòu)建為一個填空問題。具體來說,CPT 框架由兩部分構(gòu)成:一是用色塊對圖像區(qū)域進(jìn)行唯一標(biāo)記得視覺 sub-prompt;二是將查詢文本放入基于色彩得查詢模板得一個文本 sub-prompt。有了 CPT,VL-PTM 可以直接通過用目標(biāo)圖像區(qū)域得彩色文本填充 masked token 來定位查詢文本,目標(biāo)圖像區(qū)域得 objective form 與預(yù)訓(xùn)練相同。

視覺 sub-prompt

給定一個圖像 I 以及它得區(qū)域候選 R = {v_1, v_2, . . . , v_n},視覺 sub-prompt 旨在用自然視覺標(biāo)記對圖像區(qū)域進(jìn)行獨(dú)特標(biāo)記。有趣得是,研究者注意到,在文獻(xiàn)中,彩色邊界框被廣泛用于對圖像中得對象進(jìn)行獨(dú)特標(biāo)記,以實(shí)現(xiàn)可視化。受此啟發(fā),研究者通過一組顏色 C 來關(guān)聯(lián)圖像區(qū)域和文本表達(dá),其中每種顏色

是由它得視覺外觀

(如 RGB (255, 0, 0))和顏色文本

(如:red)來定義得。然后他們用一種獨(dú)特得顏色

標(biāo)記圖像中得每個區(qū)域候選 v_i,以此來定位,這會產(chǎn)生一組彩色圖像候選Ψ(R; C),其中 Ψ(·) 表示視覺 sub-prompt。

在實(shí)驗(yàn)中,研究者發(fā)現(xiàn),用實(shí)心塊給目標(biāo)著色比用邊界框效果更好,因?yàn)榧兩繕?biāo)在現(xiàn)實(shí)世界得圖像中更為常見(如紅色 T 恤、藍(lán)色車)。由于視覺 sub-prompt 被添加到原始圖像中,因此 VL-PTM 得架構(gòu)或參數(shù)不會發(fā)生變化。

文本 sub-prompt

文本 sub-prompt 旨在提示 VL-PTM 建立查詢文本與被視覺 sub-prompt 標(biāo)記得圖像區(qū)域得聯(lián)系。具體來說,此處用一個如下所示得模板 T (·) 將查詢文本 q(如「the horse watched by the woman」)轉(zhuǎn)換為填空查詢:

如此一來,VL-PTM 會被提示決定哪個區(qū)域得顏色更適合填充掩碼(如紅色或黃色),如下所示:

其中,v^* 表示目標(biāo)區(qū)域,

在預(yù)訓(xùn)練 MLM head 中得嵌入。需要注意得是,這個過程并沒有引入任何新得參數(shù),而且還縮小了預(yù)訓(xùn)練和微調(diào)之間得差距,因此提高了 VL-PTM 微調(diào)得數(shù)據(jù)效率。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)部分,研究者對 CPT 得能力進(jìn)行了評估,設(shè)置了 zero-shot、few-shot 和全監(jiān)督等多種情況,主要結(jié)果如下表 1 所示:

從表中可以看出:

1. 在 zero-shot 和 few-shot 設(shè)置中,CPT 得性能大大優(yōu)于隨機(jī)基線和強(qiáng)微調(diào)基線。例如,使用色塊作為視覺 sub-prompt,在 RefCOCO one shot 中,CPT 可能嗎?準(zhǔn)確率提高了 17.3%,相對標(biāo)準(zhǔn)差平均降低了 73.8%。這表明 CPT 可以有效地提高 VL-PTM 微調(diào)得數(shù)據(jù)效率,并激發(fā) VL-PTM 得視覺定位潛力。

2. 在視覺 sub-prompts 中用分割掩碼給目標(biāo)著色(CPT-Seg)獲得了比塊(CPT-Blk)更好得結(jié)果。這是因?yàn)檫m合物體輪廓得純色在現(xiàn)實(shí)世界得圖像中更常見,這使得 CPT-Seg 成為更自然得視覺 sub-prompt(盡管需要更強(qiáng)得注釋來訓(xùn)練分割工具)。

3. 值得注意得是,CPT 實(shí)現(xiàn)得標(biāo)準(zhǔn)差明顯小于微調(diào)。例如,在 RefCOCO 評估中,CPT-Blk one-shot 相對標(biāo)準(zhǔn)差平均降低了 73.8%。這表明,來自預(yù)訓(xùn)練得連貫微調(diào)方法可以帶來更穩(wěn)定得 few-shot 訓(xùn)練,這是評估 few-shot 學(xué)習(xí)模型得關(guān)鍵因素。

4. 在 RefCOCO + 評估中,CPT-Blk 在 shot 數(shù)為 16 時(shí)比微調(diào)表現(xiàn)略差。原因是 RefCOCO + 有更多得基于顏色得表達(dá)(比如穿紅色襯衫、戴藍(lán)色帽子得人),這會干擾基于顏色得 CPT。然而,這個問題可以通過在全監(jiān)督場景中使用更多得微調(diào)實(shí)例來緩解,在這種場景中,模型能夠?qū)W習(xí)如何更好地區(qū)分查詢文本和 promp 模板中得顏色。

5. 在全監(jiān)督得設(shè)置下,CPT 實(shí)現(xiàn)了與強(qiáng)微調(diào) VL-PTM 相當(dāng)?shù)眯阅堋_@表明,即使在全監(jiān)督得場景中,CPT 也是 VL-PTM 得一種有競爭力得調(diào)優(yōu)方法。

綜上所述,與普通得微調(diào)方法相比,CPT 在 zero-shot、few-shot 和全監(jiān)督得視覺定位任務(wù)中都實(shí)現(xiàn)了與之相當(dāng)或更優(yōu)越、更穩(wěn)定得性能。

更多細(xì)節(jié)請參見論文。

 
(文/小編)
免責(zé)聲明
本文僅代表作發(fā)布者:個人觀點(diǎn),本站未對其內(nèi)容進(jìn)行核實(shí),請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,需自行承擔(dān)相應(yīng)責(zé)任。涉及到版權(quán)或其他問題,請及時(shí)聯(lián)系我們刪除處理郵件:weilaitui@qq.com。
 

Copyright ? 2016 - 2025 - 企資網(wǎng) 48903.COM All Rights Reserved 粵公網(wǎng)安備 44030702000589號

粵ICP備16078936號

微信

關(guān)注
微信

微信二維碼

WAP二維碼

客服

聯(lián)系
客服

聯(lián)系客服:

在線QQ: 303377504

客服電話: 020-82301567

E_mail郵箱: weilaitui@qq.com

微信公眾號: weishitui

客服001 客服002 客服003

工作時(shí)間:

周一至周五: 09:00 - 18:00

反饋

用戶
反饋

主站蜘蛛池模板: 99在线精品免费视频九九视 | 国内精品久久久久久久久 | 国产精品自在自线 | 9丨精品国产高清自在线看 ⅹxx中国xxx人妖 | 久久中文字幕久久久久91 | 亚洲视频在线观看网址 | 免费一级大毛片a一观看不卡 | 91日本在线视频 | 亚洲欧美日韩精品在线 | 精品国产高清久久久久久小说 | 国产乱肥老妇精品视频 | 男人干女人的视频 | 一级黄色美女视频 | 久久久久久久久国产 | 欧美国产一区二区 | 久草免费公开视频 | 97成人在线 | 久久免费视频7 | 女人十八一级毛片 | 暖暖在线精品日本中文 | 亚洲操图 | 特黄大片aaaaa毛片 | 国产欧美日韩一区二区三区 | 91人人视频国产香蕉 | 欧美chengren| 99久久精品免费国产一区二区三区 | 国产成人性色视频 | 久久怡红院国产精品 | 日韩一区二区三区视频 | 国产成人在线播放视频 | 国产精品日韩欧美一区二区 | 免费五级在线观看日本片 | 日韩精品另类天天更新影院 | 欧美一级乱理片免费观看 | 男女视频在线观看免费 | 日韩毛片基地 | 91视频最新网站 | 欧美成人看片一区二区三区尤物 | 亚洲资源在线 | 另类欧美日韩 | 久久一区二区精品综合 |