首頁
產(chǎn)品系列
行業(yè)應(yīng)用
渠道合作
新聞中心
研究院
投資者關(guān)系
技術(shù)支持
關(guān)于創(chuàng)澤
| En
 
  當(dāng)前位置:首頁 > 新聞資訊 > 電商 > FashionBERT 電商領(lǐng)域多模態(tài)研究:如何做圖文擬合  
 

FashionBERT 電商領(lǐng)域多模態(tài)研究:如何做圖文擬合

來源:阿里機(jī)器智能      編輯:創(chuàng)澤      時(shí)間:2020/6/2      主題:其他   [加盟]
隨著 Web 技術(shù)發(fā)展,互聯(lián)網(wǎng)上包含大量的多模態(tài)信息(包括文本,圖像,語音,視頻等)。從海量多模態(tài)信息搜索出重要信息一直是學(xué)術(shù)界研究重點(diǎn)。多模態(tài)匹配核心就是圖文匹配技術(shù) (Text and Image Matching),這也是一項(xiàng)基礎(chǔ)研究,在非常多的領(lǐng)域有很多應(yīng)用,例如圖文檢索 (Cross-modality IR),圖像標(biāo)題生成 (Image Caption),圖像問答系統(tǒng) (Vision Question Answering), 圖像知識(shí)推理 (Visual Commonsense Reasoning)。但是目前學(xué)術(shù)界研究重點(diǎn)放在通用領(lǐng)域的多模態(tài)研究,針對(duì)電商領(lǐng)域的多模態(tài)研究相對(duì)較少,然而電商領(lǐng)域也非常需要多模態(tài)匹配模型,應(yīng)用場(chǎng)景特別多。本文重點(diǎn)關(guān)注電商領(lǐng)域圖文多模態(tài)技術(shù)研究。

多模態(tài)匹配研究簡史

跨模態(tài)研究核心重點(diǎn)在于如何將多模態(tài)數(shù)據(jù)匹配上,即如何將多模態(tài)信息映射到統(tǒng)一的表征空間。早期研究主要分成兩條主線:Canonical Correlation Analysis (CCA) 和Visual Semantic Embedding (VSE)。

CCA 系列方法

主要是通過分析圖像和文本的 correlation,然后將圖像和文本到同一空間。這一系列的問題論文完美,但是效果相對(duì)深度學(xué)習(xí)方法還是有待提高的。雖然后期也有基于深度學(xué)習(xí)的方案 (DCCA),但是對(duì)比后面的 VSE 方法還有一定差距。

VSE 系統(tǒng)方法

將圖像和文本分別表示成 Latent Embedding,然后將多模態(tài) Latent Embedding 擬合到同一空間。VSE 方法又延伸出來非常多的方法例如 SCAN,PFAN。這些方法在通用圖文匹配上已經(jīng)拿到不錯(cuò)效果。

隨著 pre-training 和 self-supervised 技術(shù)在 CV 和 NLP 領(lǐng)域的應(yīng)用。2019 年開始,有學(xué)者開始嘗試基于大規(guī)模數(shù)據(jù),使用預(yù)訓(xùn)練的 BERT 模型將圖文信息擬合同一空間。這些方法在通用領(lǐng)域取得很好的效果,這一系列的方法可以參看 VLBERT 這篇 Paper。

基于 BERT 的預(yù)訓(xùn)練圖文模型的主要流程:

1)利用圖像目標(biāo)檢測(cè)技術(shù)先識(shí)別圖像中的 Region of Interests(RoIs)。

2)把 ROI 當(dāng)做圖像的 token,和文本 token 做 BERT 多模態(tài)融合,這里面有兩個(gè)方案:

Single-stream:以 VLBERT 為代表,直接將圖像 token 和文本 token 放入到 BERT 做多模態(tài)融合。

Cross-stream:以 ViLBERT 為代表,將圖像 token 和文本 token 先做初步的交互,然后在放入到 BERT。

我們嘗試了 ViLBERT 方法,發(fā)現(xiàn)在通用領(lǐng)域效果確實(shí)不錯(cuò)。但是在電商領(lǐng)域,由于提取的 ROI 并不理想,導(dǎo)致效果低于預(yù)期。主要原因在于:

1)電商圖像 ROI 太少

電商圖像產(chǎn)品單一,背景簡單提取 ROI 很少,如圖 1(c)。統(tǒng)計(jì)來看,通用領(lǐng)域 MsCoCo 數(shù)據(jù),每張圖像可以提取 19.8 個(gè) ROI,但是電商只能提取 6.4 個(gè) ROI。當(dāng)然我們可以強(qiáng)制提取最小的 ROI,比如 ViLBERT 要求在 10~36 個(gè),VLBERT 要求 100 個(gè)。但是當(dāng)設(shè)定最小提取的 ROI 后,又提取了太多了重復(fù)的 ROI,可以看圖 1(e)。

2)電商 ROI 不夠 fine-grained

電商圖像單一,提取的 RoIs 主要是 object-level 的產(chǎn)品 (例如,整體連衣裙,T-shirt 等) 。相對(duì)文本來說,不夠細(xì)粒度 fine-grain,比如文本里面可以描述主體非常細(xì)節(jié)屬性 (如,圓領(lǐng),九分褲,七分褲等等)。這就導(dǎo)致圖像 ROI 不足以和文本 token 匹配,大家可以對(duì)比一下電商領(lǐng)域的圖 1(c) 和圖 1(d)。再看下通用領(lǐng)域的圖 1(a) 和圖 1(b),你會(huì)發(fā)現(xiàn)通用領(lǐng)域簡單一些,只要能將圖像中的主體和文本 token alignment 到一起,基本不會(huì)太差。

3)電商圖像 ROI 噪音太大

如圖 1(f) 中提取的模特頭,頭發(fā),手指,對(duì)于商品匹配來說用處不大。

這也就解釋了,電商領(lǐng)域也采用現(xiàn)有的 ROI 方式,并不能得到非常理想的結(jié)果。如果說,針對(duì)電商領(lǐng)域重新訓(xùn)練一個(gè)電商領(lǐng)域的 ROI 提取模型,需要大量的數(shù)據(jù)標(biāo)注工作。那么有沒有簡單易行的方法做圖文匹配擬合。




FashionBERT 圖文匹配模型

本文我們提出了 FashionBERT 圖文匹配模型,核心問題是如何解決電商領(lǐng)域圖像特征的提取或者表達(dá)。Google 在 2019 年年中發(fā)表了一篇文章圖像自監(jiān)督學(xué)習(xí)模型 selfie,主要思路是將圖像分割成子圖,然后預(yù)測(cè)子圖位置信息。從而使模型達(dá)到理解圖像特征的目的,這個(gè)工作對(duì)我們啟發(fā)很大。我們直接將圖像 split 相同大小的 Patch,然后將 Patch 作為圖像的 token,和文本進(jìn)行擬合,如圖二所示。使用 Patch 的好處:

圖像 Patch 包含了所有圖像的細(xì)節(jié)信息。

圖像 Patch 不會(huì)出現(xiàn)重復(fù)的 ROI 或者太多無用的 ROI。

圖像 Patch 是天然包含順序的,所以解決 BERT 的 sequence 問題。

FashionBERT 整體結(jié)構(gòu)如圖 2,主要包括 Text Embedding, Patch Embedding, Cross-modality FashionBERT,以及 Pretrain Tasks。

Text Embedding

和原始 BERT 一樣,先將句子分成 Token,然后我們采用 Whole Word Masking 技術(shù)將整個(gè) Token 進(jìn)行 masking。Masking 的策略和原始的 BERT 保持一致。

Patch Embedding

和 Text Embedding 類似,這里我們將圖片平均分成 8*8 個(gè) patch。每個(gè) Patch 經(jīng)過 ResNet 提取 patch 的圖像特征,我們提取 2048 維圖像特征。Patch mask 策略,我們隨機(jī) masked 10% 的 patch,masked 的 patch 用 0 代替。同時(shí)在 Segment 字段我們分別用 "T" 和 "I" 區(qū)分文 本token 輸入和圖像 patch 輸入。

Cross-modality FashionBERT

采用預(yù)訓(xùn)練的 BERT 為網(wǎng)絡(luò),這樣語言模型天然包含在 FashionBERT 中。模型可以更加關(guān)注圖文匹配融合。

FashionBERT 模型在 pretrain 階段,總共包含了三個(gè)任務(wù):

1  Masked Language Modeling (MLM)

預(yù)測(cè) Masked Text Token,這個(gè)任務(wù)訓(xùn)練和參數(shù)我們保持和原始的 BERT 一致。

2  Masked Patch Modeling (MPM)

預(yù)測(cè) Masked Patch,這個(gè)任務(wù)和 MLM 類似。但是由于圖像中沒有 id 化的 token。這里我們用 patch 作為目標(biāo),希望 BERT 可以重構(gòu) patch 信息,這里我們選用了 KLD 作為 loss 函數(shù)。

3  Text and Image Alignment

和 Next Sentence Prediction 任務(wù)類似,預(yù)測(cè)圖文是否匹配。正樣本是產(chǎn)品標(biāo)題和圖片,負(fù)樣本我們隨機(jī)采樣同類目下其他產(chǎn)品的圖片作為負(fù)樣本。

這是一個(gè)多任務(wù)學(xué)習(xí)問題,如何平衡這些任務(wù)的學(xué)習(xí)權(quán)重呢?另外,還有一個(gè)問題,目前很多實(shí)驗(yàn)指出 BERT 中 NSP 的效果并不一定非常有效,對(duì)最終的結(jié)果的影響不是特別明朗。但是對(duì)于圖文匹配來說,Text and Image Alignment 這個(gè) loss 是至關(guān)重要的。那么如何平衡這幾個(gè)任務(wù)的學(xué)習(xí)呢?這里我們提出 adaptive loss 算法,我們將學(xué)習(xí)任務(wù)的權(quán)重看做是一個(gè)新的優(yōu)化問題,如圖 3 所示。FashionBERT 的 loss 是整體 loss 的加和,由于只有三個(gè)任務(wù),其實(shí)我們可以直接得到任務(wù)權(quán)重 W 的解析解(具體的求解過程可以參考我們論文,這里不再贅述)。

整個(gè) w 的學(xué)習(xí)過程可以看做是一個(gè)學(xué)生想學(xué)習(xí)三門功課,w 的作用是控制學(xué)習(xí)的關(guān)注度,一方面控制別偏科,一方面總成績要達(dá)到最高。具體 adaptive loss 算法,可以參看論文。從實(shí)際的效果來看 w,隨著訓(xùn)練的迭代關(guān)注不同的任務(wù),達(dá)到對(duì)任務(wù)做平衡的目的。

業(yè)務(wù)應(yīng)用

目前 FashionBERT 已經(jīng)開始在 Alibaba 搜索多模態(tài)向量檢索上應(yīng)用,對(duì)于搜索多模態(tài)向量檢索來說,匹配任務(wù)可以看成是一個(gè)文文圖匹配任務(wù),即 User Query (Text)-Product Title (Text) - Product Image (Image) 三元匹配關(guān)系。FashionBERT 從上面的模型可以看到是一個(gè)基礎(chǔ)的圖文匹配模型,因此我們做了 Continue Pretrain 工作,同時(shí)加入 Query,Title,Image Segment 區(qū)分,如圖四所示。和 FashionBERT 最大的區(qū)別在于我們引入三個(gè) segment 類型,“Q”,“T”,“I” 分別代表 Query,Title,Image。






迎賓機(jī)器人企業(yè)【推薦】

2022年迎賓機(jī)器人企業(yè):優(yōu)必選、穿山甲、創(chuàng)澤智能、慧聞科技、杭州艾米、廣州卡伊瓦、勇藝達(dá)、睿博天米、銳曼智能、康力優(yōu)藍(lán)、云跡科技、南大電子、獵戶星空、瞳步智能

賽迪觀點(diǎn):再提現(xiàn)代制造業(yè),西部大開發(fā)賦予制造業(yè)發(fā)展新方向

中共中央國務(wù)院關(guān)于新時(shí)代推進(jìn)西部大開發(fā)形成新格局的指導(dǎo)意見》發(fā)布,明確提出要充分發(fā)揮西部地區(qū)比較優(yōu)勢(shì),推動(dòng)具備條件的產(chǎn)業(yè)集群化發(fā)展

基于深度學(xué)習(xí)目標(biāo)檢測(cè)模型優(yōu)缺點(diǎn)對(duì)比

深度學(xué)習(xí)模型:OverFeat、R-CNN、SPP-Net、Fast、R-CNN、Faster、R-CNN、R-FCN、Mask、R-CNN、YOLO、SSD、YOLOv2、416、DSOD300、R-SSD

傳統(tǒng)目標(biāo)檢測(cè)算法對(duì)比

SIFT、PCA-SIFT、SURF 、ORB、 VJ 等目標(biāo)檢測(cè)算法優(yōu)缺點(diǎn)對(duì)比及使用場(chǎng)合比較

兩大項(xiàng)目落地城陽,意向總投資達(dá)50億元

5月30日上午,中科院理化技術(shù)研究所青島未來大健康技術(shù)創(chuàng)新研究院項(xiàng)目和創(chuàng)澤人工智能項(xiàng)目簽約儀式順利舉行,兩大項(xiàng)目落地城陽,意向總投資達(dá)50億元

太空旅行時(shí)代到了!馬斯克載人飛船發(fā)射成功

馬斯克創(chuàng)辦的民營航天公司SpaceX將兩名NASA的宇航員Doug Hurley和Bob Behnken送入太空

馬斯克,人類的下一個(gè)哥倫布

馬斯克認(rèn)為,終有一天坐飛船會(huì)像坐飛機(jī)一樣實(shí)惠、便利,“SpaceX將使得太空旅行像航空旅行一樣簡單!

山東省申報(bào)第二批全國鄉(xiāng)村旅游重點(diǎn)村擬推薦名單

索引號(hào):11370000MB2847723P/2020-00101,確定擬推薦濟(jì)南市長清區(qū)馬套村等40個(gè)單位申報(bào)第二批全國鄉(xiāng)村旅游重點(diǎn)村,現(xiàn)將名單予以公示,公示期自即日起至6月1日

山西省城市生活垃圾分類管理規(guī)定

2020年4月13日,山西省人民政府第65次常務(wù)會(huì)議通過《山西省城市生活垃圾分類管理規(guī)定》

5G+人工智能:全面賦能未來社區(qū)智能升級(jí)

利用 AI 算法和相關(guān)數(shù)據(jù)分析,建立社區(qū)民眾生活、商家運(yùn)營、物業(yè)服務(wù)的全場(chǎng)景連接,全面提升未來社區(qū)的便捷智能感受

5G+物聯(lián)網(wǎng):全力推動(dòng)未來社區(qū)萬物互聯(lián)

5G 作為新一代通信技術(shù),全面連接社區(qū)內(nèi)人、機(jī)、物,使得科技與人文的結(jié)合全面滲透到社區(qū)的生活、服務(wù)、治理各方面,讓未來社區(qū)成為萬物互聯(lián)的社區(qū)

杭州步行街智慧街區(qū)

實(shí)時(shí)感知街區(qū)動(dòng)態(tài),通過對(duì)客流趨勢(shì)、客流密度等信息的分析,實(shí)時(shí)掌握街區(qū)動(dòng)態(tài),避免踩踏等不安全事件的發(fā)生。項(xiàng)目的建設(shè)開啟了現(xiàn)代化街區(qū)智慧管理、智慧服務(wù)的新篇章

迎賓機(jī)器人企業(yè)【推薦】

2022年迎賓機(jī)器人企業(yè):優(yōu)必選、穿山甲、創(chuàng)澤智能、慧聞科技、杭州艾米、廣州卡伊瓦、勇藝達(dá)、睿博天米、銳曼智能、康力優(yōu)藍(lán)、云跡科技、南大電子、獵戶星空、瞳步智能

山東機(jī)器人公司準(zhǔn)獨(dú)角獸企業(yè)-創(chuàng)澤智能

山東機(jī)器人公司,創(chuàng)澤機(jī)器人榮獲山東省工信廳人工智能領(lǐng)域的準(zhǔn)獨(dú)角獸的稱號(hào),是中國工信部人工智能產(chǎn)業(yè)創(chuàng)新重點(diǎn)任務(wù)揭榜優(yōu)勝單位

消毒機(jī)器人優(yōu)勢(shì)、技術(shù)及未來發(fā)展趨勢(shì)

消毒機(jī)器人有哪些優(yōu)勢(shì),未來發(fā)展趨勢(shì)

家庭陪護(hù)機(jī)器人

家庭陪護(hù)機(jī)器人能在家中起到監(jiān)控安全陪護(hù)具有人機(jī)互動(dòng)交互服務(wù)多媒體娛樂價(jià)格查詢等

兒童陪護(hù)機(jī)器人

兒童陪護(hù)機(jī)器人與孩子互動(dòng)陪伴玩耍學(xué)習(xí)價(jià)格問詢等功能說明使用指南介紹

展館智能機(jī)器人

展館智能機(jī)器人可講解自主行走語音交互咨詢互動(dòng)價(jià)格咨詢等功能介紹以及表情展現(xiàn)能力

智能講解機(jī)器人

智能講解機(jī)器人正在劍橋講解演示咨詢互動(dòng)移動(dòng)宣傳價(jià)格問詢等功能說明介紹

智能接待機(jī)器人

智能接待機(jī)器人迎賓服務(wù)來賓問詢答疑價(jià)格查詢

智能主持機(jī)器人

智能主持機(jī)器人參與主持了寧夏的云天大會(huì)并完成了大會(huì)的接待任務(wù)多才多藝載很受歡迎

超市智能機(jī)器人

超市智能機(jī)器人能幫助商家吸引客戶道路指引導(dǎo)購價(jià)格查詢

4s店智能機(jī)器人

4s店智能機(jī)器人迎賓銷售導(dǎo)購數(shù)據(jù)收集分析價(jià)格問詢等

展廳智能機(jī)器人

展廳智能機(jī)器人可用于接待講解咨詢互動(dòng)價(jià)格查詢等功能
 
資料獲取
新聞資訊
== 資訊 ==
» 人形機(jī)器人未來3-5年能夠?qū)崿F(xiàn)產(chǎn)業(yè)化的方
» 導(dǎo)診服務(wù)機(jī)器人上崗門診大廳 助力醫(yī)院智慧
» 山東省青島市政府辦公廳發(fā)布《數(shù)字青島20
» 關(guān)于印發(fā)《青海省支持大數(shù)據(jù)產(chǎn)業(yè)發(fā)展政策措
» 全屋無主燈智能化規(guī)范
» 微波雷達(dá)傳感技術(shù)室內(nèi)照明應(yīng)用規(guī)范
» 人工智能研發(fā)運(yùn)營體系(ML0ps)實(shí)踐指
» 四驅(qū)四轉(zhuǎn)移動(dòng)機(jī)器人運(yùn)動(dòng)模型及應(yīng)用分析
» 國內(nèi)細(xì)分賽道企業(yè)在 AIGC 各應(yīng)用場(chǎng)景
» 國內(nèi)科技大廠布局生成式 AI,未來有望借
» AIGC領(lǐng)域相關(guān)初創(chuàng)公司及業(yè)務(wù)場(chǎng)景梳理
» ChatGPT 以 GPT+RLHF 模
» AIGC提升文字 圖片滲透率,視頻 直播
» AI商業(yè)化空間前景廣闊應(yīng)用場(chǎng)景豐富
» AI 內(nèi)容創(chuàng)作成本大幅降低且耗時(shí)更短 優(yōu)
 
== 機(jī)器人推薦 ==
 
迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人底盤

機(jī)器人底盤

 

商用機(jī)器人  Disinfection Robot   展廳機(jī)器人  智能垃圾站  輪式機(jī)器人底盤  迎賓機(jī)器人  移動(dòng)機(jī)器人底盤  講解機(jī)器人  紫外線消毒機(jī)器人  大屏機(jī)器人  霧化消毒機(jī)器人  服務(wù)機(jī)器人底盤  智能送餐機(jī)器人  霧化消毒機(jī)  機(jī)器人OEM代工廠  消毒機(jī)器人排名  智能配送機(jī)器人  圖書館機(jī)器人  導(dǎo)引機(jī)器人  移動(dòng)消毒機(jī)器人  導(dǎo)診機(jī)器人  迎賓接待機(jī)器人  前臺(tái)機(jī)器人  導(dǎo)覽機(jī)器人  酒店送物機(jī)器人  云跡科技潤機(jī)器人  云跡酒店機(jī)器人  智能導(dǎo)診機(jī)器人 
版權(quán)所有 © 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司     中國運(yùn)營中心:北京·清華科技園九號(hào)樓5層     中國生產(chǎn)中心:山東日照太原路71號(hào)
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728