創(chuàng)澤機器人
CHUANGZE ROBOT
當前位置:首頁 > 新聞資訊 > 電商 > FashionBERT 電商領域多模態(tài)研究:如何做圖文擬合

FashionBERT 電商領域多模態(tài)研究:如何做圖文擬合

來源:阿里機器智能     編輯:創(chuàng)澤   時間:2020/6/2   主題:其他 [加盟]
隨著 Web 技術發(fā)展,互聯網上包含大量的多模態(tài)信息(包括文本,圖像,語音,視頻等)。從海量多模態(tài)信息搜索出重要信息一直是學術界研究重點。多模態(tài)匹配核心就是圖文匹配技術 (Text and Image Matching),這也是一項基礎研究,在非常多的領域有很多應用,例如圖文檢索 (Cross-modality IR),圖像標題生成 (Image Caption),圖像問答系統(tǒng) (Vision Question Answering), 圖像知識推理 (Visual Commonsense Reasoning)。但是目前學術界研究重點放在通用領域的多模態(tài)研究,針對電商領域的多模態(tài)研究相對較少,然而電商領域也非常需要多模態(tài)匹配模型,應用場景特別多。本文重點關注電商領域圖文多模態(tài)技術研究。

多模態(tài)匹配研究簡史

跨模態(tài)研究核心重點在于如何將多模態(tài)數據匹配上,即如何將多模態(tài)信息映射到統(tǒng)一的表征空間。早期研究主要分成兩條主線:Canonical Correlation Analysis (CCA) 和Visual Semantic Embedding (VSE)。

CCA 系列方法

主要是通過分析圖像和文本的 correlation,然后將圖像和文本到同一空間。這一系列的問題論文完美,但是效果相對深度學習方法還是有待提高的。雖然后期也有基于深度學習的方案 (DCCA),但是對比后面的 VSE 方法還有一定差距。

VSE 系統(tǒng)方法

將圖像和文本分別表示成 Latent Embedding,然后將多模態(tài) Latent Embedding 擬合到同一空間。VSE 方法又延伸出來非常多的方法例如 SCAN,PFAN。這些方法在通用圖文匹配上已經拿到不錯效果。

隨著 pre-training 和 self-supervised 技術在 CV 和 NLP 領域的應用。2019 年開始,有學者開始嘗試基于大規(guī)模數據,使用預訓練的 BERT 模型將圖文信息擬合同一空間。這些方法在通用領域取得很好的效果,這一系列的方法可以參看 VLBERT 這篇 Paper。

基于 BERT 的預訓練圖文模型的主要流程:

1)利用圖像目標檢測技術先識別圖像中的 Region of Interests(RoIs)。

2)把 ROI 當做圖像的 token,和文本 token 做 BERT 多模態(tài)融合,這里面有兩個方案:

Single-stream:以 VLBERT 為代表,直接將圖像 token 和文本 token 放入到 BERT 做多模態(tài)融合。

Cross-stream:以 ViLBERT 為代表,將圖像 token 和文本 token 先做初步的交互,然后在放入到 BERT。

我們嘗試了 ViLBERT 方法,發(fā)現在通用領域效果確實不錯。但是在電商領域,由于提取的 ROI 并不理想,導致效果低于預期。主要原因在于:

1)電商圖像 ROI 太少

電商圖像產品單一,背景簡單提取 ROI 很少,如圖 1(c)。統(tǒng)計來看,通用領域 MsCoCo 數據,每張圖像可以提取 19.8 個 ROI,但是電商只能提取 6.4 個 ROI。當然我們可以強制提取最小的 ROI,比如 ViLBERT 要求在 10~36 個,VLBERT 要求 100 個。但是當設定最小提取的 ROI 后,又提取了太多了重復的 ROI,可以看圖 1(e)。

2)電商 ROI 不夠 fine-grained

電商圖像單一,提取的 RoIs 主要是 object-level 的產品 (例如,整體連衣裙,T-shirt 等) 。相對文本來說,不夠細粒度 fine-grain,比如文本里面可以描述主體非常細節(jié)屬性 (如,圓領,九分褲,七分褲等等)。這就導致圖像 ROI 不足以和文本 token 匹配,大家可以對比一下電商領域的圖 1(c) 和圖 1(d)。再看下通用領域的圖 1(a) 和圖 1(b),你會發(fā)現通用領域簡單一些,只要能將圖像中的主體和文本 token alignment 到一起,基本不會太差。

3)電商圖像 ROI 噪音太大

如圖 1(f) 中提取的模特頭,頭發(fā),手指,對于商品匹配來說用處不大。

這也就解釋了,電商領域也采用現有的 ROI 方式,并不能得到非常理想的結果。如果說,針對電商領域重新訓練一個電商領域的 ROI 提取模型,需要大量的數據標注工作。那么有沒有簡單易行的方法做圖文匹配擬合。




FashionBERT 圖文匹配模型

本文我們提出了 FashionBERT 圖文匹配模型,核心問題是如何解決電商領域圖像特征的提取或者表達。Google 在 2019 年年中發(fā)表了一篇文章圖像自監(jiān)督學習模型 selfie,主要思路是將圖像分割成子圖,然后預測子圖位置信息。從而使模型達到理解圖像特征的目的,這個工作對我們啟發(fā)很大。我們直接將圖像 split 相同大小的 Patch,然后將 Patch 作為圖像的 token,和文本進行擬合,如圖二所示。使用 Patch 的好處:

圖像 Patch 包含了所有圖像的細節(jié)信息。

圖像 Patch 不會出現重復的 ROI 或者太多無用的 ROI。

圖像 Patch 是天然包含順序的,所以解決 BERT 的 sequence 問題。

FashionBERT 整體結構如圖 2,主要包括 Text Embedding, Patch Embedding, Cross-modality FashionBERT,以及 Pretrain Tasks。

Text Embedding

和原始 BERT 一樣,先將句子分成 Token,然后我們采用 Whole Word Masking 技術將整個 Token 進行 masking。Masking 的策略和原始的 BERT 保持一致。

Patch Embedding

和 Text Embedding 類似,這里我們將圖片平均分成 8*8 個 patch。每個 Patch 經過 ResNet 提取 patch 的圖像特征,我們提取 2048 維圖像特征。Patch mask 策略,我們隨機 masked 10% 的 patch,masked 的 patch 用 0 代替。同時在 Segment 字段我們分別用 "T" 和 "I" 區(qū)分文 本token 輸入和圖像 patch 輸入。

Cross-modality FashionBERT

采用預訓練的 BERT 為網絡,這樣語言模型天然包含在 FashionBERT 中。模型可以更加關注圖文匹配融合。

FashionBERT 模型在 pretrain 階段,總共包含了三個任務:

1  Masked Language Modeling (MLM)

預測 Masked Text Token,這個任務訓練和參數我們保持和原始的 BERT 一致。

2  Masked Patch Modeling (MPM)

預測 Masked Patch,這個任務和 MLM 類似。但是由于圖像中沒有 id 化的 token。這里我們用 patch 作為目標,希望 BERT 可以重構 patch 信息,這里我們選用了 KLD 作為 loss 函數。

3  Text and Image Alignment

和 Next Sentence Prediction 任務類似,預測圖文是否匹配。正樣本是產品標題和圖片,負樣本我們隨機采樣同類目下其他產品的圖片作為負樣本。

這是一個多任務學習問題,如何平衡這些任務的學習權重呢?另外,還有一個問題,目前很多實驗指出 BERT 中 NSP 的效果并不一定非常有效,對最終的結果的影響不是特別明朗。但是對于圖文匹配來說,Text and Image Alignment 這個 loss 是至關重要的。那么如何平衡這幾個任務的學習呢?這里我們提出 adaptive loss 算法,我們將學習任務的權重看做是一個新的優(yōu)化問題,如圖 3 所示。FashionBERT 的 loss 是整體 loss 的加和,由于只有三個任務,其實我們可以直接得到任務權重 W 的解析解(具體的求解過程可以參考我們論文,這里不再贅述)。

整個 w 的學習過程可以看做是一個學生想學習三門功課,w 的作用是控制學習的關注度,一方面控制別偏科,一方面總成績要達到最高。具體 adaptive loss 算法,可以參看論文。從實際的效果來看 w,隨著訓練的迭代關注不同的任務,達到對任務做平衡的目的。

業(yè)務應用

目前 FashionBERT 已經開始在 Alibaba 搜索多模態(tài)向量檢索上應用,對于搜索多模態(tài)向量檢索來說,匹配任務可以看成是一個文文圖匹配任務,即 User Query (Text)-Product Title (Text) - Product Image (Image) 三元匹配關系。FashionBERT 從上面的模型可以看到是一個基礎的圖文匹配模型,因此我們做了 Continue Pretrain 工作,同時加入 Query,Title,Image Segment 區(qū)分,如圖四所示。和 FashionBERT 最大的區(qū)別在于我們引入三個 segment 類型,“Q”,“T”,“I” 分別代表 Query,Title,Image。






浙江制定全國首個直播電商行業(yè)規(guī)范標準

據直播電商的不同參與角色,分別確立了從主體資格、亮證亮照、商家和主播入駐審核、規(guī)則建立、直播監(jiān)控、違規(guī)處置以及消費者權益保障等全流程的規(guī)范體系

直播電商需規(guī)范 首部全國性“直播帶貨”標準立項制定

首部全國性社團標準《視頻直播購物運營和服務基本規(guī)范》和《網絡購物誠信服務體系評價指南》兩項標準(以下簡稱《標準》),預計將于7月份正式發(fā)布執(zhí)行

德勤攜手谷歌聯合發(fā)布《2020中國時尚跨境電商發(fā)展報告》

不同發(fā)展階段、不同規(guī)模和資源稟賦的企 業(yè)選擇了不同的出海策略和演進路徑,通過對國內企業(yè)的實地調研,總結其發(fā)展模式有三 類:流量導向型、產品導向型和品牌導向型

電商平臺必須的十大商標核心類別

第9類:APP、計算機程序、電子設備(產品) ;第16類:印刷物、雜志,包裝物;第35類:廣告服務、電子商務、營銷策劃;第42類:計算機編程服務

帶貨的邏輯:直播電商產業(yè)鏈研究報告

2020年直播電商更火了,預計在2020年將達到8570億元,近三年年復合增長率高達314%,行業(yè)處于高速發(fā)展階段

2020年中國直播電商生態(tài)研究報告

直播電商帶來的增量與機會主要在于為產業(yè)鏈提效降本及為參與者帶來新機會點。

全球最大B2B跨境電商平臺阿里國際站,未來三年GMV如何突破1000億美元

阿里巴巴國際站作為最大的B2B跨境電商平臺以流量服務與跨境供應鏈服務賦能外貿出口企業(yè),為其提供跨境出口的一站式解決方案

巨量引擎聯合抖音電商首次發(fā)布《抖音直播營銷實戰(zhàn)經驗手冊第一期》

對抖音上半年的商業(yè)直播案例進行了全盤梳理和分析,針對“品牌宣傳+電商帶貨”兩大最具代表性的開播目的,圍繞人、貨、場三個層面分享實戰(zhàn)經驗

電商AI客服機器人《樂語助人》模擬金牌客服的回復

面向淘寶、天貓等平臺的AI客服機器人,具備高精準的語言理解能力,可模擬金牌客 服的回復邏輯,輔助人工客服進行客服咨詢接待、業(yè)務問題處理、智能推薦、客情維系等

GrowingIO推出《私域電商數據驅動增長白皮書》

電商正經歷由“粗放式獲取流量”到“精細化運營用戶”的轉變,而私域構建則是這一轉變的關鍵點

艾瑞咨詢:2020年中國企業(yè)采購電商市場研究報告

報告首先通過對中國企業(yè)采購電商市場發(fā)展方向的研究,揭示出疫情不改變行業(yè)發(fā)展長期向好態(tài)勢,中小微企業(yè)數字化速度加快,聚焦中小微企業(yè)采購的電商平臺將在未來獲得更大優(yōu)勢

阿里:邁向萬億市場的直播電商

了解直播電商的發(fā)展現狀、機遇和挑戰(zhàn),助力可持續(xù)發(fā)展,畢馬威聯合阿里研究院,實地走訪了大量業(yè)內專家和從業(yè)人員,并針對 MCN 機構、品牌商家發(fā)放調研問卷
資料獲取
電商
== 最新資訊 ==
ChatGPT:又一個“人形機器人”主題
ChatGPT快速流行,重構 AI 商業(yè)
中國機器視覺產業(yè)方面的政策
中國機器視覺產業(yè)聚焦于中國東部沿海地區(qū)(
從CHAT-GPT到生成式AI:人工智能
工信部等十七部門印發(fā)《機器人+應用行動實
全球人工智能企業(yè)市值/估值 TOP20
創(chuàng)澤智能機器人集團股份有限公司第十一期上
諧波減速器和RV減速器比較
機器人減速器:諧波減速器和RV減速器
人形機器人技術難點 高精尖技術的綜合
機器人大規(guī)模商用面臨的痛點有四個方面
青島市機器人產業(yè)概況:機器人企業(yè)多布局在
六大機器人產業(yè)集群的特點
機械臂-高度非線性強耦合的復雜系統(tǒng)
== 機器人推薦 ==
迎賓講解服務機器人

服務機器人(迎賓、講解、導診...)

智能消毒機器人

智能消毒機器人

機器人開發(fā)平臺

機器人開發(fā)平臺


機器人招商 Disinfection Robot 機器人公司 機器人應用 智能醫(yī)療 物聯網 機器人排名 機器人企業(yè) 機器人政策 教育機器人 迎賓機器人 機器人開發(fā) 獨角獸 消毒機器人品牌 消毒機器人 合理用藥 地圖
版權所有 創(chuàng)澤智能機器人集團股份有限公司 中國運營中心:北京 清華科技園九號樓5層 中國生產中心:山東日照太原路71號
銷售1:4006-935-088 銷售2:4006-937-088 客服電話: 4008-128-728