国产高清女同学巨大乳在线观看,18禁男女无遮挡啪啪网站,欧美裸体XXXXBBBB极品,色婷婷亚洲婷婷7月

2025 年中國(guó)多模態(tài)大模型行業(yè)主要模型 主要多模態(tài)大模型處理能力表現(xiàn)出色

創(chuàng)投圈
2025
05/22
20:18
分享
評(píng)論

行業(yè)主要上市公司:阿里巴巴 ( 09988.HK,BABA.US ) ; 百度 ( 09888.HK,BIDU.US ) ; 騰訊 ( 00700.HK, TCEHY ) ;科大訊飛 ( 002230.SZ ) ;萬(wàn)興科技 ( 300624.SZ ) ;三六零 ( 601360.SH ) ;昆侖萬(wàn)維 ( 300418.SZ ) ; 云從科技 ( 688327.SH ) ;拓爾思 ( 300229.SZ ) 等

多模態(tài)大模型類型及綜合對(duì)比

視覺(jué) + 語(yǔ)言的多模態(tài)大模型目前主流方法是:借助預(yù)訓(xùn)練好的大語(yǔ)言模型和圖像編碼器,用一個(gè)圖文特征對(duì)齊模塊來(lái)連接,從而讓語(yǔ)言模型理解圖像特征并進(jìn)行更深層的問(wèn)答推理。這樣可以利用已有的大量單模態(tài)訓(xùn)練數(shù)據(jù)訓(xùn)練得到的單模態(tài)模型,減少對(duì)于高質(zhì)量圖文對(duì)數(shù)據(jù)的依賴,并通過(guò)特征對(duì)齊、指令微調(diào)等方式打通兩個(gè)模態(tài)的表征。

多模態(tài)大模型類型 -CLIP

CLIP 是 OpenAI 提出的連接圖像和文本特征表示的對(duì)比學(xué)習(xí)方法。CLIP 是利用文本信息訓(xùn)練一個(gè)可以實(shí)現(xiàn) zero-shot 的視覺(jué)模型。利用預(yù)訓(xùn)練好的網(wǎng)絡(luò)去做分類。具體來(lái)說(shuō),給網(wǎng)絡(luò)一堆分類標(biāo)簽,比如 cat,dog,bird,利用文本編碼器得到向量表示。然后分別計(jì)算這些標(biāo)簽與圖片的余弦相似度 ; 最終相似度最高的標(biāo)簽即是預(yù)測(cè)的分類結(jié)果。論文提到,相比于單純地給定分類標(biāo)簽,給定一個(gè)句子的分類效果更好。比如一種句子模板 A photo of a.,后面填入分類標(biāo)簽。這種句子模板叫做 prompt ( 提示 ) 。句子模板的選擇很有講究,還專門(mén)討論了 prompt engineering,測(cè)試了好多種類的句子模板。提示信息有多種,下圖可以看到它用不同的類別替換一句話中不同的詞,形成不同的標(biāo)簽。

模態(tài)大模型類型 -Flamingo

Flamingo 是一門(mén)多模態(tài)大型語(yǔ)言模型 ( LLM ) 于 2022 年推出。視覺(jué)和語(yǔ)言組件的工作原理如下:視覺(jué)編碼器將圖像或視頻轉(zhuǎn)換為嵌入 ( 數(shù)字列表 ) 。與 CLIP 不同,F(xiàn)lamingo 可以生成文本響應(yīng)。從簡(jiǎn)化的角度來(lái)看,F(xiàn)lamingo 是 CLIP + 語(yǔ)言模型,并添加了技術(shù),使語(yǔ)言模型能夠根據(jù)視覺(jué)和文本輸入生成文本標(biāo)記。Flamingo 的 4 個(gè)數(shù)據(jù)集:2 個(gè) ( 圖像、文本 ) 對(duì)數(shù)據(jù)集、1 個(gè) ( 視頻、文本 ) 對(duì)數(shù)據(jù)集和 1 個(gè)交錯(cuò)的圖像和文本數(shù)據(jù)集。

多模態(tài)大模型類型 - BLIP

BLIP ( Bootstrapping Language-lmage Pretraining ) 是由 Salesforce 在 2022 年提出的多模態(tài)預(yù)訓(xùn)練模型,它旨在統(tǒng)一視覺(jué)語(yǔ)言任務(wù)的理解與生成能力,并通過(guò)對(duì)噪聲數(shù)據(jù)的處理來(lái)提高模型性能口。BLIP 的創(chuàng)新主要有兩個(gè)方面:與 CLIP 相比,BLIP 不僅處理圖像和文本的對(duì)齊問(wèn)題,還旨在解決包括圖像生成、視覺(jué)問(wèn)答和圖像描述等更復(fù)雜的任務(wù)。BLIP 采用了 " 引導(dǎo)學(xué)習(xí) " 的方式,通過(guò)自監(jiān)督的方式來(lái)增強(qiáng)模型對(duì)語(yǔ)言和視覺(jué)信息的理解。這些特點(diǎn)使其在處理圖像和文本數(shù)據(jù)方面展現(xiàn)了卓越的性能,成為眾多領(lǐng)域解決復(fù)雜問(wèn)題的強(qiáng)大工具。

多模態(tài)大模型類型 -LLaMA

使用視覺(jué)編碼器 CLIP ViT-L/14+ 語(yǔ)言解碼器 LLaMA 構(gòu)成多模態(tài)大模型,然后使用生成的數(shù)據(jù)進(jìn)行指令微調(diào)。輸入圖片 X 經(jīng)過(guò)與訓(xùn)練好的視覺(jué)編碼器的到圖片特征 Z,圖片特征 Z 經(jīng)過(guò)一個(gè)映射矩陣 W 轉(zhuǎn)化為視覺(jué) Token H,這樣 Vison Token Hv 與 Language Token Hq 指令就都在同一個(gè)特征空間,拼接后一起輸入大模型。這里的映射層 W 也可以替換為更復(fù)雜的網(wǎng)絡(luò)來(lái)提升性能,比如 Flamingo 中用的 gated cross-attentio,BLIP-2 中用的 Q-former。

前瞻網(wǎng)

THE END
廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里 尋求合作
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

相關(guān)熱點(diǎn)

相關(guān)推薦

1
3