MMBench

全方位的多模態(tài)大模型能力評(píng)測(cè)體系

瀏覽次數(shù)：

打開網(wǎng)址

MMBench是一個(gè)多模態(tài)基準(zhǔn)測(cè)試，由上海人工智能實(shí)驗(yàn)室、南洋理工大學(xué)、香港中文大學(xué)、新加坡國立大學(xué)和浙江大學(xué)的研究人員推出。該體系開發(fā)了一個(gè)綜合評(píng)估流程，從感知到認(rèn)知能力逐級(jí)細(xì)分評(píng)估，覆蓋20項(xiàng)細(xì)粒度能力，從互聯(lián)網(wǎng)與權(quán)威基準(zhǔn)數(shù)據(jù)集采集約3000道單項(xiàng)選擇題。打破常規(guī)一問一答基于規(guī)則匹配提取選項(xiàng)進(jìn)行評(píng)測(cè)，循環(huán)打亂選項(xiàng)驗(yàn)證輸出結(jié)果的一致性，基于ChatGPT精準(zhǔn)匹配模型回復(fù)至選項(xiàng)。

MMBench的特點(diǎn)和優(yōu)勢(shì)

基于感知與推理，將評(píng)估維度逐級(jí)細(xì)分。約 3000 道單項(xiàng)選擇題，覆蓋目標(biāo)檢測(cè)、文字識(shí)別、動(dòng)作識(shí)別、圖像
理解、關(guān)系推理等 20 個(gè)細(xì)粒度評(píng)估維度
更具魯棒性的評(píng)估方式。相同單選問題循環(huán)選項(xiàng)提問，模型輸出全部指向同一答案認(rèn)定為通過，相比傳統(tǒng)1次性通過評(píng)估 top-1 準(zhǔn)確率平均下降 10% ~ 20%。最大程度減少各種噪聲因素對(duì)評(píng)測(cè)結(jié)果的影響，保證了結(jié)果的可復(fù)現(xiàn)性。
更可靠的模型輸出提取方法。基于 ChatGPT 匹配模型輸出與選項(xiàng)，即使模型未按照指令輸出也可準(zhǔn)確匹配至最合理選項(xiàng)

公告信息

??很高興通知大家??：會(huì)員三群福利前100名額??：已發(fā)布在會(huì)員群看到速度

七喜telegram出海群三群正式啟動(dòng)-tg出海資源群

七喜聯(lián)盟收購大海聯(lián)盟公告

七喜官方防騙查詢歡迎其它平臺(tái)加入

七喜聯(lián)盟官網(wǎng)網(wǎng)址

七喜官網(wǎng)改版完畢?? 福利多多

七喜聯(lián)盟◆公告頻道

常見問題

電報(bào)下載--紙飛機(jī)更新--有些用戶安卓手機(jī)無法更新電報(bào)軟件

YouTube 評(píng)論管理

谷歌廣告優(yōu)化：實(shí)用指南

出海資源社群-七喜出海平臺(tái)

免責(zé)聲明：七喜聯(lián)盟不參與也不了解客戶的具體業(yè)務(wù)，我們作為擔(dān)保方只負(fù)責(zé)一方收到貨另一方收到錢，至于資金或者貨物的來龍去脈，七喜無法查證也無法保證，請(qǐng)買賣雙方自行溝通好相關(guān)細(xì)節(jié)。資金或貨物來源有問題或使用所購買貨物從事違法行為，本公司概不承擔(dān)連帶責(zé)任。

出海資源社群商務(wù)合作

Telegram：在線客服-四葉草： @qxdbLLL

在線客服-高鵬：在線客服-高鵬： @qxdbkkk

Telegram群：@qxdbaaa

Telegram二群： @qxdb111

Telegram官方頻道：@aaa123

七喜聯(lián)盟出海資源網(wǎng)