
Chatbot Arena是一個大型語言模型 (LLM) 的基準平臺,以眾包方式進行匿名隨機對戰(zhàn),該項目方LMSYS Org是由加州大學伯克利分校、加州大學圣地亞哥分校和卡內(nèi)基梅隆大學合作創(chuàng)立的研究組織。
通過demo體驗地址進入對戰(zhàn)平臺,輸入自己感興趣的問題,提交問題后,匿名模型會兩兩對戰(zhàn),分別生成相關(guān)答案,需要用戶對答案做出評判,從4個評判選項中選擇一個:模型A更好、模型B更好、平手、都很差。支持多輪對話。最終使用Elo評分系統(tǒng)對大模型的能力進行綜合評估。(可以自己指定模型看效果,但不計入最終排名情況)。