亚洲乱码中文字幕手机在线_人妻少妇被猛烈进入中文字幕_日本欧美大码A在线观看_国产成人欧美日本在线观看_女人自熨全过程直播

首頁 > 資訊 >

北大、西湖大學(xué)等開源「裁判大模型」PandaLM:三行代碼全自動評估LLM,準(zhǔn)確率達(dá)ChatGPT的94%

2023-05-10 11:22:27 來源:新智元

ChatGPT發(fā)布后,自然語言處理領(lǐng)域的生態(tài)徹底發(fā)生了變化,很多之前無法完成的問題都可以利用ChatGPT解決。


(資料圖片)

不過也帶來了一個問題:大模型的性能都太強(qiáng)了,光靠肉眼很難評估各個模型的差異。

比如用不同的基座模型和超參數(shù)訓(xùn)練了幾版模型,從樣例來看性能可能都差不多,無法完全量化兩個模型之間的性能差距。

目前評估大語言模型主要有兩個方案:

1、調(diào)用OpenAI的API接口評估。

ChatGPT可以用來評估兩個模型輸出的質(zhì)量,不過ChatGPT一直在迭代升級,不同時間對同一個問題的回復(fù)可能會有所不同,評估結(jié)果存在無法復(fù)現(xiàn)的問題。

2、人工標(biāo)注

如果在眾包平臺上請人工標(biāo)注的話,經(jīng)費(fèi)不足的團(tuán)隊可能無力負(fù)擔(dān),也存在第三方公司泄露數(shù)據(jù)的情況。

為了解決諸如此類的「大模型評估問題」,來自北京大學(xué)、西湖大學(xué)、北卡羅來納州立大學(xué)、卡內(nèi)基梅隆大學(xué)、MSRA的研究人員合作開發(fā)了一個全新的語言模型評估框架PandaLM,致力于實(shí)現(xiàn)保護(hù)隱私、可靠、可復(fù)現(xiàn)及廉價的大模型評估方案。

項(xiàng)目鏈接:https://github.com/WeOpenML/PandaLM

提供相同的上下文,PandaLM可以比較不同LLM的響應(yīng)輸出,并提供具體的理由。

為了證明該工具的可靠性和一致性,研究人員創(chuàng)建了一個由大約1000個樣本組成的多樣化的人類標(biāo)注測試數(shù)據(jù)集,其中PandaLM-7B的準(zhǔn)確率達(dá)到了ChatGPT的94%評估能力。

三行代碼用上PandaLM

當(dāng)兩個不同的大模型對同一個指令和上下文產(chǎn)生不同響應(yīng)時,PandaLM旨在比較這兩個大模型的響應(yīng)質(zhì)量,并輸出比較結(jié)果,比較理由以及可供參考的響應(yīng)。

比較結(jié)果有三種:響應(yīng)1更好,響應(yīng)2更好,響應(yīng)1與響應(yīng)2質(zhì)量相似。

比較多個大模型的性能時,只需使用PandaLM對其進(jìn)行兩兩比較,再匯總兩兩比較的結(jié)果進(jìn)行多個大模型的性能排名或畫出模型偏序關(guān)系圖,即可清晰直觀地分析不同模型間的性能差異。

PandaLM只需要在「本地部署」,且「不需要人類參與」,因此PandaLM的評估是可以保護(hù)隱私且相當(dāng)廉價的。

為了提供更好的可解釋性,PandaLM亦可用自然語言對其選擇進(jìn)行解釋,并額外生成一組參考響應(yīng)。

在項(xiàng)目中,研究人員不僅支持使用Web UI使用PandaLM以便于進(jìn)行案例分析,為了方便使用,還支持三行代碼調(diào)用PandaLM對任意模型和數(shù)據(jù)生成的文本評估。

考慮到現(xiàn)有的許多模型、框架并不開源或難以在本地完成推理,PandaLM支持利用指定模型權(quán)重生成待評估文本,或直接傳入包含待評估文本的.json文件。

用戶只需傳入一個包含模型名稱/HuggingFace模型ID或.json文件路徑的列表,即可利用PandaLM對用戶定義的模型和輸入數(shù)據(jù)進(jìn)行評估。下面是一個極簡的使用示例:

為了能讓大家靈活的運(yùn)用PandaLM進(jìn)行自由評測,研究人員也將PandaLM的模型權(quán)重公布在了huggingface網(wǎng)站上,可以通過以下命令加載PandaLM-7B模型:

PandaLM的特點(diǎn)

可復(fù)現(xiàn)性

因?yàn)镻andaLM的權(quán)重是公開的,即使語言模型的輸出有隨機(jī)性,當(dāng)固定隨機(jī)種子之后,PandaLM的評價結(jié)果仍可始終保持一致。

而基于在線API的模型的更新不透明,其輸出在不同時間有可能很不一致,且舊版模型不再可訪問,因此基于在線API的評測往往不具有可復(fù)現(xiàn)性。

自動化、保護(hù)隱私性和開銷低

只需本地部署PandaLM模型,調(diào)用現(xiàn)成的命令即可開始評估各種大模型,不需像雇傭?qū)<覙?biāo)注時要時刻與專家保持溝通,也不會存在數(shù)據(jù)泄露的問題,同時也不涉及任何API費(fèi)用以及勞務(wù)費(fèi)用,非常廉價。

評估水平

為了證明PandaLM的可靠性,研究人員雇傭了三個專家進(jìn)行獨(dú)立重復(fù)標(biāo)注,創(chuàng)建了一個人工標(biāo)注的測試集。

測試集包含50個不同的場景,每個場景中又包含若干任務(wù)。這個測試集是多樣化、可靠且與人類對文本的偏好相一致的。測試集的每個樣本由一個指令和上下文,以及兩個由不同大模型生成的響應(yīng)共同組成,并由人類來比較這兩個響應(yīng)的質(zhì)量。

篩除了標(biāo)注員之間有較大差異的樣本,以確保每個標(biāo)注者在最終測試集上的IAA(Inter Annotator Agreement)接近0.85。值得注意的是,PandaLM的訓(xùn)練集與創(chuàng)建的人工標(biāo)注測試集無任何重疊。

這些被過濾的樣本需要額外的知識或難以獲取的信息來輔助判斷,這使得人類也難以對它們進(jìn)行準(zhǔn)確標(biāo)注。

經(jīng)過篩選的測試集包含1000個樣本,而原始未經(jīng)過濾的測試集包含2500個樣本。測試集的分布為{0:105,1:422,2:472},其中0表示兩個響應(yīng)質(zhì)量相似,1表示響應(yīng)1更好,2表示響應(yīng)2更好。以人類測試集為基準(zhǔn),PandaLM與gpt-3.5-turbo的性能對比如下:

可以看到,PandaLM-7B在準(zhǔn)確度上已經(jīng)達(dá)到了gpt-3.5-turbo 94%的水平,而在精確率,召回率,F(xiàn)1分?jǐn)?shù)上,PandaLM-7B已于gpt-3.5-turbo相差無幾。

因此,相比于gpt-3.5-turbo而言,可以認(rèn)為PandaLM-7B已經(jīng)具備了相當(dāng)?shù)拇竽P驮u估能力。

除了在測試集上的準(zhǔn)確度,精確率,召回率,F(xiàn)1分?jǐn)?shù)之外,還提供了5個大小相近且開源的大模型之間比較的結(jié)果。

首先使用了相同的訓(xùn)練數(shù)據(jù)對這個5個模型進(jìn)行指令微調(diào),接著用人類,gpt-3.5-turbo,PandaLM對這5個模型分別進(jìn)行兩兩比較。

下表中第一行第一個元組(72,28,11)表示有72個LLaMA-7B的響應(yīng)比Bloom-7B的好,有28個LLaMA-7B的響應(yīng)比Bloom-7B的差,兩個模型有11個響應(yīng)質(zhì)量相似。

因此在這個例子中,人類認(rèn)為LLaMA-7B優(yōu)于Bloom-7B。下面三張表的結(jié)果說明人類,gpt-3.5-turbo與PandaLM-7B對于各個模型之間優(yōu)劣關(guān)系的判斷完全一致。

總結(jié)

PandaLM提供了除人類評估與OpenAI API評估之外的第三條評估大模型的方案,PandaLM不僅評估水平高,而且評估結(jié)果可復(fù)現(xiàn),評估流程自動化,保護(hù)隱私且開銷低。

未來,PandaLM將推動學(xué)術(shù)界和工業(yè)界關(guān)于大模型的研究,使得更多人受益于大模型的發(fā)展。

標(biāo)簽:

北大、西湖大學(xué)等開源「裁判大模型」PandaLM:三行代碼全自動評估LLM,準(zhǔn)確率達(dá)ChatGPT的94%

ChatGPT發(fā)布后,自然語言處理領(lǐng)域的生態(tài)徹底發(fā)生了變化,很多之前無法完成的問題都可以利用ChatGPT解決。不

2023-05-10

世界熱推薦:“沒有談判余地” 美國兩黨爭斗加劇債務(wù)上限困局

耶倫連續(xù)兩天發(fā)聲警告?zhèn)鶆?wù)違約后果隨著美國債務(wù)違約的陰影日益逼近,美國財政部長耶倫7日和8日接連在美國媒

2023-05-10

勇士集體炮轟裁判!科爾怒摔毛巾,庫里不服氣,要求NBA給個解釋 熱門

勇士隊目前大比分1:3,暫時落后湖人隊現(xiàn)在來看他們已經(jīng)是一只腳站在了懸崖邊上,如果不能夠盡快的做出調(diào)整

2023-05-10

11086人工客服電話_11086 全球微資訊

1、首先我們是鏡像使用率過多的,就造成了操作系統(tǒng)盤不能夠進(jìn)行拷貝。2、能夠格盤之后在進(jìn)行嘗試下。3、2、

2023-05-10

中牟農(nóng)商銀行:春風(fēng)送暖暖人心 熱心服務(wù)解民憂 世界速遞

河南經(jīng)濟(jì)報記者楊磊通訊員陰朋莉“還是你們中牟農(nóng)商銀行服務(wù)態(tài)度好、辦業(yè)務(wù)速度快。”客戶段先生不禁豎...

2023-05-10

薊州區(qū)與天津外國語大學(xué)合作辦學(xué) 新學(xué)校2025年秋投用 天天觀速訊

天津北方網(wǎng)訊:5月8日,天津外國語大學(xué)與薊州區(qū)人民政府簽訂全面戰(zhàn)略合作框架協(xié)議和合作辦學(xué)協(xié)議書,探索區(qū)

2023-05-10

【快播報】抖音規(guī)范平臺AI生成內(nèi)容 數(shù)據(jù)安全已成AI發(fā)展的前提保障

抖音發(fā)布關(guān)于人工智能生成內(nèi)容的平臺規(guī)范暨行業(yè)倡議。其中提出,各生成式人工智能技術(shù)的提供者,均應(yīng)對生成

2023-05-10

高中議論文素材最給力的段落摘抄_高中議論文段落摘抄|世界快報

1、心靈——心靈是一方廣袤的天空,它包容著世間的一切;心靈是一片寧靜的湖水,偶爾也會泛起陣陣漣漪;...

2023-05-10

巴西決定對628種機(jī)械和裝備產(chǎn)品免除進(jìn)口關(guān)稅

當(dāng)?shù)貢r間9日,巴西外貿(mào)委員會執(zhí)行管理委員會作出決定,對628種機(jī)械和裝備產(chǎn)品免除進(jìn)口關(guān)稅,免稅措施一直持

2023-05-10

紅酒打開可以放多少天_紅酒打開后最多能放多少天

1、現(xiàn)在葡萄酒已經(jīng)取消保質(zhì)期了,可以喝的。2、開瓶后的保存方法:開過的酒應(yīng)該將軟木塞塞回,把酒瓶放進(jìn)冰

2023-05-10

【環(huán)球新視野】伊藤美誠回應(yīng)被惡搞:從不介意!感謝中國球迷,我就是我

在中國,伊藤美誠是一名頗有爭議的選手。有人很欣賞她,特別是那種不服輸?shù)膭蓬^;有人很討厭她,討厭她的張

2023-05-10

女生學(xué)校產(chǎn)子后從二樓扔下?廣西一職校回應(yīng)了-每日快報

近日,有網(wǎng)友發(fā)布信息稱,有女學(xué)生在宿舍生了孩子后“直接把仔從樓上丟下去”。相關(guān)圖片和視頻顯示,一...

2023-05-10

世界要聞:孤影影岳風(fēng)纏霧

1、《孤影影岳風(fēng)纏霧》是李半仙寫的網(wǎng)絡(luò)小說連載于3G書城。文章到此就分享結(jié)束,希望對大家有所幫助。

2023-05-10

熱門看點(diǎn):師父書房懲罰打板子_家法用板子或棍子進(jìn)行懲罰的故事

1、一天兒子犯了錯,父親看到他,有一種抽他的欲望。2、旁邊剛好有一條扁擔(dān),就抽了上去,后來覺得扁擔(dān)不方

2023-05-09

再次釋放積極信號 公募REITs首現(xiàn)基金管理人自購_今日熱門

公募REITs市場近期頻現(xiàn)積極信號,繼原始權(quán)益人接連增持后,基金管理人也親自“下場”自購。華夏基金9日...

2023-05-09

特斯拉向用戶征求改進(jìn)意見,結(jié)果收到2萬多條評論|環(huán)球微頭條

IT之家5月9日消息,特斯拉創(chuàng)始人埃隆?馬斯克經(jīng)常在推特上與用戶互動,特斯拉在其2022年影響力報告中指出,

2023-05-09

當(dāng)前關(guān)注:損益類科目有哪些口訣_損益類科目有哪些

1、損益類科目損益類科目。2、這類科目是為核算“本年利潤”服務(wù)的,具體包括收入類科目、費(fèi)用類科目;...

2023-05-09

環(huán)球微資訊!電梯安全管理制度范本_電梯安全

你們好,最近小未來發(fā)現(xiàn)有諸多的小伙伴們對于電梯安全管理制度范本,電梯安全這個問題都頗為感興趣的,今天

2023-05-09

江永縣召開永明河國家濕地公園迎接國家驗(yàn)收工作協(xié)調(diào)會

今日永州訊(通訊員蔣鍵)5月8日,江永縣永明河國家濕地公園迎接國家驗(yàn)收工作協(xié)調(diào)會召開,進(jìn)一步協(xié)調(diào)推進(jìn)永

2023-05-09

“人情味”旅游 暖心體驗(yàn)中提振經(jīng)濟(jì) 全球播報

最近一段時間,淄博燒烤火遍全網(wǎng)。“五一”期間,淄博市酒店預(yù)訂量較2019年同期增長超10倍,出現(xiàn)“一房...

2023-05-09

世界速訊:限售期屆滿,優(yōu)利德部分股東計劃減持

上述通過持股平臺間接持有的股份均為公司首次公開發(fā)行前的股份,尚未上市流通;上述通過2022年限制性股票激

2023-05-09

山東學(xué)生身高全國第一?高于全國平均水平,但輸給了黑龍江 新視野

人民日報健康客戶端查詢,根據(jù)高等教育出版社出版的《2019年中國學(xué)生體質(zhì)調(diào)研報告》,19-22歲我國城市男生

2023-05-09

瑞典地產(chǎn)公司SBB推遲派息 引發(fā)房地產(chǎn)板塊領(lǐng)跌歐股

智通財經(jīng)APP獲悉,在瑞典最大的商業(yè)地產(chǎn)公司之一SBB推遲派息、經(jīng)濟(jì)增長面臨壓力等因素的影響下,歐洲股市周

2023-05-09

快消息!萊克電氣清潔電器創(chuàng)新顯成效 多品類齊頭并進(jìn)

中證網(wǎng)訊(王珞)隨著萊克電氣在核心電機(jī)技術(shù)方面的研發(fā)提升以及對消費(fèi)用戶痛點(diǎn)的精準(zhǔn)把握,公司品類創(chuàng)新層出

2023-05-09

【全球聚看點(diǎn)】我愛我家:今年會啟動相寓業(yè)務(wù)獨(dú)立分拆上市的準(zhǔn)備工作

相寓獨(dú)立上市是公司一直明確的戰(zhàn)略目標(biāo),公司今年將會啟動相寓業(yè)務(wù)獨(dú)立分拆上市的準(zhǔn)備工作。

2023-05-09

全球快播:外媒:日本實(shí)際工資連續(xù)12個月下滑

每日速看!阿爾特(300825.SZ):公司電磁式DHT及電磁離合器模塊的市場競爭力及銷量有望逐步體現(xiàn)

數(shù)字紅外接近檢測模塊應(yīng)用在真無線立體聲耳塞領(lǐng)域|快播報

快資訊:火炬之光無限狂人爆裂流怎么玩 火炬之光無限狂人爆裂流bd攻略

世界關(guān)注:股債資產(chǎn)有機(jī)可尋 借助績優(yōu)“固收+”華安乾煜把握行情

游戲王光之創(chuàng)造神石板多少錢_光之創(chuàng)造神石板的動畫劇情|每日熱門

CARIAD軟件,真的要為大眾的銷量負(fù)全責(zé)嗎?

2022年度全國優(yōu)質(zhì)專用小麥質(zhì)量鑒評暨產(chǎn)業(yè)發(fā)展大會召開 要聞

訊息:腿粗怎么辦小孩_腿粗怎么辦

世界播報:預(yù)計年底上市,現(xiàn)代IONIQ 5 N官方諜照曝光

風(fēng)格和外觀的設(shè)計都給大家?guī)砹硕恳恍碌母杏X 天天消息

人民銀行今日開展20億元逆回購操作 公開市場實(shí)現(xiàn)凈投放20億元 全球熱文

攬勝運(yùn)動版電動踏板_路虎攬勝運(yùn)動版

2023年罐頭食品概念股名單(5月9日)

信用卡逾期怎么去協(xié)商?信用卡逾期一年多還可不可以繼續(xù)用?

天天視訊!最高法:加大涉農(nóng)民工工資案件執(zhí)行工作力度

當(dāng)前關(guān)注:【搶抓機(jī)遇促發(fā)展·青海在行動】多元消費(fèi)場景催熱西寧夜經(jīng)濟(jì)

前4月超半數(shù)股基上漲 招商廣發(fā)嘉實(shí)等產(chǎn)品漲幅超40%

Pro+版真機(jī)曝光 OPPO Reno10系列或主打“雙芯人像,所愛躍然眼前” 快看

河南確山:種下中藥材 開出“致富花”|全球速看

【天天速看料】手機(jī)插上電腦無法識別的usb_手機(jī)連接電腦顯示無法識別的usb設(shè)備怎么辦

這個五一檔,韓寒贏麻了 世界今日報

天天訊息:溫馨!網(wǎng)球天王費(fèi)德勒曬一家六口全家福,雙胞胎兒子越長大越帥氣

安永報告:中國對外直接投資開局良好

孟遺_世界要聞

Copyright @  2015-2022 太平洋家電網(wǎng)版權(quán)所有  備案號: 豫ICP備2022016495號-17   聯(lián)系郵箱:93 96 74 66 9@qq.com