7月9日,SuperCLUE發(fā)布《中文大模型基準測評2024上半年報告》,報告選取國內外有代表性的33個大模型在6月份的版本,通過多維度綜合性測評,對國內外大模型發(fā)展現(xiàn)狀進行觀察與思考。
報告顯示,云知聲山海大模型在本次半年度評測中取得總分72的優(yōu)異成績,與360gpt2-pro、字節(jié)跳動豆包、月之暗面Kimi、百川智能Baichuan4并列國內大模型第四,穩(wěn)居全球大模型第一梯隊。
SuperCLUE作為國內權威通用大模型綜合性測評基準,其前身可追溯至第三方中文語言理解評估基準CLUE(The Chinese Language Understanding Evaluation)。自2019年成立以來,CLUE基準一直致力于提供科學、客觀、中立的語言模型評測,其先后推出了CLUE、FewCLUE、KgCLUE、DataCLUE等多個被廣泛認可的評估標準。根據(jù)CLUE多年測評經(jīng)驗,SuperCLUE基于通用大模型在學術、產(chǎn)業(yè)與用戶側的廣泛應用,構建了多層次、多維度的綜合性測評基準。
作為一個完全獨立的第三方評測機構,SuperCLUE采用自動化評測技術,有效消除人為因素帶來的不確定性,確保提供無偏倚的客觀評測結果。不同于傳統(tǒng)測評通過選擇題形式的測評,SuperCLUE納入開放主觀問題的測評,通過多維度多視角多層次的評測體系以及對話的形式,模擬大模型的應用場景,真實有效考察模型生成能力。與此同時,SuperCLUE根據(jù)全球的大模型技術發(fā)展趨勢,不斷升級迭代測評體系、測評維度和方法,以保證盡可能精準量化大模型的技術演進程度。
為進一步真實反映大模型能力,本次通用測評采用多維度、多層次的綜合性測評方案,由理科、文科和Hard三大維度構成:理科任務分為計算、邏輯推理、代碼測評集;文科任務分為知識百科、語言理解、長文本、角色扮演、生成與創(chuàng)作、安全和工具使用七大測評集;Hard任務聚焦精確指令遵循測評集,未來將陸續(xù)推出復雜多步推理和高難度問題解決等評測。
從代表通用能力的一級總分來看,山海大模型得分72,與360gpt2-pro、字節(jié)跳動豆包、月之暗面Kimi、百川智能Baichuan4并列國內大模型第四,位居全球大模型第一梯隊。
具體到二級維度得分,山海大模型在理科和文科領域均表現(xiàn)優(yōu)異——在理科能力方面,山海大模型以76分的高分緊隨GPT-4o、GPT-4-Turbo-0409之后,力壓一眾國內大模型,并列排名國內第一;文科能力以75分的成績并列國內第二,實力同樣不容小覷。
在SuperCLUE基于基礎能力和應用能力兩個維度構建的模型象限圖中,山海大模型被定位為“卓越領導者”。這一分類反映了山海大模型在基礎和場景應用能力上均達到了領先水平,持續(xù)引領國內大模型技術發(fā)展和創(chuàng)新。
此外,與GPT4-Turbo-0409的對戰(zhàn)勝率統(tǒng)計數(shù)據(jù)顯示,山海勝率為17.67%,和率為65.37%,位列國內大模型第五,整體實力依舊不俗。
自2023年5月問世以來,山海大模型已相繼在C-Eval全球大模型綜合性評測、OpenCompass大模型評測、MedBench評測等多個權威評測中屢創(chuàng)佳績,充分展現(xiàn)出業(yè)界一流的通用能力和領先于世界的行業(yè)大模型能力。
正如報告所言,隨著技術進步和應用場景拓展,2024年下半年國內外大模型市場競爭將持續(xù)加劇,推動技術創(chuàng)新和產(chǎn)業(yè)升級。接下來,云知聲將繼續(xù)保持大模型能力穩(wěn)步提升,以山海為抓手,在產(chǎn)業(yè)側實現(xiàn)加速落地,致力成為真正助力各行各業(yè)的“新質生產(chǎn)力”。
轉自:中國網(wǎng)
【版權及免責聲明】凡本網(wǎng)所屬版權作品,轉載時須獲得授權并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關法律責任的權力。凡轉載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權事宜請聯(lián)系:010-65363056。
延伸閱讀