统一评测「起跑线」评测过程透明,力求过程公平、结果公正,是 FlagEval 一贯的「金标准」。
基座模型:Qwen-7B(通义千问)、InternLM-7B 超越 Llama2-13B
SFT模型:InternLM-chat-7B、AquilaChat-7B 超越 Llama2-chat-13B
新增基座模型代码生成能力评测:InternLM-7B、Qwen-7B 领先
文章已收录「聊聊ChatGPT」专栏,欢迎大家关注:聊聊ChatGPT
重要的事情说三遍:欢迎大家投稿!欢迎大家投稿!欢迎大家投稿!!!
投稿方式如下: