大语言模型的多层次多学科中文评估套件
C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,如下所示。
通过 C-Eval 试题的测试后得到了一份中文大语言模型的排行榜,其中表现最好的是来自 是由清华大学和智谱 AI 联合研发的第二代 GLM 系列对话语言模型,其次是GPT – 4模型。
Δ
Ctrl+D
面向开发者群体的效率工具更新,可能降低AI应用构建门槛。
刚刚Nous Research 宣布Hermes Agent 现在原生支持个人微信了 微信扫码即可连接,私聊
加密货币交易网站Crypto.com创始人Kris Marszalek以7000万美元天价收购互联网域名“A
字节跳动在2月10日推出新一代图像生成模型Seedream 5.0,距离上一代4.5发布仅两个多月。最大亮点
AI视频生成独角兽Runway宣布完成3.15亿美元E轮融资,估值飙升至53亿美元,较上一轮几乎翻倍。本轮由