LMArena

站长亲测

一个通过用户互动和投票评估AI模型性能的开源平台，助力用户比较和选择最佳语言模型。

0(0 评价)

25 浏览

0 收藏

免费

工具介绍

LMArena 是一个由加州大学伯克利分校 SkyLab 和 LMSYS 团队打造的开源平台，旨在通过众包方式评估和比较大型语言模型（LLM）的性能。它以匿名对战为核心功能，用户可以与两个匿名的AI模型进行交互，提出问题并对回答质量进行投票，从而生成基于 Elo 评级系统的实时排行榜。这种盲测机制有效减少品牌偏见，确保评估结果的客观性和公正性。平台支持超过70种语言模型，包括 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude，以及开源模型如 Vicuna 和 Llama 等，覆盖了从文本生成到多模态任务的广泛应用场景。

LMArena 的核心特色在于其社区驱动的评估模式。用户可以在平台上免费与AI聊天机器人互动，提出多样化的问题，从日常对话到复杂任务均可测试。平台通过收集用户投票（已超过280万次）生成动态排行榜，展示各模型在多轮对话、推理能力、代码生成等任务中的表现。此外，LMArena 支持多模态功能，用户可上传图片与支持图文交互的模型（如 GPT-4o、Gemini）进行对话，适用于测试模型的图像理解和生成能力。WebDev Arena 是其独特扩展功能，用户可以输入前端开发需求，系统生成两个不同页面供评分，特别适合开发者比较AI生成代码的质量。

LMArena 的排行榜基于国际象棋的 Elo 评分系统，结合 MT-Bench 和 MMLU 等基准测试，提供科学的性能对比。平台还提供 Prompt-to-Leaderboard（P2L）机制，允许用户通过自定义提示词实时测试模型表现，增强了灵活性。数据集如 LMSYS-Chat-1M（包含100万真实对话）公开在 GitHub 上，供研究人员分析。无论是 AI 开发者、研究人员还是普通用户，LMArena 都提供了一个透明、中立的测试环境，助力选择最适合特定场景的模型。其学术背景和开源性质进一步提升了其可信度，适合广泛的 AI 技术探索场景。

小羊实测
亲测推荐

选择chat模式可以选择大部分的收费模型！也可以免费使用图片生成，但是需要注意你的信息、你的对话内容会被公开在github，并且你的记录是不被保存的也就是每次刷新就没了，但是免费的就无所谓了。

📎 实测附件

1个文件

✨ 以上内容为小羊亲自测试体验，仅供参考。每个人的使用需求和体验可能不同。

主要功能

匿名对战

实时排行榜

多模态支持

代码生成比较

用户投票

数据集公开

🐑

🐑

用户评分

工具详情

适用人群

AI开发者

研究人员

技术爱好者

教育工作者

支持平台

web

支持语言

英语, 中文, 多种语言

数据安全

GDPR合规

收录时间

2025/7/20

LMArena

工具介绍

小羊实测
亲测推荐

主要功能

相关标签

用户评分

工具详情

相关教程

相关推荐
6个

相关讨论

LMArena

工具介绍

小羊实测亲测推荐

主要功能

相关标签

用户评分

工具详情

相关教程

相关推荐6个

相关讨论

小羊实测
亲测推荐

相关推荐
6个