有这么一个神仙平台。

大厂把它当成新模型的「试炼场」。DeepSeek、OpenAI、谷歌,都曾在这里秘密测试。

普通用户可以在这里薅羊毛。

你可以免费体验 GPT-5.2Gemini 3 ProClaude Opus 4.5Grok 4.1,还有 DeepSeek、智谱、MiniMax 这些国产大佬。

图像模型,可以免费用 Nano Banana ProGPT-Image-1.5 和 FLUX 2

两周前,这个平台刚完成 1.5 亿美元 A 轮融资,估值 17 亿美元,成了独角兽。

从伯克利两个博士生的校园项目,到 17 亿美元,用了不到三年时间。

昨天,它又上线了 Video Arena 网页版。

15 个顶级视频模型免费玩,Veo 3.1Sora 2可灵 2.6 ProSeedance v1.5 ProWan 2.5Hailuo 2.3,全都有。

640-210

它就是 LMArena,lmarena.ai

 


LMArena 不测跑分,只测「真人偏好」。

你输入一个问题,系统随机分配两个匿名模型回答。你不知道谁是谁,只能凭回答质量投票选出更好的那个。投票后才揭晓身份。

就像开盲盒。

600 万次真人投票累积下来,平台用类似国际象棋 Elo 评分系统计算排名。赢一场加分,输一场扣分,最终形成大模型榜单。

没有标准化试卷,题目来自全球 150 个国家、500 万月活用户的真实提问。

跑分可以刷榜,让模型提前背答案。但真人投票,很难作弊。

所以大厂都认这个榜。

OpenAI、谷歌、Anthropic、xAI,新模型发布前都会先送测 LMArena。

 


LMArena 有个传统,新模型发布前,厂商会取个代号匿名测试。

DeepSeek R1 正式发布前几个月就在这里偷跑了。

OpenAI 的 GPT-5 代号「summit」,谷歌 Gemini 2.5 Flash Image 代号「nano-banana」,后者曾经红极一时,登顶图像生成和编辑榜榜首。

这个平台 2023 年还只是伯克利两个博士生的校园项目,叫 Chatbot Arena。顾问是 Ion Stoica,Databricks 联合创始人。

640-213

2025 年 5 月商业化,拿了 a16z 领投的 1 亿美元种子轮。

8 个月后又完成 1.5 亿美元 A 轮,估值 17 亿,成了独角兽。

现在年化收入超 3000 万美元,靠企业付费评测养活。测试和公开榜单对普通用户免费。

 


LMArena 最初只有文本对话一个赛道,现在已经扩展到八个。

想聊天,有 Gemini 3 ProGPT-5.2Claude Opus 4.5Grok 4.1,还有 DeepSeek R1GLM-4.7

谷歌目前霸占着 Text Arena 的榜首。

640-211

想让 AI 看图说话,Vision Arena 里谷歌同样遥遥领先。

想写代码,Code Arena(曾叫 WebDev Arena)可以一键生成前端页面让你打分。

Claude Opus 4.5 稳居第一,Anthropic 在编程这个赛道杀疯了。

想生成图片,Text-to-Image Arena 累计超 420 万票,GPT-Image-1.5FLUX 2Ideogram 3 都能免费用。国产的腾讯 Hunyuan Image 3.0 和字节 Seedream 4.5 也榜上有名。

想修图,Image Edit Arena 里 OpenAI 刚反超谷歌拿下榜首。谷歌的 Nano Banana Pro 屈居第二,累计 50 万票。

想生成视频,昨天刚上线的 Video Arena 有 15 个顶级模型,Sora 2 Pro 和 Veo 3.1 并列第一。

640-212

这些平时要付费的模型,在 LMArena 上全免费。

 


那么,怎么用?

打开 lmarena.ai,直接输入问题,你甚至都不用注册。

默认是 Battle 模式。

你输入问题,系统随机分配两个匿名模型回答,你按照结果投票,投完才揭晓背后的模型。

划重点,这个模式有机会遇到还没发布的神秘模型。比如谷歌即将发布的 Gemini 3 Flash Image,也就是大香蕉 Nano Banana Pro 的弟弟。

如果你想指定模型对比,点击左上角的「Side-by-Side」,手动选两个模型 PK。

比如想看 Claude Opus 4.5 和 GPT-5.2 谁更强,直接选了对比。

640-214

如果只想正常聊天不投票,选「Direct Chat」,挑一个模型用。

想生成图像或修图,点输入框下方的「图像」按钮,输入提示词或者上传图片。

想生成视频,访问 lmarena.ai/video,输入提示词就能生成,视频可以下载。

注意,需要登录才能玩视频生成,注册免费。

 


说完优点,再泼一泼冷水。

LMArena 的本职工作是收集投票数据做排行榜,不是生产力工具。

所以,白嫖只是顺便。

用 Battle 模式,每轮对话后必须投票,不能跳过。

模型响应速度有时比官方慢。频繁使用会触发限制。

时不时还可能弹人机验证。

但白嫖还要啥自行车。

600 万次真人投票,骗不了人。