2025 年,是 AI 工具极其残酷的一年。

用一个俗套的话说,AI 发展太快了,这一年又席卷了不少人的钱包,包括我们。

这一年我们买会员、充积分,前前后后花了估么有几万块钱,市面上大多 AI 工具几乎摸了个遍。

有的刚上线就消失了,有的热闹一阵很快被替代,也有少数真正融入了我们的工作流,成为我们每天离不开的外骨骼。

钱不能白花,所以这一期,我把目前最主流、最能打的 AI 工具,系统地盘点一遍。

将从文本写作、编程辅助、图像生成、视频生成、数字人相关工具五个板块展开。

每一类都会直接说明哪个好用、哪个性价比最高、哪个看起来很热但其实不值得投入时间。

总体信息量比较大,所有工具和结论,老样子,已经整理成了一份完整文档。

需要的朋友,文末扫描二维码进群打 AI 工具 就可以领取。

如果你不想在工具选择上踩坑,也不想被一堆新名词反复消耗精力,那这一期,你一定要看完。

准备好了吗,关注天Jiang,我们直接开始。

1.

文本模型

先说文本模型这个核心战场。

在我们团队目前的实际使用里,整体体验最好的是谷歌 Gemini 3。

它在长文本理解和多模态分析上进步非常明显,尤其适合处理超长科研论文、大型代码仓库和复杂文档。

还有百万级上下文窗口,我们可以一次性把材料完整丢进去,不需要反复拆分、补充上下文,模型的理解连贯性和准确度都会明显更高。

第二个,OpenAI 的 ChatGPT,依然稳定可靠。

GPT-5.1 的综合能力仍然处在第一梯队,用来写作、分析、编程基本不会出大问题,而且长期使用的记忆保留也是 GPT 的优势。

但相比于前一代,5.2 在部分场景下表现就有起有伏,适合自己多测试,再决定是否作为主力使用。

Anthropic 的 Claude 系列,优势仍然在逻辑结构和表达质量上。

它更擅长长篇写作、严肃文本和脚本类内容,语言控制感强,推理过程也更清晰,是内容创作者常用的一款。

这三款模型的订阅价格都在每月 20 美元左右。

如果只选一个作为长期主力,从综合能力、中文适配和长文本处理来看,可以优先选 Gemini 3。

Grok 在文本能力上处于中上水平,它最大的优势是信息时效性,能够快速获取非常新的新闻和事件动态,但它的核心竞争力并不在深度写作。

再看国产模型。

DeepSeek 是目前性价比最高的一档,它在成本极低的情况下,提供了接近顶级模型的能力,而且是开源的,可以本地部署,对个人用户来说,日常使用几乎免费。

对开发者来说,API 调用价格非常低,每百万 tokens 只要几块钱。

秘塔 AI 明确定位在学术场景,适合论文检索、资料整理和严肃研究。

Kimi 2在长文本和联网搜索的体验上还算不错。

通义千问和豆包的优势在于 C 端落地速度快,功能整合度高,更偏向普通用户的日常使用场景,学习成本低,拿来就能用。

总体来看,如果要最好用,选 Gemini,性价比最高选DeepSeek。

这是我们总结的文本模型应用场景推荐列表:

640-257

2.

编程辅助(开发者工具)

2025 年, AI 编程的重心已经发生变化,Vibe Coding 的发展实在是太快。

整段代码生成、跨文件修改或者半自动化开发流程,程序员的角色也随之变化,从主要负责写代码,转向负责系统设计、任务拆解和结果审查。

首先是 Cursor,它必须是目前 AI 与 IDE 深度集成做得最成熟的产品之一。

Cursor 的核心优势在于,它不是在编辑器上加一个对话框,而是直接参与代码修改流程。

你用自然语言描述需求后,它可以同时修改前端、后端以及相关配置文件,并尝试自动处理依赖关系和调用链问题。

模型层面,Cursor 深度集成了 Claude 3.7 Sonnet、GPT-5.2、DeepSeek V3 等主流模型,用户可以根据任务复杂度手动选择,或者交给系统自动判断,整体体验更像是一个协作型的开发工具。

价格方面,Pro 版 20 美元/月,同时还有 Pro+、Ultra 以及企业级方案。

Next,Windsurf,通常被视为 Cursor 的主要替代方案。

它的定位同样是 AI 原生 IDE,但在交互设计上更克制,界面更简洁。

一部分开发者认为,它在复杂排错和长时间协作中的稳定性优于 Cursor。

Windsurf 的一个重要特点是动态上下文感知,它能理解当前代码文件,能同步参考终端报错信息、Git 提交历史以及浏览器日志,从而在调试场景中给出更贴近真实工程环境的修改建议。

Pro 版定价 15 美元/月,也提供企业版本。

Next,Claude Code 则是另一种思路,它强调高度自动化和自主执行能力。

开发者只需要在终端输入一条指令,Claude Code 就可以自行扫描整个 src 目录,运行测试,定位错误,完成修复,并生成 Git 提交。

这种模式非常适合熟悉命令行、希望减少重复操作的工程师,但对项目结构和权限管理要求也更高。

Next,GitHub Copilot ,它的优势在于稳定性和生态整合。

Copilot 与 VS Code、GitHub 本身的结合度非常高,几乎没有额外学习成本。

值得一提的是 GitHub Spark,这是一个基于自然语言的应用构建工具,允许非专业开发者通过对话生成完整的小型应用。

整体思路偏保守,但可靠性强,适合对交付质量要求高的团队。

价格方面,Pro 版 10 美元/月,Pro+ 版 39 美元/月,包含更高阶模型。

最后是豆包的 MarsCode。

它的定位非常明确,免费、易用、覆盖基础开发需求。

对于学生、初级开发者,或者只是偶尔需要写代码的人来说,MarsCode 的性价比很高,作为日常辅助工具完全够用。

总结来看,最好用的绝对是Cursor,最具性价比的非windsurf和豆包marscode所属。

这是编程工具推荐表:

640-258

3.

图像生成

这一年,AI 图像生成终于跨过了两个长期存在的门槛,画得不像和画得不对。

过去的问题并不是算力不够,而是模型既不理解真实世界结构,也不真正理解用户在说什么,结果就是要么好看但不对题,要么对题但画面失控,直到去年,这两个问题开始被系统性解决。

首先是综合可用性最强的,2025 年底出现的黑马 Nano Banana Pro。

它确实画得漂亮,这没得说,而且把图像生成与 Gemini 3 Pro 的多模态推理能力做了深度融合。

这意味着模型在生成画面之前,会先理解语义结构、场景逻辑和现实世界知识,而不是单纯拼接风格和元素。

在实际使用中,Nano Banana Pro 对画面结构、物体关系、空间逻辑的把控明显更稳定,生成结果更符合常识,也更少出现违和或语境错误的问题。

对普通用户来说,只要你能把需求说清楚,基本就能得到可直接使用的结果,而且只要开通 Gemini 3 的会员即可使用,没有额外门槛。

第二个,是审美下限最高的,依然是我们无敌的 Midjourney v7。

Midjourney 的优势非常明确,它通过大量人工审美微调,把画面完成度拉到了行业顶尖水平,即便你的提示词写得一般,生成结果也很少翻车,因此它长期被视为 AI 绘画里的审美旗舰。

但不太好用的地方在于,Midjourney 更像是一个艺术家,而不是一个执行型工具。

如果你希望精确控制某个元素的位置、比例或逻辑关系,比如让某个物体向左移动一点,或者严格对齐参考图,它的可控性会明显不足。

价格方面,基础版 10 美元/月,还有标准版、Pro 版和 Mega 版可选。

第三,讲讲开源,那就是 Stable Diffusion ,它依然是开源图像生成领域的核心底座,最大的优势在于灵活性和可定制性。

通过模型微调、LoRA、ControlNet 等方案,你几乎可以把它训练成任何你想要的风格或用途,因此它仍然是专业创作者和技术用户的首选。

但代价也很明确那就是硬件要求高,学习和部署成本不低,原生模型的审美表现通常不如 Midjourney 细腻,对新手也并不友好。

Stability 官方的使用价格为 0.01 美元 / 1 credit,更适合有明确生产需求的人群。

第四个,ChatGPT Image ,最大的优势就是语义的理解能力。

可以说 GPT 拥有目前行业内最强的自然语言理解能力,支持多轮对话逐步微调画面细节,尤其擅长处理复杂场景,比如包含 20 个以上独立物体的构图,或者需要严格按照文字描述还原逻辑关系的画面。

有一个具体场景,即五指问题,当我让所有生图模型生成“六指”的手,只有GPT坚定的跟随我的指令。

但它的问题也很现实,生成龟速,对角色一致性的长期控制能力较弱,而且对中文提示词的支持并不理想,容易出现语义漂移或无意义元素。

GPT Plus 会员可以免费使用,但更适合作为复杂场景构思工具,而非高频出图工具。

最后,国产,豆包的 Seedream,毫无疑问是中文用户体验最好的选择之一。

豆包可以说对中文语义和东方审美的理解非常贴近本土用户预期,提示词几乎可以怎么说怎么画。

App 端体验流畅,生成结果稳定,画面整体观感自然、不浮夸,很适合自媒体配图、电商素材和日常内容生产。

虽然在极端复杂结构或艺术探索上不占优势,但在省事、直观、好用这件事上,Seedream 的完成度非常高。

总结,最好用且接地气的是Nano Banana Pro,性价比最高的当然是豆包。

推荐应用场景表格:

640-259

4.

视频生成

视频生成是 2025 年竞争最激烈、也是分化最明显的赛道。

各家模型几乎不再追求让任何用户都能用好得广撒网策略,而是明确站位,有的押物理真实,有的押创作效率,有的押专业控制,有的押大众生产力。

你用得顺不顺,很大程度取决于你到底想拍什么。

首先是 OpenAI Sora 2,走的是现实世界还原这条路线。

它目前在物理模拟层面依然是行业天花板,无论是流体运动、重力反馈、物体碰撞,还是整体时间连续性,都明显更符合现实逻辑,几乎不需要用户反复修正常识错误,这让它在广告分镜、影视概念验证、写实风格内容中非常可靠。

但代价也很清楚,限制多、边界硬。

Sora 2 在角色行为、夸张动作、风格化叙事上的自由度相对保守,创意空间不如部分国产模型。

当前主要面向 ChatGPT Plus / Pro 用户开放(20 美元/月),高阶功能需要额度,适合“对结果稳定性要求高”的用户,而不是追求天马行空表达的人。

第二,Google Veo 3,优势集中在音画同步。

Veo 3 目前公认的强项是角色口型与声音的匹配精度,在人物说话、对口播、讲解类短视频中表现非常突出,对自媒体创作者尤其友好,你几乎不需要额外处理配音和画面对齐的问题,生成后即可使用。

它的问题在于视觉风格偏统一,画面常带有一种过度平滑的 AI 质感,在审美上不够锋利,也不太适合强风格表达。

Veo 3 包含在 Google One AI Premium 订阅中(20 美元/月),定位更偏向高效率内容生产工具。

第三,Runway Gen-4,是目前最偏专业的一套方案。

它的产品好像不试图讨好所有的普通用户,而是把重心放在导演级控制能力上,比如运动笔刷、精确运镜、镜头路径规划、分层控制,这些工具让它成为很多AI视频团队的后期工作台,而不是一句话出片的生成器。

它的优点是可控性极强,适合影视、广告、专业剪辑流程,缺点是学习成本高,而且价格不低。

订阅从 12 美元到 76 美元不等,按额度计费,明显是给专业团队或商业项目准备的。

说说国产,Kling AI(可灵),主打时长和动作幅度。

它在国产模型中以支持超长视频生成著称,最长可达 3 分钟,在人物动作、镜头变化和叙事连续性上比较激进,适合剧情型或长内容实验。

但使用体验并不算轻量,比如排队时间长,高画质模式消耗额度非常快,对创作者的耐心和成本控制都是考验。

价格体系分层明显,黄金、铂金、钻石月卡分别对应不同强度用户,更偏向重度创作人群。

第二个,海螺 AI(MiniMax 旗下),强调整体审美质感。

它在画面氛围、光影和电影感上表现不错,视频生成得风格偏“生成好看的视频”,适合做视觉展示或情绪化内容,但在复杂指令遵循方面相对弱一些,尤其是需要精准文字还原或多条件约束时,稳定性不足。

定价区间跨度较大(68–1399 元/月),适合作为风格视频的生成工具,而不是高精度执行工具。

最后,Jimeng AI(即梦),字节跳动的全能型选手。

即梦最大的优势是和剪映的深度打通,形成了完整的创作闭环。

从生成到剪辑再到发布,几乎不需要切换工具,对国内平台生态和运营流程非常友好,因此它非常适合自媒体新手、运营团队以及短视频高频生产场景。

对专业影视或高复杂度叙事来说上限有限,但作为能快速出内容的生产工具,完成度很高。

So,年度最好用,Runway ;年度性价比,可灵 AI (Kling) 。

这是视频生成方面的推荐应用场景:

640-260

5.

数字人

在数字人这个赛道,差距其实非常明显,HeyGen 目前依然是绝对的行业领头羊,优势集中在拟真度和商业可用性,几乎已经形成了清晰的分层。

HeyGen 的 Avatar IV 技术在眼神对焦、微表情变化和手势连贯性上做得非常成熟,整体观感已经接近真人出镜的下限水平,在多数商业场景里几乎不需要再向用户解释“这是 AI 做的”。

尤其是在视频翻译功能上,HeyGen 不仅能精准对齐口型,还能最大程度保留原本的音色和语气,这一点在跨语言内容中非常关键。

因此,HeyGen 被广泛用于企业出海、产品介绍、培训视频和口播类内容,本质上是一个“把真人拍摄流程工业化”的工具,服务于商业表达和规模化生产。

价格也体现了这一点,即创作者版大约 29–39 美元/月,包含 15 分钟生成时长;商业和团队版价格更高,而 Avatar IV 的高阶模型需要额外点数,适合对效果有明确要求的专业用户。

相比之下,国内剪映的数字人路线完全不同,更强调低门槛和高效率。

剪映内置了大量现成的数字人模板,直接适配国内主流社交平台的节奏和审美,我们只需要输入文本,就能一键生成包含字幕、转场和背景音乐的完整数字人口播视频,几乎没有学习成本,这让它在日常内容更新、账号运营和信息型短视频中非常好用。

但不理想的就是模板化比较严重,容易撞脸,动作和表情相对机械,在长时间观看下容易暴露伪真实感;在高阶定制,比如专属形象、复杂情绪或品牌级一致性上,和 HeyGen 还有明显差距。

价格方面,基础数字人免费,SVIP 会员约 79 元/月,更适合追求能快点发的用户。

一句话总结这两者的差别:

HeyGen 是把真人出镜变成标准化商业能力,而剪映是把出镜这件事直接降到最低门槛。

如果是专业形象和跨语言交付,选 HeyGen,如果要的是效率和日常更新,剪映已经完全够用。

6.

总结

盘点到这里,其实结论已经很清楚了,我简单上上价值。

工具在变强,门槛在持续降低,真正稀缺的,早就不是能力本身,而是能把能力用起来的我们。

2025 年,我们不缺强大的工具,也不缺看起来很厉害的产品,缺的是长期使用、持续打磨、愿意把一个工具真正融进工作流里的我们。

我们不希望你去收藏大量的工具、下载一堆软件、开几个会员,却从来没有真正改变过自己的工作方式。

要做工匠,哪怕只选一个 AI 工具,把它吃透,用熟,用到极致,让它贯穿你的创作、研究、表达或业务流程,这才是真正属于你的竞争力。