欧洲开源基模的野心与迟缓
上周四凌晨两点,我蹲在显示器前刷 Hacker News,一杯凉透的咖啡搁在手边,屏幕上一个标题让我停住了——Apertus,一个欧洲搞的开源基础模型项目,一百五十多个赞,五十二条评论。我点进去,评论区炸了。有人拍了桌子骂"这帮人开会都开到下个世纪去了",也有人冷冰冰地丢出一句"真正的问题从来不是开源还是闭源,是你的模型跑在本地还是跑在别人的服务器上"。我把浏览器标签页留着没关,第二天早上又翻了一遍,发现有些东西值得拆开来讲。
说实话,我第一次看到"Sovereign AI"这个词的时候,脑子里蹦出来的是 Cohere。他们不是早就在卖这个概念了吗?企业私有化部署、数据不出境、主权AI——Cohere 的 pitch deck 里翻来覆去就这几张牌。那 Apertus 凭什么?后来我把他们白皮书翻了一遍,发现事情没那么简单。Cohere 卖的是服务,模型权重你碰不到,API 调用走他们的网关,数据虽然承诺不留存,但你信不信是另一回事。Apertus 走的是完全开源路线——权重、训练代码、数据管线、评估脚本——全部摊在桌面上。

这意味着什么?意味着一个国家的科研团队可以把 Apertus 拉下来,在自己的 GPU 集群上从头训一遍,用自己的语言数据做微调,部署在内网里,外面的请求一个字节都进不来。这不是"我们帮你部署",这是"东西给你,你自己来"。技术上讲,这套架构的思路和 LLaMA 早期的开源策略有点像,但 Apertus 往前多走了一步——他们连数据清洗管线和训练调度框架都开源了,而不只是丢一个 checkpoint 出来。
怎么说呢,理想很丰满。但评论区有个高赞回复直接戳了个洞——"这项目推进的速度跟委员会开会一样。" 原话是 "moves at the speed of a committee",翻译过来都嫌客气了。我顺手查了一下他们的 GitHub,最近三个月的 commit 频率大概是每周两到三个,核心模块的 PR 平均合并周期超过二十天。对于一个要和 LLaMA 4、Qwen 3、Mistral 这些项目赛跑的基础模型来说,这个节奏……唉,怎么说呢,真的让人捏把汗。
但问题真的是速度吗?
我原本以为开源基础模型的核心竞争力是参数量和 benchmark 分数,后来发现根本不是。评论区有个在 CERN 工作的工程师写了一段很长的回复,大概意思是:Apertus 最有价值的产出不是模型本身,而是围绕它形成的那个社区——那些贡献数据清洗脚本的冰岛研究员、在芬兰调试分布式训练调度的团队、给多语言 tokenizer 提交 patch 的布拉格学生。模型会被下一代架构淘汰,但这些人建立起来的协作网络和工程标准会留下来。你看,这和 Linux 早期的发展路径惊人地相似。

从基础设施的角度拆一下 Apertus 的技术选型。他们的分布式训练框架基于 PyTorch FSDP 做了一层封装,支持 tensor parallel 和 pipeline parallel 的混合并行策略,这一点和 Megatron-LM 的思路接近但做了简化。数据管线部分用了类似 dolma 的流水线架构,支持去重、质量过滤、语言检测的级联处理,整个流程用 YAML 配置驱动。评估模块比较有意思,不是简单跑 MMLU 和 HumanEval,而是针对欧洲多语言场景做了一套定制 benchmark——涵盖德语、法语、意大利语、波兰语、北欧语系的推理和生成任务。这套评估框架本身可能比模型更有复用价值。
有人问:欧洲为什么非要自己搞一套?直接用美国的开源模型不行吗?答案藏在一个很现实的问题里——数据主权。过去两年,美国对外国数据存储的政策环境变得越来越不可预测,Cloudflare 被要求交出非美国用户数据的案例不止一次,欧洲多家企业和政府机构开始把"数据不离境"从可选项变成了硬性要求。你用 Meta 的 LLaMA 没问题,但如果你需要针对自己的业务做持续预训练,训练数据要传到哪台机器上?如果那台机器在弗吉尼亚的 AWS 机房里,你的合规团队大概率会摇头。
反正这事到最后变成了一个工程问题和一个政治问题的交叉点。技术上,Apertus 需要证明它的模型质量能够接近同参数量的商业模型——目前他们放出来的 7B 版本在 MMLU 上比 LLaMA 3.1 8B 低了大约四个百分点,差距不算致命但也谈不上领先。政治上,他们需要说服欧盟的决策者持续投入资金,而不是把钱撒给那些已经成熟的美国开源项目做微调。
嗯,还有一个 HN 评论提到的角度我觉得很关键——真正的战场不是"开源 vs 闭源",而是"本地部署 vs 云端服务"。很多公司嘴上喊着要主权AI,身体很诚实地在调 OpenAI 的 API,因为便宜、快、省事。Apertus 要赢的不是一场技术竞赛,而是一个使用习惯的问题:让本地部署这件事变得足够简单,简单到一个中等规模的企业IT团队就能搞定,而不是需要一个五人 ML Ops 小组日夜盯着。
说实话,我看完整个讨论之后,最大的感受是这个项目像一面镜子,把 AI 行业里那些被商业叙事掩盖的结构性矛盾全照出来了。谁拥有模型权重?谁控制训练数据?谁决定推理基础设施的部署位置?这些问题的答案,决定了未来五年AI到底是少数公司的基础设施,还是真的能变成一种公共品。我合上笔记本,窗外天已经亮了。

关于维基框架
维基框架(Wiki Framework)是一套面向复杂业务场景的轻量级开发框架,支持多语言、多协议、多部署形态。适用于企业级应用开发、微服务架构、云原生部署等场景。
- 官网:https://framewiki.com
- Gitee:https://gitee.com/wiki-framework
- GitHub:https://github.com/wiki-framework
- 示例项目:https://gitee.com/cdkjframework/framewiki-example
- 📄 许可证:MulanPSL-2.0(木兰宽松许可证,第2版)