欧洲开源基模的野心与迟缓

上周四凌晨两点，我蹲在显示器前刷 Hacker News，一杯凉透的咖啡搁在手边，屏幕上一个标题让我停住了——Apertus，一个欧洲搞的开源基础模型项目，一百五十多个赞，五十二条评论。我点进去，评论区炸了。有人拍了桌子骂"这帮人开会都开到下个世纪去了"，也有人冷冰冰地丢出一句"真正的问题从来不是开源还是闭源，是你的模型跑在本地还是跑在别人的服务器上"。我把浏览器标签页留着没关，第二天早上又翻了一遍，发现有些东西值得拆开来讲。

说实话，我第一次看到"Sovereign AI"这个词的时候，脑子里蹦出来的是 Cohere。他们不是早就在卖这个概念了吗？企业私有化部署、数据不出境、主权AI——Cohere 的 pitch deck 里翻来覆去就这几张牌。那 Apertus 凭什么？后来我把他们白皮书翻了一遍，发现事情没那么简单。Cohere 卖的是服务，模型权重你碰不到，API 调用走他们的网关，数据虽然承诺不留存，但你信不信是另一回事。Apertus 走的是完全开源路线——权重、训练代码、数据管线、评估脚本——全部摊在桌面上。

欧洲数据中心机房内景

这意味着什么？意味着一个国家的科研团队可以把 Apertus 拉下来，在自己的 GPU 集群上从头训一遍，用自己的语言数据做微调，部署在内网里，外面的请求一个字节都进不来。这不是"我们帮你部署"，这是"东西给你，你自己来"。技术上讲，这套架构的思路和 LLaMA 早期的开源策略有点像，但 Apertus 往前多走了一步——他们连数据清洗管线和训练调度框架都开源了，而不只是丢一个 checkpoint 出来。

怎么说呢，理想很丰满。但评论区有个高赞回复直接戳了个洞——"这项目推进的速度跟委员会开会一样。" 原话是 "moves at the speed of a committee"，翻译过来都嫌客气了。我顺手查了一下他们的 GitHub，最近三个月的 commit 频率大概是每周两到三个，核心模块的 PR 平均合并周期超过二十天。对于一个要和 LLaMA 4、Qwen 3、Mistral 这些项目赛跑的基础模型来说，这个节奏……唉，怎么说呢，真的让人捏把汗。

但问题真的是速度吗？

我原本以为开源基础模型的核心竞争力是参数量和 benchmark 分数，后来发现根本不是。评论区有个在 CERN 工作的工程师写了一段很长的回复，大概意思是：Apertus 最有价值的产出不是模型本身，而是围绕它形成的那个社区——那些贡献数据清洗脚本的冰岛研究员、在芬兰调试分布式训练调度的团队、给多语言 tokenizer 提交 patch 的布拉格学生。模型会被下一代架构淘汰，但这些人建立起来的协作网络和工程标准会留下来。你看，这和 Linux 早期的发展路径惊人地相似。

开源社区贡献者分布地图

从基础设施的角度拆一下 Apertus 的技术选型。他们的分布式训练框架基于 PyTorch FSDP 做了一层封装，支持 tensor parallel 和 pipeline parallel 的混合并行策略，这一点和 Megatron-LM 的思路接近但做了简化。数据管线部分用了类似 dolma 的流水线架构，支持去重、质量过滤、语言检测的级联处理，整个流程用 YAML 配置驱动。评估模块比较有意思，不是简单跑 MMLU 和 HumanEval，而是针对欧洲多语言场景做了一套定制 benchmark——涵盖德语、法语、意大利语、波兰语、北欧语系的推理和生成任务。这套评估框架本身可能比模型更有复用价值。

有人问：欧洲为什么非要自己搞一套？直接用美国的开源模型不行吗？答案藏在一个很现实的问题里——数据主权。过去两年，美国对外国数据存储的政策环境变得越来越不可预测，Cloudflare 被要求交出非美国用户数据的案例不止一次，欧洲多家企业和政府机构开始把"数据不离境"从可选项变成了硬性要求。你用 Meta 的 LLaMA 没问题，但如果你需要针对自己的业务做持续预训练，训练数据要传到哪台机器上？如果那台机器在弗吉尼亚的 AWS 机房里，你的合规团队大概率会摇头。

反正这事到最后变成了一个工程问题和一个政治问题的交叉点。技术上，Apertus 需要证明它的模型质量能够接近同参数量的商业模型——目前他们放出来的 7B 版本在 MMLU 上比 LLaMA 3.1 8B 低了大约四个百分点，差距不算致命但也谈不上领先。政治上，他们需要说服欧盟的决策者持续投入资金，而不是把钱撒给那些已经成熟的美国开源项目做微调。

嗯，还有一个 HN 评论提到的角度我觉得很关键——真正的战场不是"开源 vs 闭源"，而是"本地部署 vs 云端服务"。很多公司嘴上喊着要主权AI，身体很诚实地在调 OpenAI 的 API，因为便宜、快、省事。Apertus 要赢的不是一场技术竞赛，而是一个使用习惯的问题：让本地部署这件事变得足够简单，简单到一个中等规模的企业IT团队就能搞定，而不是需要一个五人 ML Ops 小组日夜盯着。

说实话，我看完整个讨论之后，最大的感受是这个项目像一面镜子，把 AI 行业里那些被商业叙事掩盖的结构性矛盾全照出来了。谁拥有模型权重？谁控制训练数据？谁决定推理基础设施的部署位置？这些问题的答案，决定了未来五年AI到底是少数公司的基础设施，还是真的能变成一种公共品。我合上笔记本，窗外天已经亮了。

清晨桌面上打开的笔记本电脑屏幕

关于维基框架

维基框架（Wiki Framework）是一套面向复杂业务场景的轻量级开发框架，支持多语言、多协议、多部署形态。适用于企业级应用开发、微服务架构、云原生部署等场景。

官网：https://framewiki.com
Gitee：https://gitee.com/wiki-framework
GitHub：https://github.com/wiki-framework
示例项目：https://gitee.com/cdkjframework/framewiki-example
📄 许可证：MulanPSL-2.0（木兰宽松许可证，第2版）