Jerry Yang - Personal Website | Professional Experience and Entrepreneurial Projects

1991 年 Jacobs / Jordan / Nowlan / Hinton 那篇被引用上万次的原始 MoE 论文中文精校版。一个修改了误差函数的小动作，把多任务网络从"合作"改成了"竞争"——33 年后，这同一个数学骨架支撑起 GPT-4、Mixtral、Switch Transformer 的万亿参数。

8 章约 20 分钟含公式

阅读

ICLR 2017 · GOOGLE BRAIN·2026 年 6 月 11 日

Outrageously Large Neural Networks：稀疏门控 MoE

Shazeer / Hinton / Dean et al. · 中文精校版

Shazeer / Hinton / Dean 等人 2017 年 ICLR 论文中文精校版。Google Brain 把 1991 年的 MoE 从故纸堆翻出来——加上 Noisy Top-K 门控和负载平衡损失，规模到 137 billion 参数——LSTM 语言模型 perplexity 降低 39%。这是 MoE 从"小众思想"变成"大模型必备"的转折点。

8 章约 25 分钟含公式

阅读

JMLR 2022 · GOOGLE·2026 年 6 月 11 日

Switch Transformers：万亿参数 MoE

Fedus · Zoph · Shazeer · 中文精校版

2021 年 Fedus/Zoph/Shazeer 把 MoE 路由从 top-k 简化到 top-1，配合 bfloat16 选择性精度训练，把稀疏激活模型推到万亿参数——4 倍快过 T5-XXL，101 个语言全面提升。MoE 在 LLM 时代的工程奇迹。

8 章约 25 分钟含公式

阅读

MISTRAL AI · 2024/01·2026 年 6 月 11 日

Mixtral 8x7B：第一个流行的开源 MoE LLM

Mistral AI · 中文精校版

2024 年 Mistral AI 发布的 Mixtral 8x7B 论文中文精校版。一群从 Meta/DeepMind 出走的法国研究者，发布第一个流行的开源 Sparse MoE LLM——47B 总参数 / 13B 激活，击败 Llama 2 70B 和 GPT-3.5，Apache 2.0 开源。MoE 从研究论文变成所有人都能用的工业产品。

8 章约 25 分钟开源 LLM

阅读

LIL'LOG · 2018·2026 年 6 月 10 日

注意力？注意力！· Lilian Weng 综述详解

Lilian Weng · 中文精校版

Lilian Weng（前 OpenAI 研究副总裁）2018 年那篇被引用了上万次的经典综述中文精校版。从一只柴犬的视觉注意力开始，把 Seq2Seq 瓶颈、Bahdanau 加性注意力、6 种打分函数、自注意力、软硬/全局局部、神经图灵机、指针网络、Transformer 多头注意力、SAGAN 一次讲透。

10 章约 30 分钟含公式

阅读

ANTHROPIC · 2026/06/09·2026 年 6 月 9 日

Claude Fable 5 与 Mythos 5：同一个模型的双胞胎

Anthropic 官方公告 · 中文精校版

Mythos-class 模型的首次普遍发布。Fable 5（有保护，所有人可用）+ Mythos 5（去除部分保护，只给 Glasswing 合作伙伴）。Stripe 一天完成两个月的 Ruby 代码迁移，Mythos 5 加速药物设计 10 倍，提出被独立验证的新生物学假说。价格腰斩到 $10/$50。

9 章约 35 分钟Anthropic 公告

阅读

ANTHROPIC INSTITUTE · 2026·2026 年 6 月 4 日

当 AI 开始自己造自己

Marina Favaro & Jack Clark · 中文精校版

Anthropic 研究院首次公开内部数据——工程师人均代码量两年涨 8 倍、>80% 代码由 Claude 写、76% 开放式任务成功率、64% 击败人类下一步判断。关于"AI 自我递归改进"的第一份系统证据。

9 章约 30 分钟含内部数据

阅读

ANTHROPIC · 2026/06/02·2026 年 6 月 2 日

Project Glasswing 扩展：从 50 到 200 个组织

Anthropic 官方公告 · 中文精校版

10 天内 Glasswing 从 50 个合作伙伴扩展到 150 个新组织，覆盖 15+ 国家，加入电力、水务、医疗、通信、硬件等关键基础设施。Anthropic 直白说——"廉价高能力 AI 网络武器就在眼前"。一份让我们看清"AI 网络安全新阶段"的战略宣言。

6 章约 15 分钟Anthropic 公告

阅读

CVPR 2022 · CompVis·2026 年 5 月 31 日

Latent Diffusion：Stable Diffusion 论文详解

Rombach et al. · 中文精校版

催生 Stable Diffusion 的奠基论文。CompVis 团队把扩散模型从昂贵的像素空间搬到高效的潜在空间，训练成本下降一个数量级。开源后催生了整个 AI 绘画生态。

9 章约 25 分钟含公式

阅读

NeurIPS 2017 · GOOGLE BRAIN·2026 年 5 月 30 日

Attention Is All You Need：Transformer 论文详解

Vaswani et al. · 中文精校版

2017 年 Google Brain 八位作者用一句"注意力就是你需要的全部"，彻底改写了序列建模。今天所有大语言模型——GPT、Claude、Gemini——的底层架构都来自这一篇。

9 章约 30 分钟含公式

阅读

ICLR 2021 · GOOGLE BRAIN·2026 年 5 月 30 日

Vision Transformer：一张图片值 16×16 个词

Dosovitskiy et al. · 中文精校版

Google Brain 用一招极简的"把图像切成 16×16 的 Patch"，把为文字设计的 Transformer 直接搬到视觉，最终在大数据上超过 CNN。这是 CV 范式转移的起点。

9 章约 30 分钟含公式与图表

阅读

ANTHROPIC · 2026/05/22·2026 年 5 月 22 日

Project Glasswing：第一份月度更新

Anthropic 官方公告 · 中文精校版

约 50 个合作伙伴用 Claude Mythos Preview 一个月里发现超过 1 万个高危/严重漏洞。Cloudflare 一家 2000 个 bug，Mozilla Firefox 271 个（是 Opus 4.6 的 10 倍）。最重要的洞察——"找漏洞已经不再是瓶颈，修补才是"。AI 网络安全的新时代开始了。

8 章约 20 分钟Anthropic 公告

阅读