这里收录我读过、改写过、相信值得分享的长文。覆盖创业方法论、AI 技术、计算机科学,以及思考随笔。持续更新。
创业与商业
1 篇计算机科学
6 篇CNN Features Off-the-shelf:通用特征的震撼基线
Sharif Razavian et al. · 中文精校版
2014 年 KTH 团队把 OverFeat 现成特征加简单 SVM,在 12 个视觉任务上全面碾压专门设计的方法。从此设定了"任何新方法必须先打过的基线"——彻底改变了视觉研究的工作文化。
DeCAF:迁移学习的诞生
Donahue et al. · 中文精校版
2013 年 Berkeley 团队证明 ImageNet 预训练的 AlexNet 中间层激活是通用视觉特征——奠定了今天所有"预训练加迁移"范式的根基。配套开源框架后来演化成了 Caffe。
PReLU 与 Kaiming 初始化:第一次超越人类
Kaiming He et al. · 中文精校版
2015 年 Kaiming He 团队用两个改进——PReLU 加上 Kaiming 初始化——让深度网络第一次在 ImageNet 上超越人类(4.94% vs 5.1%)。今天每个 PyTorch 用户都在用的 kaiming_normal_ 就出自这里。
ResNet:让深度真正深起来的那篇论文
Kaiming He et al. · 中文精校版
2015 年 Kaiming He 团队用「学残差,不学函数」一招打破深度天花板。152 层 ResNet 赢下 ILSVRC 2015 五项冠军。今天 Transformer、扩散模型、AlphaFold 里那根快捷连接都是它的后代。
卷积神经网络详解:从 LeNet 到 ResNet
CS231n · 中文精校版
CS231n 经典 CNN 讲义。把"图像是二维空间结构"这一归纳偏置烧进网络结构——局部连接、参数共享、池化下采样。一文讲透五大经典架构 LeNet/AlexNet/VGG/GoogLeNet/ResNet。
反向传播详解:从计算图直觉到向量化梯度
CS231n · 中文精校版
Stanford CS231n 经典讲义。把神经网络看成实数电路:加法门是梯度分发器,最大门是梯度路由器,乘法门是梯度交换器。读完,你能"看见"梯度的流动。
人工智能
12 篇Adaptive Mixtures of Local Experts:MoE 的开山之作
Jacobs / Jordan / Nowlan / Hinton · 中文精校版
1991 年 Jacobs / Jordan / Nowlan / Hinton 那篇被引用上万次的原始 MoE 论文中文精校版。一个修改了误差函数的小动作,把多任务网络从"合作"改成了"竞争"——33 年后,这同一个数学骨架支撑起 GPT-4、Mixtral、Switch Transformer 的万亿参数。
Outrageously Large Neural Networks:稀疏门控 MoE
Shazeer / Hinton / Dean et al. · 中文精校版
Shazeer / Hinton / Dean 等人 2017 年 ICLR 论文中文精校版。Google Brain 把 1991 年的 MoE 从故纸堆翻出来——加上 Noisy Top-K 门控和负载平衡损失,规模到 137 billion 参数——LSTM 语言模型 perplexity 降低 39%。这是 MoE 从"小众思想"变成"大模型必备"的转折点。
Switch Transformers:万亿参数 MoE
Fedus · Zoph · Shazeer · 中文精校版
2021 年 Fedus/Zoph/Shazeer 把 MoE 路由从 top-k 简化到 top-1,配合 bfloat16 选择性精度训练,把稀疏激活模型推到万亿参数——4 倍快过 T5-XXL,101 个语言全面提升。MoE 在 LLM 时代的工程奇迹。
Mixtral 8x7B:第一个流行的开源 MoE LLM
Mistral AI · 中文精校版
2024 年 Mistral AI 发布的 Mixtral 8x7B 论文中文精校版。一群从 Meta/DeepMind 出走的法国研究者,发布第一个流行的开源 Sparse MoE LLM——47B 总参数 / 13B 激活,击败 Llama 2 70B 和 GPT-3.5,Apache 2.0 开源。MoE 从研究论文变成所有人都能用的工业产品。
注意力?注意力!· Lilian Weng 综述详解
Lilian Weng · 中文精校版
Lilian Weng(前 OpenAI 研究副总裁)2018 年那篇被引用了上万次的经典综述中文精校版。从一只柴犬的视觉注意力开始,把 Seq2Seq 瓶颈、Bahdanau 加性注意力、6 种打分函数、自注意力、软硬/全局局部、神经图灵机、指针网络、Transformer 多头注意力、SAGAN 一次讲透。
Claude Fable 5 与 Mythos 5:同一个模型的双胞胎
Anthropic 官方公告 · 中文精校版
Mythos-class 模型的首次普遍发布。Fable 5(有保护,所有人可用)+ Mythos 5(去除部分保护,只给 Glasswing 合作伙伴)。Stripe 一天完成两个月的 Ruby 代码迁移,Mythos 5 加速药物设计 10 倍,提出被独立验证的新生物学假说。价格腰斩到 $10/$50。
当 AI 开始自己造自己
Marina Favaro & Jack Clark · 中文精校版
Anthropic 研究院首次公开内部数据——工程师人均代码量两年涨 8 倍、>80% 代码由 Claude 写、76% 开放式任务成功率、64% 击败人类下一步判断。关于"AI 自我递归改进"的第一份系统证据。
Project Glasswing 扩展:从 50 到 200 个组织
Anthropic 官方公告 · 中文精校版
10 天内 Glasswing 从 50 个合作伙伴扩展到 150 个新组织,覆盖 15+ 国家,加入电力、水务、医疗、通信、硬件等关键基础设施。Anthropic 直白说——"廉价高能力 AI 网络武器就在眼前"。一份让我们看清"AI 网络安全新阶段"的战略宣言。
Latent Diffusion:Stable Diffusion 论文详解
Rombach et al. · 中文精校版
催生 Stable Diffusion 的奠基论文。CompVis 团队把扩散模型从昂贵的像素空间搬到高效的潜在空间,训练成本下降一个数量级。开源后催生了整个 AI 绘画生态。
Attention Is All You Need:Transformer 论文详解
Vaswani et al. · 中文精校版
2017 年 Google Brain 八位作者用一句"注意力就是你需要的全部",彻底改写了序列建模。今天所有大语言模型——GPT、Claude、Gemini——的底层架构都来自这一篇。
Vision Transformer:一张图片值 16×16 个词
Dosovitskiy et al. · 中文精校版
Google Brain 用一招极简的"把图像切成 16×16 的 Patch",把为文字设计的 Transformer 直接搬到视觉,最终在大数据上超过 CNN。这是 CV 范式转移的起点。
Project Glasswing:第一份月度更新
Anthropic 官方公告 · 中文精校版
约 50 个合作伙伴用 Claude Mythos Preview 一个月里发现超过 1 万个高危/严重漏洞。Cloudflare 一家 2000 个 bug,Mozilla Firefox 271 个(是 Opus 4.6 的 10 倍)。最重要的洞察——"找漏洞已经不再是瓶颈,修补才是"。AI 网络安全的新时代开始了。
思考与笔记
4 篇充满爱意的机器
Dario Amodei · 中文精校版
Anthropic CEO Dario Amodei 2024 年 10 月长文。第一次系统、毫不掩饰地写下"那个好的可能"——压缩的 21 世纪、消除大多数癌症、人类寿命翻倍、心理疾病几乎被治愈、贫困终结。读完这篇,才理解为什么 Anthropic 还在做这件事。
技术的青春期
Dario Amodei · 中文精校版
Anthropic CEO Dario Amodei 2026 年 1 月长文。系统性回答——如果我们能造出"数据中心里的天才之国",人类要怎么活过这场技术的青春期?五大风险、五套防御、一份毫不掩饰的国家安全级警告。
纳瓦尔:AI 工业革命
Naval Ravikant 主持 · 中文精校版
2026 年 6 月纳瓦尔与三位前沿创始人(Vercel/Boom 超音速/Science Corp)的圆桌对谈中文精校版。从软件工厂、垂直整合、监管前沿到自主公司——四个站在科技最前沿的人现场拆解 AI 工业革命到底在改变什么。
腐败:制度结构如何决定贿赂水平
Shleifer & Vishny · 中文精校版
Shleifer 与 Vishny 1993 年 NBER 经典。用工业组织理论解释为什么有些国家腐败"少而可控",有些"无穷而毁灭性"——答案藏在政府结构里:联合垄断、独立垄断、还是竞争。