返回首页

我的笔记

Notes & Writings

这里收录我读过、改写过、相信值得分享的长文。覆盖创业方法论、AI 技术、计算机科学,以及思考随笔。持续更新。

创业与商业

1

计算机科学

6
CVPR 2014 WORKSHOP · KTH·2026 年 6 月 3 日

CNN Features Off-the-shelf:通用特征的震撼基线

Sharif Razavian et al. · 中文精校版

2014 年 KTH 团队把 OverFeat 现成特征加简单 SVM,在 12 个视觉任务上全面碾压专门设计的方法。从此设定了"任何新方法必须先打过的基线"——彻底改变了视觉研究的工作文化。

8 章约 20 分钟含对话式叙述
阅读
ICML 2014 · UC BERKELEY·2026 年 6 月 3 日

DeCAF:迁移学习的诞生

Donahue et al. · 中文精校版

2013 年 Berkeley 团队证明 ImageNet 预训练的 AlexNet 中间层激活是通用视觉特征——奠定了今天所有"预训练加迁移"范式的根基。配套开源框架后来演化成了 Caffe。

8 章约 20 分钟含可视化
阅读
ICCV 2015 · MSRA·2026 年 6 月 2 日

PReLU 与 Kaiming 初始化:第一次超越人类

Kaiming He et al. · 中文精校版

2015 年 Kaiming He 团队用两个改进——PReLU 加上 Kaiming 初始化——让深度网络第一次在 ImageNet 上超越人类(4.94% vs 5.1%)。今天每个 PyTorch 用户都在用的 kaiming_normal_ 就出自这里。

8 章约 25 分钟含公式与代码
阅读
CVPR 2016 · MSRA·2026 年 6 月 2 日

ResNet:让深度真正深起来的那篇论文

Kaiming He et al. · 中文精校版

2015 年 Kaiming He 团队用「学残差,不学函数」一招打破深度天花板。152 层 ResNet 赢下 ILSVRC 2015 五项冠军。今天 Transformer、扩散模型、AlphaFold 里那根快捷连接都是它的后代。

8 章约 25 分钟含公式
阅读
CS231n · STANFORD·2026 年 5 月 31 日

卷积神经网络详解:从 LeNet 到 ResNet

CS231n · 中文精校版

CS231n 经典 CNN 讲义。把"图像是二维空间结构"这一归纳偏置烧进网络结构——局部连接、参数共享、池化下采样。一文讲透五大经典架构 LeNet/AlexNet/VGG/GoogLeNet/ResNet。

8 章约 25 分钟含公式与案例
阅读
CS231n · STANFORD·2026 年 5 月 30 日

反向传播详解:从计算图直觉到向量化梯度

CS231n · 中文精校版

Stanford CS231n 经典讲义。把神经网络看成实数电路:加法门是梯度分发器,最大门是梯度路由器,乘法门是梯度交换器。读完,你能"看见"梯度的流动。

9 章约 25 分钟含公式与代码
阅读

人工智能

12
NEURAL COMPUTATION · 1991·2026 年 6 月 11 日

Adaptive Mixtures of Local Experts:MoE 的开山之作

Jacobs / Jordan / Nowlan / Hinton · 中文精校版

1991 年 Jacobs / Jordan / Nowlan / Hinton 那篇被引用上万次的原始 MoE 论文中文精校版。一个修改了误差函数的小动作,把多任务网络从"合作"改成了"竞争"——33 年后,这同一个数学骨架支撑起 GPT-4、Mixtral、Switch Transformer 的万亿参数。

8 章约 20 分钟含公式
阅读
ICLR 2017 · GOOGLE BRAIN·2026 年 6 月 11 日

Outrageously Large Neural Networks:稀疏门控 MoE

Shazeer / Hinton / Dean et al. · 中文精校版

Shazeer / Hinton / Dean 等人 2017 年 ICLR 论文中文精校版。Google Brain 把 1991 年的 MoE 从故纸堆翻出来——加上 Noisy Top-K 门控和负载平衡损失,规模到 137 billion 参数——LSTM 语言模型 perplexity 降低 39%。这是 MoE 从"小众思想"变成"大模型必备"的转折点。

8 章约 25 分钟含公式
阅读
JMLR 2022 · GOOGLE·2026 年 6 月 11 日

Switch Transformers:万亿参数 MoE

Fedus · Zoph · Shazeer · 中文精校版

2021 年 Fedus/Zoph/Shazeer 把 MoE 路由从 top-k 简化到 top-1,配合 bfloat16 选择性精度训练,把稀疏激活模型推到万亿参数——4 倍快过 T5-XXL,101 个语言全面提升。MoE 在 LLM 时代的工程奇迹。

8 章约 25 分钟含公式
阅读
MISTRAL AI · 2024/01·2026 年 6 月 11 日

Mixtral 8x7B:第一个流行的开源 MoE LLM

Mistral AI · 中文精校版

2024 年 Mistral AI 发布的 Mixtral 8x7B 论文中文精校版。一群从 Meta/DeepMind 出走的法国研究者,发布第一个流行的开源 Sparse MoE LLM——47B 总参数 / 13B 激活,击败 Llama 2 70B 和 GPT-3.5,Apache 2.0 开源。MoE 从研究论文变成所有人都能用的工业产品。

8 章约 25 分钟开源 LLM
阅读
LIL'LOG · 2018·2026 年 6 月 10 日

注意力?注意力!· Lilian Weng 综述详解

Lilian Weng · 中文精校版

Lilian Weng(前 OpenAI 研究副总裁)2018 年那篇被引用了上万次的经典综述中文精校版。从一只柴犬的视觉注意力开始,把 Seq2Seq 瓶颈、Bahdanau 加性注意力、6 种打分函数、自注意力、软硬/全局局部、神经图灵机、指针网络、Transformer 多头注意力、SAGAN 一次讲透。

10 章约 30 分钟含公式
阅读
ANTHROPIC · 2026/06/09·2026 年 6 月 9 日

Claude Fable 5 与 Mythos 5:同一个模型的双胞胎

Anthropic 官方公告 · 中文精校版

Mythos-class 模型的首次普遍发布。Fable 5(有保护,所有人可用)+ Mythos 5(去除部分保护,只给 Glasswing 合作伙伴)。Stripe 一天完成两个月的 Ruby 代码迁移,Mythos 5 加速药物设计 10 倍,提出被独立验证的新生物学假说。价格腰斩到 $10/$50。

9 章约 35 分钟Anthropic 公告
阅读
ANTHROPIC INSTITUTE · 2026·2026 年 6 月 4 日

当 AI 开始自己造自己

Marina Favaro & Jack Clark · 中文精校版

Anthropic 研究院首次公开内部数据——工程师人均代码量两年涨 8 倍、>80% 代码由 Claude 写、76% 开放式任务成功率、64% 击败人类下一步判断。关于"AI 自我递归改进"的第一份系统证据。

9 章约 30 分钟含内部数据
阅读
ANTHROPIC · 2026/06/02·2026 年 6 月 2 日

Project Glasswing 扩展:从 50 到 200 个组织

Anthropic 官方公告 · 中文精校版

10 天内 Glasswing 从 50 个合作伙伴扩展到 150 个新组织,覆盖 15+ 国家,加入电力、水务、医疗、通信、硬件等关键基础设施。Anthropic 直白说——"廉价高能力 AI 网络武器就在眼前"。一份让我们看清"AI 网络安全新阶段"的战略宣言。

6 章约 15 分钟Anthropic 公告
阅读
CVPR 2022 · CompVis·2026 年 5 月 31 日

Latent Diffusion:Stable Diffusion 论文详解

Rombach et al. · 中文精校版

催生 Stable Diffusion 的奠基论文。CompVis 团队把扩散模型从昂贵的像素空间搬到高效的潜在空间,训练成本下降一个数量级。开源后催生了整个 AI 绘画生态。

9 章约 25 分钟含公式
阅读
NeurIPS 2017 · GOOGLE BRAIN·2026 年 5 月 30 日

Attention Is All You Need:Transformer 论文详解

Vaswani et al. · 中文精校版

2017 年 Google Brain 八位作者用一句"注意力就是你需要的全部",彻底改写了序列建模。今天所有大语言模型——GPT、Claude、Gemini——的底层架构都来自这一篇。

9 章约 30 分钟含公式
阅读
ICLR 2021 · GOOGLE BRAIN·2026 年 5 月 30 日

Vision Transformer:一张图片值 16×16 个词

Dosovitskiy et al. · 中文精校版

Google Brain 用一招极简的"把图像切成 16×16 的 Patch",把为文字设计的 Transformer 直接搬到视觉,最终在大数据上超过 CNN。这是 CV 范式转移的起点。

9 章约 30 分钟含公式与图表
阅读
ANTHROPIC · 2026/05/22·2026 年 5 月 22 日

Project Glasswing:第一份月度更新

Anthropic 官方公告 · 中文精校版

约 50 个合作伙伴用 Claude Mythos Preview 一个月里发现超过 1 万个高危/严重漏洞。Cloudflare 一家 2000 个 bug,Mozilla Firefox 271 个(是 Opus 4.6 的 10 倍)。最重要的洞察——"找漏洞已经不再是瓶颈,修补才是"。AI 网络安全的新时代开始了。

8 章约 20 分钟Anthropic 公告
阅读

思考与笔记

4
DARIO AMODEI · ANTHROPIC · 2024·2026 年 6 月 5 日

充满爱意的机器

Dario Amodei · 中文精校版

Anthropic CEO Dario Amodei 2024 年 10 月长文。第一次系统、毫不掩饰地写下"那个好的可能"——压缩的 21 世纪、消除大多数癌症、人类寿命翻倍、心理疾病几乎被治愈、贫困终结。读完这篇,才理解为什么 Anthropic 还在做这件事。

9 章约 40 分钟思想类
阅读
DARIO AMODEI · ANTHROPIC · 2026·2026 年 6 月 5 日

技术的青春期

Dario Amodei · 中文精校版

Anthropic CEO Dario Amodei 2026 年 1 月长文。系统性回答——如果我们能造出"数据中心里的天才之国",人类要怎么活过这场技术的青春期?五大风险、五套防御、一份毫不掩饰的国家安全级警告。

9 章约 45 分钟思想类
阅读
NAVAL PODCAST · 2026·2026 年 6 月 4 日

纳瓦尔:AI 工业革命

Naval Ravikant 主持 · 中文精校版

2026 年 6 月纳瓦尔与三位前沿创始人(Vercel/Boom 超音速/Science Corp)的圆桌对谈中文精校版。从软件工厂、垂直整合、监管前沿到自主公司——四个站在科技最前沿的人现场拆解 AI 工业革命到底在改变什么。

10 章约 30 分钟思想类
阅读
NBER 1993 · HARVARD & UCHICAGO·2026 年 6 月 4 日

腐败:制度结构如何决定贿赂水平

Shleifer & Vishny · 中文精校版

Shleifer 与 Vishny 1993 年 NBER 经典。用工业组织理论解释为什么有些国家腐败"少而可控",有些"无穷而毁灭性"——答案藏在政府结构里:联合垄断、独立垄断、还是竞争。

9 章约 25 分钟思想类
阅读