文章列表
Speculative Decoding 全面解析:原理、方法与加速本质
2026-01-05
Train Long, Think Short:LLM 推理长度控制方法综述
2025-12-31
LLM 推理的非确定性:根因分析与 Batch Invariance 解决方案
2025-12-24
Transformer 学习笔记(八):前沿应用
2025-12-20
Transformer 学习笔记(七):部署优化
2025-12-20
Transformer 学习笔记(六):评测与 Benchmark
2025-12-20
Transformer 学习笔记(五):训练技术全景
2025-12-20
Transformer 学习笔记(四):Mixture of Experts 稀疏架构
2025-12-20
Transformer 学习笔记(三):注意力机制
2025-12-20
Transformer 学习笔记(二):核心组件
2025-12-20
Transformer 学习笔记(一):基础理论
2025-12-20
RL 学习笔记(六):LLM 对齐(下)
2025-12-19
RL 学习笔记(五):LLM 对齐(上)
2025-12-19
RL 学习笔记(四):基于模型的方法与多智能体
2025-12-19
RL 学习笔记(三):基于策略的强化学习
2025-12-19
RL 学习笔记(二):基于价值的强化学习
2025-12-19
RL 学习笔记(一):基础知识
2025-12-19
LLM-RL 训练稳定性:根因分析与解决方案
2025-12-19
为什么 LoRA 在强化学习微调中有效?—— 信息带宽的视角
2025-12-19
标签
Transformer (8)
RLHF (4)
Inference (3)
Reasoning (2)
PPO (2)
LLM (2)
GRPO (2)
Efficiency (2)
Alignment (2)
Training (1)
Speculative Decoding (1)
Reproducibility (1)
RLVR (1)
Negative Samples (1)
Multimodal (1)
MoE (1)
MCTS (1)
Evaluation (1)
Entropy (1)
Determinism (1)
DQN (1)
CUDA (1)
Batch Invariance (1)
Attention (1)
AlphaZero (1)
RL (10)