LLM Notes

LLM 与强化学习学习笔记 - Transformer、RLHF、PPO、DPO 等技术深度解析

文章列表

Speculative Decoding 全面解析：原理、方法与加速本质 2026-01-05

Train Long, Think Short：LLM 推理长度控制方法综述 2025-12-31

LLM 推理的非确定性：根因分析与 Batch Invariance 解决方案 2025-12-24

LLM-RL 中的熵控制：从 Entropy Collapse 到 Exploration 的系统性综述 2025-12-23

Transformer 学习笔记（八）：前沿应用 2025-12-20

Transformer 学习笔记（七）：部署优化 2025-12-20

Transformer 学习笔记（六）：评测与 Benchmark 2025-12-20

Transformer 学习笔记（五）：训练技术全景 2025-12-20

Transformer 学习笔记（四）：Mixture of Experts 稀疏架构 2025-12-20

Transformer 学习笔记（三）：注意力机制 2025-12-20

Transformer 学习笔记（二）：核心组件 2025-12-20

Transformer 学习笔记（一）：基础理论 2025-12-20

RL 学习笔记（六）：LLM 对齐（下） 2025-12-19

RL 学习笔记（五）：LLM 对齐（上） 2025-12-19

RL 学习笔记（四）：基于模型的方法与多智能体 2025-12-19

RL 学习笔记（三）：基于策略的强化学习 2025-12-19

RL 学习笔记（二）：基于价值的强化学习 2025-12-19

RL 学习笔记（一）：基础知识 2025-12-19

LLM-RL 训练稳定性：根因分析与解决方案 2025-12-19

为什么 LoRA 在强化学习微调中有效？—— 信息带宽的视角 2025-12-19

标签

Transformer (8) RLHF (4) Inference (3) Reasoning (2) PPO (2) LLM (2) GRPO (2) Efficiency (2) Alignment (2) Training (1) Speculative Decoding (1) Reproducibility (1) RLVR (1) Negative Samples (1) Multimodal (1) MoE (1) MCTS (1) Evaluation (1) Entropy (1) Determinism (1) DQN (1) CUDA (1) Batch Invariance (1) Attention (1) AlphaZero (1) RL (10)