Tags
RL (9)
- LLM-RL 中的熵控制:从 Entropy Collapse 到 Exploration 的系统性综述 2025-12-23
- RL 学习笔记(六):LLM 对齐(下) 2025-12-19
- RL 学习笔记(五):LLM 对齐(上) 2025-12-19
- RL 学习笔记(四):基于模型的方法与多智能体 2025-12-19
- RL 学习笔记(三):基于策略的强化学习 2025-12-19
- RL 学习笔记(二):基于价值的强化学习 2025-12-19
- RL 学习笔记(一):基础知识 2025-12-19
- LLM-RL 训练稳定性:根因分析与解决方案 2025-12-19
- 为什么 LoRA 在强化学习微调中有效?—— 信息带宽的视角 2025-12-19
Transformer (8)
- Transformer 学习笔记(八):前沿应用 2025-12-20
- Transformer 学习笔记(七):部署优化 2025-12-20
- Transformer 学习笔记(六):评测与 Benchmark 2025-12-20
- Transformer 学习笔记(五):训练技术全景 2025-12-20
- Transformer 学习笔记(四):Mixture of Experts 稀疏架构 2025-12-20
- Transformer 学习笔记(三):注意力机制 2025-12-20
- Transformer 学习笔记(二):核心组件 2025-12-20
- Transformer 学习笔记(一):基础理论 2025-12-20
RLHF (4)
- RL 学习笔记(六):LLM 对齐(下) 2025-12-19
- RL 学习笔记(五):LLM 对齐(上) 2025-12-19
- LLM-RL 训练稳定性:根因分析与解决方案 2025-12-19
- 为什么 LoRA 在强化学习微调中有效?—— 信息带宽的视角 2025-12-19
PPO (2)
- RL 学习笔记(三):基于策略的强化学习 2025-12-19
- LLM-RL 训练稳定性:根因分析与解决方案 2025-12-19
Inference (2)
- LLM 推理的非确定性:根因分析与 Batch Invariance 解决方案 2025-12-24
- Transformer 学习笔记(七):部署优化 2025-12-20
Alignment (2)
- RL 学习笔记(六):LLM 对齐(下) 2025-12-19
- RL 学习笔记(五):LLM 对齐(上) 2025-12-19
Training (1)
- Transformer 学习笔记(五):训练技术全景 2025-12-20
Reproducibility (1)
- LLM 推理的非确定性:根因分析与 Batch Invariance 解决方案 2025-12-24
Reasoning (1)
- Transformer 学习笔记(八):前沿应用 2025-12-20
RLVR (1)
Negative Samples (1)
Multimodal (1)
- Transformer 学习笔记(八):前沿应用 2025-12-20
MoE (1)
- Transformer 学习笔记(四):Mixture of Experts 稀疏架构 2025-12-20
MCTS (1)
- RL 学习笔记(四):基于模型的方法与多智能体 2025-12-19
LLM (1)
- LLM 推理的非确定性:根因分析与 Batch Invariance 解决方案 2025-12-24
GRPO (1)
Evaluation (1)
- Transformer 学习笔记(六):评测与 Benchmark 2025-12-20
Entropy (1)
Determinism (1)
- LLM 推理的非确定性:根因分析与 Batch Invariance 解决方案 2025-12-24
DQN (1)
- RL 学习笔记(二):基于价值的强化学习 2025-12-19
CUDA (1)
- LLM 推理的非确定性:根因分析与 Batch Invariance 解决方案 2025-12-24
Batch Invariance (1)
- LLM 推理的非确定性:根因分析与 Batch Invariance 解决方案 2025-12-24
Attention (1)
- Transformer 学习笔记(三):注意力机制 2025-12-20
AlphaZero (1)
- RL 学习笔记(四):基于模型的方法与多智能体 2025-12-19