文章列表
LLM 推理的非确定性:根因分析与 Batch Invariance 解决方案
2025-12-24
Transformer 学习笔记(八):前沿应用
2025-12-20
Transformer 学习笔记(七):部署优化
2025-12-20
Transformer 学习笔记(六):评测与 Benchmark
2025-12-20
Transformer 学习笔记(五):训练技术全景
2025-12-20
Transformer 学习笔记(四):Mixture of Experts 稀疏架构
2025-12-20
Transformer 学习笔记(三):注意力机制
2025-12-20
Transformer 学习笔记(二):核心组件
2025-12-20
Transformer 学习笔记(一):基础理论
2025-12-20
RL 学习笔记(六):LLM 对齐(下)
2025-12-19
RL 学习笔记(五):LLM 对齐(上)
2025-12-19
RL 学习笔记(四):基于模型的方法与多智能体
2025-12-19
RL 学习笔记(三):基于策略的强化学习
2025-12-19
RL 学习笔记(二):基于价值的强化学习
2025-12-19
RL 学习笔记(一):基础知识
2025-12-19
LLM-RL 训练稳定性:根因分析与解决方案
2025-12-19
为什么 LoRA 在强化学习微调中有效?—— 信息带宽的视角
2025-12-19
标签
RL (9)
Transformer (8)
RLHF (4)
PPO (2)
Inference (2)
Alignment (2)
Training (1)
Reproducibility (1)
Reasoning (1)
RLVR (1)
Negative Samples (1)
Multimodal (1)
MoE (1)
MCTS (1)
LLM (1)
GRPO (1)
Evaluation (1)
Entropy (1)
Determinism (1)
DQN (1)
CUDA (1)
Batch Invariance (1)
Attention (1)
AlphaZero (1)