What’s Happening in My Field

Recent arXiv papers in RL post-training · reasoning · self-improvement · multimodal LLMs
Auto-updated weekly via GitHub Actions · Last update: 2026-03-10

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

Jiangming Shu, Yuxiang Zhang, Ye Ma et al.

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li et al.

Self-Improvement

SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

Subramanyam Sahoo, Aman Chadha, Vinija Jain et al.

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna et al.

Audio Reasoning

A Sensitivity Analysis of Multi-Event Audio Grounding in Audio LLMs

Taehan Lee, Jaehan Jung, Hyukjun Lee

Self-Improvement

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Zhiyu Pan, Yizheng Wu, Jiashen Hua et al.

PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference

Rituraj Sharma, Weiyuan Chen, Noah Provenzano et al.

Self-Improvement

Provable and Practical In-Context Policy Optimization for Self-Improvement

Tianrun Yu, Yuxiao Yang, Zhaoyang Wang et al.

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Chris Samarinas, Haw-Shiuan Chang, Hamed Zamani

← Back to homepage