Yifan Zhang's Blog

Self-Distilled Policy Gradient

Yifeng Liu*, Shiyuan Zhang*, Yifan Zhang*, Quanquan Gu†

arXiv:2606.04036 · June 4, 2026

NanoGPT Pro: A Multi-Architecture NanoGPT Training & Evaluation Suite

Team Math-AI

Open Source · May 25, 2026

MathCode: A Frontier Mathematical Coding Agent

Team Math-AI

Open Source · April 2, 2026

Residual Stream Duality in Modern Transformer Architectures

Yifan Zhang

arXiv:2603.16039 · March 16, 2026

Falcon: Fast-Weight Attention for Continual Learning

Yifan Zhang et al.

Preprint · March 9, 2026

FlashSampling: Fast and Memory-Efficient Exact Sampling

Tomas Ruiz*, Zhen Qin*, Yifan Zhang†, Xuyang Shen, Yiran Zhong, Mengdi Wang†

arXiv:2603.15854 · February 28, 2026

ShortSWA Is the Next-Generation N-gram Embedding

Yifan Zhang

Yifan's Blog · January 12, 2026

Deep Delta Learning

Yifan Zhang, Yifeng Liu, Mengdi Wang, Quanquan Gu

arXiv:2601.00417 · January 1, 2026

Revisiting Variance Reduction in Policy Gradients for LLM Reinforcement Learning

Yifan Zhang, Quanquan Gu

Yifan's Blog · December 27, 2025

Rethinking SWA: Why Short Sliding Window Attention Will Replace ShortConv

Yifan Zhang

Yifan's Blog · December 16, 2025

Matrix Exponential Attention

Yifan Zhang

Yifan's Blog · December 15, 2025

Group Representational Position Encoding

Yifan Zhang, Zixiang Chen, Yifeng Liu, Zhen Qin, Huizhuo Yuan, Kangping Xu, Quanquan Gu, Andrew Chi-Chih Yao

ICLR 2026 · December 8, 2025

Higher-order Linear Attention

Yifan Zhang, Zhen Qin, Mengdi Wang, Quanquan Gu

arXiv:2510.27258 · October 30, 2025

Reinforcement Learning from Compiler and Language Server Feedback

Yifan Zhang, et al.

arXiv:2510.22907 · October 24, 2025

A Markov Categorical Framework for Language Modeling

Yifan Zhang

ICML 2025 AI4Math Workshop · July 25, 2025

On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning

Yifan Zhang*, Yifeng Liu*, Huizhuo Yuan, Quanquan Gu†, Andrew C Yao†

ICLR 2026 · May 23, 2025

Tensor Product Attention Is All You Need

Yifan Zhang*, Yifeng Liu*, Huizhuo Yuan, Zhen Qin, Yang Yuan, Quanquan Gu, Andrew C Yao†

NeurIPS 2025 Spotlight · January 11, 2025

Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment

Yifan Zhang*, Ge Zhang*, Yue Wu*, Kangping Xu, Quanquan Gu

ICML 2025 · October 3, 2024

AutoMathText: Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts

Yifan Zhang, Yifan Luo, Yang Yuan, Andrew C. Yao

ACL 2025 Findings · February 12, 2024

Latest Posts