longhorizon.sh

Papers and resources on long-horizon AI agents

November 2024

Evaluating Frontier AI R&D Capabilities of Language Model Agents Against Human Experts

Nov 22, 2024 · METR Blog
RE-Bench: Evaluating Frontier AI R&D Capabilities of Language Model Agents Against Human Experts

Nov 22, 2024 · arXiv

February 2025

Reinforcement Learning for Long-Horizon Interactive LLM Agents

Feb 2025 · alphaXiv

March 2025

July 2025

How Does Time Horizon Vary Across Domains?

Jul 14, 2025 · METR Blog

September 2025

December 2025

Long-Horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

Dec 15, 2025 · Hugging Face

February 2026

March 2026