new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jun 12

Submitted by

zhiyuanhucs

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments

MIT

Massachusetts Institute of Technology

Submitted by

ryanlee-dev

MiniMax Sparse Attention

MiniMaxAI

Submitted by

wanlilll

WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces

microsoft

Submitted by

cmhungsteve

SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning

nvidia

Submitted by

zhengli1013

InterleaveThinker: Reinforcing Agentic Interleaved Generation

·
7 authors

Submitted by

taesiri

MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling

MiniMaxAI

Submitted by

Jiaqi-hkust

Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

·
9 authors

Submitted by

namespace-ERI

FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents

·
12 authors

Submitted by

taesiri

LabVLA: Grounding Vision-Language-Action Models in Scientific Laboratories

·
18 authors

Submitted by

zgzaacm

HYDRA-X: Native Unified Multimodal Models with Holistic Visual Tokenizers

NJU

Nanjing University

Submitted by

Yunqiu

VIA-SD: Verification via Intra-Model Routing for Speculative Decoding

·
4 authors

4

Submitted by

MoonKuun

N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization

·
4 authors

2

Submitted by

amyxx2001

EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery

THU-KEG

Knowledge Engineer Group @ Tsinghua University

Submitted by

Yunqiu

From 2D Grids to 1D Tokens: Reforming Shared Representations for Multimodal Image Fusion

·
4 authors

Submitted by

EasonFan

Demystifying Hidden-State Recurrence: Switchable Latent Reasoning with On-Policy Reinforcement Learning

·
9 authors

2

Submitted by

taesiri

VideoMDM: Towards 3D Human Motion Generation From 2D Supervision

·
4 authors

Submitted by

P1n3

Where, What, Why, and Importance: Structured Defect Grounding for Text-to-Image Feedback

Kwai-Kolors

Kolors Team, Kuaishou Technology

Submitted by

utopiar

MoVerse: Real-Time Video World Modeling with Panoramic Gaussian Scaffold

Orange-Team

Submitted by

xw27

HarnessBridge: Learnable Bidirectional Controller for LLM Agent Harness

UCLA

University of California, Los Angeles

Submitted by

mingzhema

TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search

·
11 authors

3

Submitted by

Cxxs

High-Fidelity Two-Step Image Generation via Teacher-Aligned End-to-End Distillation

Tongyi-MAI

3

Submitted by

Malikeh1375

Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models

r-three

Submitted by

pianzhikuang

Visual Para-Thinker++: A Single-Policy Multi-Agent Framework for Visual Reasoning

·
7 authors

Submitted by

pianzhikuang

SG-OPD: Sign-Gated On-Policy Distillation via Sign-Consistency Gating and Phased Teacher Sampling

·
6 authors

Submitted by

RKocielnik

Rethinking Psychometric Evaluation of LLMs: When and Why Self-Reports Predict Behavior

·
8 authors

Submitted by

Krystalan

EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

·
5 authors

2

Submitted by

pangly

MaskAlign: Token-Subset Representation Alignment for Efficient Diffusion Training

Submitted by

tayalmanan

MuJoCo-Drones-Gym: A GPU-Accelerated Multi-Drone Simulator for Control and Reinforcement Learning

tau-intelligence

TAU Intelligence

Submitted by

siyich

See What I See, Know What I Think: Dense Latent Communication Across Heterogeneous Agents

umich

University of Michigan

Submitted by

LeoYML

Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents

ibm-research

Submitted by

yujunzhou

Getting Better at Working With You: Compiling User Corrections into Runtime Enforcement for Coding Agents

·
11 authors

Submitted by

Agcs12

ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages

IITPatna01

Submitted by

taesiri

WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation

·
5 authors

Submitted by

taesiri

Surflo: Consistent 3D Surface Flow Model with Global State

·
6 authors

Submitted by

jayoohwang

WebChallenger: A Reliable and Efficient Generalist Web Agent

·
3 authors

Submitted by

ohadeytan

Flash-GMM: A Memory-Efficient Kernel for Scalable Soft Clustering

ibm-research

Submitted by

Row11n

IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder

·
8 authors

Submitted by

PandaQQ

Revisiting Articulated Parts Perception in Robot Manipulation

SJTU

Shanghai Jiao Tong University

Submitted by

cesun

The Cold-Start Safety Gap in LLM Agents

·
3 authors

Submitted by

ashutosh1919

ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

SAP

Submitted by

NiccoBiondi

A Stationary (and Therefore Compatible) Representation is All You Need

MHUGLab

Multimedia and Human Understanding Group

Submitted by

realfolkcode

PianoKontext: Expressive Performance Rendering from Deadpan Context

·
1 authors

Submitted by

RaphaelBfr

Leveraging Morphology for Historical Script Metrological Analysis

Ecole des Ponts ParisTech

Submitted by

RKocielnik

On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance

caltech

California institute of technology