new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

May 29

Submitted by

shenqiorient

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

Submitted by

taesiri

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

Qwen

Submitted by

jinheon

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

kaist-ai

Submitted by

jamesliu1217

CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation

·
10 authors

Submitted by

taesiri

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

·
12 authors

Submitted by

yulunliu

YoCausal: How Far is Video Generation from World Model? A Causality Perspective

ShandaAI

Submitted by

chanhee-luke

Why Far Looks Up: Probing Spatial Representation in Vision-Language Models

nvidia

Submitted by

SereinH

GenClaw: Code-Driven Agentic Image Generation

Tencent-Hunyuan

Tencent Hunyuan

Submitted by

Ningyu

How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

alibaba-inc

Submitted by

Alrightlone

EarlyTom: Early Token Compression Completes Fast Video Understanding

·
7 authors

Submitted by

robingg1

Native Audio-Visual Alignment for Generation

baidu

Submitted by

jonathanShi

UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering

ShanghaiTech

ShanghaiTech University

Submitted by

talzoomanzoo

LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training

yonseiworld

Yonsei University

2

Submitted by

heroding77

Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

ECNU

East China Normal University

Submitted by

rookiexiong

LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

Fudan-University

Fudan University

Submitted by

Ningyu

When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

Zhejiang University

Submitted by

NoamIssachar

Colored Noise Diffusion Sampling

The Hebrew University of Jerusalem

Submitted by

hihiczx

Xetrieval: Mechanistically Explaining Dense Retrieval

Beihang

Beihang University

Submitted by

seungyoonee

Is Position Bias in Dense Retrievers Built In-or Learned from Data?

sionic-ai

Submitted by

shizhuo2

CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

UIUC-CS

University of Illinois at Urbana-Champaign

Submitted by

crainone

When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems

qualcomm

Submitted by

luxinyu

LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

·
8 authors

Submitted by

KouShi2

AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

ustc-community

University of Science and Technology of China

Submitted by

SnowNation

Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

RUC

Renmin University of China

2

Submitted by

Yuxiang007

UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents

·
6 authors

Submitted by

anhduy0911

PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers

VinUniversity

Submitted by

omerbenishu

PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions

The Hebrew University of Jerusalem

Submitted by

lliutianc

RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

2

Submitted by

akhaliq

DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

·
9 authors

Submitted by

taesiri

WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

·
17 authors

Submitted by

parsa-mz

REPOT: Recoverable Program-of-Thought via Checkpoint Repair

·
1 authors

Submitted by

ZhishanQ

Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering

University of Illinois Chicago

Submitted by

taesiri

NeuROK: Generative 4D Neural Object Kinematics

·
6 authors

Submitted by

ydalva

AdaState: Self-Evolving Anchors for Streaming Video Generation

mayzovt

2

Submitted by

ng-hung

Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

Nokia

Submitted by

taesiri

Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention

·
9 authors

Submitted by

tiantiaf

ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood

UniversityofSouthernCalifornia

University of Southern California

2

Submitted by

YifeiZuo

Parallax: Parameterized Local Linear Attention for Language Modeling

northwestern-university

Northwestern University

Submitted by

yubol

PANDO: Efficient Multimodal AI Agents via Online Skill Distillation

CarnegieMellonU

Carnegie Mellon University

Submitted by

Exploration

Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

Fudan-University

Fudan University

Submitted by

ashutosh1919

CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

SAP

Submitted by

Arturjssln

Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence

GenIntelLab

Generative Intelligence Lab

Submitted by

utopiar

SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control

Orange-Team

Submitted by

yubol

CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM

CarnegieMellonU

Carnegie Mellon University

Submitted by

aviralchharia

Multi-view Consistent 3D Gaussian Head Avatars 'without' Multi-view Generation

CarnegieMellonU

Carnegie Mellon University

Submitted by

farimafatahi

Reflective Prompt Tuning through Language Model Function-Calling

megagon

Submitted by

Travis-ML

Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection

·
1 authors

Submitted by

miria0

Convex Low-resource Accent-Robust Language Detection in Speech Recognition

StanfordUniversity

Stanford University

Submitted by

Hahmdong

Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

kaist-ai

Submitted by

lucky-lance

OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

·
11 authors

Submitted by

samsongourevitch

Uniform Diffusion Models Revisited: Leave-One-Out Denoiser and Absorbing State Reformulation

·
7 authors

Submitted by

danielchyeh

Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

·
6 authors

Submitted by

vicgalle

Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas

·
1 authors

Submitted by

utopiar

MoZoo:Unleashing Video Diffusion power in animal fur and muscle simulation

Orange-Team

Submitted by

isminoula

Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection

PLAN-Lab

PLAN Lab @University of Illinois Urbana-Champaign

Submitted by

justinphan3110

Reducing Political Manipulation with Consistency Training

cais

Center for AI Safety

Submitted by

pkqbajng

Towards Consistent Video Geometry Estimation

Zhejiang University

Submitted by

tangzhy

PhoneWorld: Scaling Phone-Use Agent Environments

·
24 authors

2

Submitted by

snowleo135

ORACLE: Anticipating Scams from Partial Trajectories in Streaming App Usage

·
9 authors

2