Build Loop

#PAPERCLUSTERDATESCORE

1EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving AgentsAI Tools for Continuous Learning2d64.7
2A History-Aware Visually Grounded Critic for Computer Use AgentsUncategorized2d36.73
3Mitigating Bias in Low-SNR Financial Reinforcement Learning via Quantum RepresentationsUncategorized2d36.02
4The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent MisalignmentUncategorized2d35.89
5A Unifying Lens on Supervised Fine-Tuning Through Target Distribution DesignAI Model Training Methods2d35.77
6Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and TranslationUncategorized2d35.27
7FADA: Accessible fetal ultrasound interpretation and annotation with a selectively distilled unified vision-language modelUncategorized2d35.27
8From Context-Aware to Conflict-Aware: Generalizing Contrastive Decoding for Knowledge Conflict in LLMsUncategorized2d34.72
9One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QAUncategorized2d33.84
10Beyond Static Evaluation: Co-Evolutionary Mechanisms for LLM-Driven Strategy Evolution in Adversarial GamesUncategorized2d33.77
11Spatial-Omni: Spatial Audio Understanding Integration in Multimodal LLMs via FOA EncodingUncategorized2d33.33
12++nnU-Net: Scaling nnU-Net with Prefix-Based Data AugmentationUncategorized2d33.22
13The Role of Feedback Alignment in Self-DistillationAI Model Optimization2d32.57
14LIBERO-Occ: Evaluating and Improving Vision-Language-Action Models under Scene-Induced Occlusion via Viewpoint ImaginationUncategorized2d32.42
15Piper: A Programmable Distributed Training SystemAI Infrastructure2d31.77
16Flaws in the LLM Automation NarrativeAI Research Critique2d31.67
17Self-Distillation Policy Optimization via Visual Feedback: Bridging Code and Visual ArtifactsUncategorized2d24.12
18Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional FieldsUncategorized2d23.81
19Mind the Gap: Can Frontier LLMs Pass a Standardized Office Proficiency Exam?Uncategorized2d23.26
20Machine Learning Methods for Studying Latent Neural Activity DynamicsUncategorized2d23.15
21ComBench: A Benchmark for Rigorous Proof Reasoning and Constructive Realization in Olympiad-Level CombinatoricsUncategorized2d23.15
22Role-Agent: Bootstrapping LLM Agents via Dual-Role EvolutionUncategorized2d23.15
23T1-Bench: Benchmarking Multi-Scenario Agents in Real-World DomainsUncategorized2d23.15
24Test-Time Gradient Guidance of Flow Policies in Reinforcement LearningUncategorized2d23.15
25CIAware-Bench: Benchmarking Control Intervention Awareness Across Frontier LLMsUncategorized2d23.15
26Dep-LLM: Training-Free Depression Diagnosis via Evidence-Guided Structured Multi-factor with Reliable LLM ReasoningUncategorized2d23.12
27Test-time Adversarial Takeover: A Real-time Hijacking Interface against Robotic Diffusion PoliciesUncategorized2d23.11
28Do VLMs Reason Like Engineers? A Benchmark and a Stage-wise EvaluationUncategorized2d22.81
29Supervised Fine-tuning with Synthetic Rationale Data Hurts Real-World Disease PredictionUncategorized2d22.71
30Reasoning or Memorization? Direction-Aware Diversity Exploration in LLM Reinforcement LearningUncategorized2d22.71

Select a paper from the list to view details.

Build Loop · Decide which papers become startups. · Today's queue.