{"name":"ScienceToStartup Open Dataset","description":"AI research papers with viability scores and normalized proof metadata.","schema":{"version":"dataset-public-v3","json":{"arxiv_id":"string","title":"string","abstract":"string","published_date":"string (ISO 8601)","viability_score":"number | null","cluster_label":"string","has_code":"boolean","repo_url":"string | null","commercial_flags":"string[]","one_liner":"string","time_to_mvp":"string","tags":"string[]"},"csv":{"arxiv_id":"string","title":"string","abstract":"string","published_date":"string (ISO 8601)","viability_score":"number | null","cluster_label":"string","has_code":"boolean","repo_url":"string | null","commercial_flags":"semicolon-delimited string","one_liner":"string","time_to_mvp":"string","tags":"semicolon-delimited string"},"schema_url":"https://sciencetostartup.com/datasets/artifacts/public-dataset-2026-06-06T04-25-49-511Z/schema.json","fields_count":12},"preview":{"limit":20,"rows":[{"arxiv_id":"2606.06493v1","title":"HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers","viability_score":3,"cluster_label":"Robotics and Control Systems","has_code":false,"one_liner":"Unified robotic control system for complex humanoid tasks using distilled expert networks.","tags":["high_potential"]},{"arxiv_id":"2606.06492v1","title":"Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution","viability_score":8,"cluster_label":"AI Tools for Software Development","has_code":false,"one_liner":"Code2LoRA adapts coding language models for software evolution using hypernetwork-generated adapters.","tags":["series_a_plus","high_potential"]},{"arxiv_id":"2606.06491v1","title":"TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies","viability_score":7,"cluster_label":"AI and Robotics","has_code":false,"one_liner":"TempoVLA enables robots to dynamically adjust execution speed for efficient and precise task performance.","tags":["quick_build","high_potential"]},{"arxiv_id":"2606.06486v1","title":"Regret Minimization with Adaptive Opponents in Repeated Games","viability_score":6,"cluster_label":"AI Decision Systems","has_code":false,"one_liner":"Develop a tool for strategic decision optimization in repeated games using adaptive algorithms.","tags":["quick_build","high_potential"]},{"arxiv_id":"2606.06481v1","title":"Operation-Guided Progressive Human-to-AI Text Transformation Benchmark for Multi-Granularity AI-Text Detection","viability_score":8,"cluster_label":"AI Text Detection","has_code":true,"one_liner":"Develop a benchmark tool for detecting progressive human-AI text transformations to enhance AI-authorship transparency.","tags":["quick_build","series_a_plus","high_potential"]},{"arxiv_id":"2606.06479v1","title":"Pretraining Recurrent Networks without Recurrence","viability_score":0,"cluster_label":"Uncategorized","has_code":false,"one_liner":"","tags":[]},{"arxiv_id":"2606.06475v1","title":"RREDCoT: Segment-Level Reward Redistribution for Reasoning Models","viability_score":0,"cluster_label":"Uncategorized","has_code":false,"one_liner":"","tags":[]},{"arxiv_id":"2606.06474v1","title":"Self-Augmenting Retrieval for Diffusion Language Models","viability_score":0,"cluster_label":"Uncategorized","has_code":false,"one_liner":"","tags":[]},{"arxiv_id":"2606.06473v1","title":"MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery","viability_score":0,"cluster_label":"Uncategorized","has_code":true,"one_liner":"","tags":[]},{"arxiv_id":"2606.06470v1","title":"PC Layer: Polynomial Weight Preconditioning for Improving LLM Pre-Training","viability_score":0,"cluster_label":"Uncategorized","has_code":true,"one_liner":"","tags":[]},{"arxiv_id":"2606.06468v1","title":"Goedel-Architect: Streamlining Formal Theorem Proving with Blueprint Generation and Refinement","viability_score":0,"cluster_label":"Uncategorized","has_code":false,"one_liner":"","tags":[]},{"arxiv_id":"2606.06467v1","title":"You Only Index Once: Cross-Layer Sparse Attention with Shared Routing","viability_score":0,"cluster_label":"Uncategorized","has_code":false,"one_liner":"","tags":[]},{"arxiv_id":"2606.06462v1","title":"Benchmark Everything Everywhere All at Once","viability_score":0,"cluster_label":"Uncategorized","has_code":false,"one_liner":"","tags":[]},{"arxiv_id":"2606.06460v1","title":"Will the Agent Recuse Itself? Measuring LLM-Agent Compliance with In-Band Access-Deny Signals","viability_score":0,"cluster_label":"Uncategorized","has_code":true,"one_liner":"","tags":[]},{"arxiv_id":"2606.06458v1","title":"In-Context Multiple Instance Learning","viability_score":0,"cluster_label":"Uncategorized","has_code":false,"one_liner":"","tags":[]},{"arxiv_id":"2606.06453v1","title":"Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents","viability_score":0,"cluster_label":"Uncategorized","has_code":false,"one_liner":"","tags":[]},{"arxiv_id":"2606.06448v1","title":"Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads","viability_score":0,"cluster_label":"Uncategorized","has_code":false,"one_liner":"","tags":[]},{"arxiv_id":"2606.06423v1","title":"RiskFlow: Fast and Faithful Safety-Critical Traffic Scenario Generation","viability_score":0,"cluster_label":"Uncategorized","has_code":false,"one_liner":"","tags":[]},{"arxiv_id":"2606.06418v1","title":"Double Preconditioning (DoPr): Optimization for Test-Time Performance, not Validation Loss","viability_score":0,"cluster_label":"Uncategorized","has_code":false,"one_liner":"","tags":[]},{"arxiv_id":"2606.06416v1","title":"Unsupervised Skill Discovery for Agentic Data Analysis","viability_score":0,"cluster_label":"Uncategorized","has_code":false,"one_liner":"","tags":[]}]},"distribution":{"viability_buckets":[{"label":"0–1","min":0,"max":1,"count":223,"pct":22.3},{"label":"1–2","min":1,"max":2,"count":13,"pct":1.3},{"label":"2–3","min":2,"max":3,"count":24,"pct":2.4},{"label":"3–4","min":3,"max":4,"count":106,"pct":10.6},{"label":"4–5","min":4,"max":5,"count":126,"pct":12.6},{"label":"5–6","min":5,"max":6,"count":65,"pct":6.5},{"label":"6–7","min":6,"max":7,"count":51,"pct":5.1},{"label":"7–8","min":7,"max":8,"count":308,"pct":30.8},{"label":"8–9","min":8,"max":9,"count":77,"pct":7.7},{"label":"9–10","min":9,"max":10,"count":7,"pct":0.7}],"top_clusters":[{"label":"Uncategorized","count":197,"pct":19.7},{"label":"Agents","count":63,"pct":6.3},{"label":"LLM Training","count":29,"pct":2.9},{"label":"Medical AI","count":27,"pct":2.7},{"label":"LLM Evaluation","count":21,"pct":2.1},{"label":"LLM Reasoning","count":19,"pct":1.9},{"label":"LLM Agents","count":18,"pct":1.8},{"label":"Robotics","count":16,"pct":1.6},{"label":"Other","count":610,"pct":61}],"code_split":{"with_code":207,"without_code":793,"pct_with_code":20.7},"top_tags":[{"label":"high_potential","count":545},{"label":"series_a_plus","count":377},{"label":"quick_build","count":192}]},"update_cadence":"published snapshot","license":"CC BY 4.0","download_urls":{"csv":"https://sciencetostartup.com/api/v1/resources/dataset/export?format=csv","json":"https://sciencetostartup.com/api/v1/resources/dataset/export?format=json"},"meta":{"artifact_id":"public-dataset:2026-06-06T04-25-49-511Z","artifact_slug":"public-dataset-2026-06-06T04-25-49-511Z","schema_version":"dataset-public-v3","exported_at":"2026-06-06T04:25:49.511Z","last_updated_at":"2026-06-04T17:59:50.000Z","fresh_until":"2026-06-07T04:25:49.511Z","row_count":1000,"fields_count":12,"status":"stale","reason":"Public dataset artifact is outside its declared freshness window.","reason_code":"stale_snapshot","freshness":{"status":"stale","observed_at":"2026-06-04T17:59:50.000Z","last_updated_at":"2026-06-04T17:59:50.000Z","fresh_until":"2026-06-07T04:25:49.511Z","stale_after":"2026-06-07T04:25:49.511Z","checked_at":"2026-06-08T19:41:39.306Z","reason":"Public dataset artifact is outside its declared freshness window.","reason_code":"stale_snapshot"},"source_count":1000,"coverage_window":"Public dataset snapshot","method_version":"dataset_export_v3","source_tables":["public/datasets/latest.manifest.json","public/datasets/latest.json"],"artifact_receipt_url":"https://sciencetostartup.com/datasets/artifacts/public-dataset-2026-06-06T04-25-49-511Z/manifest.json","stable_alias_urls":{"json":"/datasets/latest.json","csv":"/datasets/latest.csv","manifest":"/datasets/latest.manifest.json"},"immutable_artifact_urls":{"json":"https://sciencetostartup.com/datasets/artifacts/public-dataset-2026-06-06T04-25-49-511Z/dataset.json","csv":"https://sciencetostartup.com/datasets/artifacts/public-dataset-2026-06-06T04-25-49-511Z/dataset.csv","schema":"https://sciencetostartup.com/datasets/artifacts/public-dataset-2026-06-06T04-25-49-511Z/schema.json"},"checksums":{"json":"bcebb973fc1a23c6441180ba34b033cb70fd4c9ef128aaa2ca1b1b0b19a65d2c","csv":"5822fcb323d47114851f1430c44ae793b6f80da9b8e451a6804da3fa14152d95","schema":"4fa7305f09344ef6509ef5abf6e8d04a100d90736debb5f1e85b616dbcc5ca6d"},"checksum_scope":"immutable_artifact_urls","download_checksums":{"csv":"5822fcb323d47114851f1430c44ae793b6f80da9b8e451a6804da3fa14152d95"},"artifacts":{"immutable":{"json":{"url":"https://sciencetostartup.com/datasets/artifacts/public-dataset-2026-06-06T04-25-49-511Z/dataset.json","content_type":"application/json","sha256":"bcebb973fc1a23c6441180ba34b033cb70fd4c9ef128aaa2ca1b1b0b19a65d2c","size_bytes":1875424},"csv":{"url":"https://sciencetostartup.com/datasets/artifacts/public-dataset-2026-06-06T04-25-49-511Z/dataset.csv","content_type":"text/csv; charset=utf-8","sha256":"5822fcb323d47114851f1430c44ae793b6f80da9b8e451a6804da3fa14152d95","size_bytes":1695620},"schema":{"url":"https://sciencetostartup.com/datasets/artifacts/public-dataset-2026-06-06T04-25-49-511Z/schema.json","content_type":"application/json","sha256":"4fa7305f09344ef6509ef5abf6e8d04a100d90736debb5f1e85b616dbcc5ca6d","size_bytes":904}},"stable_aliases":{"json":"/datasets/latest.json","csv":"/datasets/latest.csv","manifest":"/datasets/latest.manifest.json"},"receipt_url":"https://sciencetostartup.com/datasets/artifacts/public-dataset-2026-06-06T04-25-49-511Z/manifest.json"}}}