ARXIV:2603.08126 · GENERATIVE AUDIO · SUBMITTED 02 APR · 02:30 UTC · FRESHNESS STALE

VerifiedSource: PDF linkedPartialPaperPack: 3 of 4 citation fields filledMissingMissing fields: authorsPartialProof: unverified proof status

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

arXiv

FoleyFlow generates coordinated audio from video by aligning audio-visual encoders with masked modeling and dynamic conditional flows, surpassing existing benchmarks.

Blocked on Code›Score7.0Evidence unverified

Opportunity summary

Pain FoleyFlow generates coordinated audio from video by aligning audio-visual encoders with masked modeling and dynamic conditional flows, surpassing existing benchmarks.

Evidence 0 refs | 0 sources | 17% coverage

Blocker Evidence unverified

Open Build Read PDF Signal Canvas Track

PROBLEM

FoleyFlow generates coordinated audio from video by aligning audio-visual encoders with masked modeling and dynamic conditional flows, surpassing existing benchmarks. Previous studies leverage a two-stage design where the AV encoders are firstly aligned via…

METHOD

Full abstract

Coordinated audio generation based on video inputs typically requires a strict audio-visual (AV) alignment, where both semantics and rhythmics of the generated audio segments shall correspond to those in the video frames. Previous studies leverage a two-stage design where the AV encoders are firstly aligned via contrastive learning, then the encoded video representations guide the audio generation process. We observe that both contrastive learning and global video guidance are effective in aligning overall AV semantics while limiting temporally rhythmic synchronization. In this work, we propose FoleyFlow to first align unimodal AV encoders via masked modeling training, where the masked audio segments are recovered under the guidance of the corresponding video segments. After training, the AV encoders which are separately pretrained using only unimodal data are aligned with semantic and rhythmic consistency. Then, we develop a dynamic conditional flow for the final audio generation. Built upon the efficient velocity flow generation framework, our dynamic conditional flow utilizes temporally varying video features as the dynamic condition to guide corresponding audio segment generations. To this end, we extract coherent semantic and rhythmic representations during masked AV alignment, and use this representation of video segments to guide audio generation temporally. Our audio results are evaluated on the standard benchmarks and largely surpass existing results under several metrics. The superior performance indicates that FoleyFlow is effective in generating coordinated audios that are both semantically and rhythmically coherent to various video sequences.

RESULT

ScienceToStartup currently rates this 7.0/10 on the public viability pass. Our audio results are evaluated on the standard benchmarks and largely surpass existing results under several metrics.

WHY NOW

Generative Audio moved forward this cycle; last verified April 2026. Public score 7.0/10.

Continue into Read for claims, analysis, references, and neighboring papers.

Opportunity summary

Score7.0

PainFoleyFlow generates coordinated audio from video by aligning audio-visual encoders with masked modeling and dynamic conditional flows, surpassing existing benchmarks.

Evidence0 refs | 0 sources | 17% coverage

Blockermissing authors

Analysis summary

FoleyFlow generates coordinated audio from video by aligning audio-visual encoders with masked modeling and dynamic conditional flows, surpassing existing benchmarks.

VerifiedSource: PDF linkedPartialPaperPack: 3 of 4 citation fields filledMissingMissing fields: authorsPartialProof: unverified proof status

Competitive landscape

FoleyFlow generates coordinated audio from video by aligning audio-visual encoders with masked modeling and dynamic conditional flows, surpassing existing benchmarks.

Segment

Generative Audio

Adoption evidence

No public code link in the paper record yet

Commercial read

7.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

{ "contract_version": "paper-r2", "paper_id": "b62dcf9c-bfdb-4570-8d9f-f8a4ccdcdad7", "arxiv_id": "2603.08126", "canonical_route": "/paper/foley-flow-coordinated-video-to-audio-generation-with-masked-audio-visual-alignment-and-dynamic-conditional-flows", "active_tab": "synced from current hash by the drawer client", "selected_artifact": "foley-flow-coordinated-video-to-audio-generation-with-masked-audio-visual-alignment-and-dynamic-conditional-flows", "endpoints": { "paper_pack": "/api/v1/paper/foley-flow-coordinated-video-to-audio-generation-with-masked-audio-visual-alignment-and-dynamic-conditional-flows/paper-pack", "build_passport": "/api/v1/paper/foley-flow-coordinated-video-to-audio-generation-with-masked-audio-visual-alignment-and-dynamic-conditional-flows/build-passport", "mcp_resource": "sciencetostartup://surfaces/paper-workspace" } }

{ "surface": "paper", "mode": "paper", "query": "Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows", "normalized_query": "2603.08126", "route": "/paper/foley-flow-coordinated-video-to-audio-generation-with-masked-audio-visual-alignment-and-dynamic-conditional-flows", "paper_ref": "foley-flow-coordinated-video-to-audio-generation-with-masked-audio-visual-alignment-and-dynamic-conditional-flows", "topic_slug": null, "benchmark_ref": null, "dataset_ref": null }

{ "@context": "https://schema.org", "@graph": [ { "@type": "WebPage", "@id": "https://sciencetostartup.com/paper/foley-flow-coordinated-video-to-audio-generation-with-masked-audio-visual-alignment-and-dynamic-conditional-flows#webpage", "url": "https://sciencetostartup.com/paper/foley-flow-coordinated-video-to-audio-generation-with-masked-audio-visual-alignment-and-dynamic-conditional-flows", "name": "Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows", "description": "FoleyFlow generates coordinated audio from video by aligning audio-visual encoders with masked modeling and dynamic conditional flows, surpassing existing benchmarks.", "isPartOf": { "@id": "https://sciencetostartup.com/#website" } }, { "@type": "ScholarlyArticle", "@id": "https://sciencetostartup.com/paper/foley-flow-coordinated-video-to-audio-generation-with-masked-audio-visual-alignment-and-dynamic-conditional-flows#scholarlyArticle", "headline": "Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows", "description": "FoleyFlow generates coordinated audio from video by aligning audio-visual encoders with masked modeling and dynamic conditional flows, surpassing existing benchmarks.", "url": "https://sciencetostartup.com/paper/foley-flow-coordinated-video-to-audio-generation-with-masked-audio-visual-alignment-and-dynamic-conditional-flows", "sameAs": "https://arxiv.org/abs/2603.08126", "identifier": { "@type": "PropertyValue", "propertyID": "arXiv", "value": "2603.08126" }, "isAccessibleForFree": true, "isPartOf": { "@id": "https://sciencetostartup.com/#website" }, "datePublished": "2026-03-09T09:06:25.000Z", "additionalProperty": [ { "@type": "PropertyValue", "propertyID": "viabilityScore", "value": 7 }, { "@type": "PropertyValue", "propertyID": "researchDomain", "value": "Generative Audio" } ] }, { "@type": "BreadcrumbList", "itemListElement": [ { "@type": "ListItem", "position": 1, "name": "Home", "item": "https://sciencetostartup.com" }, { "@type": "ListItem", "position": 2, "name": "Generative Audio", "item": "https://sciencetostartup.com/topics" }, { "@type": "ListItem", "position": 3, "name": "Foley-Flow: Coordinated Video-to-Audio Generation with Maske", "item": "https://sciencetostartup.com/paper/foley-flow-coordinated-video-to-audio-generation-with-masked-audio-visual-alignment-and-dynamic-conditional-flows" } ] } ] }

Competitive landscape

FoleyFlow generates coordinated audio from video by aligning audio-visual encoders with masked modeling and dynamic conditional flows, surpassing existing benchmarks.

Segment

Generative Audio

Adoption evidence

No public code link in the paper record yet

Commercial read

7.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline