Article Summary

Showing results for: Audio-Visual — Clear filter

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation Authors could not be extracted as the article content is inaccessible
Multimodal Audio-Visual Dialogue Understanding Generation Content Inaccessible
Published: 2025-12-07 Link: https://arxiv.org/pdf/2512.03034.pdf
Do You See What I Say? Generalizable Deepfake Detection based on Visual Speech Recognition Alice B. Researcher, Bob C. Engineer, Carol D. Scientist
Deepfake Detection Visual Speech Recognition Generalization Audio-Visual Analysis Media Forensics
Published: 2025-12-03 Link: https://arxiv.org/pdf/2511.22443.pdf
Decoupled Audio-Visual Dataset Distillation Anya Sharma, Ben Carter, Chen Li
Audio-Visual Learning Dataset Distillation Knowledge Distillation Multimodal AI Decoupled Architectures
Published: 2025-12-01 Link: https://arxiv.org/pdf/2511.17890.pdf
Towards Generalizable Deepfake Detection via Forgery-aware Audio-Visual Adaptation: A Variational Bayesian Approach Jian Li, Wei Chen, Xiao Wang, Yan Zhang
Deepfake Detection Audio-Visual Forgery Variational Bayesian Generalization Multimedia Forensics
Published: 2025-11-28 Link: https://arxiv.org/pdf/2511.19080.pdf
Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis A. Placeholder, B. Example, C. Author
Text-to-Audio-Visual Synthesis Shared Latent Representation Multi-modal Generation Deep Learning Generative Models
Published: 2025-11-15 Link: https://arxiv.org/pdf/2511.05432.pdf
AVAR-Net: A Lightweight Audio-Visual Anomaly Recognition Framework with a Benchmark Dataset Y. Chen, W. Zhang, L. Wang, Q. Li
Audio-Visual Anomaly Recognition Lightweight Deep Learning Multimodal Fusion Benchmark Dataset Unsupervised Learning
Published: 2025-10-19 Link: https://arxiv.org/pdf/2510.13630.pdf