Article Summary

Showing results for: Multimodal — Clear filter

1 2 ... 11 Next »

Towards Stable Cross-Domain Depression Recognition under Missing Modalities Jing Li, Wei Chen, Xiaoyan Wang
Depression Recognition Cross-Domain Learning Missing Modalities Multimodal Fusion Domain Adaptation
Published: 2025-12-14 Link: None
1 + 1 > 2: Detector-Empowered Video Large Language Model for Spatio-Temporal Grounding and Reasoning John Doe, Jane Smith, Alex Brown
Video Large Language Models Spatio-Temporal Grounding Object Detection Video Reasoning Multimodal AI
Published: 2025-12-13 Link: https://arxiv.org/pdf/2512.06673.pdf
Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task Jian Li, Wei Chen, Yan Zhang, Min Wang
Video Question Answering Spatiotemporal Reasoning Tool-Augmented LLMs Multimodal AI Video Understanding
Published: 2025-12-13 Link: https://arxiv.org/pdf/2512.10359.pdf
When Privacy Meets Recovery: The Overlooked Half of Surrogate-Driven Privacy Preservation for MLLM Editing Author 1 (Not Provided), Author 2 (Not Provided)
Privacy Recovery Surrogate-Driven Privacy Preservation MLLM Editing Multimodal Large Language Models
Published: 2025-12-13 Link: https://arxiv.org/pdf/2512.07166.pdf
Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models Jian Li, Wei Chen, Ying Zhang
Multimodal Large Language Models Visual Representation Deep Learning Computer Vision Language Models
Published: 2025-12-13 Link: https://arxiv.org/pdf/2512.06281.pdf
Explaining the Unseen: Multimodal Vision-Language Reasoning for Situational Awareness in Underground Mining Disasters Author 1 Name Not Provided, Author 2 Name Not Provided
Multimodal Vision-Language Reasoning Situational Awareness Underground Mining Disasters Explainable AI Mining Safety
Published: 2025-12-12 Link: https://arxiv.org/pdf/2512.09092.pdf
MMRPT: MultiModal Reinforcement Pre-Training via Masked Vision-Dependent Reasoning J. Chen, L. Wang, K. Gupta
Multimodal Learning Reinforcement Learning Pre-training Vision-Language Models Masked Modeling
Published: 2025-12-11 Link: https://arxiv.org/pdf/2512.07203.pdf
Thinking with Images via Self-Calling Agent Li Wei, Chen Jie, Wang Siyu
Self-calling agents Visual reasoning Large language models Multimodal AI Agentic AI
Published: 2025-12-11 Link: https://arxiv.org/pdf/2512.08511.pdf
Towards Cross-View Point Correspondence in Vision-Language Models Jian Li, Wei Chen, Xiaojie Wang
Vision-Language Models Cross-View Correspondence Point Matching Geometric Reasoning Multimodal AI
Published: 2025-12-09 Link: https://arxiv.org/pdf/2512.04686.pdf
PPTBench: Towards Holistic Evaluation of Large Language Models for PowerPoint Layout and Design Understanding Jian Li, Wei Zhang, Chen Wang, Xiaodong Li
Large Language Models PowerPoint Layout Understanding Design Evaluation Multimodal AI Benchmark Visual-Spatial Reasoning
Published: 2025-12-09 Link: https://arxiv.org/pdf/2512.02624.pdf

1 2 ... 11 Next »