Article Summary

Showing results for: Multimodal AI — Clear filter

1 2 3 Next »

Thinking with Images via Self-Calling Agent Li Wei, Chen Jie, Wang Siyu
Self-calling agents Visual reasoning Large language models Multimodal AI Agentic AI
Published: 2025-12-11 Link: https://arxiv.org/pdf/2512.08511.pdf
Towards Cross-View Point Correspondence in Vision-Language Models Jian Li, Wei Chen, Xiaojie Wang
Vision-Language Models Cross-View Correspondence Point Matching Geometric Reasoning Multimodal AI
Published: 2025-12-09 Link: https://arxiv.org/pdf/2512.04686.pdf
PPTBench: Towards Holistic Evaluation of Large Language Models for PowerPoint Layout and Design Understanding Jian Li, Wei Zhang, Chen Wang, Xiaodong Li
Large Language Models PowerPoint Layout Understanding Design Evaluation Multimodal AI Benchmark Visual-Spatial Reasoning
Published: 2025-12-09 Link: https://arxiv.org/pdf/2512.02624.pdf
Look, Recite, Then Answer: Enhancing VLM Performance via Self-Generated Knowledge Hints Ava Chen, Ben Carter, Chloe Davis
Vision-Language Models Knowledge Generation Prompt Engineering VQA Multimodal AI
Published: 2025-12-04 Link: https://arxiv.org/pdf/2512.00882.pdf
S^2-MLLM: Boosting Spatial Reasoning Capability of MLLMs for 3D Visual Grounding with Structural Guidance Ling Li, Wei Wang, Chen Zhang, Ying Liu, Jian Xu
MLLMs Spatial Reasoning 3D Visual Grounding Structural Guidance Multimodal AI Scene Understanding
Published: 2025-12-04 Link: https://arxiv.org/pdf/2512.01223.pdf
VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction Li Wei, Chen Xiu, Wang Jian
VQRAE Representation Learning Vector Quantization Multimodal AI Generative Models Autoencoders Reconstruction
Published: 2025-12-03 Link: https://arxiv.org/pdf/2511.23386.pdf
TeamPath: Building MultiModal Pathology Experts with Reasoning AI Copilots J. Smith, A. B. Johnson, C. D. Lee, E. F. Garcia, G. H. Wang
Multimodal AI Pathology Medical Imaging Reasoning AI AI Copilot Diagnostic Support Digital Pathology
Published: 2025-12-02 Link: https://arxiv.org/pdf/2511.17652.pdf
Decoupled Audio-Visual Dataset Distillation Anya Sharma, Ben Carter, Chen Li
Audio-Visual Learning Dataset Distillation Knowledge Distillation Multimodal AI Decoupled Architectures
Published: 2025-12-01 Link: https://arxiv.org/pdf/2511.17890.pdf
CaptionQA: Is Your Caption as Useful as the Image Itself? Alice K. Chen, Bob L. Davis, Carol M. Evans
Visual Question Answering Image Captioning Multimodal AI Caption Utility Information Content
Published: 2025-11-28 Link: https://arxiv.org/pdf/2511.21025.pdf
Understanding Task Transfer in Vision-Language Models J. S. Kim, S. A. Chen, P. R. Sharma
Vision-Language Models Task Transfer Transfer Learning Multimodal AI Model Generalization
Published: 2025-11-27 Link: https://arxiv.org/pdf/2511.18787.pdf

1 2 3 Next »