Article Summary

Showing results for: VQA — Clear filter

Look, Recite, Then Answer: Enhancing VLM Performance via Self-Generated Knowledge Hints Ava Chen, Ben Carter, Chloe Davis
Vision-Language Models Knowledge Generation Prompt Engineering VQA Multimodal AI
Published: 2025-12-04 Link: https://arxiv.org/pdf/2512.00882.pdf
When Better Teachers Don't Make Better Students: Revisiting Knowledge Distillation for CLIP Models in VQA Jian Li, Wei Chen, Xiao Wang
Knowledge Distillation CLIP VQA Model Compression Teacher-Student Learning
Published: 2025-11-30 Link: https://arxiv.org/pdf/2511.17886.pdf
ARIAL: An Agentic Framework for Document VQA with Precise Answer Localization Jia Li, Wei Chen, Bing Xu, Xiaofeng Wang
Document VQA Agentic AI Large Language Models Answer Localization Multimodal AI
Published: 2025-11-25 Link: https://arxiv.org/pdf/2511.18192.pdf
When Better Teachers Don't Make Better Students: Revisiting Knowledge Distillation for CLIP Models in VQA Ava Sharma, Benjamin Chen, Chloe Davis, David Lee
Knowledge Distillation CLIP Visual Question Answering (VQA) Teacher-Student Learning Multi-modal AI
Published: 2025-11-25 Link: https://arxiv.org/pdf/2511.17886.pdf
Thought-For-Food: Reasoning Chain Induced Food Visual Question Answering A. B. Coder, D. E. F. Writer, G. H. I. Editor
Food VQA Visual Question Answering Reasoning Chains Multimodal AI Food Recognition
Published: 2025-11-10 Link: https://arxiv.org/pdf/2511.01213.pdf
NovisVQ: A Streaming Convolutional Neural Network for No-Reference Opinion-Unaware Frame Quality Assessment Jian Li, Sarah Chen, David Wong
No-Reference VQA Streaming CNN Video Quality Assessment Opinion-Unaware Frame Quality
Published: 2025-11-09 Link: https://arxiv.org/pdf/2511.04628.pdf