Article Summary

Showing results for: Language Models — Clear filter

1 2 ... 10 Next »

1 + 1 > 2: Detector-Empowered Video Large Language Model for Spatio-Temporal Grounding and Reasoning John Doe, Jane Smith, Alex Brown
Video Large Language Models Spatio-Temporal Grounding Object Detection Video Reasoning Multimodal AI
Published: 2025-12-13 Link: https://arxiv.org/pdf/2512.06673.pdf
Concept-based Explainable Data Mining with VLM for 3D Detection Jian Li, Wei Zhang, Chen Wang, Xiaoyu Liu
Explainable AI 3D Object Detection Vision-Language Models Concept-based Explanations Data Mining
Published: 2025-12-13 Link: https://arxiv.org/pdf/2512.05482.pdf
When Privacy Meets Recovery: The Overlooked Half of Surrogate-Driven Privacy Preservation for MLLM Editing Author 1 (Not Provided), Author 2 (Not Provided)
Privacy Recovery Surrogate-Driven Privacy Preservation MLLM Editing Multimodal Large Language Models
Published: 2025-12-13 Link: https://arxiv.org/pdf/2512.07166.pdf
Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models Jian Li, Wei Chen, Ying Zhang
Multimodal Large Language Models Visual Representation Deep Learning Computer Vision Language Models
Published: 2025-12-13 Link: https://arxiv.org/pdf/2512.06281.pdf
Building Reasonable Inference for Vision-Language Models in Blind Image Quality Assessment Not Provided
Vision-Language Models Blind Image Quality Assessment Image Quality Prompt Engineering Deep Learning
Published: 2025-12-12 Link: https://arxiv.org/pdf/2512.09555.pdf
Explainable Melanoma Diagnosis with Contrastive Learning and LLM-based Report Generation John Doe, Jane Smith, Robert Johnson
Melanoma Explainable AI Contrastive Learning Large Language Models Dermatoscopy Medical Diagnosis
Published: 2025-12-11 Link: https://arxiv.org/pdf/2512.06105.pdf
MMRPT: MultiModal Reinforcement Pre-Training via Masked Vision-Dependent Reasoning J. Chen, L. Wang, K. Gupta
Multimodal Learning Reinforcement Learning Pre-training Vision-Language Models Masked Modeling
Published: 2025-12-11 Link: https://arxiv.org/pdf/2512.07203.pdf
RVLF: A Reinforcing Vision-Language Framework for Gloss-Free Sign Language Translation Jian Li, Wei Chen, Yan Wang
Sign Language Translation Vision-Language Models Reinforcement Learning Gloss-Free SLT Video-to-Text
Published: 2025-12-10 Link: https://arxiv.org/pdf/2512.07273.pdf
SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models Ava Chen, Benjamin Lee, Sophia Garcia, Daniel Kim
Vision-Language Models Action Planning Simulation Robotics Reinforcement Learning
Published: 2025-12-09 Link: https://arxiv.org/pdf/2512.05955.pdf
Towards Cross-View Point Correspondence in Vision-Language Models Jian Li, Wei Chen, Xiaojie Wang
Vision-Language Models Cross-View Correspondence Point Matching Geometric Reasoning Multimodal AI
Published: 2025-12-09 Link: https://arxiv.org/pdf/2512.04686.pdf

1 2 ... 10 Next »