Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question Answering

Salemi, Alireza; Rafiee, Mahta; Zamani, Hamed

Computer Science > Information Retrieval

arXiv:2306.16478 (cs)

[Submitted on 28 Jun 2023]

Title:Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question Answering

Authors:Alireza Salemi, Mahta Rafiee, Hamed Zamani

View PDF

Abstract:This paper studies a category of visual question answering tasks, in which accessing external knowledge is necessary for answering the questions. This category is called outside-knowledge visual question answering (OK-VQA). A major step in develo** OK-VQA systems is to retrieve relevant documents for the given multi-modal query. Current state-of-the-art asymmetric dense retrieval model for this task uses an architecture with a multi-modal query encoder and a uni-modal document encoder. Such an architecture requires a large amount of training data for effective performance. We propose an automatic data generation pipeline for pre-training passage retrieval models for OK-VQA tasks. The proposed approach leads to 26.9% Precision@5 improvements compared to the current state-of-the-art asymmetric architecture. Additionally, the proposed pre-training approach exhibits a good ability in zero-shot retrieval scenarios.

Subjects:	Information Retrieval (cs.IR); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2306.16478 [cs.IR]
	(or arXiv:2306.16478v1 [cs.IR] for this version)
	https://doi.org/10.48550/arXiv.2306.16478

Submission history

From: Alireza Salemi [view email]
[v1] Wed, 28 Jun 2023 18:06:40 UTC (2,667 KB)

Computer Science > Information Retrieval

Title:Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question Answering

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Information Retrieval

Title:Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question Answering

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators