OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion and Infinite Data Generation

Yu, Dongyang; Wang, Shihao; Fang, Yuan; An, Wangpeng

Computer Science > Computer Vision and Pattern Recognition

arXiv:2308.04126 (cs)

[Submitted on 8 Aug 2023 (v1), last revised 17 Aug 2023 (this version, v2)]

Title:OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion and Infinite Data Generation

Authors:Dongyang Yu, Shihao Wang, Yuan Fang, Wangpeng An

View PDF

Abstract:This paper presents OmniDataComposer, an innovative approach for multimodal data fusion and unlimited data generation with an intent to refine and uncomplicate interplay among diverse data modalities. Coming to the core breakthrough, it introduces a cohesive data structure proficient in processing and merging multimodal data inputs, which include video, audio, and text.
Our crafted algorithm leverages advancements across multiple operations such as video/image caption extraction, dense caption extraction, Automatic Speech Recognition (ASR), Optical Character Recognition (OCR), Recognize Anything Model(RAM), and object tracking. OmniDataComposer is capable of identifying over 6400 categories of objects, substantially broadening the spectrum of visual information. It amalgamates these diverse modalities, promoting reciprocal enhancement among modalities and facilitating cross-modal data correction. \textbf{The final output metamorphoses each video input into an elaborate sequential document}, virtually transmuting videos into thorough narratives, making them easier to be processed by large language models.
Future prospects include optimizing datasets for each modality to encourage unlimited data generation. This robust base will offer priceless insights to models like ChatGPT, enabling them to create higher quality datasets for video captioning and easing question-answering tasks based on video content. OmniDataComposer inaugurates a new stage in multimodal learning, imparting enormous potential for augmenting AI's understanding and generation of complex, real-world data.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Multimedia (cs.MM); Sound (cs.SD); Audio and Speech Processing (eess.AS)
Cite as:	arXiv:2308.04126 [cs.CV]
	(or arXiv:2308.04126v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2308.04126

Submission history

From: Dongyang Yu [view email]
[v1] Tue, 8 Aug 2023 08:30:16 UTC (1,926 KB)
[v2] Thu, 17 Aug 2023 09:25:22 UTC (9,649 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion and Infinite Data Generation

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion and Infinite Data Generation

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators