Vision, Language and Reading

non-profit

Activity Feed

AI & ML interests

Multimodal AI, Document Understanding, Reading Systems.

Recent Activity

emanuelevivoli authored a paper 2 months ago

ComiCap: A VLMs pipeline for dense captioning of Comic Panels

emanuelevivoli authored a paper 2 months ago

Towards Generative Class Prompt Learning for Fine-grained Visual Recognition

Llabres updated a Space 3 months ago

VLR-CVC/README

View all activity

Organization Card

Community About org cards

Vision, Language, and Reading Group

At the Computer Vision Center (CVC) in Barcelona, Spain.

The VLR research team conducts fundamental research and technology transfer at the frontier between vision, language and reading systems. We devise reading systems for text in the wild, and incorporate scene text semantics in a multitude of computer vision tasks such as captioning, visual question answering, cross-modal retrieval, fine-grained classification, etc. In parallel, we advance document understanding with a special interest in end-to-end approaches for Document Visual Question Answering.

Vision, Language and Reading

AI & ML interests

Recent Activity

Vision, Language, and Reading Group

Collections 2

One missing piece in Vision and Language: A Survey on Comics Understanding

Comics Datasets Framework: Mix of Comics datasets for detection benchmarking

CoMix: A Comprehensive Benchmark for Multi-Task Comic Understanding

DocVQA: A Dataset for VQA on Document Images

Hierarchical multimodal transformers for Multi-Page DocVQA

InfographicVQA

models

datasets

AI & ML interests

Recent Activity

Team members 3

Vision, Language, and Reading Group

Collections 2

models

datasets