Umberto Cappellazzo's picture

1 7 2

Umberto Cappellazzo

hisoka94

·

https://umbertocappellazzo.github.io/

AI & ML interests

Multimodal Large Language Models and audio-visual speech processing at @ Imperial College London.

Recent Activity

upvoted a paper about 5 hours ago

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

upvoted a paper about 22 hours ago

Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs

authored a paper 1 day ago

Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs

View all activity

Organizations

None yet

Papers 8

arxiv:2503.06362

arxiv:2409.12319

arxiv:2402.00828

arxiv:2312.03694

models

None public yet

datasets

None public yet