4 42 60

Kyle Tuft

Chilangosta

AI & ML interests

None yet

Recent Activity

upvoted a paper 1 day ago

EgoLife: Towards Egocentric Life Assistant

upvoted a paper 1 day ago

Token-Efficient Long Video Understanding for Multimodal LLMs

upvoted an article 3 days ago

Remote VAEs for decoding with HF endpoints 🤗

View all activity

Organizations

None yet

Chilangosta's activity

upvoted 2 papers 1 day ago

EgoLife: Towards Egocentric Life Assistant

Paper • 2503.03803 • Published 4 days ago • 31

Token-Efficient Long Video Understanding for Multimodal LLMs

Paper • 2503.04130 • Published 4 days ago • 65

upvoted an article 3 days ago

Article

Remote VAEs for decoding with HF endpoints 🤗

14 days ago

• 34

upvoted a paper 5 days ago

Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs

Paper • 2503.01743 • Published 6 days ago • 65

upvoted a paper 12 days ago

VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

Paper • 2502.17258 • Published 13 days ago • 72

upvoted a paper 19 days ago

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

Paper • 2502.12146 • Published 20 days ago • 16

upvoted a paper 20 days ago

Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation

Paper • 2502.08690 • Published 26 days ago • 41

upvoted a paper 21 days ago

MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

Paper • 2502.10391 • Published 23 days ago • 31

upvoted a paper 23 days ago

CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

Paper • 2502.08639 • Published 25 days ago • 37

upvoted 2 papers 26 days ago

Scaling Pre-training to One Hundred Billion Data for Vision Language Models

Paper • 2502.07617 • Published 27 days ago • 29

Dual Caption Preference Optimization for Diffusion Models

Paper • 2502.06023 • Published 28 days ago • 9

upvoted 5 papers 27 days ago

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

Paper • 2502.05179 • Published about 1 month ago • 24

AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

Paper • 2502.05176 • Published about 1 month ago • 32

upvoted 4 papers about 1 month ago

HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution

Paper • 2501.10045 • Published Jan 17 • 9

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

Paper • 2501.12380 • Published Jan 21 • 83

GSTAR: Gaussian Surface Tracking and Reconstruction

Paper • 2501.10283 • Published Jan 17 • 5

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

Paper • 2501.13928 • Published Jan 23 • 17