wang

wangxbx

AI & ML interests

None yet

Recent Activity

upvoted a paper 4 days ago

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

upvoted a paper 4 days ago

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

upvoted a paper 4 days ago

Kimi k1.5: Scaling Reinforcement Learning with LLMs

View all activity

Organizations

None yet

wangxbx's activity

upvoted 6 papers 4 days ago

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Paper • 2501.12570 • Published 6 days ago • 20

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Paper • 2501.12895 • Published 5 days ago • 48

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Paper • 2501.12599 • Published 6 days ago • 63

Autonomy-of-Experts Models

Paper • 2501.13074 • Published 5 days ago • 36

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Paper • 2501.13106 • Published 5 days ago • 69

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published 5 days ago • 216

upvoted 2 papers 5 days ago

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

Paper • 2501.11425 • Published 7 days ago • 77

Reasoning Language Models: A Blueprint

Paper • 2501.11223 • Published 8 days ago • 26

upvoted 5 papers 7 days ago

Towards Best Practices for Open Datasets for LLM Training

Paper • 2501.08365 • Published 13 days ago • 49

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

Paper • 2501.09686 • Published 11 days ago • 35

upvoted 4 papers 11 days ago

MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

Paper • 2501.08828 • Published 12 days ago • 28

O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning

Paper • 2501.06458 • Published 17 days ago • 29

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Paper • 2501.06186 • Published 17 days ago • 59

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published 13 days ago • 268

upvoted 3 papers 18 days ago

Multi-task retriever fine-tuning for domain-specific and efficient RAG

Paper • 2501.04652 • Published 19 days ago • 10

Search-o1: Agentic Search-Enhanced Large Reasoning Models

Paper • 2501.05366 • Published 18 days ago • 80

Agent Laboratory: Using LLM Agents as Research Assistants

Paper • 2501.04227 • Published 20 days ago • 81