2025 LLM Papers on Hugging Face with Japanese Memos
Paper • 2501.00958 • Published • 91Note VLM訓練用に2.5年間にわたる教育ビデオから構築された高品質なマルチモーダル教科書コーパスを作成。 上記を学習することで知識を必要とするタスクや推論を必要とするタスクで顕著な改善。特にfew-shot learningで精度向上。
ProgCo: Program Helps Self-Correction of Large Language Models
Paper • 2501.01264 • Published • 24Note Program-driven Self-Correction (プログラム駆動型自己修正手法)(ProgCo)を提案。 ProgCoは以下二つの方法で自己修正 - ProgVe: 入力に対して、LLMで検証用の擬似プログラムを生成しテスト - ProgRe: ProgVeから得られたフィードバックをもとに、LLMが自分の出力と検証プログラムの両方を見直し、修正
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
Paper • 2501.01957 • Published • 33Note Vision, Languageに加え、Speechを統合したマルチモーダル大規模言語モデル 従来のASRやTTSモジュールに依存せず、E2Eの音声出力を実現 https://github.com/VITA-MLLM/VITA
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning
Paper • 2501.03226 • Published • 33Note ステップレベルのインコンテキスト学習を提案 従来のICLは問題全体に対する例を事前に提示していたが、BoostStepは推論過程で関連性の高い例をリアルタイムで与えて、推論に役立てる。 図はFigure 2, https://arxiv.org/pdf/2501.03226
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models
Paper • 2501.02955 • Published • 39Note VLMのための動画ベンチマークセット、既存のVLMは細かい動作について理解度60%未満だった
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
Paper • 2501.03895 • Published • 42Note Vision Tokenを大幅に圧縮し、計算効率を向上させた大規模マルチモーダルモデル
Cosmos World Foundation Model Platform for Physical AI
Paper • 2501.03575 • Published • 54Note 世界モデルを構築できるプラットフォーム(物理的な現象を模倣する高品質な動画生成可能)
Agent Laboratory: Using LLM Agents as Research Assistants
Paper • 2501.04227 • Published • 65Note 文献レビュー、実験、報告書作成等、包括的な研究成果を支援。AI Scientistなどとは異なり、研究者が自身のアイデアを実現するための支援を行うことが目的。研究コストを84%削減。
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
Paper • 2501.04682 • Published • 67Note Meta Chain-of-Thought(Meta-CoT) 推論過程を明示的にモデル化し、プロセス監視や合成データ生成を行うことでCoTの精度を向上
An Empirical Study of Autoregressive Pre-training from Videos
Paper • 2501.05453 • Published • 28Note 動画から自己回帰型の事前学習(Meta) 動画の各フレームをトークン化し、次のトークンを予測するタスクを通じてモデルを訓練 トークン化にはdVAEやVQGANなどの手法が用いられている