64 18 17

Binyuan Hui

huybery

https://huybery.github.io

AI & ML interests

Large Language Models, Code Generation, Semantic Parsing

Recent Activity

upvoted a paper 5 days ago

Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models

new activity 22 days ago

Qwen/CodeElo:Update README.md

new activity 22 days ago

Qwen/CodeElo:Create test.json

View all activity

Articles

BigCodeBench: Benchmarking Large Language Models on Solving Practical and Challenging Programming Tasks

Jun 18, 2024

• 43

Organizations

huybery's activity

upvoted a paper 5 days ago

Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models

Paper • 2501.11873 • Published 7 days ago • 59

New activity in Qwen/CodeElo 22 days ago

Update README.md

#5 opened 22 days ago by

quanshr

Create test.json

#4 opened 22 days ago by

quanshr

authored a paper 24 days ago

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

Paper • 2501.01257 • Published 25 days ago • 48

upvoted a paper 25 days ago

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

Paper • 2501.01257 • Published 25 days ago • 48

updated a dataset 25 days ago

Qwen/CodeElo

Viewer • Updated 22 days ago • 408 • 264 • 15

authored 9 papers about 1 month ago

Iterative Forward Tuning Boosts In-Context Learning in Language Models

Paper • 2305.13016 • Published May 22, 2023

PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and Compositional Experts

Paper • 2305.14839 • Published May 24, 2023 • 1

One Shot Learning as Instruction Data Prospector for Large Language Models

Paper • 2312.10302 • Published Dec 16, 2023 • 3

BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions

Paper • 2406.15877 • Published Jun 22, 2024 • 46

Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning

Paper • 2301.13808 • Published Jan 31, 2023

Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for Text-to-SQL Parsing

Paper • 2301.07507 • Published Jan 18, 2023

Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

Paper • 2409.12122 • Published Sep 18, 2024 • 3

ExecRepoBench: Multi-level Executable Code Completion Evaluation

Paper • 2412.11990 • Published Dec 16, 2024

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 343

upvoted a paper about 1 month ago

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 343

commented a paper about 1 month ago

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 343 •

authored a paper about 2 months ago

Evaluating and Aligning CodeLLMs on Human Preference

Paper • 2412.05210 • Published Dec 6, 2024 • 47

upvoted 2 papers about 2 months ago

Evaluating and Aligning CodeLLMs on Human Preference

Paper • 2412.05210 • Published Dec 6, 2024 • 47

ProcessBench: Identifying Process Errors in Mathematical Reasoning

Paper • 2412.06559 • Published Dec 9, 2024 • 79