Yotam Perlitz's picture

3 4 7

Yotam Perlitz

per

AI & ML interests

None yet

Recent Activity

authored a paper 8 days ago

Holmes: Benchmark the Linguistic Competence of Language Models

authored a paper 8 days ago

JuStRank: Benchmarking LLM Judges for System Ranking

liked a Space 10 days ago

aialliance/safetybat

View all activity

Articles

Bamba: Inference-Efficient Hybrid Mamba2 Model

Organizations

per's activity

authored 2 papers 8 days ago

Holmes: Benchmark the Linguistic Competence of Language Models

Paper • 2404.18923 • Published Apr 29

JuStRank: Benchmarking LLM Judges for System Ranking

Paper • 2412.09569 • Published 13 days ago • 19

liked a Space 10 days ago

🏋️‍♂️

Safety BAT

updated a Space 13 days ago

🧑🏻‍⚖️

JuStRank

commented a paper 13 days ago

JuStRank: Benchmarking LLM Judges for System Ranking

Paper • 2412.09569 • Published 13 days ago • 19 •

upvoted a paper 13 days ago

JuStRank: Benchmarking LLM Judges for System Ranking

Paper • 2412.09569 • Published 13 days ago • 19

liked a Space 13 days ago

🧑🏻‍⚖️

JuStRank

liked a Space about 1 month ago

Running on CPU Upgrade

Open LLM Leaderboard

Track, rank and evaluate open LLMs and chatbots

updated a Space about 2 months ago

🏋️‍♂️

BenchBench Leaderboad

liked a Space about 2 months ago

🏋️‍♂️

BenchBench Leaderboad

updated a Space 2 months ago

🏋️‍♂️

BenchBench Leaderboad

upvoted a paper 5 months ago

Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation

Paper • 2407.13696 • Published Jul 18 • 5

authored 2 papers 5 months ago

Efficient Benchmarking (of Language Models)

Paper • 2308.11696 • Published Aug 22, 2023

Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation

Paper • 2407.13696 • Published Jul 18 • 5

New activity in SEACrowd/flores200 5 months ago

fix small bug in instructions

#1 opened 5 months ago by

updated a collection 5 months ago

✨ Highlights

4 items • Updated Aug 15 • 1

New activity in per/benchbench 5 months ago

Update README.md

#1 opened 5 months ago by

liked a Space 5 months ago

🏋️‍♂️

BenchBench Leaderboad

upvoted a paper 11 months ago

Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI

Paper • 2401.14019 • Published Jan 25 • 21

authored a paper 11 months ago

Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI

Paper • 2401.14019 • Published Jan 25 • 21