MastermindEval - a whoisjones Collection

whoisjones 's Collections

updated 3 days ago

Evaluating reasoning capabilities of LLMs using the game of Mastermind (paper is coming)