Samuel Bowman's picture

Samuel Bowman

samuelpbowman

samuelpbowman

AI & ML interests

None yet

Recent Activity

authored a paper 1 day ago

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

authored a paper about 2 months ago

Alignment faking in large language models

View all activity

Organizations

None yet

Papers 2

arxiv:2501.18837

arxiv:2412.14093

models

None public yet

datasets

None public yet