Peter Szemraj's picture

Peter Szemraj PRO

pszemraj

·

https://pszemraj.carrd.co/

pszemraj

AI & ML interests

metallic intuition

Recent Activity

upvoted a paper 1 day ago

RedPajama: an Open Dataset for Training Large Language Models

upvoted a paper 3 days ago

HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs

liked a model 4 days ago

Qwen/QwQ-32B

View all activity

Organizations

pszemraj's activity

upvoted a paper 1 day ago

RedPajama: an Open Dataset for Training Large Language Models

Paper • 2411.12372 • Published Nov 19, 2024 • 53

upvoted a paper 3 days ago

HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs

Paper • 2503.02003 • Published 6 days ago • 37

upvoted 2 papers 5 days ago

When an LLM is apprehensive about its answers -- and when its uncertainty is justified

Paper • 2503.01688 • Published 6 days ago • 19

From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens

Paper • 2502.18890 • Published 12 days ago • 23

upvoted a collection 6 days ago

ProX Dataset

a collection of pre-training corpora refined by ProX • 6 items • Updated 23 days ago • 7

upvoted 2 papers 7 days ago

LongRoPE2: Near-Lossless LLM Context Window Scaling

Paper • 2502.20082 • Published 10 days ago • 31

NeoBERT: A Next-Generation BERT

Paper • 2502.19587 • Published 11 days ago • 38

upvoted a paper 12 days ago

Thus Spake Long-Context Large Language Model

Paper • 2502.17129 • Published 13 days ago • 67

upvoted 2 papers 14 days ago

How to Get Your LLM to Generate Challenging Problems for Evaluation

Paper • 2502.14678 • Published 17 days ago • 16

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

Paper • 2502.14739 • Published 17 days ago • 94

upvoted 2 papers 17 days ago

Small Models Struggle to Learn from Strong Reasoners

Paper • 2502.12143 • Published 20 days ago • 28

Qwen2.5-VL Technical Report

Paper • 2502.13923 • Published 18 days ago • 157

upvoted 7 papers 20 days ago

Distillation Scaling Laws

Paper • 2502.08606 • Published 25 days ago • 46

Diverse Inference and Verification for Advanced Reasoning

Paper • 2502.09955 • Published 24 days ago • 17

DarwinLM: Evolutionary Structured Pruning of Large Language Models

Paper • 2502.07780 • Published 26 days ago • 17

Matryoshka Quantization

Paper • 2502.06786 • Published 27 days ago • 29

The Curse of Depth in Large Language Models

Paper • 2502.05795 • Published 29 days ago • 35

Expect the Unexpected: FailSafe Long Context QA for Finance

Paper • 2502.06329 • Published 27 days ago • 126

An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging

Paper • 2502.09056 • Published 25 days ago • 30

upvoted a paper 27 days ago

Demystifying Long Chain-of-Thought Reasoning in LLMs

Paper • 2502.03373 • Published Feb 5 • 55