🍈 Zettelkasten

❯

Machine Learning

❯

AI Evaluations

Mar 24, 20261 min read

ai_safety

We analyze two things:

Capabilities (upper bounds of what model can do)
Propensitives (model behavior tendencies)

Capabili!ty Evaluations

MMLU
ARC-AGI

Propensities Evaluation

TruthfulQA
Scheming Evals

Issues

Differences in formatting lead to very different results
Restructuring an evaluation as multiple choice can lead to different results
Very dependent on metric used (accuracy, log-likelihood)
Techniques of the time bias the true abilities of LM
ELO ranking system used does not find reliability and transitivity

Ideas

Science of Evals

Graph View

Capabili!ty Evaluations
Propensities Evaluation
Issues
Ideas

Backlinks

AI Control
Automated Programming Process Standard
Bluedot Technical AI Safety
Massive Multitask Language Understanding

Created with Quartz v4.4.0 © 2026

GitHub
Discord Community