Что такое Brier score
Brier score — это мера точности вероятностного прогноза. Если прогноз выражен как вероятность события (например, «ставка вырастет с вероятностью 0.8»), Brier измеряет средний квадрат расстояния между этой вероятностью и тем, что произошло на самом деле. Чем меньше балл, тем точнее и калиброваннее прогнозы.
Ключевое свойство — это proper scoring rule: метрика устроена так, что в среднем выгоднее всего сообщать свою честную вероятность. Завышенная уверенность и трусливое «50 на 50» одинаково наказываются.
Формула
- pᵢ — заявленная вероятность события в i-м прогнозе (от 0 до 1).
- oᵢ — фактический исход: 1, если событие произошло, иначе 0.
- N — число прогнозов в выборке.
Минимум (0) достигается, когда автор каждый раз ставит вероятность, совпавшую с исходом. Максимум (1) — когда автор уверенно (вероятность 1) ошибся во всех прогнозах.
Примеры
| Прогноз (p) | Исход (o) | Вклад (p − o)² | Комментарий |
|---|---|---|---|
| 0.80 | 1 (сбылось) | 0.04 | Уверенно и верно — почти идеал. |
| 0.80 | 0 (не сбылось) | 0.64 | Уверенно и неверно — крупный штраф. |
| 0.50 | 0 или 1 | 0.25 | «50/50» всегда стоит 0.25 — без информации. |
| 0.95 | 0 (не сбылось) | 0.90 | Переуверенность наказывается жёстче всего. |
От Brier к skill-score
Сам по себе Brier зависит от того, насколько события вообще предсказуемы: на почти предрешённых исходах низкий балл получить легко. Поэтому для FRI мы переводим Brier в относительный skill-score — сравнение с базовой линией.
skill = 0 означает паритет с базовой линией (и FRI = 50). Подробно о том, как skill превращается в индекс, — на странице об FRI.
Бинарные и многоисходные прогнозы
Многие прогнозы здесь по сути бинарны: «порог будет пройден» или нет. Для них Brier сводится к простой форме выше. Когда прогноз многосоставной (несколько условий), он раскладывается на проверяемые компоненты, а частичное исполнение отражается как исход «частично» — см. правила резолюции.
Мы фиксируем высказывания, а не людей
Объект оценки — конкретное публичное утверждение о будущем, а не личность автора. Мы судим прогноз: что именно было сказано, когда, с каким горизонтом и по какому источнику истины это проверяется. Один и тот же человек может иметь и сбывшиеся, и несбывшиеся прогнозы — и то, и другое попадает в выборку без отбора «удобных» случаев.
Поэтому здесь нет ярлыков «эксперт» или «шарлатан». Есть числа: сколько проверяемых прогнозов, сколько из них сбылось, с какой точностью относительно базовой линии. Формулировки фактологичны — «из N проверяемых M сбылись», без оценочных характеристик автора.
Ограничения (честно)
- Нужна вероятность. Brier определён для вероятностных прогнозов. Категоричные утверждения («ставка вырастет») мы трактуем как вероятность, близкую к 1, что огрубляет картину.
- Чувствительность к базовой линии. Skill-score зависит от выбора опорной вероятности; при отсутствии консенсуса берутся наивные 0.5, и это может смещать оценку для почти предрешённых событий.
- Малые выборки. На нескольких прогнозах средний Brier неустойчив — отсюда доверительные интервалы и статусы research / preview / final.
- Не различает типы ошибок. Brier суммирует отклонения; он не говорит, систематически ли автор переоценивает рост или падение — это отдельный анализ калибровки.
История версий методологии
Здесь — изменения правил (как считается индекс, что считается прогнозом, как резолвится исход). Ошибки в конкретных вердиктах фиксируются отдельно — в журнале исправлений. Это разные вещи: тут меняется метод, там — исправляется ошибка применения метода.
Первая публичная версия правил.
- Зафиксирована формула FRI: skill-score против опорной вероятности, веса по горизонту / ясности / тиру источника / свежести, байесовское сжатие к среднему (k = 8), отображение в шкалу 0–100 (50 = паритет).
- Введены тиры источников T1–T3 и правило резолюции по единственному источнику истины на актив.
- Введён порог research / preview / final по числу разрешённых сравнимых прогнозов (финал — от 20 на эксперта).
Хотите узнавать, когда мы меняем правила? Напишите нам — добавим вас в список оповещения об изменениях методологии (это отдельный канал от журнала исправлений).
Частые вопросы
Частые вопросы
- Почему «50 на 50» — это плохо?
- Потому что такой прогноз не несёт информации и всегда стоит 0.25. Метрика поощряет осмысленное отклонение от неопределённости, а не уход от ответа.
- Хороший Brier — это какой?
- Зависит от предсказуемости событий. Поэтому мы смотрим не на абсолютный Brier, а на skill-score — насколько он лучше базовой линии.
- Как Brier связан с FRI?
- FRI строится из skill-score, а skill — из отношения Brier автора к Brier базовой линии. Brier — это «сырьё» индекса.
