Резкие скачки, которые не стоит принимать на веру
Помните тот момент, когда вы смотрите на график, а там — ровный горб, а потом бац, резкий обрыв? Или пик precisely на круглом числе — 95%, 30%, 0.05? Знакомая картина? Мне — да. И всякий раз, когда я такое вижу, у меня включается режим «подожди-ка».
Дэн Лью (Dan Luu) написал отличную статью Suspicious Discontinuities, где собрал коллекцию таких подозрительных скачков из самых разных областей. От финансовых рынков до выборов, от научных публикаций до школьных оценок. Зацепило.
Что такое подозрительная дискретность
Дискретность (discontinuity) — это резкое изменение значения в определённой точке. Само по себе это нормально. Если человек переходит порог зарплаты и теряет право на субсидию — это дискретность. Проблема в том, когда дискретность выглядит неестественно.
РАСПРЕДЕЛЕНИЕ ДАННЫХ: СИГНАЛ vs. АРТЕФАКТ
══════════════════════════════════════════
НОРМАЛЬНОЕ
▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
█ ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ █
█ ▄▄▄██ ▄▄▄▄▄▄▄▄ █
██████ ████████ █
▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀
0 10 20 30 40 50 60 70 80 90
▲
СРЕДНЕЕ ЗНАЧЕНИЕ
──────────────────────────────────────────
ПОДОЗРИТЕЛЬНОЕ
▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
█ █ █ █
█ ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ █ █ ▄▄▄▄▄▄▄▄▄ █
████████████████████ █ █ ██████████ █
▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀
0 10 20 30 40 50 60 70 80 90
▲
СТРАННЫЙ ПИК НА 50
Подозрительно выглядит, когда:
- Пик приходится на круглое число (30%, 95%, $10,000)
- Распределение слишком ровное на одном участке и резко обрывается на другом
- Резкий скачок появляется сразу после изменения правил или методики
Дискретности в налоговой политике: когда меньше зарабатывать выгоднее
Самый безумный пример из статьи — американская система медицинского страхования ACA. Есть жёсткий порог дохода $48,560 для индивидуального страхования. Перешагнул — и получаешь $7,200 меньше субсидий в год.
Казалось бы, зарабатывай больше — получай больше. Но не тут-то было. Человек с доходом $55,000 фактически теряет $7,200 при переходе порога. Если он целенаправленно снизит доход до $48,560, то потеряет только часть в $6,440. Итого: на $760 больше, чем если бы он просто зарабатывал $55,000.
Звучит как анекдот, но это реальная структура стимулов. И таких порогов в американском налоговом кодексе — десятки: Medicaid, TANF, CHIP. Каждый из них создаёт участок, где работает правило «больше зарабатываешь — меньше получаешь».
Очереди и инженерные системы: плавное против резкого
В программировании naive queue (наивная очередь) работает просто: если места нет — отбрасываем, если есть — принимаем. Никаких полутонов.
NAIVE QUEUE: РЕЗКИЙ ОТБРОС
═══════════════════════════════════════════
ВХОДЯЩИЕ ЗАПРОСЫ ──▶ ┌─────────────┐
│ QUEUE │──▶ ОБРАБОТКА
│ (заполнена)│
└─────────────┘
│
▼
× ОТБРОШЕНЫ (100%)
──────────────────────────────────────────
ПРОБЛЕМА: Один запрос сверх лимита —
и все начинают отбрасываться
──────────────────────────────────────────
SOLUTION: Random Early Drop
═══════════════════════════════════════════
ВХОДЯЩИЕ ──▶ ┌─────────────┐──▶ ОБРАБОТКА
│ QUEUE │
│ (частично │
│ заполнена) │
└─────────────┘
│
┌─────────────┼─────────────┐
▼ ▼ ▼
5% отброс 15% отброс 30% отброс
(нагрузка (нагрузка (нагрузка
60%) 80%) 95%)
Решение — Random Early Drop (Random Early Detection, RED). Вместо резкой границы — плавное увеличение вероятности отброса. На 60% заполненности отбрасываем 5%, на 80% — уже 15%, на 95% — 30%. Никаких скачков.
Этот принцип применим не только к очередям. Он универсален: плавные переходы лучше резких порогов почти всегда.
Научные публикации: p-value как инженерная проблема
Вот где я особенно оценил анализ Лью. Если вы не знаете: p-value — это вероятность получить наблюдаемый результат при случайности. Порог 0.05 означает «считаем значимым, если шанс случайности меньше 5%».
Masicampo и компания построили гистограмму всех p-value из трёх психологических журналов. И обнаружили адскую аномалию: резкий пик сразу под 0.05. Сразу. После — провал.
Это не могло быть случайностью. Это эффект p-hacking (манипуляция с данными для достижения «значимого» результата) и publication bias (журналы охотнее публикуют исследования с p < 0.05).
Andrew Gelman и другие статистики годами борются за отказ от жёсткого порога значимости. Их аргумент прост: природа не знает про наши искусственные границы, и реальные эффекты не появляются и не исчезают в точке 0.05.
Выборы, наркотики, экзамены: паттерны везде
Лью приводит ещё несколько примеров, где дискретности раскрывают реальность:
- Российские выборы. Гистограммы явки по участкам показывают дикие пики на 95%, 96%, 97%. В нормальных распределениях такого не бывает. Это считается одним из индикаторов фальсификаций.
- Закон о наркотиках 2010 года. До закона порог для обязательного минимума в 10 лет был 50 граммов. После — 280 граммов. И сразу после принятия — всплеск обвинительных заключений exactly на 280 граммах. Прокуроры явно «подтягивали» дела до нового порога.
- Выпускные экзамены в Польше. Распределение оценок по польскому языку имеет странный пик exactly на 30% (порог прохождения). Оценки по математике — ровные. Анонимный комментарий объясняет: учителя неофициально повышают оценки тем ученикам, которые «немного не дотянули», потому что психологически неприятно срезать ребёнка с 28% против 30%.
Как проверять дискретности: практический чеклист
Лью не просто собирает примеры — он предлагает методологию. Вот что я вынес для себя:
- Проверьте на круглых числах. Если пик на 95%, 30%, $10,000 — это красный флаг.
- Измените масштаб. Постройте ту же гистограмму с другой шириной корзин (
bins— интервалы, на которые разбивают данные при построении гистограммы). Артефакты часто исчезают. - Посмотрите на соседние точки. Если слева от скачка распределение ровное, а справа — резкий обрыв, это нетипично.
- Проверьте контекст. Не изменилась ли методика сбора данных? Не было ли изменения законодательства?
- Сравните с другими группами. Если эффект проявляется только в одном разрезе данных, это повод задуматься.
- Обратитесь к экспертам. Иногда только человек с предметной экспертизой может отличить реальный эффект от артефакта измерения.
Подозрительные дискретности — это не математическая абстракция. Это инструмент, который позволяет заглянуть за красивые цифры и увидеть реальные стимулы, ошибки сбора данных или намеренные манипуляции. Дэн Лью показал, что паттерны повторяются от выборов до экзаменов. Теперь вы знаете, куда смотреть.
Выводы
Резкие пики на порогах часто говорят не о природе процесса, а о правилах, стимулях или ошибках измерения. Если график слишком аккуратен в нужной точке, это повод копнуть глубже.
Ссылки
- Suspicious Discontinuities (2020) — статья Дэна Лью о подозрительных скачках в данных
- Random Early Detection — описание подхода RED для сетевых очередей
- Гистограмма p-value в психологических журналах — пример аномального пика сразу под 0.05
Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.