Бенчмарк 13 моделей на 31 задаче из трёх доменов (Sports, HR, Sales). Каждый ответ проверяли два независимых LLM-судьи: сначала по итоговому числу, потом по эквивалентности логики выражения эталонной формуле.
| # | Model | Provider | Overall | Number OK | Logic OK | Coincidental | Tasks passed |
|---|---|---|---|---|---|---|---|
| 01 | Gemini 2.5 Pro | 60% | 77% | 42% | 6 | 24/31 | |
| 02 | GPT-5 | OpenAI | 53% | 77% | 29% | 9 | 24/31 |
| 03 | Claude Opus 4.7 | Anthropic | 49% | 68% | 29% | 4 | 21/31 |
| 04 | Claude Sonnet 4.6 | Anthropic | 45% | 61% | 29% | 5 | 19/31 |
| 05 | Grok 3 | xAI | 41% | 55% | 26% | 6 | 17/31 |
| 06 | Claude Haiku 4.5 | Anthropic | 32% | 45% | 19% | 6 | 14/31 |
| 07 | DeepSeek V3 · LOCAL | DeepSeek | 31% | 42% | 19% | 3 | 13/31 |
| 08 | Mistral Large | Mistral | 29% | 35% | 23% | 3 | 11/31 |
| 09 | Gemini 2.5 Flash | 16% | 26% | 6% | 5 | 8/31 | |
| 10 | GPT-5 mini | OpenAI | 16% | 19% | 13% | 2 | 6/31 |
| 11 | Qwen 2.5 72B · LOCAL | Alibaba | 15% | 19% | 10% | 5 | 6/31 |
| 12 | Llama 3.3 70B · LOCAL | Meta | 8% | 10% | 6% | 2 | 3/31 |
| 13 | Qwen 2.5 Coder 32B · LOCAL | Alibaba | 8% | 13% | 3% | 2 | 4/31 |
Phase 1 — 13 моделей × 31 задача × 1 стандартный промпт (отбор). Phase 2 — топ-5 финалистов × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель Phase 2 — измерить эффект промпт-инжиниринга.
Claude Opus 4.7 проверяет, совпадает ли итоговое число с эталонным KPI. Claude Sonnet 4.6 проверяет, эквивалентно ли само выражение эталонной формуле. Разница между двумя оценками и есть «логический разрыв».
31 верифицированная задача Set Analysis из трёх доменов: Sports (13 простых, Олимпиады), HR (10 сложных, зарплаты), Sales / Tensini Challenge (8 средних). С эталонными выражениями и автопроверкой результата.
~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Opus в Phase 1) — при повторе с Sonnet стоимость в 14× ниже. Reasoning-модели (GPT-5, Gemini 2.5 Pro) потребовали max_tokens=4000 + reasoning_effort=low.
Скачайте полный отчёт. Внутри — детальный разбор coincidental correctness с примерами кода, разбивка по доменам, эффект разных промптов, тест на стабильность ±5–15 п.п., таблица стоимости и production-рекомендации по сценариям.