Open Research · Updated May 2026

Какая LLM лучше всех пишет Qlik Set Analysis?

Бенчмарк 13 моделей на 31 задаче из трёх доменов (Sports, HR, Sales). Каждый ответ проверяли два независимых LLM-судьи: сначала по итоговому числу, потом по эквивалентности логики выражения эталонной формуле.

Models 13 Tasks 31 Domains 3 Budget $17.35 By Datanomix
#? Model? Provider? Overall? Number OK? Logic OK? Coincidental? Tasks passed?
01 Gemini 2.5 Pro Google 60% 77% 42% 6 24/31
02 GPT-5 OpenAI 53% 77% 29% 9 24/31
03 Claude Opus 4.7 Anthropic 49% 68% 29% 4 21/31
04 Claude Sonnet 4.6 Anthropic 45% 61% 29% 5 19/31
05 Grok 3 xAI 41% 55% 26% 6 17/31
06 Claude Haiku 4.5 Anthropic 32% 45% 19% 6 14/31
07 DeepSeek V3 · LOCAL DeepSeek 31% 42% 19% 3 13/31
08 Mistral Large Mistral 29% 35% 23% 3 11/31
09 Gemini 2.5 Flash Google 16% 26% 6% 5 8/31
10 GPT-5 mini OpenAI 16% 19% 13% 2 6/31
11 Qwen 2.5 72B · LOCAL Alibaba 15% 19% 10% 5 6/31
12 Llama 3.3 70B · LOCAL Meta 8% 10% 6% 2 3/31
13 Qwen 2.5 Coder 32B · LOCAL Alibaba 8% 13% 3% 2 4/31
Top tier (overall ≥45%) Mid tier Low / weak

Overall — среднее «Number OK» и «Logic OK». Number OK — итоговое число совпало с эталонным KPI. Logic OK — выражение эквивалентно эталонной Set Analysis-формуле с qata.datanomix.pro. Coincidental — число совпало, но выражение от эталона отличается (объяснение в полном отчёте). DeepSeek Coder V3 исключён — API broken (0/31).
Методология

Как мы это считали — в четырёх абзацах.

Phase 1 · Phase 2

Двухфазная схема

Phase 1 — 13 моделей × 31 задача × 1 стандартный промпт (отбор). Phase 2 — топ-5 финалистов × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель Phase 2 — измерить эффект промпт-инжиниринга.

Dual judge

Два независимых LLM-судьи

Claude Opus 4.7 проверяет, совпадает ли итоговое число с эталонным KPI. Claude Sonnet 4.6 проверяет, эквивалентно ли само выражение эталонной формуле. Разница между двумя оценками и есть «логический разрыв».

Tasks · qata.datanomix.pro

Реальные задачи с автопроверкой

31 верифицированная задача Set Analysis из трёх доменов: Sports (13 простых, Олимпиады), HR (10 сложных, зарплаты), Sales / Tensini Challenge (8 средних). С эталонными выражениями и автопроверкой результата.

Budget

$17.35 из $20 на OpenRouter

~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Opus в Phase 1) — при повторе с Sonnet стоимость в 14× ниже. Reasoning-модели (GPT-5, Gemini 2.5 Pro) потребовали max_tokens=4000 + reasoning_effort=low.

Full Report · PDF · ~1 MB

Хотите углубиться?

Скачайте полный отчёт. Внутри — детальный разбор coincidental correctness с примерами кода, разбивка по доменам, эффект разных промптов, тест на стабильность ±5–15 п.п., таблица стоимости и production-рекомендации по сценариям.

  • Phase 1 + Phase 2 со всеми числами
  • 114 случаев coincidental correctness · 2 паттерна с кодом
  • Cost breakdown по моделям
  • 3 production-сценария: Sonnet / GPT-5 / DeepSeek
  • On-prem рекомендации (DeepSeek V3, Qwen, Llama)

Без маркетинговых рассылок. Email используется, чтобы понимать кто читает бенчмарк. Локально храним отправленные данные в браузере под ключом qsabench_leads на случай повторных загрузок.

✓ Готово. Скачивание начнётся автоматически. Если нет — кликните сюда.
Reproduce on GitHub