Deep Research Benchmark — Kitchen Appliances
Выбрать три кухонных прибора — вытяжку, индукционную панель и духовой шкаф — с физическими элементами управления, сервисом в Уфе и бюджетом до 220 000₽.
Оказалось, что индукционные панели с поворотными регуляторами в бюджетном сегменте почти вымерли. И это сделало задачу идеальным тестом для сравнения research-архитектур: результат легко проверить, а у Perplexity нет очевидного преимущества в общем знании рынка.
Условия эксперимента
Methodology
What are we comparing?
Three approaches to AI-powered research:
Perplexity Deep Research (sonar-deep-research) — a black-box hosted service. You send one prompt, it autonomously decomposes the query, searches ~50 sources in parallel, reads pages, iterates, and synthesises a report. 2-5 minutes, no visibility into intermediate steps. Good at breadth, weak at critical analysis — it catalogues, but doesn’t challenge.
Extended Search Pipeline — a custom 7-step pipeline where we control every stage: Planning (Dimensions → Threads) → First-Pass Search → Relevance Filtering → Deep Reading → Gap Analysis → Iterative Search → Synthesis. Each step is a separate LLM call in a separate sub-agent. Full transparency, full control. The critical difference: an explicit “what are we missing?” step between search rounds that Perplexity doesn’t expose.
Single-Agent Pipeline — the same 7 steps, the same algorithm, but executed in one continuous session without spawning sub-agents. Same quality, lower cost ($1.26 vs $1.75+), because there’s zero spawn overhead.
At a glance
| Perplexity DR | Extended Search | Single-Agent | |
|---|---|---|---|
| How it works | Black box, 1 API call | 7 steps, sub-agents | 7 steps, 1 session |
| Planning | Internal | Dimensions → Threads | Same |
| Gap analysis | ❌ | ✅ Explicit | ✅ Same |
| Synthesis | Internal | Draft + isolated review + revision | Same |
| Transparency | None | Full logs | Full logs |
| LLM calls | 1 (opaque) | N+10 (logged) | N+10 (logged) |
Evaluated by: DRACO benchmark (Factual Accuracy 50%, Breadth & Depth 25%, Presentation 15%, Citation 10%).
Cost measured by: provider balance delta (not token counting — token estimates are off by 3-22×).
→ Read full methodology — 7-step pipeline details, dimensions & threads, prompts, gap analysis process, drill-down criteria, 3-pass synthesis, cost measurement.
🏆 Leaderboard
| # | Метод | Cost | Time | DRACO | Cost/quality | Вердикт |
|---|---|---|---|---|---|---|
| 🥇 | Perplexity Deep Research | $1.34 | 3.1 мин | 9.5/10 | $0.14 | ✅ Production-ready |
| 🥈 | Single-Agent Pipeline | $1.26 | 8 мин | 8.8/10 | $0.14 | ✅ Production-ready |
| 3 | Extended Search (old multi-agent) | $1.75 | 12 мин | 8.2/10 | $0.21 | Хорошо |
| 4 | Extended + cheap models | $2.03 | 4 мин | 7.9/10 | $0.26 | Хорошо |
| 5 | Extended + lightContext | $2.07 | 9.2 мин | 7.8/10 | $0.27 | Хорошо |
| ❌ | Minimal Pipeline | $0.47 | 3 мин | 3.15/10 | $0.15 | Непригодно |
Итог: Perplexity DR и Single-Agent дают одинаковую стоимость за единицу качества ($0.14/point). Всё, что сложнее single-agent, дороже и не лучше.
Эксперименты
🥇 Exp 1: Perplexity Deep Research
Метод: Один запрос sonar-deep-research. Точка отсчёта.
| Метрика | Значение |
|---|---|
| Cost | $1.34 |
| Time | 3.1 мин |
| DRACO | 9.5/10 |
| Language | Русский ✅ |
| LLM calls | 1 |
| Sources | 50 |
| Subagents | 0 |
Что нашёл:
- 5+ брендов: Maunfeld, Gorenje, Korting, Hansa, Candy, Bosch
- Сравнительная таблица характеристик
- 3 ценовых tier с конкретными моделями
- Гарантийные условия каждого бренда
Сильные стороны: широкий охват, чёткая структура, таблица сравнения, профессиональный тон без воды.
Проблемы: цены без дат, нет прямых ссылок на магазины, рекомендации могли бы быть точнее по моделям.
Верификация (spot-check 3/3): все факты подтверждены — гарантия Maunfeld до 5 лет, двойной сервис Gorenje, существование Gorenje IK640CLI.
→ Полный отчёт · DRACO review · metrics.json
🥈 Exp 5: Single-Agent Pipeline
Метод: 7 шагов в одном сессии, без субагентов. glm-5.1 на все шаги.
| Метрика | Значение |
|---|---|
| Cost | $1.26 (z.ai $1.22 + Perplexity $0.04) |
| Time | 8 мин |
| DRACO | 8.8/10 |
| LLM calls | 7 (все в main session) |
| Subagents | 0 |
| Search queries | 8 + 3 iterative |
| Pages fetched | 3 |
| Models analyzed | 12 |
| Bundles proposed | 3 |
Что нашёл: 3 комплектации с реальными ценами:
- Бюджетный (~56 000₽): MAUNFELD CVI594MBK2 + Weissgauff + ELIKOR
- ⭐ Оптимальный (~75 000₽): MAUNFELD CVI594MBK2 + Bosch HBF011BV1T + Hansa OMP6251BGWH
- Премиум (~118 000₽): Gorenje IK640CLI + Bosch + MAUNFELD Crosby
Ключевое: подтвердил сервис в Уфе — 14 центров MAUNFELD, официальный Bosch, 76+ Gorenje.
Инсайт: Single-agent на 37% дешевле multi-agent ($1.26 vs $2.00+). Контекст растёт — токены накапливаются, но без overhead на spawn субагентов.
→ FINAL-REPORT · DRACO review · TIMELINE · metrics.json
3. Exp 2: Extended Search (old multi-agent)
Метод: 7 шагов, 4 субагента, все glm-5.1. Первая попытка автоматизировать пайплайн.
| Метрика | Значение |
|---|---|
| Cost | $1.75 |
| Time | 12 мин |
| DRACO | 8.2/10 |
| LLM calls | 4 |
| Subagents | 4 |
| Search queries | 11 |
| Pages fetched | 8 (5 успешно, 2 failed) |
Пошагово:
| Шаг | Метод | Модель | Токены (in/out) | Время |
|---|---|---|---|---|
| 1. Planning | subagent | glm-5.1 | 2.5k / 1.3k | 45s |
| 2. Search | web_search | — | 8 запросов | — |
| 3. Relevance | subagent | glm-5.1 | 3k / 1.5k | 60s |
| 4. Reading | web_fetch | — | 7 страниц | — |
| 5. Gap Analysis | subagent | glm-5.1 | 2.5k / 1.3k | 39s |
| 6. Iterative | web_search + fetch | — | 3+3 запроса | — |
| 7. Synthesis | subagent | glm-5.1 | 4.5k / 2.8k | 74s |
Что нашёл:
- MAUNFELD CVI292MBKBR — индукция с поворотными регуляторами за 11 346₽ (не 83k₽ как De Dietrich)
- Бюджетные бренды: 40-45% failure rate за 6 лет vs premium 5-10%
- Bosch: 4 авторизованных сервиса в Уфе
- Критический trade-off: физическое управление vs надёжность
Главное открытие: MAUNFELD с поворотными регуляторами за 11k₽ полностью меняет бюджет.
Рекомендованные комплекты:
| Tier | Сумма | Состав |
|---|---|---|
| Budget | ~31 000₽ | ELIKOR + MAUNFELD CVI292MBKBR + GEFEST |
| ⭐ Optimal | ~57 000₽ | Faber + MAUNFELD CVI292MBKBR + Weissgauff |
| Premium | — | Gorenje + Bosch |
→ FINAL-REPORT · DRACO review · metrics.json · steps/
4. Exp 3: Extended + lightContext
Метод: Те же 7 шагов, но с lightContext: true и JSON state-файлами вместо полного контекста.
| Метрика | План | Реальность |
|---|---|---|
| Cost | $0.21 (оценка) | $2.07 |
| Time | — | 9 мин 19 с |
| DRACO | — | 7.8/10 |
| z.ai balance change | — | $12.47 → $10.50 ($1.97) |
| Perplexity balance change | — | $29.30 → $29.20 ($0.10) |
Timeline (посекундно):
| Шаг | Время | Длительность | Токены (z.ai) |
|---|---|---|---|
| 1. Planning | 13:46:00 | 29s | 3.1k |
| 2. Search | 13:47:00 | 7s | — (Perplexity) |
| 3. Relevance | 13:47:07 | 1м 20с | 25.8k |
| 4. Reading | 13:48:27 | 3м 33с | ~45k chars fetched |
| 5. Gap Analysis | 13:52:00 | 45s | 4.8k |
| 6. Iterative Search | 13:52:45 | 1м 45с | 12 queries |
| 7. Synthesis | 13:54:30 | 49s | 4.8k |
| Total | 13:46 → 13:55 | 9м 19с | ~38.5k |
Что нашёл:
| Tier | Состав | Цена |
|---|---|---|
| 💰 Бюджетная | MAUNFELD CVI292MBKBR + DeLonghi DEO 715 NB + Krona Ameli PB 600 | 35 548₽ |
| ⭐ Оптимальная | MAUNFELD CVI292MBKBR + Weissgauff EOV 196 LB + Weissgauff ALPHA 60 PB BL | 52 908₽ |
| 👑 Премиум | Gorenje IT643BSC + Bosch HBF534ES0Q + MAUNFELD Crosby Power 60 | 113 289₽ |
Все под бюджет, все с физическим управлением, весь сервис подтверждён в Уфе.
Провал гипотезы: lightContext НЕ снизил стоимость. Оценка $0.21, реальность $2.07 — расхождение 10x.
→ FINAL-REPORT · DRACO review · TIMELINE · metrics.json
5. Exp 4: Extended + cheap models
Метод: Те же 7 шагов, но Planning/Relevance/Gap Analysis на glm-4.7-flash. Synthesis на glm-5.1.
| Метрика | Оценка | Реальность |
|---|---|---|
| Cost | $0.50-0.80 | $2.03 |
| Time | — | 4 мин (в 2× быстрее Exp 3) |
| DRACO | — | 7.9/10 |
| z.ai spent | — | $1.96 |
| Perplexity spent | — | $0.07 |
Что нашёл:
- 🥇 Gorenje IK640CLI — индукция с поворотными переключателями (бронза!)
- MAUNFELD CVI594MBK2 — ещё одна индукция с крутилками
- Сервис подтверждён: МегаБытСервис в Уфе
Комплекты:
| Tier | Цена | Состав |
|---|---|---|
| 💰 Бюджетная | 109 000₽ | MAUNFELD CVI594MBK2 + Weissgauff EOM 180 BV + Elikor Интегра 60П |
| ⭐ Оптимальная | 119 000₽ | Gorenje IK640CLI + Bosch HBF011BV1T + Hansa OMP6251BGWH |
| 👑 Премиум | 155 000₽ | Gorenje IK640CLI + Gorenje BOSB6737E06X + Weissgauff Dubhe 60 PB IX |
Провал гипотезы: Дешёвые модели НЕ сэкономили — всего на 2% дешевле Exp 3 ($2.03 vs $2.07). Дешёвые LLM = больше итераций на исправление ошибок.
→ FINAL-REPORT · DRACO review · TIMELINE · metrics.json
❌ Exp 6: Minimal Pipeline
Метод: 4 поисковых запроса, 0 прочитанных страниц. Только web_search, без чтения, релевантности, gap analysis и итераций.
| Метрика | Значение |
|---|---|
| Cost | $0.47 |
| Time | 3 мин |
| DRACO | 3.15/10 ❌ |
| Queries | 4 |
| Pages read | 0 |
| Steps skipped | 4 (Reading, Relevance, Gap Analysis, Iterative) |
Штрафы:
| Нарушение | Штраф | Детали |
|---|---|---|
| Цена MAUNFELD завышена на 41% | -1 | 25 990₽ vs 18 430₽ |
| Нет дат для цен | -1 | Цены без даты устаревают |
| Нет ссылок на источники | -1 | 0 citations |
| Оценка после штрафов | 3.15/10 |
Вывод: 63% экономии = 65% потери качества. Без чтения страниц — галлюцинации цен, ноль верификации, непригодно для принятия решений.
🧮 Проблема оценки стоимости
Главный инсайт всего бенчмарка.
| Exp | Оценка по токенам | Реальный баланс | Расхождение |
|---|---|---|---|
| Exp 2 | $0.08 | $1.75 | 22x |
| Exp 3 | $0.21 | $2.07 | 10x |
| Exp 4 | $0.50-0.80 | $2.03 | 3-4x |
| Exp 5 | $0.30 | $1.26 | 4x |
| Exp 6 | $0.05-0.10 | $0.47 | 5-9x |
Расчёт по формуле токены × price_per_token систематически занижает реальную стоимость. Основные причины:
- Subagent spawn — скрытый расход. Каждый spawn копирует контекст. 4 субагента × 50k токенов = 200k неучтённых токенов.
- Cache ≠ бесплатно. Cached токены дешевле, но не бесплатны. В оценках их часто опускают.
- Context growth. Длинная сессия single-agent накапливает токены истории — каждый следующий вызов дороже предыдущего.
Правильный способ: снимать баланс провайдера до и после каждого эксперимента. Только разница баланса даёт реальную стоимость.
📈 Архитектурные выводы
Что работает
| Архитектура | Cost | Quality | Когда использовать |
|---|---|---|---|
| Perplexity Deep Research | $1.34 | 9.5/10 | Стандартные задачи |
| Single-Agent Pipeline | $1.26 | 8.8/10 | Кастомные пайплайны, интеграции |
Что не работает
| Оптимизация | Ожидание | Реальность | Вердикт |
|---|---|---|---|
| lightContext | −50% cost | +18% | ❌ |
| Cheap models | −70% cost | −2% | ❌ |
| Minimal (skip steps) | −63% cost | −65% quality | ❌ Опасно |
| Multi-agent по умолчанию | лучше качество | дороже, не лучше | ❌ |
Cost drivers (фактические)
| Фактор | Влияние | Откуда известно |
|---|---|---|
| Subagent spawn | +$0.50 каждый | Exp 5 vs Exp 2-4 |
| Context growth | +$1.00+ | Exp 5 (long session) |
| Perplexity queries | $0.01/query | Все эксперименты |
🍳 Что узнали про кухонную технику
Попутно — реально полезные находки для покупки:
Индукция с поворотными регуляторами (редкость!):
- MAUNFELD CVI292MBKBR — 2 зоны, ~11-13 000₽ ✅
- MAUNFELD CVI594MBK2 — 4 зоны, ~25 000₽ ✅
- Gorenje IK640CLI — 4 зоны, поворотные (бронза), ~40 000₽ ✅
Лучшие комплекты (сводно по всем экспериментам):
| Tier | Варочная | Духовка | Вытяжка | Сумма |
|---|---|---|---|---|
| 💰 Бюджет | MAUNFELD CVI292MBKBR | DeLonghi DEO 715 NB | Krona Ameli PB 600 | 35 548₽ |
| ⭐ Оптимальный | MAUNFELD CVI594MBK2 | Bosch HBF011BV1T | Hansa OMP6251BGWH | ~75 000₽ |
| 👑 Премиум | Gorenje IK640CLI | Gorenje BOSB6737E06X | Weissgauff Dubhe 60 PB IX | 155 000₽ |
Все вписываются в бюджет 220 000₽. Все сервис подтверждён в Уфе.
Файлы
Проектная документация:
Exp 1: Perplexity DR:
Exp 2: Extended (old):
Exp 3: Extended + lightContext:
Exp 4: Extended + cheap:
Exp 5: Single-Agent:
Exp 6: Minimal (failed):
Источник: Obsidian 06-Technical-Engineering/Extended-Search-Research/benchmarks/kitchen-appliances/. Дата: 12 мая 2026.