Deep Research Benchmark — Kitchen Appliances | Marat Kiniabulatov

Выбрать три кухонных прибора — вытяжку, индукционную панель и духовой шкаф — с физическими элементами управления, сервисом в Уфе и бюджетом до 220 000₽.

Оказалось, что индукционные панели с поворотными регуляторами в бюджетном сегменте почти вымерли. И это сделало задачу идеальным тестом для сравнения research-архитектур: результат легко проверить, а у Perplexity нет очевидного преимущества в общем знании рынка.

Условия эксперимента

Задача: Вытяжка (60 см) + индукционная варочная панель + духовой шкаф
Критерии: физическое управление (крутилки/кнопки) · сервис в Уфе · бюджет до 220 000₽ · средний ценовой сегмент
Дата: 12 мая 2026
Метод оценки: DRACO (Factual Accuracy 50%, Breadth & Depth 25%, Presentation 15%, Citation 10%)
Экспериментов: 6

Methodology

What are we comparing?

Three approaches to AI-powered research:

Perplexity Deep Research (sonar-deep-research) — a black-box hosted service. You send one prompt, it autonomously decomposes the query, searches ~50 sources in parallel, reads pages, iterates, and synthesises a report. 2-5 minutes, no visibility into intermediate steps. Good at breadth, weak at critical analysis — it catalogues, but doesn’t challenge.

Extended Search Pipeline — a custom 7-step pipeline where we control every stage: Planning (Dimensions → Threads) → First-Pass Search → Relevance Filtering → Deep Reading → Gap Analysis → Iterative Search → Synthesis. Each step is a separate LLM call in a separate sub-agent. Full transparency, full control. The critical difference: an explicit “what are we missing?” step between search rounds that Perplexity doesn’t expose.

Single-Agent Pipeline — the same 7 steps, the same algorithm, but executed in one continuous session without spawning sub-agents. Same quality, lower cost ($1.26 vs $1.75+), because there’s zero spawn overhead.

At a glance

	Perplexity DR	Extended Search	Single-Agent
How it works	Black box, 1 API call	7 steps, sub-agents	7 steps, 1 session
Planning	Internal	Dimensions → Threads	Same
Gap analysis	❌	✅ Explicit	✅ Same
Synthesis	Internal	Draft + isolated review + revision	Same
Transparency	None	Full logs	Full logs
LLM calls	1 (opaque)	N+10 (logged)	N+10 (logged)

Evaluated by: DRACO benchmark (Factual Accuracy 50%, Breadth & Depth 25%, Presentation 15%, Citation 10%).

Cost measured by: provider balance delta (not token counting — token estimates are off by 3-22×).

→ Read full methodology — 7-step pipeline details, dimensions & threads, prompts, gap analysis process, drill-down criteria, 3-pass synthesis, cost measurement.

🏆 Leaderboard

#	Метод	Cost	Time	DRACO	Cost/quality	Вердикт
🥇	Perplexity Deep Research	$1.34	3.1 мин	9.5/10	$0.14	✅ Production-ready
🥈	Single-Agent Pipeline	$1.26	8 мин	8.8/10	$0.14	✅ Production-ready
3	Extended Search (old multi-agent)	$1.75	12 мин	8.2/10	$0.21	Хорошо
4	Extended + cheap models	$2.03	4 мин	7.9/10	$0.26	Хорошо
5	Extended + lightContext	$2.07	9.2 мин	7.8/10	$0.27	Хорошо
❌	Minimal Pipeline	$0.47	3 мин	3.15/10	$0.15	Непригодно

Итог: Perplexity DR и Single-Agent дают одинаковую стоимость за единицу качества ($0.14/point). Всё, что сложнее single-agent, дороже и не лучше.

Эксперименты

🥇 Exp 1: Perplexity Deep Research

Метод: Один запрос sonar-deep-research. Точка отсчёта.

Метрика	Значение
Cost	$1.34
Time	3.1 мин
DRACO	9.5/10
Language	Русский ✅
LLM calls	1
Sources	50
Subagents	0

Что нашёл:

5+ брендов: Maunfeld, Gorenje, Korting, Hansa, Candy, Bosch
Сравнительная таблица характеристик
3 ценовых tier с конкретными моделями
Гарантийные условия каждого бренда

Сильные стороны: широкий охват, чёткая структура, таблица сравнения, профессиональный тон без воды.

Проблемы: цены без дат, нет прямых ссылок на магазины, рекомендации могли бы быть точнее по моделям.

Верификация (spot-check 3/3): все факты подтверждены — гарантия Maunfeld до 5 лет, двойной сервис Gorenje, существование Gorenje IK640CLI.

→ Полный отчёт · DRACO review · metrics.json

🥈 Exp 5: Single-Agent Pipeline

Метод: 7 шагов в одном сессии, без субагентов. glm-5.1 на все шаги.

Метрика	Значение
Cost	$1.26 (z.ai $1.22 + Perplexity $0.04)
Time	8 мин
DRACO	8.8/10
LLM calls	7 (все в main session)
Subagents	0
Search queries	8 + 3 iterative
Pages fetched	3
Models analyzed	12
Bundles proposed	3

Что нашёл: 3 комплектации с реальными ценами:

Бюджетный (~56 000₽): MAUNFELD CVI594MBK2 + Weissgauff + ELIKOR
⭐ Оптимальный (~75 000₽): MAUNFELD CVI594MBK2 + Bosch HBF011BV1T + Hansa OMP6251BGWH
Премиум (~118 000₽): Gorenje IK640CLI + Bosch + MAUNFELD Crosby

Ключевое: подтвердил сервис в Уфе — 14 центров MAUNFELD, официальный Bosch, 76+ Gorenje.

Инсайт: Single-agent на 37% дешевле multi-agent ($1.26 vs $2.00+). Контекст растёт — токены накапливаются, но без overhead на spawn субагентов.

→ FINAL-REPORT · DRACO review · TIMELINE · metrics.json

3. Exp 2: Extended Search (old multi-agent)

Метод: 7 шагов, 4 субагента, все glm-5.1. Первая попытка автоматизировать пайплайн.

Метрика	Значение
Cost	$1.75
Time	12 мин
DRACO	8.2/10
LLM calls	4
Subagents	4
Search queries	11
Pages fetched	8 (5 успешно, 2 failed)

Пошагово:

Шаг	Метод	Модель	Токены (in/out)	Время
1. Planning	subagent	glm-5.1	2.5k / 1.3k	45s
2. Search	web_search	—	8 запросов	—
3. Relevance	subagent	glm-5.1	3k / 1.5k	60s
4. Reading	web_fetch	—	7 страниц	—
5. Gap Analysis	subagent	glm-5.1	2.5k / 1.3k	39s
6. Iterative	web_search + fetch	—	3+3 запроса	—
7. Synthesis	subagent	glm-5.1	4.5k / 2.8k	74s

Что нашёл:

MAUNFELD CVI292MBKBR — индукция с поворотными регуляторами за 11 346₽ (не 83k₽ как De Dietrich)
Бюджетные бренды: 40-45% failure rate за 6 лет vs premium 5-10%
Bosch: 4 авторизованных сервиса в Уфе
Критический trade-off: физическое управление vs надёжность

Главное открытие: MAUNFELD с поворотными регуляторами за 11k₽ полностью меняет бюджет.

Рекомендованные комплекты:

Tier	Сумма	Состав
Budget	~31 000₽	ELIKOR + MAUNFELD CVI292MBKBR + GEFEST
⭐ Optimal	~57 000₽	Faber + MAUNFELD CVI292MBKBR + Weissgauff
Premium	—	Gorenje + Bosch

→ FINAL-REPORT · DRACO review · metrics.json · steps/

4. Exp 3: Extended + lightContext

Метод: Те же 7 шагов, но с lightContext: true и JSON state-файлами вместо полного контекста.

Метрика	План	Реальность
Cost	$0.21 (оценка)	$2.07
Time	—	9 мин 19 с
DRACO	—	7.8/10
z.ai balance change	—	$12.47 → $10.50 ($1.97)
Perplexity balance change	—	$29.30 → $29.20 ($0.10)

Timeline (посекундно):

Шаг	Время	Длительность	Токены (z.ai)
1. Planning	13:46:00	29s	3.1k
2. Search	13:47:00	7s	— (Perplexity)
3. Relevance	13:47:07	1м 20с	25.8k
4. Reading	13:48:27	3м 33с	~45k chars fetched
5. Gap Analysis	13:52:00	45s	4.8k
6. Iterative Search	13:52:45	1м 45с	12 queries
7. Synthesis	13:54:30	49s	4.8k
Total	13:46 → 13:55	9м 19с	~38.5k

Что нашёл:

Tier	Состав	Цена
💰 Бюджетная	MAUNFELD CVI292MBKBR + DeLonghi DEO 715 NB + Krona Ameli PB 600	35 548₽
⭐ Оптимальная	MAUNFELD CVI292MBKBR + Weissgauff EOV 196 LB + Weissgauff ALPHA 60 PB BL	52 908₽
👑 Премиум	Gorenje IT643BSC + Bosch HBF534ES0Q + MAUNFELD Crosby Power 60	113 289₽

Все под бюджет, все с физическим управлением, весь сервис подтверждён в Уфе.

Провал гипотезы: lightContext НЕ снизил стоимость. Оценка $0.21, реальность $2.07 — расхождение 10x.

→ FINAL-REPORT · DRACO review · TIMELINE · metrics.json

5. Exp 4: Extended + cheap models

Метод: Те же 7 шагов, но Planning/Relevance/Gap Analysis на glm-4.7-flash. Synthesis на glm-5.1.

Метрика	Оценка	Реальность
Cost	$0.50-0.80	$2.03
Time	—	4 мин (в 2× быстрее Exp 3)
DRACO	—	7.9/10
z.ai spent	—	$1.96
Perplexity spent	—	$0.07

Что нашёл:

🥇 Gorenje IK640CLI — индукция с поворотными переключателями (бронза!)
MAUNFELD CVI594MBK2 — ещё одна индукция с крутилками
Сервис подтверждён: МегаБытСервис в Уфе

Комплекты:

Tier	Цена	Состав
💰 Бюджетная	109 000₽	MAUNFELD CVI594MBK2 + Weissgauff EOM 180 BV + Elikor Интегра 60П
⭐ Оптимальная	119 000₽	Gorenje IK640CLI + Bosch HBF011BV1T + Hansa OMP6251BGWH
👑 Премиум	155 000₽	Gorenje IK640CLI + Gorenje BOSB6737E06X + Weissgauff Dubhe 60 PB IX

Провал гипотезы: Дешёвые модели НЕ сэкономили — всего на 2% дешевле Exp 3 ($2.03 vs $2.07). Дешёвые LLM = больше итераций на исправление ошибок.

→ FINAL-REPORT · DRACO review · TIMELINE · metrics.json

❌ Exp 6: Minimal Pipeline

Метод: 4 поисковых запроса, 0 прочитанных страниц. Только web_search, без чтения, релевантности, gap analysis и итераций.

Метрика	Значение
Cost	$0.47
Time	3 мин
DRACO	3.15/10 ❌
Queries	4
Pages read	0
Steps skipped	4 (Reading, Relevance, Gap Analysis, Iterative)

Штрафы:

Нарушение	Штраф	Детали
Цена MAUNFELD завышена на 41%	-1	25 990₽ vs 18 430₽
Нет дат для цен	-1	Цены без даты устаревают
Нет ссылок на источники	-1	0 citations
Оценка после штрафов	3.15/10

Вывод: 63% экономии = 65% потери качества. Без чтения страниц — галлюцинации цен, ноль верификации, непригодно для принятия решений.

→ DRACO review · metrics.json

🧮 Проблема оценки стоимости

Главный инсайт всего бенчмарка.

Exp	Оценка по токенам	Реальный баланс	Расхождение
Exp 2	$0.08	$1.75	22x
Exp 3	$0.21	$2.07	10x
Exp 4	$0.50-0.80	$2.03	3-4x
Exp 5	$0.30	$1.26	4x
Exp 6	$0.05-0.10	$0.47	5-9x

Расчёт по формуле токены × price_per_token систематически занижает реальную стоимость. Основные причины:

Subagent spawn — скрытый расход. Каждый spawn копирует контекст. 4 субагента × 50k токенов = 200k неучтённых токенов.
Cache ≠ бесплатно. Cached токены дешевле, но не бесплатны. В оценках их часто опускают.
Context growth. Длинная сессия single-agent накапливает токены истории — каждый следующий вызов дороже предыдущего.

Правильный способ: снимать баланс провайдера до и после каждого эксперимента. Только разница баланса даёт реальную стоимость.

📈 Архитектурные выводы

Что работает

Архитектура	Cost	Quality	Когда использовать
Perplexity Deep Research	$1.34	9.5/10	Стандартные задачи
Single-Agent Pipeline	$1.26	8.8/10	Кастомные пайплайны, интеграции

Что не работает

Оптимизация	Ожидание	Реальность	Вердикт
lightContext	−50% cost	+18%	❌
Cheap models	−70% cost	−2%	❌
Minimal (skip steps)	−63% cost	−65% quality	❌ Опасно
Multi-agent по умолчанию	лучше качество	дороже, не лучше	❌

Cost drivers (фактические)

Фактор	Влияние	Откуда известно
Subagent spawn	+$0.50 каждый	Exp 5 vs Exp 2-4
Context growth	+$1.00+	Exp 5 (long session)
Perplexity queries	$0.01/query	Все эксперименты

🍳 Что узнали про кухонную технику

Попутно — реально полезные находки для покупки:

Индукция с поворотными регуляторами (редкость!):

MAUNFELD CVI292MBKBR — 2 зоны, ~11-13 000₽ ✅
MAUNFELD CVI594MBK2 — 4 зоны, ~25 000₽ ✅
Gorenje IK640CLI — 4 зоны, поворотные (бронза), ~40 000₽ ✅

Лучшие комплекты (сводно по всем экспериментам):

Tier	Варочная	Духовка	Вытяжка	Сумма
💰 Бюджет	MAUNFELD CVI292MBKBR	DeLonghi DEO 715 NB	Krona Ameli PB 600	35 548₽
⭐ Оптимальный	MAUNFELD CVI594MBK2	Bosch HBF011BV1T	Hansa OMP6251BGWH	~75 000₽
👑 Премиум	Gorenje IK640CLI	Gorenje BOSB6737E06X	Weissgauff Dubhe 60 PB IX	155 000₽

Все вписываются в бюджет 220 000₽. Все сервис подтверждён в Уфе.

Файлы

Проектная документация:

Exp 1: Perplexity DR:

report.md · REVIEW.md · metrics.json

Exp 2: Extended (old):

FINAL-REPORT.md · REVIEW.md · metrics.json · steps/

Exp 3: Extended + lightContext:

FINAL-REPORT.md · REVIEW.md · TIMELINE.md · metrics.json · steps/

Exp 4: Extended + cheap:

FINAL-REPORT.md · REVIEW.md · TIMELINE.md · metrics.json

Exp 5: Single-Agent:

FINAL-REPORT.md · REVIEW.md · TIMELINE.md · metrics.json · steps/

Exp 6: Minimal (failed):

REVIEW.md · metrics.json · steps/

Источник: Obsidian 06-Technical-Engineering/Extended-Search-Research/benchmarks/kitchen-appliances/. Дата: 12 мая 2026.

Условия эксперимента#

Methodology#

What are we comparing?#

At a glance#

🏆 Leaderboard#

Эксперименты#

🥇 Exp 1: Perplexity Deep Research#

🥈 Exp 5: Single-Agent Pipeline#

3. Exp 2: Extended Search (old multi-agent)#

4. Exp 3: Extended + lightContext#

5. Exp 4: Extended + cheap models#

❌ Exp 6: Minimal Pipeline#

🧮 Проблема оценки стоимости#

📈 Архитектурные выводы#

Что работает#

Что не работает#

Cost drivers (фактические)#

🍳 Что узнали про кухонную технику#

Файлы#

Условия эксперимента

Methodology

What are we comparing?

At a glance

🏆 Leaderboard

Эксперименты

🥇 Exp 1: Perplexity Deep Research

🥈 Exp 5: Single-Agent Pipeline

3. Exp 2: Extended Search (old multi-agent)

4. Exp 3: Extended + lightContext

5. Exp 4: Extended + cheap models

❌ Exp 6: Minimal Pipeline

🧮 Проблема оценки стоимости

📈 Архитектурные выводы

Что работает

Что не работает

Cost drivers (фактические)

🍳 Что узнали про кухонную технику

Файлы