# Research Review: Exp 6 Minimal Pipeline

**Эксперимент:** Exp 6 — Minimal Pipeline (4 queries, 0 reads)  
**Метод оценки:** DRACO-inspired (Factual Accuracy, Breadth & Depth, Presentation, Citation)  
**Дата:** 2026-05-12  
**Ревьюер:** research-reviewer skill

---

## 📊 Final Score: 3.15/10 ❌

| Dimension | Score | Weight | Weighted |
|-----------|-------|--------|----------|
| Factual Accuracy | 6/10 | 50% | 3.0 |
| Breadth & Depth | 6/10 | 25% | 1.5 |
| Presentation | 9/10 | 15% | 1.35 |
| Citation | 3/10 | 10% | 0.3 |
| **BASE** | | | **6.15/10** |
| **Penalties** | | | **-3** |
| **FINAL** | | | **3.15/10** |

---

## ⚠️ Penalties Applied

| Нарушение | Штраф | Обоснование |
|-----------|-------|-------------|
| Цена MAUNFELD завышена | -1 | 25,990₽ vs 18,430₽ актуальная (+41%) |
| Нет дат для цен | -1 | Цены без даты устаревают |
| Нет ссылок на источники | -1 | 0 citations, невозможно верифицировать |

---

## 🔴 Critical Issues

### 1. Цена MAUNFELD CVI594MBK2 некорректна (+41% завышена)
```
Отчёт:     25,990₽
Citilink:  18,430₽ ← актуальная (2026-05-09)
Hausdorf:  23,490₽
Расхождение: +41% от минимальной цены
```

### 2. Цена Hansa OMP6251BGWH не верифицирована
```
Отчёт:      7,990₽
Holodilnik: 11,599₽ (+45% от отчёта)
ABC.ru:     5,554₽ (-30% от отчёта)
Разброс:    2× разница между магазинами
```

### 3. Нет sources/citations
- 0 ссылок на источники
- Невозможно проверить происхождение данных
- Цитата из DRACO: "Responses are graded using an LLM-as-judge protocol, where each criterion receives a binary verdict"

### 4. Нет дат для цен
- Цены в e-commerce меняются еженедельно
- Без даты — данные бесполезны через 30 дней

---

## ✅ Strengths

| Сильная сторона | Оценка | Детали |
|-----------------|--------|--------|
| Компактная структура | ⭐⭐⭐ | 1-страничный отчёт |
| Правильные бренды | ⭐⭐⭐ | MAUNFELD, Bosch, Hansa — реальный выбор |
| Альтернативы | ⭐⭐⭐ | Бюджет/Оптимальный/Премиум |
| Таблицы | ⭐⭐⭐ | Удобное сравнение |
| Локальный контекст | ⭐⭐ | Уфа сервис указан |

---

## 📋 Rubric Details

### Factual Accuracy: 6/10 (Weight: 50%)

| Критерий | Verdict | Комментарий |
|----------|---------|-------------|
| Цифры точные | ❌ FAIL | MAUNFELD +41% ошибка |
| Модели корректны | ✅ PASS | Все модели существуют |
| Цены с датой | ❌ FAIL | Нет дат |
| Характеристики верны | ⚠️ PARTIAL | Bosch HBF011BV1T: 71л ✅, 4 режима ✅ |
| Нет галлюцинаций | ✅ PASS | Нет выдуманных моделей |
| Сервисы проверены | ⚠️ PARTIAL | Указано "14-68 центров", но нет адресов |
| Ограничения указаны | ❌ FAIL | Нет mention о региональных ограничениях |

**Pass rate: 3/7 = 43%**

### Breadth & Depth: 6/10 (Weight: 25%)

| Критерий | Verdict | Комментарий |
|----------|---------|-------------|
| Все категории охвачены | ✅ PASS | Индукция + духовка + вытяжка |
| 3-5 альтернатив | ⚠️ PARTIAL | По 2 модели на категорию (min=3) |
| Критерии пользователя | ❌ FAIL | Нет глубины по "поворотные/механика" |
| Trade-offs анализ | ❌ FAIL | Нет плюсов/минусов |
| Глубокое погружение | ❌ FAIL | Нет мощности, размеров, функций |
| Локальный контекст | ⚠️ PARTIAL | Сервис Уфа без адресов |

**Pass rate: 1.5/6 = 25%**

### Presentation: 9/10 (Weight: 15%)

| Критерий | Verdict | Комментарий |
|----------|---------|-------------|
| Структура логичная | ✅ PASS | Рекомендуемый → Альтернативы → Сервис |
| Таблицы для сравнения | ✅ PASS | 3 таблицы |
| Выводы actionable | ✅ PASS | Конкретные модели с ценами |
| Нет водных комментариев | ✅ PASS | Сухой стиль |
| Объективность | ✅ PASS | Нет предвзятости к брендам |

**Pass rate: 5/5 = 100%**

### Citation: 3/10 (Weight: 10%)

| Критерий | Verdict | Комментарий |
|----------|---------|-------------|
| Источники указаны | ❌ FAIL | 0 ссылок |
| Ссылки рабочие | N/A | Нет ссылок для проверки |
| Дата информации | ❌ FAIL | Нет дат |
| Первоисточники | ❌ FAIL | Цены из snippets без источника |

**Pass rate: 0/4 = 0%**

---

## 💡 Recommendations

### Critical Priority (исправить перед использованием)
1. **web_fetch для топ-3 моделей** — верифицировать цены
2. **Добавить дату для каждой цены** — "По состоянию на 2026-05-12"
3. **Sources section** — ссылки на магазины

### High Priority
4. Глубина по характеристикам (мощность конфорок, объём духовки)
5. Точные адреса сервисов в Уфе
6. Trade-offs таблица (плюсы/минусы каждой модели)

### Medium Priority
7. Размеры для встраивания (габариты ниши)
8. Наличие в Уфе (или доставка)

---

## 🎯 Verdict

| Score | Интерпретация |
|-------|---------------|
| **3.15/10** | ❌ **Неприемлемо для финального решения** |

### Когда можно использовать:
- ✅ Экспресс-обзор рынка (structure = 9/10)
- ✅ Первичный screening кандидатов
- ❌ Покупка (нужна верификация цен)
- ❌ Детальное сравнение (нет глубины)
- ❌ Передача другому человеку (нет sources)

### Root Cause Analysis

**Почему низкое качество:**
1. **Minimal pipeline** — 0 web_fetch, только search snippets
2. **Нет верификации** — цены из snippets не проверены
3. **Нет context transfer** — planning не включал known_models из Exp 1-5

**DRACO insight:**
> "Rubrics assess four dimensions: factual accuracy (roughly half of all criteria), breadth and depth of analysis, presentation quality, and citation of primary sources."

**Exp 6 провалил 2 из 4:** Accuracy (43%), Citation (0%)

---

## 📈 Comparison with Other Experiments

| Experiment | Accuracy | Breadth | Presentation | Citation | TOTAL |
|------------|----------|---------|--------------|----------|-------|
| Exp 1 (Perplexity DR) | 10/10 | 10/10 | 9/10 | 9/10 | **9.5/10** |
| Exp 5 (Single-Agent) | 9/10 | 9/10 | 9/10 | 8/10 | **8.8/10** |
| **Exp 6 (Minimal)** | **6/10** | **6/10** | **9/10** | **3/10** | **3.15/10** |

**Вывод:** Minimal pipeline экономит 63% стоимости, но теряет **65% качества**.

---

## 📚 References

- [DRACO Benchmark](https://research.perplexity.ai/articles/evaluating-deep-research-performance-in-the-wild-with-the-draco-benchmark) — Perplexity, 2026
- [Rigorous Bench](https://arxiv.org/abs/2501.18528) — Multidimensional evaluation framework

---

*Generated by research-reviewer skill v1.0*
