Вот ТОП публикаций, которые мы в SUN agency в настоящее время изучаем, чтобы выработать практический подход к GEO.
UX/поведение: быстрый обзор 58 количественных исследований UX ChatGPT фиксирует разброс методов (IV/DV, метрики) и дефицит стандартизации; предложены два начальных фреймворка для выравнивания измерений. https://arxiv.org/abs/2503.15808
Динамический и крайне персонифицированный SERP : GenSERP (фреймворк LLM-оркестрации целой страницы результатов: чат-ответ + сниппеты + мультимедиа + панели знаний + оценка макета) — статья отозвана автором; однако, важно как направление. https://arxiv.org/abs/2402.14301
Образование: смешанное исследование показывает, что LLM помогают понять ключевые концепты, но хуже с удержанием знаний; студенты с более высокой успеваемостью больше читают, меньше «делегируют» поиск. https://arxiv.org/html/2410.01396v1
Доверие к GenAI-поиску: крупное исследование в США: базово доверяют GenAI меньше, чем классическому поиску; ссылки/цитаты повышают доверие даже при ложных ответах нейросети; демонстрация «уверенности/неопределенности» снижает доверие; доверие сильно сегментировано по демографии/опыту.https://arxiv.org/abs/2504.06435
Привет Black-hat GEO: FSAP (Few-Shot Adversarial Prompting) — метод «чёрного ящика», при котором злоумышленник, не имея доступа к внутренностям модели, подаёт ей несколько примеров-шаблонов. По этим подсказкам LLM синтезирует гладкие, связные и тематически корректные статьи, которые в экспериментах на треках медицинской дезинформации TREC зачастую опережают по ранжированию и видимости настоящие, проверенные источники. Это показывает реальную уязвимость современных нейронных ранжировщиков и создаёт прямую угрозу для генеративных поисковых экосистем (GSE)..https://arxiv.org/abs/2508.15283
Доменные экосистемы/агенты: AgriGPT (Tri-RAG: плотный+разреженный поиск + граф знаний; собственный бенч AgriBench-13K) — пример отраслевого LLM-стека. https://www.arxiv.org/abs/2508.08632
Фактчек с конфликтами: CONFACT — датасет и оценка RAG при противоречивых источниках; учет «достоверности источника» заметно улучшает результаты.https://arxiv.org/abs/2505.17762
ChatGPT vs Google (user study): ChatGPT позволяет выполнять задачи быстрее, UX оценивается выше, но уступает в факт-проверке; риск гипердоверия. https://arxiv.org/abs/2307.01135
RL для ретривала: DeepRetrieval — RL без разметки учит LLM генерировать запросы; бьёт SOTA по recall на реальных поисковиках и задачах (11/13 датасетов), модель 3B. https://arxiv.org/abs/2503.00223
Answer Engines (оценка): AEE — бенчмарка для «ответных поисковиков» (You.com, BingChat, Perplexity): частые галлюцинации и проблемы с цитированием; сформулированы 16 design-рекомендаций. https://arxiv.org/abs/2503.00223
Пользовательские предпочтения: опрос N=100 по сценариям: поисковики — для фактологии; LLM — для интерпретаций / объяснений. https://arxiv.org/abs/2503.00223
Переранжирование:
- REALM — учет неопределённости, байесовские обновления → выше качество и ниже токено-стоимость.https://arxiv.org/abs/2508.18379
- Большой сравнительный обзор 22 реранкеров (40 вариантов): LLM-реранкеры сильны на знакомых запросах, но хуже обобщают; лайт-модели часто выгоднее «точность/эффективность». https://arxiv.org/abs/2508.16757
Запросоперефразирование для RAG: RaFe — безразметочное обучение перезаписи запроса с «ранговой» обратной связью от публичного реранкера.https://arxiv.org/abs/2405.14431
Персонализация, рассуждения, когнитивные рабочие пространства, GEO-бенчи и стратегии — в остальном пуле (персонализация CIR, DIVER для reasoning-retrieval, Cognitive Workspace как альтернатива RAG, практики G-SEO/GEO, модели предпочтений по типам личности, экономические агенты и т. п.) — хорошая «витрина» тем для будущих разделов гайда. https://arxiv.org/abs/2508.21628