Сегодняшняя индустрия ИИ и маркетинга стоит на плечах фундаментальных исследований. Работы с arXiv.org изменили технологии навсегда: Word2vec заложил основу семантического поиска, Attention Is All You Need породил трансформеры, BERT перевернул NLP, ResNet сделал возможным глубокое обучение в компьютерном зрении, YOLO ускорил детекцию объектов, GPT-3 показал силу больших языковых моделей, а diffusion-модели открыли новую эру генерации изображений. Эти открытия — доказательная база, из которой выросли поисковые системы, чат-боты, рекомендательные сервисы и генеративные продукты.

Сегодня мы наблюдаем аналогичный момент в GEO: на arXiv уже публикуются исследования доверия к AI-поиску, уязвимостей генеративных систем, гибридных архитектур и новых методов ранжирования. Эти работы пока не стали индустриальным стандартом, но именно они могут определить, как в будущем будут ранжироваться бренды и компании в генеративных поисковых экосистемах.

Где искать информацию о GEO

Мы в SUN agency начали изучение вопроса оптимизации бизнеса под генеративный поиск, однако, реально полезной информации на эту тему не так много. Chat GPT конечно фонтанирует идеями и всегда все (всё, конечно) знает, но при допросе с пристрастием оказывается, что выдумывает факты о GEO оптимизации и факторах ранжирования сайтов / бизнесов в нейросетях.
Многое о GEO на английском языке сгенерировано, вымышлено или домыслено людьми или нейронкой, обычно бесполезно на практике (как стандарт llms.txt, мы как ни старались — не смогли загнать бота OpenAI посмотреть этот файл, об этом эксперименте как-нибудь расскажем в телеграмме, он еще не окончен).
Один из самых надежных и футуристичных источников информации об индустрии ИИ привлек наше внимание — Arxiv.org. О нем, его вкладе в развитие технологий мы и поговорим ниже.

Что такое arXiv

ArXiv это крупнейший в мире онлайн-архив научных препринтов, созданный в 1991 году при Корнеллском университете. В отличие от классических журналов, здесь нет формального рецензирования. Автор загружает работу в на сайт, проходит модерацию и статья становится доступной всему миру.

За три десятилетия arXiv стал стартом для новых идей в физике, математике, информатике и особенно в области искусственного интеллекта. Сегодня именно здесь появляются работы, которые превращаются в технологии, меняющие индустрии: от поисковых систем и генеративных моделей до биотехнологий.

На 2025 год в архиве хранится более 2,5 млн препринтов, прирост — свыше 200 тыс. в год. Самые быстрорастущие разделы — computer science и AI: десятки тысяч статей ежегодно. Многие из них цитируются чаще, чем публикации в журналах.

ArXiv, по нашему мнению, стоит рассматривать как инструмент реализации принципа “все что будет уже есть”. Более 70% статей с топ-конференций по ИИ (NeurIPS,ACL, ICML) сначала выкладываются именно туда. Компании уровня Google, OpenAI, Microsoft, Anthropic, Meta публикуют исследования через arXiv — от архитектуры трансформеров (Attention Is All You Need) до LoRA и diffusion-моделей.

Поэтому, если вы хотите действительно серьезно изучить историю с современным и будущим ИИ и понять, куда двинется наука и технологии завтра, изучайте не новости и блоги, а arXiv. Здесь рождаются идеи, которые через короткое время становятся частью продакшн-сервисов, продуктов и мировых трендов. Например.

ТОП-10 работ с arXiv, изменивших индустрию

1. Word2vec (2013, Google)

Статья: Efficient Estimation of Word Representations in Vector Space
Ссылка: arXiv:1301.3781
Что дала: метод векторных представлений слов. Лег в основу чат-ботов, поиска по смыслу, рекомендательных систем.
Применение: Google, Яндекс, Spotify, Netflix, вообще все

2. Attention Is All You Need (2017, Google)

Статья: Attention Is All You Need
Ссылка: arXiv:1706.03762
Что дала: архитектура Transformer — основа GPT, BERT, Claude, Gemini.
Применение: поисковые системы, LLM, машинный перевод.

3. BERT (2018, Google AI)

Статья: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Ссылка: arXiv:1810.04805
Что дала: контекстные эмбеддинги, революция в NLP.
Применение: Google Search, чат-боты, классификаторы.

4. GPT-3 (2020, OpenAI)

Статья: Language Models are Few-Shot Learners
Ссылка: arXiv:2005.14165
Что дала: показала силу «больших языковых моделей».
Применение: API OpenAI, ChatGPT, Microsoft Copilot.

5. ResNet (2015, Microsoft Research)

Статья: Deep Residual Learning for Image Recognition
Ссылка: arXiv:1512.03385
Что дала: residual connections — обучение очень глубоких сетей.
Применение: компьютерное зрение, мобильные камеры, медицина.

6. YOLO (2015, Joseph Redmon.)

Статья: You Only Look Once: Unified, Real-Time Object Detection
Ссылка: arXiv:1506.02640
Что дала: быстрый и точный объектный детектор.
Применение: беспилотные авто, видеонаблюдение, ритейл.

7. Denoising Diffusion Probabilistic Models (2020, UC Berkeley)

Статья: Denoising Diffusion Probabilistic Models
Ссылка: arXiv:2006.11239
Что дала: основа diffusion-моделей (Stable Diffusion, MidJourney, DALL·E 2).
Применение: генерация изображений, видео, звука.

8. Latent Diffusion Models (2021, CompVis & LMU)

Статья: High-Resolution Image Synthesis with Latent Diffusion Models
Ссылка: arXiv:2112.10752
Что дала: сделала diffusion доступным на обычных GPU.
Применение: Stable Diffusion.

9. LoRA (2021, Microsoft)

Статья: LoRA: Low-Rank Adaptation of Large Language Models
Ссылка: arXiv:2106.09685
Что дала: экономичная тонкая настройка LLM.
Применение: кастомизация ChatGPT, fine-tuning в бизнесе.

10. Whisper (2022, OpenAI)

Статья: Robust Speech Recognition via Large-Scale Weak Supervision
Ссылка: arXiv:2212.04356
Что дала: универсальное ASR (speech-to-text).
Применение: Zoom, ChatGPT voice, субтитры, accessibility.

Исследования про современный AI

Вот ТОП публикаций, которые мы в SUN agency в настоящее время изучаем, чтобы выработать практический подход к GEO.

UX/поведение: быстрый обзор 58 количественных исследований UX ChatGPT фиксирует разброс методов (IV/DV, метрики) и дефицит стандартизации; предложены два начальных фреймворка для выравнивания измерений. https://arxiv.org/abs/2503.15808

Динамический и крайне персонифицированный SERP : GenSERP (фреймворк LLM-оркестрации целой страницы результатов: чат-ответ + сниппеты + мультимедиа + панели знаний + оценка макета) — статья отозвана автором; однако, важно как направление. https://arxiv.org/abs/2402.14301

Образование: смешанное исследование показывает, что LLM помогают понять ключевые концепты, но хуже с удержанием знаний; студенты с более высокой успеваемостью больше читают, меньше «делегируют» поиск. https://arxiv.org/html/2410.01396v1

Доверие к GenAI-поиску: крупное исследование в США: базово доверяют GenAI меньше, чем классическому поиску; ссылки/цитаты повышают доверие даже при ложных ответах нейросети; демонстрация «уверенности/неопределенности» снижает доверие; доверие сильно сегментировано по демографии/опыту.https://arxiv.org/abs/2504.06435

Привет Black-hat GEO: FSAP (Few-Shot Adversarial Prompting) — метод «чёрного ящика», при котором злоумышленник, не имея доступа к внутренностям модели, подаёт ей несколько примеров-шаблонов. По этим подсказкам LLM синтезирует гладкие, связные и тематически корректные статьи, которые в экспериментах на треках медицинской дезинформации TREC зачастую опережают по ранжированию и видимости настоящие, проверенные источники. Это показывает реальную уязвимость современных нейронных ранжировщиков и создаёт прямую угрозу для генеративных поисковых экосистем (GSE)..https://arxiv.org/abs/2508.15283

Доменные экосистемы/агенты: AgriGPT (Tri-RAG: плотный+разреженный поиск + граф знаний; собственный бенч AgriBench-13K) — пример отраслевого LLM-стека. https://www.arxiv.org/abs/2508.08632

Фактчек с конфликтами: CONFACT — датасет и оценка RAG при противоречивых источниках; учет «достоверности источника» заметно улучшает результаты.https://arxiv.org/abs/2505.17762

ChatGPT vs Google (user study): ChatGPT позволяет выполнять задачи быстрее, UX оценивается выше, но уступает в факт-проверке; риск гипердоверия. https://arxiv.org/abs/2307.01135

RL для ретривала: DeepRetrieval — RL без разметки учит LLM генерировать запросы; бьёт SOTA по recall на реальных поисковиках и задачах (11/13 датасетов), модель 3B. https://arxiv.org/abs/2503.00223

Answer Engines (оценка): AEE — бенчмарка для «ответных поисковиков» (You.com, BingChat, Perplexity): частые галлюцинации и проблемы с цитированием; сформулированы 16 design-рекомендаций. https://arxiv.org/abs/2503.00223

Пользовательские предпочтения: опрос N=100 по сценариям: поисковики — для фактологии; LLM — для интерпретаций / объяснений. https://arxiv.org/abs/2503.00223

Переранжирование:

REALM — учет неопределённости, байесовские обновления → выше качество и ниже токено-стоимость.https://arxiv.org/abs/2508.18379
Большой сравнительный обзор 22 реранкеров (40 вариантов): LLM-реранкеры сильны на знакомых запросах, но хуже обобщают; лайт-модели часто выгоднее «точность/эффективность». https://arxiv.org/abs/2508.16757

Запросоперефразирование для RAG: RaFe — безразметочное обучение перезаписи запроса с «ранговой» обратной связью от публичного реранкера.https://arxiv.org/abs/2405.14431

Персонализация, рассуждения, когнитивные рабочие пространства, GEO-бенчи и стратегии — в остальном пуле (персонализация CIR, DIVER для reasoning-retrieval, Cognitive Workspace как альтернатива RAG, практики G-SEO/GEO, модели предпочтений по типам личности, экономические агенты и т. п.) — хорошая «витрина» тем для будущих разделов гайда. https://arxiv.org/abs/2508.21628

Список публикаций, аннотации препринтов и рабочие заметки предоставили мы, а самари любезно предоставил ChatGPT. Сами работы мы пока подробно не изучили, но обязательно изучим все до одной, хотя новые исследования в этой области появляются буквально каждый день и сложно за всем успеть.

Зачем мы изучаем это

У SEO есть своя «школа». Многие принципы, которые мы сегодня воспринимаем как аксиомы вроде «ссылка должна быть с релевантным анкором», «лучше ставить ближе к началу документа» или «важнее, когда она с авторитетного источника» — родились не в блогах и на конференциях. Они пришли напрямую из патентов Google и исследований, которые в свое время сформировали индустрию.

Сейчас GEO находится в похожей точке. Сегодня выходят десятки серьезных работ — от UX-исследований доверия к AI-поиску до экспериментов с генеративными SERP и новыми методами ранжирования. Именно эти публикации, как когда-то патенты Google, скорее всего станут фундаментом будущей индустрии.

Хотите копнуть глубже — изучайте первоисточники сами. Но если времени на это нет, проще подписаться на наш Telegram-канал. Мы системно собираем исследования по GEO, проверяем их через практику в маркетинге и SEO и публикуем только собственный аналитический контент — без переводов, рерайтов и генережки (разве что чуть).

Читайте нашу книгу «Digital-маркетинг массового поражения. От основ до практических кейсов»

Тренды SEO, GEO, AEO