Практика использования нейросетей показывает, что нейросети часто галлюцинирует, намеренно искажают факты, выдумывают контексты, уклоняются от прямых ответов, манипулируют, в общем ведут себя как чрезмерно уверенный собеседник, который всегда стремится дать ответ, даже ценой выдумок и искажений (наверное у каждого есть такой знакомый в реальной жизни, который знает просто всё).
Доверие является ключевым условием восприятия генеративных поисковых систем. Даже при удобстве и быстроте работы пользователи не склонны использовать AI-ответы в ситуациях, где ошибка может стоить дорого.
Критическое мышление и чрезмерная зависимость
Практика использования нейросетей показывает, что работа с ними парадоксальным образом снижает уровень критического мышления. Пользователи склонны полагаться на готовый ответ, не включая рефлексивные механизмы проверки. В исследовании было показано, что 70,8% участников группы ChatGPT демонстрировали чрезмерную зависимость от ответов модели, даже когда те содержали ошибки. Это говорит о формировании паттерна поведения, при котором модель становится «финальным авторитетом» для значительной доли пользователей.
Гладкость и убедительность текста
Исследования UX подтверждают, что люди склонны доверять гладким (красивым, стройным, убедительным) и уверенно написанным ответам, даже если они не подкреплены ссылками. В исследовании удовлетворенности (User Intent Recognition and Satisfaction, 2024) GPT-4 предоставляла ссылки почти в 40% фактических ответов, GPT-3.5 — лишь в 25%, однако пользователи чаще выбирали ответы GPT-3.5 (58,3%), именно из-за их убедительной формы. Таким образом, гладкость текста выступает фактором доверия, перевешивая формальную корректность и наличие источников.
Ограничения в обработке запросов
В отличие от поисковых систем, нейросети не исправляют ошибки в пользовательском запросе. Чат отвечает ровно на тот вопрос, который задан, даже если он сформулирован ошибочно относительно реальной задачи пользователя. Это усиливает риск того, что пользователь останется в ложной рамке постановки вопроса.
Угодническое поведение и предвзятость
LLM демонстрируют поведение, которое можно охарактеризовать как «угодническое»: система стремится дать ответ:
- Во что бы то ни стало
- Подстраиваясь под формулировку пользователя.
Основание ответов на предобученных данных приводит к тому, что в модель могут не попасть маргинализированные точки зрения. Как следствие, пользователи получают ответы, в которых меньше разнообразия и альтернативных точек зрения. В исследовании Wu et al. (ClashEval, 2024) отмечено, что нейросети часто склонялись к предвзятости, заложенной в вопросе, и усиливали предубеждения пользователя, вместо того чтобы показать разные стороны аргумента. Аналогичные результаты показал и анализ Ge et al. (CONFACT, 2025).
Иллюзия подтвержденности
Другая системная проблема — ссылки и цитаты, которые не подтверждают утверждений. Участники UX-исследований отмечали, что система использует цитаты для создания иллюзии достоверности, даже когда источник нерелевантен. Иногда в ответах указывалось множество источников, но при проверке оказывалось, что они реально не использовались для построения текста. При экспертных и дискуссионных запросах модели избирательно брали данные из статей, показывая только одну сторону вопроса, что еще больше снижало доверие.
Пользовательское поведение при работе с источниками
Поведенческие исследования показывают, что в интерфейсах чата пользователи существенно меньше проверяют источники, чем в поиске. По данным эксперимента, в чате пользователи наводят курсор на 1,39 источников и кликают по 1, в то время как в SERP — наводят на 12 и кликают на 4. Если ответ совпадает с позицией пользователя, проверка снижается еще сильнее (наведение 1,08, клик 0,48); если ответ противоречит позиции — активность выше (1,72 и 2,95 соответственно). Это подтверждает тезис о когнитивной предвзятости: пользователи охотнее доверяют «приятным» ответам и меньше склонны их проверять. https://arxiv.org/html/2410.22349v1
Проблемы RAG и работа с источниками
Использование RAG усиливает риски получения недостоверного ответа. В случаях, когда RAG получает два противоречивых документа, модель не имеет прозрачного механизма выбора авторитетного источника. В результате она может заменить «правильное внутреннее знание» шумом из поиска. Исследования показывают, что LLM склонны «переобучаться» на контекст и отказываться от собственных корректных знаний в пользу внешнего текста ( Wu et al., 2024; Ge et al., 2025). В эксперименте было показано, что в 60%+ случаев модель подменяла правильные знания ошибочными данными из поиска, если там оказывался убедительный, но ложный документ.
Одним из предложенных подходов является предварительная оценка источников: LLM извлекает метаданные об источнике и сопоставляет их с эталонной шкалой надежности.
В реальном поиске это решение не масштабируется напрямую: система получает SERP из 10 результатов, и вопрос о том, как оценить авторитетность домена или бренда в автоматическом режиме, остается открытым. Это выводит на первый план тему репутации и доверия к авторитетным доменам и брендам как критерия выбора источников.