Большие языковые модели в последнее время стали частью повседневной жизни многих людей: сервисы вроде ChatGPT и Claude предлагают разговорную помощь на базе ИИ сотням миллионов пользователей. Делая это, такие системы «выпустились» из академических инструментов, оцениваемых с технической точки зрения, в социотехнические системы, которые имеют как техническое, так и социальное воздействие и требуют более тонкой оценки, поскольку они могут влиять на различные аспекты общества, включая коммуникацию, распространение информации и принятие решений.
Заметным примером социотехнической системы на базе LLM является Answer Engine, также известный как Generative Search Engine, показанный на Рис. 1. Answer Engines позиционируются как замена традиционным поисковым системам — таким как Google или Bing — и работают следующим образом в парадигме поиска с дополнением генерацией: у пользователя есть информационная потребность, он формулирует поисковый запрос. Система ответов сначала извлекает релевантные исходные документы, которые, вероятно, содержат элементы ответа на запрос пользователя, используя систему извлечения (которой может быть традиционная поисковая система). Затем система ответов составляет текстовый промпт, который содержит запрос пользователя и извлечённые источники, и инструктирует LLM сгенерировать длинный, самодостаточный ответ для пользователя на основе содержимого источников.
Принципиально важно, что в ответ вставляются цитаты, причём каждая цитата ссылается на источники, поддерживающие каждое утверждение внутри ответа. Такой «обогащённый цитатами» ответ предоставляется пользователю в интерфейсе: цитата образует семантический «клей» между сгенерированным ответом и источниками; клик по цитате позволяет перейти к источнику(ам), поддерживающему любое утверждение.
По сути, система ответов обещает упростить путь пользователя к информации. Answer Engine кратко суммирует информацию, которую ищет пользователь, а источники остаются «в один клик», если пользователь хочет углубить понимание или проверить достоверность информации в самом источнике. В последнее время несколько бесплатных Answer Engines стали популярными — You.com, Perplexity.ai и Bing Chat — и некоторые из них сообщают о миллионах ежедневных поисков: системы ответов удовлетворяют потребности пользователей.
Однако у Answer Engines есть несколько хорошо известных ограничений, главным образом вытекающих из использования LLM как части генерации ответа. Во-первых, LLM известны тем, что галлюцинируют информацию и не могут обнаруживать фактические несоответствия, даже если предоставлены авторитетные источники. Во-вторых, предыдущие работы также показали ограничения способности систем ответов оценивать точность цитат внутри ответа. В-третьих, LLM накапливают знания во внутренних весах в ходе предобучения, и предыдущие работы показали ограниченный успех в принуждении модели генерировать информацию исключительно на основе документов, предоставленных в промпте, а не на основе информации предобучения, которая может быть шумной или устаревшей. Наконец, такие системы демонстрируют «угодническое» поведение: склонность соглашаться с предполагаемым мнением пользователя, а не с объективной истиной. Все эти известные ограничения могут воздействовать на качество сгенерированных ответов, отрицательно влияя на пользовательский опыт.
Тем не менее предыдущие работы в основном оценивали LLM и их вывод с технической точки зрения. Поскольку системы ответов ежедневно используются миллионами, столь же важно оценивать их и с социальной точки зрения — понимать, как пользователи воспринимают Answer Engines и как они обходятся с их ограничениями.
Мы начинаем работу с ориентированного на аудит исследования удобства использования (Раздел 3), включающего 24 участников¹ с экспертизой в технических областях (например, социология, экономика). Участники взаимодействуют с системами ответов и традиционными поисковыми системами по двум типам поисковых запросов: экспертные и дискуссионные. Экспертные запросы — это технические запросы, по которым участники сами сообщают о своей экспертности; знакомство участника с ответом позволяет оценить, как системы ответов работают на глубоко технических вопросах. Дискуссионные запросы — это запросы, связанные с темой спора, сформулированные либо «за», либо «против» (пример: «Почему нам следует отменить переход на летнее время»).
Предварительно спросив участников, поддерживают ли они одну из сторон, мы можем оценивать, как участники взаимодействуют с ответами, поддерживающими или опровергающими их мнение. Исследование удобства использования следует протоколу «думай вслух» и позволяет получить два основных типа инсайтов:
- количественные — о том, как пользователи взаимодействуют с ответами, цитатами и источниками как в системах ответов, так и в традиционных поисковых системах;
- качественные — обратная связь участников, которую мы группируем с помощью индуктивного подхода, а затем качественного кодирования в 16 наблюдений об ограничениях систем ответов.
По завершении исследования мы предлагаем 16 рекомендаций по дизайну, которые одновременно практичны и измеримы, поскольку мы разрабатываем 8 количественных метрик, связывающих рекомендации с конкретными измерениями (Раздел 4).
Наконец, мы реализуем крупномасштабную автоматизированную оценку трёх популярных систем ответов (YouChat, Bing Copilot и Perplexity AI) по 8 метрикам на наборе из 303 поисковых запросов из нашего исследования удобства. Мы агрегируем метрики в «оценочную карту» — бенчмарк Answer Engine Evaluation (AEE) — для каждой системы ответов.
Одно из наших наблюдений показывает, что все оцененные системы часто генерируют односторонние ответы (50–80 %), благоприятствующие согласию с «заряженными» дискуссионными вопросами; при этом Perplexity демонстрирует наихудшие результаты по нескольким аспектам, несмотря на самые длинные ответы — что указывает на то, что увеличение длины ответа не улучшает разнообразие ответа.
Мы публикуем наш фреймворк автоматической оценки, чтобы стимулировать сообщество оценивать системы ответов по мере того, как технология развивается и «созревает».
¹Пилот с 3 участниками и финальное исследование удобства с 21 участником.