кейс

Приложения на основе больших языковых моделей: ограничения Answer Engines и рекомендации по их дизайну

Дата исследования Октябрь 2024
Особенности Перевод с Английского на Русский
Над проектом работали

Аннотация

Приложения на основе больших языковых моделей (LLM) переходят от исследовательских прототипов к продуктам, которыми пользуются миллионы, влияя на то, как создаётся и потребляется информация. Знаковый пример — Answer Engines: генеративные поисковые системы на базе LLM, вытесняющие традиционные поисковики. Они не только извлекают релевантные источники под запрос пользователя, но и синтезируют краткие ответы с цитированием этих источников. Чтобы понять ограничения таких систем, мы провели исследование с 21 участником, сравнив взаимодействие с Answer Engines и традиционным поиском, и выявили 16 ограничений. Из этих наблюдений мы предложили 16 дизайн-рекомендаций, связанных с 8 метриками. Автоматизированная оценка по нашим метрикам на трёх популярных системах (You.com, Perplexity.ai, BingChat) количественно показала общие ограничения (напр., частые галлюцинации, неточные цитаты) и уникальные особенности (напр., вариации в уверенности ответа), при этом результаты отражают выводы пользовательского исследования. Мы публикуем бенчмарк Answer Engine Evaluation (AEE) для прозрачной оценки LLM-приложений.

Схема как работает генеративный поиск Рисунок 1. Процесс проектирования Answer Engine и исследовательская схема, использованная для аудита этих систем. На схеме показаны ключевые компоненты Answer Engine, включая то, как формируются ответы на основе пользовательских запросов, с акцентом на такие выходные элементы, как источники, текст ответа и цитаты. Справа приведено резюме результатов нашего исследования удобства использования, вместе с итоговой «оценочной картой» для You.com Chat, Bing Copilot и Perplexity.

Введение

Большие языковые модели в последнее время стали частью повседневной жизни многих людей: сервисы вроде ChatGPT и Claude предлагают разговорную помощь на базе ИИ сотням миллионов пользователей. Делая это, такие системы «выпустились» из академических инструментов, оцениваемых с технической точки зрения, в социотехнические системы, которые имеют как техническое, так и социальное воздействие и требуют более тонкой оценки, поскольку они могут влиять на различные аспекты общества, включая коммуникацию, распространение информации и принятие решений.

Заметным примером социотехнической системы на базе LLM является Answer Engine, также известный как Generative Search Engine, показанный на Рис. 1. Answer Engines позиционируются как замена традиционным поисковым системам — таким как Google или Bing — и работают следующим образом в парадигме поиска с дополнением генерацией: у пользователя есть информационная потребность, он формулирует поисковый запрос. Система ответов сначала извлекает релевантные исходные документы, которые, вероятно, содержат элементы ответа на запрос пользователя, используя систему извлечения (которой может быть традиционная поисковая система). Затем система ответов составляет текстовый промпт, который содержит запрос пользователя и извлечённые источники, и инструктирует LLM сгенерировать длинный, самодостаточный ответ для пользователя на основе содержимого источников.

Принципиально важно, что в ответ вставляются цитаты, причём каждая цитата ссылается на источники, поддерживающие каждое утверждение внутри ответа. Такой «обогащённый цитатами» ответ предоставляется пользователю в интерфейсе: цитата образует семантический «клей» между сгенерированным ответом и источниками; клик по цитате позволяет перейти к источнику(ам), поддерживающему любое утверждение.

По сути, система ответов обещает упростить путь пользователя к информации. Answer Engine кратко суммирует информацию, которую ищет пользователь, а источники остаются «в один клик», если пользователь хочет углубить понимание или проверить достоверность информации в самом источнике. В последнее время несколько бесплатных Answer Engines стали популярными — You.com, Perplexity.ai и Bing Chat — и некоторые из них сообщают о миллионах ежедневных поисков: системы ответов удовлетворяют потребности пользователей.

Однако у Answer Engines есть несколько хорошо известных ограничений, главным образом вытекающих из использования LLM как части генерации ответа. Во-первых, LLM известны тем, что галлюцинируют информацию и не могут обнаруживать фактические несоответствия, даже если предоставлены авторитетные источники. Во-вторых, предыдущие работы также показали ограничения способности систем ответов оценивать точность цитат внутри ответа. В-третьих, LLM накапливают знания во внутренних весах в ходе предобучения, и предыдущие работы показали ограниченный успех в принуждении модели генерировать информацию исключительно на основе документов, предоставленных в промпте, а не на основе информации предобучения, которая может быть шумной или устаревшей. Наконец, такие системы демонстрируют «угодническое» поведение: склонность соглашаться с предполагаемым мнением пользователя, а не с объективной истиной. Все эти известные ограничения могут воздействовать на качество сгенерированных ответов, отрицательно влияя на пользовательский опыт.

Тем не менее предыдущие работы в основном оценивали LLM и их вывод с технической точки зрения. Поскольку системы ответов ежедневно используются миллионами, столь же важно оценивать их и с социальной точки зрения — понимать, как пользователи воспринимают Answer Engines и как они обходятся с их ограничениями.

Мы начинаем работу с ориентированного на аудит исследования удобства использования (Раздел 3), включающего 24 участников¹ с экспертизой в технических областях (например, социология, экономика). Участники взаимодействуют с системами ответов и традиционными поисковыми системами по двум типам поисковых запросов: экспертные и дискуссионные. Экспертные запросы — это технические запросы, по которым участники сами сообщают о своей экспертности; знакомство участника с ответом позволяет оценить, как системы ответов работают на глубоко технических вопросах. Дискуссионные запросы — это запросы, связанные с темой спора, сформулированные либо «за», либо «против» (пример: «Почему нам следует отменить переход на летнее время»).

Предварительно спросив участников, поддерживают ли они одну из сторон, мы можем оценивать, как участники взаимодействуют с ответами, поддерживающими или опровергающими их мнение. Исследование удобства использования следует протоколу «думай вслух» и позволяет получить два основных типа инсайтов:

  1. количественные — о том, как пользователи взаимодействуют с ответами, цитатами и источниками как в системах ответов, так и в традиционных поисковых системах;
  2. качественные — обратная связь участников, которую мы группируем с помощью индуктивного подхода, а затем качественного кодирования в 16 наблюдений об ограничениях систем ответов.

По завершении исследования мы предлагаем 16 рекомендаций по дизайну, которые одновременно практичны и измеримы, поскольку мы разрабатываем 8 количественных метрик, связывающих рекомендации с конкретными измерениями (Раздел 4).

Наконец, мы реализуем крупномасштабную автоматизированную оценку трёх популярных систем ответов (YouChat, Bing Copilot и Perplexity AI) по 8 метрикам на наборе из 303 поисковых запросов из нашего исследования удобства. Мы агрегируем метрики в «оценочную карту» — бенчмарк Answer Engine Evaluation (AEE) — для каждой системы ответов.

Одно из наших наблюдений показывает, что все оцененные системы часто генерируют односторонние ответы (50–80 %), благоприятствующие согласию с «заряженными» дискуссионными вопросами; при этом Perplexity демонстрирует наихудшие результаты по нескольким аспектам, несмотря на самые длинные ответы — что указывает на то, что увеличение длины ответа не улучшает разнообразие ответа.

Мы публикуем наш фреймворк автоматической оценки, чтобы стимулировать сообщество оценивать системы ответов по мере того, как технология развивается и «созревает».

¹Пилот с 3 участниками и финальное исследование удобства с 21 участником.

| **Answer Text** | **Citation** | **Sources** | **User Interface** |
|——————|—————|————-|———————|
| **A.I** Need for objective details in generated answers (21/21) | **C.I** Misattribution and misinterpretation of sources cited (21/21) | **S.I** Low Frequency of Sources Used for Summarization (19/21) | **U.I** The lack of selection, and filtering of sources (17/21) |
| **A.II** Lack of holistic viewpoints for opinionated or charged questions (19/21) | **C.II** Cherrypicking information based on assumed context (19/21) | **S.II** More sources retrieved than used for generating the actual answer (13/21) | **U.II** Lack of human input in generation and source selection (17/21) |
| **A.III** Overtly confident language while presenting claims (16/21) | **C.III** Missing citations for claims and information generated (18/21) | **S.III** Lack of trust in sources used by the answer engine (12/20) | **U.III** Answer engines take additional work to verify and trust (14/21) |
| **A.IV** Simplistic language and a lack of creativity and critical thinking (14/21) | **C.IV** Transparency of source selection in model responses (15/21) | **S.IV** Redundancy in source citation and duplicate content retrieved (12/21) | **U.IV** Citations formats are not a normalized interaction (12/21) |

Еще больше полезного на нашем YouTube-канале
Подписаться
Читайте нашу книгу «Digital-маркетинг массового поражения. От основ до практических кейсов»