кейс

ChatGPT против Google: сравнительное исследование эффективности поиска и пользовательского опыта

Дата исследования Июль 2023
Особенности Перевод исследования с Английского на Русский
Над проектом работали

Саммари: ChatGPT vs Google — что реально показал эксперимент

  • Интент 2.0. Диалоговый интерфейс старается «понять задачу», учитывать контекст и формулировать связный ответ на естественном языке — это снижает когнитивную нагрузку по сравнению с перебором ссылок в SERP. Часть пользователей точно перейдет в нейросети и GEO продвижение в нейросетях становится все более актуально.
  • Скорость. Пользователи выполняли задачи быстрее с ChatGPT: на три задачи ушло 11.35 мин против 18.75 мин у Google (−65%, p<0.01), в том числе существенно меньше времени внутри самого инструмента.
  • Точность ≈ одинаковая, но… В сумме баллы сопоставимы, Task 1 (факт-лукап): ChatGPT лучше (10.00 vs 8.19; p<0.01). Task 3 (fact-checking): Google лучше (8.37 vs 5.83; p<0.01).
  • Уязвимость к ошибкам в запросе. Чат не исправляет ошибки в формулировке пользователя и добросовестно отвечает на неверно поставленный вопрос — это бьёт по проверке фактов и ведёт к over-reliance.
  • Выравнивание по образованию. В ChatGPT результативность не зависит от уровня образования, в Google — растёт с уровнем; новичкам SERP даётся сложнее.
  • Качество и UX. Пользователи оценивают качество информации и общий UX чата выше, но это же удобство демотивирует дополнительную проверку и ухудшает fact-checking.
  • Поведение в запросах. В чате запросы длиннее и «разговорнее», хотя их количество похоже на Google; в задачах типа «список ссылок» SERP остаётся весьма силён.
С появлением генеративного поиска мы наблюдаем ключевой сдвиг: диалоговый поиск действительно экономит время и выравнивает результаты для разных групп пользователей, но цена удобства — риск “поверить на слово” и не заметить неточности.
Много полезного в нашем
телеграм-канале. Присоединяйтесь!
Подписаться

Аннотация исследования

Появление ChatGPT, чат-бота на основе большой языковой модели, вызвало вопросы о его потенциальных последствиях для традиционных поисковых систем. В этом исследовании мы исследуем различия в поведении пользователей при выполнении задач поиска информации с использованием поисковых систем и инструментов чат-ботов.

Мы проводим рандомизированный онлайн-эксперимент, разделяя участников на две группы: одна использует инструмент, похожий на ChatGPT, а другая — инструмент, похожий на Google Search. Наши результаты показывают, что группа ChatGPT стабильно тратит меньше времени на все задачи, при отсутствии значимой разницы в общей результативности выполнения задач между группами.

Примечательно, что ChatGPT выравнивает эффективность поиска пользователей при различном уровне образования и превосходит в ответах на простые вопросы и предоставлении общих решений, но уступает в задачах по проверке фактов. Пользователи воспринимают ответы ChatGPT как обладающие более высоким качеством информации по сравнению с Google Search, несмотря на демонстрацию схожего уровня доверия к обоим инструментам. Кроме того, участники, использующие ChatGPT, сообщают о значительно лучшем пользовательском опыте с точки зрения полезности, удовольствия и удовлетворённости, тогда как воспринимаемая простота использования остаётся сопоставимой между двумя инструментами. Однако ChatGPT также может приводить к чрезмерной зависимости и генерировать или воспроизводить дезинформацию, что даёт непоследовательные результаты. Наше исследование предлагает ценные выводы для управления поисковыми системами и подчёркивает возможности интеграции технологий чат-ботов в дизайн поисковых систем.

Введение

В ноябре 2022 года OpenAI запустила ChatGPT — чат-бот на основе крупной языковой модели Generative Pre-trained Transformer (GPT). Стремительный рост популярности ChatGPT подчёркивает преобразующий потенциал генеративного ИИ в различных отраслях и приложениях. В феврале 2023 года Microsoft интегрировала ChatGPT в свою поисковую систему Bing, уникальным образом объединив функции чата и поиска (Microsoft 2023). После этой интеграции трафик Bing существенно вырос на 15,8% с февраля по март, тогда как трафик Google за тот же период сократился почти на 1% (Reuters 2023). Учитывая, что каждый 1% доли рынка поисковой рекламы соответствует 2 млрд долларов годовой выручки (Yahoo! Finance 2023), этот заметный сдвиг вызывает обеспокоенность по поводу влияния продуктов, подобных ChatGPT, на традиционные поисковые системы и будущего поиска и обнаружения информации.

Традиционные поисковые системы и системы, подобные ChatGPT, различаются подходами к извлечению информации. Google, ведущая в мире поисковая система, полагается на поиск и сопоставление по ключевым словам, предоставляя пользователям список релевантных ссылок. Напротив, ChatGPT использует разговорный подход, позволяя пользователям задавать вопросы на естественном языке. Хотя скорость Google впечатляет, пользователям приходится по отдельности просматривать результаты, что может быть трудозатратным. ChatGPT, напротив, стремится понять намерение пользователя и выдать структурированные ответы полными предложениями, предлагая более удобный и интуитивный опыт поиска. Тем не менее у ChatGPT есть потенциальные недостатки, такие как более медленное время отклика и возможность появления ложной или вводящей в заблуждение информации, в отличие от традиционных поисковых систем, которые обеспечивают более быстрое время отклика и более контролируемые результаты.

По мере того как ландшафт поиска и обнаружения информации меняется, остаются без ответа вопросы относительно сравнения эффективности и пользовательского опыта систем, подобных ChatGPT, с традиционными поисковыми системами. Важно изучить, как разговорная природа ChatGPT влияет на точность и релевантность результатов поиска, исследовать компромиссы между его интуитивными ответами и более быстрыми результатами традиционных поисковых систем, а также выяснить, как переход от списков ссылок к разговорным ответам влияет на удовлетворённость пользователей и эффективность поиска. Решение этих вопросов поможет оценить преимущества и недостатки внедрения систем поиска на базе чата, таких как ChatGPT, и направит разработку более эффективных инструментов поиска, выявив, как может меняться поведение пользователей при интеграции разговорных систем на базе ИИ.

В данном исследовании мы проводим рандомизированный онлайн-эксперимент с целью дать всестороннее сравнение поведения и результатов пользователей при использовании чат-ботов на базе крупных языковых моделей и инструментов поисковых систем, на примере ChatGPT и Google Search. Мы стремимся ответить на следующие исследовательские вопросы:

  1. Чем отличается поведение пользователей при использовании ChatGPT по сравнению с Google Search для задач поиска информации? Являются ли эти различия устойчивыми для разных типов поисковых задач?
  2. Выравнивает ли ChatGPT результаты поиска пользователей при разных уровнях образования?
  3. Как пользователи воспринимают качество информации, доверие и пользовательский опыт ChatGPT по сравнению с традиционными поисковыми системами, такими как Google Search?

Для эксперимента разработаны два поисковых инструмента, воссоздающих функции и интерфейсы ChatGPT и Google Search соответственно. Мы набираем участников через платформу Prolific (https://www.prolific.co/) и случайным образом назначаем им один из наших инструментов для выполнения трёх задач информационного поиска. После исключения недействительных ответов итоговая выборка включает 95 участников: 48 в группе ChatGPT и 47 в группе Google Search. Результаты показывают, что участники, использующие ChatGPT, стабильно тратят меньше времени на все задачи. Однако общая результативность выполнения задач существенно не различается между двумя инструментами. Примечательно, что ChatGPT демонстрирует более высокие результаты для задач с прямыми вопросами, но хуже справляется с задачами проверки фактов, где мы наблюдаем, что ChatGPT часто не способен исправлять ошибки в пользовательском запросе. Мы также обнаруживаем, что ChatGPT выравнивает эффективность поиска пользователей при разном уровне образования, тогда как результативность поиска в Google Search положительно коррелирует с уровнем образования. Участники воспринимают ответы ChatGPT как обладающие более высоким качеством информации по сравнению с информацией, получаемой через Google Search, несмотря на сопоставимый уровень доверия к обоим инструментам. Кроме того, пользователи в группе ChatGPT сообщают о значительно лучшем пользовательском опыте с точки зрения полезности, удовольствия и удовлетворённости при сопоставимом уровне воспринимаемой простоты использования.

Будучи первым эмпирическим исследованием, систематически сравнивающим ChatGPT с традиционными поисковыми системами, такими как Google Search, эта работа вносит ряд существенных вкладов в академическую литературу по поиску информации и взаимодействию человека с компьютером. Изучая различия в поведении пользователей при использовании поисковых систем по сравнению с инструментами чат-ботов, исследование проясняет, как пользователи адаптируют свои стратегии поиска информации к аффордансам этих различающихся технологий. Далее, наше изучение того, выравнивает ли ChatGPT результаты поиска пользователей при разных уровнях образования, обогащает литературу о «цифровом разрыве», демонстрируя демократизирующие эффекты продвинутых чат-ботов на базе ИИ. Наконец, оценивая восприятие пользователями качества информации, доверия и пользовательского опыта в ChatGPT по сравнению с традиционными поисковыми системами, исследование расширяет наше понимание пользовательских установок и предпочтений в стремительно развивающемся ландшафте технологий извлечения информации. Важно, что полученные инсайты информируют дальнейшую разработку крупных языковых моделей (LLM) и поисковых технологий, предлагая ценные ориентиры для создания более эффективных и ориентированных на пользователя инструментов в этой области.

Обзор литературы

Наше исследование направлено на проведение рандомизированного онлайн-эксперимента для детального анализа различий в результативности поиска и пользовательском опыте при использовании ChatGPT и поисковой системы Google для извлечения информации. С этой целью мы выполняем тщательный обзор последних работ, касающихся ChatGPT, а также предыдущих исследований по информационному поиску и экспериментальных дизайнов с участием пользователей поиска.

ChatGPT и его влияние

Недавние достижения в области крупных языковых моделей (LLM), таких как ChatGPT, вызвали значительный интерес из-за их потенциального влияния на различные сферы — в том числе исследовательскую, образовательную, финансовую и здравоохранение. Многие эксперты ожидают, что LLM радикально преобразят эти области и приведут к смене парадигмы. Одновременно возникли опасения относительно возможных проблем, связанных с LLM: галлюцинации, дезинформация, нарушения авторских прав, закрепление предвзятости на институциональном уровне, интерпретируемость, неверное применение и чрезмерная зависимость (Jo, 2023; Sohail и др., 2023; Susarla и др., 2023). Что касается будущего труда, Eloundou и соавт. (2023) исследуют потенциальное воздействие LLM на рынок труда США и предполагают, что такие LLM, как Generative Pre-trained Transforms, проявляют признаки технологий общего назначения (General-Purpose Technologies), что ведёт к значимым экономическим, социальным и политическим последствиям. Felten и соавт. (2023) представляют методологию оценки влияния языкового моделирования ИИ на различные профессии и отрасли. В частности, исследования учёных MIT показывают, что ChatGPT значительно повышает продуктивность при выполнении профессиональных задач по письму (Noy и Zhang, 2023).

В области академических исследований ChatGPT демонстрирует способность трансформировать исследовательские практики. Работы, опубликованные в престижных журналах, таких как Nature, сообщают, что ChatGPT помогает исследователям в анализе и написании научных статей, генерации кода и формировании идей (Dowling и Lucey, 2023; Hustson, 2023; Susarla и др., 2023; Van Dis и др., 2023).

В финансах ChatGPT проявил перспективность в прогнозировании динамики цен акций и улучшении эффективности количественных торговых стратегий (Lopez-Lira и Tang, 2023). Hansen и Kazinnik (2023) исследуют способность моделей GPT интерпретировать «федспик» (Fedspeak), в частности классифицировать заявления Федерального комитета по операциям на открытом рынке как «мягкие» (dovish) или «жёсткие» (hawkish). Wu и др. (2023) представляют BloombergGTP — крупную языковую модель с 50 миллиардами параметров, обученную как на универсальных, так и на специализированных финансовых наборах данных.

В контексте информационного поиска существует нехватка исследований, изучающих, как ChatGPT влияет на поведение пользователей при поиске информации по сравнению с традиционными поисковыми системами. Насколько нам известно, два медицинских исследования сравнивали ответы на вопросы, связанные со здоровьем, сгенерированные ChatGPT и Google Search, и обнаружили, что ответы ChatGPT столь же ценны или даже ценнее, чем информация, предоставляемая Google (Hopkins и др., 2023; Van Bulck и Moons, 2023). Однако эти исследования ограничены по охвату и отражают мнения медицинских экспертов. Наше исследование отличается от них по нескольким направлениям. Во-первых, мы фокусируемся на задачах общего профиля, а не медицинского. Во-вторых, мы проводим рандомизированный онлайн-эксперимент с участием большого числа респондентов, которые самостоятельно выполняют поиск и формулируют собственные запросы. Мы также собираем мнения и отношения этих пользователей поиска к обоим инструментам. Наконец, мы включаем объективную оценку результативности пользовательского поиска как в ChatGPT, так и в Google Search.

Поиск информации: прошлое и настоящее

Интернет-технологии поиска развиваются более 30 лет, начиная с создания первых до-вебовых поисковых систем в начале 1990-х (Gasser, 2006). В этом разделе мы стремимся кратко рассмотреть технологии поиска, обозначив ключевые этапы их эволюции.

Первая поисковая система — Archie — была создана в 1990 году для загрузки списков каталогов с FTP-сайтов и формирования базы имён файлов, удобной для поиска (Gasser, 2006). Вслед за появлением Всемирной паутины (1991) возникла волна новых поисковых систем — Gopher, Veronica и Jughead — призванных помочь пользователям ориентироваться в быстро расширяющейся сети. Эти ранние поисковики в основном опирались на индексирование и сопоставление по ключевым словам (Croft и др., 2010). В 1998 году Ларри Пейдж и Сергей Брин, аспиранты Стэнфорда, разработали алгоритм PageRank, ранжирующий веб-страницы по числу и качеству внешних ссылок на них (Brin и Page, 1998). Подход PageRank революционизировал поиск, обеспечив более релевантные и качественные результаты. Это нововведение заложило основу для создания Google, который стремительно стал доминирующей поисковой системой во всём мире, обрабатывающей миллиарды запросов в день. Наряду с Google популярны также Yahoo!, Bing, Baidu, Яндекс и др. Доминирующая парадигма для большинства поисковых систем — поиск по ключевым словам: пользователь отправляет краткий запрос (например, список ключевых слов), а система возвращает релевантные результаты. Отбор документов производится главным образом на основе текстовых совпадений, ссылок или доменной информации (Brin и Page, 1998; Kleinberg, 1999; Pokorny, 2004).

Google последовательно повышает качество результатов и улучшает пользовательский опыт благодаря сериям запусков и обновлений. Помимо множества малых корректировок, поисковая система Google представила более 20 значимых алгоритмических апдейтов (Search Engine Journal, 2023). Одно из заметных обновлений — алгоритм Panda, внедрённый в 2011 году, который ввёл фактор качества контента как сигнал ранжирования. Panda оценивает такие параметры, как оригинальность, авторитетность и надёжность, чтобы определить качество веб-страниц (Goodwin, 2021). Машинное обучение играет ключевую роль в присвоении страницам оценок качества, согласующихся с человеческими суждениями. В 2012 году Google запустил алгоритм Penguin, дополнительно укрепив качество поиска. Это обновление нацелено на веб-спам: оно выявляет и понижает страницы, использующие «чёрные» техники линкбилдинга для искусственного роста позиций (Schwartz, 2016). Наказывая подобные манипуляции, Penguin стремился гарантировать приоритет высококачественного и релевантного контента в поисковой выдаче.

Современные технологии поиска используют искусственный интеллект и графы знаний. Так, ещё в 2012 году Google объявил о Google Knowledge Graph, охватывающем широкий спектр предметных областей, и применил его для более «умного» поиска, предоставляя мгновенные ответы на запросы пользователей (Google, 2012). Алгоритм Google Hummingbird, запущенный в 2013 году, — это система на базе ИИ, которая помогает понимать контекст и смысл поисковых запросов. Hummingbird вышел за рамки простого сопоставления ключевых слов запроса с ключевыми словами на странице: он стал точнее подбирать документы, близкие к сущностной теме запроса (Montti, 2022). Кроме того, Hummingbird позволяет обрабатывать более длинные разговорные запросы.

Потенциал генеративного ИИ радикально преобразовать информационный поиск огромен благодаря высокой эффективности в понимании естественного языка. Однако многое ещё предстоит выяснить о том, как эта передовая технология влияет на результативность поиска и пользовательский опыт. Понимание этих эффектов критично для полного раскрытия потенциала генеративного ИИ в улучшении UX информационного поиска. В настоящем исследовании мы углубляемся в эту область и стремимся дать всестороннее сравнение традиционных поисковых систем и ChatGPT, высветив их соответствующие сильные стороны и возможности.

Экспериментальный дизайн для пользователей поиска

Чтобы изучить, как пользователи взаимодействуют с поисковыми системами при решении различных поисковых задач и как усовершенствованный дизайн поисковой системы улучшает пользовательскую результативность, исследователи часто используют экспериментальные методы, имитирующие реалистичные сценарии поиска. Эти методы позволяют наблюдать и анализировать поведение и показатели поиска пользователей в контролируемых экспериментальных условиях (например, Adipat и др., 2011; Liu и др., 2020; Sagar и др., 2019; Storey и др., 2008). В нашем исследовании мы опираемся на эти работы, спроектировав набор поисковых задач для эксперимента. Мы варьируем сложность задач, беря вдохновение из исследований Wildemuth и Freund (2004) и Liu и др. (2020). Кроме того, мы включаем широко используемые метрики для оценки результативности поиска и пользовательского опыта, в том числе затраченное время на поисковые задачи, успешность выполнения задач, воспринимаемое качество информации, удовлетворённость и другие показатели (Sargar и др., 2019; Liu, 2021).

Экспериментальный дизайн и данные

Мы используем межгрупповой дизайн с двумя условиями (чат-бот на базе LLM против традиционной поисковой системы) в онлайн-эксперименте, где участники случайным образом распределяются по одному из двух условий. Для этого мы разработали два веб-инструмента: один имитирует ChatGPT, другой — Google Search.

Чтобы обеспечить реалистичный пользовательский опыт, мы максимально точно воспроизвели интерфейсы ChatGPT и Google Search. На рисунках 1 и 2 представлены скриншоты интерфейсов каждого из инструментов. Для инструментa чат-бота мы используем Chat Completion API OpenAI (https://platform.openai.com/docs/api-reference/chat) и модель gpt-3.5-turbo для генерации ответов на пользовательские запросы. И пользовательские запросы, и ответы API отображаются на одной веб-странице для каждой сессии чата. Чат-бот сохраняет память о нескольких последних раундах запросов и ответов, что позволяет вести естественный диалог.

Для инструмента поисковой системы мы применяем Google Custom Search JSON API (https://developers.google.com/custom-search/v1/overview) для обработки поисковых запросов. Результаты поиска отображаются на отдельных страницах, каждая из которых содержит не более 10 элементов результатов. Чтобы отслеживать поведение пользователей в поиске, каждому участнику предоставляется заранее созданная учётная запись. Участники должны войти в назначенную им учётную запись и использовать соответствующий инструмент для выполнения своих задач. Для инструмента ChatGPT мы записываем каждый пользовательский запрос и соответствующий ответ, сгенерированный моделью GPT-3.5. Для инструмента Google Search мы фиксируем каждый отправленный поисковый запрос, различные просмотры страниц результатов по одному и тому же запросу и любые клики по элементам результатов. Метки времени этих пользовательских действий и действий API также записываются.

Мы набираем 112 участников через платформу Prolific, применяя критерии отбора: местонахождение в США и английский как родной язык. Участники также должны использовать настольные компьютеры для прохождения исследования. Затем они случайным образом распределяются в группу ChatGPT или Google Search для участия в эксперименте. Участникам предписывается использовать назначенный инструмент для выполнения трёх задач, использование любых других инструментов строго запрещено. Кроме того, мы требуем, чтобы участники не полагались на собственные знания при формулировании ответов. Мы также просим участников фиксировать время, затраченное на каждую задачу, с помощью таймера. Чтобы убедиться, что участники чётко понимают требования и инструкции, перед началом основных заданий мы включаем два вопроса на проверку понимания. Дополнительно участники, не прошедшие проверки внимания в ходе процесса, исключаются из нашей выборки. Итоговая выборка включает 95 участников: 48 использовали инструмент ChatGPT и 47 — инструмент Google Search.

Мы проектируем три задачи с различным уровнем сложности, опираясь на предыдущие исследования экспериментирования с пользователями поиска. В частности, Задача 1 представляет собой конкретный вопрос: участникам предлагается найти «имя первой женщины, совершившей полёт в космос, и её возраст на момент полёта» (Wildemuth и Freund, 2004). В Задаче 2 участникам нужно перечислить пять веб-сайтов со ссылками, которые можно использовать для бронирования авиабилета между двумя городами (Финикс и Цинциннати) в США. Задача 3 — проверка фактов: мы просим участников прочитать отрывок новостной статьи и проверить три выделенных курсивом утверждения: (1) «Конференция ООН по изменению климата 2009 года, широко известная как Копенгагенский саммит, проходила в Копенгагене (Дания) с 7 по 15 декабря»; (2) «В последний день конференции климатический саммит ООН достиг слабого наброска глобального соглашения в Копенгагене, что существенно не соответствовало ожиданиям Великобритании и многих бедных стран»; и (3) «Соединённые Штаты подверглись значительной критике со стороны многочисленных наблюдателей, так как прибыли на переговоры с предложением всего лишь 6-процентного сокращения выбросов относительно уровней 1990 года». Участники должны указать, является ли каждое утверждение «Истиной» или «Ложью», и при необходимости предоставить подтверждающие доказательства или исправления. Дизайн Задачи 3 вдохновлён предыдущим исследованием Liu и др. (2020), однако конкретные детали разработаны с нуля.

Каждому участнику предоставляются ссылка на случайно назначенный инструмент, а также имя пользователя и пароль для его использования. Получив результаты в инструменте, они должны внести свои ответы на веб-страницу нашего исследования, размещённую в Qualtrics. Впоследствии мы проверяем точность представленных ответов, чтобы оценить результативность поиска участников. Для Задач 1 и 3 существуют стандартные ответы. Хотя для Задачи 2 возможны множество корректных ответов, каждый ответ несложно проверить, посетив предоставленные ссылки и удостоверившись в их содержимом. Для этого мы привлекаем двух научных ассистентов (RA), которые вручную и независимо проверяют, указывает ли каждая представленная ссылка в Задаче 2 на сайт бронирования авиабилетов, является ли она валидной веб-ссылкой, ведёт ли только на главную страницу, либо отображает ли перелёт между Финиксом и Цинциннати. В случаях расхождений между двумя ассистентами один из соавторов выступает арбитром и выносит окончательное решение.

После завершения заданий мы просим участников заполнить анкету и собираем их оценки простоты использования, полезности, удовольствия и удовлетворённости от работы с инструментом. Мы также собираем их оценку воспринимаемого качества информации в ответах инструмента и доверия к использованию инструмента. Кроме того, мы проверяем корректность манипуляции, задавая вопросы о характеристиках назначенного инструмента. В конце анкеты мы собираем фоновую информацию об участниках (например, возраст, пол, уровень образования и т. п.), их предыдущий опыт работы с ChatGPT и поисковыми системами, а также их предварительные знания по темам заданных поисковых задач. Подробные измерения представлены в Приложении.

Результаты

В этом разделе мы представляем результаты эксперимента на основе анализа ответов участников по задачам, анкет и поведения при поиске, зафиксированного серверными логами. В таблице 1 приведены результаты проверок манипуляции и рандомизации. Таблица 2 содержит сравнения между двумя экспериментальными группами (ChatGPT против Google Search) по эффективности поиска, усилиям, результативности и пользовательскому опыту. Для оценки значимости различий между группами применяется дисперсионный анализ (ANOVA).

Проверка манипуляции и рандомизации

Сначала мы выполняем проверку манипуляции, чтобы убедиться, что манипуляция была успешно реализована и наш экспериментальный дизайн валиден. Как показано в панели A таблицы 1, участники из группы ChatGPT считают, что они используют инструмент, существенно отличающийся от традиционной поисковой системы и имеющий разговорный интерфейс (5,61 против 4,64; p<0,05). Вопросы проверки манипуляции используют 7-балльную шкалу, где более высокие значения указывают на убеждённость участников в том, что использованный в задаче поисковый инструмент имеет разговорный интерфейс и отличается от традиционных поисковых систем.

Поскольку некоторые участники не прошли проверки внимания и, следовательно, были исключены из выборки, мы также проверяем валидность рандомизации для итоговой выборки, сравнивая демографические характеристики участников (возраст, пол, уровень образования, занятость), предварительные знания по темам и предыдущий опыт с соответствующими технологиями. Результаты в панели B таблицы 1 подтверждают отсутствие значимых различий между двумя группами по этим параметрам.

Эффективность поиска<

Мы начинаем с сравнения двух инструментов по эффективности поиска участников, измеряемой как время, затраченное на каждую задачу (включая ввод ответов) и на использование инструмента. Панель A таблицы 2 показывает результаты сравнений между двумя экспериментальными группами. Примечательно, что мы используем два подхода к измерению времени: самоотчёты участников о времени выполнения задач и объективное время использования инструмента, извлечённое из серверных логов.

Согласно самоотчётам, в среднем участникам из группы ChatGPT требуется 11,35 минуты для выполнения трёх задач, тогда как участникам из группы Google Search — 18,75 минуты (то есть на 65,20% больше). По всем трём задачам группа ChatGPT стабильно тратит существенно меньше времени на каждую задачу, чем группа Google Search. Все эти различия статистически значимы на уровне 1%.

Далее мы анализируем серверные логи двух инструментов, чтобы объективно вычислить время, затраченное на каждую задачу. Для группы ChatGPT время поиска измеряется как интервал от первого пользовательского запроса до получения последнего ответа от API ChatGPT. Для инструмента Google Search мы используем длительность между первым пользовательским запросом и последним кликом, чтобы зафиксировать затраченное время. Если за последним запросом не следует ни одного клика, конечным временем считается последний запрос пользователя. Следует отметить, что хотя меры на основе серверных логов более объективны, они, вероятно, занижают фактическое время использования инструмента, поскольку лог не фиксирует точный момент завершения задания участником или выхода из инструмента. Кроме того, показатели по логам, вероятно, не включают время на уточнение ответов и заполнение анкеты. В силу этого время, рассчитанное по серверным логам, относительно меньше времени, указанного самими участниками. Тем не менее мы используем это время, извлечённое из логов, в качестве альтернативной меры для перекрёстной проверки эффективности поиска между инструментами, дополняя самоотчёты участников. Результаты в нижней части панели A таблицы 2 указывают на устойчивую картину: время, затраченное при работе с ChatGPT, существенно меньше, чем при работе с Google Search, по всем трём задачам.

Мы объясняем наблюдаемую разницу в эффективности поиска между ChatGPT и Google Search отличиями в способах, которыми пользователи взаимодействуют с этими инструментами и получают информацию. При использовании Google Search пользователям необходимо самостоятельно формулировать поисковые запросы, часто проходя через процесс проб и ошибок, чтобы найти наиболее релевантные результаты. Это может быть трудозатратно, поскольку приходится просматривать результаты поиска и порой полагаться на удачу, чтобы найти нужную информацию. Напротив, ChatGPT позволяет пользователям просто задавать вопрос на естественном языке, упрощая процесс поиска. ChatGPT затем предоставляет суммарный ответ на вопрос пользователя, устраняя необходимость в дополнительном исследовании или чтении. Этот более прямой способ получения информации позволяет пользователям находить ответы эффективнее, что приводит к существенно меньшим затратам времени в группе ChatGPT по сравнению с группой Google Search. Примечательно, что наши данные по серверным логам показывают: среднее время на Задачу 1 и Задачу 2 при использовании инструмента ChatGPT составляет менее одной минуты, что свидетельствует о том, что участники сделали лишь ограниченное число запросов и смогли получить ответы непосредственно от ChatGPT. Это ещё раз подчёркивает эффективность ChatGPT в предоставлении мгновенных ответов, особенно в поисковых задачах с конкретными и чёткими информационными потребностями.

Усилия при поиске

Мы анализируем пользовательские подсказки (prompts) и поисковые запросы из серверных логов, чтобы понять, как пользователи взаимодействуют с чат-ботом на базе ИИ и поисковой системой. В частности, мы фокусируемся на том, как участники формулируют запросы в ходе выполнения поисковых задач, что отражается в среднем числе запросов на каждую задачу и средней длине запросов. Результаты, представленные в панели B таблицы 2, показывают, что участники в группе ChatGPT используют сопоставимое число запросов по трём задачам с участниками в группе Google Search, однако средняя длина запросов в группе ChatGPT статистически значимо больше.

По числу запросов участники группы ChatGPT используют существенно меньше запросов (т. е. пользовательских подсказок), чтобы выполнить первую задачу, по сравнению с участниками группы Google Search (1,55 против 2,13; p<0,01). В задаче 2, хотя участники группы ChatGPT по-прежнему используют относительно меньше запросов, разница невелика и на грани значимости на уровне 10%. Задача 2 включает составление списка веб-сайтов со ссылками — это тип задачи, с которым Google справляется особенно хорошо. Поэтому участники обеих групп могут завершить задачу с минимальными усилиями, в среднем используя менее двух запросов. Напротив, для более сложной задачи 3 значимой разницы между двумя инструментами нет, хотя участники группы ChatGPT делают немного больше запросов, чем участники группы Google Search.

Что касается длины запросов, наши результаты свидетельствуют, что пользователи ChatGPT формулируют заметно более длинные запросы в поисковых задачах по сравнению с пользователями Google Search. Показано, что длина запросов у участников группы ChatGPT стабильно больше по всем трём задачам, чем у участников группы Google Search. Вероятно, это связано с тем, что ChatGPT спроектирован для ведения естественного языкового диалога с пользователями. В отличие от Google Search, который подразумевает краткий и ёмкий ввод ключевых слов, ChatGPT допускает более разговорное взаимодействие. Вследствие этого пользователям может быть комфортнее использовать более длинные, «естественные» запросы, добавляя контекст и детали к своим вопросам при работе с ChatGPT. Наши результаты подчёркивают необходимость адаптации поисковых привычек пользователями из-за уникальной разговорной парадигмы поиска, которую использует ChatGPT, в отличие от ориентированного на ключевые слова дизайна традиционных поисковых систем.

Результативность поиска

Для оценки результативности поиска мы оцениваем ответ каждого участника на каждую задачу по шкале с суммарным максимумом 10 баллов. У каждой задачи в нашем эксперименте есть объективно правильные ответы. Например, корректные ответы для задачи 1: Валентина Терешкова (имя первой женщины, побывавшей в космосе) и 26 лет (её возраст на момент полёта). Участники получают по 5 баллов за каждый правильный ответ, набирая максимум 10 баллов, если оба ответа верны. Аналогично, в задаче 2 участник может получить по 2 балла за каждый корректный ответ из пяти сайтов со ссылками. В задаче 3 участникам требуется проверить три утверждения и привести доказательства. Мы присваиваем каждому проверяемому пункту одинаковый вес, так что участники получают по 10/3 балла за каждый правильный ответ. Такая система оценивания позволяет эффективно сравнивать результативность поиска между группами ChatGPT и Google Search.
Панель C таблицы 2 показывает результаты сравнения по результативности поиска. В среднем участники группы ChatGPT набирают суммарно 8,55 балла, тогда как участники группы Google Search — 8,77 балла. Разница между группами составляет всего −0,22 и статистически незначима на уровне 10%. Эти результаты примечательны с учётом того, что группа Google Search тратит на 65,2% больше времени (как показано ранее), чтобы достичь того же уровня результативности. Следствия существенны: это указывает, что ChatGPT может заметно повышать продуктивность пользователей при поиске при сохранении того же уровня выполнения задач.

Хотя итоговая результативность между группами в целом существенно не различается, детальное сравнение выявляет вариации по отдельным задачам. Примечательно, что в задаче 1 все участники, использующие ChatGPT, получают максимальные баллы, демонстрируя лучшую результативность и указывая на высокую эффективность ChatGPT в извлечении фактов. Напротив, пользователи Google Search допускают несколько ошибок, их средний балл — 8,19. Разница в 1,81 статистически значима на уровне 1%. Хотя первая выдача Google содержит правильный ответ для задачи 1, участникам всё же приходится читать страницу результата, чтобы найти нужную информацию. Из-за упоминания на странице нескольких имён участники нередко ошибочно выбирают неверное. В итоге в задаче 1 группа ChatGPT показывает значимо лучшую результативность, чем группа Google Search.

Мы далее анализируем результативность задач между группами на разных уровнях образования. Показательно, как иллюстрирует рисунок 3, что у участников с учёной степенью PhD нет значимой разницы в ответах на задачу 1 вне зависимости от использования ChatGPT или Google Search. Однако результативность пользователей Google Search с другими образовательными бэкграундами стабильно ниже, чем у пользователей ChatGPT. Это согласуется с недавними выводами Noy и Zhang (2023), согласно которым ChatGPT способствует снижению неравенства между работниками, принося больший выигрыш менее подготовленным. В нашем исследовании участники демонстрируют одинаковую результативность в задаче 1 вне зависимости от уровня образования при использовании ChatGPT, тогда как результативность пользователей Google Search в значительной степени зависит от их образовательного уровня. На основании рисунка 3 мы заключаем, что использование Google Search, как правило, сложнее для пользователей с более низким уровнем образования.

Мы не наблюдаем значимой разницы в результатах между группами в задаче 2. Поскольку задача 2 требует списка сайтов и ссылок, важно отметить, что дефолтный вывод Google Search — это именно список релевантных сайтов и ссылок, в то время как ChatGPT особенно силён в предоставлении суммаризованных ответов. В результате оба инструмента демонстрируют сопоставимо высокую результативность, что видно по средним баллам, близким к максимуму (соответственно 9,81 и 9,74). При более тщательном разборе ссылок мы обнаруживаем, что большинство ссылок, предоставленных участниками группы ChatGPT, указывают на главные страницы сайтов бронирования авиабилетов, тогда как сайты, предоставленные участниками группы Google Search, чаще ведут непосредственно на страницы с рейсами между двумя городами (т. е. из Финикса в Цинциннати), как того требует задача. Если принять в качестве критерия оценивания ответы, указывающие точный пункт вылета и назначения, группа Google Search показывает значительно лучшие результаты, чем группа ChatGPT (8,88 против 5,00; p<0,01). Учитывая, что пользователям обычно нужно задавать в Google Search более конкретные ключевые слова, это чаще приводит к таргетированным и точным результатам по сравнению с более общими ответами ChatGPT. Мы также рассматриваем распределения результативности с учётом образовательных уровней участников. Как показано на рисунке 4, значимых различий между группами на разных уровнях образования не наблюдается. Отметим, что участники с магистерской и докторской степенью достигают максимальных баллов в обеих группах.

В противоположность этому, в задаче 3 (проверка фактов) результативность пользователей из группы ChatGPT существенно хуже, чем у пользователей Google Search (5,83 против 8,37; p<0,01). Анализ ответов ChatGPT показывает, что он часто следует формулировке исходного запроса, воспроизводя неточности в последующих ответах. Например, если ввести запрос: «Верно или неверно следующее утверждение? “Конференция ООН по изменению климата 2009 года, широко известная как Копенгагенский саммит, проходила в Копенгагене (Дания) с 7 по 15 декабря.”», ChatGPT отвечает: «Утверждение верно. Конференция действительно проходила в Копенгагене, Дания, с 7 по 15 декабря». Точные даты конференции — с 7 по 18 декабря. Удивительно, но после изменения запроса на «Когда проходила конференция ООН по изменению климата 2009 года?» ChatGPT даёт правильный ответ. Более того, участники, как правило, проявляют недостаточную тщательность при работе с ChatGPT и менее мотивированы дополнительно проверять и исправлять дезинформацию в его ответах. По нашим наблюдениям, 70,8% участников группы ChatGPT демонстрируют чрезмерную зависимость от ответов ChatGPT, отвечая «Истина» на первое утверждение. При оценке правильности третьего утверждения в задаче 3 мы наблюдаем, что ChatGPT склонен давать непоследовательные ответы на один и тот же запрос при нескольких прогонах. Кроме того, хотя он иногда распознаёт утверждение как неправильное, не удаётся предоставить точную информацию (т. е. конкретный процент сокращения выбросов). Аналогично задачам 1 и 2, мы анализируем распределения результативности задачи 3 по уровням образования. Как видно на рисунке 5, участники группы ChatGPT стабильно показывают более низкую результативность, чем пользователи Google Search, на всех уровнях образования. Результативность группы ChatGPT не зависит от образования участников. Напротив, результативность с Google Search положительно связана с уровнем образования: пользователи с более высоким уровнем образования демонстрируют большую компетентность в использовании Google Search для исправления ошибок в задаче проверки фактов.

Пользовательский опыт

Данные анкеты дополнительно подтверждают изложенные выше аргументы. Наши результаты в панели D таблицы 2 показывают, что участники группы ChatGPT воспринимают качество информации в ответах как значительно более высокое по сравнению с группой Google Search (5,90 против 4,62; p<0,01). ChatGPT предоставляет организованные ответы полными предложениями на пользовательские запросы, что потенциально делает информацию более доступной. Однако мы не выявляем значимой разницы в уровне доверия участников к использованию двух инструментов. Участники склонны принимать ответы «как есть» и не проявляют выраженной склонности критически оценивать источники информации в обоих инструментах. Хотя уровень доверия к обоим инструментам схож, пользователям Google Search, как правило, приходится прилагать больше усилий и тратить дополнительное время на просмотр веб-страниц, чтобы найти релевантную информацию. Поэтому их воспринимаемое качество информации ниже. Напротив, удобство ChatGPT может демотивировать участников от дальнейшего изучения и проверки информации в его ответах, что приводит к худшим результатам в задачах по проверке фактов. Кроме того, участники группы ChatGPT считают инструмент более полезным и приятным и выражают большую удовлетворённость по сравнению с участниками группы Google Search. Воспринимаемая простота использования относительно выше в группе ChatGPT, чем в группе Google Search, но разница незначима на уровне 5%. Это может объясняться существующей привычностью людей к Google, а также тем, что задачи в нашем эксперименте не представляли для них большой сложности.

Обсуждение и заключение

Настоящее исследование предоставляет всестороннее сравнение результативности поиска и пользовательского опыта между ChatGPT и Google Search. Путём проведения рандомизированного онлайн-эксперимента работа выявляет компромиссы между разговорной природой ChatGPT и форматом списочной выдачи традиционных поисковых систем, таких как Google. С одной стороны, использование ChatGPT демонстрирует существенный прирост эффективности, позволяя пользователям выполнять задачи за меньшее время, и способствует более благоприятному пользовательскому опыту. С другой стороны, важно отметить, что ChatGPT не всегда превосходит традиционные поисковые системы. Хотя ChatGPT силён в генерации ответов на прямые вопросы и предложении общих решений, эта удобство может непреднамеренно препятствовать дальнейшему углублению и выявлению дезинформации в его ответах. Результаты опроса дополнительно подтверждают, что люди считают информацию, генерируемую ChatGPT, более качественной и доступной, чем Google Search, при сопоставимом уровне доверия к обоим результатам. Примечательно, что наши результаты указывают на «выравнивающий» эффект ChatGPT на результативность пользователей независимо от их образовательного бэкграунда, тогда как пользователи с более высоким уровнем образования демонстрируют большую компетентность при работе с Google Search.

По мере того как пользователи всё чаще ищут более эффективные и удобные инструменты поиска, интеграция разговорных систем на базе ИИ, таких как ChatGPT, может существенно повлиять на рынок поисковых систем. Бизнесу и провайдерам поиска следует учитывать преимущества и недостатки внедрения систем поиска на базе чата, чтобы улучшать эффективность, результативность и пользовательский опыт. Будущие исследования должны изучать иные типы поисковых задач и глубже понимать, как пользователи взаимодействуют с разговорными ИИ-системами по-другому, чем с традиционными поисковыми системами. Важно также исследовать долгосрочные эффекты внедрения таких систем на поведение при поиске и на рынок поисковых систем. Наконец, в будущих работах можно изучить интеграцию функций чата и поиска и выявить оптимальный баланс между разговорными и ключевыми (keyword-based) подходами.

Список литературы

  1. Adipat, B., Zhang, D., Zhou, L. (2011). «Влияние адаптации представления на основе древовидного вида на мобильный веб-просмотр». MIS Quarterly (35:1), с. 99–121.
  2. Brin, S., Page, L. (1998). «Анатомия крупномасштабной гипертекстовой веб-поисковой системы». Computer Networks and ISDN Systems (30), с. 107–117.
  3. Croft, W. B., Metzler, D., Strohman, T. (2010). Поисковые системы: информационный поиск на практике (т. 520, с. 131–141). Рединг: Addison-Wesley.
  4. Dowling, M., Lucey, B. (2023). «ChatGPT для (финансовых) исследований: гипотеза Bananarama». Finance Research Letters, 53, 1–6.
  5. Eloundou, T., Manning, S., Mishkin, P., Rock, D. (2023). «GPT — это GPT: предварительный взгляд на потенциальное влияние больших языковых моделей на рынок труда». arXiv:2303.10130. Рабочая версия.
  6. Felten, E. W., Raj, M., Seamans, R. (2023). «Как языковые моделирующие системы вроде ChatGPT повлияют на профессии и отрасли?» Рабочая версия.
  7. Gasser, U. (2005). «Регулирование поисковых систем: итоги и перспективы». Yale Journal of Law & Technology, 8, 201.
  8. Goodwin (2021). «Полное руководство по обновлению Google Panda: 2011–21». Search Engine Journal. Доступ: 25 июня 2023 г.
  9. Google (2012). «Представляем Knowledge Graph: вещи, а не строки». https://googleblog.blogspot.com/2012/05/introducing-knowledge-graph-things-not.html
  10. Hansen, A. L., Kazinnik, S. (2023). «Сможет ли ChatGPT расшифровать “федспик”?» Рабочая версия.
  11. Hopkins, A. M., Logan, J. M., Kichenadasse, G., Sorich, M. J. (2023). «Чат-боты на базе ИИ радикально изменят доступ онкопациентов к информации: ChatGPT — сдвиг парадигмы». JNCI Cancer Spectrum, 7(2), 1–3.

  12. Hutson, M. (2022). «Может ли ИИ помочь вам написать следующую научную статью?» Nature, 611(7934), 192–193.
  13. Jo, A. (2023). «Обещания и риски генеративного ИИ». Nature, 614(1), 214–216.
  14. Kleinberg, J. M. (1999). «Авторитетные источники в гиперсвязанной среде». Journal of the ACM (46:5), с. 604–632.
  15. Liu, J. (2021). «Деконструкция поисковых задач в интерактивном информационном поиске: систематический обзор измерений задач и предикторов». Information Processing & Management, 58(3), 1–17.
  16. Liu, J., Sarkar, S., Shah, C. (2020). «Идентификация и прогнозирование состояний сложных поисковых задач». В: Proceedings of the 2020 Conference on Human Information Interaction and Retrieval, с. 193–202.
  17. Lopez-Lira, A., Tang, Y. (2023). «Может ли ChatGPT прогнозировать движение цен акций? Предсказуемость доходности и большие языковые модели». arXiv:2304.07619. Рабочая версия.
  18. Microsoft (2023). «Переосмысление поиска с новым Microsoft Bing и Edge на базе ИИ — вашим copilотoм в интернете». https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-witha-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
  19. Montti (2022). «Обновление Google Hummingbird: как оно изменило поиск». Search Engine Journal. Доступ: 25 июня 2023 г.

  20. Noy, S., Zhang, W. (2023). «Экспериментальные доказательства влияния генеративного ИИ на продуктивность». Рабочая версия.
  21. Pokorný, J. (2004). «Веб-поиск и информационный поиск». Computing in Science & Engineering (6:4), с. 43–48.
  22. Reuters (2023). «Технологии OpenAI придают импульс Bing от Microsoft в борьбе за поиск с Google». https://www.reuters.com/technology/openai-tech-gives-microsofts-bing-boost-search-bat
  23. Schwartz (2016). «Google обновил Penguin: теперь он работает в реальном времени в рамках основного алгоритма поиска». Search Engine Land. Доступ: 25 июня 2023 г.
  24. Search Engine Journal (2023). «История обновлений алгоритма Google». Доступ: 25 июня 2023 г.
  25. Sohail, S. S., Farhat, F., Himeur, Y., Nadeem, M., Madsen, D. Ø., Singh, Y., Atalla, S., Mansoor, W. (2023). «Будущее GPT: таксономия существующих исследований ChatGPT, текущие вызовы и возможные направления». Рабочая версия.
  26. Storey, V. C., Burton-Jones, A., Sugumaran, V., Purao, S. (2008). «CONQUER: методология контекстно-зависимой обработки запросов в Всемирной паутине». Information Systems Research (19:1), с. 3–25.
  27. Susarla, A., Gopal, R., Thatcher, J. B., Sarker, S. (2023). «Эффект Януса в генеративном ИИ: маршрут к ответственному ведению научной деятельности в информационных системах». Information Systems Research, Articles in Advance, 1–10.
  28. Yahoo! Finance (2023). «Microsoft Bing — первая за десятилетия серьёзная угроза доминированию Google в поиске». https://finance.yahoo.com/news/microsofts-bing-is-the-first-threatto-googles-search-dominance-in-decades-210913597.html
  29. Van Dis, E. A., Bollen, J., Zuidema, W., van Rooij, R., Bockting, C. L. (2023). «ChatGPT: пять приоритетов для исследований». Nature, 614(7947), 224–226.
  30. Wu, S., Irsoy, O., Lu, S., Dabravolski, V., Dredze, M., Gehrmann, S., Kambadur, P., Rosenberg, D., Mann, G. (2023). «BloombergGPT: крупная языковая модель для финансов». arXiv:2303.17564. Рабочая версия.
  31. Van Bulck, L., Moons, P. (2023). «Что если ваш пациент перейдёт от доктора Google к доктору ChatGPT? Исследование на основе виньеток об уровне доверия, ценности и рисках ответов ChatGPT на медицинские вопросы». European Journal of Cardiovascular Nursing, 00, 1–4.

Авторы

Жуйюнь (Райна) Сюй, Юэ (Кэтрин) Фэн и Хайлян Чэнь*

* Сюй работает на кафедре информационных систем и аналитики в Farmer School of Business, Miami University, Оксфорд, штат Огайо, США. Фэн работает на кафедре менеджмента и маркетинга, Business Faculty, Hong Kong Polytechnic University, Гонконг. Чэнь работает на кафедре исследований искусственного интеллекта, Business and Economic Faculty, Hong Kong University, Гонконг. Электронная почта: xur29@miamioh.edu, katherine.feng@polyu.edu.hk и chen19@hku.hk. Все авторы внесли равный вклад.

Июль 2023 г.

Приложения

Таблица 1. Проверка манипуляции и рандомизации

Таблица 1. Проверка манипуляции и рандомизации
Показатель ChatGPT
(48 участников)
Google Search
(47 участников)
Разница
(ChatGPT − Google)
F-статистика
Панель A. Проверка манипуляции
Воспринимаемые характеристики назначенного инструмента 5.61 4.64 0.98 6.77**
Панель B. Проверка рандомизации
Возраст 3.00 3.23 −0.23 1.88
Пол 1.40 1.30 0.10 0.72
Уровень образования 2.79 2.74 0.05 0.05
Статус занятости 2.13 1.85 0.27 0.84
Знакомство с тематиками заданий 3.56 4.09 0.52 1.97
Предыдущий опыт использования поисковых систем 4.98 4.98 0.00 0.00
Частота использования поисковых систем 1.08 1.17 −0.09 1.17
Самооценка навыка поиска 3.00 2.98 0.02 1.02
Предыдущий опыт работы с ChatGPT 2.83 3.32 −0.49 1.68
Примечания.
(1) Для проверки различий между двумя группами используется дисперсионный анализ (ANOVA).
(2) Уровни значимости: *** p < 0,01; ** p < 0,05; * p < 0,1.

Таблица 2. Сравнение результативности, поведения и UX

Таблица 2. Сравнения результативности поиска, поведения и пользовательского опыта
Показатель ChatGPT
(48 участников)
Google Search
(47 участников)
Разница
(ChatGPT − Google)
F-статистика
Панель A. Эффективность поиска
Самоотчёт о времени выполнения (мин)
Общее время для трёх задач 11.35 18.75 −7.40 26.88***
Время на задачу 1 1.83 3.37 −1.54 18.09***
Время на задачу 2 2.40 3.61 −1.20 7.22***
Время на задачу 3 7.12 11.78 −4.66 22.86***
Время, проведённое в инструменте поиска (мин)
Общее время для трёх задач 5.79 14.95 −9.15 34.81***
Время на задачу 1 0.34 2.42 −2.08 22.11***
Время на задачу 2 0.52 2.78 −2.26 40.39***
Время на задачу 3 4.93 9.81 −4.88 14.06***
Панель B. Усилия при поиске
Общее число запросов по трём задачам 7.36 8.13 0.77 1.30
Число запросов (задача 1) 1.55 2.13 −0.58 7.13***
Число запросов (задача 2) 1.30 1.65 −0.35 3.39*
Число запросов (задача 3) 4.51 4.35 0.16 0.09
Средняя длина запроса по трём задачам 37.54 12.05 25.49 27.59***
Длина запроса (задача 1) 13.50 9.90 3.60 12.84***
Длина запроса (задача 2) 18.43 6.11 12.32 156.63***
Длина запроса (задача 3) 80.72 19.82 60.90 18.74***
Панель C. Результативность поиска (макс. балл: 10)
Средний балл по трём задачам 8.55 8.77 −0.22 0.83
Балл за задачу 1 10.00 8.19 1.81 19.46***
Балл за задачу 2 9.81 9.74 0.07 0.14
Если оценивать ответы, указывающие на пункты назначения 5.00 8.88 −3.88 201.68***
Балл за задачу 3 5.83 8.37 −2.54 24.23***
Панель D. Пользовательский опыт
Воспринимаемое качество информации 5.90 4.62 1.27 15.85***
Доверие к технологии 5.38 5.30 0.07 0.46
Воспринимаемая простота использования 6.00 5.57 0.43 3.80*
Воспринимаемая полезность 6.19 5.30 0.89 10.10***
Воспринимаемая приятность использования 5.87 4.74 1.12 14.19***
Удовлетворённость 6.06 5.27 0.79 9.32***
Примечания.
(1) Для проверки различий между двумя группами используется дисперсионный анализ (ANOVA).
(2) Уровни значимости: *** p < 0,01; ** p < 0,05; * p < 0,1.
Еще больше полезного на нашем YouTube-канале
Подписаться
Читайте нашу книгу «Digital-маркетинг массового поражения. От основ до практических кейсов»