Наше исследование направлено на проведение рандомизированного онлайн-эксперимента для детального анализа различий в результативности поиска и пользовательском опыте при использовании ChatGPT и поисковой системы Google для извлечения информации. С этой целью мы выполняем тщательный обзор последних работ, касающихся ChatGPT, а также предыдущих исследований по информационному поиску и экспериментальных дизайнов с участием пользователей поиска.
ChatGPT и его влияние
Недавние достижения в области крупных языковых моделей (LLM), таких как ChatGPT, вызвали значительный интерес из-за их потенциального влияния на различные сферы — в том числе исследовательскую, образовательную, финансовую и здравоохранение. Многие эксперты ожидают, что LLM радикально преобразят эти области и приведут к смене парадигмы. Одновременно возникли опасения относительно возможных проблем, связанных с LLM: галлюцинации, дезинформация, нарушения авторских прав, закрепление предвзятости на институциональном уровне, интерпретируемость, неверное применение и чрезмерная зависимость (Jo, 2023; Sohail и др., 2023; Susarla и др., 2023). Что касается будущего труда, Eloundou и соавт. (2023) исследуют потенциальное воздействие LLM на рынок труда США и предполагают, что такие LLM, как Generative Pre-trained Transforms, проявляют признаки технологий общего назначения (General-Purpose Technologies), что ведёт к значимым экономическим, социальным и политическим последствиям. Felten и соавт. (2023) представляют методологию оценки влияния языкового моделирования ИИ на различные профессии и отрасли. В частности, исследования учёных MIT показывают, что ChatGPT значительно повышает продуктивность при выполнении профессиональных задач по письму (Noy и Zhang, 2023).
В области академических исследований ChatGPT демонстрирует способность трансформировать исследовательские практики. Работы, опубликованные в престижных журналах, таких как Nature, сообщают, что ChatGPT помогает исследователям в анализе и написании научных статей, генерации кода и формировании идей (Dowling и Lucey, 2023; Hustson, 2023; Susarla и др., 2023; Van Dis и др., 2023).
В финансах ChatGPT проявил перспективность в прогнозировании динамики цен акций и улучшении эффективности количественных торговых стратегий (Lopez-Lira и Tang, 2023). Hansen и Kazinnik (2023) исследуют способность моделей GPT интерпретировать «федспик» (Fedspeak), в частности классифицировать заявления Федерального комитета по операциям на открытом рынке как «мягкие» (dovish) или «жёсткие» (hawkish). Wu и др. (2023) представляют BloombergGTP — крупную языковую модель с 50 миллиардами параметров, обученную как на универсальных, так и на специализированных финансовых наборах данных.
В контексте информационного поиска существует нехватка исследований, изучающих, как ChatGPT влияет на поведение пользователей при поиске информации по сравнению с традиционными поисковыми системами. Насколько нам известно, два медицинских исследования сравнивали ответы на вопросы, связанные со здоровьем, сгенерированные ChatGPT и Google Search, и обнаружили, что ответы ChatGPT столь же ценны или даже ценнее, чем информация, предоставляемая Google (Hopkins и др., 2023; Van Bulck и Moons, 2023). Однако эти исследования ограничены по охвату и отражают мнения медицинских экспертов. Наше исследование отличается от них по нескольким направлениям. Во-первых, мы фокусируемся на задачах общего профиля, а не медицинского. Во-вторых, мы проводим рандомизированный онлайн-эксперимент с участием большого числа респондентов, которые самостоятельно выполняют поиск и формулируют собственные запросы. Мы также собираем мнения и отношения этих пользователей поиска к обоим инструментам. Наконец, мы включаем объективную оценку результативности пользовательского поиска как в ChatGPT, так и в Google Search.
Поиск информации: прошлое и настоящее
Интернет-технологии поиска развиваются более 30 лет, начиная с создания первых до-вебовых поисковых систем в начале 1990-х (Gasser, 2006). В этом разделе мы стремимся кратко рассмотреть технологии поиска, обозначив ключевые этапы их эволюции.
Первая поисковая система — Archie — была создана в 1990 году для загрузки списков каталогов с FTP-сайтов и формирования базы имён файлов, удобной для поиска (Gasser, 2006). Вслед за появлением Всемирной паутины (1991) возникла волна новых поисковых систем — Gopher, Veronica и Jughead — призванных помочь пользователям ориентироваться в быстро расширяющейся сети. Эти ранние поисковики в основном опирались на индексирование и сопоставление по ключевым словам (Croft и др., 2010). В 1998 году Ларри Пейдж и Сергей Брин, аспиранты Стэнфорда, разработали алгоритм PageRank, ранжирующий веб-страницы по числу и качеству внешних ссылок на них (Brin и Page, 1998). Подход PageRank революционизировал поиск, обеспечив более релевантные и качественные результаты. Это нововведение заложило основу для создания Google, который стремительно стал доминирующей поисковой системой во всём мире, обрабатывающей миллиарды запросов в день. Наряду с Google популярны также Yahoo!, Bing, Baidu, Яндекс и др. Доминирующая парадигма для большинства поисковых систем — поиск по ключевым словам: пользователь отправляет краткий запрос (например, список ключевых слов), а система возвращает релевантные результаты. Отбор документов производится главным образом на основе текстовых совпадений, ссылок или доменной информации (Brin и Page, 1998; Kleinberg, 1999; Pokorny, 2004).
Google последовательно повышает качество результатов и улучшает пользовательский опыт благодаря сериям запусков и обновлений. Помимо множества малых корректировок, поисковая система Google представила более 20 значимых алгоритмических апдейтов (Search Engine Journal, 2023). Одно из заметных обновлений — алгоритм Panda, внедрённый в 2011 году, который ввёл фактор качества контента как сигнал ранжирования. Panda оценивает такие параметры, как оригинальность, авторитетность и надёжность, чтобы определить качество веб-страниц (Goodwin, 2021). Машинное обучение играет ключевую роль в присвоении страницам оценок качества, согласующихся с человеческими суждениями. В 2012 году Google запустил алгоритм Penguin, дополнительно укрепив качество поиска. Это обновление нацелено на веб-спам: оно выявляет и понижает страницы, использующие «чёрные» техники линкбилдинга для искусственного роста позиций (Schwartz, 2016). Наказывая подобные манипуляции, Penguin стремился гарантировать приоритет высококачественного и релевантного контента в поисковой выдаче.
Современные технологии поиска используют искусственный интеллект и графы знаний. Так, ещё в 2012 году Google объявил о Google Knowledge Graph, охватывающем широкий спектр предметных областей, и применил его для более «умного» поиска, предоставляя мгновенные ответы на запросы пользователей (Google, 2012). Алгоритм Google Hummingbird, запущенный в 2013 году, — это система на базе ИИ, которая помогает понимать контекст и смысл поисковых запросов. Hummingbird вышел за рамки простого сопоставления ключевых слов запроса с ключевыми словами на странице: он стал точнее подбирать документы, близкие к сущностной теме запроса (Montti, 2022). Кроме того, Hummingbird позволяет обрабатывать более длинные разговорные запросы.
Потенциал генеративного ИИ радикально преобразовать информационный поиск огромен благодаря высокой эффективности в понимании естественного языка. Однако многое ещё предстоит выяснить о том, как эта передовая технология влияет на результативность поиска и пользовательский опыт. Понимание этих эффектов критично для полного раскрытия потенциала генеративного ИИ в улучшении UX информационного поиска. В настоящем исследовании мы углубляемся в эту область и стремимся дать всестороннее сравнение традиционных поисковых систем и ChatGPT, высветив их соответствующие сильные стороны и возможности.
Экспериментальный дизайн для пользователей поиска
Чтобы изучить, как пользователи взаимодействуют с поисковыми системами при решении различных поисковых задач и как усовершенствованный дизайн поисковой системы улучшает пользовательскую результативность, исследователи часто используют экспериментальные методы, имитирующие реалистичные сценарии поиска. Эти методы позволяют наблюдать и анализировать поведение и показатели поиска пользователей в контролируемых экспериментальных условиях (например, Adipat и др., 2011; Liu и др., 2020; Sagar и др., 2019; Storey и др., 2008). В нашем исследовании мы опираемся на эти работы, спроектировав набор поисковых задач для эксперимента. Мы варьируем сложность задач, беря вдохновение из исследований Wildemuth и Freund (2004) и Liu и др. (2020). Кроме того, мы включаем широко используемые метрики для оценки результативности поиска и пользовательского опыта, в том числе затраченное время на поисковые задачи, успешность выполнения задач, воспринимаемое качество информации, удовлетворённость и другие показатели (Sargar и др., 2019; Liu, 2021).