banner
Центр новостей
Высочайшее качество и индивидуальный подход к клиентам

Посмотрите веб-сайты, на которых боты с искусственным интеллектом, такие как ChatGPT, кажутся такими умными

Aug 18, 2023

Популярность чат-ботов с искусственным интеллектом резко возросла за последние четыре месяца, ошеломив публику своими потрясающими способностями: от написания сложных курсовых работ до ведения пугающе ясных разговоров.

Чат-боты не могут думать, как люди: они на самом деле не понимают, что говорят. Они могут имитировать человеческую речь, потому что искусственный интеллект, который управляет ими, проглотил огромное количество текста, в основном взятого из Интернета.

[Большие технологические компании осторожно действовали в отношении ИИ. Затем появился ChatGPT.]

Этот текст является основным источником информации ИИ о мире в процессе его создания и влияет на то, как он реагирует на действия пользователей. Например, если он успешно сдает вступительные экзамены в юридическую школу, то, вероятно, это потому, что его данные по обучению включали тысячи практических сайтов LSAT.

Технологические компании стали скрывать, чем они кормят ИИ. Поэтому The Washington Post решила проанализировать один из этих наборов данных, чтобы полностью выявить типы проприетарных, личных и часто оскорбительных веб-сайтов, которые используются в данных обучения ИИ.

Чтобы заглянуть внутрь этого черного ящика, мы проанализировали набор данных Google C4 — массивный снимок содержимого 15 миллионов веб-сайтов, которые использовались для обучения некоторых высокопоставленных англоязычных ИИ, называемых большими языковыми моделями, включая T5 Google и LLaMA Facebook. . (OpenAI не раскрывает, какие наборы данных она использует для обучения моделей, поддерживающих ее популярного чат-бота ChatGPT)

The Post работала над этим расследованием с исследователями из Института искусственного интеллекта Аллена и классифицировала веб-сайты, используя данные компании веб-аналитики «Similarweb». Около трети веб-сайтов не удалось классифицировать, главным образом потому, что они больше не появляются в Интернете. Они не показаны.

Нажмите на поля выше, чтобы просмотреть популярные сайты.

Затем мы проранжировали оставшиеся 10 миллионов веб-сайтов на основе количества «токенов» каждого из них в наборе данных. Токены — это небольшие фрагменты текста, используемые для обработки неорганизованной информации — обычно слова или фразы.

В наборе данных преобладали веб-сайты из таких отраслей, как журналистика, развлечения, разработка программного обеспечения, медицина и создание контента, что помогает объяснить, почему этим областям может угрожать новая волна искусственного интеллекта. Тремя крупнейшими сайтами были Patents.google.com № 1, содержащий тексты патентов, выданных по всему миру; wikipedia.org № 2, бесплатная онлайн-энциклопедия; и scribd.com № 3, цифровая библиотека, доступная только по подписке. Также на первом месте в списке находится b-ok.org № 190, печально известный рынок пиратских электронных книг, который с тех пор был конфискован Министерством юстиции США. В наборе данных присутствовало как минимум 27 других сайтов, определенных правительством США как рынки пиратства и контрафактной продукции.

Некоторые топовые сайты казались произвольными, например, wowhead.com № 181, форум игроков World of Warcraft; thriveglobal.com № 175, продукт для борьбы с выгоранием, основанный Арианной Хаффингтон; и как минимум 10 сайтов, продающих мусорные контейнеры, включая dumpsteroid.com № 183, которые больше не доступны.

Другие выразили серьезную обеспокоенность по поводу конфиденциальности. Два сайта из топ-100, coloradovoters.info № 40 и flvoters.com № 73, размещали на частном хостинге копии государственных баз данных регистрации избирателей. Хотя данные избирателей являются общедоступными, модели могут использовать эту личную информацию неизвестным образом.

Лучшие деловые и промышленные сайты:

дурак.com

Kickstarter.com

sec.gov

marketwired.com

city-data.com

myemail.constantcontact.com

финансы.yahoo.com

prweb.com

предприниматель.com

globalresearch.ca

Деловые и промышленные веб-сайты составили самую большую категорию (16 процентов классифицированных токенов), во главе которой стоит сайт дурака № 13, который предоставляет советы по инвестированию. Не отстают от него сайт Kickstarter.com № 25, который позволяет пользователям осуществлять краудфандинг для творческих проектов, и далее по списку patreon.com № 2398, который помогает создателям собирать ежемесячную плату с подписчиков за эксклюзивный контент.

Kickstarter и Patreon могут предоставить ИИ доступ к идеям художников и маркетинговым материалам, что вызывает опасения, что технология может копировать эти работы в предложениях пользователям. В настоящее время художники не получают никакой компенсации или признания, если их работы включены в данные обучения ИИ, и они подали иски о нарушении авторских прав против генераторов текста в изображение Stable Diffusion, MidJourney и DeviantArt.