Искусственный интеллект может разрушить мир машинного обучения
Исследователи из Оксфордского университета предупреждают, что массовое использование контента, созданного с помощью искусственного интеллекта (ИИ), может привести к краху моделей машинного обучения. Это происходит из-за того, что ИИ-модели, обученные на таких данных, начинают игнорировать редкие фрагменты текста, что приводит к регрессу.

В качестве примера ученые приводят случай, когда нейросеть, сгенерировавшая текст о средневековой европейской архитектуре, неожиданно перешла к бессмысленным рассуждениям о кроликах. Проблема усугубляется тем, что с развитием крупномасштабных языковых моделей (LLM) объем загрязненного контента будет только расти.
Эмили Венгер из Университета Дьюка иллюстрирует коллапс модели на примере генератора изображений собак. Если модель сосредоточится на определенных породах, например, золотистых ретриверах, последующие модели, обученные на этих данных, могут забыть о других породах. В результате модель выйдет из строя и не сможет создавать полноценный контент.
Одним из возможных решений проблемы является внедрение водяных знаков в контент, созданный с помощью ИИ. Также необходимо искать способы предотвращения использования личных данных пользователей для обучения нейросетей без их согласия.

В качестве примера ученые приводят случай, когда нейросеть, сгенерировавшая текст о средневековой европейской архитектуре, неожиданно перешла к бессмысленным рассуждениям о кроликах. Проблема усугубляется тем, что с развитием крупномасштабных языковых моделей (LLM) объем загрязненного контента будет только расти.
Эмили Венгер из Университета Дьюка иллюстрирует коллапс модели на примере генератора изображений собак. Если модель сосредоточится на определенных породах, например, золотистых ретриверах, последующие модели, обученные на этих данных, могут забыть о других породах. В результате модель выйдет из строя и не сможет создавать полноценный контент.
Одним из возможных решений проблемы является внедрение водяных знаков в контент, созданный с помощью ИИ. Также необходимо искать способы предотвращения использования личных данных пользователей для обучения нейросетей без их согласия.
Ссылки по теме:
