В своем романе 2019 года «Падение» Нил Стивенсон представил себе недалекое будущее, в котором интернет все еще существует, но он настолько засорился дезинформацией и рекламой, что стал по большей части непригоден для использования. Персонажи произведения решают эту проблему, подписываясь на «редактируемые потоки» — отобранные человеком новости и информацию, которые можно считать заслуживающими доверия. Но у такой системы есть недостаток — ее могут себе позволить только богатые люди, в результате чего большая часть человечества потребляет некачественный, непроверенный онлайн-контент. В какой-то степени этот сценарий уже проигрывается в современности: многие новостные организации, такие как The New York Times и The Wall Street Journal, сделали свой контент доступным по платной подписке. Тем временем в соцсетях все чаще замечается дезинформация. Достижения Стивенсона как предсказателя впечатляют: он предвидел метавселенную в своем романе 1992 года «Лавина», а ключевым элементом сюжета его «Алмазного века», выпущенного в 1995 году, является интерактивный учебник, который функционирует во многом как чат-бот. Кажется, что чат-боты способны справиться с эпидемией дезинформации. Распространяя контент, они могли бы предоставлять альтернативные источники высококачественной информации, которые не были бы ограничены платным доступом. Однако по иронии судьбы результаты работы этих чат-ботов представляют наибольшую опасность для будущего интернета — ту, на которую десятилетиями ранее намекал аргентинский писатель Хорхе Луис Борхес. Расцвет чат-ботов Сегодня значительная часть интернета по-прежнему состоит из якобы правдивого контента — статей и книг, которые были рецензированы и проверены каким-либо образом. Разработчики больших языковых моделей или БЯМ — движков, на которых работают ChatGPT, Copilot и Gemini, — пользуются этим ресурсом. Но для того, чтобы творить чудеса, эти модели должны поглощать огромные объемы высококачественного текста для обучения. Большое количество пустой информации уже было извлечено из онлайн-источников и скормлено большим языковым моделям. Проблема в том, что интернет, каким бы огромным он ни был, является конечным ресурсом. Высококачественных текстов, которые еще не были опубликованы, становится все меньше. Это приводит к тому, что издание The New York Times назвало «возникающим кризисом контента». Такие компании, как OpenAI, стали заключать соглашения с издателями, чтобы получать еще больше материала для своих ботов. Но, согласно одному прогнозу, нехватка дополнительных высококачественных данных для обучения может возникнуть уже в 2026 году. Поскольку результаты работы чат-ботов оказываются в сети, эти тексты второго поколения, наполненные выдуманной информацией и откровенными ошибками (например, предложения смазать пиццу клеем), еще больше загрязнят интернет. А если чат-бот общается с неподходящими людьми в сети, он может перенять их взгляды. Компания Microsoft убедилась в этом на собственном горьком опыте в 2016 году, когда ей пришлось отключить Tay — бота, который начал распространять расистский и сексистский контент. Со временем все эти проблемы способны сделать онлайн-контент менее заслуживающим доверия и менее полезным, чем он есть сегодня. Кроме того, БЯМ, которых кормят «низкокалорийной едой», возможно, станут выдавать некачественные результаты, которые также попадут в сеть. Бесконечная и бесполезная библиотека Нетрудно представить себе цикл обратной связи, который приводит к непрерывному процессу деградации, поскольку боты питаются собственными несовершенными результатами. В статье, опубликованной в журнале Nature в июле 2024 года, исследовали последствия обучения моделей искусственного интеллекта на рекурсивно сгенерированных данных. Оказалось, что «необратимые дефекты» способны привести к «коллапсу модели» для систем, обученных таким образом, подобно тому как копия изображения и последующие копии копий потеряют точность исходника. Насколько все может быть плохо? Рассмотрим рассказ Борхеса 1941 года «Вавилонская библиотека». За пятьдесят лет до того, как компьютерный ученый Тим Бернерс-Ли создал архитектуру для интернета, Борхес уже представлял себе аналоговый эквивалент. В своем рассказе на три тысячи слов автор описывает мир, состоящий из огромного числа шестигранных комнат. На книжных полках в каждой комнате стоят книги одного формата, которые содержат все возможные сочетания из 25 орфографических символов, но варианты никогда не повторяются и одинакового содержания не может быть. По определению должны существовать книги, в которых подробно описывается будущее человечества и смысл жизни. Жители ищут их, но обнаруживают, что подавляющее большинство не содержит ничего, кроме бессмысленных комбинаций букв, хотя где-то там есть и истина. Даже после столетий поисков удается обнаружить лишь несколько значимых фрагментов, но все равно нет способа определить, являются ли эти тексты правдой или ложью. Надежда превращается в отчаяние. Станет ли сеть настолько загрязненной, что только богатые смогут получать точную и надежную информацию? Или бесконечное количество чат-ботов будет производить бессмыслицу, и поиск достоверных данных станет похож на поиск иголки в стоге сена? Интернет часто описывается как одно из величайших достижений человечества. Но, как и с любым другим ресурсом, важно серьезно задуматься о том, как его поддерживать в нормальном состоянии и управлять им, чтобы не столкнуться с антиутопией, представленной Борхесом. По материалам статьи «An 83-year-old short story by Borges portends a bleak future for the internet» The Conversation