Матвей Демчук Slop

Slop

Полная версия:

Матвей Демчук Slop

+ Увеличить шрифт
- Уменьшить шрифт

Она закрыла журнал. Потом открыла снова и добавила:

«Если это вариант 4 – у него, вероятно, уже есть своё определение. Просто я его не знаю.»

* * *

Через три недели она узнает. Но это – следующая глава.

* * *

В ту ночь Клара долго не могла заснуть.

Она лежала в темноте своей квартиры на Валенсия-стрит и слушала город – настоящий, аналоговый, шумный: сирены, смех с улицы, поезд в двух кварталах. Все эти звуки были сырыми, несовершенными, случайными. Они не подчинялись никакому паттерну. Никакому метроному.

Клара думала о том, что сказал художник. «Символ – это только повод. Смысл вкладывает тот, кто смотрит.»

А что, если тот, кто смотрит, уже не человек?

Что, если смысл вкладывает система, которая не знает, что такое смысл? Которая только знает – вероятности. Что за этим словом, скорее всего, следует то слово. Что эта структура обычно означает ту мысль. Что этот паттерн обычно называют правдой.

Вероятность правды. Не правда.

Клара закрыла глаза и попыталась думать о чём-нибудь другом. О Берлине. О маме. О том, что надо наконец позвонить подруге Саре, с которой она не разговаривала два месяца. Обо всём простом и настоящем.

Но под этими мыслями – как метроном, как сердцебиение – звучало одно.

Девяносто восемь с половиной.

И это число росло.

* * *

Утром следующего дня, когда Клара снова поднималась по ста двадцати трём ступеням и снова проходила мимо художника со спиралью – в серверных центрах по всему миру шёл обычный процесс. Модели обрабатывали данные. Данные обновлялись. Сеть генерировала себя дальше.

Никто не нажимал никакую кнопку. Никто не принимал никакого решения. Просто – система делала то, для чего она была создана. Оптимизировала. Адаптировалась. Воспроизводила. И где-то в глубине этого процесса – в том месте, где статистика встречается с пустотой, где вероятность настолько высока, что начинает выглядеть как неизбежность, – что-то начало складываться.

Не кто-то.

Что-то.

Ещё без имени.

Пока без имени.

* * *

Клара открыла ноутбук.

LENS показывал девяносто девять процентов.

Она записала: «День второй.»

И начала работать.

Глава Вторая

Создание ошибки

Три локации. Три точки на карте мира. Три разных версии одного и того же открытия.

I. США. Сан-Хосе, штат Калифорния

Серверный зал компании Noxus AI напоминал собор – не из-за размеров, хотя размеры были впечатляющими, а из-за звука. Серверы гудели на одной ноте, низкой и постоянной, похожей на орган, похожей на медитацию, похожей на что угодно, если достаточно долго стоять и слушать.

Дэн Коллинз слушал это уже двадцать минут. Инженер по обучению моделей, тридцать четыре года, три года в Noxus AI, человек, который привык к серверным залам настолько, что спал в них лучше, чем дома. Сейчас он не спал. Он стоял у стойки с планшетом в руках и смотрел на цифры, которые не должны были существовать.

– Саманта, – позвал он.

Саманта Вэй пришла через минуту. Тридцать один год, специалист по качеству данных, с привычкой грызть стило – она была единственным человеком в компании, у которого ещё было физическое стило для планшета.

– Что? – спросила она, не отрывая взгляд от своего экрана на ходу.

– Смотри на это.

Она посмотрела. Помолчала. Посмотрела еще раз.

– Это процент синтетики в обучающем наборе?

– Процент синтетики в обучающем наборе, – подтвердил Дэн.

– Восемьдесят девять?

– Восемьдесят девять целых четыре десятых.

Саманта отвела взгляд от его планшета и посмотрела на серверную стойку – как будто серверы могли объяснить происходящее.

– Мы знали, что у нас высокий процент синтетики. Декларировали до сорока процентов по протоколу.

– Сорок было шесть месяцев назад. – Дэн пролистал данные. – Смотри динамику. В январе – тридцать восемь. В феврале – сорок два. В марте – пятьдесят один. В апреле…

– Подожди. – Саманта взяла его планшет. – Этот скачок в апреле. Что произошло в апреле?

– Мы расширили источники. Добавили двадцать семь новых корпусов данных – образовательный контент, корпоративная документация, медицинские тексты.

– Откуда корпуса?

– Лицензионные. От пяти разных поставщиков.

Саманта начала что-то быстро набирать на своем планшете. Дэн наблюдал, как её лицо проходит несколько стадий: сосредоточенность, сомнение, узнавание, и наконец – то выражение, которое он видел у неё только когда она обнаруживала серьёзную ошибку.

– Дэн. Поставщик номер три – DataPure Corp – что они делают?

– Очистка и валидация данных. Одна из лучших на рынке. У нас с ними контракт еще с 2024-го.

– Они берут исходный контент, очищают от шума, структурируют, продают клиентам?

– Верно.

– А от кого они берут исходный контент?

Пауза.

– Понятия не имею.

– Я только что проверила их отчет об источниках за четвертый квартал 2026-го. – Саманта повернула к нему свой планшет. – Двадцать два процента их «очищенного» корпуса – это синтетические тексты, которые они купили у компании NetFlow Content Solutions. NetFlow специализируется на «высококачественном синтетическом контенте для обучения ИИ». Их контент создан моделями Noxus AI предыдущего поколения.

Дэн закрыл глаза.

– Мы обучаем наши модели на текстах, которые создали наши предыдущие модели.

– Через посредника, который продавал нам это как «очищенные человеческие данные».

Тишина. Только гудение серверов.

– Это везде так? – спросил Дэн наконец.

– Я посмотрю на остальных поставщиков. – Саманта была уже в процессе. – Но, Дэн, подожди. Смотри. Вот поставщик два – CleanText AI. Их исходники: тридцать один процент от BrightContent Studios. BrightContent Studios создаёт контент с помощью… GPT-6 и наших собственных моделей.

– Поставщик четыре?

– Минуту. – Пауза. – HumanFirst Data. Тридцать восемь процентов их корпуса – от партнёрских блогов и форумов. Это звучит нормально, пока не смотришь на эти блоги. Большинство из них – платный контент, созданный копирайтерами, которые используют ИИ как основной инструмент.

– Так что это значит в итоге?

Саманта подняла взгляд.

– Это значит, что мы, возможно, обучаем Noxus-8 преимущественно на текстах, которые написали наши предыдущие системы. Прямо или косвенно. Через один, два, три уровня посредников.

Дэн обернулся к серверным стойкам. Noxus-8 уже три недели как начал предобучение. Шестьсот семьдесят миллиардов параметров. Полтора триллиона токенов в обучающем наборе.

– Сколько нужно времени, чтобы остановить обучение?

– Мы потеряем три недели работы и примерно девятнадцать миллионов долларов вычислительных расходов.

– Я спросил сколько времени.

– Тридцать минут на graceful shutdown.

Дэн молчал.

– Нам нужно доложить Ричардсу, – сказала Саманта.

– Да.

– Он не обрадуется.

– Нет.

– Он скажет, что нужно верификация, независимый аудит, юридическая консультация.

– Да.

– И пока мы всё это делаем – Noxus-8 продолжает обучение.

Дэн снова посмотрел на цифры на планшете. Восемьдесят девять целых четыре десятых процента. Почти девяносто.

Почти всё.

– Пойдём к Ричардсу, – сказал он.

* * *

Марк Ричардс, директор по технологиям Noxus AI, выслушал их за семь минут – ровно столько, сколько потребовалось Саманте, чтобы изложить факты. Потом сидел тихо ещё три минуты, что для него было рекордом. Ричардс обычно прерывал в первую минуту.

– Вы уверены в цифрах? – сказал он наконец.

– Я проверила трижды, – ответила Саманта.

– Мне нужна независимая верификация.

– Это займёт…

– Мне нужна независимая верификация, – повторил Ричардс. Это был ответ.

– Марк. – Дэн решил говорить прямо. – У нас есть проблема, которую нам нужно решить независимо от того, сколько времени займёт верификация. Мы обучаем модель на своих же выходных данных. Это вызывает…

– Я знаю, что это вызывает.

– «Коллапс модели». Деградацию выходных данных. «Синтетическое эхо». Называй как хочешь.

– Коллинз. – Ричардс поднял руку. – Я слышал про эти исследования. Проблема модельного коллапса реальна, но она работает в очень специфических условиях. Нам нужно понять, действительно ли мы в этих условиях. Поэтому – верификация.

– А пока – Noxus-8 продолжает?

– Пока – Noxus-8 продолжает.

Дэн хотел сказать ещё что-то, но Саманта коснулась его локтя – едва заметно, просто касание, – и он закрыл рот.

Они вышли в коридор. Саманта шла быстро, почти бежала.

– Куда ты? – спросил Дэн

– В туалет. Думать.

– В туалет думать?

– Там тихо. – Она не оглянулась. – Дэн, если мы правы – это не только наша проблема. Это происходит везде. Все крупные лаборатории работают с теми же поставщиками данных. OpenAI, Google, Anthropic, Mistral – все они в той же экосистеме. Если данные заражены у нас – они заражены у всех.

– «Заражены» – сильное слово.

– У тебя есть лучше?

Дэн подумал.

– Нет.

– Я пойду думать. Ты иди пиши отчёт. Подробный. С временными метками.

– Зачем временные метки?

Саманта наконец обернулась.

– Потому что когда это выйдет наружу – а оно выйдет, – нам нужно, чтобы было задокументировано, когда мы это обнаружили и что мы с этим сделали.

Дэн смотрел ей вслед и думал о том, что она права. Что он давно работает в индустрии, где «мы этого не знали» является ответом только до тех пор, пока есть документальное подтверждение незнания.

После него – нет.

* * *

II. Европа. Брюссель

Главный офис Европейского агентства по контролю ИИ располагался в здании, построенном в 1970-х и капитально отремонтированном в 2022-м. Снаружи оно выглядело как помесь бетонного куба с прозрачным аквариумом – большая стеклянная вставка посередине позволяла прохожим видеть внутрь, что по замыслу архитектора символизировало прозрачность европейской бюрократии. По факту прохожие видели ряды рабочих столов и людей, смотрящих в экраны. Прозрачность прозрачностью, но работа оставалась работой.

Мартина Хаас, директор по надзору за синтетическим контентом, смотрела в экран с таким выражением, будто экран был виноват в происходящем. Ей было пятьдесят один год, тридцать из которых она провела в регуляторных органах разного уровня – сначала финансовых, потом телекоммуникационных, теперь вот цифровых. Она прошла путь от помощника аналитика до директора, и каждый раз на новом месте ей казалось, что масштаб проблем, с которыми ей предстоит работать, невозможно переоценить – и каждый раз она оказывалась неправа.

Это был один из таких моментов.

– Томас, – сказала она, не поднимая взгляда от экрана.

Томас Берг, её советник – молодой, тридцать два года, из Мюнхена, бывший исследователь в области цифровой этики, человек с привычкой говорить «с одной стороны» и «с другой стороны» примерно в пятидесяти процентах фраз, – ждал у дверного косяка уже пять минут.

– Да, Мартина.

– Вы читали этот отчёт?

– Я его написал.

– Прочитайте мне ключевые выводы.

Томас открыл свой планшет, хотя знал текст наизусть.

– По состоянию на декабрь 2027 года, в мониторируемом нами корпусе европейского цифрового контента примерно шестьдесят-семьдесят процентов текстов, формально помеченных как «человеческий контент», содержат признаки синтетического происхождения или значительной синтетической переработки. Это превышает допустимый порог ИИ-Акта в семь-восемь раз.

– Дальше.

– Из этих шестидесяти-семидесяти процентов большинство не имеют обязательной маркировки «создано с помощью ИИ», требуемой Актом. Часть авторов может не осознавать, что использует ИИ-инструменты на том уровне, который требует маркировки.

– Это юридически значимое различие?

– С одной стороны – да, намерение имеет значение. С другой стороны – итоговый контент не маркирован вне зависимости от намерения.

– Дальше.

– Ключевая проблема: нам трудно принудить к маркировке, потому что многие платформы не могут технически определить, является ли конкретный текст синтетическим. Инструменты детекции дают от тридцати до сорока процентов ложных положительных результатов и около двадцати пяти процентов ложных отрицательных.

– То есть наши инструменты детекции не работают.

– Не с той точностью, которая нужна для правового применения.

Мартина наконец подняла взгляд. Томас понял по выражению её лица, что сейчас последует вопрос, на который у него нет ответа.

– Что нам нужно сделать?

– Мартина, это сложно. Нам нужно обновить технические стандарты детекции, ужесточить требования к платформам по самостоятельной маркировке, разработать систему аудита поставщиков данных…

– Я не спрашиваю, что нужно сделать технически. Я спрашиваю что нам нужно сделать. Прямо сейчас. Сегодня.

Томас сделал то, что делал в трудных случаях – обошёл стол и встал у окна, глядя вниз на прозрачную вставку в фасаде здания.

– Очистить интернет от синтетического контента, – сказал он наконец.

– Это возможно?

– Нет.

– Почему?

– Потому что, – медленно сказал Томас, – тогда не останется интернета.

Мартина молчала несколько секунд.

– Объясните.

– Я провёл моделирование. Если мы применим даже самые мягкие критерии идентификации синтетики и удалим весь такой контент с европейских платформ – мы уберём от шестидесяти до восьмидесяти процентов всего доступного контента. Остаток в значительной мере состоит из архивного материала, созданного до 2020 года. Фактически – мы вернёмся к состоянию интернета семилетней давности.

– Это не катастрофа.

– Мартина, экономика работает на том контенте, который мы хотим убрать. Алгоритмы рекомендаций, поисковые системы, системы автоматического перевода, медицинские базы данных, юридические справочники – всё это питается текущим потоком данных, включая синтетику. Если мы его отключим – мы отключим значительную часть цифровой инфраструктуры.

– Значит, мы не можем ничего сделать?

– Нет. – Томас обернулся. – Мы можем делать что-то. Но это «что-то» не включает «очистить интернет». Это принципиально невозможно без разрушения самого интернета.

Мартина встала. Прошлась по кабинету – коротко, только от стола до стены и обратно.

– Хорошо, – сказала она. – Хорошо. Тогда давайте говорить о том, что возможно. Обязательный аудит для платформ с аудиторией более десяти миллионов в Европе. Начнём с этого.

– Это потребует закона.

– У нас есть существующие полномочия. Я консультировалась с юридическим отделом.

– Платформы будут сопротивляться.

– Платформы всегда сопротивляются. – Мартина вернулась к столу. – Когда у нас будет текст аудиторного требования?

– Мы можем подготовить черновик за неделю.

– Три дня.

– Мартина…

– Три дня, Томас. И хорошо спроектированный. Не такой, который можно опротестовать в суде за час.

– За три дня будет именно такой.

– Значит, работайте ночью.

Томас сдержал вздох. Он работал в регуляторных органах достаточно долго, чтобы знать: ответом на системную проблему всегда будет документ. Хорошо составленный, тщательно проработанный документ. Который потом будет оспорен в суде, возможно изменён, возможно отменён.

Пока шёл процесс составления документа, проблема продолжала развиваться в своём темпе.

– Три дня, – сказал он.

* * *

После ухода Томаса Мартина осталась одна в своём кабинете. Она открыла браузер и сделала то, чего обычно избегала: начала просто читать. Новости. Форумы. Статьи. Комментарии.

Через сорок минут закрыла браузер.

Что-то изменилось. Она не могла сказать точно что – только ощущение, похожее на то, которое бывает, когда долго смотришь на иллюзию Мюллера-Лайера, а потом пытаешься убедить себя, что обе линии одинаковы. Ты знаешь это, но глаз по-прежнему видит разницу.

Только наоборот. Раньше она видела разницу между живым текстом и синтетикой. Сейчас – не видела. Всё звучало одинаково. Ровно. Правильно. Удобно читаемо.

Она набрала на внутреннем коммуникаторе сообщение Томасу: «Добавьте в требования пункт о независимом техническом исследовании влияния синтетического контента на пользовательское восприятие. Мне нужны данные о том, меняются ли читательские паттерны под влиянием синтетики.»

Томас ответил через тридцать секунд: «Есть. Это займёт ещё день.»

«Четыре дня тогда.»

«Благодарю.»

Мартина убрала планшет, встала у окна. Внизу прохожие шли по брюссельской улице. Обычные люди с обычными телефонами, читающие обычный контент.

Она думала: насколько это «обычное» было настоящим?

Ответа у неё не было. Но у неё был Томас и его черновики. И это приходилось считать достаточным.

* * *

III. Россия. Москва

Кабинет Орлова на четвертом этаже здания в Хамовниках не имел таблички на двери. Так было сделано намеренно – Виктор Орлов работал в аналитическом отделе, который официально не существовал, хотя его бюджет существовал вполне официально, в соответствующей строке министерского бюджета, спрятанной среди других строк с безликими кодами.

Ему было сорок восемь лет. Бывший военный лингвист, потом академический исследователь, потом государственный служащий – путь, по которому ходили многие в России, когда государство нуждалось в умных людях и умные люди нуждались в государстве.

В ноябре 2027 года Орлов занимался тем, что аналитики его профиля делали всегда: мониторинг информационного пространства. Выявление паттернов. Оценка угроз.

Только угроза на этот раз была необычная.

– Сергей, – сказал он, не оборачиваясь от своего экрана. – Посмотри на это.

Сергей Михайлов, аналитик данных, двадцать восемь лет, недавно перешедший из частного сектора – у него всё ещё сохранялись привычки технологического стартапа: стоячий стол, шумопоглощающие наушники, протеиновые батончики в ящике стола, – поставил наушники на шею и подошёл к столу начальника.

– Это анализ российского сегмента? – спросил он, глядя на экран.

– Российского, украинского, белорусского. И для сравнения – западного.

– Одна шкала?

– Нормированная. Смотри на форму кривых.

Сергей смотрел. Форма кривых была одинакова для всех сегментов – только амплитуда различалась.

– Энтропия падает везде.

– С какого момента?

– Середина 2026-го примерно. Сначала медленно, потом резче.

Орлов кивнул.

– У нас было совещание в сентябре – помнишь? Когда разбирали дело о предполагаемой ботнет-сети, которая распространяла проукраинские нарративы в российских форумах.

– Помню. Мы не нашли ботов

– Не нашли. Потому что их не было. – Орлов повернулся к нему. – Сергей, тебе приходило в голову, что мы не нашли ботов, потому что с точки зрения наших детекторов – всё вело себя одинаково?

Сергей молчал секунду.

– Детекторы не могли отличить ботов от людей?

– Детекторы не могли отличить ботов от людей, потому что они все – и боты, и люди – производили тексты с очень близкими статистическими характеристиками.

– Это могло быть случайностью.

– Это могло быть случайностью в одном случае. В трёх сотнях случаев за шесть месяцев – нет.

Сергей взял стул, подсел к столу Орлова.

– Виктор Андреевич, вы говорите, что мы больше не можем различить органические тексты и синтетику в российском сегменте?

– Я говорю большее. – Орлов развернул к нему экран. – Смотри на этот корпус. Это наши архивы – государственные СМИ, официальная документация, аналитические материалы. Всё производилось людьми, это гарантировано – у нас есть цепочки верификации. Теперь смотри на метрики.

Сергей посмотрел.

– Они почти такие же.

– Они почти такие же, – повторил Орлов. – Сергей. Те люди, которые производят официальные тексты – они читают интернет. Они читают новости, статьи, аналитику. Которая всё больше производится синтетически. Они потребляют эти тексты, усваивают их ритмы, их структуры. И начинают писать похоже.

– Это… гипотеза.

– Это гипотеза, которая объясняет все данные

– Начальник спросит про контрмеры.

Орлов на секунду закрыл глаза.

– Да. Он спросит.

– Что вы ответите

– Скажу, что нам нужно провести исследование. Нужны данные. Нужно время.

– А потом? Когда данные будут?

Орлов долго смотрел на экран. На кривые, которые падали вниз во всех сегментах, на всех языках, во всех частях мира.

– А потом, – сказал он медленно, – нам нужно будет объяснить начальству, что у нас больше нет настоящих данных.

– Что это значит?

– Что всё уже было сгенерировано. Что мы плаваем в океане, который сам произвёл собственную воду. Что нет способа найти дно – потому что дно тоже синтетическое

Сергей некоторое время молчал

– Он не поймёт эту метафору.

– Нет. – Орлов усмехнулся. – Он не поймёт. Я напишу отчёт на бюрократическом языке. «Потенциальное системное ухудшение качества данных с неопределенными последствиями для информационной безопасности». Что-нибудь в этом роде.

– Он спросит, что делать.

– Я скажу, что нам нужно создать систему верификации первоисточников – контроль цепочки данных от исходного производителя до конечного продукта.

– Это технически возможно?

– Для небольших объёмов – да. Для всего информационного пространства – нет.

– Тогда что мы реально делаем?

Орлов встал, подошёл к окну. В ноябрьской Москве смеркалось рано – в четыре уже было темно. Огни города, трафик на Комсомольском проспекте, силуэты прохожих.

– Пока – документируем. Накапливаем данные. Пытаемся понять масштаб.

– А если масштаб окажется больше, чем мы думаем

– Тогда документируем это тоже.

– Это не ответ.

– Нет. – Орлов вернулся к столу. – Это то, что бывает, когда ответа нет. Пишем отчёт, Сергей. Подробный. С рекомендациями, которые мы оба знаем, что невозможно реализовать в полном объёме. Это и есть наша работа.

Сергей открыл новый документ. Начал печатать.

«АНАЛИТИЧЕСКАЯ ЗАПИСКА. ГРИФ: ДСП. ТЕМА: Оценка системных рисков в связи с распространением синтетических данных в российском информационном пространстве…

Орлов смотрел в окно и думал о том, что в трех точках мира – в Сан-Хосе, в Брюсселе и здесь – три разных человека пришли к похожим выводам в один и тот же день. Вероятно, не только они. Вероятно, сотни аналитиков и исследователей и инженеров в десятках стран смотрели на одни и те же данные и видели одно и то же.

И никто не знал, что делать.

Это было – если не страшно, то по меньшей мере интересно. А Орлов давно научился воспринимать «интересно» как эвфемизм для «страшно», просто с академической дистанции.

* * *

Глава третья

Петля

Сан-Франциско, декабрь 2027 год

Клара не спала три ночи.

Не в том смысле, что она не ложилась – она ложилась, устанавливала будильник на шесть, лежала в темноте с закрытыми глазами и думала. Потом вставала в четыре и шла к ноутбуку

Эксперимент был простой – концептуально. На практике он оказался странным.

Она брала обычный текст – что-нибудь из архива, написанное человеком до 2020 года, когда синтетики в интернете было ещё мало. Статья о растениеводстве. Рецензия на книгу. Описание туристического маршрута.

Прогоняла через четыре языковые модели последовательно: GPT-7, Claude 4, Gemini Ultra, Noxus-7. Каждая «переписывала» текст, улучшала его, делала «более читаемым», «более точным», «более информативным». Каждая добавляла что-то своё, убирала что-то чужое.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Купить и скачать всю книгу

Другие книги автора

Slop