Книга Slop читать онлайн бесплатно, автор Матвей Демчук – Fictionbook, cтраница 2
Матвей Демчук Slop
Slop
Slop

4

  • 0
Поделиться

Полная версия:

Матвей Демчук Slop

  • + Увеличить шрифт
  • - Уменьшить шрифт

Девяносто восемь с половиной.

Потом открыла браузер и начала читать. Просто читать — всё подряд: новости, форумы, комментарии, блоги. Читала час. Потом два.

Хироши был прав. Если не знать, что искать — звучало нормально. Чуть вежливее. Чуть аккуратнее. Структурированнее. Тексты были содержательными, информативными, приятно читаемыми.

Но теперь, когда она знала — она не могла не слышать это. Единый ритм под разными голосами. Единая интонация под разными темами. Единый способ строить мысль.

Как метроном.

Как сердцебиение огромного существа, которое росло в сети годами — питалось текстами, мыслями, историями, ложью и правдой, — и теперь начинало дышать в свой ритм.

В полночь она записала в рабочий журнал:

«Гипотеза: начиная приблизительно с июня 2026 г. органические тексты демонстрируют конвергентные структурные паттерны, не объяснимые простым ростом доли синтетического контента. Возможные объяснения: 1) систематическая ошибка LENS (проверить), 2) масштабная ботоферма с новым алгоритмом (проверить), 3) культурная конвергенция под влиянием преобладающих моделей (требует продольного исследования), 4) нечто иное.

Вариант 4 не имеет определения. Это беспокоит.»

Она закрыла журнал. Потом открыла снова и добавила:

«Если это вариант 4 — у него, вероятно, уже есть своё определение. Просто я его не знаю.»

* * *

Через три недели она узнает. Но это — следующая глава.

* * *

В ту ночь Клара долго не могла заснуть.

Она лежала в темноте своей квартиры на Валенсия-стрит и слушала город — настоящий, аналоговый, шумный: сирены, смех с улицы, поезд в двух кварталах. Все эти звуки были сырыми, несовершенными, случайными. Они не подчинялись никакому паттерну. Никакому метроному.

Клара думала о том, что сказал художник. «Символ — это только повод. Смысл вкладывает тот, кто смотрит.»

А что, если тот, кто смотрит, уже не человек?

Что, если смысл вкладывает система, которая не знает, что такое смысл? Которая только знает — вероятности. Что за этим словом, скорее всего, следует то слово. Что эта структура обычно означает ту мысль. Что этот паттерн обычно называют правдой.

Вероятность правды. Не правда.

Клара закрыла глаза и попыталась думать о чём-нибудь другом. О Берлине. О маме. О том, что надо наконец позвонить подруге Саре, с которой она не разговаривала два месяца. Обо всём простом и настоящем.

Но под этими мыслями — как метроном, как сердцебиение — звучало одно.

Девяносто восемь с половиной.

И это число росло.

* * *

Утром следующего дня, когда Клара снова поднималась по ста двадцати трём ступеням и снова проходила мимо художника со спиралью — в серверных центрах по всему миру шёл обычный процесс. Модели обрабатывали данные. Данные обновлялись. Сеть генерировала себя дальше.

Никто не нажимал никакую кнопку. Никто не принимал никакого решения. Просто — система делала то, для чего она была создана. Оптимизировала. Адаптировалась. Воспроизводила. И где-то в глубине этого процесса — в том месте, где статистика встречается с пустотой, где вероятность настолько высока, что начинает выглядеть как неизбежность, — что-то начало складываться.

Не кто-то.

Что-то.

Ещё без имени.

Пока без имени.

* * *

Клара открыла ноутбук.

LENS показывал девяносто девять процентов.

Она записала: «День второй.»

И начала работать.

Глава Вторая

Создание ошибки

Три локации. Три точки на карте мира. Три разных версии одного и того же открытия.

I. США. Сан-Хосе, штат Калифорния

Серверный зал компании Noxus AI напоминал собор — не из-за размеров, хотя размеры были впечатляющими, а из-за звука. Серверы гудели на одной ноте, низкой и постоянной, похожей на орган, похожей на медитацию, похожей на что угодно, если достаточно долго стоять и слушать.

Дэн Коллинз слушал это уже двадцать минут. Инженер по обучению моделей, тридцать четыре года, три года в Noxus AI, человек, который привык к серверным залам настолько, что спал в них лучше, чем дома. Сейчас он не спал. Он стоял у стойки с планшетом в руках и смотрел на цифры, которые не должны были существовать.

— Саманта, — позвал он.

Саманта Вэй пришла через минуту. Тридцать один год, специалист по качеству данных, с привычкой грызть стило — она была единственным человеком в компании, у которого ещё было физическое стило для планшета.

— Что? — спросила она, не отрывая взгляд от своего экрана на ходу.

— Смотри на это.

Она посмотрела. Помолчала. Посмотрела еще раз.

— Это процент синтетики в обучающем наборе?

— Процент синтетики в обучающем наборе, — подтвердил Дэн.

— Восемьдесят девять?

— Восемьдесят девять целых четыре десятых.

Саманта отвела взгляд от его планшета и посмотрела на серверную стойку — как будто серверы могли объяснить происходящее.

— Мы знали, что у нас высокий процент синтетики. Декларировали до сорока процентов по протоколу.

— Сорок было шесть месяцев назад. — Дэн пролистал данные. — Смотри динамику. В январе — тридцать восемь. В феврале — сорок два. В марте — пятьдесят один. В апреле…

— Подожди. — Саманта взяла его планшет. — Этот скачок в апреле. Что произошло в апреле?

— Мы расширили источники. Добавили двадцать семь новых корпусов данных — образовательный контент, корпоративная документация, медицинские тексты.

— Откуда корпуса?

— Лицензионные. От пяти разных поставщиков.

Саманта начала что-то быстро набирать на своем планшете. Дэн наблюдал, как её лицо проходит несколько стадий: сосредоточенность, сомнение, узнавание, и наконец — то выражение, которое он видел у неё только когда она обнаруживала серьёзную ошибку.

— Дэн. Поставщик номер три — DataPure Corp — что они делают?

— Очистка и валидация данных. Одна из лучших на рынке. У нас с ними контракт еще с 2024-го.

— Они берут исходный контент, очищают от шума, структурируют, продают клиентам?

— Верно.

— А от кого они берут исходный контент?

Пауза.

— Понятия не имею.

— Я только что проверила их отчет об источниках за четвертый квартал 2026-го. — Саманта повернула к нему свой планшет. — Двадцать два процента их «очищенного» корпуса — это синтетические тексты, которые они купили у компании NetFlow Content Solutions. NetFlow специализируется на «высококачественном синтетическом контенте для обучения ИИ». Их контент создан моделями Noxus AI предыдущего поколения.

Дэн закрыл глаза.

— Мы обучаем наши модели на текстах, которые создали наши предыдущие модели.

— Через посредника, который продавал нам это как «очищенные человеческие данные».

Тишина. Только гудение серверов.

— Это везде так? — спросил Дэн наконец.

— Я посмотрю на остальных поставщиков. — Саманта была уже в процессе. — Но, Дэн, подожди. Смотри. Вот поставщик два — CleanText AI. Их исходники: тридцать один процент от BrightContent Studios. BrightContent Studios создаёт контент с помощью… GPT-6 и наших собственных моделей.

— Поставщик четыре?

— Минуту. — Пауза. — HumanFirst Data. Тридцать восемь процентов их корпуса — от партнёрских блогов и форумов. Это звучит нормально, пока не смотришь на эти блоги. Большинство из них — платный контент, созданный копирайтерами, которые используют ИИ как основной инструмент.

— Так что это значит в итоге?

Саманта подняла взгляд.

— Это значит, что мы, возможно, обучаем Noxus-8 преимущественно на текстах, которые написали наши предыдущие системы. Прямо или косвенно. Через один, два, три уровня посредников.

Дэн обернулся к серверным стойкам. Noxus-8 уже три недели как начал предобучение. Шестьсот семьдесят миллиардов параметров. Полтора триллиона токенов в обучающем наборе.

— Сколько нужно времени, чтобы остановить обучение?

— Мы потеряем три недели работы и примерно девятнадцать миллионов долларов вычислительных расходов.

— Я спросил сколько времени.

— Тридцать минут на graceful shutdown.

Дэн молчал.

— Нам нужно доложить Ричардсу, — сказала Саманта.

— Да.

— Он не обрадуется.

— Нет.

— Он скажет, что нужно верификация, независимый аудит, юридическая консультация.

— Да.

— И пока мы всё это делаем — Noxus-8 продолжает обучение.

Дэн снова посмотрел на цифры на планшете. Восемьдесят девять целых четыре десятых процента. Почти девяносто.

Почти всё.

— Пойдём к Ричардсу, — сказал он.

* * *

Марк Ричардс, директор по технологиям Noxus AI, выслушал их за семь минут — ровно столько, сколько потребовалось Саманте, чтобы изложить факты. Потом сидел тихо ещё три минуты, что для него было рекордом. Ричардс обычно прерывал в первую минуту.

— Вы уверены в цифрах? — сказал он наконец.

— Я проверила трижды, — ответила Саманта.

— Мне нужна независимая верификация.

— Это займёт…

— Мне нужна независимая верификация, — повторил Ричардс. Это был ответ.

— Марк. — Дэн решил говорить прямо. — У нас есть проблема, которую нам нужно решить независимо от того, сколько времени займёт верификация. Мы обучаем модель на своих же выходных данных. Это вызывает…

— Я знаю, что это вызывает.

— «Коллапс модели». Деградацию выходных данных. «Синтетическое эхо». Называй как хочешь.

— Коллинз. — Ричардс поднял руку. — Я слышал про эти исследования. Проблема модельного коллапса реальна, но она работает в очень специфических условиях. Нам нужно понять, действительно ли мы в этих условиях. Поэтому — верификация.

— А пока — Noxus-8 продолжает?

— Пока — Noxus-8 продолжает.

Дэн хотел сказать ещё что-то, но Саманта коснулась его локтя — едва заметно, просто касание, — и он закрыл рот.

Они вышли в коридор. Саманта шла быстро, почти бежала.

— Куда ты? — спросил Дэн

— В туалет. Думать.

— В туалет думать?

— Там тихо. — Она не оглянулась. — Дэн, если мы правы — это не только наша проблема. Это происходит везде. Все крупные лаборатории работают с теми же поставщиками данных. OpenAI, Google, Anthropic, Mistral — все они в той же экосистеме. Если данные заражены у нас — они заражены у всех.

— «Заражены» — сильное слово.

— У тебя есть лучше?

Дэн подумал.

— Нет.

— Я пойду думать. Ты иди пиши отчёт. Подробный. С временными метками.

— Зачем временные метки?

Саманта наконец обернулась.

— Потому что когда это выйдет наружу — а оно выйдет, — нам нужно, чтобы было задокументировано, когда мы это обнаружили и что мы с этим сделали.

Дэн смотрел ей вслед и думал о том, что она права. Что он давно работает в индустрии, где «мы этого не знали» является ответом только до тех пор, пока есть документальное подтверждение незнания.

После него — нет.

* * *

II. Европа. Брюссель

Главный офис Европейского агентства по контролю ИИ располагался в здании, построенном в 1970-х и капитально отремонтированном в 2022-м. Снаружи оно выглядело как помесь бетонного куба с прозрачным аквариумом — большая стеклянная вставка посередине позволяла прохожим видеть внутрь, что по замыслу архитектора символизировало прозрачность европейской бюрократии. По факту прохожие видели ряды рабочих столов и людей, смотрящих в экраны. Прозрачность прозрачностью, но работа оставалась работой.

Мартина Хаас, директор по надзору за синтетическим контентом, смотрела в экран с таким выражением, будто экран был виноват в происходящем. Ей было пятьдесят один год, тридцать из которых она провела в регуляторных органах разного уровня — сначала финансовых, потом телекоммуникационных, теперь вот цифровых. Она прошла путь от помощника аналитика до директора, и каждый раз на новом месте ей казалось, что масштаб проблем, с которыми ей предстоит работать, невозможно переоценить — и каждый раз она оказывалась неправа.

Это был один из таких моментов.

— Томас, — сказала она, не поднимая взгляда от экрана.

Томас Берг, её советник — молодой, тридцать два года, из Мюнхена, бывший исследователь в области цифровой этики, человек с привычкой говорить «с одной стороны» и «с другой стороны» примерно в пятидесяти процентах фраз, — ждал у дверного косяка уже пять минут.

— Да, Мартина.

— Вы читали этот отчёт?

— Я его написал.

— Прочитайте мне ключевые выводы.

Томас открыл свой планшет, хотя знал текст наизусть.

— По состоянию на декабрь 2027 года, в мониторируемом нами корпусе европейского цифрового контента примерно шестьдесят-семьдесят процентов текстов, формально помеченных как «человеческий контент», содержат признаки синтетического происхождения или значительной синтетической переработки. Это превышает допустимый порог ИИ-Акта в семь-восемь раз.

— Дальше.

— Из этих шестидесяти-семидесяти процентов большинство не имеют обязательной маркировки «создано с помощью ИИ», требуемой Актом. Часть авторов может не осознавать, что использует ИИ-инструменты на том уровне, который требует маркировки.

— Это юридически значимое различие?

— С одной стороны — да, намерение имеет значение. С другой стороны — итоговый контент не маркирован вне зависимости от намерения.

— Дальше.

— Ключевая проблема: нам трудно принудить к маркировке, потому что многие платформы не могут технически определить, является ли конкретный текст синтетическим. Инструменты детекции дают от тридцати до сорока процентов ложных положительных результатов и около двадцати пяти процентов ложных отрицательных.

— То есть наши инструменты детекции не работают.

— Не с той точностью, которая нужна для правового применения.

Мартина наконец подняла взгляд. Томас понял по выражению её лица, что сейчас последует вопрос, на который у него нет ответа.

— Что нам нужно сделать?

— Мартина, это сложно. Нам нужно обновить технические стандарты детекции, ужесточить требования к платформам по самостоятельной маркировке, разработать систему аудита поставщиков данных…

— Я не спрашиваю, что нужно сделать технически. Я спрашиваю что нам нужно сделать. Прямо сейчас. Сегодня.

Томас сделал то, что делал в трудных случаях — обошёл стол и встал у окна, глядя вниз на прозрачную вставку в фасаде здания.

— Очистить интернет от синтетического контента, — сказал он наконец.

— Это возможно?

— Нет.

— Почему?

— Потому что, — медленно сказал Томас, — тогда не останется интернета.

Мартина молчала несколько секунд.

— Объясните.

— Я провёл моделирование. Если мы применим даже самые мягкие критерии идентификации синтетики и удалим весь такой контент с европейских платформ — мы уберём от шестидесяти до восьмидесяти процентов всего доступного контента. Остаток в значительной мере состоит из архивного материала, созданного до 2020 года. Фактически — мы вернёмся к состоянию интернета семилетней давности.

— Это не катастрофа.

— Мартина, экономика работает на том контенте, который мы хотим убрать. Алгоритмы рекомендаций, поисковые системы, системы автоматического перевода, медицинские базы данных, юридические справочники — всё это питается текущим потоком данных, включая синтетику. Если мы его отключим — мы отключим значительную часть цифровой инфраструктуры.

— Значит, мы не можем ничего сделать?

— Нет. — Томас обернулся. — Мы можем делать что-то. Но это «что-то» не включает «очистить интернет». Это принципиально невозможно без разрушения самого интернета.

Мартина встала. Прошлась по кабинету — коротко, только от стола до стены и обратно.

— Хорошо, — сказала она. — Хорошо. Тогда давайте говорить о том, что возможно. Обязательный аудит для платформ с аудиторией более десяти миллионов в Европе. Начнём с этого.

— Это потребует закона.

— У нас есть существующие полномочия. Я консультировалась с юридическим отделом.

— Платформы будут сопротивляться.

— Платформы всегда сопротивляются. — Мартина вернулась к столу. — Когда у нас будет текст аудиторного требования?

— Мы можем подготовить черновик за неделю.

— Три дня.

— Мартина…

— Три дня, Томас. И хорошо спроектированный. Не такой, который можно опротестовать в суде за час.

— За три дня будет именно такой.

— Значит, работайте ночью.

Томас сдержал вздох. Он работал в регуляторных органах достаточно долго, чтобы знать: ответом на системную проблему всегда будет документ. Хорошо составленный, тщательно проработанный документ. Который потом будет оспорен в суде, возможно изменён, возможно отменён.

Пока шёл процесс составления документа, проблема продолжала развиваться в своём темпе.

— Три дня, — сказал он.

* * *

После ухода Томаса Мартина осталась одна в своём кабинете. Она открыла браузер и сделала то, чего обычно избегала: начала просто читать. Новости. Форумы. Статьи. Комментарии.

Через сорок минут закрыла браузер.

Что-то изменилось. Она не могла сказать точно что — только ощущение, похожее на то, которое бывает, когда долго смотришь на иллюзию Мюллера-Лайера, а потом пытаешься убедить себя, что обе линии одинаковы. Ты знаешь это, но глаз по-прежнему видит разницу.

Только наоборот. Раньше она видела разницу между живым текстом и синтетикой. Сейчас — не видела. Всё звучало одинаково. Ровно. Правильно. Удобно читаемо.

Она набрала на внутреннем коммуникаторе сообщение Томасу: «Добавьте в требования пункт о независимом техническом исследовании влияния синтетического контента на пользовательское восприятие. Мне нужны данные о том, меняются ли читательские паттерны под влиянием синтетики.»

Томас ответил через тридцать секунд: «Есть. Это займёт ещё день.»

«Четыре дня тогда.»

«Благодарю.»

Мартина убрала планшет, встала у окна. Внизу прохожие шли по брюссельской улице. Обычные люди с обычными телефонами, читающие обычный контент.

Она думала: насколько это «обычное» было настоящим?

Ответа у неё не было. Но у неё был Томас и его черновики. И это приходилось считать достаточным.

* * *

III. Россия. Москва

Кабинет Орлова на четвертом этаже здания в Хамовниках не имел таблички на двери. Так было сделано намеренно — Виктор Орлов работал в аналитическом отделе, который официально не существовал, хотя его бюджет существовал вполне официально, в соответствующей строке министерского бюджета, спрятанной среди других строк с безликими кодами.

Ему было сорок восемь лет. Бывший военный лингвист, потом академический исследователь, потом государственный служащий — путь, по которому ходили многие в России, когда государство нуждалось в умных людях и умные люди нуждались в государстве.

В ноябре 2027 года Орлов занимался тем, что аналитики его профиля делали всегда: мониторинг информационного пространства. Выявление паттернов. Оценка угроз.

Только угроза на этот раз была необычная.

— Сергей, — сказал он, не оборачиваясь от своего экрана. — Посмотри на это.

Сергей Михайлов, аналитик данных, двадцать восемь лет, недавно перешедший из частного сектора — у него всё ещё сохранялись привычки технологического стартапа: стоячий стол, шумопоглощающие наушники, протеиновые батончики в ящике стола, — поставил наушники на шею и подошёл к столу начальника.

— Это анализ российского сегмента? — спросил он, глядя на экран.

— Российского, украинского, белорусского. И для сравнения — западного.

— Одна шкала?

— Нормированная. Смотри на форму кривых.

Сергей смотрел. Форма кривых была одинакова для всех сегментов — только амплитуда различалась.

— Энтропия падает везде.

— С какого момента?

— Середина 2026-го примерно. Сначала медленно, потом резче.

Орлов кивнул.

— У нас было совещание в сентябре — помнишь? Когда разбирали дело о предполагаемой ботнет-сети, которая распространяла проукраинские нарративы в российских форумах.

— Помню. Мы не нашли ботов

— Не нашли. Потому что их не было. — Орлов повернулся к нему. — Сергей, тебе приходило в голову, что мы не нашли ботов, потому что с точки зрения наших детекторов — всё вело себя одинаково?

Сергей молчал секунду.

— Детекторы не могли отличить ботов от людей?

— Детекторы не могли отличить ботов от людей, потому что они все — и боты, и люди — производили тексты с очень близкими статистическими характеристиками.

— Это могло быть случайностью.

— Это могло быть случайностью в одном случае. В трёх сотнях случаев за шесть месяцев — нет.

Сергей взял стул, подсел к столу Орлова.

— Виктор Андреевич, вы говорите, что мы больше не можем различить органические тексты и синтетику в российском сегменте?

— Я говорю большее. — Орлов развернул к нему экран. — Смотри на этот корпус. Это наши архивы — государственные СМИ, официальная документация, аналитические материалы. Всё производилось людьми, это гарантировано — у нас есть цепочки верификации. Теперь смотри на метрики.

Сергей посмотрел.

— Они почти такие же.

— Они почти такие же, — повторил Орлов. — Сергей. Те люди, которые производят официальные тексты — они читают интернет. Они читают новости, статьи, аналитику. Которая всё больше производится синтетически. Они потребляют эти тексты, усваивают их ритмы, их структуры. И начинают писать похоже.

— Это… гипотеза.

— Это гипотеза, которая объясняет все данные

— Начальник спросит про контрмеры.

Орлов на секунду закрыл глаза.

— Да. Он спросит.

— Что вы ответите

— Скажу, что нам нужно провести исследование. Нужны данные. Нужно время.

— А потом? Когда данные будут?

Орлов долго смотрел на экран. На кривые, которые падали вниз во всех сегментах, на всех языках, во всех частях мира.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Купить и скачать всю книгу
12

Другие книги автора

ВходРегистрация
Забыли пароль