В своей повседневной жизни мы имеем дело с разнообразными источниками информации – документами, изображениями, песнями, видеолекциями и др. Все они представляют собой регистрацию фрагментов общественной, экономической, производственной и бытовой реальности. Существуя в оцифрованном виде и становясь проводником информации, результаты этой регистрации представляют собой данные. Это оцифрованная информация, а большие данные – это огромные и сложно устроенные массивы информации.
Наблюдая за скачкообразной траекторией развития, которое информационные технологии совершили за прошедшие более чем полвека, отметим, что объём оцифрованных материалов, о которых шла речь выше, начал увеличиваться с поразительной скоростью. Данные «хлынули» сокрушительным потоком. Поиск способов обработать эти данные стал огромным вызовом для учёных. Однако в то же самое время мы с радостью обнаружили, что когда данные накапливаются до определённой величины, начинают обнаруживаться стоящие за ними объективные закономерности развития природы и общества и то, что человечество может посредством интеллектуального отбора (data mining) и анализа этих огромных по объёму материалов дифференцировать особенности и тенденции явлений, а также существующие между различными явлениями взаимосвязи и тем самым высвободить великую научную силу, которой наделены данные. По предварительным расчётам, на протяжении значительного времени в будущем ценность интеллектуального анализа данных в самых различных областях и соответствующий переход от данных к информации и далее к знаниям и стратегическим решениям станет основным направлением общественно-научной деятельности. Эпоха больших данных уже наступила.
И хотя не прошло ещё и десяти лет с тех пор, как человеческое общество вступило в эту новую эпоху, ценность больших данных увидели, не сговариваясь, во всех станах мира. Поскольку большие данные, с одной стороны, представляют собой основное производственное средство для перестройки социальной экономики и совершенный инструмент стимуляции производительных сил, а с другой стороны, центральную движущую силу инновационного развития государства, развитие и распространение технологии их обработки, как и развитие соответствующей культуры их использования, чрезвычайно актуальны и важны.
В общемировом масштабе цифровизацию экономики во многих странах считают важным драйвером для осуществления инноваций и развития. В нескольких передовых странах при этом появились программы развития больших данных, что возвело последние на уровень государственной стратегии. В этом отношении Китай, находящийся в первом эшелоне среди стран мира, обладает уникальным преимуществом в развитии больших данных. Это, с одной стороны, связано с отличающими Китай богатством источников данных, огромными масштабами рынка и высоким уровнем распространения Интернета. С другой стороны, со способностью аккумулировать силы для решения больших задач, что также обеспечило решение базовых вопросов по сбору и возврату данных и стандартизации больших данных.
Книга «Успешен тот, кто цифрами владеет: большие данные меняют Китай» – это актуальная работа, в которой в научно-популярном стиле углублённо и пристально рассматриваются те феномены и радикальные изменения, которые влекут за собой большие данные в настоящий момент. В этой книге раскрыты обладающие огромной ценностью сведения о применении больших данных в самых различных областях – от управления в обществе до предпринимательства и экономики, от транспорта и медицины до окружающей среды и экологии. Книга с её жизненными кейсами, отличающаяся мягким и выразительным стилем изложения и большим количеством размышлений и инсайтов, дала мне совершенно новое впечатление и оказалась весьма полезной.
У книги два составителя – Ту Цзыпэй и Чжэн Лэй. Ту Цзыпэй является одним из первопроходцев в сфере больших данных в Китае, он обладает огромным влиянием как тот, кто «прокладывал путь» большим данным и является автором серии посвящённых данной теме работ. Второй составитель книги, профессор Чжэн Лэй, на протяжении своей карьеры занимается научными исследованиями и консультациями по вопросам больших данных. И добился в этой сфере значительных результатов. Благодаря проделанной составителями кропотливой работе и глубокой проработке темы книга заслуживает высокой похвалы.
Как говорят авторы, новое развитие повлекло за собой новые вопросы, а возникшие в эпоху больших данных всеобщие вопросы в особенности заслуживают нашего внимания. Это, например, вопросы, касающиеся разрыва в использовании данных, безопасности данных, прав на данные, трансграничных потоков данных и защиты конфиденциальности. Только при условии решения этих вопросов становятся возможными более качественная экстракция и использование ценности данных и, как следствие, усиленная стимуляция экономической трансформации и развития, повышение уровня модернизации управления государством, создание новых конкурентных преимуществ страны в условиях сложной и разнородной внешней среды. Однако в настоящее время готовых решений для этих новых вопросов нет. Вот что сказал Ту Цзыпэй в своей книге «Цифровая цивилизация» («Шу вэньмин»): «Дорога к лучшему обществу всегда находится в процессе строительства. Их решение по-прежнему требует непрерывного осмысления и усилий со стороны научных, политических и производственных кругов».
Подводя итог, сейчас, когда большие данные только-только начинают менять Китай, давайте ожидать, приветствовать и строить эту новую эпоху.
Сюй Цзунбэнь, Академик Китайской академии наук
Человечество вступило в не имеющую аналогов эпоху больших данных. Развитие социальных медиа, мобильного Интернета и Интернета вещей принесло для человечества не имеющий аналогов лавинообразный рост объёма данных; в свою очередь прогресс технологий по их обработке и анализу сделал возможным невероятное развитие возможностей использовать огромные массивы данных. Благодаря этому человечество смогло лучше выявлять знания, улучшать возможности, создавать ценность, что принесло новые возможности развития во все крупные области: политику, экономику и науку.
Большие данные меняют мир и меняют Китай. В последние годы развитие индустрии больших данных не останавливается ни на день, непрерывно появляются новые методы работы, уровень совместного развития больших данных и реальной экономики уверенно повышается. Постоянно ускоряется и процесс снятия ограничений на совместное использование данных со стороны Правительства Китая, уже имеются первые результаты использования больших данных для повышения уровня административного регулирования, государственных услуг и общественного управления. Заглядывая в будущее, отметим, что Китай будет продолжать развивать объём рынка в сфере больших данных и ресурсные преимущества данных. Исследования и разработки ключевых технологий, можно надеяться, продолжат совершать прорывы, ведь процесс изменения Китая посредством больших данных только-только начался.
Итак, каким же образом большие данные меняют Китай сейчас ? Какие ещё будущие изменения они могут принести Китаю? Цель нашей книги как раз и состоит в том, чтобы ответить на эти вопросы. В первой главе книги мы поговорим о прошлом и настоящем больших данных, расскажем о стартовой точке эпохи больших данных и её особенностях. В последующей части книги (главы 2–10) мы поговорим об изменениях, которые, благодаря большим данным, произошли в девяти важных областях жизни Китая: начиная от сферы правительственных услуг и общественного управления, а также промышленного, коммерческого и финансового секторов и заканчивая непосредственно связанными с повседневной жизнью простых людей транспортной, образовательной и медицинской сферами. Во всех этих сферах экономической и общественной жизни страны можно увидеть позитивные изменения, привнесённые большими данными. В заключение мы заглянем в будущее больших данных, поговорим о том, что продолжит меняться, с какими трудностями мы столкнёмся в процессе изменений и что подвергать изменениям не следует.
Настоящую книгу как «углублённое научно-популярное» произведение отличают три особенности. Во-первых, это активное стремление к балансу между теорией и историями. Мы попытались посредством реальных кейсов и подлинных историй продемонстрировать широкому читателю те огромные изменения, которые большие данные в Китае привнесли в самые разные отрасли, в надежде тем самым расширить его кругозор и побудить к размышлениям. Однако кейсы и истории неотделимы от научных достижений и теоретических рамок китайской и зарубежной науки о данных, от компьютерной науки, теории управления информацией и государственного управления.
Во-вторых, это активное стремление к балансу между технической и гуманитарной сторонами. Несмотря на то, что фокус нашей книги сосредоточен на рассказе о научно-технических достижениях, мы считаем, что развитие науки и техники должно освобожать, а не связывать человечество. Исследуя технические возможности, мы не должны забывать о тепле человеческой цивилизации, нам следует призывать к уменьшению разрыва в данных, сохранению их конфиденциальности и противостоять связанным с ними предрассудкам. В центре развития больших данных должен быть человек, важно сохранять его права и авторитет, стимулировать его всестороннее развитие, удовлетворять его устремления к лучшей жизни, а не двигаться в противоположном направлении.
И наконец, это активное стремление к балансу между популяризацией, продвижением и переосмыслением. Несмотря на то что развитие больших данных в Китае переживает стремительный подъём и показывает блестящие успехи, мы всегда должны сохранять ясную голову и ни в коем случае не успокаиваться на достигнутом. Между реальным положением и идеалом всё ещё существует разрыв, и в текущем положении есть как достоинства, так и недостатки. На протяжении всей книги мы рассказываем о примерах успешного применения больших данных, но при этом рефлексируем и в отношении недостатков, проясняем возможные проблемы. Стимулирующая роль развития науки и техники для прогресса общества – это не бег на короткую дистанцию, но марафон. И чтобы ожидать устойчивости и долгосрочности, хватаясь за возможности и принимая вызовы, будем помнить, что следует заранее принимать меры предосторожности.
Надеемся, что уважаемый читатель получит наглядное и глубокое представление о тех огромных изменениях, которые произошли в Китае благодаря большим данным, будет всесторонне подготовлен к возможностям и вызовам, которые принесут нам большие данные в будущем, сможет поразмышлять о том, как должны изменяться и эволюционировать отношения между наукой и техникой, с одной стороны, и человеком – с другой.
Мы хотели бы в первую очередь поблагодарить коллектив авторов за тяжёлый труд, который они вели в течение полугода, поблагодарить главного редактора серии «Технологии меняют Китай» Академика Ни Гуаннаня за его внимательное наставничество. Без вас книга не состоялась бы.
Авторы книги живут в разных местах: Гуанчжоу, Шанхае, Сянтане, Наньнине. По причине удалённости мест проживания на этапе создания рукописи еженедельно проводились конференции в WeChat, на которых авторы обменивались своими достижениями, обсуждали спорные вопросы, делились мнениями. Членам авторского коллектива зачастую доводилось править и шлифовать текст сверхурочно, по ночам, в выходные и праздники. Все члены команды прилагали максимум усилий во время подготовки текста, тщательно его дорабатывали.
В настоящей книге одиннадцать глав. Первая и шестая главы написаны Ту Цзыпэем, вторая глава написана Ван Сяном (докторант Фуданьского университета), третья глава – Чжу Сяотин (Фуданьский университет), четвёртая глава – Вэнь Цзюйцином (Фуданьский университет), пятая глава – Ту Сыцзин (Университет китайской традиционной медицины Гуанси-Чжуанского автономного района), седьмая – Доктором наук Е Цзюньцзе (компания «Шу вэньмин кэчжи»), восьмая – Чжу Сяотин и Ту Сыцзин, девятая – Ду Вэйси и Ли Нанем (компания «Шу вэньмин кэчжи»), десятая – Чжан Бинцзянем и Ши Даи (компания «Шу вэньмин кэчжи»), одиннадцатая – Ван Сяном и Чжэн Лэем. Общая рукопись всей книги была подготовлена Ту Цзыпэем и Чжэн Лэем.
Выражаем благодарность компании «Шу вэньмин кэчжи», а также сотрудникам и коллегам лаборатории цифрового и мобильного управления Фуданьского университета и коллегам из профессиональной сферы за их поддержку в создании настоящей книги. Ли Нань содействовал редактуре и подготовке текста к печати, контролировал план-график проекта; Дэн Чжисинь внёс ценные замечания касательно редактуры некоторых глав. Огромную поддержку для проведения опроса в процессе создания книги оказал председатель правления компании «Чжухай исыцзя» Ван Дэю. Также особо благодарим Ван Вэя, Хэ Жуйцзюня и других редакторов издательства «Жэньминь Юдянь чубаньшэ» за высказанные ими конструктивные предложения при подготовке рукописи. Они проделали предельно кропотливую работу, для того чтобы эта книга увидела свет.
Мы также благодарны за предоставленную нам честь и возложенную на нас ответственность внести данной книгой свой вклад в чествование семидесятой годовщины со дня основания Китайской Народной Республики. Мы прекрасно понимаем, что данная книга даёт лишь небольшое, промежуточное, представление о развитии больших данных в Китае. Наши знания и способности, безусловно, ограничены, истории и теоретические положения, представленные в книге, едва ли являются полными, поэтому мы с радостью примем замечания и поправки от уважаемых читателей.
В эпоху интернет-экономики данные являются новым производственным фактором, основополагающим и имеющим стратегический характер ресурсом и важной производительной силой.
Научное суждение, сделанное Председателем Си Цзиньпином во время второй коллективной учебной сессии Политбюро ЦК КПК
[2]
В традиционном понимании «численные данные» – это «обоснованные числа». Числа появились потому, что человек в своей практической деятельности обнаружил: описание существующей реальности с помощью только устного и письменного языка и изображений не является точным и средств этих недостаточно. Так, если на вопрос: «Насколько Яо Мин высокий?» – ответить: «Очень высокий», «Необыкновенно высокий» или «Самый высокий», – спрашивающий о росте баскетболиста сможет составить лишь абстрактное представление, ведь каждый по-разному понимает «очень», да и понятия «необыкновенно» и «самый» тоже являются относительными. При этом ответ «2,26 метра» ни малейшей неопределённости не оставит. Числа не только описывают реальность, но и являются важным инструментом её изменения. Можно сказать, что вся производственная и обменная деятельность человека базируется на численных данных: именно они лежат в основе системы измерения и денежной системы, изобретение и возникновение которых в значительной мере содействовало прогрессу человеческой цивилизации.
Как показано на рисунке 1.1, выделяют такие источники численных данных, как измерение, регистрация и вычисление. Первоначально численные данные получают в ходе измерений, и так называемые «обоснованные числа» – это регистрация результатов измерений объективной реальности, а не что-то произвольным образом возникшее. С древности и до наших дней измерение является ведущим методом научного исследования. Без измерений не было бы науки; можно также сказать, что сущностью науки в целом являются измерения. В этом отношении значение численных Три основные источника численных данных Измерение Регистрация Вычисление данных для науки сопоставимо со значением языка для литературы, нот для музыки, формы и цвета для изобразительного искусства, – в отрыве от численных данных наука невозможна.
Рисунок 1.1. Источники численных данных
Помимо измерения и говорящей самой за себя регистрации данных новые численные данные также появляются из уже имеющихся посредством вычислений. И измерения, и вычисления осуществляются людьми, иными словами, в реальном мире чисел не существует, все данные – это то, что произведено человеком. Значение слова «первичный» в выражении «первичные данные» совсем не то же, что в выражении «первичный лес». «Первичный (первобытный) лес» – это лес, существующий в созданном природой виде, тогда как «первичные данные» – это всего лишь данные, полученные из первоисточника и не изменявшиеся человеком.
Рисунок 1.2. Данные, информация, знания
Как показано на схеме 1.2, в традиционном понимании, «данные», «информация» и «знания» – это совершенно разные понятия. Данные являются проводником информации, информация представляет собой данные с контекстом, а знания – это конечная информация, обладающая закономерностями, полученными в результате произведённых человеком обобщения и упорядочивания.
В 60-е годы 20 века, когда наблюдался огромный прогресс в теории программного обеспечения, были изобретены базы данных. После этого численные данные, тексты и изображения стали без дифференциации храниться в базах данных компьютеров, единицей, в которой осуществлялось хранение, был «бит», а значение слова «данные» начало расширяться. Понятие «данные» указывает не только на являющиеся результатом измерений числовые значения, то есть «числовые значения измеряемой величины», постепенно оно стало общепринятым обозначением «чисел, текстов, изображений, аудио и видео», то есть синонимом «информации». Поскольку такая информация существует как своего рода свидетельство и базис, её можно назвать «опорными данными».
Исходя из этого автор считает, что определение понятия «большие данные» достаточно ясно и точно выражает следующая формула:
Большие данные = традиционные числовые + современные значения измерений опорные данные
(Источником количественных данных являются измерения, как в случае с температурой 28° C; источником опорных данных является регистрация, как в случае с фотоснимком, например.)
Хотя количественные данные ближе к «числам», чем опорные данные, с исторической точки зрения последние возникли раньше, чем первые. Регистрация событий собственной жизни, которую человек вёл уже в древние времена, так называемые «летописи», и есть ранние опорные данные, можно даже сказать, что опорные данные – это тень истории. Количественные данные в практике регистрации событий и явлений реальности появляются медленно, их ключевой смысл заключается в точности. Обилие или, напротив, нехватка количественных данных напрямую определяли возможность науки развиваться. Если отталкиваться от этой точки зрения, источники данных – это уже не только измерения реальности, но и её регистрация. Таким образом, в информационную эру добавился ещё один источник данных – регистрация.
С её наступлением данные стали синонимом информации, и оба слова могут использоваться как взаимозаменяемые. Несмотря на то, что, например, письмо содержит много информации, с технической точки зрения она может представлять собой «единицу данных». Сфера «Данные» в современном толковании шире, чем сфера «Информация» (показано на рисунке 1.3).
Рисунок 1.3. Категории современных данных
Наряду с расширением внутреннего содержания понятия и созданием баз данных возникло ещё одно важное явление – непрерывное увеличение объёма данных, происходящее при этом с постоянно нарастающей скоростью.
Для описания названного феномена в 80-е годы ХХ века один американский специалист предложил использовать понятие «большие данные». И хотя в то время эпоха «большого взрыва данных» ещё не началась, некоторые специалисты были способны предсказать, что вслед за прогрессом информационных технологий важность программного обеспечения будет снижаться, а важность данных, напротив, возрастать. В те годы определение «большой», как и в случае с выражениями «большой человек», «большой шаг», главным образом имело ценностное значение. В 21 веке, особенно после возникновения социальных медиа в 2004 году, объём данных начал увеличиваться как при большом взрыве: как показывают данные компании International Data Corporation (IDC), в период с 2011 по 2018 годы объём общемировых данных увеличился в 18 раз, и вопрос формулировки понятия «большие данные» снова попал в поле зрения широких масс и привлёк к себе пристальное внимание. В этот период значение определения «большой» стало ещё более широким и указывало и на большой объём, и на большую ценность.
И всё же насколько большие данные могут называться «большими»? За десять с небольшим прошедших лет по этому вопросу велось огромное множество споров. Ответ на него в первую очередь связан с размерами единиц измерения данных. В 2000 году, как правило, считалось, что большие данные – это данные, измеряющиеся в терабайтах. В тот период предприятий, где использовались бы данные терабайтного порядка, было представлена текстами, изображениями и музыкой, стал настолько велик, что традиционным предприятиям было бы немыслимо достичь того же уровня.
УГЛУБЛЁННЫЙ ВЗГЛЯД
Разберёмся в нескольких важных единицах хранения информации
Одна песня со стандартным качеством звука – это 4 мегабайта (Мб).
Один фильм со стандартным качеством графики – это 1 гигабайт (Гб, 1 гигабайт = 1024 мегабайтам, то есть размер фильма равен размеру 250 песен со стандартным качеством звука).
Книжный фонд обычной библиотеки – это 1 терабайт (Тб, 1 терабайт = 1024 гигабайтам, это размер 1024 фильмов со стандартным качеством графики).
В действительности лавинообразное увеличение объёма самых разнообразных данных наблюдается не только в интернет-индустрии, но и во множестве других отраслей и индустрий, с единственным отличием – в масштабе. Если критерии больших данных ограничить исключительно интернет-индустрией и считать, что они используются только в ней, это серьёзно сузит смысл понятия «большие данные». В конце концов объём – это только одно проявление, а сущностью больших данных является как раз их ценность, и при этом большой объём совсем не обязательно представляет большую ценность. Подлинное значение больших данных заключается всё же в большой ценности, которая, в свою очередь, приобретается прежде всего за счёт консолидации, анализа и открытия данных. С этой точки зрения подлинное значение больших данных состоит в том, что человек, получив беспрецедентные возможности для использования огромного массива данных, выявил в них новые знания, создал новые ценности и тем самым принёс обществу «большое знание», «большую науку и технику», «большую эффективность», «большой интеллект» и другие возможности для развития.
Выше мы обсудили понятийное различие между «данными» и «большими данными», однако самый лучший способ постичь какое-либо понятие – это понять его происхождение в динамике. Формирование больших данных объясняется не только прогрессом в информационных технологиях, но и результатом того влияния, которое оказывали друг на друга многочисленные достижения, сделанные в разное время в области информационных технологий.