Гугл предложил предельно простое решение: использовать перекрестные гиперссылки между страницами для уточнения метрики.
Такой метод очень прост технически. Не нужно изобретать сложные метрики. Кроме того, этот способ ранжирования по-человечески очень понятен, подобен тому, как сам человек ранжирует поступающую к нему информацию.
Мы всегда стараемся не погружаться в реальный, самостоятельный анализ, а воспользоваться чьей-то рекомендацией. Нам необходимо услышать от другого человека, что хорошо, что плохо. Более того, мы ранжируем и самих рекомендателей, одним мы верим больше, чем другим.
Соответственно этому, Гугл предложил каждой странице присвоить перекрестный индекс, который зависит от двух факторов. Во-первых, от числа страниц, на которых есть ссылка на данную страницу. Во-вторых, от индекса страницы, на которой есть ссылка. Чем больше индекс ссылающейся страницы, тем больший вклад она дает в измерение индекса, также, как в человеческой деятельности.
Первая партия страниц получила индекс «руками», через оценку экспертов. Вероятно, число таких страниц измерялось тысячами. Индекс для остальных страниц получался уже измерением.
Снова напомним, точная формула поискового алгоритма неизвестна. Даже для этой простой математической зависимости по перекрестным индексам. Известен, лишь качественный вид формулы. Чем больше ссылается страниц, тем выше вычисляемый индекс. Чем больше индекс у ссылающейся страницы, тем больше получается индекс у измеряемой страницы.
Вместе с тем, индекс для каждой страницы известен. Поисковые компании раскрывают значение индекса.
Индекс называется перекрестным, так как страницы влияют друг на друга своими индексами.
Яндекс сравнительно быстро перенял изобретение Гугла и ввел свой индекс. Сейчас индекс Яндекса называется ИКС – Индекс Качества Сайта.
Появление перекрестного индекса перевернуло мир информационных технологий. Релевантность стала приобретать коммерческую осязаемость. Поиском можно было пользоваться. Практически одновременно и как раз вследствие релевантности возникла контекстная реклама, что позволило Гуглу прорваться в число самых богатых компаний мира, а Яндексу стать самой капитализированной ИТ компанией России.
Перекрестный индекс не только сделал поиск привлекательным, но и открыл большую семантическую войну. По своей силе, бескомпромиссности и длине эта война превзошла все хакерские сражения.
Интернет стал нести маркетинговые функции с самого начала своего возникновения. Первой появилась массовая реклама по аналогии с ТВ рекламой. В массовой рекламе рекламодатель размещает свои баннеры на чужих сайтах. Эффективность массовой баннерной рекламы невелика. Здесь нет жесткой увязки с целевой аудиторией.
Сравнительно быстро стал понятен главный маркетинговый эффект от Интернета, на порядки важнее банального баннера. Те компании, сайты которых попадали в первую десятку поисковой выдачи, получали грандиозные преимущества. Точно также на первую страницу можно было попасть и за счет контекстной рекламы, но пользователь понимал, что это оплаченное объявление. Если же пользователь видит компанию на первой странице, то неизбежно появление подсознательного доверия и такого же не контролируемого сознанием желания перейти на сайт из первой десятки.
В этот момент и возник конфликт. Оказалось, что поисковик можно обмануть и попасть в первую десятку за деньги, которые существенно меньше затрат на контекстную рекламу. После этого война была неизбежной.
Технологически обман стал возможен как раз в силу простоты перекрестного индекса. Поначалу обман был простейшим. Регистрируется 100 сайтов и на них размещаются пара страниц со ссылками на сайт компании.
Поисковые компании ощутили громадную угрозу и открыли ответные действия. Самый простой и очевидный способ противодействия – появление черных списков. Та самая сотня пустых сайтов мгновенно заносилась в черный список. В ответ появилась индустрия обмана. Называлась, правда, индустрия вполне прилично: SEO, Search Engine Optimization. Война шла примерно 15 лет. Флаг успеха попеременно переходил от одной стороны к другой. На данный момент война завершается победой поисковиков, так как затраты на обманную оптимизацию становятся сравнимыми с затратами на прямую рекламу.
Война с поисковыми компаниями, как и любая другая война вызвала тектонические изменения во всех аспектах, хоть как-то связанных с информационным вооружением.
Прежде всего, поисковые компании были вынуждены засекретить все детали поискового алгоритма.
Точно также страны засекречивают детали своего оружия. В результате сейчас поисковые компании попали в ловушку. Как раз сейчас, после победы в войне поисковики могли бы привлечь к себе дополнительное внимание, если бы раскрыли тайны применяемого цифрового интеллекта, но не могут, традиция конфиденциальности не позволяет и, вероятно, долго не будет позволять.
Война стимулировала мощное развитие информационных технологий, причем с обеих сторон. Поисковые компании непрерывно искали новые механизмы. SEO компании заставляли делать достойные сайты.
Оптимизаторы стали санитарами Интернета, которые безжалостно вырезали больные организмы.
Самое интересное и где-то смешное состоит в том, что сами оптимизаторы оказались виновны в своей смерти. Впервые цифровой интеллект был применен не для ранжирования, а как раз для распознавания обманок.
Война вынудила трансформироваться и самих оптимизаторов. Из банальных мошенников они были вынуждены преобразоваться в высоко профессиональные компании.
Вывод:
взаимодействие с интеллектом поисковых машин неизбежно будет сопровождаться некоторой неопределенностью, вызванной политикой секретности поисковых компаний.
Поисковики начали побеждать не только за счет черных списков. Важную роль стал играть масштаб поисковых компаний. Ресурс поисковых компаний становился намного больше ресурса оптимизаторов. Оптимизаторы искали дыры в защите, а поисковики могли давить своей мощью.
Особым образом масштабность поисковых компаний проявилась в технологии BigData. Под «большими данными» понимают возможность выявления новой информации посредством анализа больших объемов информации.
Простейший пример подобного анализа видели все посетители Интернет-магазинов, когда на сайте появляется объявление: «с этим товаром также покупают и вот эти товары…». Наверняка, многие видели, как стоит поинтересоваться одним товаром и потом реклама похожих товаров начинает тебя преследовать.
Есть более сложные связи. Например, покупатель книги X скорее всего проголосует за кандидата Y, что является основой для последующих политических манипуляций. Покупателю книги Х начинают подсовывать кандидатов из класса Y. Именно с этим связаны скандалы Фейсбука и других, когда заказчикам продавались адреса потенциальных избирателей.
Мало кто знает, что у Яндекса, и у Гугла есть феноменальная возможность следить за всеми пользователями в Интернете. Этой возможности, вероятно, нет у секретных служб.
Попробую пояснить как это происходит технологически. В русском Интернете, вероятно, несколько миллиардов страниц. Может быть, больше 20. В любом случае, это уже гигантское число. Ключевым фактом является прямая связь этих страниц с поисковыми компаниями.
Большинство страниц на значимых сайтах имеют невидимые пользователю вставки от Яндекса и от Гугла.
Как только пользователь загружает себе на компьютер страницу из 20 миллиардов эти шпионские вставки посылают короткий отчет в Яндекс и в Гугл: «такая-то страница загружена на такой-то адрес в такое-то время». Когда пользователь закрывает страницу, шпионы также сообщают «пользователь закрыл страницу в такое-то время».
Первое, что получает поисковик – это информация о времени просмотра страницы. Пользователь может сразу покинуть страницу и этот факт называется отказом.
Именно по отказам легко вычислять обманные страницы от оптимизаторов – их никто не читает. Наоборот, страница, которую смотрят долго, может быть отнесена к интересным страницам.
Дальше начинается самое важное. В отчете, который получают Яндекс и Гугл, содержится и адрес пользователя, так называемый IP адрес, комбинация из 12 цифр. Все пользователи Интернета получают свой уникальный адрес при входе в Интернет. Даже если этот адрес по статусу является динамическим, фактически он остается постоянным в силу особенностей работы Интернет каналов.
Наличие адреса позволяет накапливать информацию о загрузках пользователя. Возникает потрясающая ситуация:
база данных поисковиков помнит все загрузки на каждом адресе!
Это и есть настоящая BigData.
Имея в своем распоряжении такую базу, можно вычислять массу информации о пользователе. Точнее говоря о владельце IP адреса. Самое банальное, Яндекс и Гугл могут вычислить возраст и пол пользователя. Для этой цели выбирают, скажем, 10 тысяч самых популярных сайтов. Эксперты разделяют их по группам. Одна группа страниц нравится молодежи 19-20 лет, другая группа нравится женщинам и в той же логике дальше. У нас получаются «молодежные» сайты, «женские» или «мужские». Теперь берем список загрузок пользователя. Если пользователь читает «женские» сайты, значит он женщина, по крайней мере, он женщина с высокой вероятностью. Точно также и в отношении возраста.
Дальше действует обратная логика. После того, как определен тип пользователя, можно анализировать загружаемые страницы. Например, страницы, которые загружает пользователь-женщина, можно назвать женскими страницами. Страницы, которые загружает школьник старших классов, можно называть школьными.
Благодаря BigData поисковики получили возможность позиционировать страницы не только по наборам текстовых символов, не только по перекрестному индексу, но и по оценке, которую страницы получают от пользователей. Другими словами, семантическая метрика получила дополнительный компонент.
Следует уточнить понимание шпионского характера вставок от Яндекса и Гугла. Если Вы впервые узнали о шпионстве от Яндекса и Гугла, не стоит сразу возмущаться. На самом деле, называть поисковые вставки шпионами не совсем корректно. Вставки возникают абсолютно легально. Они, действительно, автоматически собирают и отсылают информацию в Яндекс и Гугл, но появляются вставки по доброй воле владельцев сайтов. Это добровольная хозяйственная сделка между владельцем сайта и Яндексом или Гуглом. Владелец соглашается на размещение вставок, а поисковики делятся с владельцем маркетинговой информацией о пользователях. То есть, это информационный бартер, никто никому ничего не платит, просто обмениваются информацией.
Владельцы Интернет магазинов получают от поисковиков массу информации о посетителях своего сайта: возрастной состав, деление на мужчин/женщин, география, ссылки и т.д. Какие страницы ссылаются на магазин. С каких страниц приходят посетители.
У компании Яндекс есть два ресурса, прямо участвующие в сборе данных пользователях:
Вебмастер https://webmaster.yandex.ru/
Яндекс-Метрика https://metrika.yandex.ru/
Большие данные имеют прямое отношение к работе цифрового интеллекта. Все пользователи работают бесплатными экспертами для поисковых компаний. Только два параметра – число загрузок страницы и время пребывания на странице – позволяют строить оценку странице.
Вывод:
пользователи непроизвольно ставят оценки веб-страницам; эти оценки собираются в гигантскую базу данных поисковых компаний.
Вслед за BigData или даже одновременно поисковики начали применять искусственный интеллект. Еще одна причина обращения к цифровому разуму – это тесное технологическое соприкосновение Больших Данных и цифрового интеллекта.
Современная наука о цифровом интеллекте относится к числу сложнейших наук. Полагаю, передовые достижения этой области могут освоить лишь специалисты с уровнем образования не ниже, чем аспиранты лучших математических факультетов. Просто для общей информации приведу названия разделов в этой науке: машинное обучение; нейронные сети; глубокое обучение; обучение с учителем; предсказание категории; регрессия; кластеризация; выявление зависимости.
Вместе с тем, начальное взаимодействие с цифровым интеллектом очень похоже на воспитание ребенка. Вспомните как ребенка учат выбирать кубики по цвету, или собирать кольца в пирамиду. Ровно эта же процедура применяется в цифровом интеллекте. Машину обучают применять осмысленные решения.
Вот совсем элементарный пример, полностью для чайников, см. следующий рисунок. На вход компьютера поступают объекты в виде привычных нам букв (строка №2). Каждый объект пронумерован цифрами (строка №1). Компьютер должен отобрать те буквы, которые нравятся. Понятно, что категория «нравится» полностью субъективна. Одному нравится, другому нет. Именно по этой причине возникает обучение компьютера. На первых объектах, с номерами от 1 до 7 компьютер переводится в режим обучения. Оценки ставит специальный эксперт, который в цифровой науке имеет еще звание «учитель». Если буква нравится эксперту, он ставит плюс (см. строку №3). Если не нравится, ставит минус. Компьютер устроен так, что может анализировать действия учителя и выявлять причину, по которой одни объекты нравятся, другие нет. В данном случае, причина находится мгновенно, нравятся буквы зеленого цвета.
После процесса обучения компьютер переводится в режим обработки входящих объектов и машина должна самостоятельно, без помощи учителя дать оценку.
Следующий пример также связан с обучением, но объекты немного сложнее. На вход компьютера поступают наборы из 5 символов. Например, так может выглядеть один из наборов:
А Б Н Ф В
Учитель из этого набора делает новый набор:
Б Ф А Н В
В процессе обучения учитель демонстрирует компьютеру несколько подобных примеров из объектов разного начертания. Здесь, как и в предыдущем примере, нетрудно догадаться, что учитель расставляет буквы по жирности шрифта. Сначала буква с самым жирным шрифтом, затем оставшиеся. Современные компьютеры легко решают подобные «детские» задачки.
Следующий пример алгоритмически похож на приведенные «детские», но является абсолютно практическим. В каждом банке перед выдачей кредита надо оценить надежность заемщика, какова будет вероятность невозврата кредита. Кроме традиционных банковских методов, в наше время привлекаются и цифровой интеллект. Первым делом проводится обучение компьютера по реальной базе данных банка. В базе хранятся тысячи профилей заемщиков. В каждом профиле содержатся значения: возраст, образование, должность, уровень зарплаты, впечатление менеджера банка. То есть, профиль выступает объектом на входе интеллекта. В качестве «учителя» выступает сама жизнь, ведь, по каждому профилю имеется факт: возврат либо невозврат кредита. В задачу искусственного интеллекта входит классификация профиля на группы. В простейшем случае возможны лишь две группы: группа с высоким риском невозврата и группа с низким риском невозврата. Более сложные алгоритмы могут присваивать профилю уже численное значение вероятности невозврата.
Еще один известный многим пример цифрового интеллекта связан со спамом. Сейчас на многих почтовых серверах стоит анализаторы текста писем, которые лишь на основе текста писем определяют принадлежность письма к спаму. Особым зверством отличается gmail.com, иногда и нормальные письма попадают в папку со спамом.