После победы компьютера в чемпионате на скорость сложения считалось, что компьютер может побеждать в простых операциях, но в сложной интеллектуальной работе человек не победим. Долгие века символом такой насыщенной интеллектом деятельности считалась игра в шахматы. Даже по способности играть в шахматы оценивали уровень интеллекта.
Понятно, что для компьютерных разработчиков шахматы стали следующей мишенью. Прежде всего, в силу формализуемости шахмат, все шахматные правила легко переводятся на язык формул математики и логики. Появилась цель объявить шахматный чемпионат «машина-человек» и выиграть у чемпиона мира. Это свершилось уже в далеком 1996 году, когда чемпион мира по шахматам Г. Каспаров впервые проиграл матч специально разработанному шахматному компьютеру Deep Blue. В наше время специальный компьютер уже не требуется. Программа в обычном смартфоне обыграет большинство людей.
Не стоит думать, что тема цифрового интеллекта, а точнее человекоподобных систем возникла лишь в последние годы. На самом деле, тема существует уже лет 60-70, правда, без громкого медийного сопровождения. Мощным стимулом было военное соревнование США – СССР. Скажем, «распознавание образов» впервые возникло как задача заблаговременного распознавания ядерной атаки. Атакуемая сторона имеет всего лишь 20 минут для принятия решения при появлении первичных сигналов об атаке. Это реальная атака, или ложное срабатывание. В силу ограничений по времени, лишь машина может получить какое-то решение. Человек может быть и является финальным контролером, но анализ всех сигналов может производить лишь машина. В те годы этой задачей занимались масса ученых и инженеров и в СССР, и в США. В наше время теория распознавания образов применяется в массе приложений. В частности, в практике распознавания лиц в системе уличного видеонаблюдения. С точки зрения технологии распознавание ракет или установление человеческих лиц вполне подобны.
Одновременно с распознаванием образов возникло немало так называемых экспертных систем. Чем выше цивилизационный уровень страны, тем выше ценность главного ресурса – экспертности. Настоящих экспертов начинает банально не хватать по мере роста собираемой информации.
Соответственно, еще 50 лет назад возникла задача замены экспертов цифровыми алгоритмами.
Простейший пример связан с анализом геологической разведки. Полезные ископаемые можно искать простейшим способом – пробурить через каждый километр скважину глубиной 5 км. Достать образцы грунта и провести их полный анализ. Способ хороший, но невозможный ввиду безумной дороговизны. Есть методы дешевле. Например, акустическая разведка. Делается малый взрыв на поверхности. Территория вокруг центра взрыва заполняется множеством датчиков, который записывают прохождение звука через землю. Аналогично можно проводить электроразведку. Здесь возникает задача восстановления подземной структуры по данным от датчиков. В какой-то степени такая разведка напоминает медицинский метод МРТ по сканированию внутренностей человека. МРТ диаграмму расшифровывает специальный врач. С данными геологической разведки сложнее. Тут нужно либо множество экспертов, либо специальные цифровые алгоритмы. Подобные экспертные системы давно созданы. В любой серьезной геологической компании могут показать 3D модель реального месторождения.
Сейчас в Интернете представлено громадное число материалов по искусственному интеллекту. Можно самостоятельно поискать и подобрать материалы с необходимым уровнем погружения в проблему.
В качестве следующего после этой книги шага автор мог бы порекомендовать весьма серьезное интервью, которое Ольга Ускова дала Владимиру Познеру, https://youtu.be/sMd5idtt4TM . Для справки: О. Ускова, известная российская предпринимательница. Еще в 1992 году она стала основателем фирмы Cognitive Technologies, https://www.cognitive.ru/ . Нетрудно видеть близость названия компании к теме цифрового разума.
Вывод:
всякий раз, говоря о проявлении искусственного интеллекта, на самом деле мы имеем в виду какую-то ограниченную часть деятельности, где работа компьютера оказывается подобной работе человеческого мозга, где компьютер дает результат, подобный результату от человека.
Взглянем на работу поисковых компаний с учетом небольшого ликбеза про цифровой интеллект, а точнее про человекоподобные системы, представленный в предыдущих разделах. Понятно, что под поисковыми компаниями имеются в виду два основных монстра, Яндекс и Гугл.
Для начала отметим неудачность термина «поиск». Этот термин в равной степени относится и к простому текстовому поиску, и к работе сверхмощного поискового алгоритма, основанного на самой современной, высоко профессиональной математике. Приставка «поисковые» появилась у поисковых компаний и у поисковых технологий с самого первого дня их появления в мире. Вероятно, из-за кнопки «поиск» на странице создания текстового запроса. На тот момент приставка была адекватной. Теперь алгоритм поисковых компаний только в малой степени связан с поиском, тем не менее, названия остались и компании не хотят их менять в силу очевидных маркетинговых традиций.
Посмотрим на результат поиска компанией Яндекс в ответ на запрос «ипотека».
Мы сразу видим поражающий воображение факт. Более 700 миллионов веб-страниц содержат в своем тексте слово «ипотека» в той или иной словоформе. Примерно по 5 страниц на каждого жителя России, включая младенцев. Как будто мы все озабочены только ипотекой. Из этого безумного числа алгоритм Яндекса выбрал 10 страниц, что показаны на самых верхних позициях в поисковой выдаче. По мнению Яндекса – это самые важные страницы из ипотечной вакханалии. Самые полезные и информативные для пользователя
Каждый из читателей может легко повторить этот эксперимент и легко проанализировать каждую ссылку из первой десятки. Уверен, абсолютное большинство экспериментаторов сделают одинаковый вывод:
все 10 ссылок сильно привязаны к теме ипотеки.
Задумаемся над результатом. Задача «найти страницы со словом ипотека» является логически простой. Пусть на выходе получается 700 миллионов страниц, но алгоритм вполне понятен. Читаем текст каждой страницы, если есть слово, включаем в список, нет слова – отбрасываем. Как из этого числа получить 10 самых лучших страниц. Существует ли простая формула, пусть длинная, но логически простая, в которую подставляешь слово «ипотека», а на выходе получаешь список из 10 страниц? Автору данной книги подобная формула неизвестна. Как я понимаю, здесь применяются сложные алгоритмы из самой современной математики.
Поскольку общую формулу обозреть невозможно, давайте немного иначе взглянем на работу поискового алгоритма. Попробуем увидеть аналогию с ограниченным тестом Тьюринга. Представим, что параллельно алгоритму Яндекса работает эксперт-человек. Забудем о невозможности прочитать 700 миллионов страниц, допустим, это возможно. После прочтения 700 миллионов страниц эксперт должен составить свою десятку веб-страниц, которые наиболее подходят в качестве отклика на поисковый запрос. Алгоритм отбора может быть попарным, как в кубковых соревнованиях. Эксперт сравнивает две страницы, и из двух страниц отбирает ту, где лучше отображена тема ипотеки. Из двух победителей снова отбирается лучшая, и так до тех пор, пока не останется 10 страниц. Понятно, что отбор будет отражать субъективное мнение эксперта, но сам алгоритм логически понятен и вполне корректен.
Задание можно повторить с большим числом экспертов. Лучшие десятки от всех экспертов можно объединить и сформировать единую лучшую десятку. По мнению автора данной книги, лучшая десятка от экспертов совпадет с десяткой Яндекса. По крайне мере, между ними будет сильная близость (корреляция).
Читатель может самостоятельно повторить данный анализ. Для этого придется потратить некоторое время и проверить страницы с номерами 10-100. Уверен, читатель убедится, что страницы из первой десятки лучше соответствует теме ипотеки, чем страницы из последующих десяток.
Получается, что ответ Яндекса неплохо совпадает с ответом эксперта, пусть и виртуального. Другими словами, алгоритм Яндекса проходит ограниченный тест Тьюринга в случае запроса на слово «ипотека», что означает:
ответ Яндекса становится человекоподобным! Если хочется, можно говорить о том, что ответ Яндекса приготовлен цифровым интеллектом.
Можно также дать близкую формулировку: ответ Яндекса становится осмысленным. В ответ вложен смысл.
Следует отметить, что автор данной книги осознанно взял в качестве пример запрос на слово «ипотека». Можно привести запросы, где проявления интеллектуальности еще более эффектные, правда, и более спорные. Вместе с тем, все еще есть запросы, где первая десятка вызывает явные вопросы. Начинаешь думать, как эти страницы могли сюда пролезть. Ответ простой: пока технология Яндекса действует с неравномерной эффективностью. Похоже, важные слова, с высокой частотой использования, подвергаются более тщательному анализу.
Вывод:
на 2019 год поисковый ответ становится человекоподобным и осмысленным, подобно тому, если бы ответ был подготовлен человеком.
В предыдущем разделе демонстрация отклика Яндекса на ипотечный запрос могла вызвать сомнение у читателя. Зачем демонстрировать какой-то отклик, анализировать его свойства, самостоятельно искать некую формулу. Просто покажите официальную страницу Яндекса, на которой описан алгоритм, дана формула отклика.
Оказывается, узнать эту формулу невозможно: ни у Яндекса, ни у Гугла, ни у любого иного, менее статусного поисковика. Все компании хранят свои поисковые технологии примерно также, как Россия и США хранят ядерные секреты – максимально защищенно. Никакой свободой, никаким открытым кодом здесь и близко не пахнет.
Основная информация у нас, у пользователей возникает методом обратного инжиниринга. Обратным инжинирингом или реверс-инжинирингом называют набор приемов для анализа работы неизвестного устройства, если хотите, черного ящика. Экспериментатор подает на вход ящика сигналы и смотрит на реакцию ящика. Для вскрытия секретов поисковых технологий разработчики веб-страниц делают экспериментальную страницу и анализируют позицию страницы в поисковой выдаче. После серии подобных экспериментов можно получить усеченную копию алгоритма поисковой системы. Какой-то информацией специалисты по реверсу делятся с коллегами, какую-то, как и поисковики, скрывают.
Какую-то обрывочную информацию все же можно получить из нечастых заявлений Яндекса и нескольких интервью топовых работников Яндекса. Среди этих материалов можно выделить пару важных ссылок.
В августе 2017 года Яндекс представил новую версию поискового алгоритма «Королев», https://yandex.ru/korolev/ . В презентации прямым текстом подчеркнуто:
1. Яндекс сравнивает технологию «Королев» с полетом первого спутника в космос. Тем самым, Яндекс подчеркивает символичный отрыв от прежних технологий.
2. Впервые Яндекс начинает искать не по словам, а по смыслу во всем тексте.
3. Яндекс неоднократно говорит о работе искусственного интеллекта.
4. Яндекс подчеркивает переход от простого поиска к ранжированию.
Яндекс не использует термин «пострекламная эра», но аналогия со спутником де-факто подчеркивает коренной перелом.
В ноябре 2018 года Яндекс объявил, что в алгоритм Королев внесено более 1000 изменений. Интересно, что Яндекс прервал многолетнюю традицию и перестал давать имена алгоритмам по названиям городов. Говорят, Яндекс перестал «играть в города». Теперь алгоритм имеет название «Андромеда». Яндекс как бы подчеркивает: полет в космос состоялся. Отныне названия будут иметь космическое происхождение https://yandex.ru/blog/yatechnologies/yandeks-predstavil-obnovlennyy-poisk-andromeda
Секретность поисковых компаний возникла не на пустом месте и имеет объективную причину. Поисковые системы возникли практически одновременно с появлением Интернета, разница лишь в несколько лет. Первоначально поисковики просто искали слова в тексте. Точно также, как можно искать слова в тексте данной книги. Затем возникла проблема словоформ, особо важная для языков со склонениями, как в русском языке. Простой поиск в тексте ищет абсолютно точное совпадение. Если в этом абзаце искать «слоформа», то точный поиск не найдет совпадений, а так называемый морфологический поиск найдет. Для русского языка Яндекс первым решил проблему, что обеспечило ему победу над другими русскоязычными поисковиками.
Затем возникла и продолжает постоянно существовать проблема релевантности. Веб-страниц становится безумно много. Надо как-то отбирать самые существенные, самые полезные или как принято говорить самые релевантные страницы.
Самый простой способ ранжирования страницы связан с использованием частотных словарей, ключевых слов и грамматической структуры текста.
Частота слова подсчитывается примерно так. Берем тысячу произвольных текстов и считаем сколько раз в этих текстах использовано данное слово. Число встреч делим на тысячу и получается частота слова. Лингвисты показали, что во всех языках действует закон примерного постоянства частот. Если мы возьмем другую тысячу текстов, то в ней слова получат примерно такие же частоты. Можно выбрать тысячу текстов с неким ограничением, скажем, на медицинскую тематику. Отраслевые частотные словари будут, естественно, отличаться от универсального частотного словаря, но для них также действует закон постоянства частот. Слова с самыми большими частотами становятся ключевыми словами. По их присутствию в тексте можно как-то измерять релевантность, в частности, фиксировать релевантность текста по отношению к профессиональной отрасли, к той же медицине или геологии.
Скажем, в предыдущем разделе рассматривался пример с ответом на поисковый запрос по слову «ипотека». Скорее всего, задающего такой запрос человека интересуют предложения банков по ипотечным кредитам, либо аналитика по банковским предложениям. С другой стороны, могут быть страницы со словом ипотека, но описывающие, скажем, способ отделки квартиры.
В текст таких страниц слово ипотека попадает случайно. Здесь как раз частотный словарь позволяет отсечь такие случайные страницы.
Помимо словарного анализа можно исследовать структуру всего текста. Если текст разбит заголовками, то по ним также можно как-то сузить позиционирование текста.
В любом случае сам текст, просто как набор некоторых текстовых символов, и что важно безотносительно смысла текста, давал возможность разработки специального инструмента, так называемой метрики. Метрика, как термин пришел из школьной геометрии. Там нас научили измерять расстояние между двумя точками, либо от точки до прямой.
В современной науке термин «метрика» используется повсеместно. Метрикой называют алгоритм, с помощью которого можно измерять близость объектов, причем, объекты могут быть любыми. Например, в социологии можно измерять близость различных социальных групп. В случае поисковых технологий с помощью метрики можно измерять условное «расстояние» от одного слова до другого, от одного текста до другого. Методологически метрика хороша как раз для измерения релевантности. Чем меньше условное «расстояние», тем выше релевантность.
Сравнительно скоро стало ясно, что метрика, основанная лишь на чисто текстовом анализе, не дает достойных результатов. Любая метрика имеет некоторую точность, а страниц становилось так много, что многие страницы получали одинаковое «расстояние» от запроса. Именно в этот момент Гугл совершил свою знаменитую революцию и мгновенно превзошел все существовавшие на тот момент англоязычные поисковики.