Завершаем философию цифрового интеллекта и поговорим об умном ранжировании от поисковых компаний.
Наверное, все понимают, что поисковики относятся к тексту, как к набору букв, точнее говоря, неких символов. В свою очередь, каждый символ – это некоторое число. То есть, любой текст трансформируется в поток чисел. Каким образом такой, пусть и большой набор чисел может приобретать знакомый нам, людям смысл? Мы же легко делаем выводы: это умная книга, а это глупые мысли.
Как ни покажется удивительным, во всем мире нет публичных людей, которые могли бы абсолютно достоверно изложить нюансы поисковых технологий от Яндекса или Гугла. Причина, как уже говорилось, банальна, поисковые компании считают свои технологии абсолютной тайной.
Все, что мы можем сказать о поисковых новациях будет построено на дозированных инъекциях от поисковых компаний или на экспериментальном тестировании. Плюс на знании принципов цифрового интеллекта/экспертных систем. Думается, для представителей бизнеса этого будет достаточно для принятия решений по теме, как нужно реагировать на семантическое ранжирование. Конечно, если возникает желание самим создавать системы с искусственным интеллектом, то надо погружаться в специальную литературу.
Начинаем с простых, но малоизвестных моментов.
Поисковики собирают информационные айсберги
Многие пользователи Интернета предполагают, что поисковые компании запоминают их запросы. Это, естественно, так. Ввели запрос, скажем, «лучшая вакансия в Питере», и поисковик занес запрос в свой архив. Плюс занес информацию о заказчике. Мало кто знает, что практически каждая страница Интернета содержит «шпионский» робот от Гугла и Яндекса. Когда пользователь открывает и читает веб-страницу, то робот отсылает поисковикам немало информации: цифровой адрес пользователя, тип компьютера, время просмотра и т.д. Такая шпионская слежка считается легальной во всем мире. Понятно, что роботы появляются с согласия владельцев страниц, взамен владельцы получают отчеты с анализом пользователей. Например, в Яндексе эта система называется «Яндекс.Метрика».
Все отчеты роботов хранятся в гигантских базах данных. Только анализ этих баз может уже дать массу информации, независимо от степени «интеллектуальности» анализирующей системы. Очевидные примеры до-интеллектуальной обработки:
● страницы, которые смотрят, читают долго, имеют более высокий ранг, чем страницы, которые закрывают сразу после открытия;
● по спектру загружаемых страниц можно детализировать профиль пользователя: пол, возраст, социальный статус; исходя из детального профиля можно уточнять ранг страницы.
Для более серьезного анализа используются:
Экспертные системы на нейронных сетях
Экспертные системы возникли примерно 70 лет назад и были основаны на идее использовать человеческий опыт генерации новых знаний. Как мы, люди, производим новые знания? Знания рождаются в результате периодически повторяющегося цикла:
1. поиск эксперта;
2. обучение нового эксперта;
3. новый эксперт становится генератором новых знаний.
Идея экспертных компьютерных систем была простой.
● Стартовым экспертом всегда является человек, специалист в данной области знаний.
● Новым экспертом является компьютер, который должен как-то принять знания от эксперта, стать экспертом и генератором знаний.
Не обязательно, чтобы компьютер, как креативный генератор был умнее эксперта. Эксперты всегда дороги и редки, поэтому возможность хотя бы в чем-то их заменить всегда будет полезной.
Специально для обучения экспертным знаниям появились специальные компьютерные компоненты, нейроны. Цифровые нейроны были полной трансляцией наших знаний о работе биологических нейронов. Часто работы биофизиков по человеческим нейронам и компьютерные разработки шли параллельно.
Как многие слышали, человеческие нейроны являются кирпичиками нашей умственной системы. Точно такую же роль играют и цифровые нейроны в цифровом интеллекте. И цифровые, и биологические нейроны обладают важнейшим свойством: умением обучаться и запоминать действия. Именно на этом свойстве основаны дрессировка животных и обучение человека.
Нейроны могут получать информацию из внешнего окружения. Прежде всего, это входная информация, которую нужно проанализировать и выдать «умный» результат. Для примера, биоробот получает информацию от множества расположенных в нем датчиков. Плюс нейрон получает базовые знания от экспертов. Самое важное: нейрон может передавать информацию другому нейрону, который, в свою очередь, обрабатывает ее и передает результат следующему нейрону.
Возникает сеть из нейронов, нейронная сеть, которая, действительно, может научиться функционалу, совершенно не похожим на свойства идейно простых процессоров из арифметического калькулятора.
Конечно, нейронную сеть можно научить выполнять арифметические действия. Но это будет стрельбой из пушки по воробьям. Есть масса задач, когда нейронные технологии показывают суперрезультаты. Самый банальный пример, необходимо классифицировать фотографии в некую структуру, скажем, из нескольких позиций: люди, животные, неживая природа, дома, прочее. Сначала сеть проходит обучение у эксперта-человека, который смотрит фото и «раскладывает» их по папкам. Сеть наблюдает за действиями человека, вырабатывает и шлифует свой собственный алгоритм обработки. Постепенно, точность алгоритма нейронной сети растет и сеть может уже самостоятельно обрабатывать фото.
К настоящему времени, объем литературы по нейронным сетям уже невообразим. Практически все технические ВУЗы учат нейронным техникам.
Именно нейронные сети используют поисковые компании для ранжирования Интернет материалов. И именно поэтому описание работы нейронных сетей поисковиков является их главным секретом.
Вдумчивый читатель тут же может обратить внимание на важность стартового эксперта. Хорошо, скажет он, нейроны это супер, с классификацией фото понятно. Тут достаточно одного эксперта. Он поработает пару дней, и нейронная сеть будет просто повторять действия эксперта, используя опыт эксперта как образцы. Как быть с морем информации в Интернете, с миллиардами страниц? Навскидку, тут нужны тысячи и тысячи экспертов.
Вы удивитесь, но дело происходит именно так. Как говорилось, недавно Яндекс презентовал последнюю версию своей поисковой технологии «Королев» и раскрыл некоторые её детали. Презентацию можно посмотреть здесь https://yandex.ru/korolev/. Только вдумайтесь в заявленные цифры:
● В нейронную сеть Яндекса было передано 2 миллиарда оценок для обучения нейронной сети, говорят в Яндексе.
● К компании постоянно работают свыше тысячи человек – экспертов, которые занимаются только подготовкой и проверкой правильных оценок. Профессия называется асессор.
● Помимо штатных работников Яндекс нанял через систему Яндекс.Толока свыше миллиона внештатных асессоров, с помощью которых и были приготовлены миллиарды правильных оценок, https://toloka.yandex.ru/.
Думаю, по числу вовлеченных это один из самых крутых проектов.
Наличие миллиона участников удаляет любую мистику с категории цифровой интеллект. Еще раз вдумайтесь, миллион человек учат одну машину делать тоже самое, что и один человек, по большому счету.
Большие числа
Другой пример. Яндекс каждому тексту ставит в соответствие пакет чисел, или, как говорят в математике, вектор. Каждый вектор Яндекса содержит 300 чисел. В результате Яндекс получает невообразимое число текстовых комбинаций. Допустим, отдельное число в векторе Яндекса принимает лишь числа 0, 1, 2, 3….9. Тогда число текстовых комбинаций Яндекса будет 10 в 300-й степени, 10^300.
Это убийственное число. Больше чем «охулиярд». Скажем, если каждый житель Земли напишет по миллиону разных статей, то число всех статей будет лишь 10^16, примерно миллиард миллиардов. Это практически бесконечно малая величина в сравнении с числом комбинаций Яндекса.
Если забыть умные слова – нейрон, интеллект, вектор, BigData – то умное ранжирование (на данный момент) сводится к простой схеме:
● Яндекс записал в качестве образцов выбор миллиона экспертов при просмотре миллиардов страниц;
● когда приходит новый запрос, то компьютер Яндекса просто находит похожий пример среди миллиардов образцов.
По сути, описанное выше означает превращение поисковой технологии в серьезную промышленную технологию. Задумайтесь, ведь мало кто понимает, как работает атомная электростанция. Даже большинство физиков имеют лишь популярное представление об атомной технике, не говоря о других инженерах. Да, мы рисуем картинку атома, протоны, электроны, но это создает лишь иллюзию понимания. С появлением семантического ранжирования и информационные технологии становятся такими же. Ими можно пользоваться, но понять их работу будет уже невозможно. Кстати,
промышленный характер умного ранжирования несет важные выводы для всего бизнеса.
До последнего времени всегда можно было разобраться, как действует функционал любой корпоративной программы. Даже сравнительно сложная финансовая аналитика на SQL запросах или на BI матрицах вполне понятны для корпоративных специалистов. Теперь впервые появляются программы, разобраться в которых уже нельзя, можно лишь «пощупать» технологию.
Именно здесь, как ни удивительно, возникает преимущество для бизнеса в случае семантического ранжирования. Невозможно соревноваться с промышленной технологией, нужно просто размещать в публичном пространстве материалы с достойным смыслом.