Автоматический анализ текстовой информации приобретает огромную актуальность в связи с развитием глобальных вычислительных сетей и формированием больших объёмов распределенных данных.
Современные системы автоматической обработки текстов, доступные широкому кругу пользователей, например, информационно-поисковые машины в глобальных вычислительных сетях, в основном сталкиваются с проблемой классификации документов по запросу пользователя. Разбиение текста на смысловые составляющие, определение семантических связей между ними является актуальной задачей.
Большинство решений данной задачи связано с использованием языков разметки, что требует от текста предварительной обработки экспертом, либо наличия жесткой структуры. Другие подходы к решению этой задачи заключаются в том, что текст представляется в виде информационного потока и по нему строится граф отношений, содержащий объекты текста и связи между ними.
В последнее время все чаще встречается мнение, что достичь качественного прорыва с применением одних только математических методов анализа текста не удается и все больше исследователей приходит к мнению о том, что необходимо подключать лингвистическую составляющую.