Рядом отличительных особенностей характеризуется восприятие говорящим собственной речи. Эти особенности касаются двух аспектов. Во-первых, речевой сигнал, генерируемый самим говорящим, достигает слухового приемника не только воздушным, как при восприятии чужой речи, но и непосредственным контактным (вибрационным) путем, распространяясь по костно-мышечным тканям от голосовых органов говорящего к его внутреннему уху. Это обстоятельство приводит к тому, что каждый человек слышит свой голос существенно иначе, чем окружающие, и нередко не узнает тембра своего голоса при воспроизведении его магнитофонной записи. Еще Бекеши (Bekesy, 1949) было показано, что действие звуковых волн изнутри на барабанную перепонку из области среднего уха, куда они проникают вышеуказанным вибрационным путем, отчасти нейтрализует действие звукового давления снаружи и тем самым предохраняет от самооглушения при увеличении громкости голоса. Этот защитный механизм имеет большое значение для певцов, мощность издаваемых звуков которых достигает огромной величины (до 120 дБ). Во-вторых, на восприятии говорящим собственного голоса основываются важнейшие физиологические механизмы самоконтроля и регуляции акустических характеристик речи по принципу обратной связи. Указанный самоконтроль, будучи в определенной мере произвольным, т. е. основанным на сознательном корректировании акустических параметров речевого процесса (например, темпа, громкости, ритмики речи или, в случае необходимости, четкости артикуляции речевых звуков), в то же время в значительной степени является и непроизвольным, не поддающимся сознательному волевому усилию. В научной литературе описаны три характерных феномена, связанных с механизмами непроизвольного рефлекторного регулирования речи по принципу обратной акустической связи. Один из них, получивший название эффекта Ломбарда[13], это непроизвольное увеличение громкости речи под влиянием увеличения громкости окружающего звукового фона (Бронштейн, 1949). Данный эффект наглядно проявляется, если на уши человека, читающего какой-либо текст, через головные телефоны подать шум. Громкость его речи при этом увеличивается пропорционально интенсивности поданного шума. Детальные измерения показали, что увеличение уровня звукового фона на 5 дБ приводит к приросту громкости речи на 2,5 дБ, при этом шум высокочастотного спектра оказывается более эффективным при той же громкости по сравнению с низкочастотным шумом. Адаптационная психоакустическая сущность эффекта Ломбарда очевидна: он «автоматически» поддерживает необходимый перевес громкости речи говорящего над громкостью окружающего шума и тем самым обеспечивает необходимый уровень разборчивости речи для слушателя.
Второй феномен, связанный с изменением обратной акустической связи, известен как эффект Томатиса (см.: Husson, 1960, 1962). Суть его состоит в непроизвольном изменении частотных характеристик тракта обратной акустической связи (при восприятии собственного голоса через микрофон-усилитель – головные телефоны). При этом подъем высокочастотных составляющих ведет к увеличению высоких частот в спектре голоса говорящего, а подъем низких частот в тракте обратной электроакустической связи приводит к увеличению относительного уровня низкочастотных составляющих спектра голоса испытуемого. Иными словами, происходит непроизвольная рефлекторная самоимитация человеком особенностей спектра сигнала обратной акустической связи.
В основе феномена Томатиса, по-видимому, лежит механизм эхолалии, характерной для человека в раннем онтогенезе и связанной с рефлекторной имитацией слышимых звуков. Практическое значение эффект Томатиса получил в работе А. Н. Киселева (1976), обосновавшего возможность использования его для исправления недостатков тембра голоса у молодых обучающихся вокалистов.
Наконец, третий, весьма любопытный, феномен непроизвольного изменения речи наблюдается при искажении временных характеристик сигналов обратной акустической связи, а именно их задержке во времени. При определенном времени задержки в восприятии говорящим собственных речевых звуков (около 200 мс) через головные телефоны и при определенной его интенсивности, преобладающей над интенсивностью естественных звуков собственной речи, у человека возникает непроизвольное заикание. Нормализация временных характеристик обратной акустической связи приводит к восстановлению нормальной речи испытуемого без каких-либо последствий.
Простейшим средством демонстрации эффекта задержанной обратной связи является магнитофон (имеющий раздельные каналы записи и воспроизведения звука). Испытуемому надевают головные телефоны, подключенные к выходу канала воспроизведения. Он говорит в микрофон, сигнал записывается на магнитофонную ленту, полученная запись воспроизводится на телефонах испытуемого с некоторой задержкой. Задержка сигнала обратной связи Т в данном случае определяется расстоянием между записывающей и воспроизводящей головками магнитофона согласно формуле T = L/V, где L – у казанное расс тояние в мм, V – скорость движения магнитной ленты в мм/с.
Указанный феномен, впервые описанный американским исследователем Бернардом Ли (Lee, 1950) и потому получивший название эффекта Бернарда Ли, известен также как эффект отставленной речи или феномен искусственного заикания. В дальнейшем он получил весьма широкое распространение в разнообразных исследованиях механизмов восприятия речи и их нарушения (Chase et al., 1959; Морозов, 1965, 1977; Речь…, 1965). Показано, что эффект Бернарда Ли выражается в резком удлинении времени произнесения тестового отрывка речи и увеличении ее громкости (Black, 1951). Эффект Бернарда Ли усиливается с увеличением громкости сигнала обратной связи, зависит от индивидуальных особенностей испытуемых и времени задержки: наиболее эффективна для большинства испытуемых задержка около 200 мс. Показано, что вокалисты в целом оказываются более устойчивыми к действию задержанной обратной связи, чем невокалисты (Морозов, 1977). Непроизвольность эффекта отставленной речи дала основание использовать его в качестве теста для выявления симуляции глухоты (Базаров, 1963; Ewertsen, 1955), а также степени потери слуховой функции.
Физиологические механизмы искусственного заикания связываются с нарушением временной синхронизации сложившегося комплекса (стереотипа) акустических и проприоцептивных сигналов обратных связей, регулирующих речевой процесс (Данилов, Черепанов, 1970; Морозов, 1977).
Феномен отставленной речи, вызывающий искусственное заикание, вызвал множество попыток объяснить механизмы естественного заикания нарушением в мозгу человека механизма временной обработки речевых сигналов обратной связи. Данная точка зрения находит определенное подтверждение в нарушениях временной синхронизации ЭЭГ правого и левого полушарий головного мозга у заикающихся (Данилов, Черепанов, 1970), в некоторой нормализации речи заикающихся при подавлении сигнала обратной акустической связи методом заглушения шумом, а также в условиях применения задержанной обратной акустической связи. В настоящее время имеется все больше оснований искать причину логоневрозов (заикания) в нарушениях механизмов функциональной специализации полушарий головного мозга к обработке речевой информации (см. следующий раздел).
В обычных условиях человек, слушая речь в свободном звуковом поле, воспринимает ее бинаурально (обоими ушами) или монаурально (через одно ухо, как при телефонном разговоре). Дихотическим восприятием (или прослушиванием) называется такой вид восприятия, когда на каждое ухо одновременно предъявляется информация разного рода, например разные речевые тексты или разные неречевые сигналы (с применением головных телефонов). Особенность дихотического восприятия речи состоит в том, что нормальные люди, как правило, лучше запоминают, повторяют и пересказывают речевой материал, предъявленный через правое ухо, чем через левое. (Опыт ведется с применением головных телефонов, информация на которые поступает с двухканального магнитофона.)
Объяснение эффекта правого уха в условиях дихотического восприятия речи в обоснованной форме впервые предложила Кимура (Kimura, 1961a, 1961b, 1967). Изучая указанным методом больных с латеральными поражениями мозга в слуховой височной области и здоровых испытуемых, Кимура установила связь асимметрии слухового восприятия речи с асимметрией локализации в мозгу речевых центров: испытуемые лучше воспринимают речь ухом, контралатеральным по отношению расположения в мозгу речевых центров, т. е. у большинства людей правым ухом, поскольку речевой центр Вернике локализован обычно в левой височной извилине.
В дальнейшем метод дихотического прослушивания получил широчайшее распространение, усовершенствование и обоснование как тест, позволяющий оценить функциональную асимметрию мозга и восприятие речи у нормальных здоровых людей, изучение функций мозга которых имеет известные ограничения по сравнению с изучением мозга животных или у людей в клинических условиях (см.: Бару, 1977; Bryden, 1982; Спрингер, Дейч, 1983).
Благодаря наличию перекреста афферентных путей слуховой системы и межполушарной комиссуры информация, предъявляемая через любое ухо, достигает каждого из полушарий. Однако в условиях дихотического восприятия преимущество получают перекрестные контралатеральные пути за счет, во-первых, их большей мощности, во-вторых, более быстрого достижения речевых центров при поступлении речевого сигнала с правого уха, а в-третьих, функционального торможения ипсилатеральных афферентных путей, что имеет место в условиях параллельного конкурирующего поступления речевой информации с обоих ушей.
Указанное представление, высказанное еще Кимурой (Kimura, 1961а, 1961b), в целом является общепризнанным. Оно, в частности нашло подтверждение в исследованиях пациентов с комиссуротомией, т. е. с разобщенными полушариями мозга («расщепленный мозг»), где был доказан функциональный характер торможения ипсилатерального пути (Sparks, Geschwind, 1968), а также применением пробы Вада, обеспечивающей функциональное выключение одного из полушарий мозга фармакологическим путем (введением в сонную артерию барбитуратов).
Количественная оценка доминирования того или иного уха в восприятии дихотических сигналов производится по формуле,
где Кас – коэффициент асимметрии восприятия; Pправ – число правильно воспроизведенных испытуемых сигналов, поступивших через правое ухо; Рлев – то же через левое ухо.
Картина преимущества правого уха при восприятии речи в условиях дихотического прослушивания существенно варьирует от 2–3 до 20 % и даже более в зависимости от методических условий эксперимента, контингента испытуемых, особенностей речевого материала и т. п. Установлено, что наилучшим образом функциональная асимметрия дихотического восприятия проявляется при информационной нагрузке на оба уха достаточной сложности (например, количество предъявляемых слов должно быть не менее 3–4 на каждое ухо).
Существенно, что далеко не все испытуемые демонстрируют преимущество правого уха при дихотическом восприятии речи, а только лишь около 80 %. Меньша я же часть (около 20 %) оказывается «левоушной», что, по-видимому, может быть связано с правосторонним расположением речевых центров в мозгу. Феномены «правоухости» и «левоухости» в значительной мере коррелируют соответственно с праворукостью и леворукостью испытуемых, но отнюдь не стопроцентно, поскольку леворукость может не сопровождаться правосторонним расположением речевых центров.
Важная особенность дихотического восприятия речи состоит в том, что если при восприятии речевой лингвистической информации (слова, фразы, слоги) преимущество принадлежит правому уху, то при восприятии экстралингвистической информации речи (эмоциональной интонации, определении пола говорящего, узнавании диктора по голосу), а также при восприятии музыкальных мелодий преимущество примерно с таким же перевесом оказывается за левым ухом. Указанное обстоятельство связывается с обработкой данных видов экстралингвистической информации правым полушарием (Балонов, Деглин, 1976).
Доминирование левого уха в восприятии эмоциональной интонации речи проявляется не только при дихотическом, но и монауральном прослушивании и характерно не только для взрослых (Морозов и др., 1982), но и детей (см. рисунок 10).
Рис. 10. Вероятности правильного определения эмоциональной интонации фраз актерской (/) и вокальной (//) речи детьми разного возраста при монауральном предъявлении сигналов (Морозов, 1985c).
По оси ординат – процент правильных ответов; по оси абсцисс – возраст испытуемых (лет). 1 – левое ухо, 2 – правое ухо.
Значительное число новых экспериментальных фактов, полученных в последнее время с применением метода дихотического восприятия, выявляют все более и более сложную картину обработки мозгом речевой информации. Так, например, при действии сильного шума правое ухо существенно теряет преимущество в восприятии речи, а нередко происходит даже и инверсия доминирования, т. е. переход преимущества к левому уху при восприятии речи в шуме. На основании этих фактов выдвинута модель параллельного участия обоих полушарий в обработке речевой информации на основе разных принципов (Галунов и др., 1985).
Любопытная картина дихотического восприятия речи обнаружена при логоневрозах (заикании). Она характеризуется двумя особенностями: 1) значительно большей по сравнению с нормой вариабельностью ответов испытуемых, т. е. более широким диапазоном дисперсии коэффициентов асимметрии у каждого отдельного испытуемого и у всей группы больных в целом; 2) более близкими к нулю по сравнению с нормой среднестатистическими значениями коэффициентов асимметрии. Указанные особенности проявляются при тестировании больных логоневрозами разными видами дихотических сигналов (слова, слоги, эмоциональные тесты). Таким образом, при логоневрозах имеет место нарушение латеральной асимметрии восприятия речи. Картина эта сопровождается нарушением синхронизации биопотенциалов в правом и левом полушариях мозга, т. е. явным нарушением временных межполушарных отношений (Данилов, Черепанов, 1970).
Интерес представляет формирование функциональной симметрии к восприятию речи в онтогенезе. Исследования выявили ее не только у взрослых, но и у детей (Kimura, 1963), причем начиная с трехлетнего возраста (Морозов и др., 1983). Относительно онтогенеза функциональной асимметрии у человека имеются разные точки зрения. Согласно одной из них, асимметрия формируется с возрастом из эквипотенциальных в отношении речевой функции полушарий (Lennenberg, 1967; Nagafuchi, 1970; Berlin et al., 1973). Отсутствие сильных речевых расстройств и большие компенсаторные возможности у детей при поражении речевых зон свидетельствуют в пользу данной позиции. Согласно другой точки зрения, функциональная асимметрия мозга человека генетически обусловлена, так как в разных формах она проявляется уже на ранних стадиях онтогенеза (Molfese, 1973; Wada, 1977; Hynd et al., 1979). Последняя точка зрения находит определенное подтверждение в сравнительно-физиологических исследованиях. Вопреки ранее существовавшему мнению о том, что функциональная асимметрия мозга является уникальным свойством человека, она недавно была установлена у животных по отношению к восприятию разного рода биологически значимых сигналов. Так, экстирпация левого полушария у самцов канареек нарушает их способность к пению (Notebohm, 1979), а разрушение височной зоны мозга у обезьян, гомологичной зоне Вернике человека, нарушает их способность правильно воспринимать коммуникационные сигналы своего вида (Petersen et al., 1978). Этого не наблюдалось в обоих случаях при разрушении симметричных контралатеральных зон мозга животных.
Исследования функций мозга многих видов животных, проведенные В. Л. Бианки (1985) и выявившие асимметрию мозга животных, позволили автору сформулировать гипотезу, согласно которой левое полушарие мозга обрабатывает информацию по принципу индукции, а правое – по принципу дедукции. Данная гипотеза согласуется с доминирующим в современной науке представлением о примате абстрактно-символической функции левого полушария мозга человека и об иконической форме обработки информации правым полушарием. Справедливость данного представления в целом доказана по отношению не только к речевой, но и многим другим видам информации.
В данной главе, посвященной психоакустическим аспектам изучения речи, описан ряд основных констант и принципов работы системы речевой коммуникации, определяющих восприятие речи человеком.
Одним из важнейших принципов работы мозга, отличающих его от многих технических систем, в частности ЭВМ, является принцип параллельной обработки разных видов информации, поступающей по разным анализаторным каналам и даже в пределах одного сенсорного канала. Применительно к звуковой речи мозг – это двухканальная система, несмотря на кажущуюся одноканальность речевого акустического сигнала.
В этой связи традиционная одноканальная схема речевой коммуникации, приведенная в начале главы, нуждается в принципиальной коррекции. В свете изложенных современных исследований систему звуковой речевой коммуникации можно представить как состоящую из двух параллельных каналов, по одному из которых слушателю передается лингвистическая информация, а по другому – экстралингвистическая. В мозгу человека осуществляется не только функциональное разделение этих каналов (разные принципы обработки лингвистической и экстралингвистической информации), но и пространственное разделение (преимущественная роль в обработке данных видов информации принадлежит разным полушариям мозга).
Двухканальный принцип работы мозга проявляется не только в условиях восприятия речи, но и в процессе формирования (порождения) речевого высказывания в форме принципиально разных функций больших полушарий мозга в этом процессе. Объективной основой разделения мозгом каналов лингвистической (вербальной, собственно речевой) и экстралингвистической коммуникации являются различия в акустических средствах и принципах кодирования этих двух видов речевой информации: если для лингвистической информации определяющим фактором является динамика с формантной структурой сигнала, то для экстралингвистической – динамика основного тона голоса и другие особенности просодической организации речи. Таким образом, лингвистический и экстралингвистический каналы оказываются обособленными (по целому ряду критериев) во всех звеньях системы речевой коммуникации. По отношению к действию шума эта обособленность проявляется в разной степени помехоустойчивости лингвистической и экстралингвистической форм информации (см. рисунок 8).
Несомненны также различия между указанными каналами и в эволюционно-историческом аспекте: значительно большая древность экстралингвистической коммуникации по сравнению с лингвистической. Возникновение слова в процессе эволюции как весьма совершенного средства передачи любых видов информации не привело, однако, к умалению роли эволюционно древней формы экстралингвистической коммуникации. Она продолжает сосуществовать наряду со словом, существенно дополняя и видоизменяя его смысл, а во многих случаях и претендуя на самостоятельность. В огромном большинстве ситуаций речевого общения более важным является но столько что говорит человек, сколько кто говорит и как говорит. Доминирующая роль канала экстралингвистической коммуникации представляется очевидной в таких специфических человеческих видах звуковой коммуникации, как искусство сценической речи и пения. Важнейшим и практически не изученным свойством двухканальной системы речевой коммуникации является взаимодействие каналов лингвистической и экстралингвистической информации, проявляющееся во всех звеньях данной системы и на всех этапах обработки речевой информации мозгом.
Представление о речевой коммуникации как двухканальной системе является несомненно плодотворным в бионическом плане, т. е. для создания новых более совершенных систем автоматического анализа и синтеза речи с помощью ЭВМ.
Основная задача данной экспериментальной работы состояла в том, чтобы выяснить, насколько опознавание личности говорящего (в дальнейшем – диктора) по голосу возможно на основе восприятия только невербальной экстралингвистической информации.
Для разделения семантической и экстралингвистической информации в речи можно использовать метод временно́й инверсии, представляющий звуковое сообщение в обратной временно́й перспективе и избирательно разрушающий семантическую часть сообщения (Моль, 1966). Технически это достигается путем прокручивания магнитной ленты с записью речевого сообщения в обратном направлении.
В настоящей работе сравнивали узнавание знакомых голосов при прослушивании естественно звучащих фраз с узнаванием тех же фраз, инвертированных во времени.