bannerbannerbanner
Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие

Антон Вячеславович Владзимирский
Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие

Авторы: Васильев Юрий Александрович, Арзамасов Кирилл Михайлович, Владзимирский Антон Вячеславович, Омелянская Ольга Васильевна, Бобровская Татьяна Михайловна, Шарова Дарья Евгеньевна, Никитин Никита Юрьевич, Коденко Мария Романовна

Редактор А. И. Овчарова

Корректор В. П. Гамарина

Дизайнер обложки Е. Д. Бугаенко

© Юрий Александрович Васильев, 2024

© Кирилл Михайлович Арзамасов, 2024

© Антон Вячеславович Владзимирский, 2024

© Ольга Васильевна Омелянская, 2024

© Татьяна Михайловна Бобровская, 2024

© Дарья Евгеньевна Шарова, 2024

© Никита Юрьевич Никитин, 2024

© Мария Романовна Коденко, 2024

© Е. Д. Бугаенко, дизайн обложки, 2024

ISBN 978-5-0062-1244-2

Создано в интеллектуальной издательской системе Ridero

ПРИНЯТЫЕ СОКРАЩЕНИЯ И АББРЕВИАТУРЫ

БДТ – базовые диагностические требования

БФТ – базовые функциональные требования

ДЗМ – Департамент здравоохранения города Москва

ЕМИАС – Единая медицинская информационно-аналитическая система

ЕРИС – Единый радиологический информационный сервис

ЗНО – злокачественное новообразование

КТ – компьютерная томография

МИС – медицинская информационная система

МК – медицинская карта

МКБ – Международная классификация болезней

ММГ – маммография

МО – медицинская организация

МРТ – магнитно-резонансная томография

НД – набор данных

ОК – общекультурные компетенции

ОС – операционная система

ОПК – общепрофессиональные компетенции

ПК – персональный компьютер

ПО – программное обеспечение

РГ ОГК – рентгенография органов грудной клетки

РМЖ – рак молочной железы

ТЗ – техническое задание

ТИИ – технологии искусственного интеллекта

УЗИ – ультразвуковое исследование

УИД – уникальный идентификатор

Ф.И.О. – фамилия, имя, отчество

ФИПС – Федеральный институт промышленной собственности

ФС – федеральный справочник

ЭКГ – электрокардиография

ЭНМГ – электронейромиография

ЭЭГ – электроэнцефалография

DICOM – Digital Imaging and Communications in Medicine (медицинский отраслевой стандарт создания, хранения, передачи и визуализации цифровых медицинских изображений и документов обследованных пациентов)

ВВЕДЕНИЕ

Цель данного учебного пособия – приобретение и расширение обучаемыми лицами необходимых компетенций, получение знаний, умений и навыков в области принципов и методологий подготовки набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта.

Задачи:

– изучение общетеоретических вопросов, терминологии, значения в системе здравоохранения технологий искусственного интеллекта и необходимых для их развития наборов данных;

– изучение этапов жизненного цикла набора данных в сфере здравоохранения;

– изучение алгоритма создания набора данных;

– изучение мер по профилактике дефектов и ошибок при создании наборов данных;

– обеспечение уровня компетенций и навыков в соответствии с требованиями профессионального стандарта «Специалист в области организации здравоохранения и общественного здоровья»1;

– обеспечение уровня компетенций и навыков в соответствии с требованиями профессионального стандарта «Врач-рентгенолог»2;

– обеспечение уровня компетенций и навыков в соответствии с требованиями профессионального стандарта «Специалист по тестированию в области информационных технологий»3.

Требования к входным знаниям, компетенциям и умениям для проведения занятий: теоретические знания и практические навыки в соответствии с федеральными государственными образовательными стандартами высшего образования по специальностям 31.05.01 Лечебное дело, 31.05.02 Педиатрия, 31.05.03 Стоматология, 31.08.09 Рентгенология, 30.05.03 Медицинская кибернетика и 30.05.02 Медицинская биофизика, а также дисциплинам образовательной программы бакалавриата по направлению подготовки 09.03.04 Программная инженерия, специальности 09.04.02 Информационные системы и технологии и 06.004 Специалист по тестированию в области информационных технологий.

Изучение пособия направлено на дальнейшее формирование у обучающихся следующих компетенций:

I. По специальностям 31.05.01 Лечебное дело, 31.05.02 Педиатрия, 31.05.03 Стоматология, 31.08.09 Рентгенология (дисциплина «Общественное здоровье и здравоохранение»):

1. Общекультурных:

– способность к абстрактному мышлению, анализу, синтезу (ОК-1);

– готовность к саморазвитию, самореализации, самообразованию, использованию творческого потенциала (ОК-5).

2. Общепрофессиональных:

– готовность решать стандартные задачи профессиональной деятельности с использованием информационных, библиографических ресурсов, медико-биологической терминологии, информационно-коммуникационных технологий и учетом основных требований информационной безопасности (ОПК-1);

– способность и готовность анализировать результаты собственной деятельности для предотвращения профессиональных ошибок (ОПК-5).

3. Профессиональных:

– способность к применению основных принципов организации и управления в сфере охраны здоровья граждан, в медицинских организациях и их структурных подразделениях (ПК-17);

– готовность к участию во внедрении новых методов и методик, направленных на охрану здоровья граждан (ПК-22).

4. Дополнительно:

– способность организовывать оказание разных видов медицинской помощи с применением допущенных к обращению медицинских изделий на основе технологий искусственного интеллекта;

– способность понимать принципы работы современных информационных технологий, технологий искусственного интеллекта и использовать их для решения задач профессиональной деятельности.

II. По специальности 09.04.02 Информационные системы и технологии:

1. Общекультурных:

– способность совершенствовать и развивать свой интеллектуальный и общекультурный уровень (ОК-1);

– способность к самостоятельному обучению новым методам исследования, к изменению научного и научно-производственного профиля своей профессиональной деятельности (ОК-2);

– использование на практике умений и навыков в организации исследовательских и проектных работ, в управлении коллективом (ОК-4);

– способность к профессиональной эксплуатации современного оборудования и приборов (ОК-7).

2. Общепрофессиональных и профессиональных:

– способность воспринимать математические, естественно-научные, социально-экономические и профессиональные знания, умение самостоятельно приобретать, развивать и применять их для решения нестандартных задач, в том числе в новой или незнакомой среде и в междисциплинарном контексте (ОПК-1);

– владение методами и средствами получения, хранения, переработки и трансляции информации посредством современных компьютерных технологий, в том числе в глобальных компьютерных сетях (ОПК-5);

– умение разрабатывать стратегии проектирования, определять цели проектирования, критерии эффективности, ограничения применимости (ПК-1);

– умение проводить разработку и исследование теоретических и экспериментальных моделей объектов профессиональной деятельности в области медицины (ПК-8).

III. По специальности 09.03.04 Программная инженерия:

1. Универсальных:

– способность осуществлять поиск, критический анализ и синтез информации, применять системный подход для решения поставленных задач (УК-1).

2. Общепрофессиональных:

– способность применять естественно-научные и общеинженерные знания, методы математического анализа и моделирования, теоретического и экспериментального исследования в профессиональной деятельности (ОПК-1);

– способность использовать современные информационные технологии и программные средства, в том числе отечественного производства, при решении задач профессиональной деятельности (ОПК-2);

– способность осуществлять поиск, хранение, обработку и анализ информации из различных источников и баз данных, представлять ее в требуемом формате с использованием информационных, компьютерных и сетевых технологий (ОПК-8).

 

IV. По специальности 06.004 Специалист по тестированию в области информационных технологий:

1. Общекультурных:

– способность совершенствовать и развивать свой интеллектуальный и общекультурный уровень (ОК-1);

– способность к самостоятельному обучению новым методам исследований, к изменению научного и научно-производственного профиля своей профессиональной деятельности (ОК-2);

– использование на практике умений и навыков в организации исследовательских и проектных работ, управление коллективом (ОК-4);

– способность к профессиональной эксплуатации современного оборудования и приборов (ОК-7);

2. Общепрофессиональных и профессиональных:

– способность применять естественно-научные и общеинженерные знания, методы математического анализа и моделирования, теоретического и экспериментального исследования в профессиональной деятельности (ОПК-1);

– владение методами и средствами получения, хранения, переработки и трансляции информации посредством современных компьютерных технологий, в том числе в глобальных компьютерных сетях (ОПК-5).

V. По специальности 30.05.03 Медицинская кибернетика и 30.05.02 Медицинская биофизика:

1. Общекультурных:

– способность совершенствовать и развивать свой интеллектуальный и общекультурный уровень (ОК-1);

– способность к самостоятельному обучению новым методам исследований, к изменению научного и научно-производственного профиля своей профессиональной деятельности (ОК-2);

– использование на практике умений и навыков в организации исследовательских и проектных работ, управление коллективом (ОК-4);

– способность к профессиональной эксплуатации современного оборудования и приборов (ОК-7).

2. Общепрофессиональных и профессиональных:

– способность применять естественно-научные и общеинженерные знания, методы математического анализа и моделирования, теоретического и экспериментального исследования в профессиональной деятельности (ОПК-1);

– владение методами и средствами получения, хранения, переработки и трансляции информации посредством современных компьютерных технологий, в том числе в глобальных компьютерных сетях (ОПК-5).

В   результате   изучения   материала   обучаемый   должен

знать:

– основную терминологию, базовые принципы юридического регулирования, цели и задачи создания и эксплуатации наборов данных в здравоохранении;

– принципы стандартизации процессов создания и эксплуатации наборов данных в здравоохранении;

– принципы классификации, основные требования к структуре, составу, описанию наборов данных;

– подходы к постановке клинической задачи, решаемой с применением конкретного набора данных;

уметь:

– организовывать процесс подготовки набора данных для сферы здравоохранения;

– организовывать процессы контроля и непрерывного повышения качества при подготовке наборов данных;

– обеспечивать защиту персональных данных;

владеть:

– навыками создания технического задания на набор данных;

– отдельными навыками разметки разных типов биомедицинских данных;

– навыками создания описания набора данных для здравоохранения.

Изучение материала пособия рассчитано на 6 академических часов самостоятельной работы, для его успешного освоения рекомендуется использовать открытые библиотеки наборов данных в сфере здравоохранения: https://mosmed.ai/datasets/; https://ai2.rt-eu.ru/. В целях проверки усвоения информации предусмотрены вопросы для самоконтроля. Для повышения уровня эрудированности и вовлеченности обучаемых в изучение учебного курса опционально рекомендуется подготовка рефератов и докладов-презентаций.

Коллектив авторов выражает благодарность за помощь в подготовке учебного пособия В. П. Новику, Е. Ф. Савкиной, Д. В. Козлову, У. А. Сахащик, Ю. С. Бусыгиной, Е. Г. Бахтеевой.

ОБЩИЕ ПОЛОЖЕНИЯ

В  последнее  время  стали  популярными  такие  слова, как  искусственный интеллект, машинное обучение, большие данные (big data). Эти термины входят в повседневное употребление и уже встречаются не только в узконаправленных специализированных областях. Не стала исключением и сфера здравоохранения: автоматизированные системы диагностики, системы распознавания медицинских записей и естественного языка, системы анализа и предсказания событий, автоматической классификации и сверки информации, чат-боты поддержки пациентов, электронная медицинская карта и многое другое – результаты масштабной цифровизации в данной сфере4,5. Столь мощный прогресс цифровых технологий в Российской Федерации поддерживается Национальной стратегией развития искусственного интеллекта на период до 2030 года [1].

Искусственный интеллект (ИИ) – комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека. Комплекс технологических решений включает в себя информационно-коммуникационную инфраструктуру, программное обеспечение (в том числе в котором используются методы машинного обучения), процессы и сервисы по обработке данных и поиску решений [1].

Технологии искусственного интеллекта (ТИИ) – технологии, основанные на использовании искусственного интеллекта, включая компьютерное зрение, обработку естественного языка, распознавание и синтез речи, интеллектуальную поддержку принятия решений и перспективные методы искусственного интеллекта [1].

В соответствии с Национальной стратегией использование технологий искусственного интеллекта в социальной сфере способствует созданию условий для улучшения уровня жизни населения, в том числе за счет повышения качества услуг в сфере здравоохранения, включая профилактические обследования, диагностику, основанную на анализе изображений, прогнозирование возникновения и развития заболеваний, подбор оптимальных дозировок лекарственных препаратов, сокращение угроз пандемий, автоматизацию и точность хирургических вмешательств.

Основные факторы развития ТИИ – это увеличение объема доступных данных, в том числе данных, прошедших разметку и структурирование, а также постоянное развитие информационно-телекоммуникационной инфраструктуры для обеспечения доступа к наборам таких данных.

С развитием медицины, повышением ее доступности и повсеместного внедрения цифровых технологий в медицинскую практику6 отмечается высокий рост количества медицинских данных: клинических, лабораторных и инструментальных7. Данные – представление информации в формализованном виде, пригодном для передачи, интерпретации и обработки [2].

Большой объем данных способствует оптимальной организации интересующей сферы (в частности, здравоохранения) для достижения наилучших результатов работы. Данные могут быть использованы для прогнозирования текущих тенденций определенных параметров и будущих событий. В последние годы в медицинской практике активно внедряются электронные медицинские карты и медицинские информационные системы, что приводит к необходимости стандартизации медицинской информации.

Например, результаты лабораторных (патоморфологические исследования, клинические анализы, генетические исследования и т.д.), лучевых (КТ, МРТ, ММГ, УЗИ, рентгенография и т.д.) и сигнальных (ЭКГ, ЭЭГ, ЭНМГ и т.д.) исследований максимально стандартизованы и оцифрованы, что способствует росту количества данных по этим направлениям, инструментов для их обработки (программное обеспечение, предназначенное для обработки медицинских данных), передачи и хранения, и, как следствие, развитию ТИИ в этой области8.

Внедрение ТИИ в сферу здравоохранения позволяет повысить качество предоставляемых услуг [1], а также снизить нагрузку на врачей. Например, при скрининге рака молочной железы требуется «двойное чтение» результатов маммографических исследований, т.е. каждое исследование должно быть просмотрено двумя специалистами.

Однако многочисленные исследования9 показывают, что одно чтение можно доверить ПО на основе ТИИ, при этом качество скрининга не ухудшается10. Другой пример успешного применения ПО на основе ТИИ – пандемия COVID-19: в условиях острой нехватки медицинского персонала применение ТИИ позволило уменьшить время обработки заключения КТ11, а также осуществить сортировку исследований, благодаря чему исследования пациентов в более тяжелом состоянии обрабатывались в первую очередь [3].

 

Однако для успешного применения ТИИ необходимо создание релевантных, репрезентативных, корректно размеченных наборов данных (НД).

НД используются не только для разработки и обучения ПО на основе ТИИ, но и их валидации, т.е. проверки качества работы ПО. Благодаря Национальной стратегии развития искусственного интеллекта в Российской Федерации стало возможным активное создание и внедрение в повседневную практику таких НД, а также инструментов их хранения, администрирования и использования.

На первый взгляд может показаться, что создание НД – несложный процесс: ведь ежедневно генерируются терабайты данных медицинской информации, а применение МИС позволяет их хранить, передавать и использовать (например, данные лучевой диагностики медицинских организаций ДЗМ хранятся в Едином радиологическом информационном сервисе – ЕРИС ЕМИАС). Тем не менее процесс создания НД (не стоит забывать о том, что они должны быть релевантными, репрезентативными и корректно размеченными) – очень сложный, имеет множество важных аспектов и вовлекает в себя большое количество специалистов, как медицинских (врачи, лаборанты), так и технических (инженеры, разработчики, аналитики и т.д.), а также смежных направлений (биофизики, кибернетики, биоинформатики).

Кроме того, недостаточно создать НД – необходимо уделить внимание инфраструктуре и инструментам хранения, использования и управления, таким, например, как библиотеки и реестры. Их основными задачами являются аннотация, интеграция и представление НД для контроля качества, удобного и повсеместного использования, в том числе для ПО на основе ТИИ.

Методологии создания наборов данных для сферы здравоохранения продолжают формироваться и в настоящее время, прежде всего – на основе масштабных научных исследований. Так, в основу настоящего учебного пособия положены результаты «Эксперимента по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения города Москвы» (mosmed.ai) – крупнейшего в мире проспективного многоцентрового клинического исследования технологий искусственного интеллекта [3].

1Приказ Министерства труда и социальной защиты Российской Федерации от 07.11.2017 №768н «Об утверждении профессионального стандарта „Специалист в области организации здравоохранения и общественного здоровья“».
2Приказ Министерства труда и социальной защиты Российской Федерации от 19.03.2019 №160н «Об утверждении профессионального стандарта „Врач-рентгенолог“».
3Приказ Министерства труда и социальной защиты Российской Федерации от 02.08.2021 №531н «Об утверждении профессионального стандарта „Специалист по тестированию в области информационных технологий“».
  Гусев А. В. Перспективы нейронных сетей и глубокого машинного обучения в создании решений для здравоохранения // Врач и информационные технологии. 2017. №3. С. 92—105 URL: https://www.idmz.ru/jurnali/vrach-i-informatsionnye-tekhnologii/2017/3/perspektivy-neironnykh-setei-i-glubokogo-mashinnogo-obucheniia-v-sozdanii-reshenii-dlia-zdravookhraneniia.
5Гусев А. В., Добриднюк С. Л. Искусственный интеллект в медицине и здравоохранении // Информационное общество. 2017. №4—5. С. 78—93.
6Соболева С. У., Голиков В. В., Тажибов А. А. Информационные технологии в здравоохранении: особенности отраслевого применения // E-Management. State University of Management, 2021. Т. 4, №2. С. 37—43.
7Dash S., Shakyawar S. K., Sharma M. et al. Big data in healthcare: management, analysis and future prospects // J Big Data. SpringerOpen. 2019. Vol. 6, №1. P. 1—25.
8Shakhabov I. V., Melnikov Yu. Yu., Smyshlyaev A. V. Development of digital technologies in healthcare during the COVID-19 pandemic // Scientific Review. Medical Sciences. 2020. №6. P. 66—71.
9Henriksen E. L. Carlsen F., Vejborg I. M. et al. The efficacy of using computer-aided detection (CAD) for detection of breast cancer in mammography screening: a systematic review // Acta radiol. 2019. Vol. 60, №1. P. 13—18.
10Lauritzen A. D., Rodríguez-Ruiz A., von Euler-Chelpin M. C. et al. An Artificial Intelligence—based Mammography Screening Protocol for Breast Cancer: Outcome and Radiologist Workload // Radiology. 2022. Vol. 304, №1. P. 41—49.
11Морозов С. П., Гаврилов А. В., Архипов И. В. [и др.]. Влияние технологий искусственного интеллекта на длительность описаний результатов компьютерной томографии пациентов с COVID-19 в стационарном звене здравоохранения // Профилактическая медицина. 2022. Т. 25, №1. С. 14—20.
Рейтинг@Mail.ru