Модели искусственного интеллекта, которые интерпретируют медицинские изображения, обещают повысить способность клиницистов ставить точные и своевременные диагнозы, а также снизить рабочую нагрузку, позволяя занятым врачам сосредоточиться на критических случаях и делегировать механические задачи ИИ.
Но модели ИИ, которым не хватает прозрачности в отношении того, как и почему ставится диагноз, могут быть проблематичными. Это непрозрачное рассуждение -; также известный «черный ящик» AI -; может уменьшить доверие клинициста к надежности инструмента ИИ и, таким образом, препятствовать его использованию. Это отсутствие прозрачности также может ввести клиницистов в заблуждение, заставив их чрезмерно доверять интерпретации инструмента.
В области медицинской визуализации одним из способов создания более понятных моделей ИИ и демистификации процесса принятия решений ИИ была оценка заметности; подход, в котором используются тепловые карты, чтобы точно определить, правильно ли инструмент фокусируется только на соответствующих частях данного изображения или ориентируется на нерелевантные его части.
Тепловые карты работают, выделяя области на изображении, которые повлияли на интерпретацию модели ИИ. Это может помочь врачам-людям увидеть, фокусируется ли модель ИИ на тех же областях, что и они, или по ошибке фокусируется на нерелевантных участках изображения.
Но новое исследование, опубликованное в журнале Nature Machine Intelligence 10 октября, показывает, что, несмотря на все свои обещания, тепловые карты заметности могут быть еще не готовы к прайм-тайму.
Анализ, проведенный исследователем Гарвардской медицинской школы Пранавом Раджпуркаром, Мэтью Лунгреном из Стэнфорда и Адриэлем Сапортой из Нью-Йоркского университета, позволил количественно оценить достоверность семи широко используемых методов значимости, чтобы определить, насколько надежно и точно они могут идентифицировать патологии, связанные с 10 часто диагностируемыми состояниями. на рентгенограммах, такие как поражения легких, плевральный выпот, отек или увеличение структур сердца. Чтобы установить производительность, исследователи сравнили производительность инструментов с экспертными оценками человека.
В конечном счете, инструменты, использующие тепловые карты на основе заметности, постоянно уступали в оценке изображений и способности выявлять патологические поражения по сравнению с рентгенологами-людьми.
Работа представляет собой первый сравнительный анализ между картами заметности и эффективностью человека-эксперта при оценке множественных рентгенологических патологий. Исследование также предлагает детальное понимание того, могут ли и как определенные патологические характеристики изображения влиять на производительность инструмента ИИ.
Функция карты значимости уже используется в качестве инструмента обеспечения качества в клинических практиках, которые используют ИИ для интерпретации компьютерных методов обнаружения, таких как чтение рентгенограмм грудной клетки. Но в свете новых результатов эту функцию следует применять с осторожностью и со здоровой долей скептицизма, считают исследователи.
Наш анализ показывает, что карты значимости еще недостаточно надежны, чтобы подтверждать индивидуальные клинические решения, принимаемые моделью ИИ. Мы определили важные ограничения, которые вызывают серьезные проблемы с безопасностью при использовании в текущей практике».
Пранав Раджпуркар, доцент биомедицинской информатики, HMS
Исследователи предупреждают, что из-за важных ограничений, выявленных в исследовании, тепловые карты на основе значимости должны быть дополнительно уточнены, прежде чем они будут широко применяться в клинических моделях ИИ.
Полная кодовая база, данные и анализ команды открыты и доступны для всех, кто заинтересован в изучении этого важного аспекта клинического машинного обучения в приложениях для обработки медицинских изображений.
Leave a Comment
Your email address will not be published. Required fields are marked with *