Разработка и валидация машинных моделей с использованием обработки естественного языка для классификации веществ, участвующих в смертях от передозировки

Format
Наборы инструментов
Publication Date
Published by / Citation
Goodman-Meza D, Shover CL, Medina JA, Tang AB, Shoptaw S, Bui AAT. Development and Validation of Machine Models Using Natural Language Processing to Classify Substances Involved in Overdose Deaths. JAMA Netw Open. 2022;5(8):e2225593. doi:10.1001/jamanetworkopen.2022.25593
Original Language

Английский

Country
Соединённые Штаты Америки
Keywords
machine learning
overdose deaths
overdose

Разработка и валидация машинных моделей с использованием обработки естественного языка для классификации веществ, участвующих в смертях от передозировки

Абстрактный

Важность  передозировки является одной из ведущих причин смерти в США; однако данные эпиднадзора значительно отстают от определения смерти медицинским экспертом до отчетности в национальных докладах о наблюдении.

Цель  Автоматизировать классификацию смертей, связанных с веществами, в данных медицинских экспертов с использованием обработки естественного языка (НЛП) и машинного обучения (ML).

Диагностическое исследование «Дизайн, настройка и участники»,  сравнивающее различные алгоритмы обработки естественного языка и машинного обучения для выявления веществ, связанных с передозировкой, в 10 юрисдикциях здравоохранения в США с 1 января 2020 года по 31 декабря 2020 года. Был изучен неструктурированный текст из 35 433 записей о смерти судмедэкспертов и коронеров.

Экспозиция  Текст из каждого случая вручную классифицировался по веществу, которое было связано со смертью. Были использованы и сопоставлены три метода представления признаков: частота текста с обратной частотой документа (TF-IDF), глобальные векторы для словесных представлений (GloVe) и встраивание уникального идентификатора концепции (CUI). Было обучено несколько алгоритмов ML, и лучшие модели были выбраны на основе F-баллов. Лучшие модели были протестированы на тестовом наборе, и результаты были сообщены с 95% CI.

  Текстовые данные из свидетельств о смерти были классифицированы как любые опиоиды, фентанил, алкоголь, кокаин, метамфетамин, героин, опиоиды, отпускаемые по рецепту, и совокупность других веществ. Диагностические метрики и 95% CI были рассчитаны для каждой комбинации метода извлечения признаков и классификатора машинного обучения.

Результаты  из 35 433 проанализированных записей о смерти (средний возраст умерших, 58 лет [IQR, 41-72 года]; 24 449 [69%] были мужчинами), наиболее распространенные вещества, связанные со смертями, включали любой опиоид (5739 [16%]), фентанил (4758 [13%]), алкоголь (2866 [8%]), кокаин (2247 [6%]), метамфетамин (1876 [5%]), героин (1613 [5%]), опиоиды, отпускаемые по рецепту (1197 [3%]) и любые бензодиазепины (1076 [3%]). Встраивание CUI имело аналогичные или лучшие диагностические показатели по сравнению с встраиванием слов и TF-IDF для всех веществ, кроме алкоголя. Классификаторы ML имели идеальную или почти идеальную производительность в классификации смертей, связанных с любыми опиоидами, героином, фентанилом, опиоидами, отпускаемыми по рецепту, метамфетамином, кокаином и алкоголем. Классификация бензодиазепинов была неоптимальной с использованием всех 3 методов экстракции признаков.

Выводы и актуальность  В этом диагностическом исследовании алгоритмы НЛП/МО продемонстрировали отличные диагностические показатели при классификации веществ, связанных с передозировками. Эти алгоритмы должны быть интегрированы в рабочие процессы, чтобы уменьшить время задержки при представлении данных наблюдения за передозировкой.