Détection de nouveaux et émergents termes de drogue à l’aide de traitement du langage naturel: Une étude de corpus des médias sociaux
Abstrait
Contexte : Avec le développement rapide de nouvelles substances psychoactives (SNP) et les changements dans l’utilisation de drogues plus traditionnelles, il est de plus en plus difficile pour les chercheurs et les praticiens de la santé publique de suivre les nouveaux termes de drogues et de drogues. Les enquêtes sur la consommation de substances et les outils de diagnostic doivent être en mesure de poser des questions sur les substances utilisant les termes que les consommateurs de drogues eux-mêmes sont susceptibles d’utiliser. Les analyses des médias sociaux peuvent offrir de nouvelles façons aux chercheurs de découvrir et de suivre l’évolution des termes des médicaments en temps quasi réel. Cette étude décrit les premiers résultats d’une collaboration novatrice entre les épidémiologistes de la consommation de substances et les scientifiques linguistiques utilisant des techniques du domaine du traitement du langage naturel pour examiner les termes liés aux médicaments dans un échantillon de tweets en provenance des États-Unis.
Objectif: L’objectif de cette étude était d’évaluer la faisabilité de l’utilisation d’incorporations distribuées de vecteurs de mots formés sur les données des médias sociaux afin de découvrir des termes de médicaments jusque-là inconnus (pour les chercheurs).
Méthodes: Dans le cadre de cette étude pilote, nous avons formé un modèle continu de mots (CBOW) d’intégrations distribuées de vecteurs de mots sur un jeu de données Twitter collecté en juillet 2016 (environ 884,2 millions de jetons). Nous avons demandé le mot formé embeddings pour les termes avec la similitude de cosine élevée (un proxy pour la parenté sémantique) aux termes bien connus d’argot pour la marijuana pour produire une liste des termes de candidat susceptibles de fonctionner comme termes d’argot pour cette substance. Cette liste de candidats a ensuite été comparée à une liste de termes de marijuana générée par des experts afin d’évaluer l’exactitude et l’efficacité de l’utilisation d’intégrations de vecteurs de mots pour rechercher une nouvelle terminologie de la drogue.
Résultats: La méthode décrite ici a produit une liste de 200 termes de candidat pour la substance cible (marijuana). Sur ces 200 candidats, 115 étaient déterminés à se rapporter en fait à la marijuana (65 termes pour la substance elle-même, 50 termes liés à l’attirail). Cela comprenait 30 termes qui ont été utilisés pour désigner la substance cible dans le corpus, mais qui ne figuraient pas sur la liste générée par les experts et qui étaient donc considérés comme des cas réussis de découverte d’une nouvelle terminologie des médicaments. Plusieurs de ces termes nouveaux semblent avoir été introduits aussi récemment que 1 ou 2 mois avant la tranche de temps de corpus utilisée pour former le mot embeddings.
Conclusions: Bien que la précision de la méthode décrite ici soit suffisamment faible pour nécessiter l’examen humain de toutes les listes de termes candidats générées de cette manière, le fait que ce processus a été en mesure de détecter 30 termes nouveaux pour la substance cible basée uniquement sur une valeur d’un mois de données Twitter est très prometteur. Nous considérons cette étude pilote comme une preuve de concept importante et une première étape vers la production d’un système entièrement automatisé de découverte des termes de médicaments capable de suivre les termes émergents du SNP en temps réel.