Un sistema sintético de generación de datos para cuestionarios de encefalomielitis miálgica/síndrome de fatiga crónica

Scientific Reports volumen 13, número de artículo: 14256 (2023) Citar este artículo

2 altmétrico

Detalles de métricas

Los modelos basados en inteligencia artificial o aprendizaje automático han demostrado su utilidad para comprender mejor diversas enfermedades en todos los ámbitos de las ciencias de la salud. La encefalomielitis miálgica o síndrome de fatiga crónica (EM/SFC) carece de pruebas diagnósticas objetivas. Algunos cuestionarios validados se utilizan para el diagnóstico y evaluación de la progresión de la enfermedad. La disponibilidad de una base de datos suficientemente grande de estos cuestionarios facilita la investigación de nuevos modelos que puedan predecir perfiles que ayuden a comprender la etiología de la enfermedad. Un generador de datos sintéticos proporciona a la comunidad científica bases de datos que preservan las propiedades estadísticas del original, libres de restricciones legales, para su uso en investigación y educación. Las bases de datos iniciales procedían de la Unidad Especializada del Hospital Vall Hebron de Barcelona, España. Se analizaron 2522 pacientes diagnosticados de EM/SFC. Sus respuestas a cuestionarios relacionados con los síntomas de esta compleja enfermedad se utilizaron como conjuntos de datos de entrenamiento. Se han alimentado para algoritmos de aprendizaje profundo que proporcionan modelos con alta precisión [0,69–0,81]. El modelo final requiere respuestas SF-36 y devuelve respuestas de los cuestionarios HAD, SCL-90R, FIS8, FIS40 y PSQI. Se ofrece un generador de datos sintéticos altamente confiable y fácil de usar para uso educativo y de investigación en esta enfermedad, para la cual actualmente no existe un tratamiento aprobado.

La encefalomielitis miálgica, comúnmente llamada síndrome de fatiga crónica (EM/SFC), es una enfermedad multisistémica crónica, compleja y grave de etiología desconocida, a menudo desencadenada por una infección viral persistente (por esta razón, también se conoce como síndrome de fatiga posviral). ). La EM/SFC afecta entre 17 y 24 millones de personas en todo el mundo y se espera que su prevalencia se duplique para el año 20301. Se caracteriza por una fatiga post-esfuerzo persistente e inexplicable que no se alivia con el descanso. Se ve exacerbada por el esfuerzo físico y mental y otros síntomas centrales como la disfunción cognitiva, inmunometabólica, autonómica y neuroendocrina2. Produce una discapacidad severa en los pacientes, interfiriendo significativamente en su actividad laboral y en sus tareas de la vida diaria3. Además de la fatiga, estos pacientes presentan síntomas inflamatorios y musculares característicos, disfunción del sueño y funciones cognitivas alteradas4. El músculo sintomático bloquea síntomas como dolor, debilidad muscular generalizada, fatiga tras el esfuerzo físico, síntomas neurológicos (hipersensibilidad sensorial, ataxia, dismetría, alteraciones visuales y descoordinación motora), síntomas neurocognitivos (alteraciones de la memoria, concentración, cálculo, planificación de tareas) . El bloqueo autonómico (inestabilidad cefálica, mareos, desmayos, sudoración excesiva, hipotensión ortostática, temblor o alteraciones del ritmo intestinal), síntomas inmunoinflamatorios (fiebre, dolor de garganta, aftas recurrentes, poliartralgia, entumecimiento matutino, infecciones como herpes o candida) y síntomas de deficiencia en la producción de energía metabólica celular. Las alteraciones del sueño han sido relevantes desde su descripción como entidad clínica. En todas las versiones de los diferentes criterios diagnósticos de EM/SFC, los trastornos del sueño han jugado un papel clave, especialmente la presencia de sueño no reparador y la importancia del cuestionario del Índice de Calidad del Sueño de Pittsburgh (PSQI) en la evaluación de la gravedad de las alteraciones en la calidad del sueño. y su asociación con fatiga, dolor, psicopatología y disfunción neurovegetativa5. La EM/SFC, junto con la complejidad sintomática que presenta, como consecuencia de su carácter multisistémico, se asocia a diferentes fenómenos comórbidos como fibromialgia, síndrome seco, síndrome miofascial, psicopatología, hiperlaxitud ligamentaria, fascitis plantar, enfermedad vertebral degenerativa o mecánica. , tendinopatía del hombro, sensibilidad química múltiple, epicondilitis, síndrome del túnel carpiano, osteoporosis, hipercolesterolemia, hipertrigliceridemia, riesgo vascular, endometriosis, tiroiditis, con una prevalencia mayor que la observada en pacientes no afectados por EM/SFC6.

En el estudio de EM/SFC, tras el diagnóstico y evaluación de fenómenos comórbidos, es fundamental cuantificar y evaluar la fatiga, la calidad de vida o la psicopatología de ansiedad/depresión mediante una batería de cuestionarios clínicamente autoadministrados. Hoy en día existen pocas unidades especializadas en EM/SFC en el mundo, con un número relativamente bajo de casos debidamente documentados y una falta de datos disponibles públicamente en comparación con otros trastornos. Además, desafortunadamente, no existen pruebas de diagnóstico disponibles comercialmente, ni biomarcadores de laboratorio específicos ni medicamentos específicos aprobados por la FDA para EM/SFC7. Por lo tanto, cada sujeto a ser diagnosticado con EM/SFC debe someterse a una evaluación y procedimiento de criterios de Fukuda que cada unidad ha establecido mediante baterías de cuestionarios autoadministrados validados. Como se indicó anteriormente, es importante evaluar la percepción de fatiga incapacitante, los problemas de sueño y la calidad de vida relacionada con la salud mediante cuestionarios autoadministrados como la escala de impacto de la fatiga FIS408 y FIS89, PSQI10 y Short Form Health Survey (SF-36). )11, inventario psicológico revisado en la Lista de verificación de síntomas 90 (SCL 90 R)12, escala hospitalaria de ansiedad y depresión (HAD)13. Los ensayos clínicos en curso controlados con placebo para evaluar los beneficios clínicos de los medicamentos sobre los síntomas de EM/SFC14 han cambiado algunas puntuaciones de los cuestionarios desde el inicio hasta el estudio final como criterio de valoración principal.

No existe consenso sobre el número y tipo de cuestionarios que se deben realizar, por lo que no todas las unidades registran el mismo número por tema. En consecuencia, resulta complejo para las unidades de EM/SFC disponer de muchos registros de los cuestionarios necesarios para abordar de forma eficiente grandes estudios longitudinales y multicéntricos de pacientes con esta patología utilizando los últimos avances en análisis de datos, como las técnicas de Machine Learning.

Machine Learning es un método particular de análisis de datos que automatiza la construcción de modelos en lo que respecta al desarrollo de modelos. En los últimos años, se ha demostrado un gran rendimiento de los algoritmos supervisados de aprendizaje automático en varias aplicaciones clínicas15 para diagnosticar y tratar enfermedades. El aprendizaje supervisado implica el entrenamiento de algoritmos basados en aprendizaje automático utilizando conjuntos de datos de entrada etiquetados que requieren, sin embargo, una gran cantidad de registros para ser eficientes y obtener resultados óptimos. El aprendizaje se produce comparando los resultados con los resultados esperados para identificar errores y cambiar los pesos del modelo para inferir conocimiento. Existen pocas publicaciones, y todas ellas muy recientes, que hacen referencia a la aplicación de diferentes técnicas de aprendizaje automático en EM/SFC: buscar un nuevo biomarcador16, clustering17, o descubrir la relación entre depresión y EM/SFC18, utilizando redes neuronales que buscan biomarcadores16 o clasificadores de redes neuronales19. Si bien todos dan pasos importantes hacia la comprensión de EM/CSF, el tamaño limitado de la muestra dificulta la generalización y traducción de sus hallazgos a la práctica clínica u otros conjuntos de datos. Además, como se ha dicho anteriormente, cuando no existen biomarcadores claros para seguir la evolución de la enfermedad, como en EM/CSF, se utilizan cuestionarios de calidad de vida para medirla14. Hay varias líneas de investigación, como el clustering20 o encontrar relaciones entre mediciones de sangre con datos de cuestionarios21.

Por lo tanto, existe una demanda cada vez mayor de acceder a grandes repositorios de conjuntos de datos de salud de alta calidad para obtener predicciones mejores y más confiables a partir de algoritmos de aprendizaje automático supervisados. Los seguros22 y los grupos clínicos23 compran y venden registros médicos electrónicos anonimizados. Sin embargo, están limitados en tamaño o contenido, pueden estar incompletos y sus aplicaciones pueden estar restringidas. Este problema puede superarse utilizando conjuntos de datos sintéticos procedentes de simulaciones24,25. Se generan conjuntos de datos sintéticos para crear datos para mejorar el tamaño de la muestra de cohortes existentes o completar los valores faltantes, preservando la privacidad y manteniendo las características de los datos reales. Los generadores de datos sintéticos conservan las propiedades estadísticas del original. Sin embargo, no revelan ninguna información sobre personas reales y ofrecen varios beneficios, como superar las restricciones de uso de datos reales, el intercambio de datos y el consentimiento del paciente. Existe la necesidad de desarrollar conjuntos de datos sintéticos que complementen los datos del mundo real por varias razones26: facilidad de acceso, rentabilidad, eficacia de las pruebas, protección de la privacidad del paciente, integridad y capacidades de validación, manejo de faltas, interacciones complejas entre variables, lo que resulta en estadísticas de análisis de sensibilidad de los últimos clasificadores y modelado gráfico y remuestreo27. Una aplicación común de la generación de datos sintéticos en medicina es la generación de imágenes que simulan enfermedades. Ayuda a probar y comparar el rendimiento y la precisión de diferentes algoritmos. Algunas aplicaciones recientes son la simulación de lesiones cutáneas28, atrofia cerebral en el envejecimiento o Demencia29, generación de PET MRI para la enfermedad de Alzheimer30, generación de tumores en el cerebro31 o cáncer de mama32.

Este trabajo tiene como objetivo generar un generador de datos sintéticos robusto y confiable para cuestionarios de EM/SFC para producir registros de atención médica de alta fidelidad y sin riesgos, mejorar los conjuntos de datos de EM/SFC públicos y privados existentes para investigación y uso educativo, y están libres de restricciones legales. , privacidad, seguridad y restricciones de propiedad intelectual.

Este estudio transversal prospectivo incluye 2.522 sujetos diagnosticados de EM/SFC en el Hospital Universitario Vall d'Hebron, Barcelona, España, 90,5% mujeres (edad media 48,11 ± 10,31 años) y 9,5% hombres (edad media 44,41 ± 11,35 años). . Los datos de los cuestionarios SF-36, HAD, FIS8, FIS40, SCL 90 R y PSQI se obtuvieron y registraron desde 2008 hasta 2021. Consulte la Tabla 1 para los registros finales. Los pacientes eran elegibles para participar si tenían 18 años, tenían un diagnóstico confirmado de EM/SFC, cumplían con los criterios de Fukuda33 y Carruthers34 y proporcionaban un consentimiento informado por escrito firmado y la aprobación del comité de ética. Los datos recogidos fueron anonimizados en una base de datos a la que sólo tenían acceso los designados para el estudio, y en ningún caso se conoció información que pudiera revelar o inferir la identidad del participante.

Se utilizó la teoría de grafos para analizar las relaciones entre las subescalas de cada cuestionario. Un grafo es una colección de nodos (también llamados vértices) unidos en pares por aristas (no dirigidas) o arcos (dirigidos)35. La estructura del gráfico nos permite capturar el patrón de interacciones entre los nodos (individuos o entidades). El análisis de gráficos (o redes) se utiliza para estudiar las relaciones entre individuos para descubrir conocimientos sobre estructuras globales y locales. El estudio de redes estructurales ayuda a decidir el orden óptimo36.

En este trabajo, los nodos del gráfico se definen como todas las subescalas y los bordes se definen como correlaciones moderadas o fuertes entre nodos (subescalas). La correlación lineal entre dos subescalas se representa por \(corr\left(i,j\right)\), y la correlación de Pearson se define como moderada o fuerte si \(corr\left(i,j\right)\ge 0.5\ ) 37 en caso de correlación directa. Un \(edge\left(i,j\right)\) se define si \(abs\left(corr\left(i,j\right)\right)\ge 0.5\).

La relación de subescalas entre cada prueba se relaciona en la Tabla 2. Cada subescala se ha clasificado según el área a la que se le ha definido y denominado como materia. Treinta y ocho subescalas, seis pruebas y doce sujetos forman el conjunto de datos para crear la relación entre ellos y el gráfico.

El estudio de las relaciones mencionadas anteriormente debe indicar el orden para generar nuestros modelos de aprendizaje automático. El SF-36 prevalece y se utilizará en nuestro modelo como datos iniciales. El resto del orden vendrá dado por las relaciones entre las diferentes pruebas para que aquellas con una relación más fuerte sean consecutivas en el modelo. La fuerza de la relación se mide en términos del porcentaje de conexiones entre los nodos de prueba.

Se requieren datos reales de los seis cuestionarios para entrenar y construir los modelos. Primero, una matriz de entrada representa las respuestas validadas de un número de pacientes, donde n es el número de respuestas validadas y f el número de preguntas. Estos son los primeros datos de entrenamiento. Como se predijo, tiene que ser un segundo cuestionario con las mismas preguntas n y f1. El modelo debe generar una matriz predicha con la misma dimensión. El siguiente paso tiene como matriz de entrada la matriz inicial concatenada con la última matriz predicha y la segunda matriz de respuesta al cuestionario para la predicción, como se muestra en la Fig. 1.

Esquema de modelado. El modelo requiere una matriz de respuestas al cuestionario como valor de entrada. El resultado son los otros cinco cuestionarios. Cada cuestionario tiene un número diferente de preguntas y subescalas. Una simple suma del número de preguntas calcula la mayoría de las subescalas. Por ejemplo, la dimensión de entrada del SF-36 es n × 36, donde n es el número de pacientes que respondieron el cuestionario SF-36. El resultado es n × 186, donde 186 son las cinco respuestas del cuestionario.

Se pueden utilizar modelos de clasificación y regresión. El objetivo es proporcionar 186 dimensiones de salida que deben calcularse paso a paso. El resultado se compara con el conjunto de datos reales para validar el modelo. Los resultados se validan mediante la prueba t de Student. La estrategia es validar un cuestionario. El siguiente paso es concatenar la matriz de respuestas del cuestionario como entrada con el resultado final con diferentes modelos. Ha probado algoritmos de aprendizaje automático y aprendizaje profundo paso a paso. El sistema de validación ha medido si los datos reales y sintéticos provienen de las mismas poblaciones dentro de las estadísticas t-student. Los modelos probados han sido regresores y clasificadores. La comparación entre XGBoost y Deep Neural Networks (DNN)38,39 muestra que ambos modelos ofrecen un rendimiento similar en datos estructurados.

La puntuación F1 puede interpretarse como una media armónica de precisión y recuperación, donde una puntuación F1 alcanza su mejor valor en uno y su peor puntuación en cero. La contribución relativa de la precisión y la recuperación a la puntuación F1 es igual. La fórmula para la puntuación F1 es:

y operando,

donde TP es el número de verdaderos positivos, FN es el número de falsos negativos y FP es el número de falsos positivos. Un mejor rendimiento significa valores más bajos de FN y FP, y una mejor precisión y recuperación significan un mejor rendimiento de F1. En datos desequilibrados, una mayor precisión que la puntuación F1 indica que algunas etiquetas funcionan mal. La recuperación se define mediante la relación \(recall=\frac{tp}{tp+fn}\)40. La precisión se define si \(\left(y,\widehat{y}\right)\) como (muestra, predicha), entonces la fracción de predicciones correctas sobre muestras se define como

El error medio se define como la relación entre el valor general predicho del cuestionario y el valor completo del cuestionario de muestra. La serie para el valor t-student se define como la suma de todas las respuestas de cada variable del cuestionario, datos pronosticados y de muestra.

Los autores declaran que los procedimientos seguidos se ajustaron a las normas del Comité de Ética en Investigación Clínica responsable y a las de la Asociación Médica Mundial y la Declaración de Helsinki. Los protocolos de investigación fueron aprobados por el Comité Ético del Hospital Universitario Vall d'Hebron, el primer “Registro Poblacional de Pacientes con Síndrome de Fatiga Crónica” aprobado el 18/10/2006.

En nuestro modelo propuesto, se define un \(edge\left(i,j\right)\) si \(abs\left(corr\left(i,j\right)\right)\ge 0.5\) lo que indica moderado o fuerte correlación directa e indirecta. Se validaron los 2.370 registros y la correlación de Pearson analizó 38 subescalas del cuestionario. El sujeto de cada subescala representa redes con cada nodo (9) que se muestra en la Fig. 2. Los sujetos mentales, la depresión y la ansiedad están fuertemente correlacionados con los sujetos físicos. Las subescalas emocionales del SF-36 son relacionales con las subescalas de ansiedad, depresión y mental (cuestionarios SCL 90 R y HAD). Como puede verse, HAD y SCL 90 R están fuertemente correlacionados. El tamaño del nodo está relacionado con el grado del nodo, es decir, el número de aristas incidentes.

Gráfico de relación de subescalas. Los nodos de color representan la prueba a la que pertenecen los nodos. El porcentaje en la leyenda representa la cantidad de nodos versus el total.

En material complementario, la segunda red analiza las subescalas como un nodo y la misma relación como un borde. Las subescalas SF-36 (verde) tienen fuertes relaciones con HAD (magenta) y FIS8 y FIS40 (verde fuerte y rojo, respectivamente). SCL 90 R (marrón) tiene una fuerte relación con HAD. Además, el PSQI (azul) no tiene ninguna relación excepto el valor total de psqi. La fuerza de la relación se mide en términos del porcentaje de relaciones entre los nodos de prueba. La prueba inicial es SF-36, y sus nodos tienen relaciones con el 100% de los nodos de HAD (3 de 3) y sólo el 25% de SCL 90 R (4 de 12). Los nodos de HAD tienen una relación del 100% con los nodos de SCL 90 R. SCL 90 R tiene una relación con el nodo único FIS8, que tiene relaciones con los cuatro nodos FIS40. La última prueba con pocas relaciones es el PSQI. En consecuencia, el orden decidido según las relaciones antes mencionadas es: HAD, SCL 90 R, FIS8, FIS40 y PSQI.

En el material complementario de la Fig. 3 se proporciona una comparación de prueba entre XGBoost, Classifier y XGBoost Regressor utilizando SF-36 como datos de entrenamiento y HAD como objetivo con 2321 registros validados. El hiperparámetro define cómo funciona nuestro modelo41. Los parámetros ajustados fueron max_ Depth, gamma, reg_alpha, reg_lambda, colsample_bytree, min_child_weight, subsample, n_estimators y eta. Hyperopt se ha utilizado para el ajuste de hiperparámetros41. Ambos deben estar capacitados para cada pregunta; por lo tanto, es necesario entrenar 14 modelos. El orden de un valor predicho establecido es {0, 1, 2, 3} y el valor entrenado es {1, 2, 3}, donde en ambos casos, los valores mayores muestran un peor estado de salud. Regresor predicho redondeado para comparar entre datos reales. Los resultados del modelo se analizan con XGBoost y se comparan la regresión y clasificación. El error medio de regresión es mucho mayor que el error de clasificación (32,50% frente a 3,16%). Por lo tanto, el modelo de regresión se descarta en los siguientes análisis (los resultados están disponibles en el material complementario, Tabla S1). Las conexiones totales han sido 32.494 (2321 registros × 14 preguntas cuestionario HAD) y las respuestas “1” y “2” suponen el 67,25% del total. El modelo tiende a reducir el error medio, por lo que el modelo predijo un 70% más de “1” que lo real y poco común predicho, “3” (para obtener más información, consulte la Tabla S3 en el Material complementario).

Los datos desequilibrados ocurren cuando una o más etiquetas de clase tienen un número muy alto de observaciones y la otra tiene una cantidad menor. El principal problema es aumentar las predicciones precisas sobre la clase minoritaria. Para considerar la distribución sesgada de clases con diferentes ponderaciones, las clases con ponderaciones dan como resultado una penalización y una actualización menor de los coeficientes del modelo. El modelo basado en la biblioteca Keras es más flexible y, para cada pregunta, puede considerarse como la diferencia de los datos no balanceados. La principal diferencia entre el modelo clasificador de Keras es el uso del valor de recuperación, que ayuda a reducir el problema antes mencionado con datos desequilibrados (para obtener más información, consulte la Tabla S3 en el Material complementario). Para cada clase, haz

donde n es el número de registros válidos, clases es el número de clases y \(coun{t}_{i}\) es el soporte de la iésima clase. Comparación de resultados de las primeras preguntas de HAD (para obtener más información, consulte las Tablas S1 a S3 en el Material complementario). La respuesta “0” tiene 66 (2,8%) de apoyo y la respuesta “3” tiene 562 (24,21%) de apoyo. Las clases de etiquetas ponderadas por minorías tienden a estar subrepresentadas con una tasa de recuperación baja, 0,00 en el primer caso. Estos sesgos producen datos de peor calidad sintética para análisis posteriores. La Tabla 3 muestra los resultados una vez corregidos por la configuración en nuestro modelo, mejorando significativamente los resultados en aquellas respuestas con baja representación.

La construcción del modelo necesita cinco pasos, como se muestra en la Fig. 3. El primer paso requiere una matriz de entrada del cuestionario SF-36 con 3019 registros que el cuestionario HAD tenía los mismos. El resultado es una matriz sintética HAD. El segundo paso requiere una matriz de entrada de SF-36 + HAD (datos sintéticos) y produce respuestas sintéticas SCL 90 R y así sucesivamente. Los resultados se detallan en las Tablas 4, 5.

Esquema del algoritmo del clasificador de Keras.

Dado que los datos del cuestionario SF-36 se pueden crear utilizando un nuevo modelo, las respuestas sintéticas de otros cuestionarios informan el impacto de la fatiga, los fenómenos psicológicos y la disfunción del sueño. La falta de datos de salud libres de riesgos es un problema en las unidades hospitalarias e investigadores de ME/SFC. Este proyecto de código abierto ofrece una herramienta para generar datos sintéticos sin riesgos para que la comunidad clínica y de TI de la salud los utilice, experimente y cree más datos sintéticos. La calidad basada en pruebas de validación no abarcó proyectos o investigaciones centradas en el descubrimiento clínico. Los datos sintéticos pueden ser una alternativa a la verdad sobre el terreno cuando el acceso a los datos está restringido y una excelente alternativa a los conjuntos de datos de prueba/entrenamiento de aprendizaje automático26.

El SF-36 incluye una escala de múltiples ítems que evalúa ocho conceptos de salud: (1) limitaciones en las actividades físicas debido a problemas de salud; (2) limitaciones en las actividades sociales debido a problemas físicos o emocionales; (3) limitaciones en las actividades habituales debido a problemas de salud física; (4) dolor corporal; (5) salud mental general (angustia psicológica y bienestar); (6) limitaciones en las actividades habituales debido a problemas emocionales; (7) vitalidad (energía y fatiga), y (8) percepciones generales de salud y es uno de los cuestionarios de calidad de vida más utilizados y evaluados41. Los otros cinco cuestionarios utilizados en este trabajo complementan la mayor parte de la información sobre la calidad de vida de los pacientes con EM/SFC.

Los cuestionarios se pueden responder rápidamente y están disponibles periódicamente en atención primaria y consultas médicas especializadas. Algunas aplicaciones ofrecen resultados analizados automatizados que brindan información esencial sobre las condiciones de salud del paciente.

Se ha utilizado la teoría de grafos para decidir el orden de la cascada de modelado. Aunque un análisis más profundo de estas relaciones debería ser objeto de otro trabajo más específico, en este caso nos informa del orden utilizado en nuestro modelo. Estas relaciones caracterizarán nuestro modelo, que será más robusto cuanto más registros se analicen. Nuestro conjunto de datos es inusualmente excelente en SFC, que se vuelve sólido para nuestros modelos.

Nuestras aplicaciones de generación de conjuntos de datos sintéticos completan los datos faltantes de conjuntos de datos reales de otros cinco cuestionarios. Para aquellos, las unidades clínicas del conjunto de datos ME/SFC con respuestas al cuestionario SF-36 pero faltando otras podrían construir un conjunto de datos completo.

(1) Ensayo unicéntrico. (2) Unidad de referencia en el diagnóstico y tratamiento del SFC/EM, que puede estar sesgada hacia casos más graves y de mayor tiempo de evolución que los estudios en atención primaria. (3) No hay información disponible sobre parámetros como los resultados de la prueba ergométrica de dos días para evaluar la intolerancia al ejercicio, una batería neuropsicológica para evaluar el deterioro cognitivo y la disfunción neurovegetativa, por ejemplo, la variabilidad de la frecuencia cardíaca. (4) Que se trata de un estudio prospectivo con recogida de datos transversal. No es un estudio longitudinal.

Los pacientes sintéticos se pueden simular con modelos de datos de cuestionarios de EM/SFC y los estándares de atención correspondientes para producir registros sanitarios sintéticos realistas y sin riesgos a escala. Un generador de código abierto ofrece datos sintéticos de alta fidelidad para investigación y uso educativo, libres de restricciones legales, de privacidad, seguridad y propiedad intelectual.

GitHub es una plataforma online donde investigadores y desarrolladores de software comparten su trabajo con la comunidad científica. El siguiente enlace comparte el trabajo aquí descrito. Los conjuntos de datos generados y/o analizados durante el estudio actual están disponibles en el repositorio SFCSyntheticDataGenerator, https://github.com/mlacasa/SFCSyntheticDataGenerator

Lim, E.-J. et al. Revisión sistemática y metanálisis de la prevalencia del síndrome de fatiga crónica/encefalomielitis miálgica (SFC/EM). J. Transl. Medicina. 18, 100. https://doi.org/10.1186/s12967-020-02269-0 (2020).

Artículo PubMed PubMed Central Google Scholar

Morris, G. y col. Encefalomielitis miálgica/síndrome de fatiga crónica: desde conocimientos fisiopatológicos hasta nuevas oportunidades terapéuticas. Farmacéutico. Res. 148, 104450. https://doi.org/10.1016/j.phrs.2019.104450 (2019).

Artículo CAS PubMed Google Scholar

Castro-Marrero, J. et al. Desempleo e incapacidad laboral en personas con síndrome de fatiga crónica/encefalomielitis miálgica: un estudio transversal comunitario en España. BMC Salud Pública 19, 840. https://doi.org/10.1186/s12889-019-7225-z (2019).

Artículo PubMed PubMed Central Google Scholar

Maes, M. & Twisk, FN Por qué la encefalomielitis miálgica/síndrome de fatiga crónica (EM/SFC) puede matarle: Los trastornos en las vías inflamatorias y del estrés oxidativo y nitrosativo (IO&NS) pueden explicar los trastornos cardiovasculares en la EM/SFC. Neuroendocrinol Lett. 30, 677–693 (2009).

PubMed Google Académico

Castro-Marrero, J. et al. Mala calidad del sueño autoinformada y calidad de vida relacionada con la salud en pacientes con síndrome de fatiga crónica/encefalomielitis miálgica. J. Res. del sueño. 27, e12703. https://doi.org/10.1111/jsr.12703 (2018).

Artículo PubMed Google Scholar

Castro-Marrero, J. et al. Comorbilidad en el síndrome de fatiga crónica/encefalomielitis miálgica: un estudio de cohorte poblacional a nivel nacional. Psicosomática 58, 533–543. https://doi.org/10.1016/j.psym.2017.04.010 (2017).

Artículo PubMed Google Scholar

Castro-Marrero, J., Sáez-Francàs, N., Santillo, D. & Alegre, J. Treatment and management of chronic fatigue syndrome/myalgic encephalomyelitis: All roads lead to Rome. Br. J. Pharmacol. 174, 345–369. https://doi.org/10.1111/bph.13702 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Fisk, JD y cols. Medición del impacto funcional de la fatiga: validación inicial de la escala de impacto de la fatiga. Clínico. Infectar. Dis. 18 (Suplemento 1), S79-83. https://doi.org/10.1093/clinids/18.supplement_1.s79 (1994).

Artículo PubMed Google Scholar

Fisk, JD & Doble, SE Construcción y validación de una escala de impacto de fatiga para administración diaria (D-FIS). Cual. Res. de vida. 11, 263–272. https://doi.org/10.1023/a:1015295106602 (2002).

Artículo PubMed Google Scholar

Buysse, DJ, Reynolds, CF 3rd., Monk, TH, Berman, SR y Kupfer, DJ El índice de calidad del sueño de Pittsburgh: un nuevo instrumento para la práctica y la investigación psiquiátrica. Res. Psiquiatría. 28, 193–213. https://doi.org/10.1016/0165-1781(89)90047-4 (1989).

Artículo CAS PubMed Google Scholar

Alonso, J., Prieto, L. & Antó, JM La versión española de la encuesta de salud SF-36 (el cuestionario de salud SF-36): Un instrumento de medición de resultados clínicos. Medicina. Clínico. 104, 771–776 (1995).

CAS Google Académico

McGregor, NR y cols. Una evaluación preliminar de la asociación de las respuestas del inventario psicológico de SCL-90-R con cambios en los metabolitos urinarios en pacientes con síndrome de fatiga crónica. J. Síndrome de fatiga crónica. 3, 17–37. https://doi.org/10.1300/J092v03n01_03 (1997).

Artículo de Google Scholar

Castresana, C., Perez, A. G. -E., de Rivera, J. L. G. Hospital anxiety and depression scale y psicopatología afectiva. Anales de psiquiatría. pp. 126–130. (1995) Available: https://www.academia.edu/download/51823551/95_A138_03.pdf

Castro-Marrero, J. et al. Efecto de la suplementación dietética con coenzima Q10 más NADH sobre la percepción de la fatiga y la calidad de vida relacionada con la salud en personas con encefalomielitis miálgica/síndrome de fatiga crónica: un ensayo prospectivo, aleatorizado, doble ciego y controlado con placebo. Nutrientes https://doi.org/10.3390/nu13082658 (2021).

Artículo PubMed PubMed Central Google Scholar

Watson, DS y cols. Aplicaciones clínicas de algoritmos de aprendizaje automático: más allá de la caja negra. BMJ 364, 1886. https://doi.org/10.1136/bmj.l886 (2019).

Artículo PubMed Google Scholar

Kitami, T. y col. Fenotipado profundo de la encefalomielitis miálgica/síndrome de fatiga crónica en la población japonesa. Ciencia. Rep. 10, 19933. https://doi.org/10.1038/s41598-020-77105-y (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Słomko, J. et al. Los fenotipos autónomos en el síndrome de fatiga crónica (SFC) están asociados con la gravedad de la enfermedad: un análisis de conglomerados. J.Clin. Medicina. Res. 9, 254. https://doi.org/10.3390/jcm9082531 (2020).

Artículo de Google Scholar

Zhang, F. y col. Descubrimiento basado en inteligencia artificial de la asociación entre la depresión y el síndrome de fatiga crónica. J. Afecto. Desorden. 250, 380–390. https://doi.org/10.1016/j.jad.2019.03.011 (2019).

Artículo PubMed Google Scholar

Hanson, SJ, Gause, W. y Natelson, B. Detección de factores inmunológicamente significativos para el síndrome de fatiga crónica mediante clasificadores de redes neuronales. Clínico. Diagnóstico. Laboratorio. Inmunol. 8, 658–662. https://doi.org/10.1128/CDLI.8.3.658-662.2001 (2001).

Artículo CAS PubMed PubMed Central Google Scholar

Levine, PH y cols. Estudios clínicos, epidemiológicos y virológicos en cuatro grupos del síndrome de fatiga crónica. Arco. Interno. Medicina. 152, 1611-1616 (1992).

Artículo CAS PubMed Google Scholar

Asprusten, TT, Sletner, L. & Wyller, VBB ¿Existen subgrupos del síndrome de fatiga crónica? Un análisis de conglomerados exploratorio de marcadores biológicos. J. Transl. Medicina. 19, 48. https://doi.org/10.1186/s12967-021-02713-9 (2021).

Artículo PubMed PubMed Central Google Scholar

Hunter, P. La gran venta de datos sanitarios: a medida que se expande el comercio de datos médicos y de salud personal, se hace necesario mejorar los marcos legales para proteger el anonimato de los pacientes, gestionar el consentimiento y garantizar la calidad de los datos. Representante EMBO 17, 1103-1105. https://doi.org/10.1525/ebr.201642917 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Tate, AR y cols. Explotar el potencial de las grandes bases de datos de historias clínicas electrónicas para la investigación utilizando algoritmos de búsqueda rápida y una interfaz de consulta intuitiva. Mermelada. Medicina. Informar. Asociación. 21, 292–298. https://doi.org/10.1136/amiajnl-2013-001847 (2014).

Artículo PubMed Google Scholar

Moniz, L. et al. Construcción y validación de historias clínicas electrónicas sintéticas. En línea J. Informe de Salud Pública. https://doi.org/10.5210/ojphi.v1i1.2720 (2009).

Artículo PubMed PubMed Central Google Scholar

Weiss, JC, Page, D. Proceso de puntos basado en bosques para la predicción de eventos a partir de registros médicos electrónicos. Aprendizaje automático y descubrimiento de conocimiento en bases de datos. Springer Berlín Heidelberg. 547–562 (2013). https://doi.org/10.1007/978-3-642-40994-3_35

Wang, Z., Myles, P. y Tucker, A. Generación y evaluación de datos electrónicos sintéticos transversales de atención médica: preservación de la utilidad de los datos y la privacidad del paciente. Computadora. Intel. 37, 819–851. https://doi.org/10.1111/coin.12427 (2021).

Artículo MathSciNet Google Scholar

Tucker, A., Wang, Z., Rotalinti, Y. & Myles, P. Generación de datos sintéticos de pacientes de alta fidelidad para evaluar software sanitario de aprendizaje automático. NPJ. Dígito. Medicina. 3, 147. https://doi.org/10.1038/s41746-020-00353-9 (2020).

Artículo PubMed PubMed Central Google Scholar

Qin, Z., Liu, Z., Zhu, P. y Xue, Y. Un método de síntesis de imágenes basado en GAN para la clasificación de lesiones cutáneas. Computadora. Métodos Programas Biomédicos. 195, 105568–105616. https://doi.org/10.1016/j.cmpb.2020.105568 (2020).

Artículo PubMed Google Scholar

Ravi, D. y col. Redes de neuroimagen adversarias degenerativas para simulaciones de escaneo cerebral: aplicación en el envejecimiento y la demencia. Medicina. Imagen Anal. 75, 102257. https://doi.org/10.1016/j.media.2021.102257 (2022).

Artículo PubMed PubMed Central Google Scholar

Islam, J. & Zhang, Y. Generación de imágenes PET de cerebro sintético basada en GAN. Información cerebral. 7, 3. https://doi.org/10.1186/s40708-020-00104-2 (2020).

Artículo PubMed PubMed Central Google Scholar

Li, Q., Yu, Z., Wang, Y. y Zheng, H. TumorGAN: un marco de aumento de datos multimodal para la segmentación de tumores cerebrales. Sensores https://doi.org/10.3390/s20154203 (2020).

Artículo PubMed PubMed Central Google Scholar

Tien, H.-J., Yang, H.-C., Shueng, P.-W. y Chen, J.-C. Mejora de la calidad de la imagen de TC de haz cónico utilizando redes adversarias consistentes Cycle-Deblur (Cycle-Deblur GAN) para imágenes de TC de tórax en pacientes con cáncer de mama. Ciencia. Rep. 11, 1133. https://doi.org/10.1038/s41598-020-80803-2 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Fukuda, K. y col. El síndrome de fatiga crónica: una aproximación integral a su definición y estudio. Ana. Interno. Medicina. 121, 953–959. https://doi.org/10.7326/0003-4819-121-12-199412150-00009 (1994).

Artículo CAS PubMed Google Scholar

Carruthers, BM y cols. Encefalomielitis miálgica: criterios de consenso internacional. J. Int. Medicina. 2415, 327–338. https://doi.org/10.1111/j.1365-2796.2011.02428.x (2011).

Artículo de Google Scholar

Newman, M. Redes. Prensa de la Universidad de Oxford; 2018. Disponible: https://play.google.com/store/books/details?id=YdZjDwAAQBAJ

Hagberg, A., Swart, PS, Chult, D. Exploración de la estructura, dinámica y función de la red utilizando NetworkX. Laboratorio Nacional de Los Alamos. (LANL), Los Alamos, NM (Estados Unidos); (2008). Disponible: https://www.osti.gov/biblio/960616

Suchowski, MA Un análisis del impacto de un valor atípico en los coeficientes de correlación en datos de muestras pequeñas donde rho no es cero. Western Michigan UniversityProQuest Dissertations Publishing, año de licenciatura. pag. 3007026. Disponible: https://search.proquest.com/openview/5d1cbf13c930b7358050381ebab41a85/1?pq-origsite=gscholar&cbl=18750&diss=y

Ferreira, L., Pilastri, A., Martins, CM, Pires, PM, Cortez, P. Una comparación de herramientas AutoML para aprendizaje automático, aprendizaje profundo y XGBoost. 2021 Conferencia conjunta internacional sobre redes neuronales (IJCNN). págs. 1–8. (2021). https://doi.org/10.1109/IJCNN52387.2021.9534091

Park, DJ y cols. Desarrollo de modelo de aprendizaje automático para la predicción diagnóstica de enfermedades basado en pruebas de laboratorio. Ciencia. Rep. 11, 7567. https://doi.org/10.1038/s41598-021-87171-5 (2021).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Pedregosa, F. et al. Scikit-learn: aprendizaje automático en Python. J. Mach. Aprender. Res. 12, 2825–2830 (2011).

MathSciNet MATEMÁTICAS Google Scholar

Chen, T., Guestrin, C. XGBoost: un sistema de impulso de árboles escalable. Actas de la 22ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos. Nueva York, NY, EE.UU.: Asociación de Maquinaria de Computación; págs. 785–794 (2016). https://doi.org/10.1145/2939672.2939785

Descargar referencias

ADaS Lab - E-Health Center, Universidad Abierta de Cataluña, Rambla del Poblenou, 156, 08018, Barcelona, Spain

Marcos Lacasa, Ferran Prados & Jordi Casas-Roma

Centro de Computación de Imágenes Médicas, University College London, Londres, Reino Unido

Ferran Prados

Centro de Investigación Biomédica del Instituto Nacional de Investigación en Salud de la UCL y la UCLH, Londres, Reino Unido

Ferran Prados

Departamento de Neuroinflamación, Queen Square MS Center, Instituto de Neurología de la UCL, Facultad de Ciencias del Cerebro, University College London, Londres, Reino Unido

Ferran Prados

ME/CFS Unit, Division of Rheumatology, Vall d’Hebron Hospital Research Institute Universitat Autònoma de Barcelona, Barcelona, Spain

José Alegre

También puedes buscar este autor en PubMed Google Scholar.

Todos los autores contribuyeron a la concepción y diseño del estudio. ML y JA realizaron la preparación de materiales, la recopilación y el análisis de datos. ML escribió el primer borrador del manuscrito y todos los autores comentaron las versiones anteriores. Todos los autores leyeron y aprobaron el manuscrito final.

Correspondence to Marcos Lacasa.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Lacasa, M., Prados, F., Alegre, J. et al. Un sistema sintético de generación de datos para cuestionarios de encefalomielitis miálgica/síndrome de fatiga crónica. Informe científico 13, 14256 (2023). https://doi.org/10.1038/s41598-023-40364-6

Descargar cita

Recibido: 22 de marzo de 2023

Aceptado: 09 de agosto de 2023

Publicado: 31 de agosto de 2023

DOI: https://doi.org/10.1038/s41598-023-40364-6

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.