Identificación de años de crecimiento para Puerariae Thomsonii Radix basada en tecnología de imágenes hiperespectrales y algoritmo de aprendizaje profundo

Scientific Reports volumen 13, número de artículo: 14286 (2023) Citar este artículo

Detalles de métricas

Puerariae Thomsonii Radix (PTR) no solo se usa ampliamente en la prevención y el tratamiento de enfermedades, sino que también es una materia prima importante como fuente de almidón y otros alimentos. Los años de crecimiento de PTR están estrechamente relacionados con su calidad. La identificación rápida y no destructiva del año de crecimiento es esencial para el control de calidad del PTR y otras medicinas tradicionales chinas. En este estudio, propusimos un marco de clasificación basado en redes neuronales convolucionales (CNN) junto con la tecnología de imágenes hiperespectrales (HSI) para la identificación rápida de los años de crecimiento de las PTR. Se utilizaron como modelos de referencia métodos de tratamiento tradicionales (es decir, corrección de dispersión multiplicativa, variable normal estándar y suavizado de Savitzky-Golay) combinados con algoritmos de aprendizaje automático (es decir, bosque aleatorio, regresión logística, Bayes ingenuo y aumento de gradiente extremo). Entre ellos, la puntuación F1 de los modelos basados en CNN basados en las superficies exteriores de los PTR superó el 90%, superando a todos los demás modelos de referencia. Estos resultados demostraron que era factible utilizar un algoritmo de aprendizaje profundo junto con la tecnología HSI para identificar los años de crecimiento de PTR. Este método proporciona un método rápido, no destructivo y sencillo para identificar los años de crecimiento de PTR. Se puede aplicar fácilmente a otros escenarios, como la identificación de la localidad o los años de crecimiento de otras hierbas tradicionales chinas.

Pueraria Thomsonii Benth (PTB) es un tipo de enredadera perenne, su raíz está incluida en la Farmacopea China que lleva el nombre de Puerariae Thomsonii Radix (PTR). Los PTR están enriquecidos con una variedad de componentes químicos como isoflavonas, terpenoides y cumarinas. Los PTR se han utilizado durante mucho tiempo como un tipo de medicina tradicional china. Tienen un aparente efecto terapéutico y se ha demostrado que mejoran las enfermedades cardiovasculares, antiinflamatorios y analgésicos, tienen efecto antidiabético, reducen los efectos del alcohol, protegen el hígado, aclaran la piel, agrandan los senos1,2,3,4, 5,6. También son un tipo de comida sana y famosa en China y el Sudeste Asiático. Los PTR tienen un alto valor económico y demanda de mercado.

Según la Farmacopea China, el contenido de puerarina (C21H20O9) afecta la calidad y el valor medicinal del PTR. Cuanto mayor sea el contenido de puerarina en un PTR, mayor será la calidad del PTR. Los PTR con diferentes edades de crecimiento varían en el contenido de puerarina. El contenido de puerarina en PTR está directamente relacionado con el número de años de crecimiento. Xiong et al.7 encontraron que el PTB de 1 año tiene un nivel bajo de puerarina que está muy por debajo de los estándares de la farmacopea, lo que significa que solo puede usarse como alimento o como materia prima. Por el contrario, el PTB de dos años o más suele alcanzar el nivel de contenido de puerarina estándar y puede utilizarse en la medicina tradicional china. Estos hallazgos indican la importancia de identificar los años de crecimiento de las PTR porque los años de crecimiento están directamente relacionados con la calidad y el valor económico y medicinal de las PTR.

El año de crecimiento de PTR generalmente se identifica según la experiencia objetiva o mediante pruebas físicas y químicas. Sin embargo, los PTR con diferentes edades de crecimiento tienen apariencias similares; por tanto, es difícil distinguir sus características y colores basándose en un juicio objetivo. En el pasado, la identificación química de PTR se realizaba principalmente mediante cromatografía líquida de alto rendimiento (HPLC)8,9, que requiere mucho tiempo, es laboriosa, costosa y destructiva. Por lo tanto, parece que los dos métodos mencionados anteriormente no pueden usarse para identificar los años de crecimiento de los PTR con alta precisión y eficiencia y no pueden satisfacer las necesidades de la producción industrial.

En comparación con la tecnología espectral tradicional, la tecnología de imágenes hiperespectrales (HSI) se puede utilizar para recopilar simultáneamente información de la imagen de la superficie e información espectral de una muestra analizada. Muchos investigadores han utilizado HSI para identificar los años de crecimiento y controlar la calidad de las medicinas tradicionales chinas. En los últimos años, la precisión de la identificación de los años de crecimiento de Glycyrrhizae Radix et Rhizoma10, Ophiopogonis Radix11, Ziziphi Spinosae Semen12 y Atractylodis Rhizoma13 alcanzó el 97,53%, 99,1%, 99,14% y 97,3%, respectivamente. Zheng et al.14 exploraron la autenticación de Armeniacae Semen Amarum y Persicae Semen basada en tecnología HSI. Basándose en el análisis comparativo de varios métodos de preprocesamiento y modelos de identificación diferentes, los investigadores descubrieron que el modelo de preprocesamiento de la segunda derivada y el análisis discriminante de mínimos cuadrados parciales eran la mejor combinación de modelos. La precisión de la clasificación alcanzó el 100%. Cheng et al.15 examinaron 20 longitudes de onda características utilizando el algoritmo de proyecciones sucesivas y establecieron varios modelos para identificar el origen del incienso. Los resultados mostraron que la precisión de la máquina de aprendizaje extremo y del análisis discriminante lineal fue del 100%. Hasta donde sabemos, ningún informe se ha centrado en la aplicación de la tecnología HSI en la identificación de años de crecimiento de PTR. Los métodos de aprendizaje profundo, como las redes neuronales convencionales (CNN), se han utilizado ampliamente en muchos campos, como la clasificación de imágenes16, la predicción de contenidos17, etc., mostrando un alto rendimiento y una buena generalización. En este estudio, propusimos un marco de clasificación basado en CNN para identificar años de crecimiento de PTR basándose en imágenes hiperespectrales. Aquí, se utilizaron como métodos de referencia métodos de tratamiento tradicionales (es decir, corrección de dispersión multiplicativa (MSC), variable normal estándar (SNV) y suavizado de Savitzky-Golay (SG)) junto con varios modelos de aprendizaje automático de última generación. demostrar la eficacia y superioridad del método propuesto.

El sistema HSI utilizado en este estudio fue la serie HySpex producida por Norsk Elektro Optikk AS (Noruega). El sistema consta de dos lentes, dos lámparas halógenas de tungsteno, un detector CCD, una plataforma móvil y su sistema informático y software de soporte (Fig. 1). Las dos lentes del instrumento son una lente visible y de infrarrojo cercano (VNIR) SN0605 VNIR (rango espectral 410–990 nm) y una lente infrarroja de onda corta (SWIR) N3124 SWIR (rango espectral 950–2500 nm). La lente VNIR tiene un total de 108 bandas y la lente SWIR tiene 288 bandas. Las dos lentes se fijan verticalmente sobre un soporte a 30 cm de distancia de la plataforma móvil. La velocidad de movimiento de la plataforma es de 1,5 mm/s. El ángulo entre la fuente de luz y la plataforma es de 45°. La cámara se puede conectar a una computadora mediante un cable para obtener imágenes hiperespectrales. El tiempo de integración y el período de fotograma de la lente VNIR y la lente SWIR son 9000 μs y 3500 μs; y 41.501 μs y 108.199 μs, respectivamente.

Sistema de imágenes hiperespectrales. Lente VNIR visible e infrarrojo cercano, lente infrarroja de onda corta SWIR. El sistema HSI consta principalmente de lentes, fuentes de luz, plataforma móvil y sistema informático.

La calidad de las imágenes escaneadas puede verse afectada por una corriente oscura en la lente y el ruido causado por una distribución desigual de la fuente de luz. Por lo tanto, se añadió una pizarra blanca limpia con reflectividad estándar detrás de la muestra como referencia. Luego, se obtuvo una imagen de referencia de pizarra en modo completamente negro. La imagen hiperespectral original fue corregida con la imagen de referencia en blanco y negro obtenida18,19. La fórmula de calibración se define de la siguiente manera:

donde R es la imagen de reflectancia calibrada, R0 es la imagen de reflectancia sin procesar, Rw es la imagen de referencia blanca y Rb es la imagen de referencia oscura. Antes de tomar imágenes, probamos y ajustamos repetidamente los parámetros del sistema HSI para garantizar el grado de exposición y reducir el ruido, donde la altura de la lente y la posición de iluminación se fijaron en 30 cm y 45°, respectivamente.

En abril de 2021 se recolectaron tubérculos de raíz inflados de los PTR cultivados. Se recolectaron un total de 75 PTR sanos con diferentes años de crecimiento en la Base de demostración de cultivo de Puerariae (117° 39′ 19″ E, 28° 59′ 46″ N) en Sizhou. Localidad (Jiangxi, China). La base tiene una relación de larga data con nuestro equipo de investigación; por lo tanto, todas las plantas se recolectaron con permiso. En primer lugar, recopilamos las imágenes hiperespectrales basadas en las superficies exteriores de 75 PTR (Fig. 2a). Tenga en cuenta que en una PTR a veces crecían más de una raíz simultáneamente, y estas raíces tuvieron que dividirse debido a su gran tamaño. Por lo tanto, algunas plantas excesivamente grandes se dividieron en varias partes, dando como resultado 120 muestras independientes en este estudio. Luego, estas muestras se cortaron en cortes transversales con un espesor de 4 mm para recolectar imágenes de secciones transversales (Fig. 2b). En total, se obtuvieron 120 muestras de la superficie exterior y 1350 muestras de sección transversal (Tabla 1). Los componentes químicos podrían haberse oxidado si la sección transversal de la muestra hubiera estado expuesta al aire durante mucho tiempo. Por lo tanto, se recolectaron imágenes transversales de cada muestra inmediatamente después de cortar cada muestra.

Preparación de muestras de Puerariae Thomsonii Radix. ( a ) Superficie exterior de muestras de Puerariae Thomsonii Radix; (b) secciones transversales de muestras de Puerariae Thomsonii Radix.

El método tradicional para identificar los años de crecimiento de los PTR incluía cuatro pasos: (i) seleccionar varias regiones de interés (ROI); (ii) calcular la longitud de onda media para cada ROI; (iii) preprocesamiento de información de longitud de onda; (iv) identificar los años de crecimiento basándose en la información de longitud de onda calculada (Fig. 3).

El proceso de los métodos tradicionales de identificación del año de crecimiento. Corrección de dispersión multiplicativa de MSC, variable normal estándar SNV, suavizado SG Savitzky-Golay, bosque aleatorio RF, regresión logística LR, bayesiano NB nave, aumento de gradiente extremo XGBoost. El proceso consta de cuatro pasos: selección de ROI, cálculo de medios, preprocesamiento de datos y construcción de modelos.

Los dos primeros pasos se realizaron utilizando el software ENVI (Exelis Visual Information Solutions, Inc., EE. UU.). Se seleccionaron aleatoriamente un total de 10 ROI de cada imagen de la muestra de la superficie exterior. Por lo tanto, se obtuvieron 1200 (= 120 × 10 ) ROI basados en la superficie exterior. Según las muestras transversales, cada corte que se muestra en la Fig. 2b se tomó como un único retorno de la inversión. Por lo tanto, se extrajeron 1350 ROI de sección transversal (Fig. 3a). Luego, calculamos la longitud de onda media del ROI extraído utilizando el software ENVI y mostramos el valor medio en los gráficos de líneas, como se muestra en la Fig. 3b. Recopilamos la reflectancia de los tres años de crecimiento y luego calculamos el valor medio de cada uno, como se muestra en la Fig. 4.

La media de reflectancia para muestras de la superficie exterior (a, b) y muestras de sección transversal (c, d) basadas en lentes VNIR (a, c) y lentes SWIR (b, d).

Los métodos utilizados para preprocesar la información de longitud de onda incluyeron suavizado MSC, SNV y SG10,13,20. MSC se puede utilizar para eliminar la reflexión especular y los errores de dispersión en imágenes hiperespectrales y reducir eficazmente la variación del ruido en los datos21. Se utiliza ampliamente en el modelado de calibración de múltiples longitudes de onda22. SNV puede eliminar efectos aditivos y multiplicativos en espectros23. Después del procesamiento SNV, se eliminará la interferencia de la dispersión de la luz y el cambio de la línea base24. SG es un método de promedio ponderado que puede minimizar la pérdida de información valiosa25. Puede reducir la influencia del ruido y mejorar eficazmente la relación señal-ruido de un espectro12. En este estudio, utilizamos estos tres métodos más comunes como métodos de pretratamiento. El último paso fue clasificar los años de crecimiento de los PTR en función de la información de longitud de onda calculada de los ROI utilizando métodos de aprendizaje automático. En este estudio, se utilizaron bosque aleatorio (RF), regresión logística (LR), bayesiano ingenuo (NB) y aumento de gradiente extremo (XGBoost) para predecir los años de crecimiento de PTR. En este estudio, establecimos el número de árboles de decisión en 500 para RF. Además, utilizamos dos estrategias para alimentar la información de las ROI seleccionadas de una imagen en modelos de aprendizaje automático: el valor medio de la longitud de onda de las ROI seleccionadas o todas las longitudes de onda de las ROI se ingresaron a cada modelo (es decir, RF, LR, NB y XGBoost). Se informó el modelo de referencia con mayor rendimiento para las dos estrategias mencionadas anteriormente y se comparó con nuestros modelos basados en aprendizaje profundo.

El método tradicional mencionado anteriormente, que requiere funciones hechas a mano, requiere mucho tiempo y es difícil de usar al seleccionar ROI y calcular longitudes de onda. Además, este proceso es objetivo y pierde información. Por lo tanto, propusimos un nuevo método basado en aprendizaje profundo sin un paso de preprocesamiento manual (Fig. 5). La arquitectura CNN incluía cuatro capas de convolución, en las que el tamaño del lote, el número de épocas y la tasa de aprendizaje se establecían en 4, 100 y 0,003, respectivamente. La CNN se entrenó con un optimizador de estimación de momento adaptativo con una función de activación de unidad lineal rectificada (ReLU). Definimos las funciones de pérdida como entropía cruzada.

El marco de clasificación basado en CNN (VGG1626).

Además de la red basada en CNN, aquí también utilizamos VGG1626 para identificar los años de crecimiento de los PTR. VGG16 es un modelo de red neuronal convolucional especial, que tiene un total de 16 capas, incluidas 13 capas convolucionales y 3 capas completamente conectadas. En comparación con otros modelos de red, VGG16 adopta un núcleo de convolución unificado de 3 × 3 en todo el proceso. Un tamaño de núcleo tan relativamente pequeño contribuye a aumentar la profundidad de la estructura de la red, y se puede utilizar una cantidad suficientemente grande de parámetros para aprender patrones más complejos y lograr mejores efectos de clasificación.

Una vez que el dispositivo hiperespectral recopila la información de la muestra, se genera información de imagen hiperespectral. Salida de las imágenes hiperespectrales de 108 y 288 canales como imágenes RGB individuales. La función "lectura multibanda" es una función incorporada para leer datos hiperespectrales en el software MATLAB. En este estudio, utilizamos esta función para leer datos hiperespectrales y obtener una imagen de banda única, que se guarda como una imagen PNG con una profundidad de bits de 24. Luego, todas estas imágenes se introdujeron en CNN y VGG16 de acuerdo con [B, C, H, W] (B: tamaño de lote, C: RGB de tres canales, H: alto, W: ancho).

Las imágenes hiperespectrales se dividieron en primer lugar en una lista de imágenes bidimensionales según las bandas. Cada archivo de lentes VNIR y SWIR contenía 108 y 288 bandas. Así, una imagen hiperespectral se dividió en 108 y 288 imágenes bidimensionales. Realizamos una validación cruzada cinco veces y dividimos el conjunto de entrenamiento y el conjunto de pruebas en 7:3 para cada banda (no solo 459,2 nm). La longitud de onda de 459,2 nm es un ejemplo que se presenta aquí. Por ejemplo, de las 120 imágenes de la superficie exterior obtenidas en 459,2 nm según VNIR (la longitud de onda correspondiente era 459,2 nm), 83 (70 %) imágenes se utilizaron para entrenamiento y 37 (30 %) imágenes se utilizaron con fines de prueba. Los datos de los tres años de crecimiento diferentes contenían 29, 27 y 27 imágenes en el conjunto de entrenamiento y 13, 12 y 12 imágenes en el conjunto de prueba, respectivamente (Tabla 2). La base para la selección de la longitud de onda fueron los resultados de la clasificación (es decir, la puntuación F1). En este estudio se seleccionaron las longitudes de onda en función de las cuales los modelos predictivos mostraron un alto rendimiento.

Entrenamos y probamos estos métodos en una computadora (CPU Intel (R) Core (TM) i9-12900K a 3,19 GHz, GeForce RTX 3090, 64 GB de RAM, Windows 11–64 bits, Python 3.8, PyTorch). Durante la validación cruzada quíntuple, el modelo entrenado se aplicó a los datos de prueba para cuantificar el rendimiento del modelo. La precisión, la recuperación y la puntuación F1 se utilizaron como métricas principales para comparar el rendimiento de los modelos en este estudio. La identificación del año de crecimiento de los PTR fue una tarea de clasificación ternaria, en la que utilizamos el macropromedio al calcular la precisión, la recuperación y la puntuación F1.

Generalmente, los resultados de la predicción incluyeron resultados positivos y negativos, y de acuerdo con la relación entre los resultados de la predicción y la realidad, obtuvimos combinaciones de verdadero positivo (TP), verdadero negativo (TN), falso positivo (FP) y falso negativo ( FN). La precisión se refiere a cuántos verdaderos positivos hay en todos los resultados de predicción positivos, y el recuerdo se refiere a cuántos verdaderos positivos hay en los resultados de predicción correctos. La precisión y la recuperación se definen de la siguiente manera:

La puntuación F1 se calcula con precisión (P) y recuperación (R); cuanto más se acerque su valor a 1, mejor será el resultado de la predicción. La puntuación F1 se define de la siguiente manera:

Todos los materiales vegetales del manuscrito se recolectaron de la Base de demostración de cultivo de Puerariae. Esta base tiene una relación a largo plazo con nosotros y tenemos permiso para recolectar Puerariae Thomsonii Radix. Además, prometemos que todos los procedimientos se llevaron a cabo de acuerdo con las directrices pertinentes.

La pérdida de entrenamiento de CNN y VGG16 disminuyó gradualmente en la etapa inicial y se mantuvo estable con el aumento en el número de épocas de entrenamiento (Fig. 6), lo que indica que los modelos se habían entrenado completamente. Al final del entrenamiento de 100 épocas, logramos una pérdida de entropía cruzada de 0,2801 y 0,4505 para CNN y VGG16, respectivamente. Luego se estimaron CNN y VGG16 completamente entrenados utilizando un conjunto de pruebas. La Tabla 3 muestra el rendimiento predictivo más alto de un modelo entrenado en imágenes de 108 bandas (lente VNIR) y 288 bandas (lente SWIR).

Las funciones de pérdida de (a) CNN y (b) VGG16.

En la Tabla 2, tomamos una banda como ejemplo para mostrar el tamaño de la muestra. Cada banda en este estudio tenía el mismo tamaño de muestra. El resultado del modelo (de los 108/288 modelos creados basados en 108/288 bandas) con el rendimiento más alto se presenta en la Tabla 3. Bajo la lente VNIR, la CNN con la puntuación F1 del 90,15% tuvo el mejor rendimiento según el conjunto de datos de la superficie exterior. Bajo la lente SWIR, VGG16 con una puntuación F1 del 84,80 % tuvo el mejor rendimiento según el conjunto de datos de la superficie exterior. Entre los métodos tradicionales, la combinación NB + MSC logró la puntuación F1 más alta de 65,17 % entrenada en el conjunto de datos de la superficie exterior bajo la lente VNIR. En comparación, las puntuaciones F1 más altas de los métodos de aprendizaje profundo para la superficie exterior y la sección transversal fueron del 90,15 % para CNN y del 69,93 % para VGG16, ambos de la lente VNIR. En particular, el valor del 90,15 % logrado con la combinación CNN + superficie exterior + VNIR también fue el mejor puntaje F1 de todos, y la mejora en la precisión de la discriminación fue del 38,33 % en comparación con la lograda con los métodos tradicionales.

Las características son clave para el aprendizaje de los modelos tradicionales de aprendizaje automático, y puede haber una cantidad baja de características y un alto nivel de pérdida de información durante la selección del ROI; todos estos factores tendrán un impacto en los resultados de la identificación. Por el contrario, el aprendizaje profundo tiene la capacidad de aprender de un extremo a otro, lo que puede reducir eficazmente el sesgo y, por tanto, mejorar la precisión. Los resultados muestran que es factible establecer un modelo basado en aprendizaje profundo para identificar diferentes años de crecimiento de PTR, especialmente basado en superficies externas bajo una lente VNIR.

Luego utilizamos CNN y VGG16 que obtuvieron mejores resultados en la tarea de clasificación ternaria para identificar si un PTR podría usarse en la medicina tradicional china (es decir, si un PTR tenía 1 año o no). Como se muestra en la Tabla 4, según el conjunto de datos de sección transversal bajo la lente VNIR, las puntuaciones F1 de CNN y VGG16 alcanzaron más del 88%. Según el conjunto de datos de la superficie exterior, las puntuaciones F1 de CNN y VGG16 alcanzaron el 93,51% y el 92,90%. Este resultado demuestra la viabilidad del control de calidad de los PTR utilizando algoritmos de aprendizaje profundo. Cabe señalar que en la Tabla 4 se presenta simplemente el rendimiento predictivo más alto de un modelo entrenado en imágenes de 108 bandas (lente VNIR) o 288 bandas (lente SWIR).

Además, también encontramos que el rendimiento de los modelos basados en las superficies exteriores era mayor y más robusto que el de los basados en imágenes de secciones transversales. La puntuación F1 más alta alcanzó el 93,51 % cuando se identificaron los años de crecimiento en función de la superficie exterior, mientras que la mejor puntuación F1 fue del 88,60 % según las imágenes de corte transversal. Este resultado indicó que los años de crecimiento de los PTR se pueden identificar utilizando el sistema HSI en superficies exteriores sin destruir las muestras.

En la investigación anterior sobre la identificación de edad o años, Duan et al.27 utilizaron seis modelos para identificar las edades de las semillas de algodón, donde los modelos CNN y SVM lograron resultados satisfactorios, con una precisión de identificación superior al 98%. Wang et al.28 propusieron un método de identificación del origen geográfico y los años de crecimiento de las semillas de maíz basado en el modelo PLSDA. La precisión del conjunto de pruebas alcanzó el 98,39%. Bao et al.29 establecieron un modelo ELM no lineal basado en longitudes de onda efectivas para clasificar los diferentes años de producción de cáscara seca de mandarina, alcanzando una precisión del 93,33%. Se puede ver que la tecnología HSI es eficaz en la identificación de años de crecimiento y los resultados de este estudio son consistentes con otras investigaciones. En el ámbito del control de calidad de la medicina tradicional china, se aplicaron modelos basados en HSI combinados con algoritmos de aprendizaje profundo para la clasificación y la investigación de componentes, lo que logró excelentes resultados30,31. El excelente desempeño de los algoritmos de aprendizaje profundo junto con HSI significó que lograron identificar con éxito los años de crecimiento de los PTR. En futuras investigaciones de HSI, podríamos intentar aplicar el aprendizaje profundo a otros aspectos del control de calidad de PTR.

Hay una gran cantidad de información redundante en los datos de longitud de onda completa. Uno de los objetivos de esta investigación fue encontrar la longitud de onda a partir de la cual los modelos basados en aprendizaje profundo identificaron los PTR con alto rendimiento. Luego, esta longitud de onda seleccionada podría usarse en la futura tecnología HSI para desarrollar equipos de identificación rápida para PTR.

Se descartaron todas las bandas basadas en imágenes de CNN y VGG16 que mostraban una puntuación F1 superior al 90%. En la tarea de clasificación binaria que identificó si un PTR tenía un año o no, los modelos CNN y VGG16 mostraron simultáneamente puntuaciones F1 superiores al 90% basadas en 48 bandas bajo la lente VNIR y 174 bandas bajo la lente SWIR. Las bandas seleccionadas se muestran en la Fig. 7. Estas bandas seleccionadas pueden guiar la identificación futura de los años de crecimiento de los PTR basados en el sistema HSI.

Las bandas con puntuaciones F1 superiores al 90% según la superficie exterior. (a) Las bandas seleccionadas de la tarea de clasificación binaria bajo la lente VNIR; (b) las bandas seleccionadas de la tarea de clasificación binaria utilizando una lente SWIR. En total, se seleccionaron 48 y 174 bandas bajo lentes VNIR y SWIR, respectivamente.

En las longitudes de onda efectivas, 540, 605, 1450 y 2371 nm corresponden a las bandas de absorción características de los grupos funcionales del almidón. Entre ellas, las longitudes de onda a 540 nm y 605 nm correspondieron a la cuarta y quinta regiones armónicas de -O – H del almidón30. La longitud de onda a 1450 nm correspondió al espectro de banda de primera octava de la frecuencia fundamental de vibración de estiramiento de –O–H del almidón32. La longitud de onda a 2371 nm correspondió a la combinación del segundo armónico –C – H y a la combinación del armónico –CH2 con vibración de deformación de la amilosa30. Se encontró que durante el crecimiento del PTR, la composición química se acumulaba de año en año con una gran variación en el contenido, especialmente en los primeros años. Junto con la composición química correspondiente a las longitudes de onda efectivas, es probable que el almidón sea el componente químico clave para identificar los años de crecimiento de las PTR.

En comparación con los resultados de la predicción de la sección transversal, la precisión de la superficie exterior es obviamente mayor y relativamente estable. Esto puede estar relacionado con la acumulación de componentes químicos durante el crecimiento de PTR. Con el aumento del tiempo de crecimiento, se formará la raíz fusiforme que es gruesa en el medio y delgada en ambos extremos. Este es el órgano de almacenamiento de la raíz de Pueraria, que es la parte de valor comestible y medicinal. Al igual que otras plantas del mismo género, la estructura anatómica de la sección transversal de PTR es principalmente peridermo, tejido vascular multicapa y xilema secundario desde el exterior hacia el interior, cada capa de tejido vascular contiene floema y xilema, y cuanto más grueso es el sitio, el Más capas hay. Los investigadores33,34 confirmaron que el peridermo y el floema más externo eran los principales sitios de acumulación de sustancias químicas, particularmente flavonoides, y el contenido disminuye gradualmente desde la capa externa a la interna. Cuando el espectro irradia la muestra, no solo puede recopilar la información en la superficie de la muestra, sino también penetrar una cierta profundidad para recopilar la información dentro de la muestra. Esta es la razón por la que las imágenes hiperespectrales se pueden utilizar para pruebas no destructivas. En los experimentos sobre la profundidad de penetración de los espectros NIR de varios productos agrícolas, los investigadores encontraron que la profundidad máxima de penetración de los espectros NIR de productos agrícolas era de aproximadamente 2 cm24,35, lo que concordaba con los principales sitios de acumulación de componentes químicos de la PTR. Por lo tanto, la tecnología HSI se puede utilizar para identificar los años de crecimiento de PTR solo recopilando información de la superficie de las muestras, sin destruir las muestras en absoluto.

En este estudio, utilizamos un método basado en aprendizaje profundo junto con la tecnología HSI para identificar los años de crecimiento de PTR. Se utilizaron lentes VNIR y SWIR de equipos HSI para recopilar información de la superficie exterior y la sección transversal de PTR. El modelo CNN logró la mayor precisión de reconocimiento del 90,15 % y 93,51 % tanto para la tarea de clasificación ternaria con diferentes años de crecimiento como para la tarea de clasificación binaria de “si un PTR podría usarse en la medicina tradicional china”, respectivamente. Además, la precisión de la superficie exterior fue generalmente mayor que la de la sección transversal, lo que puede estar relacionado con el sitio de acumulación de composiciones químicas durante el crecimiento de PTR. Los resultados demostraron que el método propuesto es no destructivo, rápido y efectivo para el control de calidad del PTR. Además, este método se puede implementar fácilmente en la identificación de los años de crecimiento y el control de calidad de otras medicinas tradicionales chinas.

Todos los datos generados o analizados durante este estudio se incluyen en este artículo publicado.

Raíz de Pueraria Thomsonius

Pueraria Thomsonii Benth

Imágenes hiperespectrales

Corrección de dispersión multiplicativa

Variante normal estándar

Suavizado Savitzky-Golay

bosque aleatorio

Regresión logística

bayes ingenuos

Aumento de gradiente extremo

Redes neuronales convolucionales

Red de grupo de geometría visual 16

Regiones de interés

Cromatografía líquida de alta resolución

Lente visible y de infrarrojo cercano

Lente infrarroja de onda corta

Shuang, J., Yanxing, H., Jiandong, J. y Yuhong, W. El efecto antiaterosclerótico y el mecanismo del puerarin. Acta Farmacéutica. Pecado. 56(04), 966–971 (2021).

Google Académico

Xiangwei, Z., Qian, F., Yingying, Z., Fengming, Z. y Xiuqin, Z. El progreso de la investigación sobre el tratamiento de la fibrosis miocárdica mediante la regulación de la vía TGF-β1/Smads. Mentón. Farmacéutico. Toro. 34(01), 8-11 (2018).

Google Académico

Hui, G., Ting, T., Hang, Y. y Zhijun, L. Efecto blanqueador de materiales flavonoides en Radix puerariae. Detergente tensioactivo de China. Cosmético. 43(04), 290–293 (2013).

Google Académico

Yan, F. y Jun, P. La raíz de kudzuvina de la medicina herbaria china en el progreso de la investigación de perspectivas de aplicación en el campo de la belleza moderna. Mentón. J. Estet. Medicina. 21(17), 2311–2312 (2012).

Google Académico

Yuan, Y., Yongqiang, G., Tiejun, C., Zhe, W., Meizi, P. Comparación de los efectos protectores del hígado de la raíz de kudzu silvestre (Pueraria lobata Ohwi) y la raíz de kudzu cultivada en ratones con alcoholismo crónico. Ciencia de los alimentos. http://kns.cnki.net/kcms/detail/11.2206.TS.20220110.1042.013.html.

Kingsley, CD y cols. Efecto antidiabético del extracto de raíz de kudzu rico en isoflavonas en ratas diabéticas inducidas experimentalmente. J. Función. Alimentos. 68(C), 103922 (2020).

Google Académico

Huijiang, X. & Shenliang, L. Estudio sobre la relación entre el contenido de Puerarin y los años de crecimiento de la raíz de Miao Ethnomedicine Kudzu en Liuzhi. J. Med. Farmacéutica. Mentón. Minoría. 15(07), 45 (2009).

Google Académico

Xiaoke, H. et al. Estudio sobre las diferencias de los espectros característicos de HPLC entre Puerariae Lobatae Radix y Puerariae thomsonii radix. J. Chin. Medicina. Madre. 43(11), 2724–2728 (2020).

Google Académico

Jinhua, W. & Zhongqing, Y. Estudios sobre huellas cromatográficas de Pueraria lobata y Pueraria thomsonii. Heraldo Med. 32(04), 525–529 (2013).

Google Académico

Wenjun, Y. et al. Fusión de espectro y características de imagen para identificar Glycyrrhizae Radix et Rhizoma de diferentes orígenes basada en tecnología de imágenes hiperespectrales. China J. Chin. Madre. Medicina. 46(04), 923–930 (2021).

Google Académico

Zhengyan, X., Chu, Z., Haiyong, W., Pengcheng, N. y Yong, H. Selección de longitudes de onda sensibles en la identificación de Ophiopogon japonicus basada en tecnología de imágenes hiperespectrales del infrarrojo cercano. En t. J.Anal. Química. 2017, 1-11 (2017).

Google Académico

Lu, Z. y col. Identificación de semen de Ziziphi Spinosae de diferentes hábitats basada en tecnología de imágenes hiperespectrales del infrarrojo cercano y algoritmo de cuenca. Mentón. J. Farmacéutica. Anal. 41(04), 726–734 (2021).

Google Académico

Chenlei, R., Zhenhao, L. & Renzhong, T. Un enfoque de imágenes hiperespectrales para clasificar los orígenes geográficos de Rhizoma Atractylodis Macrocephalae utilizando la fusión de espectro-imagen en rangos VNIR y SWIR (VNIR-SWIR-FuSI). Sensores. 19(9), 2045 (2019).

Artículo de Google Scholar

Jie, Z. y col. Identificación de Armeniacae Semen Amarum y Persicae Semen de diferentes orígenes basándose en tecnología de imágenes hiperespectrales del infrarrojo cercano. China J. Chin. Madre. Medicina. 46(10), 2571–2577 (2021).

Google Académico

Jiehong, C. y Zhengguang, C. Identificación rápida del origen del incienso basada en datos hiperespectrales. J. Heilongjiang Bayi Agric. Univ. 33(04), 93–98 (2021).

Google Académico

Ying W. et al. Clasificación de imágenes patológicas basada en ejemplos concretos guiados por CNN. Acceso IEEE. PP(99) (2020).

Padarian, J., Minasny, B. y McBratney, AB Uso del aprendizaje profundo para predecir las propiedades del suelo a partir de datos espectrales regionales. Registro Geoderma. 16, e00198 (2018).

Artículo de Google Scholar

Tao, L., Yuqin, Z. y Mingliang, Q. Método de reconocimiento de patrones de redes neuronales de la variedad Rhodiola basado en tecnología de imágenes hiperespectrales. J. Norma de Sichuan. Univ. Nat. Ciencia. 44(04), 546–554 (2021).

Google Académico

Bo, L. y col. Aplicación de imágenes hiperespectrales para la medición no destructiva de los atributos de calidad de la ciruela. Biol poscosecha. Tecnología. 141, 8-15 (2018).

Artículo de Google Scholar

Xiaozhong, S., Yu, H., Weiwei, S., Xinghai, C. y Suixu, C. Estudio sobre la identificación rápida de Pummelo Peel basado en una imagen hiperespectral. Lishizhen Med. Madre. Medicina. Res. 30(06), 1391–1396 (2019).

Google Académico

Geladi, P., MacDougall, D. & Martens, H. Linealización y corrección de dispersión para espectros de reflectancia de carne en el infrarrojo cercano. Aplica. Espectrosc. 39(3), 491–500 (1985).

ADS del artículo Google Scholar

Yanwu, C. y col. Mejora de la precisión y la estabilidad para la identificación de especies de carne mediante corrección de dispersión multiplicativa y espectroscopia de descomposición inducida por láser. Optar. Expresar. 26(8), 10119 (2018).

Artículo de Google Scholar

Yiming, B. y col. Un método de preprocesamiento local para espectros de infrarrojo cercano, combinado con segmentación espectral y transformación variable normal estándar. Anal. Chim. Acta. 909, 30–40 (2016).

ADS del artículo Google Scholar

Mei, Y. et al. Identificación de diferentes orígenes de Citri Reticulatae Pericarpium mediante espectroscopia de infrarrojo cercano combinada con pretratamientos espectrales optimizados. J. Instrumento. Anal. 40(01), 65–71 (2021).

Google Académico

Wubin, H. Métodos y equipos de determinación rápida desarrollados para las propiedades del suelo de campo mediante espectroscopia del infrarrojo cercano visible (Universidad de Zhejiang, 2020).

Karen, S., Andrew, Z. Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala. CORR. abs/1409.1556 (2014).

Largo, D. y col. Combina imágenes hiperespectrales y aprendizaje automático para identificar la edad de las semillas de algodón. Espectrosc. Anal espectral. 41(12), 3857–3863 (2021).

Google Académico

Qingguo, W., Min, H., Qibing, Z. & Qun, S. Identificación de origen geográfico y años de semillas de maíz basada en la imagen hiperespectral. J. Ciencia de los alimentos. Biotecnología. 33(02), 163–170 (2014).

Google Académico

Yidan, B., Yangyang, L., Hongyan, Z., Yanru, Z. & Yong, H. Identificación y clasificación de diferentes años de producción de mandarina seca utilizando técnica hiperespectral con modelos quimiométricos. Espectrosc. Espectro. Anal. 37(6), 1866–1871 (2017).

Google Académico

Tú, W. et al. La aplicación de imágenes hiperespectrales ayudó con enfoques integrados de aprendizaje profundo para identificar orígenes geográficos y predecir el contenido de nutrientes de las semillas de Coix. Química de los alimentos. 404(PA), 134503 (2023).

Google Académico

Chu, Z. y col. Desarrollo de enfoques de regresión basados en aprendizaje profundo para la determinación de composiciones químicas en bayas de goji negras secas (Lycium ruthenicum Murr.) utilizando imágenes hiperespectrales del infrarrojo cercano. Química de los alimentos. 319, 126536 (2020) (prepublicación).

Artículo de Google Scholar

Workman, J., Weyer, L. Guía práctica de espectroscopia interpretativa del infrarrojo cercano. 222 (Prensa de la industria química, 2009).

Zhenguo, W. & Bingqun, C. Estudio sobre las condiciones de extracción y la estabilidad de las flavonas totales de la cáscara fresca de Puerariae radix. Ciencia de los alimentos. Tecnología. 34(6), 210–213 (2009).

Google Académico

Haiyan, D. Estudio sobre la anatomía microscópica de la estructura anormal en la raíz del tubérculo y la acumulación de isoflavonoides de Pueraria lobata. (Universidad de Medicina China de Anhui, 2016).

Xinxin, Z. y col. Estudios sobre la capacidad de penetración de la luz difusa del infrarrojo cercano en frutos. J. Mentón. Inst. Ciencia de los alimentos. Tecnología. 22(1), 298–305 (2022).

Descargar referencias

Este estudio fue apoyado por la Fundación de Investigación Científica de SINOMACH [Subvención No. ZDZX2022-2] y el Programa Nacional Clave de Investigación y Desarrollo de China [Subvención No. 2017YFC1702901].

Fundación de Investigación Científica de SINOMACH, ZDZX2022-2, Xiaobin Zhang. Programa Nacional Clave de Investigación y Desarrollo de China, 2017YFC1702901, Yuping Zhao.

Academia China de Ciencias Médicas Chinas, No.16, Nanxiao Street, Dongzhimen, Distrito Dongcheng, Beijing, 100700, República Popular China

Lei Zhang, Yan Zhang y Yuping Zhao

Facultad de Farmacia, Universidad de Medicina China de Jiangxi, Nanchang, 300004, República Popular China

Lei Zhang, Fei Ge y Yuping Zhao

Centro GAP, Universidad de Medicina China de Heilongjiang, Harbin, 150040, República Popular China

Yu Guan

Escuela de Ciencia e Ingeniería de Materiales, Universidad de Zhejiang, No.866, Yuhangtang, Distrito Xihu, Hangzhou, 310058, República Popular China

Este es Wang

También puedes buscar este autor en PubMed Google Scholar.

LZ e YZ recolectan muestras, LZ, YPZ y FG adquieren imágenes hiperespectrales y organizan datos, NW construye modelos de identificación. LZ, YG y NW escriben el manuscrito y dibujan las imágenes.

Correspondencia a Ni Wang o Yuping Zhao.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Zhang, L., Guan, Y., Wang, N. et al. Identificación de años de crecimiento para Puerariae Thomsonii Radix basada en tecnología de imágenes hiperespectrales y algoritmo de aprendizaje profundo. Representante científico 13, 14286 (2023). https://doi.org/10.1038/s41598-023-40863-6

Descargar cita

Recibido: 11 de octubre de 2022

Aceptado: 17 de agosto de 2023

Publicado: 31 de agosto de 2023

DOI: https://doi.org/10.1038/s41598-023-40863-6

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.