Horticultura - Tec. Producción Info Horticultura - Tec. Producción

Este trabajo fue presentado en el I Symposium Nacional de Ingeniería Hortícola

Segmentación automática de imágenes de cultivos: estudio comparativo de modelos de color

G. García-Mateos y S. Jaén Terrones (Dep. de Informática y Sistemas. Facultad de Informática. Universidad de Murcia) D. Escarabajal-Henarejos y J.M. Molina-Martínez (Grupo de Inv. en Ingeniería Agromótica y del Mar. Universidad Politécnica de Cartagena) J.L. Hernández-Hernández (Unidad Académica de Ingeniería. Universidad Autónoma de Guerrero, México)15/04/2014
El procesamiento de imágenes y la visión artificial resultan cada vez más útiles y necesarios en diversas aplicaciones agromóticas de gestión de cultivos y procesos agroalimentarios. Las imágenes ofrecen información muy valiosa sobre el estado de crecimiento de las plantas, las enfermedades carenciales, la maduración de los frutales, la aparición de plagas y malas hierbas, etc. Las técnicas basadas en análisis de color son fundamentales en este dominio, al permitir clasificar y caracterizar de forma precisa, robusta y eficiente las distintas regiones de las imágenes.
En este artículo se aborda la segmentación de imágenes de cultivos mediante color. El aspecto clave es el modelado de las funciones de distribución de probabilidad del color de las plantas y del suelo; dichas distribuciones son modeladas de forma no paramétrica con histogramas. La efectividad de la técnica depende de la capacidad del espacio de color utilizado. Por ello, se han comparado diversos espacios de color: RGB, rgb, XYZ, L*a*b*, L*u*v*, HSV, HLS, YCrCb, YUV, TSL e I1I2I3. En cada espacio, a su vez, surgen diferentes alternativas: qué canales utilizar y el tamaño de los histogramas. Partiendo de un conjunto muy amplio y variado de imágenes de lechuga (Lactuca sativa), se ha llevado a cabo un estudio exhaustivo y sistemático de la forma óptima de modelar el color en el problema de segmentación. Los resultados demuestran la superioridad en los modelos que separan luminancia y crominancia, y en especial el espacio de color L*a*b*. Adicionalmente, diversas etapas de pre- y post-procesamiento pueden lograr mejorar los resultados hasta un acierto del 99,5% tardando solo 0,3 segundos por imagen en un ordenador convencional.

Introducción

El análisis automático de imágenes digitales de cultivos es un campo de investigación muy activo y atractivo en el que confluyen la visión por computador y la agromótica (Cubero et al., 2011). El color es una característica esencial en muchos problemas de este dominio, aunque no toda la visión artificial se basa en el uso de color; de hecho, existe una amplia variedad de técnicas alternativas que han sido usadas en aplicaciones agromóticas, como el análisis de bordes, formas, texturas, etc. Sin embargo, el manejo de color presenta grandes ventajas en los problemas que nos ocupan por su baja dimensionalidad, alta expresividad y facilidad de procesamiento. El color puede servir para discriminar de forma precisa y eficiente los píxeles, o zonas de una imagen, que corresponden al suelo o a vegetación. De esta forma, el resultado de la clasificación en suelo o planta puede usarse para la medición del coeficiente de cobertura vegetal (Fernández-Pacheco et al., 2014). Este parámetro tiene un papel clave en la monitorización de cultivos y es ampliamente aplicado para determinar las necesidades hídricas de los cultivos usando la metodología FAO-56 (Allen et al., 1998).

El problema de la segmentación automática suelo/plata ha sido ampliamente estudiado por diversos investigadores, como puede comprobarse en dos revisiones recientes del estado del arte (Lin et al., 2013; McCarthy et at., 2010). En la mayoría de estos trabajos la clasificación se hace usando diversas técnicas como umbralización, discriminantes lineales, modelos de gausianos, lógica difusa, redes neuronales, y otros; pero el espacio de color es fijado de antemano, y se echan en falta estudios comparativos sobre la efectividad de diversos modelos de color en plantas. Sin embargo es habitual encontrar ese tipo de trabajos comparativos otros dominios. Por ejemplo, Shih y Lui (2012) evaluaron comparativamente 12 espacios de color en aplicaciones de procesamientos de caras, y llegaron a la conclusión de que los espacios óptimos son YUV y YIQ; Luszczkiewicz-Piatek (2014) estudia la elección del espacio de color para la recuperación de imágenes en grandes bases de datos; el color se representa con modelos de mezcla de gaussianas y se analizan 11 espacios de color. Por su parte, Terrillon y Akamatsu (2000) introdujeron el espacio TSL, y se compararon 9 espacios en la detección de caras.

En consecuencia, el objetivo de este trabajo es realizar un estudio completo y exhaustivo, con el propósito de seleccionar el espacio de color óptimo y la forma más efectiva de representar las distribuciones de color para los problemas de clasificación en el dominio agromótico, y en concreto para la segmentación automática de plantas en imágenes.

Materiales y métodos

Imágenes utilizadas para la experimentación

La imágenes utilizadas para los experimentos corresponden a cultivos de lechuga (Lactuca sativa), en la comarca del campo de Cartagena (37º46’N, 0º58’O). Se realizaron dos series de fotografías. La primera serie tuvo lugar entre octubre de 2010 y enero de 2011, y la segunda entre octubre y diciembre de 2012. En cada una de estas series se hizo un seguimiento fotográfico de 4 parcelas diferentes, a intervalos de entre 2 y 4 días. Las imágenes fueron tomadas con una cámara digital compacta Nikon modelo Coolpix S3300 a alta resolución, y presentan una vista cenital del terreno, como muestra la figura 1.
Figura 1: Imágenes usadas para la experimentación. a) Una visión general de una de las parcelas con el área de interés señalada...
Figura 1: Imágenes usadas para la experimentación. a) Una visión general de una de las parcelas con el área de interés señalada. b) Ejemplo de una fotografía de la parcela. c) La misma fotografía después de la clasificación con ENVI en suelo y planta.
Las imágenes fueron recortadas y normalizadas respecto a un patrón rectangular (situado físicamente en el suelo); como resultado, las imágenes de la primera serie tienen una resolución de 1500x1500 píxeles y 3600x2000 píxeles la segunda. Después fueron segmentadas manualmente por expertos usando el software ENVI (Environment for Visualizing Images) versión 4.0, obteniendo imágenes binarias donde cada píxel es clasificado como suelo o planta (Fig. 1c). En total hay 169 imágenes de alta calidad, que presentan una gran variabilidad en cuanto a la iluminación, porcentaje de cobertura vegetal, aparición de sombras, humedad del suelo, tipos de suelo, etc. En los experimentos, la primera serie es utilizada para el entrenamiento de los modelos de color, y la segunda para su validación experimental.

Clasificación y representación del color

El color concreto de un píxel del suelo, o de las plantas, puede entenderse como un suceso estocástico dentro del espacio n-dimensional definido por el espacio de color usado. En el caso del suelo, la distribución de probabilidad del color está determinada por el tipo y composición del suelo, la iluminación en el momento de tomar la foto y los parámetros propios de la cámara, como el balance de blancos; de forma similar ocurre con el color de la cobertura vegetal, donde la clorofila da lugar a la predominancia de los tonos verdes.

Supongamos conocidas las funciones de distribución probabilidad del color del suelo, psuelo(color), y del color de la planta, pplanta (color), donde color es una tupla de un espacio de color cualquiera. Considerando equiprobables las probabilidades a priori de suelo y de planta, la probabilidad de que un píxel, color, concreto sea de planta o de suelo, puede calcularse de forma sencilla mediante la regla de Bayes, dada por la fórmula:

Imagen

En consecuencia, el píxel concreto es asignado a la clase de mayor probabilidad entre P(planta|color) y P(suelo|color). De manera trivial, el problema se reduce a buscar el máximo entre pplanta(color) y psuelo(color) para cada píxel de las imágenes.

La clasificación píxel-a-píxel obtenida de esta forma se puede mejorar con la aplicación de operaciones de procesamiento local, que tienen en cuenta la vecindad de los píxeles. En concreto, se han comprobado dos opciones: reducción de la imagen por 2 usando interpolación de supermuestreo, y operaciones de morfología matemática. Mientras que la primera consigue reducir el nivel de ruido de las imágenes (al hacer un promediado de píxeles), la segunda permite limpiar el resultado de valores espurios. Además, ambas operaciones pueden aplicarse de forma combinada.

Espacios de color analizados

Las formas que adoptan las funciones de distribución de probabilidad, psuelo y pplanta, dependen, lógicamente, del espacio de color adoptado. Cada espacio genera distintos grados de separación entre las distribuciones, afectando así la efectividad de la clasificación. Los modelos de color seleccionados para el estudio, escogidos entre los más habituales en aplicaciones de visión artificial (Luszczkiewicz, 2014), son los siguientes:

  • RGB, rgb. El espacio RGB es el más extendido en dispositivos de captura y generación de color. Se basa en un modelo de mezcla aditivo, donde cada color se forma por combinación de los tres colores primarios: rojo (R), verde (G), y azul (B). A partir de este modelo se define la variante normalizada rgb, que consiste en dividir los valores de RGB por (R+G+B).
  • XYZ. Es un modelo que simula la respuesta de los tres tipos de fotorreceptores de la retina (aquellos con espectros de absorción en longitudes de ondas altas, medias y bajas). La forma concreta de estos espectros de absorción fue definida por la CIE (Commission internationale de l'éclairage) en 1931.
  • HSV, HLS. En estos modelos el color se descompone en términos fácilmente interpretables como la intensidad (V, L), la saturación o pureza (S), y el matiz de color (H). Son modelos muy habituales en análisis y generación gráfica.
  • YCrCb, YUV. Se trata de modelos orientados a compresión y trasmisión de imágenes. Se basan en la separación de un canal Y de luminancia (o intensidad luminosa), y dos canales de crominancia (o tono del color, independiente de su luminosidad). Los canales Cr y Cb corresponden, en esencia, a los canales R y B normalizados en intensidad, respectivamente.
  • L*a*b*, L*u*v*. Estos modelos fueron definidos por la CIE para aplicaciones industriales del color. De forma similar a los anteriores, separan un canal de luminosidad (en este caso L*) y dos canales de crominancia (a*-b* y u*-v*). Estos últimos se definen mediante transformaciones no lineales del modelo RGB, con el fin de conseguir representaciones perceptualmente uniformes del color.
  • TSL, I1I2I3. Algunos modelos han sido diseñados específicamente para ciertas aplicaciones. Por ejemplo, el modelo TSL fue creado para abordar problemas de detección de piel humana (Terrillon y Akamatsu, 2000). Por otro lado, I1I2I3 se propuso para la segmentación de color, como una decorrelación de los componentes RGB usando la transformada Karhunen-Loeve.

Representación de las distribuciones de probabilidad de color

El modelado de funciones de densidad de probabilidad a partir de observaciones es uno de los problemas básicos en reconocimiento de patrones y en inteligencia artificial. Cuando no se conoce la distribución de los datos (o cuando ésta adopta formas muy complejas), se aplican los denominados 'métodos no paramétricos'. Dentro de ellos, los basados en histogramas son los más comunes cuando se trabaja con espacios de baja dimensionalidad. La idea consiste en calcular el histograma de los datos observados, para cada clase de interés, cuya suma es después normalizada a valor 1. Cada celda del histograma se considera una aproximación de la función de densidad en el rango correspondiente.

A su vez, existen distintas alternativas en la representación de los histogramas. En primer lugar, el número de canales a utilizar, puesto que no todos los canales son igual de útiles para el problema. Como veremos, descartar algunos canales puede producir mejores resultados que usarlos todos. En segundo lugar, tenemos el tamaño del histograma. Los histogramas suponen una discretización del rango de las variables estudiadas. La discretización se hace en potencias de 2, lo que permite obtener una distribución uniforme de los valores de entrada, representados con bytes. En definitiva, para cada uno de los espacios de color, tenemos la opción de usar histogramas de un canal, dos canales o tres canales, con 16, 32, 64, 128 o 256 celdas por dimensión.

Resultados y discusión

Para cada una de las alternativas de representación el color (compuesta por la terna: espacio de color, canales a usar, tamaño de histograma), se ha realizado en primer lugar el entrenamiento de los modelos de color de suelo y de planta, usando las imágenes de la primera serie (un total de 108 imágenes). La figura 2 muestra los histogramas 3D de los 11 espacios de color. Sobre este resultado se ha obtenido como medida el solapamiento entre ambas distribuciones de probabilidad, calculada con la integral del área mínima de ambos histogramas.

Como segundo experimento se ha realizado una clasificación automática de las imágenes de la segunda secuencia (un total de 61 imágenes), comparando el resultado con la clasificación manual de los expertos. El valor obtenido en este caso es el porcentaje de acierto final a nivel de píxel para cada opción.

Figura 2: Histogramas 3D de las clases planta (en verde) y suelo (en rojo) para los espacios de color analizados...
Figura 2: Histogramas 3D de las clases planta (en verde) y suelo (en rojo) para los espacios de color analizados. En todos los casos, el tamaño del histograma es de 64 celdas por dimensión.

Solapamiento entre distribuciones y acierto de clasificación

En la tabla 1 se muestran, de manera resumida, los resultados de las medidas de solapamiento y el porcentaje de acierto. El primer parámetro mide la separabilidad entre clases que ofrece cada configuración (es decir, la capacidad de diferenciar las distribuciones de las clase planta y suelo), mientras que el segundo muestra más claramente la efectividad de cada una en la segmentación.

Podemos destacar algunos hechos relevantes. Como era de esperar, el solapamiento disminuye con el número de canales y con el tamaño de los histogramas. Sin embargo, mientras que en el primer factor las reducciones son muy significativas, en el segundo no alcanzan el 30% de reducción en los mejores casos. Además, tamaños grandes de histogramas aumentan el riesgo de 'sobreajuste' a los datos de entrenamiento.

El canal que por sí solo consiguen mejores resultados es el a* del L*a*b*, con solo un 0,95% de solapamiento y un 99,2% de acierto. El mejor resultado se obtiene para 32 celdas, aunque los resultados son también muy buenos para 64 y 128. Las siguientes opciones, a más distancia, son canales I3 en I1I2I3, Cr en YCrCb, V en YUV, u* en L*u*v*, H en HSV/HLS, y T en TSL, con precisiones siempre superiores al 96%. Por su parte, ninguno de los canales de RGB es capaz por sí solo de conseguir un solapamiento bajo, como tampoco los canales de luminosidad de los distintos espacios.

Tabla 1: Resultados de las pruebas de solapamiento y de la clasificación suelo/planta...
Tabla 1: Resultados de las pruebas de solapamiento y de la clasificación suelo/planta. Para cada espacio de color, para cada combinación de 1, 2 o 3 canales se muestra: el porcentaje de solapamiento entre clases (izquierda) / el porcentaje de acierto de la clasificación (derecha).
En cuanto a las combinaciones de dos canales, el principal resultado es que los menores solapamientos se producen al eliminar la luminosidad, lo que ocurre con a*-b* de L*a*b*, u*-v* de L*u*v*, y Cr-Cb de YCrCb. Esto concuerda con la idea de que la crominancia aporta información de interés al problema, mientras que la luminancia es mucho menos relevante. En general, estos resultados coinciden con lo que otros autores han obtenido en otros dominios (Luszczkiewicz, 2014; Shih, Liu, 2005), donde los espacios L*a*b* y YCrCb están entre los más efectivos.

Finalmente, se han seleccionado algunas de las configuraciones que producen mejores resultados y sobre ellas se han aplicado las mejoras adicionales antes descritas: reducción por 2 de las imágenes; aplicación de morfología matemática; y la combinación de ambas. En la figura 3 se pueden ver algunos ejemplos de segmentación automática incluyendo estas mejoras. Los resultados completos pueden verse en la tabla 2, que muestra también los tiempos de ejecución en un ordenador medio.

Figura 3...
Figura 3: Resultados de la segmentación automática suelo/planta, usando los canales L*-a* del espacio L*a*b*, con 64 celdas por dimensión, reducción por 2 y morfología matemática. De izqu. a dcha.: los errores obtenidos respecto a la segmentación manual son: 0,03%, 0,11% y 0,64%.
Tabla 2...
Tabla 2: Tasas de error y tiempos de ejecución de la clasificación automática para los siete mejores espacios de color y canales; se muestra el error medio en % (entre paréntesis, el tiempo medio por imagen en segundos). Original: imágenes de resolución original; Reducción: tamaño reducido a la mitad; Morfología: aplicación de los operadores de morfología abrir y cerrar; Ambas: resultados de combinar ambas mejoras.

Conclusiones

La elección del espacio de color óptimo, así como de la forma de representar las distribuciones probabilidad de color, es un requisito fundamental en cualquier aplicación que haga uso del color. A través de una serie de experimentos, en los que se han contrastado 385 combinaciones diferentes de espacios, canales y tamaños de histograma, se ha explorado de forma exhaustiva y sistemática la mejor forma de resolver el problema de la clasificación suelo/planta en el dominio agromótico.

De este estudio podemos concluir varios hechos. Primero, que la clasificación por color resulta viable en la práctica al producir unos resultados del 99,5% de acierto en la clasificación, requiriendo únicamente 0,3 segundos por imagen en un ordenador estándar. Segundo, que los mejores modelos de color son aquellos que separan un canal de luminancia y dos de crominancia, donde los segundos son los que aportan la información relevante para el problema. En concreto, el espacio L*a*b* ha demostrado estar por encima del resto en la mayoría de los casos; el espacio RGB, a pesar de ser uno de los más extendidos, no debería ser usado para la clasificación automática. Finalmente, la aplicación de operaciones de pre- (reducción de las imágenes con supermuestreo) y post-procesamiento (operadores de morfología matemática) es muy útil para mejorar los resultados y reducir los tiempos de ejecución. Actualmente, el equipo de investigación está trabajando en la implementación de aplicaciones a nivel de usuario para realizar la segmentación automática en dispositivos móviles, usando los resultados de este estudio.

Referencias bibliográficas

  • Allen, R.G., Pereira, L.S., Raes, D., Smith, M. 1998. Crop evapotranspiration-Guidelines for computing crop water requirements-FAO Irrigation and drainage paper 56. FAO, Rome 300, 6541.
  • Cubero, S., Aleixos, N., Moltó, E., Gómez-Sanchis, J., Blasco. J. 2011. Advances in machine vision applications for automatic inspection and quality evaluation of fruits and vegetables. Food and Bioprocess Technology, Vol. 4 (4):487-504.
  • Fernández-Pacheco, D.G., Escarabajal-Henarejos, D., Ruiz-Canales, A., Conesa, J., Molina-Martínez, J.M. 2014. A new digital image processing based methodology for determining Kc in lettuce crops in the Southeast of Spain. Biosystems Engineering 117:23-34.
  • Kumar, P., Sengupta, K., Lee, A. 2002. A comparative study of different color spaces for foreground and shadow detection for traffic monitoring system. Intelligent Transportation Systems:100-105.
  • Lin, K., Chen, J., Si, H., Junhui, W. 2013. A review on computer vision technologies applied in greenhouse plant stress detection. Advances in Image and Graphics Technologies, 363, 192–200.
  • Luszczkiewicz-Piatek, M. 2014. Which color space should be chosen for robust color image retrieval based on mixture modeling. Advances in Intelligent Systems and Computing. Vol. 233:55-64.
  • McCarthy, C.L., Cheryl, N.H., Hancock, S.R. 2010 Applied machine vision of plants - a review with implications for field deployment in automated farming operations. Intelligent Service Robotics, 3 (4), 209–217.
  • Shih, P., Liu, C. 2005. Comparative assessment of content-based face image retrieval in different color spaces. Int. J. Patt. Recogn. Artif. Intell. 19(7), 873-893.
  • Terrillon, J.C., Akamatsu, S. 2000. Comparative performance of different chrominance spaces for color segmentation and detection of human faces in complex scene images. International Conf. on Face and Gesture Recognition, 54-61.